Google發布最新AI成果:強力回擊GPT-4o,蘋果生態或將被碾壓

0 評論 307 瀏覽 0 收藏 12 分鐘

Google I/O 2024 大會也正式開幕了,在這場 I/O 大會上,Google 依然秀出了一些肌肉。想了解谷歌發布了哪些 AI 成果的同學,可以來看一下。

全場共提到 “ AI ” 121 次,平均一分半提一次。

今天凌晨 1 點( 太平洋時間 5 月 14 日上午 10 點 ),Google I/O 2024 大會的開幕主題演講,在美國山景城正式舉行。大會演講在網絡上公開直播的同時,也有部分媒體和觀眾來到了大會現場。

知危編輯部的前線同事,也到達了美國山景城參加了本次大會,全程觀看了本次開幕主題演講。

這位同事曾在 Google前幾年的鼎盛時期參加過一次I/O 大會,用他的話來講,那時候的 Google I/O 可以用四個字形容:萬國來朝。

而如今,Google的光環全都被 OpenAI 搶了去,本屆I/O大會雖然依舊有很多人參加,但相較早年難免顯得有些 “ 人丁不旺”。( 以前還賣票的,這次沒賣 )

不過,在這場I/O 大會上,Google 依然秀出了一些肌肉,對昨天的 GPT-4o 做出了強力回擊。

谷歌 CEO 劈柴哥在演講的一開始就坦然直言:目前正是整個行業正處于 AI 發展的早期,谷歌有信心和實力打這場持久戰。

話里話外,一副 “ 你 OpenAI 別高興得太早 ” 的味道。

縱觀整場演講,知危編輯部認為,如果去年谷歌的 I/O ,我們看到的是谷歌在 AI 領域的孤注一擲,那么今年,我們則發現谷歌這么一只巨無霸,正在 AI 的賽場上全方位一路狂奔,逐漸找回自己的狀態。

本次主題演講的內容,主打的是一個大而全,內容包含但不限于新基礎模型、AI Agent、文生圖模型、文生視頻模型、TPU芯片、AI app、Android 與 AI 、新開源大模型等等等等。

知危編輯部也準備挑選其中幾個比較亮眼產品,進行詳細的介紹。

首先,知危編輯部覺得 OpenAI 昨日的春季發布會,有意狙擊谷歌的的可能性非常之高。

因為谷歌本次重點推出的多模態 AI 助手 Project Astra( 基于 Gemini ),功能與昨日橫掃科技圈媒體頭版的基于 GPT-4o 的 AI 助手極其類似。

同樣擁有低延時的絲滑語音對話體驗,同樣也能用攝像頭,讓 AI 處理視覺信息。

在谷歌的演示視頻中,Project Astra 能迅速認出音響的發聲部位、彩筆,還能對屏幕上的代碼進行一定程度上的解釋。

它甚至還能根據箭頭,提出在服務器和數據庫之間添加緩存,能提高速度的建議,還能看懂畫板上 “ 薛定諤的貓 ” 的梗圖。

若不是昨日 GPT-4o 已經搶先亮相了一波,Project Astra 一定會被各路媒體打上“ 炸裂”、“ 史詩”、“ 顛覆 ”、“ 改寫歷史 ”等標簽。

可惜,僅僅是晚了一天,現在大家對 Project Astra 的形容只有一個標簽:“ 跟 GPT-4o 好像”。

不過,如果仔細觀察演示視頻,你會發現Project Astra 的視頻對話交互功能展現了一個 GPT-4o 并沒有展示的功能:視頻對話的過程是帶有記憶的,即便是一個你可能從未向它提及的點。

這樣形容起來有些抽象,看一下視頻你就能明白了。

在視頻中,Project Astra 注意到并記住了鏡頭經過的桌子上的眼鏡,在與測試者進行多輪對話后還能指出眼鏡在桌子上,并且還指出了 “ 旁邊有一個蘋果 ”這樣的細節,可以說是過目不忘,比人類強了不少。

而在文生視頻領域,谷歌也對 Sora 發起追趕,在本次的主題演講中,谷歌正式發布了視頻生成大模型 Veo。

根據介紹,Veo 能以各種電影和視覺風格生成高質量的 1080p 分辨率視頻,時長可以超過一分鐘。Veo能憑借對自然語言和視覺語義的深入理解,生成緊密代表用戶創意愿景的視頻。

此前我們曾介紹過,OpenAI 的 Sora 是基于 Diffusion Transformer,也就是 DIT 架構而成的。

但根據谷歌官方的介紹,Veo 采取的卻是 GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere 等 “ 老模型 ” 所組合而成的結合架構。

非常值得一提的是,谷歌在 Veo 的生成視頻之下,標注了一行小字 “ All videos were generated by Veo and have not been modified. ”( 所有視頻均由 Veo生成,未經修改)。

這個舉動,應該是意在陰陽 OpenAI,OpenAI 的 Sora 正因被爆出演示視頻經過了大量的人為后期修改而遭受廣泛的質疑。

另外,對標 Midjourney 等文生圖片大模型的 Imagen 3、對標 Suno 等音樂生成大模型的 Lyria、對標 GPT-4 Turbo 等輕量性能大模型的 Gemini 1.5 flash、對標 llama 3 等開源大模型的 Gemma 2,還有 Google 自家的新 TPU 等都在谷歌的本次開幕主題演講上一一亮相。

看起來,谷歌似乎不愿放棄 AI 領域的任何一個賽道,想把自己打造成一個 AI 界的六邊形全能戰士。

而更可怕的是,在各個領域里,Google 相比友商雖然都不一定是最好的,但也并不落后多少。

同時,谷歌的上限和野心,肯定不限于此。本次的開幕式主題演講中,谷歌還拿出來些不少其他 AI 廠家單打獨斗絕對拿不出來的東西。知危編輯部認為,正是這些東西,有機會能讓谷歌從 AI 領域的追趕者,躋身為領跑者。

因為谷歌,擁有其他 AI 巨頭所沒有的成熟系統與應用生態。

在演講中,谷歌就展示了一波 Gemini 和 Google 相冊的結合。

記不清自個兒車的車牌號,在 Google 相冊里搜索 “ 查找車牌號 ”,擁有多模態能力的 Gemini 會從你的圖片庫中,找到你車的照片,并告訴你車牌號。

在谷歌 Gmail 郵箱里,你也能通過 AI 迅速提取郵箱里航班信息,同時 Google 地圖以獲取您酒店附近的餐廳和旅游景點,再給計劃相應的日程。谷歌的老本行搜索,也在和 AI 相結合,你可以直接用文字進行搜索,也可以給圖片畫個圈兒,讓搜索引擎自動搜索你圈出的部分。

甚至,你還可以上傳視頻對搜索引擎進行提問。比如在演示中,谷歌的員工就拍視頻問問了 Gemini,相機上的那個桿卡住了咋辦。

Gemini 馬上就給出了基于搜索引擎的答案,看上去體驗很好,可惜就是回答有些翻車,回答中的一個建議是 “ 把膠卷取出來看看 ”,而這樣只會讓整卷膠卷直接報廢。。。

不過,我們只能說貴在真實吧,大模型亂講話這事兒確實一直存在,自然展現比造假強一些。

總之,按照谷歌的說法,Gemini 大模型正在全面整合谷歌的那一大家產品中,包括在未來,他們將把 AI 直構建到 Android 操作系統的底層之中,準備改寫用戶和手機之間的交互方式。

他們舉了一些例子,比如在用手機看書的時候,你可以直接給書里內容畫圈兒,問 AI 圈兒里的提名怎么解;刷視頻的時候, 也有可以直接問 AI ,視頻里這運動員的動作是不是犯規;打電話的時候,AI 也能從你們的對話里,判斷出對方是不是有可能是個騙子。

這樣一來,在全面集成 Google 原生 AI 并且與原生 Google 應用打通的 Android 陣營面前,蘋果如果不和 OpenAI 深度合作的話,我們只能說 Android 將在 AI 時代,對 iOS 進行一場降維碾壓式打擊。( 不過,6 月的 WWDC 上我們相信蘋果肯定會搬出自己的 AI 方案來抵御這場進攻)

總得來講,這次谷歌的 I/O 大會啥產品都有,但要說出類拔萃,還談不上。不過,在 AI 應用集成這一個最直面消費者的維度上看,谷歌還真是目前 AI 領域的集大成者之一。

這一波,去年還被稱作是 AI 圈 “ 仲永” 的谷歌,算是漸入佳境了。

撰文:江江、大餅;編輯:大餅

來源公眾號:知危(ID:BusinessAlert),提供敏銳、獨到的商業信息與參考,重點關注TMT、出海、新消費、新能源。

本文由人人都是產品經理合作媒體 @知危 授權發布,未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!