都說谷歌被OpenAI狙擊了,我怎么覺得它在狙蘋果
在OpenAI的春季發布會之后,谷歌的 I/O 2024 大會也如期而至,本文分享了看完谷歌的 I/O 大會的一些感受,一起來看。
谷歌的 I/O 2024 大會也如約而至了。。。
發布會是在美國山景城開的,咱差評編輯部也派人去了現場,聽身處前線的同事講,不知道是不是 OpenAI 搶了風頭的緣故,今年現場的氛圍似乎都沒前幾年那么熱鬧了。
在以前,用萬國來朝形容 I/O 大會都不為過,而今年很明顯人沒那么多( 不過以前有賣門票,這次沒賣 )。
不過這畢竟還是谷歌,在整整快兩個小時的發布會里,蹲在屏幕前看的世超,還是被秀了好幾波肌肉。
簡單一句話概括,和昨天的 OpenAI “ 小而美 ” 的春季發布會比起來, I/O 大會完全就是 “ 大而全 ” 。
反正就是各種和 AI 能掛上鉤的東西,他們都來了一遍,從最基礎的大模型,到能生成視頻、音樂的 AI ,再到 TPU 芯片等等。
世超也從里面挑了幾個比較亮眼的產品,來和大伙說道說道。
首先,世超覺得,昨天 OpenAI 發布會就是對著今天谷歌狙擊的。。。
谷歌這次重點推出的多模態 AI 助手Project Astra ,和昨天 OpenAI 的 GPT-4o 幾乎沒差,都是能和多模態實時交互的 AI 。
把麥克風、攝像頭的權限給 Project Astra 之后,它能眼觀六路、耳聽八方,隨便問啥,它都能第一時間給出答復。
比如讓它看看辦公室里有沒有會發出聲音的東西,當鏡頭掃過一個音響時,它立馬就能反應過來。
想再了解了解音響的構造啥的,也能直接在屏幕上寫寫畫畫,然后提問,整個過程 Project Astra 全都能看懂。
而且因為有最新的 Gemini 在背后撐腰,它的理解能力也是一絕。
隨機找到一個程序員的工位,指著屏幕里的代碼問是干啥的, Project Astra 沒反應幾秒就能給出答案,而且還能準確說出用了啥代碼。還有搞個 “ 薛定諤的貓 ” 梗圖,它也能迅速猜出來。
不過它和 GPT-4o 還是有點區別在的,就是說話的語氣語調啥的,沒昨天的 GPT-4o 的人味兒那么重, Project Astra 稍微有點高冷的味道。
而且 Project Astra 身上還有一個 GPT-4o 沒展示的技能,有記憶,比如在演示里, Project Astra 能準確記住,鏡頭一掃而過的桌子上,放了一個蘋果。
這對實時交互 AI 來說,算是相當關鍵的一個能力了。不過在前線的同事跟世超說,現在 Project Astra 就只能記一分鐘的事兒,但之后上線的版本肯定能記更多。
但有一說一,就算是世超,也不能把過去一分鐘看到了東西一五一十的全記下來。。。
要不是昨天 GPT-4o 已經搶先亮相了一波, Project Astra 一定會被各路媒體打上 “ 炸裂 ” 、 “ 史詩 ” 、 “ 顛覆 ” 、 “ 改寫歷史 ” 的標簽。
可惜,僅僅是晚了一天,現在大家對 Project Astra 的形容只有一個標簽:?“?跟 GPT-4o 好像?”?。
真心建議谷歌抓一下內鬼。
除了多模態實時交互的 AI 外,谷歌還一次性放出了各種單獨的多模態 AI ,有文生圖的 Imagen 3 ,文生視頻的 Veo ,文生音樂的 Lyria 。
而這些,世超覺得,就是擺明了對標市面上的那些 Sora 、 Suno 之眾。
像是文生視頻的 Veo ,從 1080p 的畫面效果,還有 60 秒的時長,都要和 OpenAI 的 Sora 看齊。
不過谷歌沒學 Sora 用 DiT ( Diffusion Transformer )架構,而是自己揉了好幾個老模型,像是 GQN 、 DVD-GAN 、 Imagen-Video 、 Phenaki 、 WALT 等等。
從最后生成視頻的效果來看,和 Sora 也確實有的一拼。
谷歌自個兒也說了, Veo 能駕馭各種風格,航拍、延時攝影等等鏡頭語言都能秒懂。。。
有意思的是,谷歌在每個視頻下面都特意標了一行小字:所有視頻均由 Veo 生成,未經修改。
在點誰應該就不用世超多說了吧。。。
而除了上面這些,谷歌還推出了對標 GPT-4 Turbo 等輕量性能大模型的 Gemini 1.5 flash 、對標 llama 3 等開源大模型的 Gemma 2 ,還有 Google 自家的新 TPU 等等。。。世超在這兒就不一一介紹了。
反正看起來,谷歌似乎不愿放棄AI 領域里的每個賽道,想把自己打造成一個 AI 界的六邊形全能戰士。
而更可怕的是,在各個領域里, Google 相比友商雖然都不一定是最好的,但也并不落后多少。
同時,谷歌的上限和野心,肯定不限于此。因為谷歌還拿出來些不少其他大廠單打獨斗,絕對拿不出來的東西。而世超覺得,正是這些東西,有機會能讓谷歌從AI 領域的追趕者,躋身為領跑者。
因為谷歌,擁有其他AI 巨頭所沒有的成熟系統與應用生態。
這次 I/O 大會上,谷歌就展示了好幾個這樣的例子。
比如他們先展示了一波 Gemini 和 Google 相冊的結合。記不清自個兒車的車牌號,在 Google 相冊里搜索 “ 查找車牌號 ” , Gemini 能直接從圖庫里準確找到車的照片,并把車牌號告訴你。
還有在谷歌 Gmail 郵箱里,你也能讓 AI 幫你查航班信息,在谷歌地圖里,能讓 AI 幫忙獲取酒店附近的餐廳和旅游景點,再給計劃相應的日程。
這還沒完,谷歌的老本行搜索這次也上 AI 了,而且一上來就搞了波大的,支持語音、圖片,還有視頻搜索。
比如說唱片機壞了想查查原因,直接鏡頭對準故障位置問就行了, AI 會立馬反應給出答案。
還有壓箱底的膠片機不怎么會使,同樣拍給它看就行了,不需要自己再絞盡腦汁去形容。
只不過,這次谷歌又在演示上翻車了。。。有媒體扒出,膠片機的那個回答完全就是在胡扯,回答中的一個建議是?“?把膠卷取出來看看?”?,而這樣只會讓整卷膠卷直接報廢。。。
不過,這至少說明他們玩兒的就是個 real ,畢竟大模型亂講話這事兒一直存在,而出錯,比造假還是強一些的。
總之,按照谷歌的說法, Gemini 大模型正在全面整合谷歌的那一大家產品中,包括在未來,他們將把AI 直構建到 Android 操作系統的底層之中,準備改寫用戶和手機之間的交互方式。
他們也舉了一些例子,像是用手機看球時,不知道運動員犯沒犯規,圈起來就能問,還有做題時圈一圈就能搜題。
而且顯示答案的時候,它也不會跳轉到別的 AI 軟件里面去,屬于是把 AI 融到系統最最最底層了。
甚至在打電話的時候, AI 還能實時反詐,能從對話中直接判斷對方是不是騙子,要是有可疑的字眼,立馬會彈窗提示。
其實看到這的時候,世超已經感受到了谷歌做 AI 的優勢,未來 AI 肯定要朝著底層生態去發展。
而作為一家大企業,谷歌手里的資源是相當多,而且還有安卓這個大陣營,它能輕易把 AI 打入安卓內部,但 OpenAI 要和 iOS 深度結合,估計沒這么隨心所欲了。
總之這次谷歌的 I/O 大會啥產品都有,但要說出類拔萃,還談不上。不過,在AI 應用集成這一個最直面消費者的維度上看,谷歌還真是目前 AI 領域的集大成者之一。
這一波,去年還被稱作是 AI 圈 “ 仲永 ” 的谷歌,算是漸入佳境了。
不過世超看完谷歌的 I/O 大會,倒覺得他們這次不僅僅要?“?狙擊?” OpenAI ,更要把蘋果生態也一起狙了。。。
所以下一回合,到蘋果你了。
圖片、資料來源:
谷歌,知危
本文由人人都是產品經理作者【差評】,微信公眾號:【差評】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!