兩小時“吼出”121次AI,谷歌背后埋伏著OpenAI的幽靈
在谷歌的I/O 2024大會上,關鍵詞“AI”貫穿了谷歌全場的演講展示。那么,谷歌是否在AI賽道上重新奪回了主動權?
谷歌和Open AI的又一次對陣,剛剛落幕了。
北京時間5月14日凌晨,OpenAI發布端到端多模態AI大模型GPT-4o,酷似科幻電影《Her》的AI語音對話迅速成為關注焦點。
24小時后,攜新版Gemini AI大模型等產品,谷歌在北京時間5月15日凌晨1點的I/O 2024大會上重振旗鼓,試圖在AI賽道上重新奪回主動權。
在過往一年中,多次被Open AI搶走風頭的谷歌,能否打一個翻身仗?
一、不到兩小時,提到121次AI
將近兩個小時的發布會上,關鍵詞“AI”貫穿了谷歌全場的演講展示。
“我猜想現場一定有人想數一數今天的發布會上有多少次提到AI?!痹贗/O發布會現場,谷歌CEO桑德拉·皮查伊打趣道,觀眾席內響起一片笑聲。
這個答案由谷歌AI現場完成統計,“一共提到了120次?!逼げ橐琳f。話音剛落,屏幕上的數字跳到了121次。
不到兩小時的發布會,谷歌講了121次AI
圖源:谷歌發布會
由皮查伊開場,谷歌在發布會上先后介紹了他們在軟件、硬件等方面的AI布局。可以說,關注前沿發展的谷歌,在人們今年所能見到的AI應用方向上均有涉獵。
作為基礎架構的大模型Gemini發布1.5 Pro型號,再次打破100萬tokens(文本中最小語義單元)的紀錄,原版相當于一次可以處理長達1500頁文本、30000行代碼或是長達1小時的視頻,現在新模型將上下文窗口擴大一倍,達到200萬tokens。
聚焦于自有模型的能力突破之外,谷歌還面向開發者推出了輕量級模型Gemini 1.5 Flash,相較于舊有模型,Gemini Flash實現了低延遲響應并降低使用成本,其100萬tokens只要0.35美元。比前一天發布的GPT-4o更加便宜。
谷歌披露大模型API的最新定價
圖源:谷歌發布會
在多模態模型布局上,谷歌一口氣發布了圖片生成模型imagen和視頻生成模型Veo。其中,Veo支持生成60秒以上的1080P視頻,它被人們視為對標Open AI的視頻生成模型Sora。
“生成視頻的難點在于解決物品在空間中的移動,并且隨著時間的推移需要保持一致性。”谷歌DeepMind負責人道格說。“AI發展15年,我們就知道它會改變一切,現在已經到了實現它的時刻。”
現場展示中,Veo發布了多個演示視頻:在草地上奔跑的獵豹、穿梭在星際之間的宇宙飛船等。在演示片中,谷歌展示了他們和影視從業者的合作實踐。初步看起來,它擁有不輸于Sora的流暢體驗,但同樣不對外開放使用。
由Voe生成的視頻,汽車在公路上飛馳
圖源:谷歌發布會
發布會現場,皮查伊多次提及“Making AI more helpful for everyone ”,借助大模型Gemini的能力,谷歌開發了一系列AI功能。比如支持用搜索方式查找手機圖片的Ask Photo、AI助理Project Astra。
讓人眼前一亮的是Project Astra,在演示視頻中,通過手機和AR眼鏡的聯合使用,AI能夠在目之所及的范圍內完成和用戶的實時交互。它不僅成功識別并向用戶解釋了圈出來的硬件,還能幫助用戶在桌子上找眼鏡、解答白板上的題目。Project Astra也被視為GPT-4o的對手。
Gemini準確識別出電腦上的代碼用于加密和解密
圖源:谷歌發布會
谷歌還將Gemini集成在包括搜索引擎、Gmail、Maps等在內的AI全家桶產品中。
備受關注的是,在這次發布會上,谷歌正式宣布推出AI搜索功能,目前僅支持向美國地區開放。在演示中,谷歌的AI搜索在解決復雜問題上應用“多步推理”,以往需要搜索十次才能獲得的答案,合并到一個問題解決。比如一次性納入用戶的通勤和時間安排,通過AI搜索為用戶推薦適合的瑜伽館。
應用“AI Overview”推薦店鋪
圖源:谷歌發布會
二、谷歌秀的肌肉,連自家員工也瞧不上
在谷歌這場秀肌肉的發布會上,Open AI依然是那個站在巨頭背后的幽靈。
從ChatGPT開啟新一輪人工智能浪潮的時候,它就給了谷歌重重一擊。自GPT-4發布之后,人們關注的目光更是開始向Open AI傾斜。
野心勃勃的Open AI CEO薩姆·阿爾特曼也將谷歌視為頭號競爭對手。從宣傳時間的選擇到產品發布戰略,Open AI的槍口多次瞄向谷歌。
一年以來,谷歌已經在與Open AI的對陣中多次嘗到苦果:
2月15日,Gemini 1.5 Pro 發布。同一天,Open AI發布Sora,雖然目前仍然處于無法測試使用的狀態,但Sora實現文生視頻的流暢性和畫面表現震驚科技圈。對比之下,Gemini的重大更新幾乎無人問津。
本次,Open AI剛剛舉辦的春季發布會同樣是一次有備而來的伏擊。Open AI將發布會時間由5月9日挪到了5月13日,剛好是谷歌舉辦I/O發布會的前一天。
在昨日的發布會上,Open AI只用了半個小時,就押到了谷歌今天的兩個重點。
一是輕量級模型的發布,Open AI推出的GPT-4o同樣以低成本、快速響應的方式實現,官網介紹,GPT-4o達到了媲美GPT-4 Turbo的各項能力,但成本僅為后者的一半。
另一個是AI助手,Open AI CTO米拉·穆拉蒂現場演示了如何和手機上運行的模型GPT-4o完成交談?!八鼘θ祟惖那榫w、語氣理解得十分自然精準,如同與一個真正的人類朋友或助理在聊天。”
在這段實時演示中,GPT-4o準確識別了人類的情緒,它會開玩笑,調侃人類的呼吸聲音太大;它能依照用戶要求,更改說話的語氣,比如用更夸張的戲劇腔代替冰冷的電子音;它還能實現同聲傳譯,準確地把意大利語翻譯成英文。
正如阿爾特曼在X中提前預告的那樣,科幻電影《Her》中的劇情走入現實,人類和AI實時對話的設想已經具備實現的雛形。
為了防御對手,谷歌曾經一個月發布5次大模型。今年2月,谷歌曾先后發布Gemini功能更新、推出Ultra版本、發布Gemini 1.5 Pro,并發布開源模型Gemma和世界模型Genie。
但這些不痛不癢的更新不僅沒有起到防御作用,甚至還引發了負面反饋。谷歌內部流傳出的圖片曾毫不留情地吐槽,“連內部員工都記不住這些大模型的名字”。
三、保守敗于瘋狂,只剩一張“生態牌”
回顧過往,人工智能曾在2014年、2017年多次引起科技界的關注,而在幾次浪潮中,谷歌都扮演著先驅者的角色。
追溯至2011年,谷歌就已經在公司內部成立了“谷歌大腦”(Google Brain),專注于深度學習和神經網絡研究,目標是“讓機器也能擁有理解和學習的能力”。
2014年,谷歌斥資4億美元收購英國AI公司DeepMind,進一步夯實了在深度學習領域的實力,孕育出了具有里程碑意義的AlphaGo(阿爾法圍棋)。次年,谷歌將機器學習系統TensorFlow開源,并啟動研發AI芯片TPU,在算力層面為后續訓練大模型打下硬件基礎。
2016年,皮查伊在當年的I/O開發者大會上宣布,將AI置于公司首要發展戰略,正式向AI First轉型。在提出Transformer架構,并發布LaMda大模型后,從搜索、助理到Pixel手機、Nest家居等,谷歌開始全面把AI能力植入產品線。
谷歌更傾向于讓AI扮演一個輔助角色,對AI的態度偏保守。隨著時間軸滑向2023年,谷歌的風頭慢慢被Open AI壓過一籌。谷歌的前瞻性布局和先發優勢,被Open AI的瘋狂打敗了。
在技術成熟的情況下,后起創業公司Open AI使用的核心技術正是由谷歌發明的。GPT的“T”就來源于2017年谷歌發布論文中研究的Transformer架構。Open AI燒了大把的錢,砸出了訓練大模型的可行方向。
ChatGPT在2022年底發布之時,谷歌可能也注意到了這家初創公司,但未能引起足夠的重視和警惕。2023年1月,谷歌AI負責人Jeff Dean在一個內部會議中表示,雖然谷歌擁有做AI產品的技術和能力,但和小型初創公司相比,谷歌做出決策必須更加保守。
直到2023年2月,ChatGPT引起巨大反響,被視為沖擊搜索引擎的新出口。谷歌匆忙應戰,推出大模型Bard,卻因常識性失誤引發口碑崩盤——在發布會現場,Bard將智利超大望遠鏡首次拍攝系外行星的功勞記在了詹姆斯·韋伯太空望遠鏡上,間接引發谷歌母公司市值暴跌1000億美元。
在之后的表現中,谷歌逐漸消磨掉了人們的信任。Gemini Ultra版本發布一天后被質疑造假,有內部員工表示“這(視頻)是不切實際的”,谷歌最后也承認演示視頻是經剪輯制作的效果。
多次犯下致命失誤后,谷歌AI產品的信服力越降越低。谷歌正在盡力追趕并彌補過失。從這次發布會的動作來看,谷歌的策略調整為:以大而全的方式布局所有AI細分賽道的機會。
對于算力、算法和人才儲備充足,技術功底深厚的谷歌而言,借助于自家生態的優勢,谷歌將Gemini集成在方方面面,憑借數據積累,谷歌自有生態構建的護城河壁壘,是Open AI所無法取代的。
“谷歌最堅固的護城河是分銷,Gemini 不必成為最好的模型,也能成為世界上最常用的模型?!庇ミ_高級研究科學家范麟熙(Jim Fan)在X上評價。
不再領先的谷歌,只好握緊生態的優勢牌。
作者:魏琳華
來源公眾號:雪豹財經社(ID:xuebaocaijingshe),faster、deeper and wiser
本文由人人都是產品經理合作媒體@雪豹財經社 授權發布,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!