国产A片免费视频一三区,伊人久久大香线蕉AV一区

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

有視覺記憶的Agent、大變身的搜索、更強的AI全家桶和大一統的Gemini｜現場圍觀Google I/O的絕地反擊

硅星人

2024-05-15

0 評論 315 瀏覽 0 收藏

24 分鐘

如果說前一天OpenAI用GPT-4o和全新的ChatGPT實現了炸場，那么隨之而來的Google I/O大會上的發布，則可以看作為一場反向狙擊。

今年的Google Shoreline圓形劇場，彌漫著一種前所未有的角斗場般的氣息。

前一天OpenAI用GPT-4o和全新的ChatGPT把全世界掀翻，而Google要在今年甚至最近幾年最重要的一場Google I/O上做何應對，似乎成了唯一的主題。

事實上，據OpenAI的人士透露，GPT-4o是一個至少兩年前就已經開始開發的模型，而硅谷AI圈子之小，互通有無之頻繁，其實不僅OpenAI有機會故意選在Google的大會前狙擊Google，后者同樣也會對此有所預期。

所以，當Pichai走上舞臺中央時，一場反狙擊開始了。

在這場持續兩小時的發布中，Google有攻有守。

它對自己的看家業務搜索做了最徹底的一次AI化改造，還再次全面更新了Gemini模型家族。

守住OpenAI們猛攻的方向，同時發起進攻。

一方面很有火藥味的發布了效果超過Sora的模型Veo，并且是可以立刻申請體驗的產品；另外還展示了與GPT-4o 相似的語音視覺交互功能Gemini Live，同時，還更進一步推出了比OpenAI等對手更激進的AI智能體Project Astra。

以下為現場實錄。

一、Gemini，Gemini，還是Gemini

當Google CEO Sundar Pichai走上臺，在他的前幾分鐘講話里，Gemini的頻率甚至超過了Google這個詞。

Gemini是去年Google I/O上正式推出的最核心的模型，而一年以后，Google已經用它完成了對自己內部的“大一統”。模型是Gemini，智能助手是Gemini，Android的核心是Gemini。甚至，Pichai都不叫自己Googler了，他們叫：

Geminier。

而當天大會上Gemini模型首先進行了更新。此前幾個月，Gemini 1.5的長文本版本以預覽版本推出，今天它正式對所有人發布。此前的Gemini 1.5版本上下文長度為100萬token。而Pichai似乎輕描淡寫的公布：

新版本長度再次刷新，達到200萬token。

現場的開發者爆發出當天的第一陣歡呼。

“我們正式進入了Gemini時代。”Pichai直入主題說。目前有超過1500萬開發者在使用Gemini做開發。而Gemini最近三個月時間達到了100萬訂閱用戶。

關于Gemini的具體信息，自然是由Deepmind的CEO Demis Hassabis來講。這也是這位傳奇人物第一次Google I/O演講。

在他的演講中，第一個發布是Gemini 1.5 flash。這是一個針對端側的模型，同樣有100萬和200萬token的版本。這似乎指向了Google接下來對端側的野心。

排排隊

“我們總有很多模型同時在訓練，我們會用我們最強的模型來幫助小模型?！?/p>

而對于此前推出的單獨版本的Gemini App，Google也做了更新，推出了更高級別的訂閱服務Gemini Advanced。也就是對標ChatGPT Plus的最高級別服務。

在這個服務里，一個新的功能看起來正是對昨天ChatGPT的更新的回應——Gemini Live。你可以在Gemini里實時無延遲地打電話來與AI互動，也就是GPT-4o昨天做的事情。遺憾的是這部分只是一帶而過，看起來Google更多是想說，哪怕晚一天，也要告訴世界，不是只有你能做。

不過現場似乎對此略顯失望，人們顯然希望看到更多針尖對麥芒的發布。

二、有視覺記憶的AI Agent

于是，大的來了。

一個充滿野心的AI Agent。

面對OpenAI的進攻，不能只是防守。Google也需要一些更加激進的東西來反擊。這個東西就是Project Astra。這是一個還在研發中的AI Agent，而Pichai形容Google的夢想一直就是做出一個強大的AI Agent。

Google Deepmind CEO Hassabis親自上臺，講解和展示了Astra的一個原型的運作視頻。

是的，一個意味深長的交接

在展示中，一開始一切都和我們見過的AI Agent差不多，可以通過用戶打開的攝像頭識別物體，與用戶實時語音交互。而驚人的一刻在最后到來，當用戶帶著Astra走了一大圈后，突然提出一個此前沒有涉及到的問題：

“你記得我把眼鏡放哪了么？”

這是此前沒有詢問的問題，但攝像頭掃過的時候Astra曾“看”到過他的眼鏡，而AI Agent居然以視覺的形式記錄了下來。

“你的眼鏡在桌上蘋果旁邊?！盇stra回答道。

這讓現場一陣驚呼，也是此次發布會上最長的一次掌聲。

此外，Google還明顯針對Sora做了一次進攻。發布了一款全新的視覺模型，Voe。這是Google過往許多視覺模型的集大成者，也可以看作Sora逼迫下的一次內部資源整合。

在Voe的展示中，用戶可以通過點擊擴展，而繼續增加視頻生成的時長，這讓它可以超過了Sora一開始的1分鐘，并且可以保持一致性。

Google還著重展示了他們開發這些產品過程里與藝術家的合作。似乎也在隔空喊話那些對Sora不滿的藝術家，來這里來這里，我更好。

三、終于對搜索下手：Google搜索最大的一次改造

除了對OpenAI的進攻的反應，人們也關心一件事：Google的搜索改造得怎么樣了。

Google什么時候對搜索下手，是所有人期待的那個重要時刻。OpenAI此前的煙霧彈，Perplexity不停地碰瓷，都讓Google一直顯得太過安靜。而這一次終于有了最大的一次更新和變化。

當數億美國用戶今天打開Google時，他們將看到近幾年最大變化的Google。

AI overview，也就是AI生成的搜索答案總結，會出現在所有人的搜索框下。

而且，這個總結并不是一個固定的模版，而是根據你的問題進行調整。

比如，Google可以根據你的問題幫你做規劃。這時候在搜索框下，會顯示正在進行的步驟，然后在Overview里展示給你不同卡片，把需要的信息整理出來提供給你。

Google表示這是必須有強大的實時搜索才能做的，言外之意，那些沒有搜索能力基礎的公司，就別來碰瓷了。

而搜索的改造也只是個開始，它看起來很像是要變成Google激發用戶AI需求的一個超級入口。

比如Google展示了一個場景，當用戶哪怕不知道自己該具體問什么的時候，Google也可以給你推薦，與你做頭腦風暴。而此時這個搜索的界面也進一步完全變成了另一個樣子。像是不同卡片的信息流，每一個都可以進一步操作。

“Google會替你Google。”這是Pichai對此的定義。

更進一步，Google還展示了一個用實時視頻對話來搜索的功能。而這也是全場進行了半小時后的第一次Live demo的環節。

現場一度過于安靜，人們等待Live demo，這個小車帶著一臺電腦被推上來時，大家騷動了一下

當你買了一臺唱片播放器，但你對此毫無了解，它出了播放問題，但你不知道問題到底在哪里的時候，你可以直接打開攝像頭拍攝并詢問。

而Google直接給出了AI整理的答案和解決建議。

“這就是Gemeni時代的搜索?！盤ichai說?，F場掌聲再次響起。

四、對全家桶的AI能力進一步改造升級

Google I/O上的保留節目是對全家桶的新功能展示。而Gemini時代來了，這些全家桶也自然要更新。

Pichai在當天展示的第一個應用案例，是“Ask Photo”。9年前，Google Photo發布。每天有60億的照片視頻上傳。Gemini讓AI編輯更簡單。

你現在可以ask photo，與照片進行對話。比如，你可以問Photo app，“我的汽車牌照是多少”。然后Gemini就在照片里尋找出來你的車告訴你答案。

或者你可以詢問Photo，“我女兒是什么時候學會游泳的”，然后還可以進一步詢問，“她的進步是怎樣的”。Photo都可以把對應的照片和視頻給你展示出來。這對于每天都抱著手機看自己寶貝孩子成長歷程的人們來說，實在是太有用了。

這個功能的展示也讓全場一陣歡呼。

此外Workspace也有了很多新功能，Google還展示了一個基于多模態能力的教學工具，你可以用語音提出教學要求，比如“給我一個用籃球解釋力學原理的案例”，Motion就會自動用很自然的語音講出來。

另一個讓現場觀眾眼前一亮的功能，是Android對Gemnini的使用?，F場展示的一個live demo中，一個詐騙電話打來，像我們經常遇到的電話那樣，在一通義正嚴辭的提醒后，對方要求你把錢轉到一個安全的賬戶。

而就在這句話說出來時，Gemini被激發了，直接彈出一個警告框，阻止了電話的繼續進行。

全場響起可能是當天第二長的一次歡呼。

在發布會的最后，Pichai做最后總結時開玩笑說，肯定有人在數，我今天說了多少次AI。

“不用數了，Gemini數完了。”

然后大屏幕顯示120。

“我說了這么多次AI?！?/p>

然后Gemini又加了1，變成了121。

現場都笑了。

很明顯，Google依然正在一個整合資源的過程里。無論是對全家桶的能力提升，還是對搜索的改造，背后都是一個邏輯，要把Google這么多年積累下來的能力和資源用起來，由Gemini來做唯一的大腦，改造一切，守住并繼續搶奪新的用戶。

Google不會輕易下牌桌，AI大戰會繼續進行下去。

以下為當天Google I/O上各種發布的更多信息：

（1）Gemini 1.5 Flash ：更快、更經濟的輕量化推理模型

為了滿足用戶對低延遲和低成本的需求，谷歌首先帶來輕量化模型Gemini 1.5 Flash。它專為大規模服務設計，速度更快、成本低至0.35美元每百萬tokens。

盡管1.5 Flash體積小巧，仍實現了100萬個標記的長上下文窗口，開發人員還能注冊嘗試200萬個標記。此外，它在跨大量信息的多模態推理方面表現出色，適用于摘要、聊天應用、圖像和視頻字幕、長文檔和表格的數據提取等多種任務。

這種強大性能來源于“蒸餾”技術，該技術將1.5 Pro中最重要的知識和技能轉移到更小、更高效的模型中。從今天起，超過200個國家的用戶都可以在Google AI Studio和Vertex AI中使用Gemini 1.5 Flash。

（2） Gemini 1.5 Pro 迎來重大升級：200萬上下文、更強大的推理和理解能力

今天起，Google最先進的多模態大模型Gemini 1.5 Pro 將在 Gemini Advanced 中直接供消費者使用100萬標記上下文窗口，并在私人預覽中擴展到 200 萬標記。這使得Gemini 1.5 Pro能處理更更大量的復雜信息，生成更準確、更細致的輸出。

同時，通過數據和算法改進，增強了模型的代碼生成、邏輯推理和規劃、多輪對話以及音頻和圖像理解能力。升級后的Gemini 1.5 Pro在MMMU、AI2D、MathVista、ChartQA、DocVQA、InfographicVQA和EgoSchema等多項公共基準測試中取得了顯著改進，在多項圖像和視頻理解基準測試中也實現了最先進性能。

此外Gemini 1.5 Pro還能夠遵循越來越復雜和細微的指示，包括指定產品級行為的指示，如角色、格式和風格等。谷歌也在 Gemini API 和 Google AI Studio 中增加了音頻理解，支持跨圖像和音頻進行推理。

用戶可以通過 Gemini Advanced 訂閱服務體驗最新的Gemini 1.5 Pro，支持超過150個國家的35種語言。

(3) 首個AI Agent產品Project Astra

Hassabis表示，Project Astra旨在像人類一樣理解和響應復雜的動態世界，記住所見所聞以理解上下文并采取行動。同時，它需要主動、可教和個性化，使用戶能夠自然地與之交流，無延遲。

其挑戰之一是將響應時間縮短到對話級別，這是一個困難的工程難題。Astra基于Gemini和其他特定任務模型，通過持續編碼視頻幀、將視頻和語音輸入結合到事件時間線上，并緩存信息以便高效回憶，從而更快地處理信息。

“基于 Gemini 模型，我們開發了能夠高效調用視頻幀和語音輸入的代理，并增強了其語調范圍，使其更好地理解上下文并快速響應。” Hassabis補充道。

未來，用戶就可以通過手機或眼鏡擁有一個專家級別助手。今年晚些時候，這些功能將出現在Gemini應用程序等Google產品中，如Gemini應用程序。

媒體生成工具

（4）Veo：比Sora更強的視覺模型

Veo能夠生成超過一分鐘的高質量1080p視頻，涵蓋多種電影和視覺風格。據介紹，Veo具備高級的自然語言和視覺語義理解能力，能準確呈現細節并捕捉情感基調。它理解“延時攝影”等電影術語，提供高度創作控制，生成的鏡頭中人、動物和物體的運動非常真實。

Google已邀請電影制片人和創作者試用Veo，并根據他們的反饋改進技術。Veo基于Google多年生成視頻模型的工作，如GQN、DVD-GAN、Imagen-Video等，結合新技術提高質量和分辨率。Veo將作為VideoFX的私人預覽提供給特定創作者，所有人可申請注冊候補名單，未來可能直接引入YouTube Shorts。

（5）Imagen 3發布，文生圖模型升級

Imagen 3是Google最高質量的文本到圖像生成模型。它能生成細節豐富、栩栩如生的圖像，視覺干擾明顯少于之前的模型。并且能更好地理解自然語言和提示背后的意圖，結合長提示中的細微細節，掌握多種風格。它還是迄今為止Google最好的文字渲染模型，使生成個性化生日祝福和演示文稿標題頁成為可能。

從今天起，Imagen 3將作為ImageFX中的私人預覽提供給特定創作者，用戶可以注冊加入候補名單。很快，Imagen 3也將在Vertex AI上提供。

此外，Google還設計并構建了音樂AI工具Music AI Sandbox，旨在為創意打開新的天地，讓人們從零開始創作新的器樂部分并以新的方式轉換聲音。

（6）AI搜索

Gemini時代的搜索正在全面改變搜索的呈現方式、服務體驗和廣告方式。首先，美國用戶將體驗到近年來最大的交互界面變動。搜索框下方的信息會先呈現一個AI生成的概覽，據Google透露，用戶已通過搜索實驗室數十億次使用AI概覽。這一功能增加了搜索頻率，并提高了用戶對搜索結果的滿意度。本周，數億用戶將可使用AI概覽，預計到年底覆蓋超過十億人。

搜索也不再是“一次性”的服務，而是一個AI智能體的入口。用戶提出復雜問題后，AI會將其分解為小模塊，提供準確的答案和建議，還可以根據問題和搜索結果為你擬定計劃。例如，用戶可以搜索“創建一個易于準備的3天餐計劃”，獲得來自網絡的各種食譜，并能提出進一步需求和修改建議使答案更個性化，再快速將餐點計劃導出到Docs或Gmail，“一條龍”式服務極大提升了搜索的實用性和便捷性。

此外，AI不僅提供答案，還能主動幫助用戶尋找靈感并進行頭腦風暴，創建AI組織的結果頁面。未來，Google還會推出視頻AI搜索功能。

這種改動也對廣告產生了影響。Google表示，通過AI概覽，用戶會訪問更多樣化的網站，以解決更復雜的問題。AI概覽中包含的鏈接獲得的點擊次數比傳統網頁列表更多。隨著這一體驗的擴展，Google將繼續專注于為出版商和創作者帶來有價值的流量，廣告仍會出現在專用位置，并清晰標注以區分有機和贊助結果。

——從回答、計劃、需求定制到組織和視頻搜索，Google都會替你完成，而你需要做的只有提問。

（7）TPU

十多年來，Google一直在開發專用的AI硬件——Tensor Processing Units（TPU）。今天大會上展示的Gemini 1.5 Flash、Imagen 3和Gemma 2.0這些創新模型都是在TPU上訓練和部署的。今天，谷歌也推出自己迄今為止性能最高、能效最優的第六代TPU——Trillium。

Trillium TPUs提供比TPU v5e高4.7倍的峰值計算性能，同時將高帶寬內存（HBM）和芯片間互連（ICI）帶寬翻倍。配備第三代SparseCore加速器，能更快地訓練基礎模型并降低延遲和成本。其能效比TPU v5e提高67%以上，是最可持續的TPU。它也可以在單個集群中擴展到256個TPU，并通過多切片技術和Titanium IPU擴展到數百個集群，構建大規模的超級計算機。

多項技術突破使得Trillium TPUs能夠大幅提升AI工作負載訓練和服務性能，處理更大模型，提升計算能力，改進大模型訓練和服務性能。

（8）Gemini on Android

Google此次也在安卓平臺上推出一系列全新AI功能，將搜索和智能服務提升到一個新的水平。此前，”Circle to Search”允許用戶無需切換應用即可搜索，現在起它還可以作為學習伴侶，解答數學題、圖表等復雜問題。目前這一功能已在超過1億臺安卓設備上提供，預計到年底這一數字將翻倍。

在與朋友的信息對話中，用戶可以隨時召喚Gemini生成圖片，針對YouTube教程視頻或較長的PDF文檔提出特定問題，Gemini會在幾秒鐘內提供解答，就像把數據中心裝進了口袋。

端側模型上，接入具備多模態能力的Gemini Nano。用戶可以詢問照片信息或獲取關于服裝搭配的意見。Gemini Nano還將集成到Android Studio中，為開發者提供助力。此外，當收到不明詐騙電話時，AI系統還會自動發出警報，提示用戶可能存在詐騙風險。

總之，Gemini正在將AI融入所有安卓平臺的服務和應用中，為用戶帶來更加智能和便捷的使用體驗。

本文由人人都是產品經理作者【硅星人】，微信公眾號：【硅星人Pro】，原創/授權發布于人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于 CC0 協議。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App