久久久精品人妻一区二区无码免费 ,狠狠综合久久久久尤物丿

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

Google 發(fā)布「AI 全家桶」反擊 GPT-4o ！搜索引擎罕見大更新， 121 句「AI 」道盡焦慮

愛范兒

2024-05-19

0 評(píng)論 439 瀏覽 1 收藏

18 分鐘

本文聚焦于Google I/O大會(huì)發(fā)布的AI全家桶，涵蓋搜索引擎的革新與多模態(tài)AI項(xiàng)目的進(jìn)展，深入探討了AI技術(shù)的最新應(yīng)用，引導(dǎo)讀者洞悉AI領(lǐng)域的未來趨勢(shì)，希望對(duì)你有所幫助。

緊跟步伐絕不落后昨晚 OpenAI 發(fā)布了 ChatGPT-4o 后，壓力就給到了 Google I/O ，仿佛 Google 無論如何也擺脫不了「AI 界的汪峰」這一稱號(hào)。而 Google 則通過近 2 個(gè)小時(shí)的發(fā)布會(huì)，提了 121 次 AI ，推出了十余種新品及升級(jí)，可謂「量大管飽」，火力全面覆蓋，但給人的驚喜卻并不多。

我們先給大家一次性總結(jié)這場(chǎng)發(fā)布會(huì)的亮點(diǎn)，更多功能解析請(qǐng)接著往下看。?發(fā)布會(huì)要點(diǎn)：Google Search AI：發(fā)布了 AI Overviews，加強(qiáng)版 AI 搜索概要功能，多步推理能力上架。Gemini 大模型：Gemini 1.5 Flash（100 萬(wàn)上下文）；Gemini Pro（200 萬(wàn)上下文）。Gemma 大模型：發(fā)布開源多模態(tài)大模型 Pali Gemma 和 Gemma2。AI in Google Workspace：用 Gemini 的能力和 Side Panel 的形式，將 Google 系列產(chǎn)品串在一起。

Gemini App：手機(jī)版的 Gemini 應(yīng)用程序，即將支持和 AI 視頻對(duì)話，近幾周發(fā)布。Project Astra：最新的多模態(tài) AI 項(xiàng)目，包含 Imagen3、 Music AI Sandbox 和 Veo 等針對(duì)圖像、音樂、視頻的生成式 AI。做搜索起家，用搜索王炸Google Search 是 Google 最大的投資和創(chuàng)新領(lǐng)域之一，更是它們的創(chuàng)始產(chǎn)品。

25 年前，Google 開啟了搜索功能，今晚 Google 再次拓展了搜索的邊界。簡(jiǎn)單來說，有了 AIGC 的 Google Search，可以做到更多事情：無論你在想什么，無論你需要完成什么，只要問問（它），Google Search 就能找到。而 Google Search 的一切進(jìn)化，都是建立在專為其定制的 Gemini 模型上。Google 在發(fā)布會(huì)上介紹，「與眾不同」的 Google Search，主要有三個(gè)獨(dú)特的優(yōu)勢(shì)：Google 的實(shí)時(shí)信息包括超過一萬(wàn)億個(gè)關(guān)于人、地點(diǎn)和事物的事實(shí)名列前茅的產(chǎn)品，和最好的網(wǎng)絡(luò)服務(wù)之一Gemini 的力量

把將這三件事結(jié)合在一起，就解鎖了 Google 在搜索領(lǐng)域的全新能力。第一個(gè)新功能是 AI Review，用戶可以通過在搜索結(jié)果的頂部，獲取由 AI 大模型生成的摘要，以此簡(jiǎn)化整個(gè)搜索過程，讓復(fù)雜問題的檢索過程，變得簡(jiǎn)單。

Google 稱，到今年年底，將有超過十億人使用 Google Search 中的 AI Review 功能，而且 Google 宣稱，這也將會(huì)是其搜索引擎 25 年以來最大的更新之一。Multi-step reasoning 是 Google Search 中的另一個(gè)重磅功能。

通過全新的多步推理，以后我們做一些生活、工作和出行的計(jì)劃，會(huì)變得非常簡(jiǎn)單。比如你可以通過搜索欄來找到「附近最好的瑜伽館」，隨后附近所有關(guān)于瑜伽館的評(píng)價(jià)評(píng)分、課程推薦、距離等重要信息，都會(huì)被分類成塊，十分清楚地在搜索結(jié)果中顯示。

依靠 Google 自有的龐大數(shù)據(jù)庫(kù)，AI 在搜索過程當(dāng)中可以調(diào)用最新、最全的高質(zhì)量信息，所以搜索結(jié)果的準(zhǔn)確性和可信性也就有了更多的保障。目前，Google 在全球包含了超過 2.5 億個(gè)地點(diǎn)，并實(shí)時(shí)更新，當(dāng)中還包括評(píng)分、評(píng)論、營(yíng)業(yè)時(shí)間等重要信息。Planning in Search 是另一個(gè)幫你減少負(fù)擔(dān)的更新。

比如你現(xiàn)在正在重新調(diào)整膳食結(jié)構(gòu)、從頭安排飲食計(jì)劃，不想在早餐、午餐和晚餐時(shí)吃通心粉和奶酪。直接把需求拋給搜索框，Google Search 就能還給你一份按照要求，且合理安排的全新一周食譜。

而且，你還可以隨時(shí)改變條件和細(xì)節(jié)，搜索的結(jié)果也會(huì)根據(jù)最新的提示實(shí)時(shí)更新。如果說上述的功能，我們已經(jīng)在其他公司的產(chǎn)品中見過，甚至用過，那 Ask with Video ，一定會(huì)給你一些驚喜。生活當(dāng)中有很多物件，都有著各自的專屬名稱，有些器械出現(xiàn)一些小問題時(shí)，也都有著對(duì)應(yīng)的修理方式。但很多時(shí)候只有專業(yè)人士才能叫得出，也只有他們能「對(duì)癥下藥」?，F(xiàn)在通過 Google Search 的 Ask with Video，每個(gè)人都能成為專家，它相當(dāng)于一本裝在手機(jī)里的百科全書。

唱片的零部件不起作用了不知道從何下手，相機(jī)的快門突然失靈……以前可能要大費(fèi)周折地寄回廠家售后。但現(xiàn)在用 Google 設(shè)備的鏡頭拍下問題所在，Google Search 就能根據(jù)你所遇到的問題初步診斷，一些小故障還能當(dāng)場(chǎng)給出解決方案。在發(fā)布會(huì)的實(shí)時(shí)演示里，AI 還把整個(gè)的修理步驟一一列出，按照屏幕上的指示，演示者很快就能解決小麻煩。

這個(gè)功能，是通過 AI 逐幀分解視頻，把每一幀的關(guān)鍵信息導(dǎo)入 Gemini 的長(zhǎng)觸點(diǎn)窗口挨個(gè)分析，并梳理網(wǎng)絡(luò)中相關(guān)的文章、論壇、視頻等，從中找到見解，以此實(shí)現(xiàn)了 Ask with Video 的智能建議。比起傳統(tǒng)的文字輸入，視頻最大的好處在于，我們和 AI 的交互過程變得更加直觀，用「這里」「這個(gè)」等模糊的詞語(yǔ)，也能使大模型知道我們指代到底是什么。

Google 稱，這些最新的 AI 功能，將會(huì)在未來幾周內(nèi)在實(shí)驗(yàn)室功能推出，這也意味著更強(qiáng)大的 Google Search 離落地已經(jīng)不遠(yuǎn)了。后續(xù)版本中，它甚至還將能基于頁(yè)面中視頻的自動(dòng)字幕來尋找答案，不知道會(huì)不會(huì)搶了那些「1 分鐘看完 XX 電影」博主的飯碗。圖 · 歌 · 片，瞄著 OpenAI 打?如果說前兩天的 GPT-4o 是 AI 再一次給世界帶來了一點(diǎn)震撼，那今晚 Google 官宣的 Project Astra 則是震撼的延續(xù)。Project Astra 是 GoogleMind 的原型——一個(gè)通用人工智能助手。

和 GPT-4o 的使用效果類似，用戶可以通過它和 AI 實(shí)時(shí)對(duì)話，以及視頻聊天。發(fā)布會(huì)的演示可以很好地表現(xiàn)這個(gè)新功能，工作人員在演示視頻中將手機(jī)鏡頭對(duì)準(zhǔn)身邊的物品，并向 Project Astra 提出一些疑問，它幾乎能做到零延時(shí)地準(zhǔn)確回答。例如 Project Astra 能說出音響上半部分的是高音喇叭，對(duì)電腦屏幕上顯示的代碼也能輕松識(shí)別其具體作用。

Google 稱：我們的新項(xiàng)目專注于構(gòu)建一個(gè)未來的人工智能助手，它可以在日常生活中真正提供幫助。基于更強(qiáng)大的 AI 性能，Google 在 I/O 上還宣布了另外三個(gè)實(shí)用功能，它們分別在「圖像」「音樂」「視頻」領(lǐng)域，體現(xiàn)著先進(jìn)技術(shù)的「未來感」。Imagen 3 是 Google 發(fā)布的最新的圖像生成模型。

它可以更加理解我們的提示詞，并以此創(chuàng)建更加逼真的圖像。發(fā)布會(huì)上展示的「狼」的生成圖片，就是 Imagen 3 在一段敘述中，準(zhǔn)確提取了 8 個(gè)細(xì)節(jié)信息，并且在圖片中都有體現(xiàn)。

不難發(fā)現(xiàn)，生成圖片不僅細(xì)節(jié)準(zhǔn)確，而且十分逼真。Imagen 3 還能應(yīng)對(duì)一些更加抽象的圖片創(chuàng)作，例如根據(jù)「彩虹色」「羽毛組成的 light」「黑色背景」的提示，生成的創(chuàng)意圖片。

就像是它很清楚你想要什么。發(fā)言人甚至在發(fā)布會(huì)上開玩笑式地炫耀「你可以用它來數(shù)別人臉上的胡須」。在音樂生成方面，Google 也有了新的突破。Music AI Sandbox 是最新推出的音樂生成模型，Google 這次在 I/O 現(xiàn)場(chǎng)還請(qǐng)來了 Marc Rebillet 坐鎮(zhèn)分享。

根據(jù)藝人創(chuàng)作的一小段音樂 demo，Music AI Sandbox 能在此基礎(chǔ)上拓展延長(zhǎng)，還可以進(jìn)一步按照用戶輸入的提示詞，如音樂風(fēng)格和種類等，進(jìn)行樂曲的二度創(chuàng)作。Google 稱，它們和 YouTube 一起構(gòu)建了 Music AI Sandbox：這是一套專業(yè)的 AI 音樂工具，可以從頭開始創(chuàng)建新的樂器部分，在軌道之間轉(zhuǎn)換風(fēng)格等，以幫助我們?cè)O(shè)計(jì)和測(cè)試它們。另一個(gè)實(shí)用模型名為 Veo，專注于生成視頻。

用戶只需輸入相關(guān)的文本、圖像或視頻提示，Veo 就能創(chuàng)建高質(zhì)量的 1080p 規(guī)格的視頻，時(shí)長(zhǎng)也達(dá)到了 60 秒之久。它能以不同的視覺和電影風(fēng)格捕捉指令中的詳細(xì)信息。

例如，我們可以在提示中輸入事物、橫向或延時(shí)的航拍照片，并使用其他提示進(jìn)一步編輯視頻。一直以來，視頻生成 AI 「只在理論上成立」其實(shí)有諸多阻礙，其中走向「能用」的最大門檻是：視頻生成時(shí)間只有短短幾秒，一般只能在一兩個(gè)動(dòng)作里反復(fù)橫跳。

所以 Sora 發(fā)布之初才會(huì)引起非常大的討論，而今晚開始，Google 的 Veo 也成了大家重點(diǎn)關(guān)注的對(duì)象，從照片寫實(shí)主義到超現(xiàn)實(shí)主義和動(dòng)畫，大部分的影視風(fēng)格，它都能處理。除了 Project Astra 以外，Google 還為我們提供了一個(gè)可私人定制的 Gemini ——Gems。Google 表示，它能在保留指定特征的情況下完成任務(wù)，成為千人千面的私人助手，用戶可以通過調(diào)整定位，使其成為瑜伽好友、虛擬的流行人物、健身伙伴、創(chuàng)意寫作指導(dǎo)甚至是微積分導(dǎo)師等，都不在話下。

Gemini 狂卷長(zhǎng)文本，Gemini 家族再添新成員Gemini 項(xiàng)目自曝光以來，一直備受關(guān)注。起初也曾存在一定爭(zhēng)議，但后來也憑借自身實(shí)力挽回了口碑，而今也越來越成熟。據(jù)皮查伊介紹，目前有超過 150 萬(wàn)開發(fā)人員使用 Gemini 模型，用戶數(shù)量已經(jīng)達(dá)到 20 億，如今皮查伊再提「Gemini 時(shí)代」，目標(biāo)是將其集成到所有產(chǎn)品中，為用戶帶來全新體驗(yàn)，也為創(chuàng)造者、開發(fā)者、創(chuàng)業(yè)公司創(chuàng)造新的機(jī)會(huì)。

目前最新的 Gemini 1.5 Pro 支持 100 萬(wàn) token 文本量，今年晚些時(shí)候據(jù)稱這個(gè)數(shù)字將會(huì)達(dá)到 200 萬(wàn)，能夠同時(shí)處理 2 小時(shí)的視頻、22 小時(shí)的音頻、超過 60,000 行代碼或超過 140 萬(wàn)個(gè)單詞。此外，大會(huì)還宣布了基于 Gemini 1.5 Pro 的 Gemini Advanced，據(jù)稱它可以處理「多個(gè)大型文檔，總計(jì)最多 1500 頁(yè)，或匯總 100 封電子郵件」，還支持 35 種語(yǔ)言和 150 多個(gè)國(guó)家 / 地區(qū)。

不得不說，在文本量方面，Gemini 確實(shí)很卷，「朝著將任何輸入轉(zhuǎn)為任何輸出的目標(biāo)邁出了一大步」。

安全永遠(yuǎn)是重中之重自 AI 誕生之初以來，關(guān)于如何辨別 AI 生成內(nèi)容的爭(zhēng)論就一直沒有停止。Google 的對(duì)策是通過 SynthID，為 AI 生成的圖像和音頻添加不可見的水印，使其更易于區(qū)分，未來 Google 將會(huì)把這一范圍推廣到文本及視頻中，并在接下來的幾個(gè)月里，通過更新生成式 AI 工具包開源 SynthID 文本水印，幫助更多開發(fā)人員更輕松地負(fù)責(zé)任地構(gòu)建 AI。

Gemini 融入其中后，Android 會(huì)在通話過程中，檢測(cè)到可疑活動(dòng)時(shí)發(fā)出警告，例如被要求提供您的社會(huì)安全號(hào)碼和銀行信息，屬于是直接把「反詐中心」裝手機(jī)上了。還有無障礙功能 TalkBack 也將通過 Gemini Nano 增強(qiáng)，圖像描述將更加清晰和豐富，幫助視力不佳的用戶通過語(yǔ)音反饋更好地操作手機(jī)，體現(xiàn)出 Google 一貫的人文關(guān)懷。

而對(duì)于 Google 今晚的表現(xiàn)，英偉達(dá) NVIDIA 研究經(jīng)理 Jim Fan 的評(píng)價(jià)，十分中肯。Google 新發(fā)布的模型似乎是多模態(tài)輸入，但不是多模態(tài)輸出的 Imagen3 和 Music AI Sandbox 仍然作為獨(dú)立組件與 Gemini分離。將所有模態(tài) I/O 原生合并是不可避免的未來。它可以執(zhí)行任務(wù)，如「使用更機(jī)器人化的聲音」「編輯這幅圖像」「生成一致的漫畫條帶」。而且還不會(huì)在模態(tài)邊界上丟失信息，例如情感和背景聲音，全新模型打開了新的上下文能力，用戶也能通過少量示例教導(dǎo)模型，并以新穎的方式結(jié)合不同的意義。

GPT-4o 并不完美，但它正確地掌握了形式因素，用安德烈的 LLM- 作為操作系統(tǒng)的比喻來說：我們需要模型本地支持盡可能多的文件擴(kuò)展名。Google 做對(duì)了一件事：他們終于在將人工智能整合到搜索框中做出了認(rèn)真的努力。Gemini 不必是最好的那一個(gè)，但卻可以成為最廣泛使用的一個(gè)。

本文由人人都是產(chǎn)品經(jīng)理作者【愛范兒】，微信公眾號(hào)：【愛范兒】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App