在线观看无码不卡AV,狠狠综合久久久久综合网小蛇

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

谷歌祭出多模態(tài)“殺器”，Gemini真能碾壓GPT-4嗎？

元宇宙日爆

2023-12-11

0 評(píng)論 1089 瀏覽 1 收藏

14 分鐘

最近，谷歌發(fā)布了多模態(tài)大模型Gemini，甚至被谷歌以“能力最強(qiáng)”對(duì)外推出。那么，Gemini是否真的強(qiáng)于OpenAI的GPT-4？本文作者實(shí)測(cè)了Bard——已植入了精調(diào)的Gemini Pro模型——的數(shù)學(xué)能力，不妨一起來(lái)看看作者的分析和測(cè)評(píng)結(jié)果。

“最大”、最有能力”、“最佳”、“最高效”，谷歌為其12月7日新發(fā)布的多模態(tài)大模型Gemini冠上了好幾個(gè)“最”，與OpenAI GPT-4“比高高”的勝負(fù)欲呼之欲出。

區(qū)分為Ultra、Pro、Nano三個(gè)尺寸的Gemini，不僅號(hào)稱在各種“AI考試”中得了“高分”，演示視頻里顯示的Gemini簡(jiǎn)直就是“聽(tīng)說(shuō)讀寫”樣樣拿的“超級(jí)工具”。

按照官方說(shuō)法，Gemini Ultra最為強(qiáng)大，兼具多模態(tài)能力、專業(yè)性與準(zhǔn)確度，能以圖文、語(yǔ)音的形式輸入輸出不說(shuō)，具體還能批改數(shù)學(xué)作業(yè)，指導(dǎo)運(yùn)動(dòng)員的動(dòng)作與發(fā)力，還能夠執(zhí)行復(fù)雜的繪制圖表、編碼等任務(wù)，在MMLU（大規(guī)模多任務(wù)語(yǔ)言理解）測(cè)試?yán)锷踔痢俺搅巳祟悓＜摇薄?/p>

不過(guò)，目前能供C端普通用戶體驗(yàn)的是Gemini Pro版，按官方定位是“在各種任務(wù)上擴(kuò)展的最佳模型”，已集成至谷歌此前發(fā)布的對(duì)話機(jī)器人Bard中；“在設(shè)備上執(zhí)行任務(wù)的最高效模型”Gemini Nano將置入谷歌智能手機(jī)Pixel8 Pro；而“最大且最有能力，適用于高度復(fù)雜任務(wù)”的Gemini Ultra，谷歌的計(jì)劃是在明年年初開(kāi)放給開(kāi)發(fā)者和企業(yè)用戶。

那么，Gemini真的比GPT-4強(qiáng)嗎？

有網(wǎng)友發(fā)現(xiàn)，谷歌給出的Gemini Ultra“考試成績(jī)”用的是自家的“試卷”（測(cè)試方法）；而彭博社指出，Gemini的演示視頻非實(shí)時(shí)，網(wǎng)友們也覺(jué)得該視頻有剪輯痕跡。

《元宇宙日爆》實(shí)測(cè)了Bard的數(shù)學(xué)能力，該對(duì)話機(jī)器人已植入了精調(diào)的Gemini Pro模型，結(jié)果顯示，Bard對(duì)復(fù)雜的數(shù)學(xué)題仍有理解錯(cuò)誤，尤其是識(shí)圖方面。

一、谷歌展示Gemini“聽(tīng)說(shuō)讀寫”能力

Gemini是谷歌從頭構(gòu)建的多模態(tài)人工智能大模型。盡管在時(shí)間上落后GPT-4許多，但被谷歌以“能力最強(qiáng)”對(duì)外推出，“強(qiáng)”的一面是Gemini的多模態(tài)能力。

它能夠同時(shí)處理和解析文本、圖像、音頻、視頻以及代碼等多種數(shù)據(jù)類型，也就是說(shuō)，用戶可以將各種形式的信息輸入給Gemini，它不僅能理解，還能分析甚至按你的需求處理任務(wù)。

目前，Gemini還在1.0版，按規(guī)模不同分為Ultra、Pro和Nano。Ultra版本是適用于高度復(fù)雜的任務(wù)，而Pro版本則專注于多任務(wù)處理，Nano版本則針對(duì)移動(dòng)設(shè)備上的應(yīng)用。三種版本有針對(duì)性地適用于多個(gè)不同場(chǎng)景，且在多項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出超群實(shí)力。

谷歌官方放出的宣傳視頻展示了Gemini超強(qiáng)的多模態(tài)能力，相信看完后你會(huì)驚呼。

“超級(jí)模型”Gemini Ultra的背后有谷歌發(fā)布的測(cè)試數(shù)據(jù)支撐。在32個(gè)廣泛用于測(cè)評(píng)大型語(yǔ)言模型（LLM）的學(xué)術(shù)基準(zhǔn)中，它在30個(gè)上性能超過(guò)了大模型領(lǐng)域當(dāng)前的技術(shù)水平。

Gemini Ultra號(hào)稱以90.0%的得分成為第一個(gè)在MMLU（大規(guī)模多任務(wù)語(yǔ)言理解）上“勝過(guò)人類專家的模型”，該測(cè)試使用數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理學(xué)等57個(gè)學(xué)科的組合來(lái)測(cè)試世界知識(shí)和解決問(wèn)題的能力。Gemini在包括文本和編碼在內(nèi)的一系列基準(zhǔn)測(cè)試中超越了目前的技術(shù)水平。

MMLU是一種針對(duì)大模型的語(yǔ)言理解能力的測(cè)評(píng)，包含了57個(gè)關(guān)于人類知識(shí)的多選題回答任務(wù)，涵蓋了初等數(shù)學(xué)、美國(guó)歷史、計(jì)算機(jī)科學(xué)、法律等，難度覆蓋高中水平到專家水平的人類知識(shí)，是目前主流的的大模型語(yǔ)義理解測(cè)評(píng)之一。

從谷歌給出的測(cè)試結(jié)果來(lái)看，Gemini在理解復(fù)雜數(shù)據(jù)和執(zhí)行高級(jí)任務(wù)方面將對(duì)GPT-4構(gòu)成強(qiáng)有力的競(jìng)爭(zhēng)。

谷歌稱Gemini在MMLU測(cè)評(píng)中首次超越人類專家

由于從一開(kāi)始構(gòu)建就基于多模態(tài)訓(xùn)練，Gemini Ultra理論上對(duì)文字、圖片、語(yǔ)音、視頻、代碼等各種形態(tài)的信息都能理解，這就給AI應(yīng)用和使用場(chǎng)景帶來(lái)了更多可能性。

例如在教育領(lǐng)域，借助Gemini Ultra的多模態(tài)推理技能，凌亂的手寫筆記能被理解，學(xué)生解題時(shí)出錯(cuò)的步驟能被發(fā)現(xiàn)，然后給出題目的正確解答和過(guò)程。這一套下來(lái)，不能說(shuō)要淘汰教師吧，至少老師們也得到了一個(gè)高能AI助手。

Gemini可以批改學(xué)生作業(yè)

在視頻的理解與推理上，Gemini Ultra甚至展現(xiàn)出“足球教練”的素養(yǎng)，能分析運(yùn)動(dòng)員的動(dòng)作與發(fā)力，還會(huì)給出具體的改進(jìn)建議。

Gemini可理解視頻內(nèi)容并給運(yùn)動(dòng)員提供指導(dǎo)建議

對(duì)于復(fù)雜的圖像理解、代碼生成、指令跟蹤，Gemini Ultra也不在話下。輸入圖像與提示次“我希望你采用左上角子圖中描繪的函數(shù)，將其乘以1000，然后將其添加到左下子圖中描繪的函數(shù)中，生成matplotlib代碼單個(gè)結(jié)果圖”后，Gemini Ultra能夠完美的執(zhí)行逆圖形任務(wù)來(lái)推斷生成繪圖的代碼、執(zhí)行額外的數(shù)學(xué)轉(zhuǎn)換并生成相關(guān)代碼。

從谷歌給出的這些案例看，GeminiUltra簡(jiǎn)直是“地表最強(qiáng)”的大模型，觀眾朋友們最想知道的是，這個(gè)大模型界的“超級(jí)賽亞人”，咱啥時(shí)候能用上？

按照谷歌的披露，從12月6號(hào)開(kāi)始，Bard就會(huì)上載Gemini Pro的精細(xì)調(diào)整版本，用于更高級(jí)的推理、規(guī)劃、理解等，這是Bard自推出以來(lái)的最大升級(jí)。

需要注意的是，集成了Gemini Pro的Bard只提供英語(yǔ)支持，可在全球170多個(gè)國(guó)家和地區(qū)使用，計(jì)劃在不久的將來(lái)擴(kuò)展到不同的模態(tài)，支持新的語(yǔ)言和地區(qū)。也就是說(shuō)，中文用戶目前還無(wú)法完美體驗(yàn)Gemini Pro。

Gemini Nano最先在谷歌的Pixel 8 Pro智能手機(jī)上應(yīng)用，從WhatsApp開(kāi)始，明年將支持更多的消息應(yīng)用。

在未來(lái)幾個(gè)月中，Gemini還將在更多的產(chǎn)品和服務(wù)中推出，包括Search、Ads、Chrome和Duet AI。也就是說(shuō)，谷歌的搜索引擎中也將輸入Gemini能力。

至于“最強(qiáng)”的GeminiUltra，普通用戶還得等等。谷歌說(shuō)，它正在進(jìn)行信任和安全性檢查，在推出前還得通過(guò)對(duì)人類反饋的微調(diào)和強(qiáng)化學(xué)習(xí)（RLHF）的進(jìn)一步改進(jìn)。

在這個(gè)過(guò)程中，GeminiUltra會(huì)有選擇地給客戶、開(kāi)發(fā)人員、合作伙伴以及安全和責(zé)任專家拿來(lái)早期實(shí)驗(yàn)，等待反饋，然后在明年初向開(kāi)發(fā)人員和企業(yè)客戶開(kāi)放。

二、Ultra的MMLU“試卷”疑為谷歌版???????????

展示的是最強(qiáng)的GeminiUltra，但推出和使用要緩一緩，谷歌這樣的操作很快就惹來(lái)了懷疑，真比GPT-4強(qiáng)嗎？

彭博社就出來(lái)“打臉”說(shuō)，谷歌的模型和OpenAI相比還仍有差距，現(xiàn)在這能力也僅憑演示，而視頻演示還是錄制的，又不實(shí)時(shí)，很可能是“精心調(diào)整的文本提示與靜態(tài)圖像”。彭博社還指出，Gemini的回答需要其他信息的輔助，在真正的交互中需要暗示性很強(qiáng)的提示。

圍觀演示視頻的網(wǎng)友們也覺(jué)得，視頻中有很明顯的剪輯痕跡，“強(qiáng)大的能力存在水分”。

而谷歌給Gemini Ultra考試的MMLU測(cè)評(píng)，被網(wǎng)友指出用的是自家出的“試卷”。在57個(gè)科目的多選題測(cè)試中，得了90分的Ultra，底下分明標(biāo)著“CoT@32*”，這是谷歌自己調(diào)試的測(cè)評(píng)方案。如果采用和GPT-4同樣的標(biāo)準(zhǔn)，它的得分只有83.7，還不如得分86.4的GPT-4。

Gemini Ultra在谷歌調(diào)整的測(cè)試方案中得分90

學(xué)術(shù)上的事情太專業(yè)，好在谷歌已經(jīng)把Gemini植入了Bard，盡管用的是Utral的低配版Pro，但也號(hào)稱能多任務(wù)處理，這是普通大眾最能直接測(cè)試Gemini的方式了。

《元宇宙日爆》直接選用了數(shù)學(xué)題，因?yàn)镃hatGPT對(duì)數(shù)學(xué)就不太精通，而有唯一正確性的數(shù)學(xué)被OpenAI視作通往AGI的基礎(chǔ)，咱來(lái)看看被輸入Gemini能力的Bard是否擅長(zhǎng)數(shù)學(xué)。

我們統(tǒng)一用英文進(jìn)行提問(wèn)，題1為求算圓錐體積，題2為稍難的幾何證明題。

測(cè)試結(jié)果表明，Gemini Pro能夠準(zhǔn)確識(shí)別圖像以及圖片內(nèi)的文字，也能夠正確解決簡(jiǎn)單數(shù)學(xué)問(wèn)題，但在處理復(fù)雜數(shù)學(xué)題時(shí)，仍然存在明顯錯(cuò)誤。題2中的錯(cuò)誤就很明顯，Bard在第2步將EG與AB兩條線錯(cuò)誤地證明為相互垂直。

有Gemin Pro能力的Bard做數(shù)學(xué)題還不完美

這難道是因?yàn)锽ard用的是Gemini Pro而顯得不夠強(qiáng)大？那咱只能等Ultra加入再測(cè)試了。

而會(huì)引入智能手機(jī)Pixel 8 Pro的Gemini Nano，將應(yīng)用在“記錄器摘要”和“Gboard智能回復(fù)”兩項(xiàng)功能中。

按谷歌說(shuō)法，即使手機(jī)不連網(wǎng)，記錄器也可以獲得手機(jī)對(duì)話錄音、采訪、演示等內(nèi)容的摘要；而智能回復(fù)功能類似掛斷電話后的自動(dòng)回復(fù)，Gemini Nano可以識(shí)別來(lái)信的內(nèi)容，生成對(duì)應(yīng)的回復(fù)。不過(guò)，這兩項(xiàng)功能，目前也只支持英文文本的識(shí)別。

按照DeepMind曾提出的AGI評(píng)估框架，在AGI-1階段，人工智能將能夠跨領(lǐng)域和跨模態(tài)地進(jìn)行學(xué)習(xí)和推理，在多個(gè)領(lǐng)域和任務(wù)上表現(xiàn)出智能，如問(wèn)答、摘要、翻譯、對(duì)話等，實(shí)現(xiàn)與人類和其他AI進(jìn)行基本的溝通和協(xié)作，感知和表達(dá)簡(jiǎn)單的情感和價(jià)值。

綜合Google官方發(fā)布與實(shí)際測(cè)試體驗(yàn)來(lái)看，值得期待并有希望超越GPT-4模型的仍是尚未公開(kāi)發(fā)布的Ultra版本，如果這個(gè)版本的多模態(tài)能力真能如演示般表現(xiàn)，那么谷歌距離它定義的AGI也就不遠(yuǎn)了。

作者：木沐，編輯：文刀

來(lái)源公眾號(hào)：元宇宙日爆（ID：yuanyuzhouribao），在這里，看見(jiàn)未來(lái)。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @元宇宙日爆授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App