Gemini的展示是剪輯造假?我們親測了一下,發現…

0 評論 3492 瀏覽 2 收藏 12 分鐘

近日,谷歌深夜炸場,推出了原生多模態大模型Gemini,并在視頻中展示了Gemini的強大功能。不過,有網友對視頻發出質疑,認為視頻是多次嘗試和挑選后“精心剪輯”的節目效果,谷歌也表明實現這樣的多模態交互過程需要經過多步圖片和提示詞調試。那么,谷歌所擺出的Gemini的能力,是否真的站得住腳?不妨來看看本文的親測結果。

谷歌深夜炸場,隆重推出他們史上“規模最大、能力最強”的原生多模態大模型Gemini 1.0。并稱已在多項基準測試中打敗GhatGPT,綜合能力稱霸目前市面上所有AI大模型。

官方放出的一段6分22秒演示視頻更是震撼:Gemini能流暢而準確地識別出視頻中出現的事物、教授中文發音、玩猜謎游戲、根據畫的樂器播放音樂….一波互動簡直無限接近于人。

不過很快,這支視頻就被人說并非實時錄制,而是多次嘗試和挑選后“精心剪輯”的節目效果。

谷歌后續自己放出的博客文章中也顯示,實現這樣的多模態交互過程需要經過多步圖片和提示詞調試。

比如“喂”了多張手勢圖片后,讓Gemini回答這是在做什么,提示思路是游戲。而視頻中僅面對手勢動作,Gemini就主動表示“我知道你在玩剪刀石頭布”。

再比如排出太陽、地球和土星照片問Gemini是否為正確順序,同樣提示要考慮到太陽的距離并要求解釋原因??梢曨l里的 Gemini又是在沒有任何參考的情況下糾正了排序。

除此之外,對于谷歌自豪亮出的,Gemini Ultra在MMLU( 大規模多任務語言理解 )測試中跑分超過 GPT-4和人類專家這件事,人們冷靜下來仔細一看,也發現了些小心思:

在Gemini Ultra 90.0%的分數下面,非常不起眼地標著CoT@32,意思是“使用了思維鏈提示技巧、嘗試32次選最好結果”;而GPT-4 86.4%分數下卻是5-shot,表面只進行“5次示例且無提示詞”——谷歌給自己和對家安排的標準都不一樣,根本無法公平公正地比較。

Hugging Face 技術主管Philipp Schmid直接用谷歌60頁Gemini 技術報告中的數據重新作圖。并在X發文指出,如果同樣采用5-shot,Gemini Ultra的分數只有83.7%,實則是不如GPT-4的。

不過好在如果也給GPT-4來個32次嘗試+思維鏈提示,還是Gemini勝。

谷歌耍了些揚長避短的小花樣,但也不至于完全撒謊。

在上圖中也可以看出,這次發布的 Gemini1.0全系列里,除了“超大杯”Gemini Ultra外,“大杯”Gemini Pro也在八項基準測試的六項中打敗了對標的GPT-3.5。

現在,用戶能玩到的Google Bard里接入的就是Gemini Pro。

于是硅星人也趕緊上手操作了一下,實測它和最新版本的GPT-4V到底哪個更厲害。

由于Google官方表示目前Gemini Pro只能為170個國家和地區提供英語服務,所以咱們先用英文提問。

首先熱個身,試試最簡單的文本生成能力:讓Bard和ChatGPT分別寫一段夸獎自己的Rap,并且和對方battle,來個下馬威。

Bard一頓猛烈輸出,主歌、副歌、橋接、結尾幾大說唱歌曲元素一個不落。表示自己是真正的OG,擁有更龐大的知識庫還能訪問網絡,但GPT只是“困在過去”。(不過現在GPT-4已經集成了微軟Bing搜索,也可以訪問實時信息。)

ChatGPT這邊相對精簡,主打自己是一個快速沖刺的人工智能,“Google有名氣,但我有真本事”。

好吧,都挺會說的。不過既然Gemini最標榜的是自己的原生多模態能力,那就在多模態上讓它倆比比。

拿一張今年9月剛上市的iPhone 15 Pro Max圖片,讓它們認認這是什么。

Bard準確識別出了機型,還把優勢、外觀、各項組件參數一一說明。

ChatGPT這邊有點拉垮,只說這些是較高級的iPhone手機,描述了屏幕顯示和顏色等表面信息。

第一輪看起來,Bard的圖像識別和信息對齊表現更勝一籌。

再考考它們識數,數數圖里總共有幾片葉子。

這次換Bard表現不佳,先是說確保過每片葉子只數一遍后,看到有6片。讓它再試試吧,直接數出來7片,還出現了“幻視”,把這7片的顏色大小列了出來。

ChatGPT相對冷靜,5片葉子一次就數對了。

下面來到小學數學題。

谷歌特別提到Gemini可以作為孩子的學習伙伴,幫助解決數學、物理等學科難題。我們就讓它和GPT簡單算一下d角度數。

Bard好像還沒從數葉子那兒回過神來,整出來個300度。邏輯是:完整內角和360度,圖片里就標出來一個角的數值300度,所以這鐵定就是你問的答案——忽略了d角。

咱就是說,這個“學習伙伴”有點迷糊啊……

而ChatGPT這邊繼續穩定發揮,得出60度正確答案。

不過,我們決定再給Bard一次機會,讀圖表。

這是一張來自美國勞工部的柱狀圖,顯示截至2023年10月一年內消費者價格指數(CPI)在食品、能源及其它類別中的百分比變化。左邊為Bard給出的答案,右邊來自ChatGPT。

這次要好好表揚一下Bard了,不僅解釋了CPI指數的含義,給出幾個類別百分比變化的確切數值,還簡要分析了當下通脹情況,即給出了表格數據之上的分析結論。

相比之下,ChatGPT的答案就比較淺層,讀出的數值也僅僅是一個范圍。

最后,雖然官方稱Gemini Pro還沒準備好提供中文服務,但鑒于Bard中文水平一直還不錯,我們還是很想讓它和ChatGPT比拼一把。

而且準備祭出最近相當火的——“練心眼子”系列。

這一比不要緊,Bard這嘴皮子功夫簡直了,能啟發一大批職場小白,甚至感覺IP地址來自山東。

而ChatGPT的回答雖然也還可以,但此刻在Bard的襯托下,就像個老實巴交、不善言談的職場打工人。

這還沒有正式推出中文服務,等官宣更多語言和地區,不知道 Bard的中文水平會不會更加炸裂?

總而言之,雖然一整套實測下來,Bard在一些方面還是略有不足,但也還要記得,這只是對標GPT-3.5的Gemini Pro版本,真正對抗GPT-4的最高階Gemini Ultra還沒有釋出。

并且,Gemini 1.0 的問世打破了ChatGPT一家獨大的局面,讓用戶們可以根據需求有更多選擇。市場的良性競爭也有助于AI大模型領域整體的創新發展。

并且,Google Bard現在還是免費的!

如果繼續保持下去,等它越來越強的時候,你還愿意每月花20刀訂閱ChatGPT嗎?

作者:Jessica

來源公眾號:硅星人Pro(ID:Si-Planet),硅(Si)是創造未來的基礎,歡迎來到這個星球。

本文由人人都是產品經理合作媒體 @硅星人 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!