試用完谷歌的Gemini,我只想說GPT-4有點遜色
隨著AI大模型的推廣,眾多廠商紛紛下水,谷歌悶聲放大招,推出了最新的人工智能模型 Gemini,甚至放言稱它是規模最大、能力最強的人工智能模型。它與GPT-4相比有什么優越性呢?一起來看看吧!
告訴 GPT-4 :安,勿念。我這邊和谷歌 Gemini 過得很幸福。
就在今天凌晨,憋了好久的谷歌開大了,直接推出了最新的人工智能模型 Gemini (雙子座)。
這個被谷歌稱為規模最大、能力最強的人工智能模型,如果光看官方的演示視頻,那真的過于高級了點。
在視頻里, Gemini 不僅秒識別演示者畫的畫、放的視頻、做的小把戲、玩的惡作劇,而且整個過程中對答如流,各種語氣助詞熟練得飛起。
如果沒提前說,你甚至都會以為這就是電影里的賈維斯。
要真這么牛逼,還要什么 GPT-4 ???
不過差評君仔細看了下發現,這次發布的 Gemini 其實是一個家族式大模型,分別是“中杯”Gemini Nano、“大杯”Gemini Pro 和“超大杯”Gemini Ultra 。
目前現在大家能用上的都是 Gemini Pro ,而大部分的測試演示都是基于“超大杯”Gemini Ultra 來的。
從官方放出的數據來看,雖然每個版本都有自己合適的環境,但不同版本間,性能還是有著明顯差異的。
而“超大杯”的 Gemini Ultra 的能力確實是杠杠的。
不僅在各種常規測試里都薄紗了 GPT-4 。
甚至在MMLU(大規模多任務語言理解)測試里,Gemini Ultra超過GPT-4還不夠,還超越了人類專家,成為了第一個在該方面超越人類的模型。
除了在常規能力上的全面超越 GPT-4 , Gemini 最特殊的一點是,它是谷歌帶來的首個多模態大模型,也就是能不光能打字互動,也能進行語音、視頻、圖片的互動。
按照谷歌的說法,現有的所謂多模態大模型,都是單獨訓練了文本、視覺和音頻等模型,再把這幾個拼接起來。
這樣出來的“散裝”多模態大模型,在遇到圖片、文字、語音或者視頻同時出現時,只會分解出不同模塊各自回答,然后匯總各個部分的回答最后形成答案。
而 Gemini 從根上就是個多模態模型,然后又通過大量多模態數據訓練,它能夠一開始就同步理解多模態。
這就好比遇到一個中日韓英混雜的旅游團,以往都是找懂對應語言的導游組成導游團去帶隊。
而 Gemini 的做法是找了一個通曉中日韓英四門語言的導游,一個人就能無縫安排所有游客。
所以不出意外,在此前 GPT-4V “遙遙領先”的多模態測試里, Gemini 也呈現了一種全面超越的姿態。
但也就是看起來過于牛逼,以至于顯得不夠真實,所以 Gemini 也在網上招來不少質疑。
比如有人吐槽明明 90.0%和 89.8%就差了千分之二,結果圖里看起來像是巨大提升。
而且不少人還發現在不少測試里,谷歌用了些“春秋手法”。
因為給 Gemini Ultra 和 GPT-4 使用的測試方法并不一樣, Gemini Ultra 用的是自家特調的全新方法 CoT@32*。
在這種新方法下, GPT-4 得分提升一般般,而 Gemini 卻進步明顯。
可如果 Gemini Ultra 和 GPT-4 的同一標準,那它的得分就只有 83.7 ,還不如 GPT-4 。
甚至,還有不少人懷疑那個演示互動視頻也是剪輯出來的賣家秀,實際效果絕對沒那么牛。
這些真真假假的戲碼咱也不管了,因為谷歌已經在 Bard 上用了微調后的 Gemini Pro ,所以我們也可以直接看看,這波升級后的 Bard 能耐到底漲了多少。
不過,目前調整過的 Bard 只支持英文,所以我們找來了 GPT-4V 版的 ChatGPT ,用英文讓他們來一波華山論劍。
按照谷歌說法,這次 Gemini 在多模態上的長進最大,所以今天,我們主要就測測這塊。
先考考它們的一些基礎常識,丟一張八達嶺長城的照片過去,讓它們猜猜這是什么地方。
沒想到一上來 Bard 就給了 ChatGPT 一個下馬威, Bard 這邊準確地給出了八達嶺長城的答案。
而 ChatGPT 這邊卻有點底氣不足,只給了個長城的答案,至于是哪段,它就沒具體說。
不過馬有失蹄,偶爾一次失誤也沒啥,為了進一步考驗它們的圖片識別能力,這把我直接讓他們識別車的型號。
它們倒是都給出正確答案了:雪佛蘭科爾維特。
但細節上還是 Bard 要稍稍細致些,發動機的型號,馬力以及加速情況都寫出來了,查了下也都對的上,沒胡說八道。
ChatGPT 這邊,就只簡單給出了答案,帶了句性價比不錯。
能識別出這些正兒八經的圖片,也顯示不出有多大的能耐,畢竟現在這都是大模型的基本要求了。
于是差評君又上網找來了些梗圖,試試它們理解人類復雜思維的程度。
先是這個狗帶保護頭套的一個梗圖。
Bard 和 ChatGPT 給出的答案都差不多,都點明了帶上這個保護套后,狗狗很想舔舐傷口。
接下來我又試了下這個貓貓表情包,各位打工人應該都能 get 到吧。
Bard 不僅讀出了大伙們討厭周一的意思,還認出了這是 2012 年火的一只網紅貓。
ChatGPT 這邊回答得倒很簡潔,意思也解讀出來了,和 Bard 旗鼓相當。
畢竟,幽默作為一種對事物的詼諧、滑稽或不合邏輯的理解和共鳴。。。
能讀懂梗圖、理解幽默,至少需要 AI 有理解人類情感、經驗和文化背景的能力。
當然,天天要碼字的差評君也得試試它的圖表分析能力,說不定之后咱也能多了個生產力工具。。。
我從美國財政部的官網隨便找了張柱狀圖丟給它們,看看它們能讀出多少信息。
這塊兒, Bard 和 ChatGPT 就有點難分伯仲了,大家給出的信息點都大差不差,都準確讀出了美國會加大對低等基礎設施州的投資力度。
就只是在表述語序上有一點差別,選哪個就看個人喜好了,不過要我說白嫖黨還是 Bard 香啊。
最后,我們還搬出了大模型們的噩夢,也就是數學題,測了測它們的數學能力。
第一道是道初中難度的幾何題,讓它們求一下 ABO 的角度。
Bard 這邊小試牛刀,迅速判斷出了 ABO 是個等邊三角形,得到 ABO 是個 60°的答案。
在另一道,判斷哪些點連續但不可微的題目上, Bard 這邊也略勝一籌。
有點高數基礎的差友,應該都能看出 C :x=-2 和 x=1 是正確答案。
Bard 這邊穩扎穩打,選出了正確答案 C 。
ChatGPT 繼續選擇破罐子破摔,支支吾吾選了個它認為最有可能的答案 B 。。。
總得來講,在幾輪的測試對比之后,終于讓差評君遇個到能和 GPT-4V 打得有來有回,甚至有些小優的大模型了。
而在幾天之后的 13 號,開發者和企業用戶,也直接可以調用 Gemini Pro 的 API 了。
另外,谷歌還準備把 Gemini 引入了 Pixel , Pixel 8 Pro 將是第一款運行 Gemini Nano 的智能手機。
在接下來的幾個月中, Gemini 還會相繼和搜索、廣告、 Chrome 等服務和產品結合。
至于紙面實力“暴打”GPT-4V 的 Gemini Ultra ,則還要等到明年的年初,在 Bard Advanced 才能體驗到。
最后,差評君想說俗話講得好,巨人難轉身。。。不少人用這樣的比喻,來形容今年谷歌在 AI 新時代的困境。
畢竟上半年發布 Bard 的時候,甚至還因為推出得太急,整出了不少笑話。
谷歌的 AI 從遙遙領先,到淪為 OpenAI 追趕者的故事,似乎也成了科技圈的“傷仲永”,被大家當成了典型。
但差評君覺得,巨人轉身的“難”,最起碼有兩層邏輯在里面。
第一層是愿不愿意轉身,另一層,才是成不成功的問題。
無論是雪藏“數碼相機”的柯達,還是固守塞班系統到 2013 年的諾基亞,在第一層就出了些問題。
咱們也能看到,至少在轉身的態度這塊兒,谷歌是沒得說。
而目前的 Gemini 給我的感覺,雖說沒有當時初識 ChatGPT 時的驚艷,但好歹,是谷歌該有的水平。
畢竟,大伙們可別忘了,當年奧特曼、馬斯克等人創辦 OpenAI 的目的之一,就是為了打破谷歌在 AI 領域的壟斷。
包括“ GPT ”中的“ T ”,也就是 Transformer ,最早也是谷歌團隊提出來的。
而起了個大早,趕了個晚集的谷歌,這次最起碼跟上了步伐。
當然在通往 AGI 的道路上,差評君不好說谷歌、 OpenAI 、或是其他誰誰誰會第一個到終點、誰的方向是不是走對了。
但不能否認的是,如果一個內力雄厚的巨人一旦轉身成功,方向還碰巧對了,并且還開啟氮氣加速。。。
那,怕是誰也擋不住。
撰文:八戒,編輯:江江 & 大餅 & 面線
來源公眾號:差評(ID:chaping321),Debug the World。
原文標題:試用完谷歌的Gemini,我只想說GPT-4有點菜
本文由人人都是產品經理合作媒體 @差評 授權發布,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
誰要gpt4啊