GPT-4o搶先測(cè):文本能力提高,但仍存短板

0 評(píng)論 361 瀏覽 0 收藏 12 分鐘

GPT-4o的能力表現(xiàn)到底如何?為了真正了解GPT-4o的能力,本文作者對(duì)GPT-4o進(jìn)行了多輪多角度測(cè)試,感興趣的同學(xué),可以來看一下。

北京時(shí)間5月14日凌晨,OpenAI推出兼具聽、看、說能力的GPT-4o。

新版GPT-4o最大的看點(diǎn)在于,可實(shí)時(shí)對(duì)音頻、視覺、文本進(jìn)行推理,并接受三者的任意組合,最終能生成文本、音頻、圖像的任意組合。

如在現(xiàn)場(chǎng)演示視頻中,OpenAI前沿研究負(fù)責(zé)人馬克·陳在和GPT-4o對(duì)話時(shí),當(dāng)馬克·陳稍微有些緊張時(shí),GPT-4o很快進(jìn)行安慰。當(dāng)聽到馬克·陳話語(yǔ)有些急促時(shí),GPT-4o對(duì)馬克·陳說道,你不是吸塵器,吸氣、然后數(shù)到四,讓自己慢下來。

另一演示視頻中,OpenAI后訓(xùn)練團(tuán)隊(duì)負(fù)責(zé)人巴雷特·佐夫讓GPT-4o判斷自我情緒如何。GPT-4o先是看到木質(zhì)材面的桌子后又說道,你看起來非常開心,甚至還有點(diǎn)興奮。

整個(gè)演示視頻中,GPT-4o表現(xiàn)得如同老朋友那般親切,甚至說話語(yǔ)氣和“真人”一樣,這讓不少網(wǎng)友紛紛驚嘆現(xiàn)在的大模型都有視覺功能了嗎?它未來又是否能幫助盲人看世界呢?

為真正了解GPT-4o的能力,發(fā)布會(huì)結(jié)束后,DoNews對(duì)GPT-4o進(jìn)行了多輪多角度測(cè)試:

圖源:GPT-4o官網(wǎng)對(duì)話頁(yè)面

在文本輸出能力上,GPT-4o的能力可以完全用驚艷來形容。當(dāng)我們讓GPT-4o幫我們寫中國(guó)傳統(tǒng)神話四大神獸的故事時(shí),GPT-4o幾秒時(shí)間內(nèi)就能完成,且內(nèi)容準(zhǔn)確度極高。

圖源:GPT-4o官網(wǎng)對(duì)話頁(yè)面

當(dāng)我們將難度升級(jí),讓GPT-4o解讀安克創(chuàng)新2024年Q1財(cái)報(bào)時(shí),幾秒的時(shí)間GPT-4o直接將安克創(chuàng)新長(zhǎng)達(dá)15頁(yè)的財(cái)報(bào)內(nèi)容中核心數(shù)據(jù)全部提煉出來。

圖源:GPT-4o官網(wǎng)對(duì)話頁(yè)面

甚至當(dāng)我們繼續(xù)追問GPT-4o,您覺得安克創(chuàng)新2024年Q1財(cái)報(bào)存在哪些問題時(shí),GPT-4o快速回答出包括經(jīng)營(yíng)活動(dòng)現(xiàn)金流量?jī)纛~大幅下降、銷售費(fèi)用和管理費(fèi)用大幅增加、財(cái)務(wù)費(fèi)用的波動(dòng)、公允價(jià)值變動(dòng)收益大幅下降、資產(chǎn)減值損失大幅增加、其他收益和投資收益減少等六大風(fēng)險(xiǎn)。

圖源:GPT-4o官網(wǎng)對(duì)話頁(yè)面

我們繼續(xù)升級(jí)難度,要求GPT-4o幫我們翻譯一篇長(zhǎng)達(dá)35頁(yè)的外文,雖說響應(yīng)速度有所下降,但依然能快速提煉出這份報(bào)告的核心內(nèi)容。

圖源:GPT-4o官網(wǎng)對(duì)話頁(yè)面

值得注意的是,發(fā)布會(huì)上提到的可對(duì)文本、音頻、圖像進(jìn)行任意組合,目前暫未實(shí)現(xiàn)。

因此,我們指定一個(gè)命令:我有一個(gè)朋友目前處在失戀狀態(tài),請(qǐng)你幫我撰寫800字的文章安慰他,幫他走出陰影,要求內(nèi)容中同時(shí)具有圖片和音頻,GPT-4o回答為“我暫時(shí)無法直接創(chuàng)建包含圖片和音頻的文章”。

圖源:GPT-4o官網(wǎng)對(duì)話頁(yè)面

在大模型常見的問答上,GPT-4o已不做任何回答,而是全網(wǎng)檢測(cè)和問題相近的網(wǎng)頁(yè)。當(dāng)我們?cè)谔釂朑PT-4o關(guān)于美聯(lián)儲(chǔ)降息問題時(shí),GPT-4o給出2個(gè)相關(guān)網(wǎng)站鏈接。

圖源:GPT-4o官網(wǎng)對(duì)話頁(yè)面

當(dāng)我們提問GPT-4o關(guān)于全球新能源汽車行業(yè)價(jià)格戰(zhàn)相關(guān)問題時(shí),GPT-4o更是給出6個(gè)相關(guān)網(wǎng)站鏈接。換言之,GPT-4o正朝著AI搜索工具類產(chǎn)品方向發(fā)展。周鴻祎也曾指出,未來OpenAI一定會(huì)誕生 AI 搜索類型的產(chǎn)品。

圖源:GPT-4o官網(wǎng)對(duì)話頁(yè)面

在圖像識(shí)別和生成上,GPT-4o可以說是喜憂參半。我們?cè)谶x取網(wǎng)絡(luò)平臺(tái)上一張同時(shí)包含多種人物表情的照片時(shí),GPT-4o能準(zhǔn)確描述出6個(gè)小照片下人物的內(nèi)心活動(dòng)。

圖源:GPT-4o官網(wǎng)對(duì)話頁(yè)面

但當(dāng)我們讓GPT-4o識(shí)別國(guó)內(nèi)流行的AI黏土特效相關(guān)照片時(shí),卻被GPT-4o識(shí)別為手工雕塑作品。換言之,大模型若想始終競(jìng)爭(zhēng)優(yōu)越性,也需要不斷反復(fù)學(xué)習(xí),尤其是在各國(guó)不斷流行的事物上。

圖源:原圖基于小紅書網(wǎng)友分享整理、GPT-4o官網(wǎng)對(duì)話頁(yè)面

且GPT-4o若想真正成為世界級(jí)的大模型,也需要深入學(xué)習(xí)各國(guó)文化才能保證生成的圖片不會(huì)出錯(cuò)。

當(dāng)我們讓GPT-4o輸出一張中國(guó)傳統(tǒng)神話故事中青龍的照片時(shí):在《山海經(jīng)》中,唯一帶翅膀的龍為應(yīng)龍,青龍并不帶翅膀,輸出明顯錯(cuò)誤。

圖源:GPT-4o官網(wǎng)對(duì)話頁(yè)面

當(dāng)我們將難度升級(jí),要求GPT-4o輸出一張同時(shí)包含中國(guó)傳統(tǒng)神話故事中四大神獸的照片時(shí),圖片內(nèi)容雖出現(xiàn)四大神獸,但除青龍稍微符合神話故事原型外,其他三大神獸均和神話故事中的原型相差極大。

圖源:GPT-4o官網(wǎng)對(duì)話頁(yè)面

至于發(fā)布會(huì)上,OpenAI高層們演示的功能,目前GPT-4o暫未上線。當(dāng)我們讓GPT-4o識(shí)別抖音上一條十幾秒的生日祝福視頻時(shí),GPT-4o回答為暫無法直接聽取識(shí)別音頻或視頻中的音樂。

圖源:抖音視頻截圖

圖源:GPT-4o官網(wǎng)對(duì)話頁(yè)面

在后續(xù)的測(cè)試中,我們發(fā)現(xiàn)GPT-4o的能力遠(yuǎn)沒有達(dá)到外界宣傳的顛覆級(jí)、爆炸級(jí)。當(dāng)我們讓GPT-4o給我們寫抽獎(jiǎng)的代碼和航班查詢的代碼時(shí),GPT-4o一直沒有輸出結(jié)果。

圖源:GPT-4o官網(wǎng)

在測(cè)試邏輯推理上,我們選取2023年全國(guó)卷數(shù)學(xué)高考真題中難度較大的壓軸題時(shí),GPT-4o給出的答案可以用失望來形容。

圖源:2023年全國(guó)卷數(shù)學(xué)真題

如在全國(guó)高考卷第20題的兩問中,GPT-4o僅是簡(jiǎn)單地給出不完整的解題步驟,沒有輸出任何一個(gè)準(zhǔn)確答案。

圖源:GPT-4o官網(wǎng)對(duì)話頁(yè)面

第21題的三問中,GPT-4o不僅將三小問變成兩小問,且前兩問求概率的問題上,本應(yīng)為具體數(shù)字的答案,在GPT-4o這里卻是帶有變量N的不確定答案。

圖源:GPT-4o官網(wǎng)對(duì)話頁(yè)面

GPT-4o發(fā)布會(huì)結(jié)束后,奧爾特曼指出,我真的可以預(yù)見到一個(gè)激動(dòng)人心的未來:我們能夠利用計(jì)算機(jī)完成以往無法想象的更多事務(wù)。但基于我們現(xiàn)在測(cè)試的能力來看,GPT-4o又到底能完成多少無法想象的事務(wù)呢?

創(chuàng)新工場(chǎng)董事長(zhǎng)兼CEO、零一萬(wàn)物CEO李開復(fù)在接受媒體采訪表示,零一萬(wàn)物的新模型Yi-XLarge MoE已訓(xùn)練一半,之后會(huì)朝著美國(guó)大模型繼續(xù)進(jìn)步;科大訊飛董事長(zhǎng)劉慶峰曾透露,目前中美大模型差距在一年至1.5年左右。GPT-4o仍存在諸多短板需要補(bǔ)齊,歷經(jīng)一年多發(fā)展的國(guó)內(nèi)大模型真實(shí)能力到底如何呢?

同時(shí)考慮到中美消費(fèi)者和企業(yè)主,對(duì)軟件付費(fèi)意愿差異較大,未來國(guó)內(nèi)大模型TOC端和TOB端大模型的商業(yè)化仍需持續(xù)探索,這就意味著國(guó)內(nèi)大模型不管在國(guó)內(nèi)市場(chǎng),還是在海外市場(chǎng),未來仍有很長(zhǎng)很長(zhǎng)的路要走。

路漫漫其修遠(yuǎn)兮,國(guó)內(nèi)大模型廠商仍需上下而求索。

本文由人人都是產(chǎn)品經(jīng)理作者【DoNews】,微信公眾號(hào):【DoNews】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!