亚洲卡一卡二卡三新区,99精品国产福利在线观看,欧美综合区自拍亚洲综合绿色

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

GPT-4o搶先測(cè)：文本能力提高，但仍存短板

DoNews

2024-05-15

0 評(píng)論 361 瀏覽 0 收藏

12 分鐘

GPT-4o的能力表現(xiàn)到底如何？為了真正了解GPT-4o的能力，本文作者對(duì)GPT-4o進(jìn)行了多輪多角度測(cè)試，感興趣的同學(xué)，可以來看一下。

北京時(shí)間5月14日凌晨，OpenAI推出兼具聽、看、說能力的GPT-4o。

新版GPT-4o最大的看點(diǎn)在于，可實(shí)時(shí)對(duì)音頻、視覺、文本進(jìn)行推理，并接受三者的任意組合，最終能生成文本、音頻、圖像的任意組合。

如在現(xiàn)場(chǎng)演示視頻中，OpenAI前沿研究負(fù)責(zé)人馬克·陳在和GPT-4o對(duì)話時(shí)，當(dāng)馬克·陳稍微有些緊張時(shí)，GPT-4o很快進(jìn)行安慰。當(dāng)聽到馬克·陳話語(yǔ)有些急促時(shí)，GPT-4o對(duì)馬克·陳說道，你不是吸塵器，吸氣、然后數(shù)到四，讓自己慢下來。

另一演示視頻中，OpenAI后訓(xùn)練團(tuán)隊(duì)負(fù)責(zé)人巴雷特·佐夫讓GPT-4o判斷自我情緒如何。GPT-4o先是看到木質(zhì)材面的桌子后又說道，你看起來非常開心，甚至還有點(diǎn)興奮。

整個(gè)演示視頻中，GPT-4o表現(xiàn)得如同老朋友那般親切，甚至說話語(yǔ)氣和“真人”一樣，這讓不少網(wǎng)友紛紛驚嘆現(xiàn)在的大模型都有視覺功能了嗎？它未來又是否能幫助盲人看世界呢？

為真正了解GPT-4o的能力，發(fā)布會(huì)結(jié)束后，DoNews對(duì)GPT-4o進(jìn)行了多輪多角度測(cè)試：

圖源：GPT-4o官網(wǎng)對(duì)話頁(yè)面

在文本輸出能力上，GPT-4o的能力可以完全用驚艷來形容。當(dāng)我們讓GPT-4o幫我們寫中國(guó)傳統(tǒng)神話四大神獸的故事時(shí)，GPT-4o幾秒時(shí)間內(nèi)就能完成，且內(nèi)容準(zhǔn)確度極高。

圖源：GPT-4o官網(wǎng)對(duì)話頁(yè)面

當(dāng)我們將難度升級(jí)，讓GPT-4o解讀安克創(chuàng)新2024年Q1財(cái)報(bào)時(shí)，幾秒的時(shí)間GPT-4o直接將安克創(chuàng)新長(zhǎng)達(dá)15頁(yè)的財(cái)報(bào)內(nèi)容中核心數(shù)據(jù)全部提煉出來。

圖源：GPT-4o官網(wǎng)對(duì)話頁(yè)面

甚至當(dāng)我們繼續(xù)追問GPT-4o，您覺得安克創(chuàng)新2024年Q1財(cái)報(bào)存在哪些問題時(shí)，GPT-4o快速回答出包括經(jīng)營(yíng)活動(dòng)現(xiàn)金流量?jī)纛~大幅下降、銷售費(fèi)用和管理費(fèi)用大幅增加、財(cái)務(wù)費(fèi)用的波動(dòng)、公允價(jià)值變動(dòng)收益大幅下降、資產(chǎn)減值損失大幅增加、其他收益和投資收益減少等六大風(fēng)險(xiǎn)。

圖源：GPT-4o官網(wǎng)對(duì)話頁(yè)面

我們繼續(xù)升級(jí)難度，要求GPT-4o幫我們翻譯一篇長(zhǎng)達(dá)35頁(yè)的外文，雖說響應(yīng)速度有所下降，但依然能快速提煉出這份報(bào)告的核心內(nèi)容。

圖源：GPT-4o官網(wǎng)對(duì)話頁(yè)面

值得注意的是，發(fā)布會(huì)上提到的可對(duì)文本、音頻、圖像進(jìn)行任意組合，目前暫未實(shí)現(xiàn)。

因此，我們指定一個(gè)命令：我有一個(gè)朋友目前處在失戀狀態(tài)，請(qǐng)你幫我撰寫800字的文章安慰他，幫他走出陰影，要求內(nèi)容中同時(shí)具有圖片和音頻，GPT-4o回答為“我暫時(shí)無法直接創(chuàng)建包含圖片和音頻的文章”。

圖源：GPT-4o官網(wǎng)對(duì)話頁(yè)面

在大模型常見的問答上，GPT-4o已不做任何回答，而是全網(wǎng)檢測(cè)和問題相近的網(wǎng)頁(yè)。當(dāng)我們?cè)谔釂朑PT-4o關(guān)于美聯(lián)儲(chǔ)降息問題時(shí)，GPT-4o給出2個(gè)相關(guān)網(wǎng)站鏈接。

圖源：GPT-4o官網(wǎng)對(duì)話頁(yè)面

當(dāng)我們提問GPT-4o關(guān)于全球新能源汽車行業(yè)價(jià)格戰(zhàn)相關(guān)問題時(shí)，GPT-4o更是給出6個(gè)相關(guān)網(wǎng)站鏈接。換言之，GPT-4o正朝著AI搜索工具類產(chǎn)品方向發(fā)展。周鴻祎也曾指出，未來OpenAI一定會(huì)誕生 AI 搜索類型的產(chǎn)品。

圖源：GPT-4o官網(wǎng)對(duì)話頁(yè)面

在圖像識(shí)別和生成上，GPT-4o可以說是喜憂參半。我們?cè)谶x取網(wǎng)絡(luò)平臺(tái)上一張同時(shí)包含多種人物表情的照片時(shí)，GPT-4o能準(zhǔn)確描述出6個(gè)小照片下人物的內(nèi)心活動(dòng)。

圖源：GPT-4o官網(wǎng)對(duì)話頁(yè)面

但當(dāng)我們讓GPT-4o識(shí)別國(guó)內(nèi)流行的AI黏土特效相關(guān)照片時(shí)，卻被GPT-4o識(shí)別為手工雕塑作品。換言之，大模型若想始終競(jìng)爭(zhēng)優(yōu)越性，也需要不斷反復(fù)學(xué)習(xí)，尤其是在各國(guó)不斷流行的事物上。

圖源：原圖基于小紅書網(wǎng)友分享整理、GPT-4o官網(wǎng)對(duì)話頁(yè)面

且GPT-4o若想真正成為世界級(jí)的大模型，也需要深入學(xué)習(xí)各國(guó)文化才能保證生成的圖片不會(huì)出錯(cuò)。

當(dāng)我們讓GPT-4o輸出一張中國(guó)傳統(tǒng)神話故事中青龍的照片時(shí)：在《山海經(jīng)》中，唯一帶翅膀的龍為應(yīng)龍，青龍并不帶翅膀，輸出明顯錯(cuò)誤。

圖源：GPT-4o官網(wǎng)對(duì)話頁(yè)面

當(dāng)我們將難度升級(jí)，要求GPT-4o輸出一張同時(shí)包含中國(guó)傳統(tǒng)神話故事中四大神獸的照片時(shí)，圖片內(nèi)容雖出現(xiàn)四大神獸，但除青龍稍微符合神話故事原型外，其他三大神獸均和神話故事中的原型相差極大。

圖源：GPT-4o官網(wǎng)對(duì)話頁(yè)面

至于發(fā)布會(huì)上，OpenAI高層們演示的功能，目前GPT-4o暫未上線。當(dāng)我們讓GPT-4o識(shí)別抖音上一條十幾秒的生日祝福視頻時(shí)，GPT-4o回答為暫無法直接聽取識(shí)別音頻或視頻中的音樂。

圖源：抖音視頻截圖

圖源：GPT-4o官網(wǎng)對(duì)話頁(yè)面

在后續(xù)的測(cè)試中，我們發(fā)現(xiàn)GPT-4o的能力遠(yuǎn)沒有達(dá)到外界宣傳的顛覆級(jí)、爆炸級(jí)。當(dāng)我們讓GPT-4o給我們寫抽獎(jiǎng)的代碼和航班查詢的代碼時(shí)，GPT-4o一直沒有輸出結(jié)果。

圖源：GPT-4o官網(wǎng)

在測(cè)試邏輯推理上，我們選取2023年全國(guó)卷數(shù)學(xué)高考真題中難度較大的壓軸題時(shí)，GPT-4o給出的答案可以用失望來形容。

圖源：2023年全國(guó)卷數(shù)學(xué)真題

如在全國(guó)高考卷第20題的兩問中，GPT-4o僅是簡(jiǎn)單地給出不完整的解題步驟，沒有輸出任何一個(gè)準(zhǔn)確答案。

圖源：GPT-4o官網(wǎng)對(duì)話頁(yè)面

第21題的三問中，GPT-4o不僅將三小問變成兩小問，且前兩問求概率的問題上，本應(yīng)為具體數(shù)字的答案，在GPT-4o這里卻是帶有變量N的不確定答案。

圖源：GPT-4o官網(wǎng)對(duì)話頁(yè)面

GPT-4o發(fā)布會(huì)結(jié)束后，奧爾特曼指出，我真的可以預(yù)見到一個(gè)激動(dòng)人心的未來：我們能夠利用計(jì)算機(jī)完成以往無法想象的更多事務(wù)。但基于我們現(xiàn)在測(cè)試的能力來看，GPT-4o又到底能完成多少無法想象的事務(wù)呢？

創(chuàng)新工場(chǎng)董事長(zhǎng)兼CEO、零一萬(wàn)物CEO李開復(fù)在接受媒體采訪表示，零一萬(wàn)物的新模型Yi-XLarge MoE已訓(xùn)練一半，之后會(huì)朝著美國(guó)大模型繼續(xù)進(jìn)步；科大訊飛董事長(zhǎng)劉慶峰曾透露，目前中美大模型差距在一年至1.5年左右。GPT-4o仍存在諸多短板需要補(bǔ)齊，歷經(jīng)一年多發(fā)展的國(guó)內(nèi)大模型真實(shí)能力到底如何呢？

同時(shí)考慮到中美消費(fèi)者和企業(yè)主，對(duì)軟件付費(fèi)意愿差異較大，未來國(guó)內(nèi)大模型TOC端和TOB端大模型的商業(yè)化仍需持續(xù)探索，這就意味著國(guó)內(nèi)大模型不管在國(guó)內(nèi)市場(chǎng)，還是在海外市場(chǎng)，未來仍有很長(zhǎng)很長(zhǎng)的路要走。

路漫漫其修遠(yuǎn)兮，國(guó)內(nèi)大模型廠商仍需上下而求索。

本文由人人都是產(chǎn)品經(jīng)理作者【DoNews】，微信公眾號(hào)：【DoNews】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App