Hello GPT-4o

0 評(píng)論 564 瀏覽 0 收藏 8 分鐘

OpenAI正式推出最新旗艦?zāi)P虶PT-4o,那么,GPT-4o究竟具備哪些能力?具體的能力表現(xiàn)又如何?一起來(lái)看看本文的分享。

今天,OpenAI正式推出最新旗艦?zāi)P虶PT-4o,能夠跨音頻、視覺(jué)和文本進(jìn)行實(shí)時(shí)推理。

GPT-4o(”o” 即 “omni 全能”)標(biāo)志著實(shí)現(xiàn)更自然人機(jī)交互的重大進(jìn)步。它能夠接收文本、音頻和圖像的任意組合作為輸入,并輸出同樣多樣化的組合。在最短232毫秒內(nèi)響應(yīng)音頻輸入,平均響應(yīng)時(shí)間320毫秒,與人類(lèi)在對(duì)話中的反應(yīng)時(shí)間類(lèi)似。在處理英語(yǔ)和編程方面與GPT-4 Turbo表現(xiàn)相當(dāng),非英語(yǔ)文本處理上則有顯著提升。此外,GPT-4o在API中的運(yùn)行速度更快,成本也降低了50%。在視覺(jué)和音頻理解能力上,GPT-4o明顯優(yōu)于現(xiàn)有模型。

在GPT-4o之前,人們可以使用語(yǔ)音模式與ChatGPT交談,平均延遲時(shí)間為2.8秒(GPT-3.5)和5.4秒(GPT-4)。為此語(yǔ)音模式集成了三個(gè)獨(dú)立模型:一個(gè)簡(jiǎn)單模型將音頻轉(zhuǎn)錄為文本,GPT-3.5或GPT-4接收文本并輸出文本,第三個(gè)簡(jiǎn)單模型再將文本轉(zhuǎn)換回音頻。這一過(guò)程意味著GPT-4可能丟失大量信息——它無(wú)法直接理解語(yǔ)調(diào)、多個(gè)說(shuō)話者的聲音或背景噪音,也無(wú)法輸出笑聲、歌唱或表達(dá)情感。

現(xiàn)在,OpenAI端到端訓(xùn)練的新模型GPT-4o覆蓋了文本、視覺(jué)和音頻,這意味著所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。由于GPT-4o是第一個(gè)結(jié)合所有這些模態(tài)的模型,所以團(tuán)隊(duì)對(duì)模型能力和局限性仍在探索中。

一、模型評(píng)估

根據(jù)傳統(tǒng)基準(zhǔn)測(cè)試,GPT-4o在文本、推理和編程智能方面達(dá)到了GPT-4 Turbo級(jí)別的表現(xiàn),同時(shí)在多語(yǔ)言、音頻和視覺(jué)能力方面設(shè)立了新的高標(biāo)準(zhǔn)。

改進(jìn)的推理能力 – GPT-4o在5次嘗試的MMLU(多項(xiàng)選擇通用知識(shí)問(wèn)題測(cè)試)中創(chuàng)下了87.2%的新高分。

音頻ASR性能 – GPT-4o在所有語(yǔ)言上顯著提升了語(yǔ)音識(shí)別性能,相較于Whisper-v3尤其在資源較少的語(yǔ)言上有顯著改進(jìn)。

音頻翻譯性能 – GPT-4o在語(yǔ)音翻譯方面設(shè)立了新的行業(yè)標(biāo)準(zhǔn),并在MLS基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于Whisper-v3。

M3Exam評(píng)測(cè) – M3Exam基準(zhǔn)測(cè)試同時(shí)涵蓋多語(yǔ)言和視覺(jué)評(píng)估,包括來(lái)自其他國(guó)家標(biāo)準(zhǔn)化測(cè)試的多項(xiàng)選擇題,有時(shí)會(huì)包含圖表和示意圖。在所有語(yǔ)言上,GPT-4o在這一基準(zhǔn)測(cè)試上比GPT-4表現(xiàn)更強(qiáng)。

視覺(jué)理解評(píng)估 – GPT-4o在視覺(jué)感知基準(zhǔn)測(cè)試上達(dá)到了行業(yè)領(lǐng)先的表現(xiàn)。

二、語(yǔ)言分詞

20種語(yǔ)言被選為新分詞器在不同語(yǔ)言家族中壓縮改進(jìn)的代表。(以下含中文壓縮表現(xiàn))

三、模型安全性和局限性

GPT-4o在各種模態(tài)中通過(guò)設(shè)計(jì)內(nèi)置了安全性,采用了如過(guò)濾訓(xùn)練數(shù)據(jù)和通過(guò)后訓(xùn)練改善模型行為的技術(shù)。OpenAI還創(chuàng)建了新的安全系統(tǒng),為語(yǔ)音輸出提供保護(hù)措施。

OpenAI根據(jù)“準(zhǔn)備框架”和自愿承諾對(duì)GPT-4o進(jìn)行了評(píng)估。對(duì)網(wǎng)絡(luò)安全、化學(xué)生物輻射核(CBRN)、說(shuō)服力和模型自主性的評(píng)估顯示,GPT-4o在這些類(lèi)別中的風(fēng)險(xiǎn)等級(jí)沒(méi)有超過(guò)中等。這一評(píng)估包括在模型訓(xùn)練過(guò)程中進(jìn)行一系列自動(dòng)化和人工評(píng)估。同時(shí)團(tuán)隊(duì)測(cè)試了模型安全措施前后的版本,使用自定義的微調(diào)和提示來(lái)更好地誘導(dǎo)模型的能力。

GPT-4o還經(jīng)歷了由70多名外部專(zhuān)家在社會(huì)心理學(xué)、偏見(jiàn)與公正以及錯(cuò)誤信息等領(lǐng)域進(jìn)行的廣泛外部紅隊(duì)測(cè)試,以識(shí)別由新加入的模態(tài)引入或放大的風(fēng)險(xiǎn)。并利用這些學(xué)習(xí)成果來(lái)建立安全干預(yù)措施,以提高與GPT-4o互動(dòng)的安全性。

團(tuán)隊(duì)也認(rèn)識(shí)到GPT-4o的音頻模態(tài)可能會(huì)呈現(xiàn)出多種新的風(fēng)險(xiǎn)。今天,OpenAI公開(kāi)發(fā)布文本和圖像輸入及文本輸出。在接下來(lái)的幾周和幾個(gè)月內(nèi),將致力于技術(shù)基礎(chǔ)設(shè)施、通過(guò)后訓(xùn)練提高可用性和必要的安全性,以發(fā)布其他模態(tài)。例如,在發(fā)布時(shí),音頻輸出將限于一組預(yù)設(shè)的聲音,并將遵守現(xiàn)有安全政策。OpenAI將在即將發(fā)布的系統(tǒng)卡中分享更多關(guān)于GPT-4o各種模態(tài)的詳細(xì)信息。

通過(guò)對(duì)模型的測(cè)試和迭代,我們觀察到存在于模型所有模態(tài)中的幾個(gè)局限性。

OpenAI歡迎用戶反饋,幫助識(shí)別GPT-4 Turbo仍然優(yōu)于GPT-4o的任務(wù),以便繼續(xù)改進(jìn)模型。

四、模型可用性

GPT-4o是OpenAI在深度學(xué)習(xí)領(lǐng)域推動(dòng)實(shí)用性方向界限的最新步驟。在過(guò)去的兩年中,團(tuán)隊(duì)在整個(gè)技術(shù)棧的每一層都進(jìn)行了大量的效率改進(jìn)工作。作為這項(xiàng)研究的首個(gè)成果,能夠更廣泛地提供GPT-4級(jí)別的模型。GPT-4o的能力將逐步推出(從今天開(kāi)始提供擴(kuò)展的紅隊(duì)訪問(wèn))。

GPT-4o的文本和圖像功能從今天開(kāi)始在ChatGPT中推出。GPT-4o將提供給所有免費(fèi)用戶,并為Plus用戶提供高達(dá)5倍的消息限制。未來(lái)幾周內(nèi)在ChatGPT Plus中將以alpha版本推出新版語(yǔ)音模式。開(kāi)發(fā)者現(xiàn)在也可以在API中訪問(wèn)GPT-4o作為文本和視覺(jué)模型。

GPT-4o比GPT-4 Turbo快2倍,價(jià)格減半,速率限制提高了5倍。OpenAI計(jì)劃在未來(lái)幾周內(nèi)向API中的一小群受信任的合作伙伴推出GPT-4o的新音頻和視頻功能。

本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號(hào):【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!