端到端訓(xùn)練,語(yǔ)音輸入響應(yīng)10倍優(yōu)于競(jìng)品,OpenAI發(fā)布了一個(gè)AI“怪物”

0 評(píng)論 489 瀏覽 0 收藏 17 分鐘

就在最近,OpenAI召開(kāi)了GPT-4o發(fā)布會(huì),在這場(chǎng)發(fā)布會(huì)中,我們可以看到GPT-4o的性能展示,也能從中窺探到一些《Her》所構(gòu)建的未來(lái)場(chǎng)景的影子。

近日凌晨,OpenAI召開(kāi)了GPT-4o發(fā)布會(huì),雖然整個(gè)發(fā)布會(huì)時(shí)長(zhǎng)不到半小時(shí),但是全程高能:AI語(yǔ)音響應(yīng)速度比肩真人、能夠理解情緒語(yǔ)調(diào)信息、可實(shí)時(shí)對(duì)音頻、視覺(jué)和文本進(jìn)行推理…….

陀螺君在觀看發(fā)布會(huì)時(shí)最大的感受便是:要么是ChatGPT里面塞了一個(gè)真人,要么則是科幻電影《Her》所構(gòu)建的未來(lái)場(chǎng)景真的已經(jīng)到來(lái)。

一、性能比肩GPT-4 Turbo,語(yǔ)音響應(yīng)速度甚至比真人更快

本次發(fā)布會(huì)中,OpenAI CEO山姆·奧特曼并未出席,OpenAI CTO Mira Murati主持了本次活動(dòng)。

在開(kāi)始時(shí),Mira Murati先簡(jiǎn)單闡述了以往所發(fā)布的GPT-4等模型的固有局限:人與人之間的互動(dòng)其實(shí)相較于此前的機(jī)器對(duì)話要復(fù)雜得多。

人與人之間對(duì)話交流除了語(yǔ)義以外,還有語(yǔ)氣、各種背景語(yǔ)境理解等,這些因素使得對(duì)話式AI想要獲得類(lèi)似于真人般的體驗(yàn)會(huì)非常復(fù)雜。不過(guò),OpenAI最新發(fā)布的GPT 4o正是一款試圖顛覆現(xiàn)有語(yǔ)音交互體驗(yàn)的AI大模型。

GPT-4o(里面的“o”所代表的是“omni(全能的)”),它與GPT-4類(lèi)似,可以實(shí)時(shí)處理和輸出各種音頻、視覺(jué)以及文本信息。不過(guò)特別之處在于,它將音頻輸入響應(yīng)時(shí)間縮短至了原有模型的十分之一。

在GPT-4o之前,集成了GPT-3.5和GPT-4的ChatGPT音頻輸入響應(yīng)平均延遲分別為2.8秒和5.4秒,而到了現(xiàn)在,GPT-4o可以縮短至232毫秒,平均為320毫秒,官方稱(chēng)這基本上與真人聊天感覺(jué)無(wú)異。

在OpenAI官網(wǎng)GPT-4o的演示頁(yè)面上,官方則在顯著的地方備注道:“此頁(yè)面上的所有視頻均為1倍語(yǔ)速”,已表明它對(duì)GPT-4o響應(yīng)速度的絕對(duì)自信。

圖源:OpenAI

為什么GPT-4o能夠?qū)崿F(xiàn)如此大的突破,原因在于它摒棄了原有AI語(yǔ)音對(duì)話的常見(jiàn)流程。在以前,想要實(shí)現(xiàn)AI對(duì)話其實(shí)需要經(jīng)歷三個(gè)步驟:語(yǔ)音轉(zhuǎn)文本——AI接收信息、處理并輸出文本——文本轉(zhuǎn)語(yǔ)音。而現(xiàn)在,GPT-4o具備了端到端能力,即所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理。

除了能有效改善語(yǔ)音響應(yīng)速度外,端到端處理其實(shí)還有一個(gè)天然的優(yōu)勢(shì),早些時(shí)候三段式解決方案在語(yǔ)音轉(zhuǎn)文本環(huán)節(jié)往往會(huì)丟失大量重要信息:比如說(shuō)話者的笑聲、語(yǔ)氣詞、音調(diào)等,這些信息往往無(wú)法在文本信息上面反映但對(duì)于聊天卻有至關(guān)重要的作用,而端到端處理信息能有效保留這些內(nèi)容。

回到GPT-4o上,關(guān)于它的具體表現(xiàn),我們可以先結(jié)合下面的視頻感受一番。

恰巧,谷歌在也放出了一段基于Gemini驅(qū)動(dòng)的AI助手的視頻,我們可以基于此簡(jiǎn)單對(duì)比不同大模型之間的一些差距。

關(guān)于GPT-4o模型性能,OpenAI在其官網(wǎng)放出了相應(yīng)的測(cè)試結(jié)果,官方表示“GPT-4o在文本、推理和編碼智能方面實(shí)現(xiàn)了GPT-4 Turbo級(jí)別的性能,同時(shí)在多語(yǔ)言、音頻和視覺(jué)功能上設(shè)置了新的高水位線?!?/p>

圖源:OpenAI

舉例而言,GPT-4o 在0-shot COT MMLU(常識(shí)問(wèn)題)上創(chuàng)下了88.7%的高分,超越了GPT-4 Turbo、Gemini Pro 1.5、Claude 3 Opus、Llama 3 400b等競(jìng)品;而在反映音頻翻譯性能的MLS 基準(zhǔn)測(cè)試中表現(xiàn)也優(yōu)于Meta的SeamlessM4T、谷歌的Gemini。

圖源:OpenAI

Mira Murati提到,從今日起,用戶可在ChatGPT中免費(fèi)體驗(yàn)GPT-4o的能力,不過(guò)當(dāng)前只局限于文本和圖像功能,(ChatGPT Plus用戶能享受到5倍的訪問(wèn)量)。關(guān)于它最為核心的語(yǔ)音模式,則會(huì)在未來(lái)數(shù)周面向Plus用戶推出(alpha版本)。

此外,現(xiàn)如今開(kāi)發(fā)者還可以基于API訪問(wèn)GPT-4o的文本和圖像功能,與GPT-4 Turbo相比,GPT-4o可速度提高2倍,而價(jià)格降低一半,速率限制提高5倍。而關(guān)于語(yǔ)音和視頻功能,則會(huì)在未來(lái)數(shù)周內(nèi)面向特定的合作伙伴推出。

其他方面,Mira Murati還簡(jiǎn)單提及了ChatGPT的一些改進(jìn),如今日正式推出基于macOS的桌面版本,而Windows版本則計(jì)劃在今年晚些時(shí)候推出。此外,ChatGPT的頁(yè)面UI也有所改進(jìn),進(jìn)一步提升了易用性。

macOS版本ChatGPT,圖源:Youtube

二、能撒嬌賣(mài)萌、能看代碼圖表,真實(shí)演示讓人嘆為觀止

本次發(fā)布會(huì)中,其實(shí)關(guān)于GPT-4o的底層技術(shù)講解并不算多,只有短短數(shù)分鐘,而很多細(xì)節(jié)、隱私方面的介紹也只是一帶而過(guò)。相反,整場(chǎng)發(fā)布會(huì)有高達(dá)三分之二的時(shí)長(zhǎng)都放在了演示上面,OpenAI的研究主管Mark Chen、后訓(xùn)練團(tuán)隊(duì)負(fù)責(zé)人Barret Zoph參與了本次演示環(huán)節(jié)。

(高度懷疑OpenAI是在內(nèi)涵谷歌去年的Gemini發(fā)布會(huì),后者在發(fā)布會(huì)上只提供了錄屏演示,后續(xù)被扒出視頻經(jīng)過(guò)特殊剪輯處理。)

左二為Mark Chen,右一為Barret Zoph

根據(jù)粗略統(tǒng)計(jì),發(fā)布會(huì)期間共計(jì)演示了GPT-4o八個(gè)不同場(chǎng)景片段,這些場(chǎng)景頗具代表性,能夠很好體現(xiàn)GPT-4o的語(yǔ)音響應(yīng)以及多模態(tài)等相關(guān)能力。

剛開(kāi)始時(shí),Mark Chen向ChatGPT詢問(wèn),“我在現(xiàn)場(chǎng)演示demo有點(diǎn)緊張,你能幫助我嗎?”ChatGPT回復(fù)時(shí)語(yǔ)音十分甜美,并且反應(yīng)非常迅速,同時(shí)還不失幽默地說(shuō)了幾句俏皮話。在這個(gè)過(guò)程中,其實(shí)我們可以發(fā)現(xiàn)GPT-4o除了能夠識(shí)別常見(jiàn)語(yǔ)音指令外,甚至還能識(shí)別出用戶呼吸頻率,這是有別于其他AI的一項(xiàng)重要能力。

在另外一個(gè)演示中,Mark Chen向AI詢問(wèn)能否講一個(gè)以“戀愛(ài)中的機(jī)器人”為主題的睡前故事,AI語(yǔ)音響應(yīng)同樣非常迅速,即便Mark Chen在AI輸出過(guò)程中多次打斷它的講話,AI也能很好把握用戶的需求,如增加朗讀的感情、增加更多戲劇性等。AI在這個(gè)過(guò)程中聲情并茂,各種停頓以及感情把控非常好,非常離譜。

此外,Barret Zoph還演示了GPT-4o的解數(shù)學(xué)題的能力,他在一張紙上面寫(xiě)下一個(gè)方程組,ChatGPT不僅能準(zhǔn)確識(shí)別方程組,還能一步步給予相應(yīng)的解題步驟。不過(guò),這里我們也可以看到智能手機(jī)作為AI載體其實(shí)有點(diǎn)尷尬,用戶需要一只手舉著手機(jī)拍攝,另一只手寫(xiě)作業(yè),不是十分方便。

單從演示來(lái)看,GPT-4o的視覺(jué)能力還是相當(dāng)不錯(cuò)的,并且響應(yīng)也頗為迅速,后面,Barret Zoph寫(xiě)下“I ? ChatGPT”時(shí),AI的回復(fù)則是充滿了“寵溺”,“擬人”屬性拉滿。

除手機(jī)APP外,Mark Chen還演示了macOS客戶端的ChatGPT能力,比如用戶能夠向其詢問(wèn)“屏幕上面的代碼代表了什么?”、“這張表格里面能讀取什么信息?”等。在演示過(guò)程中,AI均給予了正確的響應(yīng)。

在發(fā)布會(huì)的最后階段,為了給AI“上點(diǎn)強(qiáng)度”,Mira Murati讀取了兩個(gè)直播留言反饋,并進(jìn)行了相應(yīng)的演示。其中一個(gè)演示是常見(jiàn)的翻譯功能,Mark Chen與Mira Murati雙方分別使用英語(yǔ)和意大利語(yǔ)對(duì)話,而ChatGPT則很好地翻譯了出來(lái)。

不過(guò),在最后一個(gè)演示中,有用戶留言表示“AI能不能通過(guò)看你的臉識(shí)別你的感受?”這里有點(diǎn)小翻車(chē),AI識(shí)別到的并非Barret Zoph的人臉,而是桌子。不過(guò)Barret Zoph臨危不亂通過(guò)新增提示語(yǔ)的方式實(shí)現(xiàn)了救場(chǎng)。(也有反饋稱(chēng)這是由于ChatGPT率先調(diào)用了后置攝像頭所導(dǎo)致的失誤)

三、電影《Her》照進(jìn)現(xiàn)實(shí),已經(jīng)讓人迫切希望看到GPT-4o的“泛濫”

回顧整場(chǎng)發(fā)布會(huì),其實(shí)可以發(fā)現(xiàn)GPT-4o就像是GPT-Turbo的一個(gè)語(yǔ)音加強(qiáng)版,得益于出色的延遲以及“情感”能力,它將具備巨大的應(yīng)用落地的價(jià)值以及潛力,而相較于Siri等常見(jiàn)的語(yǔ)音聊天工具更是降維打擊。

Mira Murati在發(fā)布會(huì)中表示,“我們正在尋找關(guān)于未來(lái)用戶與機(jī)器交互的范式,而GPT-4o(憑借其易用性),正在將這一范式變得更加自然?!?/p>

發(fā)布會(huì)結(jié)束后,Altman在社交平臺(tái)上寫(xiě)下了“her”這個(gè)單詞作為回應(yīng),這其實(shí)可以看到OpenAI以及Altman對(duì)于GPT-4o這款產(chǎn)品所寄予的厚望。

圖源:X

Ps:《Her》是一部在2013年上映的科幻電影,里面講述的是主人公西奧多愛(ài)上了搭載強(qiáng)人工智能電腦操作系統(tǒng)的故事,薩曼莎每天通過(guò)語(yǔ)音的方式與AI進(jìn)行聊天互動(dòng),最終使得西奧多在這段感情上越陷越深。

在博客中,Altman寫(xiě)到:

新的語(yǔ)音(和視頻)模式是我用過(guò)的最好的計(jì)算機(jī)界面。感覺(jué)就像電影里的人工智能一樣;我仍然有點(diǎn)驚訝它是真的。事實(shí)證明,達(dá)到人類(lèi)水平的響應(yīng)時(shí)間和表達(dá)能力是一個(gè)巨大的變化。

最初的ChatGPT暗示了語(yǔ)言界面的可能性;這個(gè)新事物感覺(jué)本質(zhì)上是不同的。它快速、智能、有趣、自然且有幫助。

對(duì)我來(lái)說(shuō),與電腦交談從來(lái)都不是很自然的事?,F(xiàn)在確實(shí)如此。當(dāng)我們添加(可選)個(gè)性化、訪問(wèn)您的信息、代表您采取行動(dòng)的能力等等時(shí),我確實(shí)可以看到一個(gè)令人興奮的未來(lái),我們能夠使用計(jì)算機(jī)做比以往更多的事情。

就在不久前,有消息傳出蘋(píng)果與OpenAI達(dá)成相關(guān)協(xié)議,并有望將ChatGPT整合到iPhone當(dāng)中。結(jié)合發(fā)布會(huì)來(lái)看,OpenAI對(duì)于與蘋(píng)果的關(guān)系也顯得頗為“曖昧”,如桌面版本應(yīng)用率先在Mac平臺(tái)推出,全程使用iPhone以及Mac設(shè)備作為演示等。目前暫未明確雙方將會(huì)采取何種合作模式,假如蘋(píng)果真的將GPT-4o引入Siri當(dāng)中,想必將會(huì)極大提升iPhone的產(chǎn)品競(jìng)爭(zhēng)力。

圖源:X

發(fā)布會(huì)結(jié)束后,知名AI硬件開(kāi)發(fā)商Humane(Altman是該公司的投資人之一)也演示了GPT-4o落地的場(chǎng)景:AI能夠基于所看到的畫(huà)面設(shè)計(jì)猜謎游戲。Humane CEO Imran Chaudhri表示這段視頻中其實(shí)同時(shí)運(yùn)用了“GPT-4o+Gemini”的相關(guān)能力。

值得一提的是,今年年初,谷歌發(fā)布對(duì)標(biāo)GPT-4 Turbo的Gemini 1.5 Pro,而僅僅半小時(shí)后,OpenAI火速發(fā)布了Sora,結(jié)果搶了谷歌的風(fēng)頭。而現(xiàn)在,OpenAI“故技重施”,選擇在谷歌I/O大會(huì)前一天發(fā)布GPT-4o,可謂火藥味十足。

從結(jié)果來(lái)看,OpenAI這一招其實(shí)頗為有效,今天鋪天蓋地都是GPT-4o相關(guān)新聞,谷歌I/O大會(huì)相關(guān)動(dòng)態(tài)則顯得頗為冷清,我們且看谷歌如何接招。

總結(jié)來(lái)看,OpenAI的GPT-4o,強(qiáng)是真的強(qiáng),并且這種強(qiáng)不僅僅只存在于實(shí)驗(yàn)數(shù)據(jù)方面,對(duì)于用戶的體感也十分明顯。此外,由于語(yǔ)音響應(yīng)+端到端能力的加持,它相較于GPT-4等產(chǎn)品也具有更強(qiáng)的應(yīng)用落地以及商業(yè)變現(xiàn)可能性。

陀螺君將很樂(lè)意看到GPT-4o在手機(jī)、電腦、智能硬件等產(chǎn)品方面的落地。除此之外,我們可以持續(xù)關(guān)注谷歌、Meta、微軟、蘋(píng)果等企業(yè)在AI領(lǐng)域的相關(guān)動(dòng)作。

參考資料:

1.https://openai.com/index/hello-gpt-4o/

2.https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

3.https://blog.samaltman.com/gpt-4o

作者:萬(wàn)里

來(lái)源公眾號(hào):VR陀螺(ID:vrtuoluo),XR行業(yè)垂直媒體,關(guān)注VR/AR的頭部產(chǎn)業(yè)服務(wù)平臺(tái)。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @VR陀螺 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!