精品久久久久中文字幕日本,国产三区四区精品无码

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

端到端訓(xùn)練，語(yǔ)音輸入響應(yīng)10倍優(yōu)于競(jìng)品，OpenAI發(fā)布了一個(gè)AI“怪物”

VR陀螺

2024-05-15

0 評(píng)論 489 瀏覽 0 收藏

17 分鐘

就在最近，OpenAI召開(kāi)了GPT-4o發(fā)布會(huì)，在這場(chǎng)發(fā)布會(huì)中，我們可以看到GPT-4o的性能展示，也能從中窺探到一些《Her》所構(gòu)建的未來(lái)場(chǎng)景的影子。

近日凌晨，OpenAI召開(kāi)了GPT-4o發(fā)布會(huì)，雖然整個(gè)發(fā)布會(huì)時(shí)長(zhǎng)不到半小時(shí)，但是全程高能：AI語(yǔ)音響應(yīng)速度比肩真人、能夠理解情緒語(yǔ)調(diào)信息、可實(shí)時(shí)對(duì)音頻、視覺(jué)和文本進(jìn)行推理…….

陀螺君在觀看發(fā)布會(huì)時(shí)最大的感受便是：要么是ChatGPT里面塞了一個(gè)真人，要么則是科幻電影《Her》所構(gòu)建的未來(lái)場(chǎng)景真的已經(jīng)到來(lái)。

一、性能比肩GPT-4 Turbo，語(yǔ)音響應(yīng)速度甚至比真人更快

本次發(fā)布會(huì)中，OpenAI CEO山姆·奧特曼并未出席，OpenAI CTO Mira Murati主持了本次活動(dòng)。

在開(kāi)始時(shí)，Mira Murati先簡(jiǎn)單闡述了以往所發(fā)布的GPT-4等模型的固有局限：人與人之間的互動(dòng)其實(shí)相較于此前的機(jī)器對(duì)話要復(fù)雜得多。

人與人之間對(duì)話交流除了語(yǔ)義以外，還有語(yǔ)氣、各種背景語(yǔ)境理解等，這些因素使得對(duì)話式AI想要獲得類(lèi)似于真人般的體驗(yàn)會(huì)非常復(fù)雜。不過(guò)，OpenAI最新發(fā)布的GPT 4o正是一款試圖顛覆現(xiàn)有語(yǔ)音交互體驗(yàn)的AI大模型。

GPT-4o（里面的“o”所代表的是“omni（全能的）”），它與GPT-4類(lèi)似，可以實(shí)時(shí)處理和輸出各種音頻、視覺(jué)以及文本信息。不過(guò)特別之處在于，它將音頻輸入響應(yīng)時(shí)間縮短至了原有模型的十分之一。

在GPT-4o之前，集成了GPT-3.5和GPT-4的ChatGPT音頻輸入響應(yīng)平均延遲分別為2.8秒和5.4秒，而到了現(xiàn)在，GPT-4o可以縮短至232毫秒，平均為320毫秒，官方稱(chēng)這基本上與真人聊天感覺(jué)無(wú)異。

在OpenAI官網(wǎng)GPT-4o的演示頁(yè)面上，官方則在顯著的地方備注道：“此頁(yè)面上的所有視頻均為1倍語(yǔ)速”，已表明它對(duì)GPT-4o響應(yīng)速度的絕對(duì)自信。

圖源：OpenAI

為什么GPT-4o能夠?qū)崿F(xiàn)如此大的突破，原因在于它摒棄了原有AI語(yǔ)音對(duì)話的常見(jiàn)流程。在以前，想要實(shí)現(xiàn)AI對(duì)話其實(shí)需要經(jīng)歷三個(gè)步驟：語(yǔ)音轉(zhuǎn)文本——AI接收信息、處理并輸出文本——文本轉(zhuǎn)語(yǔ)音。而現(xiàn)在，GPT-4o具備了端到端能力，即所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理。

除了能有效改善語(yǔ)音響應(yīng)速度外，端到端處理其實(shí)還有一個(gè)天然的優(yōu)勢(shì)，早些時(shí)候三段式解決方案在語(yǔ)音轉(zhuǎn)文本環(huán)節(jié)往往會(huì)丟失大量重要信息：比如說(shuō)話者的笑聲、語(yǔ)氣詞、音調(diào)等，這些信息往往無(wú)法在文本信息上面反映但對(duì)于聊天卻有至關(guān)重要的作用，而端到端處理信息能有效保留這些內(nèi)容。

回到GPT-4o上，關(guān)于它的具體表現(xiàn)，我們可以先結(jié)合下面的視頻感受一番。

恰巧，谷歌在也放出了一段基于Gemini驅(qū)動(dòng)的AI助手的視頻，我們可以基于此簡(jiǎn)單對(duì)比不同大模型之間的一些差距。

關(guān)于GPT-4o模型性能，OpenAI在其官網(wǎng)放出了相應(yīng)的測(cè)試結(jié)果，官方表示“GPT-4o在文本、推理和編碼智能方面實(shí)現(xiàn)了GPT-4 Turbo級(jí)別的性能，同時(shí)在多語(yǔ)言、音頻和視覺(jué)功能上設(shè)置了新的高水位線?！?/p>

圖源：OpenAI

舉例而言，GPT-4o 在0-shot COT MMLU（常識(shí)問(wèn)題）上創(chuàng)下了88.7%的高分，超越了GPT-4 Turbo、Gemini Pro 1.5、Claude 3 Opus、Llama 3 400b等競(jìng)品；而在反映音頻翻譯性能的MLS 基準(zhǔn)測(cè)試中表現(xiàn)也優(yōu)于Meta的SeamlessM4T、谷歌的Gemini。

圖源：OpenAI

Mira Murati提到，從今日起，用戶可在ChatGPT中免費(fèi)體驗(yàn)GPT-4o的能力，不過(guò)當(dāng)前只局限于文本和圖像功能，（ChatGPT Plus用戶能享受到5倍的訪問(wèn)量）。關(guān)于它最為核心的語(yǔ)音模式，則會(huì)在未來(lái)數(shù)周面向Plus用戶推出（alpha版本）。

此外，現(xiàn)如今開(kāi)發(fā)者還可以基于API訪問(wèn)GPT-4o的文本和圖像功能，與GPT-4 Turbo相比，GPT-4o可速度提高2倍，而價(jià)格降低一半，速率限制提高5倍。而關(guān)于語(yǔ)音和視頻功能，則會(huì)在未來(lái)數(shù)周內(nèi)面向特定的合作伙伴推出。

其他方面，Mira Murati還簡(jiǎn)單提及了ChatGPT的一些改進(jìn)，如今日正式推出基于macOS的桌面版本，而Windows版本則計(jì)劃在今年晚些時(shí)候推出。此外，ChatGPT的頁(yè)面UI也有所改進(jìn)，進(jìn)一步提升了易用性。

macOS版本ChatGPT，圖源：Youtube

二、能撒嬌賣(mài)萌、能看代碼圖表，真實(shí)演示讓人嘆為觀止

本次發(fā)布會(huì)中，其實(shí)關(guān)于GPT-4o的底層技術(shù)講解并不算多，只有短短數(shù)分鐘，而很多細(xì)節(jié)、隱私方面的介紹也只是一帶而過(guò)。相反，整場(chǎng)發(fā)布會(huì)有高達(dá)三分之二的時(shí)長(zhǎng)都放在了演示上面，OpenAI的研究主管Mark Chen、后訓(xùn)練團(tuán)隊(duì)負(fù)責(zé)人Barret Zoph參與了本次演示環(huán)節(jié)。

（高度懷疑OpenAI是在內(nèi)涵谷歌去年的Gemini發(fā)布會(huì)，后者在發(fā)布會(huì)上只提供了錄屏演示，后續(xù)被扒出視頻經(jīng)過(guò)特殊剪輯處理。）

左二為Mark Chen，右一為Barret Zoph

根據(jù)粗略統(tǒng)計(jì)，發(fā)布會(huì)期間共計(jì)演示了GPT-4o八個(gè)不同場(chǎng)景片段，這些場(chǎng)景頗具代表性，能夠很好體現(xiàn)GPT-4o的語(yǔ)音響應(yīng)以及多模態(tài)等相關(guān)能力。

剛開(kāi)始時(shí)，Mark Chen向ChatGPT詢問(wèn)，“我在現(xiàn)場(chǎng)演示demo有點(diǎn)緊張，你能幫助我嗎？”ChatGPT回復(fù)時(shí)語(yǔ)音十分甜美，并且反應(yīng)非常迅速，同時(shí)還不失幽默地說(shuō)了幾句俏皮話。在這個(gè)過(guò)程中，其實(shí)我們可以發(fā)現(xiàn)GPT-4o除了能夠識(shí)別常見(jiàn)語(yǔ)音指令外，甚至還能識(shí)別出用戶呼吸頻率，這是有別于其他AI的一項(xiàng)重要能力。

在另外一個(gè)演示中，Mark Chen向AI詢問(wèn)能否講一個(gè)以“戀愛(ài)中的機(jī)器人”為主題的睡前故事，AI語(yǔ)音響應(yīng)同樣非常迅速，即便Mark Chen在AI輸出過(guò)程中多次打斷它的講話，AI也能很好把握用戶的需求，如增加朗讀的感情、增加更多戲劇性等。AI在這個(gè)過(guò)程中聲情并茂，各種停頓以及感情把控非常好，非常離譜。

此外，Barret Zoph還演示了GPT-4o的解數(shù)學(xué)題的能力，他在一張紙上面寫(xiě)下一個(gè)方程組，ChatGPT不僅能準(zhǔn)確識(shí)別方程組，還能一步步給予相應(yīng)的解題步驟。不過(guò)，這里我們也可以看到智能手機(jī)作為AI載體其實(shí)有點(diǎn)尷尬，用戶需要一只手舉著手機(jī)拍攝，另一只手寫(xiě)作業(yè)，不是十分方便。

單從演示來(lái)看，GPT-4o的視覺(jué)能力還是相當(dāng)不錯(cuò)的，并且響應(yīng)也頗為迅速，后面，Barret Zoph寫(xiě)下“I ? ChatGPT”時(shí)，AI的回復(fù)則是充滿了“寵溺”，“擬人”屬性拉滿。

除手機(jī)APP外，Mark Chen還演示了macOS客戶端的ChatGPT能力，比如用戶能夠向其詢問(wèn)“屏幕上面的代碼代表了什么？”、“這張表格里面能讀取什么信息？”等。在演示過(guò)程中，AI均給予了正確的響應(yīng)。

在發(fā)布會(huì)的最后階段，為了給AI“上點(diǎn)強(qiáng)度”，Mira Murati讀取了兩個(gè)直播留言反饋，并進(jìn)行了相應(yīng)的演示。其中一個(gè)演示是常見(jiàn)的翻譯功能，Mark Chen與Mira Murati雙方分別使用英語(yǔ)和意大利語(yǔ)對(duì)話，而ChatGPT則很好地翻譯了出來(lái)。

不過(guò)，在最后一個(gè)演示中，有用戶留言表示“AI能不能通過(guò)看你的臉識(shí)別你的感受？”這里有點(diǎn)小翻車(chē)，AI識(shí)別到的并非Barret Zoph的人臉，而是桌子。不過(guò)Barret Zoph臨危不亂通過(guò)新增提示語(yǔ)的方式實(shí)現(xiàn)了救場(chǎng)。（也有反饋稱(chēng)這是由于ChatGPT率先調(diào)用了后置攝像頭所導(dǎo)致的失誤）

三、電影《Her》照進(jìn)現(xiàn)實(shí)，已經(jīng)讓人迫切希望看到GPT-4o的“泛濫”

回顧整場(chǎng)發(fā)布會(huì)，其實(shí)可以發(fā)現(xiàn)GPT-4o就像是GPT-Turbo的一個(gè)語(yǔ)音加強(qiáng)版，得益于出色的延遲以及“情感”能力，它將具備巨大的應(yīng)用落地的價(jià)值以及潛力，而相較于Siri等常見(jiàn)的語(yǔ)音聊天工具更是降維打擊。

Mira Murati在發(fā)布會(huì)中表示，“我們正在尋找關(guān)于未來(lái)用戶與機(jī)器交互的范式，而GPT-4o（憑借其易用性），正在將這一范式變得更加自然?！?/p>

發(fā)布會(huì)結(jié)束后，Altman在社交平臺(tái)上寫(xiě)下了“her”這個(gè)單詞作為回應(yīng)，這其實(shí)可以看到OpenAI以及Altman對(duì)于GPT-4o這款產(chǎn)品所寄予的厚望。

圖源：X

Ps:《Her》是一部在2013年上映的科幻電影，里面講述的是主人公西奧多愛(ài)上了搭載強(qiáng)人工智能電腦操作系統(tǒng)的故事，薩曼莎每天通過(guò)語(yǔ)音的方式與AI進(jìn)行聊天互動(dòng)，最終使得西奧多在這段感情上越陷越深。

在博客中，Altman寫(xiě)到：

新的語(yǔ)音（和視頻）模式是我用過(guò)的最好的計(jì)算機(jī)界面。感覺(jué)就像電影里的人工智能一樣；我仍然有點(diǎn)驚訝它是真的。事實(shí)證明，達(dá)到人類(lèi)水平的響應(yīng)時(shí)間和表達(dá)能力是一個(gè)巨大的變化。

最初的ChatGPT暗示了語(yǔ)言界面的可能性；這個(gè)新事物感覺(jué)本質(zhì)上是不同的。它快速、智能、有趣、自然且有幫助。

對(duì)我來(lái)說(shuō)，與電腦交談從來(lái)都不是很自然的事?，F(xiàn)在確實(shí)如此。當(dāng)我們添加（可選）個(gè)性化、訪問(wèn)您的信息、代表您采取行動(dòng)的能力等等時(shí)，我確實(shí)可以看到一個(gè)令人興奮的未來(lái)，我們能夠使用計(jì)算機(jī)做比以往更多的事情。

就在不久前，有消息傳出蘋(píng)果與OpenAI達(dá)成相關(guān)協(xié)議，并有望將ChatGPT整合到iPhone當(dāng)中。結(jié)合發(fā)布會(huì)來(lái)看，OpenAI對(duì)于與蘋(píng)果的關(guān)系也顯得頗為“曖昧”，如桌面版本應(yīng)用率先在Mac平臺(tái)推出，全程使用iPhone以及Mac設(shè)備作為演示等。目前暫未明確雙方將會(huì)采取何種合作模式，假如蘋(píng)果真的將GPT-4o引入Siri當(dāng)中，想必將會(huì)極大提升iPhone的產(chǎn)品競(jìng)爭(zhēng)力。

圖源：X

發(fā)布會(huì)結(jié)束后，知名AI硬件開(kāi)發(fā)商Humane（Altman是該公司的投資人之一）也演示了GPT-4o落地的場(chǎng)景：AI能夠基于所看到的畫(huà)面設(shè)計(jì)猜謎游戲。Humane CEO Imran Chaudhri表示這段視頻中其實(shí)同時(shí)運(yùn)用了“GPT-4o+Gemini”的相關(guān)能力。

值得一提的是，今年年初，谷歌發(fā)布對(duì)標(biāo)GPT-4 Turbo的Gemini 1.5 Pro，而僅僅半小時(shí)后，OpenAI火速發(fā)布了Sora，結(jié)果搶了谷歌的風(fēng)頭。而現(xiàn)在，OpenAI“故技重施”，選擇在谷歌I/O大會(huì)前一天發(fā)布GPT-4o，可謂火藥味十足。

從結(jié)果來(lái)看，OpenAI這一招其實(shí)頗為有效，今天鋪天蓋地都是GPT-4o相關(guān)新聞，谷歌I/O大會(huì)相關(guān)動(dòng)態(tài)則顯得頗為冷清，我們且看谷歌如何接招。

總結(jié)來(lái)看，OpenAI的GPT-4o，強(qiáng)是真的強(qiáng)，并且這種強(qiáng)不僅僅只存在于實(shí)驗(yàn)數(shù)據(jù)方面，對(duì)于用戶的體感也十分明顯。此外，由于語(yǔ)音響應(yīng)+端到端能力的加持，它相較于GPT-4等產(chǎn)品也具有更強(qiáng)的應(yīng)用落地以及商業(yè)變現(xiàn)可能性。

陀螺君將很樂(lè)意看到GPT-4o在手機(jī)、電腦、智能硬件等產(chǎn)品方面的落地。除此之外，我們可以持續(xù)關(guān)注谷歌、Meta、微軟、蘋(píng)果等企業(yè)在AI領(lǐng)域的相關(guān)動(dòng)作。

參考資料：

1.https://openai.com/index/hello-gpt-4o/

2.https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

3.https://blog.samaltman.com/gpt-4o

作者：萬(wàn)里

來(lái)源公眾號(hào)：VR陀螺（ID：vrtuoluo），XR行業(yè)垂直媒體，關(guān)注VR/AR的頭部產(chǎn)業(yè)服務(wù)平臺(tái)。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @VR陀螺授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App