GPT-4o干掉初創(chuàng)全網(wǎng)實測,馬斯克Karpathy等大佬紛表不服:OpenAI不過如此

0 評論 697 瀏覽 1 收藏 16 分鐘

GPT-4o一上線,大批初創(chuàng)公司又要面臨倒閉了。全網(wǎng)網(wǎng)友實測后驚呼:這推理速度是碾壓版的升級!然而馬斯克、Karpathy、Meta研究者等一眾大佬唱衰道:OpenAI不過如此,無非就是發(fā)布了一個在同一神經(jīng)網(wǎng)絡(luò)中結(jié)合文本-音頻-視頻三種模態(tài)并同時處理的模型。

OpenAI一夜之間,又干掉了一大批初創(chuàng)公司。

官方公布的全能模型GPT-4o的炸裂演示,即便過去了一天,依舊讓全網(wǎng)深陷其中,無法自拔。

憑借實時語音視頻對話,GPT-4o已經(jīng)深入教育、翻譯、視頻會議等領(lǐng)域的變革。

OpenAI科學(xué)家Lilian Weng稱,自己這次的日本之行,就用到了ChatGPT的實時翻譯能力,比如翻譯與壽司廚師對話,或在紀(jì)念品商店識別解釋不同類型巖石。

目前,一些用戶已經(jīng)灰度測試到了GPT-4o,紛紛開啟了測試。

一、一大波演示來襲

瞧好了,科幻版Her,正走進(jìn)現(xiàn)實。

兩個AI自主交流,解決客服索賠

ChatGPT可能最先搶走的工作,就是客服。

OpenAI研究科學(xué)家Joe Beutler放出了,全新的GPT-4o提供客戶服務(wù)支持的有趣演示。

一起看看兩個AI智能體,如何解決了客服索賠。

與客戶合作構(gòu)建變革性解決方案總能讓我備受鼓舞。我們可以利用這一最先進(jìn)模型構(gòu)建的潛在解決方案,令我興奮不已!

視頻中,兩個AI自主交流了起來,全程不用人類參與,就把問題解決了。

OpenAI聯(lián)創(chuàng)Greg也轉(zhuǎn)發(fā)了這個經(jīng)典示例。

還有網(wǎng)友表示,準(zhǔn)備讓GPT-4o代替自己談判所有的賬單。

18世紀(jì)手寫稿,一鍵轉(zhuǎn)錄

網(wǎng)友翻出18世紀(jì)的手寫稿,讓GPT-4o再轉(zhuǎn)寫一份。

在下圖右邊回應(yīng)中,GPT-4o成功將這份筆跡識別出來,不過還是會有一些小錯誤。

成為盲人的「眼睛」

在另一個OpenAI官方用例中,與Be My Eyes合作,為盲人提供實時助手。

在這個1分鐘演示視頻中,展示了GPT-4o強(qiáng)大到足以讓人震撼。

男主人公通過ChatGPT識別建筑物,并講解了國旗上的國徽代表著什么。

當(dāng)他走到湖前,ChatGPT非常悉心地講解了,湖水中的鴨子們在游來游去,不慌不忙悠閑自在,有的還在嬉戲打鬧,有的在尋找食物……

最后,盲人借助ChatGPT的「眼睛」,打到了回家的車。

有網(wǎng)友將其稱之為,GPT-4o最好的用例。它將為每個人改變世界,甚至它將為視障人士創(chuàng)造一個全新的世界。

GPT-4o輸出速度碾壓GPT-4

還有網(wǎng)友測試對比了,GPT-4o和GPT-4針對同一問題的輸出,吞吐量有多快。

如下的對比,一眼明了。

GPT-4o+函數(shù)調(diào)用

將GPT-4o與函數(shù)調(diào)用結(jié)合起來用,更是讓人炸腦。

下面案例中,將一張錯誤的圖片上傳之后,GPT-4o主打分析,然后函數(shù)調(diào)用工具便會搜索可能修復(fù)方法。

構(gòu)建Karpathy大模型OS

網(wǎng)友Ashpreet Bedi利用GPT-4o,去構(gòu)建了Karpathy曾提出的LLM OS,沒想到運行速度,非常炸裂。

他還將代碼放了出來,以供大家自行操作。

GitHub地址:https://github.com/phidatahq/phidata/tree/main/cookbook/llm_os

中國小姐姐談賽博戀愛

GPT Store上線之后,各種鋪天蓋地的定制AI女友幾乎將其淹沒。

網(wǎng)友已經(jīng)開始整活了

甚至,與AI女友相關(guān)的應(yīng)用,直接成為ChatGPT商城上線首周中,最熱門的應(yīng)用。

而現(xiàn)在,有了GPT-4o加持的ChatGPT,談一場賽博戀愛更是恰到好處。

這不,抖音小姐姐「午夜狂暴哈士奇狗」在GPT-4o還沒放出之前,已經(jīng)開啟了與ChatGPT談一場甜甜的戀愛。

下面視頻中,他們準(zhǔn)備要去海邊約會去看落日,視頻中小姐姐還專門化了美美的妝。

而ChatGPT談情說愛的本領(lǐng),讓人聽了瞬間肉麻。

視頻傳送門:https://v.douyin.com/i2QRdYET/

之前版本的ChatGPT還不能看到小姐姐美美的妝容、海邊的景色….

而現(xiàn)在GPT-4o升級后的版本,能夠識別表情和情緒,都不敢想象究竟有多強(qiáng)。

復(fù)刻「精靈寶可夢」

GPT-4o還可以完美地復(fù)刻了任天堂的游戲——寶可夢紅(Pokémon Red)。

未來的游戲設(shè)計,就交由AI來做。

制作演示的網(wǎng)友表示,過去他曾用Claude Opus耗費大把時間,才做出一個勉強(qiáng)可以運行的同款游戲。

而其他的模型,就更菜了,幾乎無法畫出一個畫面。

如下演示中,GPT-4o就…直接玩起了這個游戲。

它在終端的設(shè)計,細(xì)節(jié)非常準(zhǔn)確,可以精準(zhǔn)繪制地圖,并模擬戰(zhàn)斗。

二、Jim Fan預(yù)測全押中了

雖然OpenAI的這波更新在我們看來非常炸裂,但其實英雄所見略同,Jim Fan大佬表示「我早就說過應(yīng)該這么干」。

在昨天發(fā)布會召開之前,他就發(fā)布了一篇推文,深入淺出地講解了實時語音助手的技術(shù)路徑,基本可以當(dāng)作OpenAI技術(shù)報告的大綱了。

推文中首先表示,幾乎所有的語音AI都需要經(jīng)過3個階段的推理——語音識別、LLM和語音合成。

然而,如果只是非常簡單地把三種模型集成在一起,每次回答問題就會有接近5秒的延遲時間,這會造成用戶體驗斷崖級的下降,無法打造「沉浸式對話」。

要想解決延遲問題、打造實時語音AI,就不能僅僅考慮三個子模型的加速,還需要重新考慮整個pipeline,讓各個階段盡可能重疊在一起,就像人類對話時都是一邊聽一邊構(gòu)思怎么說。

用一句話總結(jié)就是,「端到端模型總能勝出?!?/p>

不僅如此,發(fā)布會上展示的ChatGPT新特性,也都被Jim Fan一一點到,比如適時插入語氣詞、處理對話中的「打斷」等等,簡直是一波「神預(yù)言」。

三、OpenAI究竟強(qiáng)在哪里?

有意思的是,GPT-4o放出后,坊間也同時出現(xiàn)了一些唱衰OpenAI的聲音。

有人說,這次放出的不是GPT-5,也不是搜索,其實就代表著OpenAI的倒退。

馬斯克則嘲諷道,這些AI聊天的速度也太慢了吧。

此外,Andrej Karpathy大佬也用十分平靜的語氣給出技術(shù)總結(jié),得到了馬斯克的附議:

「他們發(fā)布的是一個在同一神經(jīng)網(wǎng)絡(luò)中結(jié)合文本-音頻-視頻三種模態(tài)并同時處理的模型,僅此而已?!?/p>

這就引起了網(wǎng)友們的討論:究竟是誰,在這里淡化OpenAI做的事?

不可否認(rèn)的是,OpenAI讓《Her》中的Samantha成真了,這絕對是一件意義重大的事。

這位網(wǎng)友表示,「這是我見過的最令人驚奇的技術(shù),那些失望的人大概本來是盼著ASI的吧?!?/p>

AI開發(fā)者Benjamin De Kraker表示,這種能聽說能看還能推理的「虛擬人」,跟人都沒區(qū)別,這不就是AGI嗎?

對OpenAI感到不服的人,還有其他一些業(yè)內(nèi)人士,比如沃頓商學(xué)院AI方向的教授Ethan Mollick,他表示:「GPT-4o并不是巨大的飛躍」。

還有一位Meta的研究科學(xué)家表示,OpenAI的GPT-4o技術(shù)沒什么大不了的,在2個月內(nèi),開源領(lǐng)域就會有人開始預(yù)訓(xùn)練類似GPT-4o的模型了。包括他在內(nèi)的研究者,都在加班加點地進(jìn)行這項研究。

據(jù)他透露,Meta雖然暫時落后,但跟GPT-4推出時相比,他們其實離OpenAI更近了。

原因在于,他們已經(jīng)構(gòu)建了可擴(kuò)展、與多模態(tài)一致的架構(gòu),以及關(guān)于如何訓(xùn)練這些模型的知識,而最重要的是,在這個研究領(lǐng)域,他們擁有除OpenAI以外最強(qiáng)大的團(tuán)隊。

而在過去兩年中,這位研究者所在的團(tuán)隊一直致力于為早期融合、多模態(tài)token-in-token-out方法奠定基礎(chǔ)。

在這方面,Meta也是發(fā)表了多篇論文。包括最初的CM3論文,到MM-scaling law,再到CM3Leon,除了已發(fā)表的六篇論文,還有幾篇即將出版。

其實,這位老哥之所以著急澄清,也是因為被這位Teortaxes大V的言論逼急了。

在Teortaxes看來,Meta和OpenAI之間的差距是越來越大了。

雖然Armen在前幾天就放消息說,Meta預(yù)訓(xùn)練的早期融合多模態(tài)模型已經(jīng)獲得了成功(甚至核心突破在2023年12月就已經(jīng)實現(xiàn)了),可OpenAI的GPT-4o,都已經(jīng)作為產(chǎn)品落地了啊,更何況還是給每個人免費可用。

看衰老一輩科技巨頭的絕不止Teortaxes一個人,知名咨詢公司Gartner副總裁 Chirag Dekate在接受Ventur Beat采訪時表示,他認(rèn)為Meta、谷歌等公司和OpenAI之間的「能力差距」越來越大了。

博主「i陸三金」總結(jié)道,其實OpenAI最被低估的,就是產(chǎn)品能力。

前有Sora,今有GPT-4o,能把一堆顯而易見的技術(shù)打造成一個亮眼的產(chǎn)品,業(yè)內(nèi)目前有這種實力的,OpenAI是無出其右。

看起來,這些產(chǎn)品背后的技術(shù),如DiT、ViT、VAE或端到端的文本、視覺、音頻模型,并不罕見。但唯有OpenAI,真正做出了產(chǎn)品。

參考資料:

https://x.com/Gorden_Sun/status/1790201278070689799

https://x.com/SmokeAwayyy/status/1790146421355843992

https://x.com/tuturetom/status/1790186661948883295

https://x.com/gdb/status/1790177196075864100

https://x.com/gdb/status/1790195202214572399

https://x.com/FinanceYF5/status/1790197126330482963

https://twitter.com/DrJimFan/status/1789695374963491139

本文由人人都是產(chǎn)品經(jīng)理作者【汪仔4260】,微信公眾號:【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!