狙擊谷歌?示好蘋果?OpenAI推出GPT-4o背后的遐想
今天凌晨,OpenAI在線上發(fā)布了最新旗艦大模型GPT-4o。這篇文章,我們來聊下,為什么是GPT-4o而不是GPT5,以及,為什么是現(xiàn)在發(fā)布?
北京時間5月14日凌晨,OpenAI在線上舉辦了“春季更新”活動,他們推出最新旗艦大模型GPT-4o,不僅免費可用,能力更是橫跨聽、看、說,絲滑流暢毫無延遲,就像在打一個視頻電話。
那么,GPT-4o還具備怎樣的能力?為什么這次發(fā)布的是GPT-4o而不是GPT-5?OpenAI為什么會在谷歌I/O大會前發(fā)布該產(chǎn)品?我們看看能不能在這次活動中找到答案。
一、GPT-4o有什么不一樣?
此次發(fā)布,GPT-4o最大的特點是增加了語音交互,并且號稱和一些同類競品相比,它的響應時間更快,可以減少延時,更接近和真人對話的節(jié)奏。
在GPT-4o之前,用戶使用語音模式與ChatGPT對話時,GPT-3.5的平均延遲為2.8秒,GPT-4為5.4秒,音頻在輸入時還會由于處理方式丟失大量信息,讓GPT-4無法直接觀察音調、說話的人和背景噪音,也無法輸出笑聲、歌唱聲和表達情感。
與之相比,GPT-4o可以在232毫秒內對音頻輸入作出反應,與人類在對話中的反應時間相近。在錄播視頻中,兩位高管作出了演示:機器人能夠從急促的喘氣聲中理解“緊張”的含義,并且指導他進行深呼吸,還可以根據(jù)用戶要求變換語調。
據(jù)OpenAI官網(wǎng)介紹,GPT-4o中的o代表omni(譯為全能),稱它向更自然的人機交互邁進了一步,因為它接受文本、音頻和圖像的任意組合作為輸入內容,并生成文本、音頻和圖像的任意組合輸出內容。
OpenAI技術負責人穆拉迪(Mira Murati)在直播活動中表示,新型號GPT-4o“速度快得多”,在文本、視頻和音頻方面都有改進,公司最終計劃讓用戶與ChatGPT進行視頻聊天?!斑@是我們第一次在易用性方面邁出巨大的一步?!?/p>
值得注意的是,新模型允許ChatGPT處理50種不同的語言,速度和質量都有所提高,它還將通過OpenAI的API提供支持,這樣開發(fā)者今天就可以開始使用新模型構建應用程序了。GPT-4o的速度是GPT-4 Turbo的兩倍,成本只有一半。
從性能來看,OpenAI表示,在傳統(tǒng)基準測試中,GPT-4o在文本、推理和代碼智能方面達到了GPT-4 Turbo級的性能,同時在多語言、音頻和視覺能力方面達到了新高度。它在英文文本和代碼上的性能與GPT-4 Turbo相當,在非英文文本上有顯著改善。
此外,通過過濾訓練數(shù)據(jù)和訓練后改進模型行為等技術,GPT-4o在設計中內置了跨模式的安全性,并創(chuàng)建了新的安全系統(tǒng),為語音輸出提供護欄。GPT-4o還與來自社會心理學、偏見和公平、錯誤信息等領域的七十多名外部專家開展廣泛的外部團隊合作,以識別新增加的模式引入或放大的風險,提高與GPT-4o互動的安全性。
值得一提的是,OpenAI不僅將GPT-4o直接提供給用戶使用,還將其作為API開放給開發(fā)者。這意味著開發(fā)者可以方便地利用GPT-4o的強大功能來構建自己的應用程序,從而在開發(fā)速度、成本控制以及功能實現(xiàn)等方面獲得顯著提升。
而且,OpenAI竟然直接將這個模型免費開放給用戶使用了。
元宇宙新聲認為,語音能力再度提升,將使得GPT-4o有希望打破人與機器交互的“天花板”,未來的ChatGPT,可以無處不在——比如,它可以隨時隨地出現(xiàn)在人的身邊、可以嵌入到?jīng)]有屏幕的設備上與人交談??傊珿PT-4o可以讓人們更專注于與ChatGPT的協(xié)作,而不是受限于屏幕界面本身。
這個時間點放出GPT-4o,是狙擊谷歌還是示好蘋果?
相信OpenAI在這個時間點放出GPT-4o是有理由的,最直觀的體現(xiàn)就是,在其活動的后一天谷歌就將舉辦2024年I/O開發(fā)者大會,這次OpenAI再次精準狙擊谷歌。如果谷歌I/O大會上沒有驚人的發(fā)布,也許這次風頭又會被OpenAI搶走。
從歷史上來看,OpenAI每一次產(chǎn)品發(fā)布的時間都拿捏得非常準確。2024年2月15日,谷歌對外重磅發(fā)布了多模態(tài)大模型Gemini 1.5 Pro,官方測試結果顯示,這個最高支持100萬tokens的多模態(tài)大模型,性能遠超GPT-4 Turbo。
然而,就在同一天,OpenAI發(fā)布了文生視頻大模型Sora。
Sora的發(fā)布讓全網(wǎng)關注度再次聚焦到了OpenAI這一文生視頻產(chǎn)品上,搶走了本應屬于谷歌的高光時刻,也讓谷歌Gemini 1.5 Pro在大模型發(fā)展歷史上的意義再次被低估。
其實現(xiàn)在回頭看,Sora的發(fā)布這是一場徹頭徹尾的“表演”項目,因為到目前為止,Sora還是沒有開放給公眾使用。
除了狙擊谷歌外,我們發(fā)現(xiàn)在OpenAI這次活動中全程用iPhone和MacBook Pro進行演示,同時還發(fā)布了Mac桌面版的ChatGPT,這讓我們不得不懷疑,他們是不是在為與蘋果的合作在鋪路?
近日,有消息爆出,蘋果公司與OpenAI敲定一項協(xié)議,今年將后者的部分技術引入iPhone。借此蘋果將能提供由ChatGPT支持的“聊天機器人”,作為iOS 18中人工智能功能的一部分。
事實上,面對激烈的AI技術角逐,蘋果與OpenAI的合作使人們有理由期待一個更加智能、更加互動的Siri,對于蘋果來說,這可能也是鞏固其在全球科技領域領導地位的重要一步。
元宇宙新聲認為,這次OpenAI推出GPT-4o時再次向大家印證了他們的營銷思維,既給競爭對手谷歌制造了壓力,又向潛在合作伙伴蘋果示好。但需要注意的是,谷歌的風頭并不容易被搶走,反而有可能被其反噬,而蘋果也絕不是一家長期依靠其他廠商生存的企業(yè),OpenAI在最大賣點還是產(chǎn)品,比如傳說中的“GPT-5”。
二、為什么是GPT-4o不是GPT-5
在人們感嘆于GPT-4o進一步提升大模型能力的時候,不禁要問,傳說中的GPT-5怎么沒有推出?它現(xiàn)在研發(fā)到什么進度了?
我們認為,之所以現(xiàn)階段發(fā)布GPT-4o,是因為GPT-5的研發(fā)肯定遇到了一些問題。如果不是這樣,OpenAI直接推出GPT-5就好了。一家科技企業(yè)發(fā)布新產(chǎn)品一定是越早越好,尤其在大模型這一領域中,各家的競爭非常激烈。因此,OpenAI在研發(fā)GPT-5時,不是有性能方面的危機就是有成本的問題。
但以大家對OpenAI的理解,即使成本再高,只要效果足夠驚艷,它一定會推出的,先震懾一下行業(yè),哪怕GPT-5一天就能用3條,也希望吸引到所有人的目光。所以,我們認為GPT-5的研發(fā)過程中可能還是遇到的性能或者安全問題會更多一些。
其實不止我們,網(wǎng)友們也在線紛紛催OpenAI,快點發(fā)GPT-5。
在此前的采訪中,OpenAI首席執(zhí)行官Sam Altman也回答了關于GPT-5的問題,他表示:“關于GPT-5的發(fā)布時間,目前我們還沒有確定一個具體的日期。我們對新模型的推出持謹慎態(tài)度,致力于確保它在發(fā)布時能夠達到我們的高標準。我們正在考慮采用一種新的發(fā)布策略,這可能與以往的方式有所不同。我們對于GPT-5的命名和發(fā)布策略仍在討論之中,但可以肯定的是,我們致力于讓這款新模型在發(fā)布時能夠為用戶帶來卓越的體驗。”
元宇宙新聲認為,在發(fā)展過程中,OpenAI肯定會遇到不少挑戰(zhàn)。但,我們希望他們始終保持著堅定的信念和持續(xù)的創(chuàng)新精神,不斷突破自我,實現(xiàn)全球AI領軍企業(yè)的期望。特別是在GPT系列模型的推出上,OpenAI更是引領了AI領域的新一輪技術革命。
三、寫在最后
在人工智能領域,每一次技術的飛躍都標志著人類智慧與機器智能的深度融合。GPT-4o作為OpenAI的最新旗艦模型,無疑在技術層面取得了顯著的進步。其新加入的音頻理解能力以及對易用性的重視,確實為用戶提供了更為自然、便捷的交互體驗。
當前的發(fā)展中,OpenAI依然面臨著更多的機遇和挑戰(zhàn)。然而,公司始終保持著堅定的信念和持續(xù)的創(chuàng)新精神,在未來的AI領域中,OpenAI將繼續(xù)發(fā)揮引領作用,為人類社會的進步貢獻更多力量。
作者:賈桂鵬;公眾號:元宇宙新聲
本文由 @元宇宙新聲 授權發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!