OpenAI新版GPT-4o三連炸:更快,更強,還免費

0 評論 454 瀏覽 0 收藏 9 分鐘

最近,OpenAI春季更新可以說是如期而至,而在這次更新里出現的GPT-4o,更是引起了多方關注。那么,GPT-4o究竟有哪些來頭?

“GPT-4o的特別之處,在于它將GPT-4級別的智能帶給了所有人,包括我們的免費用戶?!?/p>

北京時間5月13日凌晨,早有預告的OpenAI春季更新如期而至。

在這次總時長不到半個小時的發布會中,圈內最熟悉的公司首席執行官山姆 奧特曼(Sam Altman)并未現身,首席技術官穆里 穆拉蒂(Muri Murati)及兩名研究主管馬克 陳(Mark Chen)和巴雷特 佐夫(Barret Zoph)三人圍坐,共同介紹了這次更新:

推出桌面版ChatGPT & 網頁端UI更新,以及最重要的,發布GPT-4o。

其中的“o”代表“omni”,意為全能的。根據OpenAI官網給出的介紹,GPT-4o可以處理文本、音頻和圖像任意組合作的輸入,并生成對應的任意組合輸出。特別是音頻,它可以在短至232毫秒的時間內響應用戶的語音輸入,平均320毫秒的用時已經接近人類在日常對話中的反應時間。

與現有模型相比,GPT-4o在視覺和音頻理解方面尤其出色。

此外,GPT-4o在英語文本和代碼上的性能也與GPT-4 Turbo處于同一水平線,在非英語文本上的性能有著顯著提高,同時API速度快,速率限制高出5倍,成本則降低了50%。

穆里 穆拉蒂表示,OpenAI使命的一個非常重要的部分,是讓他們的高級人工智能工具能夠向所有人免費提供,讓人們對技術的能力有“直觀的感受”。

關鍵詞:更快,更強,還免費。

當然,目前官方給出的免費限制在一定的消息數量上,超過這個消息量后,免費用戶的模型將被切換回ChatGPT,也就是GPT3.5,而付費用戶則將擁有五倍的GPT-4o消息量上限。

實際上,早在去年九月末,OpenAI團隊就已在官網發布過一片文章,介紹當時的ChatGPT的語音對話和看圖識圖功能。

在此前參加播客節目“All-in Podcast”時,山姆 奧特曼曾談及了ChatGPT的多模態交互能力,以及對包括GPT-5在內新一代AI產品更新的態度。

對于ChatGPT已有的語音功能,播客主持人表示他和家人很喜歡這個功能,盡管應用時不時還會出現一些延遲問題。

奧特曼當時回應稱,OpenAI會繼續改進并提升語音功能的質量:“我相信,語音交互是通向未來交互方式的一個重要線索。如果能夠實現真正優質的語音互動體驗,將會是一種與計算機互動的全新方式?!?/p>

對于響應速度不夠快、對話缺乏流暢度和不自然的感覺,奧特曼表示團隊正努力改進,致力力于讓這些方面的體驗得到顯著提升。

現在,就像他本人在X平臺上的預告,新發布的GPT-4o“像魔法一樣”。

在此前的模型中,用戶使用語音模式與ChatGPT對話的平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。造成延遲的原因是:語音模式是由三個獨立模型組成的通道,第一個簡單模型將音頻轉錄為文本,GPT-3.5或GPT-4接收并輸出文本,第三個簡單模型再將該文本轉換回音頻。

這個轉錄再轉回的過程,導致GPT-4丟失了其中的大量信息,無法直接觀察音調、多個說話者(的音色區別)或背景噪音,也無法輸出笑聲、歌唱或表達情感。

而借助GPT-4o,OpenAI跨文本、視覺和音頻,端到端地訓練了一個新模型。所有輸入和輸出都在該模型中交由同一神經網絡進行處理。

因此,新發布的GPT-4o模型,可以做到隨時開始或打斷對話,識別說話人的語氣、情緒,根據場景或指令生成多種音調、帶有豐富人類情緒特征的音頻回復(甚至可以要求GPT-4o唱歌)。

圖像處理層面,在傳統意義上識圖的基礎上,GPT-4o可以識別手寫體(如解答手寫的方程組)、精準分析數據,并能夠讀懂畫面中人物的面部表情。

數據層面,根據傳統基準測試,GPT-4o的性能對比GPT-4 Turbo基本都處于優勢,對比其他模型更是大幅領先。

根據官網給出的資料,目前GPT-4o已經支持包括中文在內的20種語言進行音頻等多模態交互。OpenAI表示,這次更新“是朝著實用性的方向發展”,此次發布會主要聚焦于免費用戶,新功能將在未來幾周內逐步推送給所有用戶。

多模態交互的上限再次被拉高,OpenAI仍是那個擁有頂級理解,總能先一步給出范式的玩家。

接下來要期待的,或許是第一個在發布會上打出“對標GPT-4o”的大模型廠商,會何時出現了。畢竟,這恐怕不只是改個PPT的事兒。

會是明天的谷歌嗎?

作者:陶然;編輯:魏曉

來源公眾號:AI藍媒匯(ID:lanmeih001),知名AI、互聯網產業報道新媒體。

本文由人人都是產品經理合作媒體 @藍媒匯 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!