OpenAI發布新模型GPT-4o:對所有人免費、更易用、更強
今天凌晨,OpenAI發布會召開,其中最重磅、最核心的是GPT-4o 這個新模型。具體能力如何?一起來看看吧。
今天凌晨 1 點( 太平洋時間 5 月 13 日上午 10 點 ),OpenAI 的 CTO Mira Murati 在三十分鐘不到的時間里,用一場短的春季發布會,給了大伙們秀了一波 OpenAI 的新肌肉。
說實話,看得還有點讓人意猶未盡,因為這 AI ,好像成精了。
這場發布會主要有四個部分,分別是桌面端 App 的更新、 WebUI 的更新、GPT-4o 模型的發布、實時 AI 助手的功能演示。
而其中最重磅、最核心的,無疑就是 GPT-4o 這個新模型。
根據 Mira Murati 的說法,OpenAI 的愿景是 AI 的便利能福澤所有人類,所以新的 GPT-4o 模型會向大伙們免費開放使用,付費用戶呢,則在使用次數上比免費用戶多 5 倍。( 官方指出,當使用次數達到上限時,免費用戶會被強制退回到 GPT-3.5 版本。這應該是出于成本考量。 )
而相比于上一代的 GPT-4 Turbo,GPT-4o API 的速度快了 2 倍、費用便宜了 50%、速率限制上,也比前者高了 5 倍。
當然,如果只是這些性能上的“ 略微提升 ”,那就對不起 OpenAI 在 AI 領域話事人的地位了。
實際上,根據 OpenAI 官網的介紹,GPT-4o 中的 “ o ” ,代表的是 “ omni ”,也就是 “ 全能 ” 的意思。它成功地把文本、視覺、音頻全部打通了,這意味著 GPT-4o 可以接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。
這對多模態大模型來說,是一個重大改變。
拿此前 ChatGPT 的語音模式為例,它要用到三個獨立模型組成的管道,一個模型負責將音頻轉錄為文本,第二個模型是 GPT-4 ,它負責接收文本并輸出文本,第三個模型則將該文本轉換回音頻。
這個過程意味最中間的主角 GPT-4 收到的信息其實是二手的 —— 它無法直接觀察音調、多個說話者或背景噪音,也無法輸出笑聲、歌唱或表達情感等等。
而在最新的 GPT-4o 模型中,所有輸入和輸出,都由同一神經網絡處理,也就是說,新的 GPT-4o 是一個原生的多模態模型,而非之前的組合模型,它解決了上述的所有缺點。
總之,在各型數據,特別是視覺和音頻理解上,GPT-4o 相比于市面上的其他大模型,又來了一波遙遙領先。
在發布會上,他們也簡單演示了一下基于 GPT-4o 的最新 AI 助手,只能說是相當震撼。
一個是 AI 助手建議 OpenAI 的工作人員別緊張,演講前可以做個深呼吸。OpenAI 的員工則故意呼吸得很大聲,讓 AI 助手對其深呼吸做出評價,AI 助手直接損了他一句 “ 你不是吸塵器 ”。。。
很明顯,新模型能聽出發言人呼吸聲的輕重,并且會富有情感的適時開玩笑。
另外,工作人員一邊要求 AI 助手講個故事,一邊不斷要求 AI 變化音色、語調、情感等等。AI 則像《 喜劇之王 》中的周星馳一樣,完美應對 “ 導演 ” 的每個需求。
同樣,AI 助手的視覺能力,也在演示現場驚艷了不少人。無論在是現場通過視頻,一步步指導工作人員解方程,還是通過攝像頭,觀察人的表情猜其心情,AI 助手幾乎都完美勝任。
在發布會中,他們還展示了 AI 助手的實時翻譯功能,在演示中 AI 意大利語和英文完美切換,基本感受不到任何時延。
知危編輯部上傳了發布會的完整視頻,搭配了機翻字幕,各位可以看看視頻演示效果,在驚艷的效果面前,我們的文字形容是十分蒼白的,請從視頻第 9:15 分開始觀看演示。( 時間倉促,機翻字幕沒有進行精校,導致英文字母有部分位置重疊、有一段意大利語機器識別為亂碼,但基本不影響對視頻的理解,給您帶來的體驗不夠完美,抱歉 )
知危編輯部認為本次發布會的另外一大亮點,則是基于 GPT-4o 的桌面端 App,在發布會的現場演示中,用戶使用 ChatGPT 時,不再需要面對這文本對話框做輸入。
你可以給 OpenAI 的桌面 App 分享屏幕,讓 AI 直接線上幫你解釋代碼、分析圖表,并且能通過語音與你實時溝通。只能說老羅的 TNT 生不逢時,在當時確實缺少了大模型的賦能。
不過,知危編輯部覺得最可怕的是,按照 OpenAI 官網的說法:他們只是淺嘗輒止地探索了一番,做了些演示,連他們自己也沒完全搞清楚這個模型具體能做什么樣的事兒、上限在哪里。
例如簡單生成圖片,還有圖片的風格化,GPT-4o 似乎完全不在話下。
你也可以通過詳細的描述,讓 AI 做出相應的設計圖片。
通過幾個簡單描述和輸入,就輸出 3D 圖形,GPT-4o 似乎也能勝任。
甚至,它還能直接按照要求,輸出相應的聲音。
以下是生成的聲音,可以點擊播放↓按照 OpenAI 的說法,GPT-4o 的文本和圖像功能,今天開始就會在 ChatGPT 中推出,并給出了入口鏈接。而音頻功能,則需要經過幾周乃至幾個月的安全評估,才會正式開放。
不過,截至發稿前,知危編輯部所有擁有的 ChatGPT 賬號中,通過官方入口進入后依舊只有 GPT-3.5 和 GPT-4 兩個選項,不知是否是后臺還沒將功能上線完畢,所以我們暫未能給您帶來實測體驗。
各位可以稍安勿躁,或許過幾個小時,GPT-4o 就會上線完畢,我們就可以進一步體驗了。到這里,我們對 GPT-4o 的快速介紹已經完畢,相對于 “ 免費 ” 和 “ 更強 ”,我們認為這次更新最重要的是 “ 易用 ” 性。
我們認為,最好用的工具,應該讓你并不會感覺到它的存在。過去,手機和電腦固然大大的提高了我們工作生活的效率,但它們依然有一定的門檻,依然需要你想辦法去 “ 高效的輸入 ”。而這次,GPT-4o 真正的讓人與機器的交流變得絲滑,用語音和視頻這種最原始、簡單的方式,使你你能獲得你想要的信息、做成你想要完成的事。
或許,我們可以把這稱之為 “ 大模型的 OS 化 ”,忘掉 Windows、MacOS、iOS 或是 Android 吧,在未來,我們可能將不會接觸操作系統,我們唯一需要的,就是對一臺機器說話。
最后,我們放一個 GPT-4o 通過視頻給兩個玩石頭剪子布的工作人員當裁判的視頻,看了之后,你就明白什么是 “ Only OpenAI Can Do ” 了
本文由人人都是產品經理作者【汪仔2083】,微信公眾號:【知?!?,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!