視覺語音交互毫無延遲,都成精了居然還不是GPT-5?

0 評論 565 瀏覽 1 收藏 10 分鐘

OpenAI發布了一個叫做GPT-4o的新模型,這個新模型的能力已經讓不少人感到驚訝,而它甚至還不是GPT-5。

OpenAI給2024年5月14日的這場發布會取名“春季功能更新”,就像它們形容當初ChatGPT的發布是一次“低調的研究預覽”一樣。

而就像那次一樣,一切也都回不去了。

OpenAI發布了一個叫做GPT-4o的新模型,它的確不是GPT-5,但看了它能做的事情,再想到它甚至不是OpenAI正在砸更多的錢和智慧在做的GPT-5,你只會感覺更“可怕”。

發布會一開始,OpenAI的CTO Mira Murati介紹了新模型GPT-4o(是的,Sam Altman全程沒有現身)。她強調這個模型是要給所有人使用,并且通過交互的更新讓人們忘了UI的存在。因為OpenAI的愿景正是如此。

而到此這似乎還很正常。

“不過是新模型而已嘛?!?/p>

但直到demo環節開始,一切越來越離譜。

首先是一個實時對話的展示。

“我正在做demo,我有點緊張?!盡ark說。然后他開始故意喘息的非???。而GPT識別出了他的呼吸。

“哦,哦,哦,別緊張,慢下來。你不是個吸塵器?!盋hatGPT的女人聲音抑揚頓挫,沒有任何延遲。

是沒有任何延遲。你不需要等她,她也不會讓你等,當你直接開始說接下來的話,她會立刻停下來聽,并立刻做出調整。

而且在這些回答中,它甚至有喘息和猶豫的聲音。

另一個很可怕的細節是,這些demo全程不需要任何多余的按鍵操作。

對,聲音的對話就像是在“打電話”。

另一個demo是假設要給朋友講一個關于機器人的睡前故事。

提出需求后,ChatGPT開始正常的講故事。

但聽的人并不喜歡,于是直接打斷說,能不能講的更有感情更drama一點。

ChatGPT立刻調整,增加了一些懸疑感。

“不不不,我希望把感情和drama感拉滿?!甭犝咴俅沃苯哟驍??!簿褪钦fChatGPT在實時聽著你的聲音。

然后ChatGPT變成了一個非常浮夸的故事講述者。

“你能不能用機器人的聲音給我講故事?!盡ira又直接插話。

而ChatGPT立刻開始模仿機器人。注意,是模仿,也就是它的聲音一直是那個女聲,一切聽起來就像家長在講睡前故事時候會做的那樣。

“你能最后唱一首歌把這個故事結束么?!甭犝哂痔崃艘?。

然后ChatGPT立刻唱了一首歌。根據剛才的故事,實時,改編,并直接唱出來的一首歌。

“如果你之前使用過我們的語音模式,你會注意到幾個關鍵的區別。首先,你現在可以打斷模型了。你不需要等它結束你的回合,你可以隨時開始說話,隨時插話。其次,模型的響應是實時的。這意味著你不需要再經歷那種尷尬的兩到三秒的延遲,等待模型回應。最后,當我剛才呼吸非常急促時,模型能夠感知到情緒。它會提醒你,或許你需要放松一下,你的節奏快得有點過頭了。所以你知道,它確實具有全面感知情緒的能力。不僅如此,這個模型還能以各種不同的情感風格生成聲音,它真的具有非常廣泛的動態范圍?!?/p>

如果你是個創業者,或者熟悉大模型應用創業環境的人,你會立刻意識到。

又有一批創業公司死了。

之后是視覺能力的展示。

對,在同一個產品上。一個據說要免費提供給全世界所有人的產品上。

他先是展示了一個通過攝像頭獲得視覺能力,然后實時指導你的數學解題的demo。

甚至因為“幻覺”問題,ChatGPT在還沒打開攝像頭時候就自信滿滿的說理解了。當展示者提示后,她說“oops,我太興奮了?!?/p>

然后展示者打開攝像頭,實時寫了一個數學方程題,然后讓ChatGPT一步一步的提醒和講解他在做的解題思路。ChatGPT很好的做到了。

像一個很有經驗有耐心的數學老師那樣。

這還沒完。

似乎是為了打臉那些錄制好加速后的demo,他們還實時收集了X上的反饋。其中一個挑戰是:打開攝像頭讓ChatGPT實時分析你的情緒。

展示者開始攝像頭自拍,而ChatGPT立刻分析道:

“你看起來是個桌子?!薄驗榇蜷_攝像頭時,最先打開的是前置的攝像頭,對準的是桌子。

“不不不,那是之前的,你不用擔心,我不是個桌子?!狈窒碚哒f到。

“哈哈,那就合理了?!盋hat GPT說到。

這里看的時候,估計很多人跟我一樣驚了一下。

然后ChatGPT立刻分析:“你看起來非常開心。大大的笑容,甚至有一點興奮。你想分享一下讓你這么開心的原因么?”語氣里甚至能聽到好奇,以及斟酌語句的感覺。

“因為我在做實時展示,讓大家看看你有多出色?!敝v者說。

“哦,拜托,別讓我臉紅了?!盋hatGPT帶著笑聲說到。

瞬間,《Her》降臨??苹贸闪爽F實。

看到這,所有人估計都明白了Sam Altman此前賣關子時候說的“magic”是什么。

在驚嘆之余,還是再總結一下:

  1. 這些操作全程沒有多余的點擊操作的交互。
  2. 沒有絲毫延遲的視覺和聲音反饋。
  3. 不僅能感受到你的情感,ChatGPT也自帶情緒和情感。
  4. 能對桌面等更數字化的世界有更全面的信息感知。
  5. 全部集成在一個產品里,而且可能是對所有人免費的。

哦對,以及,這還不是GPT-5。

發布會后,OpenAI也在官網更新了這次發布的模型的具體信息:

https://openai.com/index/hello-gpt-4o/

還記得ChatGPT第一次出來時,有人形容跟它第一次親密接觸的感受:

當你通過打字跟它交互的時候,等待它回答的過程仿佛能想象到對面坐著一個人,正在轉筆,思考如何回答你的問題。

而今天,不只是你的嘆氣,情感和喘息能被AI感受到,你也能直接感受到對面的“人”的嘆氣,情感,和喘息。

在電影《Her》里,主人公最終愛上了這個AI助手。我們不知道GPT-4o加持下的新ChatGPT會帶來什么。更不知道GPT-5出現后會發生什么。

一切都太快了,都回不去了。

最后,對所有開發者和創業者,這次發布又意味著什么?

也許這句當時有些被人不以為意甚至覺得冒犯的話值得再看一遍,它可能說明了一切:

目前有兩種構建人工智能的策略:一種是假設模型不會改進,然后在現有的能力上建設一堆小東西;另一種是假設 OpenAI 將保持相同的增長軌跡(繼續瘋狂迭代)。我認為,95%的人應該押注在第二種策略上。我們有改進模型的使命,不是我不喜歡你們,但我們將碾壓你。

——Sam Altman,2023年4月17日

作者:王兆洋

來源公眾號:硅星人Pro(ID:Si-Planet),硅(Si)是創造未來的基礎,歡迎來到這個星球。

本文由人人都是產品經理合作媒體 @硅星人 授權發布,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!