速遞|剛剛,OpenAI 發(fā)布了高級語音模式!
OpenAI 剛剛宣布了一個令人興奮的新功能——高級語音模式(AVM),這標志著人工智能在語音交互領(lǐng)域的又一次進步。AVM 利用 GPT-4o 的原生音頻技術(shù),為用戶提供更加自然和實時的對話體驗。
周二,OpenAI 宣布向更多 ChatGPT 付費用戶推出“高級語音模式”(Advanced Voice Mode,簡稱 AVM )。
目前,OpenAI 提供了兩種類型的語音對話 —— 標準語音和高級語音:
1)高級語音:目前正在向 Plus 和 Team 用戶逐步推出。該功能使用 GPT-4o 的原生音頻技術(shù),能夠?qū)崿F(xiàn)更加自然的實時對話,并捕捉非語言線索(例如語速),還能作出情感化的回應(yīng)。
Plus 和 Team 用戶每天對高級語音的使用量有限制,包括語音輸入和輸出。企業(yè)版和教育版的用戶將在下周開始獲得該功能。
2)標準語音:適用于所有登錄 ChatGPT的用戶,并可以通過 iOS、macOS 和Android 應(yīng)用使用。
標準語音通過多種模型生成響應(yīng),包括將語音轉(zhuǎn)錄為文本,再傳遞給模型進行回答。
盡管標準語音不像高級語音那樣具備原生多模式功能,但它仍然使用 GPT-4o 和 GPT-4o mini。需要注意的是,標準語音中的每一次提示都會計入消息限制。
要開始語音對話,需要選擇屏幕右下角的“語音”圖標:
當開始高級語音對話時,用戶將被帶到一個屏幕,屏幕中心有一個藍色球體:
AVM 將在一周內(nèi)逐步向所有 Plus 和 Team 用戶推送。在等待期間,OpenAI 還增加了“自定義指令”、記憶功能、五種新語音和改進的口音支持,還可以用超過 50 種語言說“抱歉,我遲到了”。
此外,ChatGPT 還新增了五種可供用戶體驗的語音:Arbor、Maple、Sol、 Spruce 和 Vale,加上之前的 Breeze、Juniper、Cove 和 Ember,ChatGPT 語音總數(shù)達到了九種,幾乎趕上了谷歌 Gemini Live 的數(shù)量。
- Arbor – 隨和且多功能
- Breeze – 生動活潑
- Cove – 沉著且直接
- Ember——自信而樂觀
- Juniper – 開放而樂觀
- Maple——開朗、坦誠
- Sol – 精明且放松
- Spruce——冷靜而肯定
- Vale——聰明且好奇
OpenAI 表示,自從 AVM 的有限 alpha 測試發(fā)布以來,已經(jīng)進行了多項改進。據(jù)稱ChatGPT的語音功能現(xiàn)在對口音的理解能力更強,且對話更加順暢和迅速。
OpenAI 還將 ChatGPT 部分定制功能擴展到了 AVM,包括“自定義指令”,允許用戶個性化 ChatGPT 的響應(yīng)方式,以及“記憶功能”,讓 ChatGPT 能夠記住之前的對話以供以后參考。
本文由人人都是產(chǎn)品經(jīng)理作者【江天 Tim】,微信公眾號:【有新Newin】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
不管怎么樣都是AI技術(shù)的一種進步,但想進行商業(yè)化必須大規(guī)模投入使用才行