實測豆包語音大模型:你不說誰知道這是AI啊
“豆包語音大模型登場,AI 語音新篇開啟。” 在語音大模型競爭激烈的當下,豆包語音大模型有何突出表現?它是如何實現高度擬人化的?又為何能在眾多產品中脫穎而出,占據行業重要地位?
趕在春節前最后一周,字節掏出了今年國產語音大模型的天花板,豆包實時語音大模型。
收官之作,依然延續了過去大半年字節AI團隊的風格——不掏則已,一掏就是王炸。
從年中的基礎模型、視頻生成模型,到年尾的視覺理解模型,對比同行來看豆包通常不是那個發的最快的,可一旦做出來,基本就預定了賽道內未來一段時間的No.1。
實時語音模型,又是這個節奏。
對話模型的風口由OpenAI掀起,GPT-4o實時對話剛發布那會兒,圈里人驚呼Her或者Jarvis這類影視作品中的AI助理概念神終于出現在了現實當中。
國內玩家自然也是也迅速跟進,本就擅長語音技術的科大訊飛在八月更新了“超擬人交互”,豆包之前的國內AI頂流Kimi也在10月份更新了實時AI電話(但本質上是T2S,轉文字處理再轉回語音輸出)。
不過現在豆包來了,而且又雙叒后來居上、直接封王了。
一、“你不說,這誰聽得出來是AI???”
以下內容建議佩戴耳機瀏覽。
無不良引導,主要是希望你開大點聲仔細聽,才能聽到各家語音大模型輸出上的差異,以及最重要的,豆包團隊在聲音細節方面究竟打磨到了什么程度。
年關將至,又到了回家團圓的美好氛圍,被七大姑八大姨的奪命連環Q擊碎的時候:上班了嗎發錢了嗎獎金有嗎買房了嗎買車了嗎談對象了嗎要孩子了嗎。
讓AI給你答題已經是去年的玩法了,今年,AI除了能告訴你怎么脫困之外,還能給你帶來足額精神慰藉,拉滿的情緒價值。
再次建議佩戴耳機,聽得細致些。我:“唉這馬上要過年了,我這心里真是又期待又發愁?;丶腋胰藞F聚是挺好的一件事,但我一想到那七大姑八大姨就頭疼。你知道我每一次回去,就肯定有一票的人追著問我什么相親啊,工作啊,工資啊這些事情。就坐在桌子上跟被審問一樣,我怎么辦呢我天?”
Kimi語音片段Kimi:“這確實挺讓人頭疼的。我每次回家也差不多,不過你可以在被問到的時候,就簡單說一些比較正面的話,比如說你對工作的滿意程度,或者你對未來的規劃。這樣他們可能就不會一直追問了。怎么樣,可以試試看嗎?”
首先Kimi這個明顯感覺有點卡,從結束收音(屏幕中間那個音量標識停止跳動)到Kimi開始回答問題,中間起碼等待了大概一兩秒的時間,顯示Kimi思考中。
回答內容問題不大,但你聽起來(尤其經常用AI,哪怕是AI騷擾電話接多了的人)會察覺到一股機械感。語音語調過于平穩、沒有起伏是一方面,AI回答的每個句子之間斷句和銜接非常突然,真人平時說話的時候兩句中間喘口氣、頓一下的感覺完全沒有,甚至聽起來像是刻意被切掉了。
只有一處“……比較正面的話”和“比如說……”中間聽起來像是有人聊天時候的停頓和吸氣。
頓挫這個點很關鍵,Mark一下繼續往后聽。訊飛星火語音片段訊飛星火:“過年回家確實讓人又愛又恨啊。七大姑八大姨的關心有時候真的會讓人有點受不了。要不你提前給自己找些話題,比如聊聊你的興趣愛好,或者講講最近看的電影、書什么的?這樣他們就不會一直問那些讓你煩心的問題了?!?/p>
訊飛的速度和效果比Kimi好一些,至少句子之間接的比較自然,間隔合理。但還是有些問題沒有解決,首先是語音語調,從開始到結束都極為平穩,毫無波瀾就顯得非常不自然非常AI,唯一一處能聽到換氣聲音的地方又在“比如”這個詞前后:……找些話題,比如聊聊……
猜測大概是和Kimi類似,模型訓練語料庫當中包含“比如”的句子前面都有一個明顯的吸氣和停頓,所以AI也get到了這個習慣。畢竟人一般聊天的時候,拿比如舉例子前面基本都是要頓一下的。
回看Kimi和訊飛的回復內容,文字也是一個套路:xxxx確實xxx,然后回答問題。
這樣是OK的,但不夠好。具體怎么不夠好,聽完豆包的回答你就知道了。
豆包語音片段豆包:“我懂我懂,這過年本來是開心的事兒結果還要被盤問,真是夠夠的,那你要不這樣,就提前準備一些萬能回復,比如說,嗯,工作還行啦謝謝關心,啊我還不著急結婚呢遇到合適的再說?;蛘吣阋部梢杂靡恍┯哪姆绞交?,就打個哈哈就過去了嘛。那你之前有沒有試過什么辦法?”
沒反應過來就對著文字再聽一遍,什么叫以假亂真,什么叫高下立判。
簡單解釋一下豆包神在哪里:先看文字部分,沒有公式化的承接,套路化的確實,你面對的就是身邊一個跟你玩的非常非常熟絡的姐妹,“我懂我懂,真是夠夠的”,估計平時聊八卦或者追星也是這個調調。
“那要不你這樣”、“打個哈哈”也是一樣的口語化表達。
還有,仔細聽每兩句話中間的銜接:“還要被盤問(嘶,吸氣)音,真是夠夠的(嘶,又是一遍吸氣音)”、“比如說,嗯…(停頓思考音)”,“(吸氣)啊…我還不著急結婚呢”……
這個東西沒法再用語言去過多的解釋,你抓個身邊人聊聊會發現人和人平時聊天就是這么聊的。
豆包做到了沒有機械感,完全沒有。
藍媒君把這個視頻轉成錄音發給了好兄弟,沒跟他說是AI,幾分鐘后的回復是:“哦呦,有情況啊今年?嫂子聲音還挺好聽(狗頭)”
真的,你不說這誰聽得出來是AI啊。
二、真實流暢背后的技術密碼
這就是國產AI語音新的天花板,豆包把原來的頂層捅了個干凈,然后往上又加蓋了好幾層。
怎么做到的呢?
長久以來,傳統語音對話系統多采用級聯模式,即先通過自動語音識別(ASR)將語音轉成文本,再由大語言模型(LLM)生成對話文本,最后經文本轉語音(T2S)輸出。
這種模式雖廣泛應用,但問題不少。比如,它對用戶情緒及語音中的細微信息理解欠佳,生成語音的情緒表現有限,難以遵循復雜語音指令,且在實時交互中存在高延遲問題。
豆包語音大模型則另辟蹊徑,研發出端到端框架。該框架面向語音生成和理解統一建模,深度融合語音與文本模態。在預訓練階段,對海量的各模態交織數據進行深入挖掘,借助Scaling理念,將語音與文本能力深度融合,實現能力的涌現。
這就好比搭建一座大廈,傳統模式是各部分分開建造再拼接,而豆包語音大模型則是從地基開始就整體規劃,讓語音與文本緊密相連,為后續的優秀表現奠定基礎。
同時,為實現擬人化情感承接,團隊在數據收集階段,就精心挑選各類包含豐富情感的語音數據,從歡樂到悲傷,從興奮到沮喪,為模型提供充足養分。
預訓練時,又設計專門算法,讓模型精準捕捉語音中的情感特征;后訓練階段,再通過真實與高質量合成的語音對話數據進一步優化,使模型能敏銳感知用戶情緒。當用戶開心時,它以歡快語氣回應;用戶低落時,送上溫暖安慰,真正做到與用戶共情。
至于藍媒君前面寫的頓挫那些細節,豆包團隊也做了解釋:在智商與表現力之間找到平衡。
在語音輸入時,它深度理解各維度信息,確保輸出內容真實有用。同時,輸出語音極具真人表現力,包含語氣詞、停頓思考等類人副語言特征。為實現這一目標,團隊在數據和算法上發力,保證多模態語音對話數據語義正確且表現自然。通過多輪數據合成生成高質量語音數據,并定期進行多維度評測,依據結果調整訓練策略,始終維持平衡。此外,實時聯網功能讓模型能獲取最新信息,精準回應時效問題。
找到正確的技術路徑+大力出奇跡的方法論,被字節再次驗證。
One More Thing
豆包現在有多猛呢?一家撐起了中國2CAI的半邊天。
研究機構QuestMobile數據顯示,截至2024年11月底,中國AIGC APP整體月活用戶數量已經破億,相比6月份的統計數據實現了翻倍增長。
而在眾多AIGC APP中,字節跳動旗下的豆包表現一枝獨秀、一家獨大:豆包11月月活達到5600萬左右,占據了行業近半數的月活用戶。后方像Kimi、文小言等APP,盡管看排名仍是頭部,但和豆包已經有了明顯的體量差距;而在12月,豆包的月活規模進一步增長至7522萬。
圖源/QuestMobile
另據AI產品榜的APP統計(兩機構數據略有出入)顯示,截至12月底,豆包的MAU超過7100萬,而榜單前十名中,除去豆包之外其余APP的MAU總和才僅為6900萬(Kimi和文小言的MAU分別為1600萬和1300萬)。
作者|陶然? ?編輯|魏曉
本文由人人都是產品經理作者【藍媒匯】,微信公眾號:【AI藍媒匯】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自豆包官網截圖
- 目前還沒評論,等你發揮!