視覺語音分離模型,解決“雞尾酒會效應”
如何在酒會上分辨出特定人物的聲音?這對于我們人類來說十分簡單,但當許多的聲音交疊在一起時,常讓AI錯手不及。那如果攻破了“雞尾酒會”難題,人聲分離給生活帶來了哪些改變?
試想一下,在一個嘈雜的雞尾酒會上,同時存在著許多不同的聲源:多個人同時說話的聲音、餐具的碰撞聲、音樂聲等等。
如何在酒會上分辨出特定人物的聲音?這對于我們人類來說十分簡單。但對于計算機來說,要把一個音頻信號分割成多個不同的語音來源,依然有許多棘手的問題需要解決。當許多人的語音交疊在一起的時候,AI時常措手不及。
1953年Cherry提出“雞尾酒會”問題至今,仍然沒有人能夠解決機器深度學習識別分離人聲的問題。
但是,近日在GoogleResearch?軟件工程師?Inbar?Mosseri?和Oran?Lang?發表的論文《Looking?to?Listen?at?the?CocktailParty》中,采用了一個全新的視聽模型為“雞尾酒會”問題提供了一個合適的解決之道。
音頻-視覺語音分離模型,解決“雞尾酒會效應”
為了解決“雞尾酒會”問題,谷歌從YouTube上搜尋了10萬個高質量講座和演講視頻生成訓練樣本,通過約2000?個小時的視頻片段分析,訓練出基于多流卷積神經網絡(CNN)的模型,將合成雞尾酒會片段分割成視頻中每個說話者的單獨音頻流。
該試驗中,輸入是一名或多名發聲對象,同時被其他對象或嘈雜背景所干擾的視頻。輸出的是將輸入視頻的音軌分解成純凈的音軌,并對應上相應的說話者。
所謂的音頻-視覺語音分離模型,就是加強選中人的語音,同時減弱同一時間其他人的音量。該方法適用于具有單一(主)音軌的常見視頻,用戶也可以自行選擇傾聽對象來生成對其的單一音軌,或者基于語境由算法進行對特定發聲對象進行選擇。
而在模型訓練過程中,網絡系統(分別)學習了視覺和音頻信號的編碼,然后將它們融合在一起形成一個音頻-視覺表現。通過這種表現,網絡系統可以學會為每位發聲對象對應輸出時頻掩碼。輸出的時頻掩碼與噪聲輸入頻譜圖相乘,隨后轉換成時域波形,從而形成每一位說話者單獨純凈的音頻信號。
基于神經網絡模型架構
此外,在多人發聲的場景下,視覺信號除了有效提升語音分離的質量,還可以把分離之后的音軌和視頻里的人物對應起來,此種方式為其后的語音識別領域提供了許多的可能性。
解決“雞尾酒會效應”這一難題意味著什么?
“雞尾酒會效應”難題的解決,為語音識別領域的許多問題提供了思考路徑,同時視覺-音頻網絡識別系統的提出,也為人聲分離提供了視覺+聽覺的解決方式。隨著技術落地,當人聲分離技術真正應用于市場中會對產品有哪些改變呢?
筆者認為,其在以下四個方面會有較大突破:
1. 人聲分離助力CC(隱藏式字幕)發展
隱藏字幕(Closed?Captioning)是電視節目和電影中為有特殊情況或者需要的觀眾準備的字幕,其可以起到用解釋性語言描述畫面的作用。
Caption?這個詞,有輔助聽力障礙的人士用意。Caption一般還包含了效果音的提示,這些聲音正常人可以分辨,而對于障礙人士則必須通過字幕。
比如:美國的「流言終結者」節目,除了可以看到「TV?PG」分級標簽以外,也顯示了?CC?標志表明節目提供隱藏式字幕,以此來服務那些需要特殊幫助的群體。
《流言終結者》
同樣,谷歌人聲分離技術對于促進CC發展有較大前景。多通道系統中對于特定人聲的分離能夠簡化節目、電影制作流程,其在語音識別的預處理,以及視頻字幕方面能產生良好效果。
對于視頻自動字幕加載系統而言,多名發生者同時發聲導致的語音重疊現象是一項已知的挑戰,與此同時,將音頻分離至不同的源也有助于呈現更加準確和易讀的字幕。
人聲分離技術可以在語音原聲的基礎上直譯出各個對話主題的聲音,并將其分開,利用AI實現字幕自動化,這極大程度上保證了字幕的同步性與準確性。
2. 人聲分離降低AI同傳“烏龍率”
在2018年博鰲論壇上,騰訊AI同傳搞了一個大烏龍。除了翻譯不準確的問題意外,現場還被曝光翻譯系統崩潰“抽風”,出現亂碼的情況,讓現場相當尷尬。
騰訊AI同傳的“車禍”現場
事后,騰訊指出:出現此種烏龍的原因在于中英雙語切換頻率的問題,當聲源在兩種語言之間不斷轉換時,后臺中、英文識別引擎就會同時開始工作,這會導致兩種識別引擎互相“掐架”,語音識別混亂。最終翻譯結果只能選擇一種語言進行輸出,導致引發錯誤。
而人聲分離技術的應用,似乎為AI同傳中的人聲識別提供了一個有效的解決途徑。對于多種語言的識別流暢化后,AI同傳的質量也相應會得到一定的提高。
3. 或可為智能音響提供“保險箱”
AI人聲分離加強智能音響識別精準度
智能音箱的問世,使得普通家庭進入了語音互動的時代,其使用的簡易性甚至超過了智能手機。有業者認為:智能音箱將會取代智能手機,成為家庭自動化或者智能家居生活的入口,自然語言對話將成為主流和高效率的用戶界面。
與此同時,智能音響在應用過程中,也面臨著諸多挑戰,其主要體現在語音識別技術、聲紋識別等諸種技術上。目前,智能音箱的技術難題在于語音識別技術如何在嘈雜的環境中識別語音指令——包括酒吧和體育場等人聲鼎沸的場景。
為此,微軟在Xbox上部署了一款名為Voice?Studio的應用,專門收集人們在玩游戲或看電影時的對話信息。為了吸引用戶貢獻自己在玩游戲過程中的對話內容,該公司為參與其中的用戶提供了各種各樣的獎勵,包括點卡和游戲道具。
但是,效果并不盡如人意。如何在嘈雜環境識別人聲?如何分別多人聲音依然是智能音箱的難題?
日后,隨著智能家居的普及,智能音響成為了物聯網環境下與其他家居溝通的“鑰匙”,而AI人聲分離技術的應用,攻克技術問題的同時也為智能音響提供了一個安全性較強的“保險箱”。
4. 為無人駕駛提供仿生啟示
“雞尾酒會效應”在動物界的應用為無人駕駛提供一定啟示。以蝙蝠躲避障礙和捕食為例,其在飛行過程中會發射一系列超聲波,超聲波遇到障礙后反射回來,蝙蝠通過感知反射信號到達兩耳的時間差來判斷障礙物的方向,通過感知反射信號的強度來判斷障礙物的距離。
蝙蝠發出的超聲信號一般是在110kHz的一個掃頻信號,通過感知不同頻率信號的衰減程度,就可以辨別障礙物的材質,進而可以判斷障礙物是否為捕食對象。
蝙蝠是如何區分自己和他人發出的超聲波信號的呢?
科學家通過研究發現:蝙蝠并沒有改變發出的超聲頻率,而是通過叫聲變大,持續時間變長,發射頻率增多等方式來解決的。
動物界的“雞尾酒會效應”啟示無人駕駛:想提高雷達的定位精度,提高信噪比是根本。
比如:蝙蝠叫聲變大,相當于提高了信號的能量;而叫聲持續時間變長和叫聲頻率增多,則是增加了信號的樣本點數。在噪聲不相關的情況下,經過簡單的平均就可以降低噪聲的影響。
這一點,將會為機器人和無人駕駛汽車帶來了新的啟發。
無人駕駛的激光雷達探測
此外,視覺-音頻語音識別分離模型應用于無人駕駛領域能大程度提高雷達、激光等距離傳感器測量出路面信息的性能,而這正是無人駕駛安全保障的基礎。
隨著日后無人駕駛的普及,人聲分離模式或可衍生出“雷聲分離”,將雷達誤收風險降到最低,從而保證無人駕駛障礙識別方面的安全性。
誠然,新技術的應用需要一段時間。谷歌官方目前也表示:
“正在探索使用這個技術到谷歌系列產品中去”
隨著“雞尾酒會”難題的解決,AI語音識別將會有長足進展。具體投入產品后表現怎樣,還需要市場來檢驗。
作者:柯鳴,微信公眾號:智能相對論
本文由 @智能相對論 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CCO協議
- 目前還沒評論,等你發揮!