讓智能音箱連續對話,百度工程師都做了些什么?

1 評論 3338 瀏覽 27 收藏 18 分鐘

怎樣讓人工智能變“聰明”?百度工程師們為了使我們和智能音箱的對話和人交互一樣,攻堅了許多技術難題。

如果家里沒一臺“智能音箱”,怎么好意思說自己是極客Boy。

可當你忍不住剁手后,體驗了一兩天的嘗鮮感,十有八九會把它扔在角落里吃灰。

每次對話都要喊一下喚醒詞,感覺好不別扭,鄰居家還可能以為你養了條叫“XX”的狗;指令說道一半就會被打斷,莫名其妙的回了句“對不起,請再說一遍”;上一句還在問今天天氣怎么樣,下一句問今天穿什么衣服,給到的是和天氣毫無關系的答案……

不只是你覺得這種體驗很不爽,百度的工程師們也忍受不了這種“人工智障”,在今年的百度世界大會上,百度語音技術部總監高亮就聊了聊語音技術是如何讓智能音響變聰明的。

一、先定一個小目標

鋼鐵俠和自己的AI管家賈維斯對話時,如果每次交互都要重新喚醒,不管是什么人都能發號施令,環境太吵的時候就聽不清,鋼鐵俠不知道會被打趴下多少次。

在百度世界,高亮說:“遠場語音的技術發展特別快,百度的喚醒、遠場識別以及基于高頻Query解決的語音語義一體化等技術,可以解決基礎體驗問題,讓音箱喚得醒,聽得清?!?/p>

但是,解決基礎體驗還不夠,如果和智能音箱交互,你就會發現:“聽懂”才是最難的。

“小度小度,放一首許巍的歌”

“現在播放許巍的歌曲《故鄉》”

“嗯……這是……他哪張專輯里的?”

“來自專輯《那一年》”

……

在高亮現場的演示里,搭載了百度遠場語音技術方案的智能音箱只需喚醒一次就可以連續多輪對話,能夠準確識別用戶說話時的猶豫停頓、能夠區分并跟隨首次喚醒的人。

與此同時,回應還相當靈敏,與小度的問答越來越像一場“交談”而不僅僅是一次“交互”。從“交互”到“交談”,這就是百度工程師們正在做的事情。

當下的人工智能遠沒有科幻電影中成熟,普遍認為還只有五六歲小孩的智商,可你和五六歲小孩溝通時也會這么費勁嗎?

就如高亮所言“每一個技術問題都會面臨一個技術解決的方法”,或許普通用戶只能吐槽抱怨一下,但百度的一群工程師們卻默默定了個小目標,不是先掙一個億,而是:

  1. 一次喚醒可以連續交互:只需要喚醒一次,就可以進行連續對話,不管智能音箱處于什么樣的工作狀態,哪怕正在播放音樂。就像人與人之間的對話那樣有問有答,不再是每次對話都要說出喚醒詞,真正的語音交互不應該是刻板的。
  2. 說話停頓不會打斷:當你說“給我放一首周杰倫的…呃…菊花臺”,智能音箱不是著急隨便放了一首周杰倫的歌,而是播放菊花臺。智能音箱要明白你什么時候說完了,什么時候沒說完,不會把你沒說完的話切斷,畢竟誰還沒有猶豫的時候呢?
  3. 知道說話人是誰:一個典型的三口之家,有爸爸、媽媽、孩子,每個人的需求是不一樣的。智能音箱要精準識別出每一個人的聲音,知道問題是誰問的,然后給出準確的答案。
  4. 上下文對話連貫:智能音箱在回答你現在的問題時,也要知道上一個問題是什么,要學會結合上下文,不能答非所問。只有這樣人和智能音箱的對話才會更自然,我們想要的不是沒有情感的機器,至少對話要有邏輯性。
  5. 聽清聽懂不傻冒泡:你在客廳和朋友聊天時,可能有些話是說給朋友聽的,有些是給智能音箱的指令,這時候智能音箱就要進行精準判斷,準確識別出你是不是在和音箱對話,而不是在不該出現的時候“插兩句嘴”。

現在語音交互用到的技術主要是麥克風陣列、語音識別、語義理解、語音轉文字、文字轉語音等等,都是人工智能技術最基本的應用,幾乎一個十幾人的創業團隊就能完成。但百度工程師們的小目標,卻需要一連串的技術攻堅。

百度高級副總裁、AI 技術平臺體系總負責人王海峰所說過:AI技術與產業的結合愈發多元化,單一技術已無法滿足應用需求,只有更懂得理解和思考,最終將幫助人們更便捷自然地獲取信息找到所求的交互,才能帶動整個生態的發展。

二、用技術拯救“人工智障”

想要智能音箱可以連續對話、應答如流,最簡單的辦法就是“人工”智能,比如2015年橫空出世的某客服機器人,憑借軟萌的聲音、流暢的反應、高度人性化的對答,幾乎可以和鋼鐵俠的賈維斯媲美,最后卻被扒出是“攝像頭+變聲器+人工客服”。

當然,“人工”智能也只有在演示時騙一騙領導,讓幾千萬臺智能音箱、智能家居、智能手機等都能對答如流,又該怎么實現呢?

高亮在百度世界告訴我們,百度的工程師已經想出了一套系統化方案:

1. 語音信號處理

語音激活檢測技術已經非常成熟,蘋果的“Hey,Siri”、DuerOS的“小度小度”都是案例,一次喚醒多次會話看起來也不復雜,比如設定智能音箱在一定時間內自動收音。難點在于怎么知道用戶的話到底有沒有說完。

因為我們說話不會永遠都是連續不卡殼的,比如我想聽一首薛之謙的歌,我可能會說“小度小度,給我播首薛之謙的……”思考1-2秒,然后說“認真的雪”。而這1-2秒間,就可能讓智能音箱以為你說完了,從而接收指令給你播起了薛之謙的所有歌曲,甚至停止響應。

百度的工程師們準備了十幾萬小時的仿真訓練數據,數千套房間數萬組沖擊響應函數,上萬小時真實AEC錄制數據,以及幾十萬小時的無監督聲音數據,利用云、端語音完整性聯動訓練的方法,然后基于大數據進行聲學建模和尾點檢測,打造了全新的語音識別引擎。

當你對智能音箱說話的時候,音箱會立刻感知到,然后持續不斷向云端發送語音數據,進行語義分析,監測你說的話是不是完整,然后智能音箱就能判斷你的話是否說完了。

上傳的語音數據只有幾十K大小,整個過程不到一秒鐘就能完成。不會出現諸如音箱在放著音樂,你說了一句“暫?!?,音箱兩三秒才響應,這個時候你可能會覺得音箱沒有聽見(尤其是音箱播放音量比較大的時候),然后再補一句“暫?!钡那闆r。

就像高亮在現場的舉例:“給我放一首劉德華的…呃…忘情水”,這個猶豫發問和提筆忘字一樣,是很普遍的場景,需要對聲學建模做一些特殊處理,要有非常精準的尾點檢測, 讓系統能夠明白我們什么時候是猶豫,什么時候是說完了話,從而明確用戶所表達的意圖。

2. 聲紋跟蹤和決策

成年人的聲音可以長期相對穩定不變,就算別人故意模仿你的聲音和語氣,聲紋卻始終不會相同。和指紋、虹膜等生物識別一樣,聲紋也是獨一無二且相對穩定的生理特征,這樣智能音箱可以拒絕掉不需要的聲音。

于是百度的工程師們,根據自然界聲音標定的聲學置信度,對百萬人量級的聲紋進行學習建模,并推出了面向智能音箱連續交互場景的語義置信度技術,也是業界首創自動區分語音中不同說話人身份的商用系統。

會對喚醒人的聲紋進行注冊、跟蹤、拒識,和喚醒人方向不一樣的聲音會被拒絕掉,聲紋不同的聲音會被拒絕掉,和智能音箱場景不匹配的聲音也會拒絕掉。

比如說你和朋友聊天的時候,聊到某首歌時想讓智能音箱播放,也可能會聊到一些電視劇和工作上的事情。百度的智能音箱已經達到了這樣的聰明程度:自動判斷是不是在和它說話,發現命令會立刻執行,不相關的對話絕不插一句嘴。

3. 交互上下文管理

現在的人工智能不是仿生學,而是通過各種各樣的算法,畢竟人類連大腦的工作原理都還沒有搞清楚,讓人工智能像人類一樣思考還很遙遠。

那么問題就來了:和人工智能進行單次的對話并不難,想要把上下文的信息關聯在一起就需要考驗工程師們的腦洞了。

百度的工程師們先做了語音語義一體化技術,把聲學、聲紋、語義置信度和從DuerOS獲得到的垂類信息資源融合起來,在深度神經網絡的多信息融合技術、高頻圖和通用圖并行解碼決策的基礎上,對對話的上下文進行跟蹤管理:判斷了說話對象后,可以知道之前交互的內容,知道對象的角色、喜好,然后綜合所有這些信息作出精準決策,這樣就解決了上下文關聯的問題。

假如你問百度智能音箱明天天氣怎么樣,下一句問穿什么衣服比較合適,聽到的回答會是和明天天氣相關的穿衣搭配。不會像一些智能音箱一樣,你問穿什么衣服,冷冰冰的來一句:“我找到附近有三家賣衣服的店鋪……”

技術可能不是萬能的,但沒有技術是萬萬不能的。

三、哪些場景可以用?

一次喚醒多輪對話的能力依賴于多項聲紋、語音、語義技術的進步,包括創新的尾點檢測技術,其利用云端信號AD技術一邊做語音識別一邊發給語義VAD,將聲學技術與語義技術結合在一起,能夠適應用戶說話速度,知道用戶什么時候說完了,不在中間打斷。

魯棒拒識技術創新了聲紋跟蹤、語音置信度、聲學置信度,可以基于特定說話人的場景化識別,拒絕非音箱交互人聲,拒絕聊天內容與場景不一致的對話。

現場,高亮也用一款音箱向大家展示了百度遠場語音技術方案——通過一連串流利的交互,在大會會場高噪音的環境下,說話的距離超過1米,音箱的喚醒和識別表現很好。

并且一次喚醒就能多次對話,智能音箱在說話時,也能聆聽用戶的新命令并且快速執行。從更多的演示deme和視頻來看,維納斯智能音箱也能實現一定的上下文理解。

想要讓智能音箱實現連續對話的,不只是百度的工程師們,谷歌、亞馬遜等同樣在努力。這些個工程師們加班加點,冒著掉頭發的風險去做技術研發,僅僅是為了讓智能音箱不在角落里吃灰嗎?

其實場景還有很多。

王海峰曾在中國圖靈大會上展示過百度的智能語音搜索:當用戶直接對著手機詢問“天氣熱嗎?”,她會回答當地的天氣是熱還是涼爽,氣溫如何等情況;當用戶接著問“上海呢?”,她能夠基于上下文理解技術自動補全用戶的問題是上海的天氣,從而給出準確的回答。

此外在王海峰在百度AI開發者大會上的那段“花式 RAP”,百度AI也完全不懵逼,妥妥應答如流。

再比如公室里的小組會議總需要安排一個人進行會議紀要,又不是專業的速記員,難免忘了某個問題是誰提的,某個人說了一大對話可能只記了開頭幾句。

這時候聲紋識別技術就可以派上用場了,兩人場景中百度的識別準確率為95.2%,三人及以上場景也達到了92.9%,遠比普通人的會議紀要靠譜。

更多的應用場景在用戶家中——在典型的三口、四口之家,音箱能聽清、聽懂、滿足小孩、老人、妻子和丈夫,每個人不同的需求;能夠區分人聲和電視的噪音、家電的噪音,能夠明白用戶的指代關系,在一次連續交互的過程當中應答如流;能夠在當用戶表達完意圖的話,1秒內有動作,最遲不超過1.5秒。

又或者家里來了朋友,智能音箱可以能夠在用戶和朋友對話、聊天時能夠分辨來自同一方向的兩種聲音,哪個是指令,哪個是閑聊;更能夠明白主人什么時候在和它講話,什么時候在和朋友講話,不能兩個人討論著《延禧攻略》的劇情,音箱突然唱起了《紅墻嘆》或者放起了秦嵐的新聞。

還有在家里用智能音箱聽歌的時候,你喜歡聽的是周杰倫,你女朋友偏偏是鄧紫棋的粉絲,之前還存在互相切歌的場面。假如你有一臺DuerOS加持的技術音箱,你發出的指令立刻執行,對你女朋友的指令置若罔聞,切歌大戰輕松分出勝負。當然,游戲的前提是你要有個女朋友。

音箱只有做到該說話的時候說話,不該說話的時候不說話,才能跟我們真實交互場景變得非常像。

所以,領教了百度這群執著的工程師后,我們有理由相信:更好更智能、能跟你“對話”的智能設備全面融入你生活的日子已經不遠了。

#專欄作家#

Alter,微信公眾號:spnews,人人都是產品經理專欄作家,互聯網觀察者。專注于移動互聯網、智能硬件、電子商務等科技領域。獨立的自媒體人,走在創業的路上。

本文原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 文章分析的很好,很到位。

    來自安徽 回復