欧美日韩亚洲中文字幕二区,99国产午夜精品一区二区,伊人伊成久久人综合网996

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

讓智能音箱連續對話，百度工程師都做了些什么？

Alter

2018-11-05

1 評論 3463 瀏覽 27 收藏

18 分鐘

怎樣讓人工智能變“聰明”？百度工程師們為了使我們和智能音箱的對話和人交互一樣，攻堅了許多技術難題。

如果家里沒一臺“智能音箱”，怎么好意思說自己是極客Boy。

可當你忍不住剁手后，體驗了一兩天的嘗鮮感，十有八九會把它扔在角落里吃灰。

每次對話都要喊一下喚醒詞，感覺好不別扭，鄰居家還可能以為你養了條叫“XX”的狗；指令說道一半就會被打斷，莫名其妙的回了句“對不起，請再說一遍”；上一句還在問今天天氣怎么樣，下一句問今天穿什么衣服，給到的是和天氣毫無關系的答案……

不只是你覺得這種體驗很不爽，百度的工程師們也忍受不了這種“人工智障”，在今年的百度世界大會上，百度語音技術部總監高亮就聊了聊語音技術是如何讓智能音響變聰明的。

一、先定一個小目標

鋼鐵俠和自己的AI管家賈維斯對話時，如果每次交互都要重新喚醒，不管是什么人都能發號施令，環境太吵的時候就聽不清，鋼鐵俠不知道會被打趴下多少次。

在百度世界，高亮說：“遠場語音的技術發展特別快，百度的喚醒、遠場識別以及基于高頻Query解決的語音語義一體化等技術，可以解決基礎體驗問題，讓音箱喚得醒，聽得清?！?/p>

但是，解決基礎體驗還不夠，如果和智能音箱交互，你就會發現：“聽懂”才是最難的。

“小度小度，放一首許巍的歌”

“現在播放許巍的歌曲《故鄉》”

“嗯……這是……他哪張專輯里的？”

“來自專輯《那一年》”

……

在高亮現場的演示里，搭載了百度遠場語音技術方案的智能音箱只需喚醒一次就可以連續多輪對話，能夠準確識別用戶說話時的猶豫停頓、能夠區分并跟隨首次喚醒的人。

與此同時，回應還相當靈敏，與小度的問答越來越像一場“交談”而不僅僅是一次“交互”。從“交互”到“交談”，這就是百度工程師們正在做的事情。

當下的人工智能遠沒有科幻電影中成熟，普遍認為還只有五六歲小孩的智商，可你和五六歲小孩溝通時也會這么費勁嗎？

就如高亮所言“每一個技術問題都會面臨一個技術解決的方法”，或許普通用戶只能吐槽抱怨一下，但百度的一群工程師們卻默默定了個小目標，不是先掙一個億，而是：

一次喚醒可以連續交互：只需要喚醒一次，就可以進行連續對話，不管智能音箱處于什么樣的工作狀態，哪怕正在播放音樂。就像人與人之間的對話那樣有問有答，不再是每次對話都要說出喚醒詞，真正的語音交互不應該是刻板的。
說話停頓不會打斷：當你說“給我放一首周杰倫的…呃…菊花臺”，智能音箱不是著急隨便放了一首周杰倫的歌，而是播放菊花臺。智能音箱要明白你什么時候說完了，什么時候沒說完，不會把你沒說完的話切斷，畢竟誰還沒有猶豫的時候呢？
知道說話人是誰：一個典型的三口之家，有爸爸、媽媽、孩子，每個人的需求是不一樣的。智能音箱要精準識別出每一個人的聲音，知道問題是誰問的，然后給出準確的答案。
上下文對話連貫：智能音箱在回答你現在的問題時，也要知道上一個問題是什么，要學會結合上下文，不能答非所問。只有這樣人和智能音箱的對話才會更自然，我們想要的不是沒有情感的機器，至少對話要有邏輯性。
聽清聽懂不傻冒泡：你在客廳和朋友聊天時，可能有些話是說給朋友聽的，有些是給智能音箱的指令，這時候智能音箱就要進行精準判斷，準確識別出你是不是在和音箱對話，而不是在不該出現的時候“插兩句嘴”。

現在語音交互用到的技術主要是麥克風陣列、語音識別、語義理解、語音轉文字、文字轉語音等等，都是人工智能技術最基本的應用，幾乎一個十幾人的創業團隊就能完成。但百度工程師們的小目標，卻需要一連串的技術攻堅。

百度高級副總裁、AI 技術平臺體系總負責人王海峰所說過：AI技術與產業的結合愈發多元化，單一技術已無法滿足應用需求，只有更懂得理解和思考，最終將幫助人們更便捷自然地獲取信息找到所求的交互，才能帶動整個生態的發展。

二、用技術拯救“人工智障”

想要智能音箱可以連續對話、應答如流，最簡單的辦法就是“人工”智能，比如2015年橫空出世的某客服機器人，憑借軟萌的聲音、流暢的反應、高度人性化的對答，幾乎可以和鋼鐵俠的賈維斯媲美，最后卻被扒出是“攝像頭+變聲器+人工客服”。

當然，“人工”智能也只有在演示時騙一騙領導，讓幾千萬臺智能音箱、智能家居、智能手機等都能對答如流，又該怎么實現呢？

高亮在百度世界告訴我們，百度的工程師已經想出了一套系統化方案：

1. 語音信號處理

語音激活檢測技術已經非常成熟，蘋果的“Hey，Siri”、DuerOS的“小度小度”都是案例，一次喚醒多次會話看起來也不復雜，比如設定智能音箱在一定時間內自動收音。難點在于怎么知道用戶的話到底有沒有說完。

因為我們說話不會永遠都是連續不卡殼的，比如我想聽一首薛之謙的歌，我可能會說“小度小度，給我播首薛之謙的……”思考1-2秒，然后說“認真的雪”。而這1-2秒間，就可能讓智能音箱以為你說完了，從而接收指令給你播起了薛之謙的所有歌曲，甚至停止響應。

百度的工程師們準備了十幾萬小時的仿真訓練數據，數千套房間數萬組沖擊響應函數，上萬小時真實AEC錄制數據，以及幾十萬小時的無監督聲音數據，利用云、端語音完整性聯動訓練的方法，然后基于大數據進行聲學建模和尾點檢測，打造了全新的語音識別引擎。

當你對智能音箱說話的時候，音箱會立刻感知到，然后持續不斷向云端發送語音數據，進行語義分析，監測你說的話是不是完整，然后智能音箱就能判斷你的話是否說完了。

上傳的語音數據只有幾十K大小，整個過程不到一秒鐘就能完成。不會出現諸如音箱在放著音樂，你說了一句“暫?！保粝鋬扇氩彭憫?，這個時候你可能會覺得音箱沒有聽見（尤其是音箱播放音量比較大的時候），然后再補一句“暫?！钡那闆r。

就像高亮在現場的舉例：“給我放一首劉德華的…呃…忘情水”，這個猶豫發問和提筆忘字一樣，是很普遍的場景，需要對聲學建模做一些特殊處理，要有非常精準的尾點檢測，讓系統能夠明白我們什么時候是猶豫，什么時候是說完了話，從而明確用戶所表達的意圖。

2. 聲紋跟蹤和決策

成年人的聲音可以長期相對穩定不變，就算別人故意模仿你的聲音和語氣，聲紋卻始終不會相同。和指紋、虹膜等生物識別一樣，聲紋也是獨一無二且相對穩定的生理特征，這樣智能音箱可以拒絕掉不需要的聲音。

于是百度的工程師們，根據自然界聲音標定的聲學置信度，對百萬人量級的聲紋進行學習建模，并推出了面向智能音箱連續交互場景的語義置信度技術，也是業界首創自動區分語音中不同說話人身份的商用系統。

會對喚醒人的聲紋進行注冊、跟蹤、拒識，和喚醒人方向不一樣的聲音會被拒絕掉，聲紋不同的聲音會被拒絕掉，和智能音箱場景不匹配的聲音也會拒絕掉。

比如說你和朋友聊天的時候，聊到某首歌時想讓智能音箱播放，也可能會聊到一些電視劇和工作上的事情。百度的智能音箱已經達到了這樣的聰明程度：自動判斷是不是在和它說話，發現命令會立刻執行，不相關的對話絕不插一句嘴。

3. 交互上下文管理

現在的人工智能不是仿生學，而是通過各種各樣的算法，畢竟人類連大腦的工作原理都還沒有搞清楚，讓人工智能像人類一樣思考還很遙遠。

那么問題就來了：和人工智能進行單次的對話并不難，想要把上下文的信息關聯在一起就需要考驗工程師們的腦洞了。

百度的工程師們先做了語音語義一體化技術，把聲學、聲紋、語義置信度和從DuerOS獲得到的垂類信息資源融合起來，在深度神經網絡的多信息融合技術、高頻圖和通用圖并行解碼決策的基礎上，對對話的上下文進行跟蹤管理：判斷了說話對象后，可以知道之前交互的內容，知道對象的角色、喜好，然后綜合所有這些信息作出精準決策，這樣就解決了上下文關聯的問題。

假如你問百度智能音箱明天天氣怎么樣，下一句問穿什么衣服比較合適，聽到的回答會是和明天天氣相關的穿衣搭配。不會像一些智能音箱一樣，你問穿什么衣服，冷冰冰的來一句：“我找到附近有三家賣衣服的店鋪……”

技術可能不是萬能的，但沒有技術是萬萬不能的。