AI語音助手:Google Assistant 新技術會是谷歌的一張王牌嗎?

1 評論 6342 瀏覽 22 收藏 13 分鐘

“AI很好,但不夠驚人”,始終是近年來籠罩在AI語音市場上的濃重陰影。那么,Google Assistant新技術,能為人工智障般的語音助手扳回一局?

在最近谷歌的Google?I/O大會上,谷歌CEO“劈柴“直接祭出了這次大會的王牌AI,這個AI產品似乎像人們展現了人工智能技術的進一步提升,Assistant的“持續性對話”功能讓對話更自然,而“多重行動”功能讓用戶在一次對話中可以提出多個問題。

這似乎是一個標志性的轉變,存在對話生硬、無法多輪對話等諸種弊病的語音助手在這場GoogleI/O大會上表現的尤為智能。相比Apple?Siri和Microsoft??Cortana只能機械式對話的語音互動,Google?Assistant似乎表現尤為優異(至少在發布會上),那么,GoogleAssistant的出現是谷歌在AI語音助手領域的一張王牌嗎?

驚艷全場的“嗯哼”

想要探究AI語音助手的智能程度,其評判標準就是如何做到讓AI“像人”,這是一個深度學習的能力問題,而體現在表現形式上則為“話術”,如何能夠讓語音助手真正突破“圖靈測試”,讓用戶人機難辨。然而,當下Google?Assistant似乎正朝著全面“類人化”的方向發展。

以Google?Assistant在GoogleI/O大會上的表現為例,發布會上,用戶對Google?Assistant說:我想剪頭發。Google?Assistant接受指令后直接幫你電話預約。

Google?Assistant先撥通了Jim理發店的電話,進行電話預約剪發。

Google?Assistant:你覺得時間定為3號可以嗎?

理發店:我需要查查Jim老師的檔期,稍等。

Google?Assistant:嗯哼?

這一句“嗯哼”讓全場所驚艷,AI的反應似乎出乎了所有人的預料,然而,這一切并沒有結束。

理發店:3號12點不行,Jim老師已經有預約了。

Google?Assistant:那10點到12點這段時間呢?

理發店:您的顧客是想燙頭發還是剪頭?

Google?Assistant:只是簡單修剪一下。

理發店:那沒有問題,我們10點見!

誠然,對于人類來說,此類“嗯”、“呃”之類的語氣詞是再正常不過,可是對于機器而言,這是一件難以做到的事情。事實上,Google?Assistant說“嗯嗯”,好似在點頭同意;而其所拉長的某些詞的發音,又好像它正在花時間去思考一個問題的答案,當然,這一切都是是由編程算法即時實現的。

谷歌助手的背后是一種稱之為“Duplex”的技術,這由紐約、特拉維夫和山景城的谷歌工程師和產品設計師聯合開發,該技術可實現一小部分人可以完成預訂餐廳、查看假日時間等通常通過電話進行的活動。所有這些交互都發生在后端——谷歌數字助理Assistant和餐廳之間。

搭載數字助理Assistant的智能家居

此外,Google?Assistant除了一種男性發音和女性發音外,其還可以用六種聲音說話。谷歌還使用戶能夠更輕松地提出后續問題,并在開車并使用谷歌地圖時自動向某些人發送你的預計抵達時間。

Google Assistant真的“完美無缺”嗎?

Google?Assistant新技術的應用,許多人認為“這下真的分不清對面對面是人是狗了”,但是,Google?Assistant顯然并不是完美無瑕,皮查伊在開發者大會上展示的?demo?距離落地還有多遠?所展示的GoogleAssistant落地后真的會如此驚艷嗎?智能相對論分析師柯鳴認為,谷歌語音助理雖然已經突破了眾多技術瓶頸,但其真正能夠應用于生活場景中,并完全替代“人類助理”,依然尚需時日。

首先,google?duplex似乎已經可以解決自然對話的問題。展開一段自然的對話有這么幾個難點:自然語言難以理解,人類的自然行為很難建模,人類對延遲的耐受性很低所以需要高處理速度,以及生成聽起來自然的語音,其中還要適當地夾雜一些語氣詞。

谷歌聯合使用了一個級聯?TTS?引擎和一個生成式?TTS?引擎(其中使用了?Tacotron?和?WaveNet),根據不同的情境控制語音的語調。

為了讓語音變得更加親切自然,這個系統能夠生成一系列語氣詞,這也是讓大家所驚嘆的地方,比如“hmmm”、“uh”等語氣詞。

當級聯?TTS?需要組合變化很大的語音單元,或者需要增加生成的停頓時,語氣詞就會被添加到生成的語音中,這就讓這個系統可以以一種自然的方式向對方示意“是的我聽著呢”或者“我還在考慮”(人類說話的時候就經常在思考的同時發出一些語氣詞)。谷歌的用戶調查也確認了人類覺得帶有語氣詞的對話更熟悉、更自然。

Duplex的運作模式

但是,也正是TTS的表現讓人覺得其仍有可商榷之處。如從自然語言訓練的方法角度看,通過充分的數據梳理,借助機器學習在某個單一領域窮舉各種情況,繼而達到Google?在今天所展示的效果尚有可能。

但目前沒有公司可以做到全方位理解各種場景。也就是說,Google?Assistant所擅長的也是針對特定場景的,例如預訂餐位和理發。

這能否在所有場景中具有普適性,目前依然無法得知。從這個角度來看,小場景有限話題模擬對話并不是難題,針對?demo?優化到流暢也能夠做到,這是否能夠真正替代“人類助理”,依然是一個尚未確知的問題。

其次,從倫理和信息安全的的角度來看,Google?Assistant依然存在著諸多爭議。比如,谷歌官方曾表示:“現在的技術并沒有達到只通過與開發人員對話就學會如何像人一樣說話的水平,為了獲得高精度,我們在匿名電話的會話數據庫上對Duplex的RNN進行了訓練?!?/p>

在數百個小時的訓練過程中,它記錄下了客戶們電話中的通話記錄。這讓我們又一次回到了十年來一直在進行的辯論,即維護個人數據隱私和推進技術便利的界限究竟在何處,Facebook的信息泄露案更將這個問題推到了風口浪尖。

當然,倘若撇開公地悲劇的存在主義解決方案不談,Duplex?AI的出現還暴露了許多實際問題。例如,如何防止某人非法利用公眾人物的錄音來訓練人工智能,并生成偽造的音頻?

此外,我們還需要防止偽造視頻的攻擊,鑒于人們已經能夠偽造圖像和視頻(甚至色情),并能夠合并一層虛假音頻,谷歌和Facebook的內容審核工作將面臨著更大的困難。

谷歌這條路好走嗎?

谷歌語音助手這條路,已經走了很久。最早的GoogleNow作為谷歌語音助手的最初形式出現在人們面前,Google?Now?2012?年最早出現在安卓?4.1?和?Nexus?手機上,隨后又推出面向移動設備信息快速檢索服務的“Now?On?Tap”、以及“Now?cards”。

從?2016?年開始,Google?Assistant?就開始逐步取代?Google?Now,相應的功能也被替換,“Now?cards”被“Feed”取代,“Now?on?Tap”被“Screen?Search”所取代。

最早于2016年與Google?Home一起亮相的Google?Assistant,依托著谷歌系產品的用戶量級,雖然同類競品亞馬遜的Echo已經占據一定市場,但是依然有著一定發展的前景和底氣。

但是,如果谷歌的目標是讓Assistant成為擬人化的谷歌,那么仍有很多事情要做。若想實現與斯派克·瓊斯(Spike?Jonze)科幻電影《她》(Her)中的操作系統Samantha進行對話的那樣,谷歌依然還有一定距離。、

當然,相較于市場上同類系的其他產品,Google?Assistant的表現確實稍顯優秀。Stone?Temple?Consulting與ROAST公司2018年發布的智能語音助理測試報告也顯示,Google?Assistant手機版能回答的題目最多,高達90%,準確率也有將近80%的超高表現。

來源:Stone?Temple?Consulting、ROAST測試報告

其實,嚴格來說,谷歌的競爭對手Alexa,Siri和Cortana都沒有兌現他們的承諾。Alexa,Siri等都存在著或大或小的問題,每個產品在市場中的表現似乎都沒有人們想象中的優異。

當然,谷歌并非第一個進入語音助理領域的公司。作為后來者,CIRP公司的數據顯示,2016年發布的GoogleHome占有31%的市場份額,較之亞馬遜的69%的市場份額稍顯不足。

總的來說,?“AI很好,但不夠驚人”,始終是近年來籠罩在AI語音市場上的濃重陰影。當然,隨著日后GoogleAssistant新技術的逐漸應用,這是否能夠成為谷歌新的“殺手锏”仍需時間檢驗,而谷歌語音助理的這條路,也將堅定的走下去。

 

作者:柯鳴,微信公眾號:智能相對論

本文由 @柯鳴 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖由作者提供

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 怎么才算驚人呢?界限在哪里?如果真的像人一樣進行全方位對話思考,那肯定是驚人了。但是否會造成倫理道德社會問題?我覺得智能語音助手在某一個垂直領域深耕能給人家的生活帶來高效和便利就可以了,沒必要什么全方位學習判斷。

    來自北京 回復