AI時代的門票——智能語音交互

2 評論 12710 瀏覽 75 收藏 10 分鐘

AI時代即將到來,而語音識別便是入場券。說出一句話,也許你可以直接聽到想要的結果,也許機器會直接執行你的命令,也許……這無限延伸的可能性,便是 AI 的魅力。

還記得2年前,度秘剛發布的時候,心情激動的我沒怎么思考就洋洋灑灑扯了一通《度秘:你好,521號機器人為您服務》。記得那時才大三,感覺百度發布的度秘機器人好牛逼,天文地理無所不知。但那時的度秘也僅僅是個加強版的微軟小冰,只不過是連接了更多的服務,因為百度在這方面有著天然的優勢。那時的度秘雖然看起來也很全能,但從未自然的融入實際生活場景中,因為究其本質,它是以擬人對話形式整合線下服務與功能。

而如今,親身體驗了這場技術變革帶來的改變,不禁感慨,AI時代即將到來,而語音識別便是入場券。說出一句話,也許你可以直接聽到想要的結果,也許機器會直接執行你的命令,也許……這無限延伸的可能性,便是 AI 的魅力。

新一代交互形式:語音識別

時光飛逝,短短兩年,互聯網行業日新月異,經歷了AR、VR的變革,又見證了阿法狗的崛起。人工智能這個詞似乎離我們越來越近。通常來講,每一次全新時代的到來,都是因為一個傳統的形式被顛覆。

比如,多年前我們的手機硬件由非智能機變為智能機,交互方式由物理按鍵變為手勢操作。并伴隨著網速的提升,從而由PC互聯網時代逐漸進入移動互聯網時代,而這一次,變革便是從語音識別開始。

艾媒數據的調研結果

可以看出,語音識別高居第一,其次是智能家居。這兩方面都有一個共同點在于:它們都是兩種全新的交互形式。

語音識別意味著將無形的聲音轉化為有形的執行信息,而傳統交互形式是通過文字,或是通過肢體動作來完成命令的執行。

智能家居意味著將家庭場景下的電器通過網絡的構建與連接,形成物聯網,將之變得更加自動化,隨用戶的需求而自然切換狀態。

亞馬遜Echo系列產品

而現在,無論是國外的亞馬遜、谷歌還是國內的小米等生產智能硬件的公司,都開始極力打造家庭場景下的人工智能,而語音,便是這種人工智能交互形式的突破口。

完整的語音交互過程應該分三個步驟:聽清、聽懂、滿足。

  • 聽清:當用戶的聲音從麥克風輸入時,應有拾音器記錄用戶聲音,并準確的進行識別,將最終結果反饋給AI大腦。而在這個過程中,需要軟硬件以及算法去處理所有聲音,取其精華,棄其糟粕,最終將真正的指令記錄。
  • 聽懂:當大腦拿到結果后,要對其進行解析,將語音轉為文字,并進行語義分析,同樣需要強大的算法和機器學習能力,不斷去糾錯。哪些是命令詞,哪些是內容詞,要進行區分,最終普通的一句話要被拆分為命令、內容等相關類型詞。
  • 滿足:當一句簡單的話被AI大腦理解,接下來的就是滿足用戶,用戶如需要查詢,便去告訴他相應內容。用戶如需要執行動作,便去完成整個動作流程。

而事實上,這三個重要步驟,對于一家普通公司,基本是不可能完成的任務。

它要求既要有扎實的語音識別技術,又要有牛逼的語義理解能力,最后還需要有強大的內容數據去做支撐。

也難過,只有百度這樣的超級大廠,才能充分整合資源,將整個語音交互過程都涉及到。

家庭場景下的語音交互

在中國,如果想要普及一種變革,最好的場景是家庭環境,因為這種場景下,用戶的使用習慣,喜好會徹底的釋放和表達,是一種最自然,無壓力的表現狀態,且這種場景又屬于高頻場景,覆蓋范圍廣。

家庭下的語音喚醒場景請

不僅僅是圖中這些場景,今天在百度的開發者大會會場上見到了各種家庭場景下的硬件設施,當它們一旦搭載了語音交互的系統,便搖身一變,成了具有語音操控的智能家居。

對智能冰箱說:

“宮保雞丁怎么做”,冰箱上的顯示屏開始播放宮保雞丁教學視頻。

對智能電視說:

“我想看個賽車類電影”,電視上顯示《速度與激情》系列影片。

對智能音箱說:

“我要開party,放個激情澎湃的音樂吧”,音箱播放《Sugar》

………….

智能硬件加上語音交互,已經構建成了物聯網。相信在不久的將來,搭載了語音交互系統的智能家居,都可以聽你的話,你說所說的每個指令,都會直接影響到當前家居的運行狀態。甚至可以對其動作進行組合,形成物聯網+語音交互。

小米智能硬件生態圈

在我看來,最有可能率先實現該場景的就是小米。

小米近幾年基本完成關于智能硬件生態圈的布局,覆蓋了家庭場景下大部分高頻使用的硬件設施,并將其與手機連接在一起,使用戶通過手機可以快速的管理。本次小米電視4的發布,其中一個亮點便是:將家居中的每一個智能硬件部分都和電視,手機控制端進行連接。最終實現最完美的智能家居生活場景:對著電視或遙控器說一聲:關閉空調、開啟吸塵器等一切指令,通過語義識別,連接家居,執行命令一系列動作,將智能貫徹到底。

開放的AI未來,不止于此

曾經VR技術被鼓吹的神乎其神,最終還是因硬件成本居高不下以及體驗難以提升淪為AI的泡影產物。而語音識別不應如此,百度的duer OS提供一整套語音識別的解決方案,給了許多硬件公司產品智能化的希望。

這樣一來,智能硬件的成本便可以達到有效把控。在整個語音交互部分,百度提供現成的SDK,并可以配套終端應用,提供開發套件。無論事實如何,宣傳效果確實達到了。若如此,接下來,語音交互能力便不再是小公司,小產品可望不可即的能力了。而最終市場上經過一批殘酷的淘汰,最終留給用戶的,便是最優秀的軟硬件結合的產物。這無論是對用戶還是整個行業,都是一個良好的發展趨勢。

以一個開發的心態迎接人工智能時代,科幻電影里的場景,即將到來。這一刻,我想到了《人工智能》,《機械姬》,《黑客帝國》。

對于未知的好奇心,要遠遠大于恐懼。

#專欄作家#

王偉華,微信公眾號:夜漫產品(learnerwwh),一只略帶文藝情懷的產品汪,擅長社交,資訊領域產品,心理學愛好者,目前正處于知識體系搭建階段。

本文原創發布于人人都是產品經理,未經許可,不得轉載。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 簡單來說 就是日常語境中語義的智能拆分…

    來自四川 回復
    1. 對,算是其中一個步驟

      回復