智能音箱的“喚醒詞”是怎樣誕生的?

7 評論 17458 瀏覽 74 收藏 12 分鐘

如今風靡海內外的各款智能音箱,均有一個喚醒詞,包括“小度小度”“若琪”“叮咚叮咚”等。不知你有沒有思考過這樣一個問題:他們,為什么叫這些名字?

科普文:智能音箱的喚醒詞是怎樣誕生的?

一、什么是“喚醒詞”以及它為什么重要?

1.“喚醒”和“喚醒詞”

在討論名字之前,首先對語音交互過程中的一些定義做一個簡單的介紹。

據筆者解,語音交互的過程與平時人與人之間交流的方式非常相似,有問有答。比如某個陰天,你對同事呼喊稱:“小明”,小明聽到了抬頭看你表示在聽,你接著問“今天會下雨么?”小明打開手機查了一下今天的天氣預報,然后回答你說“天氣預報說下午3-4點有雷陣雨”。

智能音箱亦如此,其語音交互流程被劃分為五個環節 – 喚醒、響應、輸入、理解、反饋。其中喚醒是每一次用戶與語音產品交互的第一個接觸點,喚醒環節的體驗在整個語音交互流程中至關重要,它的體驗好壞將直接影響用戶對產品的“第一印象”。

同時,盡管是“智能”語音交互產品,機器仍沒有人類聰明。據筆者解,對于目前市面上常見的語音交互產品來說,一個眼神或者一個動作還不能引起它的注意,因此需要定義一個將產品從待機狀態切換到工作狀態的詞語,即所謂的“喚醒詞”。

同樣是上文所提到的“問天氣”案例。通過呼喊“小明”的名字,來引起他的注意,而對于智能語音交互產品,也需要通過叫出“名字”,也就是喚醒詞來激活設備。以智能音箱產品為例,“小度小度”是喚醒渡鴉raven H的喚醒詞,“Hey Google”是喚醒Google Home的喚醒詞,“Alexa”是喚醒Echo的喚醒詞。

科普文:智能音箱的喚醒詞是怎樣誕生的?

2. “喚醒詞”對用戶體驗的影響

據筆者解,影響語音喚醒體驗的因素包含兩個維度——輸入和輸出。輸入環節的影響因素包括喚醒詞、喚醒方式,輸出環節的影響因素包括喚醒響應速度、喚醒反饋方式、喚醒成功率和誤喚醒率。

而對于用戶來說,喚醒詞是語音喚醒輸入環節中較為重要的影響因素,且一個好的喚醒詞,會直接影響喚醒率。

科普文:智能音箱的喚醒詞是怎樣誕生的?

二、怎樣設計一個好的“喚醒詞”?

針對喚醒詞,主要通過以下兩個實驗進行了研究:

  • 實驗一:現有喚醒詞組合方式研究;
  • 實驗二:喚醒詞語音要素研究。

實驗一:現有喚醒詞組合方式研究

首先,對市場上各類語音交互設備喚醒詞的組合方式進行拆解,發現喚醒詞均是在一個簡單“名字”的基礎上加以變化而構成,此外,“名字”本身也具備不同的構成方式。在實驗中,為用戶提供不同組合方式的喚醒詞,由用戶根據其個人喜好程度在5點量表上進行評價(1-非常不喜歡、2-不喜歡、3-一般、4-喜歡、5-非常喜歡)。

科普文:智能音箱的喚醒詞是怎樣誕生的?

實驗結果表明,不同組合方式下,用戶的喜好程度不同:

1)在以“名字”為基礎的不同組合方式中,“名字+名字”的疊詞式組合方式最受用戶喜歡,而“品牌+名字”的組合方式最不被用戶喜歡。

科普文:智能音箱的喚醒詞是怎樣誕生的?

2)另外,就“名字”本身而言,“小+字”的名字最受用戶喜歡。這點也與漢語人名命名習慣相符,《漢語人名用字的統計分析(鄭淑花,2010)》顯示,“小”字在人名命名十大常用字之中。

科普文:智能音箱的喚醒詞是怎樣誕生的?

實驗二:喚醒詞語音要素研究

據筆者解,音節是聽覺上最容易分辨出來的語音單位,也是最自然的語音單位,漢字中一個漢字讀音就是一個音節,每個基本音節都是由聲調、聲母和韻母三個部分構成。

科普文:智能音箱的喚醒詞是怎樣誕生的?

理想條件下,對喚醒詞每一音節的聲調、聲母、韻母進行研究,但是由于音節數的增加,研究變量數將大幅度增長,導致無法通過一次實驗來完成。

另外,通過文獻查閱,發現人們在起漢語人名時,會將尾音節的發音情況列入考量,同時,漢語人名/寵物名統計研究中也多見其對尾音節發音情況的統計。

因此,綜合文獻和前文實驗的結論,本次實驗中以喚醒詞尾音節為研究對象,選取“小+字”的構詞結構,變換尾音節,進行喚醒詞的發音偏好實驗。同時為避免用戶受漢字本身字義的影響,實驗中用戶看到的喚醒詞均為標有聲調的拼音。在實驗中,要求用戶根據其個人喜好程度在5點量表上對喚醒詞進行評價(1-非常不喜歡、2-不喜歡、3-一般、4-喜歡、5-非常喜歡)。

科普文:智能音箱的喚醒詞是怎樣誕生的?

實驗結果表明:

科普文:智能音箱的喚醒詞是怎樣誕生的?

1)聲調方面,用戶最喜歡陰平(1聲);另外相較“仄聲”(3聲上聲、4聲去聲統稱為“仄”),用戶更加喜歡“平聲”(1聲陰平、2聲陽平統稱為“平”)。

科普文:智能音箱的喚醒詞是怎樣誕生的?

2)聲母方面,用戶更加喜歡尾音聲母為零聲母,而包含了z、c、s的舌尖前音最不被用戶所喜歡。

科普文:智能音箱的喚醒詞是怎樣誕生的?

3)韻母方面,從韻母發音時的開口口型來看,用戶更喜歡開口口型較大的齊齒呼和開口呼;另外從韻母結構來看,音節韻母為單韻母的詞最受用戶的喜歡。

科普文:智能音箱的喚醒詞是怎樣誕生的?

三、小結

本文主要圍繞智能語音交互設備的喚醒詞展開研究,從喚醒詞組合方式和語音要素兩個方面探討了影響用戶體驗的因素,發現:

1)現有喚醒詞組成方式方面:

在以“名字”為基礎的不同組合方式中,“名字+名字”的疊詞式組合方式最受用戶喜歡,而“品牌+名字”的組合方式最不被用戶喜歡;

就“名字”本身而言,“小+字”的名字最受用戶喜歡。

2)語音要素方面:

聲調:用戶最喜歡陰平,同時相較“仄聲”,用戶更加喜歡“平聲”;

聲母:用戶更加喜歡尾音聲母為零聲母,而包含了z、c、s的舌尖前音最不被用戶所喜歡;

韻母:按照韻母發音時的口型開口情況來看,用戶更喜歡開口口型較大的齊口呼和開口呼;另外按照韻母結構來看,音節韻母為單韻母的詞最受用戶的喜歡。

基于本文的研究,筆者者們是否已經掌握如何構造一個好的喚醒詞的方法了?以下是結合收集的用戶自定義喚醒詞及本文研究結論,為喚醒詞作出的分類,供讀者們應用參考。

科普文:智能音箱的喚醒詞是怎樣誕生的?

需要注意的是,本文是從用戶視角出發,對喚醒詞進行了科學的研究和探討,但是實際在設計喚醒詞時,需要考慮的因素還有很多,如:喚醒詞是否過于常見導致語音設備容易被誤喚醒,喚醒詞與品牌之間是否具有關聯。另外,受當前語音技術的限制,現有的喚醒詞多以4音節詞居多,但未來隨著語音技術的進步,喚醒詞的長度存在變短的趨勢,在設計喚醒詞時還應考慮其可優化的空間等等。

特別注明:由于實驗設定的條件和樣本數量等限制因素,本次實驗研究結論或許不能代表所有智能產品用戶在家居環境的全部感受。

 

文是來自百度AI交互設計院(微信:gh_8d606ce3c1a5)的投稿,他們通過實驗的方式、從數據角度,分析這些喚醒詞的特征,告訴你,智能語音交互產品該“叫”什么名字。雷鋒網對文章作了不改變原意的編輯。

來源:https://mp.weixin.qq.com/s/790YB0iyOnh1o35ZoNMXcw

本文來源于人人都是產品經理合作媒體 @雷鋒網,編輯@呂倩

題圖來自Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 基本沒有哪家產品可以自定義喚醒詞

    回復
    1. 360音箱可以自定義喚醒詞

      回復
    2. 嗯嗯

      回復
  2. 感覺并沒有什么卵用。你完全從用戶的喜好來作為喚醒詞好壞的標準。但是廠商用自己的品牌作為名字,實際也是出于品牌宣傳的目的,這一點無可厚非

    來自江蘇 回復
  3. 很有意思,不過齊齒呼開口度并不大吧??

    回復
  4. 太高端,看不太懂

    來自浙江 回復
  5. 小愛同學

    回復