如何設計一個語音技能?

0 評論 6210 瀏覽 21 收藏 14 分鐘

編輯導語:在我們的日常生活中,語音技能其實無處不在??萍嫉牟粩喟l展使我們的生活變得越來越方便,很多時候通過說話便能讓機器代替我們去做一些事情,這是語音技能給我們的生活帶來的便捷之處。那么,如此便利的語音技能是如何設計出來呢?

2016年,“互聯網女皇”、KPCB合伙人瑪麗·米克爾有過一個預判:“語音拐點已經到來,在2015年智能手機銷量下滑之后,Echo銷量或將騰飛?!倍酉聛淼氖聦嵰豺炞C女皇寓言的正確性。

在之后不久,國內智能音箱也迎來了爆發式增長,2018年國內智能音箱出貨量突破2000萬臺,2019年國內出貨量達到4589萬臺之多。

作為智能音箱,其核心就是語音能力,也就是要能和用戶進行語音交互,而語音交互的核心是音箱能聽到、聽懂、理解、執行并反饋,而這其中到底能做哪些事就涉及到音箱上有多少個技能,此處的技能可以約等于APP上所說的功能。

接下來,我們一起探索下如何設計一個語音技能。

一、從發散到收斂

有時候要想說明白一件事情,最好的方式就是對比。為了方便理解語音技能的特點,我們就拿APP的功能來對比,也就是語音交互和觸控交互的對比。

首先我們先來看觸屏操作,大家可以稍微回想下自己平時在APP上的觸屏操作,幾乎都是通過點擊某些按鍵進行跳轉,依次選擇進入下一級或者原路返回,對吧?所以概括來說觸屏操作是:

  • 在有形狀、有顏色、有文字、有震動等引導下的觸覺交互;
  • 觸控交互是一個選擇題,在多個可控區域中選擇自己想要的,并點擊;
  • 觸控交互無法選擇開發者沒有提供的選項;
  • 大部分觸控是怎么通過點擊選擇過來的,依然可以通過點擊回去。

所以我們可以概括為觸控交互是一個樹狀結構,從一個節點到另一個節點的可視化交互,如下圖所示。

而語音交互卻很不同,首先,初期的智能音箱沒有屏幕,甚至很多設備僅僅有一個很簡單的閉麥指示燈,我們就拿查天氣來舉例子吧。

  • 用戶通過喚醒詞來讓設備處于聆聽狀態,準備接收用戶的語音指令;
  • 用戶要查詢當前位置的天氣,可以怎么說?說天氣行不行?當前的天氣哪?現在的天氣、最近的天氣、今天天氣怎么樣、會下雨嗎、有霧霾嗎、出門需要帶傘嗎等等,就普通話而言就有很多種問法;
  • 用戶如果需要查詢非當前位置天氣哪?比如差旅目的地、家人所在地,需要怎么說?是時間+地點+天氣,還是天氣+時間+地點都可以?
  • 我們看屏幕一次可以看7或者14天天氣,語音要怎么實現?我繼續詢問說“下一天”嗎?

在此種情況下,我們喚醒智能音箱后,用戶的疑惑可概括為:

  • 我什么時候可以說了?說早了,它有半句沒聽到,說晚了,它又閉麥了;
  • 我們要說什么?每次只問個天氣嗎?是不是要說具體某天某地的天氣;
  • 怎么說是它能懂的?我用倒裝句是否能行?我加個語氣詞哪?

這些都需要用戶去摸索和學習,夸張點說的話,用戶是閉著眼睛在操作設備。此時我們再看語音交互時:

  • 在沒有形狀、沒有顏色、沒有文字(會有部分上下文提示)、沒有震動等引導下的交互;
  • 語音交互可能是一個簡答題,也可能是一個選擇題,但是簡答題占大多數;
  • 語音交互可以選擇開發者沒有提供的選項,當然選擇以后也是大概率是無法執行的。

所以我們可以概括為語音交互是一個單點呈收斂,多點成樹狀的結構,從很多發散的說法、話術收斂到某個意圖、動作的節點,然后進入后續流程,如下圖所示:

所以當我們做一個語音技能時,要先判斷有哪些支持的能力,然后還要同時判斷哪些不支持,而支持的能力有哪些種說法,這個部分如何收斂到有限個節點,而至于其他不能支持的,現在大部分都是走default狀態回復:不好意思,沒聽懂。

二、從樹狀到圓環

在上面的分析中,我們說到過語音交互是一個單點要收斂、多點成樹狀的結構,但是語音技能中還存在網狀、跳躍結構的可能性。我們先來看APP上觸控購物的例子:

  • 篩選商品
  • 加入購物車
  • 收銀臺確認支付
  • 支付成功

在其中任何一步,都可以點擊返回去向上一步,比如當你準備支付時,女朋友說要再加個東西,你關閉收銀臺、反饋購物車,然后可以繼續挑選商品,這是一個路徑往復的軌跡。

但是當我們把購物做成一個語音技能,那么:

  • 當語音詢問用戶是否要付錢時,用戶是否可以說我還要買點別的?
  • 如果用戶可以說,那么是否直接去尋找商品,還是需要詢問用戶當前訂單該如何處理?
  • 如果用戶說把已經在購物車的商品刪掉,或者修改數量,或者修改收貨地址,又該如何處理?

所以我們會發現,上述例子是不同節點間的跳躍、環形交互,也就是說一個節點的多種說法,在另一個節點是否允許生效的問題,而如果允許生效,則會出現環形。

但是語音中的環形流程并不友好,會有增加用戶記憶負擔、整個流程因為對話頻次過多而顯得冗長等問題,所以我們設計時還是盡量規避又長、又多的環形結構。

如下圖所示,假設A為挑選商品,B1為購物車,C1為APP的收銀臺支付頁面?;疑珵锳PP的主線正向流程,紅色弧線表示A的話術在C1生效,而當C1允許A的話術生效時,便會涉及到走兩條紅色的虛直線方案,還是走藍色的虛直線方案。

當然,我們可以限制某些節點的說法只能在某些意圖范圍內,比如如上截圖,A的說法對C1生效,但是在C2~6全部不生效;如果用戶在C2~6說了A的話術,我們可以統一回復并告知用戶當前僅支持某些說法即可。

當然了,此時是可以退出整個流程,類似我們在APP中某個流程中,通過系統殺掉進程一樣。

三、從獨立到共生

剛才我們通過將觸控與語音對比來闡述語音技能的從發散到收斂、從樹形到圓環,那么下一個問題是:語音交互和觸屏交互除了對比之外,是否可以融合?

答案是肯定的,現在市面上有很多帶屏音箱(市場份額如下圖),其中語音交互和觸屏交互就已經開始融合,比如用戶說我要看周星馳的電影,那么多部周星馳的經典電影,不能一個一個播報加詢問啊。

所以需要讓用戶看電影海報后可以用語音來選擇,這個不贅述(很多智能電視也已經支持)。

(圖片來源:https://www.sohu.com/a/423616757_120868906)

那我們看上圖會發現還是有很多無屏音箱,此時怎么和觸控融合哪?那就是涉及到觸控的不一定是音箱,可以是我們的手機APP。

首先,音箱的激活還是需要手機APP的,畢竟連接你家WiFi時用語音輸入密碼不是很方便。BD部分、四十部分的大有人在。所以我們可以考慮在手機APP上做一些更加符合觸控交互的事情,比如剛說配網這類的設置。

這類在手機APP上的操作有共性可循:一些低頻但是關鍵信息的輸入,比如購物例子中涉及收貨地址、電話號碼、綁定支付信息,媒體娛樂的賬號資產、會員充值等,這些的修改的頻率都很低,同時還可讓用戶自己設定一些快捷指令。

四、腦洞示例

說了這么多,我們可以開下腦洞,最近看到盲盒賣菜的新聞,感覺特別適合做一個語音技能。

我們先看如果在APP上做的主線步驟:

  • 用戶要先選擇某個盲盒(可能有不同價位、葷素配比的差異)
  • 選擇后加入購物車
  • 確認數量等屬性信息(比如份數)
  • 確認是否加購
  • 拉起APP收銀臺選擇支付方式
  • 確定支付及支付結果展示

首先我們先看哪些步驟在語音交互中是可以被優化、調整的,例如(為闡述簡單,示例會忽略很多實際數據和現實因素,比如運費):

  1. 我們將蔬菜盲盒減少為兩種:純素和葷素結合(當然也可以按照大小包不同量來分),一次來減少語音介紹及用戶的記憶成本;
  2. 下單后不支持添加商品和修改數量,畢竟是買菜,配的盲盒就是一天一家三口的均碼(請勿ETC自動抬杠);
  3. 收獲地址需要用戶在手機APP上提前設置;
  4. 支付方式需要用戶在手機APP上提前設置,比如免密支付、聲紋支付;
  5. 允許用戶在APP上設置快捷指令,比如:“喚醒詞+盲盒買菜大份”來對應葷素搭配的蔬菜盲盒、“喚醒詞+我要吃盲盒”來對應蔬菜盲盒的純素版。

通過以上調整,我們的用戶可以通過一句話來完成盲盒買菜的主鏈路,其中標號和2主要是修改節點數量(減少)和節點間的關系(一層且線性),標號3、4、5主要是用手機APP來對低頻關鍵信息設置,也是對節點數量的優化,同時也讓節點關系更加簡單。

五、總結

通過以上分析,當我們在做一個語音技能時:

  1. 可以先考慮如果它是個觸屏技能,此時要有什么能力和節點鏈路;
  2. 哪些節點和鏈路是語音交互需要支持的、哪些不需要;
  3. 哪些最好是通過手機屏幕、音箱屏幕來完成的;
  4. 需要語音支持的節點中,每個節點的泛化說法有哪些;
  5. 哪些節點間是可以任意跳轉并繼續流程的,哪些節點是跳轉需要詢問的(因為此時跳轉就是從新開始了),哪些節點是不能跳轉的。

#專欄作家#

代成龍,人人都是產品經理專欄作家,智能硬件創業公司產品狗,從視頻巨頭公司到玩智能硬件的公司,繼續產品設計工作。

本文原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!