如何設(shè)計(jì)一款理解用戶(hù)需求的智能語(yǔ)音產(chǎn)品
考慮到目前市場(chǎng)上Alexa、Google Assistant、DuerOS、AliGenie等語(yǔ)音智能平臺(tái)都有各自的優(yōu)缺點(diǎn),本文講述的語(yǔ)音交互設(shè)計(jì)將是通用、抽象型的,以及不會(huì)針對(duì)任意一款語(yǔ)音智能平臺(tái)進(jìn)行設(shè)計(jì)。enjoy~
對(duì)話(huà)是人與人之間交換信息的普遍方式。人可以在交流時(shí)通過(guò)判別對(duì)方的語(yǔ)氣、眼神和表情判斷對(duì)方表達(dá)的情感,以及根據(jù)自身的語(yǔ)言、文化、經(jīng)驗(yàn)和能力理解對(duì)方所發(fā)出的信息,但對(duì)于只有0(false)和1(true)的計(jì)算機(jī)來(lái)講,理解人的對(duì)話(huà)是一件非常困難的事情,因?yàn)橛?jì)算機(jī)不具備以上能力,所以目前的語(yǔ)音交互主要由人來(lái)設(shè)計(jì)。
有人覺(jué)得語(yǔ)音交互設(shè)計(jì)就是設(shè)計(jì)怎么問(wèn)怎么答,看似很簡(jiǎn)單也很無(wú)聊,但其實(shí)語(yǔ)音交互設(shè)計(jì)涉及系統(tǒng)學(xué)、語(yǔ)言學(xué)和心理學(xué),因此它比GUI的交互設(shè)計(jì)復(fù)雜很多。
要做好一個(gè)好的語(yǔ)音交互設(shè)計(jì),需要知道:
- 第一,自己的產(chǎn)品主要服務(wù)對(duì)象是誰(shuí)?單人還是多人使用?
- 第二,要對(duì)你即將使用的語(yǔ)音智能平臺(tái)非常了解;
- 第三是考慮清楚你設(shè)計(jì)的產(chǎn)品使用在哪,純語(yǔ)音音箱還是帶屏幕的語(yǔ)音設(shè)備?
了解完以上三點(diǎn)你才能更好地去設(shè)計(jì)一款語(yǔ)音產(chǎn)品。
考慮到目前市場(chǎng)上Alexa、Google Assistant、DuerOS、AliGenie等語(yǔ)音智能平臺(tái)都有各自的優(yōu)缺點(diǎn),以下講述的語(yǔ)音交互設(shè)計(jì)將是通用、抽象型的,以及不會(huì)針對(duì)任意一款語(yǔ)音智能平臺(tái)進(jìn)行設(shè)計(jì)。
語(yǔ)音交互相關(guān)術(shù)語(yǔ)
在設(shè)計(jì)語(yǔ)言交互之前,我們先了解一下與語(yǔ)音交互相關(guān)的術(shù)語(yǔ):
技能(Skill)
技能可以簡(jiǎn)單理解為一個(gè)應(yīng)用。當(dāng)用戶(hù)說(shuō)“Alexa,我要看新聞”或者說(shuō)“Alexa,我要在京東上買(mǎi)東西”時(shí),用戶(hù)將分別打開(kāi)新聞技能和京東購(gòu)物兩項(xiàng)技能,而“新聞”和“京東”兩個(gè)詞都屬于觸發(fā)該技能的關(guān)鍵詞,也就是打開(kāi)該應(yīng)用的入口,后面用戶(hù)說(shuō)的話(huà)都會(huì)優(yōu)先匹配該項(xiàng)技能里面的意圖。由于用戶(hù)呼喊觸發(fā)詞會(huì)加深用戶(hù)對(duì)該品牌的記憶,因此觸發(fā)詞具有很高的商業(yè)價(jià)值。
“Alexa”是喚醒語(yǔ)音設(shè)備的喚醒詞,相當(dāng)于手機(jī)的解鎖頁(yè)面,同時(shí)也是便捷回到首頁(yè)的home鍵。目前的語(yǔ)音設(shè)備需要被喚醒才能執(zhí)行相關(guān)操作,例如“Alexa,現(xiàn)在幾點(diǎn)?”、“Alexa,幫我設(shè)置一個(gè)鬧鐘”。這樣設(shè)計(jì)的好處是省電以及保護(hù)用戶(hù)隱私,避免設(shè)備長(zhǎng)時(shí)間錄音。
意圖(Intent)
意圖可以簡(jiǎn)單理解為某個(gè)應(yīng)用的功能或者流程,主要滿(mǎn)足用戶(hù)的請(qǐng)求或目的。意圖是多句表達(dá)形式的集合,例如“我要看電影”和“我想看2001年劉德華拍攝的動(dòng)作電影”都可以屬于同一個(gè)視頻播放的意圖。意圖要隸屬于某項(xiàng)技能,例如“京東,我要買(mǎi)巧克力”這個(gè)案例,“我要買(mǎi)巧克力”這個(gè)意圖是屬于京東這個(gè)技能的。當(dāng)用戶(hù)說(shuō)“Alexa,我要買(mǎi)巧克力”,如果系統(tǒng)不知道這項(xiàng)意圖屬于哪個(gè)技能時(shí),系統(tǒng)是無(wú)法理解并且執(zhí)行的。
但是,有些意圖不一定依賴(lài)于技能,例如“Alexa,今天深圳天氣怎么樣”這種意圖就可以忽略技能而直接執(zhí)行,因?yàn)樗鼈兡J(rèn)屬于系統(tǒng)技能。當(dāng)語(yǔ)音設(shè)備上存在第三方天氣技能時(shí),如果用戶(hù)直接喊“Alexa,今天深圳天氣怎么樣”,系統(tǒng)還是會(huì)直接執(zhí)行默認(rèn)的意圖。我們做語(yǔ)音交互更多是在設(shè)計(jì)意圖,也就是設(shè)計(jì)意圖要怎么理解以及執(zhí)行相關(guān)操作。
詞典(Dictionary)
詞典可以理解為某個(gè)領(lǐng)域內(nèi)詞匯的集合,是用戶(hù)與技能交互過(guò)程中的一個(gè)重要概念。例如“北京”、“廣州”、“深圳”都屬于“中國(guó)城市”這項(xiàng)詞典,同時(shí)屬于“地點(diǎn)”這項(xiàng)范圍更大的詞典;“下雨”、“臺(tái)風(fēng)”、“天晴”都屬于“天氣”這項(xiàng)詞典。有些詞語(yǔ)會(huì)存在于不同詞典中,不同詞典的調(diào)用也會(huì)影響意圖的識(shí)別。例如“劉德華”、“張學(xué)友”、“陳奕迅”都屬于“男歌星”這項(xiàng)詞典,同時(shí)他們也屬于“電影男演員”這項(xiàng)詞典。
當(dāng)用戶(hù)說(shuō)“我要看劉德華電影”的時(shí)候,系統(tǒng)更多是匹配到電影男演員的“劉德華”;如果用戶(hù)說(shuō)“我想聽(tīng)劉德華的歌”,系統(tǒng)更多是匹配到男歌星詞典里的“劉德華”。如果用戶(hù)說(shuō)出“打開(kāi)劉德華”模棱兩可的話(huà)術(shù)時(shí),那么這句話(huà)究竟是匹配視頻意圖還是歌曲意圖呢?這時(shí)候就需要人為設(shè)計(jì)相關(guān)的策略來(lái)匹配意圖。
詞槽(Slot)
詞槽可以理解為一句話(huà)中所包含的參數(shù)是什么,而槽位是指這句話(huà)里有多少個(gè)參數(shù),它們直接決定系統(tǒng)能否匹配到正確的意圖。舉個(gè)例子,“今天深圳天氣怎么樣”這項(xiàng)天氣意圖可以拆分成“今天”、“深圳”、“天氣”、“怎么樣”四個(gè)詞語(yǔ),那么天氣意圖就包含了“時(shí)間”、“地點(diǎn)”、“觸發(fā)關(guān)鍵詞”、“無(wú)義詞”四個(gè)詞槽。
詞槽和詞典是有強(qiáng)關(guān)系的,同時(shí)詞槽和槽位跟語(yǔ)言的語(yǔ)法也是強(qiáng)相關(guān)的。例如“聲音大一點(diǎn)”這句話(huà)里就包括了主語(yǔ)、謂語(yǔ)和狀語(yǔ),如果缺乏主語(yǔ),那么語(yǔ)音智能平臺(tái)是不知道哪個(gè)東西該“大一點(diǎn)”。在設(shè)計(jì)前,我們要先了解清楚語(yǔ)音智能平臺(tái)是否支持詞槽狀態(tài)選擇(可選、必選)、是否具備泛化能力以及槽位是否支持通配符。詞槽和槽位是設(shè)計(jì)意圖中最重要的環(huán)節(jié),它們能直接影響你未來(lái)的工作量。
泛化(Generalize)
一個(gè)語(yǔ)音智能平臺(tái)的泛化能力能直接影響系統(tǒng)能否聽(tīng)懂用戶(hù)在說(shuō)什么以及設(shè)計(jì)師的工作量大小,同時(shí)也能反映出該平臺(tái)的人工智能水平到底怎么樣。究竟什么是泛化?泛化是指同一個(gè)意圖有不同表達(dá)方式,例如“聲音幫我大一點(diǎn)”、“聲音大一點(diǎn)”、“聲音再大一點(diǎn)點(diǎn)”都屬于調(diào)節(jié)音量的意圖,但是表達(dá)的差異可能會(huì)直接導(dǎo)致槽位的設(shè)計(jì)失效,從而無(wú)法識(shí)別出這句話(huà)究竟是什么意思。
目前所有語(yǔ)音智能平臺(tái)的泛化能力相當(dāng)較弱,需要設(shè)計(jì)師源源不斷地將不同的表達(dá)方式寫(xiě)入系統(tǒng)里。詞槽和槽位的設(shè)計(jì)也會(huì)影響泛化能力,如果設(shè)計(jì)不當(dāng),設(shè)計(jì)人員的工作可能會(huì)翻好幾倍。
通配符(Wildcard Character)
通配符主要用來(lái)進(jìn)行模糊搜索和匹配。當(dāng)用戶(hù)查找文字時(shí)不知道真正的字符或者懶得輸入完整名字時(shí),常常使用通配符來(lái)代替字符。通配符在意圖設(shè)計(jì)中非常有用,尤其是數(shù)據(jù)缺乏導(dǎo)致某些詞典數(shù)據(jù)不全的時(shí)候,它能直接簡(jiǎn)化制作詞典的工作量。例如“XXX”為一個(gè)通配符,當(dāng)我為“視頻播放”這項(xiàng)意圖增加“我想看XXX電影”這項(xiàng)表達(dá)后,無(wú)論XXX是什么,只要系統(tǒng)命中“看”和“電影”兩個(gè)關(guān)鍵詞,系統(tǒng)都能打開(kāi)視頻應(yīng)用搜索XXX的電影。
但是,通配符對(duì)語(yǔ)音交互來(lái)說(shuō)其實(shí)是一把雙刃劍。
假設(shè)我們?cè)O(shè)計(jì)了一個(gè)“打開(kāi)XXX”的意圖,當(dāng)用戶(hù)說(shuō)“打開(kāi)電燈”其實(shí)是要開(kāi)啟物聯(lián)網(wǎng)中的電燈設(shè)備,而“打開(kāi)哈利波特”是要觀看哈利波特的系列電影或者小說(shuō)。當(dāng)我們?cè)O(shè)計(jì)一個(gè)“我要看XXX”和“我要看XXX電影”兩個(gè)意圖時(shí),很明顯前者包含了后者。通配符用得越多會(huì)影響詞槽和槽位的設(shè)計(jì),導(dǎo)致系統(tǒng)識(shí)別意圖時(shí)不知道如何對(duì)眾多符合的意圖進(jìn)行排序,所以通配符一定要合理使用。
自動(dòng)語(yǔ)音識(shí)別技術(shù)(ASR,Automatic Speech Recognition)
將語(yǔ)音直接轉(zhuǎn)換成文字,有些時(shí)候由于語(yǔ)句里某些詞可能聽(tīng)不清楚或者出現(xiàn)二異性會(huì)導(dǎo)致文字出錯(cuò)。
語(yǔ)音智能平臺(tái)如何聽(tīng)懂用戶(hù)說(shuō)的話(huà)
語(yǔ)音交互主要分為兩部分,第一部分是“聽(tīng)懂”,第二部分才是與人進(jìn)行交互。如果連用戶(hù)說(shuō)的是什么都聽(tīng)不懂,那么就不用考慮后面的流程了。這就好比如打開(kāi)的所有網(wǎng)頁(yè)鏈接全是404一樣,用戶(hù)使用你的產(chǎn)品會(huì)經(jīng)常感受到挫敗感。因此能否“聽(tīng)懂”用戶(hù)說(shuō)的話(huà)是最能體現(xiàn)語(yǔ)音產(chǎn)品人工智能能力的前提。
決定你的產(chǎn)品是否能聽(tīng)懂用戶(hù)說(shuō)的大部分內(nèi)容,主要由語(yǔ)音智能平臺(tái)決定,我們?cè)谧霎a(chǎn)品設(shè)計(jì)前需要先了解清楚語(yǔ)音智能平臺(tái)的以下七個(gè)方面:
1. 當(dāng)前使用的語(yǔ)音智能平臺(tái)NLU(Natural Language Understanding,自然語(yǔ)言理解)能力如何,尤其是否具備較好的泛化能力。NLU是每個(gè)語(yǔ)音智能平臺(tái)的核心。
2.?了解系統(tǒng)的意圖匹配規(guī)則是完全匹配還是模糊匹配?以聲音調(diào)整作為例子。假設(shè)聲音調(diào)整這個(gè)意圖由“操作對(duì)象”、“調(diào)整”和“狀態(tài)”三個(gè)詞槽決定,“聲音提高一點(diǎn)”這句話(huà)里的“聲音”、“提高”和“一點(diǎn)”分別對(duì)應(yīng)“操作對(duì)象”、“調(diào)整”和“狀態(tài)”三個(gè)詞槽。如果這時(shí)候用戶(hù)說(shuō)“請(qǐng)幫我聲音提高一點(diǎn)”,這時(shí)候因?yàn)樵黾恿恕罢?qǐng)幫我”三個(gè)字導(dǎo)致意圖匹配不了,那么該系統(tǒng)的意圖匹配規(guī)則是完全匹配,如果能匹配成功說(shuō)明意圖匹配規(guī)則支持模糊匹配。
只支持詞槽完全匹配的語(yǔ)音智能平臺(tái)幾乎沒(méi)有任何泛化能力,這時(shí)候設(shè)計(jì)師需要考慮通過(guò)構(gòu)建詞典、詞槽和槽位的方式實(shí)現(xiàn)意圖泛化,這非??简?yàn)設(shè)計(jì)師的語(yǔ)言理解水平、邏輯能力以及對(duì)整體詞典、詞槽、槽位的全局設(shè)計(jì)能力,我們可以認(rèn)為這項(xiàng)任務(wù)極其艱巨。
如果語(yǔ)音智能平臺(tái)支持詞槽模糊匹配,說(shuō)明系統(tǒng)采用了識(shí)別關(guān)鍵詞的做法,以剛剛的“請(qǐng)幫我聲音提高一點(diǎn)”作為例子,系統(tǒng)能識(shí)別出“聲音提高一點(diǎn)”分別屬于“操作對(duì)象”、“調(diào)整”和“狀態(tài)”三個(gè)詞槽,然后匹配對(duì)應(yīng)的意圖,而其他文字“請(qǐng)幫我”或者“請(qǐng)幫幫我吧”將會(huì)被忽略。模糊匹配能力對(duì)意圖的泛化能力有明顯的提升,能極大減少設(shè)計(jì)師的工作量,因?yàn)槲覀儽M可能選擇具備模糊匹配能力的語(yǔ)音智能平臺(tái)。
3.?當(dāng)前使用的語(yǔ)音智能平臺(tái)對(duì)語(yǔ)言的支持程度如何。每種語(yǔ)言都有自己的語(yǔ)法和特點(diǎn),這導(dǎo)致了目前的NLU不能很好地支持各種語(yǔ)言,例如Alexa、Google Assistant和Siri都在深耕英語(yǔ)英文的識(shí)別和理解,但對(duì)漢語(yǔ)中文的理解會(huì)相對(duì)差很多,而國(guó)內(nèi)的DuerOS、AliGenie等語(yǔ)音智能平臺(tái)則相反。
4. 有些詞典我們很難通過(guò)手動(dòng)的方式收集完整,例如具有時(shí)效性的名人詞典還有熱詞詞典。如果收集不完整最終結(jié)果就是系統(tǒng)很有可能不知道你說(shuō)的語(yǔ)句是什么意思。這時(shí)候我們需要官方提供的系統(tǒng)詞典,它能直接幫助我們減輕大量的工作。系統(tǒng)詞典一般是對(duì)一些通用領(lǐng)域的詞匯進(jìn)行整理的詞典,例如城市詞典、計(jì)量單位詞典、數(shù)字詞典、名人詞典還有音樂(lè)詞典等等。因此我們需要了解當(dāng)前使用的語(yǔ)音智能平臺(tái)的系統(tǒng)詞典數(shù)量是否夠多,每個(gè)詞典擁有的詞匯量是否齊全。
5.?了解清楚語(yǔ)音智能平臺(tái)是否支持客戶(hù)端和服務(wù)端自定義參數(shù)的傳輸,這一項(xiàng)非常重要,尤其是對(duì)帶屏幕的語(yǔ)音設(shè)備來(lái)說(shuō)。我們做設(shè)計(jì)最注重的是用戶(hù)在哪個(gè)場(chǎng)景下做了什么,簡(jiǎn)單點(diǎn)就是5W1H,What(什么事情)、Where(什么地點(diǎn))、When(什么時(shí)候)、Who(用戶(hù)是誰(shuí))、Why(原因)和How(如何),這些都可以理解為場(chǎng)景化的多個(gè)參數(shù)。
據(jù)我了解,有些語(yǔ)音智能平臺(tái)在將語(yǔ)音轉(zhuǎn)換為文字時(shí)是不支傳輸傳自定義參數(shù)的,這可能會(huì)導(dǎo)致你在設(shè)計(jì)時(shí)只能考慮多輪對(duì)話(huà)中的上下文,無(wú)法結(jié)合用戶(hù)的地理位置、時(shí)間等參數(shù)進(jìn)行設(shè)計(jì)。
為什么說(shuō)自定義參數(shù)對(duì)帶屏語(yǔ)音設(shè)備非常重要?因?yàn)橛脩?hù)有可能說(shuō)完一句話(huà)就直接操作屏幕,然后繼續(xù)語(yǔ)音對(duì)話(huà),如果語(yǔ)音設(shè)備不知道用戶(hù)在屏幕上進(jìn)行什么樣的操作,可以認(rèn)為語(yǔ)音智能平臺(tái)是不知道用戶(hù)整個(gè)使用流程是怎么樣的。
在不同場(chǎng)景下,用戶(hù)說(shuō)的話(huà)都可能會(huì)有不同的意圖,例如用戶(hù)在愛(ài)奇藝?yán)镎f(shuō)“周杰倫”,是想看與周杰倫相關(guān)的視頻;如果在QQ音樂(lè)里說(shuō)“周杰倫”,用戶(hù)是想聽(tīng)周杰倫唱的歌曲。因此,Where除了是用戶(hù)在哪座城市,還有就是用戶(hù)目前在哪個(gè)應(yīng)用里。
6. 當(dāng)前使用的語(yǔ)音智能平臺(tái)是否支持意圖的自定義排序。其實(shí),意圖匹配并不是只匹配到一條意圖,它很有可能匹配到多個(gè)意圖,只是每個(gè)意圖都有不同的匹配概率,最后系統(tǒng)只會(huì)召回概率最大的意圖。在第五點(diǎn)已提到,在不同場(chǎng)景下用戶(hù)說(shuō)的語(yǔ)句可能會(huì)有不同的意圖,所以意圖應(yīng)該根據(jù)當(dāng)前場(chǎng)景進(jìn)行匹配,而不只是根據(jù)詞槽來(lái)識(shí)別。因此語(yǔ)音智能平臺(tái)支持意圖的自定義排序非常重要,它能根據(jù)特定參數(shù)匹配某些低概率的意圖,實(shí)現(xiàn)場(chǎng)景化的理解。當(dāng)然,只有在第五點(diǎn)可實(shí)現(xiàn)的情況下,意圖自定義排序才有意義。
7.?當(dāng)前使用的語(yǔ)音智能平臺(tái)是否支持聲紋識(shí)別。一臺(tái)語(yǔ)音設(shè)備很有可能被多個(gè)人使用,而聲紋識(shí)別可以區(qū)分當(dāng)前正在使用設(shè)備的用戶(hù)到底是誰(shuí),有助于針對(duì)不同用戶(hù)給出個(gè)性化的回答。
設(shè)計(jì)“能聽(tīng)懂用戶(hù)說(shuō)什么”的智能語(yǔ)音產(chǎn)品
當(dāng)我們對(duì)整個(gè)語(yǔ)音智能平臺(tái)有較深入的理解后,我們開(kāi)始設(shè)計(jì)一套“能聽(tīng)懂用戶(hù)說(shuō)什么”的智能語(yǔ)音產(chǎn)品。為了讓大家對(duì)語(yǔ)音交互設(shè)計(jì)有深入淺出的理解,以下內(nèi)容將是為帶屏設(shè)備設(shè)計(jì)一款智能語(yǔ)音系統(tǒng),使用的語(yǔ)音智能平臺(tái)不具備泛化能力,但是它可以自定義參數(shù)傳輸和意圖自定義排序。以下內(nèi)容分為系統(tǒng)全局設(shè)計(jì)和意圖設(shè)計(jì)。
全局設(shè)計(jì)主要分為以下步驟:
1. 對(duì)產(chǎn)品賦予一個(gè)固定的人物形象
如果跟我們對(duì)話(huà)的“人”性格和風(fēng)格經(jīng)常變化,那么我們可能會(huì)覺(jué)得這“人”可能有點(diǎn)問(wèn)題,所以我們要對(duì)產(chǎn)品賦予一個(gè)固定的人物形象。首先,我們需要明確我們的用戶(hù)群體是誰(shuí)?再根據(jù)我們用戶(hù)群體的畫(huà)像設(shè)計(jì)一個(gè)虛擬角色,并對(duì)這個(gè)角色進(jìn)行畫(huà)像描述,包括性別、年齡、性格、愛(ài)好等等,還有采用哪種音色,如果還要在屏幕上顯示虛擬角色,那么我們要考慮設(shè)計(jì)整套虛擬角色的形象和動(dòng)作。完整的案例我們可以參考微軟小冰,微軟把小冰定義成一位話(huà)嘮的17歲高中女生,并且為小冰賦予了年輕女性的音色以及一整套少女形象。
2. 考慮我們的產(chǎn)品目的是什么
這將會(huì)為用戶(hù)提供哪些技能(應(yīng)用),這些技能的目的是什么?用戶(hù)為什么要使用它?用戶(hù)通過(guò)技能能做什么和不能做什么?用戶(hù)可以用哪些方式調(diào)用該技能?還有我們的產(chǎn)品將會(huì)深耕哪個(gè)垂直領(lǐng)域,智能家居控制?音樂(lè)?視頻?體育?信息查詢(xún)?閑聊?
由于有些意圖是通用而且用戶(hù)經(jīng)常用到的,例如“打開(kāi)XXX”這個(gè)意圖,“打開(kāi)電燈”屬于智能家居控制意圖,而“打開(kāi)QQ音樂(lè)”屬于設(shè)備內(nèi)控制意圖,“打開(kāi)哈利波特”有可能屬于電子書(shū)或者視頻意圖,所以每個(gè)領(lǐng)域都會(huì)有意圖重疊,因此我們要對(duì)自己提供的技能進(jìn)行先后排序,哪些是最重要的,哪些是次要的。在這里我建議把信息查詢(xún)和閑聊最好放在排序的最后面,理由請(qǐng)看第三點(diǎn)。
3. 建立合適的兜底策略
兜底方案是指語(yǔ)音完全匹配不上意圖時(shí)提供的最后解決方案,可以這樣認(rèn)為:當(dāng)智能語(yǔ)音平臺(tái)技術(shù)不成熟,自己設(shè)計(jì)的語(yǔ)音技能較少,整個(gè)產(chǎn)品基本聽(tīng)不懂人在說(shuō)什么的時(shí)候,兜底策略是整套語(yǔ)音交互設(shè)計(jì)中最重要的設(shè)計(jì)。兜底方案主要有以下三種:
(1)以多種形式告知用戶(hù)系統(tǒng)暫時(shí)無(wú)法理解用戶(hù)的意思
例如“抱歉,目前還不能理解你的意思”、“我還在學(xué)習(xí)該技能中”等等。這種做法參考了人類(lèi)交流過(guò)程中多變的表達(dá)方式,使整個(gè)對(duì)話(huà)不會(huì)那么無(wú)聊生硬。這種兜底策略成本是最低的,并且需要結(jié)合虛擬角色一起考慮。如果這種兜底方案出現(xiàn)的頻率過(guò)高,用戶(hù)很有可能覺(jué)得你的產(chǎn)品什么都不懂,很不智能。
(2)將聽(tīng)不懂的語(yǔ)句傳給第三方搜索功能
基本上很多問(wèn)題都能在搜索網(wǎng)站上找到答案,只是答案過(guò)多導(dǎo)致用戶(hù)的操作成本有點(diǎn)高。為了有個(gè)更好的體驗(yàn),我建議產(chǎn)品提供百科、視頻、音樂(lè)等多種搜索入口。以“我想看哈利波特的視頻”這句話(huà)為例子,我們可以通過(guò)正則表達(dá)式的技術(shù)手段技能挖掘出“視頻”一詞,同時(shí)將“我想看”、“的”詞語(yǔ)過(guò)濾掉,最后獲取“哈利波特”一詞,直接放到視頻搜索里,有效降低用戶(hù)的操作步驟。這種兜底策略能簡(jiǎn)單有效地解決大部分常用的查詢(xún)說(shuō)法,但用在指令意圖上會(huì)非常怪,例如“打開(kāi)客廳的燈”結(jié)果跳去了百度進(jìn)行搜索,這時(shí)候會(huì)讓用戶(hù)覺(jué)得你的產(chǎn)品非常傻;還有,如果在設(shè)計(jì)整個(gè)兜底策略時(shí)沒(méi)有全局考慮清楚,很有可能導(dǎo)致截取出來(lái)的的關(guān)鍵詞有問(wèn)題,導(dǎo)致用戶(hù)覺(jué)得很難理解。
(3)將聽(tīng)不懂的語(yǔ)句傳給第三方閑聊機(jī)器人
有些積累較深的第三方閑聊機(jī)器人說(shuō)不定能理解用戶(hù)問(wèn)的是什么,而且提供多輪對(duì)話(huà)的閑聊機(jī)器人可以使整個(gè)產(chǎn)品看起來(lái)“人性化”一點(diǎn)。由于閑聊機(jī)器人本身就有自己的角色定位,所以這種兜底策略一定要結(jié)合虛擬角色并行考慮。而且第三方閑聊機(jī)器人需要第三方API支持,是三個(gè)兜底策略中成本最高的,但效果也有可能是最好的。
由于是聽(tīng)不懂才需要兜底策略,所以以上三種兜底方案是互斥的。為了讓整個(gè)產(chǎn)品有更好的體驗(yàn),我們不能完全依賴(lài)最后的兜底策略,還是需要設(shè)計(jì)更多技能和意圖匹配更多的用戶(hù)需求。人與機(jī)器的對(duì)話(huà)可以概括為發(fā)送指令、信息查詢(xún)和閑聊三種形式,以上三種兜底方案在實(shí)際應(yīng)用時(shí)都會(huì)有所優(yōu)缺點(diǎn),設(shè)計(jì)師可以根據(jù)實(shí)際需求選擇最合適產(chǎn)品的兜底策略。
4. 查看語(yǔ)音智能平臺(tái)是否提供了與技能相關(guān)的垂直領(lǐng)域官方詞典
查看語(yǔ)音智能平臺(tái)是否提供了與技能相關(guān)的垂直領(lǐng)域官方詞典,如果沒(méi)有就需要考慮手動(dòng)建立自己的詞典。手動(dòng)建立的詞典質(zhì)量決定了你的意圖識(shí)別準(zhǔn)確率,因此建立詞典時(shí)需要注意以下幾點(diǎn):
(1)詞匯的覆蓋面決定了詞典質(zhì)量,所以詞匯量是越多越好。
(2)該詞典是否需要考慮動(dòng)態(tài)更新,例如名人、視頻、音樂(lè)等詞典都應(yīng)該支持動(dòng)態(tài)更新。
(3)該詞匯是否有同義詞,例如醫(yī)院、學(xué)校等詞匯都應(yīng)該考慮其他的常用叫法。
(4)如果想精益求精,還需要考慮詞匯是否是多音字,還有是否有常見(jiàn)的錯(cuò)誤叫法。有時(shí)ASR(Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別)會(huì)將語(yǔ)音識(shí)別錯(cuò)誤,因此還需要考慮是否需要手動(dòng)糾正錯(cuò)誤。
5. 在場(chǎng)景的幫助下,我們可以更好地理解用戶(hù)的意圖
由于我們的大部分設(shè)備都是使用開(kāi)源的安卓系統(tǒng),而且語(yǔ)音應(yīng)用和其他應(yīng)用都相互獨(dú)立,信息幾乎不能傳輸,所以我們可以通過(guò)安卓官方的API獲取棧頂應(yīng)用信息了解用戶(hù)當(dāng)前處于哪個(gè)應(yīng)用。如果用戶(hù)當(dāng)前使用的應(yīng)用是由我們?cè)O(shè)計(jì)開(kāi)發(fā)的,我們就可以將用戶(hù)的一系列操作流程以及相關(guān)參數(shù)傳輸給服務(wù)器進(jìn)行分析,這樣有助于我們更好地判斷用戶(hù)的想法是什么,并前置最相關(guān)的意圖。
6. 撰寫(xiě)腳本
腳本就像電影或戲劇里一樣,它是確定對(duì)話(huà)如何互動(dòng)的好方法??梢允褂媚_本來(lái)幫助確認(rèn)你可能沒(méi)考慮到的情況。撰寫(xiě)腳本需要考慮以下幾點(diǎn):
(1)保持互動(dòng)簡(jiǎn)短,避免重復(fù)的短語(yǔ)。
(2)寫(xiě)出人們是如何交談的,而不是如何閱讀和寫(xiě)作的。
(3)當(dāng)用戶(hù)需要提供信息給出相應(yīng)的指示。
(4)不要假設(shè)用戶(hù)知道該做什么。
(5)問(wèn)問(wèn)題時(shí)一次只問(wèn)一個(gè)信息。
(6)讓用戶(hù)做選擇時(shí),一次提供不超過(guò)三個(gè)選擇。
(7)學(xué)會(huì)使用話(huà)輪轉(zhuǎn)換(Turn-taking)。話(huà)輪轉(zhuǎn)換是一個(gè)不是特別明顯但是很重要的談話(huà)工具,它涉及了對(duì)話(huà)中我們習(xí)以為常的微妙信號(hào)。 人們利用這些信號(hào)保持對(duì)話(huà)的往復(fù)過(guò)程。缺少有效的輪回,可能會(huì)出現(xiàn)談話(huà)的雙方同時(shí)說(shuō)話(huà)、或者對(duì)話(huà)內(nèi)容不同步并且難以被理解的情況。
(8)對(duì)話(huà)中的所有元素應(yīng)該可以綁定一起成為簡(jiǎn)單的一句話(huà),這些元素將是我們意圖設(shè)計(jì)中最重要的參數(shù),因此我們要留意對(duì)話(huà)中的線索。
7. 最后我們要將腳本轉(zhuǎn)化為決策樹(shù)
決策樹(shù)跟我們理解的信息架構(gòu)非常相似,也是整個(gè)技能、意圖、對(duì)話(huà)流程設(shè)計(jì)的關(guān)鍵。這時(shí)候我們可以通過(guò)決策樹(shù)發(fā)現(xiàn)我們整個(gè)技能設(shè)計(jì)是否有邏輯不嚴(yán)密的地方,從而優(yōu)化我們整個(gè)產(chǎn)設(shè)計(jì)。
以上是全局設(shè)計(jì)的相關(guān)內(nèi)容,以下開(kāi)始講述意圖設(shè)計(jì)。
意圖設(shè)計(jì)主要包括以下內(nèi)容:
1. 在前面提到,意圖識(shí)別是由詞槽(參數(shù))和槽位(參數(shù)數(shù)量)決定的
當(dāng)一個(gè)意圖的槽位越多,它的能力還有復(fù)用程度就越高;但是槽位越多也會(huì)導(dǎo)致整個(gè)意圖變得更復(fù)雜,出錯(cuò)的概率就會(huì)越高,所以意圖設(shè)計(jì)并不是槽位越多就越好,最終還是要根據(jù)實(shí)際情況而決定。當(dāng)我們?cè)O(shè)計(jì)詞槽和槽位時(shí),請(qǐng)結(jié)合當(dāng)前語(yǔ)言的語(yǔ)法和詞性一起考慮,例如每一句話(huà)需要考慮主謂賓結(jié)構(gòu),還有各種的名詞、動(dòng)詞、副詞、量詞和形容詞。
2. 當(dāng)語(yǔ)音智能平臺(tái)泛化能力較弱時(shí),我們可以考慮手動(dòng)提升整體的泛化能力
主要的做法是將常用的表達(dá)方式抽離出來(lái)成為獨(dú)立的詞典,然后每個(gè)意圖都匹配該詞典。
3. 如果設(shè)計(jì)的是系統(tǒng)產(chǎn)品,我們應(yīng)該考慮全局意圖的設(shè)計(jì)
例如像帶屏智能音箱、投影儀都是有實(shí)體按鍵的,我們可以考慮通過(guò)語(yǔ)音命令的方式模擬按鍵操作從而達(dá)到全局操作,例如“上一條”、“下一個(gè)”、“打開(kāi)xxx”這些語(yǔ)音命令在很多應(yīng)用內(nèi)都能用到。
以下通過(guò)簡(jiǎn)單的案例學(xué)習(xí)一下整個(gè)意圖是怎么設(shè)計(jì)的,我們先從“開(kāi)啟關(guān)閉設(shè)備”意圖入手:
(1)首先我們?cè)O(shè)計(jì)“執(zhí)行詞典”和“設(shè)備詞典”,詞典如下:
(2)設(shè)計(jì)“執(zhí)行設(shè)備”的詞槽為“執(zhí)行”+“設(shè)備”。無(wú)論用戶(hù)說(shuō)“開(kāi)燈”或者“打開(kāi)光管”時(shí)都能順利匹配到“Turn_on”+“Light”;而用戶(hù)說(shuō)“關(guān)掉彩電”或者“關(guān)電視”都能順利匹配到“Turn_off”+“Television”,從而執(zhí)行不同的命令。
(3)為了增加泛化能力,我們需要設(shè)計(jì)一個(gè)“語(yǔ)氣詞典”,詞典如下:
(4)增加意圖槽位
這時(shí)候把“執(zhí)行”和“設(shè)備”兩個(gè)槽位設(shè)置為必選槽位,意思是這句話(huà)這兩個(gè)詞槽缺一不可,如果缺少其中之一需要多輪對(duì)話(huà)詢(xún)問(wèn),或者系統(tǒng)直接無(wú)法識(shí)別。
接著增加兩個(gè)可選槽位,同時(shí)為“語(yǔ)氣”,可選槽位的意思是這句話(huà)可以不需要這個(gè)詞都能順利識(shí)別。這時(shí)候用戶(hù)說(shuō)“請(qǐng)開(kāi)燈”、“能不能幫我開(kāi)燈”都能順利匹配到“Please”+“Turn_on”+“Light”以及“Please”+“Turn_on”+“Light”+“Suffix”,由于“Please”和“Suffix”都屬于“語(yǔ)氣”可選詞槽的內(nèi)容,所以?xún)删湓?huà)最后識(shí)別都是“Turn_on”+“Light”。
通過(guò)參數(shù)相乘的方式,我們可以將整個(gè)“開(kāi)啟關(guān)閉設(shè)備”意圖分別執(zhí)行4種命令,并泛化數(shù)十種常用表達(dá)出來(lái)。
剛剛也提到,對(duì)輪對(duì)話(huà)的目的是為了補(bǔ)全意圖中全部必選詞槽的內(nèi)容。當(dāng)用戶(hù)家里存在數(shù)盞燈時(shí),系統(tǒng)應(yīng)該將剛才的常用表達(dá)升級(jí)為“Please”+“Turn_on”+“Which”+“Light”+“Suffix”。當(dāng)用戶(hù)說(shuō)“打開(kāi)燈”的時(shí)候,系統(tǒng)應(yīng)該詢(xún)問(wèn)“您需要打開(kāi)的哪一盞燈”,再根據(jù)用戶(hù)的反饋結(jié)果執(zhí)行相關(guān)命令。
以上的案例只是整個(gè)意圖設(shè)計(jì)中的一小部分,還有很多細(xì)節(jié)需要根據(jù)實(shí)際情況進(jìn)行設(shè)計(jì)。完成整個(gè)全局設(shè)計(jì)和意圖設(shè)計(jì)后,我們應(yīng)該邀請(qǐng)用戶(hù)進(jìn)行實(shí)踐與測(cè)試,這時(shí)候們很有可能發(fā)現(xiàn)用戶(hù)會(huì)用我們沒(méi)想到的話(huà)術(shù)進(jìn)行語(yǔ)音交互,我們要盡可能地完善意圖以及對(duì)話(huà)設(shè)計(jì),避免產(chǎn)品上線后出現(xiàn)問(wèn)題。
最后,關(guān)于創(chuàng)建用戶(hù)故事、撰寫(xiě)腳本和對(duì)話(huà)流程設(shè)計(jì),請(qǐng)閱讀Google的《Actions on Google Design》和Amazon的《Amazon Alexa Voice Design Guide》兩份文檔以及相關(guān)的語(yǔ)音智能平臺(tái)的官方使用文檔,里面會(huì)更詳細(xì)地介紹相關(guān)細(xì)節(jié)。
最后的最后,衷心感謝騰訊MXD團(tuán)隊(duì)翻譯的《Actions on Google Design》以及余小璐和王帆翻譯的《Amazon Alexa Voice Design Guide》兩份中文文檔。
#專(zhuān)欄作家#
無(wú)線翡翠臺(tái),微信公眾號(hào):薛志榮,人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。全棧開(kāi)發(fā)者,專(zhuān)注于交互設(shè)計(jì)和人工智能設(shè)計(jì)。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Pixabay,基于CC0協(xié)議
確實(shí)寫(xiě)得太深了。讀起來(lái)有些晦澀
寫(xiě)的太深入了
干貨干貨,學(xué)習(xí)了。
好厲害??
很有啟發(fā),謝謝~