影音先锋色成人资源网站,亚洲精品乱码久久久久久V,国产综合无码

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

智能語音交互應(yīng)該如何設(shè)計？

大魚海棠

2020-11-27

1 評論 9402 瀏覽 94 收藏

14 分鐘

編輯導(dǎo)語：隨著亞馬遜、小米、阿里巴巴等大公司都推出了智能語音產(chǎn)品，智能語音交互設(shè)計成為了一個值得探索的領(lǐng)域。語音交互如何設(shè)計才能達到更自然的交互反饋、更好的傳達情感，這是目前需要解決的問題。對于用戶來說，希望能與智能產(chǎn)品建立親切的信任感，越相處越好用。AI時代，深知我者，才能久居我心。

一、語音交互需求價值

說到語音交互需求價值，總有一種不言而喻的感覺，語言作為人類信息傳遞的主要媒介，用其進行溝通交流，是一種遵循本能的行為。從我們記憶機器命令的鍵盤輸入，到按機器提示的點擊觸碰行為，這類需要我們?nèi)ダ斫鈾C器的方式，隨著科技的不斷突破，也迎來了轉(zhuǎn)變。

語音交互除了幾乎不需要任何學(xué)習(xí)成本外，更有意義的是，解放了作為輸入的雙手（是不有種人類實現(xiàn)直立行走的偉大意義），人們可以同步開展其它任務(wù)，并且也調(diào)動了人類聽覺的感官體驗，而不用完全局限在視覺上。

下面就來說說如何設(shè)計一款語音交互產(chǎn)品，先說說語音交互產(chǎn)品設(shè)計的整體流程框架，再對其中各環(huán)節(jié)涉及的問題展開說明。

二、流程框架

查閱了亞馬遜Alexa語音界面設(shè)計規(guī)范和Google的語音界面設(shè)計規(guī)范后，結(jié)合自己的解分為五個關(guān)鍵步驟：調(diào)研→定位→設(shè)計→測試→完善。

調(diào)研—— 挖掘語音交互使用場景

定位—— 聚焦產(chǎn)品定位，創(chuàng)建用戶畫像

設(shè)計—— 設(shè)計狀態(tài)流程圖，編寫腳本，建立原則

測試—— 真人感受，在線模擬測試

完善—— 數(shù)據(jù)+案例分析，優(yōu)化調(diào)整。

1. 調(diào)研：用戶場景的選擇

雖說語音交互（VUI）帶來了便利，但并不是說現(xiàn)有的交互方式都可以完全替換，想想畢竟文字的形式不也還存在嘛。其簡單快捷的方式對需要復(fù)雜信息的呈現(xiàn)，需要時間思考反饋的產(chǎn)品反而會增加復(fù)雜度。

Google給出了3條指導(dǎo)原則：

人們可以快速做出回答的場景。比如用戶輸入不需要思考的基本信息；
快捷，可以省去中間交互的時間，強執(zhí)行操作比如給XX打電話（搜索框輸入XX，點擊查詢，撥打的步驟合并一步提交后臺處理）；
雙手已被占用，需要并行處理其它任務(wù)場合。比如開車的時候，做飯的時候，記筆記的時候，這些場合雙手多數(shù)是被占用的。

2. 定位：創(chuàng)建人物畫像

語音交互是在模擬人的行為，建立的虛擬人的形象，也會讓人們將現(xiàn)實中人的行為與其關(guān)聯(lián)。字正腔圓的新聞聯(lián)播是嚴(yán)謹真實的，少兒節(jié)目是活潑可愛的，相聲綜藝是輕松詼諧的。

在設(shè)計對話前，定位出產(chǎn)品態(tài)度，才好選擇詞語風(fēng)格，句子結(jié)構(gòu)。

3. 設(shè)計交互對話

設(shè)計分為三個步驟：邏輯狀態(tài)圖——對話腳本編寫——解決方案分級

1）圍繞用戶產(chǎn)生的結(jié)果狀態(tài)，梳理出邏輯圖

機器與人的對話存在多種可能性，除了完成核心場景外，還要考慮意外的情況。用戶輸入不在范圍內(nèi)，用戶不按提示操作，用戶重復(fù)輸入多次，用戶沒有回應(yīng)等等。

但是這些都不算用戶輸入錯誤，這個概念是不存在的，都是一種狀態(tài)，需要引導(dǎo)到正常會話下圖是未展開細節(jié)的狀態(tài)流程圖示例。

喚醒——響應(yīng)——輸入——理解——輸出

（橘色是人的輸入，綠色是機器輸出，無色是處理邏輯）：

如何設(shè)計AI 時代的入口——語音交互

2）對每個狀態(tài)編寫對話體驗?zāi)_本

如何設(shè)計AI 時代的入口——語音交互

3）結(jié)合情感化設(shè)計的解決方案分級

從用戶體驗劃分為三個層級，滿足人們功能、心理、自我探索共鳴需求。

功能級：期望對話的產(chǎn)品更像一個自然人亞馬遜Alexa設(shè)計規(guī)范指出人類對話的核心特點：串聯(lián)，有上下文的相關(guān)性輪流，你說一句我說一句的互動潛在效率；省略詞，簡潔高效的本能多樣性：一句話可以有多種表達形式。
心理級：激發(fā)未知好奇心人類天生有好奇心，喜歡新事物，計算能力強是機器的優(yōu)勢，如果每次對話，同樣的問題會有不同的回答，用戶會主動想去體驗互動。
自我探索級：觸發(fā)情感共情人是有感情的生物，一本記滿日記的本子，陪你走南闖北的行李箱，何況是一只會說話的產(chǎn)品。并且經(jīng)過時間的磨合，她越來越懂你，記得上次你查詢的內(nèi)容，記得你上次問的問題。會喚起你小伙伴在身旁的感覺。

4. 測試

1）大聲的朗讀出來，聽起來是口語，而不是書面語言；

2）谷歌在線模擬器 ?https://developers.google.com/assistant/console/simulator。

5. 迭代完善

1）結(jié)合用戶反饋，數(shù)據(jù)統(tǒng)計進行分析

比如：對于用戶同一個問題提出多次原因可能是：

答案不是用戶想要的；
用戶忘記了第一次答案；
用戶頑皮這時候可以結(jié)合人工理解，大多數(shù)用戶選擇進行優(yōu)化。

2）示例中等待時間5秒按Cathy Pearl書中試驗得出，這個值可以根據(jù)不同產(chǎn)品用戶的反應(yīng)速度調(diào)整。

三、設(shè)計中考慮的因素

從用戶，產(chǎn)品，信息內(nèi)容，傳達方式中的問題與語言特征依次說起。

1）用戶意圖的識別

人們問的問題，因為個體差異，關(guān)注的點不同，需要的結(jié)果也會不一樣。

比如：今天出門需要帶傘么？

——男性：關(guān)注下雨；

——女性：關(guān)注日曬。

區(qū)別個體差異，讓用戶覺得你懂他，體驗到產(chǎn)品的溫度。

2）產(chǎn)品人格塑造

我們在與他人交流的時候，會注意場合，自我形象，用連接詞進行話語的過渡。語音交互，作為一個擬人化產(chǎn)品，這些也是要考慮的。

自我形象：面向小朋友的教育軟件，要樹立一個勇敢權(quán)威的形象，而他們本身就是可愛的，就不應(yīng)該再加入賣萌的話術(shù)。而客服類語音，由于客戶面對問題會存在不耐心煩躁的情緒，就可以用幽默的話術(shù)緩解一下氣氛。
注意場景：在公共場合，話語要簡潔，高效解決問題。在私人空間，比如家，可以網(wǎng)絡(luò)語化、逗逗樂。
過渡詞：人們談話的時候，不會拘泥于一個話題，會不斷展開話題，比如：對了、其實、但是…

3）控制內(nèi)容范圍

語音交互實質(zhì)是連接產(chǎn)品服務(wù)與用戶需求，所以答案要么和產(chǎn)品有關(guān)，要么和產(chǎn)品無關(guān)。有關(guān)的是基于產(chǎn)品本身的有限搜索信息庫。無關(guān)的用兜底的話術(shù)結(jié)束（這個功能我還在努力學(xué)習(xí)）還有一種是引導(dǎo)用戶，結(jié)合著視覺，羅列出和主題相關(guān)的選項，引導(dǎo)用戶找到答案。

如何設(shè)計AI 時代的入口——語音交互

4）信息口語式傳達

口語在表達的時候，為了簡潔方便，并沒有按著嚴(yán)格語法（主謂賓，定語*+名詞的結(jié)構(gòu)），省略的、不連續(xù)會被大腦自然補齊，比如：

CASE1：

點餐，來一杯拿鐵，大杯加冰，而書面表達可能說，他點了一大杯加冰的拿鐵；

CASE2：

詢問天氣：今天天氣怎么樣？（隱含用戶現(xiàn)在所在的城市）。

繼續(xù)詢問，那杭州呢？（隱含還是問的天氣）

書面表達是事后信息重整理，口語表達是大腦同步傳遞，先表達中心，然后補充細節(jié)。用戶信息輸入后，留出一段停頓的時間，再執(zhí)行命令，會更符合說話的節(jié)奏。

四技術(shù)及其現(xiàn)狀

語音交互的信息流處理步驟如下：

如何設(shè)計AI 時代的入口——語音交互

1）語音識別 ASR ：聽清用戶說話

處于單模式狀態(tài)：喚醒對話，再喚醒再對話的方式，反映到現(xiàn)實是這樣場景：

小明，播放周杰論的告別氣球。

小明，聲音大些。

小明，再大些。

小明，循環(huán)播放。

小明，播放Remix版。

你每次說話都要帶上別人的名字。目前大部分產(chǎn)品是單輪對話，采用一問一答交替形式，對用戶糾正信息，打斷對話是不做響應(yīng)處理的，期待技術(shù)發(fā)展后續(xù)可以是邊聽邊思考的信息流狀態(tài)。

2）語義理解NLU ：聽懂用戶的話

語義理解要做到智能除了字面含義外，用戶意圖識別，情緒識別，對話的上下文信息關(guān)聯(lián)都是要考慮的因素。

3）信息搜索Info Search ：最強大腦

依賴于檢索的準(zhǔn)確率，召回率。

4）語言生成NLG：生成結(jié)果

分為三個級別：

簡單數(shù)據(jù)合成并；
模版化輸出，比如：導(dǎo)航的語音播報；
高級版模擬人類表達，它理解用戶意圖，結(jié)合知識圖譜，比用戶多想一步等，解決其本質(zhì)需求。說兩個例子，暢想一下：

CASE1：

用戶：小明，杭州氣溫多少度？

語音：杭州今天氣溫10～14度，未來3天有小雨，主人出門建議多帶件換洗衣物（用戶之前通過語音查詢了機票酒店信息，或者上次主人問了這個問題后，有5天都沒有再用設(shè)備，因為不在家）。

CASE2：

用戶：小明，來首歌吧！

語音：（識別出語調(diào)興奮）好，播放了一首歡快的high歌。

用戶：小明，放首歌！

語音：（識別出語音的低落）好，播放了一首正能量的歌。

這一部分的可關(guān)聯(lián)的空間還很大。說個題外話，語音是人類所擅長的，對其的預(yù)期會高，有時說話像個孩子的樣子，有時反而還會討喜。所以還要結(jié)合心理預(yù)期維度的研究。

5）TTS ：播放給用戶聽

目前可以選擇喜歡的明星的聲音，以及AI主持人。

總結(jié)

無論從市場應(yīng)用的硬件載體覆蓋面（智能音箱、智能手表、智能導(dǎo)航儀等），行業(yè)應(yīng)用廣泛推廣（醫(yī)療，教育，公檢法，車聯(lián)網(wǎng)，泛娛樂等），還是聚焦在產(chǎn)品設(shè)計，技術(shù)優(yōu)化上，以及符合人體本能行為需求價值上，還是作為AI時代的入口，這個方向都是很有趣的，歡迎開撩～～

本文由 @大魚海棠原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自 Unsplash，基于 CC0 協(xié)議