午夜麻豆国产精品无码久久,精品久久久久久中文字幕无码vr

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

關(guān)于語音交互，你了解多少？

我叫人人

2020-09-08

1 評論 10840 瀏覽 34 收藏

12 分鐘

編輯導(dǎo)讀：隨著智能音箱、智能家居等智能硬件的普及，語音交互熱度也不斷飆升。本文從交互模式的發(fā)展出發(fā)，梳理分析了語音交互的優(yōu)勢、存在的問題和設(shè)計(jì)要點(diǎn)，并展望了語音交互的未來發(fā)展，希望通過此文能夠加深你對語音交互的認(rèn)識。

隨著人工智能技術(shù)的發(fā)展，語音交互逐漸成為我們主流的交互方式之一，一方面是因?yàn)檎Z音交互更加自然，一方面也得益于技術(shù)的發(fā)展。從智能音箱到智能手機(jī)，語音交互正在被大眾所接受。

一、交互模式的發(fā)展

自從工業(yè)革命以來，人機(jī)交互就逐漸進(jìn)入人們的視野。

開始是傳統(tǒng)的按壓交互，一個(gè)機(jī)械按鍵，按下去以后機(jī)器會(huì)有相應(yīng)的反饋，就像現(xiàn)在手機(jī)的開機(jī)鍵。
然后就是鼠鍵交互，通過鼠標(biāo)+鍵盤這個(gè)組合，映射到可視的顯示器上，點(diǎn)擊來進(jìn)行交互。
緊接著是觸控交互，觸摸屏的普及，人們開始習(xí)慣在屏幕上戳戳點(diǎn)點(diǎn)，這就是我們每天都在使用的觸摸交互。
一直到現(xiàn)在，在以上兩種交互的基礎(chǔ)之上，又衍生出了語音交互和手勢交互，這都是得益于大數(shù)據(jù)和人工智能的發(fā)展，這就是我們常用的智能音箱和手機(jī)助手。
未來最有可能被普及的就是意識交互，計(jì)算機(jī)可以識別人腦的想法，從而直接進(jìn)行反饋，之前看的Facebook有一個(gè)輸入法就可以通過腦電波輸入，最近又有埃隆·馬斯克的腦機(jī)接口演示，感覺這一天離我們越來越近。

現(xiàn)在語音交互在技術(shù)上也越來越成熟，識別的準(zhǔn)確率和處理的效率越來越高，也已經(jīng)有了很多落地的產(chǎn)品，足以證明語音交互在現(xiàn)在的可行性。隨著5G和物聯(lián)網(wǎng)的普及，語音交互會(huì)有更大的應(yīng)用場景，讓所有的物體都會(huì)說話，真是一件不能再酷的事情了。

二、語音交互的優(yōu)缺點(diǎn)

從最開始的按壓交互，到現(xiàn)在的語音交互，中間經(jīng)歷了幾百年的時(shí)間，但是按壓交互依然沒有被完全替代，像手機(jī)上的音量按鍵，電腦上的鍵盤等，在我們身邊隨處可見。語音識別和自然語言處理技術(shù)這么成熟，為什么我們不能完全由語音控制呢？

這就要說到交互的基本原則，也就是什么樣子的交互設(shè)計(jì)用著爽：

簡單：盡可能的降低用戶的學(xué)習(xí)成本
精準(zhǔn)：能夠準(zhǔn)確的完成我們想做的事情
自然：符合人體工程設(shè)計(jì)，看起來像一個(gè)正常人

我們先看鼠鍵交互和觸控交互，鼠鍵交互相比觸摸交互，最大的優(yōu)勢是精準(zhǔn)，而簡單和自然就不如觸控交互了。觸摸是人類的天性，相比于鼠標(biāo)的映射更加簡單，學(xué)習(xí)成本低，操作起來也更自然，不用正襟危坐的在電腦前，隨時(shí)隨地都可以操作。這也是為什么手機(jī)的交互方式碾壓電腦的原因，但是電腦因?yàn)橛懈珳?zhǔn)的特點(diǎn)，也會(huì)一直存在。

沒有什么方式能夠比直接說話來的更簡單，更自然，更不需要學(xué)習(xí)成本，但是語音交互最大的問題是不夠精準(zhǔn)。首先是受環(huán)境的影響，導(dǎo)致語音識別的準(zhǔn)確率較低；再者就是表達(dá)一個(gè)意圖的說法千變?nèi)f化，更本無法覆蓋全；最后就是語音交互是一個(gè)開放域的事情，需要處理很多意外的情況。這里還沒有考慮有些場景不適合語音交互，比如會(huì)議場景，家人睡覺的時(shí)候等。

語音交互的優(yōu)點(diǎn)和他的缺點(diǎn)一樣突出，這也就導(dǎo)致語音交互最終無法取代其他的交互模式，多種交互模式會(huì)長期并存。所以我們需要結(jié)合實(shí)際場景，充分發(fā)揮語音交互的優(yōu)勢，而不是一味的追求語音交互。

三、如何設(shè)計(jì)語音交互？

由于技術(shù)的限制，語音交互的精確性不高，這也導(dǎo)致語音交互在未來很長一段時(shí)間里，不會(huì)成為唯一的交互方式，而是和多種交互模式并存，可能會(huì)處于一種輔助的狀態(tài)。

在設(shè)計(jì)語音交互的時(shí)候，可以按照三步進(jìn)行梳理。

1. 確定交互場景

先要考慮當(dāng)前場景是否適合語音交互。適合語音交互的場景有以下幾個(gè)特點(diǎn)：

環(huán)境噪音少，或者噪音處于一個(gè)穩(wěn)定可控的狀態(tài)；
使用環(huán)境私密，或者當(dāng)前環(huán)境交互沒有心理負(fù)擔(dān)；
對指令下發(fā)失敗容忍度高，或者有補(bǔ)救的方案；
使用對象雙手被占用，或者距離操作按鈕很遠(yuǎn)；
觸發(fā)的指令意圖簡短且明確。

根據(jù)以上特點(diǎn)，我們發(fā)現(xiàn)手機(jī)的智能助手滿足以上條件，因?yàn)槭謾C(jī)的使用場景足夠豐富，幾乎覆蓋生活的方方面面，那么總會(huì)有場景完全適合語音交互，所以大家都在嘗試做自己的語音助手。我們常見智能音箱和車載助手，也完全符合。

2. 確定交互反饋

其次要考慮語音交互后的反饋，要能夠保證信息的準(zhǔn)確傳達(dá)。簡單可以把語音交互夫人反饋分為三種：

聽懂了的反饋；
沒聽懂的反饋；
異常狀態(tài)的反饋。

（1）聽懂了的反饋：這個(gè)比較好理解，相對比較容易設(shè)計(jì)。只要知道用戶所表達(dá)的意圖，我們就可以給出一個(gè)明確的反饋，一般會(huì)結(jié)合視覺和聽覺同時(shí)反饋給用戶，并執(zhí)行對應(yīng)的指令。

（2）沒聽懂的反饋：沒聽懂需要分層次，是完全沒聽懂，還是聽懂了一點(diǎn)，還是感覺聽懂了，但是不確認(rèn)，這都算在沒有聽懂里面。如果是完全沒有聽懂，一般反饋內(nèi)容分為兩部分，一是表示沒聽懂，另外需要引導(dǎo)用戶說機(jī)器人會(huì)的內(nèi)容。比如“XXXXXXX”，沒有對應(yīng)的處理方案，對于機(jī)器人就是沒有聽懂，可以回復(fù)“這個(gè)我沒聽懂，您可以對我說’打開空調(diào)’?！?/p>

如果是聽懂了一點(diǎn)，只聽出一個(gè)關(guān)鍵詞，或者是說話的語氣，也可以做一些回復(fù)。比如“打開XX”，沒有聽清后面的設(shè)備，那么就可以回復(fù)“您想要打開什么設(shè)備呢？”，然后根據(jù)反饋再做多輪回復(fù)。

如果是聽懂了，但是不確認(rèn)，就可以直接進(jìn)行反問，讓用戶進(jìn)行二次確認(rèn)。比如“打開空條”，感覺用戶是想要說“打開空調(diào)”，就可以直接反問“您是要打開空調(diào)嗎？”，然后根據(jù)反饋再做多輪回復(fù)。

（3）異常狀態(tài)的情況也有很多，但是我們?nèi)夹枰蟹答?。比如噪音、斷網(wǎng)等情況，要提示用戶當(dāng)前狀態(tài)，避免用戶頻繁交互而沒有結(jié)果。

3. 確定交互關(guān)系

最后還要設(shè)定語音交互和其他交互方式的關(guān)系。往往一個(gè)設(shè)備不會(huì)只搭載一種交互方式，而是多種交互方式相結(jié)合。手機(jī)就是一個(gè)典型的多種交互方式結(jié)合的產(chǎn)物，所以要考慮語音和觸控之間的關(guān)系，比如是否要語音支持手機(jī)關(guān)機(jī)，語音指令是否支持打斷當(dāng)前任務(wù)等等。

做語音交互的產(chǎn)品，首先要明確是否適合語音交互，其次再分層次的解決語音交互中的反饋，最后設(shè)計(jì)清楚語音和其他交互的關(guān)系。

四、語音交互的未來

說到語音交互，很多人會(huì)說這是最符合人類的交互方式，因?yàn)槲覀兏杏X人和人之間都是語音交互。其實(shí)并不是這樣的，我們說話的時(shí)候，是帶有表情和動(dòng)作的，我們把這種豐富的交互模式叫做多模態(tài)交互。

多模態(tài)交互才是語音交互的未來。現(xiàn)在我們傳統(tǒng)的語音交互，只是簡單的獲取了用戶的文本信息，基于字面意識去做處理，高級一點(diǎn)的會(huì)利用上文聊過的信息，再往前一步，會(huì)根據(jù)用戶畫像做反饋。多模態(tài)交互不僅僅需要文本信息，同樣需要視覺，音頻等信息，然后根據(jù)不同的權(quán)重，作出合理的反饋。

其實(shí)在人與人對話的時(shí)候，除了字面意思外，還有很多隱藏的的信息，面對不同身份，不同關(guān)系的人，可能反饋的內(nèi)容都不一樣。所以需要給機(jī)器設(shè)定人設(shè)，還要對用戶進(jìn)行分類，有時(shí)候甚至需要做到千人千面。

語音交互相比于傳統(tǒng)的交互模式，更依賴于算法和數(shù)據(jù)，所以語音交互的未來是需要技術(shù)突破的。

五、總結(jié)

我們生活中有多種多樣的交互方式，每一種交互方式都有它的優(yōu)缺點(diǎn)，所以很多傳統(tǒng)的交互方式會(huì)一直存在。而語音交互是最簡單，最自然的交互方式，但同樣也是精準(zhǔn)度最低的交互方式。這也就注定了語音交互將長期處于一個(gè)協(xié)助觸控交互的狀態(tài)，不過有些精準(zhǔn)度要求不高的場景，也可以實(shí)現(xiàn)純語音交互。

未來語音交互繼續(xù)發(fā)展，將會(huì)進(jìn)一步對人群進(jìn)行分類，并結(jié)合多模態(tài)信息反饋。

本文由 @我叫人人原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App