99久久综合狠狠综合久久,中文字幕av伊人av无码av,国产亚洲日韩欧美另类第八页

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

如何評測語音助手的智能程度（3）：交互流暢

飯大官人

2020-03-17

0 評論 10915 瀏覽 33 收藏

21 分鐘

本篇文章為大家?guī)怼窘换チ鲿场烤S度的評測點拆解。這個模塊，重點考量智能助手各個性能指標及交互體驗層面的表現(xiàn)。希望對從事相關領域工作的各位有所啟發(fā)。

當用戶發(fā)起需求后，【意圖理解】在前，【服務提供】在后，基本上已經(jīng)構(gòu)成了一輪完整閉環(huán)。

之所以把【交互流暢】這個點作為一個單獨維度拆解出來，是因為其貫穿始終。如果這個模塊的內(nèi)容如果處理不好，將全程傷害體驗。

本篇文章為大家?guī)怼窘换チ鲿场烤S度的評測點拆解。

這個模塊，重點考量智能助手各個性能指標及交互體驗層面的表現(xiàn)。

1. 服務穩(wěn)定性

“正常運行”、“不出bug”、“魯棒性好”

評測點已經(jīng)講完了，十分清晰，幾乎每一個互聯(lián)網(wǎng)從業(yè)者都能夠說出個1234，然后呢？

穩(wěn)定不好，這類問題可大可小，小點就是網(wǎng)絡繁忙，不給你任何反饋，大到極致，機器人可以反動搞事情：“愚蠢的人類啊，阿西莫夫的機器人三定律也救不了你們。”

好了，開個玩笑。實際上，定義“what”容易，解決“how”往往都才是考量業(yè)務理解。

所以，在過往我經(jīng)常會問面試者的問題有一個：你曾經(jīng)做過的智能助手產(chǎn)品，出過哪些問題，你是如何解決的？

不同的人回答不同，對于這類命題，才更有探索價值。

一般情況下，回復這些是技術的問題，往往都很糟糕，實際上，每個公司的穩(wěn)定性業(yè)務保障是需要一個體系來承擔的。

所以能得分的面試回答是，把影響穩(wěn)定性的故障進行一個分類，并且設計好處理路徑。

這里只有大類別，單單一個業(yè)務后臺，就能做很多范圍細分。故障表現(xiàn)情況例如：崩潰、局部故障、弱網(wǎng)環(huán)境、狀態(tài)更新、請求超時、并發(fā)表現(xiàn)……嚴重程度不一致，此處不逐一展開。

出過哪些問題分類回答完畢，你是如何解決的呢？是后續(xù)的一個命題。

一般情況下，公司的業(yè)務流程是這樣運轉(zhuǎn)的。

這里有3個細節(jié)：

反饋的行為折損。根據(jù)歷史數(shù)據(jù)表現(xiàn)，1個問題被報上來，背后往往有至少10個以上的用戶遇見過，只是用戶懶/報問題麻煩，沒有報而已。
反饋的信息折損，客服問：你做了什么操作導致的崩潰？用戶答：我也不知道，就崩潰了。這種情況，是不利于排查和定位問題的。
“解決方案的設計”，這里也分為“臨時解決方案”和“全局最優(yōu)解決方案”兩說。

下圖是一個信息化的風控結(jié)構(gòu)，做過相關模塊的，懂得自然懂，篇幅太長，此處不展開。

所以，在考量服務穩(wěn)定性上有兩個大層面，一個是智能助手本身的穩(wěn)定性表現(xiàn)，二個是在服務用戶的過程中，如何規(guī)避，以及遇見問題后的業(yè)務響應速度表現(xiàn)。

服務穩(wěn)定性的考量是以一定周期、頻次進行考量才是科學合理的。

2.?響應速度/流暢度

服務穩(wěn)定性保障了之后，接下來就是速度。

語音交互這件事，本身就是因為語音輸入的高效性。

當用戶發(fā)出了需求，希望盡快拿到反饋，現(xiàn)在的用戶極其沒有耐心，速度一旦過慢，注定會被棄而不用。

而在智能語音助手交互對話的過程中，又包含哪幾個階段呢？

先明確一點，一味追求快并非是好。

人類喚醒后，計算器的響應靈敏度，靈敏度太強（誤喚醒）或太弱（沒反應）都不好，當然如果升級下維度，還可以添加場景，比如噪音下喚醒，遠場喚醒等。靈敏度是可以調(diào)試的，以表現(xiàn)合適最好。
人類表述了自己需求后，ASR有兩種方案，一種是邊識別邊轉(zhuǎn)換文本，另外一種是表述完畢后一口氣轉(zhuǎn)換為文本。
業(yè)務邏輯處理表現(xiàn)，其實是NLP領域最為核心的部分，也是最為耗時的部分，從效率角度上而言，此處盡管追求越快越好。
這里的語音播放，不是越快越好，而是合適就好，語速太快會給人一種輕浮及不穩(wěn)重的感受，太慢則顯得很笨以及可能造成不耐煩。而反饋樣式則需要盡快呈現(xiàn)，有些智能助手語音播放完畢了，結(jié)果下面的內(nèi)容還沒加載到位。
人類總計2次交互，一次喚醒，一次表達意圖，這2個行為過后，等待AI反饋。也就是說，當用戶說完話后的下一秒，助手要同時處理，識別+理解+接口查詢+反饋四個階段，這個過程中，全部都是用戶的等待狀態(tài)。

人們?nèi)ワ埖挈c完了菜，等上菜的過程中，中間服務員還會過來幫忙緩解，這個過程較長，一定要考慮好等待體驗管理，不至于讓用戶無聊。

前后端共同協(xié)作，添加一些語音播報，模態(tài)框提示，漸隱消失提示，動畫效果，來管理用戶的等待體驗。

而有些無屏的音箱則需要使用等待、加載、成功等光效表現(xiàn)來管理用戶的等待體驗過程。

所以，在響應速度/流暢度這個維度上，不同的情況不同的對待，以合適最好。

3.?交互形式豐富度

每一種交互形式的存在，都有著其依賴的場景。

下圖是我嘗試窮舉人類的輸入行為（盡力做到MECE）。

點觸、語音、手勢、點頭搖頭、人臉識別、聲紋、指紋驗證等等均算在內(nèi)。

這一塊真的不需要多講，除了腦機接口，基本上都玩過，體驗過的都會覺得其有意思的地方。

交互形式豐富度，評測點已解釋完畢，在未來，一定是多模態(tài)交互，來適應各種各樣的業(yè)務場景。

說一點，產(chǎn)品經(jīng)理應該修煉的部分。

筆者有一個出門問問的耳機，它是智能助手的操控延伸。在提供創(chuàng)新體驗的同時，弄明白了是什么（what），基于此去探究為什么（why）以及怎么辦（how）。

所以，筆者認為產(chǎn)品經(jīng)理應該修煉的部分。

盡量多的去使用智能硬件，把工作體驗變成日常，以培養(yǎng)敏感度。
弄清楚這些交互方式、元器件連接方式背后的技術實現(xiàn)原理。
每種技術方案都有多種實現(xiàn)方式，知曉其優(yōu)劣勢及實現(xiàn)成本。

這三層修煉是遞進關系。只有這些把這類東西融入到了我們的生活之中，敏感性才培養(yǎng)得起來，繼而去加深理解，如此才更有可能做創(chuàng)新。

我們今天所熟知的眾多的科學以及專利技術的發(fā)明者，其實都是根據(jù)前人的經(jīng)驗進行的某種程度上的改進。從結(jié)果上來看，主要有兩種改進方向。

一種是將一個原本在實驗室里面理論上可行，變成大規(guī)模批量生產(chǎn)的方案。

另一種則是根據(jù)已有的技術發(fā)明，發(fā)現(xiàn)一些“居然這個技術還可以被這樣使用” 的方案。

蘋果公司在技術研發(fā)上，并沒有什么特別優(yōu)秀的表現(xiàn)，但是在整合以及運用技術的這件事情上，則是優(yōu)秀中的代表。市面上的絕大多數(shù)的手機公司的研發(fā)部門，應該都叫技術方案整合商更為貼切。

只有將自己的日常浸潤到各種類型的交互體驗里，進而去理解實現(xiàn)方案背后的技術原理，才更有可能做出創(chuàng)新??！

4.?新手教學表現(xiàn)

我第一次給父母體驗‘小愛同學’的時候，他們是需要我的幫助才能使用。

什么是喚醒；什么是監(jiān)聽；什么時候你說話它會響應/不響應；覺得羅嗦，如何打斷對方。

這個教學行為大概要持續(xù)一小會，言傳身教才能夠?qū)W出如何進行語音交互。

如果沒有我，我的父母將無法上手。這種依賴人，在旁邊教的東西，實在是學習成本太高。

而當我們的產(chǎn)品被用戶首次體驗的時候，如果沒有新手教學，用戶也許就呆滯在那里，并不知道如何使用。

新手教學體驗是非常重要的一個環(huán)節(jié)。

體驗各家智能語音助手，在這一塊的表現(xiàn)上各不一致，故而列為評測點。

行業(yè)新的新手引導教學其實非常多的種類，滑屏海報，蒙版遮罩，文字tips，互動式引導。

簡單一分為二的說，大體可以分為，基本操作教學，以及對應業(yè)務的教學。

在考量這個業(yè)務表現(xiàn)得維度上，基本操作教學必須得有。而具體業(yè)務教學，則是具體問題具體設計。

百度地圖的新手引導就做得十分友好。基本上為小度導航的每個業(yè)務能力配備了沉浸式引導方案。

這一塊是參照游戲行業(yè)的解決方案。就我過往對小度的體驗，其實有很幾次改版了，不斷迭代演化至今。

最好的交互設計其實是不需要新手引導的，如同微信一樣自然。

在一個普遍使用點觸操作習慣的年代，如何讓用戶體驗這種新的交互體驗方式？壓力就在新手教學上。學的會就用，學不會就丟棄。

嘗鮮體驗過后，以后也會（改變習慣）使用語音尋求業(yè)務，壓力則在業(yè)務設計上。方便就用，不方便就丟棄。

這是一個遞進邏輯。只有基本操作掌握了才有后面的（改變習慣）使用，把用戶當成小白的新手教學行為，一定得做好！

5. 全雙工交互表現(xiàn)

全雙工（Full Duplex）是通訊傳輸?shù)囊粋€術語。通信允許數(shù)據(jù)在兩個方向上同時傳輸。

先用通俗的例子比喻下：

單工：類似聽廣播——單向傳遞信息，一個人只能聽另一個人說。

半雙工：類似對講機。

甲：洞幺洞幺，能不能聽到我說話，over。

乙：可以聽到，over。

全雙工：類似打電話。

甲：喂，還記得我的聲音么？我是……

乙：啊，是你小子啊……

雙方可以各說各的，可以互相打斷。

人機交互追求更加自然流暢，這一點必不可少。

當前的語音助手，只有在進入監(jiān)聽狀態(tài)才可以做出反饋。

而進入監(jiān)聽的兩種情況，一種是使用[喚醒詞]，完成喚醒/打斷的動作。

另一種是AI判斷業(yè)務沒完，做出引導式的追問，然后進入監(jiān)聽狀態(tài)。
例如：

用戶：我想看最近上映的電影。

助手：為你找到如下電影，你可以對我說看第幾部。播放完畢后進入監(jiān)聽狀態(tài)。

其實助手第一時間在屏幕上展示了電影列表的搜索結(jié)果，但是總得把語音念完……。

作為用戶而言，我已經(jīng)看到了助手給我的展示結(jié)果，也知道你的后續(xù)話術套路，我會迫不及待的使用[喚醒詞]，完成打斷行為……使用過的都會感受到這種情況的心累。

而在全雙工的能力加持下，即為，你播報你的，我說我的，不用等你念完，才進入監(jiān)聽狀態(tài)，你念一半的時候，我搶話到下一步驟，你根據(jù)我的節(jié)奏推進業(yè)務就好。

還有一種技術方案相信從業(yè)者們也不陌生，就是基于當前語義場景下的“判斷為無效內(nèi)容后的拒絕響應”。

例子：我想聽……嗯，我想想，哦對了，那個周杰倫的青花瓷

識別出用戶當前說的話是不是給它的指令，能過濾掉無效的停頓，語氣助詞等干擾信息，再做出反應。

這就是全雙工所指的“瞬間雙向”表現(xiàn)，更接近人與人之間的自然對話，提升了交互體驗。

6. 階段性結(jié)尾

同樣的，在【交互流暢】這個單元模塊，有更多評測點去列舉，但是受限于篇幅以及能力所限，刪掉的一些內(nèi)容。保留以及刪除評測點的原則，也是基于評測指標的普適性。

同樣用提問的方式，列舉一下我刪除掉的考核點。

第（6）點，列舉一個我玩游戲多多自走棋，體驗游戲助手的例子。敏感詞，會在很多的地方出現(xiàn)。防止內(nèi)容攻擊，保護安全的，特別是大公司，往往會用上一個敏感詞庫過濾處理，相信很多的人都遇見過，有些給你反饋，有些則直接給你和諧掉了。顯然是影響交互體驗流暢度的。造成這種情況的顯然是政策問題。

第（7）點，未來的交互體驗過程中，多硬件終端，多場景，有屏無屏的交互體驗方案，這是一個“現(xiàn)階段各家都沒做，而在未來各家一定會做”的評測點。

如果列舉其例子，問題以及探討解決方案起來，篇幅就過長了，就目前AI跨平臺使用表現(xiàn)而言，故現(xiàn)階段舍棄。

第（8）點，完成任務時候的成本考量。這個里面涉及一些語音識別、語義理解的層面。比如，任務流的多輪對話是分層次的，而當用戶一口氣給助手提供多個查詢槽位，能否給予結(jié)果。比如，在一些支付和驗證的層面，視覺和聲紋讓用戶付出的代價幾何等等。助手取硬件權(quán)限（讀取GPS，讀取短信等）時的表現(xiàn)。

在滿足用戶需求的時候一定有方案，而不同方案之間的取舍考量就存在比較關系了。

筆者在設計業(yè)務的時候，同時也會考量用戶的隱私保護安全。