久久午夜无码鲁丝片午夜精品,日本成人在线二区

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

如何評測語音助手的智能程度（5）：指標權(quán)重設(shè)計

飯大官人

2020-03-27

4 評論 8390 瀏覽 47 收藏

11 分鐘

這是一份前面四篇評測維度介紹文章的總結(jié)，同時也是一份清單使用說明書。

知己知彼，百戰(zhàn)不殆，調(diào)研評測其他公司的產(chǎn)品是從業(yè)者的日常操作，那么當一個產(chǎn)品放到我們手里的時候，到底看什么呢？看哪些方面呢？專業(yè)性不到位的同學(xué)怕是無法下手。

而往往具備專業(yè)視角的人則游刃有余，他們知道考慮哪些點，結(jié)構(gòu)清晰，主次分明，用解構(gòu)的方式去理解一款產(chǎn)品，這才是AI從業(yè)者專業(yè)化思考的表現(xiàn)。

如何評測語音助手的智能程度（5）：指標權(quán)重設(shè)計

如何定義權(quán)重

哪位同學(xué)問了，這四大維度，什么是重點呢？答案是：基于需求自定義。

定義權(quán)重高低，兩個維度考量，一個是行業(yè)需求，一個是硬件載體。

行業(yè)需求（出行、教育、醫(yī)療、金融、電商、旅游、餐飲、客服等）
硬件載體（音箱、耳機、手表、車機、機器人等）

AI智能助手，往往都會解決某個行業(yè)領(lǐng)域的特定業(yè)務(wù)需求。AI智能助手，往往都存在于一個或多個硬件載體上，與人類進行交互行為。跟買房子、招聘員工所考慮的標準非常多一樣，你在意什么，就給對應(yīng)維度，對應(yīng)指標以高權(quán)重。

比如：某產(chǎn)品的定位是用來聽歌的，【意圖理解】各個模塊做得非常好，但是由于版權(quán)原因，無法播放，這個對用戶而言就非常糟糕，因為滿足不了聽歌的需求。

再比如：某助手的定位是線下生活服務(wù)，比如訂外賣或者是電影票，這類往往不具備版權(quán)壟斷特質(zhì)，但由于業(yè)務(wù)流程的復(fù)雜，有太多疊加查詢條件，自然對【意圖理解】有很高的權(quán)重要求。

再比如：某個玩具/手辦具備語音交互功能，用戶非常在意玩具/手辦的語音交互是否匹配角色氣質(zhì)，故而對這類用戶而言，【人格特質(zhì)】就是高權(quán)重。

大維度自定義權(quán)重，同理，每個維度上的指標也基于需求自定義。

如何評測語音助手的智能程度（5）：指標權(quán)重設(shè)計

指標的選擇和量化

做清單真的是一件非常麻煩和費腦力的事情，這份清單花了筆者太多的時間，有太多的問題值得討論。

為什么是4個維度，而不是5個或者是3個？
各維度是否窮盡了“智能化”評測的角度？
每個維度的指標是不是做到了窮舉？
每個維度的指標是不是平行、獨立關(guān)系？
每個指標的用詞的和定義是否精準無歧義且易于理解？
基于什么依據(jù)設(shè)置每個維度的重點和加分項？

特別是在保留哪些指標，合并哪些指標之間，筆者做了很多權(quán)衡。

哪位同學(xué)說了，你遺漏了一個指標：語音識別表現(xiàn)，這個指標，與其說是遺漏，不如說是筆者的選擇。

筆者所知道的，目前最好的ASR識別率是97%，且這已經(jīng)是非常成熟的技術(shù)。ASR和TTS在未來屬于AI領(lǐng)域水電煤一樣的基礎(chǔ)服務(wù)，就跟選騰訊云還是阿里云一樣，花錢選技術(shù)買服務(wù)就能搞定，差距不會太大，故而不值得納入評測范疇。

故而這類語音識別的基礎(chǔ)表現(xiàn)，就直接歸到【交互流暢】維度“服務(wù)穩(wěn)定性”指標上了。

ASR這項技術(shù)未來差距一定會被抹平，而如果做到了方言（音軌）轉(zhuǎn)普通話（音軌）然后轉(zhuǎn)文本那就是另外一個話題了，方言轉(zhuǎn)普通話和任何一種語言轉(zhuǎn)普通話才是同一邏輯。那筆者可能會歸納到【意圖理解】維度上。

這就是筆者選擇指標，以及歸類的邏輯。上面的這些問題考慮，筆者已經(jīng)盡自己所能去做到MECE了。

筆者力求全面，但并非每一個都需要用到，各位同學(xué)也可以基于自己的需求，自由添加、刪除和修改分類。

例如：如果是一個智能耳機或者語義翻譯棒，那么“反饋樣式豐富性”上，就不必要納入評測范圍了。

但選擇本身就是一個難題，這件事情非常考驗認知，我舉個例子：蘋果手機前面幾代產(chǎn)品，玻璃屏幕特別不耐摔，這在諾基亞的評測維度里面，是無法出廠的。后來的故事，我們都知道了，這個故事各位細品。

指標的量化標準，這對大家也不是一個難題。拿測試集去驗證，最終統(tǒng)計各個指標的表現(xiàn)，然后再橫向比較競品就好。

商業(yè)比得是相對位置，而不是絕對指標，即，我不需要考滿分，我只要在這個科目上，領(lǐng)先與其他競品一段距離就好，然后就可以宣稱，這是當前市面上“某某指標”表現(xiàn)最好的產(chǎn)品。

產(chǎn)品的上限和下限

除去調(diào)研和評測其他AI助手，這份清單的還可以用于立項做產(chǎn)品定位，以及當checklist評價產(chǎn)品表現(xiàn)。

產(chǎn)品在立項的時候，要哪些不要哪些，邊界范圍有多大，就是一個思考題。一開始，各音箱都是沒屏幕的，大家都在抄亞馬遜的Echo，后面為什么又出現(xiàn)了有屏幕的音箱呢？這個就是產(chǎn)品的定位和選擇。

從商業(yè)邏輯上來看，有明顯缺陷的產(chǎn)品無法存活于市場，沒有長板的產(chǎn)品也注定平庸。而企業(yè)也沒法把所有的資源平均分配，那樣的東西注定平庸，唯有極致才可以生存。

上限就是自己的產(chǎn)品賣點，這樣才能夠從競爭之中脫穎而出。

典型如一些千元智能手機，大多數(shù)資源都分配到CPU和大屏幕上，其他的硬件一律堪堪及格線就好，這2個賣點到位，就能夠出現(xiàn)在各種評測上做到前列，繼而去影響消費者選擇。

而再爛的智能手機也要搭配一顆攝像頭，且攝像頭的性能表現(xiàn)不能低于某個標準，如果這個太爛的話，注定無法存活。前面蘋果手機的例子，其實也抗震，不是一摔就碎的東西，這種就是下限保障。

下限要做到什么程度，這個就是及格線，存活于市場的前提。

在保證了及格線達到平均線標準之后，理所應(yīng)當把更多的資源堆到某個維度上。大家比的是在資源有限的前提下，基于定位做產(chǎn)品交付。

每個維度都做好，不現(xiàn)實，也不正確。

戰(zhàn)略的第一步就是放棄，敢放棄什么，拼的是認知。

總結(jié)

綜上所述：

基于產(chǎn)品定位選擇重要的維度和指標，做權(quán)重優(yōu)先級排序。
基于選擇的指標，使其數(shù)值可衡量，做量化標準。
基于公司資源保障產(chǎn)品下限，基于人才稟賦提升上限。

說明書介紹完畢，可用于立項定位產(chǎn)品，也可以就已有產(chǎn)品做評測，量化優(yōu)缺點，做迭代改進升級。掌握使用說明書，這份清單的價值也就到位了。

在遇到問題時，高手和普通人的思維決策過程不一樣。

普通人是逢山開路遇水搭橋，也就是我們常說的見招拆招。高手卻總是為自己制定各種決策系統(tǒng)，在遇到問題時直接依據(jù)清單做決策。

人的理性是有限的，見招拆招，總會遇到環(huán)境影響，情緒波動的時候，結(jié)果往往不可控。而以原則清單行事則更加可控，減少糾結(jié)猶豫，提升效率，所以高手有時候就像是一臺穩(wěn)定而又客觀的程序，冷靜而又客觀，更容易做出正確理性的決策。

筆者在設(shè)計評測指標的時候，往往是朝著最理想的人工智能去做比對的，它能幫助我們在各個維度上去逼近超級人工智能，打造令人尖叫的產(chǎn)品。

謝謝各位看到這里，希望這份業(yè)務(wù)清單能夠幫助到大家。

如何評測語音助手的智能程度（5）：指標權(quán)重設(shè)計

如何定義權(quán)重

指標的選擇和量化

產(chǎn)品的上限和下限

總結(jié)

相關(guān)閱讀