如何評測語音助手的智能程度(5):指標權(quán)重設(shè)計
這是一份前面四篇評測維度介紹文章的總結(jié),同時也是一份清單使用說明書。
知己知彼,百戰(zhàn)不殆,調(diào)研評測其他公司的產(chǎn)品是從業(yè)者的日常操作,那么當一個產(chǎn)品放到我們手里的時候,到底看什么呢?看哪些方面呢?專業(yè)性不到位的同學(xué)怕是無法下手。
而往往具備專業(yè)視角的人則游刃有余,他們知道考慮哪些點,結(jié)構(gòu)清晰,主次分明,用解構(gòu)的方式去理解一款產(chǎn)品,這才是AI從業(yè)者專業(yè)化思考的表現(xiàn)。
如何定義權(quán)重
哪位同學(xué)問了,這四大維度,什么是重點呢?答案是:基于需求自定義。
定義權(quán)重高低,兩個維度考量,一個是行業(yè)需求,一個是硬件載體。
- 行業(yè)需求(出行、教育、醫(yī)療、金融、電商、旅游、餐飲、客服等)
- 硬件載體(音箱、耳機、手表、車機、機器人等)
AI智能助手,往往都會解決某個行業(yè)領(lǐng)域的特定業(yè)務(wù)需求。AI智能助手,往往都存在于一個或多個硬件載體上,與人類進行交互行為。跟買房子、招聘員工所考慮的標準非常多一樣,你在意什么,就給對應(yīng)維度,對應(yīng)指標以高權(quán)重。
比如:某產(chǎn)品的定位是用來聽歌的,【意圖理解】各個模塊做得非常好,但是由于版權(quán)原因,無法播放,這個對用戶而言就非常糟糕,因為滿足不了聽歌的需求。
再比如:某助手的定位是線下生活服務(wù),比如訂外賣或者是電影票,這類往往不具備版權(quán)壟斷特質(zhì),但由于業(yè)務(wù)流程的復(fù)雜,有太多疊加查詢條件,自然對【意圖理解】有很高的權(quán)重要求。
再比如:某個玩具/手辦具備語音交互功能,用戶非常在意玩具/手辦的語音交互是否匹配角色氣質(zhì),故而對這類用戶而言,【人格特質(zhì)】就是高權(quán)重。
大維度自定義權(quán)重,同理,每個維度上的指標也基于需求自定義。
指標的選擇和量化
做清單真的是一件非常麻煩和費腦力的事情,這份清單花了筆者太多的時間,有太多的問題值得討論。
- 為什么是4個維度,而不是5個或者是3個?
- 各維度是否窮盡了“智能化”評測的角度?
- 每個維度的指標是不是做到了窮舉?
- 每個維度的指標是不是平行、獨立關(guān)系?
- 每個指標的用詞的和定義是否精準無歧義且易于理解?
- 基于什么依據(jù)設(shè)置每個維度的重點和加分項?
特別是在保留哪些指標,合并哪些指標之間,筆者做了很多權(quán)衡。
哪位同學(xué)說了,你遺漏了一個指標:語音識別表現(xiàn),這個指標,與其說是遺漏,不如說是筆者的選擇。
筆者所知道的,目前最好的ASR識別率是97%,且這已經(jīng)是非常成熟的技術(shù)。ASR和TTS在未來屬于AI領(lǐng)域水電煤一樣的基礎(chǔ)服務(wù),就跟選騰訊云還是阿里云一樣,花錢選技術(shù)買服務(wù)就能搞定,差距不會太大,故而不值得納入評測范疇。
故而這類語音識別的基礎(chǔ)表現(xiàn),就直接歸到【交互流暢】維度“服務(wù)穩(wěn)定性”指標上了。
ASR這項技術(shù)未來差距一定會被抹平,而如果做到了方言(音軌)轉(zhuǎn)普通話(音軌)然后轉(zhuǎn)文本那就是另外一個話題了,方言轉(zhuǎn)普通話和任何一種語言轉(zhuǎn)普通話才是同一邏輯。那筆者可能會歸納到【意圖理解】維度上。
這就是筆者選擇指標,以及歸類的邏輯。上面的這些問題考慮,筆者已經(jīng)盡自己所能去做到MECE了。
筆者力求全面,但并非每一個都需要用到,各位同學(xué)也可以基于自己的需求,自由添加、刪除和修改分類。
例如:如果是一個智能耳機或者語義翻譯棒,那么“反饋樣式豐富性”上,就不必要納入評測范圍了。
但選擇本身就是一個難題,這件事情非常考驗認知,我舉個例子:蘋果手機前面幾代產(chǎn)品,玻璃屏幕特別不耐摔,這在諾基亞的評測維度里面,是無法出廠的。后來的故事,我們都知道了,這個故事各位細品。
指標的量化標準,這對大家也不是一個難題。拿測試集去驗證,最終統(tǒng)計各個指標的表現(xiàn),然后再橫向比較競品就好。
商業(yè)比得是相對位置,而不是絕對指標,即,我不需要考滿分,我只要在這個科目上,領(lǐng)先與其他競品一段距離就好,然后就可以宣稱,這是當前市面上“某某指標”表現(xiàn)最好的產(chǎn)品。
產(chǎn)品的上限和下限
除去調(diào)研和評測其他AI助手,這份清單的還可以用于立項做產(chǎn)品定位,以及當checklist評價產(chǎn)品表現(xiàn)。
產(chǎn)品在立項的時候,要哪些不要哪些,邊界范圍有多大,就是一個思考題。一開始,各音箱都是沒屏幕的,大家都在抄亞馬遜的Echo,后面為什么又出現(xiàn)了有屏幕的音箱呢?這個就是產(chǎn)品的定位和選擇。
從商業(yè)邏輯上來看,有明顯缺陷的產(chǎn)品無法存活于市場,沒有長板的產(chǎn)品也注定平庸。而企業(yè)也沒法把所有的資源平均分配,那樣的東西注定平庸,唯有極致才可以生存。
上限就是自己的產(chǎn)品賣點,這樣才能夠從競爭之中脫穎而出。
典型如一些千元智能手機,大多數(shù)資源都分配到CPU和大屏幕上,其他的硬件一律堪堪及格線就好,這2個賣點到位,就能夠出現(xiàn)在各種評測上做到前列,繼而去影響消費者選擇。
而再爛的智能手機也要搭配一顆攝像頭,且攝像頭的性能表現(xiàn)不能低于某個標準,如果這個太爛的話,注定無法存活。前面蘋果手機的例子,其實也抗震,不是一摔就碎的東西,這種就是下限保障。
下限要做到什么程度,這個就是及格線,存活于市場的前提。
在保證了及格線達到平均線標準之后,理所應(yīng)當把更多的資源堆到某個維度上。大家比的是在資源有限的前提下,基于定位做產(chǎn)品交付。
每個維度都做好,不現(xiàn)實,也不正確。
戰(zhàn)略的第一步就是放棄,敢放棄什么,拼的是認知。
總結(jié)
綜上所述:
- 基于產(chǎn)品定位選擇重要的維度和指標,做權(quán)重優(yōu)先級排序。
- 基于選擇的指標,使其數(shù)值可衡量,做量化標準。
- 基于公司資源保障產(chǎn)品下限,基于人才稟賦提升上限。
說明書介紹完畢,可用于立項定位產(chǎn)品,也可以就已有產(chǎn)品做評測,量化優(yōu)缺點,做迭代改進升級。掌握使用說明書,這份清單的價值也就到位了。
在遇到問題時,高手和普通人的思維決策過程不一樣。
普通人是逢山開路遇水搭橋,也就是我們常說的見招拆招。高手卻總是為自己制定各種決策系統(tǒng),在遇到問題時直接依據(jù)清單做決策。
人的理性是有限的,見招拆招,總會遇到環(huán)境影響,情緒波動的時候,結(jié)果往往不可控。而以原則清單行事則更加可控,減少糾結(jié)猶豫,提升效率,所以高手有時候就像是一臺穩(wěn)定而又客觀的程序,冷靜而又客觀,更容易做出正確理性的決策。
筆者在設(shè)計評測指標的時候,往往是朝著最理想的人工智能去做比對的,它能幫助我們在各個維度上去逼近超級人工智能,打造令人尖叫的產(chǎn)品。
謝謝各位看到這里,希望這份業(yè)務(wù)清單能夠幫助到大家。
相關(guān)閱讀
作者:飯大官人,微信公眾號:fanfan19860403《游戲運營:高手進階之路》作者。
本文由 @飯大官人 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
寶藏樓主寫的太好了,幫助到很多,感謝??
大佬能簡單說說如何從零到一做一款語音聊天AI嗎,主要就是不清楚哪些是自己做的,哪些是通過購買就能解決(語音識別自然語言處理這種)
樓主認知非常深刻,佩服~
戰(zhàn)略的第一步就是放棄,敢放棄什么,拼的是認知。點贊!