如何評測一個(gè)智能對話系統(tǒng)(二)
本章我們介紹了目前業(yè)界比較流行的智能對話評測方法,包括人工評測和自動評測。闡述了不同評測方法的優(yōu)勢與不足,并解釋了人工評測在智能對話評測任務(wù)中的重要性和必要性。enjoy~
主流的評測方法與分布式的評測方法
在上一章中我們介紹了智能對話系統(tǒng)的分類,闡述了不同類別智能對話系統(tǒng)的目標(biāo)。我們把“如何評價(jià)一個(gè)智能對話系統(tǒng)”這個(gè)問題轉(zhuǎn)化為“如何定義一個(gè)好的智能對話系統(tǒng)” 。我們從對話情境,對話場景和對話意圖三個(gè)角度對一個(gè)智能對話系統(tǒng)進(jìn)行了定義,從而了解了智能對話系統(tǒng)的考量標(biāo)準(zhǔn)與評判尺度。
同時(shí),我們還提到,智能對話系統(tǒng)的評測任務(wù)是一個(gè)開放性的熱門問題。相關(guān)領(lǐng)域的從業(yè)人員們在過去的一段時(shí)間里,已經(jīng)提出過很多對話評測的方法。接下來,我們就來看一下當(dāng)前主流的對話評測方法有哪些。
總的來說,智能對話系統(tǒng)的評測方法分為兩個(gè)大類:人工標(biāo)注評價(jià)和自動算法打分。
1. 人工評測
人工評測的方法是指通過雇傭測試人員對對話系統(tǒng)生成的結(jié)果進(jìn)行人工標(biāo)注。讓人通過自己的常識和經(jīng)驗(yàn)來判斷人工智能的對話表現(xiàn)。測試人員會在預(yù)設(shè)的任務(wù)領(lǐng)域或場景內(nèi),與系統(tǒng)進(jìn)行對話交互,在交互過程中,對系統(tǒng)的表現(xiàn)進(jìn)行評分。
人工評測是智能對話系統(tǒng)評測的主要方式。這種方式讓人類親自來測試機(jī)器人的說話能力,以判斷機(jī)器人是否具備和人類一樣表現(xiàn)。人覺得好就是好,人覺得不好就是不好。
目前,市面上有很多被用于服務(wù)人工智能相關(guān)任務(wù)的眾包平臺。這些平臺可以通過互聯(lián)網(wǎng)快速的整合大量的人力資源,并對智能對話系統(tǒng)進(jìn)行人工評測標(biāo)注,比如,亞馬遜的AMT(the Amazon Mechanical Turk)就是這樣的一個(gè)平臺。
不過,人工標(biāo)注的評測方式有兩個(gè)致命的缺陷。
第一個(gè)缺陷,就是人工評測的成本非常高,一個(gè)字總結(jié)就是“貴”。對話系統(tǒng)的評測任務(wù)往往需要由評測者投入大量的時(shí)間和精力。為了評測結(jié)果的普適性,我們需要組織一定規(guī)模的評測者參與到評測的任務(wù)當(dāng)中。這也就意味著,人工評測將會消耗大量的人力成本。
第二個(gè)缺陷,就是人工評測難免會存在一些不可控制的誤差。
- 一方面,只要是依賴人工處理的事情,就一定會有失誤的概率發(fā)生,沒有哪個(gè)人能保證自己一定不會犯錯(cuò)。一般來說,人工標(biāo)注任務(wù)的默認(rèn)準(zhǔn)確率在百分之八十左右。這也就是說,人們平均有百分之二十的概率會犯錯(cuò)。
- 另一方面,凡是有人參與評判的任務(wù),就必然存在主觀的因素。針對同一個(gè)問題的時(shí)候,每個(gè)人都可能會有自己獨(dú)特的看法和見解,而語言的表達(dá)本身就是一個(gè)非常主觀的東西。每個(gè)人在判斷一組對話內(nèi)容好壞的時(shí)候很難避免主觀因素的干擾。
2. 自動評測
自動評測一般指通過預(yù)先設(shè)定的計(jì)算機(jī)算法或規(guī)則,對一個(gè)智能對話系統(tǒng)進(jìn)行自動化的評測。自動評測的結(jié)果常常會以分?jǐn)?shù)或閾值的形式來表現(xiàn)。
目前,業(yè)界廣泛認(rèn)可的自動對話評測方法主要有兩種。一種方法是根據(jù)對話系統(tǒng)生成的回復(fù)與標(biāo)準(zhǔn)答案之間的詞重疊率來進(jìn)行評價(jià)。其中BLEU和METEOR在機(jī)器翻譯的任務(wù)中被廣泛使用,ROUGE則在文本自動摘要的任務(wù)中取得了不錯(cuò)的評價(jià)效果。另一種思路是通過了解每一個(gè)詞的意思來判斷回復(fù)的相關(guān)性。詞向量(Word2Vec)是實(shí)現(xiàn)這種評價(jià)方法的基礎(chǔ)。
上面介紹的這些評測方法雖然有效,但是僅限于一些特定的實(shí)驗(yàn)場景。
近年來,隨著人工智能算法的不斷突破,有不少新的評測方法被陸續(xù)提出。包括受生成對抗網(wǎng)絡(luò)(GAN)結(jié)構(gòu)啟發(fā)的類GAN模型,以及依靠回歸神經(jīng)網(wǎng)絡(luò)(RNN)而訓(xùn)練的自動評價(jià)模型ADEM。前者用于直觀的評判生成器(Generator)產(chǎn)生的回復(fù)結(jié)果與人類回復(fù)的相似程度;后者用于預(yù)測系統(tǒng)回復(fù)的人工評價(jià)結(jié)果,從而以更少的人工標(biāo)注數(shù)據(jù)達(dá)到更準(zhǔn)確的評測效果。
自動化的評測方法能夠節(jié)省人力成本,快速高效的完成對話系統(tǒng)的評測工作。然而,這些方法更多的是被當(dāng)作一個(gè)參考指標(biāo)運(yùn)用于特定的實(shí)驗(yàn)場景。在實(shí)際的應(yīng)用場景當(dāng)中,并不能代替人工標(biāo)注實(shí)現(xiàn)客觀且全面的對話評測。我們?nèi)粘I钪泻芏嗳伺c人的溝通和交互恰恰是無法用預(yù)設(shè)規(guī)則所約束的。多有一種“只可意會,不可言傳”的感覺。
自動評測的方法雖然方便省事,但是它還是沒有解決實(shí)際的問題。真實(shí)的世界不會是實(shí)驗(yàn)室中預(yù)設(shè)的狀態(tài),每一種自動化的評測方法都會被大量的反例所挑戰(zhàn)。語言是人類特有的能力,因此,對話能力評判這樣的工作,還是有必要由人親自來完成,這當(dāng)中需要一些人類特有的直覺。
3. 分布式的評測方法
與其煞費(fèi)苦心的去研究一個(gè)理想中的自動評測算法,倒不如集中精力優(yōu)化人工評測的任務(wù)。于是,降低人工評測中的主觀判斷因素和人力資源成本就成了我們努力的方向。
明確了對話系統(tǒng)的考量標(biāo)準(zhǔn)和評判尺度之后,接下來我們就嘗試把任務(wù)進(jìn)行細(xì)分,從不同的維度入手,來判斷一個(gè)智能對話系統(tǒng)的表現(xiàn)。我們把這種評測方法稱為“分布式的評測方法”。
分布式的評測方法旨在把評測任務(wù)切分成盡可能小的單元進(jìn)行處理。
第一步,我們把一個(gè)對話系統(tǒng)的表現(xiàn)切分成最小的單位,即單獨(dú)的一輪對話(一組問答對)。只要我們把許多輪對話的綜合表現(xiàn)統(tǒng)計(jì)起來,就可以比較客觀的反映一個(gè)對話系統(tǒng)的整體表現(xiàn)。
第二步,我們把每一輪對話的評測任務(wù)再進(jìn)行拆分,從不同的維度對一個(gè)對話系統(tǒng)進(jìn)行評測,判斷系統(tǒng)生成的每一組問答內(nèi)容在對話情境,對話場景和對話意圖這三個(gè)指標(biāo)下的表現(xiàn)。經(jīng)過多次的嘗試與探索,我們?yōu)閷υ捪到y(tǒng)定義了六個(gè)評測維度。
智能對話系統(tǒng)的六個(gè)評測維度包括:語法質(zhì)量;內(nèi)容質(zhì)量;內(nèi)容關(guān)聯(lián)度;邏輯關(guān)聯(lián)度;情感強(qiáng)度;發(fā)散性。
語法質(zhì)量:這部分我們關(guān)注的主要是對話系統(tǒng)生成答案的基本語法使用情況。智能對話系統(tǒng)生成的回復(fù)內(nèi)容應(yīng)該是符合語言通用語法的,用詞正確且規(guī)范,句子通順且完整。這個(gè)維度的判斷比較客觀,每一種語言都有各自的語法規(guī)則。
內(nèi)容質(zhì)量:?內(nèi)容的質(zhì)量可以從三個(gè)角度進(jìn)行判斷。首先,智能對話系統(tǒng)回復(fù)的內(nèi)容長度應(yīng)該恰到好處,不易過長也不易過短。第二,對話內(nèi)容應(yīng)該“言之有物”包含實(shí)體信息,同時(shí)不存在語言歧義。第三,對話內(nèi)容需要避免血腥暴力,淫穢消極等不好的內(nèi)容,同時(shí)要避免政治敏感的內(nèi)容,表達(dá)正確的立場和觀點(diǎn)。
內(nèi)容關(guān)聯(lián)度:內(nèi)容關(guān)聯(lián)度指的是系統(tǒng)匹配答案與問題的相關(guān)度。這里需要判斷系統(tǒng)回復(fù)的內(nèi)容與用戶的問題是不是在討論同一個(gè)話題,上文內(nèi)容與下文內(nèi)容是不是在討論同一件事情。一般情況下,包含相同實(shí)體內(nèi)容的問答對都可以被視為內(nèi)容關(guān)聯(lián)。?
邏輯關(guān)聯(lián)度:這里指的是系統(tǒng)生成對話內(nèi)容與上文邏輯的關(guān)聯(lián)性。這個(gè)邏輯包括時(shí)間邏輯,比較邏輯,客觀規(guī)律等。比如,上文的內(nèi)容是關(guān)于一個(gè)物體大小的,那回復(fù)也應(yīng)當(dāng)是與物體大小相關(guān)的內(nèi)容。如果回復(fù)內(nèi)容可以自然的與上文內(nèi)容銜接,我們也可以說這組問答對包含邏輯關(guān)聯(lián)。
情感強(qiáng)度:智能對話系統(tǒng)的回復(fù)內(nèi)容是不是有情感表達(dá)。情感強(qiáng)弱的定義因人而異,很難定義衡量標(biāo)準(zhǔn)。但是在回答內(nèi)容合理,邏輯準(zhǔn)確的基礎(chǔ)上,可以通過回答內(nèi)容是否含有語氣助詞,是否包含擬聲詞等因素進(jìn)行判斷。對話的情感還體現(xiàn)在回復(fù)是不是在敷衍,有沒有表現(xiàn)出強(qiáng)烈的主觀態(tài)度和意愿,以及是不是幽默搞笑或悲傷難過。
發(fā)散性:發(fā)散性指的是人機(jī)對話過程中,機(jī)器回復(fù)內(nèi)容話題的發(fā)散性。即評價(jià)當(dāng)前的回復(fù)內(nèi)容能否引發(fā)出更多輪數(shù)的對話?;蛘哒f,當(dāng)用戶看到系統(tǒng)回復(fù)內(nèi)容之后,是不是有意愿繼續(xù)將對話進(jìn)行下去。一般情況下,如果機(jī)器生成的回復(fù)是一個(gè)開放性的問題,那么對話就很容易自然的進(jìn)行下去。這里涉及到內(nèi)容推薦,主動提問等人機(jī)交互技巧。
總結(jié)
本章我們介紹了目前業(yè)界比較流行的智能對話評測方法,包括人工評測和自動評測。闡述了不同評測方法的優(yōu)勢與不足,并解釋了人工評測在智能對話評測任務(wù)中的重要性和必要性。我們認(rèn)為在智能對話系統(tǒng)評測這個(gè)問題上,提出更加有效的人工測試方法比探索理想中的自動評測方法更為現(xiàn)實(shí)。
我們介紹了分布式的評測方法。把一個(gè)問題分解成六個(gè)不同的維度,并給每一個(gè)維度做了明確的定義。把對話系統(tǒng)拆解成一個(gè)一個(gè)的問答對,并將評測任務(wù)聚焦到每一個(gè)系統(tǒng)回復(fù)上。我們從六個(gè)維度對一個(gè)對話系統(tǒng)所生成的每一條回復(fù)進(jìn)行評測,再將所有的評測結(jié)果整合起來統(tǒng)計(jì)出最終的結(jié)果。
我將在下一篇文章中講解分布式評測方法的具體實(shí)現(xiàn)步驟。與大家分享如何為對話評測任務(wù)設(shè)計(jì)標(biāo)注問題,并分析每一個(gè)標(biāo)注問題背后的技術(shù)原理。
相關(guān)閱讀
本文由 @單師傅?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash ,基于 CC0 協(xié)議
有個(gè)提問,單輪可以這么做,但是結(jié)合上下文語境的如何做評測呢?
您好,關(guān)于多輪的方法之后會更新,最近工作比較忙一直沒有更新 ?
另外您的文章我也有看,非常細(xì)致,貼近場景,深入淺出,值得認(rèn)真研讀,膜拜一下 ??