如何評測一個智能對話系統(一)
本文從對話系統的分類介紹與評測目標進行分析,解釋了如何評測一個智能對話系統。
自然語言對話作為新一代的人機交互媒介,已經創建了廣泛的應用程序。長期以來,研究人員一直在探索機器產生自然回復的不同方法,包括基于檢索的回復,端到端的生成回復,以及問答和推薦系統。 從智能家居設備到智能電話助手,從客戶服務到情感陪伴,我們周圍已經出現了各式各樣的聊天機器人。 然而,智能對話系統的表現往往因不同的應用場景和目標而異,因此行業內一直都沒有一個統一的對話質量評測標準。
近年來,“如何評測一個智能對話系統”這個開放的問題引起了相關領域研究人員的極大關注。在過去的幾年時間里,我一直致力于探索智能對話系統的評測方法。由我設計的對話評測方法已經在多款智能對話產品上得到驗證,有效推動了產品的持續優化和迭代。與此同時,該評測方法被nlpcc2019選為開放域對話系統競賽的評測標準,受到了領域專家的認可。
那么,對于這樣一個看似無解的問題,我是如何著手進行設計的呢?
首先,對話評測是一個非常大的概念,它涉及到很多不同領域的知識,而且非常的主觀,無法用一個統一的標準評判。說白了,這個問題就是在評價一個人說話的水平,只不過被評價的對象是一個機器人。但是,這個事情也不是完全無章可循。我們可以通過聚焦和拆解的方法把這個大問題分成多個可量化的小問題。
想要有效的評測一個對話系統,我們首先要知道被評測對話系統的目標是什么。換句話說,就是我們期待對話系統給我們帶來什么樣的價值。只要明確了目標,我們就可以圍繞目標建立標準,再通過標準引伸出評測的方法。
智能對話系統的分類
談到對話系統的目標,就不得不提及對話系統的分類。一般來說,人機交互的對話場景一共分為三大類別,分別是任務類對話,問答類對話,和閑聊類對話。這是目前業界比較公認的方法,其依據是這三類對話系統背后所運用到的核心技術與實現方法截然不同。
不過,在真實的應用場景中,幾乎每款對話類產品都同時具備了上述提到的至少兩類對話系統的特征。目前市面上的對話系統往往同時具備解決任務的能力,回答問題的能力和閑聊的能力。因此我們不能單純的以這樣的分類方式為對話系統分別設計評測方法,而是應該跳出技術的實現框架,從應用的角度尋找所有智能對話系統共同存在的特征,并以這些特征作為考量條件去設計評測方法。我將這些特征總結為對話系統的對話情境,對話場景以及對話目的。
智能對話評測的考量條件
對話情境-上下文內容
在對話系統中,回答內容的好壞與其上文的內容有著直接的關聯,在評價回答內容的時候,最主要的一個限制條件就是上文問題的內容。在評判一個對話系統生成答案好與壞的時候,測試者需要結合上文的內容才能對答案作出比較公正和正確的判斷。這當中不僅需要判斷當前對話內容的質量,還涉及到對話所表達內容邏輯的一致性與情感的合理性。上下文內容對于多輪對話的生成起著至關重要的影響。一組對話內容被放在不同的對話情境下會表現出皆然不同的效果。因此,在對一組對話內容進行評測時,有必要充分理解其所在的對話情境。
對話場景 – 機器人扮演的角色
在不同的應用場景下,對話系統需要扮演不同的角色以實現用戶特定的需求和意愿。目前比較主流的應用場景包括家庭場景,早教場景,客服場景和車載場景。一個特定的場景下的對話內容,總是包含特定的術語或套路,以及相關領域的知識庫或知識圖譜。這一類的對話往往可以返回一些約定俗成的回答或解決方案。在對對話系統進行判定之前,測試人需要通過想象力將自己置身于該場景中。理解對話系統所嘗試扮演的角色,能夠幫助我們更加客觀的對其進行評測。
對話目的 – 話題與意圖
在現實生活中,人與人的自然語言對話可分為兩大類,即有目的的對話和無目的的對話。有目的的對話可以根據提問者或主動發起對話者來引導當前對話的目的。在對話結束時,我們可以通過判斷對話目的是否達成而判斷對話的質量。事實上,在實際對話過程中,對話的目的并不總是能夠被清晰的定義。在對話評測時,我們不能只關心有明確目的的對話,而忽略無目的的對話。在無目的的對話內容中依然會有信息的傳遞,和情感的交互。因此,無論對話內容是否有明確的話題和意圖,我們都應該關注其傳達的信息和情感。
對話系統的評測目標
上文所描述的這些對話系統通用的考量條件,就是我們評判一個智能對話系統的先覺條件。當明確了評判條件以后,我們就能給一組對話內容進行定義,以此來對一個智能對話系統進行評測。
首先好的對話內容應該是符合語義情境的,上下文內容應該是緊密關聯的,并且是邏輯自洽的。接下來,好的對話內容應該可以滿足特定的應用場景,對話的內容表達是清晰明確的,同時切合用戶期待的。最后,無論話題是開放領域還是垂直領域的,無論意圖是達成還是未達成,好的對話內容都應該是具備的信息和情感的。
總結
至此,我們把“如何評價一個智能對話系統”這個問題轉化為“如何定義一個好的智能對話系統”,并通過實際對話類產品在真實應用場景中的使用情況,歸納出對話評測系統的考量條件與標準尺度。有了明確的尺度,智能對話評測的任務設計也就變得有章可循了。
一般來說,對話評測的工作主要從兩個方面進行處理:自動評測和人工評測。我將在下一篇文章中介紹當前主流的自動機器對話評測任務,和人工標注方法。我將分析這些任務和方法的不足之處,并闡述我自己是如何結合自動評測與人工標注來設計智能對話評測方法的。
本文由 @單師傅?原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash ,基于 CC0 協議
大佬可以轉發嗎?
給的citation就好啦。請問您準備在哪里發呢