“會(huì)說話的人,一開口就贏了”——語音交互中的機(jī)器話術(shù)研究

3 評(píng)論 11546 瀏覽 62 收藏 21 分鐘

在漢語中,“術(shù)”有技藝、方法之意,話術(shù)即指說話的技藝和方法;和技術(shù)相比,話術(shù)更偏藝術(shù)和人性。喬布斯說“只有技術(shù)是不夠的——技術(shù)與人文藝術(shù)結(jié)合、與人性結(jié)合,才能帶來讓我們內(nèi)心喜愛的結(jié)果”。因此,我們本次從用戶視角出發(fā),嘗試從藝術(shù)和人性的角度對話術(shù)進(jìn)行探索。

前言:“會(huì)說話的人,一開口就贏了”

如果機(jī)器在某些現(xiàn)實(shí)的條件下,能夠非常好地模仿人回答問題,讓提問者在相當(dāng)長時(shí)間里誤認(rèn)它不是機(jī)器,那么機(jī)器就可以被認(rèn)為是能夠思維的。

——?阿蘭·圖靈

一個(gè)人的成功,約有15%取決于技術(shù)知識(shí),85%取決于口才藝術(shù)。

——?戴爾·卡耐基

“與機(jī)器像和人一樣對話”大概是人類對人工智能最初的設(shè)想,也是人類希望在人工智能領(lǐng)域?qū)崿F(xiàn)的目標(biāo)。

在不少科幻電影或小說里,人工智能可以和人自然交流,甚至可以談情說愛(如電影《her》中的薩曼莎)。但我們不得不承認(rèn),現(xiàn)實(shí)和理想差距很大;現(xiàn)在的人工智能雖然已經(jīng)“可以說話”,但大多數(shù)都“不會(huì)說話”,我們經(jīng)??梢月牭健斑@個(gè)問題我還理解不了,如果你想……,可以這樣對我說……”。

為了教會(huì)機(jī)器“像人一樣說話”,人們在語音識(shí)別、自然語言理解、語音合成等諸多方面進(jìn)行了大量探索,但這些探索主要集中在技術(shù)維度,而對機(jī)器話術(shù)涉獵較少。

在漢語中,“術(shù)”有技藝、方法之意,話術(shù)即指說話的技藝和方法;和技術(shù)相比,話術(shù)更偏藝術(shù)和人性。喬布斯說“只有技術(shù)是不夠的——技術(shù)與人文藝術(shù)結(jié)合、與人性結(jié)合,才能帶來讓我們內(nèi)心喜愛的結(jié)果”。因此,我們本次從用戶視角出發(fā),嘗試從藝術(shù)和人性的角度對話術(shù)進(jìn)行探索。

研究主要包含以下內(nèi)容:

  • 話術(shù)設(shè)計(jì)研究:我們?nèi)绾巫龅?/li>
  • 話術(shù)設(shè)計(jì)原則:用戶關(guān)注什么?哪個(gè)更重要
  • 話術(shù)設(shè)計(jì)建議:原則如何指導(dǎo)話術(shù)設(shè)計(jì)

一、話術(shù)設(shè)計(jì)研究:我們?nèi)绾巫龅模?/h2>

當(dāng)下的話術(shù)研究多從研究者視角出發(fā),原則主要源自研究者的日常觀察、哲學(xué)思辯和專業(yè)判斷。本次,我們從用戶視角出發(fā)來探討話術(shù),研究過程如下:

1. 案頭研究

我們對人與人的對話結(jié)構(gòu)和對話原則進(jìn)行了系統(tǒng)梳理,特別推薦Grice的“合作原則”(出自《邏輯與會(huì)話》演講,1967)和索振羽的“得體原則”(出自《語用學(xué)教程》第二版,2014)。

這一步至關(guān)重要,它加深了我們對“對話”的理解,這些原則也成為我們設(shè)計(jì)實(shí)驗(yàn)話術(shù)時(shí)的重要參考依據(jù)。

2. 對話場景設(shè)計(jì)

為覆蓋盡可能多的場景,我們系統(tǒng)梳理了語音交互的典型場景,如聽音樂、問天氣、家居控制、生活服務(wù)等。同時(shí),每個(gè)場景下也細(xì)分了機(jī)器的不同狀態(tài);如是否聽清、能否識(shí)別、是否有能力滿足等。

3. 具體話術(shù)設(shè)計(jì)

對話場景梳理清晰后,我們針對每個(gè)場景設(shè)計(jì)實(shí)驗(yàn)所需話術(shù)。話術(shù)來源主要有二,一是主流語音交互產(chǎn)品的現(xiàn)有話術(shù),二是研究者基于人與人的對話原則撰寫而成的話術(shù)。

4. 話術(shù)實(shí)驗(yàn)

上述準(zhǔn)備完成后,進(jìn)入正式實(shí)驗(yàn)階段。在實(shí)驗(yàn)中,我們創(chuàng)設(shè)了各類場景(具體場景見“對話場景設(shè)計(jì)”部分),并且模擬了真實(shí)的人機(jī)對話過程(所有實(shí)驗(yàn)話術(shù)均轉(zhuǎn)為語音合成音進(jìn)行播報(bào)),要求用戶基于真實(shí)體驗(yàn)對不同場景下每類話術(shù)的喜好度進(jìn)行評(píng)價(jià)。

同時(shí),我們使用了“參與式設(shè)計(jì)”,以“假如你是機(jī)器,你會(huì)如何回答”為起點(diǎn),引導(dǎo)用戶更深地參與到話術(shù)設(shè)計(jì)中,共同探討實(shí)驗(yàn)話術(shù)以及更為理想的表達(dá)方式。這一過程使我們獲得了大量源自用戶的鮮活話術(shù),也使我們能從更豐富的角度挖掘用戶構(gòu)建話術(shù)的原則、方法與技巧。

5. 設(shè)計(jì)原則提煉與驗(yàn)證

基于案頭研究和實(shí)驗(yàn)發(fā)現(xiàn),我們提煉了初步的設(shè)計(jì)原則。之后,要求用戶對原則的可理解性、全面性、適用性等進(jìn)行評(píng)估。經(jīng)過多輪評(píng)估,我們不斷調(diào)整原則,最終獲得了現(xiàn)在的話術(shù)設(shè)計(jì)原則。

二、話術(shù)設(shè)計(jì)原則:用戶關(guān)注什么?哪個(gè)更重要?

我們發(fā)現(xiàn),在用戶心中,好的話術(shù)要兼顧理性和感性原則。理性原則體現(xiàn)在“機(jī)器的話是有用的”,話術(shù)應(yīng)該是以目標(biāo)為中心、準(zhǔn)確、簡潔的;感性原則強(qiáng)調(diào)“對話過程令人愉悅”,話術(shù)應(yīng)該是自然、友好、有個(gè)性的。

同時(shí),我們要求用戶基于自身體驗(yàn)對各原則的重要性進(jìn)行了1-10級(jí)評(píng)價(jià),其中1分代表非常不重要,10分代表非常重要,分?jǐn)?shù)越高,重要性越高。

結(jié)果發(fā)現(xiàn):現(xiàn)階段,用戶更看重理性原則,尤其是以目標(biāo)為中心,準(zhǔn)確,而自然、友好等感性原則暫居相對次要的位置。

此外,我們也梳理了不同原則下的具體評(píng)估指標(biāo),這些指標(biāo)代表在該原則下,用戶在對話中具體的關(guān)注點(diǎn)。

不同指標(biāo)的重要性有所不同,詳見下表:

三、話術(shù)設(shè)計(jì)建議:原則如何指導(dǎo)話術(shù)設(shè)計(jì)?

接下來,我們一起看看上述這些原則如何指導(dǎo)具體的機(jī)器話術(shù)設(shè)計(jì)。

1. 以目標(biāo)為中心原則

以目標(biāo)為中心是用戶最為看重的原則。用戶非常重視效率(閑聊場景除外),他們希望機(jī)器的回復(fù)與自己的需求高相關(guān),可以快速達(dá)成心中所想。

同時(shí),用戶表示在語音交互中,需要更多“引導(dǎo)”,尤其需要了解機(jī)器當(dāng)下和未來狀態(tài)。語音看不見摸不著,我們無法像在圖形用戶界面(GUI)中那樣——通過導(dǎo)航條判斷所在的位置,看到按鈕可以判斷是否點(diǎn)擊等。如果缺少必要的引導(dǎo),用戶在語音交互中很容易迷茫,產(chǎn)生各類負(fù)面情緒。

因此,話術(shù)設(shè)計(jì)時(shí),必須遵循以目標(biāo)為中心原則,做好引導(dǎo),讓用戶可以通過聲音“看到”通往需求的路徑?;诖嗽瓌t,設(shè)計(jì)話術(shù)時(shí)可考慮以下幾條建議:

建議1:優(yōu)先回應(yīng)用戶的核心意圖

圍繞用戶最關(guān)心的問題優(yōu)先給出適合的回應(yīng)。

建議2:清楚傳達(dá)機(jī)器當(dāng)前的情況

如果因?yàn)楦鞣N原因無法直接滿足用戶需求時(shí),應(yīng)及時(shí)告知,避免用戶困惑。

建議3:澄清目標(biāo),不輕易終結(jié)對話

對話過程中,引導(dǎo)用戶不斷澄清目標(biāo),不輕易做話題的終結(jié)者。

建議4:告訴用戶接下來怎么做

不能清晰識(shí)別用戶意圖時(shí),可主動(dòng)詢問用戶有可能的意圖,引導(dǎo)用戶完成目標(biāo)。

建議5:提供相關(guān)替代方案

在無法直接滿足用戶時(shí),可考慮提供相關(guān)度較高的替代方案,間接滿足用戶。

2. 準(zhǔn)確原則

用戶認(rèn)為表達(dá)準(zhǔn)確是最基本的原則;表述不準(zhǔn)確可能導(dǎo)致用戶誤解、無法判斷機(jī)器所要傳達(dá)的真正含義,使對話脫離正軌甚至無法進(jìn)行。

基于準(zhǔn)確原則,設(shè)計(jì)話術(shù)時(shí)可考慮以下建議:

建議1: 避免表述有歧義

表述的含義要確定,不要說讓用戶“這樣理解可以,那樣理解也可以”的話??谡Z中最常見的歧義是同音歧義,即語音相同帶來的歧義。以下兩類同音歧義,話術(shù)設(shè)計(jì)時(shí)需要注意:

  • 同音異形詞歧義,如播放菜譜時(shí)提到“切ji放糖”,是“記”還是“忌”?
  • 同音同形詞歧義,如閑聊時(shí)提到“我最喜歡杜鵑啦”,是杜鵑這種花還是杜鵑這種鳥?

建議2:避免表述過于籠統(tǒng)模糊

表述要盡可能具體明確,避免過于籠統(tǒng)模糊。

我們來看下面一個(gè)案例,研究中,面對第一種話術(shù),大多數(shù)用戶表示“有點(diǎn)懵”,“是給音箱起名字,還是告訴音箱自己的名字?不知道該怎么回答”。而第二種話術(shù)則明確指出是“音箱對自己的稱呼”。

3. 簡潔原則

在研究中,用戶多次提到“不喜歡這個(gè)話術(shù),太啰嗦了,能不能揀重點(diǎn)說”,“說太多了,壓根沒記住啊”,這些抱怨體現(xiàn)了用戶對簡潔的重視。

用戶如此重視簡潔是必然的。語音是一維線性的,只能一個(gè)字一個(gè)字的聽完,無法快進(jìn),不能后退。哪怕信息不相關(guān)、無意義,用戶都無法略過。這些冗余信息既浪費(fèi)用戶時(shí)間,也會(huì)增加用戶的煩躁情緒。

更重要的是:大腦能處理的語音信息量有限,一旦超出會(huì)給人的工作記憶造成負(fù)擔(dān)。長期以來,神奇數(shù)字7±2被認(rèn)為是工作記憶的容量,但近期這一標(biāo)準(zhǔn)遭到質(zhì)疑,普遍認(rèn)為這一估計(jì)偏高。有研究者(Mastin,2010)認(rèn)為這一數(shù)字可能是4±1。

基于此原則,設(shè)計(jì)話術(shù)時(shí)可考慮以下幾條建議:

建議1:表述簡單明了,不啰嗦

傳遞必要信息前提下,保持話術(shù)簡潔。

建議2:避免信息量過大,一次提供的選項(xiàng)不超過三個(gè)

單次交互提供的信息量不要過大,以免給用戶造成認(rèn)知和記憶負(fù)擔(dān)。

4. 自然原則

在研究中,聽到某些話術(shù),用戶紛紛表示“這太生硬了,一點(diǎn)都不自然”,“這明顯就是機(jī)器說的話,人怎么可能這么說呢”。用戶希望話術(shù)可以貼近生活,盡可能自然。

這是非常好理解的;在人機(jī)語音交互中,人類最想使用的肯定是自然語言??陬^語言是人類最擅長,使用門檻最低的自然語言,人類使用口頭語言進(jìn)行交流的歷史已跨越十萬年。與之相比,書面語言的發(fā)展不過五千年,計(jì)算機(jī)語言更是剛剛萌芽。因此,設(shè)計(jì)話術(shù)時(shí),可參考漢語口頭語言的特點(diǎn),營造“自然感”。

基于此原則,設(shè)計(jì)話術(shù)時(shí)可考慮以下幾條建議:

建議1:措辭口語化

日常對話中,我們會(huì)使用豐富多彩的重疊詞(如看看、馬上馬上)、語氣詞(如吧、呢、哈)、感嘆詞(如哎!天!)、惟妙惟肖的象聲詞(如噗通、呼啦)、填補(bǔ)詞(如嗯,呃),也會(huì)妙用各種副語言,如“哼哼”之類的鼻化音、笑聲、顫音等等。話術(shù)設(shè)計(jì)中,可以參考這些口語化的表達(dá)。

尤其注意,話術(shù)設(shè)計(jì)時(shí)要盡可能避免專業(yè)術(shù)語、技術(shù)名詞、晦澀用語等。

建議2:句式自然,可使用話語標(biāo)記

口語中句子多短小,結(jié)構(gòu)簡單。語言學(xué)研究發(fā)現(xiàn),口語中長句占比僅19%,短句占比達(dá)到81%(超過7個(gè)實(shí)詞的單句為長句,反之為短句。實(shí)詞指具有實(shí)際含義且能單獨(dú)充當(dāng)句子成分的詞)。話術(shù)設(shè)計(jì)時(shí)可考慮這一特點(diǎn),盡可能使用短句。

另外,口語對話中會(huì)使用“話語標(biāo)記語”做句子之間的過渡,話術(shù)設(shè)計(jì)時(shí)也可參考。常見的話語標(biāo)記有:“首先…然后…最后”之類的序列標(biāo)記;“開始”、“以后”之類的時(shí)間標(biāo)記;“這”、“那”之類的指示詞等。

建議3:增加措辭多樣性

使用同義詞為固定的答案增加多樣性,比如表示確認(rèn)的時(shí)候,可以隨機(jī)呈現(xiàn)“ok”、“收到”、“好的”、“沒問題”等等。這些同義詞可以增加對話活力,讓對話更自然。

5. 友好原則

研究中,我們發(fā)現(xiàn),用戶很反感機(jī)器以“高人一等”的姿態(tài)說話,尤其反感被機(jī)器指責(zé)。高人一等的話語和指責(zé)會(huì)讓用戶覺得“不忿”、“挫敗”,甚至?xí)适C(jī)器的“信任”。

人是社會(huì)性動(dòng)物;日常交往中,我們更喜歡對我們友好、喜歡我們的人,而傾向遠(yuǎn)離那些不夠友善的人。判斷對方是否友善,語音是最直觀的線索。在人機(jī)語音交互中,我們同樣能根據(jù)機(jī)器的應(yīng)答判斷其是否友好。因此,話術(shù)設(shè)計(jì)時(shí)要重視友好。

基于此原則,話術(shù)設(shè)計(jì)時(shí)可考慮以下幾條建議:

建議1:錯(cuò)誤歸為機(jī)器,而非人

錯(cuò)誤發(fā)生時(shí),從機(jī)器的角度說明出錯(cuò)原因。

建議2:避免要求用戶按照特定的方式表達(dá)

尊重用戶的說話方式,不要試圖教給用戶怎么說話。

建議3:體現(xiàn)“關(guān)注用戶需求”的服務(wù)態(tài)度

即使不能滿足用戶需求,也要體現(xiàn)出努力幫助用戶的態(tài)度。

6.?有個(gè)性原則

必須強(qiáng)調(diào),話術(shù)體現(xiàn)的個(gè)性必須與產(chǎn)品人設(shè)保持一致,比如冷靜成熟的產(chǎn)品人設(shè)就不太適合嗲嗲說話撒嬌賣萌的話術(shù)。

本次我們發(fā)現(xiàn),用戶對“幽默”的話術(shù)接受度較高。在人際交往中,幽默能提升他人對自己的印象,讓人感覺親密并能幫助人們緩解壓力。語用學(xué)研究也發(fā)現(xiàn),只要適合特定場景,幽默話語的交際效果是最佳的。

不過,幽默具有明顯的文化和群體差異,“甲之蜜糖,乙之砒霜”,設(shè)計(jì)話術(shù)時(shí)需特別注意。

建議1:遇到難題時(shí),可考慮使用幽默話術(shù)回應(yīng)

遇到無法實(shí)現(xiàn)的功能時(shí),通過幽默話術(shù)回應(yīng)用戶,調(diào)節(jié)氛圍。

建議2:娛樂話題的表述可以更加活潑有趣

討論一些娛樂話題或閑聊時(shí),話術(shù)可以考慮增添更多趣味元素。

四、小結(jié)

本文從用戶視角出發(fā),闡述了機(jī)器話術(shù)設(shè)計(jì)的6大普適性原則,以及如何基于這些原則設(shè)計(jì)話術(shù)。我們定義的設(shè)計(jì)原則及提供的設(shè)計(jì)建議如下:

話術(shù)研究具有挑戰(zhàn)性。話術(shù)與對話場景、對象,產(chǎn)品本身的人設(shè)、特性,系統(tǒng)語音識(shí)別、語義理解能力等均具有密切關(guān)系。但這不妨礙我們通過參與式的用戶研究探索話術(shù)設(shè)計(jì)的普適性原則。所謂“深根固柢”,這些原則是機(jī)器話術(shù)設(shè)計(jì)時(shí)的基礎(chǔ)與根基,有助于我們打造更自然和極致的語音對話體驗(yàn)。

我們也以此研究為契機(jī),開始探索在AI時(shí)代,在機(jī)器話術(shù)這個(gè)領(lǐng)域,如何將技術(shù)和藝術(shù)、人性結(jié)合,希望能帶來讓用戶內(nèi)心真正喜歡的體驗(yàn)。

機(jī)器話術(shù)作為一個(gè)充滿藝術(shù)特色又與人性密不可分的主題,還有著許多未知且充滿魅力的方面值得探索。希望本次研究可以拋磚引玉,引發(fā)更多同仁更深入的研究。

 

本文由 @AIID(百度) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自作者。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請登錄
  1. 厲害了

    回復(fù)
  2. 你好

    回復(fù)
  3. 學(xué)習(xí)了

    來自廣東 回復(fù)