對話系統(tǒng)與AI PM的發(fā)展之道

2 評論 3116 瀏覽 13 收藏 12 分鐘

編輯導(dǎo)讀:如今基本每一個(gè)品牌的手機(jī)都裝載了自己的對話系統(tǒng),可以幫助用戶訂機(jī)票、記事項(xiàng),甚至能夠講笑話。本文作者圍繞對話系統(tǒng)進(jìn)行了分析,希望對你有幫助。

本文將介紹對話系統(tǒng)的基本情況及局限,由此衍生出從事該領(lǐng)域的PM應(yīng)該如何進(jìn)行產(chǎn)品設(shè)計(jì),以及筆者對未來的一些設(shè)想,希望能給大家一點(diǎn)啟示。

本文將從以下幾個(gè)方面展開:

  1. 對話系統(tǒng)的分類及簡介
  2. 對話系統(tǒng)的局限
  3. 未來的設(shè)想
  4. AI PM的設(shè)計(jì)之道

事不宜遲,我們現(xiàn)在開始!

一、對話系統(tǒng)的分類及簡介

首先,提及到對話系統(tǒng),大家第一感覺是什么?我相信在當(dāng)今智能終端時(shí)代,大家都會立馬聯(lián)想到siri,小度和小愛同學(xué)等。

這類對話系統(tǒng)具備了任務(wù)型和閑聊型的產(chǎn)品功能,既能同人對話,又能提供一部分服務(wù),讓用戶感覺到智能科技感,雖然偶爾會有些智障,但很多人都相信只要給它們足夠多的時(shí)間,有足夠的數(shù)據(jù)和訓(xùn)練,未來肯定能像人一樣智能,而這真的有可能嗎?

我把手頭碰到的對話系統(tǒng)按領(lǐng)域進(jìn)行整理分類:

從上面可以看出對話系統(tǒng)現(xiàn)在已經(jīng)滲透到各行各業(yè),但其實(shí)它們實(shí)現(xiàn)的技術(shù)方案流程參考如下:

由于不像智能手機(jī)的觸控交互(GUI)可視化,對話系統(tǒng)(VUI)看似像黑盒處理一般,只給一個(gè)輸入,就可以輸出一大段結(jié)果。

但其實(shí)整個(gè)過程其實(shí)就是將語音信號處理成文本,然后將文本整理成結(jié)構(gòu)化數(shù)據(jù),即我們常見的表格格式,接著就是按照產(chǎn)品經(jīng)理設(shè)計(jì)的邏輯和詞槽進(jìn)行對話管理,最后按照設(shè)計(jì)好的接口和話術(shù)進(jìn)行結(jié)果的反饋;

舉個(gè)例子:

  • “訂機(jī)票”
  • “從上海出發(fā)”
  • “下周二出發(fā)去紐約的”
  • “商務(wù)艙的”
  • 等等

我們可以從上面的遞進(jìn)邏輯可以看出,我們必須補(bǔ)充完一些必填信息后才能往下走,

而這類語音交互本質(zhì)就是類似用手觸控訂票功能按鈕,一步一步的把你的出發(fā)地、目的地和時(shí)間等信息補(bǔ)充到應(yīng)用上,然后給你呈現(xiàn)對應(yīng)的結(jié)果;

看完是不是覺得并不是很智能,其實(shí)語音交互的優(yōu)勢在于可以一次性補(bǔ)充多個(gè)不同維度的信息,

如:“找下明天去紐約的商務(wù)艙機(jī)票”

如果產(chǎn)品經(jīng)理設(shè)計(jì)得好,都設(shè)計(jì)了對應(yīng)的詞槽進(jìn)行解析,那么我們一步就可以直接檢索出我們想要的結(jié)果,而用觸控得幾步;

但其實(shí)這種表述并不遵循人性和口語化,一般也很少人能準(zhǔn)確無誤的表達(dá)這么一句話出來,看起來這個(gè)優(yōu)勢又可有可無。

對話系統(tǒng)的本質(zhì)在于聽人話(識別)+講人話(對話管理),其中離不開填槽\填表的操作,每個(gè)科技公司都是按照這種技術(shù)方案進(jìn)行設(shè)計(jì)。

決定每個(gè)對話系統(tǒng)的優(yōu)勢與劣勢,本質(zhì)是看產(chǎn)品設(shè)計(jì)、工程設(shè)計(jì)和如何解決體驗(yàn)和規(guī)?;膯栴}等方面

二、對話系統(tǒng)的局限

先說結(jié)論,對話系統(tǒng)的局限有以下幾點(diǎn):

  • 局限1:缺乏實(shí)質(zhì)的推理歸納能力;
  • 局限2:無常識認(rèn)知和世界認(rèn)知模型能力;
  • 局限3:對話范圍收斂,無法支持發(fā)散及引導(dǎo)對話節(jié)奏;

現(xiàn)市場的對話系統(tǒng)基本是無法通過圖靈測試,通過也不代表這個(gè)就意味著智能,我們在這里先對AI做一個(gè)明確的定義:

  1. 通用人工智能:即由人造出來的真正智能,即超級智能;
  2. 基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí),即通過現(xiàn)有技術(shù),實(shí)現(xiàn)基礎(chǔ)的人機(jī)交互;

前面一種是最終實(shí)現(xiàn)的結(jié)果,也將是人類未來最后的一項(xiàng)發(fā)明,而第二種是現(xiàn)階段,人工堆棧出來的人工智障;

局限1:缺乏實(shí)質(zhì)的推理歸納能力

舉個(gè)例子:“找飛機(jī)票,不要深圳航空的”

這個(gè)例子我相信絕大多數(shù)對話系統(tǒng)都會直接檢索出深圳航空的飛機(jī)票出來;

因?yàn)槲覀儥C(jī)器人處理或者說代碼處理時(shí),都有一個(gè)步驟叫做命名實(shí)體提取,而這里面的“不要”一般我們不會做解析,機(jī)器會直接將深圳航空作為實(shí)體,填入航空公司的詞槽中;

而這上面這個(gè)例子,在我們普通表達(dá)里面,其實(shí)是比較常見的一種形式,我們對航空公司的售票員闡述訴求時(shí),其實(shí)她們一般就可以理解我們的意思;

因?yàn)槿说拇竽X具備基本的推理歸納能力,懂得“不要”這個(gè)詞指的是“排除深圳航空以外的其他航司”,而機(jī)器人只具備提取實(shí)體的功能,不存在歸納推理的能力;

而這,不是深度學(xué)習(xí)、模型訓(xùn)練和標(biāo)注能解決的問題,這是我們的第一個(gè)局限;

局限2:缺乏常識認(rèn)知及世界認(rèn)知模型能力

例子1:

“這袋蘋果好貴啊,(它)價(jià)格要幾千塊”

“這袋蘋果好貴啊,(它)價(jià)格要幾千塊”

如果從人的角度來看上面兩個(gè)例子,我們會自動(dòng)將第一個(gè)例子的它認(rèn)定為最新一代的iPhone,而第二個(gè)例子的蘋果認(rèn)定為真正意義的蘋果;

但從機(jī)器認(rèn)知來看,它并不能進(jìn)行這么復(fù)雜的認(rèn)知,因?yàn)樗狈ΤWR性知識的補(bǔ)充和對世界的認(rèn)知;

例子2:

“我想喝點(diǎn)東西”

假設(shè)我們以siri的角度來完成這個(gè)指令,那么我們可能會讓用戶補(bǔ)充想喝什么類型的東西或者干脆把附近的飲品店通通檢索出來;

如果要更加智能,還可以根據(jù)用戶歷史行為習(xí)慣,判斷他是否是想要繼續(xù)喝咖啡\奶茶;

但假設(shè)我們再增加一個(gè)維度,時(shí)間維度,即用戶在晚上12點(diǎn)說“我要喝點(diǎn)東西”,這時(shí)候我們的智能就顯得很智障了,大晚上請我喝咖啡,不讓人睡覺啦;

因?yàn)槲覀兊膶υ捪到y(tǒng)中,缺乏了世界認(rèn)知的能力,所以即使我們把推薦系統(tǒng)做到了千人千面,該智障的地方,還是會智障;

而這個(gè)局限,同樣是深度學(xué)習(xí)無法做到的,因?yàn)?strong>深度學(xué)習(xí)僅能處理基于明文的信息;

局限3:對話范圍收斂,無法發(fā)散及引導(dǎo)話題

很多人會覺得小冰是閑聊型機(jī)器人的典范,可以做到對話可持續(xù);

但個(gè)人認(rèn)為這個(gè)其實(shí)也是一個(gè)比較低價(jià)值的東西,一方面是由用戶主動(dòng)對話觸發(fā)的前提,一方面對話的延展本質(zhì)也是人與人的對話,無非就是產(chǎn)品設(shè)計(jì)中做了很多追問邏輯,本質(zhì)就是人造而非機(jī)器造;

而任務(wù)型或者問答型更不用說,就是一個(gè)閉環(huán)的對話模式,不存在發(fā)散的概念,因?yàn)橐话l(fā)散就智障;

三、未來的設(shè)想

回到開頭我們的問題:

“但很多人都相信只要給它們足夠多的時(shí)間,有足夠的數(shù)據(jù)和訓(xùn)練,未來肯定能像人一樣智能,而這真的有可能嗎?”

我認(rèn)為不太可能,因此筆者對未來大膽做一些猜想,未來的對話系統(tǒng),腦波及腦機(jī)技術(shù)可能會對AI對話系統(tǒng)提高一個(gè)新的水平:

  1. 注冊腦波與語音交互聯(lián)動(dòng)
  2. 基于知識圖譜進(jìn)行世界模型認(rèn)知
  3. 腦波檢測及世界模型導(dǎo)入

能超越馬車的,不是一匹更快的馬,而是一輛汽車;能創(chuàng)造新交互模式的,不是按起來更舒服的按鍵,而是觸控,能超越對話系統(tǒng)的,不是一個(gè)具備多數(shù)據(jù)和自學(xué)習(xí)的對話系統(tǒng),而是一種通用人工智能;

四、AI PM的設(shè)計(jì)之道

聊了這么多,我們是不是說AI PM在對話系統(tǒng)這方面沒有什么可以做的了?并不是,產(chǎn)品永遠(yuǎn)是技術(shù)與市場之間的橋梁,我們只需找到發(fā)展之道,同樣能給對話系統(tǒng)帶來價(jià)值,總的來說,有以下幾點(diǎn):

設(shè)計(jì)對話系統(tǒng)時(shí),注意收斂及用戶引導(dǎo)

在設(shè)計(jì)對話系統(tǒng)時(shí),多做引導(dǎo),多注意引導(dǎo)語的設(shè)計(jì)要遵循口語化、通用化,不要有歧義,另外不要讓用戶產(chǎn)生發(fā)散的想法,注重問答的收斂。

設(shè)計(jì)思路的基礎(chǔ):存在即感知

讓用戶知道什么時(shí)候是機(jī)器人,什么時(shí)候是人工服務(wù),這方面可以管理用戶的認(rèn)知,不會讓用戶覺得自己在被一個(gè)智障系統(tǒng)耍得團(tuán)團(tuán)轉(zhuǎn),這在客服系統(tǒng)尤為重要。

永遠(yuǎn)不要覺得自己在做創(chuàng)造,永遠(yuǎn)記住自己是在做設(shè)計(jì)

永遠(yuǎn)對用戶存在敬畏之心,尊重用戶和保證用戶體驗(yàn),不要個(gè)人腦部過多非必要的話術(shù),充分利用多人泛化的理念,10個(gè)人寫100句和100人寫10句的效果是不一樣的。

以上為本文的全部內(nèi)容,本文內(nèi)容參考:

人工智障2:你看到的AI與智能無關(guān)—S先生

希望能給大家?guī)硪稽c(diǎn)感觸,謝謝~

 

本文由 @SiegZhong 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 還得是ChatGPT 吊打國內(nèi)的Ai產(chǎn)品

    來自北京 回復(fù)
  2. 決定每個(gè)對話系統(tǒng)的優(yōu)勢與劣勢,本質(zhì)是看產(chǎn)品設(shè)計(jì)、工程設(shè)計(jì)和如何解決體驗(yàn)和規(guī)?;膯栴}等方面?!边@句話說得太對了

    來自中國 回復(fù)