圖靈測(cè)試離我們還有多遠(yuǎn)?

5 評(píng)論 5837 瀏覽 17 收藏 14 分鐘

人機(jī)交互這件事,看起來簡(jiǎn)單,卻是人工智能王冠上最耀眼的一顆明珠。目前看來,嚴(yán)格意義上的圖靈測(cè)試離我們還相當(dāng)遙遠(yuǎn),不過通過交互方式和產(chǎn)品上的創(chuàng)新,一個(gè)在特定領(lǐng)域內(nèi)可用的合格助手,或許已經(jīng)在向我們招手了。

十年前,我在微軟研究院語音組混日子。混,不是我的主觀意愿,卻是客觀事實(shí):當(dāng)時(shí),我們做的“人機(jī)交互”離實(shí)用太遠(yuǎn),別人都認(rèn)為我們是編了個(gè)故事來騙工資的。有一回,跟同學(xué)聊起我們的愿景:“將來,您對(duì)著電腦,樂意怎么說怎么說,那邊不光嗯啊嗻是,有來言就有去語,回答的還得像話…”正說著,他樂成桃狀打斷了我:“你說的這不是跳大神,讓狐仙附了體了么?”

這當(dāng)然是戲言,因?yàn)榻▏?guó)以后就不許成精了。覺得這事兒扯的,要怨您就怨一位前輩的老先生——圖靈。是怹在人工智能八字還沒一撇的時(shí)候,提出了這個(gè)終極測(cè)試方案:將人與機(jī)器隔開,前者通過一些裝置(如鍵盤)向后者隨意提問。多次問答后,如果有超過30%的人不能確定出被測(cè)試者是人還是機(jī)器,那么這臺(tái)機(jī)器就通過了測(cè)試,并被認(rèn)為具有人類智能。

于是,通過圖靈測(cè)試,就成了所有人工智能科學(xué)家和偽科學(xué)家的最高目標(biāo)。這兩年人工智能大火,號(hào)稱通過了圖靈測(cè)試的產(chǎn)品,也如雨后春筍般一抬腳踩死一片。最近的一次,是谷歌在I/O大會(huì)上演示的Deplux,據(jù)說“部分通過圖靈測(cè)試”,這倒還算中肯。

看起來,圖靈的棺材板快壓不住了,我們是否已經(jīng)到了突破圖靈測(cè)試的奇點(diǎn)了呢?我正在一頭霧水之際,突然有天晚上,黑暗暗霧沉沉,圖爺托兆給我,對(duì)我言道:“這事兒,還離著六扔(見注1)多遠(yuǎn)吶!現(xiàn)傳爾秘籍一部,望爾潛心習(xí)學(xué),授眾生以三法門!”你道哪三個(gè)法門?且看下文分解。

圖靈測(cè)試是不是人機(jī)“對(duì)話”?

理解概念,要把握其內(nèi)涵和外延。圖靈測(cè)試的內(nèi)涵很清楚,就是用機(jī)器替代人,進(jìn)行信息交互;不過其外延有些不清,頗多可變通之處,比如那個(gè)“一些裝置”。時(shí)下的相關(guān)產(chǎn)品,交互或用文字,或用語音,對(duì)于信息溝通來說,這樣的裝置夠用么?

我們知道,對(duì)人類來說,文字僅僅承載著內(nèi)容的溝通。而人人信息交互,內(nèi)容溝通大概只占20%,情感溝通要占到80%。計(jì)算廣告群里的九千歲講了個(gè)生動(dòng)的例子:當(dāng)年他給女朋友打電話,信息量最大的,就是對(duì)方拿起電話那一聲“喂”,這個(gè)“喂”就為今天幾個(gè)鐘頭的會(huì)談定下了基調(diào)。

情感溝通,要理解的就不僅僅是文字,還包括語音、表情、肢體語言等等。所以,兩個(gè)在知乎上吵得不可開交的人,打個(gè)電話沒準(zhǔn)就成了基友;而真正重要的面試、會(huì)議,還是必須面對(duì)面進(jìn)行。沒有對(duì)這些副語言現(xiàn)象深入的研究建模,即使完美地解決了文字和內(nèi)容溝通的問題,也離真正有效的人機(jī)交互相去甚遠(yuǎn)。

因此,人機(jī)“交互”絕非人機(jī)“對(duì)話”,我認(rèn)為真正理想的圖靈測(cè)試,就算不能聲情并茂地反饋用戶,也至少應(yīng)該能察言觀色,有效解讀用戶的副語言。將來用上機(jī)器女友了,人家“喂”了一聲,你還不知道怎么接下碴兒,那還不等著回家跪電路板?

顯然,這樣去限定圖靈測(cè)試的話,我們現(xiàn)在仍然束手無策。飯要一口口吃,先降低下難度,僅僅考慮利用文本或語音跟機(jī)器聊天的場(chǎng)景,我們今天看到的Siri、小冰、Alexa、叮咚音箱等,都是這樣的人機(jī)對(duì)話系統(tǒng)。那么,是否在人機(jī)“對(duì)話”的情形下,通過圖靈測(cè)試已經(jīng)指日可待了呢?

既然不用理解副語言現(xiàn)象,人機(jī)對(duì)話的關(guān)鍵,當(dāng)然就是理解自然語言了。自然語言理解和人機(jī)對(duì)話,是認(rèn)知智能領(lǐng)域的核心問題,要了解它遇到的困難,要先從目前人工智能的實(shí)用方法說起。

人機(jī)對(duì)話,到底難在哪里?

今天所有實(shí)用的人工智能產(chǎn)品,都是用的“弱智”(見注2)方法。簡(jiǎn)單來說,就是湊答案:準(zhǔn)備一大坨標(biāo)注好的數(shù)據(jù),然后用大量機(jī)器堆上去狂撩,直到把答案湊個(gè)八九不離十。至于問題的內(nèi)在邏輯和簡(jiǎn)約規(guī)律,今天的AI既無心顧及,也無力解讀。

“弱智”方法在數(shù)據(jù)充沛的領(lǐng)域,可謂所向披靡:無論是語音識(shí)別、人臉識(shí)別,還是機(jī)器翻譯、各種棋類,機(jī)器都已經(jīng)接近乃至碾壓真人了。且慢!機(jī)器翻譯都快解決了么?翻譯可比聊天要難吧?不然,機(jī)器翻譯這個(gè)問題,答案是比較好湊的:找到足夠多的語言對(duì)數(shù)據(jù),把詞譯過去跟麻將牌一樣碼好了,再調(diào)整一下順序即可。人機(jī)對(duì)話則不然,我們要找到對(duì)方語言里的關(guān)鍵信息,把它轉(zhuǎn)化為動(dòng)作,再把動(dòng)作的結(jié)果反饋回去。這些關(guān)鍵信息處理的過程,是要經(jīng)過統(tǒng)計(jì)意義上的推理過程的。

說到推理,當(dāng)然離不開句子表達(dá)內(nèi)容以外的背景知識(shí)。比如你問機(jī)器:“直徑為10的球體積是多少?”機(jī)器就得會(huì)球的體積公式才算得出來。當(dāng)然,微積分、背古詩(shī)、查法典這樣的知識(shí),對(duì)機(jī)器來說總是可以解決,因?yàn)橛写罅繒旧系恼Z料可供學(xué)習(xí),按照弱智大法湊答案即可。難就難在,這世界上還有大量的知識(shí),根本沒地方學(xué)去。

直覺上,人的知識(shí)來自于六歲以后的學(xué)習(xí)。實(shí)際上,絕大部分知識(shí)都來自于六歲前神奇的積累過程。只不過,這些知識(shí)太普通了,連半傻子都知道,所以被大家都選擇性地遺忘了。這種人人皆知的事情,姑且把它叫做“常識(shí)”,舉兩個(gè)例子您就明白了:

小明面對(duì)著你 =>
你瞧不見小明的后腦勺

一瓶礦泉水被我喝完了 =>
瓶子變輕了

就這個(gè)呀?這玩意也算知識(shí)?您別拿村長(zhǎng)不當(dāng)干部,沒有這些常識(shí)的支撐,自然語言推理是進(jìn)行不下去的,不信您看看下面這兩句:

爸爸快抱不動(dòng)兒子了,因?yàn)樗至?/p>

爸爸快抱不動(dòng)兒子了,因?yàn)樗撊趿?/p>

后半句的這個(gè)“他”,在上下兩句指代的對(duì)象是不同的。顯然,沒有常識(shí)的支撐,這兩句不好理解。悲催之處在于,這些常識(shí),在所有人類積累的語料當(dāng)中,是不存在的。您想想,有人要編纂一本專著,里面寫的全是這樣的“深?yuàn)W”知識(shí):

有孤王坐金殿脊背朝后

頭沖上腳沖下臉沖前頭

走三步退三步如同沒走

兩只手伸出來十個(gè)指頭

那讀者還不得罵著街把作者押送到精神病院???對(duì)此,郭德綱老師和其它曲藝界同仁給了個(gè)專業(yè)術(shù)語,叫“大實(shí)話”。

沒有了語料、也就是數(shù)據(jù)的支撐,“弱智”方法是沒辦法獲取這些常識(shí)的。所以,甭管誰說他的對(duì)話系統(tǒng)通過了圖靈測(cè)試,你也別問它化學(xué)方程,也別讓它背誦古文,就找?guī)讉€(gè)這樣的真?弱智問題問上一問,它要能答出來我是茄子。

那么人類的常識(shí)在六歲前是怎么獲得的呢?對(duì)于這樣的學(xué)術(shù)問題,我只能嚴(yán)肅地回答你:?jiǎn)柎彘L(zhǎng)去!

人機(jī)交互要不要模仿人人交互?

看起來,我們離通過圖靈測(cè)試,還真有六扔多遠(yuǎn)。那么,從應(yīng)用的角度看,人機(jī)交互這件事真的遙不可及么?這倒也未必。

從開始探索人機(jī)交互,我們就想當(dāng)然地認(rèn)為,把人人交互的那一端由人變成機(jī)器,就是人機(jī)交互的理想模式了。于是,我們?cè)O(shè)計(jì)出來的機(jī)器人,也都是倆肩膀扛?jìng)€(gè)腦袋,四肢五官齊備,用語言的方式跟對(duì)面的人類交流,再加上對(duì)常識(shí)一竅不通,怎么看怎么像個(gè)二傻子。

問題出在哪兒了呢?人類的信息交互,最高效的輸出方式是“說”,也就是音頻通道;最高效的輸入方式是“看”,也就是視頻通道。如果你對(duì)面是個(gè)真人,那沒辦法,雙方都只能靠說輸出信息,這就形成了語音為主的交互方式。而靠語音的人機(jī)對(duì)話,是這樣的畫風(fēng):

我想訂一張明天去上海的機(jī)票

為您查到:6:35海南航空HU7611,票價(jià)480元;6:50吉祥航空HO252,438元;6:50廈門航空MF8178,票價(jià)…

別樂,就算對(duì)面不是機(jī)器是個(gè)真人客服,這種交互也同樣令人抓狂,有過電話訂票經(jīng)歷的朋友都有體會(huì),只不過對(duì)著活人您不好意思罵街罷了。

既然對(duì)面是個(gè)機(jī)器人,就沒必要如此拘泥了。實(shí)際上,機(jī)器的交互方式,應(yīng)該跟我們“相反”而不是“相同”:你輸出信息靠說,機(jī)器人接受信息就得靠聽,這沒錯(cuò);你輸入信息靠看,那機(jī)器人輸出就別靠說了,何不在一塊屏上展示出來呢?這樣,不但信息輸出效率提高了很多,而且用戶只要在展示的信息底板上做選擇題,就算用語音輸入也大為便捷。

所以,真正適合人機(jī)交互的機(jī)器人,最好有個(gè)視頻輸出的設(shè)備,近了靠手機(jī)就可以,遠(yuǎn)了怎么辦還值得探討。這個(gè)概念,就是訊飛的胡郁老師講的“強(qiáng)視覺呈現(xiàn)的語音交互”吧。這種模式下的交互方式,已經(jīng)跟人人交互有了質(zhì)的區(qū)別,未知之處很多,需要我們深入探索。當(dāng)然,可以確定的是,機(jī)器人絕對(duì)應(yīng)該拋棄人形,以避免用戶用人的眼光和標(biāo)準(zhǔn)來評(píng)價(jià)它。

人機(jī)交互這件事,看起來簡(jiǎn)單,卻是人工智能王冠上最耀眼的一顆明珠。目前看來,嚴(yán)格意義上的圖靈測(cè)試離我們還相當(dāng)遙遠(yuǎn),不過通過交互方式和產(chǎn)品上的創(chuàng)新,一個(gè)在特定領(lǐng)域內(nèi)可用的合格助手,或許已經(jīng)在向我們招手了。

另外,由于計(jì)算機(jī)對(duì)海量信息的檢索和處理能力遠(yuǎn)勝人類,或許可以讓機(jī)器助手輔助人人交互,這樣既能大大提高內(nèi)容溝通效率,又能發(fā)揮人的情感溝通優(yōu)勢(shì),這沒準(zhǔn)是目前更加可行的產(chǎn)品路線。

  1. :距離單位,撿起一塊石頭,用力擲出,石頭落地后經(jīng)過的位移為一扔。
  2. 弱智:弱人工智能的簡(jiǎn)稱。

#特邀作者#

北冥乘海生,公眾號(hào)“計(jì)算廣告”(Comp_Ad),歡迎來知乎和微博關(guān)注。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Pexels,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 啊,說得很直白。厲害

    來自廣東 回復(fù)
  2. 很易懂!

    來自重慶 回復(fù)
    1. en

      來自河南 回復(fù)
    2. 呵呵

      來自河南 回復(fù)