AI時(shí)代,人與機(jī)器的溝通方式
編輯導(dǎo)語:AI,也就是人工智能,隨著科技的發(fā)展,越來越多的人工智能出現(xiàn)在我們的生活中,比如手機(jī)里的對話工具,物流公司、餐館也出現(xiàn)了工作機(jī)器人;本文作者分享了關(guān)于AI時(shí)代人與機(jī)器的溝通方式,我們一起來看一下。
隨著度曉曉以虛擬形象在百度世界 2020 ?會(huì)上的?次亮相,引發(fā)了人們對人與機(jī)器的溝通?式的思考。
圖 1 – 度曉曉是百度公司推出的?機(jī)虛擬 AI 助?
度曉曉?前具備視覺識(shí)別能?,?持最?然的交流?式,更接近人與人的溝通過程,那么未來人機(jī)溝通?式?會(huì)是怎么樣的呢?
為了詳細(xì)探究人機(jī)溝通?式的變化和趨勢,我們要從最早的人機(jī)溝通?式說起。
一、人適應(yīng)機(jī)器
1. 最早的人機(jī)溝通方式
圖靈測試:
問:你會(huì)唱歌嗎?
答:是的。
問:請?jiān)俅位卮?,你?huì)唱歌嗎?
答:是的。
你多半會(huì)想到,與你對話的是一臺(tái)機(jī)器,因?yàn)檎H藢υ俅位卮饡?huì)多多少少顯得不耐煩;早在 1950 年,艾倫·圖靈發(fā)表了一篇?jiǎng)潟r(shí)代的論文,預(yù)言了創(chuàng)造出具有真正智能的機(jī)器的可能性。
由于智能這一概念很難確切定義,他提出了著名的圖靈測試——如果一臺(tái)機(jī)器能與人類展開對話而不被辨別出其機(jī)器身份,那么稱這臺(tái)機(jī)器具有智能;可見半個(gè)世紀(jì)前,人類期望的人機(jī)溝通方式就是自然的方式,即人與人對話的方式。
1)第一臺(tái)語音交互機(jī)器
在人與機(jī)器溝通的方式方向上,人類做了很多嘗試;1952 年,貝爾實(shí)驗(yàn)室開發(fā)的 Audrey 語音識(shí)別系統(tǒng)是其主要標(biāo)志;Audrey 約 180cm 高,可以識(shí)別阿拉伯?dāng)?shù)字 0 – 9 的英文發(fā)音,對熟人的準(zhǔn)確度高達(dá) 90%以上。
圖 2 – 1952 年貝爾實(shí)驗(yàn)室開發(fā)的 Audrey 語音識(shí)別系統(tǒng)
1962 年,IBM 發(fā)明了第一臺(tái)可以用語音進(jìn)行簡單數(shù)學(xué)計(jì)算的機(jī)器 Shoebox;即便如此,人類至今還沒有發(fā)明出使用人與人的溝通方式的、通過圖靈測試的機(jī)器。
2018 年 5 月,谷歌 Duplex 人工智能語音技術(shù)也只是部分通過了圖靈測試;因此,在半個(gè)世紀(jì)前,人機(jī)無法使用自然的溝通方式的原因是技術(shù)的限制;那時(shí)候互聯(lián)網(wǎng)還沒有出現(xiàn),語音識(shí)別、自然語言處理技術(shù)只是在萌芽階段。
2)第一個(gè)鼠標(biāo)
正是由于技術(shù)的限制,人類只能使用其他的方式與機(jī)器溝通。
1968 年 12 月 9 日,美國斯坦福大學(xué)博士道格拉斯·恩格爾巴特展示了世界上第一個(gè)鼠標(biāo);它的外形是一只小木頭盒子,其工作原理是由它底部的小球帶動(dòng)樞軸轉(zhuǎn)動(dòng),繼而帶動(dòng)變阻器改變阻值來產(chǎn)生位移信號(hào),并將信號(hào)傳至主機(jī)。
總的來說,人類當(dāng)時(shí)可以使用的材料是有限的,技術(shù)也只有變阻器等有限的技術(shù);在這個(gè)前提下,人類只能適應(yīng)機(jī)器,從而創(chuàng)造了鼠標(biāo)這種相對體驗(yàn)好的方式與機(jī)器溝通。我們稱這種溝通方式為“人適應(yīng)機(jī)器”。
圖 3 – 世界上第一個(gè)鼠標(biāo) | 引用 artimachines.com
2. 人適應(yīng)機(jī)器的特征
1)技術(shù)的限制
人適應(yīng)機(jī)器的根本原因是技術(shù)的限制,因?yàn)闄C(jī)器作為產(chǎn)品的一種形式,它的產(chǎn)生包括三大要素:需求、市場和技術(shù)。
- 技術(shù)是產(chǎn)品的核心驅(qū)動(dòng)力;
- 需求是產(chǎn)品落地的基礎(chǔ);
- 市場是產(chǎn)品成長的環(huán)境。
人類使用技術(shù)打造產(chǎn)品,用產(chǎn)品試探市場,滿足用戶的需求,讓新的產(chǎn)品發(fā)揮出商業(yè)價(jià)值。
50 年前,技術(shù)還沒有成熟,即便我們的需求、我們的想象力、我們期望的是用最自然的方式溝通;也只能適應(yīng)機(jī)器,使用鍵盤、鼠標(biāo)等來與機(jī)器溝通。
圖 4 – 需求、市場和技術(shù)
2)設(shè)計(jì)創(chuàng)造更好的體驗(yàn)
設(shè)計(jì)是溝通的橋梁,連接著用戶的需求和技術(shù)的能力;雖然有技術(shù)的限制,但設(shè)計(jì)師可以讓人適應(yīng)機(jī)器的體驗(yàn)變得更好。
以百度翻譯 APP 的取詞翻譯為例,直到現(xiàn)在 5G 還沒有完全普及,光學(xué)字符識(shí)別(OCR)技術(shù)在全世界 200 多語種的表現(xiàn)也達(dá)到不了毫秒級(jí)的全文精準(zhǔn)識(shí)別。
面臨著網(wǎng)速等技術(shù)的限制,設(shè)計(jì)師采用矩形的取詞框與機(jī)器溝通,讓用戶瞄準(zhǔn)書本中的單詞去翻譯;瞄準(zhǔn)哪里、翻譯哪里的這一行為,既降低了技術(shù)實(shí)現(xiàn)的難度,也讓人適應(yīng)機(jī)器的過程不再這么生硬,讓翻譯的體驗(yàn)變得更好。
圖 5 – 百度翻譯 APP 取詞翻譯
總的來說,半個(gè)世紀(jì)前“人適應(yīng)機(jī)器”的溝通方式是必然,不可否認(rèn)這種溝通方式在下一個(gè)革命性技術(shù)突破前還會(huì)長期存在,但設(shè)計(jì)可以幫助我們在這過程中創(chuàng)造更好的體驗(yàn)。
二、機(jī)器適應(yīng)人
1. 機(jī)器適應(yīng)人的時(shí)代
隨著 AI 時(shí)代的來臨,加速了 5G、面部識(shí)別等一系列新技術(shù)的進(jìn)步;雖然還未完全成熟或普及,但是機(jī)器主動(dòng)適應(yīng)人的條件似乎已經(jīng)具備,機(jī)器開始主動(dòng)適應(yīng)人的表達(dá)方式和生活方式。
圖 6 – 一系列新技術(shù)的進(jìn)步
2. 機(jī)器適應(yīng)人的方式
對話是人與人之間最自然的溝通方式之一,當(dāng)技術(shù)達(dá)到了一定的水平,語音對話逐步進(jìn)入了大眾的視野;該方式不僅提高了信息傳遞的效率,還幫助用戶解放雙手和雙眼;而且?guī)椭鷮ξ淖肿R(shí)別有障礙的群體更好的使用產(chǎn)品。
當(dāng)人們逐步適應(yīng)了對話作為與機(jī)器溝通的方式時(shí),也對溝通舒適度有了更高的憧憬和需求。
1)百度地圖 APP
借助語音技術(shù),百度語言助手“小度”大幅提升了用戶的溝通舒適度,除了對駕車這一用戶群體雙手的釋放之外;當(dāng)用戶說出“小度小度,回家”這樣簡單的指令時(shí),通過算法和數(shù)據(jù)的積累,百度地圖會(huì)根據(jù)用戶習(xí)慣,自動(dòng)規(guī)劃出從當(dāng)前位置回家的最優(yōu)路線。
甚至當(dāng)用戶每天在特定時(shí)間打開百度地圖時(shí),會(huì)預(yù)算出當(dāng)前時(shí)段你是否想去這里?使溝通更加高效。
圖 7 – 百度地圖 APP
2)百度翻譯 APP
百度翻譯 APP 通過人工智能技術(shù)幫助用戶打破語言的界限,支持全世界200+語言互譯,提升全世界的溝通體驗(yàn)。
圖 8 – 百度翻譯 APP
不僅如此,百度翻譯 APP 還幫助用戶解決學(xué)習(xí)、商務(wù)、旅游等不同場景下的語言問題,比如:百度翻譯同傳通過領(lǐng)先行業(yè)的同傳技術(shù)與服務(wù),大幅降低信息交流成本,驅(qū)動(dòng)企業(yè)持續(xù)發(fā)展。
3)百度翻譯同傳
圖 9 – 百度翻譯 同傳
在 2020 百度全球人工智能技術(shù)大會(huì)上,百度翻譯同傳搭建了大會(huì)不同語種之間溝通的橋梁。
同聲傳譯本是一項(xiàng)困難且專業(yè)的工作,翻譯官除了對語言有深厚的儲(chǔ)備,還需要極強(qiáng)的反應(yīng)能力和應(yīng)變能力;注意力需要高度集中,對腦力和體力都具有極高等要求。
同傳通過搭載百度語言自研的 SMLTA 聲學(xué)建模技術(shù),提升識(shí)別的準(zhǔn)確性;同時(shí),通過對音頻信號(hào)的加強(qiáng)處理,提升了識(shí)別的“魯棒性(Robustness)”。
在該場景下,百度翻譯同傳做到了全場景多模態(tài),即時(shí)的沉浸式體驗(yàn)——這也進(jìn)一步體現(xiàn)了機(jī)器適應(yīng)人的溝通方式。
三、人和機(jī)器相互適應(yīng)
1. 機(jī)器更像人的誕生
當(dāng)機(jī)器開始逐步適應(yīng)人,一系列新的問題也被大家所關(guān)注,人類到底因該如何與之相處成為了大眾所熱議的話題。
1992 年,雷波特與他人一同創(chuàng)辦了波士頓動(dòng)力;波士頓動(dòng)力每出一款機(jī)器人都及其引人注目,甚至?xí)破鹨魂囮嚈C(jī)器人要逆天的倫理性大討論。
圖 10 – 波斯頓機(jī)器人引用 | Boston Dynamics
2015 年 4 月 19 日,索菲亞被激活。她以女演員奧黛麗·赫本為模型,與以前的各種型號(hào)機(jī)器人相比,她更具與人類相似外觀和行為方式。
她的發(fā)明者漢森說:“它的目標(biāo)就是像任何人類那樣,擁有同樣的意識(shí)、創(chuàng)造性和其他能力?!?/p>
圖 11 – 索菲亞 | 引用 極客公園
人類從開始對于機(jī)器的期望是它能夠幫助我們帶來意想不到的便利,但隨著技術(shù)的進(jìn)步,類似像大白這樣具有溫度的機(jī)器人走進(jìn)我們的視線,它采用了更具有溫度的方式與人溝通。
圖 12- 大白 | 引用 超能陸戰(zhàn)隊(duì)
2. 不同場景下的情感溝通
由此,伴隨著技術(shù)的發(fā)展不斷發(fā)酵,關(guān)于機(jī)器更像人的討論也越演越烈。
給技術(shù)產(chǎn)品賦予人類的性格特征似乎已經(jīng)成為趨勢,被賦予的不同“人格”的機(jī)器所引發(fā)的話題也不盡相同;比如仿真機(jī)器人帶來的恐慌,和大白的爆紅。
但事實(shí)是:即使有了深度學(xué)習(xí)的加持,現(xiàn)階段的機(jī)器還遠(yuǎn)沒有到達(dá)真正“智能體”的標(biāo)準(zhǔn);既然如此,引發(fā)恐慌的究竟機(jī)器人的技術(shù),還是它過強(qiáng)“人格”所觸犯到的人類的存在感邊界?
原因是多方面的——比如從心理學(xué)的角度,由于在外形設(shè)計(jì)的層面,若機(jī)器依舊停留在工具的外形緯度,人類下意識(shí)本能的判斷也就將其歸為了工具的類別;從發(fā)明的角度,被人類發(fā)明的機(jī)器/工具,除了本身具備特定的功能之外,還取決于被如何使用或如何定義。
簡單來說,同樣一把剪刀,可以是工具也可以是兇器——計(jì)算機(jī)或是智能機(jī)器也是同樣的道理。
因此,將機(jī)器”人格”化的方向,不是賦予機(jī)器所謂獨(dú)立的“人格”;而是讓機(jī)器擁有更有情感、更人格化的設(shè)計(jì),讓人類和機(jī)器能夠產(chǎn)生情感上的溝通交流甚至共鳴,能夠更好的相互適應(yīng)。
1)多樣化場景
正如上文提到的,用語音回復(fù)的方式,賦予機(jī)器情緒和性格只是人類和機(jī)器溝通的開始。
現(xiàn)實(shí)的情況是:自然語言處理、知識(shí)圖譜、圖像識(shí)別、人臉識(shí)別等越來越多的細(xì)分技術(shù)早已被運(yùn)用到不同產(chǎn)品中,為人類解決不同場景下的問題;只是隨著需求的增多,被直接展示的越來越多罷了;由此,在不同產(chǎn)品的使用場景下,我們需要給予其更精準(zhǔn)的“人格”定位,營造更恰當(dāng)?shù)臏贤▓鼍啊?/p>
所以,作為翻譯技術(shù)賦能的學(xué)習(xí)類產(chǎn)品;結(jié)合產(chǎn)品功能和用戶需求,在設(shè)立 IP 形象時(shí),百度翻譯 APP 將其“人格”定位為“智能助手”。
圖 13 – 百度翻譯 APP IP 形象 DODO
在保留其機(jī)器屬性的同時(shí),強(qiáng)調(diào)陪伴和可依賴的溝通方式‘強(qiáng)化情感溫度,塑造區(qū)別于其他冰冷機(jī)器的愉悅感。
圖 14 – 百度翻譯 APP IP 形象 DODO
除此之外,順應(yīng)不同場景的情感溝通方案,UNIT 的個(gè)性化定制功能則滿足了人類在行為水平層面的多方面訴求。
圖 15 – 百度翻譯 UNIT 智能
2)個(gè)性化反饋
其實(shí),人與機(jī)器溝通邊界探索與機(jī)器本身情緒的反應(yīng)、分析模型的準(zhǔn)確性是直接關(guān)聯(lián)的;且在現(xiàn)有的技術(shù)中,AI 對情緒的情感分析還停留在封閉場景中的階段。
通俗來說,它也許能理解你的表情、語音,但猜不到你表情背后的內(nèi)心活動(dòng)到底是什么。
梅羅維茨在《消失的地域》中曾提出“新媒介-新場景-新行為”的關(guān)系模型,認(rèn)為新媒體的應(yīng)用可能重建大范圍的場景和行為,甚至人類的社交角色與規(guī)則也隨之產(chǎn)生影響;確實(shí),線上線下、虛擬現(xiàn)實(shí)的場景重疊,個(gè)體人類也已開始追求更具有個(gè)性化的細(xì)致表達(dá)。
例如 Emoji,表情包作為信息時(shí)代的傳播溝通符號(hào),火遍全球;在 ios12 中,借助人臉識(shí)別技術(shù),蘋果公司推出了可定制的 Memoji。
圖 16 – Apple Memoji|引用 Jeremy Horwitz
度曉曉的誕生也是如此,基于語音、圖像、語言等技術(shù)的支持賦能,度曉曉具備答疑解惑、情感陪伴等能力,可以幫用戶解決生活中的各種問題;在溝通方式上,度曉曉也不再局限于語音的互動(dòng)方式,還加入了視頻聊天、觸碰閑聊等功能。
圖 17 – 百度手機(jī)虛擬AI助手度曉曉
更重要的是,度曉曉還會(huì)隨著用戶的使用而形成不同的性格,是一個(gè)典型的養(yǎng)成型助理;且隨著用數(shù)據(jù)的積累,最終能夠?qū)崿F(xiàn)千人千面的效果,每個(gè)人的度曉曉都會(huì)因各自主人而不一樣。
圖 18 – 百度手機(jī)虛擬AI助手度曉曉
3. 未來
至此,關(guān)于機(jī)器與人類溝通的方式討論似乎還沒有一個(gè)確切的答案。
未來的機(jī)器到底是否會(huì)真實(shí)的感情? 我們無法論證,但可以肯定隨著人工智能時(shí)代的到來,機(jī)器已經(jīng)在改變?nèi)祟惖纳?,且引發(fā)了人類不同的情感需求和反應(yīng)。
腦機(jī)接口技術(shù)的爆發(fā),神經(jīng)形態(tài)芯片的日趨成熟;科技的不斷進(jìn)步,似乎為人和機(jī)器的溝通方式帶來無限的可能;也許未來的某天,機(jī)器能夠完全使用人類的溝通方式與我們溝通,甚至不被察覺。
那么對你而言,人機(jī)溝通方式的邊界在哪?未來可能又會(huì)誕生哪些技術(shù),為人機(jī)溝通帶來意想不到的可能?
參考資料:
《百度百科:度曉曉》
《百度百科:圖靈測試》
《A Brief History of ASR: Automatic Speech Recognition》
《鼠標(biāo)誕生49周年!世界上第一個(gè)鼠標(biāo)就長這樣》
《AI與情感》
《未來搜索還能這樣玩!養(yǎng)成類虛擬助理“度曉曉”亮相百度世界2020》
作者:周子軒、李俞鋒、石靜雯
本文由 @Du Design 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 unsplash,基于CC0協(xié)議
- 目前還沒評(píng)論,等你發(fā)揮!