GPT-4o和Gemini Live,OpenAI和谷歌都在重新定義大模型產(chǎn)品的人機(jī)交互標(biāo)準(zhǔn)

0 評(píng)論 1210 瀏覽 5 收藏 15 分鐘

就在這周的前幾天,OpenAI和Google都相繼發(fā)布了新的大模型產(chǎn)品。盡管真正的具身智能還有很長(zhǎng)的路,但大家都在借助新的AI想定義新的人機(jī)交互標(biāo)準(zhǔn),在多模態(tài)交互上,邁出關(guān)鍵一步。

這是我們首次在易用性方面取得重大突破,意義非凡!因?yàn)檫@揭示了我們與機(jī)器之間未來(lái)的互動(dòng)方式。

——Mira Murati OpenAI首席技術(shù)官

GPT-4o的發(fā)布,無(wú)疑是昨日AI圈一大焦點(diǎn)。很多文章都做了詳細(xì)介紹和功能解析,總結(jié)下來(lái)有3個(gè)核心優(yōu)勢(shì):

  1. 使用門(mén)檻更低:免費(fèi)開(kāi)放、API價(jià)格減半、Mac版工具
  2. 使用體驗(yàn)更好:速度翻倍、跨模態(tài)推理、自然對(duì)話(huà)
  3. 使用場(chǎng)景更豐富:情緒感知、實(shí)時(shí)語(yǔ)音、視覺(jué)增強(qiáng)

其中最能引發(fā)遐想的,我覺(jué)得是“實(shí)時(shí)理解世界”的能力,包括對(duì)物理現(xiàn)實(shí)的理解,和人類(lèi)情緒的理解。

無(wú)獨(dú)有偶,就在5月15日凌晨,谷歌在Google I/O開(kāi)發(fā)者大會(huì)展示了名為“Gemini Live”的新體驗(yàn):

和GPT-4o一樣,Gemini Live可以通過(guò)手機(jī)攝像頭拍攝的照片或視頻,查看用戶(hù)的周?chē)h(huán)境,并對(duì)其做出反應(yīng)。作為人類(lèi)的代理,它可以看到和聽(tīng)到我們所做的事,更好地了解我們所處的環(huán)境,并在對(duì)話(huà)中快速做出反應(yīng),從而讓交互更自然。

這項(xiàng)能力的發(fā)布,很明顯都在指向一個(gè)關(guān)鍵詞:具身智能

具身智能強(qiáng)調(diào)“感知—行動(dòng)回路”,并呈現(xiàn)出三個(gè)特點(diǎn):

  1. 一定是多模態(tài)的,能像人一樣通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等感官,以及語(yǔ)言、運(yùn)動(dòng)、交互等行為,完成一系列智能任務(wù)。
  2. 能根據(jù)環(huán)境的交互積累經(jīng)驗(yàn),基于不同數(shù)據(jù)構(gòu)建不同模型,產(chǎn)生不同的智能,在完成任務(wù)上更智能;
  3. 機(jī)器人或智能體有自主性,和人類(lèi)的學(xué)習(xí)和認(rèn)知過(guò)程一致。

盡管距離真正的具身智能還有很長(zhǎng)的路要走,但我看到了在多模態(tài)交互上,人類(lèi)邁出了關(guān)鍵一步。

我覺(jué)得無(wú)論是OpenAI還是谷歌,都在借助新的AI技術(shù),為我們制定了新的大模型產(chǎn)品的人機(jī)交互標(biāo)準(zhǔn)。

一、大模型產(chǎn)品的人機(jī)交互標(biāo)準(zhǔn)是什么?

說(shuō)起大模型產(chǎn)品的交互方式,通常第一反應(yīng)都是CUI(Conversational User Interface 對(duì)話(huà)式用戶(hù)交互界面),或者叫LUI(Language User Interface,語(yǔ)言交互界面)。甚至很多人一度認(rèn)為,這就是AI產(chǎn)品最終的交互方式了。

然而真是這樣么?回歸到交互的本質(zhì),無(wú)論是圖形界面,還是對(duì)話(huà)界面,目的都是要更精準(zhǔn)地解讀用戶(hù)的輸入意圖,達(dá)成更匹配的輸出。

表面上看,似乎用對(duì)話(huà)方式,用戶(hù)可以更自由、靈活地表達(dá)需求,而不用局限在產(chǎn)品經(jīng)理預(yù)設(shè)的界面上去完成任務(wù)。然而,回歸到交互設(shè)計(jì)原則上看,到底什么樣的交互,是真正對(duì)用戶(hù)友好的?

著名的美國(guó)認(rèn)知心理學(xué)家、用戶(hù)體驗(yàn)設(shè)計(jì)大師唐·諾曼(Don Norman),曾提過(guò)一個(gè)好產(chǎn)品的交互設(shè)計(jì)六項(xiàng)基本原則,分別是:

示能(Affordance)

指一個(gè)物理對(duì)象本身就有的、特定的交互方式,不需要解釋?zhuān)苯泳涂梢员桓兄?。比如一把椅子,不管它怎么設(shè)計(jì),一定會(huì)有一個(gè)平面可以坐人。這里面的“平面”,就是一種示能。一出現(xiàn)平面,人們就會(huì)天然地認(rèn)為,這個(gè)地方是可以坐的。

意符(Signifiers)

意符是一種提示,告訴用戶(hù)可以采取什么行為。比如我們經(jīng)??吹剑行┥虉?chǎng)的大門(mén)上,會(huì)寫(xiě)上“推”或者“拉”的提示,這個(gè)推和拉就是一種意符。

約束(Constraint)

約束限定了一系列可能的操作。在設(shè)計(jì)中有效使用約束因素,就可以讓用戶(hù)在任何未知環(huán)境下都能找到合適的操作方法。比如拼樂(lè)高積木、使用電源插座。

映射(Mapping)

映射表示兩組事物要素之間的關(guān)系,是可以直觀(guān)反映在物理位置上的。比如辦公室的頂燈和對(duì)應(yīng)的開(kāi)關(guān),它們之間的排布是一一對(duì)應(yīng)的,你就可以知道按哪個(gè)按鈕開(kāi)關(guān)哪排燈。

反饋(Feedback)

好設(shè)計(jì)一定要有即時(shí)反饋,稍有延遲便會(huì)令人不安。生活中我們經(jīng)常會(huì)碰到有人在電梯前反復(fù)按樓層鍵,就是因?yàn)槿鄙偌皶r(shí)反饋。反饋需要精心策劃,以一種不顯著的方式確認(rèn)所有操作。

概念模型(Conceptual Models)

指高度簡(jiǎn)化的說(shuō)明,告訴用戶(hù)產(chǎn)品是如何工作的。比如電腦中的文件和文件夾就是一套概念模型,實(shí)際上硬盤(pán)上并不存在文件夾,但這比復(fù)雜的計(jì)算機(jī)指令更能讓用戶(hù)理解計(jì)算機(jī)的操作。

我們把傳統(tǒng)對(duì)話(huà)式交互,分別帶入這6個(gè)原則:

你會(huì)發(fā)現(xiàn),似乎文字對(duì)話(huà)框式的使用方式,并不符合一個(gè)好產(chǎn)品的交互原則。

而GPT-4o和Gemini Live的出現(xiàn),我認(rèn)為是重新定義了大語(yǔ)言模型產(chǎn)品的交互設(shè)計(jì)標(biāo)準(zhǔn)。因?yàn)樗鼮槲覀儙?lái)了:

  • 更即時(shí)的交互反饋
  • 更立體的交互方式
  • 更情緒化的交互過(guò)程

二、更即時(shí)的交互反饋

Murati在發(fā)布會(huì)上提到,與GPT-4-Turbo相比,GPT-4o的速度快2倍。尤其在語(yǔ)音對(duì)話(huà)場(chǎng)景,GPT-3.5的平均延遲為2.8秒,GPT-4為5.4秒,而GPT-4o對(duì)音頻輸入的平均響應(yīng)時(shí)間為320毫秒,最短的響應(yīng)時(shí)間為232毫秒,與人類(lèi)的響應(yīng)時(shí)間相似。Gemini Live也支持在聊天時(shí)打斷,讓AI實(shí)時(shí)適應(yīng)人類(lèi)語(yǔ)言表達(dá)的模式。

這樣的高效,帶來(lái)了更自然的使用體驗(yàn),讓人類(lèi)和大模型的交流,更符合人與人之間面對(duì)面溝通的概念模型。也創(chuàng)造了更即時(shí)的反饋。將這些技術(shù)和增強(qiáng)的語(yǔ)音引擎相結(jié)合,就可以實(shí)現(xiàn)更一致的情感表達(dá)和現(xiàn)實(shí)的多輪對(duì)話(huà)。

三、更立體的交互方式

人機(jī)交互的底層原理,可以概括為:事件有反饋,操作有結(jié)果。

輸入的對(duì)象是機(jī)器,輸入給機(jī)器的內(nèi)容,是固定化的指令和多樣化的信息。而輸出的對(duì)象是人,輸出的內(nèi)容是給到人的感官反饋。優(yōu)秀的交互設(shè)計(jì),就是用更多元的輸入,帶給用戶(hù)更豐富的輸出。

喬布斯說(shuō)過(guò):

蘋(píng)果電腦就是21世紀(jì)人類(lèi)的自行車(chē),只要愿意,誰(shuí)都可以擁有它。它是工具,是人類(lèi)大腦的延伸。

在人與電腦之間,可以發(fā)展出特殊的關(guān)系,它可以改善個(gè)人的生產(chǎn)力。

GPT-4o交付給我們的,不光是人類(lèi)的第二大腦,更是第二雙眼睛、耳朵和嘴。

通過(guò)GPT-4o,大模型的示能方式可以延展為“能說(shuō)話(huà)的攝像頭”,扮演教你做題的數(shù)學(xué)老師、為你同聲傳譯的翻譯官、理解你情緒的咨詢(xún)師。

而文字表達(dá)帶來(lái)的低約束性問(wèn)題,也可以借助對(duì)視覺(jué)、聲音、語(yǔ)調(diào)的理解,讓大模型圍繞特定環(huán)境給出更精準(zhǔn)的對(duì)話(huà)引導(dǎo)。想象下,當(dāng)打開(kāi)AI后,它會(huì)先環(huán)顧四周,知道你在哪兒,身邊都有誰(shuí),大家在說(shuō)什么,再開(kāi)啟一場(chǎng)更符合場(chǎng)景的對(duì)話(huà),這樣的交互簡(jiǎn)直不能再自然了。

四、更情緒化的交互過(guò)程

“人類(lèi)的生命,不能以時(shí)間長(zhǎng)短來(lái)衡量,心中充滿(mǎn)愛(ài)時(shí),剎那即為永恒”

人與機(jī)器的區(qū)別之一,就在于能否理解情緒,甚至表達(dá)情緒。

AI+情緒,也一直是創(chuàng)業(yè)者熱衷投入的賽道。無(wú)論是微軟小冰、Glow、Character.AI、Replika等聊天陪伴型機(jī)器人,還是Pi、Hume.AI這種對(duì)情緒理解更深入的技術(shù)解決方案。都希望借助情感化設(shè)計(jì),提供更貼心和人性化的服務(wù)。

唐·諾曼(Don Norman)在《設(shè)計(jì)心理學(xué)3-情感設(shè)計(jì)》中寫(xiě)到,情感化設(shè)計(jì),自底向上分為:本能層、行為層、反思層三層結(jié)構(gòu)。

  • 本能層表現(xiàn)為感性認(rèn)知,憑借第一印象吸引用戶(hù)。
  • 行為層體現(xiàn)在操作產(chǎn)品時(shí),是否有清晰流暢的步驟,明確的使用動(dòng)線(xiàn),靠體驗(yàn)留住用戶(hù)。
  • 反思層則代表產(chǎn)品融入了獨(dú)特的文化內(nèi)涵和差異化的亮點(diǎn)設(shè)計(jì),能打動(dòng)人心,扎根在記憶中。

想象下,具備情緒感知和視覺(jué)理解的AI,可以在本能層表現(xiàn)的更加自然生動(dòng),在行為層給出更連貫、可打斷、有記憶的個(gè)性化輸出,在反思層深深植入每個(gè)人獨(dú)有的陪伴角色。

當(dāng)然,也許你會(huì)覺(jué)得我想多了,這些新技術(shù)沒(méi)那么厲害。不就是在文字聊天的基礎(chǔ)上,增加了語(yǔ)音和視頻通話(huà)的功能么?說(shuō)它是重新定義了AI交互,太夸張了。

說(shuō)的沒(méi)毛病。不過(guò)我更關(guān)心的,不在定義本身,而是想為你提供一種設(shè)計(jì)AI產(chǎn)品交互界面的新思路。

我的觀(guān)點(diǎn)是:

作為生產(chǎn)力工具的大模型產(chǎn)品,在產(chǎn)品設(shè)計(jì)之初,就應(yīng)該考慮多模態(tài)的交互方式。

  • 大模型產(chǎn)品,應(yīng)該是可以“看”的——通過(guò)視覺(jué)或其他感官,感知環(huán)境。
  • 大模型產(chǎn)品,應(yīng)該是可以“說(shuō)”的——根據(jù)環(huán)境的不同,進(jìn)行自然語(yǔ)言對(duì)話(huà)。
  • 大模型產(chǎn)品,應(yīng)該是可以“聽(tīng)”的——在對(duì)話(huà)和觀(guān)察中感知情緒,認(rèn)真聆聽(tīng),做出反應(yīng)。
  • 大模型產(chǎn)品,應(yīng)該是可以“記”的——在長(zhǎng)期交互中形成記憶,動(dòng)態(tài)調(diào)整和你的互動(dòng)方式和輸出的內(nèi)容。

回看當(dāng)初OpenAI發(fā)布Sora時(shí),曾提出“視頻生成模型是世界模擬器”的觀(guān)點(diǎn)(Video generation models as world simulators)。構(gòu)建世界模擬器的前提,就是要增強(qiáng)對(duì)世界的理解,補(bǔ)充更多物理規(guī)律和世界常識(shí)。多模態(tài)交互的設(shè)計(jì),正是達(dá)成這一目標(biāo)的最優(yōu)解。

五、結(jié)語(yǔ)

最后,我們?cè)賮?lái)看看本文開(kāi)頭提到的交互設(shè)計(jì)六原則,我想試著把多模態(tài)交互也填進(jìn)去,看看和傳統(tǒng)chat式交互的對(duì)比差異。

客觀(guān)看,就算增加了多模態(tài),當(dāng)前的大模型和人類(lèi)的交互方式,仍不是最優(yōu)的,那還有沒(méi)有其他解法呢?

肯定是有的,好的交互,永遠(yuǎn)不是單一設(shè)計(jì)。

我們完全可以融合GUI+CUI/LUI+多模態(tài)幾種形式到一起,在指定場(chǎng)景下,為特定角色設(shè)計(jì)交互方式。比如老師機(jī)器人、醫(yī)生機(jī)器人、教練機(jī)器人。人類(lèi)都可以分角色,為什么AI不行呢?

專(zhuān)欄作家

申悅,微信公眾號(hào):互聯(lián)網(wǎng)悅讀筆記(ID:pmboxs),人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家,前360產(chǎn)品總監(jiān),起點(diǎn)學(xué)院優(yōu)秀導(dǎo)師。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議。

該文觀(guān)點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!