從人機交互角度聊聊ChatGPT-4o
這幾天AI圈子像是過節一樣,顯示周一晚上OpenAI的發布會,發布的產品和之前的消息相差不多;然后又是昨晚上Google IO大會,也發布了新的大模型產品。這篇文章,我們把焦點放在GPT-4o上。
GPT-4o本次共更新了7項內容,作者選擇了4個要點,從人機交互的角度和我們分析,看看和大家的理解有那些不一樣。
前天半夜ChatGPT-4o的發布會應該未來幾天AI圈子最有熱度的話題了,其中幾條更新其實可以從人機交互的角度解讀一下。
首先我們還是先來看看GPT-4o更新的主要內容(只關注交互角度解讀可跳過):
- 多模態交互能力:ChatGPT 4.0支持圖像和文本輸入,并能輸出文本,具備多模態交互的能力。這意味著它可以理解圖像內容,并生成字幕、分類和分析等操作。
- 自然語言理解能力提升:在自然語言理解方面有顯著提升,這使得ChatGPT 4.0能夠更好地理解用戶的輸入,并根據用戶的語境提供更準確的回答。
- 上下文長度增加:ChatGPT 4.0的上下文長度得到增加,這使得模型在處理長篇對話時表現更佳,能更好地理解整個對話的背景和上下文,從而給出更準確和恰當的回答。
- 數據分析及可視化作圖功能:通過直接打通相關功能模塊,ChatGPT 4.0能夠利用自然語言交互,根據知識庫、在線檢索到的數據進行數據分析及可視化作圖。
- DALL·E 3.0功能:ChatGPT 4.0引入了DALL·E 3.0功能,允許用戶上傳圖片并在其上進行查詢,可以直接從必應瀏覽,并直接使用ChatGPT中的DALL·E 3.0功能,在圖片上進行創作。
- 模型架構和訓練數據的進步:開發者在這個版本中引入了更先進的模型架構、更多的訓練數據和更多的語言數據,將聊天機器人的性能提升到了一個新的高度。
- API開放和價格優惠:新版本GPT-4 Turbo支持128k上下文,知識截止更新到2023年4月,視覺能力、DALL·E3,文字轉語音TTS等功能全都對API開放,同時API價格還打了3-5折。
這其中的第1、2、3、5點都可以從人機交互的角度聊一聊。
第1點:多模態交互能力
今天作者也看了一些寫GPT-4o更新的文章,有些人僅僅把多模態交互能力理解成了我們可以不僅僅使用文字和GPT交流了,這么理解實在太小看多模態交互能力了。
要知道,人類通過文字表達和聲音表達,即使是完全同樣的文本。所包含的信息也有很大的差別。文字只是靜態的信息,而聲音包含更多維度的信息。例如語音、語調、音量、語速、停頓、重音等等。
同樣是【你好】,文字只能表達1種含義,而聲音可能能表達4-6種。對于程序來說,多模態交互意味著從更多來源獲得信息(指視、聽、文、環境等來源)。也意味著獲得更多信息(例如剛剛所說的聲音維度的語音、語調、音量、語速、停頓、重音)。
從多來源獲得信息并獲得更多信息,GPT就可以縮短推理、判斷等過程,更快速的給與用戶回復。這就像是用戶自動的把提問描述的更詳細了,把自己的要求說的更清楚了,如此一來GPT給與反饋的速度和質量自然會有對應的提升。(當然同樣也有模型方面帶來的提升)
除了聲音之外,GPT-4o的多模態交互能力還包括視覺理解能力,例如能識別圖像中的人臉,分析性別、年齡、表情等信息。這同樣是我們剛剛所說的從更多來源獲得信息以及獲得更多信息。
以上是多模態交互能力中,人向GPT輸入過程中的意義,那么對于人機交互的另一部分:GPT向人輸出的階段,同樣意義非凡。
GPT-4o可以根據需要以最合適的模態進行回應,在之前GPT只能以文字進行回復,但之后則可以是文字、聲音、圖像。聲音模態的意義是支持更多交流場景以及對無障礙交互的包容。圖像的意義就不用多說了吧,無論是取代了命令行界面的圖形化界面,還是你晉升答辯時準備的PPT,都能體現圖像相對于文字的優勢。
第2點:自然語言理解能力提升
如果說多模態交互能力代表了輸入和輸出這兩個階段。那自然語言理解能力就代表了【處理】這個階段。當GPT從多來源獲得信息后,下一步就是理解這些信息,理解過后才能給出回復信息。自然語言理解能力的提升意味著GPT-4o對用戶意圖的識別更加準確了。那么自然后續回復的內容、回復的模態都會有更高質量的結果。
第3點:上下文長度增加
這一點的意義首先體現在長篇對話上,我們可以類比人與人之間的交流方式,兩個相識了多年的朋友,可能他們一句很短的對話就可以包含非常大的信息量,例如:
張三對李四說:你上回那個設計方案真是太牛了!
這句話本身沒提及但張三和李四都能理解的信息可能有:
- 設計方案的具體內容
- 設計方案的效果
- 時間點(上回)
如果想清晰的表達以上的1、2、3包含的具體信息,可能需要上千字或十分鐘的對話才能說清楚,但由于這些信息都已經被儲存在人的記憶中,兩人在交流的過程中就可以省略很多詳細的描述和前置條件,用一句話表達大量信息。
對于GPT-4o而言,可記憶的上下文長度增加就意味著他變成了一個對你更熟悉的程序,所以當用戶與GPT-4o交流時,就可以像張三和李四交流那樣使用更少的信息交流更多的信息,同時能夠保障交流質量。
要注意的是,剛剛我使用了對你更熟悉的程序這樣的描述,而不是對你更熟悉的朋友這樣的描述,這里面關鍵的區別有兩方面,第一方面是所謂的上下文長度,可以類比人與人相識的時間和交流的信息總量、了解程度。第二方面是
我們可以暢想一下,如果現在的新生代兒童從很小的年齡就開始使用AI工具,并且AI工具附著在便攜式智能設備上,以多模態與用戶同時感知周圍環境,再加之GPT-4o的可貫穿數十年的可記憶上下文長度。這樣的AI可能會成為用戶最熟悉的朋友,甚至遠超父母、家人。如果再給與這個AI相應的硬件,那幾乎可視為智械族了~
第5點:DALL·E 3.0功能
文生圖能力以及對圖片的智能編輯能力已經是很多其他產品早已具備的了,不過GPT-4o這次更新幫助用戶節省了之前都是由用戶操作的不同數據類型轉化的操作,改為由GPT-4o代替,對用戶來說 同樣是操作效率的提升。就像我們之前如果在某張圖片上看到了一個新概念,那可能需要用打字或ocr的方式將圖片轉化成文字再繼續使用。而GPT-4o以后將為用戶省掉這個過程。
其他的像創意工作、廣告制作、產品設計、教育演示等方面的意義就不再多說,市面上已經有很多類似的產品了。
在整個發布會之中,還有一個令用戶們wow的點是GPT-4o的響應時間僅為232毫秒(平均320毫秒),幾乎達到了與人類實時對話的水平,顯著優于前代模型的延遲表現。
其實我們可以從以上的解讀中思考一下,為什么GPT-4o的響應時間得到了如此大的提升?
- 第1點:意味著GPT-4o獲取信息的速度更快了,信息量更多了。
- 第2點:意味著GPT-4o理解這些信息更快了
- 第3點:意味著GPT能從上下文獲得更多用戶沒有直接表達的信息
綜合以上3點提示再加上本身模型能力的提升,GPT-4o的響應時間達到232毫秒也就容易理解了。
當GPT-4o的響應時間達到了人類與人類對話的水平時,很多應用場景的想象空間就更大了。具體作者想到了如下幾方面:
- 實時交互性增強:這樣的響應速度使得人機對話接近無縫對接,幾乎消除了傳統人工智能助手在處理請求和提供回復之間的感知延遲。用戶在與GPT-4o交流時,會感覺像是在與另一個真實人類進行自然流暢的對話,可以大大提升了交互的真實感和滿意度。
- 用戶體驗優化:更快的響應時間減少了用戶等待反饋的心理負擔,使得交流過程更加舒適和高效。這對于需要快速反饋的場景尤為重要,比如緊急情況下的信息查詢、即時決策支持或者快節奏的商業溝通。并且更加與人與人的交流相似了,想象一下我們在和朋友聊天的時候,一般不會等個3秒再說話吧?
- 應用場景拓展:由于能夠實時處理音頻、視覺和文本信息,GPT-4o打開了通往更多應用場景的大門。例如,在客戶服務、教育輔導、遠程醫療、虛擬助理、游戲交互等領域,實時交互能力都是提升服務質量和效率的關鍵。
專欄作家
杜昭,微信公眾號:AI與用戶體驗,人人都是產品經理專欄作者,實戰派設計師,目前在某手機公司負責手機OS交互設計,所負責產品覆蓋用戶數億,主要研究AI與人機交互設計的融合及人因學對用戶體驗的影響。
本文原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!