十問Chat:關于LUI,你知道多少?

0 評論 1677 瀏覽 2 收藏 19 分鐘

隨著人工智能技術的飛速發展,語言用戶界面(LUI)逐漸成為人機交互的新寵。然而,這種看似自然直觀的交互方式是否真的適合所有場景?本文通過深入探討ChatGPT等LUI形態的局限性,提出了一系列引人深思的問題,并提供了當前的一些解決方案。

從ChatGPT開始到現在,似乎我們默認了所謂的LUI(Language User Interface),不過黃叔從來沒有覺得這是應該的,也隨著對于AI產品研究的逐漸深入,在5月份情感陪伴這篇文章,就清晰的指出:

大部分人被ChatGPT和C.ai騙了!

那今天,我們進一步闡述Chat這種LUI形態是如何的“反人類”,更多是提出問題,也給出當前的一些解決方案,希望能為從業者們提供一些靈感,歡迎大家互通有無。

有位朋友總結的挺好的:“Chat更像是早期尋找PMF的交互形態, 給人曠野而非軌道?!毕M蠹夷芨玫恼业阶约旱能壍溃海?/p>

Q1:Chat對話的自然性和信息效率之間存在矛盾?

我們都知道目前的AI產品大部分很容易遇到天花板問題,比如Kimi的增長已經非常明顯卡住了:

這背后當然存在多個層面的因素影響了,但AI應用至少在國內,我們能很明顯看到還處在一個早期階段,有一點很明顯的是:

Chat對話是很自然的,很符合日常交流的,但是和信息的效率(包含輸入和獲?。┲g,似乎存在很大的矛盾。

這是一個很大的話題,作為本篇文章的起始,后面黃叔會嘗試從多個角度拋磚引玉:文字是線性的!Prompt的存在就是逆天開放性vs目標導向文字輸入vs多模態輸入不適合用Chat的形態文字輸出vs多模態輸出用戶認知和預期管理問題個性化和定制化能力不足大家都被ChatGPT和Cai騙了

Q2:文字是線性的。。。

平克說過非常有名的一段話:

寫作之難,在于將網狀的思想,通過樹狀的句法,用線性的文字展開

我們大腦中有無數碎片化的想法,你要找到一條最佳的文字線串起來,這件事情對于人類來說,是普遍非常難的,所以在搜索這個人類最大的輸入框里,大量的Query都是短詞。

如果無法用文字清晰的表達自己究竟想要的是什么,意味著Chat形態不是老百姓最好的和AI交互的形態。

這里還會有進一步的影響:認知負荷和互動深度。

一個是用戶在上下文中,自己就需要記住之前的對話內容,這增加了認知負擔,另一個是線性文字限制了互動的深度和廣度,難以實現復雜的交互和多層次的信息傳遞。

Q3:Chat需要Prompt功能才能獲得好結果?

Prompt是什么?Prompt是Chat交互形態下自然長出來的一個玩意。

Andrej Karpathy在2023年5月,微軟build大會上,分享過《State of GPT》,其中具體說了Prompt是人類語言和機器語言之間的橋梁,我們需要用Prompt來彌補人類思維與機器處理方式之間的差異。

這也是因為大模型本身就基于海量的數據做的訓練,你需要更加細致的描述,才能讓它知道你具體需要什么。

對應的,用戶如果希望獲得更高質量的AI生成的內容,也需要輸入更高質量的Prompt,現在你理解為何會有提示詞工程師這么一個職業存在的原因了吧:

Q4:在 Chat 對話中融入 GUI元素是否可行?

既然輸入那么難,那么能不能在Chat對話中融入GUI元素?

舉一個具體例子大家可以更清晰的理解,比如你去看病,醫生肯定會問一些關鍵信息,但會問你哪些關鍵信息其實是背后大量的診療經驗,以及基于望聞問切,甚至是病歷做出的,這個過程,用一個對你過去信息知道不多的大模型來多輪對話,顯然效率很低,在夸克瀏覽器里,我們就看到一個不錯的案例:

這個就是GUI(GUI是”Graphical User Interface”的縮寫,中文通常翻譯為”圖形用戶界面”)比起LUI的好處:

GUI是點擊操作,可以觸發預置好的信息,關鍵在【預置】,用選擇代替輸入,效率上比Chat高很多倍。 (from @杜昭)

有和夸克的同學交流過,AI健康問答這個場景,也是他們著重發力的,拿了大量的數據以及找了專業的醫生團隊做了驗證后,抽象出來的補充信息模塊。

另外,即刻上的@申悅 也給了個案例,智譜的智能體里,輸入也增加了表單,可以更方便的用戶知道應該輸入什么信息:

可以看到,GUI對于Chat的開放性是有很好的約束作用的,面對空白的輸入框,用戶很容易發懵:“我到底應該輸入啥才能獲得好答案?”,GUI限定條件后,用戶能更明確一些。

Q5:除了文字輸入,還有哪些更便捷、高效的輸入方式能夠應用于 Chat 對話,以降低用戶的表達門檻?

有很多方式,不是所有的方式都依賴于文字輸入。

我們在情感陪伴一文的總結中,提到了情感陪伴實際上是內容消費的邏輯,那對應的,抖音是一種上下滑和雙擊屏幕就能完成的輕互動內容消費產品,那AI生成的內容產品里,如何借用呢?

美團WOW的互動故事就提供了一種可能性,AI先生成一個章節,然后給出選項用戶點擊選擇(也可以手動輸入),AI繼續生成,循環如此:

除了上面這種,最典型的就是語音輸入,甚至是實時語音互動,最為典型的就是GPT-4o,非常炸裂的發布會我們都看到了,300ms以內的低時延,擊穿了“實時性”這個人類能感知到的節點。

大量的AI助手,也強依賴于語音交互,典型的比如Siri、小愛同學,車機上的“理想同學”“Nomi”等等。

當然難度也是語音識別的準確性,以及環境噪音、用戶有口音,以及用戶輸入意愿度的問題,特別是語音交互里,長文本的對話就不現實了,比如MiniMax的海螺AI,當打開實時語音對話時,AI的人設就會變成傾向于短回答來保證交互效率。

除此之外,圖片、視頻輸入更為典型,圖片輸入比如前陣子的網紅應用胃之書:

它的輸入并不需要輸入文字,點擊拍照,然后大模型就會自動解析,幾乎全自動的完成了錄入。

再比如360AI搜索,增加了拍照上傳功能:

更經典的解決方案是雷鵬眼鏡,在鏡框上面增加攝像頭,真正做到了所見即所得,用“Hi,meta”作為喚醒詞即可調用AI完成交互:

所以,AI眼鏡是蠻有未來機會的一種新硬件載體。

Q6:有不適合用Chat的形態么?

很典型的,Notion AI推出之后,大家也更能理解對于寫作,inline非常重要,即:在文本中間整合加入AI能力,才能更有效的幫助用戶完成創作:

同樣是文字處理,但是直接在內容里嵌入AI能力,并且點選即可完成,這種效率似乎提高了不是一星半點。

當然,Notion AI同樣加入了Copilot,用對話來幫助用戶更好的使用更多AI能力。

這種呢,就是比較復雜的文字處理,不便于在Chat線性的交互形態里完成,所以需要inline的邏輯來做,對應的,我們可以引申一下:

  • 復雜的數據分析和可視化(Excel等)
  • 長篇文檔編輯和排版(Notion AI)
  • 實時協作和團隊溝通高度專業化的技術開發(Github Copilot)
  • 設計和創意工作(視頻工作流單純的Chat不好做)
  • 教育和培訓(高度互動的教學)

Q7:AI除了輸出文字,不能輸出其他形態的內容么?

ChatGPT誕生至今,大量的ChatBot都以文字輸入輸出為核心,這也導致我們在上一篇《十問AI搜索》中提出一個問題:

AI搜索是一種退化?結論:搜索從10個鏈接到1個答案是進化,但從視頻到文字是退化

我們可以看一下抖音的AI搜索,如上~

抖音的日活達到7個億以后,我相信已經有非常多所謂下沉市場的用戶在使用了,他們已經非常的習慣于刷短視頻來獲取信息了,那上面的文字版本的抖音AI搜索是不是一種所謂的倒退呢?或許用戶在看到抖音里出現大片段文字的時候,會直接關掉。

交叉對比,我有和小紅書的運營交流過,小紅書其實鼓勵我多去發圖文筆記,因為一二線的用戶對于圖文筆記的吸收效率是最快的,想想圖文筆記的結構化和信息提取速度,一目十行,可以非??斓木屠斫獾侥惚磉_的意思。但是視頻內容其實就更加的線性,只能隨著視頻內容的按時間展開:

兩者結合,會發現一個有意思的現象:

  • 一二線城市受過高等教育的用戶更容易接受圖文結構化的信息;
  • 三四線城市/農村的用戶,只能接受視頻信息。

這也意味著,AI產品想要突破當前的圈層,勢必要延展出去,有更多模態的內容呈現,才能讓用戶更加容易吸收。

我們會發現很多產品開始逐漸增加對多模態的支持,比如Genspark重新組織了Sparkpage在內容形式的組織上,比如一些AI游戲,把AI融入到游戲中的嘗試,都非常的有趣。比如百川也做了碟鏡Dreamland:

還有AiPPT類內容的組織,也很好的實現了Query to PPT方式的形態,比如做得很好的Gamma:

這塊隨著技術的成熟也會逐漸開始發展起來,值得期待。

除了上面輸入輸出方面的的問題之外,還有下面的問題:

Q8:用戶認知和預期管理問題?

ChatBot形式的交互界面,很容易讓用戶高估 AI 的理解和解決問題的能力。

那我自己舉例子,作為一名蔚來車主,在看到蔚來宣傳Nomi接入大模型,升級為NomiGPT后,就嘗試做一些交流,但會發現很多問題給的答案都很差,就會默認覺得NomiGPT不行,下意識的會拒絕使用。

其實作為車機里的GPT,應該非常清晰的給出一些關鍵指引,比如用車相關,車控相關,這樣更容易讓用戶找到Good Case,而不是面面俱到,很容易就遇到Bad Case,宣傳角色扮演、樹洞情感陪伴,這種非常不好。

假如說1000萬次的總聊天互動次數,那角色扮演和情感陪伴只占到總數的千分之二三,并且這兩點其實最先進的大模型都滿足的不好,何況一個接入了國產大模型的Nomi。

這背后就涉及到,要明確產品定位和功能邊界: 讓用戶清楚地知道 AI 產品能做什么,不能做什么。同時加強用戶的引導,再不斷提高用戶常見Query的效果。

Q9:個性化和定制化能力不足?

既然是Chat,用戶會把AI當成某個角色在腦海中進行演繹,但目前許多 Chatbot 產品就像流水線生產的“標準化”機器人,缺乏“個性”和“溫度”,無法滿足用戶對獨特體驗的需求。

比如,很多 Chatbot 的語言風格過于機械、生硬,缺乏情感和個性,無法與用戶建立情感連接。用戶難以感知到 Chatbot 的“人設”,更像是在與一個冰冷的機器對話。

比如,理想情況下,Chatbot 應該像一個貼心的朋友一樣,記住用戶的喜好和習慣,提供更加個性化的服務。但現實是,很多 Chatbot 缺乏記憶能力,無法根據用戶的歷史行為和偏好進行個性化推薦或服務。

能部分做到這一點的,拿到了OpenAI投資的Dot,在即刻已經發現一些朋友對這款產品極度的喜愛:

當然,受限于前面說的幾個問題,也會影響它被大眾接受的廣泛度。

再比如,很多 Chatbot 產品的功能和服務都是固定的,用戶無法根據自己的需求進行定制化設置。例如,用戶無法選擇 Chatbot 的語言風格、對話主題、信息推送頻率等。

還有,很多 Chatbot 產品的設計目標是服務于大眾用戶,缺乏對特定場景和用戶群體的針對性設計。例如,面向老年人的 Chatbot 產品應該是什么樣的?或者說并不需要一個ChatBot,而是一個人形機器人?

總而言之,個性化和定制化是 Chatbot 產品未來發展的重要方向。

Q10:大家都被ChatGPT和Character.ai騙了?

這個問題的核心在于,ChatGPT和Character.ai等聊天型AI產品是否在某種程度上誤導了用戶對AI的期望和認知。

首先,Chat這種形態的引入,還是把AI模擬成了人類,從圖靈測試開始,似乎大家對于AI就有了這種感性的認知,似乎Chat是必然的智能表現的形態:

特別是ChatGPT和Character.ai流暢的對話能力,給用戶帶來了高度智能的錯覺。

所謂的LUI范式出現了。對應的問題一直沒有答案:

LUI是不是符合用戶需求的最佳范式?

沒有答案,大家都一直在探索,個人認為,LLM的智能,只用Chat來表達是非常狹隘的,隨著GPT4o和Gemini 1.5的多模態能力出現,我們也發現了GPT5遲遲無法發布的前提下,大模型仍然在進化,也出現了更多的應用落地可能性。

把思考抽出來,重新理解Chat的局限,也有助于我們更好的設計產品。

本文由人人都是產品經理作者【Super黃】,微信公眾號:【AI產品黃叔】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!