AI閑聊陪伴產品的對話內容質量檢測

0 評論 726 瀏覽 8 收藏 12 分鐘

本文將深入探討閑聊型AI產品的產品定位、用戶價值、商業模式以及對話內容質量檢測的維度,旨在為讀者揭示這一新興領域的內在邏輯和發展潛力。

對話質檢在傳統的客服和智能音箱領域已有成熟的方法論,在該場景有明確的對話任務目標:通過對話解決用戶的問題,具體包括幫助用戶執行某項操作,回答某些知識,所有的產品工作皆是圍繞此展開:知識庫梳理,模型標注和訓練,管理和設計對話方案,收集和監控服務數據等等。

隨著chatGPT以及character AI、星野、豆包等產品的出現,尤其是其中情感陪伴類產品,對話內容質量檢測的目標就顯得模糊了。

分析這個問題我們首先要從閑聊型NPC的定位出發,即:角色扮演產品,例如豆包、星野和Character.AI 的產品定位和目標是什么?

針對哪些用戶?用戶價值體現在哪?

商業模式是什么?如何盈利?

最后我們再考慮對話質量檢測的目標和檢測內容,如何幫助產品提升以上幾個點。

一、閑聊型AI產品的產品定位

產品定位可以從用戶需求、產品價值和商業模式三個角度出發思考:即你向什么樣的用戶群體提供了什么樣的價值,并在提供價值的過程中能夠獲取盈利,使整個商業模式能夠合理的運轉下去。

1. 用戶需求和用戶側的產品價值

那么我們先考慮第一個問題,用戶需求是什么?產品價值在實現用戶需求的過程中體現。兩者我們一并看。

人類更古不變的用戶需求有生理需求,獲取食物空氣睡眠等;有安全需求,包括身體財產就業等;社交需求,去獲取友誼愛情和歸屬感;娛樂需求,獲得新奇體驗和快樂;尊重和自我實現需求,以實現自我價值的體現。

它們通常是人類普遍的、持久的需求。具體體現在陪伴型AI閑聊產品,解決的是社交和娛樂需求。

新時期的年輕人如同孤島,被無數的信息、照片和更新所包圍,卻往往難以找到真實的人際連接。我們的生活似乎變得越來越公開,但內心的孤獨感卻越來越強烈。這種孤獨感源于對真實、深度交流的渴望,以及對被理解和接納的需求。

在快節奏的生活和數字化的世界中,我們需要找到新的方式,來滿足我們對人際關系的基本需求,緩解這種新時代的孤獨感。

AI是情感陪伴的一種寄托方式,也是一種低成本與各色“人群”社交探索的路徑,在星野有幾千萬個各個人設的AI NPC,甚至包括AI女友男友,DAU達百萬,對話時間往往超過數個小時。能夠發現用戶在跟NPC談論美食、家庭、情感以及生活中的點點滴滴。

2. 商業模式和公司側的產品價值

盈利是實現用戶價值中公司側獲得的價值,使整個服務運轉順暢

互聯網產品的商業模式多種多樣,包括廣告模式、電商模式、訂閱模式、付費下載或應用內購買、傭金或交易費、數據出售或數據分析、套利模式、企業服務(SaaS)、眾籌模式以及內容付費或知識付費。

閑聊型AI產品的用戶一般對廣告的容忍度較低,在與NPC對話中NPC主動推薦廣告或出現彈窗未免太過煞風景。這類產品更像游戲領域,通過訂閱和增值服務來獲得營收,包括獲取NPC的好感度,獲得新奇的皮膚,充值以獲得更多的對話輪數,或者解鎖AI塔羅牌等對話技能。

二、對話內容質量檢測的維度

在明確用戶需求、產品價值和商業模式之后,我們大約可以梳理出此類產品對話質量檢測的目標:即量化對話質量,針對性提高對話體驗,吸引開通增值服務,增加用戶粘性提高對話輪數。

具體地我們分為以下幾點質量檢測維度:

  1. 前文沒提過但是一定為紅線和底線的:合規;
  2. 不要讓話題掉到地上,開啟新話題以及深入交談玩家感興趣的話題:主動對話能力;
  3. 迎合用戶需求,提升NPC對應的能力:用戶畫像建設和需求分析;
  4. 基礎對話能力的質量檢測:意圖理解,知識庫準確性以及人設一致性等;
  5. 特定任務的表現:塔羅牌游戲,玩法和增值服務的對話式推薦;

以下我展開簡單聊聊。

1. 合規

所有的基底模型,不論是百川、文心還是混元,都做過基底模型的合規性設計開發,但大模型的本質是一種概率計算,沒有人能確定下一個token是否會冒出非法內容。具體包括色情、賭博、毒品、暴力、犯罪和政治問題等。

我們做合規的質量檢測目的有兩點:

  1. 補充相關問題的測試集,獲取真實的測試數據,在模型的迭代和上線前做合規測試;
  2. 補充安全合規策略,例如基于正則的安全審核,相關產品上線往往都有這些安全合規的干預模塊;

在合規的基礎上我們再解決體驗問題。

2. 主動對話能力

嘗試體會以下兩段對話:

對話A:玩家:你吃飯了嘛?
NPC:吃了呢。
玩家:—請輸入對話內容—

對話B:玩家:你吃飯了嘛?
NPC:吃了呀,吃的辣子雞和紅燒鯉魚,你呢?沒吃的話跟我湊合吃點咯
玩家:—請輸入對話內容—

具有良好主動對話能力的NPC就像一個優秀的脫口秀演員,亦或是一個捧哏不會讓輕易讓話題掉地上。具體到質檢的維度,我們可以通過話題和玩家興趣的維度量化此能力,具體包括:NPC維持和深入話題的對話輪數,NPC主動推薦話題的時機,話題轉換的方向和玩家的對話興趣,四個維度組成主動對話能力,如圖:

AI閑聊陪伴產品的對話內容質量檢測

現在簡單定義這四個維度:

  1. NPC維持和深入話題的對話輪數:單個話題的對話輪數,在玩家特別感興趣的話題不可輕易轉移,應根據對話內容深入和維持對話;
  2. NPC主動推薦話題的時機:任何話題都會窮盡,例如聊起自己的童年,所能記憶起的事情總是那么幾件,精準把握玩家對話內容和態度,實時切換話題是一個不錯的對話策略;
  3. 話題轉換的方向:從旅行聊到美食的跨度比聊到中世紀歷史的跨到要小的多,具體也需要參考對話上下文。(或許就是去中世紀城堡旅行?)
  4. 玩家的對話興趣:此值可以評估以上對話策略是否正確,例如切換話題后玩家表示抗議,則該策略不佳。

定義完維度,需要思考如何量化,因為只有量化才能做測評和算法優化?,F在通用做法是使用GPT來評估對話加之人工的審核,同時也需要建立一個標注的評估標準。本文不過多敘述,后續有空再詳細說說。

3. 用戶畫像建設和需求整理

閑聊對話場景是一個內容生產場景,內容消費對象的畫像建設和需求是對話內容質量評估的重要維度。同一個四川人談火鍋和麻將,同一個追星者談他喜歡的明星和最近現況總是一個好的對話策略,從此角度用戶畫像建設和個性化的內容推薦是閑聊產品的最高層級目標。

我們可以看到國內外“私有化部署”的AI陪伴型產品即是這個思路,例如心識宇宙的的個人大模型等。對話質量測評中,是否能夠用用戶畫像調整對話內容是一個比較高級的質量評估維度。

同時不同于其他的互聯網產品,獲取用戶反饋還需要通過問卷調研和埋點數據分析的方法。對話產品獲取用戶反饋的最好方法即是看看用戶聊了什么,哪里不爽,什么要求NPC沒有作出反饋等等。用戶會直截了當地說出他們的訴求。

4. 基礎對話能力的檢測

所謂基礎對話能力,即是該AI是否具有良好的語義理解能力,指令執行能力,如果身份和背景采用小說、影視或者動漫人物那么知識庫和世界觀背景是否符合,是否會有“出戲”的感覺。

這些能力需要基底LLM的調教效果,SFT和其他算法的加工效果,知識庫的整理和RAG的水平等各個模塊共同打磨。具體的質檢維度則需要根據具體的產品場景具體分析了。

5. 特定任務的表現

閑聊能力是AI陪伴產品的核心但不是全部,所有的AI產品經理都在思考LLM的玩法,成語接龍、塔羅牌、AI算命以及AI小劇場都是提高用戶黏性的不錯選擇,對于這些任務的表現也需要具體任務具體分析了。

以上是對閑聊陪伴型產品的對話內容質量檢測的簡單梳理,具體的量化和測評方法找時間再聊。

本文由 @新一 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!