淺談AI Agent在B端的設計思路

0 評論 3200 瀏覽 16 收藏 14 分鐘

今年大模型爆發之后,當前的AI技術仍處于第二代系統階段,尚未達到AGI水平。在在一些領域上,已經可以用AI Agent處理。作為典型應用的B端方向,如何設計符合業務需求的 AI Agent ?

隨著AI的快速發展,各種先進的大型模型、產品和工具層出不窮。作為一名B端產品經理,我們需要積極擁抱這種變革的AI技術,將其應用于我們自身的業務,以確保企業的效能不會落后于行業的發展。

一般來說,如果企業沒有自主研發大型模型,就需要依賴第三方的大型模型能力來開發AI能力,從而構建適用于企業自身的AI產品或工具。

如下圖所示,常見的大型模型方向包括自然語言處理(NLP)、多模態(multimodal)和語音識別。大型模型廠商基于特定方向的能力進行AI訓練,從而使得AI能夠在某些領域上替代人類進行“可重復的”和“可標準化的”任務。

圖片引用于開放隱私計算的《百模大戰!AI大模型你更看好哪一家?》

為了確定我們業務所需的AI能力,我們需要對相應的AI模型進行調研,并評估大型模型的輸出能力。我們可以從召回率、準確率、安全性、可解釋性、穩定性、成本和發展潛力等多個維度對大型模型進行評估,以最終選擇適合我們需求的大型模型。關于這一主題,我在之前的文章中有詳細介紹如何選擇適合自己的大型模型。

然而,當前的AI技術仍處于第二代系統階段,尚未達到AGI水平。目前可接入的大型模型仍存在一些問題,主要包括以下幾個方面:

1. AI幻覺:

AI幻覺是指AI在知識記憶、理解能力、訓練方式和模型技術等方面存在的局限性,導致其在輸出結果時表現不準確或不可靠。常見的問題包括數據偏見和解釋性差。

由于AI幻覺的存在,即使我們期望AI能夠穩定輸出可靠的解決方案,仍然會有一定比例的錯誤答案產生。例如,如果AI在某個領域的準確率為50%,那么在50個答案中會有25個錯誤答案。對于需要高精確度的業務來說,AI無法直接應用。

2. 答案合規問題

AI是基于統計學的結果預測,本質上缺乏明確的是非判斷能力。因此,在涉及道德、法律等方面的問題上,AI無法進行準確的判斷或甄別,容易給企業帶來負面影響。

3. 不夠原生:

目前,AI的交互方式主要是通過輸入-輸出的方式進行,用戶輸入內容,AI輸出結果。然而,這種流程并不符合所有業務人員的使用習慣。

以翻譯場景為例,翻譯人員的業務流程通常包括以下幾個步驟:

  1. 確定翻譯需求:確認翻譯的源語種、目標語種、翻譯風格以及不同地區的文化差異和調整方案等內容。
  2. 批量執行翻譯:翻譯任務通常涉及多條內容,翻譯人員需要在同一時間內批量完成處理。
  3. 校對:翻譯完成后,需要由校對人員進行校對,判斷是否符合業務需求。
  4. 修改:如果翻譯結果不符合需求,則需要進行修改。修改完成后,繼續進行翻譯、校對和修改的流程,直到修改通過。
  5. 交付:將通過校對的內容應用到業務中。

然而,如果要使用AI進行翻譯,以節省人力成本,直接使用大型語言模型的對話輸入交互方式會帶來以下問題:

1)打斷原有工作流程,難以形成使用習慣:

使用大型語言模型的對話窗口會打斷原有翻譯工作的業務流程。原本只需要在翻譯工具或文檔上完成工作,加入大型模型對話后,每個翻譯文本都需要在輸入框上進行輸入交互。

2)操作成本增加的上限問題:

大型語言模型存在對話長度的限制,如果翻譯內容量很大,就需要分批次進行交互,這會增加人力成本。

3)滿足特殊翻譯需求的操作成本增加:

如果存在特定的翻譯需求,比如術語翻譯或指定翻譯風格,每次都需要進行交互,這進一步占用人力。

以上問題導致AI無法有效提高業務的翻譯效率。由于操作繁瑣,用戶很難形成使用習慣,他們往往會下意識地認為直接自己翻譯比使用AI更好,因此替換成本較高。

此外,AI翻譯存在幻覺問題,無法提供超出預期的用戶體驗。

由此,【(新體驗-舊體驗)-替換成本】 并沒有大于0 ,直接使用 AI 的原生的交互方式并不能有效地提高業務率,因此需要一些更 native 的方式。

一、什么是AI Agent

基于當前人工智能存在的挑戰,我們需要思考如何在B端建設我們自己的應用。一種可行的方式是嘗試構建專為業務定制的AI Agent。

所謂AI Agent,又稱人工智能代理,是指能夠理解、學習和執行任務的自動化程序??梢詫⑵浔扔鳛?#8221;將AI視為實習生,讓其承擔瑣事,而我們則負責指導這位實習生,確保其產出符合預期的結果”。

與大型模型不同,AI Agent并非僅通過提示與人進行交互。它是基于特定工作目標,并輸出符合需求結果的系統。AI Agent的核心是大型模型,同時在此基礎上擴展了感知模塊、計劃模塊和行動模塊。

  1. 感知模塊:感知模塊通過與業務數據源和外部數據源的連接,將數據組裝到提示詞中以進行輸入。
  2. 行動模塊:行動模塊可以通過與業務能力接口的連接,根據感知和規劃的結果執行相應的業務操作。另外,還可以通過反饋系統將業務實踐中的反饋數據與代碼、策略和提示詞進行優化。
  3. 規劃模塊:規劃模塊是AI Agent的核心。除了利用大型模型的能力外,還需要根據業務需求結合代碼邏輯進行設計。在這里,我們需要構思大腦的運作方式,并采用適當的輸入輸出方式來推動業務。

二、如何設計AI Agent

那么怎么設計符合業務需求的 AI Agent ?

1. 找到合適的業務場景

首先,我們需要確定適合AI Agent 的場景,通過模擬數據輸入和收集輸出結果的方式來評估所選場景的適宜程度。在判斷輸出結果的同時,需要考察是否符合預期。若結果不符合預期,則需要評估誤差的嚴重程度,以及準確率和召回率是否存在改進空間。若存在改進空間,可以通過優化提示詞,或者通過引入感知、行動和規劃模塊的構建,使得AI符合我們的場景需求。

其次,我們可以將業務場景進行劃分,讓AI僅負責適宜的場景,作為業務的輔助與補充,即使無法完全覆蓋整個業務,也能發揮作用。

2. 梳理輸入和輸出預期

我們需要明確對于AI Agent的’目標’和’要求’,以確定我們輸入什么,Agent需要輸出什么。

基于這些’目標’和’要求’,我們應該思考如何選擇合適的輸入輸出方式來滿足業務需求并為業務賦能。這將有助于我們設計后續的輸出流程,并在設計驗證階段進行評估,以確定是否符合要求。

3. 梳理輸出流程

當我們面臨復雜的輸出要求時,需要設計多個AI會話流程,以使各個AI之間相互協作,最終實現符合要求的輸出結果。例如,在文本分類場景中,我們可以首先使用3.5版本的大模型進行準確的一級分類,以滿足需求。

由于4.0版本的成本是3.5版本的幾十倍,而3.5版本在一級分類上已經足夠使用,因此可以選擇使用3.5版本以節省成本。接著,我們可以使用4.0版本進行二級分類,以獲得更好的分類效果,確保我們輸出所需的內容。

在設計流程時,需要考慮以下幾個因素:

  • 成本因素:不同大模型及其版本的費用各不相同,我們需要權衡業務收益,選擇一個合理的大模型使用方案,以避免得不償失。
  • 效果因素:不同大模型及其版本的效果各有差異,并且在不同領域有其擅長之處。我們需要結合使用需求,選擇最適合的方案。

綜合考慮成本和效果因素,最終確定一個合適的方案。

4. 輸出檢驗機制

為了避免AI輸出結果中存在誤導性內容對業務產生影響,我們需要建立一套有效的驗證機制。常見的驗證方法包括詞庫匹配、正則表達式匹配和人工檢驗。通過使用詞庫或人工方式攔截具有誤導性的內容。此外,我們還可以構建質檢Agent,讓AI自身對輸出進行質檢,以過濾出存在問題的內容,提高誤導性內容的檢測率。

5. 幻覺兜底方案

幻覺的產生是無法完全根除的現象。為了避免對業務造成不良影響,我們需要制定兜底方案,例如:

1)人工檢驗:在AI輸出傳遞給用戶之前,引入人工檢驗環節。只有在人工檢驗通過后,才將結果輸出給用戶。這樣一來,我們能夠完美地防止AI幻覺對業務產生負面影響,并且還能夠利用AI的輸出結果提升效率。然而,這種方法需要人力審核,因此會增加一定的人力成本。

2)合理包裝:考慮到我們是面向B端的AI應用,我們可以采用包裝輸出應用為“AI助手”等方式,直接向用戶明確表示:“這里的輸出結果由AI生成,僅供參考”。通過這種方式,我們能夠讓用戶形成合理的心理預期,避免在出現幻覺輸出時產生不良反應。

三、總結

基于以上思路,我們便可以構建B端的翻譯Agent、數據分類Agent、智能客服Agent等等業務了,當然這僅僅是我個人的一些思考,歡迎大家交流討論。

為我投票

我在參加人人都是產品經理2023年度評選,希望喜歡我的文章的朋友都能來支持我一下~

點擊下方鏈接進入我的個人參選頁面,點擊紅心即可為我投票。

每人每天最多可投30票,投票即可獲得抽獎機會,抽取書籍、人人都是產品經理紀念周邊&起點課堂會員等好禮哦!

投票傳送門:https://996.pm/7d9yE

專欄作家

檸檬餅干凈又衛生,公眾號:檸檬餅干凈又衛生,人人都是產品經理專欄作家。一名游戲行業的B端產品,負責過游戲行業內CRM 、風控、BI、SDK、AI相關的內容,定期輸出個人思考或總結文章~

本文原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!