大佬們都在關注的AI Agent,到底是什么?用5W1H分析框架拆解AI Agent(上篇)
前幾個月各大廠商還在為大模型大打價格戰,而后開始的是AI Agent的爭奪——大家突然關心起AI的應用場景,開始做瀏覽器插件,做APP搶奪市場。為什么會這樣?在這個系列文章里,作者嘗試高速我們答案。
大模型的橫空出世,重新點燃了市場對AI的熱情。AI Agent的概念,更是將AI的熱潮推向了新的高度。從去年開始,AI Agent就成為了炙手可熱的名詞,其熱度絲毫不亞于對大模型的討論,甚至一眾大佬都紛紛為AI Agent站臺。
2023年下半年,OpenAI聯合創始人,前TeslaAI總監Andrej Karpathy說道:
“如果一篇論文提出了某種不同的訓練方法,OpenAI內部會嗤之以鼻,認為都是我們玩剩下的。但是當新的AI Agents論文出來的時候,我們會十分認真且興奮地討論。普通人、創業者和極客在構建AI Agents方面相比OpenAI這樣的公司更有優勢?!?/p>
在AI Ascent 2024大會上,斯坦福大學教授、前谷歌大腦項目創始人,吳恩達分享了關于AI Agent的最新趨勢與洞察
AI Agent(AI智能體)工作流將在今年推動人工智能取得巨大進步——甚至可能超過下一代基礎模型。這是一個重要的、令人興奮的趨勢,我呼吁所有人工智能從業者都關注它。
微軟創始人比爾蓋茨,也通過個人網站發表了對AI Agent的看法:
AI Agent將成為下一個平臺,簡而言之,AI Agent幾乎將在任何活動和生活領域提供幫助,對軟件行業和社會產生深遠的影響。
與此同時,趁著這波浪潮,在短短的一年時間內,AI Agent(AI智能體)領域的創業公司和獨角獸也實現了爆發式的增長。早在去年3月份,AutoGPT就在GitHub上獲得了7.4萬星,并快速成為史上Star數量增長最快的開源項目,如今已經獲得超過16萬星。后續發布的BabyAGI、AgentGPT也如雨后春筍般涌現,調研報告、訂購披薩、發送郵件、旅行攻略,無數的Agent應用場景紛紛開始落地。
在國內,AI Agents相關的產品也相繼誕生。早在去年7月,阿里云就發布了旗下第一個智能體——ModelScopeGPT,面向開發者群體。隨后百度文心智能體平臺、字節Coze、騰訊元器,各大廠商的AI智能體平臺也紛至沓來。
面對如此巨大的熱潮,相信很多讀者在心潮澎湃的同時,也會心存疑慮。AI Agent到底是什么?是真正的科技突破還是科技泡沫?對企業和個人能帶來什么影響?
接下來,風叔將使用5W1H分析框架來詳細拆解AI Agent,一步步帶著大家了解AI Agent的全貌。由于內容比較多,風叔將通過三篇文章來逐步闡述全部內容。
上篇:介紹What + Why,主要解答以下問題。
What:AI Agent是什么?有哪些組成部分?AI Agent的原理是什么?AI Agent是怎么分類的?
Why:為什么會產生AI Agent?AI Agent的優勢和劣勢是什么?為什么企業和個人都要關注AI Agent?
中篇:介紹When + Where + Who,主要解答以下問題。
When:AI Agent的發展歷程是怎樣的?AI Agent未來的發展趨勢是怎樣的?
Where:AI Agent有哪些應用場景?
Who:AI Agent領域的玩家有哪些?AI Agent領域的行業價值鏈是怎樣的?
下篇:介紹 How,主要解答以下問題。
How:如何實現AI Agent?AI Agent包括哪些系統模塊?如何開始學習AI Agent?
下面正式開始5W1H框架對AI Agent的拆解之旅!
一、5W1H分析框架之What
1.1 AI Agent到底是什么?
從概念上來說,AI Agent(智能體)是一種不需要持續人類干預的AI系統,可以基于環境和背景信息,自主分析各種問題,做出邏輯決策,并且在沒有持續人類輸入的情況下處理多種任務。
AlphaGo就是一個典型的AI Agent,它可以在和人類對弈圍棋的過程中,根據當前的棋局和對手的行動,自主決策下一步的動作。AI助手也是AI Agent,比如你只需要給AI助手下達一個指令,“幫我預訂明早10點上海飛深圳的機票”,AI助手就能自動幫你完成從機票搜索、查詢、下單、確認的全部動作。
從結構上來說,一個AI Agent包括三個部分,如下圖所示:
Perception(輸入):AI Agent通過文字輸入、傳感器、攝像頭、麥克風等等,建立起對外部世界或環境的感知。
Brain(大腦):大腦是AI Agent最重要的部分,包括信息存儲、記憶、知識庫、規劃決策系統。
Action(行動):基于Brain給出的決策進行下一步行動,對于AI Agent來說,行動主要包括對外部工具的API 調用,或者對物理控制組件的信號輸出。
目前在大模型熱潮的背景下,媒體上所講的AI Agent,更嚴格意義上來說應該叫做LLM Agent,因為整個Agent最重要的控制中樞Brain,其底層是LLM大模型。如果未來產生了比LLM更強大更智能的AI技術基座,那同樣也會產生基于新的AI基座的Agent。下文所介紹的AI Agent,如無特殊說明,都指代LLM Agent。
那么Agent和LLM大語言模型到底是什么關系呢?可以這樣進行簡單類比,如果把LLM(比如GPT)比作大腦中的一堆神經元,具有記憶、常識和推理等能力,那么AI Agent就是獨立的人,除了擁有大腦之外,還擁有視覺、聽覺、味覺等多種感官,以及擁有手和腳操作外部的工具。
因此從本質來講,AI Agent = 大語言模型+記憶+規劃+工具使用。
接下來,我們逐步拆解AI Agent的組成部分。
1.2 詳細拆解AI Agent的構成
1.2.1 構成一,規劃Planning
Planning是整個AI Agent中最核心最關鍵的部分,Agent會把大型任務分解為子任務,并規劃執行任務的流程。同時Agent還會對任務執行的過程進行思考和反思,從而決定是繼續執行任務,還是判斷任務完結并終止運行。
整個Planning模塊包括兩個步驟:子任務分解,反思和完善。
步驟一,子任務分解
Agent 將大型任務分解為更小、更易于管理的子目標,從而高效處理復雜任務。主要的子任務分解方式包括:思維鏈COT(Chain of thought)、思維樹TOT(Tree of thought)、思維圖GOT(Graph of thought)、規劃器LLM+P。
a. 思維鏈COT
思維鏈COT的全稱是Chain of Thought,當我們對LLM這樣要求「think step by step」,會發現LLM會把問題分解成多個步驟,一步一步思考和解決,能使得輸出的結果更加準確。這就是思維鏈,一種線性思維方式。
b. COT-SC
一個CoT出現錯誤的概率比較大,我們可以讓Agent進行發散,嘗試通過多種思路來解決問題,然后投票選擇出最佳答案,這就是CoT-SC。
c. 思維樹TOT
思維樹TOT是對思維鏈CoT的進一步擴展,在思維鏈的每一步,推理出多個分支,拓撲展開成一棵思維樹。使用啟發式方法評估每個推理分支對問題解決的貢獻。選擇搜索算法,使用廣度優先搜索(BFS)或深度優先搜索(DFS)等算法來探索思維樹,并進行前瞻和回溯。
d. 思維圖GOT
思維樹ToT 的方式也存在一些缺陷,對于需要分解后再整合的問題,比如排序問題,排序我們可能需要分解和排序,然后再merge。這種情況下TOT就不行了,可以引入思維圖GOT來解決。
e. LLM+P
其原理是依靠外部傳統規劃器來進行長視野規劃,利用規劃域定義語言(PDDL)作為中間接口來描述規劃問題。在此過程中,LLM先將問題轉化為成”Problem PDDL”形式,然后請求經典規劃器根據現有的 “Domain PDDL “生成 PDDL 計劃,最后將 PDDL 計劃翻譯回自然語言。
步驟二,反思和完善
反思和完善機制在Agent 應用中發揮著重要的作用,Agent 通過完善過去的行動決策和糾正以前的錯誤來不斷改進。尤其是在現實世界的任務中,不可能在規劃環節就能做出萬無一失的計劃和策略,試錯是不可避免的,只有通過自我反思和逐步完善,才能一步步逼近最佳結果。
反思和完善機制的實現,主要有以下幾種方式。
a. ReAct
ReACT的全稱是Reasoning-Action,這種模式是讓大模型先進行思考,思考完再進行行動,然后根據行動的結果再進行觀察,再進行思考,這樣一步一步循環下去。
和ReAct相對應的是Reasoning-Only和Action-Only。在Reasoning-Only的模式下,大模型會基于任務進行逐步思考,并且不管有沒有獲得結果,都會把思考的每一步都執行一遍。在Action-Only的模式下,大模型就會處于完全沒有規劃的狀態下,先進行行動再進行觀察,基于觀察再調整行動,導致最終結果不可控。
在實際的測試觀察中,ReAct模式的效果要好于Reasoning-Only和Action-Only。
b. Reflexion
Reflecxion是一個為 Agent 配備了動態記憶和自我反思能力的框架,能夠提高 Agent 的推理能力。Reflexion 具有標準的強化學習機制,其獎勵模型提供了一個簡單的二進制獎勵機制,執行空間則遵循 ReAct 中的設置。每次行動,Agent 都會計算一個啟發式 ht,并根據自我反思的結果決定環境重置以開始新的試驗。
c.Basic Reflection
還有一種反思和完善的方式,其本質是利用左右互搏來實現協同進化。比如設計一個幫助用戶完成市場調研報告的Agent系統,其中Generator負責輸出,Reflector負責檢查,通過兩個角色之間不斷的協同,來實現整個任務的反思和完善。
1.2.2 構成二,記憶Memory
記憶是Agent用于獲取、存儲、保留和隨后檢索信息的過程,我們先用人腦的記憶做個類比,人腦中有多種記憶類型:
感官記憶:這是記憶的最早階段,能夠在原始刺激結束后保留對感官信息(視覺、聽覺等)的印象,通常只能持續幾秒鐘。包括圖標記憶、回聲記憶和觸覺記憶三種類型。
短時記憶(STM)或工作記憶:指的是我們當前意識到的信息,或者在學習和推理等復雜認知任務中所需要的信息。人類的短時記憶容量約為 7 items(Miller, 1956)、持續時長為 20-30 秒。
長時記憶(LTM):長時記憶指的是能夠存儲很長時間,從幾天到幾十年不等的信息,它的存儲容量基本上是無限的。長時記憶又包括顯性記憶和隱性記憶,顯性記憶是可以有意識地回憶起來的事實,比如事件經歷和語義記憶;隱性記憶是內化后無意識的行為,比如騎自行車。
了解了人類的記憶模式,我們再來看如何將其映射到AI Agent。
感官記憶是對原始輸入的嵌入表征的理解,包括文本、圖像或其他模式,比如圖片的紋理和風格。短時記憶即上下文學習,由于受到Transformer上下文窗口長度的限制,它是短暫的和有限的。長期記憶則可對應為外部的向量數據存儲,Agent 可在查詢時引用,并可通過快速檢索進行訪問。
還有一個非常關鍵的因素,大模型知識的更新。由于大模型是用海量的通用數據訓練的,基礎的大模型可以理解為是一個及格的通才,什么話題都知道一些,但是存在胡言亂語和幻覺現象。尤其是在面向企業端的場景,一個及格的通才是無法使用的,需要利用企業的專屬數據進行喂養和訓練。這個時候,就可以通過RAG【檢索增強生成】技術,在基礎大模型的基礎上掛載企業專屬的知識庫,以向量數據庫的方式存儲,將Agent訓練為一個優秀的專才。
RAG技術在AI Agent的應用中非常關鍵,大家可以提前標記一下這個概念。在后續文章中,風叔還將重點介紹RAG技術的原理和使用方法。
1.2.3 構成三,工具Tooling
為AI Agent配備工具API,比如計算器、搜索工具、代碼執行器、數據庫查詢等工具,AI Agent就可以和物理世界交互,來解決更加實際的問題。
Agent使用工具的方式主要有以下幾種:
a. TALM & ToolFormer
TALM和ToolFormer都是對 LLM 進行微調,以學習使用外部工具API。該數據集根據新增的 API 調用注釋是否能夠提高模型輸出的質量而進行擴展。
b.HuggingGPT
HuggingGPT =ChatGPT+HuggingFace,HuggingFace是大模型領域的Github,來自全球的開發人員、企業和機構在huggingFace社區進行模型的上傳、分享和部署。
從本質上來說,HuggingGPT是一個使用ChatGPT作為任務規劃器的框架,ChatGPT 可根據模型的描述選擇 HuggingFace 平臺中可用的模型,并根據執行結果總結響應結果。
c. API-Bank
它包含 53 種常用的 API 工具、完整的工具增強的 LLM 工作流程。API 的選擇相當多樣化,包括搜索引擎、計算器、日歷查詢、智能家居控制、日程管理、健康數據管理、賬戶認證工作流程等。由于 API 數量眾多,LLM 首先可以訪問 API 搜索引擎,找到要調用的 API,然后使用相應的文檔進行調用
d. Function Calling
是一種實現大型語言模型連接外部工具的機制。通過API調用LLM時,調用方可以描述函數,包括函數的功能描述、請求參數說明、響應參數說明,讓LLM根據用戶的輸入,合適地選擇調用哪個函數,同時理解用戶的自然語言,并轉換為調用函數的請求參數。
前面的內容中,風叔拋出了非常多較為晦澀的概念和專業名詞,大家先初步了解一下這些概念,風叔會在后續文章中對這些概念和原理進行詳細介紹。
規劃Planning、記憶Memory和工具Tooling,就是AI Agent系統最核心的三個模塊。接下來,我們再來看看AI Agent的分類。
1.3 AI Agent的分類
從去年開始,各類AI Agent層出不窮。面對形形色色的AI Agent,合理的分類有助于我們進一步了解AI Agent的原理和模式。
我們可以從三個角度來給AI Agent進行分類,分別是工作模式、決策方式和應用場景。在本篇文章中,風叔先介紹前兩種分類方式,在下一篇文章介紹”Where”的時候,再詳細介紹AI Agent的應用場景。
1.3.1 按工作模式分類
從工作模式來看,AI智能體可以分為單Agent、多Agent和混合Agent。
單Agent:即通過單一的Agent來解決問題,不需要與其他Agent進行交互。單Agent可以根據任務執行不同的操作,如需求分析、項目讀取、代碼生成等。比如專門用于進行市場分析調研的Agent就是單Agent系統,只能處理市場分析這個單一任務。
多Agent:這種模式側重于多個Agent之間的互動和信息共享,多個Agent協同工作,相互交流信息,共同完成更復雜的任務或目標。多agent應用場景在軟件行業開發、智能生產、企業管理等高度協同的工作中非常有幫助。比如有一家公司就創建了一個多Agent系統,由Agent來扮演產品經理、UI設計師、研發工程師、測試人員、項目經理等角色,甚至可以接一些實際的軟件開發任務。
混合Agent:這種模式中,Agent系統和人類共同參與決策過程,交互合作完成任務,強調的是人機協作的重要性和互補性。智慧醫療、智慧城市等專業領域可以使用混合Agent來完成復雜的專業工作。比如醫生和AI Agent可以共同進行病情診斷,AI Agent負責快速分析病人的醫療記錄、影像資料等,提供初步的診斷建議;而醫生則可以基于AI Agent的分析結果和自己的專業知識和經驗,做出最終的診斷決定。
1.3.2 按決策制定方式分類
簡單反射型Agent:基于“如果-那么”規則直接響應當前的環境狀態,不存儲任何歷史數據或狀態。這種Agent設計簡單,反應迅速,但適用范圍有限。比如當軟件系統發生告警時,就自動向系統維護人員打電話,就是一個簡單反射型Agent。
基于模型的反射型Agent:擁有環境的內部模型,能夠基于對環境的理解和過去的經驗做出更復雜的決策。它能夠適應環境變化,處理更復雜的任務。比如Nest的智能溫控器,不僅能根據當前溫度調節室內氣溫,還能學習用戶的偏好,就是一個基于模型的反射型Agent。
基于目標的Agent:這類Agent的決策方式,從根本上不同于前面描述的條件-動作規則,因為它涉及對未來的考慮。比如智能導航軟件,根據用戶的起點和目標,結合交通擁堵狀況和用戶的偏好,輸出最佳導航路線。
基于效用的Agent:基于效用的Agent旨在最大化效用功能或價值,精心挑選具有最高預期效用的行動,以衡量結果的有利程度。比如同樣是導航到達目標,有的用戶需要用時最短,有的用戶需要路費最少,那么基于不同的效用,系統就會給出不同的導航結果。
學習型Agent:這些Agent設計用于在未知環境中運行,從自己的經歷中學習,并隨著時間的推移調整自己的行動。比如AlphaGo就是學習型Agent,從不斷的對弈中進行策略調整。
基于邏輯的Agent:通?;谝幌盗羞壿嬕巹t,通過推理來解決問題,適合需要高度邏輯判斷的場景,例如法律咨詢聊天機器人。
LLM大模型和這些Agent的關系就在于,LLM大模型為Agent的后續行動提供了輸入和推理。比如LLM大模型上面接了一個基于目標的Agent,那么這個Agent就會從用戶的輸入中,提取用戶的目標和要求,再結合上文提到的子任務分解、反思和完善等動作,逐步完成最終目標。
二、5W1H分析框架之Why
2.1 為什么會產生AI Agent?
為什么會產生AI Agent(特指LLM Agent)?我們從兩個方面來回答這個問題,技術發展的局限性,以及人和AI的交互性。
從技術發展的局限性來考慮
在LLM大語言模型出現以前,一般通過規則和強化學習的方法來讓機器智能化的完成一些任務,但是這兩種方法各有弊端。
規則的方法是指把復雜的自然語言問題轉化為規則符號,往往需要行業專家的介入,缺乏容錯能力,一個小的錯誤就可能導致整個系統的失敗。
而強化學習一般是構建策略網絡或獎勵模型,需要大量樣本進行訓練,但是收集數據往往成本很高,所以這種方法可行性不大,很難推廣開來。
LLM大語言模型出現之后,人們發現LLM大語言模型在邏輯推理、工具應用、策略規劃、指令遵循等方面都有非常不錯的表現,工程師們開始意識到,將大語言模型作為Agent應用的核心認知系統,可以極大的提高Agent的規劃能力。
但是LLM大模型畢竟還無法像人類一樣,擁有更深度的規劃思考能力、運用各種工具與物理世界互動,以及擁有人類的長期記憶能力。
在這樣的背景下,出現了非常多的研究方向,來讓Agent逐漸逼近人類,比如前文提到的COT/TOT/GOT、ReAct、Reflexion等技術,提升Agent的Planning能力;比如通過RAG增強檢索生成技術,提升Agent的記憶能力;以及ToolFormer、Function Calling等技術,提升Agent的工具使用能力。
從人和AI互動的角度來考慮
從人和AI互動的角度,主要經歷了三種模式。
最早出現的是Embedding模式,即人類完成大多數工作,AI只是作為某些單點能力,嵌入在人類完成工作的某些節點。比如很典型的SaaS+AI模式,像OCR、人臉識別、語義分析等能力,作為一些提升效率的點,嵌入在SaaS軟件里。大多數的工作,還是通過人工操作SaaS軟件完成的。
隨著大模型的出現,在部分場景下,人類和AI的協同進化到了Copilot模式,即AI作為人類的堅實助手,隨時輔助人類的工作。比如Notion AI和微軟Copilot,人類在AI的幫助下進行寫作,AI隨時可以進行內容提示、擴充、修改。
而AI Agent模式,則是將人類與AI的協同進化到了新的高度,人類只是提出任務和目標,然后由AI自主完成大多數工作。所以從人和AI互動的角度來看,AI Agent也是AGI發展過程中的必經之路。
2.2 AI Agent有哪些優勢和局限?
對于用戶來講,AI Agent的主要優勢包括:
第一,以任務為導向。AI Agent脫離了傳統Chatbot那種閑聊的交互模式,能夠彌合語言理解與采取行動之間的鴻溝。直接基于用戶輸入中所體現出來的意圖,自動進行后續的推理和行動,可以大幅提升工作效率。
第二,自然的交互方式。由于AI Agent本身以LLM大語言模型為底座,固有的語言理解和語言生成能力,確保了自然無縫的用戶交互。
第三,進化的決策能力。AI Agent的決策能力依賴于背后的LLM大模型,雖然目前LLM大模型的決策能力還遠遠不如人類,但這項能力在持續不斷的進化。
第四,靈活的適應性。在RAG和Function Calling等技術的支撐下,AI Agent可以快速適應各種不同的行業和應用場景,并通過API調用和外部環境產生交互。
但是由于LLM大模型本身固有的局限,這種局限也同樣影響了AI Agent。
第一,可靠性不足。眾所周知,LLM大模型容易出現幻覺和不一致性,將多個步驟連起來會進一步加劇可靠性問題,從而難以獲得用戶信任。舉個例子,假設每個步驟LLM的可靠性是95%,如果一個任務需要被分解到5步以上,那么最終的可靠性將不到80%,這會大大限制AI Agent在一些Critical場景下的應用。
第二,法律問題。對于企業對外輸出的AI Agent,企業可能要對其產生的錯誤負責。比如,最近一位客戶因為被加拿大航空公司的聊天機器人誤導而延誤航班,最終由加拿大航空予以賠償。
第三,性能和成本。GPT-4、Gemini-1.5在推理和function calling的表現不錯,但仍然較慢且成本高,特別是需要進行循環調用和自動重試時。
對于AI Agent可靠性的問題,其中一個解決方案是Agentic Workflow,即借助人工經驗進行任務分解、配置執行任務。AI Agent在整個workflow中,更多起到意圖識別、檢索、歸納、分類的作用。
比如通過workflow創建一個輸出財務分析報表的AI Agent,由人類告訴AI Agent,當接收到分析某家公司的財務報表時,先去某財務網站搜索該公司的財務報表,然后下載報表數據進行本地化存儲,再提取特定字段的數據進行計算和同比,最后再以自然語言的方式輸出財務分析報告。
對于Agentic Workflow,后面風叔將專門用一篇文章進行介紹。
2.3 企業和個人為什么要關注AI Agent?
企業用戶通常面臨更加復雜的業務需求,有更明確的業務場景、業務邏輯以及更多行業數據和行業知識的積累,非常適配 Agent 自主性、決策與執行、工具使用等特點,這讓企業端領域成為 Agent 施展能力的絕佳舞臺。
同時,AI Agent可以用工程化的思想對抗個體工作的不確定性,過往的SOP、PDCA、OKR等管理方法可以與AI Agent進行適配,完成管理工作的科學升級。
因此,企業需要關注AI Agent,結合企業所在的行業特點以及自身的業務屬性,通過AI Agent提升業務效率。在企業的供應鏈、產品研發、市場營銷、內部辦公等環節,AI Agent都有非常多的應用場景。
比如在供應鏈環節,AI Agent可以應用在智能配補貨、原料自動下單、庫存優化、供應商協同、合同自動審查等場景。在產品研發環節,AI Agent可以應用在產品成分分析、新品研發建議、產品設計出圖等場景。在市場營銷環節,AI Agent可以用于智能客服、精準推薦、營銷創意制作、廣告智能投放等場景。
我們再來看AI Agent對于個人的影響。雖然到目前為止,面向C端用戶,市場上還沒有出現killer級的C端應用,包括 OpenAI 的 GPTs,其實只是用于特定知識庫或數據的 Chatbot。但是從AI的長期發展趨勢來看,AI Agent一定會在越來越多的場景進行滲透。
同時,個人作為企業端的工作者,AIAgent對個人在工作效率上帶來的提升,也是顯而易見的。利用AI Agent武裝自己,讓工作和學習效率更上一級臺階。
對于個人來講,未來可能只有兩種人,驅動Agent的人,和被Agent驅動的人。
總結
本篇文章是使用5W1H分析框架拆解AI Agent的上篇,圍繞What和Why,詳細闡述了AI Agent的概念、構成、分類、產生原因、優勢劣勢、以及對企業和個人的影響。
在下一篇文章中,風叔將圍繞When、Who和Where,詳細介紹AI Agent的發展歷程、行業玩家和具體應用場景。
作者:風叔,微信公眾號:風叔云
本文由@風叔 原創發布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!