精品国产综合区久久久久久,精品国富产二代richman,国产亚洲精品A在线观看

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

大佬們都在關注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

風叔

2024-07-16

0 評論 6027 瀏覽 52 收藏

35 分鐘

前幾個月各大廠商還在為大模型大打價格戰，而后開始的是AI Agent的爭奪——大家突然關心起AI的應用場景，開始做瀏覽器插件，做APP搶奪市場。為什么會這樣？在這個系列文章里，作者嘗試高速我們答案。

大模型的橫空出世，重新點燃了市場對AI的熱情。AI Agent的概念，更是將AI的熱潮推向了新的高度。從去年開始，AI Agent就成為了炙手可熱的名詞，其熱度絲毫不亞于對大模型的討論，甚至一眾大佬都紛紛為AI Agent站臺。

2023年下半年，OpenAI聯合創始人，前TeslaAI總監Andrej Karpathy說道：

“如果一篇論文提出了某種不同的訓練方法，OpenAI內部會嗤之以鼻，認為都是我們玩剩下的。但是當新的AI Agents論文出來的時候，我們會十分認真且興奮地討論。普通人、創業者和極客在構建AI Agents方面相比OpenAI這樣的公司更有優勢?！?/p>

在AI Ascent 2024大會上，斯坦福大學教授、前谷歌大腦項目創始人，吳恩達分享了關于AI Agent的最新趨勢與洞察

AI Agent（AI智能體）工作流將在今年推動人工智能取得巨大進步——甚至可能超過下一代基礎模型。這是一個重要的、令人興奮的趨勢，我呼吁所有人工智能從業者都關注它。

微軟創始人比爾蓋茨，也通過個人網站發表了對AI Agent的看法：

AI Agent將成為下一個平臺，簡而言之，AI Agent幾乎將在任何活動和生活領域提供幫助，對軟件行業和社會產生深遠的影響。

與此同時，趁著這波浪潮，在短短的一年時間內，AI Agent（AI智能體）領域的創業公司和獨角獸也實現了爆發式的增長。早在去年3月份，AutoGPT就在GitHub上獲得了7.4萬星，并快速成為史上Star數量增長最快的開源項目，如今已經獲得超過16萬星。后續發布的BabyAGI、AgentGPT也如雨后春筍般涌現，調研報告、訂購披薩、發送郵件、旅行攻略，無數的Agent應用場景紛紛開始落地。

在國內，AI Agents相關的產品也相繼誕生。早在去年7月，阿里云就發布了旗下第一個智能體——ModelScopeGPT，面向開發者群體。隨后百度文心智能體平臺、字節Coze、騰訊元器，各大廠商的AI智能體平臺也紛至沓來。

面對如此巨大的熱潮，相信很多讀者在心潮澎湃的同時，也會心存疑慮。AI Agent到底是什么？是真正的科技突破還是科技泡沫？對企業和個人能帶來什么影響？

接下來，風叔將使用5W1H分析框架來詳細拆解AI Agent，一步步帶著大家了解AI Agent的全貌。由于內容比較多，風叔將通過三篇文章來逐步闡述全部內容。

上篇：介紹What + Why，主要解答以下問題。

What：AI Agent是什么？有哪些組成部分？AI Agent的原理是什么？AI Agent是怎么分類的？

Why：為什么會產生AI Agent？AI Agent的優勢和劣勢是什么？為什么企業和個人都要關注AI Agent？

中篇：介紹When + Where + Who，主要解答以下問題。

When：AI Agent的發展歷程是怎樣的？AI Agent未來的發展趨勢是怎樣的？

Where：AI Agent有哪些應用場景？

Who：AI Agent領域的玩家有哪些？AI Agent領域的行業價值鏈是怎樣的？

下篇：介紹 How，主要解答以下問題。

How：如何實現AI Agent？AI Agent包括哪些系統模塊？如何開始學習AI Agent？

下面正式開始5W1H框架對AI Agent的拆解之旅！

一、5W1H分析框架之What

1.1 AI Agent到底是什么？

從概念上來說，AI Agent（智能體）是一種不需要持續人類干預的AI系統，可以基于環境和背景信息，自主分析各種問題，做出邏輯決策，并且在沒有持續人類輸入的情況下處理多種任務。

AlphaGo就是一個典型的AI Agent，它可以在和人類對弈圍棋的過程中，根據當前的棋局和對手的行動，自主決策下一步的動作。AI助手也是AI Agent，比如你只需要給AI助手下達一個指令，“幫我預訂明早10點上海飛深圳的機票”，AI助手就能自動幫你完成從機票搜索、查詢、下單、確認的全部動作。

從結構上來說，一個AI Agent包括三個部分，如下圖所示：

Perception（輸入）：AI Agent通過文字輸入、傳感器、攝像頭、麥克風等等，建立起對外部世界或環境的感知。

Brain（大腦）：大腦是AI Agent最重要的部分，包括信息存儲、記憶、知識庫、規劃決策系統。

Action（行動）：基于Brain給出的決策進行下一步行動，對于AI Agent來說，行動主要包括對外部工具的API 調用，或者對物理控制組件的信號輸出。

目前在大模型熱潮的背景下，媒體上所講的AI Agent，更嚴格意義上來說應該叫做LLM Agent，因為整個Agent最重要的控制中樞Brain，其底層是LLM大模型。如果未來產生了比LLM更強大更智能的AI技術基座，那同樣也會產生基于新的AI基座的Agent。下文所介紹的AI Agent，如無特殊說明，都指代LLM Agent。

那么Agent和LLM大語言模型到底是什么關系呢？可以這樣進行簡單類比，如果把LLM（比如GPT）比作大腦中的一堆神經元，具有記憶、常識和推理等能力，那么AI Agent就是獨立的人，除了擁有大腦之外，還擁有視覺、聽覺、味覺等多種感官，以及擁有手和腳操作外部的工具。

因此從本質來講，AI Agent = 大語言模型+記憶+規劃+工具使用。

接下來，我們逐步拆解AI Agent的組成部分。

1.2 詳細拆解AI Agent的構成

1.2.1 構成一，規劃Planning

Planning是整個AI Agent中最核心最關鍵的部分，Agent會把大型任務分解為子任務，并規劃執行任務的流程。同時Agent還會對任務執行的過程進行思考和反思，從而決定是繼續執行任務，還是判斷任務完結并終止運行。

整個Planning模塊包括兩個步驟：子任務分解，反思和完善。

步驟一，子任務分解

Agent 將大型任務分解為更小、更易于管理的子目標，從而高效處理復雜任務。主要的子任務分解方式包括：思維鏈COT（Chain of thought）、思維樹TOT（Tree of thought）、思維圖GOT（Graph of thought）、規劃器LLM+P。

a. 思維鏈COT

思維鏈COT的全稱是Chain of Thought，當我們對LLM這樣要求「think step by step」，會發現LLM會把問題分解成多個步驟，一步一步思考和解決，能使得輸出的結果更加準確。這就是思維鏈，一種線性思維方式。

b. COT-SC

一個CoT出現錯誤的概率比較大，我們可以讓Agent進行發散，嘗試通過多種思路來解決問題，然后投票選擇出最佳答案，這就是CoT-SC。

c. 思維樹TOT

思維樹TOT是對思維鏈CoT的進一步擴展，在思維鏈的每一步，推理出多個分支，拓撲展開成一棵思維樹。使用啟發式方法評估每個推理分支對問題解決的貢獻。選擇搜索算法，使用廣度優先搜索（BFS）或深度優先搜索（DFS）等算法來探索思維樹，并進行前瞻和回溯。

d. 思維圖GOT

思維樹ToT 的方式也存在一些缺陷，對于需要分解后再整合的問題，比如排序問題，排序我們可能需要分解和排序，然后再merge。這種情況下TOT就不行了，可以引入思維圖GOT來解決。

e. LLM+P

其原理是依靠外部傳統規劃器來進行長視野規劃，利用規劃域定義語言（PDDL）作為中間接口來描述規劃問題。在此過程中，LLM先將問題轉化為成”Problem PDDL”形式，然后請求經典規劃器根據現有的 “Domain PDDL “生成 PDDL 計劃，最后將 PDDL 計劃翻譯回自然語言。

步驟二，反思和完善

反思和完善機制在Agent 應用中發揮著重要的作用，Agent 通過完善過去的行動決策和糾正以前的錯誤來不斷改進。尤其是在現實世界的任務中，不可能在規劃環節就能做出萬無一失的計劃和策略，試錯是不可避免的，只有通過自我反思和逐步完善，才能一步步逼近最佳結果。

反思和完善機制的實現，主要有以下幾種方式。

a. ReAct

ReACT的全稱是Reasoning-Action，這種模式是讓大模型先進行思考，思考完再進行行動，然后根據行動的結果再進行觀察，再進行思考，這樣一步一步循環下去。

和ReAct相對應的是Reasoning-Only和Action-Only。在Reasoning-Only的模式下，大模型會基于任務進行逐步思考，并且不管有沒有獲得結果，都會把思考的每一步都執行一遍。在Action-Only的模式下，大模型就會處于完全沒有規劃的狀態下，先進行行動再進行觀察，基于觀察再調整行動，導致最終結果不可控。

在實際的測試觀察中，ReAct模式的效果要好于Reasoning-Only和Action-Only。

b. Reflexion

Reflecxion是一個為 Agent 配備了動態記憶和自我反思能力的框架，能夠提高 Agent 的推理能力。Reflexion 具有標準的強化學習機制，其獎勵模型提供了一個簡單的二進制獎勵機制，執行空間則遵循 ReAct 中的設置。每次行動，Agent 都會計算一個啟發式 ht，并根據自我反思的結果決定環境重置以開始新的試驗。

c.Basic Reflection

還有一種反思和完善的方式，其本質是利用左右互搏來實現協同進化。比如設計一個幫助用戶完成市場調研報告的Agent系統，其中Generator負責輸出，Reflector負責檢查，通過兩個角色之間不斷的協同，來實現整個任務的反思和完善。

1.2.2 構成二，記憶Memory

記憶是Agent用于獲取、存儲、保留和隨后檢索信息的過程，我們先用人腦的記憶做個類比，人腦中有多種記憶類型：

感官記憶：這是記憶的最早階段，能夠在原始刺激結束后保留對感官信息（視覺、聽覺等）的印象，通常只能持續幾秒鐘。包括圖標記憶、回聲記憶和觸覺記憶三種類型。

短時記憶（STM）或工作記憶：指的是我們當前意識到的信息，或者在學習和推理等復雜認知任務中所需要的信息。人類的短時記憶容量約為 7 items（Miller, 1956）、持續時長為 20-30 秒。

長時記憶（LTM）：長時記憶指的是能夠存儲很長時間，從幾天到幾十年不等的信息，它的存儲容量基本上是無限的。長時記憶又包括顯性記憶和隱性記憶，顯性記憶是可以有意識地回憶起來的事實，比如事件經歷和語義記憶；隱性記憶是內化后無意識的行為，比如騎自行車。

了解了人類的記憶模式，我們再來看如何將其映射到AI Agent。

感官記憶是對原始輸入的嵌入表征的理解，包括文本、圖像或其他模式，比如圖片的紋理和風格。短時記憶即上下文學習，由于受到Transformer上下文窗口長度的限制，它是短暫的和有限的。長期記憶則可對應為外部的向量數據存儲，Agent 可在查詢時引用，并可通過快速檢索進行訪問。

還有一個非常關鍵的因素，大模型知識的更新。由于大模型是用海量的通用數據訓練的，基礎的大模型可以理解為是一個及格的通才，什么話題都知道一些，但是存在胡言亂語和幻覺現象。尤其是在面向企業端的場景，一個及格的通才是無法使用的，需要利用企業的專屬數據進行喂養和訓練。這個時候，就可以通過RAG【檢索增強生成】技術，在基礎大模型的基礎上掛載企業專屬的知識庫，以向量數據庫的方式存儲，將Agent訓練為一個優秀的專才。

RAG技術在AI Agent的應用中非常關鍵，大家可以提前標記一下這個概念。在后續文章中，風叔還將重點介紹RAG技術的原理和使用方法。

1.2.3 構成三，工具Tooling

為AI Agent配備工具API，比如計算器、搜索工具、代碼執行器、數據庫查詢等工具，AI Agent就可以和物理世界交互，來解決更加實際的問題。

Agent使用工具的方式主要有以下幾種：

a. TALM & ToolFormer

TALM和ToolFormer都是對 LLM 進行微調，以學習使用外部工具API。該數據集根據新增的 API 調用注釋是否能夠提高模型輸出的質量而進行擴展。

b.HuggingGPT

HuggingGPT =ChatGPT+HuggingFace，HuggingFace是大模型領域的Github，來自全球的開發人員、企業和機構在huggingFace社區進行模型的上傳、分享和部署。

從本質上來說，HuggingGPT是一個使用ChatGPT作為任務規劃器的框架，ChatGPT 可根據模型的描述選擇 HuggingFace 平臺中可用的模型，并根據執行結果總結響應結果。

c. API-Bank

它包含 53 種常用的 API 工具、完整的工具增強的 LLM 工作流程。API 的選擇相當多樣化，包括搜索引擎、計算器、日歷查詢、智能家居控制、日程管理、健康數據管理、賬戶認證工作流程等。由于 API 數量眾多，LLM 首先可以訪問 API 搜索引擎，找到要調用的 API，然后使用相應的文檔進行調用

d. Function Calling

是一種實現大型語言模型連接外部工具的機制。通過API調用LLM時，調用方可以描述函數，包括函數的功能描述、請求參數說明、響應參數說明，讓LLM根據用戶的輸入，合適地選擇調用哪個函數，同時理解用戶的自然語言，并轉換為調用函數的請求參數。

前面的內容中，風叔拋出了非常多較為晦澀的概念和專業名詞，大家先初步了解一下這些概念，風叔會在后續文章中對這些概念和原理進行詳細介紹。

規劃Planning、記憶Memory和工具Tooling，就是AI Agent系統最核心的三個模塊。接下來，我們再來看看AI Agent的分類。

1.3 AI Agent的分類

從去年開始，各類AI Agent層出不窮。面對形形色色的AI Agent，合理的分類有助于我們進一步了解AI Agent的原理和模式。

我們可以從三個角度來給AI Agent進行分類，分別是工作模式、決策方式和應用場景。在本篇文章中，風叔先介紹前兩種分類方式，在下一篇文章介紹”Where”的時候，再詳細介紹AI Agent的應用場景。

1.3.1 按工作模式分類

從工作模式來看，AI智能體可以分為單Agent、多Agent和混合Agent。

單Agent：即通過單一的Agent來解決問題，不需要與其他Agent進行交互。單Agent可以根據任務執行不同的操作，如需求分析、項目讀取、代碼生成等。比如專門用于進行市場分析調研的Agent就是單Agent系統，只能處理市場分析這個單一任務。

多Agent：這種模式側重于多個Agent之間的互動和信息共享，多個Agent協同工作，相互交流信息，共同完成更復雜的任務或目標。多agent應用場景在軟件行業開發、智能生產、企業管理等高度協同的工作中非常有幫助。比如有一家公司就創建了一個多Agent系統，由Agent來扮演產品經理、UI設計師、研發工程師、測試人員、項目經理等角色，甚至可以接一些實際的軟件開發任務。

混合Agent：這種模式中，Agent系統和人類共同參與決策過程，交互合作完成任務，強調的是人機協作的重要性和互補性。智慧醫療、智慧城市等專業領域可以使用混合Agent來完成復雜的專業工作。比如醫生和AI Agent可以共同進行病情診斷，AI Agent負責快速分析病人的醫療記錄、影像資料等，提供初步的診斷建議；而醫生則可以基于AI Agent的分析結果和自己的專業知識和經驗，做出最終的診斷決定。

1.3.2 按決策制定方式分類

簡單反射型Agent：基于“如果-那么”規則直接響應當前的環境狀態，不存儲任何歷史數據或狀態。這種Agent設計簡單，反應迅速，但適用范圍有限。比如當軟件系統發生告警時，就自動向系統維護人員打電話，就是一個簡單反射型Agent。

基于模型的反射型Agent：擁有環境的內部模型，能夠基于對環境的理解和過去的經驗做出更復雜的決策。它能夠適應環境變化，處理更復雜的任務。比如Nest的智能溫控器，不僅能根據當前溫度調節室內氣溫，還能學習用戶的偏好，就是一個基于模型的反射型Agent。

基于目標的Agent：這類Agent的決策方式，從根本上不同于前面描述的條件-動作規則，因為它涉及對未來的考慮。比如智能導航軟件，根據用戶的起點和目標，結合交通擁堵狀況和用戶的偏好，輸出最佳導航路線。

基于效用的Agent：基于效用的Agent旨在最大化效用功能或價值，精心挑選具有最高預期效用的行動，以衡量結果的有利程度。比如同樣是導航到達目標，有的用戶需要用時最短，有的用戶需要路費最少，那么基于不同的效用，系統就會給出不同的導航結果。

學習型Agent：這些Agent設計用于在未知環境中運行，從自己的經歷中學習，并隨著時間的推移調整自己的行動。比如AlphaGo就是學習型Agent，從不斷的對弈中進行策略調整。

基于邏輯的Agent：通?；谝幌盗羞壿嬕巹t，通過推理來解決問題，適合需要高度邏輯判斷的場景，例如法律咨詢聊天機器人。

LLM大模型和這些Agent的關系就在于，LLM大模型為Agent的后續行動提供了輸入和推理。比如LLM大模型上面接了一個基于目標的Agent，那么這個Agent就會從用戶的輸入中，提取用戶的目標和要求，再結合上文提到的子任務分解、反思和完善等動作，逐步完成最終目標。

二、5W1H分析框架之Why

2.1 為什么會產生AI Agent？

為什么會產生AI Agent（特指LLM Agent）？我們從兩個方面來回答這個問題，技術發展的局限性，以及人和AI的交互性。

從技術發展的局限性來考慮

在LLM大語言模型出現以前，一般通過規則和強化學習的方法來讓機器智能化的完成一些任務，但是這兩種方法各有弊端。

規則的方法是指把復雜的自然語言問題轉化為規則符號，往往需要行業專家的介入，缺乏容錯能力，一個小的錯誤就可能導致整個系統的失敗。

而強化學習一般是構建策略網絡或獎勵模型，需要大量樣本進行訓練，但是收集數據往往成本很高，所以這種方法可行性不大，很難推廣開來。

LLM大語言模型出現之后，人們發現LLM大語言模型在邏輯推理、工具應用、策略規劃、指令遵循等方面都有非常不錯的表現，工程師們開始意識到，將大語言模型作為Agent應用的核心認知系統，可以極大的提高Agent的規劃能力。

但是LLM大模型畢竟還無法像人類一樣，擁有更深度的規劃思考能力、運用各種工具與物理世界互動，以及擁有人類的長期記憶能力。

在這樣的背景下，出現了非常多的研究方向，來讓Agent逐漸逼近人類，比如前文提到的COT/TOT/GOT、ReAct、Reflexion等技術，提升Agent的Planning能力；比如通過RAG增強檢索生成技術，提升Agent的記憶能力；以及ToolFormer、Function Calling等技術，提升Agent的工具使用能力。

從人和AI互動的角度來考慮

從人和AI互動的角度，主要經歷了三種模式。

最早出現的是Embedding模式，即人類完成大多數工作，AI只是作為某些單點能力，嵌入在人類完成工作的某些節點。比如很典型的SaaS+AI模式，像OCR、人臉識別、語義分析等能力，作為一些提升效率的點，嵌入在SaaS軟件里。大多數的工作，還是通過人工操作SaaS軟件完成的。

隨著大模型的出現，在部分場景下，人類和AI的協同進化到了Copilot模式，即AI作為人類的堅實助手，隨時輔助人類的工作。比如Notion AI和微軟Copilot，人類在AI的幫助下進行寫作，AI隨時可以進行內容提示、擴充、修改。

而AI Agent模式，則是將人類與AI的協同進化到了新的高度，人類只是提出任務和目標，然后由AI自主完成大多數工作。所以從人和AI互動的角度來看，AI Agent也是AGI發展過程中的必經之路。

2.2 AI Agent有哪些優勢和局限？

對于用戶來講，AI Agent的主要優勢包括：

第一，以任務為導向。AI Agent脫離了傳統Chatbot那種閑聊的交互模式，能夠彌合語言理解與采取行動之間的鴻溝。直接基于用戶輸入中所體現出來的意圖，自動進行后續的推理和行動，可以大幅提升工作效率。

第二，自然的交互方式。由于AI Agent本身以LLM大語言模型為底座，固有的語言理解和語言生成能力，確保了自然無縫的用戶交互。

第三，進化的決策能力。AI Agent的決策能力依賴于背后的LLM大模型，雖然目前LLM大模型的決策能力還遠遠不如人類，但這項能力在持續不斷的進化。

第四，靈活的適應性。在RAG和Function Calling等技術的支撐下，AI Agent可以快速適應各種不同的行業和應用場景，并通過API調用和外部環境產生交互。

但是由于LLM大模型本身固有的局限，這種局限也同樣影響了AI Agent。

第一，可靠性不足。眾所周知，LLM大模型容易出現幻覺和不一致性，將多個步驟連起來會進一步加劇可靠性問題，從而難以獲得用戶信任。舉個例子，假設每個步驟LLM的可靠性是95%，如果一個任務需要被分解到5步以上，那么最終的可靠性將不到80%，這會大大限制AI Agent在一些Critical場景下的應用。

第二，法律問題。對于企業對外輸出的AI Agent，企業可能要對其產生的錯誤負責。比如，最近一位客戶因為被加拿大航空公司的聊天機器人誤導而延誤航班，最終由加拿大航空予以賠償。

第三，性能和成本。GPT-4、Gemini-1.5在推理和function calling的表現不錯，但仍然較慢且成本高，特別是需要進行循環調用和自動重試時。

對于AI Agent可靠性的問題，其中一個解決方案是Agentic Workflow，即借助人工經驗進行任務分解、配置執行任務。AI Agent在整個workflow中，更多起到意圖識別、檢索、歸納、分類的作用。

比如通過workflow創建一個輸出財務分析報表的AI Agent，由人類告訴AI Agent，當接收到分析某家公司的財務報表時，先去某財務網站搜索該公司的財務報表，然后下載報表數據進行本地化存儲，再提取特定字段的數據進行計算和同比，最后再以自然語言的方式輸出財務分析報告。

對于Agentic Workflow，后面風叔將專門用一篇文章進行介紹。