大模型的下一站:AI Agent!

5 評論 4126 瀏覽 12 收藏 14 分鐘

現在各家基本上都有自己的大模型產品,現在的重點都是在找商業模式,以及擴展大模型的應用場景上。所以大家做APP、做Copilot也就不足為奇,都是為自己找出路的做法。但從作者的角度,Copilot只是傳統互聯網應用到大模型應用的過渡,AI Agent才是大模型的下一站!

仔細想想,自從Chat GPT發布之后,大模型行業相關的玩家們其實一直在忙兩件事:

  1. 提升基座大模型的能力:主力是國內外的大廠以及創業新勢力,從最初的文、圖、視頻等單一模態到現在的綜合多模態大模型,這些玩家利用Scaling Law,通過提升大模型的訓練數據、訓練算力和參數數量,以此來提升模型的性能,看這些市面上多如牛毛的大模型就知道這個方向成果頗豐。

不過雖然目前Scaling law還未失效,但其實已經遇到了遞減的回報—也就是說,雖然模型性能會隨資源投入量的增加而改善,但每增加一單位資源帶來的性能提升會逐漸減少,何況還有數據、算力上限的掣肘,未來的這個賽道的激烈程度不言而喻。

2. 探索大模型時代的Super APP:其實從 GPT-4 的 Auto GPT、Baby GPT、GPT-Engineer 等開源 Agent 開始,大家對于大模型時代的AI Agent的探索就再也沒有停歇!對于廣大的小公司或者普通人而言,基座大模型如何發展他們參與感不強,大家的機會或者說是關注點則更傾向于如何將LLMs落地于應用。

李彥宏說:所有應用都值得被大模型重構一遍,但快兩年了,為什么目前還沒有看到令人興奮的AI應用?我個人的思考是:大模型的能力不夠強是一方面,但更大的問題是大家并沒有考慮清楚什么是大模型時代的應用?遍歷市場上所謂的大模型應用,其實90%都是Copilot類產品,本質還是互聯網應用,只是在原始架構上簡單累加或者羅列大模型的能力。

Copilot只是傳統互聯網應用到大模型應用的過渡,AI Agent才是大模型的下一站!

01.Agent的前世今生

1. 1986年到1997年:Software Agent

Agent“這個術語在這個時期就已經出現了,包括Carl Eddie Hewitt和Michael Wooldridge在內的西方學術界的杰出計算機科學家們及人工智能研究者,對這一主題進行了深入的探討,并展示了眾多的系統示例及發表了大量研究論文,探討了Software Agent在各種應用場景中的潛力。

可以說,過去三十年來,Agent的理念基本保持不變,但由于當時的AI和計算能力限制,該概念在90年代流行了一段時間后逐漸淡出視線。

這個時期的Agent的概念源自于日常生活中廣泛存在的代理概念。這些日常代理,如旅行代理或房地產代理,代表他人行事且具有一定的自主性,例如房地產代理可在未經房主直接同意的情況下,為空置房產安排看房。這些普通代理展示了主動性和合作的能力。

根據當時的計算機專家定義,Agent的幾個關鍵特征包括:

  1. 自主性(在無需人類干預的情況下獨立運作,并控制其行為和內部狀態)
  2. 社交能力(能通過某種通訊語言與其他代理或人類互動)
  3. 反應能力(能感知并及時響應外部環境的變化)
  4. 主動性(具備目標導向的行為,不僅響應環境,也會主動行動以達成目標)。

2. 2023年4月至今:AI Agent

GPT-4發布之后,以AutoGPT、BabyAGI等為代表的一批自主代理(Autonomous Agents)的開源內容再次引發了學術界和產業界對于Agent系統和概念的興趣。其中,學術界的參與和熱情更為明顯,目前Github上大約95%的相關Demo均由全球的科研機構和高校提供。

圖片:斯坦福和谷歌論文《Generative Agents: Interactive Simulacra of Human Behavior》

現階段人們對 AI Agent 的定義和 30 年前當時對 Software Agent 定義變化不大,期望仍然是:在有了目標后,獨立決策并完成任務的。唯一區別就是傳統的Software Agent更多是依賴預設的算法或者規則解決一些簡單的、流程明確的任務,但是在大模型加入后,Agent對于目標任務的拆解、規劃能力更強了。

大語言模型的加入為 Agents 設計帶來了變革,基于大語言模型的 Agent 可以整合更多的工具,同時多模態的能力還可以讓Agent感知復雜和未知的環境,在決策策略上也更有優勢,甚至可以利用一些手段讓 Agent 具備持續學習能力,提高 Agent 處理任務的多樣性。

簡單來說,我們希望理想的AI Agent是一個強大的通用問題解決方案助手。

02.理想的AI Agent應該有哪些組件?

如果把大模型比作大腦前葉,負責計算,那么 Agent 也許更像整個大腦,有記憶,規劃,行動,和使用工具的能力。所以對比大模型,Agent 更像一個完整的 App。Agent 時代的人機交互就像人與人的交互一樣,更自然,更沉浸,更個人化。

比如:AutoGPT ,這類 Autonomous Agent 核心是利用模型 COT 能力讓大模型通過審視自己上一次調用工具后輸出結果,審視自己是否有改進的空間,再進行下一步規劃和改進,以此來“激發”大模型的主動性。

參考Open AI研究員翁麗蓮、機器學習專家吳恩達以及多篇關于Autonomous agents 的文章,這里我給出我理解的理想的AI Agent構成。

規劃(Planning):

  • 任務拆解:Agent能將大任務分解為更小的、可管理的子目標,從而有效地處理復雜任務。對于每一個目標,評估使用不同行為方案的可行性,選擇其中期望效果最好的一個。
  • 反思與改進:Agent可以接受來自人類或者環境的反饋,并反思歷史的行為,從錯誤中吸取教訓,并將錯誤內容加入長期記憶形成人類的教訓,為未來的步驟進行改進,更新其對世界的認知,從而提高最終結果的質量。

行動(Action):

負責將Agent的決策轉化為特定的輸出。

  • 環境探索和交互:Agent能夠通過與環境交互獲取新知識,并通過總結最近的經驗來增強自己。通過這種方式可以生成越來越適應環境且符合常識的新行為。
  • 記憶檢索:Agent根據存儲在記憶模塊中的經驗做決定,在采取行動時,相關的記憶片段被檢索作為 LLM 的條件輸入,以確保先前的錯誤不會再犯。
  • 工具使用:可以通過文檔和數據集教會 Agent 如何調用外部工具的 API,來補足 LLM 自身的弱項,甚至可以通過工具使用完成和硬件的交互。

記憶(Memory):

信息可以用各種格式存儲在記憶中,來模仿人類大腦那樣從過往的經驗中學習正確的工作模式。

  • 短期記憶:這一輪決策所需要用到的所有信息。其中包括上下文內容,目前Agent的記憶都是短期的。
  • 長期記憶:這為Agent提供了在較長時間內保留和回憶(無限)信息的能力,目前是通過利用外部向量存儲和快速檢索來實現的,未來可以建設一個記憶系統,能記憶各種圖、文、向量數據信息,包括用戶用戶偏好和工作習慣,以此能做出更智能的決策。

03. 為什么說大模型下一站是:AI Agent

1. AI Agent 將成為人類新的系統2

在《思考,快與慢》一書中,人的認知過程被劃分為兩大類,即系統 1 和系統 2。前者是快速且依賴直覺的思考模式,盡管靈活迅速,卻容易犯錯。后者則是緩慢而邏輯的思考方式,雖然速度較慢,但結果往往更為可靠和準確。

大型語言模型(LLMs)非常適合執行類似系統 1 的任務,它能迅速處理和回應大量信息,類似于人們在聽到信息后能立刻理解和回答。然而,LLM 有時會產生幻覺效應,即造出不存在的事實,這種現象與人類的直覺思考中的偏誤和本能響應有著相似之處。

而AI Agent的一項重要長期目標是讓LLM能夠擔任類似系統 2 的角色,在深度思考和分析基礎上做出更為復雜和可信的決策。CoT的研究就是這方面的一個杰出例子,它通過提示來讓大模型模擬人類復雜的推理過程,以此激發出LLM更高級的智能,幫助和輔助人類進行思考,甚至是幫助人類完成行動。

2. AI Agent 將低成本為每個人實現軟件定制

Andrej Karpathy 曾提出”Software 2.0″的概念,強調通過大數據和強大的計算力,可以有效處理此前需要大量人工和高成本才能解決的復雜問題,AI Agent正是將這一觀念具體化的例子。

當前,市面上的主流軟件多為用戶群體大、標準化高的需求所設計,只有當需求量足夠大時,企業才會投入資源開發。然而,許多小眾、特異化的需求常常得不到滿足。隨著AI Agent的成熟,軟件開發將實現成本的大幅降低。使軟件能夠靈活應對人類更加多樣化的需求,開啟類似于“3D打印”的軟件生產新時代,為用戶提供更加個性化的產品選擇。

04.寫在最后

短期,我們認為文章預想的Autonomous Agent 落地有些困難,因為上面也講了是理想狀態下的AI Agent,這就要求Agent有相當強大的自驅和自動化規劃能力,但是在當前的大模型能力加持下,要想實現這樣的效果,幾乎不太可能。如果是短期的 AI Agent 產品,我們需要給產品的用戶提供干預空間,讓Agent輔助用戶完成任務,保證至少有60%的事情是Agent完成的。

不過長期來看,我們還是對 AI Agent 相當有信心,OpenAI 等大模型公司會在模型推理能力上持續進化,奔著AGI在狂奔,所以誰知道GPT5 會帶給我們什么驚喜呢!

本文由 @小布Bruce 原創發布于人人都是產品經理。未經作者許可,禁止轉載

題圖來自 Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 歡迎大家關注我的公眾號:AI思,來查看更多最新內容

    來自北京 回復
  2. 其實你寫了這么多Agent特征云云,但是我還是沒搞懂Agent是什么意思

    來自廣東 回復
    1. 這篇文章確實不算完全的小白科普文,后面我可以寫一篇通俗易懂的介紹文章

      來自北京 回復
    2. 我也沒搞懂

      來自廣東 回復
    3. 那你不適合吃這碗飯,很明白了,簡單來說,就是幫你執行任何事情的全自動機器人,當然可以是虛擬的

      來自北京 回復