深度剖析AI Agent的原理及應(yīng)用發(fā)展

0 評論 5549 瀏覽 25 收藏 16 分鐘

本篇文章將深入探討AI Agent是什么?它是如何運作的?它實際應(yīng)用場景有哪些以及對我們的生活會帶來哪些改變。請坐好,準(zhǔn)備發(fā)車?yán)病?/p>

隨著大語言模型(LLM)在23年的快速發(fā)展,大模型逐步收斂為以閉源為代表的ChatGPT和以開源為代表的Llama2。

大模型本身也在朝著多模態(tài)的方向發(fā)展,這意味著模型能夠處理不同類型的數(shù)據(jù),如:文本、圖片、視頻和音頻,其本質(zhì)是豐富模型的信息處理與生成能力,能夠更好地理解現(xiàn)實世界,處理復(fù)雜問題。

一、LLM vs Agent

雖然大語言模型的能力足夠強大,但它依舊是被動的響應(yīng)用戶的指令,并且生成的效果取決于使用者如何使用它。

而AI Agent(智能代理)的出現(xiàn),將改變這一現(xiàn)狀。

它是一個自動化的程序,它具備自主規(guī)劃和執(zhí)行的能力,它也被視為通往AGI(通用人工智能)的鑰匙。

從NLP -> AGI 的發(fā)展路線分為五個級別,F(xiàn)rom:《The Rise and Potential of Large Language Model Based Agents: A Survey》,分別是:語料庫、互聯(lián)網(wǎng)、感知、具身和社會屬性。

目前的大語言模型已經(jīng)來到了第二級,具備互聯(lián)網(wǎng)實時訪問的多模態(tài)內(nèi)容輸出。AI Agent在LLM的基礎(chǔ)之上在往感知、具身和社會屬性的方向方展;當(dāng)其具備感知環(huán)境與行動的能力時,將進(jìn)入到第三和第四級別;再進(jìn)一步,當(dāng)多個Agent通過它們之間的互動、合作,且具備情感屬性,能夠處理更加復(fù)雜的任務(wù)或反映現(xiàn)實世界中的社會行為時,Agent將進(jìn)入第五級。

圖片來源:《The Rise and Potential of Large Language Model Based Agents: A Survey》

二、什么是AI Agent?

Agent被翻譯為代理或者智能體,它核心的作用是具備自主實現(xiàn)目標(biāo)的能力,能夠感知外部環(huán)境,具備自主性、反饋性、積極性和情感社交屬性的智能體。

光這樣描述還是很抽象,以我們的日常行為進(jìn)行一個比喻:人類處理任何問題和任務(wù)時,都會經(jīng)歷信息輸入->信息處理->信息輸出過程。

  • 信息輸入:主要通過人類感官系統(tǒng),視覺、聽覺、味覺、觸覺等
  • 信息處理:主要通過人類的大腦進(jìn)行規(guī)劃與決策
  • 信息輸出:主要通過人類的語言和四肢所采取的行動

我們來想想一個場景: 小明想要吃樹上的蘋果,首先通過感官系統(tǒng)感知到蘋果樹上的蘋果,然后在大腦中思考如何采摘蘋果,最后借助采摘工具,拿到蘋果后成功地放到嘴巴里津津有味地吃了起來。我們將場景抽象成模型,其實就形成了AI Agent的大致框架:

分以下幾個模塊:

  • 感知模塊:小明看到蘋果樹上的蘋果
  • 規(guī)劃模塊:想嘗一嘗蘋果,并思考和規(guī)劃如何才能吃到蘋果
  • 行動模塊:借助采摘工具,拿到蘋果后放入嘴中
  • 反饋模塊:蘋果是甜的,津津有味地吃了起來~

其中最關(guān)鍵的是大腦部分(規(guī)劃&決策),由ChatGPT、Llama2、Gemini這樣的大語言模型作為Agent的大腦,增強了Agent的規(guī)劃與決策的能力。

三、AI Agent關(guān)鍵模塊說明

我們將上圖進(jìn)行進(jìn)一步的抽象和延展,就是網(wǎng)上廣為流傳由OpenAI提出的Agent的模型圖:

圖片來源:《LLM Powered Autonomous Agents》

其實和上圖模型中各模塊的關(guān)聯(lián)關(guān)系差不多,只是OpenAI將AI Agent各模塊的相關(guān)信息呈現(xiàn)的更豐富,基于這張模型圖,可以拆分為以下幾個模塊:規(guī)劃、記憶、工具和行動。

1. Memory-記憶模塊部分

將記憶模塊分為兩個子模塊,分別是

1)短期記憶模塊:提示詞工程中的上下文,類比于人類的感知模塊,是外部信息的輸入,如:文本/圖片/視頻/音頻。

短期記憶模塊受到模型的上下文的限制,我們??吹降腉PT-4 Turbo支持128k上下文指的就是模型能夠記住的上下文長度,超過上下文的限制后,LLM就會忘記之前輸入的信息(猶如得了阿爾茲海默癥)。

2)長期記憶模塊:支持向量庫檢索,類比于人類的博物館,支持在執(zhí)行任務(wù)時調(diào)用博物館中的知識。

長期記憶分為:

  • 外顯的陳述性記憶(客觀的事實或觀點,如:事件&事實&概念)
  • 內(nèi)顯的程序記憶(主觀習(xí)得的知識,如:翻譯&騎自行車)

2. Planning-規(guī)劃模塊部分

將規(guī)劃模塊進(jìn)行細(xì)分,其中思維鏈(CoT)和子目標(biāo)分解(Subgoal Decomposition)是為了將復(fù)雜目標(biāo)進(jìn)行拆分,找到最優(yōu)的執(zhí)行路徑。

圖片來源:《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》

而反思(Reflection)和自我批判(Self-critics)模塊,引入強化學(xué)習(xí)機制,通過環(huán)境的反饋狀態(tài),能從錯誤中吸取”教訓(xùn)”,從而提高結(jié)果的質(zhì)量。其中大語言模型-LLM在規(guī)劃模塊占據(jù)核心位置。像CoT、ToT、ReAct等在規(guī)劃模塊運用的相關(guān)技術(shù),其實大部分是進(jìn)階的提示詞工程的使用技巧,掌握了這些進(jìn)階提示詞工程的技巧,我們一樣能在ChatGPT中實現(xiàn)智能體的規(guī)劃能力。

針對于這一塊可以查閱一下OpenAI的官方文檔中Prompt Engineer的使用指南部分,地址:https://platform.openai.com/docs/guides/prompt-engineering/strategy-give-models-time-to-think

3. Action&Tools-行動和工具調(diào)用模塊

雖然OpenAI拆分為了兩個不同的模塊,但是我們其實可以把它看作一個整體,有了工具再采取行動(有了采摘工具再去采摘蘋果)。

圖片來源:《The Rise and Potential of Large Language Model Based Agents: A Survey》

Agent具體的行動方式分類三類:

1)文本輸出:大語言模型的基礎(chǔ)能力

2)工具使用:大語言模型通過調(diào)用外部的程序工具,拓展了模型本身能力的邊界,其中能夠調(diào)用的工具包括:

  • 專家模塊,如:調(diào)用其他的模型來協(xié)同處理任務(wù)
  • 工具模塊,如:其他應(yīng)用程序的API或插件處理特定任務(wù)

3)具身行動:可理解為現(xiàn)實世界的機器人,能夠在現(xiàn)實環(huán)境中定位自身位置、感知周圍物體,接收指定任務(wù)后與周圍物體進(jìn)行交互,從而實現(xiàn)任務(wù)目標(biāo)

我們用一個簡單的公式做個階段性的總結(jié):

Agent = LLM + 記憶 + 感知&反思 + 規(guī)劃+ 工具使用

四、AI Agent應(yīng)用場景

23年11月9日比爾·蓋茨在其發(fā)表的文章《AI is about to completely change how you use computers》中提出:AI Agent在醫(yī)療保健、教育、生產(chǎn)力、娛樂與購物等應(yīng)用領(lǐng)域?qū)l(fā)揮其巨大的潛能。

咱們重點談?wù)劷逃蛫蕵贰?/p>

1. 教育

谷歌在22年底曾發(fā)布的三篇有關(guān)未來教育的報告,其中提到關(guān)于未來教學(xué)方式將從一對多的教學(xué)方式,轉(zhuǎn)變?yōu)閭€性化教學(xué)和自適應(yīng)教學(xué)

目前也已有許多頭部機構(gòu)在教育領(lǐng)域已有了較為成熟的AI應(yīng)用 像可汗學(xué)院推出的AI學(xué)習(xí)助手Khanmigo,不僅能為學(xué)生在數(shù)學(xué)、科學(xué)、人文科學(xué)等領(lǐng)域進(jìn)行教學(xué)輔導(dǎo),而且能夠幫助老師編寫教案、規(guī)劃課程,將AI深入融合進(jìn)了教學(xué)工作的各個環(huán)節(jié),讓老師能夠更專注于學(xué)生的綜合能力培養(yǎng)。

圖片來源:https://www.khanacademy.org/khan-labs

再推薦一款筆者常用的GPTs,名為Mr.Ranedeer

圖片來源:https://supertools.therundown.ai/

先介紹一下GPTs,GPTs是由OpenAI推出的ChatGPT的定制化模式,任何人都無需編碼即可構(gòu)建屬于自己的ChatGPT

圖片來源:https://openai.com/blog/introducing-gpts

雖然只需要說說話就能構(gòu)建GPT,但是要讓自己的GPT足夠?qū)嵱?,且能夠在將來GPTs的商店中賺到錢,那還需要具備三個核心要素:

  1. 提示詞-Prompt,優(yōu)秀的Prompt才會讓GPT有優(yōu)秀的表現(xiàn)
  2. 行為-Action,能夠讓GPT具備調(diào)用工具的能力,拓展GPT的能力邊界
  3. 數(shù)據(jù)-Database,數(shù)據(jù)的質(zhì)量很大程度上決定了GPT輸出的質(zhì)量

其中數(shù)據(jù)屬于屬于企業(yè)&個人,有就是有,沒有就是沒有。

所以對于大部分人來說,能做的就是Prompt的撰寫和Action的配置。其中Action中的Function Calling(函數(shù)調(diào)用-調(diào)用外部應(yīng)用的API接口),是GPTs能夠作為Agent的最核心能力,通過接入外部應(yīng)用的接口GPT可以調(diào)用其他軟件去完成任務(wù)目標(biāo),從而給出目標(biāo)結(jié)果。

情不自禁的扯遠(yuǎn)了…

我們再回到剛剛推薦的Mr.Ranedeer,它是作者:JushBJJ分享的GPTs,最早是以Prompt的形式上傳至Github中分享給大家使用。

  • 它能夠根據(jù)我們給出的學(xué)習(xí)計劃,自動拆解學(xué)習(xí)內(nèi)容
  • 完成每一章的學(xué)習(xí)內(nèi)容后,可以選擇繼續(xù)學(xué)習(xí)或出題測試檢驗自己的學(xué)習(xí)成果
  • 學(xué)習(xí)過程中我們能夠隨時提出對某個知識點感興趣,它會基于我們的興趣進(jìn)行延展學(xué)習(xí)

具體的使用方法:

1)進(jìn)入網(wǎng)站:https://supertools.therundown.ai/content/mr-ranedeer 這是一個匯聚全球創(chuàng)作者所創(chuàng)作的GPTs,并且按照不同類別進(jìn)行分類,找起來非常方便。

圖片來源:https://supertools.therundown.ai/

2)選擇Mr.Ranedeer,點擊使用按鈕,頁面會自動跳轉(zhuǎn)至自己的ChatGPT界面中,就能開始學(xué)習(xí)起來啦。

3)在此附上Mr.Ranedeer使用方法:https://github.com/JushBJJ/Mr.-Ranedeer-AI-Tutor/blob/main/Guides/How to use Mr. Ranedeer.md#how-to-use-mr-ranedeer

2. 娛樂

由奚志恒等作者發(fā)布的論文《The Rise and Potential of Large Language Model Based Agents: A Survey 》中,原神為例,構(gòu)建了一個由多個Agent共同協(xié)作的社會,人類也能夠參與到其中與不同Agent進(jìn)行互動交流。

圖片來源:《The Rise and Potential of Large Language Model Based Agents: A Survey》

圖中左上角有一個Agent在點菜,另一個Agent在規(guī)劃和解決做菜的任務(wù);右上角的Agent們在討論如何制作燈籠和計算燈籠的成本。

基于上述的案例我們能夠構(gòu)想一下未來具有AI加持的游戲畫面:

在一個類似于像荒野大鏢客這樣的開放性游戲中,我們遇見的每一個NPC都具有獨立情感,我們能夠與之交互,不同玩家的行為選擇會產(chǎn)生不同的游戲劇情。

結(jié)尾

好啦,以上就是我對Agent的理解,如果文章中有描述不對的地方,請幫忙指正,避免對其他讀者產(chǎn)生誤導(dǎo),在這里我先說謝謝啦??

如果文章有給到你啟發(fā)和收獲,可以告訴我,我會特別開心??

讓我們共同迎接2024,加油朋友們??

作者:在野在也,公眾號:在野在也

本文由 @在野在也 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自 Pixabay,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!