Gen AI已經(jīng)過時(shí),進(jìn)入Agentic AI時(shí)代
隨著人工智能技術(shù)的不斷進(jìn)步,我們已經(jīng)從早期的生成式AI(Generative AI)逐步邁向了更加智能、自主的Agentic AI時(shí)代。這一新興技術(shù)不僅在消費(fèi)領(lǐng)域展現(xiàn)了巨大潛力,更在企業(yè)應(yīng)用中顯示出其獨(dú)特的價(jià)值。那么,Agentic AI究竟是什么?它如何改變我們的工作和生活方式?本文將深入探討Agentic AI的定義、核心要素以及在各行各業(yè)的應(yīng)用前景,帶領(lǐng)讀者一探究竟。
早期階段的生成式人工智能,抑或“請(qǐng)求/響應(yīng)式 AI”,未能達(dá)到炒作所營造的預(yù)期水平。智能代理人工智能(Agentic AI)作為人工智能的下一個(gè)層級(jí),建立在生成式人工智能的基礎(chǔ)之上,將為企業(yè)帶來更具實(shí)效的商業(yè)價(jià)值。
Agentic AI 的概念可以追溯到上世紀(jì) 90年代 IBM 深藍(lán)象棋系統(tǒng)出現(xiàn)之時(shí),但其再次受到關(guān)注得益于大語言模型的應(yīng)用。尤其是 AI Agent 和 Autonomous Agent 的具體應(yīng)用,讓 Agentic AI 再次被熱議,包含 AI Agent 的工作流更是讓 Agentic AI 成為 AI 領(lǐng)域的熱門話題。
目前,有關(guān) Agentic AI 的研討主要聚焦于消費(fèi)應(yīng)用領(lǐng)域,比如一個(gè)代理充當(dāng)人類的數(shù)字助手。然而,在消費(fèi)環(huán)境中,數(shù)字助手是一個(gè)開放且復(fù)雜的難題。相反,Agentic AI 在企業(yè)用例方面展現(xiàn)出更大的潛力,原因在于企業(yè)中的任務(wù)相對(duì)更規(guī)范,存在清晰的流程用以引導(dǎo)代理。
本文全面分享了對(duì)于 Agentic AI 新興趨勢(shì)的觀點(diǎn),包括如何定義,明確要將其變?yōu)楝F(xiàn)實(shí)所欠缺的要素以及列舉該領(lǐng)域的部分參與者。
一、Gen AI
去年 1 月,風(fēng)投機(jī)構(gòu) A16z 對(duì)新興的 Gen AI 技術(shù)棧進(jìn)行了描述,其基本上呈現(xiàn)出了請(qǐng)求-響應(yīng)模型。即通過自然語言發(fā)起請(qǐng)求,再借助檢索增強(qiáng)生成(RAG)管道來訪問數(shù)據(jù)并返回答案。
這個(gè)過程雖然極為迅速,但答案往往差強(qiáng)人意,并且相同或相似的查詢常常會(huì)給出不同的答案。所以,這種模式給企業(yè)客戶帶來的投資回報(bào)較為有限。當(dāng)然,也存在一些出色的應(yīng)用實(shí)例,諸如代碼輔助、客戶服務(wù)、內(nèi)容創(chuàng)作等等。而 Agentic AI 則是在 Gen AI 基礎(chǔ)之上構(gòu)建。
假如把企業(yè)看成一座城市,在這個(gè)城市中,Agent 要想代替用戶去執(zhí)行工作,關(guān)鍵在于理清如何導(dǎo)航才能完成工作。
也就是說,Agent 就像一個(gè)“跑腿小哥”,需要一張地圖和相應(yīng)交通工具來完成客戶(也就是 Agent 用戶)的單子,Agent 需要知道從哪里拿貨,送到哪里以及哪條路最近。
這正是企業(yè)的優(yōu)勢(shì),因?yàn)榇蟛糠止ぷ鞫季哂杏邢耷液侠?、明確界定的路線和任務(wù),使得企業(yè)中 Agent 能夠更為迅速地完成更具價(jià)值的工作。
二、Agentic AI 的定義
在《Practices for Governing Agentic AI Systems》白皮書中, OpenAI 認(rèn)為 Agentic AI systems(智能體人工智能系統(tǒng))的特征是能夠采取行動(dòng),這些行動(dòng)在很長(zhǎng)一段時(shí)間內(nèi)持續(xù)地有助于實(shí)現(xiàn)目標(biāo),而不必事先明確規(guī)定其行為。artificiality 將 Agentic AI Systems 定義為能夠以不同復(fù)雜性感知、推理和行動(dòng)的系統(tǒng),以將人類思維擴(kuò)展到我們當(dāng)前經(jīng)驗(yàn)之外。該定義更加強(qiáng)調(diào)了感知、推理和行動(dòng)這三種能力。
結(jié)合來看,Agentic AI 是指被設(shè)計(jì)用來通過理解目標(biāo)、導(dǎo)航復(fù)雜環(huán)境,并在最少的人工干預(yù)下執(zhí)行任務(wù)的系統(tǒng),能夠通過自然語言輸入獨(dú)立和主動(dòng)地完成端到端任務(wù)。
不難看出,與傳統(tǒng) AI 的區(qū)別是 Agentic AI 具有自主性、主動(dòng)性和獨(dú)立行動(dòng)的能力。這一點(diǎn)與 AI Agent 相似,但與 AI Agent 的區(qū)別在于 AI Agent 更側(cè)重于作為一個(gè)明確的主體存在,能夠完成特定的任務(wù),但相對(duì)來說自主性和適應(yīng)性可能較為有限。而 Agentic AI 則在自主性和適應(yīng)性上表現(xiàn)更為突出,能夠在復(fù)雜環(huán)境中更靈活地應(yīng)對(duì)變化,并作出更具主動(dòng)性的決策,AI Agent 則需要更多的人工干預(yù)和重新編程來適應(yīng)變化。
三、供應(yīng)鏈中的 Agentic AI 示例
亞馬遜每周會(huì)對(duì) 4 億個(gè)庫存單位的銷售情況進(jìn)行預(yù)測(cè),并展望未來五年的發(fā)展態(tài)勢(shì)。之所以需要進(jìn)行如此長(zhǎng)遠(yuǎn)的展望,是因?yàn)樗鼡碛胁煌拇恚@些代理會(huì)依據(jù)時(shí)間范圍和所需協(xié)調(diào)的工作類型去執(zhí)行不同的任務(wù)。
例如,一個(gè)負(fù)責(zé)長(zhǎng)期規(guī)劃的代理或許會(huì)計(jì)算出需要建設(shè)多少配送中心容量。另一個(gè)代理可能會(huì)對(duì)每個(gè)現(xiàn)有或尚未建成的配送中心的布局進(jìn)行配置,還有一個(gè)代理可能會(huì)算出在下一個(gè)交付周期中每個(gè)供應(yīng)商每個(gè)庫存單位的訂購數(shù)量。再有一個(gè)代理會(huì)計(jì)算出貨物到達(dá)時(shí)如何進(jìn)行交叉裝卸,以確保庫存能夠分配到正確的位置。隨后,在收到客戶訂單后,又會(huì)有一個(gè)代理必須計(jì)算出工人應(yīng)當(dāng)如何揀選、包裝和發(fā)貨該訂單的物品。
這些代理需要為了一些總體的企業(yè)目標(biāo)(比如盈利能力)來協(xié)調(diào)各自的計(jì)劃,并且要受到滿足亞馬遜所設(shè)定的交付時(shí)間目標(biāo)的限制。重要的是,一個(gè)代理有關(guān)配送中心配置(例如)的決策必須告知另一個(gè)代理如何揀選、包裝和發(fā)貨訂單。
換句話說,每個(gè)代理所做的分析都必須為其他所有代理的分析提供信息。所以,這不單單是搞清楚一個(gè)代理的工作內(nèi)容,而是要協(xié)調(diào)眾多代理的工作和計(jì)劃,并考慮它們之間的相互依賴關(guān)系。
代理依照人類設(shè)定的目標(biāo)開展工作。生成的計(jì)劃提交給人類進(jìn)行審查,然后根據(jù)實(shí)際需要付諸實(shí)施或者進(jìn)行修訂和優(yōu)化。正是人類的直覺與機(jī)器的效率相互結(jié)合,才使得這一過程變得如此強(qiáng)大。
四、Agentic AI 在各行業(yè)的擴(kuò)展
當(dāng)下的工具,主要是針對(duì)自然語言請(qǐng)求給出一個(gè)答案。想象一下,如果將亞馬遜各種代理協(xié)作的案例轉(zhuǎn)化為一種軟件能力,讓所有企業(yè)都能夠借助它來創(chuàng)建代理系統(tǒng)。
就像前面提到的,如果在 A16z 的技術(shù)?;A(chǔ)上做一些編排框的補(bǔ)充,模型將通過調(diào)用應(yīng)用程序并利用這些應(yīng)用程序中的多個(gè)工作流來執(zhí)行更多的編排工作。
在圖表中形似 L 形的空框里,展示了數(shù)字世界與物理世界的融合,就像是“語義層”,為數(shù)據(jù)賦予明確、一致且可理解的語義,使得不同的系統(tǒng)、應(yīng)用程序和用戶能夠以統(tǒng)一的方式理解和處理數(shù)據(jù),而不會(huì)因?yàn)閿?shù)據(jù)的表示方式或來源的不同而產(chǎn)生歧義。進(jìn)一步來講,在標(biāo)有“API 和插件”的框周邊的虛線部分,這些操作從調(diào)用工具轉(zhuǎn)變?yōu)槟軌蛘{(diào)用遺留操作應(yīng)用程序或分析模型的操作,該操作本質(zhì)上屬于工作流構(gòu)建塊。
在操作方面,一項(xiàng)工作或者一個(gè)分析模型,或許是“告訴我業(yè)務(wù)中應(yīng)該發(fā)生什么或已經(jīng)發(fā)生了什么,進(jìn)而得出接下來應(yīng)該發(fā)生什么”。這些本質(zhì)上是把工具提升為操作。在大型語言模型的表述里,這些變成了動(dòng)詞。
回到中間的編排器:如今,大多數(shù)通過大型語言模型完成的工作流編排來源于程序員在代碼中所指定的內(nèi)容。在未來,大型語言模型將成為大型動(dòng)作模型(LLM→LAM),并生成操作計(jì)劃或工作流。
要實(shí)現(xiàn)這一點(diǎn),它需要對(duì) RAG 管道通常查看的原始數(shù)據(jù)進(jìn)行升級(jí),從而創(chuàng)建業(yè)務(wù)的數(shù)字表征。這就是地圖或者知識(shí)圖譜,上面寫著:“企業(yè)中的人員、地點(diǎn)和事物以及連接它們的活動(dòng)是什么?”這讓代理能夠弄明白如何導(dǎo)航以達(dá)成其目標(biāo)。
以亞馬遜為例,代理需要了解預(yù)測(cè)中的內(nèi)容,以知曉不同庫存項(xiàng)目與哪些供應(yīng)商相關(guān),這些供應(yīng)商能夠生產(chǎn)什么,以及物流如何在何處交付其產(chǎn)出。
五、機(jī)器人流程自動(dòng)化(RPA)的作用
在這一方面,可以把 RPA 視作一個(gè)管道系統(tǒng),它能夠輔助采用連接至屏幕或者應(yīng)用程序編程接口(API)的軟件機(jī)器人。而通過 Agentic AI ,大型語言模型(LLM)能夠?qū)W會(huì)導(dǎo)航屏幕,或者在有可用的 API 時(shí)學(xué)會(huì)使用,又或者通過觀察來進(jìn)行學(xué)習(xí)。
關(guān)鍵之處在于,當(dāng)下眾多的 RPA 都是運(yùn)用了硬編碼腳本,基于已知的規(guī)則執(zhí)行任務(wù)。因此,需要一個(gè)更為強(qiáng)大的自動(dòng)化環(huán)境,當(dāng)這些硬編碼腳本轉(zhuǎn)變?yōu)橹悄艽頃r(shí),其對(duì)變化的適應(yīng)能力會(huì)更強(qiáng)。而 Gen AI 能夠助力讓構(gòu)建管道變得更為容易且不那么繁雜,在國內(nèi),有阿里巴巴、字節(jié)跳動(dòng)、實(shí)在智能等 AI 企業(yè)在這一領(lǐng)域探索,并取得了一定效果。
比如,在 2024 世界人工智能大會(huì)(WAIC 2024)亮相的“文生數(shù)字員工”實(shí)在 Agent 受到了業(yè)界關(guān)注。實(shí)在 Agent 以實(shí)在智能自有 TARS 大模型為“腦”、ISSUT(智能屏幕語義理解技術(shù))為“眼”,IPA (智能流程自動(dòng)化)為“手腳”,可以理解人類提出的任務(wù)需求,自主理解PC環(huán)境、規(guī)劃流程并執(zhí)行完成任務(wù),實(shí)現(xiàn)“你說 PC做,所說即所得”和“文生數(shù)字員工”的理想應(yīng)用效果。
在國外,推動(dòng) Agentic AI 發(fā)展的代表性公司有:OpenAI,作為關(guān)鍵的大型語言模型參與者——在賬戶滲透率方面遙遙領(lǐng)先;UiPath Inc.、Celonis 和 ServiceNow Inc. 在自動(dòng)化領(lǐng)域,以及像 Palantir、Snowflake Inc. 和 Databricks Inc. 等分析和數(shù)據(jù)平臺(tái)公司。
六、達(dá)成 Agentic AI 欠缺哪些元素
總結(jié)來看,當(dāng)今的大型語言模型正在從能夠通過自然語言查詢檢索數(shù)據(jù)的模型轉(zhuǎn)變?yōu)槟軌蚓幣殴ぷ髁鞯拇笮蛣?dòng)作模型(LAMs)。要切實(shí)利用 Agentic AI,必須與遺留應(yīng)用程序相連接,并且必須協(xié)調(diào)這些應(yīng)用程序中的數(shù)據(jù)。
聽起來簡(jiǎn)單,但能夠近乎實(shí)時(shí)地理解并采取行動(dòng)是業(yè)務(wù)的 Agentic AI 需要以持續(xù)的方式構(gòu)建和訓(xùn)練代理的工具鏈。以下是幾個(gè)關(guān)鍵要素:
- 強(qiáng)大的數(shù)據(jù)基礎(chǔ):包括高質(zhì)量、大規(guī)模且多樣化的數(shù)據(jù),以便模型能夠進(jìn)行有效的學(xué)習(xí)和推理。
- 先進(jìn)的算法和模型架構(gòu):如深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)架構(gòu),能夠處理復(fù)雜的任務(wù)和關(guān)系。
- 高效的計(jì)算資源:用于訓(xùn)練和運(yùn)行復(fù)雜的模型,以確保快速的處理和響應(yīng)。
- 對(duì)業(yè)務(wù)流程和用戶需求的深刻理解:以便準(zhǔn)確地定義代理的任務(wù)和目標(biāo)。
- 良好的交互設(shè)計(jì):使得用戶能夠自然、便捷地與代理進(jìn)行溝通和交互。
- 持續(xù)的學(xué)習(xí)和優(yōu)化機(jī)制:以適應(yīng)不斷變化的環(huán)境和需求。
- 安全和隱私保護(hù)措施:確保數(shù)據(jù)的安全性和用戶隱私不受侵犯。
- 跨領(lǐng)域的專業(yè)知識(shí)融合:如計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、業(yè)務(wù)領(lǐng)域知識(shí)等,以構(gòu)建全面有效的解決方案。
當(dāng)然,具體的需求可能因應(yīng)用場(chǎng)景和業(yè)務(wù)目標(biāo)的不同而有所差異。
本文由 @阿木聊AI(智能體) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
- 目前還沒評(píng)論,等你發(fā)揮!