硅谷大佬都在聊的AI Agents,是真熱還是虛火?
在ChatGPT爆火之后,AI Agents(智能體)這一概念也出現(xiàn)在人們的視野當(dāng)中,有關(guān)AI Agents(智能體)的熱潮也從硅谷蔓延開來。那么,什么是AI Agents(智能體)?AI Agents會是下一個風(fēng)口嗎?一起來看看本文的解讀。
ChatGPT獲得巨大成功后,OpenAI已然奔向下一個目標(biāo)——AI Agents(智能體)。
“如果一篇論文提出了某種不同的訓(xùn)練方法,OpenAI內(nèi)部會嗤之以鼻,認(rèn)為都是我們玩剩下的。但是當(dāng)新的AI Agents論文出來的時候,我們會十分認(rèn)真且興奮地討論。普通人、創(chuàng)業(yè)者和極客在構(gòu)建AI Agents方面相比OpenAI這樣的公司更有優(yōu)勢。” OpenAI聯(lián)合創(chuàng)始人,前TeslaAI總監(jiān)Andrej Karpathy說道。
Karpathy的公開發(fā)言為AI Agents添了不少熱度。但他的判斷并非一家之言。
早在3月份,AutoGPT就在GitHub上獲得7.4萬星,并快速成為史上Star數(shù)量增長最快的開源項(xiàng)目;而后發(fā)布的BabyAGI、AgentGPT更如雨后春筍般涌現(xiàn):訂購披薩、整理郵箱、創(chuàng)建博客,甚至舉辦一場情人節(jié)派對……
越來越多的AI Agents出現(xiàn)在人們生活的各個場景下,熱潮迅速開始從硅谷蔓延。
自主執(zhí)行、獨(dú)立運(yùn)作,AI Agents被科技人士給予極高的期待,認(rèn)為其是“變革社會的生產(chǎn)力工具”。更有人將其視作“通往通用人工智能(AGI)時代的開始”。
但呼聲并不能掩蓋現(xiàn)存的問題。
“大模型是AI Agents的前提,有了足夠好的硬件基礎(chǔ)后,才能去發(fā)展AI Agents?!闭娓窕鸸芾砗匣锶舜饔晟瓕Α讣鬃庸饽辍贡硎尽?/p>
嚴(yán)格來說,市面上只有ChatGPT一個“合格”的大模型底座。受制于模型算力,國內(nèi)仍然缺乏AI Agents的開發(fā)土壤。
未來美好,現(xiàn)實(shí)殘酷。技術(shù)研發(fā)與創(chuàng)業(yè)投資等都在搖擺中進(jìn)行。AI Agents的紅利期何時真的伴隨大模型浪潮而來,誰都不得而知。但可以肯定的是,改變已悄然開始。
一、AI Agents:幫你做事的“數(shù)字助理”
與其把AI Agents當(dāng)作ChatGPT升級版,不如將它視作人類的“數(shù)字助理”更為合適。
它不僅告訴你“如何做”,更會“幫你做”。作為一種媒介,AI Agents代替人類與GPT等大語言模型(Large Language model, LLM)進(jìn)行反復(fù)交互,只要給定目標(biāo),它便可以模擬智能行為,自主創(chuàng)建任務(wù)、重新確定任務(wù)列表優(yōu)先級、完成首要任務(wù),并循環(huán)直到目標(biāo)達(dá)成。
與傳統(tǒng)的人工智能不同,AI Agents可以在沒有人類控制的情況下獨(dú)立運(yùn)行。通過接入API,AI Agents甚至可以瀏覽網(wǎng)頁、使用應(yīng)用程序、讀寫文件、使用信用卡付款等等。
簡單來說,只需要給它一個目標(biāo),AI Agents就能完成剩下的全部工作。例如HyperWrite研發(fā)的AI agent通過Chrome瀏覽器的控制程序來自動幫你訂購披薩。
圖源:HyperWrite CEO Matt Shumer Twitter賬號
這種想象放在科幻電影里并不難,但在人工智能探索歷程上,已經(jīng)持續(xù)了將近半個世紀(jì)。
早在20世紀(jì)80年代,計(jì)算機(jī)科學(xué)家就開始探索如何開發(fā)一個可以像人類一樣交互的智能軟件。 但苦于數(shù)據(jù)和算力限制,AI Agents缺乏必要的現(xiàn)實(shí)條件。
斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士Joon Park曾在訪談中表示:“我們一直在朝著那個方向努力,但過去幾十年的所有方法,甚至都沒有接近我們現(xiàn)在借助LLM所實(shí)現(xiàn)的效果……這就是為什么我們忘記了這一愿景。但當(dāng)LLM出現(xiàn)時,我們意識到機(jī)會來了?!?/p>
大語言模型是AI Agents的核心大腦。通過拆解復(fù)雜任務(wù),可以將復(fù)雜的用戶需求拆解為可實(shí)現(xiàn)的任務(wù)方式。
一方面,大模型的訓(xùn)練建立在互聯(lián)網(wǎng)的基礎(chǔ)上包含了大量的人類行為數(shù)據(jù),彌補(bǔ)了構(gòu)建可信AI Agents的關(guān)鍵要素。
另一方面,在可觀的知識容量下,大模型涌現(xiàn)出優(yōu)秀的上下文學(xué)習(xí)能力、推理能力。通過建立思維鏈來實(shí)現(xiàn)模型的連續(xù)思考和決策,AI Agents可以分析復(fù)雜問題,并將其拆解成簡單、細(xì)化的子任務(wù)。
與此同時,LLM以語言作為媒介也改變了前端的交互形式。BV百度風(fēng)投AI應(yīng)用賽道負(fù)責(zé)人,投資副總裁溫永騰告訴「甲子光年」:“BV百度風(fēng)投很早就開始關(guān)注AI Agents的發(fā)展,通過研判,我們認(rèn)為原先的圖形用戶界面(GUI)有可能轉(zhuǎn)變?yōu)檎Z言用戶界面(LanguageUI),AI Agents的前端應(yīng)用將存在于所有可能與人類交互的前端形式之中?!?/p>
只是拆解任務(wù),還遠(yuǎn)遠(yuǎn)算不上智能。LLM驅(qū)動下的AI Agents,離不開三個關(guān)鍵組件:
- 規(guī)劃(Planning):將大型任務(wù)分解為較小的、可管理的子目標(biāo);進(jìn)行反思與細(xì)化,對過去行為進(jìn)行分析、總結(jié)和提煉,以提高自身的智能和適應(yīng)性,提高最終結(jié)果的質(zhì)量。
- 記憶(Memory):短期記憶,進(jìn)行上下文學(xué)習(xí);長期記憶,能夠長期保存和調(diào)用無限信息的能力,一般通過外部載體儲存和快速檢索來實(shí)現(xiàn)。
- 工具使用(Tool use):可以學(xué)習(xí)調(diào)用外部API,以獲取模型權(quán)重中缺少的額外信息。
LLM驅(qū)動下的AI Agent System概覽
圖片來源:Lilian Weng個人博客
三個組件配合下,AI Agents不僅能像人一樣思考,也能像人一樣行動。
就像人類一樣,在從事復(fù)雜任務(wù)時,每一步之間往往會有一個推理過程。AI Agents也會借助ReAct組件(ReasoningandActing),將大模型的推理能力和行為決策緊密結(jié)合起來,使語言模型可以根據(jù)知識進(jìn)行有邏輯地計(jì)劃安排。
Reflexition框架則為AI Agents提供動態(tài)記憶與自我反思的能力。通過語言反饋而非更新權(quán)重的方式來強(qiáng)化Language Agents,讓它可以改進(jìn)過去的行動決策、糾正過往的錯誤以不斷提高自身表現(xiàn)。
在信息獲取、儲存、保留、檢索的進(jìn)程上,AI Agents也力圖模仿人類的記憶構(gòu)成,構(gòu)建高效的內(nèi)存系統(tǒng)。
模擬人類記憶方式,AI Agents會將感覺記憶、短期記憶、長期記憶,分別表示為原始輸入的學(xué)習(xí)嵌入(如文本、圖像等)、上下文學(xué)習(xí)、外部向量儲存。任務(wù)與結(jié)果會儲存在記憶模塊中,當(dāng)信息被調(diào)用時,儲存在記憶中的信息會回到與用戶的對話中,由此創(chuàng)造出更加緊密的上下文環(huán)境。
人類最顯著的特征之一就是使用和創(chuàng)造工具。通過配備外部工具,使用API來調(diào)用各種接口,AI Agents能夠模擬人類使用工具,完成更復(fù)雜的任務(wù)。
雖然技術(shù)層面并未完全成熟,諸如數(shù)據(jù)管理、長期記憶等問題仍在解決。但AI Agents自主執(zhí)行、迭代優(yōu)化、“解放雙手”的能力也讓走紅成為必然。
二、接替LLM,AI Agents成為下一個AI熱點(diǎn)
ChatGPT的誕生,實(shí)現(xiàn)了AI與人類進(jìn)行多輪對話,并提供信息和建議的功能。Copilot的推出,使AI足以承擔(dān)為人類完成工作初稿的能力,例如Github Copilot、Microsoft 365 Copilot、Midjourney,分別成為人們在編程、辦公、圖像生成領(lǐng)域中的“智能副駕”。
告訴AI完成一件任務(wù),它就能完成一件任務(wù)——撰寫文案、回答問題,或者生成一張人類肉眼難以分辨真假的照片。而與此同時,人們也往往需要為AI的每一步行動提供具體清晰的提示。
此時的AI就像是初來乍到,沒有任何經(jīng)驗(yàn),需要手把手教導(dǎo)的實(shí)習(xí)生。但是,如果你想要一個聽指令辦事,執(zhí)行中遇到困難自己解決,盡量不給人添麻煩的好員工呢?
3、4月份,Camel、AutoGPT、BabyAGI、西部世界小鎮(zhèn)等多個AI Agents集中爆發(fā),似乎讓人們看到了這樣的可能。
自3月份,Significant Gravitas將AutoGPT開源后,發(fā)布時間不到2個月,AutoGPT在GitHub上獲得的star數(shù)量已經(jīng)達(dá)到13萬,成為史上star數(shù)量增長最快的開源項(xiàng)目。
斯坦福大學(xué)打造的西部世界小鎮(zhèn)
圖片來源:論文《Generative Agents: Interactive Simulacra of Human Behavior》
Andrej Karpathy就曾在Twitter上表示:“提示工程(prompt engineering)的下一個前沿是AutoGPTs”。截至目前,AutoGPT在代碼托管平臺Github上已經(jīng)獲得超過14萬star,排名歷史第25位。
OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman曾在多個場合表示,構(gòu)建龐大AI模型的時代已經(jīng)結(jié)束,智能體才是挑戰(zhàn)。
在一篇介紹自主智能體的文章中,作者Octane AI(一家數(shù)據(jù)營銷平臺提供商)聯(lián)合創(chuàng)始人兼CEO Matt Schlicht收集了來自業(yè)界、學(xué)術(shù)界、投資界等上百余人的觀點(diǎn)和看法,有來自Meta、Nvidia、Stability AI等大公司或AI初創(chuàng)公司的專家,也有斯坦福CS的教員和投資了包括Hugging Face在內(nèi)的AI投資人,絕大多數(shù)都表達(dá)了對AI Agents潛能的期待和展望,甚至將其稱為“原始AGI”。
接替大模型,AI Agents似乎正在成為AI的下一個熱點(diǎn)。
但與此同時,反對的聲音也不絕于耳。
圖靈獎獲得者Yoshua Bengio在今年5月發(fā)布的博文《危害人類的AI是如何出現(xiàn)的》中就提及,人類能控制AI Agents總?cè)蝿?wù)、總目標(biāo),并不意味著人類能控制AI Agents憑借自己的智慧分解出來的子任務(wù)、子目標(biāo),除非AI對齊(alignment)的研究取得突破,否則人類就沒有強(qiáng)有力的安全保障。
智能體的集體出現(xiàn),大佬的追捧和質(zhì)疑,AI Agents的浪潮迅速且火熱。
然而,AI Agents在人工智能的圈子內(nèi)并不是一個新名詞。
2014年,DeepMind推出的圍棋AI AlphaGo,其實(shí)就是AI Agents的一種。與之類似的還有2017年OpenAI推出的用于玩《Dota2》的OpenAI Five,2019年DeepMind公布用于玩《星際爭霸2》的AlphaStar。
當(dāng)時的業(yè)界潮流是通過強(qiáng)化學(xué)習(xí)(reinforcement learning)的方法來訓(xùn)練和改進(jìn)AI Agents,主要應(yīng)用于游戲場景,特別是一些對抗性、具有明顯輸贏雙方的比賽中。但如果想要在真實(shí)世界中實(shí)現(xiàn)通用性,卻是一個懸而未決的問題。
之后的幾年,OpenAI轉(zhuǎn)向大語言模型,GPT系列的相繼推出,大模型成為各家科技廠商爭先涌入的賽道,也正是大模型的發(fā)展,讓AI Agents有了突破瓶頸、重新發(fā)展的契機(jī)。
相較于幾年前局限在游戲場景,在大模型的基礎(chǔ)上AI Agents可以實(shí)現(xiàn)什么?BV百度風(fēng)投AI應(yīng)用賽道負(fù)責(zé)人,投資副總裁溫永騰向「甲子光年」表示:“我們看到的不僅僅是技術(shù)進(jìn)步使得AI在理解用戶意圖、收集信息以及執(zhí)行任務(wù)的能力大大增強(qiáng),更重要的是,AI Agents完全有能力重構(gòu)未來的應(yīng)用生態(tài)”。
在AutoGPT推出后不久,已經(jīng)有不少網(wǎng)友使用AutoGPT來搭建自動化的個人助理。例如FirstSales.io的創(chuàng)始人兼CEO Udit Goenka發(fā)帖稱,他利用AutoGPT搭建了一個勘探引擎,可以搜索去年獲得種子輪投資的公司,并能描述創(chuàng)建列表的詳細(xì)信息。
Google軟件工程師Yew Jin Lim表示,他用AutoGPT創(chuàng)建了一個電子郵件助手,通過電子郵件向AI Agents發(fā)送任務(wù)詳情。
真格基金管理合伙人戴雨森告訴「甲子光年」:“Agent是一個讓生產(chǎn)力真正能大幅提高的方向,因?yàn)槿绻€是人做事情,人總是有限的”。
“AI Agents將會成為日常生活和工作中的生產(chǎn)力工具?!盡att Schlicht寫道,“從管理社交媒體賬號、投資市場,到出版最好的兒童讀物,AI Agents將存在于各個行業(yè)和每一項(xiàng)可以被想象出的任務(wù)之中?!崩鏰omni,是一款可以在網(wǎng)絡(luò)上查找任何主題信息的AI Agent,會通過創(chuàng)建列表,一項(xiàng)一項(xiàng)完成用戶的目標(biāo)。
除了生產(chǎn)力需求之外,Inflection AI的個人AI Agent Pi提供了另一個可能的應(yīng)用方向。
不同于ChatGPT、Claude通用人工智能的定位,Pi主打高情商、情感陪伴、提供情緒價值。Pi還會記住和用戶的歷史對話,除了參與并輔助人們的工作與生活,還會學(xué)習(xí)聯(lián)系朋友和家人的方式與用戶建立聯(lián)結(jié)。目前Inflection AI已獲得超15億美元的投資,超越了Anthropic,僅次于OpenAI。
三、AI Agents會是下一個風(fēng)口嗎?
“Building a kind of JARVIS(構(gòu)建類似于JARVIS)”,這是Andrej Karpathy在Twitter上最新更新的簡介,JARVIS是漫威超級英雄鋼鐵俠的一位人工智能助手,具備獨(dú)立思考的能力,能幫主人處理各種事務(wù),計(jì)算各種信息。
Karpathy的簡介也意味著,AI Agents賽道的發(fā)令槍已經(jīng)打響。
外媒《The Information》指出,Sam Altman曾在5月私下告訴部分開發(fā)者,OpenAI希望將ChatGPT打造成個人工作助手,并有知情人士指出,OpenAI一直在關(guān)注如何使用聊天機(jī)器人來創(chuàng)建自主的AI Agents,相關(guān)功能很有可能部署在ChatGPT助手中。
無獨(dú)有偶,Meta也看到了AI Agents的機(jī)會。
早在4月,Zuckerberg就曾對投資者表示,Meta看到了“以有用且有意義的方式向數(shù)十億人介紹AI Agents的機(jī)會”,但此時他并沒有說明具體的應(yīng)用。
而在6月一次與員工舉行的全體會議上,Zuckerberg宣布了一系列處于不同開發(fā)階段的技術(shù),其中一個就是將帶來具有不同個性和能力的AI Agents來提供幫助或娛樂,最初主要用于Messenger和WhatsApp。
在國內(nèi),AI Agents相關(guān)的產(chǎn)品也相繼誕生。
在7月初的WAIC現(xiàn)場,阿里云就發(fā)布了旗下第一個智能體——ModelScopeGPT,面向開發(fā)者群體,并將在未來推出一系列智能體以應(yīng)對多種應(yīng)用場景。
華為在該領(lǐng)域也有涉及,但更側(cè)重于具身智能(Embodied AI),即大模型與機(jī)器人的結(jié)合。
除了大廠,AI Agents也是創(chuàng)業(yè)者們的機(jī)會。OpenAI聯(lián)合創(chuàng)始人Karpathy特意在此前的演講中提到:“普通人、創(chuàng)業(yè)者和極客在構(gòu)建AI Agents方面相比OpenAI這樣的公司更有優(yōu)勢。”
BV百度風(fēng)投AI應(yīng)用賽道負(fù)責(zé)人,投資副總裁溫永騰表示,BV團(tuán)隊(duì)目前也對初創(chuàng)企業(yè)在AI Agents領(lǐng)域中的機(jī)會持樂觀態(tài)度。
“未來的應(yīng)用生態(tài)將是多元化的,而非由單一巨頭主導(dǎo)。AI Agents的出現(xiàn)帶來了一次范式轉(zhuǎn)移的機(jī)會,許多傳統(tǒng)應(yīng)用都面臨被顛覆改造的可能性。在這個過程中,初創(chuàng)公司有大量的機(jī)會去開墾新的領(lǐng)域。對于每一個特定的任務(wù),AI Agents都有大量的優(yōu)化空間,包括特定算法與服務(wù)的構(gòu)建、用戶數(shù)據(jù)以及產(chǎn)品設(shè)計(jì)等方面,都是初創(chuàng)公司可以建立差異化優(yōu)勢的地方。”
“此外,當(dāng)前AI Agents的生態(tài)還不夠明確,這為初創(chuàng)企業(yè)提供了有利的發(fā)展機(jī)會,因?yàn)樗鼈儾⒉恍枰谝粋€已經(jīng)確定的規(guī)則下進(jìn)行競爭,從這個角度上來看,初創(chuàng)企業(yè)與大公司是站在同一起跑線上的,并且初創(chuàng)企業(yè)更為靈活,可以很快進(jìn)行產(chǎn)品的調(diào)整?!?/p>
憑借在人工智能領(lǐng)域布局多年所積累的認(rèn)知,BV百度風(fēng)投并不認(rèn)為模型公司會壟斷應(yīng)用層的機(jī)會。因?yàn)閷τ诘讓幽P凸緛碚f,構(gòu)建生態(tài)的意義遠(yuǎn)大于壟斷某一應(yīng)用,如果底層模型公司采取排他性的策略來獲取應(yīng)用層的競爭優(yōu)勢,可能會對其自身的生態(tài)造成傷害。底層模型公司可能會在他們關(guān)注的一兩個領(lǐng)域構(gòu)建強(qiáng)大的AI Agents,但他們沒有必要在所有領(lǐng)域都與初創(chuàng)企業(yè)競爭。
尚未確定的生態(tài),還未被制定規(guī)則的賽場,所有人又回到了同一起跑線上。
但不可否認(rèn)的是,目前為止,除了許多演示之外,AI Agents并沒有真正的產(chǎn)品出現(xiàn)。
真格基金管理合伙人戴雨森將AI和人類協(xié)作的程度類比為自動駕駛的不同階段,AI Agents就好比自動駕駛的L4階段。但就如同L4一樣,AI Agents容易想象、演示,卻難以實(shí)現(xiàn),AI Agents的真正應(yīng)用還在不確定的未來。
將AI和人類協(xié)作的程度類比自動駕駛的不同階段
圖片來源:戴雨森即刻賬號@yusen
戴雨森強(qiáng)調(diào),想要實(shí)現(xiàn)可用的AI Agents,還需要大幅提高大模型的能力,即使是對處于頂層的OpenAI來說,在延遲、性能上也有很高的提升空間。
“如果用蒸汽機(jī)來打比方的話,水燒到100度才能產(chǎn)生蒸汽,如果AI Agents的智力還沒有達(dá)到一定的程度,水只燒到了50度,即使已經(jīng)花費(fèi)了很多能源,依然無法產(chǎn)生蒸汽,依然是0。”
AI Agents賽道的發(fā)令槍已經(jīng)打響,只不過,這絕對不是短短幾個月內(nèi)的沖刺,而是注定要長達(dá)幾年,甚至跨越十年的長跑馬拉松。
作者:李晗,朱悅,編輯:栗子
原文標(biāo)題:硅谷大佬都在聊的AI Agents,是真熱還是虛火?|甲子光年
來源公眾號:甲子光年(ID:jazzyear),立足中國科技創(chuàng)新前沿陣地,動態(tài)跟蹤頭部科技企業(yè)發(fā)展和傳統(tǒng)產(chǎn)業(yè)技術(shù)升級案例。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @甲子光年 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!