火爆的AI Agent,到底是什么?
查了一下:
AI Agent熱潮,準確來說,從2023年3月開始。
那時候,一個叫AutoGPT框架項目發(fā)布,項目利用大型語言模型,能自動把一個大任務拆分成小任務,并使用工具完成它們。
這種技術,將大語言模型處理語言、創(chuàng)造內容,和邏輯推理的能力擴展到了應用場景里,還加了感知和行動技術,所以,能從頭到尾解決一個簡單的問題。
緊接著,一年時間內,項目引起國外大公司、國內創(chuàng)業(yè)者、投資者們極大關注,大家開始積極開發(fā)AI Agent的框架、平臺或具體應用。
外加上去年11月,OpenAI又推出一系列的GPTs,然后,國內才有不少公司才開始根據各自能力布局應用層、平臺層、開發(fā)層和運營層等方向,來增加下一波生態(tài)下的壁壘性。
因此,人們才認為它是下一個重要細分發(fā)展方向。
可是:任何行業(yè)都存在信息差,我周圍有很多人,之前并沒有關注該賽道,爆發(fā)后才覺得有必要了解下,但現在市場上各種信息泛濫,讓人眼花繚亂,就帶來不少困擾。他們不太清楚Agent是什么?為什么很重要,未來發(fā)展怎樣?借此機會,分享一些信息,希望幫你初步了解這個概念。
01
到底什么是AI agent?它是怎么工作的呢?
先來看一個詞:“agent”,中文意思是代理人。代理人,你可以理解成有人幫你去做某件事。那么,AI agent是什么?簡單來說,一個由AI技術加持的代理人,它變得更聰明了,可以感知周圍的環(huán)境,并且能夠獨立地思考和行動。
你有沒有用過對話式的大模型(LLM),比如:文心一言、Kimi Chat、或者智譜AI?AI agent和對話式模型區(qū)別在于,你不用一直告訴它要做什么,只要給它一個目標,就能想辦法自動幫你完成。
所以,大模型(LLM)要很多各種各樣的數據,數據幫助它,學習的和人一樣具備交流、學習、思考和推理的能力。
不過,它并不完美,時常出現一些奇怪的想法,或者受到環(huán)境影響;這時,就能用基于大模型開發(fā)的AI agent進一步細化問題。
舉個容易理解的例子:你用過小愛同學嗎?假如生病了,以前對它說:“我不舒服”,它只會告訴你去醫(yī)院看看,多注意防護。如果更聰明的AI agent,做法會不一樣。
它能檢測你的體溫和其他健康指標,結合網上的信息,分析之后告訴你:你可能發(fā)燒了。”接下來,還能幫你自動寫好請假條。
如果說:“幫我在釘釘上發(fā)給領導”,它立刻就能搞定。要是家里布洛芬不夠了,它甚至可以把藥加入購物車,你確認后付款,很快藥就能送到家。
這就是AI agent的聰明之處。
所以,它的工作原理是什么呢?主要有四部分:
- 感知
- 信息處理
- 執(zhí)行
- 輸出
感知是第一步。AI通過傳感器、攝像頭、麥克風這些外部設備來感知周圍的世界。比如你說:“我不舒服”,這句話就能通過麥克風被捕捉到。
信息處理,像把一個通用的大模型和很多專業(yè)的知識庫結合起來。比如:健康數據和家里的藥物存量,你告訴它這些信息,它就能幫你保存并做出決策。
寫請假條、在線購買藥品,這些都是系統(tǒng)根據它的決策來完成的具體工作。完成之后,系統(tǒng)會告訴你結果。
一個完整的智能體(Agent),好比人類和周圍環(huán)境互動的過程,它由兩部分組成:一部分是智能體自己,另一部分是它所在的環(huán)境。
智能體像生活在物理世界中的人類,而物理世界是它的外部環(huán)境,人類感知周圍的世界,理解環(huán)境中隱藏的信息,再結合自己的記憶、對世界的了解來做計劃、做決定和采取行動一樣;行動又會影響環(huán)境,產生新的反饋。
人類根據反饋再次做出決策,從而形成一個不斷循環(huán)的過程。
你看,整個過程像不像馬克思主義的「實踐論」?有個目標后,從認識開始,實踐得出理論知識,再把知識應用回實踐中去。
這就是,AI Agent神奇之處。
02?
不過,由于大模型本身能力還在不斷發(fā)展中,智能體形態(tài)、應用場景也就更晚一些,所以,看似短短一年內,探索了多種實現智能體的方式,但大部分還處在概念驗證、產品演示階段,常見問題也相對明顯。
包括:項目文檔不完整、復用效果不穩(wěn)定、任務拆分過細,導致成本過高,以及推理能力不夠,更主要的原因,還有跨平臺能力如何解決等等。
我身邊愛寫作、閱讀的朋友們都有一個共同的習慣:
他們會收藏一些有用的信息。通常,信息被臨時記錄在備忘錄中。隨著時間往后推,記錄東西多了,管理起來就比較麻煩。
前段時間,我琢磨能不能創(chuàng)建一個完整的流程,自動化處理,折騰半天,雖然搭建成功流程自動化,但實際使用起來的效果并不理想。
所以,許多平臺廠商、研究機構、創(chuàng)業(yè)公司推出各種單一智能體、多組合智能體、以及機器人自動化(RPA)等框架項目,但從實際調研和行業(yè)反饋看,還要迭代。
不過,這個框架的總體思路,可以用一個公式概括:
Agent = LLM(大型語言模型)+ Planning(規(guī)劃)+ Feedback(反饋)+ Tool use(工具使用)。
當我們做規(guī)劃時,不僅只看當前情況,還會考慮記憶、過去的經驗,以前的反思和總結,還有對世界的了解也加入進來。
而現在以ChatGPT和其他為首的國內大模型,更像一個固定不變的知識庫,它不能直接和環(huán)境互動,雖然它們可以進行邏輯推理、基本規(guī)劃,但不能感知周邊的一切,來進行自主反饋。
在我看來,智能體能通過各種方式獲取反饋。
比如:
如果我們把和對話的ChatGPT視為一個智能體,那么,通過文本框輸入的回復就是給它的反饋,這種互動后,它能調整自己的回答,而不是一次次再教育。
還有,更進一步地,智能體可以使用外部工具來增強它的功能,解決更復雜的問題。
例如:
它可以用天氣API來獲取天氣預報,如果沒有工具,智能體還能學習適應環(huán)境變化的策略,來應對挑戰(zhàn)。所以,一個完整AI智能體應該能夠主動和環(huán)境互動。而大型語言模型是它潛在能力的核心,未來發(fā)展方向,是創(chuàng)建一個從頭到尾的系統(tǒng),這將依靠它有效地使用周圍的工具,來實現更廣泛的應用。
03?
那么,它為什么很重要?我為什么要深入理解呢?
首先,AI智能體將會引領軟件行業(yè)進入一個新的時代,我們可以叫它“3D打印時代”。什么意思呢?3D打印技術普及時,人們很方便地3可以打印出各種“實體物品”。
在所謂的“3D打印時代”,開發(fā)、定制軟件將變得跟打印文件一樣簡單、快速。公司、個人想要什么?都根據自己的需求,很快找到解決方案。有一個科學家,名叫Andrej Karpathy,他在特斯拉負責開發(fā)、優(yōu)化自動駕駛技術。
他在推特上說過,我們可以利用大數據、強大的計算能力來解決過去需要很多人力和時間的復雜問題。這也是為什么那么多人對AutoGPT感興趣的原因。
其次,AI智能體能減少軟件的生產成本。你學過編程沒?以前編程,要寫大量臨時文件、測試方案,還要長期保存下來,以便不時之需;現在的編程,完全可以自動化制作,成本幾乎為零;這意味著,原來需要上千萬人才能完成的軟件任務,現在少量的人就可以搞定。
還有一點是,智能體靈活滿足各種需求。以前,我在幾家C輪公司工作過,技術人員占了一半,因為用戶很多、開發(fā)的東西也特別多。不僅要做商城,還要做CRM系統(tǒng),只有用很多人力才能提高效率。
現在情況不同,很多基礎的需求直接交給智能體來處理。這就像,我們從大批量生產,轉變成了小批量快速響應的模式。如果把大語言模型看作人類思考的“系統(tǒng)1”,即負責快速、直覺的思考,而AI智能體則類似于人類的“系統(tǒng)2”,負責慢速、分析性的深入思考。計算機專家,Andrej Karpathy曾提到:大模型可以快速產生反饋,但也容易產生誤判。
AI智能體目標是建立一個個小框架,讓LLM循序漸進的思考,反而更能做出可靠的決策。我以前在網上搜索學術文章時,要分兩步篩選信息:首先,根據研究領域進行初步篩選;然后,根據第一次搜索結果,進一步篩選出與我期望最相似的文章。這個過程通常要多次查詢和調整,耗時又麻煩。后來,情況大有改觀。
我用RPA后,它按照要求自動篩選,并在第一輪結果后精準查找,所以,這就像APP的推薦系統(tǒng),你可以根據需要,定制自己的智能體。
所以,基于大模型的Agent,改變了獲取信息的方式,未來會有更多人有自己的Agent,幫它當合作伙伴,你可以想想,如果有個小助手,你會讓它做什么?
04?
那么,AI Agent有什么不同類型呢?因為Agent技術還不是完全成熟,所以,Agent平臺也在初期階段,現在一些比較固定的工作流程,或有詳細標準SOP的程序,都在封閉環(huán)境下進行。
即便一些比較受歡迎的平臺,它們在API生態(tài)系統(tǒng),工作流程再組合上,還是不夠完善。我盤了一下,AI Agen平臺大致有三類:一類,面對公眾和非開發(fā)人員,基于知識庫和數據庫的簡單聊天機器人(Chatbot);如“類GPTs”,它提供標準界面、流程。國內字節(jié)的扣子(Coze)、阿里的AI助理市場。
另一類,面向開發(fā)者的綜合開發(fā)平臺:這類平臺幫助開發(fā)者使用各種API、第三方庫和代碼嵌入,進行Agent的流程調優(yōu)。
例如:Coze海外版、百度靈境矩陣全代碼版,阿里、亞馬遜等提供模型托管,支持開發(fā)者開發(fā)應用。它們可以能解決復雜問題、有多個工作流程安排的復雜場景在里面。
第三類是企業(yè)級開發(fā)平臺:專門給企業(yè)工作流程制作的智能化。比如:TARS-RPA-Agent、CubeAgent和Torq等。瀾碼科技的AskXbot平臺,以及360的“大模型+企業(yè)知識庫+Agent”的解決方案?;谠摽蚣芟掠帜苓M行行業(yè)結構,應用場景再次劃分。
因為大家發(fā)展速度真的很快,所以,從實際情況來看,首先需要做的是:
第一步,豐富通用和特定場景的工作流程。這意味著,要創(chuàng)建一些標準的流程,這樣不同的情況下都能用。
第二步,深入地學習和積累專業(yè)知識。
這樣,第三步,平臺能更好地重復使用已有的工作流程,也能更靈活地結合不同的工具。
同時,還要探索適合的商業(yè)模式,這樣才能滿足AI時代的需求。簡單說,就是要搞清楚怎么通過AI Agent賺到錢,同時確保AI平臺能不斷進步,更好地服務大家,很重要。
更直白一點說:產品營銷圈,有一個很重要概念叫做PMF(Product-Market Fit,產品市場匹配度)。
如果一個產品找到它的PMF,就找到了自己的市場立足點,開始有了用戶黏性。在AI大模型產品領域里,大模型要找到自己的TPF(Technology Product Fit,技術產品匹配)。
技術發(fā)展比較快時,AI從業(yè)者,要從技術、產品和市場三個角度全面考慮,尋找一個中間值,三者,完美匹配的時,才是AI Agent解決具體需求,賺到前的高光時刻。我們不能總說技術厲害,而忽略市場是否需要。
前段時間,跟一個老板溝通企業(yè)內部流程再造時,就提到該問題,他說:看似很多冗余工作,AI Agent可以解決,但是,AI Agent解決前,總要先有人得先用好他。
舉個例子:服裝設計公司,面臨一個重大挑戰(zhàn),批量生產服裝時,要設計和制作多個樣板,這個過程傳統(tǒng)上完全依賴人工;現在,AI智能體可以介入這一過程,但到底能處理到哪一步呢?精確度足夠高嗎?這些都要進一步的探索、測試。
所以,國內Agent發(fā)展還未達到其真正潛力,大多只是些簡單的聊天機器人。
缺少反思、規(guī)劃、環(huán)境感知能力,而這些能力,恰巧構成高級AI Agent的核心要素。總結而言AI Agent,進一步迭代工作流。
據我所知,目前市面有很多agent搭建工具,如果你想進一步了解這個賽道,親自試試,是最快的方法。
本文由人人都是產品經理作者【王智遠】,微信公眾號:【王智遠】,原創(chuàng)/授權 發(fā)布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發(fā)揮!