吳恩達最新演講:AI智能代理工作流的趨勢(觀點解讀與演講全文)
在紅杉資本AI峰會第三期,吳恩達教授分享了對智能體工作流的看法。在本次演講中,他談到了AI agentic workflow,也就是智能體工作流的迭代模式,以及基于人工評估基準測試的效果分析,還談到了自己對于AI智能體設計模式的四種分類,包括反思、工具使用、規劃、多智能體協作。與此同時,吳恩達還分享了它對AI智能體的未來發展潛力的展望。
吳恩達指出,隨著AI技術的發展,AI代理被視為一個能顯著提升軟件開發效率和質量的工具。
他通過展示AI代理如何在主動型工作流中超越單獨模型的局限,以及多代理系統如何通過協作來解決復雜問題,強化了這一觀點。
他認為,在未來,我們將看到AI代理在各種工作流程中發揮更大的作用,并且這些代理的性能和應用范圍將不斷擴大。
對此,人們需要學會重新設定與AI合作的期望,并充分利用AI代理快速迭代的優勢。
吳恩達還預測了AI工作流程的擴展,并討論了人類需要適應與AI代理交互的新方式。
吳恩達介紹了 AI 智能代理工作流的四種設計模式:
- 反思(Reflection):LLM 檢查自己的工作,以提出改進方法。
- 工具使用(Tool use):LLM 擁有網絡搜索、代碼執行或任何其他功能來幫助其收集信息、采取行動或處理數據。
- 規劃(Planning):LLM 提出并執行一個多步驟計劃來實現目標(例如,撰寫論文大綱、進行在線研究,然后撰寫草稿……)。
- 多智能體協作(Multi-agent collaboration):多個 AI 智能代理一起工作,分配任務并討論和辯論想法,以提出比單個智能體更好的解決方案。
關鍵結論及其論據支撐:
結論 1: 主動型工作流中的AI代理可以產生比傳統工作流更好的結果。
論據:
吳恩達個人實際操作時觀察到的效果出人意料。
GPT-3.5在主動型工作流中表現得甚至比GPT-4還好,盡管GPT-4在零次提示下有更高的成功率。
結論 2: 多代理協作是提高AI性能的有效策略。
論據:
設計模式包括代碼代理和批判代理的合作,這種模式易于實施且通用。
實驗顯示多代理通過協作編寫代碼、測試和迭代可以生成復雜的程序。
結論 3: AI代理的運用將擴大人工智能可執行任務的范圍。
論據:
吳恩達期待由于代理工作流程的存在,今年AI能完成的任務集會大幅拓展。
已經存在的不同設計模式(反思、工具使用、規劃和多代理協作)表明,AI代理的應用正變得越來越精細和廣泛。
結論 4: 快速迭代在AI代理的使用中是關鍵,甚至可能比慢速迭代的更高質量模型結果更好。
論據:
LLM快速生成Token對于多代理工作流程至關重要,因為需要不斷迭代。
即使是質量較低的LLM,只要迭代速度足夠快,也可能產生比慢速生成Token的更高質量模型更好的結果。
結論 5: 人們需要適應耐心等待AI代理完成任務的方式。
論據:
目前人們習慣于搜索引擎式的即時回應,但與AI代理的合作需要時間來產生最佳結果。
這種適應是提高與AI代理合作效率的必要步驟。
下面是演講全文:
《Agentic Reasoning》
我很期待與大家分享我對AI代理的看法,這是一個我認為所有從事AI開發的人都應該關注的令人興奮的趨勢,同時我也對其他的內容感到興奮。
接下來的演示會是怎樣呢?現在我們大多數人使用AI代理的方式就像一個小企業那樣,帶著一種非主動性的工作流程,你輸入一個問題它就生成答案。這有點像你讓一個人寫一篇論文,然后說“請坐到鍵盤前,從頭到尾打出這篇論文,而且不許用退格鍵”。
盡管這很難,但LLM實際上做得相當好。相比之下,在主動型工作流中,情況可能是這樣的:AI會說,“寫一個論文提綱。你自己需要做進一步的調研嗎?那我們開始吧。然后寫第一稿,再讀你自己的第一稿,考慮哪些部分需要修改,然后修改你的草稿,如此反復?!?/p>
這種工作流程更加迭代,你可能需要AI做一些思考,然后修改文章,再做一些思考,這個過程重復多次。而許多人沒有意識到的是,這實際上能得到顯著更好的結果。
我自己實際操作這些主動型工作流時,也非常驚訝它們的效果。
除非你想要一個案例研究,我的團隊使用一種名為“人類智能基準測試”的代碼標準來分析數據,這個標準是由OpenAI幾年前發布的。
這里面包含了編碼問題,比如“給定一個非空整數列表,返回所有奇數元素或未偶數位置上的元素的總和”。結果是你的代碼片段就像這樣。
今天我們很多人會使用零次提示,意思是我們告訴AI“寫代碼”并讓它在第一部分運行,比如誰調用了代碼,我知道人類不會那樣寫代碼,我們應該把代碼打出來。也許你可以做到,但我做不到。事實證明,如果你使用GPT-3.5零次提示,它的成功率是48%,而GPT-4的表現則好得多,成功率達到67.7%。
但如果你采用一個主動型工作流環繞GPT-3.5,實際上它甚至比GPT-4做得還好。如果你將這種類型的工作流環繞在GPT-4周圍,它也表現得很好。
你會注意到,在主動型工作流中GPT-3.5實際上比GPT-4的表現更好。我認為這意味著非常重要的后果,我認為這將改變我們所有人構建應用程序的方法。所以“代理”這個術語被廣泛地討論,許多咨詢報告都在談論AI的未來等等。
我想更具體地與大家分享我觀察到的廣泛設計模式和代理。這是一個非?;靵y、無序的領域,有大量的研究和開源項目。有很多事情正在發生,但我試圖將其歸類得更具體一些。經歷了代理反思這個工具,我認為我們中的許多人都在使用它,它確實有效。我認為這是公認的技術。當我使用它們的時候,我幾乎總能讓它們正常工作。
計劃和多代理協作,我認為這些更是新興的內容。當我使用它們時,有時我會對它們的效果感到震驚。但至少在目前,我感覺我不能總是可靠地讓它們工作。
所以讓我通過幾張幻燈片來介紹這四種設計模式。如果你們中的一些人回去讓你們的工程師使用它們,我認為你們很快就會獲得生產力的提升。
所以關于反思,這里有一個例子。假設我要求一個系統,請為我編寫一個特定任務的代碼。然后我們有一個代碼代理,只是一個你提示編寫代碼的LLM,比如定義一個任務函數。
自我反思的一個例子是,如果你隨后用類似的提示向LLM提問,例如這里有一段代碼是為一個任務準備的,然后將剛剛生成的完全相同的代碼反饋給它,并仔細檢查代碼的正確性和效率。
對他們來說,這是一個很好的建設性反饋。結果表明,同一個LLM在你提示它編寫代碼后,可能會發現第五行的問題并修復它。如果你現在拿它自己的反饋提示它,它可能會生成一個第二版的代碼,可能比第一版的代碼工作得更好,雖然不能保證,但這足夠經常發生,值得在很多應用程序中嘗試。
為了預示即將使用的內容。如果你讓它運行單元測試,如果它沒通過單元測試,那你就問它為什么沒通過單元測試?
進行這樣的對話。我們將找出為什么沒通過單元測試,所以嘗試改變一些東西,最終提出解決方案。
順便說一句,對于那些想要了解更多關于這些技術的人,我對每個部分都有很高的評價,在底部有一個推薦閱讀部分,整個圖表是更多參考資料。
我猜我描述的代理系統是一個你提示它的單一代碼代理?
這個想法的一個自然演變是,不是一個單一的代碼代理,你可以有兩個代理,其中一個是代碼代理,另一個是批判代理。這些可能是相同的基礎LLM模型,但你以不同的方式提示它們。
我們說,一個你是專家級的編碼者,編寫代碼。
另一個說,你是專家級的代碼審查員,審查代碼。
這種工作流程實際上很容易實施。
我認為這是一個非常通用的技術,對于很多工作流程來說,這將大幅提升你的LLM性能。
第二個設計模式是使用工具。
你們中已經有人見過LLM系統使用工具了,左邊是Copilot的截圖,右邊是從GPT-4中提取的東西。
但是今天的 LLM,如果你問,最好的咖啡機是什么?
你可以進行網絡檢索,對于某些問題,LLM 會生成代碼并運行代碼。
事實證明,有許多不同的工具被許多不同的人用于分析,收集信息以采取行動,提高個人生產力。
事實證明,早期的許多工具在計算機視覺社區的使用,因為在大型語言模型出現之前,他們不能對圖像做任何事情。
因此,唯一的選擇是讓 LLM 生成一個可以操作圖像的函數調用,例如生成圖像或進行對象檢測等。因此,如果你真正看一下文獻,就會發現有趣的是,工具使用方面的大部分工作似乎都源于視覺。因為LLM之前對圖像視而不見,GPT-4v 和,以及 Lava 等等。這就是工具的使用,它擴展了LLM的能力。
第三個,就是計劃。
對于那些還沒真玩過很多規劃算法的人來說,,我覺得很多人都在談論ChatGPT時刻,你會發現,哇,無法想象人工智能代理能夠這樣做。
我認為如果你沒有使用過規劃算法,很多人都會有一種人工智能代理。我無法想象人工智能代理會這樣做。
因此,我運行了現場演示,其中出現了一些故障,并且人工智能代理圍繞故障重新規劃。事實上,我有過很多這樣的時刻,哇,我不敢相信我的人工智能系統能夠自主地做到這一點。
但是,我改編自一篇擁抱GPT 論文的例子,你說,請生成一張女孩的圖像。其中女孩正在讀書,并且它發布的內容與圖像中的男孩相同,例如.jpeg,請用一個男孩描述新圖像。
今天有了人工智能代理,你可以做出決定,我需要做的第一件事是確定男孩的姿勢。然后,找到正確的模型,也許在huggingFace上來提取姿勢。接下來,你需要找到一個后期圖像模型來合成一個女孩的圖片如下所示,然后使用,圖像轉文本,最后使用文本轉語音。
今天,我們實際上有一些代理,我不想說他們工作可靠,他們有點挑剔,他們并不總是工作,但當它工作時,它實際上是相當驚人的。通過代理循環,有時您也可以從早期的故障中恢復。
所以我發現自己已經在我的一些工作中使用研究代理,我想要進行一項研究,但我不喜歡,谷歌搜索自己并花很長時間。我應該發送給研究人員,幾分鐘后回來看看有什么結果。而且,有時有效,有時無效,對嗎?但這已經是我個人工作流程的一部分。
4.Multiagent collaboration
最終的設計模式,多智能體協作。
這是有趣的事情之一,但是,它的效果比你想象的要好得多。
左邊是一篇名為“聊天”的論文的截屏,它是完全開放的,實際上是開源的。你們中的許多人都看到了在我的筆記本電腦上運行的Chat Dev開源演示的華麗的社交媒體公告。
GhatDev 所做的就是一個多代理系統的例子,你提示一個 LLM,有時扮演一個軟件引擎公司的CEO,有時扮演產品經理,有時扮演測試員。
通過提示讓代理告訴他們,你現在是CEO,你現在是軟件工程師來來建立群代理。他們實際上會花幾分鐘編寫代碼?測試它。迭代。然后生成一個極其復雜的程序.
他們合作進行了一次長時間的對話,所以如果你告訴它,請開發一個游戲,開發目標,更多的關鍵游戲。他們實際上會花幾分鐘編寫代碼,測試它,評分,然后生成一個及其復雜的程序。
有時它不起作用,有時它很驚人。但這項技術真的越來越好。而且,這只是設計模式之一,事實證明,多代理辯論。你有不同的代理,例如,可能讓 ChatGPT 和 Gemini互相辯論,也會帶來更好的性能。讓多個代理一起工作,也是更強大的設計模式。
所以總結一下,我認為這些模式是顯而易見的。我認為如果我們在我們的工作中使用這些模式,我們中的許多人都可以很快得到提升。
我認為,代理推理設計模式將會很重要。這是我的最后一張幻燈片。
我預計,由于代理工作流程!,今年人工智能可以完成的任務集將大幅拓展。
人們實際上很難適應的一件事是,當我們提示LLM時,我們希望立即得到答復。
事實上,十年前,當我在谷歌與他們討論這個問題時,我們稱之為大盒子搜索類型,我們需要輸入一個很長的提示詞,這是我未能成功推動的原因之一,因為當你進行網絡搜索時,你期望在半秒內就會有一個回應,對吧?這就是人性。
我們喜歡那種即時抓取,即時反饋。
但對于很多代理流程,我認為我們需要學會將任務委托給AI代理,并耐心地等待幾分鐘,甚至幾小時才能得到回應。
但就像我看到很多新手經理將事情委托給別人,然后5分鐘后檢查一樣,對吧?
這并不高效。我認為這真的很難。
我們也需要用一些AI代理來做到這一點。
另一個重要的趨勢是,快速Token生成很重要,因為通過這些代理工作流程,我們會一遍又一遍地迭代。
因此,LLM 正在生成Token。因此,能夠比任何人讀取的速度更快地生成Token真是太棒了。
我認為,與來自更好的 LLM 的較慢的Token相比,即使是質量稍低的 LLM快速生成更多的Token也可能會產生良好的結果。
也許,這有點爭議,因為它可能會讓你多次繞過這個循環。有點像我在第一張幻燈片上使用 GPT-3 和代理架構展示的結果。
坦白說,我真的很期待 Claude 5, Claude 4、 GPT-5 和Gemini 2.0以及許多人正在構建的所有其他精彩模型。
我的一部分感覺是,如果您期待在 GPT-5 Zero-Shot上運行您的東西,您知道,您可能能夠在某些應用程序上比您通過代理推理想象的更接近該性能水平,但在早期模型上。我覺得,這是一個重要的趨勢,老實說,通向 AGI 的道路感覺像是一段旅程,而不是一個目的地。
但我認為這種類型的代理工作流程可以幫助我們在這個漫長的旅程中向前邁出一小步。謝謝。
B站視頻觀看地址:
https://www.bilibili.com/video/BV19D421V7mc
附資料:
如何理解:AI agent(人工智能代理)
AI agent(人工智能代理)通常指的是一個軟件實體,它可以在某種程度上模擬人類智能的某些方面,執行特定任務或達成目標。這些代理可以感知環境,并在此基礎上進行決策并采取行動,從而完成既定的任務或解決問題。
要理解AI代理,我們可以將其比作一個有能力獨立執行任務的助手。例如,考慮一下吳恩達提到的編寫代碼的代理。假設你是一個程序員,需要編寫一個函數來處理數據。
如果沒有AI代理,你需要自己思考、編碼、測試和調試。而有了AI代理之后,你可能只需要描述你想要的結果,AI代理就會自動生成代碼,并且可能還會對該代碼進行測試和優化。
以多代理系統為例,可以設想一個由多個專門AI代理組成的團隊,其中每個代理都有不同的角色和能力。以下是一些示例:
- 軟件開發多代理系統:你可能有一個AI代理負責編寫代碼(編碼代理),另一個負責檢查代碼質量(審查代理),還有一個可能專注于編寫測試用例(測試代理)。這些代理可以一起工作,相互溝通,共同開發出功能完整的軟件應用。
- 客服機器人:一個AI代理負責接聽電話,分析客戶的問題,并將其分派給最合適的服務部門。另一個AI代理可能是專業解決特定類型問題的,比如技術支持或訂單處理。這些代理能夠根據客戶的需求協同工作,提供有效的客戶服務。
- 個人助理AI:一個AI代理幫助你管理日歷,安排會議;另一個代理幫你搜索網絡信息,而第三個AI代理可能負責運行模擬和預測,幫助你做出更好的商業決策。
通過使用AI代理,我們可以使復雜的流程自動化,增加效率,并允許系統以自動化的方式執行那些通常需要大量時間和專業知識的任務。AI代理的進步也意味著它們可以學習并改進自己的性能,隨著時間的推移變得更加精確和高效。
專欄作家
Blues,微信公眾號:BLUES,人人都是產品經理專欄作家。深圳梅沙科技合伙人。20年豐富的職場經歷,歷經連續創業、騰訊、YY語音、迅雷等公司,目前致力于“教育+科技”產品創造。
本文原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!