LLM的范式轉移:RL帶來新的 Scaling Law
LLM(?大型語言模型)?的范式轉移正在由RL(?強化學習)?引領,?帶來全新的Scaling Law。?傳統上,?LLM的發展依賴于模型規模、?數據量和計算資源的擴展,?而RL的引入為這一領域注入了新的活力。?通過強化學習,?LLM能夠更好地適應復雜環境和任務,?實現更精細化的控制和優化。?這種范式轉移不僅提升了LLM的性能,?還為其應用開辟了新的可能性。?隨著RL與LLM的深度融合,?我們有望見證一個更加智能、?高效和適應性強的大型語言模型時代的到來。?
從幾周前 Sam Altman 在 X 上發布草莓照片開始,整個行業都在期待 OpenAI 發布新模型。
根據 The information 的報道,Strawberry 就是之前的 Q-star,其合成數據的方法會大幅提升 LLM 的智能推理能力,尤其體現在數學解題、解字謎、代碼生成等復雜推理任務。
這個方法也會用在 GPT 系列的提升上,幫助 OpenAI 新一代 Orion。
OpenAI 不是唯一重視 RL 和 Self-Play 的公司,Google 用 AlphaGeometry 2 + Alphaproof 奪得 IMO 銀牌之后,基于 LLM 做 reward model 的思路發了多篇 paper。Anthropic Claude 3.5 的代碼能力顯著提升,我們猜測也是以這樣的思路去引領變化。
今年以來我們觀察到 LLM scaling up 的邊際收益開始遞減,用 RL self-play + MCTS 提升 LLM 推理能力成為下一個技術范式。在新范式下,LLM 領域的 scaling law 會發生變化:計算量變大仍會帶來模型智能的提升,但會從模型參數量變大,轉移到 inference-time compute 增加,也就是模型進行更多 RL 探索。
本文正是在這樣的背景下分析和思考 RL 會如何給 LLM 帶來新一波的智能提升,以及這對我們未來投資、創業有著怎么樣的 implication。
一、為什么我們期待 RL 改變 LLM 范式?
1. LLM 利用現有數據,RL 探索長距離推理
2018 年,Lex Fridman 邀請 Ilya 來 MIT 客座講一節課,Ilya 選擇的主題是 RL 和 self-play,因為他認為這是通往 AGI 的路上最關鍵的方法之一。Ilya 在講座中用一句話概括了強化學習:讓 AI 用隨機路徑去嘗試一個新的任務,如果效果超出預期,就更新神經網絡的權重讓 AI 記得多使用成功的實踐,然后開始下一次嘗試。
這個概括中可以看到強化學習和其他 AI 范式的重要區別,經典三大范式(監督學習、非監督學習、強化學習)中只有強化學習的假設是讓 AI 進行自主探索、連續決策,這個學習方式最接近人類的學習方式,也符合我們想象中的 AI agent 應該具備的自主行動能力。
強化學習的核心在于”探索”(Explore)和”利用”(Exploit)之間的權衡。LLM 在”利用”現有知識上做到了現階段的極致,而在”探索”新知識方面還有很大潛力,RL 的引入就是為了讓 LLM 能通過探索進一步提升推理能力。
在實現 RL 的過程中,有兩個核心組件。他們之間一直在反復交互,agent 在環境中執行 action,并且根據環境的變化評估 reward:
? Environment:AI 探索完成任務的環境,當 Alphago 下圍棋時,環境就是 19×19 的棋盤。環境會發生變化,AI 會從環境變化中收到 reward value 判斷過去的那一系列探索是否有明顯的收益,例如距離下圍棋勝利是否更接近了。
? Agent:agent 會根據對環境的觀測和感知來輸出一個動作,目標是得到更高的 reward。agent 這個概念最早就是來自強化學習。
如果把這里的 agent 主體換成 LLM,那么會在探索的過程中做很多 LLM inference。因此這里 RL 在 LLM 中應用的思路本質是用 inference time 換 training time,來解決模型 scale up 暫時邊際收益遞減的現狀。這勢必也會對 scaling law 帶來很多變化,詳細的變化我們會在 2.3 節進行分析。
2. self-play + MCTS:高質量博弈數據提升 reasoning 能力
要讓 RL 算法能夠在連續推理任務上做到最好,理解 self-play + MCTS 的思路是最重要的。放到 LLM 語境下,self-play 是讓 LLM 同時扮演一個或多個 agent model 去做推理任務,并由另一個 LLM 作為 reward model 來給出打分評價,一定次數后更新 LLM 權重讓其多記住做得好的推理方式。
Self-play 是 AlphaZero 等強化學習算法的合成數據方法,最早可以追溯到 1992 年的 TD-Gammon 算法。這個方法的本質是利用 AI 無限的計算能力來補足它數據利用效率不夠的短板,更符合當下 AI 的優勢。好的 self-play 能合成大量高質量的數據,甚至可能比人類歷史上見過的棋局、游戲數更多,用數據量來做到 super human:AlphaGo, Dota Five 都探索出了和人類不一樣的游戲套路,并戰勝了大部分職業選手。
讓我們以 AlphaZero 為例,在每一局對弈中,模型使用蒙特卡洛樹搜索(Monte Carlo Tree Search,MCTS)來選擇動作。MCTS 結合了當前神經網絡提供的策略(policy)和價值(value),從而在每個游戲狀態下評估出最優的行動。其具體步驟如下:
- 隨機初始化: 模型從完全隨機初始化的狀態開始,沒有任何人類先驗知識。
- 自我對弈 (self-play): 模型自己與自己進行對弈,生成大量的游戲數據。這些對弈中好的結果用于更新模型的參數。
- 蒙特卡洛樹搜索 (MCTS):在每一次對弈中,AlphaZero 會使用 MCTS 來搜索最佳動作。MCTS 使用策略網絡 (policy network) 提供的動作概率分布和價值網絡 (value network) 提供的局面評估結果來引導搜索。
- 策略更新 (policy network): 根據自我對弈的結果,使用強化學習的方式來更新神經網絡的參數,使得模型逐步學習到更優的策略。
這張圖來自 AlphaTensor 論文,是Alphazero 在矩陣運算解題時的變種。圖中的 acting 包含了上文中的前三步任務,learning 步驟對應著第4步:策略更新
AlphaZero 的神經網絡架構就是 policy network,包含了 policy head 和 value head。這是 self-play 定義的來源:policy 是負責下棋的部分,value 是負責評估的 reward model,他們來自同一個神經網絡。
? 策略網絡 (Policy head): 輸出當前棋盤上每一個可能走子的地方的概率分布,表示模型在當前狀態下認為的最佳行動。
? 價值網絡 (Value head): 輸出一個標量值,表示當前棋盤狀態的評估,即模型認為從當前狀態到達游戲結束的勝負概率。
對比 LLM,AlphaZero 強調從零開始的自我學習,不依賴任何人類的歷史數據或先驗知識。所有知識均通過自我對弈產生和優化,在 explore 上做到了極致;LLM 依賴于大量的預訓練數據,這些數據所有互聯網文本和代碼內容,反映了人類知識和語言模式,在 exploit 上做到了極致。
可能會問,為什么 RLHF 中的 RL 很難進一步給模型很強的探索推理能力,因為 RLHF 的任務目標并不是機器智能,而是人機對齊。在像 average human 的偏好數據上做 RL 能做到“更像人”,但不能做到 super human 的智能。舉個例子,人類總是更喜歡好理解而不是邏輯嚴謹的內容。
3. 如何評估 RL reasoning model 的能力?
當 OpenAI 和 Anthropic 的 reasoning model 發布時,應該怎么評估其模型的智能程度呢?我們可以想到這樣幾個重要的 milestone,難度從低到高:
? Milestone 1:強推理能力的“理科生”
RL reasoning model 一定能在這兩個垂直領域達到很強的可用性:90%+ 復雜數學問題正確率,完整生成 1000+ 行代碼的 github repo。
? Milestone 2:能規劃執行 long horizon task 的 AI agent
如果 self-play 有可能通過自由探索互聯網數據,在一些任務上能為用戶執行瀏覽器/操作系統級的 autopilot,這時 AI agent 就真正來到了 ChatGPT 時刻。
? Milestone 3:AI society 對話系統
RL reasoning model 可以模擬兩個角色的對話,發現和優化對話策略。例如一個 LLM 可以扮演銷售和客戶、老師和學生、各國外交官等各種角色,通過自我對話學習如何在各種語境下的社交、溝通技巧,從中獲得真正的語言理解和共情能力。如果這里有 emergent capability 涌現,AI 智能能真正的社會化。
總結來說,self-play 給了模型一個自己“卷”自己不斷進步的框架,MCTS 方法讓模型在連續決策中更容易“打出連招”,self-play+LLM+MCTS 會成為 LLM post-training 中新的范式。至于能走到哪一個 milestone,這里的核心 bottleneck 就是 reward model,我們在下一節中將重點討論。
二、Reward model
RL reasoning 的核心難點
Self-play RL 是要在好的策略上持續探索,怎么定義“好”就尤其重要。因此, Reward model(獎勵模型) 是 RL 中最關鍵的模塊之一,有兩個關鍵的卡點是需要解決的,那就是 reward model 的泛化性和連續性。
1. 可驗證的 reward model 讓 code & math 提升路徑明晰
Self-play RL 在棋牌、電子游戲、數學競賽上之所以有效,是因為這些領域都有明確的勝負標準,可以作為 reward model 的基礎。有了 LLM 的 in-context learning,我們相信代碼、數學是可以通過 LLM + self-play RL 來持續進步的。根據 The information 報道,strawberry 目前能力最強的領域就在 math 和 code 上,Sonnet 3.5 在代碼的提升也是很好的佐證。
這兩個領域具有準確、快迭代的評判標準,使得模型能夠獲得明確的反饋:我們可以把 code script 放進 Python Interpreter/ compiler,把 math proof 放進 Lean(Lean 是一種編程語言,通過計算機驗證數據定理,廣泛用在 AI 形式化數學證明中幫助 AI 理解數學題),就能自動驗證其準確性。
數學作為形式化邏輯的典范,擁有一套可驗證、精準的符號系統。在這次 IMO 中,DeepMind 用 Alphaproof + AlphaGeometry 2 的方案成功獲得銀牌,Alphaproof 解決了 3 道題目,alphageometry 解決了 1 道題。其進行 做 RL 的方法有幾個值得關注的點:
- Fine-tune Gemini 用于對數學問題形式化,生成了~100M 用于訓練的數據。這個數據量遠比人類解數學題需要的量大。
- 用 AlphaProof 和 Lean Compiler 作為外部監督信號告訴 solver network 其答案是否正確(今年 IMO 的題目是可以驗證答案是否錯誤的),再利用 MCTS 搜索更好的答案并訓練。
- 由于問題很難,Alphaproof 在推理過程中也會訓練網絡(這可能是為什么他耗時那么久),即針對特定問題 MCTS 采樣后,會把采樣中較好的 reasoning path 再投入訓練,這種做法相當于對特定任務 finetune。
- AlphaProof & Alphageometry 2 拆成了兩個策略網絡來達到最好的效果。因為不同特定任務可能需要分別設置 prior,比如 AlphaGeometry 需要增加輔助線。
Code 領域的可驗證性也非常強,AI 能通過 compiler/interpreter 自行驗證可用性。如果不成功,報錯信息也能幫助 AI 自己去發現和理解錯誤在哪里。而且 coding 領域相比 math 還有兩個獨特的優勢:
? 海量高質量數據。開源領域已經有很多項目代碼,而且其數據質量很高:有代碼項目的文件結構、優化歷史、遇到問題時的修復方案,還有大量基于自然語言的注釋。
? 明確的分工方式。math 是一個比較個人英雄主義的領域,頂尖優秀的數學家進行自己的思維實驗,能夠與其同頻協作的人非常少。而 code 領域已經出現了復雜分工:PM 理解需求設計原型、SWE 開發程序、QA 驗證代碼、SRE 進行運維。前面提到 self-play 其實是一個 multi-agent 分工環境,高效的分工影響了 RL 的質量上限。
OpenAI 在今年 6 月宣布內部訓練了 CriticGPT 用于 post-training,是一個 AI code verifier:CriticGPT 能夠對 ChatGPT 生成的代碼進行評估,識別出錯誤并提修改建議。其訓練方式也比較直接:通過在代碼中故意設置 bug 并進行詳細標注,訓練出能夠 debug 的模型。盡管沒有說明,我們相信其目標一定是給 Q-star 訓練 reward model。
Anthropic Artifact 也是這個領域非常好的案例:Sonnet 3.5 從能生成 20 行可靠代碼進化到可以生成 200 行,自然也就帶來了這個產品 UI 上的創新。Anthropic 也完全有可能把這里的用戶數據作為 reward model 喂回給模型,是比 ChatGPT 的數據飛輪更高效的。
如果說 ai for math 可能對人類的科學探索有很大幫助,ai for coding 是更能產生直接的經濟價值的。知識工作者有非常多的任務可以用代碼來定義并實現,只是目前沒有公司能為個性化長尾需求寫代碼。這一部分可能是 RL 成熟之后最大的創業機會,這將在文章的第 4 部分繼續深入。
2. reward model 對其他領域的泛化性并不明確
在數學和編程等領域,我們有明確的正確性標準,但在文本的開放域我們沒有,很多時候任務的目標是模糊的、沒有最優解,這讓我們對智能通過 RL 在所有語言任務上產生泛化感到悲觀:
? 物理、醫藥有明確的標準答案,但需要很長的實驗驗證周期。這兩個領域看似是最接近 math、code 的,但缺少實驗數據驗證的 synthetic data 可用性無法保障。
? 法律、金融的問題往往沒有通用解法,很難用通用的 reward model 實現。例如在科技投資中,一級市場研究就會 reward 前瞻性強的研究,而二級市場研究則對前瞻性的 reward 就相對少一些,reward 需要分配給很多強時效性的判斷。
? 文字創意領域的 reward 很多時候不符合馬爾可夫模型,也就是其 reward 常常會有跳變。一本好的小說、劇本,會講究反轉,試想 LLM next-token prediction 到一個反轉之前其 reward 函數還很低,一個精彩的反轉讓 reward 函數突然大幅提升,self-play RL 很難捕捉這個突然的變化。
因此這里孕育著新范式下的第二個創業機會:垂直領域的 reward model,同樣會在第 4 部分詳細展開。
而要讓 reward function 能捕捉到更多的信號,在垂直領域之外泛化,最重要的方向就是怎么用好 LLM 作為 reward model,并同時輸出數字和文字評估。
3. LLM as a PRM (process reward model):通往泛化的重要路線
要實現泛化,背后的核心問題是怎么設計 reward function 才讓數據信號能被更高效地運用,才能讓 AI 循序漸進的學習。在 code 和 math 領域已經有了一些解決方案:使用 LLM 作為 PRM + curriculum learning。這套方法的持續突破,一定會讓 reasoning model 訓練得更好,配合 LLM 的語義表達能力甚至有可能實現 reward model 的泛化。
PRM (Process reward model) 是獎勵好的推理步驟,而不僅僅是正確的結果。這更接近人類的學習和推理方式,實現方式常常是用 chain-of-thought 來表示推理過程,對每一步進行打分。這是因為 LLM 的語義理解能力才成為可能的。在傳統 RL 中,我們按照最終結果評分,其評分模型稱為 ORM(outcome reward model);而通過專門訓練 LLM 成為 process verifier ,新的評分模型叫做 PRM,往往是使用嬌小 LLM fine-tune 得到。
OpenAI 的 verify step-by-step 也是最近最重要的 paper 之一。他們訓練的 PRM 在解決 MATH 數據集測試集中 78.2%的問題時表現優于 ORM。在今年 Google Research 的一篇 paper 中提到,PRM 在過程中一旦成功發現第一個錯誤,就能使 RL 訓練效果顯著提升。
而且在 process supervision 過程中,reward 的形式也不止限于數值,文字評價也可以作為指導模型繼續行動的 reward。Google DeepMind 最新發布的 Generative Verifier 中,他們微調的 verifier 可以把問題每一步都用數值和文字評估,給模型作為 reward。
Process learning 保證了推理思考過程得到評估,而 Curriculum learning 是為了讓思考過程得到由淺入深、循序漸進的引導,其核心理念是將復雜任務分解為多個難度遞增的子任務,讓智能體逐步學習。這樣由簡單到難的設計過程是很有必要的,這樣一方面避免了 reward model 在早期過于稀疏的問題,一方面可以通過數據的多樣性來使 LLM 學習最適合其能力的課程,防止出現下棋時能贏李世石、但不能贏公園老大爺的過擬合情況。
在課程學習中,有兩種關鍵的獎勵機制:探索獎勵和競爭獎勵。探索獎勵是在完成簡單子任務時給予的,旨在鼓勵智能體學習基礎技能。競爭獎勵則是在完成最終復雜任務時給予的。為了平衡這兩種獎勵,課程學習引入了獎勵退火機制:隨著訓練的進行,探索獎勵逐漸減少,而競爭獎勵的比重逐漸增加。課程學習的設計原則遵循一個漸進的過程。在訓練的早期階段,系統提供稠密的探索獎勵,幫助智能體快速掌握基礎技能。隨著訓練的深入,探索獎勵逐步減少,競爭獎勵的比重逐漸增加。
三、Scaling Law 范式變化
1. RL 合成數據的 unit economics 估算
在 RL 的新范式下,LLM 訓練的 scaling law 需要被重寫。因為訓練時計算量不再只是和參數量的上升有關,還多了一個新變量:self-play 探索時 LLM inference 的計算量。RL 的思路本質是用 inference time 換 training time,來解決模型 scale up 暫時邊際收益遞減的現狀。最近 DeepMind 也發布了一篇paper 叫做:Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters,正是在討論這個范式變化。
在 MCTS 這樣的樹狀搜索算法中,在樹的每個節點多次模擬。在圍棋這樣范圍相對確定的任務里,AlphaGo 的計算量已經很大。其訓練過程模型通過反復進行 self-play,不斷優化其 policy 和 reward 評估能力。在 AlphaZero 的訓練中,模型進行了大約 500 萬局自我對弈,每局大約 200 步,做好每一步平均需要 1600 次模擬。這使得總的模擬次數達到了 1.6 萬億次。
MCTS 中的樹狀結構示例
但 AlphaZero 只是一個千萬參數量級的神經網絡,和 LLM 差了 3-4 個數量級。要想搜索所有人類思考過程的可能性,還得處理更多數據和更復雜的參數,計算量只會更加龐大。要讓 LLM 做這樣大樣本量的 self-play 的算力需求是非常大的。好在我們大部分的推理問題都可以拆解為一個 3-10 步的 chain-of-thought,接下來我們就計算一下 LLM 需要的推理成本,每一次模擬需要以下數據:
? context:問題和之前的推理過程。
? action:基于 context 接下來的行動選擇。這里是和傳統 RL 差異最大的地方,文字可以用無限開放的方式進行組合,而傳統任務比如下圍棋有著有限的決策空間。實踐中一些 paper 提到 會用 temperature sampling 來生成 k 種回答(k 是一個固定數字,具體值需要實踐),把這 k 個回答作為決策空間。我們可以按 k = 32 進行計算,也就是每一步推理需要 32 次 inference 模擬。
? reward:對每一步行動,需要輸出 reward 來評估其效果。輸出的 process reward 一定包括數值,可能也包括文字。
那么這三部分數據的推理成本我們可以做一個大致的簡單估算:
? Agent model 是一個 50B LLM($0.5/M tokens),reward model 是一個 10B LLM($0.1/M tokens);
? Reasoning 任務有 5 步推理深度,每步會模擬 32 種結果,選取 top 10% 的推理結果往下推理,那么總計需要大約 10000 次模擬;
? 每一次模擬平均 1000 tokens;
那么一個推理任務的總成本為 6 美金。由于大部分 token 都是在重復 context,高質量比例不會很大,可以認為 10000 次模擬中有 1% 也就是 100 次模擬是有價值的(包括正例和負例,RL 中負例同樣很有幫助的),也就是 100k tokens。
2. 新的scaling law 正在浮現:算力周期性從 scaling 轉移到 inference-time compute
對于 GPT-4, Claude-3.5 水平的模型,我們推測要合成 1-10T 量級的高質量推理數據才能真正讓模型大幅提升其推理能力,對應的成本大致需要 6-60 億美金,這個在模型訓練實驗的算力中占的比例也是比較大的。
因此 RL 范式下,scaling law 仍然存在,計算成本仍然會大幅提升來獲得更優的智能,但提升不再是模型的參數量本身的持續增長,而是通過 RL reasoning model 的方式來 scale up。今年中 OpenAI 正式推出了 mid-training 這個崗位,可能就是通過 RL reasoning model 合成大量高質量數據做繼續學習。
但與預訓練需求不同的是,inference 對單張卡性能和集群規模的需求相對低一些,也就是說不一定要最頂尖的卡、3 萬卡以上的集群才能再能跑 RL inference。因此各家大廠要追求 RL 范式下的 scaling law 還是需要在 GPU 算力上持續投入,但一年內不會再去追求超大 H100 集群了。下一次大模型從 scaling up parameters 中獲取智能的時間點,可能是明年下半年 NVidia B 系列的發布,可以實現更大的 20 萬量級互聯集群。
因此并不是未來 foundational model 就不再需要 scale up 了,未來的趨勢可能是周期式的:2 年的 model scaling-up 周期,2 年的 RL reasoning 提升周期。硬件更新、類 transformer 架構優化、next token prediction 目標有關,都可能再次點燃模型 scale up 的趨勢。
3. 推理成本大幅上升:MCTS 搜索加入 LLM inference
在去年的 LLM 范式預測中我們提到過,LLM 直接生成是可以類比系統 1 的慢思考。而 RL 就為 LLM 帶來了系統 2 慢思考。
引入了 MCTS 之后,LLM inference 會變得更慢、更貴、更智能。因為每一次回答問題時都會推演很多種可能的思考路徑,并自行評估哪一個能獲得最高的 reward,然后再將最終的生成結果輸出給用戶。理想中越難的問題需要分配更多的算力和時間:簡單問題 1s 直接輸出答案,復雜問題可能需要 10min 甚至 10h 來思考最佳的解決方式。MCTS 實際推理中,可能是和之前我們預測成本的范式類似:把任務拆解成 5 步推理,每一步嘗試 k 次模擬,搜索一整個決策樹中的最佳方案。Alphago 下圍棋時也是這么在推理時深度推演之后的下棋決策的,只是應用到 LLM 上對算力的要求更高了,需要更多智能剪枝等優化方式。
因此這一部分很難定量的計算其實際對推理需求帶來了多大數量級的提升:理論上 MCTS 推演的策略集越全面一定是效果越好的,但是推理算力、用戶體驗的角度來說一定需要 LLM 廠商去做嚴格的資源約束,來達到性能和成本之間的平衡。
四、RL 新范式帶來了什么創業和投資機會?
1. AI for coding 帶來編程能力民主化
代碼開發是最近 AI 提升最大、熱度最高的領域,背后最重要的原因就是 sonnet3.5 的發布帶來的推理能力的提升。這個提升最直接的 benchmark 就是寫出可靠代碼的行數:原本 4o 只能可以寫 20 行可靠的代碼,Sonnet 3.5 可以寫 200 行。
如果 reasoning model 的突破把這個 benchmark 擴大到 1000 行,那么很多簡單的代碼項目其實不需要專業的開發者來完成,而是 ai 獨立完成一整個項目。這時使用這類產品的用戶數,都會有一個數量級的提升,每個項目的平均 DAU 會下降,對代碼的性能要求也會降低。
我們會把 AI for coding 分為兩類。第 1 類目前已經有比較成熟的產品了,而第 2 類在 reasoning model 出現前后才剛剛開始:
? AI for developers,為專業開發者的 ai 提效。這個領域已經有一些比較成熟的產品了,我們比較看好 AI IDE 的入口級效應和 e2e coding agent 對工作流的顛覆,Cursor 是目前明顯的領先者。
? No-code AI developers,人人都成為產品經理,為自己的需求設計軟件。完成一個軟件項目的無代碼開發品牌。
AI for developers
Cursor
Anysphere 是一家專注于開發 AI 驅動工具以提升軟件開發效率的初創公司,其旗艦產品是名為 Cursor 的 AI IDE。加持了 Sonnet 3.5 之后,Sonnet 的產品口碑特別優秀,就像去年上半年我看到 Perplexity 的用戶口碑那樣。他們的產品對用戶正在開發項目的 context 做了非常深入的理解,同時也有優秀的 chat UI,和各種支持 AI 協同編輯的快捷鍵。由于其產品體驗很優秀,甚至可以在 Youtube 上看到一個美國的 8 歲女孩用 cursor 在 45 分鐘內實現了一個自己想要的哈利波特 chatbot。
Cursor 團隊下一步的開發目標也是 AI 自動化提升,減少 human in the loop。比如他們提到正在開發后臺獨立運行的 shadow workspace,AI 可以在其中持續自由修改代碼、運行測試和獲取反饋,而不會影響實際項目文件,并再將最終的建議反饋給用戶。這樣的 AI 沙盒的下一步就是 AI 能夠獨立完成所有代碼,屆時 Cursor 團隊也完全有可能去切入一個更大的普通用戶開發市場。
Zed
Zed 是一款由 Atom 和 Tree-sitter 的創建者開發的高性能多人代碼編輯器。他們主打的特點是支持多人甚至 AI 實時協作編輯代碼。開發者可以實時看到其他用戶的編輯操作,同時多人修改同一個文件,并通過聊天、語音、視頻會議等工具進行實時溝通。在發布了 Zed AI 之后,這樣一些協同功能都有可能成為 AI 開發使用的重要 context。
這里盤點的還只是應用工具層的典型產品,還有 4-5 家 e2e agent 公司尚未發布產品,會在之后另外發布相關研究。
No-code AI developers
這個新賽道不是服務專業開發者的,而是能用低門檻方式服務普通用戶的,設計出低門檻的交互方式非常重要。這就像攝像頭在手機上便攜之后,出現了 Instagram、Tik tok 這樣的產品,產品的主要價值就在其前端交互幫助普通用戶都能拍出高質量的照片視頻并形成內容平臺。
Websim
Websim 是這個領域中重要的交互創新,其 vison 是 no-code 的方式用 AI 生成模擬出一個新的互聯網。其產品形態用內嵌的瀏覽器做交互,用戶可以通過多次的 prompt 生成復雜度還不錯的網頁。
這個項目從今年初就已經出現了,而 Sonnet 3.5 讓這個 idea 可以實現了。現在 Websim 社區中已經有各種 hobbyist 在開發產品,甚至由用戶在其中開發出了一個完整的 3D 建模編輯器。用戶可以在產品上不斷迭代測試網站的原型,也可以瀏覽其他用戶創作出的產品,有一些從工具到平臺的轉移。
用戶在 Websim 上創作的 Google2.0
Wordware
Wordware 也在從工具到平臺轉移上做得很好。他們的產品用類似 notion 的方式做交互,把 IDE 的門檻降低,普通用戶能像用 notion 文檔一樣構建一個好玩的 app。
Wordware 是 ProductHunt 最成功的發布之一,發布當天獲得了 6151 票。他們在 10 天內有 700 萬用戶用了 twitter agent,新增 25 萬 wordware 用戶,總計注冊用戶達到 27.2 萬。
Wordware 團隊擅長用自己的產品去推出病毒式傳播的內容:twitter.wordware.ai。Wordware 的增長負責人 Kamil Ruczynski 提出了這個 idea:可以閱讀你所有推文,對你的個性進行吐槽和分析的 AI Agent。這款 Agent 產品的核心邏輯非常簡單:提示詞 + 推特 API + AI,主打犀利吐槽、獵奇有趣,命中了最大量的 18-29 歲推特用戶群體。
2. Reasoning model Lab 有新的模型層機會?
上一波范式下的 startup 開始收斂,Inflection、Adept、Character 都被收購。在新范式下又有新的 research lab 又涌現出來,其中我們認為最值得關注的有以下三家。
SSI
Safe Superintelligence Inc. (SSI) 是由 Ilya Sutskever、Daniel Gross 和 Daniel Levy 共同創立的公司,專注于開發安全的超級人工智能。他們公司還在 lab research 階段,選擇的很可能就是從有 self-play RL 的 LLM 路線開始。
Chief scientist Ilya 的前瞻性無需多言,從 AlexNet、Seq2seq、Dota Five 到 ChatGPT,他完整地引領了過去十年中所有 AI 領域的 milestone。SSI 是有了 Ilya 離開 OpenAI 才成為可能。
CEO Daniel Gross 在硅谷核心圈子的影響力很大。他出生于耶路撒冷,曾是 Y Combinator 的合伙人,投過 Uber、Instacart、Figma、Github 等項目。從 YC 離開后他和 Nat Fridman 一起創立了 AI grant,投資了 CAI、Perplexity 等項目。做投資人之前他 cofound 過搜索引擎公司 Cue,后來被蘋果收購。這次和 Ilya 聯合創立公司,他和 Sam Altman 的定位類似,為公司籠絡足夠多的商業資源。
CTO Daniel Levy 是 22 年加入 OpenAI 的 researcher,在 GPT-4 報告中定位是 Overall vision co-lead, optimization lead,并參與了 Training run babysitting,在多模態研究上擔任了很核心的工作,離開前是 OpenAI optimization lead。此外關于他的信息不多,在 researcher 之間有著很好的口碑。
Harmonic
Harmonic 是一家由前 Robinhood CEO Vlad Tenev 和前 Helm AI CTO Tudor Achim 于 2023 年底 cofound 的公司。該公司專注于 AI for 數學推理的人工智能平臺,并通過數學推理智能能力的不斷提升去解決可驗證的問題,未來可能通過 math + code 去解決醫藥、科學、金融等行業的問題。
他們最新的數學證明模型 Aristotle 已經在 MiniF2F 任務上做到了 90% 的準確度(MiniF2F 是一個數學規范問題 benchmark,問題來源于數學競賽和大學課本)。他們還提到 Harmonic 開發了一種自動將自然語言問題和解決方案翻譯為其形式表示的能力,稱為自動形式化。這使得 Aristotle 能夠與可能不熟悉 Lean 的數學家和教育工作者合作。優秀的模型能力和對 reasoning interpreter 交互泛化性的重視都是他們值得關注的原因。
Symbolica
嚴格來說,Symbolica 要做的事情和上文中的 RL 路線不同,他們更偏向符號主義方法論。不過由于他們主攻的方向也是基于代碼、math 等形式化邏輯的 reasoning model,也應該放在這里作為一個差異化路線進行介紹。
Symbolica 的 vision 是將傳統符號人工智能(通過定義的符號、規則集來解決任務)的數學抽象與神經網絡結合起來,來開發開發可控、可解釋的 AI 模型。他們模型最先解決的任務也會是生成代碼、證明數學定理。
不過這個領域的競爭會非常激烈和 capital intensive, OpenAI、Anthropic、Google DeepMind 這三個 LLM 的頭部玩家在 RL 領域的技術積累非常深,是否有其他創業公司彎道超車的機會還有待時間驗證。
3. Vertical reward model 會成為應用層的新主題
Reward model 能泛化到整個文本推理領域的概率是比較小的,因為不同行業領域對 reward value 的定義非常不一樣。這就留給創業公司去建立垂直領域 reward model 的創業機會,其具體如何與 LLM 結合還得看 Anthropic/OpenAI 是否會為公司開放 reward model fine-tune 的接口。但每一個垂直領域都是值得建立 reward model 的,因為大部分領域現在都會遇到 fine-tune 和 RAG 能解決問題有限的問題。
這個領域和 No-code AI developers 一樣才剛剛開始,我們判斷會有兩類機會:
? 給一個垂直行業建立 reward model,比如金融/法律。以 Harvey 為代表。
? 給一類 agent 使用場景建立 reward model,比如操作瀏覽器。以 Induced AI 為代表。
Harvey
Harvey AI 我們之前發過一個獨立的研究。他們的首個產品是一個在 GPT4 底座模型上加入大量法律專業數據 finetune 的 AI Chatbot,它的主要能力包括:
? 法律寫作:撰寫長篇、格式化的法律文件,幫助起草合同,撰寫客戶備忘錄,作為工作起點;
? 掌握專業法律知識,可以回答復雜的法律問題等;
? 進行合同及文件的理解與處理。
這些任務都是在處理法律行業最 junior 的工作。如果要深入到行業中更為復雜、需要決策和行動的任務,需要與這些頂級律所持續合作制定一個法律行業專用的 reward model。由于 Harvey 是所有垂直領域中與 OpenAI 合作最為密切的(常常在 PR 中提到互相合作的案例),他們很可能也是最早有機會開始合作垂直領域 reward model 的。
Induced AI
Induced 是一個 AI-native 的瀏覽器自動化 RPA 平臺。其收集用戶使用數據的過程可以認為是在做 browser 領域的 reward model。
使企業能夠用簡單的自然語言輸入 workflow,或給 AI 觀看操作錄屏視頻,就能將指令實時轉換為偽代碼,模擬人類的網絡瀏覽行為,自動瀏覽網頁,收集并有效地處理和分析關鍵信息,來處理通常由后臺管理的許多重復性任務,如銷售、合規、內部運營等方面。它應用了一種雙向交互系統,允許人類根據需要在某些步驟中進行干預,而其余步驟則由 AI 自主管理。
Induced AI 通過云優先構建,意味著自動化的任何任務都在后臺運行,不會影響本地計算機。同時,在 Chromium 上專門構建了一個瀏覽器環境,用于自主工作流程運行。它擁有自己的內存、文件系統和認證憑證(電子郵件、電話號碼),能夠處理復雜流程。
總的來說,我們期待用 RL self-play + MCTS 提升 LLM 推理能力的方式能成為下一代技術范式,并實現智能的泛化,扮演 LLM 思考中的系統 2。這樣一定能帶來 AI reasoning 能力大幅提升,解鎖很多 AI 應用 use case 的落地,帶來新的一波 AI 創業投資機會。
本文由人人都是產品經理作者【海外獨角獸】,微信公眾號:【海外獨角獸】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!