OpenAI 的神秘項目 Q* 與通往 AGI 的一小步
?最近這些天,OpenAI 的神秘項目 Q* 引發了許多人的關注,因為這個項目可能意味著實現通用人工智能(AGI)的關鍵突破。這篇文章里,作者就對 Q* 做了猜測與解讀,一起來看看本文的分享。
故事要從 11 月 23 日的感恩節前夕說起,路透社發文報道稱 OpenAI 的幾名研究員給董事會寫了一封信提示一個強大的人工智能發現可能會威脅人類,這可能是奧特曼被解雇的重要原因。
隨后 OpenAI 在發給員工的內部消息中承認有一個名為 Q* 的項目,在擁有大量計算資源的情況下,它能夠解決某些數學問題。只有一個名字,沒有論文,沒有產品,Jim Fan 說在他做 AI 的十年里還沒有見過一個算法能讓這么多人好奇。
雖然 Q* 的數學能力據悉只有小學生的水平,但它標志著 LLM 推理能力的增強和幻覺問題的處理,是實現通用人工智能(AGI)的關鍵突破。目前沒有官方解釋 Q* 究竟是什么,但 Nathan Lambert 和 Jim Fan 等技術大 V 給出了最靠譜的假設,也是對于如何進一步提升模型推理能力的方法猜想,解讀如下。
Let’s learn step by step.
Sense 思考
我們嘗試基于文章內容,提出更多發散性的推演和深思,歡迎交流。
Q* 與傳統大語言模型的區別:現有模型很難在所訓練的數據之外進行泛化,展現出的邏輯推理能力更像是“直覺”,而 Q* 似乎把 Q 學習與 A 搜索模型結合,將基于經驗的知識和事實推理結合,實現真正的推理能力、解決幻覺問題。
Q* 的技術路線猜測:自我對弈+思維樹推理+過程獎勵+合成數據增強。使用過程獎勵模型(PRM)對思維樹推理過程結果進行評分,然后使用離線強化學習進行優化。
過程獎勵模型依賴龐大的數據,即對每個中間步驟打分。僅靠模仿人類數據,人工智能無法成為“超人”。AI 合成數據是增強數據集的方式之一,但對于其生成數據質量和可擴展程度還有待驗證。
一、重溫 AlphaGo
要理解搜索與學習算法之間的強強聯手,我們需要回到 2016 年,重溫人工智能歷史上的輝煌時刻 AlphaGo。
它有 4 個關鍵要素:
- 策略 NN(學習):負責選擇好的棋步。它能估算出每一步棋獲勝的概率。
- 價值 NN(學習):評估棋盤并預測圍棋中任何給定可行局面的勝負。
- MCTS(搜索):蒙特卡羅樹搜索。它使用策略 NN 模擬從當前位置出發的許多可能的走棋順序,然后匯總這些模擬的結果,決定最有希望的走棋。這是 “慢思考 “部分,與 LLM 的快速標記采樣形成鮮明對比。
- 驅動整個系統的地面實況信號(Groundtruth signal)。在圍棋中,它就像二進制標簽 “誰贏了 “一樣簡單,由一套既定的游戲規則決定??梢园阉醋魇蔷S持學習進度的能量源。
那么上面四個部分如何協同?
AlphaGo 進行自我對弈,即與自己的舊檢查點對弈。隨著自我對弈的繼續,”策略網絡”(Policy NN)和 “價值網絡”(Value NN)都會得到迭代改進:隨著策略在選擇棋步方面變得越來越好,”價值網絡”(Value NN)也會獲得更好的數據來進行學習,進而為策略提供更好的反饋。更強的策略也有助于 MCTS 探索更好的策略。
這就完成了一個巧妙的“永動機”。通過這種方式,AlphaGo 能夠引導自己的能力,并在 2016 年以 4 比 1 的比分擊敗人類世界冠軍李世石。
僅靠模仿人類數據,人工智能無法成為“超人”。
二、Q* 的合理猜測
僅憑一個項目的名稱,就能引發如此廣泛的猜測,這還是第一次。不過,這個簡單的名字可能并不僅僅是《沙丘》宇宙中的另一個代號。
核心結論:Jim Fan 認為 Q* 包括下面四個組成部分。與 AlphaGo 一樣,”策略 LLM “和 “價值 LLM “可以相互迭代改進,并隨時從人類專家的注釋中學習。更好的策略 LLM 將幫助思維樹搜索探索更好的策略,進而為下一輪收集更好的數據。
- 策略 NN:這是 OpenAI 最強大的內部 GPT,負責實現解決數學問題的思維軌跡。
- 價值 NN:另一個 GPT,用于評估每個中間推理步驟的正確性。
- 搜索:與 AlphaGo 的離散狀態和行為不同,LLM 是在 “所有合理的字符串 “這一更為復雜的空間中運行的,因此需要新的搜索程序。
- 地面實況信號(Groundtruth signal):可以理解為是對過程結果的打分數據。OpenAI 可能已從現有的數學考試或競賽中收集了大量語料,或者使用模型本身合成數據做增強。
Nathan 最初的猜測是將 Q-learning 和 A* 搜索模糊地合并在一起,但隨著對這個問題研究的深入,可以越來越相信,他們通過思維樹推理搜索語言/推理步驟的能力很強,但這種飛躍比人們想象的要小得多。
夸大其詞的原因在于,他們的目標是將大型語言模型的訓練和使用與 Deep RL 的核心組成部分聯系起來,而正是這些核心組成部分促成了 AlphaGo 的成功:自我博弈(Self-play)和前瞻性規劃(Look-ahead planning)。
- 自我對弈(Self-play):是指代理(agent)可以通過與略有不同的自己進行博弈來提高自己的博弈水平,因為它會逐漸遇到更具挑戰性的情況。在 LLM 的空間中,幾乎可以肯定的是,自我對弈的最大部分將看起來像人工智能反饋,而不是競爭過程。
- 前瞻性規劃(Look-ahead planning):是指使用世界模型來推理未來,并產生更好的行動或產出。兩種變體分別基于模型預測控制(MPC)和蒙特卡洛樹搜索(MCTS),前者通常用于連續狀態,后者則用于離散行動和狀態。
要了解這兩者之間的聯系,我們需要了解 OpenAI 和其他公司最近發表的成果,這些成果將回答兩個問題:
- 我們如何構建可以搜索的語言表征?
- 我們該如何構建一種價值概念,并將其覆蓋到分門別類且有意義的語言片段,而非整個語篇上?
有了這些問題的答案,我們就可以清楚地知道如何使用用于 RLHF 的現有 RL 方法。我們使用 RL 優化器對語言模型進行微調,并通過模塊化獎勵獲得更高質量的生成(而不是像現在這樣獲得完整序列)。
三、通過 ToT 提示進行 LLMs 模塊化推理
提示詞里“深呼吸”(take a deep breath)和 “一步步思考 “(think step by step)等技巧的推廣,如今已經擴展到了利用并行計算和啟發式(搜索的一些基本原理)進行推理的高級方法。
思維樹 (ToT)聽起來確實如此。這是一種促使語言模型創建推理路徑樹的方法,推理路徑樹可能會也可能不會匯聚到正確答案。論文中對使用 LLMs 解決問題的其他方法進行了比較:
基礎模型在大規模數據集上訓練,可以執行廣泛的任務。開發人員使用基礎模型作為強大的生成式AI應用的基礎,例如ChatGPT。
選擇基礎模型時的一個關鍵考慮因素是開源與非開源,下面概述了兩種模型各自的優點和缺點:
ToT 的創新之處在于將推理步驟分塊,并促使模型創建新的推理步驟。這應該是第一種用于提高推理性能的 “遞歸 “提示技術,與人工智能安全所關注的遞歸自我改進模型非常接近。
對于推理樹,可以采用不同的方法對每個頂點(節點)進行評分,或對最終路徑進行采樣。它可以基于諸如到最一致答案的最短路徑,也可以基于需要外部反饋的復雜路徑,這又把我們引向了 RLHF 的方向。
ToT 論文地址:https://arxiv.org/abs/2305.10601
四、細粒度獎勵:過程獎勵模型 PRM
迄今為止,大多數 RLHF 的方法都是讓語言模型的整個響應得到一個相關的分數。對于任何具有 RL 背景的人來說,這都是令人失望的,因為它限制了 RL 方法將文本的每個子部分的價值聯系起來的能力。
有人指出,未來由于需要有人類或一些提示源在循環中,這種多步驟優化將在多個對話回合的層面上進行,但這比較牽強。這可以很容易地擴展到自我對弈式的對話中,但很難賦予 LLMs 目標,使其轉化為持續改進的自我對弈動態。我們想讓 LLMs 做的大多數事情都是重復性任務,而不會像圍棋那樣對性能設置近乎無限的上限。
另一方面,有一種 LLM 用例可以很自然地抽象為文本塊:逐步推理,數學問題就是最好的例子。
過程獎勵模型(PRMs)是 Nathan 在過去 6 個月里從 RLHF 朋友那里聽到的一個非公開話題。關于這些模型的文獻很多,但關于如何在 RL 中使用這些模型的文獻卻很少。PRM 的核心理念是為每個推理步驟而不是完整的信息分配分數。下面是 OpenAI 論文《讓我們一步步驗證》( Let’s Verify Step by Step)中的一個例子:
圖 2 為同一個問題的兩種解決方案,左邊答案是正確的,右邊的答案錯誤。綠色背景表示 PRM 得分高,紅色背景表示 PRM 得分低。PRM 可以正確識別錯誤解決方案中的錯誤。對于錯誤的解決方案,兩種方法都揭示出至少存在一個錯誤,但過程監督還揭示了該錯誤的確切位置。
而他們使用的有趣的反饋界面(將被人工智能取代),卻很有啟發性:
這樣就可以通過對最大平均獎勵或其他指標進行采樣,而不是僅僅依靠一個分數(標準 RM 在該文獻中被稱為結果 RM),對推理問題的生成進行更精細的調整。
使用 “N最優采樣”(Best-of-N sampling),即生成一系列次數,并使用獎勵模型得分最高的一次(這是 “拒絕采樣”(Rejection Sampling)的推理方式之一,在 Llama 2 中廣為流傳),PRM 在推理任務中的表現優于標準 RM。
迄今為止,大多數 PRMs 資源只是展示了如何在推理時使用它們。當這種信號針對訓練進行優化時,才能發揮真正的威力。要創建最豐富的優化設置,必須能夠生成多種推理路徑,用于評分和學習。這就是思維樹的作用所在。ToT 的提示為人們提供了多樣性,可以通過訪問 PRM 來學習利用這種多樣性。
此外,還有一種流行的公開數學模型被記錄為使用 PRMs 進行訓練:Wizard-LM-Math。同時,OpenAI 在今年早些時候發布了用于訓練 PRM 的《逐步驗證》(Verify Step by Step)論文中的細粒度獎勵標簽。
五、回頭來看 Q* 與模型推理
Q* 似乎是在使用 PRM 對思維樹推理數據進行評分,然后使用離線 RL 對其進行優化。這看起來與現有的 RLHF 工具并無太大區別,后者使用的是 DPO 或 ILQL 等離線算法,無需在訓練期間從 LLM 中生成。RL 算法看到的 “軌跡 “是推理步驟的序列,因此我們最終是在以多步驟方式而非上下文綁定的方式進行 RLHF。
由于有聽聞已經表明 OpenAI 正在使用離線 RL 進行 RLHF,這或許并不是一個大的飛躍。這種方法的復雜之處在于:收集正確的提示、建立模型以生成出色的推理步驟,以及最重要的一點:對數以萬計的完成情況進行準確評分。
最后一步就是傳聞中的 “龐大計算資源 “所在:用人工智能代替人類給每個步驟打分。合成數據才是王道,用樹狀而非單寬路徑(通過思維鏈)在后面給出越來越多的選項,從而得出正確答案。
據悉有一家或幾家大型科技公司(谷歌、Anthropic、Cohere 等)正在通過過程監督或類似 RLAIF 的方法創建一個預訓練大小的數據集,這將快速耗費數萬個 GPU 小時。
在這一領域,公開可用模型的差距令人擔憂??偨Y來看,雖然核心理念似乎很清晰,但實施起來卻很難。所有對 ToT 和 PRM 的評估都是針對數學等推理問題的,而這正是所有新聞報道所說的這種泄露方法的目的所在。即使它不是 Q*,也會是一個有趣的實驗。
對于超大規模人工智能反饋的數據與未來:
大模型訓練過程中數據不足,合成數據是擴大數據集的方式之一。在短期內,我們是可以利用它創建一些有用的數據。
然而,目前尚不清楚的是它的擴展程度。
它是否能完全取代互聯網規模的數據?
Let’sverify step by step.
參考材料:
Nathan 觀點:https://www.interconnects.ai/p/q-star?lli=1&utm_source=profile&utm_medium=reader2
Jim 觀點:https://x.com/DrJimFan/status/1728100123862004105?s=20
PRM 參考論文:
- https://arxiv.org/abs/2305.20050
- https://arxiv.org/abs/2211.14275
- https://arxiv.org/abs/2308.01825
- https://arxiv.org/abs/2310.10080
編輯:Vela
來源公眾號:深思SenseAI;關注全球 AI 前沿,走進科技創業公司,提供產業多維深思。
本文由人人都是產品經理合作媒體 @深思SenseAI 授權發布,未經許可,禁止轉載。
題圖來自 Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!