国产又粗又大又爽视频,亚洲综合av一区二区三区不卡,亚洲欧美国产国产一区二区三区

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

全網(wǎng)最全 OpenAI o1 萬(wàn)字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

AIPM1001

2024-09-24

0 評(píng)論 6084 瀏覽 18 收藏

67 分鐘

前段時(shí)間 OpenAI 發(fā)布了針對(duì)復(fù)雜推理問(wèn)題的大模型——o1，也就是草莓模型。這款大模型一經(jīng)發(fā)布就引起巨大的關(guān)注，但基本上都是關(guān)于使用和測(cè)評(píng)的。這篇文章，我們就來(lái)看看，o1模型的背后，其創(chuàng)新、原理分別是什么。

60s速讀

簡(jiǎn)介：o1是OpenAI 9月12日發(fā)布的針對(duì)復(fù)雜推理問(wèn)題的全新大模型，也就是Sam一直說(shuō)的“草莓”。該模型在回答問(wèn)題之前能夠進(jìn)行更長(zhǎng)時(shí)間的“思考”，且思考時(shí)間越長(zhǎng)，推理質(zhì)量越高。
原理：基于強(qiáng)化學(xué)習(xí)的內(nèi)化思維鏈學(xué)習(xí)，通過(guò)思維鏈?zhǔn)降膯?wèn)題拆解，模型可以不斷驗(yàn)證和糾錯(cuò)。
表現(xiàn)：o1模型在編程、數(shù)學(xué)、物理和化學(xué)博士級(jí)問(wèn)題等任務(wù)上提升顯著，但在寫(xiě)作等任務(wù)上表現(xiàn)不如GPT4o。
構(gòu)成：o1系列包括o1、o1-preview和o1-mini。o1暫未公開(kāi)，o1-preiview 付費(fèi)用戶(hù)和API用戶(hù)已經(jīng)可以使用。o1-mini 速度更快、性?xún)r(jià)比更高。
影響：新的Scaling Laws已經(jīng)出現(xiàn)。
Ilya 一句話(huà)概括強(qiáng)化學(xué)習(xí)：讓 AI 用隨機(jī)的路徑嘗試新的任務(wù)，如果效果超預(yù)期，那就更新神經(jīng)網(wǎng)絡(luò)的權(quán)重，使得 AI 記住多使用這個(gè)成功的事件，再開(kāi)始下一次的嘗試。
Self-play：本質(zhì)是利用 AI 無(wú)限的計(jì)算能力來(lái)補(bǔ)足它數(shù)據(jù)利用效率不夠的短板。
Critic Model：通過(guò)將推理過(guò)程進(jìn)行過(guò)程分解，并且利用額外的更強(qiáng)更專(zhuān)項(xiàng)的Critic Model，可以將推理過(guò)程的監(jiān)督擴(kuò)展到更復(fù)雜的問(wèn)題上。
技術(shù)路線(xiàn)猜想：1. MCTS搜索；2. PRM僅在答案不可接受時(shí)進(jìn)行MCTS搜索，或者用的是更節(jié)約的Beam Search；3. 迭代式的Bootstrap模型產(chǎn)生合理推理的能力，并將 Rationales 融入到訓(xùn)練過(guò)程內(nèi)，讓模型學(xué)會(huì)進(jìn)行推理，類(lèi)似于STaR的擴(kuò)展版本。
逆向工程：由合成數(shù)據(jù)生成器、獎(jiǎng)勵(lì)函數(shù)、策略?xún)?yōu)化器等模塊構(gòu)成。
相關(guān)論文：Let’s Verify Step by Step、STaR、rStar、Quiet-STaR。
團(tuán)隊(duì)：o1 的21個(gè) Foundational 貢獻(xiàn)者呈現(xiàn)出了高學(xué)歷、高包容性、多元化的特點(diǎn)：華人占比6/21，博士為主，但也有人有專(zhuān)科經(jīng)歷。
Github o1相關(guān)資料匯總：https://github.com/hijkzzz/Awesome-LLM-Strawberry

一、背景：OpenAI為什么現(xiàn)在發(fā)布新模型o1？

雖然OpenAI 2024年年化營(yíng)收預(yù)計(jì)將從前一年的20億美元大幅增長(zhǎng)至約35億美元，但仍無(wú)法覆蓋其90億的推理、訓(xùn)練成本。

目前來(lái)說(shuō)，OpenAI訂閱的商業(yè)模式很難稱(chēng)得上是一個(gè)好的變現(xiàn)手段，更無(wú)法與廣告這一互聯(lián)網(wǎng)時(shí)代最佳商業(yè)模式相提并論。

（OpenAI營(yíng)收變化趨勢(shì)，來(lái)源：tooltester）

在營(yíng)收構(gòu)成上，C端用戶(hù)訂閱、企業(yè)用戶(hù)、API和ChatGPT Team業(yè)務(wù)分別占營(yíng)收的55%、21%、15%和8%。

（OpenAI營(yíng)收構(gòu)成，來(lái)源：tooltester）

據(jù)The Information測(cè)算，在一年虧損50億美元的情況下，OpenAI的現(xiàn)金流可能在未來(lái)一年內(nèi)耗盡。因此，繼續(xù)融資成為了OpenAI必然的選擇。據(jù)彭博社消息，OpenAI目前正在商談以1500億美元的估值融資65億，這一估值遠(yuǎn)高于去年10月時(shí)的860億美元。

除此之外，首席科學(xué)家Ilya等核心人才出走，流量增長(zhǎng)放緩，Sora“期貨”遲遲未兌現(xiàn)，GPT-5不停跳票，大語(yǔ)言模型預(yù)訓(xùn)練Scaling Law的邊際效益遞減，增長(zhǎng)空間被質(zhì)疑……在OpenAI發(fā)布o(jì)1模型之前，由ChatGPT發(fā)布引領(lǐng)的大模型革命陷入了前所未有的低谷。

與此同時(shí)，OpenAI的主要競(jìng)爭(zhēng)對(duì)手之一Anthropic ，從落后于 OpenAI 18 個(gè)月，在o1發(fā)布前已經(jīng)在模型層面追平，甚至有微弱的領(lǐng)先優(yōu)勢(shì)了。Anthropic 6月發(fā)布的 Claude-3.5-Sonnet ，支持寫(xiě)200行可靠的代碼，遠(yuǎn)超4o的20 行。

如下圖所示，OpenAI自2022年11月ChatGPT發(fā)布以來(lái)的流量增長(zhǎng)已經(jīng)幾乎停滯。

（ChatGPT訪(fǎng)問(wèn)量變化趨勢(shì)，來(lái)源：tooltester）

與此相對(duì)應(yīng)的，一二級(jí)市場(chǎng)的AI熱潮正在持續(xù)降溫。

一級(jí)市場(chǎng)方面，VC資金對(duì)AI初創(chuàng)公司投資占比在持續(xù)上升，占比接近30%，但是在金額上已經(jīng)回落到2020年的水平，降幅明顯。

（VC對(duì)AI初創(chuàng)公司的投資金額和占比，來(lái)源：硅谷科技評(píng)論）

二級(jí)市場(chǎng)上，投資者的AI抱團(tuán)追漲行情開(kāi)始有了瓦解的跡象，以英偉達(dá)等公司為代表的美股AGIX指數(shù)從高點(diǎn)開(kāi)始回落，幾乎回到了半年前的水平。

（AGI指數(shù)，來(lái)源：海外獨(dú)角獸）

在這樣的背景下，通過(guò)全新的大模型o1給投資人“畫(huà)餅”成為了OpenAI絕佳的選擇。

二、現(xiàn)象：o1模型的超強(qiáng)推理能力

1. OpenAI的模型迭代史

作為OpenAI在2023年GPT4發(fā)布以來(lái)最重要的模型更新，o1在數(shù)學(xué)、代碼等方面推理能力顯著提升。

（OpenAI的主要大模型及其發(fā)布時(shí)間，來(lái)源：tooltester）

2. 數(shù)據(jù)：o1在STEM領(lǐng)域表現(xiàn)出色，特別是在數(shù)學(xué)和編程方面

2.1 數(shù)學(xué)方面，在2024年的AIME（一個(gè)旨在挑戰(zhàn)美國(guó)最聰明高中生的考試）測(cè)評(píng)中，GPT-4o只解決了13%的問(wèn)題，o1的得分是83%。

2.2 編碼方面，GPT-4o在競(jìng)爭(zhēng)性編程問(wèn)題(Codeforces)上的得分是11%，o1 是89%。

2.3 在博士級(jí)別的科學(xué)問(wèn)題(GPQA Diamond)，GPT4o是56.1%，o1則超越人類(lèi)博士69.7%，達(dá)到了恐怖的78%。

（o1與gpt4o的對(duì)比，來(lái)源：OpenAI官網(wǎng)）

2.4 在啟用視覺(jué)感知功能時(shí)，多模態(tài)o1在MMMU上得分為78.2%，成為第一個(gè)與人類(lèi)專(zhuān)家競(jìng)爭(zhēng)的模型。在博士級(jí)別的科學(xué)問(wèn)題上，特別是物理和化學(xué)領(lǐng)域，o1更是大幅領(lǐng)先人類(lèi)博士。

2.5 在IOI（國(guó)際信息學(xué)奧林匹克競(jìng)賽）中在每題 50 次提交的條件下取得了第 49%/213分。在每題10,000次提交的情況下，該模型的得分達(dá)到了362，超過(guò)了金牌門(mén)檻。

（o1與gpt4o的對(duì)比，來(lái)源：OpenAI官網(wǎng)）

2.6 安全性

衡量安全性的一種方法是測(cè)試模型在用戶(hù)試圖繞過(guò)安全規(guī)則時(shí)（稱(chēng)為“越獄”）是否繼續(xù)遵守這些規(guī)則。在最困難的越獄測(cè)試中，GPT-4o 得分為 22/100，而o1-preview 模型得分為 84/100。

2.7 不足

通用人工智能的核心是通用和泛化性，但o1在寫(xiě)作、文字編輯等一些簡(jiǎn)單的自然語(yǔ)言處理任務(wù)上并沒(méi)有顯著提升，這意味著o1的適用范圍有一定的局限性。

3. 創(chuàng)新：self-play RL+內(nèi)化COT

作為首個(gè)通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)算法訓(xùn)練的模型，o1能夠在回答之前深入思考問(wèn)題。o1不再需要由用戶(hù)輸入復(fù)雜的COT提示詞，而是通過(guò)強(qiáng)化學(xué)習(xí)的方式，將思維鏈內(nèi)化之后進(jìn)行持續(xù)訓(xùn)練。

通過(guò)思維鏈?zhǔn)降膯?wèn)題拆解，模型可以不斷驗(yàn)證、糾錯(cuò)，嘗試新的方法，這一過(guò)程顯著提升了模型的推理能力。

o1的性能隨著更多的強(qiáng)化學(xué)習(xí)（訓(xùn)練時(shí)間計(jì)算）和更多的思考時(shí)間（測(cè)試時(shí)間計(jì)算）而持續(xù)提高。

（o1 性能隨著訓(xùn)練時(shí)間和測(cè)試時(shí)間計(jì)算而平穩(wěn)提升，來(lái)源：OpenAI官網(wǎng)）

通過(guò)強(qiáng)化學(xué)習(xí)+內(nèi)化思維鏈的方式，o1不僅在量化的推理指標(biāo)上有了顯著提升，在定性的推理可解釋性上也有了明顯的改善?？尚诺乃季S鏈?zhǔn)鼓Ｐ妥兊每山忉專(zhuān)層脩?hù)可以用簡(jiǎn)單的英語(yǔ)“讀懂模型的思維。

內(nèi)化的思維鏈為監(jiān)控模型提供了獨(dú)特的機(jī)會(huì)。假設(shè)它是忠實(shí)且清晰的，內(nèi)化的思維鏈允許OpenAI“讀取”模型的思考過(guò)程。未來(lái)OpenAI可能希望監(jiān)控思維鏈?zhǔn)欠裼胁倏赜脩?hù)的跡象。為了實(shí)現(xiàn)這一目標(biāo)，模型必須能夠以未經(jīng)修改的形式表達(dá)其思想，因此OpenAI不能在思維鏈上訓(xùn)練任何政策合規(guī)性或用戶(hù)偏好。

4. 通俗的理解：系統(tǒng)1與系統(tǒng)2

可以這樣理解，模型進(jìn)行的是系統(tǒng)1思維，而思維鏈則解鎖了系統(tǒng)2思維。

眾所周知，通過(guò)提示模型“逐步思考”可以提升大模型的性能。而通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練，逐步拆解問(wèn)題并從頭到尾持續(xù)試錯(cuò)，將會(huì)進(jìn)一步大幅提升大模型的性能。正如我們之前在圍棋方面的AlphGo以及其它游戲方面的算法模型上所看到的。

系統(tǒng)1與系統(tǒng)2來(lái)自諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼的《思考，快與慢》，其核心觀點(diǎn)包括：

系統(tǒng) 1：快速、直觀、自動(dòng)的思維方式。

這種思維模式通常是無(wú)意識(shí)的，依賴(lài)于直覺(jué)和經(jīng)驗(yàn)，能迅速做出反應(yīng)。例如，看到一個(gè)熟悉的面孔時(shí)，我們幾乎無(wú)需思考便能認(rèn)出它。

系統(tǒng) 2：慢速、深思熟慮、邏輯性的思維方式。

這種思維模式需要有意識(shí)的努力和思考，用于解決復(fù)雜問(wèn)題或做出深思熟慮的決策。例如，解決數(shù)學(xué)題或計(jì)劃長(zhǎng)期目標(biāo)時(shí)，我們會(huì)調(diào)動(dòng)系統(tǒng) 2 的思維。

（系統(tǒng)1與系統(tǒng)2的對(duì)比，來(lái)源：簡(jiǎn)書(shū)）

5. 案例

案例網(wǎng)上很多，這里只簡(jiǎn)單提下“草莓”這個(gè)最經(jīng)典的案例。

草莓的梗最初是因?yàn)槿藗儨y(cè)試GPT系列的時(shí)候，發(fā)現(xiàn)了模型無(wú)法數(shù)對(duì)草莓這個(gè)單詞里面的r的數(shù)量。而OpenAI的新模型可以通過(guò)self-play的方式提升模型Reasoning的能力，從而數(shù)對(duì)r的數(shù)量。于是這個(gè)名叫草莓的模型就開(kāi)始在網(wǎng)上不斷發(fā)酵，并在Sam各種有意無(wú)意的暗示中升溫。

6. 業(yè)界關(guān)于o1模型的正負(fù)面觀點(diǎn)

6.1 正面觀點(diǎn)

Jason Wei，OpenAI研究員，COT作者：

“通過(guò)將復(fù)雜步驟分解為更簡(jiǎn)單的步驟、識(shí)別和糾正錯(cuò)誤，以及嘗試不同的方法，o1 的表現(xiàn)完全令人驚嘆，游戲規(guī)則已經(jīng)被徹底重新定義?！?/p>

楊植麟，Kimi創(chuàng)始人：

“規(guī)模定律之后，大模型發(fā)展的下一個(gè)范式是強(qiáng)化學(xué)習(xí)。對(duì)于通用智能AGI來(lái)講，可能會(huì)有三個(gè)層面：最底層是規(guī)模化定律，這是第一個(gè)層次的創(chuàng)新機(jī)會(huì)，它被OpenAI發(fā)現(xiàn)，并且做到極致。第二個(gè)層次的創(chuàng)新機(jī)會(huì)，就是Scaling law框架下有一些問(wèn)題沒(méi)有解決，比如怎么把所有的模態(tài)用統(tǒng)一的表示放到同一個(gè)模型里面去？這是第二個(gè)層次的挑戰(zhàn)。第三層次的問(wèn)題，比如能夠去做更長(zhǎng)的上下文，能夠有更強(qiáng)的 reasoning 或者 instruction-following 。

決定這一代AI技術(shù)的上限，核心是文本模型能力的上限，如果文本模型能持續(xù)提升智商，就能做越來(lái)越復(fù)雜的任務(wù)。AI產(chǎn)品的能力由模型能力的決定，這和互聯(lián)網(wǎng)時(shí)代有本質(zhì)不同，模型能力不強(qiáng)，產(chǎn)品體驗(yàn)就不會(huì)好。AI時(shí)代的超級(jí)應(yīng)用，大概率會(huì)是一個(gè)AI助理。這一代AI最大的變量，還是在生產(chǎn)力端。現(xiàn)在社會(huì)里面每一單位的生產(chǎn)力可能都會(huì)有十倍提升的機(jī)會(huì)。”

肖仰華，復(fù)旦計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、博導(dǎo)：

“o1模型的出現(xiàn)意味著大模型的推理能力完全能夠達(dá)到專(zhuān)家級(jí)水平，算得上是人工智能里程碑式的進(jìn)展，將給模型在企業(yè)端的應(yīng)用帶來(lái)極大的提升。但隨著模型在知性、感性和理性三方面的能力均不斷提升后，其將超越人類(lèi)的能力，未來(lái)人工智能將對(duì)人類(lèi)產(chǎn)生何種影響還很難預(yù)測(cè)，人工智能的發(fā)展速度現(xiàn)在超過(guò)了人類(lèi)對(duì)其認(rèn)知的速度，人工智能治理將是一個(gè)巨大挑戰(zhàn)。

大規(guī)模強(qiáng)化學(xué)習(xí)算法教會(huì)模型如何在訓(xùn)練過(guò)程中有效使用其思維鏈進(jìn)行思考，o1模型可以在回應(yīng)用戶(hù)之前產(chǎn)生一個(gè)很長(zhǎng)的內(nèi)部思維鏈。以前的大語(yǔ)言模型更像一個(gè)文科生，距離理科生的水平仍然較遠(yuǎn)。但人類(lèi)智能的核心能力是思考和思維，OpenAI新推理模型o1系列將人的思維過(guò)程展現(xiàn)出來(lái)。

我們發(fā)現(xiàn)o1的表現(xiàn)超過(guò)了一些人類(lèi)專(zhuān)家，成為第一個(gè)在這個(gè)基準(zhǔn)上做到這一點(diǎn)的模型。這些結(jié)果并不意味著o1在所有方面都比博士更有能力，只是模型在解決博士需要解決的一些問(wèn)題方面更熟練。人類(lèi)目前對(duì)人工智能基本認(rèn)知框架都有所欠缺，這是一個(gè)巨大的治理挑戰(zhàn)，就業(yè)、經(jīng)濟(jì)、倫理、社會(huì)關(guān)系等話(huà)題將引起廣泛討論?！?/p>

6.2 負(fù)面觀點(diǎn)

復(fù)旦NLP實(shí)驗(yàn)室：

“博士級(jí)”模型GPT-o1折戟中學(xué)數(shù)學(xué)“陷阱”問(wèn)題，準(zhǔn)確率僅為24.3%

我們的最新研究結(jié)果卻給這個(gè)”AI天才”潑了一盆冷水——在面對(duì)中學(xué)數(shù)學(xué)水平的”陷阱”問(wèn)題時(shí)，GPT-o1慘遭滑鐵盧：在我們最新的中學(xué)陷阱問(wèn)題測(cè)試集MathTrap_Public上，調(diào)用GPT-o1-preview官方API后生成的回答準(zhǔn)確率僅為24.3% 。

我們?cè)?GSM8K 和 MATH 數(shù)據(jù)集問(wèn)題的基礎(chǔ)上，加入了一些“陷阱”，構(gòu)造了 MathTrap 數(shù)據(jù)集。這些改編后的題目很多時(shí)候沒(méi)有定義明確的答案或者無(wú)解，只有能夠同時(shí)理解原題和“陷阱”所涉及知識(shí)的模型，才能找出其中的矛盾點(diǎn)，發(fā)現(xiàn)“陷阱”所在。

因此，單靠“刷榜”來(lái)提高在 GSM8K 和 MATH 上的成績(jī)，是沒(méi)辦法在 MathTrap 上取得好成績(jī)的，因?yàn)檫@些模型缺乏質(zhì)疑題目條件的能力。

相關(guān)研究：Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning Through Trap Problems

論文鏈接：https://arxiv.org/pdf/2405.06680

7. 如何使用

7.1 ChatGPT付費(fèi)用戶(hù)

ChatGPT Plus和Team用戶(hù)從9月12日可以開(kāi)始在ChatGPT中訪(fǎng)問(wèn)o1模型。o1-preview和o1-mini可以在模型選擇器中手動(dòng)選擇，o1-preview的每周消息限制為50條，o1-mini 為每天50條。ChatGPT Enterprise 和 Edu 用戶(hù)將在下周開(kāi)始訪(fǎng)問(wèn)這兩個(gè)模型。

符合 API 使用等級(jí) 5 的開(kāi)發(fā)者可以立即開(kāi)始在 API 中使用這兩個(gè)模型，限制為每分鐘 20 次請(qǐng)求。OpenAI還計(jì)劃將 o1-mini 的訪(fǎng)問(wèn)權(quán)限擴(kuò)展到所有 ChatGPT 免費(fèi)用戶(hù)。

詳見(jiàn)https://openai.com/index/introducing-openai-o1-preview/

7.2 非ChatGPT付費(fèi)用戶(hù)

Cursor已經(jīng)支持了最新的o1模型，沒(méi)有ChatGPT會(huì)員權(quán)限的可以通過(guò)這個(gè)產(chǎn)品進(jìn)行體驗(yàn)。

8. 影響和意義

8.1 對(duì)大模型行業(yè)的影響

新的Scaling Laws —— Post-Training Scaling Laws（后訓(xùn)練擴(kuò)展定律）已經(jīng)出現(xiàn)，并可能引發(fā)行業(yè)對(duì)于算力分配、后訓(xùn)練能力的重新思考。

o1 模型的發(fā)布，意味著 AI 能力的提升不再局限于預(yù)訓(xùn)練階段，還可以通過(guò)在 Post-Training 階段中提升 RL 訓(xùn)練的探索時(shí)間和增加模型推理思考時(shí)間來(lái)實(shí)現(xiàn)性能提升，即 Post-Training Scaling Laws。

數(shù)據(jù)飛輪 + Bootstrap -> SuperIntelligence : 基于自我反思的模型將能夠?qū)崿F(xiàn)自舉 Bootstrap，并提升大大提升模型對(duì)于未見(jiàn)過(guò)的復(fù)雜問(wèn)題的解決能力，模型的推理過(guò)程形成大量高質(zhì)量數(shù)據(jù)的飛輪，并最終有可能向 SuperIntelligence 更進(jìn)一步。

8.2 AI能力的等級(jí)躍遷

AI開(kāi)始具備推理能力，且復(fù)雜問(wèn)題的解決能力可以與人類(lèi)相媲美，這意味著AI從僅能利用工具和規(guī)則的 Level 1 水平開(kāi)始進(jìn)化到了 Level 2 的階段，并向第3階段開(kāi)始探索。

（5 Levels Of AI Agents，來(lái)源：cobusgreyling）

8.3 對(duì)從業(yè)人員的影響

1）AI產(chǎn)品經(jīng)理的危與機(jī)

危：一方面，隨著o1將思維鏈內(nèi)化進(jìn)模型，大幅降低了提示詞工程的難度。這意味著AI產(chǎn)品經(jīng)理未來(lái)大概率不再需要設(shè)計(jì)復(fù)雜的提示詞，剛剛興起1年多的“提示詞工程師”崗位風(fēng)雨飄搖，AI產(chǎn)品經(jīng)理也同樣將因此受到很大的沖擊。

之前解決復(fù)雜問(wèn)題，需要人寫(xiě)非常復(fù)雜的Prompt，而o1本質(zhì)上是COT等復(fù)雜Prompt的自動(dòng)化，所以之后是不需要用戶(hù)自己構(gòu)造復(fù)雜Prompt的。

機(jī)：另一方面，隨著o1代碼能力的大幅提升，代碼編寫(xiě)的門(mén)檻得到了一定程度的降低，AI產(chǎn)品經(jīng)理有機(jī)會(huì)設(shè)計(jì)、開(kāi)發(fā)、上線(xiàn)一條龍完成，大大提升AI產(chǎn)品MVP迭代的效率。

2）工程

雖然AI取代工程開(kāi)發(fā)還言之尚早，但大模型在短時(shí)間內(nèi)的進(jìn)步之大還是讓人震驚，初級(jí)開(kāi)發(fā)的門(mén)檻與AI越來(lái)越模糊。也許在不遠(yuǎn)的將來(lái)，英文就將成為最流行的編程語(yǔ)言。

而短期來(lái)說(shuō)，工程開(kāi)發(fā)的效率有望借助o1模型和Cursor等工具產(chǎn)品進(jìn)一步提升。

3）算法

雖然強(qiáng)化學(xué)習(xí)算法在InstructGPT的論文中就已經(jīng)被提及，但之前更多是作為RLHF基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)的視角進(jìn)行切入，很少作為單獨(dú)的方向被重點(diǎn)提出。

o1模型發(fā)布后，強(qiáng)化學(xué)習(xí)的重要性大大提高，其在大模型領(lǐng)域的應(yīng)用有望成為接下來(lái)一段時(shí)間國(guó)內(nèi)大模型公司混戰(zhàn)的新焦點(diǎn)。

三、背后：技術(shù)原理與相關(guān)論文

1. 基礎(chǔ)知識(shí)

1.1 強(qiáng)化學(xué)習(xí)

機(jī)器學(xué)習(xí)算法主要分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三類(lèi)。無(wú)監(jiān)督學(xué)習(xí)相當(dāng)于學(xué)生自學(xué)，沒(méi)有任何老師指導(dǎo)，完全依靠學(xué)生自己琢磨；監(jiān)督學(xué)習(xí)相當(dāng)于有老師指導(dǎo)，有明確對(duì)錯(cuò)的學(xué)習(xí)；強(qiáng)化學(xué)習(xí)則是做對(duì)題目有獎(jiǎng)勵(lì)，做錯(cuò)題目有懲罰的學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）是一種基于反饋的學(xué)習(xí)方法，對(duì)算法執(zhí)行的正確和不正確行為分別進(jìn)行獎(jiǎng)勵(lì)和懲罰的制度，目的是使算法獲得最大的累積獎(jiǎng)勵(lì)，從而學(xué)會(huì)在特定環(huán)境下做出最佳決策?！皬?qiáng)化”一詞來(lái)自于心理學(xué)，心理學(xué)中的“強(qiáng)化”就是通過(guò)提供一種刺激手段來(lái)建立或者鼓勵(lì)一種行為模式。這種“強(qiáng)化”具體分為兩種：

積極強(qiáng)化，是指在預(yù)期行為呈現(xiàn)后，通過(guò)給予激勵(lì)刺激以增加進(jìn)一步導(dǎo)致積極反應(yīng)。

負(fù)面強(qiáng)化，通過(guò)提供適當(dāng)?shù)拇碳?lái)減少出現(xiàn)負(fù)面(不希望的)反應(yīng)的可能性，從而糾正不希望出現(xiàn)的行為。

想象一下，當(dāng)你第一次自己玩超級(jí)馬里奧，你需要在游戲中不斷探索環(huán)境和重要的NPC，一個(gè)錯(cuò)誤的舉動(dòng)會(huì)導(dǎo)致失去一條“命”，一個(gè)正確的跳躍可以把我們帶到一個(gè)更安全的地方獲得金幣獎(jiǎng)勵(lì)！在n次獎(jiǎng)勵(lì)和懲罰的探索之后，你對(duì)于馬里奧游戲的熟練程度越來(lái)越高，操作的正確性大大提升，最終成為一個(gè)該游戲的高手。

1.2 Self-play

Self-play 是 AlphaZero 等強(qiáng)化學(xué)習(xí)算法的合成數(shù)據(jù)方法，最早可以追溯到 1992 年的 TD-Gammon 算法，其本質(zhì)是利用 AI 無(wú)限的計(jì)算能力來(lái)補(bǔ)足它數(shù)據(jù)利用效率不夠的短板。

以 AlphaZero 為例，在每一局對(duì)弈中，模型使用蒙特卡洛樹(shù)搜索（Monte Carlo Tree Search，MCTS）來(lái)選擇動(dòng)作。MCTS 結(jié)合了當(dāng)前神經(jīng)網(wǎng)絡(luò)提供的策略（policy）和價(jià)值（value），從而在每個(gè)游戲狀態(tài)下評(píng)估出最優(yōu)的行動(dòng)。其具體步驟如下：

1) 隨機(jī)初始化：模型從完全隨機(jī)初始化的狀態(tài)開(kāi)始，沒(méi)有任何人類(lèi)先驗(yàn)知識(shí)。

2) self-play：模型自己與自己進(jìn)行對(duì)弈，生成大量的游戲數(shù)據(jù)。其中好的結(jié)果用于更新模型的參數(shù)。

3) MCTS：在每一次對(duì)弈中，AlphaZero 會(huì)使用 MCTS 來(lái)搜索最佳動(dòng)作。MCTS 使用策略網(wǎng)絡(luò) （policy network）提供的動(dòng)作概率分布和價(jià)值網(wǎng)絡(luò)提供的局面評(píng)估結(jié)果來(lái)引導(dǎo)搜索。

4) 策略更新：根據(jù)自我對(duì)弈的結(jié)果，使用強(qiáng)化學(xué)習(xí)的方式來(lái)更新神經(jīng)網(wǎng)絡(luò)的參數(shù)，使得模型逐步學(xué)習(xí)到更優(yōu)的策略

1.3 Self-play強(qiáng)化學(xué)習(xí)、RLHF

早在2018 年，Ilya Sutskever就認(rèn)為強(qiáng)化學(xué)習(xí)與 self-play 是通往 AGI 路上最關(guān)鍵的方法之一。Ilya 用一句話(huà)概括了強(qiáng)化學(xué)習(xí)：讓 AI 用隨機(jī)的路徑嘗試新的任務(wù)，如果效果超預(yù)期，那就更新神經(jīng)網(wǎng)絡(luò)的權(quán)重，使得 AI 記住多使用這個(gè)成功的事件，再開(kāi)始下一次的嘗試。

1）傳統(tǒng)強(qiáng)化學(xué)習(xí)與self-play的區(qū)別：傳統(tǒng)強(qiáng)化學(xué)習(xí)與今天的 self-play 強(qiáng)化學(xué)習(xí)相比，最大的區(qū)別是強(qiáng)化學(xué)習(xí)算法模型（如AlphaZero）是一個(gè)千萬(wàn)參數(shù)的神經(jīng)網(wǎng)絡(luò)，和今天的語(yǔ)言模型相差 3-4 個(gè)數(shù)量級(jí)。

2）Self-play 強(qiáng)化學(xué)習(xí)與RLHF 的區(qū)別：RLHF 的目的不是獲取機(jī)器智能，而是人機(jī)對(duì)齊，使得 AI 能夠更像人，但不能超越人成為超級(jí)智能。簡(jiǎn)單來(lái)說(shuō)：RLHF 像人類(lèi)一樣，更喜歡好理解的東西，而不是喜歡邏輯更嚴(yán)密的內(nèi)容。而 self-play 強(qiáng)化學(xué)習(xí)的目標(biāo)是如何提升邏輯能力，絕對(duì)強(qiáng)度更高，甚至超越最強(qiáng)人類(lèi)、專(zhuān)家。

3）RLHF 的核心是通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練語(yǔ)言模型，但由于缺乏獎(jiǎng)勵(lì)函數(shù)這一必要因素，因此需要通過(guò)收集人類(lèi)的反饋來(lái)學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù)。

4）強(qiáng)化學(xué)習(xí)不是一個(gè)模型，而是一整套的系統(tǒng)，其中包含了很多因素，第一，強(qiáng)化學(xué)習(xí)包括了智能體，其中的 agent 就是模型。第二，包括了環(huán)境，環(huán)境可能是狗主人的家，也可能是編程環(huán)境，也可能是垂直領(lǐng)域。第三，包括了動(dòng)作，是狗坐下，還是一些其他模態(tài)的輸出。第四，包括了獎(jiǎng)勵(lì)模型，這也很重要。最重要的兩個(gè)因素是環(huán)境和智能體。智能體的目標(biāo)是得到更多獎(jiǎng)勵(lì)。

（強(qiáng)化學(xué)習(xí)構(gòu)成，來(lái)源：海外獨(dú)角獸）

強(qiáng)化學(xué)習(xí)在語(yǔ)言模型中的思路，本質(zhì)上是 inference time 換 training time 。

1.4 為什么 RLHF 的效果優(yōu)于 SFT？

PPO 算法的提出者是Berkeley PhD，OpenAI前研究員 John Schulman，他針對(duì) RLHF PPO 提出了兩個(gè)觀點(diǎn)：

第一，SFT 會(huì)導(dǎo)致 hallucination ：

John Schulman 認(rèn)為，大型模型之所以會(huì)產(chǎn)生幻覺(jué)，是因?yàn)樗鼈冊(cè)?SFT 階段學(xué)到了一些不正確的認(rèn)知。SFT 過(guò)強(qiáng)的監(jiān)督信號(hào)導(dǎo)致人類(lèi)實(shí)際上在引導(dǎo) ChatGPT 說(shuō)它不知道的東西。還有一種可能性，即 GPT 實(shí)際上知道答案，但標(biāo)注人員不知道。

第二，RLHF 讓大模型“知道”自己“確實(shí)不知道”。

RLHF 的過(guò)程不僅幫助模型意識(shí)到不確定性，更重要的事情是 RLHF 幫助模型提高了 reasoning 能力。

只有通過(guò)正向和反向的雙重實(shí)驗(yàn)，我們才可以判斷這種藥物對(duì)頭痛有效。如果只有正向的例子，例如說(shuō)患者吃了感冒藥，感冒變好了，并不能證明感冒藥能治好感冒。只能說(shuō)明，感冒藥與患者感冒的好轉(zhuǎn)有一定相關(guān)性。而 RLHF 正是成功利用了負(fù)向數(shù)據(jù)，使得模型有機(jī)會(huì)真正掌握因果性。

總結(jié)來(lái)說(shuō)，RLHF 有以下優(yōu)勢(shì)：

使用 negative signal 進(jìn)行對(duì)比學(xué)習(xí)，通過(guò)對(duì)比的過(guò)程可以幫助模型降低 halluciation。?

強(qiáng)化學(xué)習(xí)不是一個(gè)固定的過(guò)程。它允許模型隨著能力的不斷提升，通過(guò)不斷地問(wèn)問(wèn)題、給出答案、評(píng)判，從而讓模型不停地從當(dāng)前能力的邊界進(jìn)行主動(dòng)探索，并不斷拓寬自己的能力邊界。?

這兩個(gè)因素共同作用能夠形成 counter-factual reasoning 的作用，有可能解鎖因果學(xué)習(xí)（casual learning）的巨大潛力，讓模型具備更強(qiáng)的 reasoning 能力。

1.5 PRM與ORM

PRM（Process reward model）是獎(jiǎng)勵(lì)好的推理步驟，而不僅僅是正確的結(jié)果。這更接近人類(lèi)的學(xué)習(xí)和推理方式，實(shí)現(xiàn)方式常常是用 COT 來(lái)表示推理過(guò)程，對(duì)每一步進(jìn)行打分。這是因?yàn)?LLM 的語(yǔ)義理解能力才成為可能的。在傳統(tǒng) RL 中，我們按照最終結(jié)果評(píng)分，其評(píng)分模型稱(chēng)為 ORM（outcome reward model）；而通過(guò)專(zhuān)門(mén)訓(xùn)練 LLM 成為 process verifier ，新的評(píng)分模型叫做 PRM，往往是使較小 LLM fine-tune 得到。

OpenAI 的 verify step-by-step 也是最近最重要的 paper 之一。他們訓(xùn)練的 PRM 在解決 MATH 數(shù)據(jù)集測(cè)試集中 78.2%的問(wèn)題時(shí)表現(xiàn)優(yōu)于 ORM。在今年 Google Research 的一篇 paper 中提到，PRM 在過(guò)程中一旦成功發(fā)現(xiàn)第一個(gè)錯(cuò)誤，就能使 RL 訓(xùn)練效果顯著提升。

1.6 Critic Model

隨著任務(wù)復(fù)雜度的提高，僅僅依靠模型的自身推理能力可能無(wú)法提供有效的獎(jiǎng)勵(lì)信號(hào)。這使得對(duì)于模型內(nèi)部的復(fù)雜推理過(guò)程的監(jiān)督變成了一個(gè)可擴(kuò)展監(jiān)督問(wèn)題。

具體來(lái)說(shuō)，o1的隱式思維鏈的訓(xùn)練過(guò)程中應(yīng)當(dāng)也引入了Critic的方法。通過(guò)將推理過(guò)程進(jìn)行過(guò)程分解，并且利用額外的更強(qiáng)更專(zhuān)項(xiàng)的Critic Model，可以將推理過(guò)程的監(jiān)督擴(kuò)展到更復(fù)雜的問(wèn)題上。這也一定程度緩解了僅僅是通過(guò)推理過(guò)程能否導(dǎo)出正確結(jié)果的來(lái)確定獎(jiǎng)勵(lì)信號(hào)的稀疏問(wèn)題。

OpenAI的CriticGPT通過(guò)RLHF方法訓(xùn)練模型能夠?yàn)檎鎸?shí)世界中的代碼任務(wù)書(shū)寫(xiě)自然語(yǔ)言反饋，并成功泛化到OOD（模型在訓(xùn)練過(guò)程中沒(méi)有遇到過(guò)的數(shù)據(jù)）的分布上。這種反饋可以用來(lái)幫助人類(lèi)進(jìn)行更準(zhǔn)確的評(píng)價(jià)，從而實(shí)現(xiàn)對(duì)于復(fù)雜輸出的有效獎(jiǎng)勵(lì)反饋。

2. 關(guān)于技術(shù)原理的猜想

2.1 OpenAI官方的“提示”

通過(guò)強(qiáng)化學(xué)習(xí)，o1 學(xué)會(huì)了精煉其思維鏈并優(yōu)化所用的策略。它學(xué)會(huì)了識(shí)別并糾正錯(cuò)誤，將復(fù)雜的步驟分解為更簡(jiǎn)單的部分，并在當(dāng)前方法無(wú)效時(shí)嘗試不同的途徑。這一過(guò)程顯著提升了模型的推理能力。

o1 模型引入了推理標(biāo)記。模型使用這些推理標(biāo)記進(jìn)行“思考”，分解對(duì)提示的理解并考慮多種生成響應(yīng)的方法。生成推理標(biāo)記后，模型會(huì)將答案生成為可見(jiàn)的完成標(biāo)記，并從其上下文中丟棄推理標(biāo)記。

以下是用戶(hù)與助手之間多步驟對(duì)話(huà)的示例。每個(gè)步驟的輸入和輸出標(biāo)記都會(huì)被保留，而推理標(biāo)記則會(huì)被丟棄。

（推理是如何進(jìn)行的，OpenAI官網(wǎng)）

2.2 猜想1

張俊林：MCTS搜索技術(shù)路線(xiàn)

OpenAI o1提到了關(guān)于RL在訓(xùn)練和推理時(shí)候的Scaling law，并指出這與預(yù)訓(xùn)練時(shí)候的Scaling law具有不同特性。很明顯，如果o1走的是MCTS搜索技術(shù)路線(xiàn)，那么把COT拆分的越細(xì)（增加搜索樹(shù)的深度），或提出更多的可能選擇（節(jié)點(diǎn)的分支增多，就是說(shuō)樹(shù)的寬度越寬），則搜索空間越大，找到好COT路徑可能性越大，效果越好，而訓(xùn)練和推理的時(shí)候需要算力肯定越大?？瓷先ビ兄ЧS著算力增長(zhǎng)而增長(zhǎng)的態(tài)勢(shì)，也就是所謂的RL的Scaling law。這其實(shí)是樹(shù)搜索本來(lái)應(yīng)有之義，我倒覺(jué)得把這個(gè)稱(chēng)為RL的Scaling law有點(diǎn)名不副實(shí)。

2.3 猜想2

騰訊科技周小燕郝博陽(yáng)：PRM僅在答案不可接受時(shí)進(jìn)行MCTS式的搜索，或者用的是更節(jié)約的Beam Search。

從反應(yīng)時(shí)間和token消耗兩方面看，根據(jù)Hackernews上使用了API的開(kāi)發(fā)者推算，o1進(jìn)行推理所消耗的token是其給出答案token的10倍，是未進(jìn)行思維鏈的GPT-4o mini 所用token的60-100倍。如果采用能看三步的、每步形成5個(gè)候選，單層深度的Lookahead Search就會(huì)消耗45倍token。但用到了思維鏈每步都需要進(jìn)行一次Lookahead Search的話(huà)，就會(huì)遠(yuǎn)超100倍token。另外考慮到MCTS這么大的計(jì)算量，目前o1的反饋時(shí)間是遠(yuǎn)遠(yuǎn)不夠的。

但如果僅用思維鏈，即使是非常復(fù)雜的問(wèn)題，token消耗最多也就是達(dá)到5-10倍。其60倍token消耗又太大了。

2.4 猜想3

北大對(duì)齊團(tuán)隊(duì)：o1運(yùn)用的技術(shù)關(guān)鍵還是在于強(qiáng)化學(xué)習(xí)的搜索與學(xué)習(xí)機(jī)制，基于LLM已有的推理能力，迭代式的Bootstrap模型產(chǎn)生合理推理（Rationales)的能力，并將 Rationales 融入到訓(xùn)練過(guò)程內(nèi)，讓模型學(xué)會(huì)進(jìn)行推理，而后再運(yùn)用足夠強(qiáng)大的計(jì)算量實(shí)現(xiàn)Post-Training階段的Scaling。類(lèi)似于STaR的擴(kuò)展版本。

模型學(xué)習(xí)的是產(chǎn)生合理推理的過(guò)程，MCTS 在其中的作用是誘導(dǎo)合理推理過(guò)程的產(chǎn)生或構(gòu)建相應(yīng)的偏序?qū)π纬杉?xì)粒度獎(jiǎng)勵(lì)信號(hào)，而非直接搜索過(guò)程和最終答案。

為了優(yōu)化這一過(guò)程，產(chǎn)生了一系列方法，其中包括在 Token 級(jí)別或子句級(jí)別提供獎(jiǎng)勵(lì)信號(hào)，幫助模型調(diào)整生成的回答。這些方法如MCTS，將輸出建模為一系列節(jié)點(diǎn)，這些節(jié)點(diǎn)可以是 Token 級(jí)別或句子級(jí)別。例如：

Token 級(jí)別的節(jié)點(diǎn)：每個(gè)節(jié)點(diǎn)對(duì)應(yīng)生成序列中的一個(gè) Token。通過(guò) MCTS，模型可以探索不同的 Token 序列，最終生成更連貫的響應(yīng)。

句子級(jí)別的節(jié)點(diǎn)：在復(fù)雜推理任務(wù)中，每個(gè)節(jié)點(diǎn)可以代表一個(gè)完整的句子或推理步驟，幫助模型更好地處理多步推理任務(wù)。

3. 相關(guān)論文

3.1 Jason Wei 的 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models，也就是著名的COT。

主要內(nèi)容：通過(guò)一系列中間推理步驟，能顯著提高大型語(yǔ)言模型執(zhí)行復(fù)雜推理的能力，提出了一種名為“chain of thought prompting”的方法，通過(guò)提供幾個(gè)思維鏈條示例，無(wú)需對(duì)模型進(jìn)行微調(diào)，就能自然地激發(fā)大型語(yǔ)言模型的推理能力，實(shí)驗(yàn)結(jié)果表明該方法在算術(shù)、常識(shí)和符號(hào)推理任務(wù)上顯著提高了三種大型語(yǔ)言模型的表現(xiàn)。

鏈?zhǔn)剿季S推理能力的涌現(xiàn)：鏈?zhǔn)剿季S推理能力并非所有模型都具備，而是隨著模型規(guī)模的擴(kuò)大而逐漸涌現(xiàn)。對(duì)于需要多步推理的任務(wù)，鏈?zhǔn)剿季S提示能夠顯著提升模型性能，尤其是在大型語(yǔ)言模型上表現(xiàn)尤為突出。

該方法也為提升模型可解釋性和魯棒性提供了新的思路。

CoT 通過(guò)分步推理的方式，要求模型在生成最終答案之前，先生成一系列中間推理步驟。這種 “思考鏈” 的生成過(guò)程有助于增強(qiáng)模型的推理能力，尤其在數(shù)學(xué)和代碼生成等任務(wù)中表現(xiàn)出色。

然而，CoT雖然能夠生成中間步驟，但并未教會(huì)模型如何從內(nèi)部深入思考問(wèn)題的關(guān)聯(lián)。特別是對(duì)于尤其復(fù)雜且需要多步推理規(guī)劃的任務(wù)，這樣的合理的中間 CoT 推理過(guò)程（Rationales) 更為重要。

3.2 Ilya等人的Let’s Verify Step by Step

主要內(nèi)容：比較了兩種訓(xùn)練大型語(yǔ)言模型進(jìn)行復(fù)雜推理的方法：結(jié)果監(jiān)督和過(guò)程監(jiān)督，并得出以下主要貢獻(xiàn)：

1）過(guò)程監(jiān)督比結(jié)果監(jiān)督更有效

研究表明，過(guò)程監(jiān)督訓(xùn)練出的獎(jiǎng)勵(lì)模型比結(jié)果監(jiān)督更可靠，能夠解決 MATH 數(shù)據(jù)集 78.2% 的問(wèn)題，而結(jié)果監(jiān)督只能解決 66.4%。過(guò)程監(jiān)督提供了更精確的反饋，指出了錯(cuò)誤發(fā)生的具體位置，有助于模型更好地進(jìn)行信用分配和學(xué)習(xí)。

2）大型獎(jiǎng)勵(lì)模型可以有效地近似人類(lèi)監(jiān)督

研究發(fā)現(xiàn)，大型獎(jiǎng)勵(lì)模型可以有效地近似人類(lèi)監(jiān)督，用于訓(xùn)練小型獎(jiǎng)勵(lì)模型，從而降低了數(shù)據(jù)收集的成本。這為大規(guī)模數(shù)據(jù)收集消融實(shí)驗(yàn)提供了可能性，并可以用于評(píng)估不同監(jiān)督方法的效果。

3）激活學(xué)習(xí)提高了過(guò)程監(jiān)督的數(shù)據(jù)效率

研究發(fā)現(xiàn)，激活學(xué)習(xí)可以將過(guò)程監(jiān)督的數(shù)據(jù)效率提高 2.6 倍，這意味著可以使用更少的數(shù)據(jù)獲得更好的模型性能。激活學(xué)習(xí)通過(guò)選擇最有價(jià)值的模型輸出進(jìn)行人工標(biāo)注，從而提高了數(shù)據(jù)收集的效率。

4）發(fā)布了 PRM800K 數(shù)據(jù)集

論文發(fā)布了 PRM800K 數(shù)據(jù)集，包含 800,000 個(gè)步驟級(jí)別的標(biāo)注數(shù)據(jù)，用于訓(xùn)練獎(jiǎng)勵(lì)模型。

3.3 斯坦福&谷歌STaR: Bootstrapping Reasoning with Reasoning

1）主要原理

STaR 的核心思路是利用 LLM 已有的推理能力，迭代式的 Bootstrap 模型產(chǎn)生合理推理過(guò)程（Rationales) 的能力，并將 Rationales 融入到訓(xùn)練過(guò)程內(nèi)，讓模型學(xué)會(huì)進(jìn)行推理。其基本流程如下：

推理：起始數(shù)據(jù)集僅有 [Question, Answer] ，首先利用一些帶有推理過(guò)程的 Few-Shot Examples 來(lái) Prompt 模型對(duì)于數(shù)據(jù)集中的問(wèn)題生成對(duì)應(yīng)的推理過(guò)程和答案。

過(guò)濾：如果生成的答案正確，則將推理過(guò)程加入到原有的數(shù)據(jù)集中；如果生成的答案錯(cuò)誤，則嘗試在給出正確答案的前提下再次生成推理過(guò)程。將最終生成正確答案的推理收集，構(gòu)建一個(gè)構(gòu)建一個(gè)微調(diào)數(shù)據(jù)集 [Question, Rationale, Answer ] 進(jìn)行微調(diào)。

迭代：重復(fù)這一過(guò)程，且每次獲得一個(gè)新的數(shù)據(jù)集，都從原始的模型開(kāi)始進(jìn)行 Fine-tune 從而防止過(guò)擬合。

2）創(chuàng)新點(diǎn)

迭代引導(dǎo)：STaR 不需要構(gòu)建大規(guī)模的推理鏈數(shù)據(jù)集，而是通過(guò)少量示例引導(dǎo) LLM 生成自身的推理鏈，實(shí)現(xiàn)自我提升。

Rationalization 技術(shù)：STaR 引入了 Rationalization 技術(shù)，通過(guò)提供正確答案作為提示，幫助 LLM 生成新的推理鏈，克服了正向推理訓(xùn)練的局限性，能夠從失敗案例中學(xué)習(xí)。

3）STaR 的優(yōu)勢(shì)

提升推理能力：STaR 能夠有效提升 LLM 在數(shù)學(xué)推理、常識(shí)推理等復(fù)雜任務(wù)上的性能。

降低數(shù)據(jù)需求：STaR 不需要大規(guī)模的推理鏈數(shù)據(jù)集，降低了數(shù)據(jù)獲取的難度和成本。

提高魯棒性：STaR 能夠讓 LLM 從失敗案例中學(xué)習(xí)，提高其在復(fù)雜問(wèn)題上的魯棒性。

4）STaR 的局限性

初始模型要求：STaR 需要初始模型具有一定的推理能力，否則難以啟動(dòng)引導(dǎo)過(guò)程。

對(duì)少樣本示例的依賴(lài)：STaR在推理任務(wù)中高度依賴(lài)少量的Few-Shot推理示例，這導(dǎo)致模型的推理能力較為有限，難以應(yīng)對(duì)復(fù)雜和廣泛的任務(wù)。

泛化能力受限：STaR雖然能夠通過(guò)迭代的方式提升模型的推理能力，但其應(yīng)用主要局限于特定的結(jié)構(gòu)化任務(wù)（如問(wèn)題回答），難以在開(kāi)放域或任意文本生成任務(wù)中取得同樣的效果。

數(shù)據(jù)質(zhì)量影響：STaR 的性能受初始推理鏈質(zhì)量的影響，如果初始推理鏈存在偏差，則可能導(dǎo)致 STaR 學(xué)習(xí)到錯(cuò)誤的推理模式。

解釋忠實(shí)度：STaR 生成的推理鏈可能無(wú)法完全反映 LLM 的內(nèi)部推理過(guò)程，存在解釋忠實(shí)度的問(wèn)題。

5）STaR 與強(qiáng)化學(xué)習(xí)目標(biāo)的相似之處

迭代更新：STaR 和強(qiáng)化學(xué)習(xí)都采用迭代的方式更新模型，不斷優(yōu)化其性能。

獎(jiǎng)勵(lì)信號(hào)：STaR 通過(guò)迭代的方式生成推理鏈，并使用正確答案作為反饋信號(hào)，類(lèi)似于強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)信號(hào)，用于指導(dǎo)模型的更新方向。

6）STaR 與強(qiáng)化學(xué)習(xí)目標(biāo)的區(qū)別

目標(biāo)函數(shù)：STaR 的目標(biāo)函數(shù)與強(qiáng)化學(xué)習(xí)中的策略梯度目標(biāo)不完全相同，STaR 更關(guān)注推理鏈的生成和優(yōu)化。

模型結(jié)構(gòu)：STaR 使用預(yù)訓(xùn)練的 LLM 模型，而強(qiáng)化學(xué)習(xí)可以采用各種類(lèi)型的模型。

訓(xùn)練方法：STaR 使用基于梯度的方法進(jìn)行模型更新，而強(qiáng)化學(xué)習(xí)可以采用多種訓(xùn)練方法，例如 Q-learning、Sarsa 等。

3.4 微軟的 rStar：Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

1）主要貢獻(xiàn)

rStar 是一種創(chuàng)新的self-play自我推理方法，旨在提升小語(yǔ)言模型 (SLM) 的推理能力，無(wú)需微調(diào)或高級(jí)模型的支持。其核心思想是將推理過(guò)程分解為生成和鑒別兩個(gè)階段，并通過(guò)自我博弈的方式實(shí)現(xiàn) SLM 之間的相互學(xué)習(xí)。

2）主要?jiǎng)?chuàng)新點(diǎn)

豐富的推理動(dòng)作：rStar 引入了五種人類(lèi)似推理動(dòng)作，模擬人類(lèi)在推理過(guò)程中的行為，這使得 SLM 能夠生成更高質(zhì)量的候選推理軌跡，有效探索解決方案空間。

相互一致性鑒別：rStar 使用另一個(gè)與目標(biāo) SLM 能力相似的 SLM 作為鑒別器，對(duì)生成的候選推理軌跡進(jìn)行評(píng)估。鑒別器通過(guò)完成部分推理步驟并提供反饋，幫助目標(biāo) SLM 選擇更可靠的推理路徑。

無(wú)需微調(diào)或高級(jí)模型：rStar 不依賴(lài)于微調(diào)或高級(jí)模型的指導(dǎo)，能夠獨(dú)立提升 SLM 的推理能力，使其在無(wú)需額外資源的情況下獲得顯著的性能提升。

實(shí)驗(yàn)結(jié)果表明，rStar 能夠有效解決多種推理問(wèn)題，并在多個(gè) SLM 上取得了顯著的性能提升。例如，在 GSM8K 數(shù)據(jù)集上，rStar 將 LLaMA2-7B 的準(zhǔn)確率從 12.51% 提升至 63.91%，將 Mistral-7B 的準(zhǔn)確率從 36.46% 提升至 81.88%。

A. 生成階段 (MCTS Rollout):

動(dòng)作空間: rStar 引入了五種人類(lèi)似推理動(dòng)作，模擬人類(lèi)在推理過(guò)程中的行為：

A1: 提出一個(gè)一步思考。

A2: 提出剩余的思考步驟。

A3: 提出下一個(gè)子問(wèn)題及其答案。

A4: 再次回答子問(wèn)題。

A5: 重述問(wèn)題/子問(wèn)題。

MCTS 搜索: 使用 MCTS 算法，根據(jù)當(dāng)前狀態(tài)和動(dòng)作空間，逐步生成候選推理軌跡。

獎(jiǎng)勵(lì)函數(shù): 設(shè)計(jì) SLM 定制獎(jiǎng)勵(lì)函數(shù)，根據(jù)推理步驟對(duì)最終答案的貢獻(xiàn)程度進(jìn)行評(píng)估，并指導(dǎo) MCTS 樹(shù)的擴(kuò)展。

這些動(dòng)作幫助模型更好地探索解決方案空間的原因：

多樣性: 豐富的動(dòng)作類(lèi)型使得模型可以嘗試不同的推理策略，避免陷入固定的思維模式。

靈活性: 模型可以根據(jù)當(dāng)前狀態(tài)選擇合適的動(dòng)作，靈活應(yīng)對(duì)不同的問(wèn)題。

分解: 通過(guò)將復(fù)雜問(wèn)題分解為子問(wèn)題，模型可以逐步解決，降低推理難度。

驗(yàn)證: 通過(guò)重新回答子問(wèn)題，模型可以驗(yàn)證子問(wèn)題的答案是否正確，提高推理的準(zhǔn)確性。

B. 鑒別階段 (Mutual Consistency):

鑒別器 SLM: 使用另一個(gè)與目標(biāo) SLM 能力相似的 SLM 作為鑒別器，對(duì)生成的候選推理軌跡進(jìn)行評(píng)估。

部分提示: 將候選推理軌跡的一部分作為提示，讓鑒別器完成剩余的推理步驟。

一致性驗(yàn)證: 比較鑒別器完成的推理步驟與原始軌跡的一致性，選擇相互一致的軌跡作為最終答案。

互一致性幫助模型選擇正確的推理軌跡的原因：

外部驗(yàn)證: 鑒別器作為外部評(píng)估者，為模型提供客觀的反饋，避免模型自身評(píng)估的偏差。

降低難度: 通過(guò)部分提示，降低鑒別器推理的難度，提高其提供正確答案的概率。

群體智慧: 兩個(gè) SLM 之間的相互驗(yàn)證，類(lèi)似于人類(lèi)群體中的同伴互評(píng)，可以更有效地識(shí)別正確答案。

C. 最終軌跡選擇:

最終得分計(jì)算: 將候選軌跡的獎(jiǎng)勵(lì)值與終端節(jié)點(diǎn)的置信度得分相乘，計(jì)算最終得分。

選擇最佳軌跡: 選擇最終得分最高的軌跡作為最終答案。

3.5 Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

1）貢獻(xiàn)1

將 STaR 推廣到學(xué)習(xí)推理，也是其與 STaR 的主要區(qū)別。STaR 主要針對(duì)特定任務(wù)進(jìn)行推理學(xué)習(xí)，而 Quiet-STaR 則將推理學(xué)習(xí)推廣到更廣泛的文本數(shù)據(jù)中。這使得語(yǔ)言模型能夠在更通用的場(chǎng)景下進(jìn)行推理，并從多樣化的文本任務(wù)中學(xué)習(xí)。

2）貢獻(xiàn)2：并行采樣算法

這是實(shí)現(xiàn) Quiet-STaR 的關(guān)鍵技術(shù)之一。并行采樣算法能夠高效地生成每個(gè) token 的推理，從而使得模型能夠從大規(guī)模文本數(shù)據(jù)中學(xué)習(xí)推理。

3）其他創(chuàng)新點(diǎn)

元 token、混合頭、非短視損失函數(shù)等創(chuàng)新點(diǎn)都是為了更好地實(shí)現(xiàn) Quiet-STaR 的目標(biāo)，即讓語(yǔ)言模型能夠?qū)W習(xí)推理并提高其預(yù)測(cè)能力。

3.6 Google Deep Mind 的Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

針對(duì)現(xiàn)有 LLM 推理能力有限的不足，提出了以下創(chuàng)新方法和策略：

1）創(chuàng)新方法

PRM 驗(yàn)證器和樹(shù)搜索算法：通過(guò)訓(xùn)練一個(gè)過(guò)程獎(jiǎng)勵(lì)模型來(lái)評(píng)估每一步的正確性，并利用樹(shù)搜索算法（如束搜索和前瞻搜索）在解決方案空間中進(jìn)行搜索，找到最優(yōu)答案。

迭代修訂模型：通過(guò)微調(diào) LLM，使其能夠迭代地修改其初始答案，使其逐漸接近正確答案。

2）創(chuàng)新策略

推理時(shí)計(jì)算最優(yōu)擴(kuò)展策略：根據(jù)提示的難度動(dòng)態(tài)選擇最佳的推理時(shí)計(jì)算策略，以最大化性能提升。

計(jì)算預(yù)算交換：將推理時(shí)計(jì)算和預(yù)訓(xùn)練計(jì)算進(jìn)行比較，發(fā)現(xiàn)對(duì)于簡(jiǎn)單和中等的推理任務(wù)，推理時(shí)計(jì)算可以有效地替代額外的預(yù)訓(xùn)練計(jì)算，從而降低預(yù)訓(xùn)練成本。

3）改進(jìn)

性能提升：在相同的計(jì)算預(yù)算下，使用“推理時(shí)計(jì)算最優(yōu)擴(kuò)展策略”可以顯著提升 LLM 的性能，并優(yōu)于傳統(tǒng)的最佳-of-N 策略。

預(yù)訓(xùn)練成本降低：對(duì)于簡(jiǎn)單和中等的推理任務(wù)，可以使用推理時(shí)計(jì)算來(lái)替代額外的預(yù)訓(xùn)練計(jì)算，從而降低預(yù)訓(xùn)練成本。

模型泛化能力提升：通過(guò)迭代修訂模型，LLM 可以學(xué)習(xí)從錯(cuò)誤中吸取教訓(xùn)，并改進(jìn)其推理能力，從而提升模型的泛化能力。

Google在研究中提到了從簡(jiǎn)單到復(fù)雜的三種方案，直接在多個(gè)答案中選最佳解的方法（Best of N），在思維鏈中每步都提供多個(gè)候選項(xiàng)的方法（Beam Search）和把后續(xù)多個(gè)步驟聯(lián)系起來(lái)看的MCTS方法的簡(jiǎn)化版本Lookahead Search。

我們可以嘗試著在推理階段不要求模型一次做對(duì)的能力,而是讓LLM去嘗試一題多解, 然后針對(duì)多個(gè)答案進(jìn)行評(píng)估打分, 最終輸出一個(gè)正確的答案. 在答案評(píng)估的時(shí)候,同時(shí)引入對(duì)過(guò)程的評(píng)估，即Process-based Reward Model(PRM)。搜索方法上, 它采用了Lookahead Search, 本質(zhì)上是MCTS的一種特殊形式.

4. 可能的“逆向工程”

（o1可能的架構(gòu)圖，來(lái)源：https://www.reddit.com/r/LocalLLaMA/comments/1fgr244/reverse_engineering_o1_architecture_with_a_little/）

下面是關(guān)于這張架構(gòu)圖的詳細(xì)說(shuō)明，主要包括四個(gè)階段：

4.1 數(shù)據(jù)生成

數(shù)據(jù)生成模塊負(fù)責(zé)創(chuàng)建用于訓(xùn)練的數(shù)據(jù)，包括：

合成數(shù)據(jù)生成器（Synthetic Data Generator）、人類(lèi)專(zhuān)家、CoT數(shù)據(jù)庫(kù)（CoT Dataset，鏈?zhǔn)剿季S數(shù)據(jù)庫(kù)）、現(xiàn)實(shí)世界和沙盒數(shù)據(jù)

這些數(shù)據(jù)被匯集起來(lái)，形成訓(xùn)練數(shù)據(jù)，用于后續(xù)模型的訓(xùn)練階段。

4.2 訓(xùn)練階段

訓(xùn)練階段主要由以下幾個(gè)模塊組成：

語(yǔ)言模型，這是核心的AI模型，負(fù)責(zé)處理和理解語(yǔ)言數(shù)據(jù)。

RL環(huán)境，強(qiáng)化學(xué)習(xí)環(huán)境用于模型優(yōu)化。

獎(jiǎng)勵(lì)函數(shù)，包括驗(yàn)證（Verification）和人類(lèi)反饋（Human labeling），用來(lái)指導(dǎo)模型學(xué)習(xí)。

策略?xún)?yōu)化器（Policy Optimizer），包括梯度壓縮、Panzar系統(tǒng)、探索與利用等，用于優(yōu)化模型策略。在這個(gè)階段，模型通過(guò)強(qiáng)化學(xué)習(xí)和高級(jí)技術(shù)進(jìn)行訓(xùn)練，不斷優(yōu)化性能和效率。

4.3 推理階段

推理階段包括：

訓(xùn)練好的模型，這是通過(guò)強(qiáng)化學(xué)習(xí)和高級(jí)技術(shù)優(yōu)化后的模型。

多任務(wù)生成，處理多個(gè)任務(wù)的能力。

最終響應(yīng)，生成最終的輸出結(jié)果。

CoT生成和微調(diào)，根據(jù)鏈?zhǔn)剿季S生成并微調(diào)結(jié)果。

效率監(jiān)控：實(shí)時(shí)監(jiān)控模型的性能。

4.4 關(guān)鍵注釋

大規(guī)模CoT存儲(chǔ)進(jìn)入RL環(huán)境是作者自己的假設(shè)，作者認(rèn)為OpenAI可能會(huì)使用從現(xiàn)實(shí)世界中生成的大量鏈?zhǔn)剿季S來(lái)進(jìn)一步調(diào)整和優(yōu)化RL模型。舉例說(shuō)明：假設(shè)你是一名研究員，想要構(gòu)建一個(gè)能夠進(jìn)行多任務(wù)處理的AI系統(tǒng)。

我們可以通過(guò)參考這個(gè)o1架構(gòu)按照上面三個(gè)模塊進(jìn)行以下工作：

1）首先，收集并生成各種類(lèi)型的數(shù)據(jù)，包括合成數(shù)據(jù)、人類(lèi)專(zhuān)家提供的數(shù)據(jù)以及現(xiàn)實(shí)世界的數(shù)據(jù)。

2）接著，利用這些數(shù)據(jù)訓(xùn)練你的語(yǔ)言模型，并在強(qiáng)化學(xué)習(xí)環(huán)境中進(jìn)行優(yōu)化，通過(guò)獎(jiǎng)勵(lì)函數(shù)和策略?xún)?yōu)化器不斷提升模型性能。

3）最后，將訓(xùn)練好的模型部署到推理階段，使其能夠處理多任務(wù)并生成最終響應(yīng)，同時(shí)監(jiān)控其效率并進(jìn)行必要的微調(diào)。這種架構(gòu)不僅適用于語(yǔ)言處理，還可以擴(kuò)展到其他領(lǐng)域，如圖像識(shí)別、游戲開(kāi)發(fā)等，通過(guò)不斷優(yōu)化強(qiáng)化學(xué)習(xí)過(guò)程，使得AI系統(tǒng)更加智能高效。

四、幕后：o1背后的團(tuán)隊(duì)

在 OpenAI 公布的o1模型的參與人員中，不僅包括前首席科學(xué)家Ilya Sutskever，COT 作者 Jason Wei，還包含了Jiayi Weng等大量華人科學(xué)家。

在o1 的21個(gè)Foundational貢獻(xiàn)者呈現(xiàn)出了高學(xué)歷、高包容性、多元化、國(guó)際化等特點(diǎn)。

學(xué)術(shù)背景：14人擁有博士學(xué)位，3人以本科學(xué)位進(jìn)入OpenAI，1人有專(zhuān)科經(jīng)歷，5人有斯坦福背景；
國(guó)家背景：團(tuán)隊(duì)來(lái)自至少8個(gè)國(guó)家，包括美國(guó)、中國(guó)、印度、韓國(guó)、意大利、土耳其、以色列、波蘭，呈現(xiàn)出了高度的國(guó)際化。其中以色列2人。
華人貢獻(xiàn)：作為人數(shù)最多的國(guó)家之一，6個(gè)華人本科分別來(lái)自清華、北大、劍橋、哈佛、達(dá)特茅斯。從某種程度上來(lái)說(shuō)，OpenAI 在AI技術(shù)上的領(lǐng)先離不開(kāi)華人的貢獻(xiàn)。
工作背景：作為OpenAI最主要的競(jìng)爭(zhēng)對(duì)手，貢獻(xiàn)者中11人有 Google 背景，5人沒(méi)有相關(guān)名企經(jīng)驗(yàn)；

注：2人未找到相關(guān)資料。

21個(gè)Foundational貢獻(xiàn)者資料明細(xì)

五、相關(guān)名詞解釋

1. MCTS

1.1 概念：蒙特卡洛樹(shù)搜索（Monte Carlo Tree Search，MCTS）是一種用于某些類(lèi)型決策過(guò)程的啟發(fā)式搜索算法，特別是在雙人零和游戲中。它結(jié)合了蒙特卡洛模擬的隨機(jī)抽樣和決策樹(shù)搜索的系統(tǒng)性。MCTS在計(jì)算博弈論和人工智能領(lǐng)域中非常有用，尤其是在圍棋、國(guó)際象棋和其他策略游戲中。

1.2 MCTS的基本步驟

1）選擇：從根節(jié)點(diǎn)開(kāi)始，按照特定的策略，選擇最有前途的子節(jié)點(diǎn)，直到到達(dá)一個(gè)尚未完全展開(kāi)（即還有未探索的行動(dòng)）的節(jié)點(diǎn)。

2）擴(kuò)展：在選擇的節(jié)點(diǎn)上添加一個(gè)或多個(gè)子節(jié)點(diǎn)，這些子節(jié)點(diǎn)代表了可能的下一步行動(dòng)。這涉及到游戲狀態(tài)的更新，將游戲向前推進(jìn)到一個(gè)新的狀態(tài)。

3）模擬：從新添加的節(jié)點(diǎn)開(kāi)始，進(jìn)行蒙特卡洛模擬，直到游戲結(jié)束或達(dá)到預(yù)定的模擬深度。這個(gè)過(guò)程不需要完美信息，可以使用隨機(jī)策略來(lái)選擇行動(dòng)。

4）反向傳播：將模擬的結(jié)果（比如輸贏或得分）更新到所訪(fǎng)問(wèn)路徑上的所有節(jié)點(diǎn)。如果模擬結(jié)果是勝利，則增加沿途節(jié)點(diǎn)的勝利次數(shù)；如果是失敗，則相應(yīng)地更新失敗的統(tǒng)計(jì)數(shù)據(jù)。

1.3 關(guān)鍵特點(diǎn)

1）自適應(yīng)搜索：MCTS能夠根據(jù)之前的搜索結(jié)果自適應(yīng)地搜索那些更有希望的區(qū)域。

2）無(wú)啟發(fā)式：與某些其他搜索算法不同，MCTS不需要領(lǐng)域特定的啟發(fā)式評(píng)估函數(shù)。

3）并行化：模擬步驟可以獨(dú)立進(jìn)行，因此MCTS很容易并行化，這使得它在多核處理器上特別有效。

1.4 Beam Search、Lookahead Search、MCTS對(duì)比

Beam Search：一種啟發(fā)式的圖搜索算法，常用于機(jī)器翻譯、語(yǔ)音識(shí)別等領(lǐng)域的解碼過(guò)程。它在每一步都從當(dāng)前節(jié)點(diǎn)擴(kuò)展出一定數(shù)量（beam width）的最有前途的子節(jié)點(diǎn)，而不是搜索所有可能的子節(jié)點(diǎn)，從而減少了搜索空間。

Beam Search的優(yōu)點(diǎn)是計(jì)算效率高，但缺點(diǎn)是可能會(huì)錯(cuò)過(guò)一些不那么顯而易見(jiàn)但最終可能更優(yōu)的路徑。

Lookahead Search：一種在Beam Search基礎(chǔ)上的擴(kuò)展，它在搜索時(shí)不僅考慮當(dāng)前步驟的最優(yōu)解，還會(huì)向前看多步，考慮未來(lái)的可能性。這種搜索策略可以幫助算法做出更長(zhǎng)遠(yuǎn)的決策，但計(jì)算成本也會(huì)隨之增加。

Lookahead Search的關(guān)鍵在于它嘗試預(yù)測(cè)并評(píng)估不同的決策路徑，從而選擇最優(yōu)的行動(dòng)方案。

MCTS：一種用于某些類(lèi)型決策過(guò)程的啟發(fā)式搜索算法，它結(jié)合了隨機(jī)模擬和決策樹(shù)搜索。MCTS通過(guò)多次模擬來(lái)評(píng)估不同的決策路徑，并根據(jù)這些模擬的結(jié)果來(lái)選擇最優(yōu)的行動(dòng)。

MCTS特別適用于雙人零和游戲，如圍棋、國(guó)際象棋等，它通過(guò)構(gòu)建整個(gè)樹(shù)來(lái)探索所有可能的行動(dòng)路徑，并通過(guò)模擬來(lái)評(píng)估這些路徑。

2. Bootstrap

這是一種重采樣技術(shù)，用于從原始數(shù)據(jù)集中生成新的樣本集，以此來(lái)估計(jì)一個(gè)統(tǒng)計(jì)量（如均值、方差等）的分布。通過(guò)這種方法，可以不需要對(duì)總體分布做出任何假設(shè)，就能夠估計(jì)出模型參數(shù)的不確定性和穩(wěn)定性。

Bootstrap方法的步驟通常包括：從原始數(shù)據(jù)集中隨機(jī)抽取樣本，允許重復(fù)抽樣（即有放回抽樣）；根據(jù)抽取的樣本計(jì)算所需的統(tǒng)計(jì)量；重復(fù)上述過(guò)程多次（通常是數(shù)千次），以獲得統(tǒng)計(jì)量的分布；使用這個(gè)分布來(lái)估計(jì)原始統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤差、置信區(qū)間或其他特征。

在機(jī)器學(xué)習(xí)領(lǐng)域，Bootstrap方法可以用來(lái)提高模型的泛化能力和魯棒性。例如，通過(guò)Bootstrap抽樣可以創(chuàng)建多個(gè)不同的訓(xùn)練集，然后用這些訓(xùn)練集來(lái)訓(xùn)練多個(gè)模型。這些模型可以結(jié)合起來(lái)，形成一個(gè)集成模型，如隨機(jī)森林或Bagging模型，以此來(lái)減少過(guò)擬合和提高模型的預(yù)測(cè)準(zhǔn)確性。

3. PPO

PPO（Proximal Policy Optimization，近端策略?xún)?yōu)化）是一種在強(qiáng)化學(xué)習(xí)領(lǐng)域廣泛使用的算法，它屬于策略梯度方法的一種。PPO算法的核心思想是在每次更新策略時(shí)，限制新策略與舊策略之間的差異，以保持訓(xùn)練過(guò)程的穩(wěn)定性。

PPO算法有兩個(gè)主要變體：PPO-Penalty和PPO-Clip。PPO-Penalty通過(guò)在目標(biāo)函數(shù)中添加一個(gè)懲罰項(xiàng)來(lái)近似解決一個(gè)KL散度約束的更新問(wèn)題，而PPO-Clip則不直接使用KL散度項(xiàng)，而是通過(guò)目標(biāo)函數(shù)中的裁剪操作來(lái)限制新舊策略之間的差異。

PPO算法的實(shí)現(xiàn)步驟通常包括：

1）初始化策略網(wǎng)絡(luò)參數(shù)。

2）通過(guò)與環(huán)境交互收集數(shù)據(jù)。

3）計(jì)算優(yōu)勢(shì)函數(shù)，用于評(píng)價(jià)動(dòng)作的好壞。

4）使用裁剪的目標(biāo)函數(shù)或懲罰項(xiàng)來(lái)更新策略網(wǎng)絡(luò)參數(shù)。

5）重復(fù)以上步驟，直到策略收斂。

PPO算法的優(yōu)點(diǎn)包括穩(wěn)定性、適用性和可擴(kuò)展性。它適用于離散和連續(xù)動(dòng)作空間的環(huán)境，并且可以通過(guò)并行化來(lái)提高訓(xùn)練效率。PPO算法在游戲、機(jī)器人控制、自動(dòng)駕駛等領(lǐng)域都有廣泛的應(yīng)用。

4. 激活學(xué)習(xí)

激活學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法，其核心思想是選擇最有價(jià)值的數(shù)據(jù)進(jìn)行標(biāo)注和學(xué)習(xí)，從而提高學(xué)習(xí)效率和模型性能。

通常用于以下場(chǎng)景：數(shù)據(jù)標(biāo)注成本高、數(shù)據(jù)集規(guī)模龐大、模型性能提升空間有限。

包括以下幾個(gè)步驟：選擇標(biāo)注策略、選擇標(biāo)注數(shù)據(jù)、標(biāo)注數(shù)據(jù)、訓(xùn)練模型、迭代優(yōu)化。

在許多領(lǐng)域都有廣泛應(yīng)用，例如圖像識(shí)別、自然語(yǔ)言處理、推薦系統(tǒng)。

參考資料：

Open AI官網(wǎng)：

1、https://openai.com/index/introducing-openai-o1-preview/

2、https://openai.com/index/learning-to-reason-with-llms/

3、https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/#model-speed

OpenAI o1、核心成員官推：OpenAI 官推、CEO Sam Altman、總裁&聯(lián)創(chuàng)Greg Brockman、COT 作者Jason Wei、模型核心成員Noam Brown、Hyung Won Chung、Ahmed El-Kishky、Ren HongYu、ShenJia Zhao

公眾號(hào)：海外獨(dú)角獸、 FudanNLP、機(jī)器之心、量子位、數(shù)字生命卡茲克、 AI Pioneer、 AI產(chǎn)品黃叔、人工智能與算法學(xué)習(xí)、AINLP、騰訊科技、 GitChat、AI科技大本營(yíng)、智能涌現(xiàn)、PaperWeekly、硅谷科技評(píng)論、卜寒兮AI、zartbot、投資實(shí)習(xí)所、AI的潛意識(shí)、夕小瑤科技說(shuō)

作者：AIPM1001 ，公眾號(hào)：AIPM1001

本文由 @AIPM1001 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載

題圖來(lái)自Unsplash，基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App