全網(wǎng)最全 OpenAI o1 萬(wàn)字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

0 評(píng)論 6084 瀏覽 18 收藏 67 分鐘

前段時(shí)間 OpenAI 發(fā)布了針對(duì)復(fù)雜推理問(wèn)題的大模型——o1,也就是草莓模型。這款大模型一經(jīng)發(fā)布就引起巨大的關(guān)注,但基本上都是關(guān)于使用和測(cè)評(píng)的。這篇文章,我們就來(lái)看看,o1模型的背后,其創(chuàng)新、原理分別是什么。

60s速讀

  • 簡(jiǎn)介:o1是OpenAI 9月12日發(fā)布的針對(duì)復(fù)雜推理問(wèn)題的全新大模型,也就是Sam一直說(shuō)的“草莓”。該模型在回答問(wèn)題之前能夠進(jìn)行更長(zhǎng)時(shí)間的“思考”,且思考時(shí)間越長(zhǎng),推理質(zhì)量越高。
  • 原理:基于強(qiáng)化學(xué)習(xí)的內(nèi)化思維鏈學(xué)習(xí),通過(guò)思維鏈?zhǔn)降膯?wèn)題拆解,模型可以不斷驗(yàn)證和糾錯(cuò)。
  • 表現(xiàn):o1模型在編程、數(shù)學(xué)、物理和化學(xué)博士級(jí)問(wèn)題等任務(wù)上提升顯著,但在寫(xiě)作等任務(wù)上表現(xiàn)不如GPT4o。
  • 構(gòu)成:o1系列包括o1、o1-preview和o1-mini。o1暫未公開(kāi),o1-preiview 付費(fèi)用戶(hù)和API用戶(hù)已經(jīng)可以使用。o1-mini 速度更快、性?xún)r(jià)比更高。
  • 影響:新的Scaling Laws已經(jīng)出現(xiàn)。
  • Ilya 一句話(huà)概括強(qiáng)化學(xué)習(xí):讓 AI 用隨機(jī)的路徑嘗試新的任務(wù),如果效果超預(yù)期,那就更新神經(jīng)網(wǎng)絡(luò)的權(quán)重,使得 AI 記住多使用這個(gè)成功的事件,再開(kāi)始下一次的嘗試。
  • Self-play:本質(zhì)是利用 AI 無(wú)限的計(jì)算能力來(lái)補(bǔ)足它數(shù)據(jù)利用效率不夠的短板。
  • Critic Model:通過(guò)將推理過(guò)程進(jìn)行過(guò)程分解,并且利用額外的更強(qiáng)更專(zhuān)項(xiàng)的Critic Model,可以將推理過(guò)程的監(jiān)督擴(kuò)展到更復(fù)雜的問(wèn)題上。
  • 技術(shù)路線(xiàn)猜想:1. MCTS搜索;2. PRM僅在答案不可接受時(shí)進(jìn)行MCTS搜索,或者用的是更節(jié)約的Beam Search;3. 迭代式的Bootstrap模型產(chǎn)生合理推理的能力,并將 Rationales 融入到訓(xùn)練過(guò)程內(nèi),讓模型學(xué)會(huì)進(jìn)行推理,類(lèi)似于STaR的擴(kuò)展版本。
  • 逆向工程:由合成數(shù)據(jù)生成器、獎(jiǎng)勵(lì)函數(shù)、策略?xún)?yōu)化器等模塊構(gòu)成。
  • 相關(guān)論文:Let’s Verify Step by Step、STaR、rStar、Quiet-STaR。
  • 團(tuán)隊(duì):o1 的21個(gè) Foundational 貢獻(xiàn)者呈現(xiàn)出了高學(xué)歷、高包容性、多元化的特點(diǎn):華人占比6/21,博士為主,但也有人有專(zhuān)科經(jīng)歷。
  • Github o1相關(guān)資料匯總:https://github.com/hijkzzz/Awesome-LLM-Strawberry

一、背景:OpenAI為什么現(xiàn)在發(fā)布新模型o1?

雖然OpenAI 2024年 年化營(yíng)收預(yù)計(jì)將從前一年的20億美元大幅增長(zhǎng)至約35億美元,但仍無(wú)法覆蓋其90億的推理、訓(xùn)練成本。

目前來(lái)說(shuō),OpenAI訂閱的商業(yè)模式很難稱(chēng)得上是一個(gè)好的變現(xiàn)手段,更無(wú)法與廣告這一互聯(lián)網(wǎng)時(shí)代最佳商業(yè)模式相提并論。

(OpenAI營(yíng)收變化趨勢(shì),來(lái)源:tooltester)

在營(yíng)收構(gòu)成上,C端用戶(hù)訂閱、企業(yè)用戶(hù)、API和ChatGPT Team業(yè)務(wù)分別占營(yíng)收的55%、21%、15%和8%。

(OpenAI營(yíng)收構(gòu)成,來(lái)源:tooltester)

據(jù)The Information測(cè)算,在一年虧損50億美元的情況下,OpenAI的現(xiàn)金流可能在未來(lái)一年內(nèi)耗盡。因此,繼續(xù)融資成為了OpenAI必然的選擇。據(jù)彭博社消息,OpenAI目前正在商談以1500億美元的估值融資65億,這一估值遠(yuǎn)高于去年10月時(shí)的860億美元。

除此之外,首席科學(xué)家Ilya等核心人才出走,流量增長(zhǎng)放緩,Sora“期貨”遲遲未兌現(xiàn),GPT-5不停跳票,大語(yǔ)言模型預(yù)訓(xùn)練Scaling Law的邊際效益遞減,增長(zhǎng)空間被質(zhì)疑……在OpenAI發(fā)布o(jì)1模型之前,由ChatGPT發(fā)布引領(lǐng)的大模型革命陷入了前所未有的低谷。

與此同時(shí),OpenAI的主要競(jìng)爭(zhēng)對(duì)手之一Anthropic ,從落后于 OpenAI 18 個(gè)月,在o1發(fā)布前已經(jīng)在模型層面追平,甚至有微弱的領(lǐng)先優(yōu)勢(shì)了。Anthropic 6月發(fā)布的 Claude-3.5-Sonnet ,支持寫(xiě)200行可靠的代碼,遠(yuǎn)超4o的20 行。

如下圖所示,OpenAI自2022年11月ChatGPT發(fā)布以來(lái)的流量增長(zhǎng)已經(jīng)幾乎停滯。

(ChatGPT訪(fǎng)問(wèn)量變化趨勢(shì),來(lái)源:tooltester)

與此相對(duì)應(yīng)的,一二級(jí)市場(chǎng)的AI熱潮正在持續(xù)降溫。

一級(jí)市場(chǎng)方面,VC資金對(duì)AI初創(chuàng)公司投資占比在持續(xù)上升,占比接近30%,但是在金額上已經(jīng)回落到2020年的水平,降幅明顯。

(VC對(duì)AI初創(chuàng)公司的投資金額和占比,來(lái)源:硅谷科技評(píng)論)

二級(jí)市場(chǎng)上,投資者的AI抱團(tuán)追漲行情開(kāi)始有了瓦解的跡象,以英偉達(dá)等公司為代表的美股AGIX指數(shù)從高點(diǎn)開(kāi)始回落,幾乎回到了半年前的水平。

(AGI指數(shù),來(lái)源:海外獨(dú)角獸)

在這樣的背景下,通過(guò)全新的大模型o1給投資人“畫(huà)餅”成為了OpenAI絕佳的選擇。

二、現(xiàn)象:o1模型的超強(qiáng)推理能力

1. OpenAI的模型迭代史

作為OpenAI在2023年GPT4發(fā)布以來(lái)最重要的模型更新,o1在數(shù)學(xué)、代碼等方面推理能力顯著提升。

(OpenAI的主要大模型及其發(fā)布時(shí)間,來(lái)源:tooltester)

2. 數(shù)據(jù):o1在STEM領(lǐng)域表現(xiàn)出色,特別是在數(shù)學(xué)和編程方面

2.1 數(shù)學(xué)方面,在2024年的AIME(一個(gè)旨在挑戰(zhàn)美國(guó)最聰明高中生的考試)測(cè)評(píng)中,GPT-4o只解決了13%的問(wèn)題,o1的得分是83%。

2.2 編碼方面,GPT-4o在競(jìng)爭(zhēng)性編程問(wèn)題(Codeforces)上的得分是11%,o1 是89%。

2.3 在博士級(jí)別的科學(xué)問(wèn)題(GPQA Diamond),GPT4o是56.1%,o1則超越人類(lèi)博士69.7%,達(dá)到了恐怖的78%。

(o1與gpt4o的對(duì)比,來(lái)源:OpenAI官網(wǎng))

2.4 在啟用視覺(jué)感知功能時(shí),多模態(tài)o1在MMMU上得分為78.2%,成為第一個(gè)與人類(lèi)專(zhuān)家競(jìng)爭(zhēng)的模型。在博士級(jí)別的科學(xué)問(wèn)題上,特別是物理和化學(xué)領(lǐng)域,o1更是大幅領(lǐng)先人類(lèi)博士。

2.5 在IOI(國(guó)際信息學(xué)奧林匹克競(jìng)賽)中在每題 50 次提交的條件下取得了第 49%/213分。在每題10,000次提交的情況下,該模型的得分達(dá)到了362,超過(guò)了金牌門(mén)檻。

(o1與gpt4o的對(duì)比,來(lái)源:OpenAI官網(wǎng))

2.6 安全性

衡量安全性的一種方法是測(cè)試模型在用戶(hù)試圖繞過(guò)安全規(guī)則時(shí)(稱(chēng)為“越獄”)是否繼續(xù)遵守這些規(guī)則。在最困難的越獄測(cè)試中,GPT-4o 得分為 22/100,而o1-preview 模型得分為 84/100。

2.7 不足

通用人工智能的核心是通用和泛化性,但o1在寫(xiě)作、文字編輯等一些簡(jiǎn)單的自然語(yǔ)言處理任 務(wù)上并沒(méi)有顯著提升,這意味著o1的適用范圍有一定的局限性。

3. 創(chuàng)新:self-play RL+內(nèi)化COT

作為首個(gè)通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)算法訓(xùn)練的模型,o1能夠在回答之前深入思考問(wèn)題。o1不再需要由用戶(hù)輸入復(fù)雜的COT提示詞,而是通過(guò)強(qiáng)化學(xué)習(xí)的方式,將思維鏈內(nèi)化之后進(jìn)行持續(xù)訓(xùn)練。

通過(guò)思維鏈?zhǔn)降膯?wèn)題拆解,模型可以不斷驗(yàn)證、糾錯(cuò),嘗試新的方法,這一過(guò)程顯著提升了模型的推理能力。

o1的性能隨著更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時(shí)間計(jì)算)和更多的思考時(shí)間(測(cè)試時(shí)間計(jì)算)而持續(xù)提高。

(o1 性能隨著訓(xùn)練時(shí)間和測(cè)試時(shí)間計(jì)算而平穩(wěn)提升,來(lái)源:OpenAI官網(wǎng))

通過(guò)強(qiáng)化學(xué)習(xí)+內(nèi)化思維鏈的方式,o1不僅在量化的推理指標(biāo)上有了顯著提升,在定性的推理可解釋性上也有了明顯的改善??尚诺乃季S鏈?zhǔn)鼓P妥兊每山忉專(zhuān)層脩?hù)可以用簡(jiǎn)單的英語(yǔ)“讀懂模型的思維。

內(nèi)化的思維鏈為監(jiān)控模型提供了獨(dú)特的機(jī)會(huì)。假設(shè)它是忠實(shí)且清晰的,內(nèi)化的思維鏈允許OpenAI“讀取”模型的思考過(guò)程。未來(lái)OpenAI可能希望監(jiān)控思維鏈?zhǔn)欠裼胁倏赜脩?hù)的跡象。為了實(shí)現(xiàn)這一目標(biāo),模型必須能夠以未經(jīng)修改的形式表達(dá)其思想,因此OpenAI不能在思維鏈上訓(xùn)練任何政策合規(guī)性或用戶(hù)偏好。

4. 通俗的理解:系統(tǒng)1與系統(tǒng)2

可以這樣理解,模型進(jìn)行的是系統(tǒng)1思維,而思維鏈則解鎖了系統(tǒng)2思維。

眾所周知,通過(guò)提示模型“逐步思考”可以提升大模型的性能。而通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練,逐步拆解問(wèn)題并從頭到尾持續(xù)試錯(cuò),將會(huì)進(jìn)一步大幅提升大模型的性能。正如我們之前在圍棋方面的AlphGo以及其它游戲方面的算法模型上所看到的。

系統(tǒng)1與系統(tǒng)2來(lái)自諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼的《思考,快與慢》,其核心觀點(diǎn)包括:

系統(tǒng) 1:快速、直觀、自動(dòng)的思維方式。

這種思維模式通常是無(wú)意識(shí)的,依賴(lài)于直覺(jué)和經(jīng)驗(yàn),能迅速做出反應(yīng)。例如,看到一個(gè)熟悉的面孔時(shí),我們幾乎無(wú)需思考便能認(rèn)出它。

系統(tǒng) 2:慢速、深思熟慮、邏輯性的思維方式。

這種思維模式需要有意識(shí)的努力和思考,用于解決復(fù)雜問(wèn)題或做出深思熟慮的決策。例如,解決數(shù)學(xué)題或計(jì)劃長(zhǎng)期目標(biāo)時(shí),我們會(huì)調(diào)動(dòng)系統(tǒng) 2 的思維。

(系統(tǒng)1與系統(tǒng)2的對(duì)比,來(lái)源:簡(jiǎn)書(shū))

5. 案例

案例網(wǎng)上很多,這里只簡(jiǎn)單提下“草莓”這個(gè)最經(jīng)典的案例。

草莓的梗最初是因?yàn)槿藗儨y(cè)試GPT系列的時(shí)候,發(fā)現(xiàn)了模型無(wú)法數(shù)對(duì)草莓這個(gè)單詞里面的r的數(shù)量。而OpenAI的新模型可以通過(guò)self-play的方式提升模型Reasoning的能力,從而數(shù)對(duì)r的數(shù)量。于是這個(gè)名叫草莓的模型就開(kāi)始在網(wǎng)上不斷發(fā)酵,并在Sam各種有意無(wú)意的暗示中升溫。

6. 業(yè)界關(guān)于o1模型的正負(fù)面觀點(diǎn)

6.1 正面觀點(diǎn)

Jason Wei,OpenAI研究員,COT作者:

“通過(guò)將復(fù)雜步驟分解為更簡(jiǎn)單的步驟、識(shí)別和糾正錯(cuò)誤,以及嘗試不同的方法,o1 的表現(xiàn)完全令人驚嘆,游戲規(guī)則已經(jīng)被徹底重新定義?!?/p>

楊植麟,Kimi創(chuàng)始人:

“規(guī)模定律之后,大模型發(fā)展的下一個(gè)范式是強(qiáng)化學(xué)習(xí)。對(duì)于通用智能AGI來(lái)講,可能會(huì)有三個(gè)層面:最底層是規(guī)模化定律,這是第一個(gè)層次的創(chuàng)新機(jī)會(huì),它被OpenAI發(fā)現(xiàn),并且做到極致。第二個(gè)層次的創(chuàng)新機(jī)會(huì),就是Scaling law框架下有一些問(wèn)題沒(méi)有解決,比如怎么把所有的模態(tài)用統(tǒng)一的表示放到同一個(gè)模型里面去?這是第二個(gè)層次的挑戰(zhàn)。第三層次的問(wèn)題,比如能夠去做更長(zhǎng)的上下文,能夠有更強(qiáng)的 reasoning 或者 instruction-following 。

決定這一代AI技術(shù)的上限,核心是文本模型能力的上限,如果文本模型能持續(xù)提升智商,就能做越來(lái)越復(fù)雜的任務(wù)。AI產(chǎn)品的能力由模型能力的決定,這和互聯(lián)網(wǎng)時(shí)代有本質(zhì)不同,模型能力不強(qiáng),產(chǎn)品體驗(yàn)就不會(huì)好。AI時(shí)代的超級(jí)應(yīng)用,大概率會(huì)是一個(gè)AI助理。這一代AI最大的變量,還是在生產(chǎn)力端。現(xiàn)在社會(huì)里面每一單位的生產(chǎn)力可能都會(huì)有十倍提升的機(jī)會(huì)。”

肖仰華,復(fù)旦計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、博導(dǎo):

“o1模型的出現(xiàn)意味著大模型的推理能力完全能夠達(dá)到專(zhuān)家級(jí)水平,算得上是人工智能里程碑式的進(jìn)展,將給模型在企業(yè)端的應(yīng)用帶來(lái)極大的提升。但隨著模型在知性、感性和理性三方面的能力均不斷提升后,其將超越人類(lèi)的能力,未來(lái)人工智能將對(duì)人類(lèi)產(chǎn)生何種影響還很難預(yù)測(cè),人工智能的發(fā)展速度現(xiàn)在超過(guò)了人類(lèi)對(duì)其認(rèn)知的速度,人工智能治理將是一個(gè)巨大挑戰(zhàn)。

大規(guī)模強(qiáng)化學(xué)習(xí)算法教會(huì)模型如何在訓(xùn)練過(guò)程中有效使用其思維鏈進(jìn)行思考,o1模型可以在回應(yīng)用戶(hù)之前產(chǎn)生一個(gè)很長(zhǎng)的內(nèi)部思維鏈。以前的大語(yǔ)言模型更像一個(gè)文科生,距離理科生的水平仍然較遠(yuǎn)。但人類(lèi)智能的核心能力是思考和思維,OpenAI新推理模型o1系列將人的思維過(guò)程展現(xiàn)出來(lái)。

我們發(fā)現(xiàn)o1的表現(xiàn)超過(guò)了一些人類(lèi)專(zhuān)家,成為第一個(gè)在這個(gè)基準(zhǔn)上做到這一點(diǎn)的模型。這些結(jié)果并不意味著o1在所有方面都比博士更有能力,只是模型在解決博士需要解決的一些問(wèn)題方面更熟練。人類(lèi)目前對(duì)人工智能基本認(rèn)知框架都有所欠缺,這是一個(gè)巨大的治理挑戰(zhàn),就業(yè)、經(jīng)濟(jì)、倫理、社會(huì)關(guān)系等話(huà)題將引起廣泛討論?!?/p>

6.2 負(fù)面觀點(diǎn)

復(fù)旦NLP實(shí)驗(yàn)室:

“博士級(jí)”模型GPT-o1折戟中學(xué)數(shù)學(xué)“陷阱”問(wèn)題,準(zhǔn)確率僅為24.3%

我們的最新研究結(jié)果卻給這個(gè)”AI天才”潑了一盆冷水——在面對(duì)中學(xué)數(shù)學(xué)水平的”陷阱”問(wèn)題時(shí),GPT-o1慘遭滑鐵盧:在我們最新的中學(xué)陷阱問(wèn)題測(cè)試集MathTrap_Public上,調(diào)用GPT-o1-preview官方API后生成的回答準(zhǔn)確率僅為24.3% 。

我們?cè)?GSM8K 和 MATH 數(shù)據(jù)集問(wèn)題的基礎(chǔ)上,加入了一些“陷阱”,構(gòu)造了 MathTrap 數(shù)據(jù)集。這些改編后的題目很多時(shí)候沒(méi)有定義明確的答案或者無(wú)解,只有能夠同時(shí)理解原題和“陷阱”所涉及知識(shí)的模型,才能找出其中的矛盾點(diǎn),發(fā)現(xiàn)“陷阱”所在。

因此,單靠“刷榜”來(lái)提高在 GSM8K 和 MATH 上的成績(jī),是沒(méi)辦法在 MathTrap 上取得好成績(jī)的,因?yàn)檫@些模型缺乏質(zhì)疑題目條件的能力。

相關(guān)研究:Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning Through Trap Problems

論文鏈接:https://arxiv.org/pdf/2405.06680

7. 如何使用

7.1 ChatGPT付費(fèi)用戶(hù)

ChatGPT Plus和Team用戶(hù)從9月12日可以開(kāi)始在ChatGPT中訪(fǎng)問(wèn)o1模型。o1-preview和o1-mini可以在模型選擇器中手動(dòng)選擇,o1-preview的每周消息限制為50條,o1-mini 為每天50條。ChatGPT Enterprise 和 Edu 用戶(hù)將在下周開(kāi)始訪(fǎng)問(wèn)這兩個(gè)模型。

符合 API 使用等級(jí) 5 的開(kāi)發(fā)者可以立即開(kāi)始在 API 中使用這兩個(gè)模型,限制為每分鐘 20 次請(qǐng)求。OpenAI還計(jì)劃將 o1-mini 的訪(fǎng)問(wèn)權(quán)限擴(kuò)展到所有 ChatGPT 免費(fèi)用戶(hù)。

詳見(jiàn)https://openai.com/index/introducing-openai-o1-preview/

7.2 非ChatGPT付費(fèi)用戶(hù)

Cursor已經(jīng)支持了最新的o1模型,沒(méi)有ChatGPT會(huì)員權(quán)限的可以通過(guò)這個(gè)產(chǎn)品進(jìn)行體驗(yàn)。

8. 影響和意義

8.1 對(duì)大模型行業(yè)的影響

新的Scaling Laws —— Post-Training Scaling Laws(后訓(xùn)練擴(kuò)展定律)已經(jīng)出現(xiàn),并可能引發(fā)行業(yè)對(duì)于算力分配、后訓(xùn)練能力的重新思考。

o1 模型的發(fā)布,意味著 AI 能力的提升不再局限于預(yù)訓(xùn)練階段,還可以通過(guò)在 Post-Training 階段中提升 RL 訓(xùn)練的探索時(shí)間和增加模型推理思考時(shí)間來(lái)實(shí)現(xiàn)性能提升,即 Post-Training Scaling Laws。

數(shù)據(jù)飛輪 + Bootstrap -> SuperIntelligence : 基于自我反思的模型將能夠?qū)崿F(xiàn)自舉 Bootstrap,并提升大大提升模型對(duì)于未見(jiàn)過(guò)的復(fù)雜問(wèn)題的解決能力,模型的推理過(guò)程形成大量高質(zhì)量數(shù)據(jù)的飛輪,并最終有可能向 SuperIntelligence 更進(jìn)一步。

8.2 AI能力的等級(jí)躍遷

AI開(kāi)始具備推理能力,且復(fù)雜問(wèn)題的解決能力可以與人類(lèi)相媲美,這意味著AI從僅能利用工具和規(guī)則的 Level 1 水平開(kāi)始進(jìn)化到了 Level 2 的階段,并向第3階段開(kāi)始探索。

(5 Levels Of AI Agents,來(lái)源:cobusgreyling)

8.3 對(duì)從業(yè)人員的影響

1)AI產(chǎn)品經(jīng)理的危與機(jī)

危:一方面,隨著o1將思維鏈內(nèi)化進(jìn)模型,大幅降低了提示詞工程的難度。這意味著AI產(chǎn)品經(jīng)理未來(lái)大概率不再需要設(shè)計(jì)復(fù)雜的提示詞,剛剛興起1年多的“提示詞工程師”崗位風(fēng)雨飄搖,AI產(chǎn)品經(jīng)理也同樣將因此受到很大的沖擊。

之前解決復(fù)雜問(wèn)題,需要人寫(xiě)非常復(fù)雜的Prompt,而o1本質(zhì)上是COT等復(fù)雜Prompt的自動(dòng)化,所以之后是不需要用戶(hù)自己構(gòu)造復(fù)雜Prompt的。

機(jī):另一方面,隨著o1代碼能力的大幅提升,代碼編寫(xiě)的門(mén)檻得到了一定程度的降低,AI產(chǎn)品經(jīng)理有機(jī)會(huì)設(shè)計(jì)、開(kāi)發(fā)、上線(xiàn)一條龍完成,大大提升AI產(chǎn)品MVP迭代的效率。

2)工程

雖然AI取代工程開(kāi)發(fā)還言之尚早,但大模型在短時(shí)間內(nèi)的進(jìn)步之大還是讓人震驚,初級(jí)開(kāi)發(fā)的門(mén)檻與AI越來(lái)越模糊。也許在不遠(yuǎn)的將來(lái),英文就將成為最流行的編程語(yǔ)言。

而短期來(lái)說(shuō),工程開(kāi)發(fā)的效率有望借助o1模型和Cursor等工具產(chǎn)品進(jìn)一步提升。

3)算法

雖然強(qiáng)化學(xué)習(xí)算法在InstructGPT的論文中就已經(jīng)被提及,但之前更多是作為RLHF基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)的視角進(jìn)行切入,很少作為單獨(dú)的方向被重點(diǎn)提出。

o1模型發(fā)布后,強(qiáng)化學(xué)習(xí)的重要性大大提高,其在大模型領(lǐng)域的應(yīng)用有望成為接下來(lái)一段時(shí)間國(guó)內(nèi)大模型公司混戰(zhàn)的新焦點(diǎn)。

三、背后:技術(shù)原理與相關(guān)論文

1. 基礎(chǔ)知識(shí)

1.1 強(qiáng)化學(xué)習(xí)

機(jī)器學(xué)習(xí)算法主要分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三類(lèi)。無(wú)監(jiān)督學(xué)習(xí)相當(dāng)于學(xué)生自學(xué),沒(méi)有任何老師指導(dǎo),完全依靠學(xué)生自己琢磨;監(jiān)督學(xué)習(xí)相當(dāng)于有老師指導(dǎo),有明確對(duì)錯(cuò)的學(xué)習(xí);強(qiáng)化學(xué)習(xí)則是做對(duì)題目有獎(jiǎng)勵(lì),做錯(cuò)題目有懲罰的學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是一種基于反饋的學(xué)習(xí)方法,對(duì)算法執(zhí)行的正確和不正確行為分別進(jìn)行獎(jiǎng)勵(lì)和懲罰的制度,目的是使算法獲得最大的累積獎(jiǎng)勵(lì),從而學(xué)會(huì)在特定環(huán)境下做出最佳決策?!皬?qiáng)化”一詞來(lái)自于心理學(xué),心理學(xué)中的“強(qiáng)化”就是通過(guò)提供一種刺激手段來(lái)建立或者鼓勵(lì)一種行為模式。這種“強(qiáng)化”具體分為兩種:

積極強(qiáng)化,是指在預(yù)期行為呈現(xiàn)后,通過(guò)給予激勵(lì)刺激以增加進(jìn)一步導(dǎo)致積極反應(yīng)。

負(fù)面強(qiáng)化,通過(guò)提供適當(dāng)?shù)拇碳?lái)減少出現(xiàn)負(fù)面(不希望的)反應(yīng)的可能性,從而糾正不希望出現(xiàn)的行為。

想象一下,當(dāng)你第一次自己玩超級(jí)馬里奧,你需要在游戲中不斷探索環(huán)境和重要的NPC,一個(gè)錯(cuò)誤的舉動(dòng)會(huì)導(dǎo)致失去一條“命”,一個(gè)正確的跳躍可以把我們帶到一個(gè)更安全的地方獲得金幣獎(jiǎng)勵(lì)!在n次獎(jiǎng)勵(lì)和懲罰的探索之后,你對(duì)于馬里奧游戲的熟練程度越來(lái)越高,操作的正確性大大提升,最終成為一個(gè)該游戲的高手。

1.2 Self-play

Self-play 是 AlphaZero 等強(qiáng)化學(xué)習(xí)算法的合成數(shù)據(jù)方法,最早可以追溯到 1992 年的 TD-Gammon 算法,其本質(zhì)是利用 AI 無(wú)限的計(jì)算能力來(lái)補(bǔ)足它數(shù)據(jù)利用效率不夠的短板。

以 AlphaZero 為例,在每一局對(duì)弈中,模型使用蒙特卡洛樹(shù)搜索(Monte Carlo Tree Search,MCTS)來(lái)選擇動(dòng)作。MCTS 結(jié)合了當(dāng)前神經(jīng)網(wǎng)絡(luò)提供的策略(policy)和價(jià)值(value),從而在每個(gè)游戲狀態(tài)下評(píng)估出最優(yōu)的行動(dòng)。其具體步驟如下:

1) 隨機(jī)初始化:模型從完全隨機(jī)初始化的狀態(tài)開(kāi)始,沒(méi)有任何人類(lèi)先驗(yàn)知識(shí)。

2) self-play:模型自己與自己進(jìn)行對(duì)弈,生成大量的游戲數(shù)據(jù)。其中好的結(jié)果用于更新模型的參數(shù)。

3) MCTS:在每一次對(duì)弈中,AlphaZero 會(huì)使用 MCTS 來(lái)搜索最佳動(dòng)作。MCTS 使用策略網(wǎng)絡(luò) (policy network) 提供的動(dòng)作概率分布和價(jià)值網(wǎng)絡(luò)提供的局面評(píng)估結(jié)果來(lái)引導(dǎo)搜索。

4) 策略更新:根據(jù)自我對(duì)弈的結(jié)果,使用強(qiáng)化學(xué)習(xí)的方式來(lái)更新神經(jīng)網(wǎng)絡(luò)的參數(shù),使得模型逐步學(xué)習(xí)到更優(yōu)的策略

1.3 Self-play強(qiáng)化學(xué)習(xí)、RLHF

早在2018 年,Ilya Sutskever就認(rèn)為強(qiáng)化學(xué)習(xí)與 self-play 是通往 AGI 路上最關(guān)鍵的方法之一。Ilya 用一句話(huà)概括了強(qiáng)化學(xué)習(xí):讓 AI 用隨機(jī)的路徑嘗試新的任務(wù),如果效果超預(yù)期,那就更新神經(jīng)網(wǎng)絡(luò)的權(quán)重,使得 AI 記住多使用這個(gè)成功的事件,再開(kāi)始下一次的嘗試。

1)傳統(tǒng)強(qiáng)化學(xué)習(xí)與self-play的區(qū)別:傳統(tǒng)強(qiáng)化學(xué)習(xí)與今天的 self-play 強(qiáng)化學(xué)習(xí)相比,最大的區(qū)別是強(qiáng)化學(xué)習(xí)算法模型(如AlphaZero)是一個(gè)千萬(wàn)參數(shù)的神經(jīng)網(wǎng)絡(luò),和今天的語(yǔ)言模型相差 3-4 個(gè)數(shù)量級(jí)。

2)Self-play 強(qiáng)化學(xué)習(xí)與RLHF 的區(qū)別:RLHF 的目的不是獲取機(jī)器智能,而是人機(jī)對(duì)齊,使得 AI 能夠更像人,但不能超越人成為超級(jí)智能。簡(jiǎn)單來(lái)說(shuō):RLHF 像人類(lèi)一樣,更喜歡好理解的東西,而不是喜歡邏輯更嚴(yán)密的內(nèi)容。而 self-play 強(qiáng)化學(xué)習(xí)的目標(biāo)是如何提升邏輯能力,絕對(duì)強(qiáng)度更高,甚至超越最強(qiáng)人類(lèi)、專(zhuān)家。

3)RLHF 的核心是通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練語(yǔ)言模型,但由于缺乏獎(jiǎng)勵(lì)函數(shù)這一必要因素,因此需要通過(guò)收集人類(lèi)的反饋來(lái)學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù)。

4)強(qiáng)化學(xué)習(xí)不是一個(gè)模型,而是一整套的系統(tǒng),其中包含了很多因素,第一,強(qiáng)化學(xué)習(xí)包括了智能體,其中的 agent 就是模型。第二,包括了環(huán)境,環(huán)境可能是狗主人的家,也可能是編程環(huán)境,也可能是垂直領(lǐng)域。第三,包括了動(dòng)作,是狗坐下,還是一些其他模態(tài)的輸出。第四,包括了獎(jiǎng)勵(lì)模型,這也很重要。最重要的兩個(gè)因素是環(huán)境和智能體。智能體的目標(biāo)是得到更多獎(jiǎng)勵(lì)。

(強(qiáng)化學(xué)習(xí)構(gòu)成,來(lái)源:海外獨(dú)角獸)

強(qiáng)化學(xué)習(xí)在語(yǔ)言模型中的思路,本質(zhì)上是 inference time 換 training time 。

1.4 為什么 RLHF 的效果優(yōu)于 SFT?

PPO 算法的提出者是Berkeley PhD,OpenAI前研究員 John Schulman,他針對(duì) RLHF PPO 提出了兩個(gè)觀點(diǎn):

第一,SFT 會(huì)導(dǎo)致 hallucination :

John Schulman 認(rèn)為,大型模型之所以會(huì)產(chǎn)生幻覺(jué),是因?yàn)樗鼈冊(cè)?SFT 階段學(xué)到了一些不正確的認(rèn)知。SFT 過(guò)強(qiáng)的監(jiān)督信號(hào)導(dǎo)致人類(lèi)實(shí)際上在引導(dǎo) ChatGPT 說(shuō)它不知道的東西。還有一種可能性,即 GPT 實(shí)際上知道答案,但標(biāo)注人員不知道。

第二,RLHF 讓大模型“知道”自己“確實(shí)不知道”。

RLHF 的過(guò)程不僅幫助模型意識(shí)到不確定性,更重要的事情是 RLHF 幫助模型提高了 reasoning 能力。

只有通過(guò)正向和反向的雙重實(shí)驗(yàn),我們才可以判斷這種藥物對(duì)頭痛有效。如果只有正向的例子,例如說(shuō)患者吃了感冒藥,感冒變好了,并不能證明感冒藥能治好感冒。只能說(shuō)明,感冒藥與患者感冒的好轉(zhuǎn)有一定相關(guān)性。而 RLHF 正是成功利用了負(fù)向數(shù)據(jù),使得模型有機(jī)會(huì)真正掌握因果性。

總結(jié)來(lái)說(shuō),RLHF 有以下優(yōu)勢(shì):

使用 negative signal 進(jìn)行對(duì)比學(xué)習(xí),通過(guò)對(duì)比的過(guò)程可以幫助模型降低 halluciation。?

強(qiáng)化學(xué)習(xí)不是一個(gè)固定的過(guò)程。它允許模型隨著能力的不斷提升,通過(guò)不斷地問(wèn)問(wèn)題、給出答案、評(píng)判,從而讓模型不停地從當(dāng)前能力的邊界進(jìn)行主動(dòng)探索,并不斷拓寬自己的能力邊界。?

這兩個(gè)因素共同作用能夠形成 counter-factual reasoning 的作用,有可能解鎖因果學(xué)習(xí)(casual learning)的巨大潛力,讓模型具備更強(qiáng)的 reasoning 能力。

1.5 PRM與ORM

PRM(Process reward model)是獎(jiǎng)勵(lì)好的推理步驟,而不僅僅是正確的結(jié)果。這更接近人類(lèi)的學(xué)習(xí)和推理方式,實(shí)現(xiàn)方式常常是用 COT 來(lái)表示推理過(guò)程,對(duì)每一步進(jìn)行打分。這是因?yàn)?LLM 的語(yǔ)義理解能力才成為可能的。在傳統(tǒng) RL 中,我們按照最終結(jié)果評(píng)分,其評(píng)分模型稱(chēng)為 ORM(outcome reward model);而通過(guò)專(zhuān)門(mén)訓(xùn)練 LLM 成為 process verifier ,新的評(píng)分模型叫做 PRM,往往是使較小 LLM fine-tune 得到。

OpenAI 的 verify step-by-step 也是最近最重要的 paper 之一。他們訓(xùn)練的 PRM 在解決 MATH 數(shù)據(jù)集測(cè)試集中 78.2%的問(wèn)題時(shí)表現(xiàn)優(yōu)于 ORM。在今年 Google Research 的一篇 paper 中提到,PRM 在過(guò)程中一旦成功發(fā)現(xiàn)第一個(gè)錯(cuò)誤,就能使 RL 訓(xùn)練效果顯著提升。

1.6 Critic Model

隨著任務(wù)復(fù)雜度的提高,僅僅依靠模型的自身推理能力可能無(wú)法提供有效的獎(jiǎng)勵(lì)信號(hào)。這使得對(duì)于模型內(nèi)部的復(fù)雜推理過(guò)程的監(jiān)督變成了一個(gè)可擴(kuò)展監(jiān)督問(wèn)題。

具體來(lái)說(shuō),o1的隱式思維鏈的訓(xùn)練過(guò)程中應(yīng)當(dāng)也引入了Critic的方法。通過(guò)將推理過(guò)程進(jìn)行過(guò)程分解,并且利用額外的更強(qiáng)更專(zhuān)項(xiàng)的Critic Model,可以將推理過(guò)程的監(jiān)督擴(kuò)展到更復(fù)雜的問(wèn)題上。這也一定程度緩解了僅僅是通過(guò)推理過(guò)程能否導(dǎo)出正確結(jié)果的來(lái)確定獎(jiǎng)勵(lì)信號(hào)的稀疏問(wèn)題。

OpenAI的CriticGPT通過(guò)RLHF方法訓(xùn)練模型能夠?yàn)檎鎸?shí)世界中的代碼任務(wù)書(shū)寫(xiě)自然語(yǔ)言反饋,并成功泛化到OOD(模型在訓(xùn)練過(guò)程中沒(méi)有遇到過(guò)的數(shù)據(jù))的分布上。這種反饋可以用來(lái)幫助人類(lèi)進(jìn)行更準(zhǔn)確的評(píng)價(jià),從而實(shí)現(xiàn)對(duì)于復(fù)雜輸出的有效獎(jiǎng)勵(lì)反饋。

2. 關(guān)于技術(shù)原理的猜想

2.1 OpenAI官方的“提示”

通過(guò)強(qiáng)化學(xué)習(xí),o1 學(xué)會(huì)了精煉其思維鏈并優(yōu)化所用的策略。它學(xué)會(huì)了識(shí)別并糾正錯(cuò)誤,將復(fù)雜的步驟分解為更簡(jiǎn)單的部分,并在當(dāng)前方法無(wú)效時(shí)嘗試不同的途徑。這一過(guò)程顯著提升了模型的推理能力。

o1 模型引入了推理標(biāo)記。模型使用這些推理標(biāo)記進(jìn)行“思考”,分解對(duì)提示的理解并考慮多種生成響應(yīng)的方法。生成推理標(biāo)記后,模型會(huì)將答案生成為可見(jiàn)的完成標(biāo)記,并從其上下文中丟棄推理標(biāo)記。

以下是用戶(hù)與助手之間多步驟對(duì)話(huà)的示例。每個(gè)步驟的輸入和輸出標(biāo)記都會(huì)被保留,而推理標(biāo)記則會(huì)被丟棄。

(推理是如何進(jìn)行的,OpenAI官網(wǎng))

2.2 猜想1

張俊林:MCTS搜索技術(shù)路線(xiàn)

OpenAI o1提到了關(guān)于RL在訓(xùn)練和推理時(shí)候的Scaling law,并指出這與預(yù)訓(xùn)練時(shí)候的Scaling law具有不同特性。很明顯,如果o1走的是MCTS搜索技術(shù)路線(xiàn),那么把COT拆分的越細(xì)(增加搜索樹(shù)的深度),或提出更多的可能選擇(節(jié)點(diǎn)的分支增多,就是說(shuō)樹(shù)的寬度越寬),則搜索空間越大,找到好COT路徑可能性越大,效果越好,而訓(xùn)練和推理的時(shí)候需要算力肯定越大??瓷先ビ兄ЧS著算力增長(zhǎng)而增長(zhǎng)的態(tài)勢(shì),也就是所謂的RL的Scaling law。這其實(shí)是樹(shù)搜索本來(lái)應(yīng)有之義,我倒覺(jué)得把這個(gè)稱(chēng)為RL的Scaling law有點(diǎn)名不副實(shí)。

2.3 猜想2

騰訊科技 周小燕 郝博陽(yáng):PRM僅在答案不可接受時(shí)進(jìn)行MCTS式的搜索,或者用的是更節(jié)約的Beam Search。

從反應(yīng)時(shí)間和token消耗兩方面看,根據(jù)Hackernews上使用了API的開(kāi)發(fā)者推算,o1進(jìn)行推理所消耗的token是其給出答案token的10倍,是未進(jìn)行思維鏈的GPT-4o mini 所用token的60-100倍。如果采用能看三步的、每步形成5個(gè)候選,單層深度的Lookahead Search就會(huì)消耗45倍token。但用到了思維鏈每步都需要進(jìn)行一次Lookahead Search的話(huà),就會(huì)遠(yuǎn)超100倍token。另外考慮到MCTS這么大的計(jì)算量,目前o1的反饋時(shí)間是遠(yuǎn)遠(yuǎn)不夠的。

但如果僅用思維鏈,即使是非常復(fù)雜的問(wèn)題,token消耗最多也就是達(dá)到5-10倍。其60倍token消耗又太大了。

2.4 猜想3

北大對(duì)齊團(tuán)隊(duì):o1運(yùn)用的技術(shù)關(guān)鍵還是在于強(qiáng)化學(xué)習(xí)的搜索與學(xué)習(xí)機(jī)制,基于LLM已有的推理能力,迭代式的Bootstrap模型產(chǎn)生合理推理(Rationales)的能力,并將 Rationales 融入到訓(xùn)練過(guò)程內(nèi),讓模型學(xué)會(huì)進(jìn)行推理,而后再運(yùn)用足夠強(qiáng)大的計(jì)算量實(shí)現(xiàn)Post-Training階段的Scaling。類(lèi)似于STaR的擴(kuò)展版本。

模型學(xué)習(xí)的是產(chǎn)生合理推理的過(guò)程,MCTS 在其中的作用是誘導(dǎo)合理推理過(guò)程的產(chǎn)生或構(gòu)建相應(yīng)的偏序?qū)π纬杉?xì)粒度獎(jiǎng)勵(lì)信號(hào),而非直接搜索過(guò)程和最終答案。

為了優(yōu)化這一過(guò)程,產(chǎn)生了一系列方法,其中包括在 Token 級(jí)別或子句級(jí)別提供獎(jiǎng)勵(lì)信號(hào),幫助模型調(diào)整生成的回答。這些方法如MCTS,將輸出建模為一系列節(jié)點(diǎn),這些節(jié)點(diǎn)可以是 Token 級(jí)別或句子級(jí)別。例如:

Token 級(jí)別的節(jié)點(diǎn):每個(gè)節(jié)點(diǎn)對(duì)應(yīng)生成序列中的一個(gè) Token。通過(guò) MCTS,模型可以探索不同的 Token 序列,最終生成更連貫的響應(yīng)。

句子級(jí)別的節(jié)點(diǎn):在復(fù)雜推理任務(wù)中,每個(gè)節(jié)點(diǎn)可以代表一個(gè)完整的句子或推理步驟,幫助模型更好地處理多步推理任務(wù)。

3. 相關(guān)論文

3.1 Jason Wei 的 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,也就是著名的COT。

主要內(nèi)容:通過(guò)一系列中間推理步驟,能顯著提高大型語(yǔ)言模型執(zhí)行復(fù)雜推理的能力,提出了一種名為“chain of thought prompting”的方法,通過(guò)提供幾個(gè)思維鏈條示例,無(wú)需對(duì)模型進(jìn)行微調(diào),就能自然地激發(fā)大型語(yǔ)言模型的推理能力,實(shí)驗(yàn)結(jié)果表明該方法在算術(shù)、常識(shí)和符號(hào)推理任務(wù)上顯著提高了三種大型語(yǔ)言模型的表現(xiàn)。

鏈?zhǔn)剿季S推理能力的涌現(xiàn):鏈?zhǔn)剿季S推理能力并非所有模型都具備,而是隨著模型規(guī)模的擴(kuò)大而逐漸涌現(xiàn)。對(duì)于需要多步推理的任務(wù),鏈?zhǔn)剿季S提示能夠顯著提升模型性能,尤其是在大型語(yǔ)言模型上表現(xiàn)尤為突出。

該方法也為提升模型可解釋性和魯棒性提供了新的思路。

CoT 通過(guò)分步推理的方式,要求模型在生成最終答案之前,先生成一系列中間推理步驟。這種 “思考鏈” 的生成過(guò)程有助于增強(qiáng)模型的推理能力,尤其在數(shù)學(xué)和代碼生成等任務(wù)中表現(xiàn)出色。

然而,CoT雖然能夠生成中間步驟,但并未教會(huì)模型如何從內(nèi)部深入思考問(wèn)題的關(guān)聯(lián)。特別是對(duì)于尤其復(fù)雜且需要多步推理規(guī)劃的任務(wù),這樣的合理的中間 CoT 推理過(guò)程(Rationales) 更為重要。

3.2 Ilya等人的Let’s Verify Step by Step

主要內(nèi)容:比較了兩種訓(xùn)練大型語(yǔ)言模型進(jìn)行復(fù)雜推理的方法:結(jié)果監(jiān)督和過(guò)程監(jiān)督,并得出以下主要貢獻(xiàn):

1)過(guò)程監(jiān)督比結(jié)果監(jiān)督更有效

研究表明,過(guò)程監(jiān)督訓(xùn)練出的獎(jiǎng)勵(lì)模型比結(jié)果監(jiān)督更可靠,能夠解決 MATH 數(shù)據(jù)集 78.2% 的問(wèn)題,而結(jié)果監(jiān)督只能解決 66.4%。過(guò)程監(jiān)督提供了更精確的反饋,指出了錯(cuò)誤發(fā)生的具體位置,有助于模型更好地進(jìn)行信用分配和學(xué)習(xí)。

2)大型獎(jiǎng)勵(lì)模型可以有效地近似人類(lèi)監(jiān)督

研究發(fā)現(xiàn),大型獎(jiǎng)勵(lì)模型可以有效地近似人類(lèi)監(jiān)督,用于訓(xùn)練小型獎(jiǎng)勵(lì)模型,從而降低了數(shù)據(jù)收集的成本。這為大規(guī)模數(shù)據(jù)收集消融實(shí)驗(yàn)提供了可能性,并可以用于評(píng)估不同監(jiān)督方法的效果。

3)激活學(xué)習(xí)提高了過(guò)程監(jiān)督的數(shù)據(jù)效率

研究發(fā)現(xiàn),激活學(xué)習(xí)可以將過(guò)程監(jiān)督的數(shù)據(jù)效率提高 2.6 倍,這意味著可以使用更少的數(shù)據(jù)獲得更好的模型性能。激活學(xué)習(xí)通過(guò)選擇最有價(jià)值的模型輸出進(jìn)行人工標(biāo)注,從而提高了數(shù)據(jù)收集的效率。

4)發(fā)布了 PRM800K 數(shù)據(jù)集

論文發(fā)布了 PRM800K 數(shù)據(jù)集,包含 800,000 個(gè)步驟級(jí)別的標(biāo)注數(shù)據(jù),用于訓(xùn)練獎(jiǎng)勵(lì)模型。

3.3 斯坦福&谷歌STaR: Bootstrapping Reasoning with Reasoning

1)主要原理

STaR 的核心思路是利用 LLM 已有的推理能力,迭代式的 Bootstrap 模型產(chǎn)生合理推理過(guò)程(Rationales) 的能力,并將 Rationales 融入到訓(xùn)練過(guò)程內(nèi),讓模型學(xué)會(huì)進(jìn)行推理。其基本流程如下:

推理:起始數(shù)據(jù)集僅有 [Question, Answer] ,首先利用一些帶有推理過(guò)程的 Few-Shot Examples 來(lái) Prompt 模型對(duì)于數(shù)據(jù)集中的問(wèn)題生成對(duì)應(yīng)的推理過(guò)程和答案。

過(guò)濾:如果生成的答案正確,則將推理過(guò)程加入到原有的數(shù)據(jù)集中;如果生成的答案錯(cuò)誤,則嘗試在給出正確答案的前提下再次生成推理過(guò)程。將最終生成正確答案的推理收集,構(gòu)建一個(gè)構(gòu)建一個(gè)微調(diào)數(shù)據(jù)集 [Question, Rationale, Answer ] 進(jìn)行微調(diào)。

迭代:重復(fù)這一過(guò)程,且每次獲得一個(gè)新的數(shù)據(jù)集,都從原始的模型開(kāi)始進(jìn)行 Fine-tune 從而防止過(guò)擬合。

2)創(chuàng)新點(diǎn)

迭代引導(dǎo):STaR 不需要構(gòu)建大規(guī)模的推理鏈數(shù)據(jù)集,而是通過(guò)少量示例引導(dǎo) LLM 生成自身的推理鏈,實(shí)現(xiàn)自我提升。

Rationalization 技術(shù):STaR 引入了 Rationalization 技術(shù),通過(guò)提供正確答案作為提示,幫助 LLM 生成新的推理鏈,克服了正向推理訓(xùn)練的局限性,能夠從失敗案例中學(xué)習(xí)。

3)STaR 的優(yōu)勢(shì)

提升推理能力:STaR 能夠有效提升 LLM 在數(shù)學(xué)推理、常識(shí)推理等復(fù)雜任務(wù)上的性能。

降低數(shù)據(jù)需求:STaR 不需要大規(guī)模的推理鏈數(shù)據(jù)集,降低了數(shù)據(jù)獲取的難度和成本。

提高魯棒性:STaR 能夠讓 LLM 從失敗案例中學(xué)習(xí),提高其在復(fù)雜問(wèn)題上的魯棒性。

4)STaR 的局限性

初始模型要求:STaR 需要初始模型具有一定的推理能力,否則難以啟動(dòng)引導(dǎo)過(guò)程。

對(duì)少樣本示例的依賴(lài):STaR在推理任務(wù)中高度依賴(lài)少量的Few-Shot推理示例,這導(dǎo)致模型的推理能力較為有限,難以應(yīng)對(duì)復(fù)雜和廣泛的任務(wù)。

泛化能力受限:STaR雖然能夠通過(guò)迭代的方式提升模型的推理能力,但其應(yīng)用主要局限于特定的結(jié)構(gòu)化任務(wù)(如問(wèn)題回答),難以在開(kāi)放域或任意文本生成任務(wù)中取得同樣的效果。

數(shù)據(jù)質(zhì)量影響:STaR 的性能受初始推理鏈質(zhì)量的影響,如果初始推理鏈存在偏差,則可能導(dǎo)致 STaR 學(xué)習(xí)到錯(cuò)誤的推理模式。

解釋忠實(shí)度:STaR 生成的推理鏈可能無(wú)法完全反映 LLM 的內(nèi)部推理過(guò)程,存在解釋忠實(shí)度的問(wèn)題。

5)STaR 與強(qiáng)化學(xué)習(xí)目標(biāo)的相似之處

迭代更新:STaR 和強(qiáng)化學(xué)習(xí)都采用迭代的方式更新模型,不斷優(yōu)化其性能。

獎(jiǎng)勵(lì)信號(hào):STaR 通過(guò)迭代的方式生成推理鏈,并使用正確答案作為反饋信號(hào),類(lèi)似于強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)信號(hào),用于指導(dǎo)模型的更新方向。

6)STaR 與強(qiáng)化學(xué)習(xí)目標(biāo)的區(qū)別

目標(biāo)函數(shù):STaR 的目標(biāo)函數(shù)與強(qiáng)化學(xué)習(xí)中的策略梯度目標(biāo)不完全相同,STaR 更關(guān)注推理鏈的生成和優(yōu)化。

模型結(jié)構(gòu):STaR 使用預(yù)訓(xùn)練的 LLM 模型,而強(qiáng)化學(xué)習(xí)可以采用各種類(lèi)型的模型。

訓(xùn)練方法:STaR 使用基于梯度的方法進(jìn)行模型更新,而強(qiáng)化學(xué)習(xí)可以采用多種訓(xùn)練方法,例如 Q-learning、Sarsa 等。

3.4 微軟的 rStar:Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

1)主要貢獻(xiàn)

rStar 是一種創(chuàng)新的self-play自我推理方法,旨在提升小語(yǔ)言模型 (SLM) 的推理能力,無(wú)需微調(diào)或高級(jí)模型的支持。其核心思想是將推理過(guò)程分解為 生成 和 鑒別 兩個(gè)階段,并通過(guò)自我博弈的方式實(shí)現(xiàn) SLM 之間的相互學(xué)習(xí)。

2)主要?jiǎng)?chuàng)新點(diǎn)

豐富的推理動(dòng)作:rStar 引入了五種人類(lèi)似推理動(dòng)作,模擬人類(lèi)在推理過(guò)程中的行為,這使得 SLM 能夠生成更高質(zhì)量的候選推理軌跡,有效探索解決方案空間。

相互一致性鑒別:rStar 使用另一個(gè)與目標(biāo) SLM 能力相似的 SLM 作為鑒別器,對(duì)生成的候選推理軌跡進(jìn)行評(píng)估。鑒別器通過(guò)完成部分推理步驟并提供反饋,幫助目標(biāo) SLM 選擇更可靠的推理路徑。

無(wú)需微調(diào)或高級(jí)模型:rStar 不依賴(lài)于微調(diào)或高級(jí)模型的指導(dǎo),能夠獨(dú)立提升 SLM 的推理能力,使其在無(wú)需額外資源的情況下獲得顯著的性能提升。

實(shí)驗(yàn)結(jié)果表明,rStar 能夠有效解決多種推理問(wèn)題,并在多個(gè) SLM 上取得了顯著的性能提升。例如,在 GSM8K 數(shù)據(jù)集上,rStar 將 LLaMA2-7B 的準(zhǔn)確率從 12.51% 提升至 63.91%,將 Mistral-7B 的準(zhǔn)確率從 36.46% 提升至 81.88%。

A. 生成階段 (MCTS Rollout):

動(dòng)作空間: rStar 引入了五種人類(lèi)似推理動(dòng)作,模擬人類(lèi)在推理過(guò)程中的行為:

A1: 提出一個(gè)一步思考。

A2: 提出剩余的思考步驟。

A3: 提出下一個(gè)子問(wèn)題及其答案。

A4: 再次回答子問(wèn)題。

A5: 重述問(wèn)題/子問(wèn)題。

MCTS 搜索: 使用 MCTS 算法,根據(jù)當(dāng)前狀態(tài)和動(dòng)作空間,逐步生成候選推理軌跡。

獎(jiǎng)勵(lì)函數(shù): 設(shè)計(jì) SLM 定制獎(jiǎng)勵(lì)函數(shù),根據(jù)推理步驟對(duì)最終答案的貢獻(xiàn)程度進(jìn)行評(píng)估,并指導(dǎo) MCTS 樹(shù)的擴(kuò)展。

這些動(dòng)作幫助模型更好地探索解決方案空間的原因:

多樣性: 豐富的動(dòng)作類(lèi)型使得模型可以嘗試不同的推理策略,避免陷入固定的思維模式。

靈活性: 模型可以根據(jù)當(dāng)前狀態(tài)選擇合適的動(dòng)作,靈活應(yīng)對(duì)不同的問(wèn)題。

分解: 通過(guò)將復(fù)雜問(wèn)題分解為子問(wèn)題,模型可以逐步解決,降低推理難度。

驗(yàn)證: 通過(guò)重新回答子問(wèn)題,模型可以驗(yàn)證子問(wèn)題的答案是否正確,提高推理的準(zhǔn)確性。

B. 鑒別階段 (Mutual Consistency):

鑒別器 SLM: 使用另一個(gè)與目標(biāo) SLM 能力相似的 SLM 作為鑒別器,對(duì)生成的候選推理軌跡進(jìn)行評(píng)估。

部分提示: 將候選推理軌跡的一部分作為提示,讓鑒別器完成剩余的推理步驟。

一致性驗(yàn)證: 比較鑒別器完成的推理步驟與原始軌跡的一致性,選擇相互一致的軌跡作為最終答案。

互一致性幫助模型選擇正確的推理軌跡的原因:

外部驗(yàn)證: 鑒別器作為外部評(píng)估者,為模型提供客觀的反饋,避免模型自身評(píng)估的偏差。

降低難度: 通過(guò)部分提示,降低鑒別器推理的難度,提高其提供正確答案的概率。

群體智慧: 兩個(gè) SLM 之間的相互驗(yàn)證,類(lèi)似于人類(lèi)群體中的同伴互評(píng),可以更有效地識(shí)別正確答案。

C. 最終軌跡選擇:

最終得分計(jì)算: 將候選軌跡的獎(jiǎng)勵(lì)值與終端節(jié)點(diǎn)的置信度得分相乘,計(jì)算最終得分。

選擇最佳軌跡: 選擇最終得分最高的軌跡作為最終答案。

3.5 Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

1)貢獻(xiàn)1

將 STaR 推廣到學(xué)習(xí)推理,也是其與 STaR 的主要區(qū)別。STaR 主要針對(duì)特定任務(wù)進(jìn)行推理學(xué)習(xí),而 Quiet-STaR 則將推理學(xué)習(xí)推廣到更廣泛的文本數(shù)據(jù)中。這使得語(yǔ)言模型能夠在更通用的場(chǎng)景下進(jìn)行推理,并從多樣化的文本任務(wù)中學(xué)習(xí)。

2)貢獻(xiàn)2:并行采樣算法

這是實(shí)現(xiàn) Quiet-STaR 的關(guān)鍵技術(shù)之一。并行采樣算法能夠高效地生成每個(gè) token 的推理,從而使得模型能夠從大規(guī)模文本數(shù)據(jù)中學(xué)習(xí)推理。

3)其他創(chuàng)新點(diǎn)

元 token、混合頭、非短視損失函數(shù)等創(chuàng)新點(diǎn)都是為了更好地實(shí)現(xiàn) Quiet-STaR 的目標(biāo),即讓語(yǔ)言模型能夠?qū)W習(xí)推理并提高其預(yù)測(cè)能力。

3.6 Google Deep Mind 的Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

針對(duì)現(xiàn)有 LLM 推理能力有限的不足,提出了以下創(chuàng)新方法和策略:

1)創(chuàng)新方法

PRM 驗(yàn)證器和樹(shù)搜索算法:通過(guò)訓(xùn)練一個(gè)過(guò)程獎(jiǎng)勵(lì)模型來(lái)評(píng)估每一步的正確性,并利用樹(shù)搜索算法(如束搜索和前瞻搜索)在解決方案空間中進(jìn)行搜索,找到最優(yōu)答案。

迭代修訂模型:通過(guò)微調(diào) LLM,使其能夠迭代地修改其初始答案,使其逐漸接近正確答案。

2)創(chuàng)新策略

推理時(shí)計(jì)算最優(yōu)擴(kuò)展策略:根據(jù)提示的難度動(dòng)態(tài)選擇最佳的推理時(shí)計(jì)算策略,以最大化性能提升。

計(jì)算預(yù)算交換:將推理時(shí)計(jì)算和預(yù)訓(xùn)練計(jì)算進(jìn)行比較,發(fā)現(xiàn)對(duì)于簡(jiǎn)單和中等的推理任務(wù),推理時(shí)計(jì)算可以有效地替代額外的預(yù)訓(xùn)練計(jì)算,從而降低預(yù)訓(xùn)練成本。

3)改進(jìn)

性能提升:在相同的計(jì)算預(yù)算下,使用“推理時(shí)計(jì)算最優(yōu)擴(kuò)展策略”可以顯著提升 LLM 的性能,并優(yōu)于傳統(tǒng)的最佳-of-N 策略。

預(yù)訓(xùn)練成本降低:對(duì)于簡(jiǎn)單和中等的推理任務(wù),可以使用推理時(shí)計(jì)算來(lái)替代額外的預(yù)訓(xùn)練計(jì)算,從而降低預(yù)訓(xùn)練成本。

模型泛化能力提升:通過(guò)迭代修訂模型,LLM 可以學(xué)習(xí)從錯(cuò)誤中吸取教訓(xùn),并改進(jìn)其推理能力,從而提升模型的泛化能力。

Google在研究中提到了從簡(jiǎn)單到復(fù)雜的三種方案,直接在多個(gè)答案中選最佳解的方法(Best of N),在思維鏈中每步都提供多個(gè)候選項(xiàng)的方法(Beam Search)和把后續(xù)多個(gè)步驟聯(lián)系起來(lái)看的MCTS方法的簡(jiǎn)化版本Lookahead Search。

我們可以嘗試著在推理階段不要求模型一次做對(duì)的能力,而是讓LLM去嘗試一題多解, 然后針對(duì)多個(gè)答案進(jìn)行評(píng)估打分, 最終輸出一個(gè)正確的答案. 在答案評(píng)估的時(shí)候,同時(shí)引入對(duì)過(guò)程的評(píng)估,即Process-based Reward Model(PRM)。搜索方法上, 它采用了Lookahead Search, 本質(zhì)上是MCTS的一種特殊形式.

4. 可能的“逆向工程”

(o1可能的架構(gòu)圖,來(lái)源:https://www.reddit.com/r/LocalLLaMA/comments/1fgr244/reverse_engineering_o1_architecture_with_a_little/)

下面是關(guān)于這張架構(gòu)圖的詳細(xì)說(shuō)明,主要包括四個(gè)階段:

4.1 數(shù)據(jù)生成

數(shù)據(jù)生成模塊負(fù)責(zé)創(chuàng)建用于訓(xùn)練的數(shù)據(jù),包括:

合成數(shù)據(jù)生成器(Synthetic Data Generator)、人類(lèi)專(zhuān)家、CoT數(shù)據(jù)庫(kù)(CoT Dataset,鏈?zhǔn)剿季S數(shù)據(jù)庫(kù))、現(xiàn)實(shí)世界和沙盒數(shù)據(jù)

這些數(shù)據(jù)被匯集起來(lái),形成訓(xùn)練數(shù)據(jù),用于后續(xù)模型的訓(xùn)練階段。

4.2 訓(xùn)練階段

訓(xùn)練階段主要由以下幾個(gè)模塊組成:

語(yǔ)言模型,這是核心的AI模型,負(fù)責(zé)處理和理解語(yǔ)言數(shù)據(jù)。

RL環(huán)境,強(qiáng)化學(xué)習(xí)環(huán)境用于模型優(yōu)化。

獎(jiǎng)勵(lì)函數(shù),包括驗(yàn)證(Verification)和人類(lèi)反饋(Human labeling),用來(lái)指導(dǎo)模型學(xué)習(xí)。

策略?xún)?yōu)化器(Policy Optimizer),包括梯度壓縮、Panzar系統(tǒng)、探索與利用等,用于優(yōu)化模型策略。在這個(gè)階段,模型通過(guò)強(qiáng)化學(xué)習(xí)和高級(jí)技術(shù)進(jìn)行訓(xùn)練,不斷優(yōu)化性能和效率。

4.3 推理階段

推理階段包括:

訓(xùn)練好的模型,這是通過(guò)強(qiáng)化學(xué)習(xí)和高級(jí)技術(shù)優(yōu)化后的模型。

多任務(wù)生成,處理多個(gè)任務(wù)的能力。

最終響應(yīng),生成最終的輸出結(jié)果。

CoT生成和微調(diào),根據(jù)鏈?zhǔn)剿季S生成并微調(diào)結(jié)果。

效率監(jiān)控:實(shí)時(shí)監(jiān)控模型的性能。

4.4 關(guān)鍵注釋

大規(guī)模CoT存儲(chǔ)進(jìn)入RL環(huán)境是作者自己的假設(shè),作者認(rèn)為OpenAI可能會(huì)使用從現(xiàn)實(shí)世界中生成的大量鏈?zhǔn)剿季S來(lái)進(jìn)一步調(diào)整和優(yōu)化RL模型。舉例說(shuō)明:假設(shè)你是一名研究員,想要構(gòu)建一個(gè)能夠進(jìn)行多任務(wù)處理的AI系統(tǒng)。

我們可以通過(guò)參考這個(gè)o1架構(gòu)按照上面三個(gè)模塊進(jìn)行以下工作:

1)首先,收集并生成各種類(lèi)型的數(shù)據(jù),包括合成數(shù)據(jù)、人類(lèi)專(zhuān)家提供的數(shù)據(jù)以及現(xiàn)實(shí)世界的數(shù)據(jù)。

2)接著,利用這些數(shù)據(jù)訓(xùn)練你的語(yǔ)言模型,并在強(qiáng)化學(xué)習(xí)環(huán)境中進(jìn)行優(yōu)化,通過(guò)獎(jiǎng)勵(lì)函數(shù)和策略?xún)?yōu)化器不斷提升模型性能。

3)最后,將訓(xùn)練好的模型部署到推理階段,使其能夠處理多任務(wù)并生成最終響應(yīng),同時(shí)監(jiān)控其效率并進(jìn)行必要的微調(diào)。這種架構(gòu)不僅適用于語(yǔ)言處理,還可以擴(kuò)展到其他領(lǐng)域,如圖像識(shí)別、游戲開(kāi)發(fā)等,通過(guò)不斷優(yōu)化強(qiáng)化學(xué)習(xí)過(guò)程,使得AI系統(tǒng)更加智能高效。

四、幕后:o1背后的團(tuán)隊(duì)

在 OpenAI 公布的o1模型的參與人員中,不僅包括前首席科學(xué)家Ilya Sutskever,COT 作者 Jason Wei,還包含了Jiayi Weng等大量華人科學(xué)家。

在o1 的21個(gè)Foundational貢獻(xiàn)者呈現(xiàn)出了高學(xué)歷、高包容性、多元化、國(guó)際化等特點(diǎn)。

  • 學(xué)術(shù)背景:14人擁有博士學(xué)位,3人以本科學(xué)位進(jìn)入OpenAI,1人有專(zhuān)科經(jīng)歷,5人有斯坦福背景;
  • 國(guó)家背景:團(tuán)隊(duì)來(lái)自至少8個(gè)國(guó)家,包括美國(guó)、中國(guó)、印度、韓國(guó)、意大利、土耳其、以色列、波蘭,呈現(xiàn)出了高度的國(guó)際化。其中以色列2人。
  • 華人貢獻(xiàn):作為人數(shù)最多的國(guó)家之一,6個(gè)華人本科分別來(lái)自清華、北大、劍橋、哈佛、達(dá)特茅斯。從某種程度上來(lái)說(shuō),OpenAI 在AI技術(shù)上的領(lǐng)先離不開(kāi)華人的貢獻(xiàn)。
  • 工作背景:作為OpenAI最主要的競(jìng)爭(zhēng)對(duì)手,貢獻(xiàn)者中11人有 Google 背景,5人沒(méi)有相關(guān)名企經(jīng)驗(yàn);

注:2人未找到相關(guān)資料。

21個(gè)Foundational貢獻(xiàn)者資料明細(xì)

五、相關(guān)名詞解釋

1. MCTS

1.1 概念:蒙特卡洛樹(shù)搜索(Monte Carlo Tree Search,MCTS)是一種用于某些類(lèi)型決策過(guò)程的啟發(fā)式搜索算法,特別是在雙人零和游戲中。它結(jié)合了蒙特卡洛模擬的隨機(jī)抽樣和決策樹(shù)搜索的系統(tǒng)性。MCTS在計(jì)算博弈論和人工智能領(lǐng)域中非常有用,尤其是在圍棋、國(guó)際象棋和其他策略游戲中。

1.2 MCTS的基本步驟

1)選擇:從根節(jié)點(diǎn)開(kāi)始,按照特定的策略,選擇最有前途的子節(jié)點(diǎn),直到到達(dá)一個(gè)尚未完全展開(kāi)(即還有未探索的行動(dòng))的節(jié)點(diǎn)。

2)擴(kuò)展:在選擇的節(jié)點(diǎn)上添加一個(gè)或多個(gè)子節(jié)點(diǎn),這些子節(jié)點(diǎn)代表了可能的下一步行動(dòng)。這涉及到游戲狀態(tài)的更新,將游戲向前推進(jìn)到一個(gè)新的狀態(tài)。

3)模擬:從新添加的節(jié)點(diǎn)開(kāi)始,進(jìn)行蒙特卡洛模擬,直到游戲結(jié)束或達(dá)到預(yù)定的模擬深度。這個(gè)過(guò)程不需要完美信息,可以使用隨機(jī)策略來(lái)選擇行動(dòng)。

4)反向傳播:將模擬的結(jié)果(比如輸贏或得分)更新到所訪(fǎng)問(wèn)路徑上的所有節(jié)點(diǎn)。如果模擬結(jié)果是勝利,則增加沿途節(jié)點(diǎn)的勝利次數(shù);如果是失敗,則相應(yīng)地更新失敗的統(tǒng)計(jì)數(shù)據(jù)。

1.3 關(guān)鍵特點(diǎn)

1)自適應(yīng)搜索:MCTS能夠根據(jù)之前的搜索結(jié)果自適應(yīng)地搜索那些更有希望的區(qū)域。

2)無(wú)啟發(fā)式:與某些其他搜索算法不同,MCTS不需要領(lǐng)域特定的啟發(fā)式評(píng)估函數(shù)。

3)并行化:模擬步驟可以獨(dú)立進(jìn)行,因此MCTS很容易并行化,這使得它在多核處理器上特別有效。

1.4 Beam Search、Lookahead Search、MCTS對(duì)比

Beam Search:一種啟發(fā)式的圖搜索算法,常用于機(jī)器翻譯、語(yǔ)音識(shí)別等領(lǐng)域的解碼過(guò)程。它在每一步都從當(dāng)前節(jié)點(diǎn)擴(kuò)展出一定數(shù)量(beam width)的最有前途的子節(jié)點(diǎn),而不是搜索所有可能的子節(jié)點(diǎn),從而減少了搜索空間。

Beam Search的優(yōu)點(diǎn)是計(jì)算效率高,但缺點(diǎn)是可能會(huì)錯(cuò)過(guò)一些不那么顯而易見(jiàn)但最終可能更優(yōu)的路徑。

Lookahead Search:一種在Beam Search基礎(chǔ)上的擴(kuò)展,它在搜索時(shí)不僅考慮當(dāng)前步驟的最優(yōu)解,還會(huì)向前看多步,考慮未來(lái)的可能性。這種搜索策略可以幫助算法做出更長(zhǎng)遠(yuǎn)的決策,但計(jì)算成本也會(huì)隨之增加。

Lookahead Search的關(guān)鍵在于它嘗試預(yù)測(cè)并評(píng)估不同的決策路徑,從而選擇最優(yōu)的行動(dòng)方案。

MCTS:一種用于某些類(lèi)型決策過(guò)程的啟發(fā)式搜索算法,它結(jié)合了隨機(jī)模擬和決策樹(shù)搜索。MCTS通過(guò)多次模擬來(lái)評(píng)估不同的決策路徑,并根據(jù)這些模擬的結(jié)果來(lái)選擇最優(yōu)的行動(dòng)。

MCTS特別適用于雙人零和游戲,如圍棋、國(guó)際象棋等,它通過(guò)構(gòu)建整個(gè)樹(shù)來(lái)探索所有可能的行動(dòng)路徑,并通過(guò)模擬來(lái)評(píng)估這些路徑。

2. Bootstrap

這是一種重采樣技術(shù),用于從原始數(shù)據(jù)集中生成新的樣本集,以此來(lái)估計(jì)一個(gè)統(tǒng)計(jì)量(如均值、方差等)的分布。通過(guò)這種方法,可以不需要對(duì)總體分布做出任何假設(shè),就能夠估計(jì)出模型參數(shù)的不確定性和穩(wěn)定性。

Bootstrap方法的步驟通常包括:從原始數(shù)據(jù)集中隨機(jī)抽取樣本,允許重復(fù)抽樣(即有放回抽樣);根據(jù)抽取的樣本計(jì)算所需的統(tǒng)計(jì)量;重復(fù)上述過(guò)程多次(通常是數(shù)千次),以獲得統(tǒng)計(jì)量的分布;使用這個(gè)分布來(lái)估計(jì)原始統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤差、置信區(qū)間或其他特征。

在機(jī)器學(xué)習(xí)領(lǐng)域,Bootstrap方法可以用來(lái)提高模型的泛化能力和魯棒性。例如,通過(guò)Bootstrap抽樣可以創(chuàng)建多個(gè)不同的訓(xùn)練集,然后用這些訓(xùn)練集來(lái)訓(xùn)練多個(gè)模型。這些模型可以結(jié)合起來(lái),形成一個(gè)集成模型,如隨機(jī)森林或Bagging模型,以此來(lái)減少過(guò)擬合和提高模型的預(yù)測(cè)準(zhǔn)確性。

3. PPO

PPO(Proximal Policy Optimization,近端策略?xún)?yōu)化)是一種在強(qiáng)化學(xué)習(xí)領(lǐng)域廣泛使用的算法,它屬于策略梯度方法的一種。PPO算法的核心思想是在每次更新策略時(shí),限制新策略與舊策略之間的差異,以保持訓(xùn)練過(guò)程的穩(wěn)定性。

PPO算法有兩個(gè)主要變體:PPO-Penalty和PPO-Clip。PPO-Penalty通過(guò)在目標(biāo)函數(shù)中添加一個(gè)懲罰項(xiàng)來(lái)近似解決一個(gè)KL散度約束的更新問(wèn)題,而PPO-Clip則不直接使用KL散度項(xiàng),而是通過(guò)目標(biāo)函數(shù)中的裁剪操作來(lái)限制新舊策略之間的差異。

PPO算法的實(shí)現(xiàn)步驟通常包括:

1)初始化策略網(wǎng)絡(luò)參數(shù)。

2)通過(guò)與環(huán)境交互收集數(shù)據(jù)。

3)計(jì)算優(yōu)勢(shì)函數(shù),用于評(píng)價(jià)動(dòng)作的好壞。

4)使用裁剪的目標(biāo)函數(shù)或懲罰項(xiàng)來(lái)更新策略網(wǎng)絡(luò)參數(shù)。

5)重復(fù)以上步驟,直到策略收斂。

PPO算法的優(yōu)點(diǎn)包括穩(wěn)定性、適用性和可擴(kuò)展性。它適用于離散和連續(xù)動(dòng)作空間的環(huán)境,并且可以通過(guò)并行化來(lái)提高訓(xùn)練效率。PPO算法在游戲、機(jī)器人控制、自動(dòng)駕駛等領(lǐng)域都有廣泛的應(yīng)用。

4. 激活學(xué)習(xí)

激活學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,其核心思想是選擇最有價(jià)值的數(shù)據(jù)進(jìn)行標(biāo)注和學(xué)習(xí),從而提高學(xué)習(xí)效率和模型性能。

通常用于以下場(chǎng)景:數(shù)據(jù)標(biāo)注成本高、數(shù)據(jù)集規(guī)模龐大、模型性能提升空間有限。

包括以下幾個(gè)步驟:選擇標(biāo)注策略、選擇標(biāo)注數(shù)據(jù)、標(biāo)注數(shù)據(jù)、訓(xùn)練模型、迭代優(yōu)化。

在許多領(lǐng)域都有廣泛應(yīng)用,例如圖像識(shí)別、自然語(yǔ)言處理、推薦系統(tǒng)。

參考資料:

Open AI官網(wǎng):

1、https://openai.com/index/introducing-openai-o1-preview/

2、https://openai.com/index/learning-to-reason-with-llms/

3、https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/#model-speed

OpenAI o1、核心成員官推:OpenAI 官推、CEO Sam Altman、總裁&聯(lián)創(chuàng)Greg Brockman、COT 作者Jason Wei、模型核心成員Noam Brown、Hyung Won Chung、Ahmed El-Kishky、Ren HongYu、ShenJia Zhao

公眾號(hào):海外獨(dú)角獸、 FudanNLP、機(jī)器之心、 量子位、數(shù)字生命卡茲克、 AI Pioneer、 AI產(chǎn)品黃叔、人工智能與算法學(xué)習(xí)、AINLP、騰訊科技、 GitChat、AI科技大本營(yíng)、智能涌現(xiàn)、PaperWeekly、硅谷科技評(píng)論、卜寒兮AI、zartbot、投資實(shí)習(xí)所、AI的潛意識(shí)、夕小瑤科技說(shuō)

作者:AIPM1001 ,公眾號(hào):AIPM1001

本文由 @AIPM1001 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!