深度理解:OpenAI最新發布的“強化微調”

0 評論 2979 瀏覽 4 收藏 15 分鐘

今天主要分享一下OpenAl發布會第二天發布的核心內容"強化微調”,為什么奧特曼會覺得這是一項驚喜技術,為了深入了理解它,我周末花了一天的時間深入的去研究它,本文分享一下我的研究結果!

個人對OpenAI發布“強化微調”的感受:

OpenAI發布會第二天發布的內容依然沒有推出全新的模型,仍舊是在原有的技術體系下推出升級的內容,說實話網上罵聲一片都是痛批“這是什么玩意的?”,基本都是營銷人而不是開發者,他們要的是營銷噱頭,根本不管推出的東西有沒有用,而作為AI應用開發者而言,反而覺得能推出一些立刻應用于應用研發的能力更加實在,像Sora這種噱頭性的東西,于我們這些創業者而言完全沒有意義,所以個人反而覺得,OpenAI第二天推出“強化微調”這個能力,雖然沒有太多的驚喜,但是更加實在;

一、強化微調是什么,和傳統SFT有什么區別?

1. 從實現方法上看

SFT是通過提供人工標注數據(例如正確的輸入-輸出對),告訴模型什么才是正確的答案,然后讓模型學會模仿這些答案,做出正確的回答;

而RFT是把傳統的SFT+獎勵模型+強化學習這三個環節整合在一起,在一套閉環的流程里面完成三者的運行,并且該流程是自動運行的,它的作用,就是可以自動的優化基礎模型,讓模型越來越聰明,回答的效果越來越好;

RFT能夠讓模型和回答結果越來越好的原理是“它讓SFT+獎勵模型+強化學習這個優化模型和生成結果的機制能夠不停的運轉”;

首先我們提供一部分“正確答案”的數據讓模型完成SFT從而能回答正確的答案;之后,該流程會根據人工提供的、或者系統實時收集的反饋數據(比如生成結果的評分數據)訓練一個獎勵模型(一個評分模型,用于對生成結果打分),并且這個模型會隨著反饋數據的動態更新自動的優化評分函數和評分能力,并通過這個獎勵模型,優化基礎模型,讓基礎模型越來也好;并且這整個閉環是循環自動完成的,因為這套循環機制,從而讓生成結果越來越好;

RFT看起來像是把之前的“SFT+獎勵模型+強化學習”這三個合并一下然后重新包裝一下,實際上還是有些不同,具體看下一部分的內容,簡單講:

RFT=自動化運行且動態更新的“SFT+獎勵模型+強化學習”

2.本質差異

SFT不會動態的迭代和優化基礎模型,只是讓模型模仿一部分正確的答案然后做出回答;RFT則會動態的迭代和優化基礎模型,并且會動態迭代正確答案以便持續的完成SFT的過程,同時還會動態的優化獎勵模型,從而讓獎勵模型越來越好,進而用獎勵模型優化基礎模型;整個過程,基礎模型慢慢的掌握回答正確答案的方法,越來越聰明,相比SFT只是模仿作答有明顯的差異;

3.需要的數據量

需要大量的人工標注數據,并且SFT的效果,依賴數據規模;而RFT只需要少量的微調數據,然后利用RFT動態優化模型的機制,就可以讓模型變強大;

二、強化微調和傳統的”SFT+獎勵模型+強化學習RLHF“有什么區別?

SFT+獎勵模型+強化學習RLHF 這一套機制已經不是什么新鮮玩意了,所以當看到RFT其實就是把三者合并在一起這個觀點的時候會以為這僅僅是簡單做了一個合并然后重新包裝一個概念出來,事實上并不完全如此,如果僅僅是這樣的話,根本無法實現推理效果變得更好,認真研究了一下其中的差異,具體如下,為了方便理解,我整理了兩個邏輯圖如下:

1. 傳統的SFT+獎勵模型+強化學習 的工作原理

1.SFT:通過提供人工標注數據(例如正確的輸入-輸出對),告訴基礎模型什么才是正確的答案,然后讓模型學會模仿這些答案,做出正確的回答;

2.獎勵模型:通過提供對生成結果的反饋數據(比如多個生成結果的評分和排序數據),訓練一個評分模型,用于對模型生成的多個結果進行評分,獎勵模型本質上也是一個小一點的模型,它可以是基于大模型訓練的模型,也可以是傳統的神經網絡模型;獎勵模型的核心包括2部分內容:

①評分函數:包括多個對生成結果評分的維度,比如生成結果的準確性、簡易性、專業度等等,然后構建一個評分函數;

②反饋數據:人工或者機器對生成結果做反饋和評分的數據,用于訓練評分模型

3.強化學習:獎勵模型對模型初始生成的多個結果做評分后,將這些評分結果提供給基礎模型,然后基于強化學習算法,調整基礎模型的參數,讓模型根據評分結果調整生成的策略,這個過程中,模型可能會了解評分結果中哪些維度得分低,哪些維度得分高,從而嘗試生成更好的結果;

2. SFT+獎勵模型+強化學習 運行的過程

基礎模型結合人工標注數據之后,微調一個模型出來,用于生成回答結果,這時模型生成的結果可能有ABCD多個;

獎勵模型對多個生成結果進行評分,評估生成結果的得分,如果其中最高的得分已經達到了優秀結果的標準(標準可以是人工或者算法制定),則直接輸出最高得分的結果;如果生成結果不行,則啟動強化學習;

通過強化學習算法,模型基于評分結果進一步的調整模型,讓模型嘗試生成更好的結果,并循環整個過程,知道輸出滿意的結果;

3. SFT+獎勵模型+強化學習存在的問題

  1. SFT階段:需要整理大量的人工標注數據,成本比較高,并且每次迭代都需要更新數據,整個過程是離線進行的;
  2. 獎勵模型階段:獎勵模型的評分函數不能動態更新,每次更新都需要離線進行,并且反饋數據也是離線的,無法實時的更新反饋數據;
  3. 基礎模型優化階段:基礎模型的優化也是離線的,無法自動優化基礎模型;

4. RFT與SFT+獎勵模型+強化學習的區別

  1. SFT階段:動態的獲取評分比較高的結果用于做微調數據,持續的調整SFT的效果;
  2. 獎勵模型階段:獎勵模型的評分函數自動優化和調整,反饋數據動態更新;
  3. 基礎模型優化階段:動態的獲取獎勵模型的評估結果,通過強化模型,動態的優化基礎模型
  4. 以上的整個過程,都是自動完成,并且動態的更新;

三、奧特曼為什么要強調這個更新點,為何模型的迭代方向是重視微調環節

1. 微調技術有利于讓開發者更好的利用現有的模型能力

當下的模型事實上還沒有真正的被充分的利用,現在市場對于現有模型能力都還沒有消化完,持續的推出新的能力對于應用的落地并沒有太大的幫助,所以預期持續的推出很多信息量很大的新的東西,不如首先先把現有的模型能力利用好,而提供更好的模型訓練和微調的能力,有利于幫助開發者更好的利用現有的模型開發出更好的應用;

2. 微調技術有利于幫助開發者更好的將大模型落地于應用場景

大模型的落地需要結合場景,將大模型應用到具體的應用場景的核心,就是微調技術

四、強化微調模型怎么使用?

目前通過OpenAI官網創建微調模型,并上傳微調數據,就可以通過強化微調微調一個模型,操作還是相對比較簡單的;目前可以基于O1和GPT4o做強化微調,兩者在價格和能力上有明顯差別;

五、強化微調會帶來什么改變?

1. 開發者可以投入更少的成本,微調獲得一個更強大的模型;

如前面提到了,開發者只需要上傳少量的數據,就可以完成微調,這可以極大的降低開發者微調模型的成本,提高微調的效率,并且根據官方發表的觀點,通過微調后的O1,運行效果甚至可以超過O1完整版和O1-mini,這讓大模型的微調成本進一步的下降,普通創業者也能輕松的微調模型;

2. 開發者可以更好的將大模型應用于具體的場景;

大模型的場景化應用邏輯,依賴模型微調,微調門檻的下降,意味著開發者可以更加輕松的實現AI應用的落地并提升應用的效果;

六、強化微調對于企業的應用有哪些?

以我的創業產品AI快研俠(kuaiyanai.com)的業務為例,強化微調的好處,可能是能夠讓我們能夠基于可以整理的數據,快速的微調一個用于研報生成的模型,從而提升研報的生成的效果;

不過目前海外的模型使用不了的情況下,只能依賴國內的模型也能盡快實現該能力,還是希望國內大模型廠商們能加油,盡快追趕上海外的技術,造福我等創業者;

七、我的一些思考

1)從當下模型的發展方向的角度上,大模型的迭代路徑依然集中在如下幾個方向:

  • 解決數學計算、編程、科學方面的問題上,這三者代表了模型的智能程度,從OpenAI最新發布O1完整版能力,可以看到這點,
  • 支持更強大的多模態能力:提升多模態大模型的能力,Day1發布會的時候,現場演示了拍攝一個手繪圖,就能計算復雜的問題,除了體現計算能力,也在體現多模態的能力;
  • 提升思考能力:增強以思維鏈為代表的,自我學習和自我思考的能力;
  • 降低訓練和微調的難度:讓開發者可以更輕松的完成模型的訓練和微調;

2)當下提升模型的能力的重點,除了模型架構的優化,其次可能術、微調技術

我們可以看到之前從GPT3.5到GPT4,其中模型能力的迭代關鍵可能在于模型的架構,現在模型的架構的邊際優化提升可能比較低了,接下來可能重點在于訓練技術,其中強化學習可能是提升模型能力的關鍵手段,因此國內的模型應該會重點聚焦在強化學習的能力提升上;還是在訓練技

還是比較期待接下來10天,OpenAI發布會的內容,或許還有很多壓艙底的黑科技還沒有釋放出來,我會在接下來針對每天發布會的內容輸出一些個人的認知和思考。

作者:三白有話說,公眾號:三白有話說

本文由 @三白有話說 原創發布于人人都是產品經理。未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!