欧美牲交a欧美牲交久久精品,欧洲精品码一区二区三区免费看

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

深度理解：OpenAI最新發布的“強化微調”

三白有話說

2024-12-10

0 評論 2979 瀏覽 4 收藏

15 分鐘

今天主要分享一下OpenAl發布會第二天發布的核心內容"強化微調”，為什么奧特曼會覺得這是一項驚喜技術，為了深入了理解它，我周末花了一天的時間深入的去研究它，本文分享一下我的研究結果！

個人對OpenAI發布“強化微調”的感受：

OpenAI發布會第二天發布的內容依然沒有推出全新的模型，仍舊是在原有的技術體系下推出升級的內容，說實話網上罵聲一片都是痛批“這是什么玩意的？”，基本都是營銷人而不是開發者，他們要的是營銷噱頭，根本不管推出的東西有沒有用，而作為AI應用開發者而言，反而覺得能推出一些立刻應用于應用研發的能力更加實在，像Sora這種噱頭性的東西，于我們這些創業者而言完全沒有意義，所以個人反而覺得，OpenAI第二天推出“強化微調”這個能力，雖然沒有太多的驚喜，但是更加實在；

一、強化微調是什么，和傳統SFT有什么區別？

1. 從實現方法上看

SFT是通過提供人工標注數據（例如正確的輸入-輸出對），告訴模型什么才是正確的答案，然后讓模型學會模仿這些答案，做出正確的回答；

而RFT是把傳統的SFT+獎勵模型+強化學習這三個環節整合在一起，在一套閉環的流程里面完成三者的運行，并且該流程是自動運行的，它的作用，就是可以自動的優化基礎模型，讓模型越來越聰明，回答的效果越來越好；

RFT能夠讓模型和回答結果越來越好的原理是“它讓SFT+獎勵模型+強化學習這個優化模型和生成結果的機制能夠不停的運轉”；

首先我們提供一部分“正確答案”的數據讓模型完成SFT從而能回答正確的答案；之后，該流程會根據人工提供的、或者系統實時收集的反饋數據（比如生成結果的評分數據）訓練一個獎勵模型（一個評分模型，用于對生成結果打分），并且這個模型會隨著反饋數據的動態更新自動的優化評分函數和評分能力，并通過這個獎勵模型，優化基礎模型，讓基礎模型越來也好；并且這整個閉環是循環自動完成的，因為這套循環機制，從而讓生成結果越來越好；

RFT看起來像是把之前的“SFT+獎勵模型+強化學習”這三個合并一下然后重新包裝一下，實際上還是有些不同，具體看下一部分的內容，簡單講：

RFT=自動化運行且動態更新的“SFT+獎勵模型+強化學習”

2.本質差異

SFT不會動態的迭代和優化基礎模型，只是讓模型模仿一部分正確的答案然后做出回答；RFT則會動態的迭代和優化基礎模型，并且會動態迭代正確答案以便持續的完成SFT的過程，同時還會動態的優化獎勵模型，從而讓獎勵模型越來越好，進而用獎勵模型優化基礎模型；整個過程，基礎模型慢慢的掌握回答正確答案的方法，越來越聰明，相比SFT只是模仿作答有明顯的差異；

3.需要的數據量

需要大量的人工標注數據，并且SFT的效果，依賴數據規模;而RFT只需要少量的微調數據，然后利用RFT動態優化模型的機制，就可以讓模型變強大；

二、強化微調和傳統的”SFT+獎勵模型+強化學習RLHF“有什么區別？

SFT+獎勵模型+強化學習RLHF 這一套機制已經不是什么新鮮玩意了，所以當看到RFT其實就是把三者合并在一起這個觀點的時候會以為這僅僅是簡單做了一個合并然后重新包裝一個概念出來，事實上并不完全如此，如果僅僅是這樣的話，根本無法實現推理效果變得更好，認真研究了一下其中的差異，具體如下，為了方便理解，我整理了兩個邏輯圖如下：