DeepSeek才是“真正的OpenAI”?
“DeepSeek R1 崛起,AI 開源新篇開啟?!?在 AI 模型競爭激烈的當下,DeepSeek R1 有何獨特之處?它如何實現強大性能?又為何被視為推動 AI 發展的重要力量?
“爆打奸商OpenAI?!?/p>
“DeepSeek才是真正的‘OpenAI’!”
還有人做了一幅賽博對聯:“上聯:真本事酒香不怕巷子深。下聯:不公關真金不怕火來煉。橫批:DeepSeek?!?/p>
這是昨晚推理模型DeepSeek R1發布之后的評論區,清一色為DeepSeek的叫好聲。而與此形成對比的是,大洋彼岸的OpenAI,正在遭遇o3的打假風波。有人爆料稱,o3之所以在數學基準FrontierMath上取得驚人的成績,是因為OpenAI資助了FrontierMath,并且可以訪問大部分數據集。
OpenAI的推理模型o1與o3都是閉源模型。在其網站上有關o1模型的技術原理中,有信息量的其實只有短短的一句話:o1模型通過大規模強化學習進行訓練,以使用思維鏈(chain-of-thought)進行推理。而更多的技術細節則只字未提。
而DeepSeek,則直接開源了一篇20多頁的詳細技術報告。
英偉達AI科學家Jim Fan稱贊DeepSeek是“真正開放的前沿研究,賦能所有人”,并直言Deepseek才是保持初心的“OpenAI”。
一、強化學習引導“頓悟時刻”
DeepSeek R1發布的論文中提到,提升推理能力的一種有效辦法是“后訓練”(post-training),主要包括監督微調(Supervised Fine-Tuning, SFT)和強化學習(Reinforcement Learning, RL)兩個方向。
SFT的使用是ChatGPT當初成功的關鍵,而今天的R1 Zero完全用RL取代了SFT。可以說,此次DeepSeek R1發布最大的亮點,就是“沒有監督微調下的直接強化學習”。
此次DeepSeek開源了三個系列的模型,分別是DeepSeek-R1-Zero、DeepSeek-R1推理大模型和六個稠密小模型。其中,DeepSeek-R1-Zero直接將RL應用于基礎模型而無需任何SFT數據;DeepSeek-R1從使用數千個長思維鏈(CoT)示例微調的檢查點開始應用RL;六個稠密小模型則基于Qwen和Llama,從DeepSeek-R1蒸餾得到。
DeepSeek團隊做的第一件事,就是嘗試“零監督”直接對基礎模型進行大規模強化學習訓練(即純RL),得到了 DeepSeek-R1-Zero。
具體而言,他們使用DeepSeek-V3-Base作為基礎模型,并采用GRPO作為RL框架來提高模型在推理方面的性能。它不再引入與模型同等規模的Critic網絡,而是把一次性采樣到的一組輸出互相做對比,就像讓模型在同一個問題上輸出多個答案,比較每個答案得分的高低,得分高的就學“該怎么寫”,得分低的則學“不要那樣寫”。
接著,DeepSeek團隊設計了一組基于規則的獎勵系統(包含準確性獎勵和格式獎勵兩種模型),通過不斷告訴模型“什么是好”的方式,反復訓練模型。
經過數千次RL步驟后,DeepSeek-R1-Zero的推理性能穩步提升:不僅大幅提高了在數學、編程等推理任務上的準確率,甚至學會了很多驚喜的“自發行為”,比如反思自己的答案,進行多次思考迭代等,甚至出現了“頓悟時刻(aha moment)”。頓悟時刻不僅證明了模型推理能力的不斷增長,也是對強化學習所能產生復雜結果的絕佳說明。
DeepSeek-R1-Zero中級版本的“頓悟時刻”,模型學會重新思考,并使用擬人化的語氣
報告顯示,DeepSeek-R1-Zero在AIME 2024上的pass@1分數從15.6%提高到了71.0%,通過多數投票,分數進一步提高到86.7%,與OpenAI-o1-0912的性能相匹配。
DeepSeek-R1-Zero在訓練過程中的AIME精度,圖源:DeepSeek技術報告
然而,DeepSeek的團隊發現,DeepSeek-R1-Zero的這種“自發行為”有時也帶來缺點,比如文字可讀性差、語言混亂等。為了解決這一問題,他們設計了一個四階段的流程,讓模型從“能思考”到“會表達”,DeepSeek-R1也就此誕生。
具體而言,DeepSeek團隊先收集了少量的高質量長鏈式推理數據(Long Chain-of-Thought),讓模型在上面做一個初步的監督微調(SFT)作為冷啟動;接著使用類似DeepSeek-R1-Zero的強化學習方法訓練模型;得到通過RL訓練后模型產出的較大規模推理數據和通用SFT數據后,通過“拒絕采樣(Rejection Sampling)”的方法訓練和微調DeepSeek-V3這一基座模型;最后再整體進行一次“全場景強化學習(Reinforcement Learning for all Scenarios)”,最終得到了DeepSeek R1。
冷啟動階段的引入,幫助模型跳過了純RL初期可能的混亂狀態;RL幫助模型提升了在推理任務上的表現;拒絕采樣+監督微調的方法讓模型保留了正確或可讀性高的回答,最后一輪全場景的RL則讓模型在所有場景(比如聊天友好度、禮貌性、無害性、安全性等)中盡量滿足人類偏好。
通過這種方法訓練出的DeepSeek-R1達到了世界頂尖模型的性能,從圖中可以看出,DeepSeek-R1在AIME2024上獲得了79.8%的成績,略高于OpenAI-o1-1217;在MATH-500上,它取得了97.3%的驚人成績,表現與OpenAI-o1-1217相當,并明顯優于其他模型;在編碼相關的任務中,DeepSeek-R1在代碼競賽任務中表現出專家水平,在Codeforces上獲得了2029 Elo評級,競賽中的表現優于96.3%的人類參與者。對于工程相關的任務,DeepSeek-R1的表現略優于OpenAI-o1-1217。
DeepSeek-R1在各項基準評測集上的表現,圖源:DeepSeek技術報告
不僅開源了DeepSeeK-R1,DeepSeek還直接開源了從超小模型1.5B,到70B的各種型號模型。這些小模型是DeepSeek團隊訓練好的DeepSeek-R1基礎上,用Qwen和Llama等開源模型“蒸餾”的——先使用DeepSeek-R1 作為教師模型生成800K數據,再用這些數據對幾個小模型進行微調。相當于把老師的推理思路“蒸餾”到了學生身上。
小模型的性能同樣令人驚喜:DeepSeek-R1-Distill-Qwen-1.5B在數學基準測試上優于GPT-4和Claude-3.5-Sonnet,在AIME上得分為28.9%,在MATH上為83.9%;其32B和70B的模型在多項能力上更是實現了對標OpenAI o1-mini的效果。
DeepSeek-R1-Distill-Qwen-7b全面優于GPT-4o-0513等非推理模型 圖源:DeepSeek技術報告
蒸餾模型和強化模型在推理相關基準上的比較,圖源:DeepSeek技術報告
綜上,DeepSeek-R1展現了一種非常清晰的模型訓練思路——數據即模型。DeepSeek-R1-Zero很可能只是用來給DeepSeek-R1生成推理數據的,而“數據的調配”是DeepSeek-R1訓練過程中平衡不同任務策略的基石。此外,DeepSeek-R1的超強性能也證明了模型的能力仍未見底,而特定的數據是進一步挖掘模型能力的關鍵。
二、大道至簡:用Rule-based寫一封給RL的情書
除了“數據即模型”的訓練思路,DeepSeek-R1另一個突出的價值或許在于,它證明了“基于一個很強的模型、用最簡單的Rule-based獎勵來做RL、經過大量訓練,也能達到最強推理模型的效果”。
一個系統越簡潔就意味著實現難度越大。正如AlphaGo早期也是走類似SFT的“監督學習(Supervised Learning,SL)”的路線,后來經歷了三個版本的迭代后,才推出了無需人類棋譜、可以自我對弈訓練的AlphaGO Zero和Alpha Zero,轉向了完全的強化學習(RL)。
Rule-based(基于預定義規則的決策方法)是大模型在做可證實任務(verifiable task)中最直觀、也是最可靠的獎勵方式,但同時也是最難的——正是因為規則簡潔,所以模型在外界找不到足夠多的獎勵信號,難以通過試錯找到有效的策略。
因此,在復現OpenAI o1的道路上,眾多模型廠商一直在艱難探索什么樣的獎勵方式才是更適合強化學習的——
早期過程獎勵模型(PRM)是各大廠商的首選,但是由于其依賴高質量的人類偏好數據、數據收集和標注的成本極高,且訓練不穩定、容易發生Reward Hacking(獎勵破解,指智能體通過利用獎勵函數的設計缺陷,找到一種非預期的方式最大化獎勵,而不是真正完成目標任務)現象,后來被很多團隊棄用;
后來人們又探索出了基于結果的獎勵模型(ORM),比如OpenAI在開發InstructGPT時將ORM用于評估生成文本的質量,Qwen、Eurus、Moss模型在RLHF階段也會采用ORM來確保生成的內容的流暢性和安全性。但是ORM難以捕捉復雜的、隱式的獎勵信號,而且在某些主觀性強的任務下可能也無法準確反映真實目標。
此外,像逆強化學習獎勵模型(Inverse Reinforcement Learning, IRL)、分層獎勵模型(Hierarchical Reward Model)等其他的獎勵模型也各有各的問題。
在訓練DeepSeek-R1系列模型的的過程中,DeepSeek同樣遇到了此類問題。比如他們在嘗試過程獎勵模型(PRM)的時候,發現雖然模型在重新排序模型生成的前N個回答或協助引導搜索方面表現出一定的能力,但在大規模強化學習過程中的優勢是有限的;再比如,在嘗試蒙特卡洛樹搜索(MCTS)的過程中,遇到了搜索空間爆炸、價值模型訓練困難等重大挑戰。
因此,行業的風向也在逐漸回歸Rule-based,但前提是,要給定足夠多的Query(問詢),以確保Rule-based過程中對于各種突發情況的覆蓋,才能減少偏差,增強模型的泛化性和通用性。
比起其他廠商,DeepSeek做Rule-based有一個巨大的優勢——他們不僅擁有足夠強的基座模型(DeepSeek-V3),其DeepSeek-Math/DeepSeek-Coder系列模型更是在多年做量化投資的過程中積累了大量數據,可以很好地用Rule-based的方法,在大量訓練的基礎上實現更好的推理效果。
正如NLP科學家Casper Hensen在X上發帖表示,“我的大腦拒絕接受這個強大模型的訓練過程竟然可以如此簡單”。但他拒絕接受的事實確實在DeepSeek身上發生了。
三、真正的開放AI在中國?
從2024年9月OpenAI發布o1-preview到現在,僅僅過去了不到四個月,市場上媲美甚至超越其性能的推理模型就已遍地開花:
- 2024年11月17日,Kimi發布數學推理模k0-math;
- 2024年11月20日, DeepSeek發布 R1-lite-preview;
- 2024年11月27 日,Qwen發布Qwen/QwQ-32B-Preview;
- 2024年12月19日, Google發布 Gemini 2.0 Flash Thinking;
- 2025年1月20日,DeepSeek發布R1系列模型;
- 2025年1月20日,Kimi發布k1.5多模態思考模型。
在這眾多的模型之中,DeepSeek不僅率先實現了媲美OpenAI-o1模型的效果,更是將推理模型的成本壓縮到了極低——基于R1模型的DeepSeek Reasoner每百萬輸入token成本為0.55美元(4元/百萬tokens),每百萬輸出token成本為2.19美元(16元/百萬tokens),相比OpenAI-o1的每百萬輸入token成本為15美元、每百萬輸出token成本為60美元,下降了約95%;
DeepSeek R1 API價格,圖源:DeepSeek
DeepSeek R1模型與o1類推理模型輸入輸出價格對比,圖源:DeepSeek
這樣的價格策略,不僅為中小企業帶來了希望,還傳遞出一個信號:AI不再是少數精英企業的專屬,它將成為全球各行各業的基礎工具。
低價還只是其次。更重要的是,DeepSeek R1系列模型,是開源的?!伴_源”這兩個字對很多人來說,是“技術自由”的代名詞,OpenAI創立的初衷,也是作為一家非營利組織,希望“以最有可能造福全人類的方式推進數字智能發展,而不受產生財務回報需求的限制?!比欢?,由于商業化壓力、對模型濫用的擔憂、構筑技術壁壘、內部價值觀沖突等等的原因,OpenAI在GPT-3發布之后限制了對模型的訪問權限,僅通過API提供服務,在GPT-4發布之后更是隱藏了其訓練數據和模型權重、完全走向了“閉源”。這極大背離了其創立時的初衷,也讓人們在探索AGI的道路上多了些波折。
盡管OpenAI的做法有其自己的考量,但人類需要開源。
開源不僅是技術上的“開放”,更是對商業和產業鏈上下游合作的重新定義。它為更多創新提供了誕生的土壤,也讓全球的開發者可以共同參與進來,探索人工智能的下一個邊界。而DeepSeek開源的選擇,正是這種“美美與共”精神的體現。
換句話說,DeepSeek-R1的低價和開源戰略,實際上在構建一個更加開放和包容的AI生態。而在DeepSeek等開源模型廠商的共同努力下,一個全人類共同為AGI奮斗的時代,似乎離我們不遠了。
作者|王藝?? 編輯|趙健
本文由人人都是產品經理作者【甲子光年】,微信公眾號:【甲子光年】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!