DeepSeek-R1 登上《Nature》封面：只花了 200 萬，沒蒸餾 OpenAI

本文作者：梁丙鑒

2025-09-18 14:57

導語：DeepSeek-R1 又開先例，成為首個登上《Nature》封面的中國大模型。

雷峰網訊 DeepSeek-R1 又開先例，成為首個登上《Nature》封面的中國大模型。

2025 年春節，DeepSeek-R1 橫空出世，因其極低的訓練成本引發病毒式傳播。八個月過去，這一成果帶著 Nature 的金字招牌再次回到公眾視野中央，只為一件事：技術透明。

這篇名為 DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning 的《Nature》封面論文由創始人梁文鋒擔任通訊作者。文中首次確認了此前流傳的DeepSeek R1 訓練成本，約 29.4 萬美元，折合人民幣約 208 萬，并進一步披露了模型訓練中采用的數據類型、強化學習方案等技術細節。

在揭開這一里程碑式大模型的面紗之外，這篇論文更大的意義，是 DeepSeek-R1 作為全球首個經歷了同行評審的大語言模型，將大模型研究推向了更透明、可重復的方向。

此前業內通行的做法，是科技公司在自家官網、論文預印本網站 arXiv或知名技術論壇上發布突破性成果及基準測試分數，大部分模型 API 隨后即向公眾開放。這一過程繞開了傳統學術評價體系中的同行評審環節，而 DeepSeek 團隊則主動接受了這一來自學術界的審視。

根據《Nature》公布的補充信息顯示，評審意見主要集中在實驗評估、模型安全性和倫理風險等方面，要求補充 OOD（分布外）測試、中間階段性能分析、誤用討論等工作。正是針對上述同行評審意見，DeepSeek 團隊才增加了對數據類型等訓練細節的披露，并進一步證明了成果的安全性。

“這是一個非常值得歡迎的先例，“論文評審之一，Hugging Face 機器學習工程師 Lewis Tunstall 表示，”如果我們沒有公開分享這一過程大部分內容的規范，那么將很難評估這些系統是否構成風險。“

公開訓練細節，回應“蒸餾”質疑

那么在最新版本的論文中， DeepSeek 團隊都補充了 R1 的哪些訓練細節呢？

首先是訓練成本，此前曾震動華爾街的 29.4 萬美元數據終于得到證實。

DeepSeek-R1 登上《Nature》封面：只花了 200 萬，沒蒸餾 OpenAI

據補充材料介紹， DeepSeek-R1 的研究工作分為三個階段。

第一階段使用 A100 GPU 對 30B 參數的小模型進行實驗預研，因結果表現良好，使團隊有信心將規模擴大至 660B 參數的 R1-Zero 和 R1。

第二階段的成果是 DeepSeek-R1-Zero，研究團隊動用了 512 塊 H800 GPU，耗時約 198 小時。

最后是 DeepSeek-R1，仍然采用 512 塊 H800 GPU 的配置，但僅用時 80 小時便宣告完成。

在訓練數據構成方面， DeepSeek-R1 采用了數學、編程、STEM、邏輯四大類題目。

其中數學數據集由 2.6 萬道定量推理題構成，涵蓋數學考試和競賽題目，模型需逐步推理并給出最終正確答案。

編程數據集由 1.7 萬道算法競賽題與 8 千道 Bug修復題構成，其中后者全部來自真實的GitHub issue，數據集提供問題描述、含缺陷源碼與部分失敗的單元測試，要求模型定位并修復缺陷，使代碼通過全部測試。

STEM 數據集由 2.2 萬道選擇題構成，覆蓋物理、化學、生物等學科，模型需選出最科學準確的答案。

邏輯數據集由真實問題和合成問題共 1.5 萬題構成。

此外 DeepSeek 團隊還引入了通用 RL 數據以提升 DeepSeek-R1 的有用性與無害性。在訓練過程中，研究人員采用了兩個獨立訓練的獎勵模型，一個針對“有用”排序數據訓練，涵蓋創意寫作、編輯、事實問答等領域的 6.6萬題，一個針對“無害”排序數據訓練，由1.2 萬題構成。

特別值得一提的是，在最新版論文中，DeepSeek 團隊正面回應了此前關于 R1 蒸餾 OpenAI 模型的質疑。

研究團隊專門為此設計了一項試驗，使用 Qwen2-7B 作為基礎模型時，通過大規模強化學習進行訓練，該模型同樣可以自主發展出各種先進推理策略。而 Qwen2-7B 的發布時間為 2024 年 6 月，顯然早于所有公開的推理模型。蒸無可蒸，推理能力的優化自然源于 DeepSeek-R1 開創的強化學習方法。

DeepSeek-R1 的另一大特征是在推理過程中更頻繁地使用“我”和“我們”等第一人稱代詞。值得一提的是，這種效果是通過精心設計的冷啟動數據所實現。

論文中介紹，研究團隊發現當推理過程符合第一人稱視角的思維模式時，用戶會認為其回應更直觀且具有吸引力。為此，研究團隊要求標注人員將推理軌跡轉換為更自然、更貼近人類對話風格的表達，并以此作為示例提示大語言模型以類似風格重寫更多。

在如此收集到的數千條 CoT 數據中進一步篩選出最終答案正確且格式清晰的，就得到了簡潔、可讀性強，既包含推理步驟，也涵蓋最終結果的高質量冷啟動數據。

雙重里程碑

時隔八個月再次回顧，DeepSeek-R1 因何成為大模型史上里程碑式的論文？

有一部分答案藏在訓練成本里。DeepSeek-R1 29.4 萬美元的訓練成本不僅只有當時同等規模模型的十分之一，而且其中僅有 1 萬美元被用于構建 SFT 數據集。這意味和同行相比，它背后砍掉了大規模的監督微調。

屬于人類的能力，也向人類學習，監督微調曾經是提升模型推理能力的共識。但它的局限性也很明顯，對人類標注推理軌跡的依賴顯著增加了模型訓練成本，限制了可擴展性，人類的認知偏見也在向模型滲透。

更引人深思的問題是，復制人類思維過程真的是硅基推理的最優解嗎？是否存在一種更優越的、非人類思維的推理方式？如果答案是肯定的，那一定在人類示例之外。

正是在這樣的背景下，DeepSeek-R1 提出了一種通過純粹強化學習實現推理能力自我進化發展的路徑，以擺脫對人工標注推理軌跡的依賴。

具體而言，研究團隊基于 DeepSeek-V3 Base，并使用組相對策略優化（GRPO）作為強化學習框架。在全新的訓練范式下，僅對最終答案的正確性進行獎勵，而不對推理過程本身施加約束。簡單來說，就是推理方式不限，能抓到耗子就是好貓。

這種訓練方案設計和研究團隊的假設一脈相承：人類定義的推理模式可能會限制模型探索，而不受限制的強化學習訓練能更好地激勵 LLMs 中新型推理能力的出現。

實驗結果表明，DeepSeek-R1-Zero 的確自然地發展出了多樣化和復雜的推理行為。為解決推理問題，它表現出了生成更長響應的傾向，并且存在在每個響應中包含驗證、反思和探索替代方法的趨勢。

“盡管我們沒有明確地教模型如何推理，但它通過強化學習成功學習了改進的推理策略。”論文指出。

展現出強大推理能力的同時，DeepSeek-R1-Zero 在可讀性差和語言混雜等方面仍存在挑戰。這一問題的根源在于 DeepSeek-V3 Base 是在多種語言上完成訓練，為此 DeepSeek-R1 的開發被提上日程。

這一次，研究團隊不僅通過多階段強化學習訓練改進模型在對話式推理過程、語言一致性以及人類偏好對齊方面的表現，而且在拒絕采樣和監督微調環節將推理和非推理數據集都納入 SFT 過程，這一設計使 DeepSeek-R1 不僅能在推理任務中表現出色，還展示出了高級的寫作能力。

基準測試結果顯示，脫胎于全新訓練范式下的 DeepSeek-R1 在 MMLU、C-Eval、GPQA Diamond、Arena-Hard、SWE-bench Verified、AIME 2024 上均表現出色。而更直接的例子，則是在 2025 年春節之后的一段時間里，DeepSeek-R1 幾乎成為了國產大模型的代名詞。

LLMs 的推理能力可以通過純 RL 進行激勵，無需人工標注推理軌跡的參與。這一今天已成為共識的創想，最初就是經由 DeepSeek-R1 所實現。DeepSeek 團隊在此基礎上構建的 RL 框架，也促進了自我反思、驗證和動態策略適應等高級推理模式的涌現。

而今天，這一突破性成果經受住了學術出版審查。主動接受專家評審的拷問，補充材料說明技術細節，并最終作為頂刊封面論文刊發……如果說 DeepSeek-R1 的初次發布是一個關于前沿技術突破的故事，那么時隔八個月之后，這個故事的關鍵詞變成了學術透明和技術開放。

補充各種技術細節之后，《Nature》最新這篇封面論文堪稱“手把手教你訓 R1”。它讓我們看到頭部科技企業的核心成果不是只能封裝成語焉不詳的黑盒提供給用戶，而是也可以拿到同行評審面前接受審視，以及更重要的，給出符合學術規范的解釋和回應。

商業化考量讓 OpenAI、Google 等科技巨頭紛紛和傳統的學術審查保持距離，這本無可非議，但是當 DeepSeek-R1 真的成為了可復現、可驗證的學術成果，這種對技術開放性的追求無疑也讓研究團隊的選擇更加可敬。

在雙重意義上，DeepSeek-R1 都堪稱里程碑。

參考資料：

https://www.nature.com/articles/s41586-025-09422-z#ethics

https://www.nature.com/articles/d41586-025-03015-6

雷峰網(公眾號：雷峰網)文章

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

梁丙鑒

編輯

發私信

當月熱門文章