DeepSeek相關(guān)技術(shù)概念和R1-Zero解析
發(fā)布日期:2025/1/31 12:40:43 瀏覽量:
DeepSeek相關(guān)技術(shù)概念和R1-Zero解析
DeepSeek-R1-Zero是一個(gè)未經(jīng)監(jiān)督微調(diào)(SFT)這一初步步驟,直接通過大規(guī)模強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的模型。通過強(qiáng)化學(xué)習(xí),DeepSeek-R1-Zero自然地展現(xiàn)出眾多強(qiáng)大且引人入勝的推理行為。然而,它也面臨著可讀性差和語(yǔ)言混雜等挑戰(zhàn)。**
為了解決這些問題并進(jìn)一步提升推理性能,DeepSeek推出了DeepSeek-R1,該模型在強(qiáng)化學(xué)習(xí)之前加入了多階段訓(xùn)練和冷啟動(dòng)數(shù)據(jù)。DeepSeek-R1在推理任務(wù)上的性能可與OpenAI-o1-1217****相媲美。
一、有監(jiān)督微調(diào)(SFT)
有監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)是什么?有監(jiān)督微調(diào)是指在已經(jīng)訓(xùn)練好的大型語(yǔ)言模型(如GPT、Llama等)基礎(chǔ)上,通過使用有標(biāo)注的特定任務(wù)數(shù)據(jù)進(jìn)行進(jìn)一步的訓(xùn)練,從而使模型具備在特定任務(wù)或領(lǐng)域上表現(xiàn)更好的能力**。這種技術(shù)通常涉及對(duì)模型權(quán)重的微調(diào),以最小化任務(wù)特定的損失函數(shù)。**
有監(jiān)督微調(diào)(SFT)的核心在于利用有限的標(biāo)注數(shù)據(jù),對(duì)預(yù)訓(xùn)練模型進(jìn)行精細(xì)化調(diào)整。預(yù)訓(xùn)練模型通常是在大規(guī)模無(wú)監(jiān)督數(shù)據(jù)集上訓(xùn)練的,已經(jīng)掌握了語(yǔ)言的基本結(jié)構(gòu)和知識(shí)。通過引入標(biāo)注數(shù)據(jù),模型可以針對(duì)特定任務(wù)進(jìn)行微調(diào),學(xué)習(xí)如何在該任務(wù)上進(jìn)行預(yù)測(cè)和推理。

******DeepSeek-R1為什么不使用有監(jiān)督微調(diào)(SFT)********?DeepSeek-R1摒棄了傳統(tǒng)的有監(jiān)督微調(diào)作為初步步驟的做法,**旨在通過純粹的強(qiáng)化學(xué)習(xí)(RL)來(lái)訓(xùn)練模型,以激發(fā)模型的自主學(xué)習(xí)能力。
這一理念認(rèn)為,通過讓模型在自主試錯(cuò)中學(xué)習(xí)正確的方法(即Self play),可以更符合人類的思維規(guī)則,同時(shí)提升模型的適應(yīng)性和靈活性。
DeepSeek-R1通過強(qiáng)化學(xué)習(xí)提升了自主學(xué)習(xí)能力,無(wú)需依賴大量標(biāo)注數(shù)據(jù),從而實(shí)現(xiàn)了與有監(jiān)督微調(diào)模型相媲美的推理性能,這一特性不僅降低了數(shù)據(jù)成本,還顯著增強(qiáng)了模型的適應(yīng)性。

二、強(qiáng)化學(xué)習(xí)(RL)
******強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)******是什么?強(qiáng)化學(xué)習(xí)專注于探索模型如何通過與環(huán)境的互動(dòng),利用試錯(cuò)方式學(xué)習(xí)最優(yōu)策略,旨在最大化累積獎(jiǎng)勵(lì)。
強(qiáng)化學(xué)習(xí)的核心在于模型(通常被稱為智能體)會(huì)在環(huán)境中執(zhí)行一系列動(dòng)作,并根據(jù)這些動(dòng)作所獲得的獎(jiǎng)勵(lì)來(lái)不斷優(yōu)化其行為策略。在DeepSeek中,強(qiáng)化學(xué)習(xí)被用于提升模型的推理能力。

DeepSeek-R1********************為什么使用強(qiáng)化學(xué)習(xí)(RL)?DeepSeek-R1采用強(qiáng)化學(xué)習(xí)是為了提升推理能力并減少對(duì)監(jiān)督數(shù)據(jù)的依賴,實(shí)現(xiàn)模型在復(fù)雜環(huán)境中的自我優(yōu)化與進(jìn)化。
DeepSeek-R1利用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練模型,使其能夠在特定任務(wù)環(huán)境中(如數(shù)字游戲、數(shù)學(xué)推理題等)通過不斷嘗試和反饋來(lái)學(xué)習(xí)如何改進(jìn)策略,以獲得更高的獎(jiǎng)勵(lì)。這個(gè)過程類似于人類的學(xué)習(xí)方式,即通過試錯(cuò)和經(jīng)驗(yàn)積累來(lái)逐漸掌握技能********。

三. R1的幾大特點(diǎn)
1. Group Relative Policy Optimization (GRPO) 算法
在大模型推理領(lǐng)域,大部分突破通常都依賴于大規(guī)模、精細(xì)標(biāo)注的數(shù)據(jù)。然而 DeepSeek-R1 為這一常識(shí)帶來(lái)了新的挑戰(zhàn)。它的核心假設(shè)很簡(jiǎn)約,卻不那么簡(jiǎn)單:我們能否只通過獎(jiǎng)勵(lì)信號(hào)來(lái)教會(huì)模型正確回答,從而讓它自己摸索出最優(yōu)的思考方式? 當(dāng)我們完全取消監(jiān)督微調(diào)(在 DeepSeek-R1-Zero 中),研究團(tuán)隊(duì)讓模型只依賴強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)來(lái)探索并形成自己的思維鏈。
DeepSeek-R1-Zero 采用了 Group Relative Policy Optimization (GRPO) 算法,不需要與策略模型同規(guī)模的價(jià)值網(wǎng)絡(luò),大大節(jié)省了訓(xùn)練成本。GRPO 的關(guān)鍵更新公式如下:
其中,每個(gè)樣本 ????A_i 的優(yōu)勢(shì)函數(shù) (advantage) 這樣計(jì)算:
這兩條公式就是模型學(xué)習(xí)的數(shù)學(xué)核心:通過成組采樣、對(duì)獎(jiǎng)勵(lì)進(jìn)行標(biāo)準(zhǔn)化,DeepSeek-R1-Zero 在不依賴任何手動(dòng)標(biāo)注的情況下就能逐步完善自己的策略。
2. 自發(fā)行為,模型產(chǎn)生“aha 頓悟時(shí)刻”
大規(guī)模強(qiáng)化學(xué)習(xí)給 LLM 帶來(lái)的最神奇的現(xiàn)象之一,莫過于其自動(dòng)涌現(xiàn)的復(fù)雜且自我反思的行為。DeepSeek-R1-Zero 經(jīng)過足夠多的訓(xùn)練后,居然能:
- 延長(zhǎng) 處理復(fù)雜問題時(shí)的思維鏈;
- 重評(píng) 解題思路,如果發(fā)現(xiàn)之前方法可能走不通,就會(huì)另辟蹊徑;
- 出現(xiàn) 真正的“aha 時(shí)刻”——模型會(huì)主動(dòng)退回前面的推理步驟,找出并修正自己的錯(cuò)誤。
對(duì)于那些習(xí)慣了傳統(tǒng)監(jiān)督微調(diào)的專家而言,眼見模型僅靠強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)就能“學(xué)會(huì)更好地思考”,著實(shí)令人驚艷。也因此,RL 賦予大模型自我進(jìn)化的潛力,值得我們深入探索。
DeepSeek-R1-Zero 是從基礎(chǔ)大模型出發(fā),完全不經(jīng)過任何監(jiān)督微調(diào)的數(shù)據(jù)集來(lái)訓(xùn)練的。研究團(tuán)隊(duì)主要引入了兩類獎(jiǎng)勵(lì)信號(hào):
1. 準(zhǔn)確度獎(jiǎng)勵(lì) (Accuracy Rewards):根據(jù)模型是否在數(shù)學(xué)、編程或邏輯題上回答正確來(lái)打分。
2. 格式獎(jiǎng)勵(lì) (Format Rewards):鼓勵(lì)生成具有固定格式,如<think> ... </think>這類更可讀、更易于理解的思維鏈標(biāo)記。
憑借這些獎(jiǎng)勵(lì)信號(hào),DeepSeek-R1-Zero 在 AIME 2024 數(shù)學(xué)基準(zhǔn)測(cè)試上的 pass@1 從 15.6% 飆升至 71.0%,達(dá)到與頂尖大模型不相上下的水平。更令人驚訝的是,借助多次投票(majority-vote),它竟然沖到了 86.7%,力壓 OpenAI 的 o1-0912。
為什么這很重要?
然而,這也帶來(lái)了一些問題: DeepSeek-R1-Zero 的輸出可讀性常常不佳,比如混合使用多種語(yǔ)言、格式混亂或出現(xiàn)奇怪的修飾。在這種情況下,引入“冷啟動(dòng)”數(shù)據(jù)就成了下一步的關(guān)鍵。
只要加一點(diǎn)點(diǎn)“冷啟動(dòng)”監(jiān)督數(shù)據(jù),能否解決可讀性與語(yǔ)言混雜的問題,并且讓模型在推理上繼續(xù)精進(jìn)?為此,研究團(tuán)隊(duì)制定了一個(gè)多階段的訓(xùn)練流程:
成果亮點(diǎn):
要點(diǎn): 僅用少量人工優(yōu)選數(shù)據(jù)加上大規(guī)模的 RL,就能替代不少此前需要的繁重監(jiān)督微調(diào)工作——這或許會(huì)成為未來(lái)大模型訓(xùn)練的一種關(guān)鍵模式。
什么要做蒸餾 (Distillation)? 訓(xùn)練一個(gè)像 DeepSeek-R1 這樣規(guī)模(70B)的模型需要的資源可不小,大多數(shù)實(shí)驗(yàn)室難以承擔(dān)。好在完成訓(xùn)練后的 DeepSeek-R1 可以生成海量準(zhǔn)確答案,為了讓更多小模型也能擁有類似的推理“頭腦”,研究團(tuán)隊(duì)采用了一個(gè)簡(jiǎn)單而高效的方法:把 DeepSeek-R1 生成的優(yōu)質(zhì)數(shù)據(jù)用于微調(diào)更小的稠密模型(1.5B、7B、8B、14B、32B 等)。
實(shí)戰(zhàn)結(jié)果:
- 用 Qwen 系列做蒸餾后,7B 大小的模型竟能擊敗一些更大的開源模型,特別是在數(shù)學(xué)和代碼推理上頗為亮眼。
結(jié)論: 讓小模型從零開始做大規(guī)模強(qiáng)化學(xué)習(xí),往往難以企及大模型蒸餾而來(lái)的推理水平,并且成本更高。蒸餾因此成了一個(gè)高性價(jià)比的秘密武器,能快速把大型模型的思維精華移植到小模型上。
- 過程獎(jiǎng)勵(lì)模型 (PRM):讓模型在每個(gè)細(xì)小步驟都獲得獎(jiǎng)勵(lì),理論可行但在大規(guī)模訓(xùn)練中難以準(zhǔn)確界定“一步”的正確性,也容易出現(xiàn)獎(jiǎng)勵(lì)欺騙(reward hacking)。
3. 死盯強(qiáng)化學(xué)習(xí)
- 模型自學(xué)了如何應(yīng)對(duì)各種任務(wù),無(wú)需手把手式的監(jiān)督標(biāo)注。
- 這個(gè)提升過程暗示了模型能自動(dòng)摸索反思、驗(yàn)證等學(xué)習(xí)策略,而并不需要預(yù)先提供大樣本數(shù)據(jù)。
4. 冷啟動(dòng)數(shù)據(jù)和大規(guī)模強(qiáng)化學(xué)習(xí)配合
- 最終版本 DeepSeek-R1 在數(shù)學(xué)和編程上可與 OpenAI-o1-1217 媲美。
- 在知識(shí)類基準(zhǔn)如 MMLU、GPQA Diamond 上表現(xiàn)優(yōu)異,特別擅長(zhǎng) STEM 領(lǐng)域,超越之前的 DeepSeek-V3。
5. 蒸餾,把高階推理能力賦予給小模型
- 14B 蒸餾模型更是一舉打破多項(xiàng)推理基準(zhǔn)的記錄,印證了“師父”夠厲害,“徒弟”也能青出于藍(lán)。
6. 彎路和坑
- 蒙特卡洛樹搜索 (MCTS):借鑒 AlphaGo / AlphaZero 的思路,試圖在解題時(shí)分步搜索??上У氖牵煽臻g在語(yǔ)言模型里基本無(wú)限大,很快就遭遇了指數(shù)級(jí)的復(fù)雜度和不穩(wěn)定的價(jià)值評(píng)估。
這些方法并非一無(wú)是處,但在涉及超大規(guī)模 RL 訓(xùn)練時(shí),實(shí)施細(xì)節(jié)遠(yuǎn)比預(yù)想復(fù)雜得多,也容易卡在訓(xùn)練效率的瓶頸上。
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來(lái)的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生