DeepSeek_r1_閉門學(xué)習(xí)討論_ 拾象0127
發(fā)布日期:2025/1/30 15:40:21 瀏覽量:
DeepSeek r1 閉門學(xué)習(xí)討論| Best Ideas Vol 3 From:Shixiang To: Shixiang Friends 「Best Ideas 閉門討論會(huì) Vol.3」
聚焦在引爆全球 AI 社區(qū)的 DeepSeek r1 ,本篇紀(jì)要是我們對(duì) 閉門會(huì)上參與討論的嘉賓成員的觀點(diǎn)的總結(jié),不代表任何具體個(gè)人及機(jī)構(gòu)觀點(diǎn)立場(chǎng)。
I. DeepSeek
1. DeepSeek 有好口碑的原因在于是第一個(gè)把復(fù)現(xiàn) MoE、o1 等發(fā)出來(lái),勝在做的早,但能 不能做的最好,空間還很大,和新挑戰(zhàn)在于資源有限,只能把有限的資源放在最亮眼的 地方,但后續(xù)可能沒(méi)有精力去做得更好,比如 MoE,這個(gè)團(tuán)隊(duì)的 research 能力、團(tuán)隊(duì)文 化還是很好的,如果再給 10、20 萬(wàn)張卡,可能能做出更好的事情。
2. DeekSeek 從 preview 到正式發(fā)布這段時(shí)間,長(zhǎng)上下文能力提升很快。DeepSeek 的 Long context 10K 用非常常規(guī)的方法就能夠做到。
3. DeepSeek 肯定沒(méi)有 5 萬(wàn)張卡,公開信息說(shuō)有 1 萬(wàn)張老的卡,可能有 3 千張禁令之前的 H800,DeepSeek 很注重合規(guī),所以卡應(yīng)該很少。美國(guó)用 GPU 的方式太粗放了。
4. DeepSeek 把所有精力都放在了一個(gè)很窄的點(diǎn),把后續(xù)很多東西都放棄了,比如安全、多 模態(tài)等,不是單純?cè)诜?wù)人,而是做智能本身,可能也是成功的關(guān)鍵因素。
5. DeepSeek 有一個(gè)文章是由文生圖做圖生文做耦合的學(xué)習(xí)。
6. 量化就是 DeepSeek 的商業(yè)模式。幻方就是上一輪 machine learning 的產(chǎn)物。DeepSeek 最 重要的事就是 push 智能。錢和商業(yè)化的優(yōu)先級(jí)都不高。中國(guó)需要有幾個(gè)領(lǐng)先 lab 來(lái)做探 索能 beat OpenAI 的東西,智能要走的時(shí)間很長(zhǎng),今年又開始分化,肯定要有新東西出 來(lái)。
7. 單從技術(shù)角度,DeepSeek 作為黃埔軍校對(duì)人才擴(kuò)散有很大作用。
8. 美國(guó)的 AI Lab 商業(yè)模式也不好,AI 今天確實(shí)沒(méi)有什么好的商業(yè)模式,后面可能需要跑 通。梁總是有抱負(fù)的,DeepSeek 不在乎形態(tài),往 AGI 走就是了。
9. 梁總是 DeepSeek 最核心的人,和 Sam 不是一類人,梁總是很懂技術(shù)的。
10. 讀完 DeepSeek 論文的感受是,很多都是節(jié)約硬件開銷的 tech,在比較大的幾個(gè) scaling 方向上,DeepSeek 的技巧可以把成本降下來(lái)。
11. 長(zhǎng)期不會(huì)對(duì)算力有影響,但短期大家會(huì)想怎么把 AI 做的更加有效率一點(diǎn)。需求還是很強(qiáng) 的,各家都是不夠用的狀態(tài)。
12. 做投資,都選擇最高級(jí)的組合,但現(xiàn)在覺(jué)得大家一起磨合好,能力也能慢慢變高級(jí)了, 挖走一個(gè)人是否能打破優(yōu)勢(shì)組合是一個(gè)問(wèn)題,現(xiàn)在看對(duì)于 DeepSeek 的影響可能不是特別 大。
13. 市場(chǎng)上錢還是多,核心是文化組織,DeepSeek 和字節(jié)的 research culture 比較像,比較 fundamental,文化好不好的衡量標(biāo)準(zhǔn)在于是否有足夠的錢和長(zhǎng)期性,有比較重要的商業(yè) 模式才能有長(zhǎng)期性的文化,這兩家公司的商業(yè)模式都非常好。
14. DeepSeek 為什么能追這么快?
1) Reasoning model 的需求是更高質(zhì)量的數(shù)據(jù)和訓(xùn)練。如果是長(zhǎng)文本、多模態(tài),從 0 開始 追一個(gè)閉源模型會(huì)更困難,但純 reasoning 模型本身的架構(gòu)沒(méi)有大動(dòng),reasoning 是一個(gè) 更好追的方向。
2) r1 能追的快的原因可能在于任務(wù)沒(méi)有特別難,RL 只是讓模型選的更準(zhǔn),r1 沒(méi)有突破 Consensus 32 的效率,同時(shí)花了 32 倍效率,相當(dāng)于把原來(lái)并行做探索改成串行了,沒(méi) 有提高智能的邊界,只是變得更加容易了。
II. DeepSeek 出圈的影響
1. DeepSeek 的出圈讓外界意識(shí)到了中國(guó)的 AI 很強(qiáng)。以前外界認(rèn)為中國(guó)的 AI 進(jìn)展落后美國(guó)兩 年,但 DeepSeek 表明其實(shí)差距在 3-9 個(gè)月,甚至某些方面更強(qiáng)。
2. 有可能導(dǎo)致美國(guó)的政策對(duì)中國(guó)的政策更加不利,但歷史上封鎖的東西,能被突破的都會(huì)很 卷,美國(guó)的封鎖可能給 AI 多三年窗口期。
3. DeepSeek、小紅書等公司也受到美國(guó) VC 關(guān)注,中國(guó)資產(chǎn)的重組值得關(guān)注。
4. DeepSeek 做的事大概率是在不利用 H800 或者 A800 算力的前提下,用純國(guó)產(chǎn)來(lái)做,如果 能做成,會(huì)有很大影響。
5. DeepSeek 不是突然爆發(fā)的,這次 r1 結(jié)果很漂亮,觸及到了美國(guó)從上到下的核心圈。
6. DeepSeek 是站在巨人的肩膀上,但探索前沿需要的時(shí)間和人力成本還是要高很多,r1 并不 代表以后的訓(xùn)練成本會(huì)同時(shí)降低。
7. 中國(guó)作為追趕者可以發(fā)揮在 engineer 的能力,中美在算力的 gap 會(huì)越拉越開的,AI 探索者 還是需要更多的算力,中國(guó)怎么用較少的算力做出成果,從而有一定的抵御能力甚至做的更 好,可能是未來(lái)中美 AI 格局的推演。
8. 模型的核心差別在于下一個(gè)愿景是什么,而不是技術(shù)。
1) 中國(guó)今天還是在復(fù)現(xiàn)技術(shù)方案,reasoning 是 o1 提出的,差距在于誰(shuí)能提出下一個(gè) reasoning。無(wú)限長(zhǎng)度的 reason 可能是一個(gè)愿景。
2) 如果不了解最大技術(shù)的痛點(diǎn),而選擇用蒸餾的技術(shù)去避免了解,那在下一代技術(shù)提出的 時(shí)候,可能會(huì)掉進(jìn)坑里,比如千問(wèn)可能因?yàn)檎麴s太多,就掉坑里了,千問(wèn)就想是不是對(duì) 過(guò)程進(jìn)行監(jiān)督,所以嘗試了一下過(guò)程監(jiān)督,但直接用結(jié)果監(jiān)督更合適。若直接用結(jié)果監(jiān) 督,前一個(gè)階段的 SFT 就不能蒸餾太多 data。
III. SFT
1. DeepSeek 最大的震撼是不需要 SFT 了,但只是在推理層面,推理外可能還是需要的,但需 要討論是不是提出了一個(gè)新的范式或架構(gòu),使得對(duì)數(shù)據(jù)的利用效率更高了或者模型迭代速度 更快。
2. DeepSeek 證明了用 SFT 做蒸餾有很大好處。DeepSeek r1 的第三步驟只做了 SFT,最后一 步 alignment 再用了 LHF。r1 本質(zhì)是 SFT 訓(xùn)練出來(lái)的,特殊的是數(shù)據(jù)是用 LHF 訓(xùn)練出來(lái)的模 型生成的,說(shuō)明不需要用特別復(fù)雜的方法,只要有足夠好的方法,只需要用 SFT 蒸餾就行, GRPO 的本質(zhì)在于 base model 得足夠聰明,一個(gè) prompt 生成用了 16 個(gè) generation,得嘗試幾 次才能大概率有正確的答案。不錯(cuò)的 base model 加上可以 verify,是 r1 提供的思路,math 和 coding 就是比較容易 verify 的。
3. r1 - Zero 沒(méi)有用 SFT 就出現(xiàn)了 CoT 的過(guò)程,CoT 會(huì)越來(lái)越長(zhǎng),SFT 更像是一個(gè)輔助手段, 沒(méi)有 SFT 也能產(chǎn)生,有了 SFT 能很快生成。
4. 現(xiàn)在很多小模型廠商可以用 SFT 去蒸餾大模型,效果會(huì)很好,但也沒(méi)有在 r1 的過(guò)程中完全 被拋棄。無(wú)限長(zhǎng)的 CoT 是一臺(tái)圖靈機(jī),是可以解決問(wèn)題的,但 CoT 本質(zhì)上只是中間搜索結(jié) 果,用一種優(yōu)化的方式去不停 sample potential output,可能會(huì)輸出正確結(jié)果,然后讓模型往 更可信的方向去推。本質(zhì)上是模型為了得到這樣的結(jié)果,必須要做一些 computation,CoT 是 computation 中間必須經(jīng)過(guò)的中間輸出。
5. 模型不是真的和人一樣在搜索,只是作為模型圖靈機(jī),中間會(huì)輸出,DeepSeek 有做 Longto-short CoT 的一些提升,CoT generation 的時(shí)候也會(huì)把超長(zhǎng)的 CoT 去掉,猜測(cè)最后發(fā)布的版 本可能是用了更加 clean 的 CoT。
6. SFT 的數(shù)據(jù)種類有幾種:一個(gè)是冷啟動(dòng)的數(shù)據(jù),更像是給模型一個(gè)很好的策略,給一個(gè)比 較好的初始化,這樣能做的探索更好,RL 中有一個(gè)優(yōu)化目標(biāo)是和原策略更接近;另一種數(shù)據(jù) 是做了 RL 之后,生成很多 data,再加上別的數(shù)據(jù),再在 base model SFT,本質(zhì)上每個(gè) domain 有自己的 data processing pipeline 之類的,這個(gè)數(shù)據(jù)的能力是從 base model 來(lái)的,蒸餾 是無(wú)損的,把多個(gè) domain 放到一起可能會(huì)有泛化。
7. 不確定 r1 這個(gè)過(guò)程的數(shù)據(jù)效率怎么樣。猜測(cè) OpenAI 針對(duì)數(shù)據(jù)效率也做了類似的事情,比 如 fine tuning。r1 第三階段沒(méi)有用 RL 做出來(lái)的模型作為 base 去訓(xùn)練,而是去生成了數(shù)據(jù), 再去 SFT 得到 r1,數(shù)據(jù)包含 600K 的 reasoning data 和 200K non-reasoning data。第二階段的 模型可能在 example 的 domain 之外但仍然需要某種 reasoning 的場(chǎng)景下,可能也能展示解題 能力,從而得到 reasoning data。而 non reasoning data 是 V3 SFT data 的一部分,是讓 V3 腦補(bǔ) 出了一個(gè) CoT。800K 的數(shù)據(jù)還是挺小的,挺有效率的。
IV.數(shù)據(jù)
1. Scale.AI 不一定會(huì)失敗,現(xiàn)在需要在各種 domain 上做 RL,比較常用的是 math 和 coding, 還是需要 expert 來(lái)標(biāo)注,但數(shù)據(jù)標(biāo)注可能會(huì)更復(fù)雜,但市場(chǎng)會(huì)存在。
2. 在 training 上,多模態(tài)數(shù)據(jù)幾乎看不出效果,或者說(shuō)成本太高了,今天還沒(méi)有任何證據(jù)說(shuō) 有用,未來(lái)機(jī)會(huì)可能比較大。
3. DeepSeek 在數(shù)據(jù)標(biāo)注上非常重視,特斯拉的標(biāo)注成本是中國(guó)的自動(dòng)駕駛的 20 倍。特斯拉 的機(jī)器人的動(dòng)作是找的小腦非常健康的人做的標(biāo)注,絲滑程度很好,而中國(guó)找的人的絲滑程 度很差。
V. 蒸餾
1. 大模型和小模型能力是不匹配的,從大模型往小模型進(jìn)行蒸餾是真的蒸餾,teacher to student,如果從完全不會(huì)中文的模型蒸餾各種中文數(shù)據(jù),性能可能會(huì)下跌。但實(shí)際上蒸餾小 模型確實(shí)有很明顯的性能提升,r1 蒸餾出來(lái)后的模型再做 RL 會(huì)增長(zhǎng)很多,因?yàn)槭怯煤湍P?不匹配的數(shù)據(jù)做出來(lái)的。
2. 蒸餾的壞處是模型 diversity 下降,影響模型上限,無(wú)法超越最強(qiáng)的模型。但短期看,蒸餾 也是一條路線。
3. 用蒸餾會(huì)有一些 hack,早期一般在 instruction 調(diào)過(guò)的模型做 RL,這個(gè)階段模型會(huì)呈現(xiàn)出的 特征是,先生成沒(méi)有用的想法,然后最后突然答對(duì),原因在于很多 RL 的 hack 非常隱晦,模 型可能在預(yù)訓(xùn)練的時(shí)候把很多問(wèn)題給背了,明面上是在思考,其實(shí)只是在靠近背的題。如果 不做標(biāo)注就蒸餾,那現(xiàn)在做 RLVR 的時(shí)候,就會(huì)導(dǎo)致模型會(huì)用更簡(jiǎn)單的方式解決,而不是去 思考這個(gè)問(wèn)題 OpenAI 也沒(méi)有解決??赡苁沁@一代技術(shù)的缺陷。
4. 長(zhǎng)期來(lái)說(shuō),通過(guò)走 shortcut 的方式,而沒(méi)有自己通過(guò)愿景去想怎么做技術(shù)方案,而是直接 復(fù)現(xiàn),中間可能會(huì)有不知道的坑。比如在這一代技術(shù) long context 沒(méi)有質(zhì)變的前提下,解決問(wèn) 題的上限可能會(huì)被限制。r1-zero 可能是一個(gè)正確的方向,從頭就做 r1-zero 或不通過(guò)類 o1 的 數(shù)據(jù)啟動(dòng)可能更好。照著別人的技術(shù)方案可能不太好,希望更多探索。
5. 其他模型用蒸餾也能得到較好的結(jié)果,未來(lái)可能就會(huì)區(qū)分 teacher、學(xué)生,當(dāng)好學(xué)生也是一 種可以的商業(yè)模式。
6. 在蒸餾和技術(shù)路線上,r1 帶來(lái)的震撼不如 AlphaGo,但在商業(yè)上,出圈能力比 AlphaGo 要 好很多。
1) 蒸餾分兩個(gè)階段,如果只是蒸餾 o1 或者 r1,而沒(méi)有建立自己的體系和 verifiable reward, 會(huì)導(dǎo)致大家越來(lái)越依賴蒸餾,但通用領(lǐng)域是不可能蒸餾的,因?yàn)?reward 無(wú)法得到,以及 在蒸餾過(guò)程中特殊的 CoT 怎么得到。而且第一階段的蒸餾都有痕跡,用 OpenAI 蒸餾的 模型可能遺留了 OpenAI 大量的退火痕跡,為什么 zero 能夠在純 RL 階段上獲得這樣的能 力,這是和基礎(chǔ)模型在退完火之后具有反思能力是有直接關(guān)系的。
2) 不太相信純互聯(lián)網(wǎng)的數(shù)據(jù)而不經(jīng)過(guò)退火的模型能做到這樣的行為,因?yàn)榛ヂ?lián)網(wǎng)上幾乎沒(méi) 有高質(zhì)量數(shù)據(jù)。
3) 目前可能只有幾個(gè) top Lab 在探索到底需要多少退火階段的數(shù)據(jù)和數(shù)據(jù)配比。蒸餾與否都 是 RL 算法的一種,SFT 是行為模仿,是無(wú)限的強(qiáng)化學(xué)習(xí),但只做 SFT 的上限很低,而 且會(huì)損害多樣性。
7. 一級(jí)市場(chǎng)上的創(chuàng)業(yè)公司看見(jiàn) DeepSeek 還是很激動(dòng)的,如果后續(xù) DeepSeek 還能繼續(xù)迭代, 對(duì)于不是大的上市公司來(lái)說(shuō),使用 AI 上會(huì)有非常大的靈活性,DeepSeek 還蒸餾了幾個(gè)小版 本可以在手機(jī)上用起來(lái),如果這個(gè)方向被證明,對(duì)于很多 AI 應(yīng)用會(huì)提高天花板。
8. 蒸餾很重要的是確定目標(biāo)是什么,OpenAI 是沒(méi)有數(shù)據(jù)蒸餾的,要超過(guò) OpenAI 是肯定不能 做蒸餾。
9. 未來(lái)可能模型需要像人類一樣學(xué)會(huì)跳步回答,在固定 context 長(zhǎng)度下,能否提高 performance 上限。
VI.Process Reward
1. Process Reward 不一定不行,但 Process Reward 可能容易被 reward hack,也就是模型沒(méi)學(xué) 到什么,但能把 reward 做的很高。如果解決數(shù)學(xué)問(wèn)題,用模型生成 1000 個(gè) generation,可能 就是沒(méi)有 1 個(gè)能靠近正確答案,那用類似 RLVR 的方式是沒(méi)有辦法訓(xùn)練到任何東西的,如果 這時(shí)候有個(gè)還可以的 process reward,可能能接近正確方向,過(guò)程分也是有幫助的。要看解決 問(wèn)題有多難、過(guò)程 reward 有多可靠等。
2. 過(guò)程分在 PRM 估算中,如果和真實(shí)有偏差就很好 hack。過(guò)程監(jiān)督理論上是可能的,問(wèn)題 在于 process 的力度,以及基于 process 力度怎么給到 reward,現(xiàn)在結(jié)果監(jiān)督也是用抽取出來(lái) 的答案去做匹配,各家也沒(méi)有很成熟的讓模型打分而不 hack 的方案,模型自己迭代是最容易 hack 的。標(biāo)過(guò)程也不難,可以枚舉的,只是大家沒(méi)有做,可能是一個(gè)有前途的方向。
3. 過(guò)程監(jiān)督上限是人,人很多是想不到的。結(jié)果監(jiān)督才是模型的上限。
4. AlphaZero 比較有效的原因在于棋局終局的時(shí)候是可以做輸贏判斷的,而且整個(gè) reward 是 可以根據(jù)勝率計(jì)算,但是 LLM 不知道最后不停生成能不能給出答案,有點(diǎn)類似遺傳算法, 上限可能更高,但也有可能 hack 不到。
5. AlphaGo 到 AlphaZero 的一個(gè)優(yōu)勢(shì)是圍棋的規(guī)則是固定的,現(xiàn)在模型從 math 和 coding 開始 就是因?yàn)楸容^容易驗(yàn)證,驗(yàn)證的方法是不是足夠好會(huì)影響最后 RL 的質(zhì)量。規(guī)則得足夠完 善,不然模型會(huì)去 hack,模型能滿足規(guī)則,但生成的結(jié)果不是想要的。
VII. 探索者 VS 追趕者
1. AI 類似階躍函數(shù),現(xiàn)在做追趕者的算力需求少了 10 倍。追趕者的算力成本一直不太高, 但探索者還是要訓(xùn)很多模型,大家對(duì)于新算法和架構(gòu)的探索不會(huì)停止。階躍函數(shù)背后其實(shí)是 有很多人投入了很多,所以算力投入還是會(huì)一直往前,還會(huì)有很多人投在產(chǎn)品上。除了 reasoning 之外,還有很多方向也很費(fèi)卡。探索者花費(fèi)很多卡可能大家看不到,但沒(méi)有這么多 花費(fèi),可能不會(huì)有下一個(gè)階躍。也有很多人不滿足架構(gòu)、RL 方法,會(huì)不斷往前推進(jìn)。
2. 在探索方向的時(shí)候,花 1 萬(wàn)張卡的效果不一定比 1 千張卡好,但可能會(huì)有一個(gè)門檻,即如 果只有 100 張卡,那大概率做不出來(lái),因?yàn)榈淮畏桨傅臅r(shí)間太長(zhǎng)。
3. 物理學(xué)的進(jìn)步分成學(xué)校里的研究者和工業(yè)界的實(shí)驗(yàn)室,前者需要探索多個(gè)方向,不要求回 報(bào),后者更關(guān)注效率提升。
4. 探索者和追趕者角度,小公司卡很少,就需要考慮效率,而大公司考慮的是怎么更快的得 到模型,很多在 2 千卡集群上能提高效率的方法在萬(wàn)卡是不 work 的,大家會(huì)更考慮穩(wěn)定性。
5. CUDA 生態(tài)優(yōu)勢(shì)在算子的多和全,而華為等國(guó)內(nèi)公司突破的時(shí)候是找了一些常用的算子, 有后發(fā)優(yōu)勢(shì),假如擁有 10 萬(wàn)張卡,在決定資源投入的時(shí)候,做領(lǐng)先者的成本很高,做追趕者 效率更高,該如何抉擇。國(guó)內(nèi)下一個(gè)追趕的方向是什么,比如多模態(tài),因?yàn)楹M?GPT-5 一直 遲遲沒(méi)有出來(lái)。
VIII. 其他公司為什么沒(méi)有用 DeepSeek 的方法?
1. OpenAI 和 Anthropic 之前沒(méi)有做 DeepSeek 的方向是一個(gè)公司聚焦方向的問(wèn)題,OpenAI 和 Anthropic 可能覺(jué)得把現(xiàn)有算力投入其他地方會(huì)更有價(jià)值。
2. 相比大廠,DeepSeek 可能因?yàn)闆](méi)有在多模態(tài)上做事,而是集中在語(yǔ)言,所以能做出成果。 大廠的模型能力不弱,但得低調(diào),不能發(fā)太多?,F(xiàn)在多模態(tài)不是很關(guān)鍵,智能來(lái)源主要是語(yǔ) 言,對(duì)于提升智能沒(méi)有幫助。
IX.25 年 bet
1. 模型在 25 年會(huì)發(fā)生分化。最誘人的愿景是 push 智能的邊界,可能有很多突破的路徑,方 法可能會(huì)發(fā)生變化,比如合成數(shù)據(jù)、別的架構(gòu)。
2. 25 年首先關(guān)注新的架構(gòu),除了 transformer 之外能不能找別的,現(xiàn)在已經(jīng)有了一些探索,可 以降低成本,在降低成本的同時(shí)也可以探索智能的邊界;其次,RL 的全部潛力還沒(méi)有發(fā)揮出 來(lái);產(chǎn)品上,大家關(guān)心 agent,還沒(méi)有被大規(guī)模應(yīng)用。
3. 25 年多模態(tài)可能會(huì)出現(xiàn)能 beat ChatGPT 形態(tài)的產(chǎn)品。
X. 模型路線
1. r1 和 V3 帶來(lái)的低成本、高效果,說(shuō)明這是一個(gè)方向,和另一個(gè)擴(kuò)硬件、漲參數(shù)的方向是 不沖突的,國(guó)內(nèi)是受到限制只能走前者。
2. 第一,DeepSeek 是從 base model 逼出來(lái)的,還是遵循 Scaling Law,第二,從蒸餾角度, DeepSeek 蒸餾還是先大后小,對(duì)于越做越大的閉源模型是好事,第三,對(duì)技術(shù)發(fā)展中,還沒(méi) 有出現(xiàn)反規(guī)模指標(biāo),如果出現(xiàn),那對(duì)于 Scaling Law 可能是一個(gè)比較大的打擊,而且開源模型 的所有東西都可以在閉源模型做一遍,同時(shí)還可以降低成本,對(duì)于閉源模型也是利好。
3. 在 Meta 復(fù)現(xiàn) DeepSeek 的過(guò)程中,目前還沒(méi)有特別影響 infra 或者長(zhǎng)期 roadmap 的地方出 現(xiàn),長(zhǎng)期來(lái)說(shuō)除了探索邊界之外,也要考慮成本,只有成本更低,才能有更多的玩法。
XI.開發(fā)者 & 應(yīng)用者
1. 開發(fā)者是否會(huì)從閉源模型遷移至 DeepSeek?目前看還沒(méi)出現(xiàn)大批遷移,因?yàn)轭I(lǐng)先模型的 coding 指令遵循能力是比較有利的,但不確定這一優(yōu)勢(shì)在未來(lái)是否會(huì)被攻克。
2. 開發(fā)者角度來(lái)說(shuō),Claude-3.5-Sonnet 是做了 tool use 專門訓(xùn)練,對(duì)于做 agent 非常有利,但 DeepSeek 之類模型暫時(shí)沒(méi)有提供,但 DeepSeek 帶來(lái)的空間很大。
3. 對(duì)于大模型應(yīng)用者,DeepSeek V2 就已經(jīng)滿足了所有需求,r1 速度提高了,沒(méi)有帶來(lái)特別 大的額外價(jià)值,但開啟深度思考的時(shí)候,以前能答對(duì)的題目現(xiàn)在反而錯(cuò)了。
1) 應(yīng)用者選擇模型的時(shí)候會(huì)用工程方法把問(wèn)題簡(jiǎn)化,25 年可能是一個(gè)應(yīng)用年,各行各業(yè)會(huì) 使用現(xiàn)有的能力做,可能慢慢會(huì)到一個(gè)瓶頸了,因?yàn)槿粘?赡苡貌坏侥敲绰斆鞯哪P汀?nbsp;
2) 現(xiàn)在 RL 是解決了有標(biāo)準(zhǔn)答案的問(wèn)題,并沒(méi)有比 AlphaZero 做更多突破,甚至更簡(jiǎn)單,蒸 餾解決了標(biāo)準(zhǔn)答案的問(wèn)題,有標(biāo)準(zhǔn)答案后用 RL 的方法去訓(xùn)練時(shí)可以得到很好的效果, 這是為什么現(xiàn)在蒸餾或者 RL 能很快突破的原因。
4. 人類對(duì)智能的需求是遠(yuǎn)遠(yuǎn)被低估的,比如癌癥問(wèn)題、SpaceX 上的隔熱材料都還沒(méi)有被解 決?,F(xiàn)有的任務(wù)是自動(dòng)化的問(wèn)題,還有很多問(wèn)題,對(duì)未來(lái)增量的爆發(fā)非常樂(lè)觀,智能是不能 停下來(lái)的。
XII. 開源 VS 閉源
1. DeepSeek 不僅是中國(guó) VS 美國(guó),而是開源 VS 閉源。
2. 有可能會(huì)導(dǎo)致 OpenAI 等把好的模型藏在后面,但 DeepSeek 拿出來(lái)之后,其他 AI 公司好 的模型可能也藏不住了,但領(lǐng)先的模型都沒(méi)發(fā)布。
3. DeepSeek 成本上做了很多優(yōu)化,Amazon 等還沒(méi)有看到因此做出的改變,還是按照既定的 計(jì)劃做,目前是一個(gè)共存的狀態(tài)。開源和閉源模型并不矛盾,高校和小 Lab 應(yīng)該會(huì)優(yōu)先選擇 DeepSeek,不會(huì)對(duì)云廠商有競(jìng)爭(zhēng),因?yàn)樵茝S商對(duì)開源、閉源都是支持的,生態(tài)不會(huì)改變,目 前也是共存狀態(tài)。DeepSeek 在 tool use 等上面還沒(méi)有像 Anthropic 這么成熟,以及后者已經(jīng)花 了很多時(shí)間在 AI 安全上,DeepSeek 如果長(zhǎng)期希望得到歐美市場(chǎng)的認(rèn)可,是需要考慮的。
4. 開源對(duì)整個(gè)市場(chǎng)的 margin 是有控制的,如果開源能做到閉源的 95%,那如果閉源太貴,那 完全就可以用開源來(lái)做,如果開源和閉源能力差不多,那對(duì)閉源是一個(gè)很大的挑戰(zhàn)。
XIII. OpenAI Stargate 500B 敘事與算力需求變化
1. DeepSeek 的出現(xiàn)讓大家開始質(zhì)疑 NV 和 OpenAI 最新的 500B 敘事。訓(xùn)練資源問(wèn)題目前還 沒(méi)有清晰判斷,OpenAI 的 500B 敘事是給自己加救命稻草。
2. 對(duì)于 OpenAI 500B 基礎(chǔ)設(shè)施投入的事情是存疑的,因?yàn)?OpenAI 是商業(yè)公司,如果涉及舉 債,那可能是有風(fēng)險(xiǎn)的。
3. 500B 是一個(gè)很夸張的數(shù)字,可能會(huì)分 4、5 年去執(zhí)行。因?yàn)?leading 的角色是軟銀和 OpenAI,前者是資金,后者是技術(shù),軟銀現(xiàn)在賬上的資金沒(méi)有辦法支持 500B,而是用手上 的資產(chǎn)去做抵押,而 OpenAI 本身資金也不是很充沛,其他更多是技術(shù)參與方,而不是資金 提供方,因此要完整實(shí)現(xiàn) 500B 是有挑戰(zhàn)。
4. OpenAI 500B 的算力是有道理的,在探索階段,試錯(cuò)成本很高,人力和投資成本都很高, 但因?yàn)槁肪€是不明確的,從 o1 到 r1 可能也不容易,但至少知道最后是怎么樣的一個(gè)結(jié)果, 中間的特征詞也可以觀察到,可以一開始就對(duì)著別人的最終形態(tài)去做,比較有方向感。而如 果是在前線探索下一代,是最費(fèi)資源的,而追趕者不需要承擔(dān)探索,但永遠(yuǎn)只是追趕。如果 Google、Anthropic 在探索的領(lǐng)域做成功了,可能就會(huì)成為最前沿的那家公司
5. Anthropic 把所有的 inference 都換成 TPU 或者 AWS 的事情是既定事實(shí)。
6. 國(guó)內(nèi)公司原來(lái)受困于算力,現(xiàn)在證明了潛在的技術(shù)空間是非常大的。對(duì)于更加 efficient 的 模型,可能不需要特別大的卡,可以提供相對(duì)定制化的芯片,可以在 AMD、ASIC 芯片上提 供適配,從投資角度,英偉達(dá)壁壘非常高,但 ASIC 也會(huì)有更大的機(jī)會(huì)。
7. DeepSeek 的事情和算力沒(méi)有太大關(guān)系,更多讓美國(guó)覺(jué)得中國(guó)比較厲害,比較有效率,英偉 達(dá)的軟肋不在 DeepSeek,只要 AI 還在發(fā)展,英偉達(dá)就能發(fā)展,英偉達(dá)的優(yōu)勢(shì)在生態(tài),這是 靠時(shí)間積累的。技術(shù)在快速發(fā)展的時(shí)候,生態(tài)就很重要,真正危機(jī)在于技術(shù)成熟后,類似電 力,變成標(biāo)準(zhǔn)品,大家會(huì)關(guān)注做產(chǎn)品,就會(huì)有很多 ASIC 芯片出來(lái)做特定場(chǎng)景的優(yōu)化。
XIV. 二級(jí)市場(chǎng)
1. 短期上對(duì)股價(jià)有影響,pretrain 需求增速放緩,post-train 和 inference scaling 還沒(méi)有足夠快 地 scale up,在敘述上會(huì)有一個(gè) gap,對(duì)于短期交易確實(shí)會(huì)有影響;
2. DeepSeek 更多是 FP8,美國(guó)是 FP16,DeepSeek 所有都是基于有限算力工程能力的提升, 對(duì)于算力高效的使用是最大亮點(diǎn)。周五 DeepSeek 在北美有巨大的發(fā)酵,扎克伯格對(duì) Meta 資 本支出給了更高的預(yù)期,但英偉達(dá)和臺(tái)積電都是跌,只有博通是漲的,DeepSeek 在短期情緒 上對(duì)股價(jià)、估值有壓力,但長(zhǎng)期還是看好。二級(jí)會(huì)擔(dān)心英偉達(dá)從 H 卡到 B 卡的轉(zhuǎn)換上會(huì)有一 些 air pocket,再加上 DeepSeek 的壓力,短期會(huì)有股價(jià)承壓,但可能是長(zhǎng)期看更好的機(jī)會(huì)。
3. 短期在 DeepSeek 在訓(xùn)練上會(huì)可能會(huì)有體現(xiàn),比如英偉達(dá)的股價(jià),但這是一個(gè)增量市場(chǎng),潛 力很大,長(zhǎng)期來(lái)看,AI 才剛開始,如果 CUDA 還是大家喜歡的選擇,那硬件增長(zhǎng)空間還是 很大的。
4. DeepSeek 短期對(duì)美國(guó) AI 圈沖擊大,對(duì)二級(jí)的算力相關(guān)公司,甚至能源公司有壓力,但長(zhǎng) 期敘事會(huì)繼續(xù)。
馬上咨詢: 如果您有業(yè)務(wù)方面的問(wèn)題或者需求,歡迎您咨詢!我們帶來(lái)的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生