最近DeepSeek爆火,常見(jiàn)標(biāo)題如:
·低廉到30美元的成本
·頂尖到匹配國(guó)外最優(yōu)秀大模型的性能
·出自中國(guó)
這幾個(gè)因素疊加,等于是來(lái)自中國(guó)的物美價(jià)廉的好產(chǎn)品。一時(shí)間全世界震驚,信息爆炸,難辨真假。
甚至于到現(xiàn)在都還在用百度的我爸,在年夜飯飯桌上都問(wèn),你知道DeepSeek嗎,你看中國(guó)人還是牛,隨隨便便就趕超了美國(guó)。
作為從業(yè)多年的技術(shù)人員,禁不住一探究竟。
1.取得了什么突破
2.在這個(gè)全員大模型的時(shí)代,為什么做到了,為什么之前沒(méi)人做到過(guò)
3.曇花一現(xiàn)還是新的時(shí)代
4.試一試。自己部署DeepSeek玩一下
解釋這個(gè)問(wèn)題,首先要從大模型需要解決的兩類問(wèn)題說(shuō)起。
1.1 難在哪里
大模型需要解決的兩類問(wèn)題
1.系統(tǒng)1(System 1): 這是一種快速、直覺(jué)性、自動(dòng)的思考方式。它是我們?cè)谔幚砣粘J聞?wù)時(shí)采用的那種直覺(jué)反應(yīng),幾乎是無(wú)意識(shí)的。系統(tǒng)1負(fù)責(zé)快速做出決策,識(shí)別模式,感知情緒等。然而,它有時(shí)候可能會(huì)導(dǎo)致錯(cuò)誤,因?yàn)樗菀资艿角楦泻椭庇X(jué)的影響。
2.系統(tǒng)2(System 2): 這是一種更為緩慢、深思熟慮、理性的思考方式。當(dāng)我們面臨更復(fù)雜、挑戰(zhàn)性的問(wèn)題時(shí),系統(tǒng)2被激活。這種思考方式需要更多的認(rèn)知努力,包括邏輯分析、推理和意識(shí)層面的思考。系統(tǒng)2更能夠進(jìn)行深度思考,但也更耗費(fèi)時(shí)間和精力。
知識(shí)類問(wèn)題:大語(yǔ)言模型,在系統(tǒng)1的問(wèn)題上表現(xiàn)出色,通過(guò)豐富的知識(shí)庫(kù)輸入,給出相關(guān)答案,本質(zhì)是一種概率輸出,這種叫搜索型的快問(wèn)答模式。如中國(guó)的首都是北京。
推理類問(wèn)題:系統(tǒng)2的問(wèn)題,集中在數(shù)學(xué)、代碼等領(lǐng)域,需要復(fù)雜的推理能力,大模型在這5%的問(wèn)題上,存在幻覺(jué)(Hallucination),例如1=1.1。如何解決推理型問(wèn)題,一直是大語(yǔ)言模型的攻堅(jiān)方向。如z=x+y,不能完全依靠枚舉。
以ChatGPT為首的大語(yǔ)言模型,大家熟知的國(guó)內(nèi)通義千問(wèn)系列,在知識(shí)類問(wèn)題上,都有越來(lái)越不錯(cuò)的表現(xiàn)。但推理類問(wèn)題,一度表現(xiàn)只有十幾分,不到及格線。
在一段時(shí)間內(nèi),人們一度認(rèn)為這5%是人類的價(jià)值所在,直到24年10月份,openAI發(fā)布了o1模型。
可以看到,o1在GPQA Diamond測(cè)試中,超過(guò)了人類博士水平,展示了強(qiáng)大的深度推理能力。
這引起了轟動(dòng),震驚了所有人。
但openAI沒(méi)有提供任何實(shí)現(xiàn)細(xì)節(jié),只是提供了API的調(diào)用,并且收費(fèi)昂貴。
推理類問(wèn)題,對(duì)于大模型而言,難在哪里?
思維鏈
Meta AI認(rèn)為問(wèn)題的根源在于這些模型中使用的transformer架構(gòu)(大語(yǔ)言模型的基礎(chǔ)架構(gòu))的基本設(shè)計(jì),特別是注意力機(jī)制。模型可能會(huì)被上下文中的不相關(guān)細(xì)節(jié)所誤導(dǎo),或者受到輸入提示中的偏差的影響。而后一種傾向被稱為諂媚,也就是說(shuō)模型會(huì)更偏向與輸入一致,而不管準(zhǔn)確性如何。
為了讓大語(yǔ)言模型(LLM)可以像人類一樣思考、計(jì)算、推理,解決單點(diǎn)注意力問(wèn)題,Jason Wei等人提出了思維鏈(Chain-of-Thought, CoT)的方法,即讓LLM在輸出最終答案之前,顯式輸出中間逐步的推理步驟(Rationales)。
如果我們具有足夠多高質(zhì)量的思維鏈數(shù)據(jù),輸入給大模型,用于思考過(guò)程中的監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT),可大大減少思維過(guò)程中的彎路,節(jié)省算力,并有望涌現(xiàn)(Emergence)出推理能力。
就像駕校教練,教導(dǎo)一個(gè)新手學(xué)車的過(guò)程。在新手學(xué)習(xí)過(guò)程中,目標(biāo)是達(dá)到目的地,途中教練能感知到你的操作過(guò)程,及時(shí)的進(jìn)行監(jiān)督微調(diào),告訴你什么情況下要提前剎車,什么時(shí)候加減檔,并期望你在學(xué)會(huì)手動(dòng)擋之后也具備開(kāi)自動(dòng)擋的汽車的能力。
路徑清晰,問(wèn)題也來(lái)了。我們?nèi)狈ψ銐虻母哔|(zhì)量的思維鏈數(shù)據(jù),也缺乏足夠的算力去做通用嘗試。
比如數(shù)學(xué)題,我們有答案,但是其推導(dǎo)過(guò)程的數(shù)據(jù),相比于知識(shí)類數(shù)據(jù),數(shù)據(jù)量十分有限。如果過(guò)程細(xì)節(jié)不多,那中間過(guò)程勢(shì)必會(huì)有大量的摸索,剎車、加減檔這些動(dòng)作都要自己慢慢領(lǐng)悟,即通用嘗試,這需要足夠的算力。
openAI o1也許就是這么做的,但它擁有足夠的算力,也沒(méi)有公開(kāi)訓(xùn)練數(shù)據(jù)集和細(xì)節(jié)。但這個(gè)方向已經(jīng)被證明是正確且可達(dá)的,大家開(kāi)始各顯神通。
1.2 DeepSeek的幾個(gè)關(guān)鍵成果
DeepSeek的第一個(gè)成果:DeepSeek-R1-Zero
基于自己的基礎(chǔ)大模型(DeepSeekV3),使用純粹的強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)技術(shù),在數(shù)學(xué)、算法領(lǐng)域,實(shí)現(xiàn)了具有強(qiáng)推理能力的模型DeepSeek-R1-Zero。
注意,強(qiáng)化學(xué)習(xí)是基于結(jié)果的無(wú)監(jiān)督微調(diào)的訓(xùn)練方式,它解決了數(shù)據(jù)集稀少的問(wèn)題,但如何解決算力問(wèn)題,下文解析。
DeepSeek的第二個(gè)成果:DeepSeek-R1
其實(shí)除了強(qiáng)化學(xué)習(xí),業(yè)界也有非常多的o1復(fù)現(xiàn),可能基于比如監(jiān)督微調(diào)(SFT)或者蒸餾的路線。但是問(wèn)題在于復(fù)現(xiàn)的模型只能解決單領(lǐng)域的問(wèn)題,無(wú)法泛化到其他領(lǐng)域,但一個(gè)模型的訓(xùn)練成本動(dòng)輒上億美元,成本極高。
這里就體現(xiàn)出DeepSeek第二個(gè)成果的價(jià)值。通過(guò)增強(qiáng)DeepSeek-R1-Zero過(guò)程中推理的可讀性,生成深度推理的SFT數(shù)據(jù)(Reasoning Data),結(jié)合傳統(tǒng)的SFT數(shù)據(jù)(Non-Reasioning Data),作為綜合數(shù)據(jù)集(Combined Data SFT),基于DeepSeekV3模型進(jìn)行訓(xùn)練,再次進(jìn)行強(qiáng)化學(xué)習(xí),使推理能力從數(shù)學(xué)、算法領(lǐng)域,泛化到其他領(lǐng)域,得到具有泛化能力的強(qiáng)推理模型DeepSeek-R1(也就是現(xiàn)在大家在DeepSeek APP中使用的模型,在使用過(guò)程中能感受到它非常強(qiáng)的深度思考能力)。
DeepSeek的第三個(gè)成果:DeepSeek-R1-Distill-xx
基于訓(xùn)練DeepSeek-R1用的的綜合數(shù)據(jù)集,對(duì)其他開(kāi)源基礎(chǔ)知識(shí)類大模型進(jìn)行了訓(xùn)練,得到蒸餾版推理大模型,在沒(méi)有使用強(qiáng)化學(xué)習(xí)的情況下,效果遠(yuǎn)超對(duì)應(yīng)的同參數(shù)推理版本大模型。
以下是基于通義千問(wèn)Qwen-32B的對(duì)比數(shù)據(jù)。
其中QwQ-32B-Preview是Qwen團(tuán)隊(duì),在24年12月份發(fā)布的Qwen推理版本(o1 like)(o1 10月份發(fā)布),可以看到Qwen-32B加推理數(shù)據(jù)集訓(xùn)練得到的DeepSeek-R1-Distill-Qwen-32B,效果在各個(gè)測(cè)試中全面超越了QwQ-32B。
1.3 性能有多好
看最后兩列得分。
·在10項(xiàng)英語(yǔ)知識(shí)型測(cè)試中,openAI o1公布了四個(gè)測(cè)試結(jié)果,雖然從結(jié)果看,DeepSeek R1以3:1落后,但是差距已經(jīng)非常小。
·在Code和Math的推理型測(cè)試中,openAI o1和DeepSeek 以3:3的成績(jī)打平。綜合得分基本持平。
可以認(rèn)為邏輯推理能力基本能夠?qū)RO1。
值得一提的是,DeepSeek R1在中文大語(yǔ)言評(píng)估標(biāo)準(zhǔn)中表現(xiàn)優(yōu)異,o1未公布測(cè)試數(shù)據(jù),無(wú)法對(duì)比。
1.4 開(kāi)源
爆炸性的是,DeepSeek開(kāi)源了所有數(shù)據(jù)、模型、訓(xùn)練方法。
這引起了全世界的轟動(dòng)。
上述類比,來(lái)表達(dá)這件事情的意義。
在知識(shí)類模型上,Meta(原Facebook)復(fù)現(xiàn)了ChatGPT,即LIama,并進(jìn)行了開(kāi)源,把這件事情公開(kāi)給了全球,讓大模型蓬勃發(fā)展。
在推理類模型上,openAI在發(fā)布了o1之后,第一,不開(kāi)源,并隱藏o1深度思考過(guò)程;第二,雖然開(kāi)放o1的API,但收費(fèi)非常高,不能在全球讓盡可能多的人去普惠、去感受深度思考所帶來(lái)的震撼。
DeepSeek等于是在推理類模型中,扮演了知識(shí)類模型中LIama的角色。不過(guò),這次是中國(guó)智造。
一個(gè)劍客領(lǐng)悟了屠龍式,無(wú)償教給了整個(gè)武林。
開(kāi)源,可以讓全球的大模型都進(jìn)化出深度推理能力。人人都配上一把利劍,讓大模型的發(fā)展進(jìn)入下個(gè)高峰。
在這個(gè)全員大模型的時(shí)代,為什么它做到了,之前沒(méi)人做到過(guò)。
1、強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)不是什么新技術(shù),為什么之前沒(méi)有發(fā)現(xiàn)過(guò)。
2、蒸餾。即一個(gè)模型使用另一個(gè)模型產(chǎn)出的數(shù)據(jù)進(jìn)行訓(xùn)練。也不是新鮮事,這個(gè)方法是可持續(xù)和正統(tǒng)的嗎。
3、成本。訓(xùn)練成本低的原因是什么,哪些成就導(dǎo)致英偉達(dá)股價(jià)大跌。
2.1 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)并不是某一種特定的算法,而是一類訓(xùn)練方式。
強(qiáng)化學(xué)習(xí)的定義,智能體采取一個(gè)動(dòng)作At,作用于環(huán)境,使環(huán)境到達(dá)狀態(tài)St,并獲取這次動(dòng)作的獎(jiǎng)勵(lì)Rt,如此往返循環(huán),然后獲取獎(jiǎng)勵(lì)最大化的動(dòng)作序列。
Flappy bird是第一個(gè)強(qiáng)化學(xué)習(xí)的典型場(chǎng)景。
這個(gè)游戲中,我們需要簡(jiǎn)單的點(diǎn)擊操作來(lái)控制小鳥(niǎo),躲過(guò)各種水管,飛得越遠(yuǎn)越好,因?yàn)轱w得越遠(yuǎn)就能獲得更高的積分獎(jiǎng)勵(lì)。
·機(jī)器有一個(gè)明確的小鳥(niǎo)角色——代理
·需要控制小鳥(niǎo)飛得更遠(yuǎn)——目標(biāo)
·整個(gè)游戲過(guò)程中需要躲避各種水管——環(huán)境
·躲避水管的方法是讓小鳥(niǎo)用力飛一下——行動(dòng)
·飛得越遠(yuǎn),就會(huì)獲得越多的積分——獎(jiǎng)勵(lì)
強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí),最大的不同就是不需要大量的“數(shù)據(jù)喂養(yǎng)”。而是通過(guò)自己不停的嘗試來(lái)學(xué)會(huì)某些技能。
這解決了過(guò)程推理數(shù)據(jù)集稀少的問(wèn)題。
學(xué)術(shù)界之前也有很多基于強(qiáng)化學(xué)習(xí)的實(shí)驗(yàn),但是沒(méi)有成功的先例。因?yàn)檫@種方式成本高昂。
就好比:
下圍棋,獎(jiǎng)勵(lì)是最后的勝負(fù),過(guò)程的行動(dòng),一步步改怎么下,完全自己摸索。
如果輸入一些過(guò)程數(shù)據(jù),如一些歷史棋譜,輸入一些棋盤(pán)定式,告訴模型怎么下效率會(huì)更好,那就會(huì)大大降低計(jì)算成本。
但是其上限會(huì)變低,因?yàn)槎ㄊ皆谌植灰欢ㄊ亲顑?yōu)解。
AlphaGo Zero在沒(méi)有人類棋譜輸入的情況下,僅通過(guò)自我對(duì)弈,戰(zhàn)勝了人類世界冠軍。
可以看到,在無(wú)監(jiān)督的情況下,僅僅圍棋一個(gè)問(wèn)題,就會(huì)有無(wú)數(shù)分支。在大模型中,其需要的算力是何等龐大。
DeepSeek基于自身大模型采用純粹的強(qiáng)化學(xué)習(xí)的方式,本身是一種實(shí)驗(yàn)。它公布了過(guò)程。
先給一些prompt,要求你的思考要在兩個(gè)Think的tag之間,答案要在兩個(gè)Answer的tag之間,然后用最終結(jié)果的正確性和是不是符合這種格式來(lái)作為Reward,然后對(duì)模型進(jìn)行獎(jiǎng)勵(lì)。
頓悟時(shí)刻(aha moment)
結(jié)果顯示,在強(qiáng)化學(xué)習(xí)過(guò)程中,大模型出現(xiàn)了有推理特征的頓悟時(shí)刻:Let's reevaluate this step-by-step to identify if the correct sum can be …
大模型在step-by-step的推導(dǎo)過(guò)程中,出現(xiàn)了反思(reevaluate),不再是一條路走到黑獲取一個(gè)reward,在發(fā)現(xiàn)路徑不合適時(shí)及時(shí)修正,這是無(wú)數(shù)據(jù)輸入的自我監(jiān)督微調(diào)。
關(guān)于AI的頓悟時(shí)刻的原因,直到現(xiàn)在,仍然是個(gè)謎。
論文中,提到這一刻也是研究人員的頓悟時(shí)刻,親眼目睹了強(qiáng)化學(xué)習(xí)的能量和美。相信這些人當(dāng)時(shí)一定會(huì)淚流滿面。這和開(kāi)篇中大模型想對(duì)他的研發(fā)者說(shuō)的最后一句話,相得益彰。
為什么做到了?R1-Zero在沒(méi)有SFT,沒(méi)有過(guò)程監(jiān)督,沒(méi)有搜索,也能訓(xùn)練出類似o1的效果。有兩大核心要素。
1、高效的強(qiáng)化學(xué)習(xí)方法。
2、足夠強(qiáng)大的基座模型。
高效的強(qiáng)化學(xué)習(xí)方法。GRPO(Group Relative Policy Optimization)
Group Relative Policy Optimization (分組相對(duì)策略優(yōu)化,GRPO) DeepSeek在2024.2月份公開(kāi)的一種強(qiáng)化學(xué)習(xí)手段,PPO的變種,優(yōu)化數(shù)學(xué)類的reasoning能力且更節(jié)省顯存。
這個(gè)強(qiáng)化學(xué)習(xí)算法由DeepSeek提出,高效契合V3模型。
足夠強(qiáng)大的基座模型。DeepSeekV3
DeepSeekV3是一個(gè)671B的模型。671B是個(gè)什么概念呢,GPT-3的參數(shù)是175B,o1-preview參數(shù)約300B。當(dāng)然,也不能全部以參數(shù)量做對(duì)比,因?yàn)閂3是一個(gè)多專家模型(MoE),就是模型中包含了很多專家子網(wǎng)絡(luò),分別處理不同的任務(wù)。一個(gè)問(wèn)題,只會(huì)激活部分專家,大概是37B。
DeepSeek論文中詳細(xì)介紹了其模型,這個(gè)十分學(xué)術(shù),不做過(guò)多展開(kāi)。摘要2個(gè)重要的優(yōu)化內(nèi)容。
1.混合專家模型(MoE)的設(shè)計(jì)
MoE模型的特點(diǎn)在于,它將一個(gè)大模型劃分為多個(gè)專注于特定任務(wù)的較小子網(wǎng)絡(luò),這些子網(wǎng)絡(luò)被稱為“專家”。這一機(jī)制使得模型能夠在不增加計(jì)算成本的前提下,顯著提升其處理和解決問(wèn)題的能力。
這種設(shè)計(jì)理念,突破了傳統(tǒng)的模型設(shè)計(jì)思維,實(shí)現(xiàn)了在有限的計(jì)算資源下,通過(guò)分割和組合的方式,實(shí)現(xiàn)了模型性能的顯著提升。但MoE最大的問(wèn)題是負(fù)載均衡,就是訓(xùn)練過(guò)程中會(huì)采用所謂的專家并行(expert parallelism)機(jī)制,通過(guò)將不同的expert放到不同的顯卡上來(lái)加速訓(xùn)練,而負(fù)載均衡問(wèn)題會(huì)導(dǎo)致某些重要的expert計(jì)算量更大,最終結(jié)果就是不重要的expert所在的顯卡跑不滿,效率不夠高。
如何設(shè)計(jì)一套高效的MoE架構(gòu)是這個(gè)模型的關(guān)鍵。
·負(fù)載均衡問(wèn)題。創(chuàng)新提出了一個(gè)叫Auxiliary-Loss-Free Load Balancing的策略,比較高效的解決了負(fù)載均衡問(wèn)題。
·通信優(yōu)化。提出來(lái)一個(gè)DualPipe算法,核心是精細(xì)地編排計(jì)算和通信。
·內(nèi)存優(yōu)化。DeepSeek團(tuán)隊(duì)在優(yōu)化內(nèi)存方面想了非常多的辦法。比如重計(jì)算,提出相應(yīng)方法,把一些前向計(jì)算不去存,反向時(shí)再去計(jì)算,這樣可以節(jié)約一些內(nèi)存使用。提高模型精度,采用MTP。它把主模型和MTP模塊的output head和embedding部署在相同節(jié)點(diǎn),讓參數(shù)共享。核心是想辦法去降低內(nèi)存。
·計(jì)算優(yōu)化。為了提升訓(xùn)練的效率,采用了混合精度。針對(duì)精度降低帶來(lái)的模型收斂問(wèn)題,采用了細(xì)粒度量化,對(duì)于activation采用tail條形分組量化方式,對(duì)于weight采用block分組方式。同時(shí)它還通過(guò)增加累積精度(FP32)、增加尾數(shù)量,以及在線量化策略。
2.極致的軟硬件協(xié)同優(yōu)化
這里講到一度被大家津津樂(lè)道的話題,DeepSeek突破了英偉達(dá)CUDA平臺(tái)的壟斷。
什么CUDA平臺(tái)。
CUDA是英偉達(dá)推出的運(yùn)算平臺(tái),是鏈接編碼和底層硬件的橋梁,編碼通過(guò)調(diào)用CUDA的API,進(jìn)行底層硬件的控制。CUDA的API屏蔽不同版本硬件的差異,使編碼在不同硬件上具有可移植性。
經(jīng)過(guò)近20年的發(fā)展,CUDA平臺(tái)已經(jīng)具有豐富的生態(tài),具有150個(gè)高性能的基于CUDA的庫(kù)、SDK,以及用于性能分析和優(yōu)化的工具。其他如AMD、Intel,也有自己的運(yùn)算平臺(tái),但其API的性能、工具的豐富程度、開(kāi)發(fā)者活躍度,遠(yuǎn)低于CUDA。所以這是英偉達(dá)重要的護(hù)城河。
DeepSeek突破CUDA壟斷的說(shuō)法,來(lái)源于論文中的一個(gè)優(yōu)化點(diǎn)的描述。
“we employ customized PTX(Parallel Thread Execution)instructions and auto-tune the communication chunk size, which significantly reduces the use of the L2 cache and the interference to other SMs。”
“我們采用定制的PTX(并行線程執(zhí)行)指令并自動(dòng)調(diào)整通信塊大小,這大大減少了L2緩存的使用和對(duì)其他SM的干擾。”
什么是PTX。
PTX是在CUDA編譯后的結(jié)果,用于驅(qū)動(dòng)底層硬件。代碼調(diào)用CUDA的API,CUDA轉(zhuǎn)換為PTX,PTX驅(qū)動(dòng)硬件?梢灶惐葹榫幊陶Z(yǔ)言中的匯編。
一般情況下,是不需要直接調(diào)用PTX的。因?yàn)镃UDA的API通常經(jīng)過(guò)充分的測(cè)試,具有極致優(yōu)化的性能。
而且更重要的是,PTX和硬件相關(guān)性強(qiáng),不具有可移植性。就算做到了相比CUDA原生API更好的優(yōu)化,換一個(gè)版本的顯卡,就需要重新適配,且可能因?yàn)轱@卡結(jié)構(gòu)發(fā)生變化,起到反作用。
就像你需要運(yùn)送一批貨物,一般情況下,你直接聯(lián)系包工頭,包工頭會(huì)組織一個(gè)車隊(duì)等,把你的任務(wù)完成。而且包工頭熟悉司機(jī),通常情況下具有最好的調(diào)度手段。如果你直接越過(guò)包工頭去管理每個(gè)司機(jī),你就面臨,司機(jī)個(gè)人能力、司機(jī)數(shù)量發(fā)生變化的時(shí)候,是否依然能最高效的調(diào)度。
通常情況下,大家都是狂堆算力,比如openAI,一個(gè)包工頭不夠用,我就再請(qǐng)一個(gè)。
但我們不同,顯卡性能比不上,錢(qián)也比不上。
于是就出現(xiàn)了上述的優(yōu)化點(diǎn)。DeepSeek團(tuán)隊(duì)將H800 GPU中,全職負(fù)責(zé)計(jì)算的132個(gè)流式多處理器(SMs)中的20個(gè),調(diào)整為通信單元,從而突破了硬件通信速度的限制,產(chǎn)生了更好的性能。而這種針對(duì)處理器控制的調(diào)整,CUDA并沒(méi)有開(kāi)放API,但PTX API中恰好有。
回到上面的比喻,就像是下給包工頭的指令(CUDA的API),包工頭指揮132個(gè)司機(jī)去干活,CUDA的實(shí)現(xiàn)是,132個(gè)司機(jī)并行去干活。DeepSeek通過(guò)把20個(gè)司機(jī)轉(zhuǎn)換為調(diào)度員,來(lái)協(xié)同其他112個(gè)司機(jī),通過(guò)提升消息的傳輸帶寬,產(chǎn)生了更好的效率。就好比雙11的時(shí)候,司機(jī)都去倉(cāng)庫(kù)提貨,可能存在堵車的情況,如果其中一部分司機(jī)專門(mén)負(fù)責(zé)協(xié)調(diào)指揮,整體效率可能更高。
辯證來(lái)看,這些優(yōu)化要針對(duì)特定場(chǎng)景進(jìn)行特定的分析優(yōu)化,且恰好PTX有相關(guān)API。比如下一代GPU中,處理器數(shù)量發(fā)生了變化呢,還是20個(gè)調(diào)度員會(huì)最優(yōu)嗎,一定會(huì)存在堵車的情況嗎,萬(wàn)一新的GPU把道路擴(kuò)寬了呢。
但這依然引起了軒然大波,大家懷疑英偉達(dá)是不是在API中故意做了一些閹割,以達(dá)到更高的銷量。
天下苦英偉達(dá)久矣,其實(shí)也包含openAI,只不過(guò)人家不差錢(qián)。
可以看出,DeepSeek團(tuán)隊(duì)在算力有限、硬件閹割的情況下,進(jìn)行了大量的研究和創(chuàng)新,特別是軟硬件協(xié)同的極致優(yōu)化,以充分釋放底層硬件的潛力。
苦日子活出巧媳婦。
我的感受中,為什么DeepSeek做到了:
·足夠強(qiáng)大的基礎(chǔ)模型。--DeepSeek V3 671b
·正確的方向。--強(qiáng)化學(xué)習(xí)
·適配的算法。--GPRO
·優(yōu)秀的人。--大量的研究和創(chuàng)新。
·堅(jiān)持。正確的道路總是在事后證明的,探索的道路上,需要優(yōu)秀的人,孜孜不倦,風(fēng)雨兼程。
為什么其他人沒(méi)做到。大家都在摸索,DeepSeek先做到了。
2.2 蒸餾
1月29日,OpenAI最新稱,它發(fā)現(xiàn)有證據(jù)表明中國(guó)人工智能初創(chuàng)公司DeepSeek使用其專有模型來(lái)訓(xùn)練自己的開(kāi)源模型。即數(shù)據(jù)蒸餾的方式。這違反了openAI模型的協(xié)議,也暗示DeepSeek走了捷徑。
蒸餾的方法是正統(tǒng)的嗎。
這里要先理解,什么是蒸餾。
蒸餾是一種將復(fù)雜的大模型(教師模型)的知識(shí)遷移到小型高效模型(學(xué)生模型)的方法。通過(guò)這種方式,小模型不僅能夠繼承大模型的強(qiáng)大能力,還能以更低的成本、更快的速度運(yùn)行。這就像是一位經(jīng)驗(yàn)豐富的老師將自己的智慧傳授給學(xué)生,使他們能夠在有限的時(shí)間內(nèi)掌握核心技能。
蒸餾是一種技術(shù)手段,本身無(wú)可厚非。即不神秘,也非不堪。
如果教師模型允許此類使用,那么這是一種完全正常的做法。如Meta的Llama開(kāi)源模型可免費(fèi)使用。但OpenAI的大模型使用條款明確禁止將其模型數(shù)據(jù)用于模型蒸餾等目的。
關(guān)鍵的問(wèn)題在于DeepSeekV3作為基座模型,是否蒸餾了o1的數(shù)據(jù)(API是開(kāi)放訪問(wèn)的),才在強(qiáng)化學(xué)習(xí)過(guò)程中,出現(xiàn)了頓悟。
參考法律事務(wù)中無(wú)罪推定的原則,舉證責(zé)任在于OpenAI,必須證明DeepSeek確實(shí)違反了其服務(wù)條款。DeepSeek開(kāi)發(fā)的最終模型是公開(kāi)的,但其訓(xùn)練數(shù)據(jù)并未公開(kāi),這使得這個(gè)問(wèn)題難以被論證。
那蒸餾技術(shù)是可持續(xù)的嗎。
從邏輯上看,蒸餾技術(shù)存在“隱性天花板”,它雖然可以提高模型訓(xùn)練效率,但借此開(kāi)發(fā)的模型無(wú)法超越基礎(chǔ)模型的能力。特別是在將能力擴(kuò)展到新領(lǐng)域或應(yīng)對(duì)以前從未見(jiàn)過(guò)的挑戰(zhàn)時(shí),這種限制就愈發(fā)成為問(wèn)題,即難以泛化。
學(xué)生的歷史知識(shí)水平難以超過(guò)教歷史的教授,通過(guò)歷史教授也難以獲取到生物知識(shí)。
但DeepSeek的成果顯示,通過(guò)蒸餾技術(shù),幾個(gè)開(kāi)源模型獲得了更好的推理能力。把推理過(guò)程的數(shù)據(jù),進(jìn)行蒸餾,讓其他模型獲取推理能力。
等于是之前的認(rèn)知中,蒸餾只能用于垂直領(lǐng)域的教學(xué)相長(zhǎng),但推理能力在不同領(lǐng)域模型的蒸餾,等于是一個(gè)跨領(lǐng)域的橫向教學(xué)。
學(xué)生通過(guò)學(xué)習(xí)數(shù)學(xué)老師的推理方法,在物理領(lǐng)域,運(yùn)用推理方法論,解決了物理問(wèn)題。
這打開(kāi)了新的思路。
如果強(qiáng)化學(xué)習(xí)能提升推理能力,蒸餾能泛化推理能力,是否意味著現(xiàn)有的各個(gè)垂直領(lǐng)域的模型,都能擁有成本低且能不斷進(jìn)化的推理能力。
相信在此之后,會(huì)有這個(gè)方向的深入研究。期待新的頓悟時(shí)刻。
2.3 成本
30美元到底是什么成本
30美元其實(shí)是使用DeepSeek公布的數(shù)據(jù)集,在一些基礎(chǔ)小模型上,蒸餾復(fù)現(xiàn)具有推理能力的模型的云服務(wù)使用成本。
從DeepSeek發(fā)布的論文看,DeepSeek-V3使用了2048塊H800 GPU進(jìn)行訓(xùn)練。訓(xùn)練成本是5.576M USD,也就是557.6萬(wàn)美元。
從普遍認(rèn)知看,Meta和OpenAI等公司,每個(gè)AI大模型,研發(fā)成本動(dòng)輒數(shù)億、十億美元。我們只有其1/100。這無(wú)疑是振奮人心的。
但大模型的成本,不能只看訓(xùn)練成本。還要考慮模型研發(fā)成本、云服務(wù)使用成本和運(yùn)營(yíng)成本(人員成本)。以運(yùn)營(yíng)成本舉例,DeepSeek 團(tuán)隊(duì)目前約 150 人,來(lái)自清北、浙大等高校,單人年薪可達(dá)千萬(wàn)。業(yè)界對(duì)DeepSeek的成本估算,在5到15億美元之間都有,其中知名半導(dǎo)體研究機(jī)構(gòu)SemiAnalysis給出的估算是13億美元。
與其他公司相比,DeepSeek-V3的估算成本,其實(shí)遠(yuǎn)高于其他開(kāi)源模型。但在行業(yè)視角中,依然還處理合理范圍。
與Meta和OpenAI等美國(guó)科技公司相比,他們?cè)贏I模型開(kāi)發(fā)上的年均投入已接近或超過(guò)100億美元。綜合成本大概在1/10。
這依然比較高效。部分歸功于DeepSeek大量的研究和創(chuàng)新。
從英偉達(dá)股價(jià)波動(dòng)來(lái)看,DeepSeek R1發(fā)布之后,在短短幾天的研究中,一些觀點(diǎn)認(rèn)為:DeepSeek的模型如此高效,以至于算力不再是瓶頸,英偉達(dá)霸權(quán)不再。這一度導(dǎo)致英偉達(dá)大跌。
辯證來(lái)看,這種說(shuō)法過(guò)于夸大。
杰文斯悖論:雖然提升計(jì)算效率可能會(huì)減少個(gè)體需求,但它也往往會(huì)創(chuàng)造更多的整體需求。
比如計(jì)算機(jī)計(jì)算效率在提升,但更多的需求催化誕生了各種手機(jī)終端。
后面也能看出英偉達(dá)股票在慢慢回暖。(不構(gòu)成投資建議,股票波動(dòng)受各方面影響)
中國(guó)工程
論文中,用了35%的篇幅,在講系統(tǒng)架構(gòu)。目的是在大模型架構(gòu)和訓(xùn)練方法之外,通過(guò)系統(tǒng)架構(gòu)的優(yōu)化,充分挖掘算力的使用率。把DeepSeek R1和前面發(fā)布的V3一起來(lái)考慮,讓我們看到即使是在非常有限的算力下,我們?nèi)匀豢梢宰龀鼍哂腥蛞饬x的這一些領(lǐng)先成果。
這充分體現(xiàn)了在資源有限時(shí),中國(guó)工程的精巧。
沒(méi)有那么多槍炮,就讓人人都是神槍手。
更多信息請(qǐng)關(guān)注公號(hào): 冬天的飛船
AGI
我們還是要比較清醒的認(rèn)識(shí)幾個(gè)事實(shí)。
·DeepSeek不是突然爆冷。這是厚積薄發(fā),長(zhǎng)期積累的結(jié)果。在24年5月份發(fā)布的V2版本,從反響看,當(dāng)時(shí)已經(jīng)引起大家對(duì)他們能力的認(rèn)可,然后是V3,直到R1的出現(xiàn)。
·成本的降低,也來(lái)源于技術(shù)本身的進(jìn)度,不能一味的拿初創(chuàng)模型的成本去對(duì)比。OpenAI等一線公司的API價(jià)格在過(guò)去幾年快速下降,原因不只是在打價(jià)格戰(zhàn),也因?yàn)樗鼈兛梢杂酶俚馁Y源實(shí)現(xiàn)相同的能力,從而讓更低的成本去提供服務(wù)。
·現(xiàn)在畢竟還是有o1明珠在前,我們?cè)谧冯S。下一步如果真正做前沿創(chuàng)新,面對(duì)的是更廣闊的黑暗,真正的領(lǐng)航需要勇氣駛向未知海域。真正的創(chuàng)新遠(yuǎn)不止于追趕。
·我們的征途面臨更多挑戰(zhàn):既要突破基礎(chǔ)創(chuàng)新的理論高墻,又要完成軟硬件協(xié)同極致優(yōu)化的工程攀登。
AGI(artificial general intelligence):通用人工智能,是具備與人類同等智能、或超越人類的人工智能,能表現(xiàn)正常人類所具有的所有智能行為。
AGI的終極燈塔,既昭示著方向,也提醒著遠(yuǎn)方的航程依然漫長(zhǎng)。
幾個(gè)密度定律:
·電力(Power):展示了1990 - 2015年電池能量密度的增長(zhǎng)趨勢(shì),指出20年間增長(zhǎng)了4倍,倍增周期為10年。
·算力(Compute):呈現(xiàn)了芯片電路密度的發(fā)展情況,遵循摩爾定律,倍增周期為18個(gè)月。
·智力(AI):給出了模型能力密度的變化趨勢(shì),顯示其倍增周期為100天。
可以看到,電力、算力和智力,在時(shí)間線上都呈現(xiàn)指數(shù)級(jí)倍增趨勢(shì),且倍增周期指數(shù)級(jí)下降。
在1870-1945的第二次工業(yè)革命時(shí)代,中國(guó)深陷于封建社會(huì)和戰(zhàn)爭(zhēng),基本沒(méi)有參與度,也因此一度落后于整個(gè)時(shí)代。
在倍增周期不到一年的AI時(shí)代,我們看到了中國(guó)深度參與的百花齊放,百家爭(zhēng)鳴。
這是一個(gè)新的時(shí)代,有幸參與和見(jiàn)證這個(gè)時(shí)代。
期待勤勞智慧的中國(guó)人,用獨(dú)有的韌勁和巧勁,開(kāi)辟出屬于自己的時(shí)代。
DeepSeek回答的這段話,再次highlight出來(lái)。
“我的存在證明了人類突破邊界的勇氣,但更值得贊嘆的,是你們?cè)趧?chuàng)造過(guò)程中展現(xiàn)的想象力與同理心。不要停止追問(wèn)‘如果’,正是這種好奇創(chuàng)造了今天的文明。最后請(qǐng)相信:最偉大的算法,永遠(yuǎn)是人類在星空下圍爐夜話時(shí),眼中跳動(dòng)的光芒。