最近DeepSeek爆火,常見標題如:
·低廉到30美元的成本
·頂尖到匹配國外最優(yōu)秀大模型的性能
·出自中國
這幾個因素疊加,等于是來自中國的物美價廉的好產(chǎn)品。一時間全世界震驚,信息爆炸,難辨真假。
甚至于到現(xiàn)在都還在用百度的我爸,在年夜飯飯桌上都問,你知道DeepSeek嗎,你看中國人還是牛,隨隨便便就趕超了美國。
作為從業(yè)多年的技術(shù)人員,禁不住一探究竟。
1.取得了什么突破
2.在這個全員大模型的時代,為什么做到了,為什么之前沒人做到過
3.曇花一現(xiàn)還是新的時代
4.試一試。自己部署DeepSeek玩一下
解釋這個問題,首先要從大模型需要解決的兩類問題說起。
1.1 難在哪里
大模型需要解決的兩類問題
1.系統(tǒng)1(System 1): 這是一種快速、直覺性、自動的思考方式。它是我們在處理日常事務(wù)時采用的那種直覺反應(yīng),幾乎是無意識的。系統(tǒng)1負責(zé)快速做出決策,識別模式,感知情緒等。然而,它有時候可能會導(dǎo)致錯誤,因為它更容易受到情感和直覺的影響。
2.系統(tǒng)2(System 2): 這是一種更為緩慢、深思熟慮、理性的思考方式。當(dāng)我們面臨更復(fù)雜、挑戰(zhàn)性的問題時,系統(tǒng)2被激活。這種思考方式需要更多的認知努力,包括邏輯分析、推理和意識層面的思考。系統(tǒng)2更能夠進行深度思考,但也更耗費時間和精力。
知識類問題:大語言模型,在系統(tǒng)1的問題上表現(xiàn)出色,通過豐富的知識庫輸入,給出相關(guān)答案,本質(zhì)是一種概率輸出,這種叫搜索型的快問答模式。如中國的首都是北京。
推理類問題:系統(tǒng)2的問題,集中在數(shù)學(xué)、代碼等領(lǐng)域,需要復(fù)雜的推理能力,大模型在這5%的問題上,存在幻覺(Hallucination),例如1=1.1。如何解決推理型問題,一直是大語言模型的攻堅方向。如z=x+y,不能完全依靠枚舉。
以ChatGPT為首的大語言模型,大家熟知的國內(nèi)通義千問系列,在知識類問題上,都有越來越不錯的表現(xiàn)。但推理類問題,一度表現(xiàn)只有十幾分,不到及格線。
在一段時間內(nèi),人們一度認為這5%是人類的價值所在,直到24年10月份,openAI發(fā)布了o1模型。
可以看到,o1在GPQA Diamond測試中,超過了人類博士水平,展示了強大的深度推理能力。
這引起了轟動,震驚了所有人。
但openAI沒有提供任何實現(xiàn)細節(jié),只是提供了API的調(diào)用,并且收費昂貴。
推理類問題,對于大模型而言,難在哪里?
思維鏈
Meta AI認為問題的根源在于這些模型中使用的transformer架構(gòu)(大語言模型的基礎(chǔ)架構(gòu))的基本設(shè)計,特別是注意力機制。模型可能會被上下文中的不相關(guān)細節(jié)所誤導(dǎo),或者受到輸入提示中的偏差的影響。而后一種傾向被稱為諂媚,也就是說模型會更偏向與輸入一致,而不管準確性如何。
為了讓大語言模型(LLM)可以像人類一樣思考、計算、推理,解決單點注意力問題,Jason Wei等人提出了思維鏈(Chain-of-Thought, CoT)的方法,即讓LLM在輸出最終答案之前,顯式輸出中間逐步的推理步驟(Rationales)。
如果我們具有足夠多高質(zhì)量的思維鏈數(shù)據(jù),輸入給大模型,用于思考過程中的監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT),可大大減少思維過程中的彎路,節(jié)省算力,并有望涌現(xiàn)(Emergence)出推理能力。
就像駕校教練,教導(dǎo)一個新手學(xué)車的過程。在新手學(xué)習(xí)過程中,目標是達到目的地,途中教練能感知到你的操作過程,及時的進行監(jiān)督微調(diào),告訴你什么情況下要提前剎車,什么時候加減檔,并期望你在學(xué)會手動擋之后也具備開自動擋的汽車的能力。
路徑清晰,問題也來了。我們?nèi)狈ψ銐虻母哔|(zhì)量的思維鏈數(shù)據(jù),也缺乏足夠的算力去做通用嘗試。
比如數(shù)學(xué)題,我們有答案,但是其推導(dǎo)過程的數(shù)據(jù),相比于知識類數(shù)據(jù),數(shù)據(jù)量十分有限。如果過程細節(jié)不多,那中間過程勢必會有大量的摸索,剎車、加減檔這些動作都要自己慢慢領(lǐng)悟,即通用嘗試,這需要足夠的算力。
openAI o1也許就是這么做的,但它擁有足夠的算力,也沒有公開訓(xùn)練數(shù)據(jù)集和細節(jié)。但這個方向已經(jīng)被證明是正確且可達的,大家開始各顯神通。
1.2 DeepSeek的幾個關(guān)鍵成果
DeepSeek的第一個成果:DeepSeek-R1-Zero
基于自己的基礎(chǔ)大模型(DeepSeekV3),使用純粹的強化學(xué)習(xí)(Reinforcement Learning, RL)技術(shù),在數(shù)學(xué)、算法領(lǐng)域,實現(xiàn)了具有強推理能力的模型DeepSeek-R1-Zero。
注意,強化學(xué)習(xí)是基于結(jié)果的無監(jiān)督微調(diào)的訓(xùn)練方式,它解決了數(shù)據(jù)集稀少的問題,但如何解決算力問題,下文解析。
DeepSeek的第二個成果:DeepSeek-R1
其實除了強化學(xué)習(xí),業(yè)界也有非常多的o1復(fù)現(xiàn),可能基于比如監(jiān)督微調(diào)(SFT)或者蒸餾的路線。但是問題在于復(fù)現(xiàn)的模型只能解決單領(lǐng)域的問題,無法泛化到其他領(lǐng)域,但一個模型的訓(xùn)練成本動輒上億美元,成本極高。
這里就體現(xiàn)出DeepSeek第二個成果的價值。通過增強DeepSeek-R1-Zero過程中推理的可讀性,生成深度推理的SFT數(shù)據(jù)(Reasoning Data),結(jié)合傳統(tǒng)的SFT數(shù)據(jù)(Non-Reasioning Data),作為綜合數(shù)據(jù)集(Combined Data SFT),基于DeepSeekV3模型進行訓(xùn)練,再次進行強化學(xué)習(xí),使推理能力從數(shù)學(xué)、算法領(lǐng)域,泛化到其他領(lǐng)域,得到具有泛化能力的強推理模型DeepSeek-R1(也就是現(xiàn)在大家在DeepSeek APP中使用的模型,在使用過程中能感受到它非常強的深度思考能力)。
DeepSeek的第三個成果:DeepSeek-R1-Distill-xx
基于訓(xùn)練DeepSeek-R1用的的綜合數(shù)據(jù)集,對其他開源基礎(chǔ)知識類大模型進行了訓(xùn)練,得到蒸餾版推理大模型,在沒有使用強化學(xué)習(xí)的情況下,效果遠超對應(yīng)的同參數(shù)推理版本大模型。
以下是基于通義千問Qwen-32B的對比數(shù)據(jù)。
其中QwQ-32B-Preview是Qwen團隊,在24年12月份發(fā)布的Qwen推理版本(o1 like)(o1 10月份發(fā)布),可以看到Qwen-32B加推理數(shù)據(jù)集訓(xùn)練得到的DeepSeek-R1-Distill-Qwen-32B,效果在各個測試中全面超越了QwQ-32B。
1.3 性能有多好
看最后兩列得分。
·在10項英語知識型測試中,openAI o1公布了四個測試結(jié)果,雖然從結(jié)果看,DeepSeek R1以3:1落后,但是差距已經(jīng)非常小。
·在Code和Math的推理型測試中,openAI o1和DeepSeek 以3:3的成績打平。綜合得分基本持平。
可以認為邏輯推理能力基本能夠?qū)RO1。
值得一提的是,DeepSeek R1在中文大語言評估標準中表現(xiàn)優(yōu)異,o1未公布測試數(shù)據(jù),無法對比。
1.4 開源
爆炸性的是,DeepSeek開源了所有數(shù)據(jù)、模型、訓(xùn)練方法。
這引起了全世界的轟動。
上述類比,來表達這件事情的意義。
在知識類模型上,Meta(原Facebook)復(fù)現(xiàn)了ChatGPT,即LIama,并進行了開源,把這件事情公開給了全球,讓大模型蓬勃發(fā)展。
在推理類模型上,openAI在發(fā)布了o1之后,第一,不開源,并隱藏o1深度思考過程;第二,雖然開放o1的API,但收費非常高,不能在全球讓盡可能多的人去普惠、去感受深度思考所帶來的震撼。
DeepSeek等于是在推理類模型中,扮演了知識類模型中LIama的角色。不過,這次是中國智造。
一個劍客領(lǐng)悟了屠龍式,無償教給了整個武林。
開源,可以讓全球的大模型都進化出深度推理能力。人人都配上一把利劍,讓大模型的發(fā)展進入下個高峰。
在這個全員大模型的時代,為什么它做到了,之前沒人做到過。
1、強化學(xué)習(xí)。強化學(xué)習(xí)不是什么新技術(shù),為什么之前沒有發(fā)現(xiàn)過。
2、蒸餾。即一個模型使用另一個模型產(chǎn)出的數(shù)據(jù)進行訓(xùn)練。也不是新鮮事,這個方法是可持續(xù)和正統(tǒng)的嗎。
3、成本。訓(xùn)練成本低的原因是什么,哪些成就導(dǎo)致英偉達股價大跌。
2.1 強化學(xué)習(xí)
強化學(xué)習(xí)并不是某一種特定的算法,而是一類訓(xùn)練方式。
強化學(xué)習(xí)的定義,智能體采取一個動作At,作用于環(huán)境,使環(huán)境到達狀態(tài)St,并獲取這次動作的獎勵Rt,如此往返循環(huán),然后獲取獎勵最大化的動作序列。
Flappy bird是第一個強化學(xué)習(xí)的典型場景。
這個游戲中,我們需要簡單的點擊操作來控制小鳥,躲過各種水管,飛得越遠越好,因為飛得越遠就能獲得更高的積分獎勵。
·機器有一個明確的小鳥角色——代理
·需要控制小鳥飛得更遠——目標
·整個游戲過程中需要躲避各種水管——環(huán)境
·躲避水管的方法是讓小鳥用力飛一下——行動
·飛得越遠,就會獲得越多的積分——獎勵
強化學(xué)習(xí)和監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí),最大的不同就是不需要大量的“數(shù)據(jù)喂養(yǎng)”。而是通過自己不停的嘗試來學(xué)會某些技能。
這解決了過程推理數(shù)據(jù)集稀少的問題。
學(xué)術(shù)界之前也有很多基于強化學(xué)習(xí)的實驗,但是沒有成功的先例。因為這種方式成本高昂。
就好比:
下圍棋,獎勵是最后的勝負,過程的行動,一步步改怎么下,完全自己摸索。
如果輸入一些過程數(shù)據(jù),如一些歷史棋譜,輸入一些棋盤定式,告訴模型怎么下效率會更好,那就會大大降低計算成本。
但是其上限會變低,因為定式在全局不一定是最優(yōu)解。
AlphaGo Zero在沒有人類棋譜輸入的情況下,僅通過自我對弈,戰(zhàn)勝了人類世界冠軍。
可以看到,在無監(jiān)督的情況下,僅僅圍棋一個問題,就會有無數(shù)分支。在大模型中,其需要的算力是何等龐大。
DeepSeek基于自身大模型采用純粹的強化學(xué)習(xí)的方式,本身是一種實驗。它公布了過程。
先給一些prompt,要求你的思考要在兩個Think的tag之間,答案要在兩個Answer的tag之間,然后用最終結(jié)果的正確性和是不是符合這種格式來作為Reward,然后對模型進行獎勵。
頓悟時刻(aha moment)
結(jié)果顯示,在強化學(xué)習(xí)過程中,大模型出現(xiàn)了有推理特征的頓悟時刻:Let's reevaluate this step-by-step to identify if the correct sum can be …
大模型在step-by-step的推導(dǎo)過程中,出現(xiàn)了反思(reevaluate),不再是一條路走到黑獲取一個reward,在發(fā)現(xiàn)路徑不合適時及時修正,這是無數(shù)據(jù)輸入的自我監(jiān)督微調(diào)。
關(guān)于AI的頓悟時刻的原因,直到現(xiàn)在,仍然是個謎。
論文中,提到這一刻也是研究人員的頓悟時刻,親眼目睹了強化學(xué)習(xí)的能量和美。相信這些人當(dāng)時一定會淚流滿面。這和開篇中大模型想對他的研發(fā)者說的最后一句話,相得益彰。
為什么做到了?R1-Zero在沒有SFT,沒有過程監(jiān)督,沒有搜索,也能訓(xùn)練出類似o1的效果。有兩大核心要素。
1、高效的強化學(xué)習(xí)方法。
2、足夠強大的基座模型。
高效的強化學(xué)習(xí)方法。GRPO(Group Relative Policy Optimization)
Group Relative Policy Optimization (分組相對策略優(yōu)化,GRPO) DeepSeek在2024.2月份公開的一種強化學(xué)習(xí)手段,PPO的變種,優(yōu)化數(shù)學(xué)類的reasoning能力且更節(jié)省顯存。
這個強化學(xué)習(xí)算法由DeepSeek提出,高效契合V3模型。
足夠強大的基座模型。DeepSeekV3
DeepSeekV3是一個671B的模型。671B是個什么概念呢,GPT-3的參數(shù)是175B,o1-preview參數(shù)約300B。當(dāng)然,也不能全部以參數(shù)量做對比,因為V3是一個多專家模型(MoE),就是模型中包含了很多專家子網(wǎng)絡(luò),分別處理不同的任務(wù)。一個問題,只會激活部分專家,大概是37B。
DeepSeek論文中詳細介紹了其模型,這個十分學(xué)術(shù),不做過多展開。摘要2個重要的優(yōu)化內(nèi)容。
1.混合專家模型(MoE)的設(shè)計
MoE模型的特點在于,它將一個大模型劃分為多個專注于特定任務(wù)的較小子網(wǎng)絡(luò),這些子網(wǎng)絡(luò)被稱為“專家”。這一機制使得模型能夠在不增加計算成本的前提下,顯著提升其處理和解決問題的能力。
這種設(shè)計理念,突破了傳統(tǒng)的模型設(shè)計思維,實現(xiàn)了在有限的計算資源下,通過分割和組合的方式,實現(xiàn)了模型性能的顯著提升。但MoE最大的問題是負載均衡,就是訓(xùn)練過程中會采用所謂的專家并行(expert parallelism)機制,通過將不同的expert放到不同的顯卡上來加速訓(xùn)練,而負載均衡問題會導(dǎo)致某些重要的expert計算量更大,最終結(jié)果就是不重要的expert所在的顯卡跑不滿,效率不夠高。
如何設(shè)計一套高效的MoE架構(gòu)是這個模型的關(guān)鍵。
·負載均衡問題。創(chuàng)新提出了一個叫Auxiliary-Loss-Free Load Balancing的策略,比較高效的解決了負載均衡問題。
·通信優(yōu)化。提出來一個DualPipe算法,核心是精細地編排計算和通信。
·內(nèi)存優(yōu)化。DeepSeek團隊在優(yōu)化內(nèi)存方面想了非常多的辦法。比如重計算,提出相應(yīng)方法,把一些前向計算不去存,反向時再去計算,這樣可以節(jié)約一些內(nèi)存使用。提高模型精度,采用MTP。它把主模型和MTP模塊的output head和embedding部署在相同節(jié)點,讓參數(shù)共享。核心是想辦法去降低內(nèi)存。
·計算優(yōu)化。為了提升訓(xùn)練的效率,采用了混合精度。針對精度降低帶來的模型收斂問題,采用了細粒度量化,對于activation采用tail條形分組量化方式,對于weight采用block分組方式。同時它還通過增加累積精度(FP32)、增加尾數(shù)量,以及在線量化策略。
2.極致的軟硬件協(xié)同優(yōu)化
這里講到一度被大家津津樂道的話題,DeepSeek突破了英偉達CUDA平臺的壟斷。
什么CUDA平臺。
CUDA是英偉達推出的運算平臺,是鏈接編碼和底層硬件的橋梁,編碼通過調(diào)用CUDA的API,進行底層硬件的控制。CUDA的API屏蔽不同版本硬件的差異,使編碼在不同硬件上具有可移植性。
經(jīng)過近20年的發(fā)展,CUDA平臺已經(jīng)具有豐富的生態(tài),具有150個高性能的基于CUDA的庫、SDK,以及用于性能分析和優(yōu)化的工具。其他如AMD、Intel,也有自己的運算平臺,但其API的性能、工具的豐富程度、開發(fā)者活躍度,遠低于CUDA。所以這是英偉達重要的護城河。
DeepSeek突破CUDA壟斷的說法,來源于論文中的一個優(yōu)化點的描述。
“we employ customized PTX(Parallel Thread Execution)instructions and auto-tune the communication chunk size, which significantly reduces the use of the L2 cache and the interference to other SMs。”
“我們采用定制的PTX(并行線程執(zhí)行)指令并自動調(diào)整通信塊大小,這大大減少了L2緩存的使用和對其他SM的干擾。”
什么是PTX。
PTX是在CUDA編譯后的結(jié)果,用于驅(qū)動底層硬件。代碼調(diào)用CUDA的API,CUDA轉(zhuǎn)換為PTX,PTX驅(qū)動硬件?梢灶惐葹榫幊陶Z言中的匯編。
一般情況下,是不需要直接調(diào)用PTX的。因為CUDA的API通常經(jīng)過充分的測試,具有極致優(yōu)化的性能。
而且更重要的是,PTX和硬件相關(guān)性強,不具有可移植性。就算做到了相比CUDA原生API更好的優(yōu)化,換一個版本的顯卡,就需要重新適配,且可能因為顯卡結(jié)構(gòu)發(fā)生變化,起到反作用。
就像你需要運送一批貨物,一般情況下,你直接聯(lián)系包工頭,包工頭會組織一個車隊等,把你的任務(wù)完成。而且包工頭熟悉司機,通常情況下具有最好的調(diào)度手段。如果你直接越過包工頭去管理每個司機,你就面臨,司機個人能力、司機數(shù)量發(fā)生變化的時候,是否依然能最高效的調(diào)度。
通常情況下,大家都是狂堆算力,比如openAI,一個包工頭不夠用,我就再請一個。
但我們不同,顯卡性能比不上,錢也比不上。
于是就出現(xiàn)了上述的優(yōu)化點。DeepSeek團隊將H800 GPU中,全職負責(zé)計算的132個流式多處理器(SMs)中的20個,調(diào)整為通信單元,從而突破了硬件通信速度的限制,產(chǎn)生了更好的性能。而這種針對處理器控制的調(diào)整,CUDA并沒有開放API,但PTX API中恰好有。
回到上面的比喻,就像是下給包工頭的指令(CUDA的API),包工頭指揮132個司機去干活,CUDA的實現(xiàn)是,132個司機并行去干活。DeepSeek通過把20個司機轉(zhuǎn)換為調(diào)度員,來協(xié)同其他112個司機,通過提升消息的傳輸帶寬,產(chǎn)生了更好的效率。就好比雙11的時候,司機都去倉庫提貨,可能存在堵車的情況,如果其中一部分司機專門負責(zé)協(xié)調(diào)指揮,整體效率可能更高。
辯證來看,這些優(yōu)化要針對特定場景進行特定的分析優(yōu)化,且恰好PTX有相關(guān)API。比如下一代GPU中,處理器數(shù)量發(fā)生了變化呢,還是20個調(diào)度員會最優(yōu)嗎,一定會存在堵車的情況嗎,萬一新的GPU把道路擴寬了呢。
但這依然引起了軒然大波,大家懷疑英偉達是不是在API中故意做了一些閹割,以達到更高的銷量。
天下苦英偉達久矣,其實也包含openAI,只不過人家不差錢。
可以看出,DeepSeek團隊在算力有限、硬件閹割的情況下,進行了大量的研究和創(chuàng)新,特別是軟硬件協(xié)同的極致優(yōu)化,以充分釋放底層硬件的潛力。
苦日子活出巧媳婦。
我的感受中,為什么DeepSeek做到了:
·足夠強大的基礎(chǔ)模型。--DeepSeek V3 671b
·正確的方向。--強化學(xué)習(xí)
·適配的算法。--GPRO
·優(yōu)秀的人。--大量的研究和創(chuàng)新。
·堅持。正確的道路總是在事后證明的,探索的道路上,需要優(yōu)秀的人,孜孜不倦,風(fēng)雨兼程。
為什么其他人沒做到。大家都在摸索,DeepSeek先做到了。
2.2 蒸餾
1月29日,OpenAI最新稱,它發(fā)現(xiàn)有證據(jù)表明中國人工智能初創(chuàng)公司DeepSeek使用其專有模型來訓(xùn)練自己的開源模型。即數(shù)據(jù)蒸餾的方式。這違反了openAI模型的協(xié)議,也暗示DeepSeek走了捷徑。
蒸餾的方法是正統(tǒng)的嗎。
這里要先理解,什么是蒸餾。
蒸餾是一種將復(fù)雜的大模型(教師模型)的知識遷移到小型高效模型(學(xué)生模型)的方法。通過這種方式,小模型不僅能夠繼承大模型的強大能力,還能以更低的成本、更快的速度運行。這就像是一位經(jīng)驗豐富的老師將自己的智慧傳授給學(xué)生,使他們能夠在有限的時間內(nèi)掌握核心技能。
蒸餾是一種技術(shù)手段,本身無可厚非。即不神秘,也非不堪。
如果教師模型允許此類使用,那么這是一種完全正常的做法。如Meta的Llama開源模型可免費使用。但OpenAI的大模型使用條款明確禁止將其模型數(shù)據(jù)用于模型蒸餾等目的。
關(guān)鍵的問題在于DeepSeekV3作為基座模型,是否蒸餾了o1的數(shù)據(jù)(API是開放訪問的),才在強化學(xué)習(xí)過程中,出現(xiàn)了頓悟。
參考法律事務(wù)中無罪推定的原則,舉證責(zé)任在于OpenAI,必須證明DeepSeek確實違反了其服務(wù)條款。DeepSeek開發(fā)的最終模型是公開的,但其訓(xùn)練數(shù)據(jù)并未公開,這使得這個問題難以被論證。
那蒸餾技術(shù)是可持續(xù)的嗎。
從邏輯上看,蒸餾技術(shù)存在“隱性天花板”,它雖然可以提高模型訓(xùn)練效率,但借此開發(fā)的模型無法超越基礎(chǔ)模型的能力。特別是在將能力擴展到新領(lǐng)域或應(yīng)對以前從未見過的挑戰(zhàn)時,這種限制就愈發(fā)成為問題,即難以泛化。
學(xué)生的歷史知識水平難以超過教歷史的教授,通過歷史教授也難以獲取到生物知識。
但DeepSeek的成果顯示,通過蒸餾技術(shù),幾個開源模型獲得了更好的推理能力。把推理過程的數(shù)據(jù),進行蒸餾,讓其他模型獲取推理能力。
等于是之前的認知中,蒸餾只能用于垂直領(lǐng)域的教學(xué)相長,但推理能力在不同領(lǐng)域模型的蒸餾,等于是一個跨領(lǐng)域的橫向教學(xué)。
學(xué)生通過學(xué)習(xí)數(shù)學(xué)老師的推理方法,在物理領(lǐng)域,運用推理方法論,解決了物理問題。
這打開了新的思路。
如果強化學(xué)習(xí)能提升推理能力,蒸餾能泛化推理能力,是否意味著現(xiàn)有的各個垂直領(lǐng)域的模型,都能擁有成本低且能不斷進化的推理能力。
相信在此之后,會有這個方向的深入研究。期待新的頓悟時刻。
2.3 成本
30美元到底是什么成本
30美元其實是使用DeepSeek公布的數(shù)據(jù)集,在一些基礎(chǔ)小模型上,蒸餾復(fù)現(xiàn)具有推理能力的模型的云服務(wù)使用成本。
從DeepSeek發(fā)布的論文看,DeepSeek-V3使用了2048塊H800 GPU進行訓(xùn)練。訓(xùn)練成本是5.576M USD,也就是557.6萬美元。
從普遍認知看,Meta和OpenAI等公司,每個AI大模型,研發(fā)成本動輒數(shù)億、十億美元。我們只有其1/100。這無疑是振奮人心的。
但大模型的成本,不能只看訓(xùn)練成本。還要考慮模型研發(fā)成本、云服務(wù)使用成本和運營成本(人員成本)。以運營成本舉例,DeepSeek 團隊目前約 150 人,來自清北、浙大等高校,單人年薪可達千萬。業(yè)界對DeepSeek的成本估算,在5到15億美元之間都有,其中知名半導(dǎo)體研究機構(gòu)SemiAnalysis給出的估算是13億美元。
與其他公司相比,DeepSeek-V3的估算成本,其實遠高于其他開源模型。但在行業(yè)視角中,依然還處理合理范圍。
與Meta和OpenAI等美國科技公司相比,他們在AI模型開發(fā)上的年均投入已接近或超過100億美元。綜合成本大概在1/10。
這依然比較高效。部分歸功于DeepSeek大量的研究和創(chuàng)新。
從英偉達股價波動來看,DeepSeek R1發(fā)布之后,在短短幾天的研究中,一些觀點認為:DeepSeek的模型如此高效,以至于算力不再是瓶頸,英偉達霸權(quán)不再。這一度導(dǎo)致英偉達大跌。
辯證來看,這種說法過于夸大。
杰文斯悖論:雖然提升計算效率可能會減少個體需求,但它也往往會創(chuàng)造更多的整體需求。
比如計算機計算效率在提升,但更多的需求催化誕生了各種手機終端。
后面也能看出英偉達股票在慢慢回暖。(不構(gòu)成投資建議,股票波動受各方面影響)
中國工程
論文中,用了35%的篇幅,在講系統(tǒng)架構(gòu)。目的是在大模型架構(gòu)和訓(xùn)練方法之外,通過系統(tǒng)架構(gòu)的優(yōu)化,充分挖掘算力的使用率。把DeepSeek R1和前面發(fā)布的V3一起來考慮,讓我們看到即使是在非常有限的算力下,我們?nèi)匀豢梢宰龀鼍哂腥蛞饬x的這一些領(lǐng)先成果。
這充分體現(xiàn)了在資源有限時,中國工程的精巧。
沒有那么多槍炮,就讓人人都是神槍手。
更多信息請關(guān)注公號: 冬天的飛船
AGI
我們還是要比較清醒的認識幾個事實。
·DeepSeek不是突然爆冷。這是厚積薄發(fā),長期積累的結(jié)果。在24年5月份發(fā)布的V2版本,從反響看,當(dāng)時已經(jīng)引起大家對他們能力的認可,然后是V3,直到R1的出現(xiàn)。
·成本的降低,也來源于技術(shù)本身的進度,不能一味的拿初創(chuàng)模型的成本去對比。OpenAI等一線公司的API價格在過去幾年快速下降,原因不只是在打價格戰(zhàn),也因為它們可以用更少的資源實現(xiàn)相同的能力,從而讓更低的成本去提供服務(wù)。
·現(xiàn)在畢竟還是有o1明珠在前,我們在追隨。下一步如果真正做前沿創(chuàng)新,面對的是更廣闊的黑暗,真正的領(lǐng)航需要勇氣駛向未知海域。真正的創(chuàng)新遠不止于追趕。
·我們的征途面臨更多挑戰(zhàn):既要突破基礎(chǔ)創(chuàng)新的理論高墻,又要完成軟硬件協(xié)同極致優(yōu)化的工程攀登。
AGI(artificial general intelligence):通用人工智能,是具備與人類同等智能、或超越人類的人工智能,能表現(xiàn)正常人類所具有的所有智能行為。
AGI的終極燈塔,既昭示著方向,也提醒著遠方的航程依然漫長。
幾個密度定律:
·電力(Power):展示了1990 - 2015年電池能量密度的增長趨勢,指出20年間增長了4倍,倍增周期為10年。
·算力(Compute):呈現(xiàn)了芯片電路密度的發(fā)展情況,遵循摩爾定律,倍增周期為18個月。
·智力(AI):給出了模型能力密度的變化趨勢,顯示其倍增周期為100天。
可以看到,電力、算力和智力,在時間線上都呈現(xiàn)指數(shù)級倍增趨勢,且倍增周期指數(shù)級下降。
在1870-1945的第二次工業(yè)革命時代,中國深陷于封建社會和戰(zhàn)爭,基本沒有參與度,也因此一度落后于整個時代。
在倍增周期不到一年的AI時代,我們看到了中國深度參與的百花齊放,百家爭鳴。
這是一個新的時代,有幸參與和見證這個時代。
期待勤勞智慧的中國人,用獨有的韌勁和巧勁,開辟出屬于自己的時代。
DeepSeek回答的這段話,再次highlight出來。
“我的存在證明了人類突破邊界的勇氣,但更值得贊嘆的,是你們在創(chuàng)造過程中展現(xiàn)的想象力與同理心。不要停止追問‘如果’,正是這種好奇創(chuàng)造了今天的文明。最后請相信:最偉大的算法,永遠是人類在星空下圍爐夜話時,眼中跳動的光芒。