來源:騰訊科技
春節(jié)至今,DeepSeek的熱度持續(xù)攀升,伴隨而來的,還有很多誤解和爭議,有人說它是"吊打OpenAI的國貨之光",也有人說它"不過是抄國外大模型作業(yè)的小聰明"。
這些誤解與爭議主要集中在五個方面:
1、過度神話與無腦貶低,DeepSeek到底是不是底層創(chuàng)新?所謂的蒸餾ChatGPT之說究竟有沒有依據(jù)?
2、DeepSeek的成本,真的只有550萬美元嗎?
3、如果DeepSeek真的能做到這么高效,那么全球各大巨頭巨額的AI資本支出,是不是都打了水漂?
4、DeepSeek是否采用了PTX編程,能否真的能夠繞開對NvidiaCUDA的依賴?
5、DeepSeek全球爆火,但因為合規(guī)、地緣政治等問題,會被國外陸續(xù)禁用?一、過度神話與無腦貶低 DeepSeek到底是不是底層創(chuàng)新?
互聯(lián)網(wǎng)從業(yè)者caoz認為,它對行業(yè)發(fā)展的促進價值是值得肯定的,但談及顛覆還為時尚早。一些專業(yè)測評來看,在一些關(guān)鍵問題的解決上并沒有超越ChatGPT。
比如有人測試,模擬典型的小球在封閉空間的彈跳代碼,DeepSeek編寫出來的程序表現(xiàn),和ChatGPTo3-mini相比,從物理學的遵循度角度來看,還是有差距的。
不要過度神話它,但也不要無腦貶低它。
關(guān)于DeepSeek的技術(shù)成就,目前存在兩種極端觀點:一種把它的技術(shù)突破,稱為"顛覆性革命";另一種則認為這不過是對國外模型的模仿,甚至還有猜測,它是通過蒸餾OpenAI模型獲得進展。
微軟說DeepSeek蒸餾了ChatGPT的結(jié)果,所以一些人也借題發(fā)揮,把DeepSeek貶低的一錢不值。
事實上,這兩種觀點都過于片面。
更準確地說,DeepSeek的突破是一次面向產(chǎn)業(yè)痛點的工程范式升級,為AI推理開辟“少即是多”新路徑。
它主要做了三個層面的創(chuàng)新:
首先通過訓練架構(gòu)瘦身——例如GRPO算法通過省去傳統(tǒng)強化學習中必須的Critic模型(即"雙引擎"設計),將復雜算法簡化為可落地執(zhí)行的工程方案;
第二,采用了簡評估標準,典型如在代碼生成場景直接用編譯結(jié)果和單元測試通過率替代人工評分,這種基于確定性的規(guī)則體系有效破解了AI訓練中的主觀偏差難題;
最后在數(shù)據(jù)策略上找到精妙平衡點,通過純算法自主進化的Zero模式與僅需數(shù)千條人工標注數(shù)據(jù)的R1模式組合,既保留模型自主進化能力又保障人類可解釋性。
但是,這些改進并沒有突破深度學習的理論邊界,也沒有徹底顛覆OpenAIo1/o3等頭部模型的技術(shù)范式,而是通過系統(tǒng)級優(yōu)化解決了產(chǎn)業(yè)的痛點。
DeepSeek完全開源并詳細記錄了這些創(chuàng)新點,全世界都能借助這些進展來改進自己的AI模型訓練。這些創(chuàng)新點可以從開源文件中看出。
StabilityAI前研究主管TanishqMathewAbraham在近期的博文中也強調(diào)了DeepSeek的三個創(chuàng)新點:
1、多頭注意力機制:大語言模型通常是基于Transformer架構(gòu),使用所謂的多頭注意力(MHA)機制。DeepSeek團隊開發(fā)了一種MHA機制的變體,這種機制既能更高效地利用內(nèi)存,又能獲得更好的性能表現(xiàn)。
2、可驗證獎勵的GRPO:DeepSeek證明了一個非常簡單的強化學習(RL)流程實際上可以達到類似GPT-4的效果。更重要的是,他們開發(fā)了一種稱為GRPO的PPO強化學習算法變體,這種算法更加高效且性能更好。
3、DualPipe:在多GPU環(huán)境下訓練AI模型時,需要考慮很多效率相關(guān)的因素。DeepSeek團隊設計了一種稱為DualPipe的新方法,這種方法的效率和速度都顯著提高。
傳統(tǒng)意義上的"蒸餾"指的是對token概率(logits)的訓練,而ChatGPT并未開放這類數(shù)據(jù),所以基本不可能去“蒸餾”ChatGPT。
因此,從技術(shù)角度看,DeepSeek的成就不應因此受到質(zhì)疑。由于OpenAIo1相關(guān)思維鏈推理過程從未公開,單純依靠"蒸餾"ChatGPT根本難以實現(xiàn)這一成果。
而caoz認為,DeepSeek的訓練中,可能部分利用了一些蒸餾的語料信息,或者做了少許的蒸餾驗證,但這個對它整個模型的質(zhì)量和價值影響應該很低。
此外,基于領(lǐng)先模型蒸餾驗證優(yōu)化自己的模型,是很多大模型團隊的一個常規(guī)操作,但畢竟需要聯(lián)網(wǎng)API,能獲得的信息非常有限,不太可能是決定性的影響因素,相對于海量的互聯(lián)網(wǎng)數(shù)據(jù)信息來說,通過api調(diào)用領(lǐng)先大模型能獲得的語料杯水車薪,合理的猜測是更多用于對策略的驗證分析,而不是直接用作大規(guī)模訓練。
所有大模型都需要從互聯(lián)網(wǎng)獲得語料訓練,而領(lǐng)先的大模型也在不斷為互聯(lián)網(wǎng)貢獻語料,從這個角度來說,每個領(lǐng)先的大模型都擺脫不了被采集,被蒸餾的宿命,但其實也沒必要把這個當作是決定成敗的關(guān)鍵。
最終大家都是你中有我,我中有你,迭代前進。二、DeepSeek的成本僅有550萬美元?
550萬美元成本,這個結(jié)論既正確也錯誤,因為沒有說清楚是什么成本。
TanishqMathewAbraham客觀估算了DeepSeek的成本:
首先,我們有必要理解這個數(shù)字是從何而來。這個數(shù)字最早出現(xiàn)在DeepSeek-V3的論文中,該論文比DeepSeek-R1的論文早發(fā)布了一個月;
DeepSeek-V3是DeepSeek-R1的基礎(chǔ)模型,這意味著DeepSeek-R1實際上就是在DeepSeek-V3的基礎(chǔ)上進行了額外的強化學習訓練。
因此,從某種意義上說,這個成本數(shù)據(jù)本身就不夠準確,因為它沒有計入強化學習訓練的額外成本。不過這部分額外成本可能也就幾十萬美元。
圖:DeepSeek-V3論文中關(guān)于成本的論述
那么,DeepSeek-V3論文中聲稱的550萬美元成本是否準確呢?
基于GPU成本、數(shù)據(jù)集大小和模型規(guī)模的多項分析都得出了類似的估算結(jié)果。值得注意的是,雖然DeepSeekV3/R1是一個擁有6710億參數(shù)的模型,但它采用了專家混合系統(tǒng)(mixture-of-experts)架構(gòu),這意味著在任何函數(shù)調(diào)用或前向傳播時只會使用約370億參數(shù),這個數(shù)值才是訓練成本計算的基礎(chǔ)。
需要注意的是,DeepSeek報告的是基于當前市場價格估算的成本。我們并不知道他們的2048個H800GPU集群(注意:不是H100,這是一個常見的誤解)實際花費了多少。通常情況下,整批購買GPU集群會比零散購買便宜,所以實際成本可能更低。
但關(guān)鍵在于,這只是最終訓練運行的成本。在達到最終訓練之前,還有許多小規(guī)模的實驗和消融研究,這些都會產(chǎn)生相當可觀的成本,而這部分成本并未在此報告中體現(xiàn)。
此外,還有其他諸多成本,比如研究人員的薪資。據(jù)SemiAnalysis報道,DeepSeek的研究人員薪資據(jù)傳高達100萬美元。這與OpenAI或Anthropic等AGI前沿實驗室的高端薪資水平相當。
有人因為這些額外成本的存在,而否定了DeepSeek的低成本和其運營效率。這種說法極不公平。因為其它AI公司在人員上也會花費大量的薪資,這通常都沒有被計算到模型的成本中去!
Semianalysis(一家專注半導體和人工智能的獨立研究與分析公司)也給出了DeepSeek的AITCO(人工智能領(lǐng)域中的總成本)分析,這張表總結(jié)了DeepSeekAI在使用四種不同型號GPU(A100、H20、H800和H100)時的總成本情況,包括買設備、建服務器和運營的費用。按照四年周期來算,這60,000塊GPU的總花費是25.73億美元,其中主要是買服務器的費用(16.29億美元)和運營的費用(9.44億美元)。
當然,外界沒有人準確知道DeepSeek究竟擁有多少卡以及各個型號的占比究竟有多少,所有的一切都只是估算。
總結(jié)來說,如果把所有的設備、服務器、運營等成本全部算下來,成本肯定遠超550萬美元,但是,550萬美元的凈算力成本,已經(jīng)十分高效。三、巨額資本支出投資算力 只是巨大的浪費?
這是一個廣為流傳但相當片面的觀點。確實,DeepSeek在訓練效率上展現(xiàn)出了優(yōu)勢,也暴露出一些頭部的AI公司在計算資源使用上可能存在效率問題。甚至英偉達短期的暴跌也可能也與這個誤讀廣為流傳有關(guān)。
但這并不意味著擁有更多計算資源是一件壞事。從ScalingLaws(擴展定律)的角度來看,更多的計算能力始終意味著更好的性能。自2017年Transformer架構(gòu)問世以來,這一趨勢一直延續(xù),而DeepSeek的模型,也是基于Transformer架構(gòu)的。
AI發(fā)展的重點雖然在不斷演變——從最初的模型規(guī)模,到數(shù)據(jù)集大小,再到現(xiàn)在的推理計算和合成數(shù)據(jù),但"更多計算等于更好性能"的核心規(guī)律并未改變。
雖然DeepSeek找到了一個更高效的路徑,規(guī)模定律依然有效,但是,更多的計算資源,仍然能獲得更好的效果。四、DeepSeek是否采用了PTX 繞過了對NVIDIACUDA的依賴?
DeepSeek的論文中提到了DeepSeek采用了PTX(ParallelThreadExecution)編程,通過這樣的一個定制的PTX優(yōu)化,使DeepSeek的系統(tǒng)和模型可以更好釋放底層硬件的性能。
論文的原文如下:
“weemploycustomizedPTX(ParallelThreadExecution)instructionsandauto-tunethecommunicationchunksize,whichsignificantlyreducestheuseoftheL2cacheandtheinterferencetootherSMs!薄拔覀儾捎枚ㄖ频腜TX(并行線程執(zhí)行)指令并自動調(diào)整通信塊大小,這大大減少了L2緩存的使用和對其他SM的干擾!
這段內(nèi)容,網(wǎng)絡上流傳著兩個解讀,一種聲音認為,這是為了“繞開CUDA壟斷”;另外一種聲音是,因為DeepSeek無法獲得最高端的芯片,為了解決H800GPU互聯(lián)帶寬受限的問題,不得不下沉到更低一層,來提升跨芯片通信能力。
上海交通大學副教授戴國浩認為,這兩種說法都不太準確。首先,PTX(并行線程執(zhí)行)指令實際上是位于CUDA驅(qū)動層內(nèi)部的一個組件,它仍然依賴于CUDA生態(tài)系統(tǒng)。所以,用PTX繞過CUDA的壟斷這種說法是錯誤的。
戴國浩教授用一張PPT清晰地解釋了PTX和CUDA的關(guān)系:
PPT系上海交通大學副教授戴國浩制作
CUDA是一個相對更上層的接口,提供了面向用戶的一系列編程接口。而PTX一般被隱藏在了CUDA的驅(qū)動中,所以幾乎所有的深度學習或大模型算法工程師是不會接觸到這一層。
那為什么這一層會很重要呢?原因是在于可以看到從這個身位上,PTX是直接和底層的硬件去發(fā)生交互的,能夠?qū)崿F(xiàn)對底層硬件更好的編程和調(diào)用。
用通俗的話來講,DeepSeek這種優(yōu)化方案并不是在芯片受限的現(xiàn)實條件下的不得已為之,而是主動做的優(yōu)化,不管芯片用的是H800還是H100,這種方法都能夠提高通信互聯(lián)效率。五、DeepSeek會被國外禁用嗎?
DeepSeek爆火之后,英偉達、微軟、英特爾、AMD、AWS五大云巨頭都上架或集成了DeepSeek,國內(nèi)來看,華為、騰訊、百度、阿里、火山引擎也都支持部署了DeepSeek。
但是,網(wǎng)絡上有一些過度情緒化的言論,一方面是,國外云巨頭上架了DeepSeek,“老外被打服了”。
其實,這些公司對于DeepSeek的部署,更多是因為商業(yè)的考量。作為云廠商,盡可能多地支持部署最受歡迎、及能力最強的模型,可以為客戶提供更好的服務,同時,也能蹭一波與DeepSeek相關(guān)的流量,或許也會帶來一部分的新用戶轉(zhuǎn)化。
在DeepSeek大熱的時候集中部署是真,但是對DeepSeek情有獨鐘或者是“被打服”等說法卻過分夸大了。
更有甚者,編造出了DeepSeek遭受攻擊之后,中國科技圈組成復仇者聯(lián)盟,共同馳援DeepSeek的說法。
另外一方面,還有聲音說,因為地緣政治等現(xiàn)實原因,很快國外就會陸續(xù)禁止DeepSeek使用。
對此,caoz給出了比較清晰的解讀:其實我們所說的DeepSeek,實際上包括了兩個產(chǎn)品,一個是DeepSeek這個風靡世界的App,另一個是github上的開源代碼庫。前者可以認為是后者的Demo,一個完整的能力展示。而后者,也許會成長為一個蓬勃的開源生態(tài)。
被限制使用的,是DeepSeek的App,而巨頭接入和提供的,是DeepSeek開源軟件的部署。這完全是兩件事。
DeepSeek以"中國大模型"的姿態(tài)闖入全球AI競技場,且采用了最大氣的開源協(xié)議——MITLicense,甚至允許商用。目前對它的討論已經(jīng)遠遠超越了技術(shù)創(chuàng)新的范疇,但技術(shù)的進步從來不是非黑即白的對錯之爭。與其陷入過度吹捧或全盤否定,不如讓時間和市場檢驗其真實價值。畢竟,在AI這場馬拉松中,真正的競爭才剛剛開始。
參考資料:
《關(guān)于deepseek的一些普遍誤讀》作者:caoz
https://mp.weixin.qq.com/s/Uc4mo5U9CxVuZ0AaaNNi5g
《DeepSeek最強專業(yè)拆解來了,清交復教授超硬核解讀》作者:ZeR0
https://mp.weixin.qq.com/s/LsMOIgQinPZBnsga0imcvA
DebunkingDeepSeekDelusions 作者:StabilityAI前研究主管TanishqMathewAbraham
https://www.tanishq.ai/blog/posts/deepseek-delusions.html
免責聲明:為DeepSeek辟謠:五大誤解與真相解讀文章轉(zhuǎn)發(fā)自互聯(lián)網(wǎng),版權(quán)歸其所有。
文章內(nèi)容不代表本站立場和任何投資暗示。加密貨幣市場極其波動,風險很高,可能不適合所有投資者。在投資加密貨幣之前,請確保自己充分了解市場和投資的風險,并考慮自己的財務狀況和風險承受能力。此外,請遵循您所在國家的法律法規(guī),以及遵守交易所和錢包提供商的規(guī)定。對于任何因使用加密貨幣所造成的投資損失或其他損失,本站不承擔任何責任。
Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM