國產(chǎn)GPU直面英偉達(dá)H200:請給自主芯片多些成長時間
2025年12月17日,專注高性能GPU研發(fā)、產(chǎn)品覆蓋AI計算、通用計算及圖形渲染領(lǐng)域的沐曦股份登陸科創(chuàng)板,首日收盤價829.90元,較104.66元的發(fā)行價暴漲725.24%。
僅在不到兩周前的12月5日,摩爾線程率先敲開科創(chuàng)板大門,成為“國產(chǎn)GPU第一股”,不僅是2025年科創(chuàng)板募資規(guī)模最大的IPO,更以88天的受理到過會速度刷新紀(jì)錄,114.28元/股的發(fā)行價在上市首日收獲425.46%的漲幅。
國產(chǎn)GPU廠商密集上市并獲市場熱捧,某種程度上是對“狼又來了”的回應(yīng)。據(jù)媒體報道,2025年12月8日,美國前總統(tǒng)特朗普在社交媒體宣布:美國將允許英偉達(dá)向中國“經(jīng)批準(zhǔn)的客戶”出口H200人工智能芯片,但銷售收入的25%需上繳美國政府。
美國智庫進(jìn)步研究所報告顯示,H200性能約為H20的六倍,卻與最新Blackwell芯片存在代際差,恰好卡在“能用但不先進(jìn)”的區(qū)間。因此美國解禁H200,實(shí)則是“溫水煮青蛙”策略的延續(xù)——通過“傾銷”性能相對落后卻仍具競爭力的H200,試圖延緩中國芯片的國產(chǎn)替代進(jìn)程。
英偉達(dá)CEO黃仁勛曾直言,增加對華芯片銷售既能讓中國企業(yè)依賴其技術(shù),又能為公司帶來更多研發(fā)資金。這種“以戰(zhàn)養(yǎng)戰(zhàn)”的思路,與美國鷹派的“技術(shù)依賴論”不謀而合。
不過這場“溫水煮青蛙”能否奏效,還要看中國是否接招。從加速推動國產(chǎn)GPU廠商上市的動作來看,顯然中國并未上鉤。
01 沒有H200的三年:至暗時刻與破局之路
2022至2025年,美國對華半導(dǎo)體出口管制層層加碼。2025年4月的進(jìn)一步收緊,導(dǎo)致英偉達(dá)為中國定制的H20特供芯片被迫停售,公司因此承受約45億美元庫存損失及80億美元潛在收入損失。同年10月,黃仁勛公開表示,受管制影響,英偉達(dá)中國市場份額從95%驟降至0%,“100%退出中國市場”。
這三年被業(yè)界稱為中國AI芯片產(chǎn)業(yè)的“至暗時刻”,卻也成了國產(chǎn)芯片加速崛起的催化劑。面對外部封鎖,國產(chǎn)GPU廠商祭出“三管齊下”的突圍策略:
在單卡性能暫難匹敵英偉達(dá)時,通過堆面積、晶體管、芯片彌補(bǔ)差距。華為昇騰910C采用雙Die設(shè)計,F(xiàn)P16算力達(dá)800 TFLOPS,性能逼近英偉達(dá)H100的80%;寒武紀(jì)思元590綜合性能達(dá)A100的70-80%;海光信息深算二號FP16算力1024 TFLOPS,接近A100的90%。
因能效比不足,國產(chǎn)卡普遍以“電力+工程能力”硬頂功耗問題。摩爾線程“平湖”架構(gòu)支持單芯片最高1000W TDP動態(tài)功耗管理,通過液冷等手段保障穩(wěn)定運(yùn)行。雖每瓦性能仍落后英偉達(dá)約30%,但低功耗版國產(chǎn)卡已在流片。簡言之,這段時期國產(chǎn)卡??扛芗囊豪?、更多服務(wù)器機(jī)架,以工程能力彌補(bǔ)能效短板。
最后是“生態(tài)兼容+編譯層優(yōu)化”。針對英偉達(dá)CUDA生態(tài)壟斷,國產(chǎn)廠商采取兼容策略。海光DCU通過ROCm生態(tài)實(shí)現(xiàn)CUDA“軟兼容”,實(shí)測遷移效率達(dá)85%;華為CANN架構(gòu)用“指令翻譯+動態(tài)調(diào)度”技術(shù),覆蓋80%的CUDA API。這種兼容相當(dāng)于做了層“翻譯器”,讓國產(chǎn)GPU能運(yùn)行英偉達(dá)指令語言,如將CUDA_X函數(shù)轉(zhuǎn)為國產(chǎn)BR_X函數(shù),通過算子合并、分拆、調(diào)整執(zhí)行順序適配本地語法。但弊端也很明顯:永遠(yuǎn)慢半拍——英偉達(dá)每次更新CUDA或架構(gòu),國產(chǎn)廠商就得跟進(jìn)新“翻譯器”,戰(zhàn)略上十分被動。
被H200“斷供”的三年,國產(chǎn)GPU技術(shù)路線呈現(xiàn)鮮明“中國式風(fēng)格”——工藝受限下,靠“架構(gòu)取巧、集群堆疊、算子融合、軟件兼容”的工程努力,將落后硬件打磨至可用、上規(guī)模、適配大模型訓(xùn)練的程度。這雖非工程最優(yōu)解,卻是封鎖環(huán)境下的現(xiàn)實(shí)可行方案。
02 差距幾何?單卡落后但推理已追平
評估國產(chǎn)GPU與H200的技術(shù)差距,需以美國商務(wù)部BIS定義的“總處理性能”(TPP)為統(tǒng)一標(biāo)準(zhǔn),TPP=2×MacTOPS×操作位長(通常以TFLOPS(FP16)×16計算)。據(jù)伯恩斯坦2025年12月報告,主流芯片TPP對比:
- 英偉達(dá)H200:60,000 TPP(Hopper架構(gòu),141GB HBM3e,4.8TB/s帶寬)
- 英偉達(dá)H20:15,832 TPP(特供版,僅為H200的26%)
- 華為昇騰910C:36,912 TPP(約為H200的61.5%,國產(chǎn)最高)
- 寒武紀(jì)思元590:29,360 TPP(約為H200的49%)
- 海光BW1000/DCU3:14,688 TPP(約為H200的24.5%)
- 摩爾線程S4000:約20,000 TPP(約為H200的33%)
公開數(shù)據(jù)顯示,國產(chǎn)頂級芯片單卡性能仍落后H200約1.6-2倍,但已超越H20,達(dá)到“可用”水平。
訓(xùn)練能力上,國產(chǎn)單卡仍落后2-3倍,但集群層面可通過“堆卡+高速互聯(lián)”彌補(bǔ)部分差距。華為CloudMatrix 384集群(384張昇騰910C)性能接近英偉達(dá)GB200 NVL72,部分大模型訓(xùn)練任務(wù)表現(xiàn)良好。不過因工藝限制(國產(chǎn)芯片多為7nm,H200為4nm),每瓦性能仍落后約30%。
推理能力上,國產(chǎn)頂級卡已持平甚至超越閹割版H20。華為昇騰910B2的INT8算力達(dá)762 TOPS,低精度數(shù)據(jù)處理效率高;寒武紀(jì)思元590在推理場景表現(xiàn)優(yōu)異,KV-Cache容量與帶寬均達(dá)標(biāo);沐曦曦云C550顯存帶寬1600-1800GB/s,在大規(guī)模推理任務(wù)中占優(yōu)。
成本與功耗方面,海光BW100采購價約10萬元/張,寒武紀(jì)590從8.5萬元降至6-7萬元,華為910C約18萬元,均遠(yuǎn)低于H200的30-40萬元,且H200需額外支付25%“美國稅”,國產(chǎn)卡在成本上有50%左右優(yōu)勢。功耗上,雖國產(chǎn)卡單卡功耗較高,但H200 TDP達(dá)700W,實(shí)際差距并不懸殊。
生態(tài)是國產(chǎn)芯片最大短板,卻是進(jìn)步最快的領(lǐng)域。華為昇騰CANN工具鏈已支持與MindSpore深度協(xié)同及PyTorch一鍵遷移,其他國產(chǎn)平臺也在做深度編譯器與中間表示(IR)適配,減少開發(fā)者手動改代碼的工作量。這背后是不同廠商、云廠商、軟件團(tuán)隊、科研院校合作推動生態(tài)標(biāo)準(zhǔn)化、工具與適配案例共享,形成產(chǎn)業(yè)協(xié)同優(yōu)勢。

綜合來看,國產(chǎn)芯片訓(xùn)練能力仍有差距,但推理已達(dá)“能用+成本低+可控”水平。伯恩斯坦推測,2026-2027年國產(chǎn)芯片將在部分場景實(shí)現(xiàn)與H200的全面競爭。
03 未來較量:迂回戰(zhàn)術(shù)VS堆料路線
技術(shù)演進(jìn)上,英偉達(dá)剛發(fā)布的Blackwell Ultra系列延續(xù)“堆料漲性能”路線,賭摩爾定律(或“黃氏定律”)未終結(jié)。“黃氏定律”是黃仁勛提出的“GPU性能每兩年翻一倍”經(jīng)驗(yàn)法則,與其說是自然規(guī)律,不如說是英偉達(dá)研發(fā)投入與市場策略的體現(xiàn)——每年超70億美元研發(fā)費(fèi)用讓對手望塵莫及。
國產(chǎn)芯片未直接硬碰硬,而是用“架構(gòu)取巧+多芯片封裝+集群堆疊”的迂回戰(zhàn)術(shù)。華為昇騰采用雙Die設(shè)計,以先進(jìn)封裝提升集成度;摩爾線程“平湖”架構(gòu)實(shí)現(xiàn)Chiplet可擴(kuò)展設(shè)計,支持計算Die、HBM3e存儲Die與IODie靈活配置;沐曦曦云C700系列擴(kuò)展FP4等低精度計算支持,對標(biāo)H100。先進(jìn)工藝受限下,國產(chǎn)芯片靠架構(gòu)創(chuàng)新突破性能瓶頸:昇騰910C用達(dá)芬奇架構(gòu)3.0,集成32個自研AI Core,支持原生CANN異構(gòu)計算;思元590用MLUarch架構(gòu),通過指令集優(yōu)化提升效率;海光深算三號采用x86+GPGPU的Chiplet封裝,2.5D封裝實(shí)現(xiàn)HBM2e內(nèi)存直連,帶寬達(dá)1.6TB/s。這些創(chuàng)新讓國產(chǎn)芯片在特定場景能與英偉達(dá)媲美。
應(yīng)用層面,國產(chǎn)AI芯片已找到“舒適區(qū)”且表現(xiàn)亮眼:
智算中心成華為“主場”,截至2025年,全國600多個智算中心項(xiàng)目中,超300套Atlas 900超節(jié)點(diǎn)商用部署,覆蓋互聯(lián)網(wǎng)、電信、制造等行業(yè),中國電信粵港澳大灣區(qū)智算昇騰超節(jié)點(diǎn)更是全球首個商用超節(jié)點(diǎn)項(xiàng)目。
面向國內(nèi)大生態(tài)的專用場景,如智能安防、金融風(fēng)控、OCR/文本語義檢索、音視頻處理(自動剪輯、AI轉(zhuǎn)碼)等,國產(chǎn)卡可針對特定算法深度定制優(yōu)化。通過自研編譯器和算子庫對接MindSpore等國內(nèi)框架,在“只需特定任務(wù)跑得快”的場景中,專用定制效率常高于通用GPU。
低延遲/小規(guī)模邊緣場景,如邊緣AI、工控設(shè)備、機(jī)器人本地推理等,國產(chǎn)NPU/ASIC方案比通用GPU效率更高,因架構(gòu)從設(shè)計之初就針對推理優(yōu)化低功耗,不依賴重型CUDA生態(tài)。

國產(chǎn)芯片優(yōu)勢場景的共同點(diǎn)是:對成本、功耗、供應(yīng)鏈安全敏感。這些場景中性能不是唯一指標(biāo),性價比和自主可控才是核心。
綜上,H200有限解禁是美國“技術(shù)依賴”策略的延續(xù),試圖用次高端產(chǎn)品維持中國對美技術(shù)依賴。但這一策略為時已晚——封鎖期內(nèi)中國已建立從硬件到軟件、單卡到集群的完整AI芯片解決方案,這套基本盤并非一塊H200就能撼動。
更關(guān)鍵的是,大模型日趨穩(wěn)定,訓(xùn)練次數(shù)減少,推理量卻爆炸式增長。國產(chǎn)卡短期能否拿下訓(xùn)練市場不重要,只要站穩(wěn)推理市場,產(chǎn)業(yè)就能立住。當(dāng)前已進(jìn)入“戰(zhàn)略相持”階段,若給國產(chǎn)芯片多些時間,假以時日訓(xùn)練卡也能“上桌掰手腕”。
本文來自微信公眾號“最話FunTalk”(ID:iFuntalker),作者:最話團(tuán)隊,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



