91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

<li id="jfofu"><tbody id="jfofu"><bdo id="jfofu"></bdo></tbody></li>

<label id="jfofu"></label>

<button id="jfofu"><output id="jfofu"></output></button>

<center id="jfofu"></center>

<li id="jfofu"><tbody id="jfofu"></tbody></li>

<label id="dfcpo"></label>

國產(chǎn)GPU直面英偉達(dá)H200：請給自主芯片多些成長時間

2025-12-19

2025年12月17日，專注高性能GPU研發(fā)、產(chǎn)品覆蓋AI計算、通用計算及圖形渲染領(lǐng)域的沐曦股份登陸科創(chuàng)板，首日收盤價829.90元，較104.66元的發(fā)行價暴漲725.24%。

僅在不到兩周前的12月5日，摩爾線程率先敲開科創(chuàng)板大門，成為“國產(chǎn)GPU第一股”，不僅是2025年科創(chuàng)板募資規(guī)模最大的IPO，更以88天的受理到過會速度刷新紀(jì)錄，114.28元/股的發(fā)行價在上市首日收獲425.46%的漲幅。

國產(chǎn)GPU廠商密集上市并獲市場熱捧，某種程度上是對“狼又來了”的回應(yīng)。據(jù)媒體報道，2025年12月8日，美國前總統(tǒng)特朗普在社交媒體宣布：美國將允許英偉達(dá)向中國“經(jīng)批準(zhǔn)的客戶”出口H200人工智能芯片，但銷售收入的25%需上繳美國政府。

美國智庫進(jìn)步研究所報告顯示，H200性能約為H20的六倍，卻與最新Blackwell芯片存在代際差，恰好卡在“能用但不先進(jìn)”的區(qū)間。因此美國解禁H200，實(shí)則是“溫水煮青蛙”策略的延續(xù)——通過“傾銷”性能相對落后卻仍具競爭力的H200，試圖延緩中國芯片的國產(chǎn)替代進(jìn)程。

英偉達(dá)CEO黃仁勛曾直言，增加對華芯片銷售既能讓中國企業(yè)依賴其技術(shù)，又能為公司帶來更多研發(fā)資金。這種“以戰(zhàn)養(yǎng)戰(zhàn)”的思路，與美國鷹派的“技術(shù)依賴論”不謀而合。

不過這場“溫水煮青蛙”能否奏效，還要看中國是否接招。從加速推動國產(chǎn)GPU廠商上市的動作來看，顯然中國并未上鉤。

01 沒有H200的三年：至暗時刻與破局之路

2022至2025年，美國對華半導(dǎo)體出口管制層層加碼。2025年4月的進(jìn)一步收緊，導(dǎo)致英偉達(dá)為中國定制的H20特供芯片被迫停售，公司因此承受約45億美元庫存損失及80億美元潛在收入損失。同年10月，黃仁勛公開表示，受管制影響，英偉達(dá)中國市場份額從95%驟降至0%，“100%退出中國市場”。

這三年被業(yè)界稱為中國AI芯片產(chǎn)業(yè)的“至暗時刻”，卻也成了國產(chǎn)芯片加速崛起的催化劑。面對外部封鎖，國產(chǎn)GPU廠商祭出“三管齊下”的突圍策略：

在單卡性能暫難匹敵英偉達(dá)時，通過堆面積、晶體管、芯片彌補(bǔ)差距。華為昇騰910C采用雙Die設(shè)計，F(xiàn)P16算力達(dá)800 TFLOPS，性能逼近英偉達(dá)H100的80%；寒武紀(jì)思元590綜合性能達(dá)A100的70-80%；海光信息深算二號FP16算力1024 TFLOPS，接近A100的90%。

因能效比不足，國產(chǎn)卡普遍以“電力+工程能力”硬頂功耗問題。摩爾線程“平湖”架構(gòu)支持單芯片最高1000W TDP動態(tài)功耗管理，通過液冷等手段保障穩(wěn)定運(yùn)行。雖每瓦性能仍落后英偉達(dá)約30%，但低功耗版國產(chǎn)卡已在流片。簡言之，這段時期國產(chǎn)卡?？扛芗囊豪?、更多服務(wù)器機(jī)架，以工程能力彌補(bǔ)能效短板。

最后是“生態(tài)兼容+編譯層優(yōu)化”。針對英偉達(dá)CUDA生態(tài)壟斷，國產(chǎn)廠商采取兼容策略。海光DCU通過ROCm生態(tài)實(shí)現(xiàn)CUDA“軟兼容”，實(shí)測遷移效率達(dá)85%；華為CANN架構(gòu)用“指令翻譯+動態(tài)調(diào)度”技術(shù)，覆蓋80%的CUDA API。這種兼容相當(dāng)于做了層“翻譯器”，讓國產(chǎn)GPU能運(yùn)行英偉達(dá)指令語言，如將CUDA_X函數(shù)轉(zhuǎn)為國產(chǎn)BR_X函數(shù)，通過算子合并、分拆、調(diào)整執(zhí)行順序適配本地語法。但弊端也很明顯：永遠(yuǎn)慢半拍——英偉達(dá)每次更新CUDA或架構(gòu)，國產(chǎn)廠商就得跟進(jìn)新“翻譯器”，戰(zhàn)略上十分被動。

被H200“斷供”的三年，國產(chǎn)GPU技術(shù)路線呈現(xiàn)鮮明“中國式風(fēng)格”——工藝受限下，靠“架構(gòu)取巧、集群堆疊、算子融合、軟件兼容”的工程努力，將落后硬件打磨至可用、上規(guī)模、適配大模型訓(xùn)練的程度。這雖非工程最優(yōu)解，卻是封鎖環(huán)境下的現(xiàn)實(shí)可行方案。

02 差距幾何？單卡落后但推理已追平

評估國產(chǎn)GPU與H200的技術(shù)差距，需以美國商務(wù)部BIS定義的“總處理性能”（TPP）為統(tǒng)一標(biāo)準(zhǔn)，TPP=2×MacTOPS×操作位長（通常以TFLOPS（FP16）×16計算）。據(jù)伯恩斯坦2025年12月報告，主流芯片TPP對比：

- 英偉達(dá)H200：60,000 TPP（Hopper架構(gòu)，141GB HBM3e，4.8TB/s帶寬）

- 英偉達(dá)H20：15,832 TPP（特供版，僅為H200的26%）

- 華為昇騰910C：36,912 TPP（約為H200的61.5%，國產(chǎn)最高）

- 寒武紀(jì)思元590：29,360 TPP（約為H200的49%）

- 海光BW1000/DCU3：14,688 TPP（約為H200的24.5%）

- 摩爾線程S4000：約20,000 TPP（約為H200的33%）

公開數(shù)據(jù)顯示，國產(chǎn)頂級芯片單卡性能仍落后H200約1.6-2倍，但已超越H20，達(dá)到“可用”水平。

訓(xùn)練能力上，國產(chǎn)單卡仍落后2-3倍，但集群層面可通過“堆卡+高速互聯(lián)”彌補(bǔ)部分差距。華為CloudMatrix 384集群（384張昇騰910C）性能接近英偉達(dá)GB200 NVL72，部分大模型訓(xùn)練任務(wù)表現(xiàn)良好。不過因工藝限制（國產(chǎn)芯片多為7nm，H200為4nm），每瓦性能仍落后約30%。

推理能力上，國產(chǎn)頂級卡已持平甚至超越閹割版H20。華為昇騰910B2的INT8算力達(dá)762 TOPS，低精度數(shù)據(jù)處理效率高；寒武紀(jì)思元590在推理場景表現(xiàn)優(yōu)異，KV-Cache容量與帶寬均達(dá)標(biāo)；沐曦曦云C550顯存帶寬1600-1800GB/s，在大規(guī)模推理任務(wù)中占優(yōu)。

成本與功耗方面，海光BW100采購價約10萬元/張，寒武紀(jì)590從8.5萬元降至6-7萬元，華為910C約18萬元，均遠(yuǎn)低于H200的30-40萬元，且H200需額外支付25%“美國稅”，國產(chǎn)卡在成本上有50%左右優(yōu)勢。功耗上，雖國產(chǎn)卡單卡功耗較高，但H200 TDP達(dá)700W，實(shí)際差距并不懸殊。

生態(tài)是國產(chǎn)芯片最大短板，卻是進(jìn)步最快的領(lǐng)域。華為昇騰CANN工具鏈已支持與MindSpore深度協(xié)同及PyTorch一鍵遷移，其他國產(chǎn)平臺也在做深度編譯器與中間表示（IR）適配，減少開發(fā)者手動改代碼的工作量。這背后是不同廠商、云廠商、軟件團(tuán)隊、科研院校合作推動生態(tài)標(biāo)準(zhǔn)化、工具與適配案例共享，形成產(chǎn)業(yè)協(xié)同優(yōu)勢。

綜合來看，國產(chǎn)芯片訓(xùn)練能力仍有差距，但推理已達(dá)“能用+成本低+可控”水平。伯恩斯坦推測，2026-2027年國產(chǎn)芯片將在部分場景實(shí)現(xiàn)與H200的全面競爭。

03 未來較量：迂回戰(zhàn)術(shù)VS堆料路線

技術(shù)演進(jìn)上，英偉達(dá)剛發(fā)布的Blackwell Ultra系列延續(xù)“堆料漲性能”路線，賭摩爾定律（或“黃氏定律”）未終結(jié)。“黃氏定律”是黃仁勛提出的“GPU性能每兩年翻一倍”經(jīng)驗(yàn)法則，與其說是自然規(guī)律，不如說是英偉達(dá)研發(fā)投入與市場策略的體現(xiàn)——每年超70億美元研發(fā)費(fèi)用讓對手望塵莫及。

國產(chǎn)芯片未直接硬碰硬，而是用“架構(gòu)取巧+多芯片封裝+集群堆疊”的迂回戰(zhàn)術(shù)。華為昇騰采用雙Die設(shè)計，以先進(jìn)封裝提升集成度；摩爾線程“平湖”架構(gòu)實(shí)現(xiàn)Chiplet可擴(kuò)展設(shè)計，支持計算Die、HBM3e存儲Die與IODie靈活配置；沐曦曦云C700系列擴(kuò)展FP4等低精度計算支持，對標(biāo)H100。先進(jìn)工藝受限下，國產(chǎn)芯片靠架構(gòu)創(chuàng)新突破性能瓶頸：昇騰910C用達(dá)芬奇架構(gòu)3.0，集成32個自研AI Core，支持原生CANN異構(gòu)計算；思元590用MLUarch架構(gòu)，通過指令集優(yōu)化提升效率；海光深算三號采用x86+GPGPU的Chiplet封裝，2.5D封裝實(shí)現(xiàn)HBM2e內(nèi)存直連，帶寬達(dá)1.6TB/s。這些創(chuàng)新讓國產(chǎn)芯片在特定場景能與英偉達(dá)媲美。

應(yīng)用層面，國產(chǎn)AI芯片已找到“舒適區(qū)”且表現(xiàn)亮眼：

智算中心成華為“主場”，截至2025年，全國600多個智算中心項(xiàng)目中，超300套Atlas 900超節(jié)點(diǎn)商用部署，覆蓋互聯(lián)網(wǎng)、電信、制造等行業(yè)，中國電信粵港澳大灣區(qū)智算昇騰超節(jié)點(diǎn)更是全球首個商用超節(jié)點(diǎn)項(xiàng)目。

面向國內(nèi)大生態(tài)的專用場景，如智能安防、金融風(fēng)控、OCR/文本語義檢索、音視頻處理（自動剪輯、AI轉(zhuǎn)碼）等，國產(chǎn)卡可針對特定算法深度定制優(yōu)化。通過自研編譯器和算子庫對接MindSpore等國內(nèi)框架，在“只需特定任務(wù)跑得快”的場景中，專用定制效率常高于通用GPU。

低延遲/小規(guī)模邊緣場景，如邊緣AI、工控設(shè)備、機(jī)器人本地推理等，國產(chǎn)NPU/ASIC方案比通用GPU效率更高，因架構(gòu)從設(shè)計之初就針對推理優(yōu)化低功耗，不依賴重型CUDA生態(tài)。

國產(chǎn)芯片優(yōu)勢場景的共同點(diǎn)是：對成本、功耗、供應(yīng)鏈安全敏感。這些場景中性能不是唯一指標(biāo)，性價比和自主可控才是核心。

綜上，H200有限解禁是美國“技術(shù)依賴”策略的延續(xù)，試圖用次高端產(chǎn)品維持中國對美技術(shù)依賴。但這一策略為時已晚——封鎖期內(nèi)中國已建立從硬件到軟件、單卡到集群的完整AI芯片解決方案，這套基本盤并非一塊H200就能撼動。

更關(guān)鍵的是，大模型日趨穩(wěn)定，訓(xùn)練次數(shù)減少，推理量卻爆炸式增長。國產(chǎn)卡短期能否拿下訓(xùn)練市場不重要，只要站穩(wěn)推理市場，產(chǎn)業(yè)就能立住。當(dāng)前已進(jìn)入“戰(zhàn)略相持”階段，若給國產(chǎn)芯片多些時間，假以時日訓(xùn)練卡也能“上桌掰手腕”。

本文來自微信公眾號“最話FunTalk”（ID：iFuntalker），作者：最話團(tuán)隊，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

馬斯克身家首超6000億，xAI未來兩年生死戰(zhàn)：2026年能否實(shí)現(xiàn)AGI？

零公里二手車迎清算：行業(yè)灰色地帶的終結(jié)與規(guī)范之路

《阿凡達(dá)3》200多元票價引熱議，貴不貴？

姚順雨入職騰訊：27歲科學(xué)家肩負(fù)的三重核心使命

智算中心熱潮下，長時儲能開啟行業(yè)新篇

項(xiàng)目推薦

康小虎 · 健康小屋

康老板 · 氧療堂