中国显卡自研之路：追赶二十年差距，还要走多久？

写在前面

2026 年 4 月，中国。

你想订阅一个 Coding Plan？那得费老鼻子劲了。

这不是个例。2026 年，中国的 AI 算力供应紧张到了”抢号”的地步。

背后的原因很简单：高端 GPU 被禁售，国产替代跟不上。

这篇文章，聊聊中国显卡自研的进度、挑战，以及算力危机暴露出的深层问题。

一、现状：2026 年的国产 GPU

1.1 华为昇腾：国产 AI 算力的主力

华为昇腾是目前国产 AI 算力最有希望的产品线：

产品	制程	状态	性能对标
昇腾 910B	7nm (中芯N+2)	已量产	约 A100 水平（2020年）
昇腾 910C	7nm	小规模量产	约 A100/A800 水平
昇腾 910D	7nm+	2025H2量产，2026部署	目标对标 H100

时间差距评估：

如果昇腾 910D 成功对标 H100（2022 年产品），那么：

性能对标：    昇腾 910D ≈ H100 (2022)
              ↙               ↘
时间差距：   2026年达到 → 2022年水平 = 落后 4 年

但同时 NVIDIA 已演进到：
              B200/B300 (2024-2025) + Rubin (2026)
              ↘
              仍领先 2-3 代

1.2 其他国产 GPU 厂商

厂商	产品	制程	状态	定位
海光	DCU 系列	7nm	已量产	CUDA 兼容，持续迭代
壁仞科技	BR100 改版	7nm	小规模	转型推理、边缘计算
摩尔线程	MTT S80/S4000	7nm	已量产	全功能 GPU，消费级+专业级
天数智芯	天垓 100	7nm	已量产	AI 推理

共同特点： 全部停留在 7nm 制程。

二、硬件瓶颈：制程封锁是核心困境

2.1 光刻机：无法获得的”关键设备”

高端 GPU 需要先进制程。而先进制程依赖光刻机。

制程	生产方	中国可获得性
3nm	TSMC、三星	❌ 完全封锁
4nm/4NP	TSMC	❌ 禁止出口中国
5nm	TSMC、三星	❌ 禁止出口中国
7nm	TSMC、三星、中芯	⚠️ 中芯可做，但产能有限
14nm+	中芯、华虹等	✅ 成熟量产

2026 年实际差距：

NVIDIA 制程演进:
  2022: H100 @ 4nm
  2024: B200 @ 4NP (改进4nm)
  2026: Rubin @ 3nm
  
中国可获得的最佳制程:
  2026: 7nm (中芯 N+2，DUV 多重曝光)
  
制程差距: 3nm vs 7nm = 2-3 代差距

2.2 EUV vs DUV：光刻机的代际差距

EUV（极紫外光刻机） 是制造 7nm 以下芯片的关键设备，由荷兰 ASML 生产，被美国禁止出口中国。

中芯国际只能用 DUV（深紫外光刻机） 做 7nm，需要”多重曝光”：

指标	EUV 单次曝光	DUV 多重曝光
步骤数	1次曝光	3-4次曝光
良率	80-90%	30-50%
成本	基准	2-3 倍
产能	基准	限制较大

这意味着：

同样生产一块 7nm GPU，中国成本更高、良率更低
实际可用芯片数量有限，无法大规模量产
7nm 是天花板，无法突破到 5nm/3nm

2.3 HBM 内存：另一个短板

高端 AI 训练需要 HBM（高带宽内存）：

GPU	内存规格	带宽
H100	80GB HBM3	3.35 TB/s
B200	192GB HBM3e	8 TB/s
昇腾 910D	估计 HBM2e	估计 1-2 TB/s

HBM 由韩国 SK 海力士、三星主导，技术门槛极高。国产 HBM 还在研发阶段，差距明显。

三、软件瓶颈：CUDA 的二十年差距

3.1 CANN vs CUDA：软件栈差距

华为昇腾使用 CANN（Compute Architecture for Neural Networks）作为软件栈：

CUDA 生态层级              CANN 生态层级
┌─────────────────┐        ┌─────────────────┐
│  PyTorch/TF     │        │  MindSpore      │ ← 华自研框架
├─────────────────┤        ├─────────────────┤
│  cuDNN/cuBLAS   │        │  ACL/OP API     │ ← 适配层
├─────────────────┤        ├─────────────────┤
│  CUDA Runtime   │        │  CANN Runtime   │
├─────────────────┤        ├─────────────────┤
│  NVIDIA GPU     │        │  昇腾 NPU       │
└─────────────────┘        └─────────────────┘

差距对比：

维度	CUDA (2026)	CANN (2026)
开发周期	20 年	约 6-7 年
开发者数量	500 万+	估计 15-20 万
算子库数量	3000+	估计 500-600 个
文档完善度	极其详尽	相对不足
bug 修复速度	全球团队支持	依赖华为内部团队

3.2 深度学习框架的适配困境

主流框架对 CUDA 是”原生级”支持，对昇腾是”适配级”：

PyTorch 官方支持优先级：
├── CUDA: 原生支持，性能最优，bug 优先修复
├── ROCm (AMD): 次级支持，问题较多
└── CANN (昇腾): 通过 torch_npu 扩展适配，非官方原生

这意味着：

PyTorch 新特性永远先在 CUDA 上实现
昇腾适配永远慢一步
很多算子没有优化实现
开源社区贡献几乎为零

3.3 算子移植的巨大工作量

一个深度学习模型可能有 数百个算子：

对比	数量
PyTorch CUDA 算子	超过 2000 个
昇腾已适配算子	估计 500-800 个
差距	超过 1200 个算子需要移植

每个算子都需要：

针对昇腾架构重新实现
性能优化调优
bug 测试修复

这是一项巨大且持续的工作。

四、人才瓶颈：GPU 专家在哪里？

4.1 GPU 架构设计人才稀缺

需要的人才类型	全球分布
GPU 微架构设计	主要在 NVIDIA、AMD，中国极少
并行计算编译器	CUDA 团队深耕 20 年，中国刚起步
高性能算子优化	需要硬件+算法双重知识，人才稀缺

现实： 全球 GPU 核心人才集中在 NVIDIA 和 AMD。中国需要”从零培养”或”海外引进”，但顶尖人才很难回国。

4.2 开发者转向成本

即使硬件做出来了，谁来用？

中国 AI 开发者 90%+ 使用 CUDA
学习 CANN 需要重新理解：编程模型、内存管理、性能优化策略
企业没有动力让员工学习新平台（除非强制）

五、追赶悖论：永远差几步

5.1 时间差距的变化

时间差距变化：
  2024: 昇腾 910B vs H100 = 落后约 6-8 年
  2026: 昇腾 910D vs B300 = 落后约 3-4 年
  
如果保持追赶速度：
  2028: 可能落后 2-3 年
  2030: 可能落后 1-2 年
  
但前提是：
├── 制程不被进一步封锁
├── 软件生态持续投入
└── NVIDIA 不加速迭代

5.2 NVIDIA 也在前进

更残酷的是：你追上今天的 NVIDIA，但 NVIDIA 又进化了。

2026 年时间线：

NVIDIA:
├── H100 (2022) ─────→ 成熟稳定，大规模部署
├── B200/B300 (2024-2025) ─→ 大规模出货
└── Rubin R100 (2026H2) ─→ 下一代发布

华为昇腾:
├── 910B (已量产) ─────→ 对标 A100 (2020)
├── 910C (小规模) ─────→ 对标 A100/A800
└── 910D (2026部署) ───→ 目标对标 H100 (2022)

差距：4 年（但 NVIDIA 还有 B300、Rubin）

六、挑战排序：从难到易

                    ┌─────────────────────────────────┐
                    │   中国 GPU 自研挑战金字塔       │
                    └─────────────────────────────────┘

Level 5: 生态网络效应（差距扩大）
         ├── CUDA 20 年，开发者 500 万+
         ├── 学术界默认 CUDA，论文难复现
         └── 全球开源社区全部绑定 CUDA

Level 4: 软件栈深度（差距缩小但仍明显）
         ├── 算子库 3000+ vs 600
         ├── PyTorch 适配约 70% 主流算子
         └── 调试工具、profiler 差距大

Level 3: 人才知识积累（持续投入）
         ├── 20 年培养的 GPU 专家
         ├── 编译器团队规模差距
         └── 性能优化经验积累

Level 2: 制造工艺差距（核心瓶颈）
         ├── 3nm vs 7nm，差 2-3 代
         ├── EUV 光刻机完全封锁
         └── HBM 内存技术落后

Level 1: 硬件架构设计（已有突破）
         ├── 昇腾 910D 架构设计成熟
         ├── 部分指标接近 H100
         └── 资金投入可解决

排序结论：

硬件设计（Level 1）：已有突破，可追赶
制造工艺（Level 2）：核心瓶颈，短期难以突破
人才积累（Level 3）：需要持续投入 5-10 年
软件栈（Level 4）：差距明显，但正在缩小
生态效应（Level 5）：差距扩大，最难跨越

七、算力危机：暴露了哪些问题？

7.1 表层问题：供应不足

2026 年，Coding Plan 抢不到，直接原因是：

问题	说明
NVIDIA GPU 禁售	H100、B200 等高端产品无法进口
国产 GPU 产能不足	7nm 良率低，产能有限
需求爆发式增长	大模型训练需求远超供给

7.2 深层问题：技术依赖

更深层的问题是技术依赖：

依赖类型	说明
硬件依赖	高端 GPU、光刻机、HBM 都依赖进口
软件依赖	CUDA 生态绑定，开发者只会 CUDA
人才依赖	GPU 核心人才在海外
生态依赖	学术论文、开源项目全部绑定 CUDA

一句话：AI 技术栈的每一层，都依赖海外技术。

7.3 更深层问题：战略误判

回顾过去十年，有哪些战略误判？

误判	后果
低估 AI 算力重要性	2022 年大模型爆发时，措手不及
低估制裁风险	没有”囤货”预案，禁售后严重短缺
高估国产替代速度	认为几年就能追上，实际差距仍大
忽视软件生态	只关注硬件，软件生态投入不足

八、未来展望：什么时候可以缓解？

8.1 短期（2026-2027）

方面	预期
昇腾 910D 部署	2026 年大规模部署，缓解部分需求
国家强制替代	政企、国企强制使用国产算力
算力共享平台	建立公共算力平台，提高利用率

缓解程度： 部分缓解，但高端需求仍紧张。

8.2 中期（2028-2030）

方面	预期
昇腾下一代	目标对标 B300，差距缩小到 2-3 年
软件生态成熟	CANN 算子适配 90%+，MindSpore 完善
7nm 产能提升	中芯产能提升，良率改善

缓解程度： 基本需求可满足，高端训练仍有限制。

8.3 长期（2030+）

方面	预期
制程突破？	取决于光刻机技术突破，不确定性高
生态建立	国内开发者形成规模，可能突破 50 万
差异化路线	不追求通用 GPU，聚焦特定领域优化

缓解程度： 取决于技术突破和持续投入。

8.4 关键变量

什么时候可以缓解，取决于三个变量：

变量	影响
美国制裁力度	制程封锁是否会进一步加强
软件生态投入	CANN、MindSpore 能否持续迭代
国内需求增速	大模型需求是否会放缓

九、可能的破局路径

9.1 短期：强制替代

国家强制推动：
├── 政务系统 → 强制使用国产算力
├── 国企央企 → 强制使用国产算力
├── 高校科研 → 优先使用国产算力
└── 互联网公司 → 部分强制替代

优点： 快速提升国产 GPU 需求，加速迭代
缺点： 效率损失，短期内性能不如 CUDA

9.2 中期：场景突破

不追求”通用 GPU”，聚焦特定场景：

场景	策略
推理场景	不需要顶级算力，国产 GPU 可胜任
边缘计算	功耗要求高，国产 GPU 有优势
特定行业	政务、金融、医疗，可以定制优化

9.3 长期：生态建设

开源社区建设：
├── 投资开源项目 → 让开发者愿意贡献
├── 建立开发者社区 → 提供培训、文档、支持
├── 学术合作 → 让高校用国产 GPU 做研究
└── 企业扶持 → 帮助企业迁移到国产平台

这是最难但最根本的路径。

十、总结：路还要走多久？

回到开头的问题：Coding Plan 抢不到，什么时候可以缓解？

答案取决于视角：

视角	时间估计
基本需求缓解	2026-2027（昇腾 910D 部署）
高端需求缓解	2028-2030（取决于技术突破）
追上 NVIDIA	可能需要 10-15 年
建立完整生态	可能需要 20 年

更关键的问题：

算力危机暴露的不仅是”供应不足”，而是整个 AI 技术栈的依赖：

硬件依赖：光刻机、GPU、HBM
软件依赖：CUDA 生态
人才依赖：GPU 专家稀缺
生态依赖：学术界、开源社区

这不是”买买买”就能解决的问题，而是需要 10-20 年持续投入的系统性工程。

写在最后

中国显卡自研之路，注定是一条艰难的路。

硬件层面：制程封锁是核心瓶颈，短期难以突破。

软件层面：CUDA 的二十年差距，需要持续追赶。

生态层面：开发者、学术界、开源社区的绑定，是最难跨越的障碍。

但好消息是：

昇腾 910D 如果成功量产，将大幅缩短差距
CANN/MindSpore 正在快速迭代
国产替代需求 正在加速推动技术进步

中国 GPU 自研，不是”能不能”的问题，而是”要多久”的问题。

短期（2-3 年）：基本需求缓解。
中期（5-8 年）：高端需求部分满足。
长期（10-15 年）：可能追上 NVIDIA。

但前提是：制裁不加剧、投入不中断、生态持续建设。

DoneHub