0%

中国显卡自研之路:追赶二十年差距,还要走多久?

写在前面

2026 年 4 月,中国。

你想订阅一个 Coding Plan?那得费老鼻子劲了。

这不是个例。2026 年,中国的 AI 算力供应紧张到了”抢号”的地步。

背后的原因很简单:高端 GPU 被禁售,国产替代跟不上。

这篇文章,聊聊中国显卡自研的进度、挑战,以及算力危机暴露出的深层问题。


一、现状:2026 年的国产 GPU

1.1 华为昇腾:国产 AI 算力的主力

华为昇腾是目前国产 AI 算力最有希望的产品线:

产品 制程 状态 性能对标
昇腾 910B 7nm (中芯N+2) 已量产 约 A100 水平(2020年)
昇腾 910C 7nm 小规模量产 约 A100/A800 水平
昇腾 910D 7nm+ 2025H2量产,2026部署 目标对标 H100

时间差距评估:

如果昇腾 910D 成功对标 H100(2022 年产品),那么:

1
2
3
4
5
6
7
8
性能对标:    昇腾 910D ≈ H100 (2022)
↙ ↘
时间差距: 2026年达到 → 2022年水平 = 落后 4 年

但同时 NVIDIA 已演进到:
B200/B300 (2024-2025) + Rubin (2026)

仍领先 2-3 代

1.2 其他国产 GPU 厂商

厂商 产品 制程 状态 定位
海光 DCU 系列 7nm 已量产 CUDA 兼容,持续迭代
壁仞科技 BR100 改版 7nm 小规模 转型推理、边缘计算
摩尔线程 MTT S80/S4000 7nm 已量产 全功能 GPU,消费级+专业级
天数智芯 天垓 100 7nm 已量产 AI 推理

共同特点: 全部停留在 7nm 制程


二、硬件瓶颈:制程封锁是核心困境

2.1 光刻机:无法获得的”关键设备”

高端 GPU 需要先进制程。而先进制程依赖光刻机

制程 生产方 中国可获得性
3nm TSMC、三星 ❌ 完全封锁
4nm/4NP TSMC ❌ 禁止出口中国
5nm TSMC、三星 ❌ 禁止出口中国
7nm TSMC、三星、中芯 ⚠️ 中芯可做,但产能有限
14nm+ 中芯、华虹等 ✅ 成熟量产

2026 年实际差距:

1
2
3
4
5
6
7
8
9
NVIDIA 制程演进:
2022: H100 @ 4nm
2024: B200 @ 4NP (改进4nm)
2026: Rubin @ 3nm

中国可获得的最佳制程:
2026: 7nm (中芯 N+2,DUV 多重曝光)

制程差距: 3nm vs 7nm = 2-3 代差距

2.2 EUV vs DUV:光刻机的代际差距

EUV(极紫外光刻机) 是制造 7nm 以下芯片的关键设备,由荷兰 ASML 生产,被美国禁止出口中国。

中芯国际只能用 DUV(深紫外光刻机) 做 7nm,需要”多重曝光”:

指标 EUV 单次曝光 DUV 多重曝光
步骤数 1次曝光 3-4次曝光
良率 80-90% 30-50%
成本 基准 2-3 倍
产能 基准 限制较大

这意味着:

  • 同样生产一块 7nm GPU,中国成本更高、良率更低
  • 实际可用芯片数量有限,无法大规模量产
  • 7nm 是天花板,无法突破到 5nm/3nm

2.3 HBM 内存:另一个短板

高端 AI 训练需要 HBM(高带宽内存)

GPU 内存规格 带宽
H100 80GB HBM3 3.35 TB/s
B200 192GB HBM3e 8 TB/s
昇腾 910D 估计 HBM2e 估计 1-2 TB/s

HBM 由韩国 SK 海力士、三星主导,技术门槛极高。国产 HBM 还在研发阶段,差距明显。


三、软件瓶颈:CUDA 的二十年差距

3.1 CANN vs CUDA:软件栈差距

华为昇腾使用 CANN(Compute Architecture for Neural Networks)作为软件栈:

1
2
3
4
5
6
7
8
9
10
CUDA 生态层级              CANN 生态层级
┌─────────────────┐ ┌─────────────────┐
│ PyTorch/TF │ │ MindSpore │ ← 华自研框架
├─────────────────┤ ├─────────────────┤
│ cuDNN/cuBLAS │ │ ACL/OP API │ ← 适配层
├─────────────────┤ ├─────────────────┤
│ CUDA Runtime │ │ CANN Runtime │
├─────────────────┤ ├─────────────────┤
│ NVIDIA GPU │ │ 昇腾 NPU │
└─────────────────┘ └─────────────────┘

差距对比:

维度 CUDA (2026) CANN (2026)
开发周期 20 年 约 6-7 年
开发者数量 500 万+ 估计 15-20 万
算子库数量 3000+ 估计 500-600 个
文档完善度 极其详尽 相对不足
bug 修复速度 全球团队支持 依赖华为内部团队

3.2 深度学习框架的适配困境

主流框架对 CUDA 是”原生级”支持,对昇腾是”适配级”:

1
2
3
4
PyTorch 官方支持优先级:
├── CUDA: 原生支持,性能最优,bug 优先修复
├── ROCm (AMD): 次级支持,问题较多
└── CANN (昇腾): 通过 torch_npu 扩展适配,非官方原生

这意味着:

  • PyTorch 新特性永远先在 CUDA 上实现
  • 昇腾适配永远慢一步
  • 很多算子没有优化实现
  • 开源社区贡献几乎为零

3.3 算子移植的巨大工作量

一个深度学习模型可能有 数百个算子

对比 数量
PyTorch CUDA 算子 超过 2000 个
昇腾已适配算子 估计 500-800 个
差距 超过 1200 个算子需要移植

每个算子都需要:

  • 针对昇腾架构重新实现
  • 性能优化调优
  • bug 测试修复

这是一项巨大且持续的工作


四、人才瓶颈:GPU 专家在哪里?

4.1 GPU 架构设计人才稀缺

需要的人才类型 全球分布
GPU 微架构设计 主要在 NVIDIA、AMD,中国极少
并行计算编译器 CUDA 团队深耕 20 年,中国刚起步
高性能算子优化 需要硬件+算法双重知识,人才稀缺

现实: 全球 GPU 核心人才集中在 NVIDIA 和 AMD。中国需要”从零培养”或”海外引进”,但顶尖人才很难回国。

4.2 开发者转向成本

即使硬件做出来了,谁来用?

  • 中国 AI 开发者 90%+ 使用 CUDA
  • 学习 CANN 需要重新理解:编程模型、内存管理、性能优化策略
  • 企业没有动力让员工学习新平台(除非强制)

五、追赶悖论:永远差几步

5.1 时间差距的变化

1
2
3
4
5
6
7
8
9
10
11
12
时间差距变化:
2024: 昇腾 910B vs H100 = 落后约 6-8 年
2026: 昇腾 910D vs B300 = 落后约 3-4 年

如果保持追赶速度:
2028: 可能落后 2-3 年
2030: 可能落后 1-2 年

但前提是:
├── 制程不被进一步封锁
├── 软件生态持续投入
└── NVIDIA 不加速迭代

5.2 NVIDIA 也在前进

更残酷的是:你追上今天的 NVIDIA,但 NVIDIA 又进化了。

1
2
3
4
5
6
7
8
9
10
11
12
13
2026 年时间线:

NVIDIA:
├── H100 (2022) ─────→ 成熟稳定,大规模部署
├── B200/B300 (2024-2025) ─→ 大规模出货
└── Rubin R100 (2026H2) ─→ 下一代发布

华为昇腾:
├── 910B (已量产) ─────→ 对标 A100 (2020)
├── 910C (小规模) ─────→ 对标 A100/A800
└── 910D (2026部署) ───→ 目标对标 H100 (2022)

差距:4 年(但 NVIDIA 还有 B300、Rubin)

六、挑战排序:从难到易

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
                    ┌─────────────────────────────────┐
│ 中国 GPU 自研挑战金字塔 │
└─────────────────────────────────┘

Level 5: 生态网络效应(差距扩大)
├── CUDA 20 年,开发者 500 万+
├── 学术界默认 CUDA,论文难复现
└── 全球开源社区全部绑定 CUDA

Level 4: 软件栈深度(差距缩小但仍明显)
├── 算子库 3000+ vs 600
├── PyTorch 适配约 70% 主流算子
└── 调试工具、profiler 差距大

Level 3: 人才知识积累(持续投入)
├── 20 年培养的 GPU 专家
├── 编译器团队规模差距
└── 性能优化经验积累

Level 2: 制造工艺差距(核心瓶颈)
├── 3nm vs 7nm,差 2-3 代
├── EUV 光刻机完全封锁
└── HBM 内存技术落后

Level 1: 硬件架构设计(已有突破)
├── 昇腾 910D 架构设计成熟
├── 部分指标接近 H100
└── 资金投入可解决

排序结论:

  • 硬件设计(Level 1):已有突破,可追赶
  • 制造工艺(Level 2):核心瓶颈,短期难以突破
  • 人才积累(Level 3):需要持续投入 5-10 年
  • 软件栈(Level 4):差距明显,但正在缩小
  • 生态效应(Level 5):差距扩大,最难跨越

七、算力危机:暴露了哪些问题?

7.1 表层问题:供应不足

2026 年,Coding Plan 抢不到,直接原因是:

问题 说明
NVIDIA GPU 禁售 H100、B200 等高端产品无法进口
国产 GPU 产能不足 7nm 良率低,产能有限
需求爆发式增长 大模型训练需求远超供给

7.2 深层问题:技术依赖

更深层的问题是技术依赖

依赖类型 说明
硬件依赖 高端 GPU、光刻机、HBM 都依赖进口
软件依赖 CUDA 生态绑定,开发者只会 CUDA
人才依赖 GPU 核心人才在海外
生态依赖 学术论文、开源项目全部绑定 CUDA

一句话:AI 技术栈的每一层,都依赖海外技术。

7.3 更深层问题:战略误判

回顾过去十年,有哪些战略误判?

误判 后果
低估 AI 算力重要性 2022 年大模型爆发时,措手不及
低估制裁风险 没有”囤货”预案,禁售后严重短缺
高估国产替代速度 认为几年就能追上,实际差距仍大
忽视软件生态 只关注硬件,软件生态投入不足

八、未来展望:什么时候可以缓解?

8.1 短期(2026-2027)

方面 预期
昇腾 910D 部署 2026 年大规模部署,缓解部分需求
国家强制替代 政企、国企强制使用国产算力
算力共享平台 建立公共算力平台,提高利用率

缓解程度: 部分缓解,但高端需求仍紧张。

8.2 中期(2028-2030)

方面 预期
昇腾下一代 目标对标 B300,差距缩小到 2-3 年
软件生态成熟 CANN 算子适配 90%+,MindSpore 完善
7nm 产能提升 中芯产能提升,良率改善

缓解程度: 基本需求可满足,高端训练仍有限制。

8.3 长期(2030+)

方面 预期
制程突破? 取决于光刻机技术突破,不确定性高
生态建立 国内开发者形成规模,可能突破 50 万
差异化路线 不追求通用 GPU,聚焦特定领域优化

缓解程度: 取决于技术突破和持续投入。

8.4 关键变量

什么时候可以缓解,取决于三个变量:

变量 影响
美国制裁力度 制程封锁是否会进一步加强
软件生态投入 CANN、MindSpore 能否持续迭代
国内需求增速 大模型需求是否会放缓

九、可能的破局路径

9.1 短期:强制替代

1
2
3
4
5
国家强制推动:
├── 政务系统 → 强制使用国产算力
├── 国企央企 → 强制使用国产算力
├── 高校科研 → 优先使用国产算力
└── 互联网公司 → 部分强制替代

优点: 快速提升国产 GPU 需求,加速迭代
缺点: 效率损失,短期内性能不如 CUDA

9.2 中期:场景突破

不追求”通用 GPU”,聚焦特定场景:

场景 策略
推理场景 不需要顶级算力,国产 GPU 可胜任
边缘计算 功耗要求高,国产 GPU 有优势
特定行业 政务、金融、医疗,可以定制优化

9.3 长期:生态建设

1
2
3
4
5
开源社区建设:
├── 投资开源项目 → 让开发者愿意贡献
├── 建立开发者社区 → 提供培训、文档、支持
├── 学术合作 → 让高校用国产 GPU 做研究
└── 企业扶持 → 帮助企业迁移到国产平台

这是最难但最根本的路径。


十、总结:路还要走多久?

回到开头的问题:Coding Plan 抢不到,什么时候可以缓解?

答案取决于视角:

视角 时间估计
基本需求缓解 2026-2027(昇腾 910D 部署)
高端需求缓解 2028-2030(取决于技术突破)
追上 NVIDIA 可能需要 10-15 年
建立完整生态 可能需要 20 年

更关键的问题:

算力危机暴露的不仅是”供应不足”,而是整个 AI 技术栈的依赖

  • 硬件依赖:光刻机、GPU、HBM
  • 软件依赖:CUDA 生态
  • 人才依赖:GPU 专家稀缺
  • 生态依赖:学术界、开源社区

这不是”买买买”就能解决的问题,而是需要 10-20 年持续投入的系统性工程。


写在最后

中国显卡自研之路,注定是一条艰难的路。

硬件层面:制程封锁是核心瓶颈,短期难以突破。

软件层面:CUDA 的二十年差距,需要持续追赶。

生态层面:开发者、学术界、开源社区的绑定,是最难跨越的障碍。

但好消息是:

  • 昇腾 910D 如果成功量产,将大幅缩短差距
  • CANN/MindSpore 正在快速迭代
  • 国产替代需求 正在加速推动技术进步

中国 GPU 自研,不是”能不能”的问题,而是”要多久”的问题。

短期(2-3 年):基本需求缓解。
中期(5-8 年):高端需求部分满足。
长期(10-15 年):可能追上 NVIDIA。

但前提是:制裁不加剧、投入不中断、生态持续建设。


参考资料