写在前面
2026 年 4 月,中国。
你想订阅一个 Coding Plan?那得费老鼻子劲了。
这不是个例。2026 年,中国的 AI 算力供应紧张到了”抢号”的地步。
背后的原因很简单:高端 GPU 被禁售,国产替代跟不上。
这篇文章,聊聊中国显卡自研的进度、挑战,以及算力危机暴露出的深层问题。
一、现状:2026 年的国产 GPU
1.1 华为昇腾:国产 AI 算力的主力
华为昇腾是目前国产 AI 算力最有希望的产品线:
| 产品 | 制程 | 状态 | 性能对标 |
|---|---|---|---|
| 昇腾 910B | 7nm (中芯N+2) | 已量产 | 约 A100 水平(2020年) |
| 昇腾 910C | 7nm | 小规模量产 | 约 A100/A800 水平 |
| 昇腾 910D | 7nm+ | 2025H2量产,2026部署 | 目标对标 H100 |
时间差距评估:
如果昇腾 910D 成功对标 H100(2022 年产品),那么:
1 | 性能对标: 昇腾 910D ≈ H100 (2022) |
1.2 其他国产 GPU 厂商
| 厂商 | 产品 | 制程 | 状态 | 定位 |
|---|---|---|---|---|
| 海光 | DCU 系列 | 7nm | 已量产 | CUDA 兼容,持续迭代 |
| 壁仞科技 | BR100 改版 | 7nm | 小规模 | 转型推理、边缘计算 |
| 摩尔线程 | MTT S80/S4000 | 7nm | 已量产 | 全功能 GPU,消费级+专业级 |
| 天数智芯 | 天垓 100 | 7nm | 已量产 | AI 推理 |
共同特点: 全部停留在 7nm 制程。
二、硬件瓶颈:制程封锁是核心困境
2.1 光刻机:无法获得的”关键设备”
高端 GPU 需要先进制程。而先进制程依赖光刻机。
| 制程 | 生产方 | 中国可获得性 |
|---|---|---|
| 3nm | TSMC、三星 | ❌ 完全封锁 |
| 4nm/4NP | TSMC | ❌ 禁止出口中国 |
| 5nm | TSMC、三星 | ❌ 禁止出口中国 |
| 7nm | TSMC、三星、中芯 | ⚠️ 中芯可做,但产能有限 |
| 14nm+ | 中芯、华虹等 | ✅ 成熟量产 |
2026 年实际差距:
1 | NVIDIA 制程演进: |
2.2 EUV vs DUV:光刻机的代际差距
EUV(极紫外光刻机) 是制造 7nm 以下芯片的关键设备,由荷兰 ASML 生产,被美国禁止出口中国。
中芯国际只能用 DUV(深紫外光刻机) 做 7nm,需要”多重曝光”:
| 指标 | EUV 单次曝光 | DUV 多重曝光 |
|---|---|---|
| 步骤数 | 1次曝光 | 3-4次曝光 |
| 良率 | 80-90% | 30-50% |
| 成本 | 基准 | 2-3 倍 |
| 产能 | 基准 | 限制较大 |
这意味着:
- 同样生产一块 7nm GPU,中国成本更高、良率更低
- 实际可用芯片数量有限,无法大规模量产
- 7nm 是天花板,无法突破到 5nm/3nm
2.3 HBM 内存:另一个短板
高端 AI 训练需要 HBM(高带宽内存):
| GPU | 内存规格 | 带宽 |
|---|---|---|
| H100 | 80GB HBM3 | 3.35 TB/s |
| B200 | 192GB HBM3e | 8 TB/s |
| 昇腾 910D | 估计 HBM2e | 估计 1-2 TB/s |
HBM 由韩国 SK 海力士、三星主导,技术门槛极高。国产 HBM 还在研发阶段,差距明显。
三、软件瓶颈:CUDA 的二十年差距
3.1 CANN vs CUDA:软件栈差距
华为昇腾使用 CANN(Compute Architecture for Neural Networks)作为软件栈:
1 | CUDA 生态层级 CANN 生态层级 |
差距对比:
| 维度 | CUDA (2026) | CANN (2026) |
|---|---|---|
| 开发周期 | 20 年 | 约 6-7 年 |
| 开发者数量 | 500 万+ | 估计 15-20 万 |
| 算子库数量 | 3000+ | 估计 500-600 个 |
| 文档完善度 | 极其详尽 | 相对不足 |
| bug 修复速度 | 全球团队支持 | 依赖华为内部团队 |
3.2 深度学习框架的适配困境
主流框架对 CUDA 是”原生级”支持,对昇腾是”适配级”:
1 | PyTorch 官方支持优先级: |
这意味着:
- PyTorch 新特性永远先在 CUDA 上实现
- 昇腾适配永远慢一步
- 很多算子没有优化实现
- 开源社区贡献几乎为零
3.3 算子移植的巨大工作量
一个深度学习模型可能有 数百个算子:
| 对比 | 数量 |
|---|---|
| PyTorch CUDA 算子 | 超过 2000 个 |
| 昇腾已适配算子 | 估计 500-800 个 |
| 差距 | 超过 1200 个算子需要移植 |
每个算子都需要:
- 针对昇腾架构重新实现
- 性能优化调优
- bug 测试修复
这是一项巨大且持续的工作。
四、人才瓶颈:GPU 专家在哪里?
4.1 GPU 架构设计人才稀缺
| 需要的人才类型 | 全球分布 |
|---|---|
| GPU 微架构设计 | 主要在 NVIDIA、AMD,中国极少 |
| 并行计算编译器 | CUDA 团队深耕 20 年,中国刚起步 |
| 高性能算子优化 | 需要硬件+算法双重知识,人才稀缺 |
现实: 全球 GPU 核心人才集中在 NVIDIA 和 AMD。中国需要”从零培养”或”海外引进”,但顶尖人才很难回国。
4.2 开发者转向成本
即使硬件做出来了,谁来用?
- 中国 AI 开发者 90%+ 使用 CUDA
- 学习 CANN 需要重新理解:编程模型、内存管理、性能优化策略
- 企业没有动力让员工学习新平台(除非强制)
五、追赶悖论:永远差几步
5.1 时间差距的变化
1 | 时间差距变化: |
5.2 NVIDIA 也在前进
更残酷的是:你追上今天的 NVIDIA,但 NVIDIA 又进化了。
1 | 2026 年时间线: |
六、挑战排序:从难到易
1 | ┌─────────────────────────────────┐ |
排序结论:
- 硬件设计(Level 1):已有突破,可追赶
- 制造工艺(Level 2):核心瓶颈,短期难以突破
- 人才积累(Level 3):需要持续投入 5-10 年
- 软件栈(Level 4):差距明显,但正在缩小
- 生态效应(Level 5):差距扩大,最难跨越
七、算力危机:暴露了哪些问题?
7.1 表层问题:供应不足
2026 年,Coding Plan 抢不到,直接原因是:
| 问题 | 说明 |
|---|---|
| NVIDIA GPU 禁售 | H100、B200 等高端产品无法进口 |
| 国产 GPU 产能不足 | 7nm 良率低,产能有限 |
| 需求爆发式增长 | 大模型训练需求远超供给 |
7.2 深层问题:技术依赖
更深层的问题是技术依赖:
| 依赖类型 | 说明 |
|---|---|
| 硬件依赖 | 高端 GPU、光刻机、HBM 都依赖进口 |
| 软件依赖 | CUDA 生态绑定,开发者只会 CUDA |
| 人才依赖 | GPU 核心人才在海外 |
| 生态依赖 | 学术论文、开源项目全部绑定 CUDA |
一句话:AI 技术栈的每一层,都依赖海外技术。
7.3 更深层问题:战略误判
回顾过去十年,有哪些战略误判?
| 误判 | 后果 |
|---|---|
| 低估 AI 算力重要性 | 2022 年大模型爆发时,措手不及 |
| 低估制裁风险 | 没有”囤货”预案,禁售后严重短缺 |
| 高估国产替代速度 | 认为几年就能追上,实际差距仍大 |
| 忽视软件生态 | 只关注硬件,软件生态投入不足 |
八、未来展望:什么时候可以缓解?
8.1 短期(2026-2027)
| 方面 | 预期 |
|---|---|
| 昇腾 910D 部署 | 2026 年大规模部署,缓解部分需求 |
| 国家强制替代 | 政企、国企强制使用国产算力 |
| 算力共享平台 | 建立公共算力平台,提高利用率 |
缓解程度: 部分缓解,但高端需求仍紧张。
8.2 中期(2028-2030)
| 方面 | 预期 |
|---|---|
| 昇腾下一代 | 目标对标 B300,差距缩小到 2-3 年 |
| 软件生态成熟 | CANN 算子适配 90%+,MindSpore 完善 |
| 7nm 产能提升 | 中芯产能提升,良率改善 |
缓解程度: 基本需求可满足,高端训练仍有限制。
8.3 长期(2030+)
| 方面 | 预期 |
|---|---|
| 制程突破? | 取决于光刻机技术突破,不确定性高 |
| 生态建立 | 国内开发者形成规模,可能突破 50 万 |
| 差异化路线 | 不追求通用 GPU,聚焦特定领域优化 |
缓解程度: 取决于技术突破和持续投入。
8.4 关键变量
什么时候可以缓解,取决于三个变量:
| 变量 | 影响 |
|---|---|
| 美国制裁力度 | 制程封锁是否会进一步加强 |
| 软件生态投入 | CANN、MindSpore 能否持续迭代 |
| 国内需求增速 | 大模型需求是否会放缓 |
九、可能的破局路径
9.1 短期:强制替代
1 | 国家强制推动: |
优点: 快速提升国产 GPU 需求,加速迭代
缺点: 效率损失,短期内性能不如 CUDA
9.2 中期:场景突破
不追求”通用 GPU”,聚焦特定场景:
| 场景 | 策略 |
|---|---|
| 推理场景 | 不需要顶级算力,国产 GPU 可胜任 |
| 边缘计算 | 功耗要求高,国产 GPU 有优势 |
| 特定行业 | 政务、金融、医疗,可以定制优化 |
9.3 长期:生态建设
1 | 开源社区建设: |
这是最难但最根本的路径。
十、总结:路还要走多久?
回到开头的问题:Coding Plan 抢不到,什么时候可以缓解?
答案取决于视角:
| 视角 | 时间估计 |
|---|---|
| 基本需求缓解 | 2026-2027(昇腾 910D 部署) |
| 高端需求缓解 | 2028-2030(取决于技术突破) |
| 追上 NVIDIA | 可能需要 10-15 年 |
| 建立完整生态 | 可能需要 20 年 |
更关键的问题:
算力危机暴露的不仅是”供应不足”,而是整个 AI 技术栈的依赖:
- 硬件依赖:光刻机、GPU、HBM
- 软件依赖:CUDA 生态
- 人才依赖:GPU 专家稀缺
- 生态依赖:学术界、开源社区
这不是”买买买”就能解决的问题,而是需要 10-20 年持续投入的系统性工程。
写在最后
中国显卡自研之路,注定是一条艰难的路。
硬件层面:制程封锁是核心瓶颈,短期难以突破。
软件层面:CUDA 的二十年差距,需要持续追赶。
生态层面:开发者、学术界、开源社区的绑定,是最难跨越的障碍。
但好消息是:
- 昇腾 910D 如果成功量产,将大幅缩短差距
- CANN/MindSpore 正在快速迭代
- 国产替代需求 正在加速推动技术进步
中国 GPU 自研,不是”能不能”的问题,而是”要多久”的问题。
短期(2-3 年):基本需求缓解。
中期(5-8 年):高端需求部分满足。
长期(10-15 年):可能追上 NVIDIA。但前提是:制裁不加剧、投入不中断、生态持续建设。