0%

CUDA:英伟达的二十年护城河,是怎么一步步挖出来的?

从抢购算力开始

2026 年,想买个 Coding Plan 太难了。。。

中国的算力紧张,根源在哪?答案很简单:算力要靠显卡,显卡要买英伟达。

显卡是怎么制约算力发展的?为了搞清楚这个问题,我研究了很多方面,但始终绕不开英伟达这家企业。

很多人知道英伟达卖显卡,但不知道 CUDA 是什么。更不知道,CUDA 是英伟达最重要的一段护城河,以及这道护城河是怎么花了二十年一步步挖出来的。

这篇文章,就来聊聊 CUDA 的故事。


一、先搞清楚:CUDA 到底是什么?

CUDA = Compute Unified Device Architecture,翻译过来是”统一计算设备架构”。

听起来很抽象?用一个类比:

类比 说明
GPU 是”肌肉” 专门做大规模并行计算,力量惊人
CUDA 是”大脑” 指挥 GPU 怎么干活,把计算任务调度到各个核心

没有 CUDA,GPU 就只是个画图的机器——只能渲染游戏画面,不能做 AI 训练、科学计算这些”正经事”。

有了 CUDA,GPU 才变成了一台通用计算设备——可以跑任何需要大规模并行计算的程序。

这就是 CUDA 的核心价值:让 GPU 从”画图专用”变成了”万能计算器”。


二、起源:黄仁勋的一场豪赌

2.1 2006 年之前的 GPU 世界

在 2006 年之前,GPU 只有一个用途:打游戏

想用 GPU 做科学计算?你得把计算任务”伪装”成画图任务:

1
2
3
4
5
6
7
你想计算:矩阵乘法
你得告诉 GPU:我要画一堆三角形,颜色就是计算结果

这就像:
你想请厨师做饭
但你只能用"点菜"的方式告诉他
"我要一盘红色的、方形的、味道像矩阵乘法的菜"

这种”骗 GPU 干活”的方式叫 GPGPU(General Purpose GPU)。极其痛苦,效率极低。

2.2 黄仁勋的”押注公司”时刻

2006 年,英伟达 CEO 黄仁勋做了一个决定:

投入 100 亿美元,开发 CUDA 平台

这是什么概念?当时英伟达的市值也就几百亿美元。华尔街疯了:

“你一个卖游戏显卡的公司,为什么要烧钱搞什么通用计算平台?”
“这钱烧下去,什么时候能赚回来?”

黄仁勋的回答很简单:“GPU 不应该只用来打游戏。”

G80 架构(GeForce 8800 GTX)是第一款支持 CUDA 的显卡。它实现了”统一着色器架构”——让 GPU 的所有核心可以执行任意计算任务,而不是只能画三角形。

2.3 漫长的黑暗期

CUDA 发布后,遭遇了长达 6-7 年的冷遇

时间 状态
2006-2008 几乎无人问津,只有少数科研人员用
2008-2010 学术界开始关注,产业界无动于衷
2010-2012 股价低迷,投资者持续质疑

这期间,英伟达默默做了三件事:

  1. 免费开放 CUDA 工具包——任何开发者都可以下载使用
  2. 资助大学教育——让 CUDA 进入计算机课程
  3. 持续迭代硬件——Fermi、Kepler、Maxwell,每一代都优化 CUDA 性能

这就像种树:前六年只浇水不结果,但根系在悄悄扎深。


三、转折:2012 年 AlexNet

2012 年,ImageNet 图像识别竞赛,一个叫 Alex Krizhevsky 的研究生用两块 GTX 580 训练了一个深度神经网络。

结果:碾压全场

对比 AlexNet 传统方法
错误率 15.3% 26%+
训练时间 几周 数月甚至数年
硬件成本 几千美元 数百万美元

关键点:AlexNet 的实现深度依赖 CUDA。

这让全世界 AI 研究者意识到一个公式:

GPU + CUDA + 深度神经网络 = AI 的未来

从这一天开始,CUDA 从”没人用的玩具”变成了”AI 研究的标配”。


四、发展:二十年迭代,从 1.0 到 14.x

CUDA 的发展不是一蹴而就,而是持续二十年的迭代:

1
2
3
4
5
6
7
8
9
CUDA 时间线(2006-2026)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

2006 2012 2016 2022 2024 2026
│ │ │ │ │ │
CUDA 1.0 AlexNet Volta H100 B200 Rubin
│ │ │ │ │ │
│ │ │ │ │ │
冷启动期 AI起飞 生态成熟 大模型爆发 主流出货 下一代
CUDA 版本 年份 关键特性
1.0 2006 基础编程模型
2.0 2008 双精度浮点支持
4.0 2011 动态并行
6.0 2014 统一内存
8.0 2016 Volta 架构优化
10.0 2018 Turing 架构、Tensor Core
11.0 2020 Ampere 架构、多实例 GPU
12.0 2022 Hopper 架构、H100
14.x 2026 Rubin 架构适配

二十年积累,意味着:

维度 2026 年数据
开发者数量 500 万+
CUDA 版本 14.x
算子库数量 3000+
GitHub 项目依赖 数千万
学术论文依赖 95%+

五、护城河:CUDA 是怎么”锁死”竞品的?

5.1 护城河的本质

护城河不只是”技术先进”,而是让竞争对手根本无法入场

CUDA 的护城河是一个多层嵌套的陷阱

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
                    ┌─────────────────────────────────────┐
│ CUDA 护城河层级 │
└─────────────────────────────────────┘

Level 5: 生态网络效应(最难跨越)
├── 全球 500 万开发者,都只会 CUDA
├── 学术论文默认 CUDA,想发 paper 必用 CUDA
└── 开源项目全部绑定 CUDA

Level 4: 软件栈深度(很难)
├── 3000+ 高度优化的算子库
├── cuDNN、cuBLAS、NCCL 等核心库
└── TensorRT、RAPIDS 等工具链

Level 3: 人才知识积累(难)
├── 20 年培养的 GPU 专家
├── 编译器、架构设计团队
└── 性能优化经验

Level 2: 硬件制造差距(困难)
├── 3nm 制程领先 2-3 代
├── HBM3e 内存技术领先
└── NVLink 高速互联

Level 1: 架构设计(相对可追赶)
├── 有公开论文可参考
├── 有人才储备
└── 资金可投入

5.2 软件栈锁定

英伟达的软件栈是一个层层嵌套的体系

1
2
3
4
5
6
7
8
9
10
11
┌─────────────────────────────────────────────┐
│ PyTorch / TensorFlow / JAX 等框架 │ ← 开发者直接接触
├─────────────────────────────────────────────┤
│ TensorRT / RAPIDS / Numba │ ← 性能优化工具
├─────────────────────────────────────────────┤
│ cuDNN / cuBLAS / NCCL / cuSPARSE │ ← 核心计算库
├─────────────────────────────────────────────┤
│ CUDA Runtime / CUDA Driver API │ ← 编程接口
├─────────────────────────────────────────────┤
│ NVIDIA GPU 硆件 │ ← 物理基础
└─────────────────────────────────────────────┘

每一层都只对 NVIDIA 硬件优化

层级 英伟达专有 竞品状态
深度学习框架 PyTorch 对 CUDA 优化最完善 AMD ROCm 支持残缺
计算库 cuDNN 性能碾压其他实现 AMD 没有对标库
通信库 NCCL 多卡通信成熟稳定 AMD 的 RCCL bug 满天飞
开发者 500 万 CUDA 程序员 ROCm 开发者寥寥无几

5.3 开发者锁定

假设你是一家 AI 公司的技术负责人,想迁移到 AMD:

挑战 具体内容
代码资产 你有 50 万行 CUDA 代码,全要重写
人才储备 你的团队精通 CUDA,需要重新培训
基础设施 CI/CD 全基于 NVIDIA GPU,要重建
第三方依赖 开源库都绑定 CUDA,迁移兼容性差
迁移风险 迁移期间 bug 多、性能下降

结论:迁移成本太高,几乎不可能。

这就是开发者锁定的本质:不是 CUDA 技术有多好,而是换一套生态的代价太大。

5.4 学术界锁定

更可怕的是学术界锁定:

1
2
3
4
5
6
AI 研究流程:
论文作者 → 写了 CUDA 代码 → 论文发表 → 代码开源

后续研究者 → 想复现论文 → 必须用 CUDA → 又写了更多 CUDA 代码

循环强化 → 所有论文都默认 CUDA → 学术界被绑定

95% 的 AI 论文默认使用 CUDA。想发 paper、想复现别人的结果、想用开源模型?你必须有 NVIDIA GPU。


六、竞品困境:AMD 和英特尔为什么追不上?

6.1 AMD 的 ROCm

AMD 推出了 ROCm(Radeon Open Compute)试图对标 CUDA:

对比维度 CUDA ROCm
发布时间 2006 2016(晚10年)
开发者数量 500万 估计不足5万
算子库 3000+ 约200个
稳定性 极高 经常出 bug
框架支持 原生级 适配级(残缺)

ROCm 的问题:

  1. 起步太晚——CUDA 已经 10 年积累,ROCm 才开始
  2. 兼容性差——很多 CUDA 代码无法直接迁移
  3. 文档缺失——开发者找不到资料
  4. 社区冷淡——没人愿意贡献代码

6.2 英特尔的 oneAPI

英特尔 2020 年才推出 oneAPI

问题 说明
起步更晚 比 CUDA 晚 14 年
硬件不给力 英特尔 GPU 性能跟不上
开发者不学 没人愿意学一套新 API
市场份额低 几乎没有实际部署

6.3 追赶悖论

更残酷的是:你追上今天的 CUDA,但 CUDA 又进化了。

1
2
3
4
5
6
7
8
9
如果 AMD 今天追上 CUDA 2022 年的水平:
├── CUDA 已经是 2026 年的 14.x 版本
├── NVIDIA 已经发布 Rubin 架构
└── AMD 仍然落后 4 年

追赶速度:
├── NVIDIA 每年迭代一次
├── AMD 每年追赶一点
└── 差距永远存在

七、硬件护城河:不只是软件

很多人以为 CUDA 只是软件,其实硬件也是护城河的一部分:

7.1 制程领先

NVIDIA GPU 制程 发布年份
H100 4nm (TSMC) 2022
B200 4NP (TSMC) 2024
B300 4NP (TSMC) 2025
Rubin R100 3nm (TSMC) 2026H2

台积电最先进的制程,优先给 NVIDIA。

7.2 HBM 内存领先

高端 AI 训练需要高带宽内存(HBM)

GPU 内存规格 带宽
H100 80GB HBM3 3.35 TB/s
B200 192GB HBM3e 8 TB/s
B300 192GB+ HBM3e 8 TB/s+

HBM 由 SK 海力士、三星生产,技术门槛极高。NVIDIA 有优先供应权。

多卡训练需要高速互联:

互联技术 带宽 状态
NVLink 4.0 900 GB/s NVIDIA 专有,成熟稳定
NVLink 5.0 1.8 TB/s 2026 年推出
AMD Infinity Fabric ~400 GB/s 性能落后,稳定性差

八、总结:护城河是怎么挖出来的?

回到开头的问题:CUDA 的护城河是怎么一步步挖出来的?

答案:二十年持续投入 + 多层嵌套锁定。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
第一步:2006 年,投入 100 亿,发布 CUDA
↓ 让 GPU 可以做通用计算

第二步:2006-2012,免费开放 + 大学教育
↓ 培养第一批开发者

第三步:2012 年,AlexNet 证明 GPU+CUDA=AI 未来
↓ 学术界开始绑定 CUDA

第四步:2012-2022,持续迭代 + 构建软件栈
↓ cuDNN、TensorRT、NCCL 等核心库

第五步:2022-2026,大模型爆发
↓ CUDA 成为"空气",无处不在

结果:五层护城河,竞品无法入场

核心逻辑:

护城河类型 形成方式
技术护城河 20 年迭代,3000+ 算子库
生态护城河 500 万开发者,学术界绑定
经济护城河 迁移成本太高,换不起
硬件护城河 制程、HBM、NVLink 领先

一句话总结:

CUDA 的护城河,不是某个天才的设计,而是二十年持续投入的结果。

它像一条河,起初只是一条小溪,没人注意。但英伟达持续挖了二十年,终于变成一条竞品无法跨越的大河。


参考资料