从抢购算力开始
2026 年,想买个 Coding Plan 太难了。。。
中国的算力紧张,根源在哪?答案很简单:算力要靠显卡,显卡要买英伟达。
显卡是怎么制约算力发展的?为了搞清楚这个问题,我研究了很多方面,但始终绕不开英伟达这家企业。
很多人知道英伟达卖显卡,但不知道 CUDA 是什么。更不知道,CUDA 是英伟达最重要的一段护城河,以及这道护城河是怎么花了二十年一步步挖出来的。
这篇文章,就来聊聊 CUDA 的故事。
一、先搞清楚:CUDA 到底是什么?
CUDA = Compute Unified Device Architecture,翻译过来是”统一计算设备架构”。
听起来很抽象?用一个类比:
| 类比 | 说明 |
|---|---|
| GPU 是”肌肉” | 专门做大规模并行计算,力量惊人 |
| CUDA 是”大脑” | 指挥 GPU 怎么干活,把计算任务调度到各个核心 |
没有 CUDA,GPU 就只是个画图的机器——只能渲染游戏画面,不能做 AI 训练、科学计算这些”正经事”。
有了 CUDA,GPU 才变成了一台通用计算设备——可以跑任何需要大规模并行计算的程序。
这就是 CUDA 的核心价值:让 GPU 从”画图专用”变成了”万能计算器”。
二、起源:黄仁勋的一场豪赌
2.1 2006 年之前的 GPU 世界
在 2006 年之前,GPU 只有一个用途:打游戏。
想用 GPU 做科学计算?你得把计算任务”伪装”成画图任务:
1 | 你想计算:矩阵乘法 |
这种”骗 GPU 干活”的方式叫 GPGPU(General Purpose GPU)。极其痛苦,效率极低。
2.2 黄仁勋的”押注公司”时刻
2006 年,英伟达 CEO 黄仁勋做了一个决定:
投入 100 亿美元,开发 CUDA 平台
这是什么概念?当时英伟达的市值也就几百亿美元。华尔街疯了:
“你一个卖游戏显卡的公司,为什么要烧钱搞什么通用计算平台?”
“这钱烧下去,什么时候能赚回来?”
黄仁勋的回答很简单:“GPU 不应该只用来打游戏。”
G80 架构(GeForce 8800 GTX)是第一款支持 CUDA 的显卡。它实现了”统一着色器架构”——让 GPU 的所有核心可以执行任意计算任务,而不是只能画三角形。
2.3 漫长的黑暗期
CUDA 发布后,遭遇了长达 6-7 年的冷遇:
| 时间 | 状态 |
|---|---|
| 2006-2008 | 几乎无人问津,只有少数科研人员用 |
| 2008-2010 | 学术界开始关注,产业界无动于衷 |
| 2010-2012 | 股价低迷,投资者持续质疑 |
这期间,英伟达默默做了三件事:
- 免费开放 CUDA 工具包——任何开发者都可以下载使用
- 资助大学教育——让 CUDA 进入计算机课程
- 持续迭代硬件——Fermi、Kepler、Maxwell,每一代都优化 CUDA 性能
这就像种树:前六年只浇水不结果,但根系在悄悄扎深。
三、转折:2012 年 AlexNet
2012 年,ImageNet 图像识别竞赛,一个叫 Alex Krizhevsky 的研究生用两块 GTX 580 训练了一个深度神经网络。
结果:碾压全场。
| 对比 | AlexNet | 传统方法 |
|---|---|---|
| 错误率 | 15.3% | 26%+ |
| 训练时间 | 几周 | 数月甚至数年 |
| 硬件成本 | 几千美元 | 数百万美元 |
关键点:AlexNet 的实现深度依赖 CUDA。
这让全世界 AI 研究者意识到一个公式:
GPU + CUDA + 深度神经网络 = AI 的未来
从这一天开始,CUDA 从”没人用的玩具”变成了”AI 研究的标配”。
四、发展:二十年迭代,从 1.0 到 14.x
CUDA 的发展不是一蹴而就,而是持续二十年的迭代:
1 | CUDA 时间线(2006-2026) |
| CUDA 版本 | 年份 | 关键特性 |
|---|---|---|
| 1.0 | 2006 | 基础编程模型 |
| 2.0 | 2008 | 双精度浮点支持 |
| 4.0 | 2011 | 动态并行 |
| 6.0 | 2014 | 统一内存 |
| 8.0 | 2016 | Volta 架构优化 |
| 10.0 | 2018 | Turing 架构、Tensor Core |
| 11.0 | 2020 | Ampere 架构、多实例 GPU |
| 12.0 | 2022 | Hopper 架构、H100 |
| 14.x | 2026 | Rubin 架构适配 |
二十年积累,意味着:
| 维度 | 2026 年数据 |
|---|---|
| 开发者数量 | 500 万+ |
| CUDA 版本 | 14.x |
| 算子库数量 | 3000+ |
| GitHub 项目依赖 | 数千万 |
| 学术论文依赖 | 95%+ |
五、护城河:CUDA 是怎么”锁死”竞品的?
5.1 护城河的本质
护城河不只是”技术先进”,而是让竞争对手根本无法入场。
CUDA 的护城河是一个多层嵌套的陷阱:
1 | ┌─────────────────────────────────────┐ |
5.2 软件栈锁定
英伟达的软件栈是一个层层嵌套的体系:
1 | ┌─────────────────────────────────────────────┐ |
每一层都只对 NVIDIA 硬件优化:
| 层级 | 英伟达专有 | 竞品状态 |
|---|---|---|
| 深度学习框架 | PyTorch 对 CUDA 优化最完善 | AMD ROCm 支持残缺 |
| 计算库 | cuDNN 性能碾压其他实现 | AMD 没有对标库 |
| 通信库 | NCCL 多卡通信成熟稳定 | AMD 的 RCCL bug 满天飞 |
| 开发者 | 500 万 CUDA 程序员 | ROCm 开发者寥寥无几 |
5.3 开发者锁定
假设你是一家 AI 公司的技术负责人,想迁移到 AMD:
| 挑战 | 具体内容 |
|---|---|
| 代码资产 | 你有 50 万行 CUDA 代码,全要重写 |
| 人才储备 | 你的团队精通 CUDA,需要重新培训 |
| 基础设施 | CI/CD 全基于 NVIDIA GPU,要重建 |
| 第三方依赖 | 开源库都绑定 CUDA,迁移兼容性差 |
| 迁移风险 | 迁移期间 bug 多、性能下降 |
结论:迁移成本太高,几乎不可能。
这就是开发者锁定的本质:不是 CUDA 技术有多好,而是换一套生态的代价太大。
5.4 学术界锁定
更可怕的是学术界锁定:
1 | AI 研究流程: |
95% 的 AI 论文默认使用 CUDA。想发 paper、想复现别人的结果、想用开源模型?你必须有 NVIDIA GPU。
六、竞品困境:AMD 和英特尔为什么追不上?
6.1 AMD 的 ROCm
AMD 推出了 ROCm(Radeon Open Compute)试图对标 CUDA:
| 对比维度 | CUDA | ROCm |
|---|---|---|
| 发布时间 | 2006 | 2016(晚10年) |
| 开发者数量 | 500万 | 估计不足5万 |
| 算子库 | 3000+ | 约200个 |
| 稳定性 | 极高 | 经常出 bug |
| 框架支持 | 原生级 | 适配级(残缺) |
ROCm 的问题:
- 起步太晚——CUDA 已经 10 年积累,ROCm 才开始
- 兼容性差——很多 CUDA 代码无法直接迁移
- 文档缺失——开发者找不到资料
- 社区冷淡——没人愿意贡献代码
6.2 英特尔的 oneAPI
英特尔 2020 年才推出 oneAPI:
| 问题 | 说明 |
|---|---|
| 起步更晚 | 比 CUDA 晚 14 年 |
| 硬件不给力 | 英特尔 GPU 性能跟不上 |
| 开发者不学 | 没人愿意学一套新 API |
| 市场份额低 | 几乎没有实际部署 |
6.3 追赶悖论
更残酷的是:你追上今天的 CUDA,但 CUDA 又进化了。
1 | 如果 AMD 今天追上 CUDA 2022 年的水平: |
七、硬件护城河:不只是软件
很多人以为 CUDA 只是软件,其实硬件也是护城河的一部分:
7.1 制程领先
| NVIDIA GPU | 制程 | 发布年份 |
|---|---|---|
| H100 | 4nm (TSMC) | 2022 |
| B200 | 4NP (TSMC) | 2024 |
| B300 | 4NP (TSMC) | 2025 |
| Rubin R100 | 3nm (TSMC) | 2026H2 |
台积电最先进的制程,优先给 NVIDIA。
7.2 HBM 内存领先
高端 AI 训练需要高带宽内存(HBM):
| GPU | 内存规格 | 带宽 |
|---|---|---|
| H100 | 80GB HBM3 | 3.35 TB/s |
| B200 | 192GB HBM3e | 8 TB/s |
| B300 | 192GB+ HBM3e | 8 TB/s+ |
HBM 由 SK 海力士、三星生产,技术门槛极高。NVIDIA 有优先供应权。
7.3 NVLink 互联领先
多卡训练需要高速互联:
| 互联技术 | 带宽 | 状态 |
|---|---|---|
| NVLink 4.0 | 900 GB/s | NVIDIA 专有,成熟稳定 |
| NVLink 5.0 | 1.8 TB/s | 2026 年推出 |
| AMD Infinity Fabric | ~400 GB/s | 性能落后,稳定性差 |
八、总结:护城河是怎么挖出来的?
回到开头的问题:CUDA 的护城河是怎么一步步挖出来的?
答案:二十年持续投入 + 多层嵌套锁定。
1 | 第一步:2006 年,投入 100 亿,发布 CUDA |
核心逻辑:
| 护城河类型 | 形成方式 |
|---|---|
| 技术护城河 | 20 年迭代,3000+ 算子库 |
| 生态护城河 | 500 万开发者,学术界绑定 |
| 经济护城河 | 迁移成本太高,换不起 |
| 硬件护城河 | 制程、HBM、NVLink 领先 |
一句话总结:
CUDA 的护城河,不是某个天才的设计,而是二十年持续投入的结果。
它像一条河,起初只是一条小溪,没人注意。但英伟达持续挖了二十年,终于变成一条竞品无法跨越的大河。