DeepSeek V4 技术解读

背景

2026年4月24日，DeepSeek 正式发布了 V4 系列模型。这不是一次普通的版本迭代——它解决了一个困扰 AI 行业多年的根本问题：长上下文的效率瓶颈。

本文将深入解读 DeepSeek V4 的核心技术创新，帮助你理解这次发布为何值得关注。

一、模型规格：更大但不更贵

DeepSeek V4 发布了两个版本：

模型	总参数量	激活参数量	上下文长度
DeepSeek-V4-Pro	1.6T	49B	100万 tokens
DeepSeek-V4-Flash	284B	13B	100万 tokens

对比上一代 V3.2（671B 总参数，37B 激活），V4-Pro 参数量翻了 2.4 倍，但激活参数仅增加 32%。更重要的是，两者都原生支持 100万 token 上下文——这是之前任何开源模型都做不到的。

为什么”更大但不更贵”？

得益于 MoE（Mixture-of-Experts）架构，每次推理只激活一小部分参数。V4-Pro 的激活率仅为 3%（49B/1.6T），这意味着：

推理成本接近一个 50B 参数的稠密模型
但拥有 1.6T 参数的知识容量和表达能力

这是 DeepSeek 从 V2 开始就坚持的技术路线，V4 把这个策略推向了新高度。

二、核心架构创新：打破 O(n²) 的魔咒

Transformer 的标准注意力机制计算复杂度是 O(n²)——序列长度翻倍，计算量翻四倍。当上下文达到百万级别时，这变成了不可承受之重。

DeepSeek V4 用混合注意力架构彻底解决了这个问题。

2.1 CSA（Compressed Sparse Attention）

CSA 的核心思路是：压缩 + 稀疏选择。

原始序列：n 个 token
     ↓ 压缩（每 m 个 token 合成一个 KV entry）
压缩序列：n/m 个 compressed KV entry
     ↓ 稀疏选择（Lightning Indexer 选 top-k）
参与计算的：k 个 compressed KV entry

具体流程：

KV Cache 压缩：将每 m 个 token 的 KV entry 通过加权聚合压缩成一个条目，序列长度降到 1/m
Lightning Indexer：为每个 query token 生成 indexer queries，与压缩后的 KV 偂相似度计算，选出 top-k 个最相关的压缩块
Core Attention：只在选出的 k 个压缩块上做完整的 attention 计算

关键参数（V4-Pro）：

压缩率 m = 4（每 4 个 token 压缩成 1 个）
Indexer head 数 = 64，head 维度 = 128
Top-k = 1024（每个 query 只关注 1024 个压缩块）

2.2 HCA（Heavily Compressed Attention）

HCA 是更激进的压缩策略，用于处理”不需要精细关注的历史信息”：

1
2
3

压缩率 m' = 128（每 128 个 token 合成一个 KV entry）
     ↓
直接对压缩后的 KV 做完整 attention（不做稀疏选择）

HCA 的哲学是：远处的信息可以”模糊处理”，近处的信息才需要精细关注。

2.3 混合架构设计

V4 不是全用 CSA 或全用 HCA，而是交替使用：

前 2 层：纯滑动窗口 attention（保留近期信息的精细度）
后续层：CSA 和 HCA 交替，形成”粗细结合”的信息处理

这种设计让模型既能高效处理长上下文，又能保持对关键信息的精确检索能力。

2.4 效率提升有多夸张？

官方给出了硬核数据（100万 token 上下文场景）：

指标	V4-Pro vs V3.2	V4-Flash vs V3.2
单 token FLOPs	27%（节省 3.7×）	10%（节省 10×）
KV Cache 大小	10%（节省 9.5×）	7%（节省 13.7×）

这意味着：以前跑不起的百万级上下文任务，现在可以在单卡上跑了。

三、mHC：残差连接的”数学升级版”

残差连接 x + F(x) 是 Transformer 的基石，但深层堆叠时会遇到问题：

信号可能逐层放大 → 数值爆炸
信号可能逐层衰减 →梯度消失

DeepSeek V4 引入了 Manifold-Constrained Hyper-Connections (mHC)，用数学约束解决这个问题。

核心思路

传统残差连接：

1	X_next = X + F(X) // 简单加法

mHC：

1
2
3

X_next = B·X + C·F(A·X)  // A、B、C 是线性映射矩阵
         ↑
      B 约束在双随机矩阵流形上（行和=1，列和=1，元素≥0）

关键约束：B 的谱范数 ≤ 1，这意味着信号传播是”非膨胀的”，不会爆炸。

为什么叫”流形约束”？

双随机矩阵构成的空间是一个流形（Manifold）——Birkhoff Polytope。mHC 通过 Sinkhorn-Knopp 算法，把矩阵 B 投影到这个流形上：

1
2
3

1. 对 B 取 exponential（保证正元素）
2. 迭代做行归一化、列归一化
3. 收敛到一个双随机矩阵

这套数学确保了深层堆叠时的稳定性，同时保留了模型的表达能力。

四、Muon 优化器：万亿参数训练的新配方

训练万亿参数模型，AdamW 已经不够稳了。V4 引入了 Muon 优化器。

核心算法

G = gradient
M = momentum_buffer
M = μ·M + G  // 动量累积
O = HybridNewtonSchulz(μ·M + G)  // Nesterov trick + 正交化
W = W·(1 - ηλ) - η·O  // weight decay + update

关键步骤是 Hybrid Newton-Schulz 迭代，把梯度矩阵正交化：

# 10 步迭代，分两阶段
# Stage 1（前 8 步）：快速收敛
M_k = 3.4445·M_{k-1} - 4.7750·(M·M^T)·M + 2.0315·(M·M^T)^2·M

# Stage 2（后 2 步）：精确定位到正交矩阵
M_k = 2·M_{k-1} - 1.5·(M·M^T)·M + 0.5·(M·M^T)^2·M

正交化的好处：

避免”跑偏”——梯度方向更明确
避免”数值爆炸”——矩阵谱范数被约束
收敛更快——不需要 Adam 的二阶矩估计

配合稳定性技术

V4 还用了两招来防止 loss spike：

Anticipatory Routing：路由决策用”历史参数”而非”当前参数”，打破 MoE 路由的恶性循环
SwiGLU Clamping：把 SwiGLU 的线性分量 clamp 到 [-10, 10]，直接压制异常值

五、FP4 量化感知训练：天生适应低精度

以往的量化是”训练后补救”——模型在高精度下训练，推理时强行降精度，性能必然下降。

V4 的创新：训练时就让模型适应 FP4。

应用范围

MoE 专家权重：占模型大部分参数，FP4 压缩节省大量显存
QK 路径（Lightning Indexer 的 indexer 部分）：长上下文检索的核心计算，FP4 加速

关键技术点

FP4 → FP8 的无损反量化：

FP4 (E2M1) → FP8 (E4M3)
          ↑
FP8 多 2 个 exponent bit，动态范围更大
只要 block 内的 scale factor 差异不超过阈值，信息完全保留

这意味着：

训练时用 FP8 做计算（模拟 FP4）
推理时直接用 FP4 权重，零性能损失
整个 pipeline 可以复用现有的 FP8 训练框架

六、训练基础设施：工程硬核

V4 的基础设施投入展现了”长期主义”的工程思维。

6.1 TileLang：Kernel 开发的 DSL

传统 CUDA Kernel 开发效率低、难迭代。V4 用 TileLang 这个 DSL：

用声明式语法描述 Kernel 逻辑
Z3 SMT Solver 做形式化分析（证明正确性）
自动生成高性能 CUDA 代码

开发效率 + 运行效率，两者兼得。

6.2 确定性训练

V4 的 Kernel 全程批不变（Batch-Invariant）：

同一 token 无论在 batch 哪个位置，输出 bitwise 一致
用特殊设计避免了原子加法带来的不确定性
训练过程可复现，调试有据可查

这对大规模训练调试、定位问题至关重要。

6.3 MoE EP 的细粒度重叠

Expert Parallelism 的通信开销大。V4 把 MoE 层拆成 4 个阶段：

1	Dispatch (通信) → Linear-1 (计算) → Activation → Linear-2 (计算) → Combine (通信)

关键洞察：计算时间 > 通信时间，所以通信可以被计算掩盖。

V4 把专家分成”wave”，每个 wave 的通信和计算流水线化，实现 1.5-1.96× 加速。

七、性能基准：开源模型的新标杆

知识任务

Benchmark	V4-Pro-Max	K2.6	GLM-5.1	Gemini 3.1 Pro
SimpleQA Verified	57.9	36.9	38.1	75.6
Chinese-SimpleQA	84.4	75.9	75.0	85.9

V4-Pro-Max 在知识任务上领先开源对手 20+ 百分点，但距离 Gemini 3.1 Pro 还有一段差距。

Agent 能力：开源最佳

这是 V4 最重要的能力跃升之一。官方披露：

Agentic Coding：V4-Pro 达到当前开源模型最佳水平
内部实测：已成为 DeepSeek 公司内部员工使用的 Agentic Coding 首选模型
体验对比：优于 Claude Sonnet 4.5，交付质量接近 Claude Opus 4.6 非思考模式

V4 针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行了专项适配优化，在代码任务、文档生成等场景表现显著提升。

推理与代码

Benchmark	V4-Pro-Max	GPT-5.4	Gemini 3.1 Pro
Codeforces Rating	3206	3168	3052
Apex Shortlist	90.2	78.1	89.1

这是开源模型首次在代码竞赛上追平闭源模型。V4-Pro-Max 在 Codeforces 排名第 23 位（人类选手中）。

长上下文

Benchmark	V4-Pro-Max	Claude Opus 4.6	Gemini 3.1 Pro
MRCR 1M (MMR)	83.5	92.9	76.3
CorpusQA 1M	62.0	71.7	53.8

V4-Pro 在真实场景的 CorpusQA 上超越 Gemini 3.1 Pro，在 MRCR 上接近 Claude Opus 4.6。

八、V4-Flash：经济高效的选择

V4-Flash 是一个重要的补充版本，让不同需求的用户都能找到合适的方案。

与 V4-Pro 的对比

维度	V4-Flash	V4-Pro
激活参数	13B	49B
推理速度	更快	较慢
API 成本	更低	较高
世界知识	稍逊	大幅领先开源
推理能力	接近 Pro	开源最佳
Agent 简单任务	旗鼓相当	更优
Agent 高难度任务	有差距	最佳

适用场景：

V4-Flash：日常对话、简单代码任务、成本敏感场景
V4-Pro：复杂 Agent 任务、深度推理、高质量输出需求

九、三种推理模式：灵活的推理成本

V4 支持三种推理模式，让用户按需求选择成本：

模式	特点	适用场景
Non-Think	快速直觉响应，无 thinking tokens	日常对话、低风险决策
Think	逻辑分析，中等 thinking budget	复杂问题、规划任务
Think Max	极限推理，长 thinking budget	数学证明、高难度任务

Think Max 模式会在系统 prompt 里注入特殊指令：

1 2	Reasoning Effort: Absolute maximum with no shortcuts permitted. You MUST be very thorough in your thinking...

这让模型”把推理推到极限”，在 HLE、IMO 等高难度任务上表现最优。

十、API 使用指南

模型调用

DeepSeek API 已同步上线 V4-Pro 与 V4-Flash，支持 OpenAI ChatCompletions 接口与 Anthropic 接口：

# OpenAI 格式
from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",  # 或 deepseek-v4-flash
    messages=[{"role": "user", "content": "你好"}]
)

关键参数

参数	说明
`model`	`deepseek-v4-pro` 或 `deepseek-v4-flash`
`max_tokens`	最大输出长度，默认 8K
`reasoning_effort`	思考强度：`high` 或 `max`（仅思考模式）

思考模式

对于复杂的 Agent 场景，建议使用思考模式并设置强度为 max：

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "复杂任务..."}],
    reasoning_effort="max"  # 极限推理
)

⚠️ 重要提示

旧 API 模型名 deepseek-chat 和 deepseek-reasoner 将于 2026年7月24日 停止使用：

当前阶段 deepseek-chat → 指向 V4-Flash 非思考模式
当前阶段 deepseek-reasoner → 指向 V4-Flash 思考模式

请尽快迁移到新的模型名称。

十一、开源与本地部署

权重下载

平台	链接
HuggingFace	https://huggingface.co/collections/deepseek-ai/deepseek-v4
ModelScope	https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

本地部署建议

由于 V4-Pro 参数量达 1.6T，本地部署需要：

多卡推理：至少 8× A100 80GB 或同等显存
量化推理：FP4 量化后可显著降低显存需求
V4-Flash：单卡 A100 80GB 可运行

技术报告

完整技术细节请参考官方技术报告：

DeepSeek V4 技术报告（PDF）

十二、行业启示：V4 带来的新范式

12.1 长上下文不再是奢侈品

以前，百万级上下文是”理论上可行但经济上不行”。V4 把成本降到 原来的 10-30%，让以下场景变得可行：

Test-time Scaling：推理阶段可以长时间思考，不受上下文限制
长 horizon Agent：复杂多轮任务（如软件工程流水线）有足够”记忆空间”
在线学习：持续吸收新信息，无需全量重训练

12.2 开源 vs 闭源的格局变化

V4 是一个信号：开源模型不仅追上了能力，还追上了效率性价比。

V4-Flash 用 13B 激活参数，就能达到接近 GPT-5.2 的推理水平
在代码任务上，开源首次追平闭源

这意味着闭源模型的”护城河”正在缩小。

12.3 架构创新的长期价值

V4 的创新不是”刷榜技巧”，而是架构层面的根本改进：

CSA/HCA 解决了 Transformer 的 O(n²) 瓶颈
mHC 让残差连接更稳定、可堆叠更深
Muon 优化器可能成为万亿参数训练的新标配

这些创新会启发更多研究，推动整个行业向前。

十三、局限与展望

官方坦承了几个局限：

架构相对复杂：为了降低风险，保留了 V3 的很多验证过的组件，未来会精简
训练稳定性原理未完全理解：Anticipatory Routing 和 SwiGLU Clamping 有效，但数学原理还在探索
多模态尚未集成：未来版本会加入视觉能力

展望方向：

进一步的稀疏化探索（如稀疏 embedding）
低延迟架构优化（让长上下文交互更流畅）
长 horizon Agent 的深度优化

总结

DeepSeek V4 的意义不在于某个具体指标的提升，而在于它解决了长上下文效率这个根本问题。

通过 CSA/HCA 混合注意力、mHC 残差升级、Muon 优化器、FP4 量化训练等一系列创新，V4 让百万级上下文从”理论上可行”变成”经济上可行”。

这为 AI 的下一阶段——更深的 test-time scaling、更长的 Agent 任务、更灵活的在线学习——铺好了基础设施。

开源模型第一次在效率和能力的综合维度上，追上了闭源前沿。这是整个行业值得关注的里程碑。

参考资源：