2026 年 4 月 24 日,DeepSeek 发布了 V4 系列预览版,包含两款模型:DeepSeek-V4-Pro 与 DeepSeek-V4-Flash。DeepSeek 在官方技术报告中写明,V4 的综合能力落后当前最优闭源模型约三到六个月。本文依据 DeepSeek 官方 API 文档、Hugging Face 模型卡片及技术报告(DeepSeek_V4.pdf),梳理 V4 系列的规格、架构创新与性能数据。
发布概况
V4 系列以预览版(Preview)形式上线,API 同步开放。DeepSeek 同时宣布,原有的 deepseek-chat 与 deepseek-reasoner 端点将于 2026 年 7 月 24 日 UTC 15:59 完全退役,届时 V4 系列将成为唯一可用端点。
两款模型均在 Hugging Face 完整开源,许可证为 MIT,支持本地部署、商业使用及二次开发,不附加额外限制条款。
模型规格
| 规格 | V4-Pro | V4-Flash |
|---|---|---|
| 总参数量 | 1.6T | 284B |
| 单次推理激活参数 | 49B | 13B |
| 上下文长度 | 1M tokens | 1M tokens |
| 架构 | MoE | MoE |
| 权重精度 | FP4(专家层)+ FP8(其他层) | — |
| 开源协议 | MIT | MIT |
两款模型均采用混合专家(Mixture of Experts,MoE)架构:总参数量远大于单次推理时实际激活的参数量,在控制推理成本的同时维持大容量的模型记忆。
核心架构创新
1. 混合注意力机制(CSA + HCA)
V4 放弃了单一注意力机制,转而采用由两种机制组成的混合架构:
- 压缩稀疏注意力(Compressed Sparse Attention,CSA):在 Token 维度上进行压缩,减少长序列中注意力计算的内存开销
- 重度压缩注意力(Heavily Compressed Attention,HCA):对 KV 缓存进行更激进的压缩,专门应对百万 Token 量级的上下文场景
官方数据显示,与 DeepSeek-V3.2 相比,V4-Pro 在 1M Token 上下文下:
- 单 Token 推理所需 FLOPs 降至 V3.2 的 27%
- KV 缓存用量降至 V3.2 的 10%
2. 流形约束超连接(mHC)
V4 引入了流形约束超连接(Manifold-Constrained Hyper-Connections,mHC),对残差连接进行约束,增强跨层信号传播的稳定性,缓解深层 MoE 模型中常见的梯度退化问题。
3. Muon 优化器
训练阶段采用 Muon 优化器替代标准 AdamW,在相同计算量下收敛速度更快,训练稳定性更高。这是该优化器首次在 DeepSeek 系列中规模化应用。
4. 训练数据与后训练流程
预训练数据规模超过 32 万亿 Token(32T+),来源多元化。
后训练(Post-training)采用两阶段范式:
- 领域专家培育:针对数学、代码、推理等特定领域分别执行监督微调(SFT)+ GRPO 算法强化学习(RL)
- 统一整合:通过在线策略蒸馏(On-policy Distillation)将各领域能力融合至单一模型
推理模式
V4-Pro 支持三种推理深度模式,可在 API 调用时通过参数指定:
| 模式 | 特征 | 适用场景 |
|---|---|---|
| Non-think | 快速直觉响应,不执行显式推理链 | 常规问答、低延迟场景 |
| Think High | 生成推理链,逻辑分析后给出回答 | 复杂推理、代码生成 |
| Think Max | 最大推理深度,计算量最高 | 数学竞赛、复杂 Agent 任务 |
Think Max 模式建议配合 ≥ 384K Token 的上下文窗口使用,以保证推理链完整展开。
性能基准测试
以下数据均来源于 DeepSeek 官方 Hugging Face 模型卡片(deepseek-ai/DeepSeek-V4-Pro),发布时间 2026-04-24。
基础模型(V4-Pro Base,无推理链)
| 基准测试 | 得分 | 评测设置 |
|---|---|---|
| MMLU | 90.1% | 5-shot |
| MMLU-Pro | 73.5% | 5-shot |
| HumanEval | 76.8% | 0-shot |
| GSM8K | 92.6% | 8-shot |
| LongBench-V2 | 51.5% | — |
推理模式(V4-Pro-Max,Think Max)
| 基准测试 | 得分 | 说明 |
|---|---|---|
| MMLU-Pro | 87.5% | 综合学科推理 |
| GPQA Diamond | 90.1% | 研究生级科学问答 |
| IMOAnswerBench | 89.8% | 国际数学奥林匹克 |
| LiveCodeBench | 93.5% | 实时代码生成 |
| Codeforces Rating | 3206 | 竞技编程 |
| SWE-bench Verified | 80.6% | 真实软件工程任务 |
| SWE-bench Pro | 55.4% | 高难度软件工程任务 |
| Terminal-Bench 2.0 | 67.9% | 终端操作 Agent 任务 |
| SimpleQA-Verified | 57.9% | 事实性问答 |
与主要闭源模型对比
以下数据来源于 DataCamp 第三方评测(2026-04):
| 基准测试 | DeepSeek V4-Pro | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|---|
| SWE-bench Pro | 55.4% | 58.6% | 64.3% |
| Terminal-Bench 2.0 | 67.9% | 82.7% | 69.4% |
DeepSeek 官方技术报告注明:V4 的综合能力在当前发布时间节点上,落后最优前沿闭源模型约三到六个月。
定价
以下数据来源于 DeepSeek 官方 API 文档定价页面(2026-04-26):
| 模型 | 输入(缓存命中) | 输入(缓存未命中) | 输出 |
|---|---|---|---|
| V4-Flash | $0.028 / 百万 Token | $0.14 / 百万 Token | $0.28 / 百万 Token |
| V4-Pro(正常价) | $0.145 / 百万 Token | $1.74 / 百万 Token | $3.48 / 百万 Token |
| V4-Pro(限时折扣价) | $0.03625 / 百万 Token | $0.435 / 百万 Token | $0.87 / 百万 Token |
注:V4-Pro 当前享有 75% 限时折扣,折扣有效期至 2026 年 5 月 5 日 UTC 15:59,折扣到期后恢复正常价。
API 兼容性与本地部署
API 格式兼容性:V4 系列同时支持 OpenAI ChatCompletions 和 Anthropic Messages 两种 API 格式,调用方无需修改框架代码即可切换。
模型权重获取:
- Hugging Face:
deepseek-ai/DeepSeek-V4-Pro、deepseek-ai/DeepSeek-V4-Flash - ModelScope:面向中国大陆用户提供镜像
本地部署显存参考(非官方,来源 NxCode 评测):
- V4-Pro INT4 量化:单张 RTX 5090(32GB 显存)
- V4-Pro INT8 量化:双张 RTX 4090(共 48GB 显存)
推荐推理参数:temperature = 1.0, top_p = 1.0(标准模式下)
数据时效:2026-04。V4 系列当前为预览版(Preview),部分第三方基准测试数据待独立验证机构复核。官方技术报告完整版见 Hugging Face 模型卡片内附 PDF(DeepSeek_V4.pdf)。