2026 年 4 月 24 日,DeepSeek 发布了 V4 系列预览版,包含两款模型:DeepSeek-V4-Pro 与 DeepSeek-V4-Flash。DeepSeek 在官方技术报告中写明,V4 的综合能力落后当前最优闭源模型约三到六个月。本文依据 DeepSeek 官方 API 文档、Hugging Face 模型卡片及技术报告(DeepSeek_V4.pdf),梳理 V4 系列的规格、架构创新与性能数据。


发布概况

V4 系列以预览版(Preview)形式上线,API 同步开放。DeepSeek 同时宣布,原有的 deepseek-chatdeepseek-reasoner 端点将于 2026 年 7 月 24 日 UTC 15:59 完全退役,届时 V4 系列将成为唯一可用端点。

两款模型均在 Hugging Face 完整开源,许可证为 MIT,支持本地部署、商业使用及二次开发,不附加额外限制条款。


模型规格

规格V4-ProV4-Flash
总参数量1.6T284B
单次推理激活参数49B13B
上下文长度1M tokens1M tokens
架构MoEMoE
权重精度FP4(专家层)+ FP8(其他层)
开源协议MITMIT

两款模型均采用混合专家(Mixture of Experts,MoE)架构:总参数量远大于单次推理时实际激活的参数量,在控制推理成本的同时维持大容量的模型记忆。


核心架构创新

1. 混合注意力机制(CSA + HCA)

V4 放弃了单一注意力机制,转而采用由两种机制组成的混合架构:

  • 压缩稀疏注意力(Compressed Sparse Attention,CSA):在 Token 维度上进行压缩,减少长序列中注意力计算的内存开销
  • 重度压缩注意力(Heavily Compressed Attention,HCA):对 KV 缓存进行更激进的压缩,专门应对百万 Token 量级的上下文场景

官方数据显示,与 DeepSeek-V3.2 相比,V4-Pro 在 1M Token 上下文下:

  • 单 Token 推理所需 FLOPs 降至 V3.2 的 27%
  • KV 缓存用量降至 V3.2 的 10%

2. 流形约束超连接(mHC)

V4 引入了流形约束超连接(Manifold-Constrained Hyper-Connections,mHC),对残差连接进行约束,增强跨层信号传播的稳定性,缓解深层 MoE 模型中常见的梯度退化问题。

3. Muon 优化器

训练阶段采用 Muon 优化器替代标准 AdamW,在相同计算量下收敛速度更快,训练稳定性更高。这是该优化器首次在 DeepSeek 系列中规模化应用。

4. 训练数据与后训练流程

预训练数据规模超过 32 万亿 Token(32T+),来源多元化。

后训练(Post-training)采用两阶段范式:

  1. 领域专家培育:针对数学、代码、推理等特定领域分别执行监督微调(SFT)+ GRPO 算法强化学习(RL)
  2. 统一整合:通过在线策略蒸馏(On-policy Distillation)将各领域能力融合至单一模型

推理模式

V4-Pro 支持三种推理深度模式,可在 API 调用时通过参数指定:

模式特征适用场景
Non-think快速直觉响应,不执行显式推理链常规问答、低延迟场景
Think High生成推理链,逻辑分析后给出回答复杂推理、代码生成
Think Max最大推理深度,计算量最高数学竞赛、复杂 Agent 任务

Think Max 模式建议配合 ≥ 384K Token 的上下文窗口使用,以保证推理链完整展开。


性能基准测试

以下数据均来源于 DeepSeek 官方 Hugging Face 模型卡片(deepseek-ai/DeepSeek-V4-Pro),发布时间 2026-04-24。

基础模型(V4-Pro Base,无推理链)

基准测试得分评测设置
MMLU90.1%5-shot
MMLU-Pro73.5%5-shot
HumanEval76.8%0-shot
GSM8K92.6%8-shot
LongBench-V251.5%

推理模式(V4-Pro-Max,Think Max)

基准测试得分说明
MMLU-Pro87.5%综合学科推理
GPQA Diamond90.1%研究生级科学问答
IMOAnswerBench89.8%国际数学奥林匹克
LiveCodeBench93.5%实时代码生成
Codeforces Rating3206竞技编程
SWE-bench Verified80.6%真实软件工程任务
SWE-bench Pro55.4%高难度软件工程任务
Terminal-Bench 2.067.9%终端操作 Agent 任务
SimpleQA-Verified57.9%事实性问答

与主要闭源模型对比

以下数据来源于 DataCamp 第三方评测(2026-04):

基准测试DeepSeek V4-ProGPT-5.5Claude Opus 4.7
SWE-bench Pro55.4%58.6%64.3%
Terminal-Bench 2.067.9%82.7%69.4%

DeepSeek 官方技术报告注明:V4 的综合能力在当前发布时间节点上,落后最优前沿闭源模型约三到六个月。


定价

以下数据来源于 DeepSeek 官方 API 文档定价页面(2026-04-26):

模型输入(缓存命中)输入(缓存未命中)输出
V4-Flash$0.028 / 百万 Token$0.14 / 百万 Token$0.28 / 百万 Token
V4-Pro(正常价)$0.145 / 百万 Token$1.74 / 百万 Token$3.48 / 百万 Token
V4-Pro(限时折扣价)$0.03625 / 百万 Token$0.435 / 百万 Token$0.87 / 百万 Token

:V4-Pro 当前享有 75% 限时折扣,折扣有效期至 2026 年 5 月 5 日 UTC 15:59,折扣到期后恢复正常价。


API 兼容性与本地部署

API 格式兼容性:V4 系列同时支持 OpenAI ChatCompletions 和 Anthropic Messages 两种 API 格式,调用方无需修改框架代码即可切换。

模型权重获取

  • Hugging Face:deepseek-ai/DeepSeek-V4-Prodeepseek-ai/DeepSeek-V4-Flash
  • ModelScope:面向中国大陆用户提供镜像

本地部署显存参考(非官方,来源 NxCode 评测):

  • V4-Pro INT4 量化:单张 RTX 5090(32GB 显存)
  • V4-Pro INT8 量化:双张 RTX 4090(共 48GB 显存)

推荐推理参数temperature = 1.0, top_p = 1.0(标准模式下)


数据时效:2026-04。V4 系列当前为预览版(Preview),部分第三方基准测试数据待独立验证机构复核。官方技术报告完整版见 Hugging Face 模型卡片内附 PDF(DeepSeek_V4.pdf)。