DeepSeek V4 技术解读：1.6T 参数、百万 Token 原生上下文与三级推理模式

2026 年 4 月 24 日，DeepSeek 发布了 V4 系列预览版，包含两款模型：DeepSeek-V4-Pro 与 DeepSeek-V4-Flash。DeepSeek 在官方技术报告中写明，V4 的综合能力落后当前最优闭源模型约三到六个月。本文依据 DeepSeek 官方 API 文档、Hugging Face 模型卡片及技术报告（DeepSeek_V4.pdf），梳理 V4 系列的规格、架构创新与性能数据。

发布概况

V4 系列以预览版（Preview）形式上线，API 同步开放。DeepSeek 同时宣布，原有的 deepseek-chat 与 deepseek-reasoner 端点将于 2026 年 7 月 24 日 UTC 15:59 完全退役，届时 V4 系列将成为唯一可用端点。

两款模型均在 Hugging Face 完整开源，许可证为 MIT，支持本地部署、商业使用及二次开发，不附加额外限制条款。

模型规格

规格	V4-Pro	V4-Flash
总参数量	1.6T	284B
单次推理激活参数	49B	13B
上下文长度	1M tokens	1M tokens
架构	MoE	MoE
权重精度	FP4（专家层）+ FP8（其他层）	—
开源协议	MIT	MIT

两款模型均采用混合专家（Mixture of Experts，MoE）架构：总参数量远大于单次推理时实际激活的参数量，在控制推理成本的同时维持大容量的模型记忆。

核心架构创新

1. 混合注意力机制（CSA + HCA）

V4 放弃了单一注意力机制，转而采用由两种机制组成的混合架构：

压缩稀疏注意力（Compressed Sparse Attention，CSA）：在 Token 维度上进行压缩，减少长序列中注意力计算的内存开销
重度压缩注意力（Heavily Compressed Attention，HCA）：对 KV 缓存进行更激进的压缩，专门应对百万 Token 量级的上下文场景

官方数据显示，与 DeepSeek-V3.2 相比，V4-Pro 在 1M Token 上下文下：

单 Token 推理所需 FLOPs 降至 V3.2 的 27%
KV 缓存用量降至 V3.2 的 10%

2. 流形约束超连接（mHC）

V4 引入了流形约束超连接（Manifold-Constrained Hyper-Connections，mHC），对残差连接进行约束，增强跨层信号传播的稳定性，缓解深层 MoE 模型中常见的梯度退化问题。

3. Muon 优化器

训练阶段采用 Muon 优化器替代标准 AdamW，在相同计算量下收敛速度更快，训练稳定性更高。这是该优化器首次在 DeepSeek 系列中规模化应用。

4. 训练数据与后训练流程

预训练数据规模超过 32 万亿 Token（32T+），来源多元化。

后训练（Post-training）采用两阶段范式：

领域专家培育：针对数学、代码、推理等特定领域分别执行监督微调（SFT）+ GRPO 算法强化学习（RL）
统一整合：通过在线策略蒸馏（On-policy Distillation）将各领域能力融合至单一模型

推理模式

V4-Pro 支持三种推理深度模式，可在 API 调用时通过参数指定：

模式	特征	适用场景
Non-think	快速直觉响应，不执行显式推理链	常规问答、低延迟场景
Think High	生成推理链，逻辑分析后给出回答	复杂推理、代码生成
Think Max	最大推理深度，计算量最高	数学竞赛、复杂 Agent 任务

Think Max 模式建议配合 ≥ 384K Token 的上下文窗口使用，以保证推理链完整展开。

性能基准测试

以下数据均来源于 DeepSeek 官方 Hugging Face 模型卡片（deepseek-ai/DeepSeek-V4-Pro），发布时间 2026-04-24。

基础模型（V4-Pro Base，无推理链）

基准测试	得分	评测设置
MMLU	90.1%	5-shot
MMLU-Pro	73.5%	5-shot
HumanEval	76.8%	0-shot
GSM8K	92.6%	8-shot
LongBench-V2	51.5%	—

推理模式（V4-Pro-Max，Think Max）

基准测试	得分	说明
MMLU-Pro	87.5%	综合学科推理
GPQA Diamond	90.1%	研究生级科学问答
IMOAnswerBench	89.8%	国际数学奥林匹克
LiveCodeBench	93.5%	实时代码生成
Codeforces Rating	3206	竞技编程
SWE-bench Verified	80.6%	真实软件工程任务
SWE-bench Pro	55.4%	高难度软件工程任务
Terminal-Bench 2.0	67.9%	终端操作 Agent 任务
SimpleQA-Verified	57.9%	事实性问答

与主要闭源模型对比

以下数据来源于 DataCamp 第三方评测（2026-04）：

基准测试	DeepSeek V4-Pro	GPT-5.5	Claude Opus 4.7
SWE-bench Pro	55.4%	58.6%	64.3%
Terminal-Bench 2.0	67.9%	82.7%	69.4%

DeepSeek 官方技术报告注明：V4 的综合能力在当前发布时间节点上，落后最优前沿闭源模型约三到六个月。

定价

以下数据来源于 DeepSeek 官方 API 文档定价页面（2026-04-26）：

模型	输入（缓存命中）	输入（缓存未命中）	输出
V4-Flash	$0.028 / 百万 Token	$0.14 / 百万 Token	$0.28 / 百万 Token
V4-Pro（正常价）	$0.145 / 百万 Token	$1.74 / 百万 Token	$3.48 / 百万 Token
V4-Pro（限时折扣价）	$0.03625 / 百万 Token	$0.435 / 百万 Token	$0.87 / 百万 Token

注：V4-Pro 当前享有 75% 限时折扣，折扣有效期至 2026 年 5 月 5 日 UTC 15:59，折扣到期后恢复正常价。

API 兼容性与本地部署

API 格式兼容性：V4 系列同时支持 OpenAI ChatCompletions 和 Anthropic Messages 两种 API 格式，调用方无需修改框架代码即可切换。

模型权重获取：

Hugging Face：deepseek-ai/DeepSeek-V4-Pro、deepseek-ai/DeepSeek-V4-Flash
ModelScope：面向中国大陆用户提供镜像

本地部署显存参考（非官方，来源 NxCode 评测）：

V4-Pro INT4 量化：单张 RTX 5090（32GB 显存）
V4-Pro INT8 量化：双张 RTX 4090（共 48GB 显存）

推荐推理参数：temperature = 1.0, top_p = 1.0（标准模式下）

数据时效：2026-04。V4 系列当前为预览版（Preview），部分第三方基准测试数据待独立验证机构复核。官方技术报告完整版见 Hugging Face 模型卡片内附 PDF（DeepSeek_V4.pdf）。

发布概况#

模型规格#

核心架构创新#

1. 混合注意力机制（CSA + HCA）#

2. 流形约束超连接（mHC）#

3. Muon 优化器#

4. 训练数据与后训练流程#

推理模式#

性能基准测试#

基础模型（V4-Pro Base，无推理链）#

推理模式（V4-Pro-Max，Think Max）#

与主要闭源模型对比#

定价#

API 兼容性与本地部署#