DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
TL;DR 精炼摘要
本文介绍了DeepSeek-V3.2模型,平衡高计算效率与推理能力,核心技术包括:1. 深度稀疏注意力机制,降低计算复杂性;2. 可扩展强化学习框架,性能媲美GPT-5;3. 大规模智能体任务合成流水线,提升泛化能力和指令遵循的鲁棒性。
摘要
We introduce DeepSeek-V3.2, a model that harmonizes high computational efficiency with superior reasoning and agent performance. The key technical breakthroughs of DeepSeek-V3.2 are as follows: (1) DeepSeek Sparse Attention (DSA): We introduce DSA, an efficient attention mechanism that substantially reduces computational complexity while preserving model performance in long-context scenarios. (2) Scalable Reinforcement Learning Framework: By implementing a robust reinforcement learning protocol and scaling post-training compute, DeepSeek-V3.2 performs comparably to GPT-5. Notably, our high-compute variant, DeepSeek-V3.2-Speciale, surpasses GPT-5 and exhibits reasoning proficiency on par with Gemini-3.0-Pro, achieving gold-medal performance in both the 2025 International Mathematical Olympiad (IMO) and the International Olympiad in Informatics (IOI). (3) Large-Scale Agentic Task Synthesis Pipeline: To integrate reasoning into tool-use scenarios, we developed a novel synthesis pipeline that systematically generates training data at scale. This methodology facilitates scalable agentic post-training, yielding substantial improvements in generalization and instruction-following robustness within complex, interactive environments.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models (DeepSeek-V3.2:拓展开源大语言模型的边界)
1.2. 作者
DeepSeek-AI Team (深度求索人工智能团队) 注:作者列表包含百余位研究员与工程师,核心贡献涵盖研究、工程、数据标注及商业合规等多个领域。
1.3. 发表状态
技术报告 (Technical Report) 发布于 2025 年(根据文中提到的比赛时间和参考文献推断)。
1.4. 摘要
本文介绍了 DeepSeek-V3.2 模型,旨在平衡高计算效率与卓越的推理及智能体(Agent)性能。主要技术突破包括:
- DeepSeek 稀疏注意力 (DSA): 一种高效的注意力机制,显著降低了长上下文场景下的计算复杂度。
- 可扩展的强化学习框架: 通过改进的强化学习协议和大规模后训练计算(Post-training compute),使模型性能比肩 GPT-5。其高算力变体 DeepSeek-V3.2-Speciale 在数学(IMO)和编程(IOI)竞赛中达到金牌水平,超越 GPT-5 并媲美 Gemini-3.0-Pro。
- 大规模智能体任务合成流水线: 通过系统化生成训练数据,显著提升了模型在复杂交互环境中的泛化能力和指令遵循能力。
1.5. 原文链接
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf
2. 整体概括
2.1. 研究背景与动机
- 开源与闭源的差距: 尽管开源模型(如 DeepSeek-V3, Llama 等)发展迅速,但在 2025 年,闭源模型(如 GPT-5, Gemini-3.0, Claude 4.5)在复杂任务上的表现加速提升,导致两者差距似乎在扩大。
- 三大瓶颈: 作者指出了限制开源模型发展的三个关键缺陷:
- 架构效率: 传统的注意力机制在处理长序列时计算效率低,阻碍了大规模扩展。
- 算力投入: 开源模型在“后训练阶段”(Post-training)的算力投入不足,限制了解决难题的能力。
- 智能体能力: 在工具使用和复杂环境交互方面,开源模型的泛化性远逊于闭源模型。
2.2. 核心贡献
-
DeepSeek Sparse Attention (DSA): 提出了一种基于“闪电索引器”和“细粒度选择”的稀疏注意力机制,将核心计算复杂度从 降低到 ,在保持长文本性能的同时大幅提升效率。
-
稳定且可扩展的 RL 协议: 改进了 GRPO 算法,引入无偏 KL 估计和离策略掩码(Off-Policy Masking),使得后训练阶段的算力投入可以超过预训练成本的 10%,从而解锁了强大的推理能力。
-
智能体合成数据: 构建了能够生成超过 1800 个环境和 85000 个复杂提示词的合成流水线,解决了智能体训练数据稀缺的问题。
-
SOTA 性能: 发布的 DeepSeek-V3.2-Speciale 在 IMO 2025(国际数学奥林匹克)和 IOI 2025(国际信息学奥林匹克)中均获得金牌,证明了开源模型也能达到最顶尖的推理水平。
3. 预备知识与相关工作
3.1. 基础概念
- 注意力机制 (Attention Mechanism): 大语言模型的核心组件,用于计算输入序列中不同词元(Token)之间的关联。传统方法的计算量随序列长度呈平方级增长(),处理长文时极慢。
- 稀疏注意力 (Sparse Attention): 为了解决上述问题,该技术只计算“重要”词元之间的关联,忽略无关部分,从而降低计算量。
- 强化学习 (Reinforcement Learning, RL): 一种让模型通过“试错”来学习的方法。模型生成答案,根据奖励(Reward)的好坏来调整策略。
- 思维链 (Chain-of-Thought, CoT): 让模型在给出最终答案前先生成推理过程(如 ),这能显著提升解决数学和逻辑问题的能力。
- 智能体 (Agent): 指能够使用工具(如搜索引擎、代码解释器)与环境交互以完成任务的模型系统。
3.2. 技术演进与差异
-
MLA (Multi-Head Latent Attention): DeepSeek-V2/V3 提出的高效注意力架构。本文的 DSA 是在 MLA 的基础上进一步引入稀疏性。
-
DeepSeek-R1: 之前专注于推理的模型。本文继承了其推理能力,并将其扩展到了工具使用(Tool-use)场景。
-
GRPO (Group Relative Policy Optimization): DeepSeek 提出的一种不需要价值网络(Value Network)的高效 RL 算法。本文对其进行了多项稳定性改进,使其能支持更大规模的训练。
4. 方法论
4.1. 架构核心:DeepSeek 稀疏注意力 (DSA)
DSA 的目标是在保持性能的前提下,大幅降低长上下文处理的计算成本。它由两个核心组件构成:闪电索引器 (Lightning Indexer) 和 细粒度词元选择机制 (Fine-grained Token Selection)。
4.1.1. 闪电索引器 (Lightning Indexer)
索引器的作用是快速判断哪些历史词元对当前词元是重要的。它计算查询词元 与前序词元 之间的索引分数 :
符号解释:
- : 索引器头的数量(通常很少,且使用 FP8 低精度计算,速度极快)。
- : 索引器的查询(Query)向量和键(Key)向量。
- : 一个权重标量,由查询词元生成。
- : 激活函数,用于确保稀疏性并加速计算。
4.1.2. 细粒度选择与注意力计算
根据索引分数,模型只选择前 个最重要的词元进行最终的注意力计算。
符号解释:
-
: 选择分数最高的 个位置。
-
: 原始模型(MLA)中的键值(KV)条目。
-
: 最终的注意力输出。
-
原理: 这意味着模型不需要扫描所有历史信息,只需“关注”索引器推荐的这一小部分重点信息。
下图(原文 Figure 2)展示了 DSA 在 MLA 架构下的具体实现:绿色部分表示索引器筛选出的 Top-k 键值对。
该图像是DeepSeek-V3.2的注意力结构示意图,其中展示了DSA(稀疏注意力)在多查询注意力(Multi-Query Attention)中的应用。绿色部分说明了DSA如何根据索引器选择前个关键值条目。
4.1.3. 训练策略
为了让模型适应这种稀疏性,作者采用了两阶段训练:
- 密集预热 (Dense Warm-up): 冻结主模型,只训练索引器。利用 KL 散度损失函数,强迫索引器的输出分布去拟合完整注意力(Dense Attention)的分布。
- 稀疏训练 (Sparse Training): 激活稀疏选择机制,同时优化主模型和索引器。此时模型开始真正“适应”只看部分信息也能通过的情况。
4.2. 后训练:可扩展的 RL 框架
DeepSeek-V3.2 使用 GRPO 算法进行大规模强化学习。为了在高算力下保持训练稳定,引入了数项关键改进。
4.2.1. GRPO 目标函数
GRPO 通过对一组输出(Group)进行相对打分来计算优势,从而省去了 Critic 模型。
符号解释:
- : 新旧策略的概率比(重要性采样比率)。
- : 优势函数,通过组内标准化计算得出。
- : KL 散度,用于限制模型不要偏离基准太远。
4.2.2. 无偏 KL 估计 (Unbiased KL Estimate)
传统的 KL 估计器在 时会产生极其不稳定的梯度。作者引入了利用重要性采样比率修正的无偏估计:
(注:为简洁省略了条件概率符号 )
核心作用: 消除了系统性估计误差,这对长周期的 RL 训练至关重要,防止了模型训练过程中的“崩塌”。
4.2.3. 离策略序列掩码 (Off-Policy Sequence Masking)
在 RL 中,数据生成(Inference)和训练(Train)之间存在时间差,导致数据是“离策略”(Off-policy)的。如果差异过大,会破坏训练。作者引入了一个掩码 :
原理: 如果一条数据的效果很差(优势为负),且它是由一个与当前模型差异巨大的旧版本生成的,那么模型就不应该从这个“过时且错误”的样本中学习,直接将其忽略(Mask 掉)。
4.3. 智能体与工具思维 (Thinking in Tool-Use)
4.3.1. 思维上下文管理
在工具调用场景中,如果每次调用工具后都丢弃之前的推理过程(Reasoning Trace),会导致模型“失忆”,被迫重新推理。
-
策略: 如下图(原文 Figure 4)所示,模型保留推理内容,直到用户输入新消息。这确保了在多步工具调用中,模型能记住之前的思考逻辑。
该图像是图示,展示了工具调用场景中的思维保持机制。图中展示了多个回合的输入和输出,包括用户消息、工具调用和思维过程,体现了模型在处理复杂任务时的思维流程。
4.3.2. 大规模智能体任务合成
为了解决智能体训练数据不足的问题,作者构建了一个自动化合成流水线:
-
环境构建: 自动生成虚拟环境(如旅行规划沙箱)。
-
任务合成: 逆向生成——先随机操作工具生成结果,再根据结果反推一个“难题”。
-
验证机制: 生成对应的验证脚本(Verifier),只有通过验证的任务才会被保留。
-
结果: 生成了 1800+ 环境和数万个任务,用于 RL 训练。
5. 实验设置
5.1. 数据集与基准
实验涵盖了极其广泛的评估维度:
- 通用能力: MMLU-Pro, GPQA Diamond.
- 代码能力: LiveCodeBench, Codeforces, SWE-bench Verified (真实软件工程问题).
- 数学能力: AIME 2025, IMO 2025 (国际数学奥赛), HMMT.
- 智能体能力: BrowseComp (网页浏览), MCP-Universe, Tool-Decathlon.
- 合成数据验证: -bench, 内部合成的 General Agent 任务。
5.2. 对比基线
- 闭源模型: GPT-5-High (OpenAI), Gemini-3.0-Pro (Google), Claude-4.5-Sonnet (Anthropic).
- 开源模型: Kimi-k2-Thinking, MiniMax M2.
- DeepSeek 变体:
- DeepSeek-V3.2: 标准版,平衡了成本与性能。
- DeepSeek-V3.2-Speciale: 高算力版,无长度限制,专注于极致推理。
5.3. 评估指标
文中主要使用以下指标:
- Pass@1 (一次通过率):
- 定义: 模型只生成一个答案,该答案正确的比例。
- 公式:
- 符号: 为回答正确的问题数, 为总问题数。
- Elo Score:
- 定义: 基于成对比较(如在 ChatbotArena 中)计算的相对技能评分。
- Rating (Codeforces):
-
定义: 竞技编程平台上的积分,反映解题难度水平。
-
6. 实验结果与分析
6.1. 核心结果概览
DeepSeek-V3.2 在开源模型中确立了新的统治地位,并在多项指标上逼近甚至超越了闭源最强模型。
以下是原文 Table 2 的结果对比(部分关键数据):
| 类别 | 基准测试 (指标) | Claude-4.5 Sonnet | GPT-5 High | Gemini-3.0 Pro | DeepSeek-V3.2 Thinking |
|---|---|---|---|---|---|
| 通用/英语 | MMLU-Pro (EM) | 88.2 | 87.5 | 90.1 | 85.0 |
| GPQA Diamond (Pass@1) | 83.4 | 85.7 | 91.9 | 82.4 | |
| HLE (Pass@1) | 13.7 | 26.3 | 37.7 | 25.1 | |
| 代码 | LiveCodeBench (Pass@1-COT) | 64.0 | 84.5 | 90.7 | 83.3 |
| Codeforces (Rating) | 1480 | 2537 | 2708 | 2386 | |
| 数学 | AIME 2025 (Pass@1) | 87.0 | 94.6 | 95.0 | 93.1 |
| IMOAnswerBench (Pass@1) | - | 76.0 | 83.3 | 78.3 |
分析:
- DeepSeek-V3.2 (Standard) 在大多数任务上与 GPT-5 互有胜负,略逊于 Gemini-3.0-Pro。
- 在代码和数学领域,其表现远超其他开源模型(如 Kimi-K2)。
6.2. Speciale 版本的突破:金牌级推理
当放开推理长度限制(Speciale 版本)时,DeepSeek 展现了惊人的潜力。
以下是原文 Table 3 的效率与性能对比:
| Benchmark | GPT-5 High | Gemini-3.0 Pro | DeepSeek-V3.2 Thinking | DeepSeek-V3.2 Speciale |
|---|---|---|---|---|
| AIME 2025 | 94.6 | 95.0 | 93.1 | 96.0 |
| HMMT Feb 2025 | 88.3 | 97.5 | 92.5 | 99.2 |
| IMOAnswerBench | 76.0 | 83.3 | 78.3 | 84.5 |
竞赛结果 (Table 4):
-
IMO 2025: 获得 金牌 (Gold) (35/42分)。
-
IOI 2025: 获得 金牌 (Gold) (排名 10/600+)。
-
ICPC World Final: 获得 金牌 (排名第2,仅次于北大团队)。
结论: DeepSeek-V3.2-Speciale 是目前世界上数学和编程推理能力最强的模型之一,证明了通过增加测试时计算(Test-time compute),模型可以突破预训练的限制。
6.3. 推理成本与效率
下图(原文 Figure 3)展示了 DeepSeek-V3.2 相比前代模型(Terminus)的推理成本优势。由于采用了 DSA 稀疏注意力,在长序列(>10K tokens)的处理上,成本显著降低。
该图像是图表,展示了DeepSeek-V3.1-Terminus和DeepSeek-V3.2在H800集群上的推理成本。图中分为两个部分,(a)预填充及(b)解码过程中,每百万个标记的费用随着令牌位置的增加而变化。其中,DeepSeek-V3.2的推理成本显著低于DeepSeek-V3.1-Terminus。
6.4. 智能体合成数据的有效性
为了验证合成数据的作用,作者进行了消融实验。下图(原文 Figure 5)显示,仅使用合成数据(Synthetic Data)进行 RL 训练(红色曲线),在多个智能体基准(如 MCP-Universe, Tool-Decathlon)上的得分随着训练步数稳步上升,证明了该合成流水线的有效性。
该图像是图表,展示了 DeepSeek-V3.2-SFT 在不同任务的强化学习训练过程中的性能变化。图中包括多个子图,分别表示航空、零售、电信等多个领域的 benchmark 结果,横坐标为训练步骤,纵坐标为性能指标。
7. 总结与思考
7.1. 结论总结
DeepSeek-V3.2 是开源大模型领域的一个重要里程碑。它通过DSA 架构解决了长窗口的效率问题,通过大规模 RL 解锁了与 GPT-5 匹敌的推理能力,并通过合成数据补齐了智能体能力的短板。特别是 Speciale 版本在国际顶级学科竞赛中夺金,打破了闭源模型对“高智商”任务的垄断。
7.2. 局限性与未来工作
- 世界知识广度: 由于预训练算力总量仍少于 Google/OpenAI 的万卡集群,模型在事实性知识(Factuality)上仍有差距。
- 词元效率 (Token Efficiency): 为了达到高智能,DeepSeek-V3.2 往往需要生成极长的推理过程(Speciale 版本尤甚),这增加了用户的等待时间和推理成本。未来需要提高“思维密度”。
- 复杂任务的上限: 尽管数学很强,但在某些极度复杂的现实世界任务中,仍略逊于 Gemini-3.0-Pro。
7.3. 个人启发与批判
- 算力转移: 这篇论文有力地证明了测试时算力 (Test-time compute) 的重要性。与其无限堆砌预训练参数,不如花更多算力让模型“多想一会儿”。
- 合成数据即未来: 在高质量人类数据(如代码、数学题)枯竭的背景下,DeepSeek 展示了通过构建模拟器(Simulator)自我生成数据并自我进化的可行路径。这可能是通往 AGI 的关键一步。
- 开源的韧性: 在闭源模型似乎要绝尘而去时,DeepSeek 用架构创新(DSA)和算法优化(GRPO)证明了开源社区依然具备追赶甚至超越的能力。
相似论文推荐
基于向量语义检索推荐的相关论文。