论文状态：已完成

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

长上下文建模 (12)大语言模型推理能力增强 (36)大语言模型强化学习训练 (63)稀疏注意力机制 (4)

原文链接

价格：0.100000

已有 71 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文介绍了DeepSeek-V3.2模型，平衡高计算效率与推理能力，核心技术包括：1. 深度稀疏注意力机制，降低计算复杂性；2. 可扩展强化学习框架，性能媲美GPT-5；3. 大规模智能体任务合成流水线，提升泛化能力和指令遵循的鲁棒性。

摘要

We introduce DeepSeek-V3.2, a model that harmonizes high computational efficiency with superior reasoning and agent performance. The key technical breakthroughs of DeepSeek-V3.2 are as follows: (1) DeepSeek Sparse Attention (DSA): We introduce DSA, an efficient attention mechanism that substantially reduces computational complexity while preserving model performance in long-context scenarios. (2) Scalable Reinforcement Learning Framework: By implementing a robust reinforcement learning protocol and scaling post-training compute, DeepSeek-V3.2 performs comparably to GPT-5. Notably, our high-compute variant, DeepSeek-V3.2-Speciale, surpasses GPT-5 and exhibits reasoning proficiency on par with Gemini-3.0-Pro, achieving gold-medal performance in both the 2025 International Mathematical Olympiad (IMO) and the International Olympiad in Informatics (IOI). (3) Large-Scale Agentic Task Synthesis Pipeline: To integrate reasoning into tool-use scenarios, we developed a novel synthesis pipeline that systematically generates training data at scale. This methodology facilitates scalable agentic post-training, yielding substantial improvements in generalization and instruction-following robustness within complex, interactive environments.

思维导图

论文精读

中文精读约 11 分钟读完 · 7,109 字

1. 论文基本信息

1.1. 标题

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models （DeepSeek-V3.2：拓展开源大语言模型的边界）

1.2. 作者

DeepSeek-AI Team （深度求索人工智能团队） 注：作者列表包含百余位研究员与工程师，核心贡献涵盖研究、工程、数据标注及商业合规等多个领域。

1.3. 发表状态

技术报告 (Technical Report) 发布于 2025 年（根据文中提到的比赛时间和参考文献推断）。

1.4. 摘要

本文介绍了 DeepSeek-V3.2 模型，旨在平衡高计算效率与卓越的推理及智能体（Agent）性能。主要技术突破包括：

DeepSeek 稀疏注意力 (DSA): 一种高效的注意力机制，显著降低了长上下文场景下的计算复杂度。
可扩展的强化学习框架: 通过改进的强化学习协议和大规模后训练计算（Post-training compute），使模型性能比肩 GPT-5。其高算力变体 DeepSeek-V3.2-Speciale 在数学（IMO）和编程（IOI）竞赛中达到金牌水平，超越 GPT-5 并媲美 Gemini-3.0-Pro。
大规模智能体任务合成流水线: 通过系统化生成训练数据，显著提升了模型在复杂交互环境中的泛化能力和指令遵循能力。

1.5. 原文链接

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

2. 整体概括

2.1. 研究背景与动机

开源与闭源的差距: 尽管开源模型（如 DeepSeek-V3, Llama 等）发展迅速，但在 2025 年，闭源模型（如 GPT-5, Gemini-3.0, Claude 4.5）在复杂任务上的表现加速提升，导致两者差距似乎在扩大。
三大瓶颈: 作者指出了限制开源模型发展的三个关键缺陷：
1. 架构效率: 传统的注意力机制在处理长序列时计算效率低，阻碍了大规模扩展。
2. 算力投入: 开源模型在“后训练阶段”（Post-training）的算力投入不足，限制了解决难题的能力。
3. 智能体能力: 在工具使用和复杂环境交互方面，开源模型的泛化性远逊于闭源模型。

2.2. 核心贡献

DeepSeek Sparse Attention (DSA): 提出了一种基于“闪电索引器”和“细粒度选择”的稀疏注意力机制，将核心计算复杂度从 $O(L^2)$ 降低到 $O(Lk)$ ，在保持长文本性能的同时大幅提升效率。
稳定且可扩展的 RL 协议: 改进了 GRPO 算法，引入无偏 KL 估计和离策略掩码（Off-Policy Masking），使得后训练阶段的算力投入可以超过预训练成本的 10%，从而解锁了强大的推理能力。
智能体合成数据: 构建了能够生成超过 1800 个环境和 85000 个复杂提示词的合成流水线，解决了智能体训练数据稀缺的问题。
SOTA 性能: 发布的 DeepSeek-V3.2-Speciale 在 IMO 2025（国际数学奥林匹克）和 IOI 2025（国际信息学奥林匹克）中均获得金牌，证明了开源模型也能达到最顶尖的推理水平。

3. 预备知识与相关工作

3.1. 基础概念

注意力机制 (Attention Mechanism): 大语言模型的核心组件，用于计算输入序列中不同词元（Token）之间的关联。传统方法的计算量随序列长度呈平方级增长（ $O(L^2)$ ），处理长文时极慢。
稀疏注意力 (Sparse Attention): 为了解决上述问题，该技术只计算“重要”词元之间的关联，忽略无关部分，从而降低计算量。
强化学习 (Reinforcement Learning, RL): 一种让模型通过“试错”来学习的方法。模型生成答案，根据奖励（Reward）的好坏来调整策略。
思维链 (Chain-of-Thought, CoT): 让模型在给出最终答案前先生成推理过程（如 $<think>...</think>$ ），这能显著提升解决数学和逻辑问题的能力。
智能体 (Agent): 指能够使用工具（如搜索引擎、代码解释器）与环境交互以完成任务的模型系统。

3.2. 技术演进与差异

MLA (Multi-Head Latent Attention): DeepSeek-V2/V3 提出的高效注意力架构。本文的 DSA 是在 MLA 的基础上进一步引入稀疏性。
DeepSeek-R1: 之前专注于推理的模型。本文继承了其推理能力，并将其扩展到了工具使用（Tool-use）场景。
GRPO (Group Relative Policy Optimization): DeepSeek 提出的一种不需要价值网络（Value Network）的高效 RL 算法。本文对其进行了多项稳定性改进，使其能支持更大规模的训练。

4. 方法论

4.1. 架构核心：DeepSeek 稀疏注意力 (DSA)

DSA 的目标是在保持性能的前提下，大幅降低长上下文处理的计算成本。它由两个核心组件构成：闪电索引器 (Lightning Indexer) 和 细粒度词元选择机制 (Fine-grained Token Selection)。

4.1.1. 闪电索引器 (Lightning Indexer)

索引器的作用是快速判断哪些历史词元对当前词元是重要的。它计算查询词元 $\mathbf{h}_t$ 与前序词元 $\mathbf{h}_s$ 之间的索引分数 $I_{t,s}$ ：

$I_{t,s} = \sum_{j=1}^{H^I} w_{t,j}^I \cdot \mathrm{ReLU} \left( \mathbf{q}_{t,j}^I \cdot \mathbf{k}_{s}^I \right)$

符号解释：

$H^I$ : 索引器头的数量（通常很少，且使用 FP8 低精度计算，速度极快）。
$\mathbf{q}_{t,j}^I, \mathbf{k}_{s}^I$ : 索引器的查询（Query）向量和键（Key）向量。
$w_{t,j}^I$ : 一个权重标量，由查询词元生成。
$\mathrm{ReLU}$ : 激活函数，用于确保稀疏性并加速计算。

4.1.2. 细粒度选择与注意力计算

根据索引分数，模型只选择前 $k$ 个最重要的词元进行最终的注意力计算。

$\mathbf{u}_t = \mathrm{Attn} \big( \mathbf{h}_t, \big\{ \mathbf{c}_s \big| I_{t,s} \in \mathrm{Top\text{-}k}(I_{t,:}) \big\} \big)$

符号解释：

$\mathrm{Top\text{-}k}$ : 选择分数最高的 $k$ 个位置。
$\mathbf{c}_s$ : 原始模型（MLA）中的键值（KV）条目。
$\mathbf{u}_t$ : 最终的注意力输出。
原理: 这意味着模型不需要扫描所有历史信息，只需“关注”索引器推荐的这一小部分重点信息。

下图（原文 Figure 2）展示了 DSA 在 MLA 架构下的具体实现：绿色部分表示索引器筛选出的 Top-k 键值对。

$Figure 2 | Attention architecture of DeepSeek-V3.2, where DSA is instantiated under MLA. The green part illustrates how DSA selects the top- $\\boldsymbol { \\cdot } \\mathbf { k }$ key-value entries according to the indexer.$ 该图像是DeepSeek-V3.2的注意力结构示意图，其中展示了DSA（稀疏注意力）在多查询注意力（Multi-Query Attention）中的应用。绿色部分说明了DSA如何根据索引器选择前 $k$ 个关键值条目。

4.1.3. 训练策略

为了让模型适应这种稀疏性，作者采用了两阶段训练：

密集预热 (Dense Warm-up): 冻结主模型，只训练索引器。利用 KL 散度损失函数，强迫索引器的输出分布去拟合完整注意力（Dense Attention）的分布。
稀疏训练 (Sparse Training): 激活稀疏选择机制，同时优化主模型和索引器。此时模型开始真正“适应”只看部分信息也能通过的情况。

4.2. 后训练：可扩展的 RL 框架

DeepSeek-V3.2 使用 GRPO 算法进行大规模强化学习。为了在高算力下保持训练稳定，引入了数项关键改进。

4.2.1. GRPO 目标函数

GRPO 通过对一组输出（Group）进行相对打分来计算优势，从而省去了 Critic 模型。

$\mathcal{J}_{\mathrm{GRPO}}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min \left( r_{i,t}(\theta) \hat{A}_{i,t}, \mathrm{clip}(r_{i,t}(\theta), 1-\varepsilon, 1+\varepsilon) \hat{A}_{i,t} \right) - \beta \mathbb{D}_{\mathrm{KL}} \right]$

符号解释：

$r_{i,t}(\theta) = \frac{\pi_\theta(...)}{\pi_{old}(...)}$ : 新旧策略的概率比（重要性采样比率）。
$\hat{A}_{i,t}$ : 优势函数，通过组内标准化计算得出。
$\mathbb{D}_{\mathrm{KL}}$ : KL 散度，用于限制模型不要偏离基准太远。

4.2.2. 无偏 KL 估计 (Unbiased KL Estimate)

传统的 KL 估计器在 $\pi_\theta \ll \pi_{ref}$ 时会产生极其不稳定的梯度。作者引入了利用重要性采样比率修正的无偏估计：

$\mathbb{D}_{\mathrm{KL}} \approx \frac{\pi_\theta}{\pi_{old}} \left( \frac{\pi_{ref}}{\pi_\theta} - \log \frac{\pi_{ref}}{\pi_\theta} - 1 \right)$ (注：为简洁省略了条件概率符号 $o_{i,t}|q, o_{i,<t}$ )

核心作用: 消除了系统性估计误差，这对长周期的 RL 训练至关重要，防止了模型训练过程中的“崩塌”。

4.2.3. 离策略序列掩码 (Off-Policy Sequence Masking)

在 RL 中，数据生成（Inference）和训练（Train）之间存在时间差，导致数据是“离策略”（Off-policy）的。如果差异过大，会破坏训练。作者引入了一个掩码 $M_{i,t}$ ：

$M_{i,t} = \begin{cases} 0 & \text{若 } \hat{A}_{i,t} < 0 \text{ 且策略差异 } > \delta \\ 1 & \text{否则} \end{cases}$

原理: 如果一条数据的效果很差（优势为负），且它是由一个与当前模型差异巨大的旧版本生成的，那么模型就不应该从这个“过时且错误”的样本中学习，直接将其忽略（Mask 掉）。

4.3. 智能体与工具思维 (Thinking in Tool-Use)

4.3.1. 思维上下文管理

在工具调用场景中，如果每次调用工具后都丢弃之前的推理过程（Reasoning Trace），会导致模型“失忆”，被迫重新推理。

策略: 如下图（原文 Figure 4）所示，模型保留推理内容，直到用户输入新消息。这确保了在多步工具调用中，模型能记住之前的思考逻辑。

该图像是图示，展示了工具调用场景中的思维保持机制。图中展示了多个回合的输入和输出，包括用户消息、工具调用和思维过程，体现了模型在处理复杂任务时的思维流程。

4.3.2. 大规模智能体任务合成

为了解决智能体训练数据不足的问题，作者构建了一个自动化合成流水线：

环境构建: 自动生成虚拟环境（如旅行规划沙箱）。
任务合成: 逆向生成——先随机操作工具生成结果，再根据结果反推一个“难题”。
验证机制: 生成对应的验证脚本（Verifier），只有通过验证的任务才会被保留。
结果: 生成了 1800+ 环境和数万个任务，用于 RL 训练。

5. 实验设置

5.1. 数据集与基准

实验涵盖了极其广泛的评估维度：

通用能力: MMLU-Pro, GPQA Diamond.
代码能力: LiveCodeBench, Codeforces, SWE-bench Verified (真实软件工程问题).
数学能力: AIME 2025, IMO 2025 (国际数学奥赛), HMMT.
智能体能力: BrowseComp (网页浏览), MCP-Universe, Tool-Decathlon.
合成数据验证: $\tau^2$ -bench, 内部合成的 General Agent 任务。

5.2. 对比基线

闭源模型: GPT-5-High (OpenAI), Gemini-3.0-Pro (Google), Claude-4.5-Sonnet (Anthropic).
开源模型: Kimi-k2-Thinking, MiniMax M2.
DeepSeek 变体:
- DeepSeek-V3.2: 标准版，平衡了成本与性能。
- DeepSeek-V3.2-Speciale: 高算力版，无长度限制，专注于极致推理。

5.3. 评估指标

文中主要使用以下指标：

Pass@1 (一次通过率):
- 定义: 模型只生成一个答案，该答案正确的比例。
- 公式: $\text{Pass@1} = \frac{N_{correct}}{N_{total}}$
- 符号: $N_{correct}$ 为回答正确的问题数， $N_{total}$ 为总问题数。
Elo Score:
- 定义: 基于成对比较（如在 ChatbotArena 中）计算的相对技能评分。
Rating (Codeforces):
- 定义: 竞技编程平台上的积分，反映解题难度水平。

6. 实验结果与分析

6.1. 核心结果概览

DeepSeek-V3.2 在开源模型中确立了新的统治地位，并在多项指标上逼近甚至超越了闭源最强模型。

以下是原文 Table 2 的结果对比（部分关键数据）：

类别	基准测试 (指标)	Claude-4.5 Sonnet	GPT-5 High	Gemini-3.0 Pro	DeepSeek-V3.2 Thinking
通用/英语	MMLU-Pro (EM)	88.2	87.5	90.1	85.0
	GPQA Diamond (Pass@1)	83.4	85.7	91.9	82.4
	HLE (Pass@1)	13.7	26.3	37.7	25.1
代码	LiveCodeBench (Pass@1-COT)	64.0	84.5	90.7	83.3
代码	Codeforces (Rating)	1480	2537	2708	2386
数学	AIME 2025 (Pass@1)	87.0	94.6	95.0	93.1
数学	IMOAnswerBench (Pass@1)	-	76.0	83.3	78.3

分析:

DeepSeek-V3.2 (Standard) 在大多数任务上与 GPT-5 互有胜负，略逊于 Gemini-3.0-Pro。
在代码和数学领域，其表现远超其他开源模型（如 Kimi-K2）。

6.2. Speciale 版本的突破：金牌级推理

当放开推理长度限制（Speciale 版本）时，DeepSeek 展现了惊人的潜力。

以下是原文 Table 3 的效率与性能对比：

Benchmark	GPT-5 High	Gemini-3.0 Pro	DeepSeek-V3.2 Thinking	DeepSeek-V3.2 Speciale
AIME 2025	94.6	95.0	93.1	96.0
HMMT Feb 2025	88.3	97.5	92.5	99.2
IMOAnswerBench	76.0	83.3	78.3	84.5

竞赛结果 (Table 4):

IMO 2025: 获得 金牌 (Gold) (35/42分)。
IOI 2025: 获得 金牌 (Gold) (排名 10/600+)。
ICPC World Final: 获得金牌 (排名第2，仅次于北大团队)。

结论: DeepSeek-V3.2-Speciale 是目前世界上数学和编程推理能力最强的模型之一，证明了通过增加测试时计算（Test-time compute），模型可以突破预训练的限制。

6.3. 推理成本与效率

下图（原文 Figure 3）展示了 DeepSeek-V3.2 相比前代模型（Terminus）的推理成本优势。由于采用了 DSA 稀疏注意力，在长序列（>10K tokens）的处理上，成本显著降低。

Figure 3 | Inference costs of DeepSeek-V3.1-Terminus and DeepSeek-V3.2 on H800 clusters. 该图像是图表，展示了DeepSeek-V3.1-Terminus和DeepSeek-V3.2在H800集群上的推理成本。图中分为两个部分，(a)预填充及(b)解码过程中，每百万个标记的费用随着令牌位置的增加而变化。其中，DeepSeek-V3.2的推理成本显著低于DeepSeek-V3.1-Terminus。

6.4. 智能体合成数据的有效性

为了验证合成数据的作用，作者进行了消融实验。下图（原文 Figure 5）显示，仅使用合成数据（Synthetic Data）进行 RL 训练（红色曲线），在多个智能体基准（如 MCP-Universe, Tool-Decathlon）上的得分随着训练步数稳步上升，证明了该合成流水线的有效性。

Figure 5 | RL training of DeepSeek-V3.2-SFT using exclusively synthetic general agent data. 该图像是图表，展示了 DeepSeek-V3.2-SFT 在不同任务的强化学习训练过程中的性能变化。图中包括多个子图，分别表示航空、零售、电信等多个领域的 benchmark 结果，横坐标为训练步骤，纵坐标为性能指标。

7. 总结与思考

7.1. 结论总结

DeepSeek-V3.2 是开源大模型领域的一个重要里程碑。它通过DSA 架构解决了长窗口的效率问题，通过大规模 RL 解锁了与 GPT-5 匹敌的推理能力，并通过合成数据补齐了智能体能力的短板。特别是 Speciale 版本在国际顶级学科竞赛中夺金，打破了闭源模型对“高智商”任务的垄断。

7.2. 局限性与未来工作

世界知识广度: 由于预训练算力总量仍少于 Google/OpenAI 的万卡集群，模型在事实性知识（Factuality）上仍有差距。
词元效率 (Token Efficiency): 为了达到高智能，DeepSeek-V3.2 往往需要生成极长的推理过程（Speciale 版本尤甚），这增加了用户的等待时间和推理成本。未来需要提高“思维密度”。
复杂任务的上限: 尽管数学很强，但在某些极度复杂的现实世界任务中，仍略逊于 Gemini-3.0-Pro。

7.3. 个人启发与批判

算力转移: 这篇论文有力地证明了测试时算力 (Test-time compute) 的重要性。与其无限堆砌预训练参数，不如花更多算力让模型“多想一会儿”。
合成数据即未来: 在高质量人类数据（如代码、数学题）枯竭的背景下，DeepSeek 展示了通过构建模拟器（Simulator）自我生成数据并自我进化的可行路径。这可能是通往 AGI 的关键一步。
开源的韧性: 在闭源模型似乎要绝尘而去时，DeepSeek 用架构创新（DSA）和算法优化（GRPO）证明了开源社区依然具备追赶甚至超越的能力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。