论文状态：已完成

ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models

发表：2025/10/12

视觉语言模型微调 (1)监督与强化学习结合 (1)后训练范式 (1)增量奖励控制策略 (1)大规模视觉语言模型 (1)

价格：0.100000

已有 5 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本论文提出了一种新颖的后训练范式ViSurf，整合了大型视觉-语言模型的监督微调(SFT)和可验证奖励强化学习(RLVR)的优点。通过将真实标注数据注入RLVR的推演过程，ViSurf实现了外部监督与内部强化的协同，同时引入三种新奖励控制策略以优化训练效果。实验结果显示，ViSurf的性能优于单独的SFT和RLVR方法。

摘要

Typical post-training paradigms for Large Vision-and-Language Models (LVLMs) include Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR). SFT leverages external guidance to inject new knowledge, whereas RLVR utilizes internal reinforcement to enhance reasoning capabilities and overall performance. However, our analysis reveals that SFT often leads to sub-optimal performance, while RLVR struggles with tasks that exceed the model's internal knowledge base. To address these limitations, we propose ViSurf (\textbf{Vi}sual \textbf{Su}pervised-and-\textbf{R}einforcement \textbf{F}ine-Tuning), a unified post-training paradigm that integrates the strengths of both SFT and RLVR within a single stage. We analyze the derivation of the SFT and RLVR objectives to establish the ViSurf objective, providing a unified perspective on these two paradigms. The core of ViSurf involves injecting ground-truth labels into the RLVR rollouts, thereby providing simultaneous external supervision and internal reinforcement. Furthermore, we introduce three novel reward control strategies to stabilize and optimize the training process. Extensive experiments across several diverse benchmarks demonstrate the effectiveness of ViSurf, outperforming both individual SFT, RLVR, and two-stage SFT \textrightarrow RLVR. In-depth analysis corroborates these findings, validating the derivation and design principles of ViSurf.

思维导图

论文精读

中文精读约 37 分钟读完 · 24,909 字

1. 论文基本信息

1.1. 标题

ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models (ViSurf: 大型视觉-语言模型的视觉监督-强化微调)

1.2. 作者

Yuqi Liu, Liangyu Chen, Jiazhen Liu, Mingkang Zhu, Zhisheng Zhong, Bei Yu, Jiaya Jia 等

1.3. 发表期刊/会议

预印本 (arXiv)

1.4. 发表年份

2025年 (Published at: 2025-10-12T13:42:55.000Z)

1.5. 摘要

大型视觉-语言模型 (Large Vision-and-Language Models, LVLMs) 的典型后训练范式包括监督微调 (Supervised Fine-Tuning, SFT) 和可验证奖励强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR)。SFT 利用外部指导注入新知识，而 RLVR 则利用内部强化提升推理能力和整体性能。然而，论文分析发现 SFT 往往导致次优性能，而 RLVR 在超出模型内部知识库的任务上表现不佳。为了解决这些局限性，论文提出了 ViSurf (Visual Supervised-and-Reinforcement Fine-Tuning)，这是一种统一的后训练范式，在一个阶段内整合了 SFT 和 RLVR 的优点。通过分析 SFT 和 RLVR 目标函数的推导，论文建立了 ViSurf 目标函数，为这两种范式提供了统一的视角。ViSurf 的核心是将真实标注数据 (ground-truth labels) 注入到 RLVR 的推演 (rollouts) 过程中，从而同时提供外部监督和内部强化。此外，论文还引入了三种新颖的奖励控制策略来稳定和优化训练过程。在多个不同基准上的广泛实验表明，ViSurf 的有效性优于单独的 SFT、RLVR 以及两阶段的 SFT $\to$ RLVR 方法。深入分析证实了这些发现，验证了 ViSurf 的推导和设计原则。

1.6. 原文链接

https://arxiv.org/abs/2510.10606 PDF 链接: https://arxiv.org/pdf/2510.10606v2.pdf 发布状态: 预印本

2. 整体概括

2.1. 研究背景与动机

当前，开发在各种视觉感知任务中表现出色的大型视觉-语言模型 (LVLMs) 是视觉智能领域的一个重要方向。现有工作主要依赖两种训练范式：

监督微调 (Supervised Fine-Tuning, SFT)：通过专家标注数据直接优化模型，提供显式外部指导，使模型能够记忆目标分布。然而，SFT 常常导致次优性能，并可能引起预训练知识的灾难性遗忘 (catastrophic forgetting)。
可验证奖励强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR)：利用内部强化信号来缓解灾难性遗忘，并通常能获得更好的性能。然而，当任务超出模型初始知识库时，其性能会下降。

论文通过分析发现，SFT 在超出 LVLM 预训练分布的任务上更有效，而 RLVR 在与现有知识库对齐的任务上表现更优（如图 1 所示）。虽然顺序的两阶段 SFT $\to$ RLVR 方法试图结合它们的优势，但这种方法会产生两阶段的计算成本，并且在初始 SFT 阶段仍然容易受到灾难性遗忘的影响。

因此，论文旨在解决这些限制，其核心动机是寻找一种方法，能够在一个统一的、单阶段的训练范式中，有效整合 SFT 的外部指导能力和 RLVR 的内部强化优势，以克服现有方法的缺陷。

2.2. 核心贡献/主要发现

论文的主要贡献和发现可总结如下：

提出 ViSurf 统一范式 (Unified Paradigm)：基于对 SFT 和 RLVR 目标函数及其梯度分析，论文提出了 ViSurf (Visual Supervised-and-Reinforcement Fine-Tuning)，一种统一的、单阶段的后训练范式，有效整合了 SFT 的外部指导和 RLVR 的内部强化优势。
理论推导与统一视角 (Theoretical Derivation and Unified Perspective)：论文分析了 SFT 和 RLVR 目标函数的推导，并在此基础上建立了 ViSurf 目标函数，为这两种范式提供了统一的理论视角。ViSurf 的梯度可以被解释为 SFT 和 RLVR 梯度的复合。
核心机制：真实标注数据注入 (Ground-Truth Label Injection)：ViSurf 的核心在于将真实标注数据 (ground-truth labels) 作为高奖励样本注入到 RLVR 的推演 (rollouts) 过程中，从而同时提供外部监督和内部强化。
引入奖励控制策略 (Reward Control Strategies)：论文设计了三种新颖的奖励控制策略，以稳定和优化训练过程，包括：(i) 将真实标注数据与推演偏好对齐，(ii) 消除真实标注数据的“思考奖励”，以及 (iii) 平滑真实标注数据的奖励。消融实验验证了这些策略的必要性。
卓越的实验性能 (Superior Experimental Performance)：在多个不同领域的基准测试中，ViSurf 的表现显著优于单独的 SFT、RLVR 以及两阶段的 SFT $\to$ RLVR 方法，平均相对基线模型提升 38.6%。
缓解灾难性遗忘 (Mitigation of Catastrophic Forgetting)：实验结果表明，ViSurf 能够有效缓解灾难性遗忘，在 VQA (Visual Question Answering) 任务上表现出稳定的性能。
降低提示设计负担 (Reduced Prompt Design Burden)：ViSurf 通过整合外部指导，有效降低了对精细化提示工程 (prompt engineering) 的依赖。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大型视觉-语言模型 (Large Vision-and-Language Models, LVLMs)

概念定义： 大型视觉-语言模型 (LVLMs) 是指那些能够同时理解和处理视觉信息（如图像、视频）和文本信息（如自然语言）的大规模深度学习模型。它们通常通过在海量多模态数据上进行预训练，学习到视觉和语言之间的复杂关联，从而能够执行各种跨模态任务，如图像描述生成、视觉问答、指令遵循等。

3.1.2. 监督微调 (Supervised Fine-Tuning, SFT)

概念定义： 监督微调 (SFT) 是一种在预训练模型（如 LVLMs）基础上，利用带有明确输入-输出对的专家标注数据集，对其进行进一步训练的技术。目标是让模型学习到特定任务的知识和行为模式。 机制： SFT 通过最小化模型预测与真实标注数据之间的差异（通常是负对数似然损失）来更新模型参数。这种方法提供清晰的外部指导，使模型能够记忆训练数据的分布。 优点： 简单直接，能够快速将预训练模型适应到新任务。 缺点： 容易导致模型在预训练数据分布之外的任务上表现次优，并可能导致 灾难性遗忘。

3.1.3. 可验证奖励强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR)

概念定义： 可验证奖励强化学习 (RLVR) 是一种利用强化学习原则来微调 LVLMs 的方法。与传统强化学习不同，RLVR 不依赖于人工标注的偏好数据或单独训练的奖励模型，而是通过预定义的、可客观验证的奖励函数来评估模型生成的输出。 机制： RLVR 方法通常是 on-policy 的，即模型（策略 $\pi_{\theta}$ ）首先生成一组推演 (rollouts)（即输出样本），然后这些推演根据其质量（通常结合了输出格式和准确性）通过一个 可验证奖励函数 获得奖励。模型根据这些内部反馈信号进行优化，以最大化奖励。 优点： 减少对昂贵人工标注数据的依赖，并通过内部反馈增强模型的推理能力，缓解 灾难性遗忘。 缺点： 当任务超出模型初始的内部知识库时，模型生成高质量推演的能力受限，导致性能下降。

3.1.4. 灾难性遗忘 (Catastrophic Forgetting)

概念定义： 灾难性遗忘 (Catastrophic Forgetting) 是指神经网络模型在学习新任务时，显著且突然地遗忘之前学到的知识和技能的现象。这在 SFT 中尤为常见，因为新任务的训练数据可能会使模型偏离其在预训练阶段建立的广阔知识。

3.1.5. on-policy 强化学习 (on-policy Reinforcement Learning)

概念定义： 在 on-policy 强化学习中，用于生成样本数据（如 推演 (rollouts)）的策略（行为策略）与正在被优化和评估的策略（目标策略）是同一个策略。这意味着模型在学习过程中，会根据其当前的表现来探索环境并收集经验，然后直接使用这些经验来改进自身。论文中提到的 Group Relative Policy Optimization (GRPO) 和 Dynamic Sampling Policy Optimization (DAPO) 都是 on-policy 方法。

3.1.6. Group Relative Policy Optimization (GRPO)

概念定义： Group Relative Policy Optimization (GRPO) 是一种 on-policy RLVR 算法，它通过对一组推演 (rollouts) 进行相对优势估计来优化策略。模型生成一组输出，并计算每个输出相对于该组其他输出的奖励（或优势），然后根据这些相对优势来更新策略，以鼓励生成更好的输出。

3.2. 前人工作

3.2.1. 监督微调 (SFT) 的发展

LLaVA 系列 [1, 17, 18]：开创性的工作，通过指令微调 (instruction tuning) 将 LVLMs 适应到多模态任务。
QwenVL 系列 [1, 38]：在 SFT 范式下，探索了高效且强大的视觉-语言模型。
MGM 系列 [14, 36, 44] 和 InternVL [3]：进一步推动了 SFT 在 LVLMs 中的应用，使其适应多样化的下游任务，例如图像质量评估 [41]、视觉计数 [5] 和自动驾驶 [40]。

3.2.2. 强化学习 (RL) 在 LVLMs 中的应用

Direct Preference Optimization (DPO) [30]：依赖于预收集的人类偏好数据集，其生产成本较高。
Proximal Policy Optimization (PPO) [32]：需要一个训练有素的奖励模型来评估策略生成的响应，增加了复杂性。
RLVR 方法 [9, 19-22]：
- GRPO [34] 和 DAPO [42]：通过客观标准评估模型输出，减少了对手动标注数据和预训练奖励模型的依赖。
- SegZero [20] 和 VisualRFT [22]：展示了 RLVR 在 LVLMs 中，例如用于推理链引导分割任务的有效性。

3.3. 技术演进

最初的 LVLMs 主要依赖 SFT 来学习特定任务，但 SFT 的局限性（次优性能和 灾难性遗忘）促使研究人员转向 RL。RLVR 的出现解决了 DPO 和 PPO 对昂贵数据或奖励模型的依赖问题，通过内部反馈提高了 LVLMs 的性能和推理能力。然而，RLVR 在处理模型知识库之外的任务时会遇到困难。为了克服 SFT 和 RLVR 各自的局限性，并结合它们的优点，研究方向自然地转向了如何有效地整合这两种范式。早期的尝试包括简单地将 SFT 和 RLVR 的目标函数相加 [25, 43] 或采用两阶段的 SFT\toRLVR 管道。本文提出的 ViSurf 正是这一技术演进的最新成果，旨在通过单阶段、统一的目标函数和创新的奖励控制策略，更高效、更稳定地结合两者的优势。

3.4. 差异化分析

ViSurf 与现有方法的区别和创新点主要体现在以下几个方面：

统一的单阶段范式 (Unified Single-Stage Paradigm)：与两阶段的 SFT\toRLVR 管道不同，ViSurf 在一个阶段内同时进行监督学习和强化学习，避免了顺序训练带来的计算成本和在 SFT 阶段可能发生的 灾难性遗忘。
理论驱动的统一目标函数 (Theoretically-Driven Unified Objective)：不像一些简单地将 SFT 和 RLVR 目标函数相加的方法 [25, 43]，ViSurf 提供了对 SFT 和 RLVR 梯度进行分析，并在此基础上推导出统一的 ViSurf 目标函数，提供了更深层次的理论整合。
真实标注数据注入 (Ground-Truth Label Injection)：核心创新是将真实标注数据作为高奖励样本直接集成到 RLVR 的推演框架中，实现外部监督和内部强化的同步进行。
创新的奖励控制策略 (Novel Reward Control Strategies)：ViSurf 引入了三项独特的奖励控制策略（对齐真实标注数据与推演偏好、消除真实标注数据的思考奖励、平滑真实标注数据的奖励），这些策略专为稳定和优化 SFT 和 RLVR 的联合训练而设计，防止奖励被操控 (reward hacking) 和熵坍塌 (entropy collapse)。
自适应的学习模式切换 (Adaptive Learning Mode Switching)：通过奖励控制，ViSurf 能够根据模型生成推演的质量，在 SFT 和 RLVR 学习模式之间进行自适应切换，从而在模型表现不佳时提供强外部指导，在模型表现良好时则主要依赖内部强化。

4. 方法论

4.1. 方法原理

ViSurf 的核心思想是在一个统一的、单阶段的训练框架中，同时利用监督微调 (SFT) 的外部指导能力和可验证奖励强化学习 (RLVR) 的内部强化优势。其关键在于将真实标注数据 (ground-truth labels) 作为一种特殊的高奖励样本，直接注入到 RLVR 的推演 (rollouts) 过程中。这样，当模型生成的推演质量不高时，真实标注数据能够提供强烈的外部纠正信号；而当模型能够生成高质量的推演时，则主要依靠内部的强化信号进行细致优化。通过这种方式，ViSurf 旨在克服 SFT 易导致次优性能和 灾难性遗忘 的缺点，以及 RLVR 在超出模型知识库任务上表现不佳的局限性。为确保这种结合的稳定性与有效性，ViSurf 还引入了三项独特的奖励控制策略。

4.2. 核心方法详解

我们首先定义策略模型和数据集。设 $\pi_{\theta}$ 表示一个大型视觉-语言模型 (LVLM)，由参数 $\theta$ 参数化。常见的后训练范式（SFT 和 RLVR）都使用相同的输入数据集 $\mathcal{D}_{\mathrm{input}} = \{ (v_i, t_i) \}_{i=1}^N$ ，其中 $v_i$ 是视觉输入， $t_i$ 是文本输入， $N$ 是数据集大小。

4.2.1. 监督微调 (SFT)

SFT 通过一组真实标注数据 $\mathcal{D}_{\mathrm{label}} = \{y_i\}_{i=1}^N$ 来优化 $\pi_{\theta}$ 。其目标是最小化真实标注数据 (ground-truth labels) 的负对数似然 (negative log-likelihood)：

$\begin{array}{r} \mathcal{L}_{\mathrm{SFT}}(\theta) = - \mathbb{E}_{(v, t) \sim \mathcal{D}_{\mathrm{input}}} \left[ \log \pi_{\theta}(y \mid v, t) \right], \\ y \sim \mathcal{D}_{\mathrm{label}} ~ \end{array}$

其中 $y$ 对应于 (v, t)。SFT 的梯度可以从上式推导得到：

$\nabla_{\boldsymbol{\theta}} \mathcal{L}_{\mathrm{SFT}}(\boldsymbol{\theta}) = - \mathbb{E}_{(\boldsymbol{v}, t) \sim \mathcal{D}_{\mathrm{input}}} \left[ \nabla_{\boldsymbol{\theta}} \log \pi_{\boldsymbol{\theta}}(\boldsymbol{y} \mid \boldsymbol{v}, t) \right].$

这个梯度直接指导模型增加生成真实标注数据 $y$ 的概率。

4.2.2. 可验证奖励强化学习 (RLVR)

论文使用 on-policy Group Relative Policy Optimization (GRPO) 算法来阐述 RLVR。GRPO 使用一个可验证的奖励函数来优化策略 $\pi_{\theta}$ ，该奖励函数通常结合了输出格式和准确性的衡量标准。对于给定的输入 $(v_i, t_i) \in \mathcal{D}_{\mathrm{input}}$ ，旧策略 $\pi_{\theta_{old}}$ （来自前一个优化步骤）通过采样不同的随机种子生成一组 $G$ 个推演 (rollouts) $\{o_j\}_{j=1}^G$ 。每个推演 $o_j$ 随后由奖励函数 $r(\cdot)$ 进行评估，从而得到一组奖励 \{r(o_j)\}_{j=1}^G。

接着，计算每个推演的优势 (advantage) $\hat{A}_j$ ，其计算方式如下：

$\hat{A}_j = \frac{\mathrm{r}(o_j) - \mathrm{mean}\left( \{\mathrm{r}(o_j)\} _ { j = 1 } ^ { G } \right) } { \mathrm{std}\left( \{\mathrm{r}(o_j)\} _ { j = 1 } ^ { G } \right) },$

其中， $\mathrm{r}(o_j)$ 是推演 $o_j$ 的奖励值， $\mathrm{mean}(\cdot)$ 计算一组奖励的平均值， $\mathrm{std}(\cdot)$ 计算一组奖励的标准差。优势函数 $\hat{A}_j$ 度量了单个推演的奖励相对于同一组推演平均奖励的偏离程度，并进行了标准化。

RLVR 的目标是最小化以下方程：

$\begin{array}{r l r} { \mathcal L _ { \mathrm { R L V R } } ( \theta ) = - \mathbb { E } _ { \mathrm { \Lambda } ( v , t ) \sim \mathcal { D } _ { \mathrm { i n p u t } } } } & { } & { \Bigg [ \frac { 1 } { G } \sum _ { j = 1 } ^ { G } \operatorname* { m i n } \{ \frac { \pi _ { \theta } ( o _ { j } \mid v , t ) } { \pi _ { \theta _ { \mathrm { o l d } } } ( o _ { j } \mid v , t ) } \hat { A } _ { j } , } \\ & { } & { \mathrm { c l i p } ( \frac { \pi _ { \theta } ( o _ { j } \mid v , t ) } { \pi _ { \theta _ { \mathrm { o l d } } } ( o _ { j } \mid v , t ) } , 1 - \epsilon , 1 + \epsilon ) \hat { A } _ { j } \} \Bigg ] , \quad } \\ & { } & { \mathrm { c l i p } \Bigg ( \frac { \pi _ { \theta } ( o _ { j } \mid v , t ) } { \pi _ { \theta _ { \mathrm { o l d } } } ( o _ { j } \mid v , t ) } , 1 - \epsilon , 1 + \epsilon \Bigg ) \hat { A } _ { j } \Bigg \} \Bigg ] , } \end{array}$

上式中， $\epsilon$ 是一个常数，控制裁剪边界。为了简化，论文在方程和实际实现中省略了 KL 散度 (KL divergence) 项。这个目标函数鼓励模型更新策略 $\pi_{\theta}$ ，使其在与旧策略 $\pi_{\theta_{old}}$ 不偏离过大的情况下，增加高优势推演的生成概率，同时降低低优势推演的生成概率。

RLVR 的梯度可以通过对上述方程进行近似 $\pi_{\theta} \approx \pi_{\theta_{old}}$ 并使用 对数导数技巧 (log-derivative trick) 推导出来：

$\begin{array}{r} \nabla _ { \theta } \mathcal { L } _ { \mathrm { R L V R } } ( \theta ) = - \mathbb { E } _ { \phi } \mathbf { \Lambda } _ { ( v , t ) \sim \mathcal { D } _ { \mathrm { i n p u t } } } \\ { \{ o _ { j } \} _ { j = 1 } ^ { G } \sim \pi _ { \theta _ { \mathrm { o l d } } } } \\ { \left[ \cfrac { 1 } { G } \displaystyle \sum _ { j = 1 } ^ { G } \hat { A } _ { j } \nabla _ { \theta } \log \pi _ { \theta } ( o _ { j } \mid v , t ) \right] _ { \theta \approx \theta _ { \mathrm { o l d } } } . } \end{array}$

对比 SFT 和 RLVR 的梯度，可以发现它们具有相似的形式。主要区别在于指导信号 (SFT 使用真实标注数据 $y$ 而 RLVR 使用推演 $\{o_j\}_{j=1}^G$ ) 和系数 (SFT 为 1 而 RLVR 为 $\hat{A}_j$ )。

4.2.3. ViSurf 目标函数

为了将 SFT 和 RLVR 结合到一个单阶段中，ViSurf 的关键在于将真实标注数据 $y$ 作为一个高奖励样本纳入 RLVR 框架。这意味着，在计算优势时，不仅考虑模型生成的 $G$ 个推演 $\{o_j\}_{j=1}^G$ ，还包含真实标注数据 $y$ 。因此，现在考虑的样本集合变为 $y \cup \{o_j\}_{j=1}^G$ ，相应的奖励为 $\mathrm{r}(y) \cup \{\mathrm{r}(o_j)\}_{j=1}^G$ 。

这种形式修改了推演的优势计算（原方程 (2)）如下：

$\hat { A } _ { j } = \frac { \mathrm { \bf { r } } ( o _ { j } ) - \mathrm { \bf { m e a n } } \left( { \bf { r } } ( y ) \cup \{ { \bf { r } } ( o _ { j } ) \} _ { j = 1 } ^ { G } \right) } { \mathrm { \bf { s t d } } \left( \{ { \bf { r } } ( y ) \cup \{ { \bf { r } } ( o _ { j } ) \} _ { j = 1 } ^ { G } \} \right) },$

而真实标注数据 $y$ 的优势 $\hat{A}_y$ 则计算为：

$\hat { A } _ { y } = \frac { \mathrm { r } ( y ) - \mathrm { m e a n } \left( \mathrm { r } ( y ) \cup \{ \mathrm { r } ( o _ { j } ) \} _ { j = 1 } ^ { G } \right) } { \mathrm { s t d } \left( \{ \mathrm { r } ( y ) \cup \{ \mathrm { r } ( o _ { j } ) \} _ { j = 1 } ^ { G } \} \right) }.$

ViSurf 的目标函数旨在最小化以下方程：

$\begin{array}{r l} \epsilon ( t ^ { ( i ) } ) = & - \mathbb { E } _ { \epsilon ( t ) \leq T _ { \epsilon ( t ) + 1 } } \\ & \quad \quad \xi _ { \epsilon ( t ) \leq T _ { \epsilon ( t ) + 1 } } \\ & \quad \bigg [ \frac { 1 } { G + 1 } \bigg ( \frac { 2 } { \gamma \epsilon _ { 1 + 1 } } \bigg \{ \frac { \alpha _ { 0 } } { \alpha _ { 0 } ( \epsilon _ { j } \mid \nu _ { t } ) } \bigg \{ \frac { \alpha _ { 0 } ( \epsilon _ { j } \mid \nu _ { t } ) } { \alpha _ { 0 , t + 1 } ( \epsilon _ { j } \| \nu _ { t } ) } \dot { A } _ { j _ { 1 } } , \\ & \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \bigg \| _ { \mathcal { U } _ { \epsilon ( t ) \leq T _ { \epsilon ( t ) + 1 } } } \bigg ( \frac { \gamma \epsilon _ { 1 } ( \epsilon _ { j } \mid \nu _ { t } ) } { \alpha _ { 0 } ( \epsilon _ { j } \| \nu _ { t } ) } \bigg \} , 1 - \epsilon _ { 1 } , 1 + \epsilon \bigg ) \dot { A } _ { j _ { 1 } } \bigg \} \\ & \quad \quad + \operatorname* { m i n } \bigg \{ \frac { \gamma \epsilon _ { 0 } ( \epsilon _ { j } \mid \nu _ { t } ) } { \pi _ { 0 , t + 1 } ( \epsilon _ { j } \| \nu _ { t } ) } \dot { A } _ { 1 } , \\ & \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \\ & \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \end{array}$

符号解释： 需要指出的是，该公式（方程 8）在呈现上存在显著问题。其中的符号、结构和操作符组合不符合标准数学或强化学习理论中的常见表示，且存在大量重复和不完整的项（如多行 $\quad$ 和 $\bigg \|$ ）。因此，无法对其进行逐符号的、有意义的解释。它可能是一个排版错误、OCR 错误或未完成的占位符。尽管如此，根据指令，我们必须忠实地复现论文中给出的原始公式。

以下是 ViSurf 优化的伪代码：

Algorithm 1: ViSurf Optimization Step

Input: policy model $\pi_{\theta}$ ; reward function $r(\cdot)$ ; input data $\mathcal{D}_{\mathrm{input}}$ ; label data $\mathcal{D}_{\mathrm{label}}$
for step = 1, . . . , M do
	Sample a mini-batch $\mathcal{B}_{\mathrm{input}}$ and corresponding $\mathcal{B}_{\mathrm{label}}$ ;
	Update the old policy model $\pi_{\theta_{old}} \leftarrow \pi_{\theta}$ ;
	Sample G outputs $\{o_j\}_{j=1}^G \sim \pi_{\theta_{old}}$ for each $(v, t) \in \mathcal{B}_{\mathrm{input}}$ ;
	Compute rewards `\{r(o_j)\}_{j=1}^G` for each sampled output;
	Compute rewards `r(y)` for label $y \in \mathcal{B}_{\mathrm{label}}$ ;
	Compute $\hat{A}_j$ and $\hat{A}_y$ through relative advantage estimation;
	Update the policy model $\pi_{\theta}$ using Equation (8);
Output: $\pi_{\theta}$

ViSurf 的梯度分析 (通过近似 $\pi_{\boldsymbol{\theta}} \approx \pi_{\boldsymbol{\theta}_{old}}$ 和 对数导数技巧 (log-derivative trick)，并省略裁剪操作)：

$\begin{array}{l} { \nabla_{\theta} \mathcal{L}_{\mathrm{ViSurf}}(\theta) = - \mathbb{E}_{\mathbf{\Phi}(v, t) \sim \mathcal{D}_{\mathrm{input}}} } \\ { \{ \circ_j \}_{j=1}^G \sim \pi_{\theta_0 \mathrm{dd}} } \\ { \displaystyle \left[ \frac{1}{G+1} \left( \sum_{j=1}^G \hat{A}_j \nabla_{\theta} \log \pi_{\theta}(o_j \mid v, t) \right. \right. } \\ { \displaystyle \left. \left. \qquad + \hat{A}_y \nabla_{\theta} \log \pi_{\theta}(y \mid v, t) \right) \right]_{\theta \approx \theta_{\mathrm{old}}} } . \end{array}$

符号解释：

$\nabla_{\theta} \mathcal{L}_{\mathrm{ViSurf}}(\theta)$ : ViSurf 目标函数对模型参数 $\theta$ 的梯度。
$\mathbb{E}_{\mathbf{\Phi}(v, t) \sim \mathcal{D}_{\mathrm{input}}}$ : 对来自输入数据集 $\mathcal{D}_{\mathrm{input}}$ 的视觉-文本输入对 (v, t) 的期望。 $\mathbf{\Phi}$ 符号可能是一个排版错误或未定义的变量，通常这里直接使用 (v, t)。
$\{o_j\}_{j=1}^G \sim \pi_{\theta_{\mathrm{old}}}$ : 表示从旧策略 $\pi_{\theta_{\mathrm{old}}}$ 中采样 $G$ 个推演 (rollouts) $\{o_j\}_{j=1}^G$ 。
$\frac{1}{G+1}$ : 归一化系数，因为现在考虑了 $G$ 个推演和 1 个真实标注数据，总共有 $G+1$ 个样本。
$\sum_{j=1}^G \hat{A}_j \nabla_{\theta} \log \pi_{\theta}(o_j \mid v, t)$ : 针对 $G$ 个推演的 RLVR 梯度项，其中 $\hat{A}_j$ 是每个推演的优势， $\nabla_{\theta} \log \pi_{\theta}(o_j \mid v, t)$ 是推演 $o_j$ 的对数概率梯度。
$\hat{A}_y \nabla_{\theta} \log \pi_{\theta}(y \mid v, t)$ : 针对真实标注数据 $y$ 的 SFT 梯度项，其中 $\hat{A}_y$ 是真实标注数据的优势， $\nabla_{\theta} \log \pi_{\theta}(y \mid v, t)$ 是真实标注数据 $y$ 的对数概率梯度。
$[\dots]_{\theta \approx \theta_{\mathrm{old}}}$ : 表示在梯度计算中使用了 $\pi_{\theta} \approx \pi_{\theta_{\mathrm{old}}}$ 的近似。

与 SFT 和 RLVR 的关系： 为了更好地说明梯度的结构，方程 (9) 可以改写为：

$\begin{array}{r l} & \nabla _ { \theta } \mathcal { L } _ { \mathrm { ViSu r f } } ( \theta ) = \\ & \qquad - \mathbb { E } _ { \mathbf { \phi } ( v , t ) \sim \mathcal { D } _ { \mathrm { i n p u t } } } \left[ \displaystyle \frac { 1 } { G + 1 } \sum _ { j = 1 } ^ { G } \hat { A } _ { j } \nabla _ { \theta } \log { \pi _ { \theta } ( o _ { j } \mathbf { \phi } | v , t ) } \right] _ { \theta \approx \theta _ { \mathrm { o l d } } } \\ & - \underbrace { \mathbb { E } _ { ( v , t ) \sim \mathcal { D } _ { \mathrm { iab e l } } } \left[ \frac { 1 } { G + 1 } \mathbb { \hat { A } } _ { y } \nabla _ { \theta } \log \pi _ { \theta } ( y \mid v , t ) \right] _ { \theta \approx \theta _ { \mathrm { o l d } } } } _ {\mathrm{SFT7e r m}} . \end{array}$

符号解释：

上式中的 $\mathbf{\phi}$ 符号，在 RLVR 项中作为 $\pi_{\theta}(o_j \mathbf{\phi} | v, t)$ 的一部分，在 SFT 项的期望下标中作为 $\mathcal{D}_{\mathrm{iabel}}$ 的一部分，可能也是排版错误或未定义的变量。
RLVR 项：结构上与标准 RLVR 梯度（方程 5）相同，仅在缩放系数上有所不同（ $\frac{1}{G+1}\hat{A}_j$ vs. $\frac{1}{G}\hat{A}_j$ ）。
SFT 项 (SFTTerm)：类似于 SFT 梯度（方程 4），但有两点主要区别：
1. 系数由 $\frac{1}{G+1}\hat{A}_y$ 加权，而不是 1。
2. 使用了近似 $\pi_{\boldsymbol{\theta}} \approx \pi_{\boldsymbol{\theta}_{old}}$ 。这意味着真实标注数据 $y$ 必须与模型自身的生成偏好对齐才能有效。
  
  方程 (9) 整合了 SFT 的外部指导和 RLVR 的内部指导。

4.2.4. 奖励控制策略 (Reward Control Strategies)

为了解决真实标注数据 $y$ 的优势 $\hat{A}_y$ 总是正的可能导致奖励操控 (reward hacking) 和抑制高质量推演的问题，并确保真实标注数据与模型 self-rollout 的兼容性，ViSurf 提出了三种奖励控制策略：

$Figure 4. ViSurf Framework. Upper: The integration of external guidance `_ y` with internal guidance `o _ { i }` , which is critical when self-rollouts are unsuccessful. Bottom: Three reward control strategies designed to regulate `_ y` , thereby preventing entropy collapse.$ 该图像是示意图，展示了ViSurf框架的工作流程。上半部分展示了将外部指导 $y$ 与内部指导 $o_i$ 合并的过程，特别强调在自我回放失败时这一整合的重要性。下半部则描述了三种奖励控制策略，用于调节 $y$ ，从而防止熵崩溃。图中包含模型旧策略 $\pi_{\theta_{old}}$ 和新策略 $\pi_{\theta}$ 的映射，以及相应的奖励和准确性验证步骤。

图 4. ViSurf 框架。上：外部指导 $y$ 与内部指导 $o_i$ 的整合，这在 self-rollout 不成功时至关重要。下：设计用于调节 $y$ 的三种奖励控制策略，从而防止熵坍塌 (entropy collapse)。

将真实标注数据与推演偏好对齐 (Aligning Ground-truth Labels with Rollouts Preference)：
- 问题： 确保真实标注数据与模型 self-rollout 之间兼容性，以满足近似 $\pi_{\boldsymbol{\theta}} \approx \pi_{\boldsymbol{\theta}_{old}}$ 的前提。例如，JSON 格式中的空格差异可能导致不同的 词元化 (tokenization)。
- 策略： 将真实标注数据进行格式重整，以匹配模型偏好的输出风格。例如，调整 JSON 结构中的空白字符，如将 {"bbox": [x1, y1, x2, y2]} 改为 {"bbox": [x1, y1, x2, y2]} (在标点符号后添加空格)。这可以最大程度地减少 $\pi_{\theta}$ 和 $\pi_{\theta_{old}}$ 之间的分布偏移。
消除真实标注数据的思考奖励 (Eliminating Thinking Reward for Ground-truth Labels)：
- 问题： 真实标注数据通常缺乏推理过程的标注，如果对其应用“思考奖励”，可能会误导模型。
- 策略： 将真实标注数据的推理格式分数设为零。这确保模型直接从其 self-rollout 中学习推理轨迹，而不会受到缺失的外部推理标注的偏向影响。
平滑真实标注数据的奖励 (Smoothing the Reward for Ground-truth Labels)：
- 问题： 如果模型已经通过 self-rollout 生成了高质量的输出，真实标注数据仍然获得高奖励会不必要地抑制 self-rollout 的相对优势，甚至可能导致 奖励操控。
- 策略： 在优势估计之前，比较生成推演中的最大奖励 $\max(\{\mathbf{r}(o_j)\}_{j=1}^G)$ 与真实标注数据奖励 $\mathbf{r}(y)$ 。如果 $\max(\{\mathbf{r}(o_j)\}_{j=1}^G) \geq \mathbf{r}(y)$ ，则表明策略模型 $\pi_{\theta}$ 已经无需外部指导即可生成高质量输出。在这种情况下，将 $\mathbf{r}(\overset{\cdot}{y}) = \mathrm{mean}(\{\mathbf{r}(o_j)\}_{j=1}^G)$ 。这种平滑操作使得真实标注数据的优势 $\hat{A}_y$ 变为零（根据方程 7），当外部监督不必要时，将其消除。

4.2.5. 训练过程中的优化分析

基于上述奖励控制策略，ViSurf 在训练过程中展现出动态的、自适应的平衡机制。优势 $\hat{A}_j$ (针对推演) 和 $\hat{A}_y$ (针对真实标注数据) 共同决定了 RLVR 项和 SFT 项之间的平衡：

模型表现不佳时： 当策略未能生成高质量的推演时， $\hat{A}_j$ 会下降（可能变为负值），而 $\hat{A}_y$ 保持较高。此时，SFT 项在策略更新中占据主导地位，通过真实标注数据提供强大的外部指导。
模型表现良好时： 当策略成功生成理想推演时，奖励控制机制将 $\hat{A}_y \approx 0$ 。此时，优化将完全由 RLVR 项主导。

这种学习模式之间的自动切换是单阶段 ViSurf 范式的核心特征。

上限分析 (Upper Bound Analysis)： ViSurf 在旧策略模型 $\pi_{\theta_{old}}$ 无法生成正确推演时特别有用。当旧策略模型 $\pi_{\theta_{old}}$ 已经实现了理想的推演时，方程 (10) 中的 SFT 项接近于零，此时 ViSurf 的性能上限与 RLVR 相同。然而，当策略模型无法生成理想推演时，ViSurf 的性能上限优于单独使用 SFT 或 RLVR。

5. 实验设置

5.1. 数据集

论文在多个领域和基准上验证了 ViSurf 的有效性：

非目标分割 (Non-Object Segmentation)
- 数据集： gRefCOCO [16]。该数据集包含不包含对应对象的查询。
- 特点： 训练数据基于 VisionReasoner [21] 的 Multi-objects-7K，并额外增加了 200 个非对象数据。这些负样本通过提供在图像内容中无答案的问题，并训练模型输出空列表 ( $<answer>[]</answer>$ ) 来生成。
- 示例： 如图 1(a) 所示，“用于烧水的器具”在图像中可能没有对应的物体。
- 评估指标： gIoU (Generalized Intersection over Union) 和 N-Acc (Non-Object Accuracy)。
推理分割 (Reasoning Segmentation)
- 数据集： ReasonSeg [12]。包含需要推理才能进行正确分割的测试样本。
- 特点： 200 张验证图像和 779 张测试图像。训练数据使用 VisionReasoner [21] 提出的 Multi-objects-7K。
- 示例： 如图 1(a) 所示，“可以切东西的物品”，可能需要模型推理刀具的用途。
- 评估指标： gIoU。
GUI 接地 (GUI Grounding)
- 数据集： OmniACT [11]。一个用于桌面和 Web 的 GUI 接地 任务。
- 特点： 训练集包含 6,101 个样本，并在测试集上进行验证。
- 示例： 如图 1(a) 所示，在一个网页或桌面界面中，根据文本指令定位特定的 UI 元素。
- 评估指标： Accuracy (准确率)，计算预测点是否正确位于兴趣区域内。
异常检测 (Anomaly Detection)
- 数据集： RealIAD [35]。包含真实世界、多视角工业异常。
- 特点： 3,292 个训练样本和 2,736 个测试样本，确保训练集和测试集不重叠。
- 示例： 如图 1(a) 所示，识别工业产品（如玩具汉堡）上不应存在的缺陷（如孔洞）。
- 评估指标： ROC_AUC (Receiver Operating Characteristic Area Under the Curve)。
医学图像：皮肤 (Medical Image: Skin)
- 数据集： ISIC2018 [4, 10] 的任务一，即皮肤病变分割。
- 特点： 2,594 个训练样本和 1,000 个测试样本。
- 示例： 如图 1(a) 所示，在皮肤图像中识别病变区域。
- 评估指标： bbox_acc (Bounding Box Accuracy)，计算预测边界框与真实标注数据 IoU (Intersection over Union) 超过 0.5 的比例。
数学推理 (Math Reasoning)
- 数据集： MathVista-testmini [24]。包含 1,000 个多样化的数学和视觉任务。
- 特点： 收集了约 10k 训练数据，来源于 WeMath [29]、MathVision [37]、Polymath [8]、SceMQA [15]、Geometry3K [23] 等。
- 示例： 如图 1(a) 所示，根据视觉信息和文本问题解决数学问题。
- 评估指标： Accuracy。
VQA (Visual Question Answering) 任务
- 数据集： ChartQA [26] 和 DocVQA [27]。
- 特点： 用于评估 灾难性遗忘 现象。
- 评估指标： Accuracy。

5.2. 评估指标

论文中使用的评估指标及其解释如下：

5.2.1. IoU (Intersection over Union) / gIoU (Generalized Intersection over Union)

概念定义： IoU 是在对象检测、分割等任务中衡量预测结果与真实标注数据重叠程度的常用指标。它计算预测边界框或分割掩码与真实标注数据边界框或分割掩码的交集面积除以它们的并集面积。gIoU 是 IoU 的一个改进版本，它不仅考虑了交集与并集，还考虑了预测框与真实框的最小外接矩形，使其在预测框与真实框不重叠时也能提供有效的距离度量，从而更好地评估预测框的定位性能。
数学公式： IoU 的公式为： $\mathrm{IoU}(A, B) = \frac{|A \cap B|}{|A \cup B|}$ gIoU 的公式为： $\mathrm{gIoU}(A, B) = \mathrm{IoU}(A, B) - \frac{|C \setminus (A \cup B)|}{|C|}$
符号解释：
- $A$ : 预测边界框或分割掩码的区域。
- $B$ : 真实标注数据边界框或分割掩码的区域。
- $|A \cap B|$ : 区域 $A$ 和 $B$ 的交集面积。
- $|A \cup B|$ : 区域 $A$ 和 $B$ 的并集面积。
- $C$ : 包含 $A$ 和 $B$ 的最小外接矩形区域。
- $|C \setminus (A \cup B)|$ : 区域 $C$ 中不属于 $A$ 或 $B$ 的面积。
- $|C|$ : 区域 $C$ 的面积。

5.2.2. N-Acc (Non-Object Accuracy)

概念定义： N-Acc 是专门用于评估模型在“非对象”情境下识别能力的一个准确率指标。在非对象分割任务中，如果指令描述的物体在图像中不存在，模型应该输出“无对象”的判断。N-Acc 衡量模型正确识别图像中不存在目标对象的准确性。
数学公式： 论文未给出具体公式，通常定义为： $\mathrm{N-Acc} = \frac{\text{正确识别为无对象的样本数}}{\text{所有实际无对象的样本数}}$
符号解释：
- 正确识别为无对象的样本数：模型在实际没有对应对象的样本中，成功判断为没有对象的数量。
- 所有实际无对象的样本数：测试集中所有实际没有对应对象的样本总数。

5.2.3. Accuracy (准确率)

概念定义： Accuracy 是分类任务中最常见的评估指标之一，衡量模型正确预测的样本比例。
数学公式： $\mathrm{Accuracy} = \frac{\text{True Positives} + \text{True Negatives}}{\text{True Positives} + \text{True Negatives} + \text{False Positives} + \text{False Negatives}}$
符号解释：
- True Positives (TP): 真实为正且预测为正的样本数。
- True Negatives (TN): 真实为负且预测为负的样本数。
- False Positives (FP): 真实为负但预测为正的样本数（I类错误）。
- False Negatives (FN): 真实为正但预测为负的样本数（II类错误）。

5.2.4. ROC_AUC (Receiver Operating Characteristic Area Under the Curve)

概念定义： ROC_AUC 是在二分类任务中评估模型性能的指标，尤其适用于类别不平衡的数据集。ROC 曲线 是以 假正率 (False Positive Rate, FPR) 为横轴，真正率 (True Positive Rate, TPR) 为纵轴绘制的曲线。AUC 则是这条 ROC 曲线 下方的面积。AUC 值越大，模型区分正负样本的能力越好。
数学公式： TPR (召回率/灵敏度) 和 FPR 定义为： $\mathrm{TPR} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}}$ $\mathrm{FPR} = \frac{\text{False Positives}}{\text{False Positives} + \text{True Negatives}}$ AUC 是 ROC 曲线 下方的面积，其计算通常通过梯形法则对曲线下的多个点进行积分近似。
符号解释：
- True Positives (TP): 真实为正且预测为正的样本数。
- False Negatives (FN): 真实为正但预测为负的样本数。
- False Positives (FP): 真实为负但预测为正的样本数。
- True Negatives (TN): 真实为负且预测为负的样本数。

5.2.5. bbox_acc (Bounding Box Accuracy)

概念定义： bbox_acc 是在检测或分割任务中，评估模型预测的边界框与真实标注数据边界框重叠质量的一个指标。它计算的是预测边界框与真实标注数据边界框的 IoU 超过某个阈值（例如 0.5）的比例。
数学公式： 论文未给出具体公式，通常定义为： $\mathrm{bbox\_acc} = \frac{\text{IoU}(\text{pred\_bbox}, \text{gt\_bbox}) > \text{threshold 的样本数}}{\text{总样本数}}$
符号解释：
- $\text{pred\_bbox}$ : 模型预测的边界框。
- $\text{gt\_bbox}$ : 真实标注数据边界框。
- $\mathrm{IoU}(\text{pred\_bbox}, \text{gt\_bbox})$ : 预测边界框与真实标注数据边界框之间的 IoU 值。
- $\text{threshold}$ : 设定的 IoU 阈值，本文中使用的是 0.5。
- IoU(pred_bbox, gt_bbox) > threshold 的样本数：IoU 值高于阈值的预测边界框数量。
- 总样本数：所有待评估的样本总数。

5.3. 对比基线

论文将 ViSurf 的性能与以下几种主要的后训练范式进行了比较：

Baseline (基线模型)：通常指未经过 SFT 或 RLVR 额外微调的原始 LVLM 模型。例如，文中提到 Qwen2.5VL-7B + SAM2 作为 Baseline。
SFT (监督微调)：单独使用 监督微调 的模型。
RLVR (可验证奖励强化学习)：单独使用 可验证奖励强化学习 的模型，通常指基于 GRPO 或 DAPO 的实现。
SFT $\to$ RLVR (两阶段 SFT 接 RLVR)：首先进行 监督微调，然后在此基础上进行 可验证奖励强化学习 的模型。这代表了结合两种范式的一种常见尝试。

此外，在 状态-艺术 (State-of-The-Arts, SoTA) 对比中，ViSurf 还与以下模型进行了比较：
LISA [12]
GSVA [39]
SAM4MLLM [2]
SegZero [20]
VisionReasoner [21]

这些基线和 SoTA 模型涵盖了 LVLMs 后训练的不同策略，包括纯 SFT、纯 RLVR、以及 SFT 和 RLVR 的组合，从而全面评估 ViSurf 的有效性。

5.4. 实现细节

基础模型 (Base Model)：ViSurf 算法基于 Qwen2.5VL-7B [1] 进行实例化。如果任务需要，会结合 SAM2 [31]。
学习率 (Learning Rate)：所有方法都采用恒定的学习率 1e-6。
批大小 (Batch Size)：SFT 使用 32 的批大小，而 RLVR 和 ViSurf 使用 16 的批大小。
训练步数 (Training Steps)：为了公平比较，所有方法都采用相同的训练步数。
奖励函数 (Reward Function)：
- 对于 MathVista 任务，奖励函数由格式奖励和准确性奖励组成。
- 对于其他任务，奖励函数采用 VisionReasoner [21] 中的奖励，这些奖励包括格式准确性、点准确性 (point accuracy) 和边界框准确性 (bounding box accuracy) 奖励等。
实现框架 (Implementation Framework)：
- SFT 使用 DeepSpeed [28] 和 TRL [6]。
- RLVR 和 ViSurf 使用 VeRL [33]。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 不同训练范式下的性能比较

以下是原文 Table 1 的结果：

Method	Non-Object gRefCoCo		Segmentation ReasonSeg		GUI OmniACT Acc	Anomaly RealIAD ROC_AUC	Medical:Skin ISIC2018 Bbox_Acc	Math MathVista test-mini Acc	Avg
Method	gIoU	val N-Acc	val gIoU	test gIoU	GUI OmniACT Acc	Anomaly RealIAD ROC_AUC	Medical:Skin ISIC2018 Bbox_Acc	Math MathVista test-mini Acc	Avg
Baseline	-	1.8	-	-	60.4	50.1	78.8	68.2	56.2
SFT	33.4	41.6	56.9	52.1	55.4	65.5	91.7	68.3	56.2
RLVR	42.8	0.0	63.8	60.3	65.5	50.0	90.3	71.2	56.1
SFT → RLVR	65.0	52.1	57.2	55.2	64.5	66.9	93.6	68.5	65.4
ViSurf	66.6	57.1	66.5	65.0	65.6	69.3	94.7	71.6	69.6

ViSurf 的显著优势： ViSurf 在所有基准测试中持续优于现有后训练范式（SFT、RLVR、SFT $\to$ RLVR）。其平均相对基线模型提高了 38.6%。
在低基线任务中的表现： ViSurf 的优势在基线模型能力较低的领域（如 Non-Object 非目标分割和 Anomaly 异常检测）尤为显著，这表明该方法在处理超出模型知识库的任务方面非常有效。
在强基线任务中的表现： 在基线模型已经非常熟练的领域，ViSurf 的增益相对较小，例如在 MathVista 和 ISIC2018 等任务中。
SFT 的性能退化： SFT 在 OmniACT 任务中导致性能下降，这可能归因于基线模型预训练阶段存在的“测试数据污染”。相比之下，RLVR 和 ViSurf 能够保持基线模型的性能。
纯 RLVR 的局限性： 在 RealIAD 和 gRefCOCO 的非目标检测任务中，纯 RLVR 方法表现甚至低于原始模型。这表明当 self-rollout 频繁产生错误答案时，纯 RLVR 优化会受阻，突显了外部监督的重要性。

6.1.2. 灾难性遗忘 (Catastrophic Forgetting)

以下是原文 Table 2 的结果：

Method	ChartQA	DocVQA_val
Baseline	83.8	94.9
SFT	80.8	89.6
RLVR	86.7	95.0
SFT → RLVR	85.0	92.9
ViSurf	87.4	95.0

VQA 性能变动： VQA 任务（ChartQA 和 DocVQA）的性能在不同训练范式下表现出显著差异。
ViSurf 和 RLVR 的鲁棒性： RLVR 和 ViSurf 均展现出对抗 灾难性遗忘 的鲁棒性，性能保持稳定或有所提升。
SFT 和 SFT $\to$ RLVR 的性能下降： 相比之下，SFT 和 SFT\toRLVR 遭遇了性能下降，这直接归因于 灾难性遗忘。

6.1.3. ViSurf 在其他模型上的应用

以下是原文 Table 3 的结果：

Method	RealIAD subset	ISIC2018 test
Method	ROC_AUC	Bbox_Acc
Baseline	60.0	51.8
SFT	56.7	94.2
RLVR	57.1	90.5
SFT → RLVR	67.5	94.6
ViSurf	76.0	95.4

Qwen2VL-7B 的验证： 将 ViSurf 应用于 Qwen2VL-7B [38] 模型。
持续优越性： 结果显示，ViSurf 在 RealIAD 和 ISIC2018 数据集上持续优于其他对比方法。
纯 RLVR 的弱点： 纯 RLVR 方法在这两个数据集上表现最差，甚至在 RealIAD 上低于基线模型，这再次强调了外部监督的关键作用。

6.2. 消融实验/参数分析

以下是原文 Table 4 的结果：

Align	Eliminate	Smooth	gRefCoCo val		ReasonSeg val gIoU	MathVista test-mini Acc
Align	Eliminate	Smooth	gIoU	N-Acc	ReasonSeg val gIoU	MathVista test-mini Acc
			59.0	40.2	63.6	-
✓	×	×	72.9	74.1	58.2	67.1
✓	✓	×	61.0	45.7	62.7	66.8
✓	✓	✓	66.6	57.1	66.5	71.6

'Align'（对齐真实标注数据与推演偏好）：
- 结果： 这一策略的消融导致在多个数据集上性能持续下降，特别是在 gRefCoCo 上，gIoU 从 66.6 降至 59.0，N-Acc 从 57.1 降至 40.2。
- 分析： 这强调了该策略的关键重要性，并为方程 (10) 中 $\pi_{\boldsymbol{\theta}} \approx \pi_{\boldsymbol{\theta}_{old}}$ 理论要求提供了强有力的实证验证。确保真实标注数据与模型生成的 rollout 之间的一致性对于训练稳定性至关重要。
'Eliminate'（消除真实标注数据的思考奖励）：
- 结果： 在 ReasonSeg 和 MathVista 等需要复杂推理的任务中，该策略（即不给真实标注数据推理奖励）对性能至关重要。移除它会导致 ReasonSeg 的 gIoU 从 66.5 降至 62.7，MathVista 的 Acc 从 71.6 降至 66.8。
- 分析： 这表明推理策略对于需要复杂推理的任务至关重要，因为它鼓励模型在给出最终答案之前生成推理过程。然而，对于 gRefCOCO 等查询通常仅限于简单类别或基本引用的任务，省略推理步骤反而能带来更好的性能（gIoU 72.9，N-Acc 74.1）。这暗示了显式推理的必要性取决于底层任务的复杂性。
'Smooth'（平滑真实标注数据的奖励）：
- 结果： 在所有数据集上，移除奖励平滑策略后性能均出现下降。例如，gRefCoCo 的 gIoU 从 66.6 降至 61.0。
- 分析： 这凸显了平滑策略的必要性。结果同时表明，当模型的 self-rollout 已经达到更高质量的解决方案时，方程 (10) 中的 SFT 项变得多余。平滑机制有效防止了不必要的外部监督干扰模型自主学习高质量 rollout。

6.3. 深入分析 (In-depth Analysis)

6.3.1. 训练过程中的熵分析 (Entropy Analysis During Training)

$Figure 5. Entropy Analysis of RLVR, $\\mathrm { S F T } \\mathrm { R L V R }$ and ViSurf. ViSurf exhibits an initial drop, then converges slowly.$ 该图像是图表，展示了 RLVR、SFT->RLVR 和 ViSurf 的熵分析。ViSurf 具有初始下降趋势，然后缓慢收敛，反映了不同训练方法在熵变化上的表现。

图 5. RLVR、SFT $\to$ RLVR 和 ViSurf 的熵分析。ViSurf 表现出初始下降，然后缓慢收敛。

熵与探索： 较高的熵值表示模型具有更大的探索行为，而较低的熵值则表明模型趋于确定性。
ViSurf 的熵变化： ViSurf 在训练初期表现出熵值下降，这表明模型正在拟合外部指导。随后，ViSurf 的收敛速度慢于其他方法，从而有效地避免了 熵坍塌 (entropy collapse)，维持了一定的探索能力。

6.3.2. 训练稳定性 (Training Stability)

$Figure 6. Performance on $\\mathrm { g R e f C O C O }$ in different training steps. ViSurf demonstrates greater stability as training proceeds.$ 该图像是图表，展示了不同训练步骤下各方法在 ext{gloU} 性能上的表现。可以看出，ViSurf 方法在训练过程中展示了更大的稳定性，尤其在 200 和 300 步时的绩效明显优于 RLVR 和 SFT→RLVR 方法。

图 6. 在不同训练步骤下 gRefCOCO 上的性能。ViSurf 在训练进行时展现出更大的稳定性。

ViSurf 的稳定性： 模型在 ViSurf 训练下展现出比纯 RLVR 和 SFT\toRLVR 更高的稳定性。其他方法的性能随着训练时间的延长而下降，而 ViSurf 保持了更好的性能。
外部指导的作用： 这一观察证实了 ViSurf 的有效性，表明引入的外部指导充当了约束，稳定了训练过程，避免了性能的退化。

6.3.3. 边界分析 (Boundary Analysis)

性能增益与基线： 正如 Table 1 所示，ViSurf 的性能增益与基线模型的初始性能相关。
基线表现不佳： 当基线模型表现不佳（例如低于 50%），表明其不足以完成任务时，ViSurf 能够带来显著的性能提升。
基线表现良好： 相反，当基线模型已经达到高水平性能（例如高于 50%），这意味着有一个强大的起点时，ViSurf 的性能上限与单独的 RLVR 相一致。
理论验证： 这一观察结果与第 3.5 节的理论分析相符，即当模型能够生成理想的 rollout 时，SFT 项的作用会减弱。

6.3.4. 减轻提示设计负担 (Reduce the Burden of Prompt Design)

以下是原文 Table 5 的结果：

Detailed Prompt		ReasonSeg
Detailed Prompt		val (gIoU)	test (gIoU)
RLVR	✗	0.0	0.0
RLVR	✓	66.0	63.2
ViSurf	✗	62.3	57.8
ViSurf	✓	66.4	65.0

RLVR 对提示的依赖： RLVR 范式高度依赖明确的指令来引导模型生成特定格式的 rollout。例如，输出格式如 $'point_2d': [2, 3]$ 。如果没有详细的格式化指令，RLVR 在 ReasonSeg 任务中完全失败（gIoU 为 0.0）。
ViSurf 的优势： 相比之下，ViSurf 结合了具有期望格式的外部指导，从而减少了对手动 提示工程 (prompt engineering) 的依赖。即使没有详细的格式化提示，ViSurf 也能取得令人满意的结果（gIoU val 62.3，test 57.8），并且在有详细提示时，性能进一步提升。这证明了 ViSurf 在两种设置下均能实现一致的性能提升。

6.3.5. 训练成本 (Training Cost)

以下是原文 Table 6 的结果：

Method	Mem / GPU (G) ↓	Time / Step (s) ↓
SFT	97.7	9.0
RLVR	81.8	22.7
SFT →RLVR	97.9	31.7
ViSurf	81.8	22.9

内存效率： RLVR 和 ViSurf 相比 SFT 和 SFT\toRLVR 具有更高的内存效率，GPU 内存占用更低（例如，81.8 GB vs. 97.7 GB）。
计算成本： RLVR 和 ViSurf 在每个训练步骤中需要更高的计算成本（每个步骤的时间更长，例如 22.7 秒和 22.9 秒 vs. 9.0 秒）。这主要是由于生成 rollout 引入的额外开销。
两阶段方法的成本： SFT\toRLVR 的时间成本是 SFT 和 RLVR 两者之和，是最高的。

6.4. 与最先进技术 (SoTA) 的比较

以下是原文 Table 7 的结果：

Method	gRefCoco val		ReasonSeg val
Method	gIoU	N-Acc	gIoU	test gIoU
LISA-7B	61.6	54.7	53.6	48.7
GSVA-7B	66.5	62.4	-	-
SAM4MLLM-7B	69.0	63.0	46.7	-
Qwen2.5VL-7B + SAM2	41.6	3.3	56.9	52.1
SegZero-7B	-	-	62.6	57.5
VisionReasoner-7B	41.5	0.0	66.3	63.6
ViSurf (Qwen2.5VL-7B + SAM2)	72.9	74.1	66.4	65.0

在 gRefCOCO 上的表现： ViSurf 在 gRefCOCO 验证集上取得了 gIoU 72.9 和 N-Acc 74.1 的最高性能，超越了所有 SoTA 模型，包括 SAM4MLLM-7B 的 69.0 gIoU 和 63.0 N-Acc。
在 ReasonSeg 上的表现： ViSurf 在 ReasonSeg 验证集上取得了 gIoU 66.4，在测试集上取得了 gIoU 65.0。这与 VisionReasoner-7B 的 66.3 gIoU 和 63.6 gIoU 相当或略优，并显著领先于其他 SoTA 方法。
结论： ViSurf 在 gRefCOCO 和 ReasonSeg 这两个视觉感知任务上均达到了 状态-艺术 (SoTA) 的性能水平，证明了其在复杂 LVLM 任务中的强大能力。

6.5. 定性结果 (Qualitative Results)

Figure 7. Visualization of ViSurf on various tasks. 该图像是一个示意图，展示了不同类型任务的视觉推理示例，包括非目标、异常、GUI引导、医学及数学推理等。每个示例都包含思考过程及相应对象的描述，如图中表明的玩具汉堡在顶面存在一个异常的洞。

图 7. ViSurf 在各种任务上的可视化。

图 7 展示了 ViSurf 在各种任务上的可视化结果，包括：

非目标 (Non-Object)：成功识别图像中不存在指令描述的物体。例如，对于“用于烧水的器具”的指令，模型正确识别并输出“thinking: 图像中没有任何用于烧水的器具”。
异常 (Anomaly)：在物体中检测到异常。例如，识别“玩具汉堡顶部的一个洞”。
GUI 引导 (GUI Grounding)：根据指令在用户界面上定位元素。例如，“点击包含文本“确认付款”的按钮”。
医学 (Medical)：在医学图像中识别病变区域。例如，识别“皮肤损伤”。
数学 (Math)：解决涉及视觉信息的数学问题。例如，根据图表解决百分比问题。这些定性结果表明，ViSurf 能够成功地定位正常物体、识别异常、检测非对象情况，并解决数学问题，进一步验证了其在多样化视觉-语言任务中的有效性和鲁棒性。

7. 总结与思考

7.1. 结论总结

本文提出了 ViSurf (Visual Supervised-and-Reinforcement Fine-Tuning)，一种统一的单阶段后训练范式，旨在整合监督微调 (SFT) 和可验证奖励强化学习 (RLVR) 的优点。通过对 SFT 和 RLVR 目标函数及其梯度的理论分析，ViSurf 建立了一个统一的目标函数，将真实标注数据 (ground-truth labels) 注入到 RLVR 的推演 (rollouts) 过程中，从而同时提供外部监督和内部强化。为了稳定和优化训练过程，ViSurf 还引入了三项新颖的奖励控制策略。在多个多样化的基准测试中，ViSurf 的实验结果显示其性能显著优于单独的 SFT、RLVR 以及两阶段的 SFT\toRLVR 方法。深入的分析进一步证实了 ViSurf 的理论推导和设计原则，并展示了其在缓解 灾难性遗忘、提高训练稳定性以及降低 提示设计负担 方面的优势。ViSurf 达到了 状态-艺术 (SoTA) 的性能，为大型视觉-语言模型的后训练提供了一个高效且鲁棒的解决方案。

7.2. 局限性与未来工作

7.2.1. 局限性

真实标注数据内容限制： 论文中使用的真实标注数据主要限于最终答案。这意味着模型在学习推理过程中的中间步骤时，仍然高度依赖于 self-rollout 的质量。
计算成本： 尽管 ViSurf 在内存效率上表现良好，但与纯 SFT 相比，由于生成 rollout 的开销，其每步训练时间仍然较高。
目标函数的可解释性： 论文中给出的 ViSurf 目标函数（方程 8）在数学表示上存在明显问题，这使得其理论基础的直观理解和严谨性受到影响。

7.2.2. 未来工作

整合显式推理轨迹： ViSurf 范式具有固有的灵活性，可以纳入显式的推理轨迹。未来的工作可以探索如何将带有推理步骤的真实标注数据整合进来，从而更直接地指导模型学习复杂的推理链。
兼容先进技术： 该工作为未来 LVLMs 的后训练研究奠定了基础，可以与 知识蒸馏 (knowledge distillation) 等先进技术兼容，例如，利用大型模型生成的推理轨迹进行蒸馏。
奖励控制策略的通用性： 进一步研究奖励控制策略在更广泛的 LVLM 任务和领域中的通用性和适应性，探索是否需要更动态或自适应的控制机制。
优化计算效率： 针对 RLVR 和 ViSurf 较高的每步计算成本，未来的研究可以探索更高效的 rollout 生成策略或优化 RL 训练框架，以降低训练时间。

7.3. 个人启发与批判

7.3.1. 个人启发

融合范式的重要性： 论文深刻揭示了 SFT 和 RLVR 各自的优缺点。SFT 提供强监督，但可能导致过拟合和遗忘；RLVR 促进探索和推理，但在知识盲区表现不佳。ViSurf 的核心思想——通过真实标注数据注入将二者在一个阶段内统一，是一个非常直观且强大的思路。这启发我们，在复杂模型训练中，单一范式往往有其局限性，融合不同范式的优势是通向更鲁棒、更通用模型的关键。
奖励控制的艺术： 论文提出的三项奖励控制策略（对齐、消除思考奖励、平滑）看似细节，实则精妙。它们是确保 SFT 和 RLVR 协同工作的“润滑剂”，避免了两者直接结合可能带来的冲突和不稳定性。特别是“平滑奖励”机制，巧妙地实现了学习模式的自适应切换，即在模型弱时学习外部指导，模型强时则放手让其自主强化。这对于理解如何动态平衡不同学习信号具有普遍指导意义。
解决“知其然不知其所以然”： SFT 擅长让模型“知其然”，即给出正确答案；RLVR 则通过奖励信号引导模型“知其所以然”，即学习推理过程。ViSurf 的结合使得模型既能快速收敛到正确答案，又能学习到产生答案的合理推理路径，这对于 LVLM 的可解释性和泛化能力至关重要。
工程与理论的结合： 从 SFT 和 RLVR 的梯度分析出发，推导 ViSurf 的目标函数，再辅以实用的奖励控制策略，展现了理论分析指导工程实现的良好范式。

7.3.2. 批判

核心目标函数的清晰度问题： 论文中给出的 ViSurf 核心目标函数（方程 8）的数学表示是一个严重的缺陷。它显然是错误的、不完整的或经过 OCR 损坏的，以至于无法理解其具体含义和推导逻辑。这极大地削弱了论文在“理论推导和统一视角”这一核心贡献上的说服力。一个创新性工作的核心公式出现如此大的问题，无论是在可复现性还是学术严谨性上，都是不可接受的。
近似条件及影响： 论文多次提及近似 $\pi_{\boldsymbol{\theta}} \approx \pi_{\boldsymbol{\theta}_{old}}$ 。尽管“对齐真实标注数据与推演偏好”策略旨在满足这一条件，但这种近似在实际训练中何时、何地会失效，以及其失效对模型性能和训练稳定性的影响，缺乏更深入的理论分析和实证探讨。
奖励函数的通用性： 论文在不同任务中采用了不同的奖励函数（例如，MathVista 有格式和准确性奖励，其他任务有 VisionReasoner 的奖励）。虽然这很实用，但 ViSurf 框架本身如何指导或自动学习这些奖励函数，或者其对奖励函数设计的敏感性如何，并没有深入讨论。这可能意味着在实际应用中，设计有效的奖励函数仍然是一个挑战。
计算效率的权衡： 尽管 ViSurf 提高了性能并缓解了 灾难性遗忘，但其每步训练成本高于 SFT。对于资源有限的场景，这种权衡可能需要更精细的考虑。在未来工作中，可以探索如何优化 rollout 过程，使其在保持性能的同时降低计算开销。
泛化能力和 OOD (Out-of-Distribution) 数据： 论文提到 RLVR 在超出模型内部知识库的任务上表现不佳，而 ViSurf 旨在解决此问题。虽然实验结果显示 ViSurf 在 Non-Object 和 Anomaly 任务上表现优异，但对于更广泛的 分布外 (Out-of-Distribution, OOD) 任务，ViSurf 的泛化能力和鲁棒性如何，仍需更全面的评估。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。