ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models
TL;DR 精炼摘要
本论文提出了一种新颖的后训练范式ViSurf,整合了大型视觉-语言模型的监督微调(SFT)和可验证奖励强化学习(RLVR)的优点。通过将真实标注数据注入RLVR的推演过程,ViSurf实现了外部监督与内部强化的协同,同时引入三种新奖励控制策略以优化训练效果。实验结果显示,ViSurf的性能优于单独的SFT和RLVR方法。
摘要
Typical post-training paradigms for Large Vision-and-Language Models (LVLMs) include Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR). SFT leverages external guidance to inject new knowledge, whereas RLVR utilizes internal reinforcement to enhance reasoning capabilities and overall performance. However, our analysis reveals that SFT often leads to sub-optimal performance, while RLVR struggles with tasks that exceed the model's internal knowledge base. To address these limitations, we propose ViSurf (\textbf{Vi}sual \textbf{Su}pervised-and-\textbf{R}einforcement \textbf{F}ine-Tuning), a unified post-training paradigm that integrates the strengths of both SFT and RLVR within a single stage. We analyze the derivation of the SFT and RLVR objectives to establish the ViSurf objective, providing a unified perspective on these two paradigms. The core of ViSurf involves injecting ground-truth labels into the RLVR rollouts, thereby providing simultaneous external supervision and internal reinforcement. Furthermore, we introduce three novel reward control strategies to stabilize and optimize the training process. Extensive experiments across several diverse benchmarks demonstrate the effectiveness of ViSurf, outperforming both individual SFT, RLVR, and two-stage SFT \textrightarrow RLVR. In-depth analysis corroborates these findings, validating the derivation and design principles of ViSurf.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models (ViSurf: 大型视觉-语言模型的视觉监督-强化微调)
1.2. 作者
Yuqi Liu, Liangyu Chen, Jiazhen Liu, Mingkang Zhu, Zhisheng Zhong, Bei Yu, Jiaya Jia 等
1.3. 发表期刊/会议
预印本 (arXiv)
1.4. 发表年份
2025年 (Published at: 2025-10-12T13:42:55.000Z)
1.5. 摘要
大型视觉-语言模型 (Large Vision-and-Language Models, LVLMs) 的典型后训练范式包括监督微调 (Supervised Fine-Tuning, SFT) 和可验证奖励强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR)。SFT 利用外部指导注入新知识,而 RLVR 则利用内部强化提升推理能力和整体性能。然而,论文分析发现 SFT 往往导致次优性能,而 RLVR 在超出模型内部知识库的任务上表现不佳。为了解决这些局限性,论文提出了 ViSurf (Visual Supervised-and-Reinforcement Fine-Tuning),这是一种统一的后训练范式,在一个阶段内整合了 SFT 和 RLVR 的优点。通过分析 SFT 和 RLVR 目标函数的推导,论文建立了 ViSurf 目标函数,为这两种范式提供了统一的视角。ViSurf 的核心是将真实标注数据 (ground-truth labels) 注入到 RLVR 的推演 (rollouts) 过程中,从而同时提供外部监督和内部强化。此外,论文还引入了三种新颖的奖励控制策略来稳定和优化训练过程。在多个不同基准上的广泛实验表明,ViSurf 的有效性优于单独的 SFT、RLVR 以及两阶段的 SFT RLVR 方法。深入分析证实了这些发现,验证了 ViSurf 的推导和设计原则。
1.6. 原文链接
https://arxiv.org/abs/2510.10606 PDF 链接: https://arxiv.org/pdf/2510.10606v2.pdf 发布状态: 预印本
2. 整体概括
2.1. 研究背景与动机
当前,开发在各种视觉感知任务中表现出色的大型视觉-语言模型 (LVLMs) 是视觉智能领域的一个重要方向。现有工作主要依赖两种训练范式:
-
监督微调 (Supervised Fine-Tuning, SFT):通过专家标注数据直接优化模型,提供显式外部指导,使模型能够记忆目标分布。然而,SFT 常常导致次优性能,并可能引起预训练知识的灾难性遗忘 (catastrophic forgetting)。
-
可验证奖励强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR):利用内部强化信号来缓解灾难性遗忘,并通常能获得更好的性能。然而,当任务超出模型初始知识库时,其性能会下降。
论文通过分析发现,SFT 在超出 LVLM 预训练分布的任务上更有效,而 RLVR 在与现有知识库对齐的任务上表现更优(如图 1 所示)。虽然顺序的两阶段 SFT RLVR 方法试图结合它们的优势,但这种方法会产生两阶段的计算成本,并且在初始 SFT 阶段仍然容易受到灾难性遗忘的影响。
因此,论文旨在解决这些限制,其核心动机是寻找一种方法,能够在一个统一的、单阶段的训练范式中,有效整合 SFT 的外部指导能力和 RLVR 的内部强化优势,以克服现有方法的缺陷。
2.2. 核心贡献/主要发现
论文的主要贡献和发现可总结如下:
- 提出 ViSurf 统一范式 (Unified Paradigm):基于对 SFT 和 RLVR 目标函数及其梯度分析,论文提出了 ViSurf (Visual Supervised-and-Reinforcement Fine-Tuning),一种统一的、单阶段的后训练范式,有效整合了 SFT 的外部指导和 RLVR 的内部强化优势。
- 理论推导与统一视角 (Theoretical Derivation and Unified Perspective):论文分析了 SFT 和 RLVR 目标函数的推导,并在此基础上建立了 ViSurf 目标函数,为这两种范式提供了统一的理论视角。ViSurf 的梯度可以被解释为 SFT 和 RLVR 梯度的复合。
- 核心机制:真实标注数据注入 (Ground-Truth Label Injection):ViSurf 的核心在于将真实标注数据 (ground-truth labels) 作为高奖励样本注入到 RLVR 的推演 (rollouts) 过程中,从而同时提供外部监督和内部强化。
- 引入奖励控制策略 (Reward Control Strategies):论文设计了三种新颖的奖励控制策略,以稳定和优化训练过程,包括:(i) 将真实标注数据与推演偏好对齐,(ii) 消除真实标注数据的“思考奖励”,以及 (iii) 平滑真实标注数据的奖励。消融实验验证了这些策略的必要性。
- 卓越的实验性能 (Superior Experimental Performance):在多个不同领域的基准测试中,ViSurf 的表现显著优于单独的 SFT、RLVR 以及两阶段的 SFT RLVR 方法,平均相对基线模型提升 38.6%。
- 缓解灾难性遗忘 (Mitigation of Catastrophic Forgetting):实验结果表明,ViSurf 能够有效缓解灾难性遗忘,在 VQA (Visual Question Answering) 任务上表现出稳定的性能。
- 降低提示设计负担 (Reduced Prompt Design Burden):ViSurf 通过整合外部指导,有效降低了对精细化提示工程 (prompt engineering) 的依赖。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 大型视觉-语言模型 (Large Vision-and-Language Models, LVLMs)
概念定义: 大型视觉-语言模型 (LVLMs) 是指那些能够同时理解和处理视觉信息(如图像、视频)和文本信息(如自然语言)的大规模深度学习模型。它们通常通过在海量多模态数据上进行预训练,学习到视觉和语言之间的复杂关联,从而能够执行各种跨模态任务,如图像描述生成、视觉问答、指令遵循等。
3.1.2. 监督微调 (Supervised Fine-Tuning, SFT)
概念定义: 监督微调 (SFT) 是一种在预训练模型(如 LVLMs)基础上,利用带有明确输入-输出对的专家标注数据集,对其进行进一步训练的技术。目标是让模型学习到特定任务的知识和行为模式。
机制: SFT 通过最小化模型预测与真实标注数据之间的差异(通常是负对数似然损失)来更新模型参数。这种方法提供清晰的外部指导,使模型能够记忆训练数据的分布。
优点: 简单直接,能够快速将预训练模型适应到新任务。
缺点: 容易导致模型在预训练数据分布之外的任务上表现次优,并可能导致 灾难性遗忘。
3.1.3. 可验证奖励强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR)
概念定义: 可验证奖励强化学习 (RLVR) 是一种利用强化学习原则来微调 LVLMs 的方法。与传统强化学习不同,RLVR 不依赖于人工标注的偏好数据或单独训练的奖励模型,而是通过预定义的、可客观验证的奖励函数来评估模型生成的输出。
机制: RLVR 方法通常是 on-policy 的,即模型(策略 )首先生成一组推演 (rollouts)(即输出样本),然后这些推演根据其质量(通常结合了输出格式和准确性)通过一个 可验证奖励函数 获得奖励。模型根据这些内部反馈信号进行优化,以最大化奖励。
优点: 减少对昂贵人工标注数据的依赖,并通过内部反馈增强模型的推理能力,缓解 灾难性遗忘。
缺点: 当任务超出模型初始的内部知识库时,模型生成高质量推演的能力受限,导致性能下降。
3.1.4. 灾难性遗忘 (Catastrophic Forgetting)
概念定义: 灾难性遗忘 (Catastrophic Forgetting) 是指神经网络模型在学习新任务时,显著且突然地遗忘之前学到的知识和技能的现象。这在 SFT 中尤为常见,因为新任务的训练数据可能会使模型偏离其在预训练阶段建立的广阔知识。
3.1.5. on-policy 强化学习 (on-policy Reinforcement Learning)
概念定义: 在 on-policy 强化学习中,用于生成样本数据(如 推演 (rollouts))的策略(行为策略)与正在被优化和评估的策略(目标策略)是同一个策略。这意味着模型在学习过程中,会根据其当前的表现来探索环境并收集经验,然后直接使用这些经验来改进自身。论文中提到的 Group Relative Policy Optimization (GRPO) 和 Dynamic Sampling Policy Optimization (DAPO) 都是 on-policy 方法。
3.1.6. Group Relative Policy Optimization (GRPO)
概念定义: Group Relative Policy Optimization (GRPO) 是一种 on-policy RLVR 算法,它通过对一组推演 (rollouts) 进行相对优势估计来优化策略。模型生成一组输出,并计算每个输出相对于该组其他输出的奖励(或优势),然后根据这些相对优势来更新策略,以鼓励生成更好的输出。
3.2. 前人工作
3.2.1. 监督微调 (SFT) 的发展
- LLaVA 系列 [1, 17, 18]:开创性的工作,通过指令微调 (instruction tuning) 将
LVLMs适应到多模态任务。 - QwenVL 系列 [1, 38]:在
SFT范式下,探索了高效且强大的视觉-语言模型。 - MGM 系列 [14, 36, 44] 和 InternVL [3]:进一步推动了
SFT在LVLMs中的应用,使其适应多样化的下游任务,例如图像质量评估 [41]、视觉计数 [5] 和自动驾驶 [40]。
3.2.2. 强化学习 (RL) 在 LVLMs 中的应用
- Direct Preference Optimization (DPO) [30]:依赖于预收集的人类偏好数据集,其生产成本较高。
- Proximal Policy Optimization (PPO) [32]:需要一个训练有素的奖励模型来评估策略生成的响应,增加了复杂性。
- RLVR 方法 [9, 19-22]:
- GRPO [34] 和 DAPO [42]:通过客观标准评估模型输出,减少了对手动标注数据和预训练奖励模型的依赖。
- SegZero [20] 和 VisualRFT [22]:展示了
RLVR在LVLMs中,例如用于推理链引导分割任务的有效性。
3.3. 技术演进
最初的 LVLMs 主要依赖 SFT 来学习特定任务,但 SFT 的局限性(次优性能和 灾难性遗忘)促使研究人员转向 RL。RLVR 的出现解决了 DPO 和 PPO 对昂贵数据或奖励模型的依赖问题,通过内部反馈提高了 LVLMs 的性能和推理能力。然而,RLVR 在处理模型知识库之外的任务时会遇到困难。为了克服 SFT 和 RLVR 各自的局限性,并结合它们的优点,研究方向自然地转向了如何有效地整合这两种范式。早期的尝试包括简单地将 SFT 和 RLVR 的目标函数相加 [25, 43] 或采用两阶段的 SFT\toRLVR 管道。本文提出的 ViSurf 正是这一技术演进的最新成果,旨在通过单阶段、统一的目标函数和创新的奖励控制策略,更高效、更稳定地结合两者的优势。
3.4. 差异化分析
ViSurf 与现有方法的区别和创新点主要体现在以下几个方面:
- 统一的单阶段范式 (Unified Single-Stage Paradigm):与两阶段的
SFT\toRLVR管道不同,ViSurf 在一个阶段内同时进行监督学习和强化学习,避免了顺序训练带来的计算成本和在SFT阶段可能发生的灾难性遗忘。 - 理论驱动的统一目标函数 (Theoretically-Driven Unified Objective):不像一些简单地将
SFT和RLVR目标函数相加的方法 [25, 43],ViSurf 提供了对SFT和RLVR梯度进行分析,并在此基础上推导出统一的 ViSurf 目标函数,提供了更深层次的理论整合。 - 真实标注数据注入 (Ground-Truth Label Injection):核心创新是将真实标注数据作为高奖励样本直接集成到
RLVR的推演框架中,实现外部监督和内部强化的同步进行。 - 创新的奖励控制策略 (Novel Reward Control Strategies):ViSurf 引入了三项独特的奖励控制策略(对齐真实标注数据与推演偏好、消除真实标注数据的思考奖励、平滑真实标注数据的奖励),这些策略专为稳定和优化
SFT和RLVR的联合训练而设计,防止奖励被操控 (reward hacking) 和熵坍塌 (entropy collapse)。 - 自适应的学习模式切换 (Adaptive Learning Mode Switching):通过奖励控制,ViSurf 能够根据模型生成推演的质量,在
SFT和RLVR学习模式之间进行自适应切换,从而在模型表现不佳时提供强外部指导,在模型表现良好时则主要依赖内部强化。
4. 方法论
4.1. 方法原理
ViSurf 的核心思想是在一个统一的、单阶段的训练框架中,同时利用监督微调 (SFT) 的外部指导能力和可验证奖励强化学习 (RLVR) 的内部强化优势。其关键在于将真实标注数据 (ground-truth labels) 作为一种特殊的高奖励样本,直接注入到 RLVR 的推演 (rollouts) 过程中。这样,当模型生成的推演质量不高时,真实标注数据能够提供强烈的外部纠正信号;而当模型能够生成高质量的推演时,则主要依靠内部的强化信号进行细致优化。通过这种方式,ViSurf 旨在克服 SFT 易导致次优性能和 灾难性遗忘 的缺点,以及 RLVR 在超出模型知识库任务上表现不佳的局限性。为确保这种结合的稳定性与有效性,ViSurf 还引入了三项独特的奖励控制策略。
4.2. 核心方法详解
我们首先定义策略模型和数据集。设 表示一个大型视觉-语言模型 (LVLM),由参数 参数化。常见的后训练范式(SFT 和 RLVR)都使用相同的输入数据集 ,其中 是视觉输入, 是文本输入, 是数据集大小。
4.2.1. 监督微调 (SFT)
SFT 通过一组真实标注数据 来优化 。其目标是最小化真实标注数据 (ground-truth labels) 的负对数似然 (negative log-likelihood):
其中 对应于 (v, t)。SFT 的梯度可以从上式推导得到:
这个梯度直接指导模型增加生成真实标注数据 的概率。
4.2.2. 可验证奖励强化学习 (RLVR)
论文使用 on-policy Group Relative Policy Optimization (GRPO) 算法来阐述 RLVR。GRPO 使用一个可验证的奖励函数来优化策略 ,该奖励函数通常结合了输出格式和准确性的衡量标准。对于给定的输入 ,旧策略 (来自前一个优化步骤)通过采样不同的随机种子生成一组 个推演 (rollouts) 。每个推演 随后由奖励函数 进行评估,从而得到一组奖励 \{r(o_j)\}_{j=1}^G。
接着,计算每个推演的优势 (advantage) ,其计算方式如下:
其中, 是推演 的奖励值, 计算一组奖励的平均值, 计算一组奖励的标准差。优势函数 度量了单个推演的奖励相对于同一组推演平均奖励的偏离程度,并进行了标准化。
RLVR 的目标是最小化以下方程:
上式中, 是一个常数,控制裁剪边界。为了简化,论文在方程和实际实现中省略了 KL 散度 (KL divergence) 项。这个目标函数鼓励模型更新策略 ,使其在与旧策略 不偏离过大的情况下,增加高优势推演的生成概率,同时降低低优势推演的生成概率。
RLVR 的梯度可以通过对上述方程进行近似 并使用 对数导数技巧 (log-derivative trick) 推导出来:
对比 SFT 和 RLVR 的梯度,可以发现它们具有相似的形式。主要区别在于指导信号 (SFT 使用真实标注数据 而 RLVR 使用推演 ) 和系数 (SFT 为 1 而 RLVR 为 )。
4.2.3. ViSurf 目标函数
为了将 SFT 和 RLVR 结合到一个单阶段中,ViSurf 的关键在于将真实标注数据 作为一个高奖励样本纳入 RLVR 框架。这意味着,在计算优势时,不仅考虑模型生成的 个推演 ,还包含真实标注数据 。因此,现在考虑的样本集合变为 ,相应的奖励为 。
这种形式修改了推演的优势计算(原方程 (2))如下:
而真实标注数据 的优势 则计算为:
ViSurf 的目标函数旨在最小化以下方程:
符号解释: 需要指出的是,该公式(方程 8)在呈现上存在显著问题。其中的符号、结构和操作符组合不符合标准数学或强化学习理论中的常见表示,且存在大量重复和不完整的项(如多行 和 )。因此,无法对其进行逐符号的、有意义的解释。它可能是一个排版错误、OCR 错误或未完成的占位符。尽管如此,根据指令,我们必须忠实地复现论文中给出的原始公式。
以下是 ViSurf 优化的伪代码:
Algorithm 1: ViSurf Optimization Step
| Input: policy model ; reward function ; input data ; label data | |||
|---|---|---|---|
| for step = 1, . . . , M do | |||
| Sample a mini-batch and corresponding ; | |||
| Update the old policy model ; | |||
| Sample G outputs for each ; | |||
| Compute rewards `\{r(o_j)\}_{j=1}^G` for each sampled output; | |||
| Compute rewards `r(y)` for label ; | |||
| Compute and through relative advantage estimation; | |||
| Update the policy model using Equation (8); | |||
| Output: |
ViSurf 的梯度分析 (通过近似 和 对数导数技巧 (log-derivative trick),并省略裁剪操作):
符号解释:
-
: ViSurf 目标函数对模型参数 的梯度。
-
: 对来自输入数据集 的视觉-文本输入对
(v, t)的期望。 符号可能是一个排版错误或未定义的变量,通常这里直接使用(v, t)。 -
: 表示从旧策略 中采样 个推演 (rollouts) 。
-
: 归一化系数,因为现在考虑了 个推演和 1 个真实标注数据,总共有 个样本。
-
: 针对 个推演的
RLVR梯度项,其中 是每个推演的优势, 是推演 的对数概率梯度。 -
: 针对真实标注数据 的
SFT梯度项,其中 是真实标注数据的优势, 是真实标注数据 的对数概率梯度。 -
: 表示在梯度计算中使用了 的近似。
与 SFT 和 RLVR 的关系: 为了更好地说明梯度的结构,方程 (9) 可以改写为:
符号解释:
- 上式中的 符号,在
RLVR项中作为 的一部分,在SFT项的期望下标中作为 的一部分,可能也是排版错误或未定义的变量。 RLVR项:结构上与标准RLVR梯度(方程 5)相同,仅在缩放系数上有所不同( vs. )。SFT项 (SFTTerm):类似于SFT梯度(方程 4),但有两点主要区别:-
系数由 加权,而不是 1。
-
使用了近似 。这意味着真实标注数据 必须与模型自身的生成偏好对齐才能有效。
方程 (9) 整合了
SFT的外部指导和RLVR的内部指导。
-
4.2.4. 奖励控制策略 (Reward Control Strategies)
为了解决真实标注数据 的优势 总是正的可能导致奖励操控 (reward hacking) 和抑制高质量推演的问题,并确保真实标注数据与模型 self-rollout 的兼容性,ViSurf 提出了三种奖励控制策略:
该图像是示意图,展示了ViSurf框架的工作流程。上半部分展示了将外部指导 与内部指导 合并的过程,特别强调在自我回放失败时这一整合的重要性。下半部则描述了三种奖励控制策略,用于调节 ,从而防止熵崩溃。图中包含模型旧策略 和新策略 的映射,以及相应的奖励和准确性验证步骤。
图 4. ViSurf 框架。上:外部指导 与内部指导 的整合,这在 self-rollout 不成功时至关重要。下:设计用于调节 的三种奖励控制策略,从而防止熵坍塌 (entropy collapse)。
-
将真实标注数据与推演偏好对齐 (Aligning Ground-truth Labels with Rollouts Preference):
- 问题: 确保真实标注数据与模型
self-rollout之间兼容性,以满足近似 的前提。例如,JSON 格式中的空格差异可能导致不同的词元化 (tokenization)。 - 策略: 将真实标注数据进行格式重整,以匹配模型偏好的输出风格。例如,调整 JSON 结构中的空白字符,如将
{"bbox": [x1, y1, x2, y2]}改为{"bbox": [x1, y1, x2, y2]}(在标点符号后添加空格)。这可以最大程度地减少 和 之间的分布偏移。
- 问题: 确保真实标注数据与模型
-
消除真实标注数据的思考奖励 (Eliminating Thinking Reward for Ground-truth Labels):
- 问题: 真实标注数据通常缺乏推理过程的标注,如果对其应用“思考奖励”,可能会误导模型。
- 策略: 将真实标注数据的推理格式分数设为零。这确保模型直接从其
self-rollout中学习推理轨迹,而不会受到缺失的外部推理标注的偏向影响。
-
平滑真实标注数据的奖励 (Smoothing the Reward for Ground-truth Labels):
- 问题: 如果模型已经通过
self-rollout生成了高质量的输出,真实标注数据仍然获得高奖励会不必要地抑制self-rollout的相对优势,甚至可能导致奖励操控。 - 策略: 在优势估计之前,比较生成推演中的最大奖励 与真实标注数据奖励 。如果 ,则表明策略模型 已经无需外部指导即可生成高质量输出。在这种情况下,将 。这种平滑操作使得真实标注数据的优势 变为零(根据方程 7),当外部监督不必要时,将其消除。
- 问题: 如果模型已经通过
4.2.5. 训练过程中的优化分析
基于上述奖励控制策略,ViSurf 在训练过程中展现出动态的、自适应的平衡机制。优势 (针对推演) 和 (针对真实标注数据) 共同决定了 RLVR 项和 SFT 项之间的平衡:
-
模型表现不佳时: 当策略未能生成高质量的推演时, 会下降(可能变为负值),而 保持较高。此时,
SFT项在策略更新中占据主导地位,通过真实标注数据提供强大的外部指导。 -
模型表现良好时: 当策略成功生成理想推演时,奖励控制机制将 。此时,优化将完全由
RLVR项主导。这种学习模式之间的自动切换是单阶段 ViSurf 范式的核心特征。
上限分析 (Upper Bound Analysis):
ViSurf 在旧策略模型 无法生成正确推演时特别有用。当旧策略模型 已经实现了理想的推演时,方程 (10) 中的 SFT 项接近于零,此时 ViSurf 的性能上限与 RLVR 相同。然而,当策略模型无法生成理想推演时,ViSurf 的性能上限优于单独使用 SFT 或 RLVR。
5. 实验设置
5.1. 数据集
论文在多个领域和基准上验证了 ViSurf 的有效性:
-
非目标分割 (Non-Object Segmentation)
- 数据集:
gRefCOCO [16]。该数据集包含不包含对应对象的查询。 - 特点: 训练数据基于 VisionReasoner [21] 的
Multi-objects-7K,并额外增加了 200 个非对象数据。这些负样本通过提供在图像内容中无答案的问题,并训练模型输出空列表 () 来生成。 - 示例: 如图 1(a) 所示,“用于烧水的器具”在图像中可能没有对应的物体。
- 评估指标:
gIoU(Generalized Intersection over Union) 和N-Acc(Non-Object Accuracy)。
- 数据集:
-
推理分割 (Reasoning Segmentation)
- 数据集:
ReasonSeg [12]。包含需要推理才能进行正确分割的测试样本。 - 特点: 200 张验证图像和 779 张测试图像。训练数据使用 VisionReasoner [21] 提出的
Multi-objects-7K。 - 示例: 如图 1(a) 所示,“可以切东西的物品”,可能需要模型推理刀具的用途。
- 评估指标:
gIoU。
- 数据集:
-
GUI 接地 (GUI Grounding)
- 数据集:
OmniACT [11]。一个用于桌面和 Web 的GUI 接地任务。 - 特点: 训练集包含 6,101 个样本,并在测试集上进行验证。
- 示例: 如图 1(a) 所示,在一个网页或桌面界面中,根据文本指令定位特定的 UI 元素。
- 评估指标:
Accuracy(准确率),计算预测点是否正确位于兴趣区域内。
- 数据集:
-
异常检测 (Anomaly Detection)
- 数据集:
RealIAD [35]。包含真实世界、多视角工业异常。 - 特点: 3,292 个训练样本和 2,736 个测试样本,确保训练集和测试集不重叠。
- 示例: 如图 1(a) 所示,识别工业产品(如玩具汉堡)上不应存在的缺陷(如孔洞)。
- 评估指标:
ROC_AUC(Receiver Operating Characteristic Area Under the Curve)。
- 数据集:
-
医学图像:皮肤 (Medical Image: Skin)
- 数据集:
ISIC2018 [4, 10]的任务一,即皮肤病变分割。 - 特点: 2,594 个训练样本和 1,000 个测试样本。
- 示例: 如图 1(a) 所示,在皮肤图像中识别病变区域。
- 评估指标:
bbox_acc(Bounding Box Accuracy),计算预测边界框与真实标注数据IoU(Intersection over Union) 超过 0.5 的比例。
- 数据集:
-
数学推理 (Math Reasoning)
- 数据集:
MathVista-testmini [24]。包含 1,000 个多样化的数学和视觉任务。 - 特点: 收集了约 10k 训练数据,来源于 WeMath [29]、MathVision [37]、Polymath [8]、SceMQA [15]、Geometry3K [23] 等。
- 示例: 如图 1(a) 所示,根据视觉信息和文本问题解决数学问题。
- 评估指标:
Accuracy。
- 数据集:
-
VQA (Visual Question Answering) 任务
- 数据集:
ChartQA [26]和DocVQA [27]。 - 特点: 用于评估
灾难性遗忘现象。 - 评估指标:
Accuracy。
- 数据集:
5.2. 评估指标
论文中使用的评估指标及其解释如下:
5.2.1. IoU (Intersection over Union) / gIoU (Generalized Intersection over Union)
- 概念定义:
IoU是在对象检测、分割等任务中衡量预测结果与真实标注数据重叠程度的常用指标。它计算预测边界框或分割掩码与真实标注数据边界框或分割掩码的交集面积除以它们的并集面积。gIoU是IoU的一个改进版本,它不仅考虑了交集与并集,还考虑了预测框与真实框的最小外接矩形,使其在预测框与真实框不重叠时也能提供有效的距离度量,从而更好地评估预测框的定位性能。 - 数学公式:
IoU的公式为:gIoU的公式为: - 符号解释:
- : 预测边界框或分割掩码的区域。
- : 真实标注数据边界框或分割掩码的区域。
- : 区域 和 的交集面积。
- : 区域 和 的并集面积。
- : 包含 和 的最小外接矩形区域。
- : 区域 中不属于 或 的面积。
- : 区域 的面积。
5.2.2. N-Acc (Non-Object Accuracy)
- 概念定义:
N-Acc是专门用于评估模型在“非对象”情境下识别能力的一个准确率指标。在非对象分割任务中,如果指令描述的物体在图像中不存在,模型应该输出“无对象”的判断。N-Acc衡量模型正确识别图像中不存在目标对象的准确性。 - 数学公式: 论文未给出具体公式,通常定义为:
- 符号解释:
正确识别为无对象的样本数:模型在实际没有对应对象的样本中,成功判断为没有对象的数量。所有实际无对象的样本数:测试集中所有实际没有对应对象的样本总数。
5.2.3. Accuracy (准确率)
- 概念定义:
Accuracy是分类任务中最常见的评估指标之一,衡量模型正确预测的样本比例。 - 数学公式:
- 符号解释:
True Positives (TP): 真实为正且预测为正的样本数。True Negatives (TN): 真实为负且预测为负的样本数。False Positives (FP): 真实为负但预测为正的样本数(I类错误)。False Negatives (FN): 真实为正但预测为负的样本数(II类错误)。
5.2.4. ROC_AUC (Receiver Operating Characteristic Area Under the Curve)
- 概念定义:
ROC_AUC是在二分类任务中评估模型性能的指标,尤其适用于类别不平衡的数据集。ROC 曲线是以假正率 (False Positive Rate, FPR)为横轴,真正率 (True Positive Rate, TPR)为纵轴绘制的曲线。AUC则是这条ROC 曲线下方的面积。AUC值越大,模型区分正负样本的能力越好。 - 数学公式:
TPR(召回率/灵敏度) 和FPR定义为:AUC是ROC 曲线下方的面积,其计算通常通过梯形法则对曲线下的多个点进行积分近似。 - 符号解释:
True Positives (TP): 真实为正且预测为正的样本数。False Negatives (FN): 真实为正但预测为负的样本数。False Positives (FP): 真实为负但预测为正的样本数。True Negatives (TN): 真实为负且预测为负的样本数。
5.2.5. bbox_acc (Bounding Box Accuracy)
- 概念定义:
bbox_acc是在检测或分割任务中,评估模型预测的边界框与真实标注数据边界框重叠质量的一个指标。它计算的是预测边界框与真实标注数据边界框的IoU超过某个阈值(例如 0.5)的比例。 - 数学公式: 论文未给出具体公式,通常定义为:
- 符号解释:
- : 模型预测的边界框。
- : 真实标注数据边界框。
- : 预测边界框与真实标注数据边界框之间的
IoU值。 - : 设定的
IoU阈值,本文中使用的是 0.5。 IoU(pred_bbox, gt_bbox) > threshold 的样本数:IoU值高于阈值的预测边界框数量。总样本数:所有待评估的样本总数。
5.3. 对比基线
论文将 ViSurf 的性能与以下几种主要的后训练范式进行了比较:
-
Baseline (基线模型):通常指未经过
SFT或RLVR额外微调的原始LVLM模型。例如,文中提到 Qwen2.5VL-7B + SAM2 作为Baseline。 -
SFT (监督微调):单独使用
监督微调的模型。 -
RLVR (可验证奖励强化学习):单独使用
可验证奖励强化学习的模型,通常指基于GRPO或DAPO的实现。 -
SFT RLVR (两阶段 SFT 接 RLVR):首先进行
监督微调,然后在此基础上进行可验证奖励强化学习的模型。这代表了结合两种范式的一种常见尝试。此外,在
状态-艺术 (State-of-The-Arts, SoTA)对比中,ViSurf 还与以下模型进行了比较: -
LISA [12]
-
GSVA [39]
-
SAM4MLLM [2]
-
SegZero [20]
-
VisionReasoner [21]
这些基线和
SoTA模型涵盖了LVLMs后训练的不同策略,包括纯SFT、纯RLVR、以及SFT和RLVR的组合,从而全面评估 ViSurf 的有效性。
5.4. 实现细节
- 基础模型 (Base Model):ViSurf 算法基于
Qwen2.5VL-7B [1]进行实例化。如果任务需要,会结合SAM2 [31]。 - 学习率 (Learning Rate):所有方法都采用恒定的学习率 1e-6。
- 批大小 (Batch Size):
SFT使用 32 的批大小,而RLVR和 ViSurf 使用 16 的批大小。 - 训练步数 (Training Steps):为了公平比较,所有方法都采用相同的训练步数。
- 奖励函数 (Reward Function):
- 对于
MathVista任务,奖励函数由格式奖励和准确性奖励组成。 - 对于其他任务,奖励函数采用 VisionReasoner [21] 中的奖励,这些奖励包括格式准确性、点准确性 (point accuracy) 和边界框准确性 (bounding box accuracy) 奖励等。
- 对于
- 实现框架 (Implementation Framework):
SFT使用DeepSpeed [28]和TRL [6]。RLVR和 ViSurf 使用VeRL [33]。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 不同训练范式下的性能比较
以下是原文 Table 1 的结果:
| Method | Non-Object gRefCoCo | Segmentation ReasonSeg | GUI OmniACT Acc | Anomaly RealIAD ROC_AUC | Medical:Skin ISIC2018 Bbox_Acc | Math MathVista test-mini Acc | Avg | ||
| gIoU | val N-Acc | val gIoU | test gIoU | ||||||
| Baseline | - | 1.8 | - | - | 60.4 | 50.1 | 78.8 | 68.2 | 56.2 |
| SFT | 33.4 | 41.6 | 56.9 | 52.1 | 55.4 | 65.5 | 91.7 | 68.3 | 56.2 |
| RLVR | 42.8 | 0.0 | 63.8 | 60.3 | 65.5 | 50.0 | 90.3 | 71.2 | 56.1 |
| SFT → RLVR | 65.0 | 52.1 | 57.2 | 55.2 | 64.5 | 66.9 | 93.6 | 68.5 | 65.4 |
| ViSurf | 66.6 | 57.1 | 66.5 | 65.0 | 65.6 | 69.3 | 94.7 | 71.6 | 69.6 |
- ViSurf 的显著优势: ViSurf 在所有基准测试中持续优于现有后训练范式(SFT、RLVR、SFT RLVR)。其平均相对基线模型提高了 38.6%。
- 在低基线任务中的表现: ViSurf 的优势在基线模型能力较低的领域(如
Non-Object非目标分割和Anomaly异常检测)尤为显著,这表明该方法在处理超出模型知识库的任务方面非常有效。 - 在强基线任务中的表现: 在基线模型已经非常熟练的领域,ViSurf 的增益相对较小,例如在
MathVista和ISIC2018等任务中。 - SFT 的性能退化:
SFT在OmniACT任务中导致性能下降,这可能归因于基线模型预训练阶段存在的“测试数据污染”。相比之下,RLVR和 ViSurf 能够保持基线模型的性能。 - 纯 RLVR 的局限性: 在
RealIAD和gRefCOCO的非目标检测任务中,纯RLVR方法表现甚至低于原始模型。这表明当self-rollout频繁产生错误答案时,纯RLVR优化会受阻,突显了外部监督的重要性。
6.1.2. 灾难性遗忘 (Catastrophic Forgetting)
以下是原文 Table 2 的结果:
| Method | ChartQA | DocVQA_val |
| Baseline | 83.8 | 94.9 |
| SFT | 80.8 | 89.6 |
| RLVR | 86.7 | 95.0 |
| SFT → RLVR | 85.0 | 92.9 |
| ViSurf | 87.4 | 95.0 |
- VQA 性能变动: VQA 任务(ChartQA 和 DocVQA)的性能在不同训练范式下表现出显著差异。
- ViSurf 和 RLVR 的鲁棒性:
RLVR和 ViSurf 均展现出对抗灾难性遗忘的鲁棒性,性能保持稳定或有所提升。 - SFT 和 SFT RLVR 的性能下降: 相比之下,
SFT和SFT\toRLVR遭遇了性能下降,这直接归因于灾难性遗忘。
6.1.3. ViSurf 在其他模型上的应用
以下是原文 Table 3 的结果:
| Method | RealIAD subset | ISIC2018 test |
| ROC_AUC | Bbox_Acc | |
| Baseline | 60.0 | 51.8 |
| SFT | 56.7 | 94.2 |
| RLVR | 57.1 | 90.5 |
| SFT → RLVR | 67.5 | 94.6 |
| ViSurf | 76.0 | 95.4 |
- Qwen2VL-7B 的验证: 将 ViSurf 应用于
Qwen2VL-7B [38]模型。 - 持续优越性: 结果显示,ViSurf 在
RealIAD和ISIC2018数据集上持续优于其他对比方法。 - 纯 RLVR 的弱点: 纯
RLVR方法在这两个数据集上表现最差,甚至在RealIAD上低于基线模型,这再次强调了外部监督的关键作用。
6.2. 消融实验/参数分析
以下是原文 Table 4 的结果:
| Align | Eliminate | Smooth | gRefCoCo val | ReasonSeg val gIoU | MathVista test-mini Acc | |
| gIoU | N-Acc | |||||
| 59.0 | 40.2 | 63.6 | - | |||
| ✓ | × | × | 72.9 | 74.1 | 58.2 | 67.1 |
| ✓ | ✓ | × | 61.0 | 45.7 | 62.7 | 66.8 |
| ✓ | ✓ | ✓ | 66.6 | 57.1 | 66.5 | 71.6 |
-
'Align'(对齐真实标注数据与推演偏好):
- 结果: 这一策略的消融导致在多个数据集上性能持续下降,特别是在
gRefCoCo上,gIoU从 66.6 降至 59.0,N-Acc从 57.1 降至 40.2。 - 分析: 这强调了该策略的关键重要性,并为方程 (10) 中 理论要求提供了强有力的实证验证。确保真实标注数据与模型生成的
rollout之间的一致性对于训练稳定性至关重要。
- 结果: 这一策略的消融导致在多个数据集上性能持续下降,特别是在
-
'Eliminate'(消除真实标注数据的思考奖励):
- 结果: 在
ReasonSeg和MathVista等需要复杂推理的任务中,该策略(即不给真实标注数据推理奖励)对性能至关重要。移除它会导致ReasonSeg的gIoU从 66.5 降至 62.7,MathVista的Acc从 71.6 降至 66.8。 - 分析: 这表明推理策略对于需要复杂推理的任务至关重要,因为它鼓励模型在给出最终答案之前生成推理过程。然而,对于
gRefCOCO等查询通常仅限于简单类别或基本引用的任务,省略推理步骤反而能带来更好的性能(gIoU72.9,N-Acc74.1)。这暗示了显式推理的必要性取决于底层任务的复杂性。
- 结果: 在
-
'Smooth'(平滑真实标注数据的奖励):
- 结果: 在所有数据集上,移除奖励平滑策略后性能均出现下降。例如,
gRefCoCo的gIoU从 66.6 降至 61.0。 - 分析: 这凸显了平滑策略的必要性。结果同时表明,当模型的
self-rollout已经达到更高质量的解决方案时,方程 (10) 中的SFT项变得多余。平滑机制有效防止了不必要的外部监督干扰模型自主学习高质量rollout。
- 结果: 在所有数据集上,移除奖励平滑策略后性能均出现下降。例如,
6.3. 深入分析 (In-depth Analysis)
6.3.1. 训练过程中的熵分析 (Entropy Analysis During Training)
该图像是图表,展示了 RLVR、SFT->RLVR 和 ViSurf 的熵分析。ViSurf 具有初始下降趋势,然后缓慢收敛,反映了不同训练方法在熵变化上的表现。
图 5. RLVR、SFT RLVR 和 ViSurf 的熵分析。ViSurf 表现出初始下降,然后缓慢收敛。
- 熵与探索: 较高的熵值表示模型具有更大的探索行为,而较低的熵值则表明模型趋于确定性。
- ViSurf 的熵变化: ViSurf 在训练初期表现出熵值下降,这表明模型正在拟合外部指导。随后,ViSurf 的收敛速度慢于其他方法,从而有效地避免了
熵坍塌 (entropy collapse),维持了一定的探索能力。
6.3.2. 训练稳定性 (Training Stability)
该图像是图表,展示了不同训练步骤下各方法在 ext{gloU} 性能上的表现。可以看出,ViSurf 方法在训练过程中展示了更大的稳定性,尤其在 200 和 300 步时的绩效明显优于 RLVR 和 SFT→RLVR 方法。
图 6. 在不同训练步骤下 gRefCOCO 上的性能。ViSurf 在训练进行时展现出更大的稳定性。
- ViSurf 的稳定性: 模型在 ViSurf 训练下展现出比纯
RLVR和SFT\toRLVR更高的稳定性。其他方法的性能随着训练时间的延长而下降,而 ViSurf 保持了更好的性能。 - 外部指导的作用: 这一观察证实了 ViSurf 的有效性,表明引入的外部指导充当了约束,稳定了训练过程,避免了性能的退化。
6.3.3. 边界分析 (Boundary Analysis)
- 性能增益与基线: 正如 Table 1 所示,ViSurf 的性能增益与基线模型的初始性能相关。
- 基线表现不佳: 当基线模型表现不佳(例如低于 50%),表明其不足以完成任务时,ViSurf 能够带来显著的性能提升。
- 基线表现良好: 相反,当基线模型已经达到高水平性能(例如高于 50%),这意味着有一个强大的起点时,ViSurf 的性能上限与单独的
RLVR相一致。 - 理论验证: 这一观察结果与第 3.5 节的理论分析相符,即当模型能够生成理想的
rollout时,SFT项的作用会减弱。
6.3.4. 减轻提示设计负担 (Reduce the Burden of Prompt Design)
以下是原文 Table 5 的结果:
| Detailed Prompt | ReasonSeg | ||
| val (gIoU) | test (gIoU) | ||
| RLVR | ✗ | 0.0 | 0.0 |
| ✓ | 66.0 | 63.2 | |
| ViSurf | ✗ | 62.3 | 57.8 |
| ✓ | 66.4 | 65.0 | |
- RLVR 对提示的依赖:
RLVR范式高度依赖明确的指令来引导模型生成特定格式的rollout。例如,输出格式如 。如果没有详细的格式化指令,RLVR在ReasonSeg任务中完全失败(gIoU为 0.0)。 - ViSurf 的优势: 相比之下,ViSurf 结合了具有期望格式的外部指导,从而减少了对手动
提示工程 (prompt engineering)的依赖。即使没有详细的格式化提示,ViSurf 也能取得令人满意的结果(gIoUval 62.3,test 57.8),并且在有详细提示时,性能进一步提升。这证明了 ViSurf 在两种设置下均能实现一致的性能提升。
6.3.5. 训练成本 (Training Cost)
以下是原文 Table 6 的结果:
| Method | Mem / GPU (G) ↓ | Time / Step (s) ↓ |
| SFT | 97.7 | 9.0 |
| RLVR | 81.8 | 22.7 |
| SFT →RLVR | 97.9 | 31.7 |
| ViSurf | 81.8 | 22.9 |
- 内存效率:
RLVR和 ViSurf 相比SFT和SFT\toRLVR具有更高的内存效率,GPU 内存占用更低(例如,81.8 GB vs. 97.7 GB)。 - 计算成本:
RLVR和 ViSurf 在每个训练步骤中需要更高的计算成本(每个步骤的时间更长,例如 22.7 秒和 22.9 秒 vs. 9.0 秒)。这主要是由于生成rollout引入的额外开销。 - 两阶段方法的成本:
SFT\toRLVR的时间成本是SFT和RLVR两者之和,是最高的。
6.4. 与最先进技术 (SoTA) 的比较
以下是原文 Table 7 的结果:
| Method | gRefCoco val | ReasonSeg val | ||
| gIoU | N-Acc | gIoU | test gIoU | |
| LISA-7B | 61.6 | 54.7 | 53.6 | 48.7 |
| GSVA-7B | 66.5 | 62.4 | - | - |
| SAM4MLLM-7B | 69.0 | 63.0 | 46.7 | - |
| Qwen2.5VL-7B + SAM2 | 41.6 | 3.3 | 56.9 | 52.1 |
| SegZero-7B | - | - | 62.6 | 57.5 |
| VisionReasoner-7B | 41.5 | 0.0 | 66.3 | 63.6 |
| ViSurf (Qwen2.5VL-7B + SAM2) | 72.9 | 74.1 | 66.4 | 65.0 |
- 在
gRefCOCO上的表现: ViSurf 在gRefCOCO验证集上取得了gIoU72.9 和N-Acc74.1 的最高性能,超越了所有SoTA模型,包括SAM4MLLM-7B的 69.0gIoU和 63.0N-Acc。 - 在
ReasonSeg上的表现: ViSurf 在ReasonSeg验证集上取得了gIoU66.4,在测试集上取得了gIoU65.0。这与VisionReasoner-7B的 66.3gIoU和 63.6gIoU相当或略优,并显著领先于其他SoTA方法。 - 结论: ViSurf 在
gRefCOCO和ReasonSeg这两个视觉感知任务上均达到了状态-艺术 (SoTA)的性能水平,证明了其在复杂LVLM任务中的强大能力。
6.5. 定性结果 (Qualitative Results)
该图像是一个示意图,展示了不同类型任务的视觉推理示例,包括非目标、异常、GUI引导、医学及数学推理等。每个示例都包含思考过程及相应对象的描述,如图中表明的玩具汉堡在顶面存在一个异常的洞。
图 7. ViSurf 在各种任务上的可视化。
图 7 展示了 ViSurf 在各种任务上的可视化结果,包括:
- 非目标 (Non-Object):成功识别图像中不存在指令描述的物体。例如,对于“用于烧水的器具”的指令,模型正确识别并输出“thinking: 图像中没有任何用于烧水的器具”。
- 异常 (Anomaly):在物体中检测到异常。例如,识别“玩具汉堡顶部的一个洞”。
- GUI 引导 (GUI Grounding):根据指令在用户界面上定位元素。例如,“点击包含文本“确认付款”的按钮”。
- 医学 (Medical):在医学图像中识别病变区域。例如,识别“皮肤损伤”。
- 数学 (Math):解决涉及视觉信息的数学问题。例如,根据图表解决百分比问题。 这些定性结果表明,ViSurf 能够成功地定位正常物体、识别异常、检测非对象情况,并解决数学问题,进一步验证了其在多样化视觉-语言任务中的有效性和鲁棒性。
7. 总结与思考
7.1. 结论总结
本文提出了 ViSurf (Visual Supervised-and-Reinforcement Fine-Tuning),一种统一的单阶段后训练范式,旨在整合监督微调 (SFT) 和可验证奖励强化学习 (RLVR) 的优点。通过对 SFT 和 RLVR 目标函数及其梯度的理论分析,ViSurf 建立了一个统一的目标函数,将真实标注数据 (ground-truth labels) 注入到 RLVR 的推演 (rollouts) 过程中,从而同时提供外部监督和内部强化。为了稳定和优化训练过程,ViSurf 还引入了三项新颖的奖励控制策略。在多个多样化的基准测试中,ViSurf 的实验结果显示其性能显著优于单独的 SFT、RLVR 以及两阶段的 SFT\toRLVR 方法。深入的分析进一步证实了 ViSurf 的理论推导和设计原则,并展示了其在缓解 灾难性遗忘、提高训练稳定性以及降低 提示设计负担 方面的优势。ViSurf 达到了 状态-艺术 (SoTA) 的性能,为大型视觉-语言模型的后训练提供了一个高效且鲁棒的解决方案。
7.2. 局限性与未来工作
7.2.1. 局限性
- 真实标注数据内容限制: 论文中使用的真实标注数据主要限于最终答案。这意味着模型在学习推理过程中的中间步骤时,仍然高度依赖于
self-rollout的质量。 - 计算成本: 尽管 ViSurf 在内存效率上表现良好,但与纯
SFT相比,由于生成rollout的开销,其每步训练时间仍然较高。 - 目标函数的可解释性: 论文中给出的 ViSurf 目标函数(方程 8)在数学表示上存在明显问题,这使得其理论基础的直观理解和严谨性受到影响。
7.2.2. 未来工作
- 整合显式推理轨迹: ViSurf 范式具有固有的灵活性,可以纳入显式的推理轨迹。未来的工作可以探索如何将带有推理步骤的真实标注数据整合进来,从而更直接地指导模型学习复杂的推理链。
- 兼容先进技术: 该工作为未来
LVLMs的后训练研究奠定了基础,可以与知识蒸馏 (knowledge distillation)等先进技术兼容,例如,利用大型模型生成的推理轨迹进行蒸馏。 - 奖励控制策略的通用性: 进一步研究奖励控制策略在更广泛的
LVLM任务和领域中的通用性和适应性,探索是否需要更动态或自适应的控制机制。 - 优化计算效率: 针对
RLVR和 ViSurf 较高的每步计算成本,未来的研究可以探索更高效的rollout生成策略或优化RL训练框架,以降低训练时间。
7.3. 个人启发与批判
7.3.1. 个人启发
- 融合范式的重要性: 论文深刻揭示了
SFT和RLVR各自的优缺点。SFT提供强监督,但可能导致过拟合和遗忘;RLVR促进探索和推理,但在知识盲区表现不佳。ViSurf 的核心思想——通过真实标注数据注入将二者在一个阶段内统一,是一个非常直观且强大的思路。这启发我们,在复杂模型训练中,单一范式往往有其局限性,融合不同范式的优势是通向更鲁棒、更通用模型的关键。 - 奖励控制的艺术: 论文提出的三项奖励控制策略(对齐、消除思考奖励、平滑)看似细节,实则精妙。它们是确保
SFT和RLVR协同工作的“润滑剂”,避免了两者直接结合可能带来的冲突和不稳定性。特别是“平滑奖励”机制,巧妙地实现了学习模式的自适应切换,即在模型弱时学习外部指导,模型强时则放手让其自主强化。这对于理解如何动态平衡不同学习信号具有普遍指导意义。 - 解决“知其然不知其所以然”:
SFT擅长让模型“知其然”,即给出正确答案;RLVR则通过奖励信号引导模型“知其所以然”,即学习推理过程。ViSurf 的结合使得模型既能快速收敛到正确答案,又能学习到产生答案的合理推理路径,这对于LVLM的可解释性和泛化能力至关重要。 - 工程与理论的结合: 从
SFT和RLVR的梯度分析出发,推导 ViSurf 的目标函数,再辅以实用的奖励控制策略,展现了理论分析指导工程实现的良好范式。
7.3.2. 批判
- 核心目标函数的清晰度问题: 论文中给出的 ViSurf 核心目标函数(方程 8)的数学表示是一个严重的缺陷。它显然是错误的、不完整的或经过 OCR 损坏的,以至于无法理解其具体含义和推导逻辑。这极大地削弱了论文在“理论推导和统一视角”这一核心贡献上的说服力。一个创新性工作的核心公式出现如此大的问题,无论是在可复现性还是学术严谨性上,都是不可接受的。
- 近似条件及影响: 论文多次提及近似 。尽管“对齐真实标注数据与推演偏好”策略旨在满足这一条件,但这种近似在实际训练中何时、何地会失效,以及其失效对模型性能和训练稳定性的影响,缺乏更深入的理论分析和实证探讨。
- 奖励函数的通用性: 论文在不同任务中采用了不同的奖励函数(例如,
MathVista有格式和准确性奖励,其他任务有 VisionReasoner 的奖励)。虽然这很实用,但 ViSurf 框架本身如何指导或自动学习这些奖励函数,或者其对奖励函数设计的敏感性如何,并没有深入讨论。这可能意味着在实际应用中,设计有效的奖励函数仍然是一个挑战。 - 计算效率的权衡: 尽管 ViSurf 提高了性能并缓解了
灾难性遗忘,但其每步训练成本高于SFT。对于资源有限的场景,这种权衡可能需要更精细的考虑。在未来工作中,可以探索如何优化rollout过程,使其在保持性能的同时降低计算开销。 - 泛化能力和 OOD (Out-of-Distribution) 数据: 论文提到
RLVR在超出模型内部知识库的任务上表现不佳,而 ViSurf 旨在解决此问题。虽然实验结果显示 ViSurf 在Non-Object和Anomaly任务上表现优异,但对于更广泛的分布外 (Out-of-Distribution, OOD)任务,ViSurf 的泛化能力和鲁棒性如何,仍需更全面的评估。
相似论文推荐
基于向量语义检索推荐的相关论文。