论文状态:已完成

LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

发表:2025/11/26
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了LongVT,一个端到端智能框架,通过交错式多模态工具思维链增强长视频推理能力。它借助大型多模态模型的时间定位能力,进行全球到局部的推理过程,并发布了VideoSIAH数据集以支持训练和评估,显著提升了在多个基准测试中的表现。

摘要

Large multimodal models (LMMs) have shown great potential for video reasoning with textual Chain-of-Thought. However, they remain vulnerable to hallucinations, especially when processing long-form videos where evidence is sparse and temporally dispersed. Inspired by how humans comprehend long videos - by first skimming globally and then examining relevant clips for details - we introduce LongVT, an end-to-end agentic framework that enables "Thinking with Long Videos" via interleaved Multimodal Chain-of-Tool-Thought. Specifically, we exploit LMMs' inherent temporal grounding ability as a native video cropping tool to zoom in on a specific video clip and resample finer-grained video frames. This global-to-local reasoning loop continues until answers are grounded in retrieved visual evidence. Given the scarcity of fine-grained question-answering (QA) data for the long video reasoning task, we curate and will release a data suite named VideoSIAH to facilitate both training and evaluation. Specifically, our training dataset consists of 247.9K samples for tool-integrated cold-start supervised fine-tuning, 1.6K samples for agentic reinforcement learning, and 15.4K samples for agentic reinforcement fine-tuning, respectively. Our evaluation benchmark consists of 1,280 QA pairs that are carefully curated through a semi-automatic data pipeline with human-in-the-loop validation. With a meticulously designed three-stage training strategy and extensive empirical validation, LongVT consistently outperforms existing strong baselines across four challenging long-video understanding and reasoning benchmarks. Our codes, data, and model checkpoints are publicly available at https://github.com/EvolvingLMMs-Lab/LongVT .

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

1.2. 作者

Zuhao Yang*1,2,5, Sudong Wang*,1,3,5, Kaichen Zhang*,1,2,5, Keming Wu1,4,5, Sicong Leng2, Yifan Zhang1, Chengwei Qin3, Shijian Lu2, Xingxuan Li1, Lidong Bing1 1MiroMind AI, 2NTU, 3HKUST(GZ), 4THU, 5LMMs-Lab Team EmailContact:{yang0756,zhan0564}@e.ntu.edu.sg, {swang886}@connect.hkust-gz.edu.cn ProjectPage: https://evolvinglmms-lab.github.io/LongVT/

1.3. 发表期刊/会议

预印本(arXiv)

1.4. 发表年份

2025年11月25日(UTC)

1.5. 摘要

大型多模态模型(LMMs, Large Multimodal Models)在结合文本思维链(Chain-of-Thought, CoT)进行视频推理方面展现了巨大潜力。然而,它们仍然容易出现幻觉(hallucinations),尤其是在处理长视频时,因为证据稀疏且时间上分散。受人类理解长视频方式的启发——首先全局浏览,然后检查相关片段以获取细节——本文介绍了 LongVT,一个端到端的智能体框架,它通过交错式多模态工具思维链(interleaved Multimodal Chain-of-Tool-Thought, iMCoTT)实现“长视频思考”。具体来说,LongVT 利用 LMMs 固有的时间定位(temporal grounding)能力作为原生视频剪辑工具,以放大特定视频片段并重新采样更细粒度的视频帧。这种从全局到局部的推理循环持续进行,直到答案基于检索到的视觉证据。鉴于长视频推理任务中细粒度问题-回答(QA)数据的稀缺性,作者策划并发布了一个名为 VideoSIAH 的数据套件,以促进训练和评估。具体而言,其训练数据集包括用于工具集成冷启动监督微调(supervised fine-tuning, SFT)的 247.9K 样本、用于智能体强化学习(agentic reinforcement learning, RL)的 1.6K 样本和用于智能体强化微调(agentic reinforcement fine-tuning, RFT)的 15.4K 样本。其评估基准 VideoSIAH-Eval 包含 1,280 对 QA,这些 QA 通过半自动化数据流水线并结合人工验证精心策划。通过精心设计的三阶段训练策略和广泛的经验验证,LongVT 在四个具有挑战性的长视频理解和推理基准上持续优于现有强大的基线模型。

1.6. 原文链接

https://arxiv.org/abs/2511.20785 PDF 链接: https://arxiv.org/pdf/2511.20785v1.pdf 发布状态: 预印本(Published at UTC:2025-11-25T19:22:48.000Z)

2. 整体概括

2.1. 研究背景与动机

长视频(超过 15 分钟)理解是多模态智能领域的一个主要挑战。与短视频片段相比,长视频包含复杂的事件结构,需要对数千帧进行持续理解,以支持视频问答(QA)、时间定位(temporal grounding)和密集字幕(dense captioning)等任务。这些能力进一步支撑了现实世界的应用,如足球事件识别和长篇电影理解。

近年来,大型多模态模型(LMMs)在短视频推理方面展现了前景,但大多数仍依赖于 R1-style 范式——即使用文本思维链(Chain-of-Thought, CoT)进行监督微调(SFT),随后进行基于 Group Relative Policy Optimization (GRPO) 的强化学习(RL)。这种流水线在很大程度上以语言为中心,限制了视觉推理能力,并增加了在长视频场景中产生幻觉(hallucinations)的风险。此外,它们统一的采样方式未能自适应地捕捉关键视觉证据,常常错过对于长视频推理至关重要的细粒度或决定性时刻。

这促使作者提出了核心问题:LMMs 能否通过执行类似人类的视觉操作来指导其推理,从而可靠地对长视频进行推理?人类在理解长视频时,通常会先全局浏览,然后检查相关片段以获取细节。将这种 全局到局部 的推理策略应用到 LMMs,可以使其在有限的上下文长度下有效处理极长的视频。

2.2. 核心贡献/主要发现

本文的主要贡献体现在以下三个方面:

  1. 端到端智能体范式: 提出了 LongVT,一个端到端的智能体框架,该框架原生交错多模态工具增强思维链(iMCoTT)与按需片段检查,以处理数小时长的视频。这使得 LMMs 能够执行更有效、更可靠的长视频推理,将长视频理解从被动帧消费转变为主动的、寻求证据的推理。
  2. 细粒度数据套件和基准: 为了促进证据稀疏长视频推理的训练和评估,构建了一个可扩展的数据流水线,生成多样化、高质量的问答对和工具集成推理轨迹,以及一个专门的评估基准 VideoSIAH-Eval,用于在“视频片段寻针”(video segment-in-a-haystack)设置下进行细粒度评估。
  3. 三阶段训练策略与经验验证: 设计并实施了三阶段训练策略,并通过大量经验验证,使 LongVT 在四个具有挑战性的长视频理解和推理基准上始终优于现有强大的基线模型,建立了“长视频思考”的最先进基线,并提供了宝贵的见解。

3. 预备知识与相关工作

3.1. 基础概念

  • 大型多模态模型 (Large Multimodal Models, LMMs): 指的是能够处理和理解多种类型数据(如文本、图像、视频)的大型人工智能模型。它们通常基于大型语言模型(LLMs)架构,并通过额外的视觉编码器等组件扩展其模态处理能力。
  • 思维链 (Chain-of-Thought, CoT): 一种提示技术,通过引导模型生成一系列中间推理步骤,从而提高其在复杂任务上的表现。这使得模型能够“思考”问题,并逐步得出结论,类似于人类的逻辑推理过程。
  • 幻觉 (Hallucinations): 指 LMMs 在生成内容时出现与输入信息不符、不准确或完全虚构的现象。在视频推理中,可能表现为模型描述了视频中不存在的事件或对象。
  • 时间定位 (Temporal Grounding): 指在视频中精确识别或定位与特定文本描述或查询相对应的事件或动作发生的时间段(开始时间-结束时间)。
  • 工具调用 (Tool Calling): 指 LMMs 在执行任务时,能够识别并调用外部工具(如图像编辑器、视频剪辑器、搜索工具)来辅助其推理或生成过程。这使得模型能够扩展其能力 beyond 仅限于语言生成。
  • 智能体框架 (Agentic Framework): 一种将 LMMs 视为能够感知环境、进行决策并执行动作的智能体(agent)的范式。智能体可以规划多步行动、调用工具、接收反馈并进行自我修正,以达成复杂目标。
  • 监督微调 (Supervised Fine-tuning, SFT): 在预训练模型的基础上,使用带有标注的特定任务数据集进行进一步训练的过程,以使模型适应特定任务并提高其在该任务上的性能。
  • 强化学习 (Reinforcement Learning, RL): 一种机器学习范式,通过让智能体在环境中与环境交互,根据获得的奖励信号来学习最优行为策略。智能体通过试错来学习,目标是最大化长期累积奖励。
  • 强化微调 (Reinforcement Fine-tuning, RFT): 在 SFT 和 RL 之后,通过从 RL 训练过程中筛选出的高质量轨迹(rollouts)生成监督数据,再对模型进行一次监督学习阶段。这有助于稳定 RL 学到的智能体行为,并巩固多步推理能力。
  • 交错式多模态工具思维链 (interleaved Multimodal Chain-of-Tool-Thought, iMCoTT): 本文提出的一种推理范式,其中 LMMs 的多模态思维链与按需的工具调用(特别是视频剪辑工具)交错进行。这意味着模型可以在思考过程中动态地调用工具来获取更多视觉证据,然后根据新的证据调整其思考和答案。
  • 交并比 (Intersection over Union, IoU): 衡量两个边界框或时间段重叠程度的指标。它等于两个区域的交集面积(或时间长度)除以它们的并集面积(或时间长度)。在时间定位任务中,IoU 用于评估模型预测的时间段与真实标注时间段的匹配程度。其公式为: IoU=[ts,te][ts,te][ts,te][ts,te] \mathrm{IoU} = \frac{|[t_s, t_e] \cap [t'_s, t'_e]|}{|[t_s, t_e] \cup [t'_s, t'_e]|} 其中 [ts,te][t_s, t_e] 是预测的时间段,[t'_s, t'_e] 是真实标注的时间段。|\cdot| 表示时间段的长度,\cap 表示交集,\cup 表示并集。

3.2. 前人工作

  • 基于强化学习的多模态推理 (RL-Based Multimodal Reasoning):

    • OpenAI o1DeepSeekR1 等大型推理模型启发,近期研究将 GRPO 风格的 RL 从文本推理扩展到多模态领域。
    • 在视觉领域,有方法通过 RL 增强图像问答(image QA)、定位(grounding)和分割(segmentation)能力。
    • 以视频为中心的方法进一步解决了时间推理任务,如视频问答(video QA)、时间定位(temporal grounding)和时空定位(spatiotemporal grounding),包括最近将 RL 扩展到长视频的努力。
    • 基于音频的方法也类似地将 RL 应用于音频问答(audio QA)和更广泛的全模态推理(omnimodal reasoning)。
    • 这些工作共同表明,基于 RL 的推理提高了跨模态理解能力。
  • 工具增强型智能体 LMMs (Tool-Augmented Agentic LMMs):

    • 与基于 RL 的推理相辅相成,另一系列研究通过集成工具来激励 LMMs 的智能体能力。
    • 对于图像,最近的方法交错像素级操作(如放大、绘制辅助线、生成图像)以推理更精细的细节并减少幻觉。
    • 对于视频,VITAL 展示了工具增强型 RL 改进了视频问答和时间定位。

3.3. 技术演进

该领域的技术演进主要体现在以下几个方面:

  1. 从短视频到长视频的挑战: 早期 LMMs 主要关注短视频,但长视频带来的证据稀疏、时间分散、上下文冗长等问题,使得简单地扩展短视频方法变得困难。
  2. 从语言中心到视觉操作: 传统的 CoT 范式虽然增强了推理能力,但主要依赖语言生成,在视觉细节的感知和验证上存在局限,容易产生幻觉。
  3. 从被动消费到主动探索: 本文提出的 LongVT 代表了一种从被动接收视频帧到主动使用工具(如视频剪辑)来探索和验证视觉证据的转变,这更接近人类的 全局到局部 理解过程。
  4. 从单一模型到智能体协作: LongVT 引入了智能体框架,模型不再只是一个回答器,而是一个能够规划、执行、自我修正的智能体,通过工具调用增强了其感知和决策能力。
  5. 数据稀缺与专门构建: 认识到现有数据集在细粒度、证据稀疏长视频推理方面的不足,本文专门构建了 VideoSIAH 数据套件,以弥补这一空白。

3.4. 差异化分析

LongVT 与现有工作,特别是与 VITAL 的核心区别在于:

  1. 任务目标和数据集: LongVT 明确针对 video segment-in-a-haystack (视频片段寻针)推理任务,并为此贡献了大规模、高质量的 VideoSIAH 数据集和基准。VideoSIAH 不仅激发了工具集成推理,还在长视频理解中揭示了类似人类的自反思能力。而 VITAL 主要针对一般的视频问答和时间定位任务,其数据集的细粒度程度和长视频特性可能与 VideoSIAH 不同。
  2. 训练范式: LongVT 提出了一个独特的三阶段闭环训练范式,包括 SFT 冷启动、RL 和一个专门的 RFT 阶段,利用高质量的推演(rollout)轨迹进行迭代自我完善。这与现有工作可能采用的训练策略有所不同。
  3. 奖励设计: LongVT 展示了单一任务 RL 与解耦的时间定位奖励函数,也能在长视频推理中实现最先进的性能。这与以往依赖多任务目标或显式工具奖励的方法有所不同,表明其奖励设计更为简洁有效。

4. 方法论

4.1. 方法原理

LongVT 的核心思想是模拟人类理解长视频的 全局到局部 思维模式。当面对一个关于长视频的问题时,人类通常不会从头到尾逐帧观看。相反,他们会首先进行粗略的全局浏览(global skim),形成初步假设,然后放大(zoom in)到可疑或相关的视频片段,仔细检查细节以验证或修正假设。

LongVT 通过引入交错式多模态工具思维链 (interleaved Multimodal Chain-of-Tool-Thought, iMCoTT) 来实现这一机制。iMCoTT 使得 LMM 能够自然地在推理过程中,根据需要动态选择和重新检查感兴趣的视频片段。具体来说,LongVT 利用 LMM 固有的时间定位能力作为原生视频剪辑工具 (crop_video),来:

  1. 提出时间窗口 (proposing a precise window): 根据全局信息或初步推理,提出一个可能包含相关事件的时间段。

  2. 放大和重新采样 (zoom in and resample): 调用 crop_video 工具,放大该时间段,并以更细粒度的频率重新采样视频帧,以获取更详细的视觉证据。

  3. 整合证据 (integrate retrieved evidence): 将工具返回的细粒度帧整合到推理中。

  4. 自我修正 (self-correcting): 如果最初检索到的证据不足或与假设不符,模型会利用学习到的自我修正能力,重新调用工具并调整参数(例如,提出一个新的、更精确的时间窗口),直到找到确凿的视觉证据来回答问题。

    这种假设-验证 (hypothesis-verification) 循环持续进行,直到答案能够可靠地基于检索到的视觉证据。

4.2. 核心方法详解

4.2.1. VideoSIAH:用于证据稀疏长视频推理的细粒度数据套件

长视频推理与以往的视频问答设置提出了根本性的不同挑战:LMMs 必须在数小时长的内容中定位稀疏、细粒度且具有因果决定性(causally decisive)的时刻。然而,现有工具增强型 LMMs 主要使用粗粒度(coarse-grained)和片段级(clip-level)数据进行训练。这种不匹配导致现代 LMMs 缺乏学习如何形成、验证或修改时间假设所需的监督,而这对于智能体长视频推理而言是一项关键但未被充分探索的能力。此外,大多数现有视频理解基准只提供多项选择问答,这些问题可以在没有真正时间定位的情况下解决,并且容易受到数据集泄露或捷径利用的影响。

为了弥补这一空白,本文引入了 VideoSIAH,一个大规模、多样化且高质量的数据套件,它共同作为捕获“寻针式问答”(segment-in-a-haystack question-answering)所需推理动态的训练数据集,以及一个经过人工验证(human-in-the-loop validation)的细粒度评估基准 VideoSIAH-Eval,用于长视频开放式问答。

4.2.1.1. 数据流水线

VideoSIAH 通过一个半自动、结合人工验证(human-in-the-loop)的流水线进行策划,该流水线构建了与人类在证据稀疏长视频推理过程中认知过程对齐的时间定位推理轨迹。下图(原文 Figure 2)展示了 VideoSIAH 的数据流水线:

该图像是示意图,展示了LongVT框架中的长视频理解与推理流程。图中标示了视频收集、场景检测与分割、视频剪辑标注以及问题-回答对生成的各个阶段,此外还展示了多模态和基于文本的问答过滤过程。不同的模型和工具(如OpenAI和Gemini)被整合,以支持长视频内容的分析与回答生成。图中也展示了关于“野生事物”主题的视频片段及问答示例。 该图像是示意图,展示了LongVT框架中的长视频理解与推理流程。图中标示了视频收集、场景检测与分割、视频剪辑标注以及问题-回答对生成的各个阶段,此外还展示了多模态和基于文本的问答过滤过程。不同的模型和工具(如OpenAI和Gemini)被整合,以支持长视频内容的分析与回答生成。图中也展示了关于“野生事物”主题的视频片段及问答示例。

  1. 自动场景检测与分割 (Automatic Scene Detection and Segmentation): 首先,对长视频进行自动场景检测,并将连续的、短于 10 秒的片段合并,以获得语义稳定的单元,用于后续的问答生成。
  2. 详细描述生成 (Detailed Description Generation): 对于每个语义稳定的视频片段,使用 Qwen2.5-VL-72B 等模型生成详细描述,捕捉显著对象、空间关系和演变事件。这些描述作为生成时间定位问答对的语义基础。
  3. 初步问答生成 (Initial QA Generation): 从这些描述中创建初始问答对,涵盖时间事件、空间布局、运动、对象属性和场景转换,确保大规模的广泛覆盖。
  4. 两阶段过滤 (Two-Stage Filtering): 为确保数据质量,采用两阶段过滤:
    • 文本问答过滤 (Text-based QA Filtering): 使用语言启发式规则和模型一致性,去除低质量或不恰当的问答对(例如,答案泄露)。
    • 多模态问答过滤 (Multimodal QA Filtering): 使用 GLM-4.5V 等模型验证答案与视频片段之间的一致性,消除幻觉和视觉上无支持的主张。
  5. 注释者反馈循环 (Annotator Feedback Loop): 注释者(Annotator)的反馈进一步完善问答生成、过滤和 iMCoTT 构建的提示规则。这种提示-反馈(prompt-feedback)精炼循环在不进行大量手动标注的情况下提高了可靠性,生成了高保真度、时间定位且可扩展的数据。

4.2.1.2. 数据集策划

  • 监督微调 (SFT) 数据策划: SFT 数据由三个主要类别构成,旨在增强工具调用能力和通用推理性能:

    1. 工具增强多轮数据 (Tool-augmented Multi-round Data): 遵循上述流水线策划工具增强问答对。在处理数小时长的视频时,发现单轮稀疏采样的帧通常无法捕捉正确的时间片段,这使得多轮工具调用成为必要。为了解决这一限制,本文以自适应方式生成多轮工具调用轨迹,基于视频长度。具体来说,选择样本进行多轮策划的概率定义为: Pmulti=1Lmaxclip(Lvideo,Lmax,Lmin)LmaxLmin P_{\mathrm{multi}} = 1 - \frac{L_{\mathrm{max}} - \mathrm{clip}(L_{\mathrm{video}}, L_{\mathrm{max}}, L_{\mathrm{min}})}{L_{\mathrm{max}} - L_{\mathrm{min}}} 其中,PmultiP_{\mathrm{multi}} 表示选择给定数据样本进行多轮生成的概率,LvideoL_{\mathrm{video}} 表示视频长度,LmaxL_{\mathrm{max}}LminL_{\mathrm{min}} 分别是最大和最小视频长度阈值。函数 clip(x,a,b)\mathrm{clip}(x, a, b)xx 限制在范围 [b, a] 内。根据此标准选择的视频将进行多轮数据生成,以确保较长的视频获得相应更多的工具调用轮次,从而提高时间覆盖率和推理完整性。
    2. 图像推理数据 (Image Reasoning Data): 收集了多样化的图像推理数据集混合。
    3. 视频推理数据 (Video Reasoning Data): 收集了多样化的视频推理数据集混合。
  • 强化学习 (RL) 数据策划: RL 数据集从 Section 3.1 中数据流水线生成的过滤后的 segment-in-a-haystack QA 对构建。每个问答对都与其源视频的长度相关联,并根据时长(短、中、长)划分为几个波段。从这些波段中,采样一个长度平衡的子集,确保 RL 数据不会被非常短的片段主导,而是涵盖各种视频时长。在此长度平衡的池之上,应用一个简单的基于多轮工具运行的难度感知过滤器。对于每个问题,抽取当前策略的 KK 个推演(rollouts);如果所有 KK 条轨迹都回答正确(太容易)或所有 KK 条都失败(太难),则丢弃该项,只保留结果混杂的问题。这使得 RL 专注于中等难度范围,并避免退化的奖励信号,从而产生更具信息性和更稳定的优化过程。

  • 强化微调 (RFT) 数据策划: 为了构建 RFT 轨迹,从早期 RL 运行中过滤轨迹并仅保留高质量的案例。具体来说,如果模型生成了正确的最终答案,并且其预测的时间跨度与真实标注窗口的交并比(IoU)至少达到 0.3,则保留该轨迹。这个双重标准强制了语义正确性和足够精确的时间定位(temporal grounding),确保所策划的轨迹反映了真正成功的长视频推理,而不是奖励作弊或侥幸猜对。然后将这些过滤后的轨迹转换为监督训练示例,用于 RL 后的精炼。对这种自生成、良好定位的子集进行训练,提供了高精度的同分布监督(in-distribution supervision),稳定了优化,并进一步加强了模型的时间定位和工具调用行为,超出了单独 SFT 所能提供的。

    以下是原文 Table 1 的结果:

    SplitSourcePurposeSamplesTotal
    SFT (w/o tool)LongVideo-Reason CoT [4]Reasoning-augmented Open-ended QA5,238228,835
    Video-R1 CoT [8]Reasoning-augmented Video QA165,575
    Image-based CoTReasoning-augmented Image QA58,022
    SFT (w/ tool)Gemini-distilled iMCoTTTool-augmented Open-ended QA12,76619,161
    Qwen-distilled iMCoTTTool-augmented Temporal Grounding6,395
    RLGemini-distilledOpen-ended QA over Long1,66717,020
    RFTQAs Self-distilled iMCoTTVideos Agentic Behaviors15,353

表 1. VideoSIAH 数据集统计。

4.2.1.3. 数据集统计

如表 1 所示,VideoSIAH 包含 228,835 个带有常规(非工具)CoT 标注的 SFT 样本,19,161 个工具增强型 SFT 样本,以及 17,020 个用于 RLRFT 的实例。在 SFT 分割中,非工具部分主要由长视频推理数据组成,辅以 Video-R1-CoT 和少量硬性图像 CoT 监督。工具增强型子集结合了 Gemini 2.5 Flash 蒸馏的 CoT 轨迹(即 iMCoTT)用于开放式问答,以及 Qwen2.5-VL-72B-Instruct 蒸馏的轨迹用于时间定位,为工具使用和时间戳预测提供联合监督。对于 RL 分割,过滤了 Section 3.1 中的高质量问答实例子集。对于 RFT,进一步选择了高质量的 RL 推演轨迹用于 RL 后精炼,提供了密集的监督,使策略能够远超仅 SFT 的性能上限。

此外,本文引入了 VideoSIAH-Eval 基准,它包含 244 个视频和 1,280 对经过人工验证精心过滤的问答对。该基准专门设计用于长视频推理,平均视频时长约为 1,688 秒。时长分布集中在 15-30 分钟范围(71.84%),其余 28.16% 的视频时长超过 30 分钟。

4.2.2. 训练策略

为了充分利用 VideoSIAH 并激发鲁棒的“长视频思考”行为,LongVT 采用了三阶段训练流水线:

  1. 冷启动监督微调 (Cold-Start Supervised Fine-Tuning): 教授基础模型提出时间窗口、调用视频工具和组合多模态证据。
  2. 智能体强化学习 (Agentic Reinforcement Learning): 优化联合答案-时间定位奖励以精炼工具使用的推演。
  3. 智能体强化微调 (Agentic Reinforcement Fine-tuning): 将高质量的 RL 轨迹蒸馏回监督数据,以稳定这些行为并巩固长时程推理。

4.2.2.1. 冷启动监督微调 (Cold-Start Supervised Fine-Tuning)

如原文 Figure 3-(b) 所示,初步使用 Qwen2.5-VL-7B 作为基线模型进行的 RL 实验显示,模型在 RL 过程中未能改进,并在持续训练后最终崩溃。对训练动态的分析表明,基础 LMM 存在两个主要缺陷:

  1. 无法在长视频中正确地定位相关时间窗口。
  2. 在整合工具输出时推理能力不足。 这些限制表明模型的原生工具调用能力太弱,不适合直接进行 RL 训练。因此,冷启动阶段对于建立可靠的基础是不可或缺的。应用 SFT 冷启动后,模型的工具调用活跃度显著提高,并在 RL 期间持续稳步增长。

4.2.2.2. 智能体强化学习 (Agentic Reinforcement Learning)

在此阶段,将模型视为一个工具使用智能体,它决定何时检查视频、剪辑多长时间以及如何将其检索到的证据整合到推理中。本文采用 GRPO (Group Relative Policy Optimization) 来实现此目标。此外,引入了三部分奖励建模,联合优化采样轨迹的答案准确性、格式合规性和时间定位精度,即联合答案-时间定位奖励 (joint answer-temporal grounding reward)。以往的工作通常只针对答案正确性或时间对齐进行优化。本文进一步将这些信号统一到一个单一奖励函数中,用于开放式长视频问答。这种耦合将答案选择与证据在时间上的位置联系起来,提高了最终答案的正确性,并促进了推理时更有效的工具使用,以及更可靠和精确的时间戳建议。

以下是原文 Figure 3 的左图,展示了时间奖励消融实验。

该图像是图表,展示了 Time Reward Ablation(左)和 Tool Reward Ablation(右)的实验结果。图中左侧的准确率和奖励曲线与训练步数的关系,以及右侧工具调用次数的变化,反映了不同实验条件下模型的表现。 该图像是图表,展示了 Time Reward Ablation(左)和 Tool Reward Ablation(右)的实验结果。图中左侧的准确率和奖励曲线与训练步数的关系,以及右侧工具调用次数的变化,反映了不同实验条件下模型的表现。

答案准确性 (Answer Accuracy):KK 为一组中采样推演(rollouts)的数量。对于第 kk 个推演 (k{1,,K}k \in \{1, \dots, K\}),设 a^(k)\hat{a}^{(k)} 表示其生成的答案,aa^{\star} 表示真实答案。本文采用 LLM-as-a-Judge 来获得分类判断: J(k)=JudgeLLM(a^(k),a){F,P,I} J^{(k)} = \mathrm{Judge}_{\mathrm{LLM}}\left(\hat{a}^{(k)}, a^{\star}\right) \in \{\mathrm{F}, \mathrm{P}, \mathrm{I}\} 其中,F\mathrm{F} 表示完全一致(语义上等同于 aa^{\star}),P\mathrm{P} 表示部分一致(包含一些正确信息但不完整或不精确),I\mathrm{I} 表示不一致(不正确或矛盾)。 准确性奖励定义为标准化分数: Racc(k)={1,if J(k)=F,0.5,if J(k)=P,0,if J(k)=I. \mathbf{R}_{\mathrm{acc}}^{(k)} = \begin{cases} 1, & \mathrm{if~} J^{(k)} = \mathrm{F}, \\ 0.5, & \mathrm{if~} J^{(k)} = \mathrm{P}, \\ 0, & \mathrm{if~} J^{(k)} = \mathrm{I}. \end{cases}

格式合规性 (Format Compliance):y(k)y^{(k)} 表示第 kk 个推演的完整文本输出,ss 是所需的输出模式。定义: Rformat(k)={1,if y(k)matches s,0,otherwise. \mathbf{R}_{\mathrm{format}}^{(k)} = \begin{cases} 1, & \mathrm{if~} y^{(k)} \mathrm{matches~} s, \\ 0, & \mathrm{otherwise}. \end{cases}

时间重叠 (Temporal Overlap): 遵循以往的时间定位工作,使用标准时间 IoU 作为时间定位的奖励函数。对于预测 [ts,te][t_s, t_e] 和真实标注 [t'_s, t'_e]IoU 定义为: IoU=[ts,te][ts,te][ts,te][ts,te] \mathrm{IoU} = \frac{|[t_s, t_e] \cap [t'_s, t'_e]|}{|[t_s, t_e] \cup [t'_s, t'_e]|} 其中 [ts,te][t_s, t_e] 是预测的时间段,[t'_s, t'_e] 是真实标注的时间段。|\cdot| 表示时间段的长度,\cap 表示交集,\cup 表示并集。 设置: Rtime(k)=IoU(k). \mathbf{R}_{\mathrm{time}}^{(k)} = \mathrm{IoU}^{(k)}. 因此,当预测的时间跨度与真实标注区间完全匹配时,Rtime(k)=1\mathbf{R}_{\mathrm{time}}^{(k)} = 1,当没有时间重叠时,Rtime(k)=0\mathbf{R}_{\mathrm{time}}^{(k)} = 0。这种简单的形式足以在工具使用过程中驱动定位剪辑和更紧凑的时间戳建议。

总奖励 (Overall Reward): R(k)=Racc(k)+Rformat(k)+Rtime(k). \mathbf{R}^{(k)} = \mathbf{R}_{\mathrm{acc}}^{(k)} + \mathbf{R}_{\mathrm{format}}^{(k)} + \mathbf{R}_{\mathrm{time}}^{(k)}.

4.2.2.3. 智能体强化微调 (Agentic Reinforcement Fine-tuning)

最近的研究认为,RFT 已成为为大型语言模型及其多模态对应物提供强大推理能力的关键组成部分,因为它优化了直接反映任务成功的序列级奖励,而不是词元(token)级似然,并持续改进跨模态和任务的性能。受这些发现的启发,本文进一步利用 RFT 来稳定模型的智能体行为并巩固多模态推理。具体来说,从早期 RL 推演(rollouts)中选择既展现了准确时间定位又展现了对最终答案连贯推理的高质量案例,并将这些轨迹作为特权(privileged)和自蒸馏(self-distilled)演示,重新整合到监督微调课程中。

4.2.2.4. 整体框架

下图(原文 Figure 4)展示了 LongVT 的整体框架。

该图像是一个示意图,展示了LongVT的工作流程,包括全局浏览(Global Skim)与细粒度推理(Finer-grained Reasoning)。图中呈现了在视频特定时间点(如\(T_1\)和\(T_2\))重新采样的视频帧,以及通过思考和奖励管理机制得到的最终预测答案。 该图像是一个示意图,展示了LongVT的工作流程,包括全局浏览(Global Skim)与细粒度推理(Finer-grained Reasoning)。图中呈现了在视频特定时间点(如T1T_1T2T_2)重新采样的视频帧,以及通过思考和奖励管理机制得到的最终预测答案。

LongVT 以迭代的“假设-验证”(hypothesis-verification)循环运行。这种行为能力通过冷启动 SFT 得到激励,使模型能够全局浏览(skim global frames)并主动调用 crop_video 工具重新采样细粒度证据。在初始检索(例如,在 T1T_1 时)不足的情况下,模型利用学习到的自我修正能力,以改进的参数重新调用工具(例如,在 T2T_2 时)。至关重要的是,整个决策轨迹通过智能体 RL 得到巩固,RL 针对联合答案-时间定位奖励 (Racc+Rformat+Rtime)(\mathbf{R}_{\mathrm{acc}} + \mathbf{R}_{\mathrm{format}} + \mathbf{R}_{\mathrm{time}}) 优化策略,增强模型推广到类似人类验证策略的能力。

4.2.3. 附加方法论细节 (Section 10)

4.2.3.1. 下一个词元预测 (Next-Token Prediction)

SFT 期间,通过最小化目标词元(target tokens)在其前置上下文(preceding context)下的负对数似然(negative log-likelihood)来训练模型。对于一个词元序列 x=(x1,x2,,xT)x = (x_1, x_2, \dots, x_T) 和一个由 θ\theta 参数化的模型,该模型定义了条件概率 pθ(xtx<t)p_{\theta}(x_t \mid x_{<t}),损失函数定义为: L(θ)=t=1Tlogpθ(xtx<t) \mathcal{L}(\theta) = - \sum_{t=1}^{T} \log p_{\theta}(x_t \mid x_{<t}) 这鼓励模型为真实下一个词元分配更高的概率。

4.2.3.2. 群体相对策略优化 (Group Relative Policy Optimization, GRPO)

RL 期间,采用 GRPO 进行优化。对于每个提示 xDx \in \mathcal{D},从行为策略 πθold\pi_{\theta_{\mathrm{old}}} 中抽取一组 KK 个响应: y(k)πθold(x),k=1,,K,y(k)=(y1(k),,yTk(k)),Tk=len(y(k)). y^{(k)} \sim \pi_{\theta_{\mathrm{old}}}(\cdot \mid x), \quad k = 1, \dots, K, \\ y^{(k)} = (y_1^{(k)}, \dots, y_{T_k}^{(k)}), \qquad T_k = \mathrm{len}(y^{(k)}). 其中 y(k)y^{(k)} 是第 kk 个推演的响应序列,TkT_k 是其长度。 使用群体基线(group baseline)和优势函数(advantages): b=1Kk=1KR(k),A(k)=R(k)b, b = \frac{1}{K} \sum_{k=1}^{K} R^{(k)}, \qquad A^{(k)} = R^{(k)} - b, 其中 R(k)R^{(k)} 是响应 y(k)y^{(k)} 的标量回报。

策略最大化一个长度归一化、词元条件 KL 正则化目标函数: I(θ)=ExD{y(k)}πθold(x)[1Kk=1K1Tkt=1TkA(k)logπθ(yt(k)x,y<t(k))]βExD[1Kk=1K1Tkt=1TkDKL(πθ(x,y<t(k))πref(x,y<t(k)))], \begin{array}{rlr} \mathcal{I}(\theta) = \mathbb{E}_{\substack{x \sim \mathcal{D} \\ \{y^{(k)}\} \sim \pi_{\theta_{\mathrm{old}}}(\cdot \mid x)}} \bigg[ \frac{1}{K} \sum_{k=1}^{K} \frac{1}{T_k} \sum_{t=1}^{T_k} A^{(k)} \log \pi_{\theta} \big( y_t^{(k)} \mid x, y_{<t}^{(k)} \big) \bigg] & \\ & - \beta \mathbb{E}_{x \sim \mathcal{D}} \bigg[ \frac{1}{K} \sum_{k=1}^{K} \frac{1}{T_k} \sum_{t=1}^{T_k} D_{\mathrm{KL}} \Big( \pi_{\theta}(\cdot \mid x, y_{<t}^{(k)}) \| \pi_{\mathrm{ref}}(\cdot \mid x, y_{<t}^{(k)}) \Big) \bigg], \end{array} 其中 t{1,,Tk}t \in \{1, \ldots, T_k\}πref\pi_{\mathrm{ref}} 是一个冻结的参考策略,β>0\beta > 0 控制 KL 散度正则化强度。这个目标函数鼓励策略在奖励较高的响应上增加概率,同时通过 KL 散度项限制其偏离参考策略的程度,以保持训练的稳定性。

5. 实验设置

5.1. 数据集

  • VideoSIAH: 本文自建的数据套件,用于训练和评估。
    • 训练数据集:
      • SFT (w/o tool) 非工具监督微调数据: 228,835 样本,包括 LongVideo-Reason CoT (5,238 样本,增强推理的开放式 QA),Video-R1 CoT (165,575 样本,增强推理的视频 QA),以及 Image-based CoT (58,022 样本,增强推理的图像 QA)。
      • SFT (w/ tool) 工具增强监督微调数据: 19,161 样本,包括 Gemini-distilled iMCoTT (12,766 样本,工具增强的开放式 QA) 和 Qwen-distilled iMCoTT (6,395 样本,工具增强的时间定位)。
      • RL 强化学习数据: 1,667 样本,用于长视频开放式 QA 的 Gemini 蒸馏数据。
      • RFT 强化微调数据: 15,353 样本,用于自蒸馏 iMCoTT 的智能体行为。
  • VideoSIAH-Eval: 本文自建的评估基准。
    • 包含 244 个视频和 1,280 对经过人工验证(human-in-the-loop validation)精心过滤的 QA 对。

    • 平均视频时长约为 1,688 秒。

    • 时长分布:15-30 分钟范围占 71.84%,超过 30 分钟的视频占 28.16%。

    • 动机:通过对 Qwen-VL 系列模型的污染研究(contamination study),发现现有基准(VideoMME, VideoMMMU)存在严重数据泄露(No Visual 性能高)和选项模式过拟合(Rearranged Choices 性能下降)问题,而 VideoSIAH-Eval 通过开放式 QA 格式确保了零泄露和对选项偏差的免疫。

    • 以下是原文 Table 4 的结果:

      Setting VideoMME [9] VideoSIAH-Eval
      w/o subtitle adaptation comprehension perception
      Qwen2.5-VL-7B-Instruct [1]
      Original 64.3 35.7 44.3 56.7 33.8
      No Visual 40.1 25.7 38.3 39.3 12.7
      Rearranged Choices 56.0 29.7 40.3 67.0 -
      Qwen3-VL-8B-Instruct [43]
      Original 69.3 40.7 60.3 71.3 46.6
      No Visual 44.1 33.7 39.3 46.7 0.00
      Rearranged Choices 69.0 36.3 47.7 69.3 -

表 4. 现有基准中数据污染的揭示:Qwen-VL 系列模型的性能对比。

  • Image-based CoT Data: 用于冷启动 SFT 阶段的图像数据,以增强模型的基础感知能力。
    • 以下是原文 Table 5 的结果:

      SourcePurposeSamples
      LLaVA-CoT [51]General Visual Reasoning54,591
      OpenVLThinker [6]Complex Reasoning2,829
      We-Math 2.0 [32]Mathematical Reasoning602

表 5. 冷启动 SFT 的图像 CoT 数据详细统计。

  • VideoSIAH-Eval 的类别分布:

    • 视频语料库涵盖多样化的领域,从旅行与活动(Travel & Events)到游戏(Gaming)。

    • 问题类别强调动态视频推理:动作识别(Action Recognition)和时间推理(Temporal Reasoning)总共占 17%。

    • 下图(原文 Figure 6)展示了 VideoSIAH-Eval 的视频和问题类别分布。

      该图像是一个示意图,展示了视频类别(图(a))和问题类别(图(b))的分布比例。其中,视频类别包括教育、娱乐、音乐等,问题类别则涉及对象识别、空间关系、情节概述等。 该图像是一个示意图,展示了视频类别(图(a))和问题类别(图(b))的分布比例。其中,视频类别包括教育、娱乐、音乐等,问题类别则涉及对象识别、空间关系、情节概述等。

  • 其他评估基准:

    • VideoMME [9]:平均视频时长约 1018 秒,包含字幕。
    • VideoMMMU [13]:平均视频时长约 506 秒,分为 adaptation (适应)、comprehension (理解)、perception (感知) 三个子任务。
    • LVBench [46]:平均视频时长约 4101 秒。
    • Charades-STA [10]:一个时间定位基准,用于消融实验。

5.2. 评估指标

  • 准确率 (Accuracy) / LLM-as-a-Judge:

    1. 概念定义: LLM-as-a-Judge 是一种利用大型语言模型(LLM)来评估模型生成答案质量的方法。它通过比较模型答案与真实标注答案的语义一致性来打分,从而衡量答案的准确性和相关性。这种方法旨在捕捉人类评估的细微差别,超越简单的关键词匹配。
    2. 数学公式: 在本文中,LLM-as-a-Judge 产生一个分类判断 J(k){F,P,I}J^{(k)} \in \{\mathrm{F}, \mathrm{P}, \mathrm{I}\},其中 FF(Fully consistent)表示完全一致,PP(Partially consistent)表示部分一致,II(Inconsistent)表示不一致。然后将其转化为一个标准化奖励分数 Racc(k)\mathbf{R}_{\mathrm{acc}}^{(k)}Racc(k)={1,if J(k)=F,0.5,if J(k)=P,0,if J(k)=I. \mathbf{R}_{\mathrm{acc}}^{(k)} = \begin{cases} 1, & \mathrm{if~} J^{(k)} = \mathrm{F}, \\ 0.5, & \mathrm{if~} J^{(k)} = \mathrm{P}, \\ 0, & \mathrm{if~} J^{(k)} = \mathrm{I}. \end{cases}
    3. 符号解释: J(k)J^{(k)} 是第 kk 个推演的 LLM-as-a-Judge 判断结果。F\mathrm{F}P\mathrm{P}I\mathrm{I} 分别代表完全一致、部分一致和不一致的判断类别。Racc(k)\mathbf{R}_{\mathrm{acc}}^{(k)} 是第 kk 个推演的答案准确性奖励。
  • 交并比 (Intersection over Union, IoU):

    1. 概念定义: IoU 是衡量两个集合(在本例中是两个时间段)重叠程度的指标。在时间定位任务中,它量化了模型预测的时间段与真实标注时间段的匹配程度,是评估时间边界准确性的标准方法。
    2. 数学公式: IoU=[ts,te][ts,te][ts,te][ts,te] \mathrm{IoU} = \frac{|[t_s, t_e] \cap [t'_s, t'_e]|}{|[t_s, t_e] \cup [t'_s, t'_e]|}
    3. 符号解释: [ts,te][t_s, t_e] 是模型预测的时间段(从开始时间到结束时间)。[t'_s, t'_e] 是真实标注的时间段。|\cdot| 表示时间段的长度。\cap 表示两个时间段的交集(重叠部分)。\cup 表示两个时间段的并集(合并后的总范围)。
  • 平均交并比 (mean IoU, mIoU):

    1. 概念定义: mIoU 是在所有测试样本上计算的 IoU 值的平均值。它提供了模型在整个数据集上时间定位性能的总体衡量。
    2. 数学公式: 对于 NN 个样本,mIoU=1Ni=1NIoUimIoU = \frac{1}{N} \sum_{i=1}^{N} \mathrm{IoU}_i
    3. 符号解释: NN 是样本总数。IoUi\mathrm{IoU}_i 是第 ii 个样本的交并比。
  • IoU@0.3IoU@0.5IoU@0.7

    1. 概念定义: 这些指标表示在特定 IoU 阈值下,预测正确的时间段所占的比例。例如,IoU@0.5 表示所有 IoU 值大于或等于 0.5 的预测的数量,除以总预测数量。它们用于评估模型在不同严格程度的时间匹配要求下的性能。
    2. 数学公式: IoU@\tau=\frac{\text{Number of predictions with IoU} \ge \tau}{\text{Total number of predictions}}$$
    3. 符号解释: τ\tauIoU 阈值(例如 0.3, 0.5, 0.7)。

5.3. 对比基线

本文将 LongVT 方法与以下基线模型进行了比较:

  • 开源 LMMs:
    • Qwen2.5-VL-7B [1]:基础多模态模型。
    • Video-R1-7B [8]:一个通过强化学习增强视频推理能力的 LMM。
    • VideoRFT-7B [44]:另一个通过强化微调激励视频推理能力的 LMM。
    • Video-Thinker-7B [45]:一个通过强化学习激发“视频思考”的 LMM。
  • 专有 LMMs:
    • GPT-4o [16]

    • Gemini 1.5 Pro [40]

      注: 鉴于并发的工具增强型视频 LMM VITAL [57] 的模型检查点未公开,作者未将其纳入直接比较,以确保公平和可复现的实验。

5.4. 实现细节 (Section 12)

  • 基础模型: 所有实验均以 Qwen2.5-VL-7B [1] 作为基线模型。

  • 帧采样机制:

    • 稀疏帧采样 (Sparse Frame Sampling): 统一采样 64 帧视频。
    • 密集帧采样 (Dense Frame Sampling): 统一采样 512 或 768 帧视频;报告两者中较好的结果。
  • 提示方式:

    • 推理提示 (Reasoning Prompt): 表示是否应用标准推理风格的提示 (\checkmark) 或直接问答提示 (×\times)。
    • 工具调用 (Tool Calling): 表示是否在提示中启用原生工具调用 (\checkmark) 或禁用 (×\times)。
  • 详细超参数: 以下是原文 Table 6 的结果:

    ComponentSFTRLRFT
    OptimizerAdamW [29]AdamWAdamW
    Learning Rate (LR)5e-51e-65e-5
    LR Schedulercosineconstantcosine
    Weight Decay0.01e-20.0
    No. of Training Steps30001601600
    No. of Warmup Steps3000160
    Max Length512005238451200
    Dynamic Batch SizeTrueFalseTrue
    Remove PaddingTrueTrueTrue
    Liger KernelTrueFalseTrue
    No. of GPUs326464
    No. of Frames512512512

表 6. 各训练阶段的详细超参数。

  • SFT (冷启动监督微调):

    • 使用 Qwen2.5-VL-7B-Instruct 初始化。
    • 采用 LMMs-Engine [28] 框架。
    • 为优化训练吞吐量和最小化内存开销,采用迭代数据集上的在线流式打包(online stream packing)策略。将输入样本连接起来填充固定大小 51,200 词元的缓冲区,消除冗余计算。动态批处理数据以最大化 GPU 利用率。
    • 训练直到收敛。
  • RL (智能体强化学习):

    • 基于 verl [36] 库,通过 SGLang [60] 扩展支持多轮、多模态工具增强型推演。
    • 配置全局批大小为 16,每个提示采样 16 个推演。
    • 最大新词元数量限制为 16,384,总提示长度硬上限为 36,000 词元。
    • 所有实验中保持 1.0 的恒定温度(temperature)以鼓励探索。
    • 采用早期停止策略,一旦奖励指标饱和即终止训练。
  • RFT (智能体强化微调):

    • 旨在巩固 RL 产生的智能体行为。
    • 沿用 SFT 阶段的高效训练基础设施和流式打包协议。
    • 关键在于使用 RL 获得的最佳性能检查点进行初始化。
    • 训练语料库包含从 RL 推演中筛选出的高质量、自蒸馏轨迹。
    • 计算资源从 32 个 GPU 扩展到 64 个 GPU,训练步数调整为约 1,600 步。
  • 评估:

    • 使用 LMMs-Eva1 [58] 框架进行全面评估。
    • 部署标准模型上下文协议服务器(Model Context Protocol server)和支持异步请求连续批处理的在线推理引擎 [19],以鲁棒地评估工具调用能力。
    • 在生成流中注入特殊分隔符标签,以严格解析推理步骤、工具调用和最终答案。
    • 性能通过混合评分机制量化,该机制整合了确定性基于规则的验证器和通过 LLM-as-a-Judge [53] 方法进行的语义评估。

6. 实验结果与分析

6.1. 核心结果分析

以下是原文 Table 2 的结果:

Model Reasoning Prompt Tool Calling VideoMME (≈1018 sec) [9] w/ subtitle VideoMMMU (≈506 sec) [13] LVBench [46] VideoSIAH-Eval Average Score
adaptation comprehension perception (≈4101 sec) (≈1688 sec)
Proprietary LMMs
GPT-4o [16] X X 77.2 66.0† 62.0† 55.7† 30.8† 17.4 51.5
Gemini 1.5 Pro [40] X X 81.3* 59.0* 53.3 49.3 33.1* - 55.2
Open-Source LMMs with Sparse Frame Sampling
Qwen2.5-VL-7B [1] × X 62.6 37.3 28.0 36.7 30.7 28.1 37.2
Video-R1-7B [8] × 61.0 36.3 40.7 52.3 37.2 27.9 42.6
VideoRFT-7B [44] X 60.9 36.7 42.0 53.0 34.7 26.5 42.3
Video-Thinker-7B [45] X 61.0 34.3 44.7 53.0 52.2 10.4 42.6
LongVT-7B-SFT (Ours) 12.5 37.7 46.0 58.3 36.0 26.8 36.2
LongVT-7B-RL (Ours) ~ ; 66.1 32.7 44.7 50 37.8 31.0 43.7
Open-Source LMMs with Dense Frame Sampling
Qwen2.5-VL-7B [1] X X 64.3 35.7 44.3 56.7 40.9 33.8 46.0
Video-R1-7B [8] X 60.5 37.3 38.7 46.3 40.1 33.1 42.7
VideoRFT-7B [44] X 49.2 37.7 40.7 48.7 18.7 26.9 37.0
Video-Thinker-7B [45] X 60.8 37.7 42.7 55.3 54.3 6.6 42.9
LongVT-7B-SFT (Ours) 64.9 32.3 42.0 49.7 41.1 34.8 44.1
LongVT-7B-RL (Ours) 66.1 37.7 42.3 56.3 41.4 35.9 46.6
LongVT-7B-RFT (Ours) ~ 67.0 35.7 43.7 56.7 41.3 42.0 47.7

表 2. LongVT 在各种长视频理解和推理基准上的性能比较。

分析:

  • 整体性能: LongVT 在所有开源视频中心 LMMs 中取得了新的最先进(state-of-the-art)结果,无论是在稀疏帧采样还是密集帧采样设置下。
  • 稀疏帧采样 (Sparse Frame Sampling): LongVT-7B-RL 略微超过了现有最佳开源基线(43.7 vs. 42.6)。然而,LongVT-7B-SFT 在这个设置下表现不佳,特别是在 VideoMME 上分数非常低(12.5),这可能反映了在只有 SFT 且帧数较少时,模型对工具调用的依赖性以及其可能未能有效利用稀疏帧进行决策。
  • 密集帧采样 (Dense Frame Sampling): LongVT-7B-RLLongVT-7B-RFT 表现出更强的优势,显著优于现有方法。其中 LongVT-7B-RFT 达到了 47.7 的平均分,领先第二名 Qwen2.5-VL-7B (46.0) 和 LongVT-7B-RL (46.6) 一大截。
  • VideoSIAH-Eval 上的表现: 在具有挑战性的 VideoSIAH-Eval 基准上,该基准涉及需要从数小时长的视频中检索细粒度证据的开放式问答,LongVT-7B-RFT 达到了 42.0 分,比第二名模型高出 6 分,这证实了 LongVT 实现了更强的长视频推理能力,并展现了调用原生工具进行时间定位的涌现能力。
  • 与专有 LMMs 的差距缩小: 值得注意的是,开源 LMMs 与专有 LMMs 之间的差距已大幅缩小:LongVT 表现最佳的检查点平均得分与 GPT-4o 大约只有 4 分的差距(47.7 vs. 51.5),这标志着开源 LMMs 在长视频推理能力方面迈出了重要一步。

6.2. 消融实验/参数分析

以下是原文 Table 3 的结果:

Setting VideoMME [9] VideoMMMU [13] LVBench [46] VideoSIAH-Eval Average Score
w/ subtitle adaptation comprehension perception test test
Data Recipe
SFT w/o self-curated iMCoTT 8.4 33.6 41.6 46.0 15.1 4.1 24.8
SFT w/ self-curated iMCoTT (LongVT-7B-SFT) 64.9 32.3 42.0 49.7 41.1 34.8 44.1
RL w/o self-curated QAs 55.1 30.6 42.0 45.6 38.4 30.8 40.4
RL w/ self-curated QAs (LongVT-7B-RL) 66.1 37.7 42.3 56.3 41.4 35.9 46.6
Training Stage
SFT only (LongVT-7B-SFT) 64.9 32.3 42.0 49.7 41.1 34.8 44.1
RL only 52.7 35.33 43.0 55.1 37.1 28.2 41.9
SFT+RL (LongVT-7B-RL) 66.1 37.7 42.3 56.3 41.4 35.9 46.6
SFT+RL+RFT (LongVT-7B-RFT) 67.0 35.7 43.7 56.7 41.3 42.0 47.7
Decoupled Temporal Grounding Reward
Charades-STA [10]
IOU@0.3 IoU@0.5 IoU@0.7 mIoU Average Score
RL w/o Decoupled Reward 31.5 19.9 9.1 21.2 20.4
RL w/ Recall Reward 32.0 20.4 9.6 21.6 20.9
RL w/IoU Reward 41.0 25.8 11.7 27.2 26.4

表 3. SFT、RL 和解耦时间定位奖励的消融实验。

分析:

  1. 细粒度推理数据的重要性 (Fine-grained reasoning data matters):

    • SFT 阶段,移除自策划的 iMCoTTsSFT w/o self-curated iMCoTT)导致长视频理解性能大幅下降(平均分从 44.1 降至 24.8)。这表明自策划的工具增强数据对于塑造模型处理长视频的推理行为至关重要。
    • RL 阶段,如果移除了自策划的问答对(RL w/o self-curated QAs),模型在 VideoSIAH-Eval 上的性能迅速下降(平均分从 46.6 降至 40.4),答案准确性降低,时间定位能力减弱,工具使用也不那么系统。这进一步强调了高质量、特定任务数据在 RL 中的关键作用。
  2. 召回率(Recall)鼓励覆盖,交并比(IoU)要求精确 (Recall encourages coverage; IoU demands precision):

    • Decoupled Temporal Grounding Reward 消融实验中,使用 Recall 作为奖励函数会导致一个问题:策略可能会扩大预测的时间跨度以包围真实标注区间,从而单调提高基于 Recall 的分数,但忽略边界质量。
    • 定量来看,在 Charades-STA 基准上,IoU 奖励训练(RL w/IoU Reward)在各项 IoU 指标上(包括 mIoU 达到 27.2)均显著优于 Recall 奖励(RL w/ Recall RewardmIoU 20.9)和无解耦奖励的 RLRL w/o Decoupled RewardmIoU 20.4)。这表明 IoU 对边界对齐有更严格的约束,通过并集项隐式惩罚了跨度膨胀,从而产生了更精确的边界和更规范的工具使用。
  3. 工具奖励是否必要 (Is tool reward really necessary?):

    • 如原文 Figure 3-(b) 所示,基线 Qwen2.5-VL-7B 在有无工具奖励的配置下,训练后工具调用次数都接近零,表明模型并未内化工具的功能。
    • 经过冷启动 SFT 获得 LongVT-7B-SFT 后,工具调用频率在两种配置下均有所上升,准确性也随之提高。这表明一旦 SFT 奠定了工具的语义基础,模型就能学会何时调用工具以及何时不调用。
    • 然而,引入工具奖励带来的好处很小。在训练后期,没有工具奖励的配置甚至显示出略高的工具使用频率,这表明二进制奖励并不能鼓励使用,反而可能抑制探索,而准确性基本保持不变。
    • 鉴于这些观察,作者在最终方案中放弃了工具奖励,转而依赖标准的准确性、格式和解耦 IoU 奖励建模。
  4. SFT 建立能力,RL 优化决策,RFT 稳定行为 (SFT builds competence; RL optimizes decisions; RFT stabilizes behaviors):

    • RL only: 仅进行 RL 训练的模型在所有基准上的得分最低(平均分 41.9),并且在训练过程中表现出行为不一致性——经常遵循表面指令,但对返回的剪辑感到困惑,未能将其用作支持证据。这证实了 SFT 冷启动的重要性。
    • SFT only (LongVT-7B-SFT):SFT 训练的模型(平均分 44.1)建立了工具使用范式——选择时间窗口、检查其内容并将证据整合到最终答案中。然而,SFT 仍然是模仿驱动的,容易受到暴露偏差(exposure bias)的影响,并且在分布变化下泛化能力不足。
    • SFT+RL (LongVT-7B-RL): 结合 SFTRL 的模型(平均分 46.6)性能显著提升。RL 使策略学会何时检查、剪辑多长时间以及如何整合检索到的证据。此阶段将性能推向超越监督学习上限的水平,并在未见过的视频和问题模板上实现泛化。
    • SFT+RL+RFT (LongVT-7B-RFT): 最终的三阶段流水线(平均分 47.7)通过 RFT 将高奖励轨迹蒸馏回监督语料库,提供了额外的性能提升。在 VideoSIAH-Eval 上,它显著超越了仅 RL 的平台期,并产生了表现最佳的模型,同时在其他基准上也提供了持续改进。这表明巩固成功的推演对于充分实现时间定位反馈的好处至关重要。

6.3. 推理效率分析 (Section 13)

以下是原文 Table 7 的结果:

ModelVideoMMMU [13]LVBench [46]VideoMME [9]VideoSIAH-EvalAverage
Qwen2.5-VL-7B [1]2108.62014.73031.61834.32247.3
Video-R1-7B [8]1341.81550.62483.31900.31819.0
VideoRFT-7B [44]1937.92154.33544.22052.62422.3
Video-Thinker-7B [45]3153.83834.92475.11899.22840.8
LongVT-7B-RFT (Ours)1329.81509.32754.01891.11871.1

表 7. LongVT 在各种长视频理解和推理基准上的推理延迟比较(以秒为单位)。

分析:

  • 效率表现: 尽管 LongVT-7B-RFT 包含了多轮工具交互,它仍展现出显著的效率,在 VideoMMMU (1329.8 秒) 和 LVBench (1509.3 秒) 上实现了最低的延迟,并在 VideoMMEVideoSIAH-Eval 上保持了高度竞争力。其平均延迟为 1871.1 秒,低于 Qwen2.5-VL-7B (2247.3 秒) 和 VideoRFT-7B (2422.3 秒)。
  • 反直觉的效率原因: 这种多轮智能体框架反而比单轮基线更高效的现象,可以归因于 LongVT 推理的精确性。基线模型,如 Qwen2.5-VL,在不确定时更容易产生幻觉,通过“盲目复述”不确定的视觉记忆来生成冗余描述。而 LongVT 主动寻求证据,通过将答案基于检索到的帧来避免不确定性驱动的冗长编造,从而实现更简洁和更快速的词元生成。
  • 效率语境: “最快”并不意味着随意跳过内容,而是与人类观看习惯一致:不期望测试者从头到尾逐帧观看整个视频。在 LMMs 的语境下,这转化为策略性采样和编码相关片段的能力,避免了编码极长序列带来的高昂计算成本和上下文溢出。

6.4. 定性分析与案例 (Section 14)

  • 人类对齐的思维 (Human-Aligned Thinking - Section 7):

    • 原文 Figure 5 展示了 Gemini 2.5 ProGPT-5 Thinking 提出的视频分析策略,它们都遵循 全局到局部 的两阶段或多阶段搜索策略(例如,“Coarse Scan”和“Fine Scan”),这与 LongVT 的 iMCoTT 设计理念高度一致。

    • 下图(原文 Figure 5)展示了领先的专有 LMMs 的人类对齐思维。

      该图像是示意图,展示了两种观看策略:Gemini 2.5 Pro 和 GPT-5 思维。图中分别解释了如何有效地定位视频中的信息,以及在分析过程中如何利用视觉线索来提取细节,以实现更精确的理解和分析。 该图像是示意图,展示了两种观看策略:Gemini 2.5 Pro 和 GPT-5 思维。图中分别解释了如何有效地定位视频中的信息,以及在分析过程中如何利用视觉线索来提取细节,以实现更精确的理解和分析。

  • 反思轨迹:从冗余自我修正到内化工具使用 (Reflection Trajectory: From Verbose Self-Correction to Internalized Tool Usage - Section 11):

    • 原文 Figure 7 可视化了模型内部思维过程的演变,特别是“反思词元”比例的趋势。

    • 冗余自我修正 (Verbose Self-Correction) (0-50 步): 反思密度最初很高。由于定位准确性不足,模型依赖大量的自我修正和迭代语言推理来弥补次优的工具使用。

    • 效率优化 (Efficiency Optimization) (50-80 步): 随着策略成熟,反思密度显著下降。模型识别出冗长的反思是多余的,自主地修剪不必要的语言填充词以最大化奖励效率。

    • 内化熟练度 (Internalized Proficiency) (80 步后): 曲线稳定在简洁的基线水平,表明转向选择性推理——模型仅在解决歧义时调用显式反思,已内化工具交互的核心语义。

    • 词云进一步证实了剩余的反思词元是语义上扎实的(例如,“segment”、“confirm”),作为时间推理的功能锚点,而非生成泛泛的语言填充词。

    • 下图(原文 Figure 7)展示了所有推演中反思相关词汇的趋势和相应的词云。

      Figure 7. Trend of Reflection-Related Words and the Corresponding Word Cloud across All Rollouts. 该图像是图表和字云的组合,展示了训练过程中反思相关词汇的变化趋势。左侧图表显示了训练步骤与反思词汇比例的关系,其中平滑曲线表示反思词汇的相对比例,而右侧的字云则呈现了最后一步滚动输出的常用词,突出显示了与视频理解相关的重要词汇。

  • 推理和推演示例:

    • 单轮自我修正 (Single-turn Self-correction): 原文 Figure 11 展示了模型如何在单轮中通过内部独白(internal monologue)重新检查视觉证据,成功自我修正初始幻觉(例如,将颜色从“粉红”修正为“蓝色”)。
    • 多轮工具交互 (Multi-turn Tool Interaction): 原文 Figure 12 展示了一个多轮示例,其中工具交互迭代地精炼时间窗口,直到找到正确的证据(例如,最初定位错误,然后通过多次 crop_video 调用最终找到美国国旗)。
    • 与文本 CoT 基线的对比 (Comparison with Textual CoT Baseline): 原文 Figure 13 比较了 LongVT 与标准文本 CoT 基线。文本 CoT 容易对未见的视觉细节产生幻觉(例如,错误的对象外观),而 LongVT 遵循主动的验证和纠正程序——检测到检索到的片段缺少查询对象,调整剪辑区域,最终定位到正确证据并给出准确答案。

6.5. 失败案例分析 (Section 15)

  • 原文 Figure 14 展示了一个代表性的失败案例,用于说明主论文 Section 5.3 中讨论的纯 RL 变体的不稳定性。
  • 在此案例中,模型正确识别出需要调用工具来检查玻璃咖啡桌。然而,在接收到重新采样的视频帧后,它未能整合返回的证据来回答具体问题(“哪个视频游戏设备”)。模型没有执行所需的推理,而是被上下文切换所困扰,回到了泛泛的视频字幕,仅仅重复了表面场景描述。
  • 这个行为强调了 SFT 冷启动的重要性,它能够教授模型工具使用的预期语义,使其能够正确解释工具输出并将其整合到推理过程中。
    • 下图(原文 Figure 14)展示了纯 RL 变体的失败案例。

      该图像是图表,展示了一系列与长视频推理相关的样本和工具的示意。图中的内容可能涉及长视频理解和推理任务的数据样本,反映了训练和评估过程中的关键步骤及工具调用。整体结构清晰,能够有效帮助理解长视频推理框架的工作原理。 该图像是图表,展示了一系列与长视频推理相关的样本和工具的示意。图中的内容可能涉及长视频理解和推理任务的数据样本,反映了训练和评估过程中的关键步骤及工具调用。整体结构清晰,能够有效帮助理解长视频推理框架的工作原理。

7. 总结与思考

7.1. 结论总结

本文介绍了 LongVT,一个端到端的智能体框架,旨在使大型多模态模型(LMMs)能够可靠地对长视频进行推理。通过将多模态工具增强思维链(iMCoTT)与按需时间检查交错进行,LongVT 将长视频理解从被动的帧消费转变为主动的、寻求证据的推理。该框架由自策划的 VideoSIAH 数据套件支持,这是一个专门为证据稀疏长视频推理任务构建的大规模、细粒度数据套件。通过精心设计的三阶段训练流水线(冷启动监督微调、智能体强化学习和智能体强化微调),LongVT 与现有强大的基线模型相比,取得了显著且持续的改进。

7.2. 局限性与未来工作

  • 局限性: 尽管效率分析表明多轮工具交互不会带来显著的延迟惩罚,但此类递归推理的内存占用仍然是一个瓶颈。LongVT 的单智能体架构受限于底层 LMM 固有的上下文窗口:随着交互轮次的增加(由于需要多次 crop_video 调用来检查超长或无限视频流),历史词元(包括工具返回的密集视觉特征)的累积会迅速耗尽上下文预算。这种累积带来了训练过程中内存溢出(Out-of-Memory)错误和因截断导致的性能下降风险。

  • 未来工作: 解决上述限制的一个有前景的方向是多智能体协作 (multi-agent collaboration)。受 MATPO [31] 等多智能体强化学习最新进展的启发,可以设想一个分层框架,其中上下文管理与推理解耦。在这个未来的范式中,一个“管理器智能体”(Manager Agent)可以协调高层规划并将子任务分派给专门的“工作智能体”(Worker Agents),每个工作智能体负责检查不同的时间段或执行特定的工具调用。通过让工作智能体将其观察结果总结成简洁的自然语言更新给管理器,这样一个系统理论上可以支持无限时程的推理循环,而不会出现上下文溢出。本文将对这种可扩展的、分而治之的架构的探索留给未来的工作。

7.3. 个人启发与批判

  • 个人启发:

    1. 人类认知模拟: 这篇论文最吸引人的地方在于它从人类理解长视频的直觉中汲取灵感。全局到局部 的推理模式,以及 假设-验证 的循环,是人类处理复杂信息时的常见策略。将这种认知模式引入 LMMs,使其能够主动利用工具进行探索和修正,是提升模型智能水平的关键一步。
    2. 数据与模型共同进化: VideoSIAH 数据集的构建,特别是其针对 segment-in-a-haystack 场景的细粒度特性,以及对现有基准数据污染的批判性分析,都强调了高质量、任务特定数据对于推动模型能力上限的重要性。模型和数据之间的这种共同进化是 AI 领域进步的根本。
    3. 多阶段训练的精妙: 三阶段训练策略(SFT、RL、RFT)的设计非常精妙。SFT 建立基础能力,RL 优化决策和泛化,RFT 通过高质量自蒸馏数据稳定和巩固行为,形成一个循序渐进且相互强化的学习过程。这为解决复杂任务的 LMM 训练提供了一个强有力的范式。
    4. 效率的意外之喜: 论文证明了即使是多轮工具调用,也能在某些情况下比单轮基线更高效,这打破了直觉。其核心在于“精确推理”减少了不确定性导致的冗余生成,这对于实际部署具有重要意义。
  • 批判与潜在改进:

    1. 多智能体协作的复杂性: 论文在未来工作中提出了多智能体协作来解决上下文限制,这无疑是一个有前景的方向。然而,多智能体系统本身就带来了新的复杂性,如智能体间的通信协议、任务分配、冲突解决、奖励分配以及整体系统的可解释性等。如何在实际中高效且稳定地实现这种协作,将是巨大的挑战。

    2. 工具泛化能力: LongVT 目前主要依赖 crop_video 这一个原生工具。虽然有效,但现实世界中的视频理解可能需要更多样化的工具,例如:对象检测工具、人脸识别工具、文字识别工具(OCR)、情感分析工具,甚至外部知识库查询工具。如何将 LongVT 扩展到一个更丰富、更灵活的工具集,并确保模型能够智能地选择和组合这些工具,是未来需要探索的。

    3. 人类反馈的成本: 尽管 VideoSIAH 采用半自动化和人工验证相结合的方式,但长视频的人工标注和验证成本依然高昂。随着视频长度和复杂度的增加,如何进一步降低人工干预的成本,或者开发更智能的自动数据增强和质量控制机制,将是关键。

    4. “涌现能力”的边界: 论文提到 LongVT 展现了调用原生工具进行时间定位的“涌现能力”(emergent ability)。然而,这种涌现能力在多大程度上是可控和可预测的?在更复杂的、长尾的场景下,模型是否仍能可靠地涌现出正确的工具使用行为,或者是否会产生新的幻觉模式,这需要更深入的研究和更广泛的测试。

    5. 实时性要求: 虽然论文展示了推理效率的提升,但在某些对实时性要求极高的应用场景(如自动驾驶、安防监控),即使是几秒钟的延迟也可能无法接受。如何进一步优化推理速度,使其能够满足更严格的实时应用需求,将是重要的挑战。

      总而言之,LongVT 在长视频理解领域迈出了坚实的一步,提供了一个新颖且有效的智能体框架和高质量的数据。其对人类认知模式的借鉴和三阶段训练策略都极具启发性。同时,其指出的局限性也为未来的研究指明了清晰且富有挑战性的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。