VideoAgent: Long-form Video Understanding with Large Language Model as Agent
TL;DR 精炼摘要
本文提出一种新方法VideoAgent,通过基于智能体的系统实现长视频理解。该系统结合大型语言模型和视觉语言基础模型,强调交互式推理与规划,而非直接处理长视觉序列。在EgoSchema和NExT-QA基准测试上,VideoAgent分别达到了54.1%和71.3%的零样本准确率,平均仅用8.4和8.2帧,展示了其卓越的效率与有效性。
摘要
Long-form video understanding represents a significant challenge within computer vision, demanding a model capable of reasoning over long multi-modal sequences. Motivated by the human cognitive process for long-form video understanding, we emphasize interactive reasoning and planning over the ability to process lengthy visual inputs. We introduce a novel agent-based system, VideoAgent, that employs a large language model as a central agent to iteratively identify and compile crucial information to answer a question, with vision-language foundation models serving as tools to translate and retrieve visual information. Evaluated on the challenging EgoSchema and NExT-QA benchmarks, VideoAgent achieves 54.1% and 71.3% zero-shot accuracy with only 8.4 and 8.2 frames used on average. These results demonstrate superior effectiveness and efficiency of our method over the current state-of-the-art methods, highlighting the potential of agent-based approaches in advancing long-form video understanding.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
VideoAgent: Long-form Video Understanding with Large Language Model as Agent
1.2. 作者
Xiaohan Wang , Yuhui Zhang , Orr Zohar, and Serena Yeung-Levy
作者单位: 斯坦福大学 (Stanford University)
1.3. 发表期刊/会议
该论文发布于预印本平台 arXiv,尚未正式发表于期刊或会议。预印本在相关领域(计算机视觉、自然语言处理、人工智能)通常具有较高的关注度,尤其对于前沿研究。
1.4. 发表年份
2024年
1.5. 摘要
长视频理解 (Long-form video understanding) 在计算机视觉领域是一个重大挑战,它要求模型能够对长多模态序列进行推理。受人类理解长视频认知过程的启发,本文强调交互式推理 (interactive reasoning) 和规划 (planning),而非直接处理冗长的视觉输入。我们引入了一个新颖的基于智能体 (agent-based) 的系统 VideoAgent,该系统使用一个大型语言模型 (Large Language Model, LLM) 作为核心智能体,迭代地识别和编译关键信息以回答问题,并以视觉语言基础模型 (Vision-Language Foundation Models, VLM) 作为工具来翻译和检索视觉信息。在具有挑战性的 EgoSchema 和 NExT-QA 基准测试中,VideoAgent 实现了 54.1% 和 71.3% 的零样本 (zero-shot) 准确率,平均仅使用 8.4 和 8.2 帧。这些结果表明,与当前最先进的方法相比,我们的方法具有卓越的有效性和效率,突出了基于智能体的方法在推动长视频理解方面的潜力。
1.6. 原文链接
https://arxiv.org/abs/2403.10517
1.7. PDF 链接
https://arxiv.org/pdf/2403.10517v1.pdf 发布状态: 预印本 (Preprint)
2. 整体概括
2.1. 研究背景与动机
2.1.1. 论文试图解决的核心问题
论文旨在解决计算机视觉领域中长视频理解 (Long-form video understanding) 的固有挑战。长视频通常持续数分钟甚至数小时,这要求模型能够:
- 处理多模态信息(视觉、听觉、文本)。
- 处理极长的序列输入,这带来了巨大的计算和内存开销。
- 对这些长序列进行有效推理。
2.1.2. 问题的重要性及现有挑战
长视频理解在智能监控、自动驾驶、教育、娱乐等领域都有广泛应用。然而,现有研究在同时处理上述三个挑战方面存在困难:
- 大型语言模型 (Large Language Models, LLMs) 擅长推理和处理长文本上下文,但缺乏直接处理视觉信息的能力。
- 视觉语言模型 (Vision-Language Models, VLMs) 难以建模冗长的视觉输入,它们通常对输入的帧数有限制,难以扩展到小时级别的视频。早期的适应性工作在视频理解基准上表现不佳,且在处理长视频内容时效率低下。
- 现有方法瓶颈: 许多现有方法要么需要将整个长视频一次性输入模型(计算效率低,信息冗余),要么依赖单一的、静态的帧采样策略(可能遗漏关键信息或引入噪声)。
2.1.3. 论文的切入点与创新思路
论文受人类认知过程的启发,提出了一种全新的解决思路:当人类理解一个长视频时,并不会一次性处理所有信息。相反,他们会先快速浏览以了解上下文,然后根据具体问题,迭代地选择新帧来收集相关信息,直到信息足够回答问题为止。
基于这种人类认知模式,论文强调交互式推理 (interactive reasoning) 和规划 (planning),而非直接处理冗长的视觉输入。核心思想是:与其让模型直接处理海量视觉数据,不如让模型像人类一样,通过智能体 (agent) 的方式,主动、有策略地去“寻找”和“筛选”视频中的关键信息。
2.2. 核心贡献/主要发现
2.2.1. 论文最主要的贡献
- 提出了
VideoAgent系统:VideoAgent是一个新颖的、基于智能体的长视频理解框架,它将大型语言模型 (LLM) 作为核心智能体,协调视觉语言模型 (VLM) 和对比语言-图像模型 (CLIP) 等工具,通过迭代式推理和规划来解决问题。 - 模拟人类认知过程: 该系统模拟了人类理解长视频的交互式过程,即先概览视频上下文,然后根据问题迭代地搜索和聚合关键信息。
- 强调推理和迭代过程:
VideoAgent强调了推理能力和迭代过程在视频理解中的核心作用,而非仅仅是处理超长视觉输入的能力。 - 多轮自适应帧选择: 与传统的统一采样或单轮选择帧方法不同,
VideoAgent采用多轮自适应帧选择策略,确保所收集的信息更精准地满足当前需求,并能够根据问题动态地重写查询以实现更精细的帧检索。
2.2.2. 论文得出的关键结论或发现
- 卓越的有效性和效率:
VideoAgent在 EgoSchema 和 NExT-QA 这两个具有挑战性的长视频理解基准测试中,零样本准确率分别达到了 54.1% 和 71.3%。这些结果显著优于现有最先进的方法,同时平均仅使用 8.4 和 8.2 帧,展示了极高的帧效率(比 SOTA 方法少 20 倍)。 - 优于大型专有模型: 在 EgoSchema 上,
VideoAgent的性能与 Gemini-1.0 Pro 等先进的专有模型相当。 - 迭代过程的重要性: 消融研究 (ablation studies) 证实了迭代式帧选择过程的重要性,它能根据视频复杂性自适应地搜索和聚合相关信息。
- 对不同问题类型的适应性:
VideoAgent能够根据问题类型的难度(描述性、因果、时间推理)自适应地调整所需帧数,时间推理问题通常需要更多帧。 - 对任意长视频的泛化能力: 案例研究表明,
VideoAgent能够泛化到小时级别的长视频,并有效识别关键帧,甚至能够增强如 GPT-4V 等模型的理解能力。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 长视频理解 (Long-form Video Understanding)
指对持续时间从几分钟到几小时的视频内容进行理解。这不仅包括识别视频中的对象和动作,更重要的是理解视频事件的逻辑关系、时间顺序、因果关系等深层语义信息。其挑战在于视频数据量大、信息冗余、时间跨度长,对模型的计算效率和推理能力提出了极高要求。
3.1.2. 大型语言模型 (Large Language Model, LLM)
大型语言模型是拥有海量参数(通常数十亿甚至数千亿)的深度学习模型,通过在海量文本数据上进行预训练,学习了丰富的语言知识、模式和推理能力。它们能够执行文本生成、问答、摘要、翻译等多种自然语言处理任务。LLM 的核心优势在于其强大的推理能力和处理长文本上下文的能力。本文使用的 GPT-4 就是一个典型的 LLM。
3.1.3. 视觉语言模型 (Vision-Language Model, VLM)
视觉语言模型是结合了计算机视觉和自然语言处理能力的模型。它们可以理解和处理图像或视频数据,并将其与文本信息关联起来。常见的 VLM 任务包括图像字幕生成 (image captioning)、视觉问答 (visual question answering) 等。在本文中,VLM 被用作一种“工具”,将视频帧的视觉内容转换为文本描述,供 LLM 理解。
3.1.4. 对比语言-图像预训练 (Contrastive Language-Image Pre-training, CLIP)
CLIP 是一种由 OpenAI 开发的神经网络模型,它通过在大规模图像-文本对上进行对比学习 (contrastive learning) 来预训练。CLIP 能够学习图像和文本之间的语义对齐,从而使得在给定一个文本描述时,可以有效地检索出相关的图像,反之亦然。其特点是具有强大的零样本 (zero-shot) 泛化能力。在 VideoAgent 中,CLIP 被用作检索模块,根据 LLM 生成的文本查询来查找视频中最相关的帧。
3.1.5. 智能体 (Agent)
在人工智能领域,智能体 (agent) 是指一个能够感知环境、做出决策并采取行动以实现特定目标的实体。一个智能体通常包括感知、规划和行动三个核心组件。在本文中,LLM 被用作核心智能体,负责感知当前信息(状态)、规划下一步行动(是回答问题还是搜索更多信息)、并调用工具(VLM、CLIP)来执行行动。
3.2. 前人工作
3.2.1. 长视频理解方法
长视频理解方法通常需要平衡计算效率和性能,主要分为两类:
-
压缩稀疏性方法 (Compressive Sparsity Methods): 旨在将视频压缩成有意义的、低维的嵌入 (embeddings) 或表示 (representations)。
- 示例:
MovieChat[42] 使用内存整合机制,通过余弦相似度合并相似的相邻帧词元 (frame tokens),减少冗余。Chat-UniVi[14] 利用 kNN 聚类对视频词元进行时空压缩。 - 非嵌入压缩: 也可以压缩成时空图 (space-time graphs) [10, 50, 59] 或文本 [19, 38, 67]。例如,
LLoVi[67] 通过简单地为视频生成字幕,然后用这些字幕提示 LLM 来作为强基线。
- 示例:
-
选择性压缩方法 (Selective-Compressive Methodologies): 试图根据输入问题/文本的指导,对视频进行子采样,以选择与问题相关的帧。
- 示例:
R-VLM和R2A[8, 33, 56] 利用CLIP模型根据文本提示检索相关帧。Q-ViD[38] 利用问题选择性地为视频生成字幕。
- 示例:
3.2.2. LLM 智能体 (LLM Agents)
智能体被定义为在动态实时环境中做出决策并采取行动以实现特定目标的实体。随着大型语言模型 (LLMs) 在推理和规划能力方面的进步 [52, 62, 70],研究人员开始利用它们作为现实世界场景中的智能体 [35, 63]。
- 应用领域: 在线搜索、纸牌游戏、数据库管理 [25, 26, 61]。
- 增强方法: 结合思维链推理 (chain-of-thought reasoning) 或自我反思 (self-reflection) [41, 52] 可以进一步增强其有效性。
- 计算机视觉中的应用: 计算机视觉社区也开始探索基于 LLM 智能体的方法,应用于 GUI 理解和机器人导航 [3, 5, 9, 45]。
- 视频理解中的早期尝试: 某些研究初步尝试了智能体式方法,利用 LLM 与外部工具交互或整合额外功能 [6, 45, 60]。
3.3. 技术演进
长视频理解的技术演进大致经历了从全量处理到稀疏压缩,再到选择性采样,直至本文提出的智能体驱动的迭代推理。
- 早期: 专注于如何处理大量的时空数据,例如通过复杂的网络结构或特征聚合方法。
- 中期: 意识到全量处理的效率瓶颈,开始探索数据压缩(如视频嵌入、图表示)或稀疏采样(如均匀采样、基于文本查询的单轮检索)策略。这一阶段的目标是减少输入数据量,同时尽可能保留关键信息。
- 近期: 随着 LLM 的发展,其强大的推理和规划能力被引入。研究开始尝试将 LLM 与视觉模型结合,实现更智能的“决策”过程。
LLoVi等工作已经证明了通过文本描述结合 LLM 的潜力。 - 本文:
VideoAgent代表了这一演进的最新阶段,它不仅结合了 LLM 的推理能力,更通过引入迭代式、自适应的智能体机制,使得模型能够像人类一样主动地、有策略地获取和整合信息,从而在效率和效果上都达到了新的高度。
3.4. 差异化分析
VideoAgent 与现有方法的区别主要体现在两个方面:
-
帧选择策略:
- 先前工作:
VideoAgent与那些均匀采样帧或在单轮中选择帧的方法 [16, 56, 66] 不同。这些方法可能因为信息冗余(过多帧)或信息缺失(过少帧)而导致性能下降。 VideoAgent: 采用多轮 (multi-round) 方式选择帧。这种迭代过程确保所收集的信息更准确地基于当前需求,实现了更精准和高效的信息获取。
- 先前工作:
-
检索查询生成:
-
先前工作:
VideoAgent与那些使用原始问题作为查询进行帧检索的方法 [56, 66] 不同。原始问题可能不够具体,导致检索到的帧不精确或包含不相关信息。 -
VideoAgent: LLM 能够重写 (rewrite) 查询,从而实现更准确和细粒度的帧检索。这使得检索过程能够动态地适应问题的具体要求和已获取的信息。通过这些创新点,
VideoAgent能够更好地模拟人类的认知过程,即根据不断变化的理解来调整信息获取策略,从而在长视频理解任务中实现更高的效率和准确性。
-
4. 方法论
4.1. 方法原理
VideoAgent 的核心思想是模拟人类理解长视频的认知过程。当人类被要求理解一段长视频并回答问题时,他们通常不会一次性看完所有内容。相反,他们会采取以下步骤:
-
概览 (Glance): 首先快速浏览视频的几个关键帧,以了解其大致上下文。
-
迭代搜索 (Iterative Search): 接下来,根据手头的问题,他们会迭代地选择并关注视频中新的相关片段或帧,以收集所需信息。
-
聚合与推理 (Aggregate and Reason): 随着信息的积累,他们会整合所有已获取的信息,进行推理。
-
预测与决策 (Predict and Decide): 当他们认为已经有足够的信息来回答问题时,就会给出答案;否则,会继续搜索新的信息。
VideoAgent将这一过程形式化为一系列的状态 (states)、行动 (actions) 和观察 (observations) ,其中:
-
: 表示在第 轮迭代时,所有已观察帧的信息集合,构成了当前的“记忆”或“状态”。
-
: 表示在第 轮迭代时,智能体做出的决策,即是回答问题,还是继续搜索新信息。
-
: 表示在第 轮迭代时,新获取的观察信息,即新检索到的帧及其文本描述。
-
: 表示最大迭代轮数。
整个过程由一个大型语言模型 (LLM),具体是
GPT-4,作为核心智能体来控制。LLM 凭借其强大的记忆、推理、规划和工具使用能力,能够很好地建模状态、行动和观察。视觉语言模型 (VLM) 和对比语言-图像模型 (CLIP) 在此过程中充当 LLM 的“工具”,分别负责将视觉内容转换为文本描述和根据文本查询检索相关视觉信息。
4.2. 核心方法详解
4.2.1. 获取初始状态 (Obtaining the Initial State)
为了启动迭代过程,首先需要让 LLM 对视频的上下文有一个初步的了解。这通过“概览”视频来实现:
- 均匀采样 (Uniform Sampling): 从整个视频中均匀采样 帧。
- 视觉转文本 (Visual-to-Text): 由于 LLM 无法直接理解视觉信息,使用一个视觉语言模型 (VLM) 作为工具,为这 帧生成详细的文本描述。VLM 的提示语是 “describe the image in detail”。
- 构建初始状态 (Initial State Construction): 这些生成的文本描述被输入到 LLM 中,形成初始状态 。这个初始状态记录了视频内容和语义的草图。
4.2.2. 确定下一步行动 (Determining the Next Action)
在给定当前状态 (包含所有已观察帧的信息)的情况下,LLM 需要决定下一步的行动 :
-
行动 1:回答问题 (Answer the question)。 如果 中的信息足以回答问题,则智能体应该回答问题并终止迭代过程。
-
行动 2:搜索新信息 (Search new information)。 如果 中的信息不足,智能体需要决定还需要哪些额外信息,并继续搜索。
为了在行动 1 和行动 2 之间做出决策,LLM 遵循一个三步流程,该流程受到自我反思 (self-reflection) 机制的启发:
- 初步预测 (Prediction): LLM 被强制要求根据当前状态 和问题 做出一个初步预测 。这通过思维链提示 (chain-of-thought prompting) 来实现,促使 LLM 给出推理过程。
- 自我反思与信心评估 (Self-Reflection and Confidence Assessment): LLM 评估其初步预测 的信心水平。它基于状态 、问题 、预测 以及第一步中生成的推理过程来生成一个信心分数。信心分数分为三个级别:
- 1 (insufficient information): 信息不足。
- 2 (partial information): 信息部分足够。
- 3 (sufficient information): 信息充足。
- 行动选择 (Action Selection): 根据信心分数与预设的信心阈值 比较:
-
如果信心分数达到或超过 (即 ),则选择行动 1(回答问题并退出)。
-
否则,选择行动 2(搜索新信息)。
这种三步流程比直接选择行动更有效,因为直接预测往往倾向于搜索新信息。自我反思机制有助于 LLM 更准确地判断何时停止搜索。
-
4.2.3. 收集新的观察 (Gathering a New Observation)
如果 LLM 决定需要搜索新信息,它会进一步指示需要哪些额外信息,以便利用工具进行检索:
- 缺失信息识别 (Identify Missing Information): LLM 生成文本查询 ,描述了为了回答问题所需补充的缺失信息。
- 段落级检索 (Segment-level Retrieval): 考虑到视频中某个信息可能多次出现,并且时序关系很重要(例如,“男孩离开房间后沙发上留下什么玩具?”),
VideoAgent采用段落级检索而非视频级检索。- 视频分段 (Video Segmentation): 视频根据已见的帧索引被分割成不同的段落。
- 查询与段落匹配 (Query-Segment Matching): LLM 预测应该从哪个段落检索,并生成对应的查询文本。例如,如果已看过帧
i, j, k,LLM 可能预测在段落 2(帧 到 )中搜索“a frame showing the toy on the sofa”。
CLIP检索 (CLIP Retrieval): 使用CLIP[36] 模型作为工具,根据 LLM 生成的查询文本 和指定的视频段落,检索出该段落中与查询文本具有最高余弦相似度 (cosine similarity) 的图像帧。这些被检索到的帧构成了新的观察 。CLIP效率:CLIP在检索步骤中计算效率很高,因为它涉及单次前馈过程,并且采用图像-文本晚期交互架构 (image-text late interaction architecture),使得图像帧特征可以缓存和重用。此外,段落级检索进一步提高了效率。
4.2.4. 更新当前状态 (Updating the Current State)
获得新的观察 (即检索到的帧)后,智能体需要更新其内部状态 :
-
新帧字幕生成 (Caption New Frames): 再次使用 VLM 为新检索到的帧生成文本描述。
-
合并与排序 (Merge and Sort): 将新生成的字幕与旧的帧字幕(来自 )合并。合并后的所有字幕根据其对应的帧索引进行排序,以保持时间顺序。
-
更新状态与下轮预测 (Update State and Next-Round Prediction): 更新后的字幕集合构成新的状态 ,并用于 LLM 进行下一轮预测。
这种多轮迭代过程的优势在于:
- 避免信息过载: 与一次性处理所有帧或均匀采样大量帧的方法相比,它避免了引入过多信息和噪声,这对于 LLM 尤其重要,因为 LLM 容易受长上下文和无关信息干扰 [24, 40]。
- 计算效率: 避免了对所有视频帧进行昂贵的 VLM 或 LLM 处理,尤其对于小时级视频,显著降低了计算成本。
- 自适应选择: 能够自适应地寻找最相关的信息,并以最低的成本回答不同难度级别的问题。
4.2.5. 算法伪代码 (Algorithm Pseudocode)
以下是 VideoAgent 算法 1 的伪代码:
Algorithm 1 VideoAgent
输入 (Require):
- Video
- Question
- LLM
- VLM
- CLIP
- max iteration
- confidence threshold
输出 (Ensure):
-
Prediction
-
State-action-observation sequence
1: // 初始化状态:均匀采样帧并由 VLM 生成字幕 2: for to do // 进行最多 轮迭代 3: // LLM 根据当前状态和问题预测答案 4: // LLM 自我反思并评估信心分数 5: if then // 如果信心分数达到阈值,则选择行动“回答问题” 6: break // 退出循环 7: else // 否则,选择行动“搜索新信息” 8: // LLM 识别缺失信息并生成查询 9: // CLIP 根据查询从视频中检索相关帧作为观察 10: // VLM 为新帧生成字幕,并合并到状态中 11: end if 12: end for 13: return // 返回最终预测和状态-行动-观察序列
符号解释:
- : 输入视频 (video)。
- : 输入问题 (question)。
- : 大型语言模型 (LLM),例如 GPT-4。
- : 视觉语言模型 (VLM),用于生成字幕。
- : 对比语言-图像模型 (CLIP),用于帧检索。
- : 最大迭代轮数 (maximum number of iterations)。
- : 信心阈值 (confidence threshold)。
- : 预测的答案 (predicted answer)。
- : 第 轮的当前状态 (current state),包含已观察帧的文本描述。
- : 第 轮的行动 (action)。
- : 第 轮的新观察 (new observation),即新检索到的帧。
- : 指示函数,当条件 为真时返回 1,否则返回 0。这里表示根据信心分数决定行动。
- : 使用 VLM 为给定帧生成文本字幕。
UniformSample(v): 从视频 中均匀采样初始帧。- : 使用 LLM 根据状态 和问题 预测答案。
- : 使用 LLM 根据状态 、问题 和预测 进行自我反思并生成信心分数 。
- : 使用 LLM 根据状态 和问题 识别缺失信息并生成检索查询 。
- : 使用 CLIP 根据查询 从视频 中检索最相关的帧。
- : 将新的字幕合并到当前状态 中,并根据帧索引排序。
5. 实验设置
5.1. 数据集
VideoAgent 在两个成熟的长视频理解基准数据集上进行评估,主要关注零样本 (zero-shot) 理解能力。
5.1.1. EgoSchema [28]
- 来源与特点: 这是一个用于长视频理解的基准测试数据集,包含 5,000 个多项选择题,这些问题均来源于 5,000 段第一人称视角 (egocentric viewpoint) 的视频。视频内容涵盖人类进行的各种活动。
- 视频长度: 每段视频持续 3 分钟。
- 数据集划分: 只有测试集,其中 500 个问题的标签是公开的,而完整的问题集只能通过官方排行榜进行评估。
- 用途: 评估模型在第一人称视角长视频中进行复杂推理的能力。
5.1.2. NExT-QA [55]
- 来源与特点: 包含 5,440 段展示日常生活中物体交互的自然视频,并附带 48,000 个多项选择题。
- 视频长度: 视频平均长度为 44 秒。
- 问题类型: 问题分为三类:时间性 (Temporal)、因果性 (Causal) 和描述性 (Descriptive),为视频理解模型提供了全面的评估。
- 数据集划分: 遵循标准实践,零样本评估集中在验证集上,该验证集包含 570 段视频和 5,000 个多项选择题。
- ATP-hard 子集: 额外遵循 [4] 的做法,报告在 NExT-QA 验证集的 ATP-hard 子集上的性能。这个子集保留了那些无法通过单帧解决的最难问答对,更侧重于长期时间推理 (long-term temporal reasoning)。
- 用途: 评估模型在自然场景视频中进行多维度(时间、因果、描述)推理的能力。
5.2. 评估指标
由于每个数据集都包含多项选择题,本文使用准确率 (Accuracy) 作为评估指标。
5.2.1. 准确率 (Accuracy)
- 概念定义 (Conceptual Definition): 准确率是分类任务中最常用的评估指标之一,它衡量模型正确预测的样本数量占总样本数量的比例。在多项选择题场景中,它表示模型正确回答的问题数量占总问题数量的比例。高准确率意味着模型在给定任务上表现良好,能够正确识别和选择正确答案。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 模型正确回答的问题数量。
- : 数据集中所有问题的总数量。
5.3. 实现细节
- 视频解码 (Video Decoding): 所有实验中的视频均以 1 帧/秒 (fps) 的速率进行解码。
CLIP模型 (CLIP Model): 使用EVA-CLIP-8Bplus[43] 进行帧检索。该模型通过计算生成的视觉描述与帧特征之间的余弦相似度 (cosine similarity) 来检索最相关的帧。- 字幕生成器 (Captioner):
- EgoSchema: 使用
LaViLa[68] 作为字幕生成器,这是一个基于视频片段 (clip-based) 的字幕模型。为了确保零样本评估,根据 [67] 的做法,使用了在 Ego4D 数据集上重新训练的LaViLa模型,并过滤掉了与 EgoSchema 重叠的视频。字幕生成的视频片段是根据CLIP检索模块返回的帧索引进行采样的。 - NExT-QA: 使用
CogAgent[9] 作为字幕生成器,这是一个基于帧 (frame-based) 的字幕模型。
- EgoSchema: 使用
- 大型语言模型 (LLM): 所有实验均使用
GPT-4[31] 作为 LLM,具体版本固定为gpt-4-1106-preview,以确保实验的可复现性 (reproducibility)。
5.4. 对比基线
论文将 VideoAgent 的性能与以下几类模型进行了比较:
- 长视频理解模型 (Long-form Video Understanding Models):
FrozenBiLM[58],InternVideo[51],ImageViT[34],ShortViViT[34],LongViViT[34],SeViLA[66],Vamos[49],LLoVi[67],MC-ViT-L[2]。这些模型代表了长视频理解领域的各种SOTA方法。
- 大型专有模型 (Large-scale Proprietary Models):
Bard only (blind)[2],Bard + ImageViT[34],Bard + ShortViViT[34],Bard + PALI[34],GPT-4 Turbo (blind)[2],GPT-4V[2],Gemini 1.0 Pro[47]。这些是当前业界领先的、具有多模态能力的商业化模型。
- NExT-QA 上的有监督和零样本方法 (Supervised and Zero-shot Methods on NExT-QA):
-
VFC[57, 29],ATP[33],MIST[7],GF[64],CoVGT[54],SeViT[15],HiTeA[64],AssistGPT[6],ViperGPT[45]。这些是 NExT-QA 基准上常见的有监督和零样本方法。通过与这些基线的比较,论文旨在全面展示
VideoAgent在效率和效果上的优势。
-
6. 实验结果与分析
6.1. 核心结果分析
VideoAgent 在 EgoSchema 和 NExT-QA 数据集上均取得了最先进 (state-of-the-art, SOTA) 的结果,并且在分析中使用的帧数显著少于其他方法。
6.1.1. EgoSchema 结果
VideoAgent 在 EgoSchema 数据集上表现出色。
以下是原文 Table 1 的结果:
| Method | Frames Subset | Full | ||
| FrozenBiLM [58] | [NeurIPS2022] | |||
| InternVideo [51] | 90 90 | - | 26.9 32.1 | |
| ImageViT [34] | [arXiv2022.12] | 16 | - 40.8 | 30.9 |
| ShortViViTloc [34] | [arXiv2023.12] [arXiv2023.12] | 32 | 49.6 | 31.3 |
| LongViViT [34] | [arXiv2023.12] | 256 | 56.8 | 33.3 |
| SeViLA [66] | [NeurIPS2023] | 32 | 25.7 | 22.7 |
| Vamos [49] | [arXiv2023.11] | - | . | 48.3 |
| LLoVi [67] | [arXiv2024.2] | 180 | 57.6 | 50.3 |
| MC-ViT-L [2] | [arXiv2024.2] | 128+ | 62.6 | 44.4 |
| VideoAgent (ours) | 8.4 | 60.2 | 54.1 | |
分析:
-
VideoAgent在 EgoSchema 完整数据集上实现了 54.1% 的准确率,在 500 个问题的子集上达到了 60.2%。 -
这些结果显著优于先前的最先进方法
LLoVi[67] 达 3.8% (54.1% vs 50.3%)。 -
效率突出:
VideoAgent平均仅使用 8.4 帧/视频,而LLoVi使用 180 帧,这表明VideoAgent在效率上是LLoVi的 20 倍。以下是原文 Table 2 的结果:
Model Subset Full Random Chance 20.0 20.0 Bard only (blind) [2] [2023.3] 27.0 33.2 Bard + ImageViT [34] 35.0 35.0 Bard + ShortViViT [34] [2023.3] 42.0 36.2 Bard + PALI [34] [2023.3] 44.8 39.2 GPT-4 Turbo (blind) [2] [2023.4] 31.0 30.8 GPT-4V [2] [2023.9] 63.5 55.6 Gemini 1.0 Pro [47] [2023.12] 55.7 VideoAgent (ours) 60.2 54.1
分析:
VideoAgent的性能与Gemini-1.0 Pro[47] 等先进的专有模型相当,甚至在子集上优于GPT-4V(60.2% vs 63.5%)。这进一步验证了其方法的强大竞争力。- 值得注意的是,
GPT-4V在完整数据集上达到 55.6%,而VideoAgent达到 54.1%,两者非常接近,且VideoAgent使用的帧数远少于GPT-4V可能处理的帧数(尽管GPT-4V的具体帧数未在表中列出)。
6.1.2. NExT-QA 结果
VideoAgent 在 NExT-QA 数据集上也取得了显著的成果。
以下是原文 Table 3 的结果:
| Methods | Val | ATP-hard subset | |||||||
| Acc@C Acc@T | Acc@D | Acc@All | Acc@C | −Acc@T | Acc@All | ||||
| Supervised 63.2 | |||||||||
| VFC [57] | 49.6 | 51.5 | 52.3 | 36.5 | |||||
| ATP | [ICCV2021] [CVPR2022] | 53.1 | 50.2 | 66.8 66.9 | 54.3 57.2 | 38.4 | 38.8 | ||
| MIST GF | [CVPR2023] | 54.6 | 56.6 | ||||||
| [NeurIPS2023] | 56.9 | 57.1 | 70.5 58.8 69.9 | 48.7 | 50.3 | 49.3 | |||
| CoVGT | [TPAMI2023] | 59.7 | 58.0 | 60.7 | - | - | - | ||
| SeViT | [arXiv2023.1] | 54.0 | 54.1 | 56.7 63.1 | 43.3 | 46.5 | - | ||
| HiTeA | [ICCV2023] | 62.4 | 58.3 | 71.3 75.6 | 47.8 | 48.6 | - | ||
| Zero-shot | |||||||||
| VFC [29] | [ICCV2023] | 51.6 | 45.4 48.0 | 64.1 | 51.5 | 32.2 | |||
| InternVideo | [51] | [arXiv2022.12] | 43.4 | 65.1 | 49.1 | - | 30.0 - | 31.4 - | |
| AssistGPT | [6] | [arXiv2023.6] | 60.0 | 51.4 67.3 | 58.4 | - | - | ||
| ViperGPT | [45] | [ICCV2023] | 60.0 | - | - | ||||
| SeViLA | [66] | [NeurIPS2023] | 61.3 | 61.5 | 75.6 63.6 | ||||
| LLoVi | [67] | [arXiv2024.2] | 69.5 | 61.0 | 75.6 | 67.7 | |||
| VideoAgent | (ours) | 72.7 | 64.5 | 81.1 | 71.3 57.8 | 58.8 | 58.4 | ||
分析:
VideoAgent在 NExT-QA 完整验证集上实现了 71.3% 的准确率,超越了先前的 SOTA 方法LLoVi[67] 达 3.6% (71.3% vs 67.7%)。- 在因果性 (Acc@C)、时间性 (Acc@T) 和描述性 (Acc@D) 子集上,
VideoAgent也表现出一致的领先优势。 - 复杂查询处理能力:
VideoAgent在更具挑战性的ATP-hard子集上实现了显著的性能提升 (58.4%),这表明它擅长处理复杂的长视频查询。 - 帧效率: 平均每视频仅使用 8.2 帧,再次证明了其卓越的效率。
6.2. 消融实验/参数分析
6.2.1. 迭代式帧选择分析 (Analysis of Iterative Frame Selection)
-
帧效率 (Frame efficiency): 下图(原文 Figure 3 左)展示了
VideoAgent与均匀采样基线以及其他方法在 EgoSchema 500 问题子集上的准确率与帧数的关系。
该图像是一个图表,展示了VideoAgent与其他方法的准确率与帧数之间的关系。左侧显示Accuracy (%)与Number of Frames的对比,右侧则展示了不同类型NExT-QA问题所需的帧数分布。可以看出,VideoAgent在时间推理问题上选择的帧数多于因果推理和描述性问题。- 分析: X 轴采用对数刻度。结果表明,在相同帧数下,
VideoAgent显著优于均匀采样和其他基线,证明了其在帧效率上的优越性。VideoAgent仅使用 8.4 帧就达到了 60.2% 的准确率,超过了均匀采样 180 帧(达到 59.6% 准确率)的基线。这强调了寻找信息量大的帧的重要性,并指出过多的无关信息和噪声反而会降低语言模型的性能。
- 分析: X 轴采用对数刻度。结果表明,在相同帧数下,
-
迭代轮数 (Number of rounds): 上图(原文 Figure 3 左)也展示了不同迭代轮数对模型性能的影响。
- 分析: 随着迭代轮数的增加,性能有所提升,但在三轮后趋于饱和:
- 1 轮:5 帧,53.8% 准确率
- 2 轮:7.5 帧,58.6% 准确率
- 3 轮:8.4 帧,60.2% 准确率
- 4 轮:9.9 帧,59.8% 准确率
- 这表明
VideoAgent能够有效找到回答问题所需的信息,并且在达到一定程度后,额外的迭代并不能带来显著的性能提升,反而可能引入过长上下文。
- 分析: 随着迭代轮数的增加,性能有所提升,但在三轮后趋于饱和:
-
不同问题类型 (Different question types): 下图(原文 Figure 3 右)展示了 NExT-QA 数据集中不同类型问题所需的帧数分布。
该图像是一个图表,展示了VideoAgent与其他方法的准确率与帧数之间的关系。左侧显示Accuracy (%)与Number of Frames的对比,右侧则展示了不同类型NExT-QA问题所需的帧数分布。可以看出,VideoAgent在时间推理问题上选择的帧数多于因果推理和描述性问题。- 分析: 结果表明,不同类型的问题所需的平均帧数不同:描述性问题 (descriptive tasks) 平均 5.9 帧,因果性问题 (causal reasoning) 平均 7.1 帧,时间性问题 (temporal reasoning) 平均 7.8 帧。这符合直觉:描述性任务通常在初始均匀采样中就能获得足够信息,而推理任务,特别是时间推理,需要查看更多帧才能准确回答问题。
6.2.2. 初始采样帧数消融 (Ablation of Initial Number of Uniformly Sampled Frames)
以下是原文 Table 4 的结果:
| Uniform | Uni-7 54.6 | Uni-9 54.8 | Uni-11 |
| 55.8 | |||
| Ours | 3→6.4 58.4 | 5→8.4 60.2 | 8→11.0 57.4 |
分析:
- 在 EgoSchema 500 问题子集上,研究了初始均匀采样帧数对模型性能和平均使用帧数的影响。
- 结果显示,初始采样 5 帧能带来最高的性能 (60.2% 准确率,平均使用 8.4 帧)。
- 与均匀采样方法相比(例如,我们方法使用 8.4 帧达 60.2% 准确率,而均匀采样 9 帧仅达 54.8%),再次验证了
VideoAgent帧选择方法的优越效率。
6.2.3. 自我评估与段落选择消融 (Ablation of Self-evaluation and Segment Selection)
以下是原文 Table 5 的结果:
| Method | Frames | Acc |
| Ours w/o Seg. Selection | 7.5 | 56.6 |
| Ours w/o Self-Evaluation | 11.8 | 59.6 |
| Ours | 8.4 | 60.2 |
分析:
-
自我评估 (Self-evaluation):
- 当禁用自我评估(即强制进行三轮迭代,而非根据信心分数决定何时停止)时,平均使用帧数从 8.4 增加到 11.8,而准确率从 60.2% 略微下降到 59.6%。
- 这表明自我评估机制能够有效判断信息是否充足,避免不必要的迭代,从而提高效率并保持性能。强制获取更多信息反而可能导致性能略微下降,因为它增加了上下文长度,使得 LLM 容易被无关信息干扰。
-
段落选择 (Segment selection):
- 当禁用段落选择时(即 LLM 生成查询时不指定视频段落),准确率下降了 3.6% (从 60.2% 降至 56.6%)。
- 这强调了段落选择的重要性。它通过将检索限制在特定时间段内,提高了模型的时间推理能力,并降低了混淆来自不同时间段信息的风险,这对于处理“...之后发生什么?”这类时序问题尤其有效。
6.2.4. 基础模型消融 (Ablation of Foundation Models)
VideoAgent 集成了 LLM、VLM 和 CLIP 三类基础模型。以下是对各组件的消融研究。
-
LLM 消融 (LLM Ablation): 以下是原文 Table 6 的结果:
LLM Model Size Acc. (%) Mistral-8x7B 70B 37.8 Llama2-70B 70B 45.4 GPT-3.5 N/A 48.8 GPT-4 N/A 60.2 分析:
GPT-4在 EgoSchema 500 问题子集上显著优于其他 LLM(LLaMA-2-70B, Mixtral-8x7B, GPT-3.5)。- 这种优势主要归因于
GPT-4在结构化预测方面的能力。VideoAgent的迭代过程依赖 JSON 格式输出,而GPT-4在生成正确的 JSON 格式方面表现出强大的鲁棒性,这是其他模型难以持续实现的。这表明 LLM 的质量,特别是在遵循指令和生成结构化输出方面的能力,对VideoAgent的整体性能至关重要。
-
VLM 消融 (VLM Ablation): 以下是原文 Table 7 的结果:
Captioner Type # Words Acc. (%) BLIP-2 Frame-based 8.5 52.4 LaViLa Clip-based 7.2 60.2 CogAgent Frame-based 74.2 60.8 分析:
- 评估了不同 VLM 生成的字幕质量对
VideoAgent性能的影响。 CogAgent(帧级别) 和LaViLa(片段级别) 产生了相似的性能,尽管它们生成的字幕长度差异显著(CogAgent平均 74.2 词,LaViLa平均 7.2 词)。BLIP-2(帧级别) 生成的字幕性能较差 (52.4%)。- 这表明高质量的字幕对性能至关重要,但字幕的冗长程度并非决定性因素,更重要的是字幕的精确性和信息量。
- 评估了不同 VLM 生成的字幕质量对
-
CLIP 消融 (CLIP Ablation): 以下是原文 Table 8 的结果:
CLIP Model Size Resolution Acc. (%) OpenCLIP ViT-G 1B 224 59.2 EVA-CLIP-8B 8B 224 59.4 EVA-CLIP-8B-plus 8B 448 60.2 分析:
- 评估了三种
CLIP模型的性能 (OpenCLIP ViT-G,EVA-CLIP-8B,EVA-CLIP-8B-plus)。 - 结果显示不同
CLIP模型之间的性能差异不大,EVA-CLIP-8B-plus表现最佳 (60.2%)。 - 这表明帧检索阶段(使用
CLIP)并不是VideoAgent方法的瓶颈,当前的CLIP模型已能满足要求。CLIP模型的效率得益于其晚期交互设计,使得图像特征可以被缓存和重用。
- 评估了三种
6.2.5. 运行时分析 (Run-time Analysis)
在附录 A 中,论文提供了一个对 CLIP 计算效率的运行时分析。
- 场景假设:
CLIP特征计算:每图像和文本 秒。- VLM 字幕生成:每图像 秒。
- LLM 计算:每轮 秒。
- 视频帧总数 ,
VideoAgent选择处理 帧,共 轮迭代。
- 总时间近似:
CLIP图像特征计算 (Nx) +CLIP文本特征计算 (nx) + VLM 字幕生成 (ny) + LLM 操作 (tz)。 - 实验参数 (EgoSchema 数据集,A6000 GPU):
- (视频总帧数)
- (平均选择帧数)
- (CLIP 特征计算时间/帧/文本)
- (VLM 字幕生成时间/帧)
- (LLM 计算时间/轮)
- (平均迭代轮数)
CLIP计算时间占比:- 代入数值:。
- 结论: 在这些条件下,
CLIP特征的计算仅占总计算量的 1.9%,表明其计算开销相对较小。此外,段落级检索进一步提高了效率,因为只需在特定段落内计算特征。
6.3. 案例研究 (Case Studies)
6.3.1. NExT-QA 问题示例
下图(原文 Figure 4)展示了 VideoAgent 在 NExT-QA 上的一个案例研究。
该图像是插图,展示了VideoAgent与GPT-4V对长视频理解的比较。VideoAgent选择的帧在第一轮后成功预测答案为B,并标注可信度为3,而GPT-4V基于48帧的均匀采样未能成功提供答案。通过结合VideoAgent选定的帧,GPT-4V也能得到正确答案。
- 问题: 为什么穿黑毛衣的男人在和朋友说话时举起了一杯水?
- 过程:
- 第一轮:
VideoAgent收到初始采样的帧,并对其进行描述。根据这些描述,LLM 预测答案为 null,并自我反思信心级别为 1 (信息不足)。它准确识别出缺少男人举杯喝水的关键信息。 - 第二轮: LLM 决定需要更多信息,并生成查询:“一个穿着黑毛衣的男人举着一杯水”并在相关段落中搜索。
CLIP检索到关键帧(例如帧 69,显示男人手持玻璃杯正在饮水)。 - 最终预测: VLM 为新帧生成字幕,更新状态后,LLM 能够正确回答问题(例如,答案 B:喝水),并给出信心级别 3 (信息充足)。
- 第一轮:
6.3.2. 小时级视频示例
下图(原文 Figure 5)展示了 VideoAgent 在小时级 YouTube 视频上的应用。
该图像是示意图,展示了 VideoAgent 在 NExT-QA 案例研究中的应用。通过三帧视频,展示了不同时间点上穿黑色毛衣的男子的行为,包括举杯、饮水等。VideoAgent 准确识别信息缺失,并在互动推理中逐步填补信息缺口,最终作出正确预测。
-
问题: 绿色植物环绕的楼梯是什么颜色?
-
过程:
- 视频长达一小时,问题所涉信息只占据视频的一小部分。
VideoAgent在两次迭代中,仅使用七帧就准确识别了关键帧,并成功回答了问题(例如,楼梯是棕色)。- 与
GPT-4V比较:GPT-4V在其最大上下文长度(48 张均匀采样图像)下无法成功预测。然而,当VideoAgent找到的关键帧被提供给GPT-4V时,GPT-4V能够正确回答问题。
-
结论: 这表明
VideoAgent能够有效处理超长视频,高效地定位关键信息,并证明了其方法可以增强现有强大多模态模型的视频理解能力。总结:
VideoAgent的实验结果和案例研究充分证明了其在长视频理解方面的卓越有效性和效率。其迭代式、自适应的帧选择和智能体驱动的推理机制,使其能够像人类一样高效地处理复杂和冗长的视频信息。
7. 总结与思考
7.1. 结论总结
本研究介绍了 VideoAgent,一个创新性的系统,它通过将大型语言模型 (LLM) 作为核心智能体,模仿人类理解长视频的认知过程。VideoAgent 采用多轮迭代过程,有效地搜索和聚合视频中的关键信息,以回答复杂问题。实验结果在 EgoSchema 和 NExT-QA 等基准测试上取得了最先进的零样本准确率,同时显著减少了所需的视频帧数(平均仅 8 帧左右),展现了卓越的有效性和效率。消融研究证实了迭代式帧选择、自我评估和段落选择等关键组件的有效性。案例研究进一步证明了 VideoAgent 能够泛化到小时级视频,并能增强其他多模态模型的性能。这项工作不仅在长视频理解领域树立了新标杆,也为未来基于智能体的方法在该方向的研究提供了新的视角。
7.2. 局限性与未来工作
论文本身并未在专门章节中明确列出“局限性”,但从其上下文和消融实验可以推断出一些潜在的改进方向和未解决的问题,这些可以视为其未来的工作或潜在的局限性:
- 对专有 LLM 的依赖:
VideoAgent在性能上高度依赖GPT-4,尤其是其在结构化预测 (JSON 格式输出) 方面的鲁棒性。这限制了其开源性,也使得研究受制于特定专有模型的能力和成本。未来的工作可能探索如何使VideoAgent更好地与开源 LLM 协同,或提高开源 LLM 的结构化输出能力。 - 基础模型的持续发展: 论文指出,
VideoAgent的主要贡献在于其框架和迭代过程,而非特定模型的选择。这意味着随着 LLM、VLM 和 CLIP 等基础模型的快速发展,VideoAgent的性能仍有巨大的提升空间。未来的工作可以探索集成更先进的基础模型,或者采用无需字幕的方法(例如,直接用GPT-4V等多模态 LLM 替代 VLM 生成字幕的步骤)。 - 复杂推理的边界: 尽管
VideoAgent在 NExT-QA 的ATP-hard子集上表现出色,但长视频中可能存在更深层次、需要更复杂抽象推理的问答,例如涉及情感、意图或文化背景的问题,这可能超出了当前框架的理解范围。 - 实时性与效率优化: 尽管
VideoAgent在帧效率上表现卓越,但迭代过程中的 LLM 调用仍然是计算密集型的。对于需要实时响应的应用(如自动驾驶),需要进一步优化 LLM 的推理速度或探索更轻量级的代理机制。 - 失败案例分析: 论文缺乏对
VideoAgent失败案例的深入分析,这可能会揭示模型在哪些类型的视频或问题上仍存在根本性缺陷,从而指导未来的研究方向。
7.3. 个人启发与批判
7.3.1. 个人启发
- 范式转变: 这篇论文最重要的启发是,在处理大量、冗余信息时,“如何获取信息”的重要性可能超越“如何处理信息”。从传统的“尽力处理所有输入”到“智能地选择输入”,这是一个非常重要的范式转变。它模拟了人类的认知过程,即在理解复杂情境时,我们并非一次性处理所有感官信息,而是有选择、有侧重地进行观察和思考。
- LLM 作为核心智能体的潜力: 论文有力地证明了 LLM 不仅仅是一个文本生成器,更可以作为强大的“智能体”来协调各种专业工具,执行复杂的规划和决策任务。这为 LLM 的应用开辟了更广阔的空间,尤其是在多模态领域。
- 工具使用 (Tool-use) 的有效性:
VideoAgent明确地展示了将 LLM 与 VLM 和 CLIP 等特定领域工具结合的强大效果。LLM 的推理能力结合专业工具的感知能力,可以弥补 LLM 自身在特定模态上的不足。这种模块化、可插拔的架构是未来构建复杂 AI 系统的有效途径。 - 效率与准确性的平衡: 通过自适应的迭代过程,
VideoAgent在保证高准确率的同时,显著提高了信息处理的效率。这对于资源受限或需要处理海量数据的真实世界应用具有重要意义。
7.3.2. 批判
- 黑箱问题与可解释性: 尽管
VideoAgent提供了思维链和自我反思机制,但 LLM 的决策过程(例如,为什么选择特定的查询文本,为什么判断信息不足)仍然是一个“黑箱”。这使得理解和调试模型在复杂场景下的行为变得困难。未来的研究可以探索更透明、可解释的智能体决策机制。 - 对“完美”工具的假设:
VideoAgent框架的成功很大程度上依赖于 VLM 和 CLIP 工具的质量。如果这些工具本身存在偏差或性能不佳,它们可能会向 LLM 提供错误或误导性的信息,从而影响最终的决策。尽管论文中的消融实验表明 CLIP 不是瓶颈,但 VLM 的质量对性能仍有显著影响。 - 查询设计的鲁棒性: LLM 生成的查询质量对
CLIP的检索结果至关重要。如果查询不够精确或存在歧义,可能会导致检索到不相关的帧。虽然论文提到了查询重写,但其鲁棒性(尤其是在面对高度抽象或模糊问题时)仍有待进一步探究。 - 泛化到更广泛的长视频类型: 虽然论文在 EgoSchema 和 NExT-QA 以及一些 YouTube 小时级视频上进行了验证,但视频内容可能涵盖更多样化的场景(例如,电影、直播、教育课程),其信息密度、叙事结构、情绪变化可能更为复杂。
VideoAgent在这些更广泛场景下的泛化能力,以及如何处理不同叙事节奏和信息密度的视频,是值得进一步探索的方向。 - 计算成本: 尽管帧效率高,但每次迭代中对 LLM(尤其是像 GPT-4 这样的闭源模型)的多次调用仍然可能带来显著的 API 调用成本和延迟。对于需要大规模部署或实时交互的场景,如何进一步优化 LLM 调用频率或探索更经济高效的替代方案是一个实际挑战。
相似论文推荐
基于向量语义检索推荐的相关论文。