论文状态:已完成

What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations

发表:2025/02/12
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了针对科学演讲的视频到文本摘要数据集`VISTA`,包含18,599个AI会议演讲视频及其论文摘要。研究基准测试了最先进的大型多模态模型,应用了计划式框架以提高摘要质量和事实一致性。尽管有进展,模型与人类表现之间仍有显著差距,强调了该数据集的挑战性和平滑未来研究的潜力。

摘要

Transforming recorded videos into concise and accurate textual summaries is a growing challenge in multimodal learning. This paper introduces VISTA, a dataset specifically designed for video-to-text summarization in scientific domains. VISTA contains 18,599 recorded AI conference presentations paired with their corresponding paper abstracts. We benchmark the performance of state-of-the-art large models and apply a plan-based framework to better capture the structured nature of abstracts. Both human and automated evaluations confirm that explicit planning enhances summary quality and factual consistency. However, a considerable gap remains between models and human performance, highlighting the challenges of our dataset. This study aims to pave the way for future research on scientific video-to-text summarization.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations (视频讲了什么?一个面向科学演示的视频到文本摘要数据集)

1.2. 作者

Dongqi Liu, Chenxi Whitehouse, Xi Yu, Louis Mahon, Rohit Saxena, Zheng Zhao, Yifu Qiu, Mirella Lapata, Vera Demberg。作者来自 Saarland University、Max Planck Institute for Informatics、University of Cambridge 和 University of Edinburgh 等机构。

1.3. 发表期刊/会议

论文没有明确指出发表的期刊或会议名称,但从内容来看,它属于人工智能和自然语言处理领域的学术研究,通常会发表在顶级的会议或期刊上,例如 ACL、EMNLP、NeurIPS 等。论文引用的数据收集来源也包括了 ACL Anthology (ACL, EMNLP, NAACL, EACL, Findings of ACL^\mathrm{ACL}) 以及 ICML 和 NeurIPS 等机器学习领域的顶会。

1.4. 发表年份

2025年

1.5. 摘要

将录制的视频转化为简洁准确的文本摘要是多模态学习中日益增长的挑战。本文引入了 VISTA (Video to Scientific Abstract) 数据集,该数据集专门为科学领域中的视频到文本摘要任务设计。VISTA 包含了 18,599 对录制的 AI 会议演示视频及其对应的论文摘要。研究人员基准测试了当前最先进的 大型模型 (Large Models) 性能,并应用了基于计划 (plan-based) 的框架,以更好地捕捉摘要的结构化特性。人类评估和自动化评估均证实,显式规划 (explicit planning) 能够提高摘要质量和事实一致性。然而,模型与人类性能之间仍存在显著差距,这凸显了该数据集所带来的挑战。这项研究旨在为未来科学视频到文本摘要的研究铺平道路。

1.6. 原文链接

原文链接:https://arxiv.org/abs/2502.08279 PDF 链接:https://arxiv.org/pdf/2502.08279v4.pdf 该论文目前处于预印本 (preprint) 状态。

2. 整体概括

2.1. 研究背景与动机

核心问题: 尽管大型多模态模型 (Large Multimodal Models, LMMs) 在通用内容(如 YouTube、电影、新闻视频)的视频到文本摘要任务上取得了显著进展,但在科学领域,尤其是处理技术术语和科学视觉元素(如图表)时,其性能却有所下降。

重要性与现有挑战: 科学领域的视频内容(如会议演讲、教学视频)蕴含着丰富的专业知识,对其进行高效摘要对于信息检索、知识传播和学习都至关重要。然而,这种性能差距主要归因于缺乏专门针对多模态科学内容的专用数据集。现有的视频摘要数据集大多专注于开放领域或特定活动(如烹饪),无法满足科学领域对精度、事实一致性和专业性结构的要求。科学摘要通常遵循特定的结构(如引言、方法、结果、结论),而端到端 (end-to-end) 的通用模型难以捕捉这种结构。

论文的切入点与创新思路:

  1. 引入新数据集: 针对科学领域缺乏专用数据集的问题,本文构建并引入了 VISTA 数据集,它包含大量科学会议演示视频及其对应的论文摘要。
  2. 结构化摘要方法: 针对现有模型难以捕捉科学摘要结构的问题,本文探索并应用了一种基于计划 (plan-based) 的摘要框架。该框架通过引入中间表示(即“计划”)来显式地引导摘要生成过程,从而更好地捕捉摘要的内在结构。

2.2. 核心贡献/主要发现

主要贡献:

  • VISTA 数据集: 提出了一个新颖的大规模多模态数据集 VISTA,包含 18,599 对视频-摘要对,专门用于总结科学演示视频。
  • 基准测试: 对 VISTA 数据集上的领先大型(语言/音频/多模态)模型进行了全面的基准测试评估,揭示了该任务的挑战性。
  • 基于计划的方法: 提出并验证了一种基于计划的方法,该方法在摘要质量和事实准确性方面持续优于 最先进的 (state-of-the-art, SOTA) 模型。
  • 深入分析: 进行了错误分析、案例研究和人工评估,以识别模型生成摘要中的关键问题。

关键结论与发现:

  • 领域内微调的重要性: 在领域内数据上进行微调 (fine-tuning) 能显著提升所有评估指标的模型性能。
  • 视频模态的优势: 基于视频的 大型多模态模型 (LMMs) 在 VISTA 数据集上通常优于基于文本和音频的模型,表明视觉信息在科学视频摘要中的关键作用。
  • 基于计划的有效性: 基于计划的框架 (Plan-mPlug-Ow13) 显著提高了摘要质量、事实准确性和连贯性,尤其是在捕捉科学摘要的结构方面。
  • 模型与人类表现的差距: 尽管基于计划的方法取得了进步,但所有模型(包括 SOTA 模型)在事实一致性 (FactVC) 和与视频的对齐 (VideoScore) 方面仍存在问题,与人类表现之间存在显著差距,这凸显了 VISTA 数据集的挑战性。
  • 计划的泛化性: 基于计划的方法不仅适用于多模态视频摘要,也能有效提升文本和音频等单模态模型的性能,表明其作为一种通用结构化引导方法的潜力。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文,需要掌握以下几个基础概念:

  • 视频到文本摘要 (Video-to-Text Summarization): 这是一项 多模态学习 (multimodal learning) 任务,目标是将较长的视频内容自动提炼成简洁、连贯的文本摘要。它需要模型理解视频中的视觉、听觉和文本(如字幕)信息,并从中抽取关键内容进行概括。
  • 多模态学习 (Multimodal Learning): 指模型能够处理和整合来自不同模态(如视觉、听觉、文本)的信息,以完成更复杂的任务。在视频摘要中,这通常意味着模型需要同时考虑视频画面、音频内容和可能的文字转录。
  • 大型语言模型 (Large Language Models, LLMs): 是指参数量巨大,通常在海量文本数据上预训练 (pre-trained) 的深度学习模型,它们能够理解、生成人类语言,并执行各种 自然语言处理 (Natural Language Processing, NLP) 任务。
  • 大型多模态模型 (Large Multimodal Models, LMMs): 是 LLMs 的扩展,通过引入额外的组件和训练策略,使其能够处理和理解除了文本之外的其他模态数据,如图像、视频和音频。
  • 零样本学习 (Zero-shot Learning): 指模型在训练过程中没有见过特定任务的示例,但在推理时能够直接泛化并执行该任务的能力。通常通过给模型提供任务描述或指令来实现。
  • 微调 (Fine-tuning): 在一个预训练模型的基础上,使用特定任务的数据集进行进一步训练,以使模型更好地适应该任务。这包括 QLoRA 微调 (QLoRA Fine-tuning)全参数微调 (Full-parameter Fine-tuning)
    • QLoRA (Quantized Low-Rank Adaptation): 是一种高效的微调方法,它通过对量化 (quantized) 后的预训练模型进行 低秩适配 (Low-Rank Adaptation) 来减少微调所需的计算资源和存储空间,同时保持高性能。
    • 全参数微调 (Full-parameter Fine-tuning): 指在微调过程中更新模型的所有参数,通常能达到最佳性能,但计算成本较高。
  • 计划式摘要 (Plan-based Summarization): 一种摘要生成策略,通过在生成摘要之前先生成一个“计划”或中间表示(例如,一系列问题或关键词),来指导摘要的生成过程,旨在提高摘要的连贯性和事实准确性。
  • 文本转录 (Transcript): 视频或音频内容的文字版本,通常通过 自动语音识别 (Automatic Speech Recognition, ASR) 系统生成。
  • 光学字符识别 (Optical Character Recognition, OCR): 从图像中识别并提取文本的技术。在视频摘要中,OCR 可用于提取视频画面中的幻灯片文本或字幕。

3.2. 前人工作

本文在引言和相关工作部分回顾了视频到文本摘要、科学文本摘要以及基于计划的摘要方法。

3.2.1. 视频到文本摘要 (Video-to-Text Summarization)

该领域旨在通过整合多模态信息生成连贯的摘要。早期的工作和数据集包括:

  • 数据集: MSS (Li et al., 2017)、VideoXum (Lin et al., 2024b)、MMSum (Qiu et al., 2024)、Hierarchical3D (Papalampidi and Lapata, 2023) 和 LfVS-T (Argaw et al., 2024)。这些数据集涵盖了从教学视频到通用网络内容等多种任务,但较少关注学术视频。
  • 技术进展: 包括分层注意力模型 (hierarchical attention models) (Sanabria et al., 2018)、使用多模态特征的抽取式方法 (extractive methods) (Cho et al., 2021; Krubicki and Pecina, 2023) 以及混合抽取-生成式框架 (hybrid extractive-abstractive frameworks) (Ramakrishnan and Ngan, 2022; Papalampidi and Lapata, 2023)。基于 Transformer 的系统 (Transformer-based systems) 也进一步提升了性能 (Krubicki and Pecina, 2023; Li et al., 2020; Shang et al., 2021; Mahon and Lapata, 2024a)。
  • 挑战: 总结学术视频的挑战性仍未得到充分探索。

3.2.2. 科学文本摘要 (Scientific Text Summarization)

该领域专注于将复杂的学术内容凝练成简洁格式:

  • 数据集: TalkSumm (Lev et al., 2019) 用于学术视频转录本、SumSurvey (Liu et al., 2024b) 用于综述论文、ACLSum (Takeshita et al., 2024) 用于 ACL 领域文本、SciNews (Liu et al., 2024a) 用于为大众简化研究。M3AV\mathsf{M}^3\mathsf{AV} (Chen et al., 2024c) 支持 ASR (Automatic Speech Recognition)、TTS (Text-to-Speech) 和幻灯片-脚本生成等任务。
  • 方法: RSTLoRA (Liu and Demberg, 2024) 和 RSTformer (Liu et al., 2023b) 改进了篇章和结构化摘要,而 CiteSum (Mao et al., 2022) 和 SSR (Fatima and Strube, 2023) 关注可扩展性和面向特定受众的定制。
  • 挑战: 由于学术文本固有的复杂性和多样性,科学摘要仍是一个具有挑战性的领域。

3.2.3. 计划式摘要 (Plan-based Summarization)

该方法利用结构化表示来提高摘要质量并减少幻觉 (hallucinations):

  • 核心思想: 通过预定义的规划组件改善连贯性和事实基础 (Narayan et al., 2021, 2023; Amplayo et al., 2021; Wang et al., 2022; Liu et al., 2025)。
  • 规划元素: 研究主要集中在基于文本的规划,包括实体 (entities) (Narayan et al., 2021; Liu and Chen, 2021; Huot et al., 2024)、关键词提示 (keyword prompts) (Creo et al., 2023) 和问答对 (question-answer pairs) (Narayan et al., 2023)。
  • 具体示例: PlanVerb (Canal et al., 2022) 通过语义标注将任务计划转换为自然语言;领域特定方法与知识结构对齐以提高质量 (Srivastava et al., 2024);蓝图式框架 (Blueprint-based frameworks) 利用中间计划为视觉叙事创建连贯的故事 (Liu et al. 2023a)。
  • 现有空白: 计划式策略在多模态任务,特别是视频到文本摘要中的应用,受到的关注有限。

3.3. 差异化分析

本文的工作与上述相关工作的核心区别和创新点在于:

  1. 数据集专注领域: 大多数现有视频到文本摘要数据集专注于开放领域或通用内容,而 VISTA 专注于科学领域,填补了这一空白。科学视频摘要对事实准确性、专业术语理解和结构化呈现有更高要求。
  2. 摘要目标: VISTA 使用论文摘要作为视频摘要的 真值 (ground truth),这与现有数据集通常使用人工生成的简短摘要或字幕摘要不同,更符合科学研究的实际需求。
  3. 方法论创新: 针对科学摘要的结构化特性,本文首次将 基于计划的摘要框架 应用于多模态科学视频摘要任务。通过显式地引入“计划”(即一系列问题)来指导摘要生成,弥补了现有 端到端 (end-to-end) 模型在捕捉结构方面的不足,并有效减少了 幻觉 (hallucinations)。
  4. 多模态挑战: 本文特别强调并处理了 大型多模态模型 (LMMs) 在科学背景下,处理技术术语和科学视觉元素(如图表)时性能下降的挑战。

4. 方法论

本文提出了一种基于计划的视频到文本摘要框架,旨在更好地捕捉科学摘要的结构化特性。该框架将摘要生成任务分解为两个独立的模块:计划生成 (Plan Generation, PG) 和摘要生成 (Summary Generation, SG)。

4.1. 方法原理

该方法的核心思想是,科学摘要通常遵循相对明确的结构。直接从视频 vv 学习到摘要 ss 的映射 P(sv)P(s|v) 可能会导致模型难以组织和呈现信息。通过引入一个中间表示——“计划” pp,可以显式地引导摘要生成过程,从而提高摘要的连贯性和事实准确性。

计划 pp 由一系列自动生成的问题 {q1,q2,,qm}\{q_1, q_2, \ldots, q_m\} 组成,每个问题对应摘要中的一个句子。这些问题在生成摘要时充当指导,确保生成的摘要遵循计划的结构和内容。这种方法借鉴了 讨论中的问题 (Question Under Discussion, QUD) 理论,该理论认为对话通常围绕一组问题展开,这些问题指导着对话的结构和解释。

4.2. 核心方法详解 (逐层深入)

整个框架分为两个阶段:计划生成和摘要生成。

4.2.1. 计划生成 (Plan Generation, PG)

  • 目的: 为给定的参考摘要 ss 生成一个结构化的计划 pp

  • 具体实现: 利用大型语言模型 GPT-o1 (Achiam et al., 2023) 作为“银标准”计划生成器。对于摘要中的每个句子 tit_i,GPT-o1 会生成一个对应的问题 qiq_i

  • 上下文依赖: 每个问题 qiq_i 的生成是基于目标句子 tit_i 及其前面的摘要句子(即 t1,,ti1t_1, \ldots, t_{i-1})作为上下文。这种方式确保了问题序列保留了参考摘要中句子的顺序,从而使计划保持自然和连贯的流程。

  • 训练 PG 模块: 一个独立的 PG 模块被训练来学习从输入视频 vv 到计划 pp 的映射,即 P(pv)P(p|v)

    以下是计划生成过程中,GPT-o1 如何根据参考摘要句子生成计划问题的示例(原文 Figure 4):

    Figure 4: GPT-o1 generates plans based on reference summaries. Each question `q _ { i }` corresponds to a summary sentence `t _ { i }` , which we assume constitutes its answer. Index \(i\) ranges from 1 to the number of summary sentences. 该图像是一个示意图,展示了GPT-o1模型如何根据参考摘要生成计划。图中列出了五个与语言模型(LMs)相关的问题 q1,q2,q3,q4,q5q_1, q_2, q_3, q_4, q_5,强调了文中提到的各自要点。并且显示了从生成的计划到相应概念的逻辑关系。 Figure 4: GPT-o1 generates plans based on reference summaries. Each question q _ { i } corresponds to a summary sentence t _ { i } , which we assume constitutes its answer. Index ii ranges from 1 to the number of summary sentences.

例如,问题 q3q_3 的生成基于目标句子 t3t_3 以及它前面的摘要句子 t1t_1t2t_2。这样,计划中的问题序列与参考摘要中句子的顺序保持一致,确保了计划的自然和连贯性。

4.2.2. 摘要生成 (Summary Generation, SG)

  • 目的: 基于输入视频 vv 和生成的计划 pp,生成最终的摘要 ss
  • 具体实现: 训练一个独立的 SG 模块,学习扩展的条件概率分布 P(sv,p)P(s | v, p)
  • 输入: 在推理阶段,SG 模块接收视频 vv 和由 PG 模块预测的计划 p^\hat{p} 的拼接作为输入。
  • 输出: SG 模块根据计划 p^\hat{p} 的结构和内容生成最终的摘要。

4.2.3. 整体流程

  1. 训练 PG 模块: 使用数据集中的视频-计划对 (v, p) 训练 PG 模块。
  2. 训练 SG 模块: 使用数据集中的视频-计划-摘要三元组 ([v; p], s) 训练 SG 模块,其中 [v; p] 表示视频和计划的拼接。
  3. 推理阶段:
    • 给定一个新的视频 vv
    • 训练好的 PG 模块首先预测出计划 p^\hat{p}
    • 然后,将视频 vv 和预测的计划 p^\hat{p} 拼接起来,作为 SG 模块的输入 [v;p^][v; \hat{p}]
    • SG 模块生成最终的摘要。

数学表达: 假设数据集 D={(v1,s1),(v2,s2),,(vn,sn)}D = \{ (v_1, s_1), (v_2, s_2), \ldots, (v_n, s_n) \} 包含 nn 对视频和摘要。 模型 M\mathcal{M} 的目标是学习条件概率分布 P(sv)P(s | v)。 在基于计划的框架中,这个目标被分解为:

  1. PG 模块: 学习 P(pv)P(p | v),其中 pp 是从 ss 衍生的计划。
  2. SG 模块: 学习 P(sv,p)P(s | v, p)。 在推理时,首先通过 PG 模块得到 p^=argmaxpP(pv)\hat{p} = \arg\max_p P(p|v),然后通过 SG 模块生成摘要 s^=argmaxsP(sv,p^)\hat{s} = \arg\max_s P(s|v, \hat{p})

这种两阶段方法使得摘要的生成过程更加可控和结构化,尤其适用于科学摘要这种具有明确逻辑结构的任务。

5. 实验设置

5.1. 数据集

实验使用了 VISTA (Video to Scientific Abstract) 数据集。

  • 来源: VISTA 数据集来源于计算语言学和机器学习领域的顶级会议,包括 ACL Anthology (ACL, EMNLP, NAACL, EACL, Findings of ACL^\mathrm{ACL})、ICML 和 NeurIPS。涵盖了 2020 年到 2024 年的内容。

  • 数据构成: 包含 18,599 对已对齐的会议演示录像及其对应的论文摘要。所有材料均由论文作者贡献,确保叙述的一致性。

  • 数据采集与清洗:

    • 从会议网站的 XML/JSON 文件中收集了论文标题、作者列表、论文摘要、论文链接和演示视频链接,无需从 PDF 中提取摘要。
    • 为了保持一对一的视频到文本对齐,排除了可能涵盖多篇论文的样本(如教程、特邀演讲)以及视频长度小于 1 分钟或大于 30 分钟的样本。
  • 质量控制: 经过手动和自动化检查。手动检查随机选择了 500 对视频-摘要对,由两名计算机科学或计算语言学领域的博士候选人进行二元判断,所有样本均被确认为有效。自动化检查使用 GPT-o1,初步标记了 39 对潜在无效样本,但经人工复审后也证实有效并保留。

    以下是 VISTA 数据集的一个样本(原文 Figure 1),展示了会议演示视频与对应论文摘要的配对:

    该图像是一个插图,展示了多段视频中的幻灯片内容,强调了事实知识、PopQA、规模及参数与非参数记忆的互补性。这些内容讨论了大型语言模型在处理信息时的能力及挑战。 Figure 1: An example from VISTA: a conference presentation video (top) paired with the abstract of the corresponding paper (bottom). This data sample (Mallen et al., 2023) was presented at ACL 2023 and received the Best Video Recordings award.

该样本展示了一个来自 ACL 2023 的演示视频,内容涉及大型语言模型在记忆方面的能力和局限性,并配有其论文摘要。

以下是 VISTA 数据集的另一个随机样本(原文 Figure 7),展示了视频标题和摘要:

该图像是欧洲研究委员会(ERC)的标志,左侧为欧洲联盟的蓝色国旗,中间环绕着十二颗金星,右侧则是ERC的标志性图案,包含字母‘erc’和圆点图形,代表其科研资助活动。
Figure 7: A random sample from the VISTA dataset, originating from Fernandes et al. (2023).

此样本的标题是 “When Does Translation Require Context? A Data-driven, Multilingual Exploration”,摘要描述了跨语言翻译中上下文需求的研究。

  • 数据分割: 数据集被分割为训练集 (80%)、验证集 (10%) 和测试集 (10%),以确保每个子集都包含平衡的领域覆盖。

  • 数据集统计: 以下是原文 Table 1 比较了 VISTA 与其他视频到文本摘要数据集的统计数据:

    Dataset Language Domain #Videos VideoLen SumLen
    MSS (Li et al., 2017) English, Chinese News 50 3.4
    YouCook2 (Zhou et al., 2018) English Cooking 2.0K 5.3 67.8
    VideoStorytelling (Li et al., 2019) English Open 105 12.6 162.6
    VMSMO (Li et al., 2020) Chinese Social Media 184.9K 1.0 11.2
    MM-AVS (Fu et al., 2021) English News 2.2K 1.8 56.8
    MLASK (Krubiáski and Pecina, 2023) Czech News 41.2K 1.4 33.4
    VideoXum (Lin et al., 2023) English Activities 14.0K 2.1 49.9
    Shot2Story20K (Han et al., 2025) English Open 20.0K 0.3 201.8
    BLiSS (He et al., 2023) English Livestream 13.3K 5.0 49.0
    SummScreen3D (Papalampidi and Lapata, 2023) English Open 4.5K 40.0 290.0
    Ego4D-HCap (Islam et al., 2024) English Open 8.3K 28.5 25.6
    Instruct-V2Xum (Hua et al., 2024) English Open 30.0K 3.1 239.0
    MMSum (Qiu et al., 2024) English Open 5.1K 14.5 21.7
    LfVS-T (Argaw et al., 2024) English YouTube 1.2K 12.2
    VISTA (ours) English Academic 18.6K 6.8 192.6

    Table 1: Comparison of video-to-text summarization datasets. #Videos = the number of videos, whereas VideoLen and SumLen refer to the average of video duration (in minutes) and the average number of summary tokens.

    VISTA 与其他数据集相比,其领域为“Academic”(学术),视频数量达到 18.6K,平均视频时长 6.8 分钟,平均摘要长度 192.6 词元 (token),这些都显著高于许多通用或特定活动数据集。

    以下是原文 Table 2 总结的 VISTA 数据集关键统计数据:

    Training / Validation / Test Set 14,881 / 1,859 / 1,859
    Avg. Video Length (mins) / Shots 6.76 / 16.36
    Avg. #Summary Sent / Tokens 7.19 / 192.62
    Avg. Depth of Dep Tree 6.02
    Type-Token Ratio 0.62
    Distinct-1 / -2 / -3 0.62 / 0.93 / 0.97

    Table 2: Key statistics of the VISTA dataset, showcasing the average video length and shot count, summary characteristics (sentence and token counts), syntactic complexity (dependency tree depth), and lexical diversity (Type-Token Ratio and Distinct n-gram scores).

    VISTA 数据集中视频平均长度为 6.76 分钟,平均包含 16.36 个镜头 (shots)。摘要平均包含 7.19 个句子和 192.62 个词元。其平均句法依存树深度 (Avg. Depth of Dep Tree) 为 6.02,表明摘要具有一定的句法复杂性。词汇多样性 (Type-Token Ratio, TTR) 为 0.62,Distinct-n 分数 (Distinct-1 / -2 / -3) 分别为 0.62 / 0.93 / 0.97,表明摘要具有良好的多样性。

    以下是原文 Figure 2 展示的 VISTA 数据集的会议分布情况:

    Figure 2: Venue distribution of the VISTA dataset.
    Figure 2: Venue distribution of the VISTA dataset.

    图表显示了 VISTA 数据集中不同会议来源的比例,其中 NeurIPS 占比最高,达到 51%,其次是 ICML (13%) 和 ACL (11%),其他会议占比相对较小。

    以下是原文 Figure 3 展示的 VISTA 数据集关键属性的分布情况:

    Figure 3: Distribution of summary sentences, summary tokens, video durations, and video shots in VISTA.
    Figure 3: Distribution of summary sentences, summary tokens, video durations, and video shots in VISTA.

    该图显示了摘要句子数、摘要词元数、视频时长和视频镜头数的分布。大多数摘要的词元数少于 250,句子数少于 10。大多数视频时长少于 10 分钟,镜头数少于 30。

5.1.1. 数据集选择的理由

VISTA 数据集的选择是为了解决现有数据集在科学领域多模态摘要任务上的不足。它提供了:

  • 专业性: 专注于科学会议演示,确保内容具有高度专业性和结构性。
  • 真实性: 使用论文摘要作为视频摘要的真值,符合实际学术场景。
  • 多样性: 覆盖多个顶级 AI/ML 会议,确保内容的广泛性和代表性。
  • 挑战性: 视频内容包含技术术语、复杂的视觉信息(如幻灯片),对模型理解能力提出了更高要求。

5.2. 评估指标

本文采用了一系列评估指标来衡量摘要的信息量 (informativeness)、对齐 (alignment) 和事实一致性 (factual consistency)。

5.2.1. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

  • 概念定义: ROUGE 是一组用于评估机器生成文本(如摘要)与人类参考文本之间重叠度的指标。它主要通过计算 n-gram(连续的 n 个词)的重叠来衡量摘要的质量。ROUGE-1 关注单词级别的重叠,ROUGE-2 关注两个单词连续序列的重叠,而 ROUGE-Lsum 则关注最长公共子序列 (Longest Common Subsequence, LCS),并对摘要的整体长度进行归一化。
  • 数学公式: ROUGE-NROUGE-N=S{Reference Summaries}gramnSCount(gramn)S{Reference Summaries}gramnSCount(gramn) \text{ROUGE-N} = \frac{\sum_{S \in \{\text{Reference Summaries}\}} \sum_{\text{gram}_n \in S} \text{Count}(\text{gram}_n)}{\sum_{S \in \{\text{Reference Summaries}\}} \sum_{\text{gram}_n \in S} \text{Count}(\text{gram}_n)} 其中,Count(gramn)\text{Count}(\text{gram}_n) 是在参考摘要中特定 n-gram 出现的次数,Countmatch(gramn)\text{Count}_{\text{match}}(\text{gram}_n) 是在生成摘要和参考摘要中匹配的特定 n-gram 出现的次数。 ROUGE-L(基于最长公共子序列): RLCS=LCS(X,Y)m R_{LCS} = \frac{\text{LCS}(X, Y)}{m} PLCS=LCS(X,Y)n P_{LCS} = \frac{\text{LCS}(X, Y)}{n} FLCS=(1+β2)RLCSPLCSRLCS+β2PLCS F_{LCS} = \frac{(1 + \beta^2) R_{LCS} P_{LCS}}{R_{LCS} + \beta^2 P_{LCS}} 在摘要任务中,通常使用 F1 分数,即当 β=1\beta=1 时。
  • 符号解释:
    • gramn\text{gram}_n:任意长度为 nn 的 n-gram。
    • Count(gramn)\text{Count}(\text{gram}_n):特定 n-gram 在参考摘要中出现的次数。
    • Countmatch(gramn)\text{Count}_{\text{match}}(\text{gram}_n):特定 n-gram 在生成摘要和参考摘要中匹配的次数。
    • XX:生成摘要的序列。
    • YY:参考摘要的序列。
    • LCS(X,Y)\text{LCS}(X, Y):序列 XXYY 的最长公共子序列的长度。
    • mm:参考摘要的长度(词数)。
    • nn:生成摘要的长度(词数)。
    • RLCSR_{LCS}:基于 LCS 的召回率 (recall)。
    • PLCSP_{LCS}:基于 LCS 的精确率 (precision)。
    • FLCSF_{LCS}:基于 LCS 的 F1 分数。
    • β\beta:一个权重参数,通常设为 1 来平衡召回率和精确率。
  • 本文报告: ROUGE-1 (R1)、ROUGE-2 (R2) 和 ROUGE-LSum (RLSUM) 的 F1 分数。

5.2.2. SacreBLEU

  • 概念定义: SacreBLEUBLEU (Bilingual Evaluation Understudy) 指标的一个标准化且更可靠的版本,用于评估机器翻译和文本生成质量。它通过计算 n-gram 的精确率来衡量机器生成文本与一个或多个参考文本的相似度,并惩罚过短的生成文本。SacreBLEU 特别关注语言一致性和流畅性。
  • 数学公式: BLEU=BPexp(n=1Nwnlogpn) \text{BLEU} = \text{BP} \cdot \exp \left( \sum_{n=1}^{N} w_n \log p_n \right) 其中,精确率 pnp_n 定义为: pn=sentenceCandidatengramnsentenceCountclip(ngramn)sentenceCandidatengramnsentenceCount(ngramn) p_n = \frac{\sum_{\text{sentence} \in \text{Candidate}} \sum_{\text{ngram}_n \in \text{sentence}} \text{Count}_{\text{clip}}(\text{ngram}_n)}{\sum_{\text{sentence} \in \text{Candidate}} \sum_{\text{ngram}_n \in \text{sentence}} \text{Count}(\text{ngram}_n)} 简短惩罚因子 (Brevity Penalty, BP) 定义为: BP={1if c>re(1r/c)if cr \text{BP} = \begin{cases} 1 & \text{if } c > r \\ e^{(1 - r/c)} & \text{if } c \le r \end{cases}
  • 符号解释:
    • NN:最大 n-gram 长度(通常为 4)。
    • wnw_n:每个 n-gram 的权重(通常为 1/N1/N)。
    • pnp_n:n-gram 的精确率。
    • Countclip(ngramn)\text{Count}_{\text{clip}}(\text{ngram}_n):在候选文本中出现的 n-gram 与参考文本中出现次数的最小值。
    • Count(ngramn)\text{Count}(\text{ngram}_n):在候选文本中出现的 n-gram 的总次数。
    • cc:候选文本的总长度。
    • rr:参考文本的有效总长度。

5.2.3. METEOR (Metric for Evaluation of Translation with Explicit Ordering)

  • 概念定义: METEOR 是一种用于评估机器翻译质量的指标,它考虑了精确率 (precision)、召回率 (recall) 和单词对齐 (word alignment),包括词干匹配、同义词匹配和释义匹配。它计算单词的精确率和召回率的调和平均值,并更强调召回率以实现平衡评估。
  • 数学公式: P=matched unigramslength of candidate P = \frac{\text{matched unigrams}}{\text{length of candidate}} R=matched unigramslength of reference R = \frac{\text{matched unigrams}}{\text{length of reference}} Fmean=10PR9P+R F_{\text{mean}} = \frac{10PR}{9P+R} METEOR=Fmean(1Penalty) \text{METEOR} = F_{\text{mean}} (1 - \text{Penalty}) 其中,Penalty=0.5(chunksmatched unigrams)3\text{Penalty} = 0.5 \left( \frac{\text{chunks}}{\text{matched unigrams}} \right)^3
  • 符号解释:
    • PP:精确率,匹配的单词数除以候选文本长度。
    • RR:召回率,匹配的单词数除以参考文本长度。
    • FmeanF_{\text{mean}}:精确率和召回率的调和平均值。
    • matched unigrams\text{matched unigrams}:在候选文本和参考文本中匹配的单词数。
    • chunks\text{chunks}:匹配的单词序列的数量。

5.2.4. BERTScore

  • 概念定义: BERTScore 使用基于 BERT 的上下文嵌入 (contextual embeddings) 来评估文本生成质量。它通过计算生成文本和参考文本中每个词的 BERT 嵌入向量之间的余弦相似度,并进行匹配,从而衡量语义相似度。它比传统的基于 n-gram 的指标更能捕捉语义信息。
  • 数学公式: 假设生成摘要为 x1,,xkx_1, \dots, x_k,参考摘要为 y1,,ymy_1, \dots, y_m。通过 BERT 编码器得到其上下文嵌入: xemb,i=BERTEncoder(xi,context)x_{\text{emb}, i} = \text{BERTEncoder}(x_i, \text{context}) yemb,j=BERTEncoder(yj,context)y_{\text{emb}, j} = \text{BERTEncoder}(y_j, \text{context}) 对于每个 xix_i,找到与之最相似的 yjy_j,并计算其相似度 maxj=1,,mcos(xemb,i,yemb,j)\max_{j=1, \dots, m} \text{cos}(x_{\text{emb}, i}, y_{\text{emb}, j})精确率 (P): P=1ki=1kmaxj=1,,mcos(xemb,i,yemb,j) P = \frac{1}{k} \sum_{i=1}^k \max_{j=1, \dots, m} \text{cos}(x_{\text{emb}, i}, y_{\text{emb}, j}) 对于每个 yjy_j,找到与之最相似的 xix_i,并计算其相似度 maxi=1,,kcos(xemb,i,yemb,j)\max_{i=1, \dots, k} \text{cos}(x_{\text{emb}, i}, y_{\text{emb}, j})召回率 (R): R=1mj=1mmaxi=1,,kcos(xemb,i,yemb,j) R = \frac{1}{m} \sum_{j=1}^m \max_{i=1, \dots, k} \text{cos}(x_{\text{emb}, i}, y_{\text{emb}, j}) F1 分数: F1=2PRP+R F_1 = 2 \cdot \frac{P \cdot R}{P + R}
  • 符号解释:
    • xix_i:生成摘要中的第 ii 个词元 (token)。
    • yjy_j:参考摘要中的第 jj 个词元。
    • BERTEncoder()\text{BERTEncoder}(\cdot)BERT 编码器,用于生成词元的上下文嵌入。
    • cos(,)\text{cos}(\cdot, \cdot):余弦相似度函数。
    • kk:生成摘要的长度。
    • mm:参考摘要的长度。

5.2.5. CIDEr-D (Consensus-based Image Description Evaluation)

  • 概念定义: CIDEr-D 最初用于图像描述评估,通过计算 n-gram 相似度并结合 词频-逆文档频率 (TF-IDF) 权重来衡量生成文本与参考文本之间的共识。它还引入了衰减因子 (decay factor) 以减少重复词的影响,从而更准确地反映生成文本的质量。
  • 数学公式: CIDErn(c,S)=1Mj=1MwWnmin(cn(w),sjn(w))IDF(w)wWnsjn(w)IDF(w) \text{CIDEr}_n(c, S) = \frac{1}{M} \sum_{j=1}^M \frac{\sum_{w \in \mathcal{W}_n} \min(c_n(w), s_{jn}(w)) \cdot \text{IDF}(w)}{\sum_{w' \in \mathcal{W}_n} s_{jn}(w') \cdot \text{IDF}(w')} 其中,CIDEr-D 引入了对 n-gram 匹配的“衰减”或“惩罚”,以减少重复的影响。
  • 符号解释:
    • cc:机器生成的图像描述(候选文本)。
    • S={s1,,sM}S = \{s_1, \dots, s_M\}:一组 MM 个人工生成的参考描述。
    • Wn\mathcal{W}_n:所有 nn-gram 的集合。
    • cn(w)c_n(w)nn-gram ww 在候选文本 cc 中出现的次数。
    • sjn(w)s_{jn}(w)nn-gram ww 在第 jj 个参考描述 sjs_j 中出现的次数。
    • IDF(w)\text{IDF}(w)nn-gram ww 的 逆文档频率 (Inverse Document Frequency)。

5.2.6. VideoScore

  • 概念定义: VideoScore (He et al., 2024) 专注于文本到视频的对齐 (text-to-video alignment),通过细粒度的多方面评分来评估视频内容与给定文本提示的匹配准确性。它旨在模拟人类对视频生成质量的精细反馈。
  • 数学公式: 原文未提供具体数学公式,但根据其定义,它是一个复合指标,可能涉及多个子指标的加权平均或聚合,每个子指标衡量文本提示与视频内容的特定方面(如对象、动作、场景、风格等)的匹配度。
  • 符号解释: 鉴于未提供公式,无法给出具体符号解释。

5.2.7. FactVC (Factual Consistency)

  • 概念定义: FactVC (Liu and Wan, 2023) 用于计算文本与视频内容的事实一致性,通过对粗粒度视频-文本相似度 (coarse-grained video-text similarity) 和基于精确率的细粒度匹配 (precision-based fine-grained matching) 进行对齐来实现。它旨在衡量摘要中事实的准确性及其在视频中的支持程度。
  • 数学公式: 原文未提供具体数学公式,但其核心思想是结合了视频-文本的整体语义匹配和关键事实信息的精确对应。原始 FactVC 值的范围是 0 到 1,在实验中被缩放 100 倍转换为百分比。
  • 符号解释: 鉴于未提供公式,无法给出具体符号解释。

5.3. 对比基线

本文将自己的方法与以下模型进行了比较:

  • 闭源大型多模态模型 (Closed-source LMMs):

    • GPT-o1 (Achiam et al., 2023)
    • Gemini 2.0 (Team et al., 2023)
    • Claude 3.5 Sonnet (Anthropic, 2024) 这些模型以其强大的通用能力和多模态理解著称。
  • 视频专用开源大型多模态模型 (Video-specific Open-source LMMs):

    • Video-LLaMA (Zhang et al., 2023)
    • Video-ChatGPT (Maaz et al., 2024)
    • Video-LLaVA (Lin et al., 2024a)
    • LLaMA-VID (Li et al., 2024c)
    • LLaVA-NeXT-Interleave (Li et al., 2025)
    • mPLUG-Ow13 (Ye et al., 2025) 这些模型专门设计用于处理视频数据,通过提取视觉和/或音频组件,并使用跨模态注意力机制对齐和整合信息。mPLUG-Ow13 在基准测试中表现最佳,被选作 基于计划的方法 (Plan-based Method) 的骨干模型。
  • 强大的单模态基线 (Strong Baselines):

    • 文本到文本模型 (Text-to-text model): LLaMA-3.1 (Touvron et al., 2023)。

      • LLaMA3.1transcriptLLaMA-3.1_transcript:使用 moviepy 从视频中提取音频,并使用 OpenAI 的 Whisper-1 转录为文本作为模型输入。
      • LLaMA3.1OCRLLaMA-3.1_OCR:使用 EasyOCR 从视频帧中提取屏幕文本作为模型输入。
    • 音频到文本模型 (Audio-to-text model): Qwen2-Audio (Chu et al., 2024)。使用 moviepy 将视频文件转换为音频,作为模型输入。

      这些基线模型涵盖了不同的模态(文本、音频、视频)和模型架构(通用 LLM、专用 LMM),以及不同的训练范式(零样本、微调),旨在全面评估 VISTA 数据集上的性能。

5.4. 实验设置

  • 学习设置: 实验在三种学习设置下进行:
    • 零样本学习 (Zero-shot learning): 模型直接应用于任务,无需在 VISTA 数据集上进行训练。
    • QLoRA 微调 (QLoRA fine-tuning): 使用 QLoRA 技术在 VISTA 数据集上对模型进行高效微调。
    • 全参数微调 (Full-parameter fine-tuning): 在 VISTA 数据集上对模型的所有参数进行微调。
  • 超参数配置:
    • 所有微调实验均使用 AdamW 优化器 (Loshchilov and Hutter, 2019),β1=0.9\beta_1 = 0.9β2=0.999\beta_2 = 0.999ϵ=109\epsilon = 10^{-9},权重衰减为 0.1。
    • 学习率预热比 (warm-up ratio) 为 0.15,初始学习率为 5e-5,采用余弦学习率调度。
    • DeepSpeed 配置为 ZeRO-3 Offload。
    • 随机种子设置为 2025,丢弃率 (dropout rate) 为 0.1。
    • QLoRA 设置中,秩 r=32r = 32,缩放因子 α=64\alpha = 64,低秩矩阵的丢弃率为 0.1。其他参数遵循 Transformers 库的默认设置。
    • 训练过程持续 16 个周期 (epochs),批大小 (batch size) 为 16,并采用早停 (early stopping) 机制(所有模型在 16 个周期前收敛)。
    • 模型推理(包括零样本学习)使用集束搜索 (beam search),集束大小 (beam size) 为 4,长度惩罚 (length penalty) 为 3.0,n-gram 重复惩罚 (no-repeat n-gram size) 为 3,最大生成新词元数限制为 256。
    • 视频专用 大型多模态模型 (LMMs) 的采样率为 0.1 帧/秒,提取帧数为 32。
    • 闭源模型的 API 请求在 2024-09-01 至 2025-02-10 期间进行,超参数包括温度 (temperature) 1,top_p 为 1,频率惩罚 (frequency penalty) 为 0.2,存在惩罚 (presence penalty) 为 0.2。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 总体性能

以下是原文 Table 3 比较了模型在 VISTA 数据集上的性能:

Method Model Open-source R1 R2 RLsum SacreBLEU Meteor BERTscore CIDEr-D VideoScore FactVC
Zero-shot LLaMA-3.1transcript 23.68 4.22 21.39 2.70 14.62 80.93 1.17 1.53 34.32
LLaMA-3.1oCR 24.02 4.37 21.42 2.63 14.59 80.33 1.19 1.50 34.06
Qwen2-Audio 23.52 4.29 21.53 2.49 14.77 80.62 1.15 1.59 34.31
Claude 3.5 Sonnet × 27.71 5.59 24.14 3.14 17.53 82.57 1.32 1.91 50.11
Gemini 2.0 X 27.82 5.66 24.29 4.22 17.83 82.64 1.47 2.02 52.02
GPT-o1 X 27.90 5.69 24.37 4.38 17.90 82.63 1.61 2.17 51.36
Video-LLaMA 20.18 3.19 21.24 1.76 13.73 81.31 1.08 1.63 32.25
Video-ChatGPT 20.36 3.52 21.43 1.79 14.01 81.35 1.11 1.63 33.21
Video-LLaVA 25.29 4.50 22.52 2.82 15.13 81.39 1.17 1.65 36.45
LLaMA-VID 25.31 4.77 22.53 2.88 15.27 81.32 1.14 1.64 36.39
LLaVA-NeXT-Interleave 25.41 4.82 22.68 2.92 15.25 81.40 1.18 1.73 40.12
mPLUG-Ow13 25.57 4.82 22.84 2.99 15.33 81.39 1.21 1.77 42.07
Plan-mPlug-Ow13* 25.62† 4.951‡ 22.97‡ 3.14‡ 15.39†‡ 81.45‡ 1.27‡ 1.86‡ 47.37‡
QLoRA Fine-tuning LLaMA-3.1transcript 32.24 11.38 30.39 8.03 21.57 82.39 3.86 2.81 53.22
LLaMA-3.1oCR 33.01 12.11 30.52 8.04 21.55 82.41 3.92 2.77 53.19
Qwen2-Audio 32.17 12.05 30.77 7.87 21.86 82.36 4.11 2.80 54.27
Video-LLaMA 30.74 -9.44 28.33 6.45 22.49 82.1 3.99 2.77 52.05
Video-ChatGPT 31.68 10.50 30.40 7.63 23.67 82.62 4.02 2.78 55.02
Video-LLaVA 33.16 12.64 30.37 8.17 23.92 82.81 4.26 2.83 59.13
LLaMA-VID 33.31 12.73 30.49 8.22 23.90 83.01 4.31 2.88 62.20
LLaVA-NeXT-Interleave 33.37 12.77 30.56 8.30 23.95 83.47 4.47 2.93 66.14
mPLUG-Ow13 33.40 12.82 30.66 8.29 23.97 83.49 4.47 2.92 70.08
Full Fine-tuning Plan-mPlug-Ow13 33.52# 13.01†‡ 31.10‡ 8.33 24.11†‡ 83.53† 4.52 3.11†‡ 73.11†‡
LLaMA-3.1transcript 33.37 11.93 30.86 8.27 25.12 83.71 4.87 3.21 63.38
LLaMA-3.1oCR 34.02 12.42 31.72 8.51 15.11 84.09 4.89 3.32 65.84
Qwen2-Audio 33.82 12.37 31.63 8.33 25.09 83.62 4.83 3.22 66.62
Video-LLaMA 32.19 11.86 31.68 8.41 24.99 83.83 4.77 3.04 64.21
Video-ChatGPT 32.47 12.11 32.21 8.72 25.09 83.91 4.82 3.11 66.09
Video-LLaVA 33.28 13.39 32.78 9.10 25.42 83.97 4.87 3.13 66.12
LLaMA-VID 33.47 13.53 32.80 9.21 25.41 84.03 4.91 3.17 68.30
LLaVA-NeXT-Interleave 33.75 13.61 32.88 9.26 25.63 84.11 5.01 3.23 73.42
mPLUG-Ow13 34.22 13.62 32.91 9.32 25.72 84.22 5.03 3.28 71.94
Plan-mPlug-Ow13 34.53†‡ 13.74‡ 33.25†‡ 9.56†‡ 25.88†‡ 84.37†‡ 5.15†‡ 3.33†‡ 75.41‡

Table 3: Model performance on VISTA dataset. In Plan-mPlug-Ow13, only the PG module is trained. Plans generated by GPT-o1 are fed as zero-shot input to the SG module. Symbols † and ‡ indicate that the performance of Plan-mPlug-Ow13 is significantly (p<0.05)(p < 0.05) different from LLaVA-NeXT-Interleave (third best) and mPLUG-Ow13 (second best), when using the paired t-test.*

  • 微调的显著提升: 领域内微调 (fine-tuning) 对所有评估指标的性能都有显著提升。全参数微调 (Full fine-tuning) 始终优于 QLoRA 微调。
  • 闭源模型在零样本设置下的优势: 在零样本 (zero-shot) 性能上,GPT-o1、Gemini 2.0 等闭源模型通常表现领先。
  • 开源模型微调后的竞争力: mPLUG-Ow13 和 Plan-mPlug-Ow13 等开源模型在微调后能达到甚至超越闭源模型的性能,尤其在语义对齐 (BERTScore) 和视频-文本一致性 (VideoScore) 方面。
  • 视频专用 LMMs 的优势: 基于视频的 大型多模态模型 (LMMs) 始终优于基于文本和音频的模型。mPLUG-Ow13 在大多数指标上实现了 SOTA 结果,凸显了视觉信息在摘要质量中的关键作用。
  • 基于计划方法的有效性: Plan-mPlug-Ow13(基于 mPLUG-Ow13 构建的计划式方法)在零样本和微调设置下都优于所有开源基线。
    • 在零样本推理中,Plan-mPlug-Ow13*(仅训练 PG 模块)在摘要质量、事实一致性和语义对齐方面超越了其他模型。
    • 在全参数微调下,Plan-mPlug-Ow13 实现了所有模型的最高总分,与 mPLUG-Ow13 相比,事实准确性 (FactVC) 提高了 +3.47,摘要质量 (RLsum) 提高了 +0.34。
  • 模型与人类表现的差距: 尽管有所改进,但所有模型(包括基于计划的方法)仍存在 幻觉 (hallucinations) 和对齐 (alignment) 问题。与人类表现(参考摘要在 FactVC 上得分为 88.54,VideoScore 上得分为 4.62)相比,仍存在显著差距 (p<0.05p < 0.05)。

6.1.2. 模态交互的影响

以下是原文 Table 4 比较了不同模态组合的性能:

Modality R2 Zero-shot Learning R2 QLoRA Fine-tuning
RLsum VideoScore FactVC RLsum VideoScore FactVC R2 RLsum Full Fine-tuning VideoScore FactVC
Video only 2.68 20.34 1.55 28.93 8.83 27.51 2.65 50.66 10.78 30.02 2.91 60.87
Audio only 2.14 19.72 1.41 26.84 7.52 26.34 2.48 45.79 9.23 27.93 2.73 58.02
Transcript only 2.02 18.01 1.34 25.53 6.91 24.33 2.39 44.87 8.44 25.81 2.35 54.11
Video + Audio 3.19 21.24 1.63 32.25 9.44 28.33 2.77 52.05 11.86 31.68 3.04 64.21
Video + Transcript 1.87 18.94 1.39 27.76 7.35 24.82 2.51 48.63 9.01 27.19 2.65 58.91
Audio + Transcript 1.64 18.55 1.35 27.48 7.23 24.73 2.38 47.15 8.57 25.82 2.54 55.39
Video + Audio + Transcript 1.92 19.13 1.47 28.60 7.37 25.29 2.52 50.72 9.22 27.21 2.61 59.30

Table 4: Performance comparison of different modality combinations.

  • 视频是核心模态: 视频作为最强的独立模态,因为它包含丰富的时空信息。
  • 音频的补充作用: 音频提供了互补的语调和时间线索,但缺乏语义视觉基础。
  • 文本转录的挑战: 文本转录虽然语义丰富,但通常引入冗长、嘈杂且非结构化的输入(特别是来自 ASR 系统),可能干扰模型的注意力机制和对齐能力。
  • 模态融合的挑战: 结果表明,当前的基于视频的 大型多模态模型 (LMMs) 在有效对齐和融合词元密集、嘈杂的文本输入与对应的视觉或音频信息时面临挑战。

6.1.3. 计划生成消融研究

以下是原文 Table 5 比较了不同计划生成消融设置下的性能:

Model R2 RLsum VideoScore FactVC
Plan-mPlug-Ow13 13.74 33.25 3.33 75.41
NoQUD 13.66 33.02 3.28 73.32
Lead-3Q 12.87 30.64 2.95 71.26
Tail-3Q 11.62 30.51 2.88 63.82
Random-3Q 11.57 30.48 2.87 64.28

Table 5: Performance comparison of different plan generation ablations under full fine-tuning settings.

  • QUD 方法的优势: NoQUD 方法(一次性生成所有计划问题)表现不如基于 QUD 的方法。
  • 前导句的上下文优势: Lead-3Q(使用前三个摘要句子生成计划)表现优于 Tail-3Q(使用最后三个摘要句子)和 Random-3Q(随机选择三个摘要句子),这表明摘要的初始句子为生成计划问题提供了更强的上下文连续性。

6.1.4. 计划质量的影响

以下是原文 Figure 5 展示的计划问题噪声对摘要性能的影响:

Figure 5: Noise in plan generation impacts summarization performance. FRR is a shorthand for Full Random Replacement, and RR for Random Replacement. RAST is a SOTA question generation method.
Figure 5: Noise in plan generation impacts summarization performance. FRR is a shorthand for Full Random Replacement, and RR for Random Replacement. RAST is a SOTA question generation method.

  • 计划质量至关重要: 计划问题的质量对摘要性能有显著影响。使用 GPT-o1 生成问题表现最佳。
  • 无关问题的影响: 全随机替换 (FRR) 方法表现最差,因为无关问题破坏了计划与摘要内容之间的对齐。
  • 一定的鲁棒性: 即使计划中包含一定程度的噪声(RR vs. FRR),基于计划的方法仍能表现合理,表明其具有一定的鲁棒性。这些发现强调了问题相关性和质量在构建输出摘要中的重要性。

6.1.5. 超越视觉的规划

以下是原文 Table 6 比较了在非视觉模型上应用规划方法后的性能:

Model Setting R2 RLsum VideoScore FactVC
LLaMA-3.1transcript Zero-shot Learning QLoRA Fine-tuning 4.22 → 4.56 21.39 → 22.01 1.53 → 1.75 34.32 → 40.78
Full Fine-tuning 11.38 → 11.62 11.93 → 12.24 30.39 → 30.55 30.86 → 31.38 2.81 → 3.02 3.21 → 3.25 53.22 → 60.47 63.38 → 65.21
LLaMA-3.10CR Zero-shot Learning 4.37 → 4.59 21.42 → 21.89 1.50 → 1.72 34.06 → 40.24
QLoRA Fine-tuning 12.11 → 12.33 30.52 → 30.78 2.77 → 2.98 53.19 → 60.38
Qwen2-Audio Full Fine-tuning Zero-shot Learning 12.42 → 12.75 31.72 → 32.19 3.32 → 3.38 65.84 → 67.53
4.29 → 4.51 21.53 → 22.18 1.59 → 1.77 34.31 → 40.52
QLoRA Fine-tuning 12.05 → 12.19 30.77 → 31.04 2.80 → 3.01 54.27 → 61.44
Full Fine-tuning 12.37 → 12.68 31.63 → 32.12 3.22 → 3.25 66.62 → 68.25

Table 6: The error bars in the table indicate that the planning method consistently improves performance across all settings and evaluation metrics. A paired t-test confirms that these improvements are statistically significant (p<0.05)(p < 0.05).

  • 规划的普适性: 规划方法在所有设置和评估指标上都持续改进了性能,包括 LLaMA-3.1_transcript (基于 ASR 的文本输入)、LLaMA-3.1_OCR (基于 OCR 的文本输入) 和 Qwen2-Audio (基于音频的输入)。这些改进是统计显著的 (p<0.05p < 0.05)。
  • 提供篇章级锚点: 这表明规划方法并非仅仅是领域特定的增强,而是一种通用的脚手架 (scaffold),即使在没有视觉输入的情况下,也能支持更好的篇章结构。对于基于文本和音频的模型,规划通过提供意图驱动的提示(例如,“正在解决什么问题?”)来弥补时空信号的缺失,从而指导模型的摘要轨迹。
  • 视频模型的优势依旧: 尽管单模态模型通过规划获得了提升,但基于视频的规划模型(如 Plan-mPLUG-Ow13)仍然以显著优势超越了非视觉模型。

6.2. 消融实验/参数分析

6.2.1. 视频上下文对摘要生成的影响 (Appendix H)

以下是原文 Table 8 比较了不同视频上下文配置下的模型性能:

Context Model R2 RLsum VideoScore FactVC
All mPLUG-Ow13 13.62 32.91 3.28 71.94
Plan-mPlug-Ow13 13.74 33.25 3.33 75.41
First 10% mPLUG-Ow13 6.31 25.44 2.37 51.02
Plan-mPlug-Ow13 7.37 27.38 2.52 52.39
First 30% mPLUG-Ow13 9.42 28.88 2.78 54.10
Plan-mPlug-Ow13 10.59 30.13 2.78 55.37
Last 10% mPLUG-Ow13 6.53 27.34 2.51 53.64
Plan-mPlug-Ow13 7.62 29.73 2.77 55.93
Last 30% mPLUG-Ow13 7.32 29.17 2.82 57.36
Plan-mPlug-Ow13 10.72 31.29 2.98 62.05

Table 8: Model performance under different video context configurations (full fine-tuning). The video content at the end is more helpful for summary generation.

  • 部分视频上下文的局限性: 仅使用部分视频上下文(前 10%、前 30%、后 10%、后 30%)的性能始终不如使用完整视频。
  • 视频末尾内容的价值: 使用视频的后半部分通常比使用前半部分产生更好的结果,因为总结性部分通常概括了关键发现,而开篇部分主要介绍背景信息。
  • 上下文长度的重要性: 使用 30% 的视频内容优于 10%,表明更多的上下文通常能带来更好的输出。
  • Plan-mPlug-Ow13 的持续优势: 在所有配置下,Plan-mPlug-Ow13 模型始终优于 mPLUG-Ow13。

6.2.2. 文本上下文对计划生成的影响 (Appendix I)

以下是原文 Figure 8 展示的文本上下文对计划生成的影响:

Figure 8: Impact of text context for plan generation.
Figure 8: Impact of text context for plan generation.

  • 上下文的重要性: 计划问题的生成受目标句子及其上下文的影响。
  • 不同上下文配置的比较:
    • 无上下文 (No-Context): 仅基于目标句子生成问题,性能最低,但成本效益最高。
    • 完整上下文 (All-Context): 基于整个摘要生成问题,性能略好,但计算成本最高。
    • 前置上下文 (Previous-Context): 基于目标句子及其前置摘要句子生成问题(与 QUD 理论一致),实现了最佳性能和适中成本的平衡。
  • 规划的持续优势: 尽管不同上下文配置的性能差异相对较小,但它们都优于没有规划组件的模型(图中红色和蓝色虚线所示)。

6.2.3. 可控生成 (Appendix J)

本文通过设计两个受控实验来调查基于计划的模型如何通过修改计划来控制输出摘要,并与直接通过指令控制的性能进行比较。

  • 摘要可读性 (Summary Readability): 以下是原文 Table 9 比较了摘要可读性控制实验的结果:

    Condition Plan-mPlug-Ow13 GPT-01
    R2 FRE R2 FRE
    No change 13.74 30.62 5.69 26.37
    Lay questions 13.38 35.17 4.26 28.94
    Expert questions 13.24 23.54 4.13 24.33

    Table 9: Control experiment for summary readability. FRE = Flesch Reading Ease.

    • 结果: 两种模型在 R2 分数上都有所下降,但 Plan-mPlug-Ow13 的下降幅度较小(平均损失 0.43),而 GPT-o1 的下降幅度较大(1.50)。
    • 可读性控制效果: Plan-mPlug-Ow13 在控制可读性方面更有效,对于“Lay questions”(面向非专业读者的简单问题)实现了更高的 Flesch Reading Ease (FRE) 分数 (35.17),对于“Expert questions”(面向专业读者的复杂问题)实现了更低的 FRE 分数 (23.54)。GPT-o1 在这方面的控制能力较弱。
  • 摘要长度 (Summary Length): 以下是原文 Table 10 比较了摘要长度控制实验的结果:

    Condition Plan-mPlug-Ow13 GPT-01
    R2 Avg. . #Tokens R2 Avg. #Tokens
    No deletion 13.74 202.39 5.69 267.32
    Delete 10% 11.05 178.47 4.32 220.49
    Delete 30% 10.41 137.72 3.17 192.42
    Delete 60% 8.01 100.32 2.98 185.28

    Table 10: Control experiment for summary length.

    • 结果: 随着内容删除比例的增加,两种模型的 R2 分数均下降。
    • 长度控制效果: 基于计划的模型 (Plan-mPlug-Ow13) 更接近目标压缩比,在删除 60% 时生成平均 100.32 个词元的摘要。相比之下,GPT-o1 生成的摘要更长(185.28 个词元),表明纯指令式控制在内容保留方面效果不佳。
  • 结论: 计划式方法比纯指令式方法(GPT-o1)更鲁棒且可控。计划提供了一种结构化机制来管理内容选择,确保与输入源有更大的一致性,从而减少了 幻觉 (hallucinations) 的风险。

6.3. 人类评估

本文对 VISTA 测试集中的 50 个随机样本进行了 人类评估 (human evaluation)。

  • 评估者: 计算机科学或计算语言学领域的硕士和博士生,具备高级英语水平,并对摘要来源不知情。

  • 评估指标: 评估者在 1-5 的李克特量表 (Likert scale) 上评估摘要的 忠实度 (Faithfulness)相关性 (Relevance)信息量 (Informativeness)简洁性 (Conciseness)连贯性 (Coherence),并提供总体排名。

  • 模型比较: Plan-mPlug-Ow13、mPLUG-Ow13、LLAVA-NeXT-Interleave 和 GPT-o1,以及人类参考摘要。

    以下是原文 Figure 6 展示的人类评估结果:

    Figure 6: Human evaluation results. Human-written summaries consistently outperform all neural models. Figure 6: Human evaluation results. Human-written summaries consistently outperform all neural models.

  • 评估者一致性: Fleiss' Kappa 分数显示各指标(忠实度 0.767,相关性 0.842,信息量 0.721,简洁性 0.792,连贯性 0.813)具有实质性的一致性,平均 Kappa 值为 0.787。

  • 人类表现的优越性: 人工撰写的摘要在质量上始终优于所有神经摘要模型,在忠实度、连贯性、简洁性和信息量方面明显更优。人类摘要被评为最佳的概率比模型生成摘要高 81.7%。

  • 模型表现对比:

    • GPT-o1 表现最差,63.2% 的时间被评为最差。
    • LLAVA-NeXT-Interleave 其次,有 17.8% 的机会被评为最差。
    • Plan-mPlug-Ow13 优于 mPLUG-Ow13,并在所有指标上表现出卓越性能,在神经摘要系统中生成高质量摘要的可能性更高。
  • 统计显著性: 配对 t 检验 (paired t-test) 表明,人类答案在所有指标上均显著优于所有神经模型 (p<0.05p < 0.05),揭示了自动系统与人类性能之间的明显差距。基于计划的方法在忠实度、连贯性和信息量方面显著优于其他神经模型 (p<0.05p < 0.05),但仍未达到人类水平。

6.4. LMM-as-Judge 评估 (Appendix L)

为了促进大规模模型输出比较,本文采用 LMM-as-Judge (Liusie et al., 2024; Liu et al., 2024c; Zheng et al., 2024; Liu et al., 2025) 方法,并将其扩展为使用 大型多模态模型 (LMM) 作为评估器。

  • 评估器: 使用 GPT-o1 作为评估器,整合文本和视频模态,评估与人类评估相同的摘要质量维度。

  • 一致性验证: GPT-o1 与人类评估者在 50 个样本上的 Fleiss' Kappa 分数显示,在忠实度 (0.732)、相关性 (0.803)、信息量 (0.730)、简洁性 (0.792) 和连贯性 (0.721) 等维度上,两者达到实质性一致。

  • 扩大评估范围: 验证后,将评估扩展到测试集中的所有样本。

    以下是原文 Figure 9 展示的 LMM-as-Judge 评估结果:

    Figure 9: LMM-as-Judge evaluation results showing that human-written summaries consistently outperform neural models. Figure 9: LMM-as-Judge evaluation results showing that human-written summaries consistently outperform neural models.

  • 结果与人类评估一致: 评估结果与人类评估基本一致。GPT-o1 对其自身响应的评分最低。人类撰写的摘要始终获得最高分。

  • 规划模型表现: GPT-o1 也认为基于计划的模型优于其他模型。

  • 模型与人类差距: 配对 t 检验再次确认,人类摘要在所有指标上均统计显著地优于所有神经模型 (p<0.05p < 0.05)。基于计划的模型在所有指标(除简洁性外)上均显著优于其他神经模型 (p<0.05p < 0.05)。

  • 挑战性: 尽管基于计划的方法能提高模型性能,但机器生成摘要与人类摘要之间仍存在差距,这反映了数据集的挑战性。

7. 总结与思考

7.1. 结论总结

本文介绍了 VISTA (Video to Scientific Abstract) 数据集,一个专门用于将科学视频演示总结为简洁连贯文本摘要的新颖数据集。通过对多种大型模型(包括语言、音频和多模态模型)进行全面评估,研究表明这项任务由于科学演示的复杂性和多模态性质而具有显著挑战性。为了应对这些挑战,本文提出并验证了一种基于计划的摘要方法,该方法在摘要生成之前融入了篇章感知的规划。实验结果表明,这种方法在多个设置下持续提高了摘要质量、事实覆盖率和连贯性。研究还揭示,即使是最强大的当前模型,与人类表现相比仍存在显著差距。VISTA 数据集的引入旨在为未来视频到文本摘要研究提供一个坚实且可扩展的基础。

7.2. 局限性与未来工作

7.2.1. 数据集的局限性

  • 固有偏差: 数据集中的所有数据均来自公开资源,但研究尚未调查数据中固有的偏差。
  • 代表性有限: 数据集只代表了真实世界数据的一小部分,研究结果可能无法推广到所有视频到文本摘要场景。
  • 摘要代理假设: 任务中将论文摘要作为对应视频摘要的代理。尽管通过质量控制确保了高度对齐,但论文摘要与仅从视频中得出的文本摘要之间可能存在细微差异。

7.2.2. 模型方法的局限性

  • 泛化性未完全验证: 尽管基于计划的方法在视频、音频和文本模型上进行了测试,但并未旨在证明其对所有不同模态模型都有效。
  • 最佳规划方法未确定: 基于计划的方法有多种形式,本文工作并未旨在确定适用于 VISTA 数据集的最佳规划方法。
  • 范围限制: 研究主要集中在科学领域的视频到文本摘要。规划方法在其他 自然语言处理 (NLP) 任务(如多模态机器翻译、多模态问答或多模态推理)中的应用仍未探索。

7.2.3. 评估的局限性

  • 自动化评估的局限性: 自动化指标和 幻觉 (hallucination) 检测方法有其固有限制,可能无法捕捉模型质量的所有方面。
  • 人类评估的局限性:
    • 只评估了 50 对视频-摘要对,可能无法代表整个数据集。
    • 评估者虽然是研究生,但并非视频到文本摘要领域的专家,且阅读和评估技能可能有所不同。
  • LMM-as-Judge 的局限性:
    • 可能继承了其预训练数据的偏差,且其黑盒性质使得评分过程难以解释。
    • 数据污染 (data contamination) 仍是一个问题,如果 GPT-o1 在重叠数据上进行过训练。
    • 虽然通过小部分样本的人类评估验证了一致性,但这可能无法完全捕捉模型在不同主题、领域或摘要风格上的可靠性。

7.3. 个人启发与批判

  • 启发:

    • 科学领域摘要的独特价值: 本文强调了科学视频摘要的独特挑战和重要性,这是一个值得深入研究的细分领域,具有巨大的知识管理和教育应用潜力。
    • 结构化方法的重要性: 基于计划的框架提供了一种有效的方式来处理结构化信息,尤其是在科学文本这种具有明确篇章结构的内容中。这种“显式规划”的思路,能够将复杂的生成任务分解,提高模型的可控性和可解释性,对于其他需要生成结构化文本的任务(如报告生成、故事创作)也具有借鉴意义。
    • 多模态融合的挑战与机遇: 论文揭示了当前 大型多模态模型 (LMMs) 在有效整合多模态信息(特别是处理嘈杂的文本转录)方面的局限性。这指明了未来研究方向,即如何设计更强大的融合机制,使模型能够从不同模态中高效地提取和对齐关键信息。
    • 数据集建设的导向性: VISTA 数据集不仅提供了数据,更通过其领域特性和任务设置,为研究者指明了科学摘要领域需要关注的核心问题,即事实一致性、对齐和结构化。
  • 批判与改进之处:

    • 计划生成器的鲁棒性: 论文中计划生成器使用了 GPT-o1,这引出了一个问题:如果 GPT-o1 本身存在偏差或 幻觉 (hallucinations),是否会向下游的摘要生成引入错误?未来可以探索更鲁棒、可控或可解释的计划生成方法,例如基于规则、模板或更小、更专业的模型来生成计划,以减少对大型闭源模型的依赖。
    • 计划与摘要的解耦程度: 尽管论文强调了 PG 和 SG 模块的独立性,但在训练和推理时,PG 模块的输出会直接影响 SG 模块的输入。这可能导致错误传播。未来可以研究更紧密的 PG 和 SG 之间的交互机制,例如迭代优化或反馈循环,以允许 SG 模块对计划进行“软修正”。
    • 多模态融合的深度: 论文虽然展示了视频模态的重要性,但对不同模态信息在模型内部如何相互作用、如何克服嘈杂的文本转录等问题的机制性解释较少。未来的工作可以深入探究不同模态特征的更深层次融合策略,例如通过跨模态注意力机制、门控机制或多模态知识图谱来增强信息整合。
    • 更细粒度的评估: 尽管评估指标丰富,但对于科学摘要而言,更细粒度的评估可能包括:对方法论、结果、贡献等不同摘要部分的准确性评估;对技术术语使用是否恰当的评估;以及对不同目标受众(如专家、非专家)摘要质量的评估。
    • 可解释性与透明度: 基于计划的方法在一定程度上提高了可解释性,因为计划本身提供了一个中间步骤。然而,计划生成的过程(尤其是由大型语言模型生成时)仍可能是一个黑盒。未来的工作可以探索如何使计划生成过程本身更具透明度和可控性,例如通过让模型解释为什么会生成某个特定的问题,或者允许用户对计划进行干预和修正。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。