AiPaper
论文状态:已完成

Quality-Guided Vision-Language Learning for Long-Term Action Quality Assessment

发表:2025/01/01
原文链接
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出质量引导视觉语言学习方法,通过质量相关文本提示引导视觉特征映射至细粒度分数区间,并设计渐进式语义学习模块,从粗到细精炼评分,适用于所有动作场景且无需额外标注。实验验证此法在多个长期动作质量评估数据集上表现优异。

摘要

IEEE TRANSACTIONS ON MULTIMEDIA 1 Quality-Guided Vision-Language Learning for Long-Term Action Quality Assessment Huangbiao Xu, Huanqi Wu, Xiao Ke, Member, IEEE, Yuezhou Li, Rui Xu, and Wenzhong Guo, Member, IEEE Abstract —Long-term action quality assessment poses a chal- lenging visual task since it requires assessing technical actions at different skill levels in a long video. Recent state-of-the-art methods incorporate additional modality information to aid in understanding action semantics, which incurs extra annotation costs and imposes higher constraints on action scenes and datasets. To address this issue, we propose a Quality-Guided Vision-Language Learning (QGVL) method to map visual fea- tures into appropriate fine-grained intervals of quality scores. Specifically, we use a set of quality-related textual prompts as quality prototypes to guide the discrimination and aggregation of specific visual actions. To avoid fuzzy rule mapping, we further propose a progressive semantic learning strategy with a Granularity-Adaptive Semantic Learning Module (GSLM) that refines accurate score intervals from coarse to

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Quality-Guided Vision-Language Learning for Long-Term Action Quality Assessment (面向长时程动作质量评估的质量引导视觉语言学习)

这篇论文的核心主题是利用视觉语言学习 (Vision-Language Learning) 的方法来解决长时程动作质量评估 (Long-Term Action Quality Assessment, AQA) 任务。标题明确指出了其核心技术——“质量引导 (Quality-Guided)”,即利用与“质量”相关的文本信息来指导模型的学习过程。

1.2. 作者

Huangbiao Xu, Huanqi Wu, Xiao Ke, Member, IEEE, Yuezhou Li, Rui Xu, and Wenzhong Guo, Member, IEEE.

作者们来自福州大学计算机与数据科学学院、福建省网络计算与智能信息处理重点实验室,以及大数据智能福建省工程研究中心等机构。通信作者为 Xiao Ke。从作者信息可以看出,这是一个来自中国高校的研究团队,专注于计算机视觉和数据科学领域。

1.3. 发表期刊/会议

论文中提到了其成果已被 ECCV 2024 接收(参考文献 [5] 指向了此工作的一个版本),ECCV (European Conference on Computer Vision) 是计算机视觉领域的三大顶级国际会议之一(与 CVPR, ICCV 齐名),享有极高的学术声誉和影响力。这表明该研究成果具有很高的质量和创新性。

1.4. 发表年份

根据参考文献 [5] 和上下文推断,本文的主要工作发表于 2024 年

1.5. 摘要

长时程动作质量评估(AQA)是一项富有挑战性的视觉任务,因为它需要在长视频中评估不同技能水平的技术动作。近期最先进的方法通过引入额外的模态信息(如音频、特定文本描述)来辅助理解动作语义,但这带来了额外的标注成本,并对动作场景和数据集提出了更高的要求。为了解决这个问题,本文提出了一种质量引导的视觉语言学习 (Quality-Guided Vision-Language Learning, QGVL) 方法,旨在将视觉特征映射到合适的、细粒度的质量分数区间。具体来说,作者使用一组与质量相关的文本提示 (textual prompts) 作为“质量原型”,以指导特定视觉动作的区分和聚合。为了避免模糊的规则映射,作者进一步提出了一种渐进式语义学习策略 (progressive semantic learning strategy),该策略包含一个粒度自适应语义学习模块 (Granularity-Adaptive Semantic Learning Module, GSLM),能够在剪辑 (clip)、等级 (grade) 和分数 (score) 三个层级上,从粗到细地提炼出精确的分数区间。本文设计的质量相关语义是通用的,适用于所有类型的动作场景,且无需任何额外标注。大量的实验表明,该方法在四个公开的 AQA 基准数据集(Rhythmic Gymnastics, Fis-V, FS1000, FineFS)上显著优于先前的工作,并创造了新的最先进记录。

1.6. 原文链接

  • 官方链接: /files/papers/690088a9ed47de95d44a34b3/paper.pdf
  • 发布状态: 根据论文内容和引用信息,该论文是为 ECCV 2024 会议准备的,并已被接收。

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 现有的长时程动作质量评估 (Long-Term Action Quality Assessment, AQA) 方法,特别是那些性能优异的方法,越来越依赖于额外的模态信息(如音频、骨骼数据、与特定动作相关的文本描述)来提升性能。然而,这些额外信息通常需要昂贵的人工标注,并且这些标注往往是场景特定 (scenario-specific) 的,无法直接迁移到其他类型的动作评估任务中(例如,为花样滑冰制作的文本描述无法用于艺术体操)。

  • 重要性与挑战 (Gap): 在追求更精准评估的同时,如何降低数据标注成本、提高模型的泛化能力通用性,是 AQA 领域一个亟待解决的关键问题。研究界需要一种“通用语义学习方法”,它不依赖于特定动作的专业知识,就能有效地引导模型理解动作质量的好坏。这对于推动 AQA 技术在更广泛的实际应用(如体育分析、医疗康复、技能评定)中落地至关重要。

  • 切入点/创新思路: 论文作者另辟蹊径,提出不再使用描述“动作内容”的文本,而是使用描述“动作质量”的文本。例如,不再使用“一个后内点冰三周跳”这样的具体描述,而是使用“一个表现出色的动作”、“一个有明显失误的动作”这类通用的质量描述。这些质量相关的文本提示 (quality-related textual prompts)通用 (universal) 的,可以应用于任何动作类型,并且无需额外标注 (without additional annotation),极大地降低了成本。其核心思想是利用这些通用文本作为“锚点”或“原型”,通过视觉语言学习将视频中的不同表现“对号入座”,从而实现对动作质量的评估。

2.2. 核心贡献/主要发现

  • 提出了 QGVL 新方法: 提出了一种新颖的质量引导的视觉语言学习 (Quality-Guided Vision-Language Learning, QGVL) 方法。该方法利用通用的、与质量相关的细粒度文本语义来挖掘动作表现与质量等级之间的映射规则,且无需额外的标注成本。

  • 设计了渐进式学习策略与 GSLM 模块: 为了实现从粗到细的精准评估,设计了一种渐进式学习策略 (progressive learning strategy),配合一个新颖的粒度自适应语义学习模块 (Granularity-Adaptive Semantic Learning Module, GSLM)。该策略能够在剪辑 (clip)等级 (grade)分数 (score) 三个不同粒度上逐步聚焦与质量相关的语义,将视觉特征映射到合适的分数区间。

  • 实现了跨场景的 SOTA 性能: 实验证明,该方法在四个主流的长时程 AQA 基准数据集(Rhythmic Gymnastics, Fis-V, FS1000, FineFS)上均取得了最先进的 (state-of-the-art, SOTA) 性能,显著超越了以往的方法。此外,论文还探索了在多个数据集上训练一个统一 AQA 模型的可行性,并取得了优异结果,证明了其方法的通用性和有效性。

3. 预备知识与相关工作

3.1. 基础概念

  • 动作质量评估 (Action Quality Assessment, AQA): AQA 是计算机视觉的一个子领域,其目标是自动评估一个动作执行得“有多好”,而不仅仅是识别动作的类别。它通常需要对视频进行分析,并输出一个量化的分数来表示动作的质量。

  • 视觉语言学习 (Vision-Language Learning, VLL): 这是一个交叉学科领域,旨在让计算机模型能够同时理解图像/视频(视觉信息)和自然语言(文本信息),并学习它们之间的对应关系。近年来,以 CLIP 为代表的预训练模型在该领域取得了巨大成功。

  • CLIP (Contrastive Language-Image Pre-training): 由 OpenAI 开发的一个强大的多模态预训练模型。它通过在互联网上收集的海量“图像-文本”对上进行对比学习,学会了将图像和描述其内容的文本映射到同一个高维特征空间中。在这个空间里,语义相似的图像和文本特征向量会非常接近。这使得 CLIP 具备了强大的零样本 (zero-shot) 识别能力和跨模态理解能力。本文正是利用了 CLIP 这类模型的能力来建立视频片段与质量描述文本之间的联系。

  • Transformer: 一种基于自注意力机制 (self-attention mechanism) 的深度学习模型架构,最初应用于自然语言处理领域,现已广泛用于计算机视觉等多个领域。其核心优势在于能够捕捉序列数据中长距离的依赖关系。本文使用 Transformer 来增强视频剪辑之间的时间上下文信息。

3.2. 前人工作

论文将相关工作分为两大类:

  1. 传统的 AQA 方法:

    • 早期的工作主要集中在短时程、简单动作(如跳水)的评估上。
    • 针对长时程 AQA,研究者们开始探索更复杂的模型。例如,Pirsiavash 等人 [1] 开创性地使用姿态特征回归裁判分数;MS-LSTM [30] 使用多尺度 LSTM 网络学习视频特征;ACTION-NET [29] 结合动态和静态信息来关注特定动作。
    • 近期的一些方法通过解耦特征(如 GDLT [25])或引入指令对齐(如 CoFInAl [26])来解决领域偏移和过拟合问题。
  2. 多模态 AQA 方法:

    • 为了更好地理解动作语义,一些工作引入了其他模态信息。例如,[12, 13] 引入音频 (audio) 信息,[14] 引入与动作内容相关的语言 (language) 描述。
    • 这些方法虽然取得了显著的性能提升,但其共同的缺点是需要为每个视频单独进行额外标注,成本高昂且通用性差。

3.3. 技术演进

AQA 技术的发展脉络可以概括为:

  1. 从短时程到长时程: 研究焦点从几秒钟的简单动作扩展到数分钟的复杂动作序列(如花样滑冰、艺术体操)。
  2. 从单一模态到多模态: 为了处理长时程视频中更丰富的信息,研究者从单纯依赖视觉信息,发展到融合音频、文本、骨骼姿态等多种模态信息。
  3. 从场景特定到追求通用: 早期方法和多模态方法大多是为特定场景设计的。当前的一个重要趋势是开发更通用、低成本的解决方案,以适应多样化的应用场景。本文正是在这一趋势下的重要探索。

3.4. 差异化分析

本文方法与相关工作的主要区别在于其引入语义信息的方式:

  • vs. 动作特定描述方法 (如 SGN [14]): SGN 等方法需要为每个视频标注详细的动作内容描述(如“后内点冰三周跳”),这些描述是场景特定的,无法复用。而本文的 QGVL 使用的是通用的质量描述(如“表现完美”、“轻微失误”),这些描述适用于任何动作,无需额外标注,成本极低且泛化能力强。
  • vs. 无语义指导的方法 (如 GDLT [25]): GDLT 等方法虽然也尝试将动作分级,但它使用的是可学习的向量 (learnable vectors)位置编码 (positional embeddings) 来代表不同等级。这些向量在训练初期没有明确的语义含义,需要模型从零开始学习。而 QGVL 从一开始就使用带有明确语义的文本提示作为“质量原型”,为模型提供了强先验知识,引导其更快、更准确地学习质量模式。

4. 方法论

4.1. 方法原理

QGVL 的核心思想是:利用通用的、描述动作质量好坏的文本作为“语义锚点”,通过一个从粗到细的渐进式学习框架,引导模型将视频中的视觉表现与相应的质量等级和分数区间进行匹配,从而实现精准的动作质量评估。

整个框架可以分解为以下几个关键步骤:时间上下文增强、质量引导的视觉语言学习(包含从剪辑到等级,再从等级到分数的两级学习)、以及最终的量化分数生成和模型优化。

下图(原文 Figure 2)展示了 QGVL 方法的整体框架:

该图像是论文中关于质量引导视觉语言学习(QGVL)框架的示意图,展示了从输入视频到多粒度语义学习及质量得分预测的整体流程。 该图像是论文中关于质量引导视觉语言学习(QGVL)框架的示意图,展示了从输入视频到多粒度语义学习及质量得分预测的整体流程。

4.2. 核心方法详解 (逐层深入)

4.2.1. 整体流程概述 (A. Overview)

  1. 视频预处理: 将一个长视频分割成 TT 个不重叠的剪辑 (clips)

  2. 视觉特征提取: 使用一个预训练的视频主干网络 (backbone) (如 I3D, VST) 提取每个剪辑的视觉特征,得到特征序列 F={ft}t=1T\boldsymbol{F} = \{\boldsymbol{f}_t\}_{t=1}^T

  3. 时间上下文增强: 通过一个网络 N\mathcal{N} (一个 Transformer 编码器) 来增强剪辑特征之间的时间上下文关系,得到增强后的特征 F^\hat{\boldsymbol{F}}

  4. 文本提示编码: 设计两组不同粒度的质量相关文本提示:等级 (grade) 级和分数 (score) 级。使用预训练的文本编码器 (如 CLIP 的文本编码器) 将它们编码成文本特征 GGSS

  5. 渐进式语义学习: 这是方法的核心。

    • 第一阶段 (剪辑→等级): 使用等级级的文本特征 GG 和剪辑级的视觉特征 F^\hat{\boldsymbol{F}},通过粒度自适应语义学习模块 (GSLM) M\mathcal{M},聚合出与每个质量等级相关的视觉语义 G^\hat{G}
    • 第二阶段 (等级→分数): 使用分数级的文本特征 SS 和上一阶段得到的等级级语义 G^\hat{G},再次通过 GSLM 模块 M\mathcal{M},进一步细化出与每个具体分数相关的视觉语义 S^\hat{S}
  6. 分数生成: 基于学习到的等级语义 G^\hat{G} 和分数语义 S^\hat{S},通过一个回归模块 R\mathcal{R} 计算出最终的质量分数 s\mathbf{s}

    形式上,这个过程可以表示为: F^=N(FΘ) \hat{\boldsymbol{F}} = \mathcal{N}(\boldsymbol{F} | \Theta) G^=M(G,F^Φ),S^=M(S,G^Φ) \hat{G} = \mathcal{M}(G, \hat{F} | \Phi), \quad \hat{S} = \mathcal{M}(S, \hat{G} | \Phi) s=R(G^,S^Ψ) \mathbf{s} = \mathcal{R}(\hat{G}, \hat{S} | \Psi) 其中 Θ,Φ,Ψ\Theta, \Phi, \Psi 分别是网络 N\mathcal{N}, M\mathcal{M}, R\mathcal{R} 的可学习参数。

4.2.2. 时间上下文增强 (B. Temporal context enhancement)

输入的剪辑级视觉特征 FRT×D\boldsymbol{F} \in \mathbb{R}^{T \times D} 仅包含局部时间信息。为了捕捉长时程动作中各个子动作之间的关联,论文首先使用一个 Transformer 编码器来增强时间上下文。这个过程包括:

  1. 维度映射: 使用一个全连接层将原始视觉特征维度从 DD 降到 dd,以匹配文本特征的维度。
  2. 上下文建模: 将降维后的特征输入到一个标准的 Transformer 编码器中。通过其内部的自注意力机制 (self-attention),每个剪辑特征都能够与其他所有剪辑特征进行信息交互,从而捕捉长距离的依赖关系。输出的增强特征 F^\hat{\boldsymbol{F}} 包含了更丰富的全局时间上下文。

4.2.3. 质量引导的视觉语言学习 (C. Quality-guided vision-language learning)

这是论文最具创新性的部分,采用了一种从粗到细的策略。

1. 文本提示设计: 作者设计了两套模板来生成文本提示:

  • 等级级 (Grade-level) 提示: "a video of [action prompt] with [grade prompt] performance and a quality score of [score prompt]." 例如,对于花样滑冰,[action prompt] 可以是 "figure skating",[grade prompt] 可以是 "excellent", "good", "fair", "poor" 等。假设将分数范围划分为 K=4K=4 个等级,这些提示就会被编码为 KK 个文本原型 G={gk}k=1KG = \{\boldsymbol{g}_k\}_{k=1}^K

  • 分数级 (Score-level) 提示: "a video of [action prompt] with a quality score of [score prompt]." 例如,[score prompt] 可以是 "24", "25" 等。如果将总分 100 分归一化到 [0, 100] 的整数,就可以生成 N=101N=101 个分数级提示,编码为分数原型 S={sn}n=1NS = \{\boldsymbol{s}_n\}_{n=1}^N

2. 粒度自适应语义学习模块 (GSLM): GSLM 是实现跨粒度语义交互的核心模块,其结构如下图(原文 Figure 3)所示:

Fig. 3. The architecture of granularity-adaptive semantic learning module. 该图像是论文中图3的示意图,展示了粒度自适应语义学习模块的整体架构,包括质量语义适配器(QSA)和质量引导的跨粒度整合器(QCI)两个关键部分,体现了从剪辑到等级再到得分层级的渐进式语义学习流程。

它由两个子模块构成:

  • 质量语义适配器 (Quality Semantic Adapter, QSA): 本质是一个 Transformer 编码器(自注意力+FFN)。它的作用是让输入的文本原型(如等级原型 GG)内部进行信息交互,挖掘不同质量等级之间的潜在关联,并使它们适应于后续与视觉特征交互的潜在空间。
  • 质量引导的跨粒度整合器 (Quality-guided Cross-granularity Integrator, QCI): 本质是一个 Transformer 解码器层(交叉注意力+FFN)。它使用经过 QSA 调整后的文本原型作为查询 (Query),使用来自上一粒度的视觉/语义特征作为键 (Key)值 (Value),通过交叉注意力 (cross-attention) 机制来聚合信息。

3. 渐进式学习流程: 下图(原文 Figure 4)直观地展示了从粗到细的学习流程:

Fig. 4. The pipeline of our coarse-to-fine quality-related semantic learning framework. Take \(K = 4\) and \(N = 1 0 1\) for example. 该图像是图4,展示了一个粗到细质量相关语义学习框架流水线。流程包括从剪辑级视觉特征通过GSLM模块逐步映射到等级级和分数级语义,利用质量文本提示进行粗粒度到细粒度的量化学习,示例中K=4,N=101,配有分数区间公式如[0-1],[1-2]等。

  • 第一阶段:从剪辑到等级 (Clip-to-Grade):

    • 输入:增强后的剪辑级视觉特征 F^\hat{\boldsymbol{F}} 和等级级文本原型 GG
    • 过程:
      1. GG 首先通过 QSA 进行自适应,得到 G\boldsymbol{G}'
      2. 然后,G\boldsymbol{G}' 作为 QueryF^\hat{\boldsymbol{F}} 作为 KeyValue,输入到 QCI 中。QCI 通过交叉注意力计算每个等级原型应该从哪些视频剪辑中聚合信息。
      3. QCI 的计算过程可以形式化为(以第 kk 个等级为例): Gk=Softmax((Wqgk)(WkF^)Td) \mathcal{G}_k = \mathrm{Softmax}\left( \frac{(W_q \boldsymbol{g}'_k) (W_k \hat{\boldsymbol{F}})^T}{\sqrt{d}} \right) g^k=FFN(Gk(WvF^)) \hat{\boldsymbol{g}}_k = \mathrm{FFN}\left( \mathcal{G}_k (W_v \hat{\boldsymbol{F}}) \right) 其中,Wq,Wk,WvW_q, W_k, W_v 是可学习的权重矩阵,Gk\mathcal{G}_k 是注意力权重,表示第 kk 个等级对所有视频剪辑的关注程度。g^k\hat{\boldsymbol{g}}_k 是最终聚合得到的、代表第 kk 个质量等级的视频语义。
    • 输出:等级级语义特征 G^={g^k}k=1K\hat{G} = \{\hat{\boldsymbol{g}}_k\}_{k=1}^K
  • 第二阶段:从等级到分数 (Grade-to-Score):

    • 输入:上一阶段得到的等级级语义 G^\hat{G} 和分数级文本原型 SS
    • 过程:
      1. 首先将 NN 个分数原型 SS 划分成 KK 组,每组对应一个质量等级。例如,对于第 kk 个等级,其对应的分数原型为 {sn(k)}n=N(k1)Nk1\{ \boldsymbol{s}_n^{(k)} \}_{n=\mathbb{N}*(k-1)}^{\mathbb{N}*k-1}
      2. 对于每个等级 kk,将其对应的分数原型 {sn(k)}\{ \boldsymbol{s}_n^{(k)} \} 通过 QSA 进行自适应,得到 {sn(k)}\{ \boldsymbol{s}'_n{}^{(k)} \}
      3. 然后,{sn(k)}\{ \boldsymbol{s}'_n{}^{(k)} \} 作为 Query,对应的等级语义 g^k\hat{\boldsymbol{g}}_k 作为 KeyValue,再次输入到 QCI 中。
      4. QCI 的计算过程(以第 kk 组中的第 nn 个分数为例): Sk=Softmax((wqsn(k))(wkg^k)Td) \boldsymbol{\mathcal{S}}_k = \mathrm{Softmax}\left( \frac{(w_q \boldsymbol{s}'^{(k)}_n) (w_k \hat{\boldsymbol{g}}_k)^T}{\sqrt{d}} \right) s^n(k)=FFN(Sk(wvg^k)) \hat{\boldsymbol{s}}_n^{(k)} = \mathrm{FFN}\left( \mathcal{S}_k (w_v \hat{\boldsymbol{g}}_k) \right) 其中 wq,wk,wvw_q, w_k, w_v 是可学习的权重。值得注意的是,这里的 QCI 模块与第一阶段的 QCI 共享权重,这使得 QCI 能够学习到跨越不同粒度的、通用的质量模式判别能力。
    • 输出:分数级语义特征 S^={s^n}n=1N\hat{S} = \{\hat{\boldsymbol{s}}_n\}_{n=1}^N

4.2.4. 量化分数生成 (D. Quantitative score generation)

  1. 定义量化值: 为每个等级和分数分配一个固定的数值。例如,对于 KK 个等级,第 kk 个等级的量化值为 vkg=k1K1v_k^g = \frac{k-1}{K-1};对于 NN 个分数,第 nn 个分数的量化值为 vns=n1N1v_n^s = \frac{n-1}{N-1}。这些值都被归一化到 [0, 1] 区间。
  2. 计算权重: 使用两个独立的多层感知机 (MLPs) ϕg\phi_gϕs\phi_s 分别从等级语义 g^k\hat{\boldsymbol{g}}_k 和分数语义 s^n\hat{\boldsymbol{s}}_n 中预测其在整个视频中的权重强度 wkgw_k^gwnsw_n^swkg=δ(ϕg(g^k)),wns=δ(ϕs(s^n)) w_k^g = \delta(\phi_g(\hat{\boldsymbol{g}}_k)), \quad w_n^s = \delta(\phi_s(\hat{\boldsymbol{s}}_n)) 其中 δ\deltasigmoid 激活函数。
  3. 归一化权重: 对权重进行 softmax 式的归一化,使其总和为 1。 w^kg=wkgk=1Kwkg,w^ns=wnsn=1Nwns \hat{w}_k^g = \frac{w_k^g}{\sum_{k=1}^K w_k^g}, \quad \hat{w}_n^s = \frac{w_n^s}{\sum_{n=1}^N w_n^s}
  4. 计算最终分数: 将等级级分数和分数级分数进行加权求和,得到最终的预测分数 s\mathbf{s}s=λgk=1Kw^kgvkg+λsn=1Nw^nsvns \mathbf{s} = \lambda_g \sum_{k=1}^K \hat{w}_k^g v_k^g + \lambda_s \sum_{n=1}^N \hat{w}_n^s v_n^s 其中 λg\lambda_gλs\lambda_s 是可学习的自适应权重,且 λs=1λg\lambda_s = 1 - \lambda_g

4.2.5. 优化 (E. Optimization)

总的损失函数由三部分组成:

  1. 均方误差损失 (MSE Loss, LMSE\mathcal{L}_{MSE}): 这是主要的回归损失,用于最小化预测分数 s\mathbf{s} 与真实分数之间的差距。

  2. 三元组损失 (Triplet Loss, LTL\mathcal{L}_{TL}): 用于增强语义特征的区分度。它确保在同一个 batch 内,来自不同视频的相同等级/分数的语义特征(正样本对)比不同等级/分数的语义特征(负样本对)更近。以等级语义 G^\hat{G} 为例: LTL(G^)=1BKi=1Bk=1Kmax(D+i,kDi,k+ε,0) \mathcal{L}_{TL}(\hat{G}) = \frac{1}{BK} \sum_{i=1}^B \sum_{k=1}^K \max(D_+^{i,k} - D_-^{i,k} + \varepsilon, 0) 其中, D+i,k=maxij(dist(g^ki,g^kj)) D_+^{i,k} = \max_{i \neq j} \left( \mathrm{dist}(\hat{\boldsymbol{g}}_{k_i}, \hat{\boldsymbol{g}}_{k_j}) \right) Di,k=minkm(dist(g^ki,g^mj)) D_-^{i,k} = \min_{k \neq m} \left( \mathrm{dist}(\hat{\boldsymbol{g}}_{k_i}, \hat{\boldsymbol{g}}_{m_j}) \right)

    • BB 是批大小 (batch size)。
    • dist(,)\mathrm{dist}(\cdot, \cdot) 是距离函数,本文使用余弦距离。
    • D+i,kD_+^{i,k} 是最难的正样本对(hardest positive)之间的距离。
    • Di,kD_-^{i,k} 是最难的负样本对(hardest negative)之间的距离。
    • ε\varepsilon 是一个超参数,称为间隔 (margin)
  3. 交叉熵损失 (Cross-Entropy Loss, LCE\mathcal{L}_{CE}): 用于确保学习到的语义特征 G^\hat{G}S^\hat{S} 与其原始的文本原型 GGSS 保持一致。它通过计算学习到的语义特征与所有文本原型之间的相似度矩阵,并鼓励对角线上的相似度(即匹配的对)最大化。 LCE(G^,G)=klogexp(sim(g^k,gk)/τ)iexp(sim(g^k,gi)/τ) \mathcal{L}_{CE}(\hat{G}, G) = - \sum_k \log \frac{\exp(\mathrm{sim}(\hat{g}_k, g_k) / \tau)}{\sum_i \exp(\mathrm{sim}(\hat{g}_k, g_i) / \tau)}

    • sim(,)\mathrm{sim}(\cdot, \cdot) 是余弦相似度函数。
    • τ\tau 是一个温度超参数,用于调节 softmax 的锐度。

最终目标函数: L=λ1LMSE+λ2(LTL(G^)+LTL(S^))+λ3(LCE(G^,G)+LCE(S^,S)) \mathcal{L} = \lambda_1 \mathcal{L}_{MSE} + \lambda_2 (\mathcal{L}_{TL}(\hat{G}) + \mathcal{L}_{TL}(\hat{S})) + \lambda_3 (\mathcal{L}_{CE}(\hat{G}, G) + \mathcal{L}_{CE}(\hat{S}, S)) 其中 λ1,λ2,λ3\lambda_1, \lambda_2, \lambda_3 是用于平衡各项损失的超参数。

5. 实验设置

5.1. 数据集

实验在四个公开的长时程 AQA 基准数据集上进行:

  • Rhythmic Gymnastics (RG): 包含 1000 个艺术体操视频,涵盖球、棒、圈、带四种器械。每个视频约 1.6 分钟。

  • Fis-V: 包含 500 个女子单人花样滑冰短节目视频,每个约 2.9 分钟。包含技术分 (TES) 和节目内容分 (PCS) 两种分数。

  • FS1000: 包含 1247 个花样滑冰视频,涵盖 8 个类别。包含 TES, PCS 以及更细分的五个小项分数。

  • FineFS: 包含 1167 个花样滑冰样本,分为短节目和自由滑。同样评估 TES 和 PCS。

    选择这些数据集是因为它们都是长时程、包含复杂技术动作的典型 AQA 场景,能够有效验证 QGVL 方法在目标问题上的性能。

5.2. 评估指标

论文使用了两个标准的 AQA 评估指标:

  • 斯皮尔曼等级相关系数 (Spearman's rank correlation, ρ\rho):

    1. 概念定义: 该指标衡量的是两组变量的等级之间的相关性,而不是它们的原始数值。在 AQA 任务中,它评估的是模型预测分数的排序与真实分数的排序之间的一致性。一个高分视频是否被模型评为高分,一个低分视频是否被评为低分,比分数的绝对误差更重要。ρ\rho 的取值范围为 [1,1][-1, 1],值越接近 1,表示正相关性越强,模型性能越好。
    2. 数学公式: ρ=i(pipˉ)(p^ip^ˉ)i(pipˉ)2i(p^ip^ˉ)2 \rho = \frac{\sum_i (p_i - \bar{p})(\hat{p}_i - \bar{\hat{p}})}{\sqrt{\sum_i (p_i - \bar{p})^2 \sum_i (\hat{p}_i - \bar{\hat{p}})^2}}
    3. 符号解释:
      • pip_i: 第 ii 个样本的真实分数的等级 (rank)
      • p^i\hat{p}_i: 第 ii 个样本的预测分数的等级 (rank)
      • pˉ\bar{p}: 真实分数等级的平均值。
      • p^ˉ\bar{\hat{p}}: 预测分数等级的平均值。
  • 均方误差 (Mean Square Error, MSE):

    1. 概念定义: 该指标衡量的是预测值与真实值之间差的平方的平均值。它关注的是预测分数的绝对精度。MSE 的值越小,表示模型的预测越接近真实分数,性能越好。
    2. 数学公式: (原文未提供,此处补充标准定义) MSE=1ni=1n(YiY^i)2 \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2
    3. 符号解释:
      • nn: 样本总数。
      • YiY_i: 第 ii 个样本的真实分数。
      • Y^i\hat{Y}_i: 第 ii 个样本的预测分数。

5.3. 对比基线

论文将 QGVL 与一系列先前的方法进行了比较,包括:

  • 经典 AQA 方法: C3D+SVR [59], MS-LSTM [30], ACTION-NET [29], GDLT [25], CoFInAl [26] 等。
  • 多模态 AQA 方法: MLP-Mixer† [12] (使用音频), SGN [14] (使用动作特定文本), PAMFN‡ [13] (使用音频和光流)。
  • 原生视觉语言模型 (VLMs): BLIP [66], ViT [67], CLIP [28], ViFi-CLIP [48],用于验证其设计的 VLL 框架的优越性。 这些基线涵盖了从传统方法到最新的多模态方法的各种代表性工作,使得比较非常全面。

6. 实验结果与分析

6.1. 核心结果分析

QGVL 在所有四个数据集上都取得了显著的性能提升,全面超越了现有的最先进方法。

1. 在 Rhythmic Gymnastics (RG) 数据集上的结果 (原文 Table I): 以下是原文 Table I 的部分结果(以更强的 VST 作为主干网络):

Methods Features Ball Clubs Hoop Ribbon Avg. Ball Clubs Hoop Ribbon Avg.
Spearman Correlation (↑) Mean Square Error (↓)
CoFInAl [26] VST [53] 0.809 0.806 0.804 0.810 0.807 5.07* 5.19* 6.37* 6.30* 5.73*
VATP-Net [63] VST [53] 0.800 0.810 0.780 0.769 0.790 - - - - -
QGVL (Ours) VST [53] 0.824 0.812 0.825 0.834 0.824 4.91 4.40 4.68 5.23 4.81

分析: QGVL 在所有四个子类别上的 Spearman 相关性 和 MSE 均达到最佳或次佳,平均性能(Avg.)更是全面领先。相较于之前的 SOTA 方法 CoFInAlQGVL 的平均 Spearman 相关性提升了 1.7%,平均 MSE 降低了 0.92,降幅达 16%。这证明了质量引导的语义学习对于艺术体操这类动作的评估非常有效。

2. 在 FS1000 数据集上的结果 (原文 Table II): 以下是原文 Table II 的部分结果:

Methods TES PCS SS TR PE CO IN Avg. TES PCS SS TR PE CO IN Avg.
Spearman Correlation (↑) Mean Square Error (↓)
TPT [3] 0.88 0.83 0.82 0.82 0.81 0.82 0.81 0.83 80.00 8.88 0.34 0.37 0.63 0.34 0.39 12.99
PAMFN†* [13] 0.90 0.89 0.86 0.87 0.86 0.87 0.85 0.87 104.89 10.05 0.39 0.52 0.78 0.40 0.56 16.80
QGVL (Ours) 0.89 0.88 0.87 0.87 0.86 0.87 0.85 0.87 78.55 7.15 0.28 0.30 0.59 0.31 0.33 12.50

分析: 在包含 7 个不同评分项的复杂 FS1000 数据集上,QGVL 同样表现出色。与不使用音频的 SOTA 方法 TPT 相比,QGVL 在平均 Spearman 相关性上提升了 4.0%,平均 MSE 降低了 0.49。甚至与使用了音频信息的 PAMFN 相比,QGVL 在平均 Spearman 相关性上持平,但在平均 MSE 上取得了压倒性优势(12.50 vs 16.80),这表明 QGVL 的预测值更准确。

3. 在 FineFS 数据集上的结果 (原文 Table III): 由于原文此表格存在合并单元格,这里使用 HTML <divclass="tablewrapper"><table><div class="table-wrapper"><table> 格式进行完整转录。

Methods Short Program MSE (↓) Free Skating MSE (↓)
PCS TES Avg. PCS TES Avg. PCS TES Avg. PCS TES Avg.
Sp. Corr. (↑)
LUSD-Net [31] 0.813 0.689 0.758 - - - 0.863 0.779 0.826 - - -
PAMFN†* [13] 0.879 0.713 0.812 11.29 51.67 31.45 0.881 0.824 0.855 44.75 146.92 95.84
CoFInAl* [26] 0.874 0.714 0.808 12.05 50.32 31.19 0.859 0.792 0.828 46.93 130.36 88.65
QGVL (Ours) 0.888 0.750 0.831 10.53 45.73 28.13 0.896 0.813 0.860 33.40 110.78 72.09

分析: 在 FineFS 数据集上,QGVL 在短节目(Short Program)和自由滑(Free Skating)两个子任务上均大幅超越了之前的 SOTA 方法。特别是在 MSE 指标上,QGVL 的优势极为明显,例如在自由滑任务上,其平均 MSE (72.09) 远低于 CoFInAl (88.65) 和 PAMFN (95.84)。这再次证明了其渐进式细粒度学习策略对于提升预测精度的有效性。

4. 统一 AQA 模型效果 (原文 Table V): 论文探索了在所有四个数据集上训练一个统一模型的性能,并与其它 AQA 方法及原生 VLM 进行了比较。由于此表格结构较为特殊,同样使用 HTML <divclass="tablewrapper"><table><div class="table-wrapper"><table> 格式呈现。

AQA Methods RG-Avg. Fis-V FS1000 FineFS-Avg. Avg.
MS-LSTM* [30] 0.475 / 44.6 0.302 / 114.0 0.487 / 325.9 0.610 / 142.6 0.476 / 156.8
CoFInAl* [26] 0.570 / 13.8 0.489 / 30.4 0.569 / 294.6 0.690 / 164.2 0.584 / 125.8
QGVL (Ours) 0.537 / 11.8 0.548 / 74.6 0.732 / 145.4 0.734 / 105.7 0.648 / 84.4
VLM Methods
ViFi-CLIP* [48] 0.517 / 14.4 0.532 / 94.1 0.716 / 128.5 0.686 / 126.7 0.606 / 117.4
QGVL (Ours) 0.537 / 11.8 0.548 / 74.6 0.732 / 145.4 0.734 / 105.7 0.648 / 84.4

分析:

  • 与 AQA 方法对比: QGVL 在统一模型训练中取得了最好的平均性能 (0.648 / 84.4),尤其是在 MSE 指标上优势巨大。这表明其学习到的质量语义具有很强的跨数据集通用性。
  • 与原生 VLM 对比: QGVL 显著优于 ViFi-CLIP 等强大的原生视觉语言模型。这说明,简单地将 VLM 应用于 AQA 任务效果有限,而 QGVL 设计的渐进式语义学习框架能够更有效地利用 VLM 的知识来解决下游的 AQA 任务。

6.2. 消融实验/参数分析

论文通过详尽的消融实验验证了模型各个组件的有效性。实验在 RG 数据集上进行(原文 Table VI, VII, VIII, IX, X)。

  • 组件有效性:

    • 移除时间上下文增强模块 (N\mathcal{N}),性能显著下降,证明了捕捉长时程依赖的重要性。
    • 使用可学习向量 (GLVG_{LV}) 替代质量文本提示 (GQTG_{QT}),性能大幅降低。这有力地证明了使用带有明确语义的文本提示作为先验知识的巨大优势。
    • 移除从等级到分数的细粒度学习模块 (SQTS_{QT}),性能下降,说明渐进式学习策略是有效的。
    • GSLM 替换为普通 Transformer,性能下降,证明了 GSLM 专门设计的 QSAQCI 结构的有效性。
  • 损失函数分析:

    • 同时使用三元组损失 (LTL\mathcal{L}_{TL})交叉熵损失 (LCE\mathcal{L}_{CE}) 效果最好。LTL\mathcal{L}_{TL} 保证了不同质量模式的区分度,而 LCE\mathcal{L}_{CE} 保证了学习到的模式与正确的语义标签对齐。二者相辅相成。
  • 超参数分析:

    • 等级数量 K: 实验表明 K=4K=4 是一个较优的选择。过少(如 K=2K=2)无法充分描述质量层次,过多(如 K>4K>4)则可能导致语义混淆。
    • 分数数量 N: N=101N=101 时效果最好,表明更细粒度的分数划分有助于模型学习到更精细的质量差异。
  • 可视化分析: 下图(原文 Figure 6 和 7)展示了 GSLM 在聚合等级语义时的注意力权重可视化。

    Fig. 6. Visualization of our GSLM's output when aggregating grade-level semantics. The sample is the \(\\# 1 1 2\) video in Fis-V with PCS class. The weights of colors, with high-attention video clips m… 该图像是论文中Fig. 6的示意图,展示了GSLM模型在聚合等级语义时对视频片段的权重分布。图中曲线代表四个评分等级,标注的红色星号对应高关注度的关键视频片段,上方配有对应的视频帧。

    Fig. 7. Visualization of our GSLM's output when aggregating grade-level semantics. The sample is the \(\\# 1 6\) video in RG with Clubs class. The weights of colors, with video clips attracting high att… 该图像是论文中图7,一个示意图,展示了GSLM在汇总等级语义时对RG中Clubs类别#16视频的加权可视化。不同颜色曲线代表四个评分等级,红色星标和字母标记了高关注的视频片段。 分析: 从图中可以看出,不同的质量等级(用不同颜色的曲线表示)确实关注了视频中不同质量的动作片段。例如,在 Figure 6 中,代表最低分的第 1 等级曲线在运动员摔倒时(标记 a)出现了峰值;代表最高分的第 4 等级曲线则在高难度的旋转动作(标记 c)处有较高的注意力。这直观地证明了 QGVL 能够成功地将不同质量的动作表现分离并聚合到相应的语义等级中。

7. 总结与思考

7.1. 结论总结

本文成功提出了一种新颖、通用且低成本的质量引导视觉语言学习 (QGVL) 框架,用于解决长时程动作质量评估 (AQA) 任务。其核心贡献在于:

  1. 创新的语义引导方式: 摒弃了昂贵且场景特定的动作内容描述,转而使用通用的质量相关文本提示来引导模型学习,极大地提升了方法的通用性和实用性。
  2. 有效的渐进式学习策略: 设计了从“剪辑→等级→分数”的从粗到细的学习流程,并提出了粒度自适应语义学习模块 (GSLM),使模型能够精准地将视觉特征映射到细粒度的分数区间。
  3. 卓越的性能表现: 在四个具有挑战性的 AQA 基准上均取得了最先进的性能,并验证了其在构建跨数据集统一模型方面的巨大潜力。

7.2. 局限性与未来工作

论文作者在文末也指出了该方法的潜在局限性并展望了未来工作:

  • 局限性: 当一个视频中的动作表现非常稳定,质量差异十分微小 (subtle) 时,模型可能难以学习到足够多样化的特征模式,从而存在过拟合 (overfitting) 的风险。
  • 未来工作: 作者提出,可以探索在短时程的稳定动作片段之间建立预测性关联 (predictive associations),以应对上述挑战。

7.3. 个人启发与批判

这篇论文给我带来了深刻的启发,同时也引发了一些批判性思考:

  • 启发:

    1. “换个角度看问题”的范式创新: 本文最大的亮点在于其巧妙地将语义指导的焦点从“动作是什么”转移到了“动作怎么样”。这种思路的转变是解决多模态学习中标注成本高昂问题的典范,具有很强的迁移价值。在其他需要细粒度评估的任务中,或许也可以设计类似的“质量/属性”引导型文本提示。
    2. “从粗到细”的认知过程模拟: QGVL 的渐进式学习框架非常符合人类评估事物的认知过程——先有一个总体的印象(好/中/差),然后再关注细节,给出具体分数。这种分层、逐步求精的架构设计值得在很多复杂的回归和预测任务中借鉴。
    3. 通用性与成本的平衡: 该工作在追求高性能的同时,高度关注方法的通用性和低成本,这对于学术研究走向工业界应用至关重要。
  • 批判性思考与潜在问题:

    1. 对文本提示的敏感性: 尽管论文声称其文本提示是通用的,但 [grade prompt] 的具体选择(如 "excellent", "superb", "perfect")是否会对结果产生影响?不同文化背景下对质量词汇的理解差异是否会引入偏见?这部分论文没有深入探讨,是一个值得研究的问题。
    2. 对“稳定表现”视频的挑战: 正如作者所言,对于一个从头到尾表现都很好的“高水平”视频,或者表现都很差的“低水平”视频,模型很难从中学习到覆盖从低到高所有等级的模式。此时,Triplet LossCross-Entropy Loss 可能会因为缺乏多样性的样本而失效或导致模型性能下降。
    3. 解释性的局限: 虽然模型可以告诉我们哪个片段对应哪个质量等级,但它仍然无法解释“为什么”这个片段是高质量或低质量的。例如,它知道旋转是高质量的,但不知道是因为“轴心稳定、圈数足”,还是因为“姿态优美”。结合更细致的、可解释的原子动作分析可能是未来的一个方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。