论文状态：已完成

Language-Guided Audio-Visual Learning for Long-Term Sports Assessment

发表：2025/06/10

语言引导的视听学习 (1)多模态动作知识图谱 (1)动作与音乐一致性评估 (1)长期体育动作评估 (1)多模态跨模态融合 (1)

原文链接

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

提出了语言引导的音视频学习框架，通过动作知识图谱和跨模态融合，有效建模复杂动作与背景音乐的协调性。设计共享上下文编码器和双分支评分模块，实现对长时体育运动的精准评估，在四个公开数据集上达成SOTA且计算资源开销低。

摘要

Language-Guided Audio-Visual Learning for Long-Term Sports Assessment Huangbiao Xu 1,2 , Xiao Ke 1,2* , Huanqi Wu 1,2 , Rui Xu 1,2 , Yuezhou Li 1,2 , Wenzhong Guo 1,2 1 Fujian Provincial Key Laboratory of Networking Computing and Intelligent Information Processing, College of Computer and Data Science, Fuzhou University, Fuzhou 350108, China 2 Engineering Research Center of Big Data Intelligence, Ministry of Education, Fuzhou 350108, China kex@fzu.edu.cn, { huangbiaoxu.chn, wuhuanqi135, xurui.ryan.chn, liyuezhou.cm } @gmail.com Abstract Long-term sports assessment is a challenging task in video understanding since it requires judging complex movement variations and action-music coordination. However, there is no direct correlation between the diverse background mu- sic and movements in sporting events. Previous works re- quire a large number of model parameters to learn potential associations between actions and music. To address this issue, we propose a language-guided audio-visual learn- ing (MLAVL) framework that models “audio-action-visual” correlations guided by low-cost language modality. In our framework, multidimensional domain-based actions form action knowled

思维导图

论文精读

中文精读约 37 分钟读完 · 25,003 字

1. 论文基本信息

1.1. 标题

Language-Guided Audio-Visual Learning for Long-Term Sports Assessment（语言引导的音视频长时体育运动评估学习）

1.2. 作者

Huangbiao Xu, Xiao Ke, Huanqi Wu, Rui Xu, Yuezhou Li, Wenzhong Guo

1.3. 发表期刊/会议

CVPR（Computer Vision and Pattern Recognition Conference），计算机视觉和模式识别领域顶会，享有极高声誉和影响力。

1.4. 发表年份

2024年

1.5. 摘要

长时体育运动评估（Long-term sports assessment）由于涉及复杂的动作变化和动作-音乐协调，且多样化的背景音乐与体育动作之间没有直接关联，因此极具挑战性。以往的方法通常需要大量模型参数来学习动作与音乐之间的潜在关联。为了解决这个问题，本文提出了一种语言引导的音视频学习（Language-Guided Audio-Visual Learning, MLAVL）框架。该框架通过低成本的语言模态来引导“音视频-动作-视觉”关联建模。具体而言，MLAVL 利用多维领域动作构建动作知识图谱（action knowledge graphs），从而引导音视频模态关注与任务相关的动作。框架设计了一个共享特定上下文编码器（shared-specific context encoder）来整合多模态语义，以及一个音视频跨模态融合模块（audio-visual cross-modal fusion module）来评估动作-音乐一致性。此外，一个双分支提示引导评分模块（dual-branch prompt-guided grading module）根据体育规则对视觉表现和音视频表现进行评估。在四个公开的长时体育运动基准数据集上进行的广泛实验表明，MLAVL 实现了最先进（state-of-the-art, SOTA）的结果，同时保持了较低的计算成本和更少的参数。

1.6. 原文链接

/files/papers/69033af859708f78ec6faf73/paper.pdf （Open Access 版本，由 Computer Vision Foundation 提供）

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题是什么？ 长时体育运动评估（Long-term sports assessment）面临的核心挑战在于：
1. 复杂动作变化与动作-音乐协调：长视频中的动作多样且复杂，需要精确判断动作的质量，并评估动作与背景音乐的协调性。例如，花样滑冰和艺术体操中，动作与音乐节奏的同步是评分的关键因素。
2. 音视频关联的隐蔽性：背景音乐通常不是直接与动作相关的声音（如落地声、击打声），而是伴奏音乐。这使得模型难以捕捉多样的音乐与动作之间潜在的、非直接的关联。
3. 现有方法的局限性：此前的研究为了学习这种弱关联，往往需要庞大的模型参数和计算资源，导致模型效率低下且成本高昂。
为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白（Gap）？ 动作质量评估（Action Quality Assessment, AQA）在体育、医疗、技能判定等领域有广泛应用，其中体育评估是主要焦点。虽然短时动作评估已取得进展，但长时体育视频分析因其丰富和复杂的时序信息而更具挑战性。现有方法在处理长时音视频数据的复杂关联时，往往通过增加模型参数来提升性能，但这种方式效率不高且忽视了根本问题——即如何高效地建模音乐与动作之间弱但重要的关联。论文指出，现有音视频模型（如 MLP-Mixer, PAMFN）虽然性能有所提升，但其高计算成本和参数量表明它们过度依赖模型容量而非知识关联。
这篇论文的切入点或创新思路是什么？ 论文的创新切入点在于利用低成本的语言模态来引导和增强音视频模态对“动作-音乐”关联的理解，从而减少对大模型参数的依赖。通过引入领域特定的动作知识，将音视频学习转化为“音视频-动作-视觉”学习，显式地建模动作在音视频模态间的桥梁作用，以符合体育比赛的评分规则。

2.2. 核心贡献/主要发现

论文的主要贡献可以总结为以下四点：

提出了语言引导的音视频学习框架 MLAVL：该框架通过领域动作知识图谱的引导，降低了对模型参数的依赖，实现了高效的长时体育运动评估。这是对传统音视频学习范式的一次重要改进，解决了现有方法参数量大、计算成本高的问题。
设计了共享特定上下文编码器（S²CE）和音视频跨模态融合模块（AVCF）：S²CE 旨在增强多模态特征之间的相关性，融合模态特定和模态通用信息。AVCF 则用于评估动作与音乐节奏的一致性，同时关注全局和片段级别的匹配，以更好地符合体育评分规则。
提出了双分支提示引导评分模块（DPG）：该模块根据体育规则，对视觉表现和音视频协调性进行加权评估，通过质量相关的文本提示来建模准确的评估模式，从而实现精确的长时体育分析。
在四个公开的长时体育基准数据集上实现了最先进（SOTA）结果：MLAVL 在 FS1000、Fis-V、Rhythmic Gymnastics 和 LOGO 四个数据集上均表现出色，尤其在 FS1000 上，Spearman 相关系数提高了 3.0，MSE 降低了 2.38，展现了其卓越的性能和泛化能力。同时，它在保持低参数量和计算成本方面也优于现有 SOTA 方法。

3. 预备知识与相关工作

3.1. 基础概念

动作质量评估 (Action Quality Assessment, AQA) AQA 旨在对视频中执行的动作质量进行量化评分。这通常涉及判断动作的正确性、流畅性、难度以及与特定规则的符合程度。在体育领域，AQA 可以自动化评分过程，提供反馈；在医疗领域，则可用于评估手术技能或康复进展。
长时体育运动评估 (Long-term Sports Assessment) 特指对持续时间较长（通常是几分钟）的体育视频进行质量评估。相比于短时动作评估，长时视频包含更丰富的上下文信息、更复杂的动作序列和动作间的转换，以及与背景音乐、环境等其他模态的互动，这使得评估任务更具挑战性。
多模态学习 (Multimodal Learning) 指从多种模态数据（如视觉、听觉、文本、传感器数据等）中学习，以更好地理解复杂现象或完成特定任务。在视频理解中，多模态学习常结合视觉帧序列和伴随的音频信息，以捕捉更全面的语义。
语言引导学习 (Language-Guided Learning) 一种利用自然语言信息来指导或增强模型学习过程的方法。语言作为一种强大的语义载体，可以提供领域知识、上下文信息或具体指令，帮助模型更好地理解视觉或听觉内容，尤其是在数据稀疏或语义复杂的情况下。例如，通过文本提示（text prompts）来引导模型关注视频中的特定动作或属性。
知识图谱 (Knowledge Graph) 一种结构化的知识表示形式，由节点（实体，如动作名称）和边（关系，如“是...的一部分”、“与...相关”）组成。知识图谱可以编码领域内的专业知识和实体间的复杂关系，为模型提供丰富的语义信息。
图卷积网络 (Graph Convolutional Networks, GCN) 一种在图结构数据上运行的神经网络模型。GCN 能够通过聚合节点自身的特征及其邻居节点的特征来学习节点的表示。在本文中，GCN 用于在动作知识图谱和时序图上传播和聚合动作知识。
Transformer 一种基于自注意力（self-attention）机制的深度学习模型架构，最初用于自然语言处理，后被广泛应用于计算机视觉等领域。Transformer 能够有效地捕捉序列数据中的长距离依赖关系。
- 自注意力 (Self-attention)：允许模型在处理序列中的一个元素时，同时考虑序列中所有其他元素的重要性，并计算它们之间的关联权重。 $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中：
  - $Q$ (Query), $K$ (Key), $V$ (Value) 是从输入序列中线性变换得到的三个矩阵。
  - $Q K^T$ 计算查询与所有键的相似度。
  - $\sqrt{d_k}$ 是键向量维度的平方根，用于缩放，防止内积过大导致 softmax 函数梯度过小。
  - $\mathrm{softmax}$ 函数将相似度转换为权重分布。
  - $V$ 矩阵通过这些权重进行加权求和，得到注意力输出。
- Transformer 编码器 (Transformer Encoder)：通常由多个相同的层堆叠而成，每层包含一个多头自注意力（Multi-Head Self-Attention）机制和一个前馈网络（Feed-Forward Network）。它负责将输入序列编码为上下文相关的表示。
- Transformer 解码器 (Transformer Decoder)：也由多个相同的层堆叠而成，每层包含一个多头自注意力机制、一个编码器-解码器注意力机制（Encoder-Decoder Attention）和一个前馈网络。它用于生成输出序列，通常在生成任务中以自回归方式工作。
跨模态融合 (Cross-Modal Fusion) 将来自不同模态的特征进行整合，以生成更丰富、更具判别力的联合表示。常见的融合策略包括早期融合（early fusion）、晚期融合（late fusion）和中期融合（intermediate fusion），以及更复杂的基于注意力机制的融合。

3.2. 前人工作

短时动作评估：许多工作（如 [2, 21, 39, 50, 53, 54, 56, 64]）专注于短时动作的质量评估，但在处理长时视频的复杂性和丰富信息时面临挑战。
长时动作评估中的视觉模态：一些方法利用多维视频信息，如多尺度时序特征 [49]、视频动态信息 [58] 和运动员静态姿态 [35, 58]，来理解视觉上下文语义。另一些 [10, 48, 65] 探索粗粒度到细粒度的特征聚合，以在质量感知空间中建立评分模式。
长时动作评估中的多模态学习：引入多种模态（如音频 [47, 57]、语言 [12, 52]、光流 [57]）显著推动了长时体育分析。特别是音视频模态的学习，与评估运动员动作和背景音乐一致性的体育规则相契合。然而，现有方法（如 MLP-Mixer [47] 和 PAMFN [57]）往往依赖大量模型参数来捕捉动作与音乐间的弱关联。
语言引导的多模态视频理解：语言作为人类认知的基础 [8]，已被证明能显著提升计算机视觉任务，尤其在动作语义理解方面（如动作识别 [19, 37, 43] 和定位 [20, 25, 31]）。在 AQA 领域，文本语义也显著增强了评估效果 [12, 30, 50, 61]。然而，在长时体育视频中，音频主要是背景音乐，而非直接的动作声，这使得现有工作在提取这种弱关联时遇到困难 [1, 32]。

3.3. 技术演进

长时体育运动评估的技术演进大致可以分为几个阶段：

早期基于手工特征和浅层模型：如 C3D-LSTM [34]，利用卷积神经网络提取视频特征，再用 LSTM 处理时序信息。
基于多尺度视觉特征的提升：MS-LSTM [49] 等引入多尺度时序特征，ACTION-NET [58] 结合动态和静态上下文，提升了视觉分析能力。
粗粒度到细粒度特征聚合：GDLT [48]、CoFInAl [65] 等开始探索更精细的特征聚合策略。
引入多模态信息：随着 Transformer 等模型的兴起，音视频多模态学习成为热点。MLP-Mixer [47] 和 PAMFN [57] 尝试结合音频和视觉信息。
语言模态的介入：近期研究开始利用语言作为指导，如 SGN [12]，通过文本语义增强 AQA。本文 MLAVL 正是这一趋势的体现，它更进一步地利用语言引导音视频关联，并构建动作知识图谱，旨在以更低成本和更高效率解决音视频弱关联问题。

3.4. 差异化分析

本文 MLAVL 与相关工作的主要区别和创新点在于：

低成本语言引导的“音视频-动作-视觉”关联：
- 区别于纯音视频模型：MLAVL 不像 MLP-Mixer [47] 和 PAMFN [57] 那样仅仅依靠增加模型参数来学习音视频之间的弱关联。相反，它引入了低成本的语言模态作为桥梁。
- 区别于通用语言引导模型：本文的语言引导并非停留在简单的文本语义增强，而是通过构建多维领域动作知识图谱，显式地将领域特定的动作知识注入到音视频模态中，从而将音视频学习转化为“音视频-动作-视觉”的更深层次关联学习。这种方式更符合体育规则，并且避免了额外的细粒度标注。
结构化的知识注入：
- 多维动作图指导模块 (MAG²)：这是本文的核心创新之一。通过将官方规则中的基本动作构建成知识图谱，并利用 GCN 将这些结构化的语言知识传递给音视频特征。这使得模型能够更明确地关注任务相关的动作，而不仅仅是学习模糊的统计关联。
- 区别于通用文本提示：虽然 SGN [12] 等也使用了语言，但 MLAVL 的 MAG² 模块通过图结构进行知识传播，能更有效地建模动作之间的复杂关系，而非仅仅利用独立的文本特征。
细致的音视频一致性评估：
- 音视频跨模态融合模块 (AVCF)：AVCF 不仅关注全局的音视频对齐，更强调片段（clip-wise）级别的动作-音乐匹配。这直接响应了体育评分中“每个不匹配音乐的动作都应被扣分”的规则，解决了现有融合模块可能忽略短时不良交互的问题。
符合评分规则的双分支评估：
- 双分支提示引导评分模块 (DPG)：该模块区分了纯视觉动作表现和动作-音乐协调性，并使用不同的提示集和权重进行评估，这与人类裁判的评分逻辑高度一致。
  
  总而言之，MLAVL 的核心创新在于其系统地、低成本地利用语言模态引入领域动作知识，并通过精巧的模型设计（S²CE, MAG², AVCF, DPG）将这些知识有效地融入到音视频特征学习和最终的评分过程中，从而在性能和效率上超越了现有方法。

4. 方法论

4.1. 方法原理

MLAVL 框架的核心思想是利用低成本的语言模态来引导音视频特征学习，从而更好地捕捉长时体育运动中的“动作-音乐”协调性。它通过构建多维领域动作知识图谱，将领域专家知识注入到音视频特征中，指导模型关注与任务相关的动作。此外，框架还设计了一系列模块来优化多模态特征的整合、动作-音乐一致性的评估，并最终通过双分支提示引导的方式生成符合体育规则的评分。

整个框架的目标是将传统的音视频学习（Audio-Visual Learning）提升到“音视频-动作-视觉”学习（Audio-Action-Visual Learning），通过显式地建模动作作为音视频模态间的桥梁，解决背景音乐与动作之间弱关联的难题，并降低对模型参数量的依赖。

4.2. 核心方法详解

MLAVL 框架的整体流程如 Figure 2 所示。输入是一个包含图像序列和音频的长视频。

该图像是一张系统框架示意图，展示了提出的语言引导多模态学习框架MLAVL的整体流程，包括多维动作视觉图指导、共享特定上下文编码器、音视频跨模态融合及提示引导评分模块。图中体现了动作和音乐的多模态关联建模及最终得分生成过程。

图 2. MLAVL 框架概览

首先，视频被分割成 $T$ 个不重叠的连续 32 帧片段。

4.2.1. 共享特定上下文编码器 (Shared-Specific Context Encoder, S²CE)

目的： 在多模态学习中，如何有效利用来自不同模态的丰富信息是一个关键问题。为了避免语言引导下模态特定特征学习的肤浅性，S²CE 旨在融合模态特定（modality-specific）和模态通用（modality-general）的信息，以学习潜在的“音视频-动作-视觉”关联，而非孤立的“动作-音频”和“动作-视觉”关联。

实现：

模态特定特征提取： S²CE 首先采用预训练的模态特定编码器，例如 Video Swin Transformer (VST) [29] 用于视觉模态，Audio Spectrogram Transformer (AST) [14] 用于音频模态，提取模态特定特征。这些预训练编码器的参数在训练过程中被冻结。
特征投影： 使用可训练的 token 投影网络（由 2 层 MLP 实现），将不同模态的特征投影到具有一致特征维度 $d$ 的潜在空间。我们将投影后的视觉特征表示为 $\{ \mathcal { F } _ { t } ^ { \mathbf { v } } \} _ { t = 1 } ^ { T }$ ，音频特征表示为 $\{ \mathcal { F } _ { t } ^ { \mathbf { a } } \} _ { t = 1 } ^ { T }$ 。
模态通用上下文编码： 一个共享的 Transformer 编码器 [41] 被用于捕捉长距离、模态无关的时序上下文信息，这对于长视频分析和以人为中心（human-centric）的任务至关重要。这个 Transformer 编码器处理投影后的特征，生成模态通用的特征。
特征融合： 最终的特征是模态特定特征和模态通用特征的融合（通过元素级求和 $\oplus$ $\oplus$ ）。 $\left\{ f _ { t } ^ { \mathbf { m } } \right\} _ { t = 1 } ^ { T } = \left\{ \mathcal { F } _ { t } ^ { \mathbf { m } } \right\} _ { t = 1 } ^ { T } \oplus E _ { s } \left( \left\{ \mathcal { F } _ { t } ^ { \mathbf { m } } \right\} _ { t = 1 } ^ { T } \right) , \mathbf { m } \in \left\{ \mathbf { v } , \mathbf { a } \right\} .$ 其中：
- $\{ f _ { t } ^ { \mathbf { m } } \} _ { t = 1 } ^ { T }$ 是模态 $\mathbf{m}$ 在时间步 $t$ 的最终特征表示，它将送入 MAG² 模块。
- $\mathbf{m} \in \{ \mathbf{v}, \mathbf{a} \}$ 表示模态可以是视觉（visual）或音频（audio）。
- $\{ \mathcal { F } _ { t } ^ { \mathbf { m } } \} _ { t = 1 } ^ { T }$ 是模态 $\mathbf{m}$ 经过投影网络得到的模态特定特征。
- $E _ { s } ( \cdot )$ 是共享的 Transformer 编码器，用于提取模态通用特征。
- $\oplus$ 表示元素级求和，将模态特定特征和模态通用特征结合起来。

4.2.2. 多维动作图指导模块 (Multidimensional Action Graph Guidance, MAG²)

目的： 将低成本的语言模态引入音视频学习，通过领域特定的动作知识图谱来指导音视频模态关注与任务相关的动作。它将“动作”作为桥梁，连接音视频信息。

实现：

动作知识图谱构建：
- 文本提示生成： 基于官方规则中定义的多维基本动作，构建两组文本提示集：
  - 视觉动作提示集 $M_{\mathbf{v}}$ ：例如，使用模板 'a video of [category]'（一个关于[类别]的视频），其中 [category] 对应具体的动作名称。
  - 音频动作提示集 $M_{\mathbf{a}}$ ：例如，使用模板 'a music suitable for [category]'（适合[类别]的音乐），其中 [category] 与视觉提示中的动作对应。
- 文本特征提取： 使用冻结的预训练文本编码器（如 ViFi-CLIP [37]，一个微调过的 CLIP 模型）和可训练的 token 投影网络，将这些文本提示编码为特征。得到视觉动作文本特征 $\{ f _ { m } ^ { \mathbf { t } \cdot \mathbf { v } } \} _ { m = 1 } ^ { M }$ 和音频动作文本特征 $\{ f _ { m } ^ { \mathbf { t } \cdot \mathbf { a } } \} _ { m = 1 } ^ { M }$ ，其中 $M$ 是基本动作的数量。
- 图谱构建： 基于这些文本特征，构建两个可学习的关系图：
  - 视觉动作知识图谱 $\mathcal { G } _ { \mathbf { act } } ^ { \mathbf { v } }$ ，其节点特征由 $\{ f _ { m } ^ { \mathbf { t } \cdot \mathbf { v } } \} _ { m = 1 } ^ { M }$ 组成，邻接矩阵为 $A _ { \mathbf { act } } ^ { \mathbf { v } } \in \mathbb { R } ^ { M \times M }$ 。
  - 音频动作知识图谱 $\mathcal { G } _ { \mathbf { act } } ^ { \mathbf { a } }$ ，其节点特征由 $\{ f _ { m } ^ { \mathbf { t } \cdot \mathbf { a } } \} _ { m = 1 } ^ { M }$ 组成，邻接矩阵为 $A _ { \mathbf { act } } ^ { \mathbf { a } } \in \mathbb { R } ^ { M \times M }$ 。
- 同时，将 S²CE 输出的视觉特征 $\{ f _ { t } ^ { \mathbf { v } } \} _ { t = 1 } ^ { T }$ 和音频特征 $\{ f _ { t } ^ { \mathbf { a } } \} _ { t = 1 } ^ { T }$ 也构建为关系时序图 $\mathcal { G } _ { \mathbf { v } }$ 和 $\mathcal { G } _ { \mathbf { a } }$ ，邻接矩阵分别为 $A _ { \mathbf { v } } , A _ { \mathbf { a } } \in \mathbb { R } ^ { T \times T }$ 。
图卷积网络信息聚合： MAG² 利用图卷积网络（GCN）将动作知识从文本语义传递到视觉/音频特征。它采用 2 层 GCN [15] 实现信息聚合。
- 动作知识图谱内部聚合： $H _ { \mathbf { a c t } } ^ { ( l + 1 ) } = \sigma \left( A _ { \mathbf { a c t } } ^ { \mathbf { v } } H _ { \mathbf { a c t } } ^ { ( l ) } W _ { \mathbf { a c t } } ^ { ( l ) } \right)$ 其中：
  - $H _ { \mathbf { a c t } } ^ { ( l ) }$ 是在第 $l$ 层的动作知识图谱特征矩阵，初始 $H _ { \mathbf { a c t } } ^ { ( 0 ) } = \left\{ f _ { m } ^ { \mathbf { t } \cdot \mathbf { v } } \right\} _ { m = 1 } ^ { M }$ 。
  - $A _ { \mathbf { a c t } } ^ { \mathbf { v } }$ 是视觉动作知识图谱的邻接矩阵。
  - $W _ { \mathbf { a c t } } ^ { ( l ) }$ 是第 $l$ 层的可训练权重矩阵。
  - $\sigma ( \cdot )$ 是 ReLU 非线性激活函数。
- 跨图映射操作： MAG² 定义一个跨图映射操作 $A _ { \mathbf { act } \to \mathbf { v } }$ $A_{act \to v}$ ，将所有多维动作节点聚合到视觉时序图的节点。 ${ \cal H } _ { \bf v } ^ { ( l + 1 ) } = \sigma ( A _ { \bf v } H _ { \bf v } ^ { ( l ) } W _ { \bf v } ^ { ( l ) } + A _ { \bf a c t \to v } H _ { \bf a c t } ^ { ( l ) } W _ { \bf c r o s s } ^ { ( l ) } )$ 其中：
  - ${ \cal H } _ { \bf v } ^ { ( l ) }$ 是在第 $l$ 层的视觉时序图特征矩阵，初始 ${ \cal H } _ { \bf v } ^ { ( 0 ) } = \{ f _ { t } ^ { \mathbf { v } } \} _ { t = 1 } ^ { T }$ 。
  - $A _ { \bf v }$ 是视觉时序图的邻接矩阵。
  - $W _ { \bf v } ^ { ( l ) }$ 和 $W _ { \bf cross } ^ { ( l ) }$ 是第 $l$ 层的可训练权重矩阵。
  - $A _ { \bf act \to v }$ 是从动作知识图谱到视觉时序图的跨图映射矩阵，它聚合了动作知识图谱的节点信息。
    
    类似地，对音频模态也进行相同的动作-音频指导，得到聚合了动作知识的视觉特征 $\{ \hat { f } _ { t } ^ { \mathbf { v } } \} _ { t = 1 } ^ { T }$ 和音频特征 $\{ \hat { f } _ { t } ^ { \mathbf { a } } \} _ { t = 1 } ^ { T }$ 。

目的： 根据长时体育规则（裁判应根据运动员动作与背景音乐的一致性评分），设计一个模块来生成多模态特征，用于评估音视频分数。此模块需关注全局和片段级别（clip-wise）的动作-音乐匹配，以惩罚短时不良交互。

实现： AVCF 对 MAG² 输出的视觉特征 $\hat { f } _ { t } ^ { \mathbf { v } }$ 和音频特征 $\hat { f } _ { t } ^ { \mathbf { a } }$ 进行融合。

全局时序对齐：
- 通过一个 2 层的跨时序关系解码器（cross-temporal relation decoder）实现。其中 $\hat { f } _ { t } ^ { \mathbf { v } }$ 作为查询（query）， $\hat { f } _ { t } ^ { \mathbf { a } }$ 作为键（key）和值（value），进行跨注意力（cross-attention）计算。
- 在进行跨注意力之前，也会对 $\hat { f } _ { t } ^ { \mathbf { v } }$ 进行自注意力（self-attention）学习。 $\mathbf { G } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } } = \mathrm { Softmax } \left( w _ { t } ^ { Q } \hat { f } _ { t } ^ { \mathbf { v } } \left( w _ { t } ^ { K } \hat { f } _ { t } ^ { \mathbf { a } } \right) ^ { \mathrm { T } } / \sqrt { d } \right) w _ { t } ^ { V } \hat { f } _ { t } ^ { \mathbf { a } }$ 其中：
- $\mathbf { G } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } }$ 是在时间步 $t$ 融合的全局音视频特征。
- $w _ { t } ^ { Q }, w _ { t } ^ { K }, w _ { t } ^ { V }$ 是可学习的权重矩阵，用于将特征投影到查询、键和值空间。
- $\mathrm { Softmax }$ 函数将注意力分数归一化。
- $d$ 是特征维度。
- 计算结果再经过一个前馈网络（feed-forward network）进行非线性变换。
片段级动作-音乐匹配：
- 将视觉特征 $\hat { f } _ { t } ^ { \mathbf { v } }$ 和音频特征 $\hat { f } _ { t } ^ { \mathbf { a } }$ 按片段逐一拼接（Concatenate），形成特征集 $\{ \hat { \mathbf { C } } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } } \} _ { t = 1 } ^ { T } \in \mathbb { R } ^ { T \times 2d }$ 。
- 使用一个两层卷积块（Conv-BatchNorm-ReLU）作为融合模块，将拼接后的特征压缩回原始维度 $d$ ，得到片段级融合特征 $\mathbf { C } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } }$ 。卷积操作利用了局部特征提取能力，同时保持低计算成本。 $\mathbf { C } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } } = \mathrm { Convblock } \left( \hat { \mathbf { C } } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } } \right) , \hat { \mathbf { C } } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } } = \mathrm { Concat } \left( \hat { f } _ { t } ^ { \mathbf { v } } , \hat { f } _ { t } ^ { \mathbf { a } } \right)$ 其中：
- $\hat { \mathbf { C } } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } }$ 是在时间步 $t$ 拼接后的音视频特征。
- $\mathrm { Convblock } ( \cdot )$ 表示卷积块操作。
最终融合特征： 将全局级特征 $\mathbf { G } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } }$ 和片段级特征 $\mathbf { C } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } }$ 进行元素级求和，得到最终的音视频融合特征 $\{ \hat { f } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } } \} _ { t = 1 } ^ { T }$ 。 $\left\{ \hat { f } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } } \right\} _ { t = 1 } ^ { T } = \left\{ \mathbf { G } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } } \right\} _ { t = 1 } ^ { T } \oplus \left\{ \mathbf { C } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } } \right\} _ { t = 1 } ^ { T }$

4.2.4. 双分支提示引导评分模块 (Dual-Branch Prompt-Guided Grading, DPG)

目的： 根据体育规则，评估最终的质量分数，同时权衡动作表现和动作-音乐匹配。通过质量相关的文本提示来建模准确的评估模式。

实现： DPG 模块由一个 3 层的 Transformer 解码器（Performance Grading Transformer, PGT）实现，并分为两个分支。

提示生成与编码：
- 视觉评分提示： 设计 $N$ 个视觉评分提示（visual grade prompts）作为评分原型。
- 音视频评分提示： 设计 2N 个音视频评分提示（audio-visual grade prompts），这些提示进一步考虑了动作与当前音乐的契合度。
- 提示编码： 同样使用预训练的文本编码器（ViFi-CLIP）和 token 投影网络对这些提示进行编码，得到视觉评分提示特征 $\{ f _ { n } ^ { \mathbf { t } \cdot \mathbf { v } } \} _ { n = 1 } ^ { N }$ 和音视频评分提示特征 $\{ f _ { n } ^ { \mathbf { t } \cdot \mathbf { v } \cdot \mathbf { a } } \} _ { n = 1 } ^ { 2N }$ 。
Transformer 解码器评分： PGT 利用提示作为引导，聚合不同质量的视觉动作和动作-音乐匹配信息。
- 视觉分支： 以视觉评分提示特征 $\{ f _ { n } ^ { \mathbf { t } \cdot \mathbf { v } } \} _ { n = 1 } ^ { N }$ 作为查询，MAG² 输出的视觉特征 $\{ \hat { f } _ { t } ^ { \mathbf { v } } \} _ { t = 1 } ^ { T }$ 作为键和值。
- 音视频分支： 以音视频评分提示特征 $\{ f _ { n } ^ { \mathbf { t } \cdot \mathbf { v } \cdot \mathbf { a } } \} _ { n = 1 } ^ { 2N }$ 作为查询，AVCF 输出的音视频融合特征 $\{ \hat { f } _ { t } ^ { \mathbf { v } \cdot \mathbf { a } } \} _ { t = 1 } ^ { T }$ 作为键和值。 $\mathbf { P } _ { n } ^ { \mathbf { m } ^ { \prime } } = \operatorname { Softmax } \left( \mathcal { W } _ { n } ^ { Q } f _ { n } ^ { \mathbf { t } \cdot \mathbf { m } ^ { \prime } } \left( \mathcal { W } _ { t } ^ { K } \hat { f } _ { t } ^ { \mathbf { m } ^ { \prime } } \right) ^ { \mathrm { T } } / \sqrt { d } \right) \mathcal { W } _ { t } ^ { V } \hat { f } _ { t } ^ { \mathbf { m } ^ { \prime } }$ 其中：
- $\mathbf { m } ^ { \prime } \in \{ \mathbf { v } , \mathbf { v } \cdot \mathbf { a } \}$ 表示分支类型（视觉或音视频）。
- $\mathcal { W } _ { n } ^ { Q } , \mathcal { W } _ { t } ^ { K } , \mathcal { W } _ { t } ^ { V }$ 是可学习的权重矩阵。
- $\mathbf { P } _ { n } ^ { \mathbf { m } ^ { \prime } }$ 是第 $n$ 个评分模式。
- 使用共享的解码器参数来发现模态内的通用质量模式并降低计算成本。
分数预测： 通过两个 2 层 MLP 对评分模式进行处理，并结合固定的评分权重来获得视觉动作分数 $\hat { s } _ { 1 }$ 和动作-音乐匹配分数 $\hat { s } _ { 2 }$ 。
- 视觉分支评分权重： $\mathbf { W } _ { n } ^ { \mathbf { v } } = \frac { n - 1 } { N - 1 }$ 。
- 音视频分支评分权重： $\mathbf { W } _ { n } ^ { \mathbf { v } \cdot \mathbf { a } } = \frac { n - 1 } { 2N - 1 }$ 。 $\hat { \boldsymbol { \mathrm { P } } } _ { n } ^ { \mathbf { m } ^ { \prime } } = \mathrm { MLP } \left( \mathrm { P } _ { n } ^ { \mathbf { m } ^ { \prime } } \right) , \mathbf { m } ^ { \prime } \in \left\{ \mathbf { v } , \mathbf { v } \cdot \mathbf { a } \right\}$ 最终分数 $\hat { s }$ 是这两个分支分数的加权和，权重 $\alpha$ 是可学习的。 $\hat { s } = \alpha \sum _ { n = 1 } ^ { N } \mathbf { W } _ { n } ^ { \mathbf { v } } \hat { \mathbf { P } } _ { n } ^ { \mathbf { v } } + ( 1 - \alpha ) \sum _ { n = 1 } ^ { 2N } \mathbf { W } _ { n } ^ { \mathbf { v } \cdot \mathbf { a } } \hat { \mathbf { P } } _ { n } ^ { \mathbf { v } \cdot \mathbf { a } }$

4.2.5. 优化 (Optimization)

目的： 预测准确的质量分数，并优化评分模式，确保评分模式具有判别性且与文本提示对齐。

损失函数：

三元组损失 (Triplet Loss, $\mathcal { L } _ { T L }$ )： 确保不同评分模式之间具有足够的区分度。 ${ \mathcal L } _ { T L } = \sum _ { n } \left[ \operatorname* { m a x } \left( \sin \left( { \mathrm { P } _ { n } ^ { \mathbf m } } , { \mathrm { P } _ { i } ^ { \mathbf m } } \right) \right) - \operatorname* { m i n } \left( \sin \left( { \mathrm { P } _ { n } ^ { \mathbf m } } , { \mathrm { P } _ { i } ^ { \mathbf m } } \right) \right) + \delta \right] _ { + }$ 其中：
- $i \neq n$ 。
- $\sin ( \cdot , \cdot )$ 表示余弦相似度（cosine similarity）。
- $[ \cdot ] _ { + }$ 表示 $\mathrm{max}(0, \cdot)$ 。
- $\delta$ 是一个边距参数（margin parameter）。
- 这个损失促使同类评分模式之间相似度高，而不同类评分模式之间相似度低，且至少达到 $\delta$ 的边距。
交叉熵损失 (Cross-Entropy Loss, $\mathcal { L } _ { C E }$ )： 确保文本提示能够准确地引导评分模式。 ${ \mathcal L } _ { C E } = - \sum _ { n } \log \frac { \exp \Big ( \sin \Big ( { f _ { n } ^ { \mathbf t } } ^ { \mathbf m } , { \mathrm { P } _ { n } ^ { \mathbf m } } \Big ) / \varsigma \Big ) } { \sum _ { j } \exp \Big ( \sin \Big ( { f _ { n } ^ { \mathbf t } } ^ { \mathbf m } , { \mathrm { P } _ { j } ^ { \mathbf m } } \Big ) / \varsigma \Big ) }$ 其中：
- $f _ { n } ^ { \mathbf t } ^ { \mathbf m }$ 是第 $n$ 个文本提示特征。
- $\mathrm { P } _ { n } ^ { \mathbf m }$ 是对应的评分模式。
- $\varsigma$ 是一个超参数，用于缩放余弦相似度。
- 这个损失鼓励文本提示特征与其对应的评分模式高度相似，而与不对应的评分模式相似度低。
均方误差损失 (Mean Square Error Loss, $\mathcal { L } _ { M S E }$ )： 最小化预测分数 $\hat { s }$ 与真实标签之间的数值差异。 $\mathcal { L } _ { M S E } = \left. \hat { s } - s \right. ^ { 2 }$ 其中：
- $\hat { s }$ 是预测分数。
- $s$ 是真实分数（ground-truth score）。

总目标函数： 最终的优化目标函数是上述三种损失的加权和。 $\mathcal { T } = \lambda _ { 1 } \mathcal { L } _ { T L } + \lambda _ { 2 } \mathcal { L } _ { C E } + \lambda _ { 3 } \mathcal { L } _ { M S E }$ 其中 $\lambda _ { 1 } , \lambda _ { 2 } , \lambda _ { 3 }$ 是平衡各项损失的权重。

5. 实验设置

5.1. 数据集

实验在四个公开的长时体育运动评估基准数据集上进行，包括三个音视频数据集和一个纯视觉数据集。

FS1000 [47] (花样滑冰)：
- 来源与规模： 包含 1000 个花样滑冰视频，由专业裁判进行评分。
- 特点： 提供了与规则对齐的、全面的音视频评估，具有多样化的评分场景，对模型的鲁棒性提出了重大挑战。视频时长较长，动作复杂，且动作与背景音乐的协调性是重要评分依据。
Fis-V [49] (花样滑冰)：
- 来源与规模： 花样滑冰视频数据集。
- 特点： 专注于花样滑冰，包含复杂的动作和表演，需要评估动作质量和艺术表现力。
Rhythmic Gymnastics (RG) [58] (艺术体操)：
- 来源与规模： 艺术体操视频数据集。
- 特点： 艺术体操对运动员的动作协调性、器械运用技巧以及与背景音乐的契合度有严格要求，是音视频评估的典型场景。数据集包含球、棒、圈、带四种器械类型的动作。
LOGO [60] (团体动作)：
- 来源与规模： 团体动作质量评估的长视频数据集。
- 特点： 这是一个纯视觉数据集，专注于团体动作的质量评估。本文将其用于验证 MAG² 模块在纯视觉场景下的插拔式（plug-and-play）有效性。

数据样本示例： 尽管原文未直接提供数据集中的具体图片或视频帧示例，但从描述中我们可以想象：

FS1000/Fis-V 的视频可能包含花样滑冰运动员在冰上进行跳跃、旋转、步法等复杂动作，背景播放着悠扬或激昂的音乐。
Rhythmic Gymnastics 的视频可能展示艺术体操运动员使用球、棒、圈、带等器械进行表演，动作优美且与音乐同步。
LOGO 的视频可能包含多名运动员进行同步或协作的团体动作，如队列行进、集体舞蹈等，评估其整体协调性和准确性。

选择这些数据集是为了全面验证 MLAVL 在不同长时体育运动类型、不同评估侧重点（纯视觉与音视频）、以及不同挑战级别下的性能和泛化能力。

5.2. 评估指标

论文采用 Spearman's Rank Correlation ( $\rho$ ) 和 Mean Square Error (MSE) / Relative L2-distance ( $\mathrm{R}-\ell_2$ ) 来全面评估模型性能。

5.2.1. Spearman's Rank Correlation ( $\rho$ )

概念定义： Spearman's Rank Correlation（斯皮尔曼等级相关系数）是一种非参数的统计指标，用于衡量两个变量（这里是模型的预测分数序列和真实的标注分数序列）之间的排序关系强度和方向。它评估的是变量排名的单调关系，而非数值上的线性关系。如果两个变量的排名趋势一致，则 $\rho$ 值接近 1；如果排名趋势相反，则 $\rho$ 值接近 -1；如果排名不相关，则 $\rho$ 值接近 0。在质量评估任务中，高的 $\rho$ 值表示模型能准确地对视频的质量进行排序，即高质量的视频被预测为高分，低质量的视频被预测为低分。
数学公式： $\rho = \frac { \sum _ { i } \left( q _ { i } - \bar { q } \right) \left( \hat { q } _ { i } - \bar { \hat { q } } \right) } { \sqrt { \sum _ { i } \left( q _ { i } - \bar { q } \right) ^ { 2 } \sum _ { i } \left( \hat { q } _ { i } - \bar { \hat { q } } \right) ^ { 2 } } }$
符号解释：
- q _ { i }：第 $i$ 个样本的真实分数序列中的排名。
- $\bar { q }$ ：真实分数序列排名的平均值。
- $\hat { q } _ { i }$ ：第 $i$ 个样本的预测分数序列中的排名。
- $\bar { \hat { q } }$ ：预测分数序列排名的平均值。

5.2.2. Mean Square Error (MSE)

概念定义： Mean Square Error（均方误差）是衡量模型预测值与真实值之间差异的常用指标。它计算预测值与真实值之差的平方的平均值。MSE 对异常值比较敏感，因为它对大误差给予更大的惩罚。在质量评估任务中，低的 MSE 值表示模型的预测分数与真实分数在数值上非常接近，即模型的预测精度高。
数学公式： $\mathrm { M S E } = \left. \hat { s } - s \right. ^ { 2 }$ （注：原文此处公式有误，仅给出了平方项，未给出求和与平均。标准的 MSE 公式如下。） $\mathrm { M S E } = \frac{1}{N} \sum_{n=1}^{N} \left( \hat{s}_n - s_n \right)^2$
符号解释：
- $\hat { s } _ n$ ：第 $n$ 个样本的预测分数。
- s _ n：第 $n$ 个样本的真实分数。
- $N$ ：样本总数。

5.2.3. Relative L2-distance ( $\mathrm{R}-\ell_2$ )

概念定义： Relative L2-distance（相对 L2 距离）是 L2 距离的一种变体，它将误差值相对于真实分数的范围进行标准化。这使得不同数据集或不同评分范围的误差可以进行比较。在质量评估任务中，低的 $\mathrm{R}-\ell_2$ 值表示模型的预测误差在真实分数范围内是相对较小的。
数学公式： $\mathrm { R \mathcal { \ell } _ { 2 } } = \frac { 1 } { N } \sum _ { n } ^ { N } \left( \frac { \left| s _ { n } - \hat { s } _ { n } \right| } { s _ { \mathrm { m a x } } - s _ { \mathrm { m i n } } } \right) ^ { 2 }$
符号解释：
- $N$ ：样本总数。
- s _ { n }：第 $n$ 个样本的真实分数。
- $\hat { s } _ { n }$ ：第 $n$ 个样本的预测分数。
- $s _ { \mathrm { m a x } }$ ：数据集中所有真实分数的最大值。
- $s _ { \mathrm { m i n } }$ ：数据集中所有真实分数的最小值。

5.3. 对比基线

论文将 MLAVL 与以下基线模型进行了比较：

纯视觉模型 (Visual-only models)：
- C3D-LSTM [34]：早期基于 C3D 特征和 LSTM 的方法。
- MSCADC [33]：多尺度动作分类检测。
- MS-LSTM [49]：多尺度 LSTM。
- CoRe [56]：组感知对比回归。
- GDLT [48]：用于长时动作评估的 Likert 评分与等级解耦。
- TPT [2]：带有时序解析 Transformer 的动作质量评估。
- T2CR [21]：双路径目标感知对比回归。
- CoFInAl [65]：通过粗到细指令对齐增强动作质量评估。
- QTD [10]：可解释的长时动作质量评估。
- HGCN [64]：分层图卷积网络。
音视频模型 (Audio-visual models)：
- M-BERT (Late) [23]：多模态 BERT，晚期融合。
- MLP-Mixer [47]：基于 MLP 的长时体育音视频建模。
- SGN [12]：学习语义引导表示。
- PAMFN [57]：多模态动作质量评估。
  
  这些基线模型代表了长时体育运动评估领域中不同时期和不同模态（纯视觉、音视频）的先进方法，包括传统的 CNN-LSTM 架构、专门设计的时序建模方法、以及近年来流行的 Transformer 和多模态融合模型。通过与这些基线进行比较，可以全面评估 MLAVL 在性能、效率和模态融合方面的优势。

6. 实验结果与分析

6.1. 核心结果分析

论文在四个长时体育运动评估数据集上进行了广泛实验，并与现有 SOTA 方法进行了比较。结果表明 MLAVL 在相关性（Spearman's Rank Correlation, $\rho$ ）和数值准确性（Mean Square Error, MSE / Relative L2-distance, $\mathrm{R}-\ell_2$ ）方面均达到或超越了最先进水平，同时保持了较低的计算成本和参数量。

6.1.1. FS1000 数据集结果

以下是原文 Table 1 的结果：

Methods	Year	Features	Spearman Correlation (↑)						Mean Square Error (↓)
Methods	Year	Features	TES	PCS	SS	TR	PE	Avg.	TES	PCS	SS	TR	PE		CO	IN	Avg.
C3D-LSTM [34]	2017	C3D [40]	0.78	0.53	0.50	0.52	0.52	0.57	48.61	308.30	25.85	0.92	0.99	1.21	0.97	1.01
MSCADC [33]	2019	Timesformer [3]	0.77	0.70	0.69	0.69	0.71	0.71	23.79	148.02	15.47	0.51	0.57	0.78	0.55	0.60
MS-LSTM [49]	2019	Timesformer [3]	0.86	0.80	0.77	0.78	0.76	0.79	15.45	94.55	11.03	0.45	0.49	0.76	0.43	0.47
CoRe [56]	2021	Timesformer [3]	0.88	0.84	0.81	0.83	0.81	0.83	16.53	103.50	9.85	0.41	0.37	0.81	0.38	0.41
GDLT* [48]	2022	Timesformer [3]	0.88	0.86	0.84	0.86	0.83	0.85	13.60	82.73	10.32	0.35	0.37	0.67	0.38	0.42
TPT [2]	2022	Timesformer [3]	0.88	0.83	0.82	0.82	0.81	0.83	12.99	80.00	8.88	0.34	0.37	0.63	0.34	0.39
T2CR* [21]	2024	Timesformer [3]	0.86	0.79	0.83	0.84	0.82	0.83	17.95	107.59	15.26	0.61	0.48	0.69	0.57	0.42
CoFInAl* [65]	2024	Timesformer [3]	0.84	0.83	0.84	0.84	0.81	0.83	14.36	81.65	16.05	0.56	0.63	0.71	0.41	0.54
QTD* [10]	2024	Timesformer [3]	0.88	0.85	0.85	0.86	0.83	0.85	22.64	137.09	17.48	0.51	0.73	0.80	0.91	0.98
M-BERT (Late) [23]	2020	TF [3]+AST [14]	0.79	0.75	0.80	0.81	0.80	0.79	21.30	131.28	15.28	0.44	0.43	0.67	0.47	0.55
MLP-Mixer† [47]	2023	TF [3]+AST [14]	0.88	0.82	0.80	0.81	0.80	0.82	13.26	81.24	9.47	0.35	0.35	0.62	0.37	0.39
SGN [12]	2024	TF [3]+AST [14]	0.89	0.85	0.84	0.85	0.82	0.85	12.77	79.08	8.40	0.31	0.32	0.61	0.33	0.37
PAMFN+* [57]	2024	TF [3]+AST [14]+I3D [4]	0.90	0.89	0.86	0.87	0.86	0.87	16.80	104.89	10.05	0.39	0.52	0.78	0.40	0.56
MLAVL (Ours)	-	TF [3]+AST [14]+CLIP [36]	0.92	0.89	0.90	0.90	0.88	0.90	10.39	64.89	6.39	0.23	0.24	0.50	0.25	0.26

**分析：** `FS1000` 是一个具有挑战性的花样滑冰数据集。`MLAVL` 在所有评分类型上均取得了最佳结果，平均 Spearman 相关系数（`Avg. Sp. Corr.`）达到了 0.90，均方误差（`Avg. MSE`）为 0.26。相比于现有的 `SOTA` 多模态方法 `PAMFN` [57] 和 `SGN` [12]，`MLAVL` 在 `Avg. Sp. Corr.` 上分别提高了 3.0 和 2.38，在 `Avg. MSE` 上也有显著降低。这表明 `MLAVL` 通过引入低成本的语言提示和领域动作知识，能够准确地学习音视频关联，并在复杂长时体育视频分析中展现出强大的鲁棒性。

6.1.2. Fis-V 数据集结果

以下是原文 Table 2 的结果：

Methods	#Params (M)	#FLOPs (G)	Sp. Corr. (↑)			MSE (↓)
Methods	#Params (M)	#FLOPs (G)	TES	PCS	Avg.	TES	PCS	Avg.
C3D-LSTM [34]	-	-	0.290	0.510	0.406	39.25	21.97	30.61
MSCADC [33]	-	-	0.500	0.610	0.557	25.93	11.94	18.94
MS-LSTM [49]	-	-	0.650	0.780	0.721	19.91	8.35	14.13
M-BERT (Late) [23]	4.00	1.272	0.530	0.720	0.634	27.73	12.38	20.06
GDLT* [48]	3.20	0.268	0.685	0.820	0.761	20.99	8.75	14.87
CoRe [56]	2.51	0.010	0.660	0.820	0.751	23.50	9.25	16.38
TPT [2]	11.82	2.229	0.570	0.760	0.676	27.50	11.25	19.38
MLP-Mixer [47]	14.32	49.900	0.680	0.820	0.759	19.57	7.96	13.77
SGN [12]	-	-	0.700	0.830	0.773	19.05	7.96	13.51
PAMFN [57]	18.06	2.562	0.754	0.872	0.822	22.50	8.16	15.33
CoFInAl* [65]	5.24	0.509	0.716	0.843	0.788	20.76	7.91	14.34
QTD* [10]	5.51	0.396	0.717	0.858	0.798	26.97	10.89	18.93
MLAVL (Ours)	3.82	0.778	0.766	0.863	0.823	19.44	7.17	13.31

**分析：** 在 `Fis-V` 数据集上，`MLAVL` 在 `Avg. Sp. Corr.` 和 `Avg. MSE` 上均取得了最佳或具有竞争力的表现。其 `Avg. Sp. Corr.` 达到 0.823，`Avg. MSE` 达到 13.31。值得注意的是，许多现有 `SOTA` 音视频模型（如 `PAMFN` [57] 和 `MLP-Mixer` [47]）需要较大的计算成本和参数量（如 `MLP-Mixer` 的 `FLOPs` 达到 49.900G）来学习音视频关系。相比之下，`MLAVL` 仅用 3.82M 参数和 0.778G `FLOPs` 就实现了更优的性能，这印证了其通过低成本语言提示高效建立“音视频-动作-视觉”关系的优势。

6.1.3. Rhythmic Gymnastics (RG) 数据集结果

以下是原文 Table 3 的结果：

Methods	Year	Features	Spearman Correlation (↑)					Mean Square Error (↓)
Methods	Year	Features	Ball	Clubs	Hoop	Ribbon	Avg.	Ball	Clubs	Hoop	Ribbon	Avg.
C3D+SVR [34]	2017	C3D [40]	0.357	0.551	0.495	0.516	0.483	-	-	-	-	-
MS-LSTM* [49]	2019	I3D [4]	0.515	0.621	0.540	0.522	0.551	10.55	6.94	5.85	12.56	8.97
MS-LSTM* [49]		ST [29]	0.621	0.661	0.670	0.695	0.663	7.52	6.04	6.16	5.78	6.37
ACTION-NET* [58]	2020	I3D [4]+ResNet [16]	0.528	0.652	0.708	0.578	0.623	9.09	6.40	5.93	10.23	7.91
ACTION-NET* [58]		ST [29]+ResNet [16]	0.684	0.737	0.733	0.754	0.728	9.55	6.36	5.56	8.15	7.41
GDLT* [48]	2022	VST [29]	0.746	0.802	0.765	0.741	0.765	5.90	4.34	5.70	6.16	5.53
PAMFN [57]	2024	VST [29]+AST [14]+I3D [4]	0.757	0.825	0.836	0.846	0.819	6.24	7.45	5.21	7.67	6.64
CoFInAl* [65]	2024	I3D [4]	0.625	0.719	0.734	0.757	0.712	7.04	6.37	5.81	6.98	6.55
CoFInAl* [65]		SST [29]	0.809	0.806	0.804	0.810	0.807	5.07	5.19	6.37	6.30	5.73
QTD* [10]	2024	VST [29]	0.823	0.852	0.837	0.857	0.842	7.94	5.66	7.95	8.87	7.61
MLAVL (Ours)	-	VST [29]+AST [14]+CLIP [36]	0.826	0.829	0.871	0.866	0.849	5.57	4.20	4.11	3.99	4.47

**分析：** `MLAVL` 在艺术体操数据集 `RG` 上同样表现出色，在四种器械类型上均取得了最佳或次优的 `Sp. Corr.` 和 `MSE` 结果。其平均 `Sp. Corr.` 达到 0.849，平均 `MSE` 达到 4.47，创造了新的 `SOTA` 记录。特别是，`MLAVL` 将 `Avg. MSE` 相比次优方法 `GDLT` [48] 降低了 1.06。这归因于 `MLAVL` 引入了多维动作知识和与评估规则对齐的双分支提示引导评分机制，能够更精确地评估艺术体操中动作与音乐的协调性。

总结： 综合 Table 1 至 3 的结果，MLAVL 在平衡相关性与数值准确性方面展现出卓越的 SOTA 性能。它不仅能够准确排序视频质量，还能精确预测具体分数。与现有 SOTA 方法相比，MLAVL 在保持低参数和计算成本的同时实现了性能的显著提升，突显了语言引导和动作知识注入的有效性。

6.1.4. LOGO 数据集上 `MAG²` 的插拔式效果

以下是原文 Table 4 的结果：

Methods	Native		+MAG² (Ours)
Methods	Sp. Corr.↑	R-l2 (×100)↓	Sp. Corr.↑	R-l2 (×100)↓
MS-LSTM [49]	0.542	5.763	0.582↑27%	4.916↓15%
USDL [39]	0.762	2.556	0.804↑16%	2.269↓11%
GDLT [48]	0.647	4.148	0.654↑1%	3.589↓13%
CoRe [56]	0.697	5.620	0.723↑4%	3.386↓40%
TPT [2]	0.589	5.228	0.621↑5%	3.130↓40%
HGCN [64]	0.541	4.765	0.640↑18%	3.698↓22%
T2CR [21]	0.681	5.973	0.699↑3%	4.809↓19%
CoFInAl [65]	0.661	5.754	0.708↑7%	3.950↓31%
QTD [10]	0.698	4.948	0.729↑4%	3.869↓22%

**分析：** 为了验证 `MAG²` 模块中语言指导的有效性，将其作为插件（`plug-in`）集成到纯视觉数据集 `LOGO` 上的现有方法中（仅使用动作-视觉图指导）。结果显示，`MAG²` 显著提升了九种 `SOTA` 纯视觉方法在两个指标上的性能。平均而言，`Avg. Sp. Corr.` 提高了 3.8（百分点），

Avg. R-l2

降低了 1.238。这强有力地证明了 `MAG²` 能够有效地引入有价值的动作知识，增强动作语义理解，即使在纯视觉场景下也能带来性能提升。

6.1.5. 特征分布的可视化

Figure 3. Comparison of scatter plots (a, d) with the SOTA method PAMFN (PCS), and t-SNE feature distribution plots (b, c, e, f) contrasting with and without our MAG2 module (TES). 该图像是图表，展示了图3中PAMFN和MLAVL方法散点对比图（a, d），以及有无MAG模块情况下的t-SNE特征分布图（b, c, e, f）。左侧散点图显示预测分数与真实标签的相关性，右侧t-SNE图体现不同类别的视觉评分聚类效果。

图 3. (a, d) 与 SOTA 方法 PAMFN (PCS) 的散点图比较，以及 (b, c, e, f) 有无 MAG² 模块的 t-SNE 特征分布图 (TES)。

分析： Figure 3 展示了 PAMFN 与 MLAVL 在 PCS 评分项上的散点图对比（a, d），以及有无 MAG² 模块时视觉和音视频评分空间特征分布的 t-SNE 降维结果（b, c, e, f）。

散点图 (a, d)： MLAVL 的预测分数与真实分数之间的相关性更紧密，散点分布更集中在对角线上，表明其预测精度更高。
t-SNE 特征分布图 (b, c, e, f)：
- 在没有 MAG² 模块的情况下（b, e），样本分布混乱，不同等级（grade）之间存在显著重叠。这说明模型在缺乏语言引导的动作知识时，难以有效地区分不同质量等级的动作特征。
- 在应用了 MAG² 模块后（c, f），不同等级的类别边界清晰，形成了明显的聚类。这表明 MAG² 模块有效地引入了语言引导的动作知识，增强了模型对复杂动作的理解，并弥合了动作与音视频模态之间的语义鸿沟，使得模型能够更好地辨别不同动作质量。

6.2. 消融实验/参数分析

6.2.1. 组件消融研究

以下是原文 Table 5 的结果（上半部分）：

Settings	Sp. Corr. (↑)			MSE (↓)
Settings	TES	PCS	RG-Avg.	TES	PCS	RG-Avg.
baseline	0.835	0.825	0.736	81.43	9.94	7.72
+S²CE	0.848↑2%	0.840↑2%	0.757↑3%	77.17↓5%	8.67↓13%	6.98↓10%
+MAG2	0.876↑3%	0.866↑3%	0.801↑6%	69.40↓10%	7.67↓12%	5.36↓23%
+AVCF (w/o DPG)	0.887↑1%	0.875↑1%	0.818↑2%	67.08↓3%	7.09↓8%	4.93↓8%
+DPG (Ours)	0.917↑3%	0.892↑2%	0.849↑4%	64.89↓3%	6.39↓10%	4.47↓9%

**分析：** 从基线模型（使用跨注意力融合预训练骨干网络特征，并通过 2 层 `MLP` 预测分数）开始，逐步添加 `MLAVL` 的各个组件： * **

+S²CE

：** 引入共享特定上下文编码器后，性能有明显提升，尤其在 `MSE` 上（如 `PCS` 的 `MSE` 从 9.94 降至 8.67，下降 13%）。这表明 `S²CE` 通过结合模态特定和模态通用信息，有效地增强了多模态学习中的特征表示。 * **

+MAG²

：** 多维动作图指导模块带来了显著的性能提升，例如 `RG-Avg.` 的 `Sp. Corr.` 从 0.757 提升到 0.801（提升 6%），`MSE` 从 6.98 降至 5.36（下降 23%）。这突出了语言引导的动作知识在弥合音视频语义鸿沟和促进模型理解领域动作方面的关键作用。 * **`+AVCF (w/o DPG)`：** 音视频跨模态融合模块在 `MAG²` 的基础上进一步提升了性能。这证明 `AVCF` 通过同时关注全局和片段级的动作-音乐匹配，更好地遵循了人类评分规则，提高了对动作-音乐一致性的评估能力。 * **`+DPG (Ours)`：** 最后引入双分支提示引导评分模块，使模型性能达到最佳，例如 `TES` 的 `Sp. Corr.` 从 0.887 提升到 0.917（提升 3%），`PCS` 的 `MSE` 从 7.09 降至 6.39（下降 10%）。这表明 `DPG` 通过区分视觉和音视频表现并进行加权评估，有效地捕获了评分规则中的细微差别，从而实现了更精确的长时体育分析。

6.2.2. 损失函数消融研究

以下是原文 Table 5 的结果（下半部分）：

Settings	Sp. Corr. (↑)			MSE (↓)
Settings	TES	PCS	RG-Avg.	TES	PCS	RG-Avg.
w/o S²CE	0.891↓3%	0.878↓2%	0.821↓3%	67.29↑7%	6.46↑1%	4.89↑9%
w/o MAG2	0.879↓4%	0.869↓1.3%	0.802↓6%	70.05↑58%	7.53↑18%	5.07↑13%
w/o AVCF	0.894↓3%	0.876↓2%	0.817↓4%	66.03↑32%	6.62↑4%	4.76↑6%
w/o LTL	0.886↓3%	0.871↓2%	0.814↓4%	67.83↑5%	7.11↑11%	4.90↑10%
w/o LCE	0.894↓3%	0.880↓1%	0.827↓3%	68.69↑6%	7.39↑16%	5.07↑13%
w/o LTL + LCE	0.875↓5%	0.867↓3%	0.813↓4%	68.87↑6%	7.50↑17%	5.21↑17%

**分析：** * **`w/o LTL` (移除三元组损失)：** 移除 `Triplet Loss` 导致平均性能下降（`Sp. Corr.` 下降 3-4%，`MSE` 上升 5-11%）。这表明 `LTL` 在确保不同评分模式之间具有足够区分度方面发挥了重要作用，从而能够捕捉独特的质量信息。 * **`w/o LCE` (移除交叉熵损失)：** 移除 `Cross-Entropy Loss` 同样导致平均性能下降（`Sp. Corr.` 下降 1-3%，`MSE` 上升 6-16%）。这强调了 `LCE` 在将评分模式与对应的文本提示对齐方面的必要性，它引导模型关注相关的语义，尤其是在优化从视觉动作到动作-音乐对齐的粗粒度到细粒度关系方面。 * **`w/o LTL + LCE` (同时移除两者)：** 同时移除 `LTL` 和 `LCE` 导致了最大的性能下降，平均性能下降 4% 和 13%。这凸显了在有限标注数据的体育评估任务中，将评分与正确的质量感知空间对齐的重要性。这些损失函数共同确保了模型能够学习到有意义、可区分且与语义相关的评分模式。

6.2.3. 不同模态的影响

Figure 4. SRCC bars and MSE folds for different modalities. 该图像是图表，展示了不同模态组合下的SRCC条形图和MSE折线图，比较了Visual、Audio及其与Language结合的多种设置对动作评分的影响。

图 4. 不同模态下的 SRCC 条形图和 MSE 折线图。

分析： Figure 4 展示了不同模态组合对性能的影响：

纯视觉模态 (Visual)： 性能基准，表明视觉信息是动作评估的主要依据。
纯音频模态 (Audio)： 性能较弱，说明单独的背景音乐信息难以准确评估动作质量。
音视频模态 (Audio-Visual)： 结合音视频信息后，性能相比纯视觉有提升，尤其在 MSE 上。这验证了音频模态对于更准确评估的重要性。
语言引导的视觉模态 ( $Visual+Language$ )： 在纯视觉信息中引入语言引导后，性能进一步提升。这再次证明了语言指导能够有效地增强动作语义理解。
语言引导的音视频模态 (Audio-Visual+Language)： 结合音视频和语言引导后，性能达到最佳。这说明语言模态能够一致地提升不同模态组合下的性能，尤其在音视频结合的复杂场景中，语言作为桥梁的作用愈发突出。

总结： 消融实验和模态分析清晰地验证了 MLAVL 框架中每个组件的有效性。S²CE 有助于融合多模态信息；MAG² 通过语言引导的动作知识显著提升了模型对复杂动作的理解；AVCF 改进了动作-音乐一致性评估；DPG 则通过双分支评分机制精确匹配了体育规则。同时，Triplet Loss 和 Cross-Entropy Loss 对于学习有判别性和语义对齐的评分模式至关重要。

7. 总结与思考

7.1. 结论总结

本文提出了一种名为 MLAVL 的语言引导音视频学习框架，用于解决长时体育运动评估中的复杂挑战。该框架的核心创新在于利用低成本的语言模态来引导音视频特征学习，从而显式地建模“音视频-动作-视觉”关联，而非仅仅依赖大模型参数来捕捉弱关联。具体而言，MLAVL 通过以下几个关键模块实现了这一目标：

多维动作图指导模块 (MAG²)：将领域特定的基本动作知识以图谱形式注入到音视频特征中，指导模型关注与任务相关的动作。
共享特定上下文编码器 (S²CE)：有效融合了模态特定和模态通用信息，增强了多模态特征的表示能力。
音视频跨模态融合模块 (AVCF)：通过关注全局和片段级的动作-音乐匹配，更精确地评估动作与音乐的一致性，符合体育规则。
双分支提示引导评分模块 (DPG)：采用符合体育评分规则的双分支策略，分别评估视觉动作表现和动作-音乐协调性，并进行加权，从而生成准确的最终分数。

通过在 FS1000、Fis-V、Rhythmic Gymnastics 和 LOGO 四个公开数据集上进行的广泛实验，MLAVL 均取得了最先进的性能，同时保持了较低的计算成本和参数量。特别是 MAG² 模块被证明具有良好的插拔式能力，能够显著提升现有纯视觉方法的性能，凸显了语言引导动作知识的普适价值。

7.2. 局限性与未来工作

论文作者指出了以下潜在局限性：

对规则驱动场景的依赖：虽然语言引导方法在增强音视频或纯视觉视频理解方面是有效的，但本文其他设计的有效性（如 AVCF 和 DPG）主要依赖于长时体育运动中对动作-音乐一致性的规则要求。
稀疏或不相关音频信息的影响：在某些特殊场景中，音频中可能只有稀疏或不相关的有用信息，这可能会影响模型的性能。例如，在音频模态中缺乏与动作直接相关的声音线索，或者背景噪音过大掩盖了关键信息。

基于这些局限性，作者提出了未来的研究方向：
探索先进的提取技术：未来工作应探索更先进的特征提取技术，以更好地捕获稀疏或隐蔽的音频线索，从而在音频信息不足的场景中提升模型性能。

7.3. 个人启发与批判

个人启发：

这篇论文在长时体育运动评估领域提出了一个非常优雅且高效的解决方案，给我带来了几点启发：

语言作为知识桥梁的强大潜力：以往的多模态学习常常停留在模态间的特征融合，而 MLAVL 显式地利用了语言模态作为高层语义知识的载体，将其结构化（通过知识图谱）并注入到低层特征表示中。这种“知识引导”的范式，特别是通过低成本的文本提示引入领域专业知识，为解决模态间弱关联问题提供了一个强大的通用思路。这在其他需要领域知识的复杂多模态任务中（如医疗影像分析、工业质检）也可能具有广泛的应用前景。
“符合规则”的模型设计：论文将体育赛事的评分规则（例如，动作与音乐的协调性、视觉表现与音视频一致性的加权）直接融入到模型设计（AVCF 的双重匹配、DPG 的双分支评估）和损失函数中，这使得模型能够更好地模拟人类专家的判断逻辑，从而提升了模型的解释性和准确性。这种将领域专家知识和规则融入模型架构的设计理念非常值得借鉴。
计算效率的追求：在当前大模型盛行的背景下，MLAVL 强调在实现 SOTA 性能的同时，保持低计算成本和参数量，这是一种负责任且更具实际应用价值的研究方向。通过巧妙的语言引导而非简单堆叠参数来解决问题，展现了研究的深度和创新性。

批判：

尽管 MLAVL 取得了令人印象深刻的成果，但在以下方面仍存在一些潜在的问题和可以改进的地方：

动作知识图谱的构建与泛化性：
- 构建成本：论文提及动作知识图谱是基于官方规则中的“多维基本动作”构建的。虽然称之为“低成本”，但如何系统化、自动化地从非结构化的规则文本中提取并构建高质量、全面的知识图谱，依然是一个工程和研究上的挑战。
- 领域依赖性：如果将 MLAVL 应用于其他领域（例如，医疗手术评估），是否需要重新构建一套全新的领域动作知识图谱？这可能会限制其在不同领域间的直接泛化能力。未来工作可以探索更通用的、少样本或零样本的知识图谱构建方法。
提示模板的鲁棒性与敏感性：
- 论文中使用了手动设计的提示模板（例如 'a video of [category]' 和 'a music suitable for [category]'）。这些模板的设计是否对具体措辞敏感？不同的模板选择是否会显著影响性能？如何设计更鲁棒、更具表达力的提示模板，或者通过自动化方法优化提示，是一个值得探讨的方向。
弱关联音频场景的挑战：
- 虽然论文承认了稀疏或不相关音频信息可能带来的挑战，但其解决方案（探索先进的提取技术）仍显抽象。在音乐与动作关联性极弱或不存在的场景（例如，某些需要高度集中但无背景音乐的体育训练），AVCF 模块的有效性可能会打折扣。未来可以考虑引入“无音频”或“非关联音频”的判断机制，或者在这些场景下动态调整音视频融合的权重。
可解释性进一步提升：
- DPG 模块通过双分支评分和文本提示提高了模型的解释性。然而，对于模型内部，MAG² 如何具体将知识图谱的语义传递到音视频特征中，以及 AVCF 如何识别“短时不良动作-音乐交互”，这些中间过程的可解释性仍有提升空间。例如，可以通过注意力可视化、特征归因等方法，更直观地展示知识流和决策过程。
对计算资源的实际需求：
- 尽管论文强调低参数和低计算成本，但在实验部分，仍然使用了 Video Swin Transformer 和 AST 等大型预训练模型作为骨干网络。虽然这些骨干网络是冻结的，但其本身所需的计算资源仍然不容忽视。在极端资源受限的边缘设备上部署此类模型，可能仍需进一步的模型压缩和量化技术。
  
  总的来说，MLAVL 为长时体育运动评估提供了一个新颖且高效的语言引导多模态学习范式，其结合领域知识和评分规则的设计思路具有很强的借鉴意义。未来的研究可以围绕如何进一步提升知识图谱的自动化构建与泛化性、提示模板的鲁棒性以及在更具挑战性音频场景下的适应性展开。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。