AiPaper
论文状态:已完成

Learning Long-Range Action Representation by Two-Stream Mamba Pyramid Network for Figure Skating Assessment

发表:2025/10/25
原文链接
价格:0.10
已有 5 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出双流Mamba金字塔网络,旨在解决花样滑冰自动化评估中音视频特征误用、技术分(TES)个体动作评估缺失及长视频处理低效等挑战。该网络遵循真实裁判标准,设计了仅基于视觉特征的TES流和音视频融合的节目内容分(PCS)流。其关键在于利用Mamba模型捕获长程依赖的卓越能力和线性复杂度,实现高效的动作元素定位与评估。实验结果表明,该框架在`FineFS`基准测试上达到最先进水平,并在其他数据集上展现出强劲竞争力。

摘要

Technical Element Score (TES) and Program Component Score (PCS) evaluations in figure skating demand precise assessment of athletic actions and artistic interpretation, respectively. Existing methods face three major challenges. Firstly, video and audio cues are regarded as common features for both TES and PCS predictions in previous works without considering the prior evaluation criterion of figure skating. Secondly, action elements in competitions are separated in time, TES should be derived from each element's score, but existing methods try to give an overall TES prediction without evaluating each action element. Thirdly, lengthy competition videos make it difficult and inefficient to handle long-range contexts. To address these challenges, we propose a two-stream Mamba pyramid network that aligns with actual judging criteria to predict TES and PCS by separating visual-feature based TES evaluation stream from audio-visual-feature based PCS evaluation stream. In the PCS evaluation stream, we introduce a multi-level fusion mechanism to guarantee that video-based features remain unaffected when assessing TES, and enhance PCS estimation by fusing visual and auditory cues across each contextual level of the pyramid. In the TES evaluation stream, the multi-scale Mamba pyramid and TES head we proposed effectively address the challenges of localizing and evaluating action elements with various temporal scales and give score predictions. With Mamba's superior ability to capture long-range dependencies and its linear computational complexity, our method is ideal for handling lengthy figure skating videos. Comprehensive experimentation demonstrates that our framework attains state-of-the-art performance on the FineFS benchmark. Our source code is available at https://github.com/ycwfs/Figure-Skating-Action-Quality-Assessment.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): Learning Long-Range Action Representation by Two-Stream Mamba Pyramid Network for Figure Skating Assessment (通过双流 Mamba 金字塔网络学习长程动作表示用于花样滑冰评估)
  • 作者 (Authors): Fengshun Wang, Qiurui Wang, Peilin Zhao
  • 隶属机构 (Affiliations): 首都体育学院 (Capital University of Physical Education and Sports), 上海交通大学 (Shanghai Jiao Tong University)
  • 发表期刊/会议 (Journal/Conference): 论文中未明确提及发表的会议或期刊,但从内容和格式看,这是一篇预备投向顶级计算机视觉或多媒体会议(如 CVPR, ICCV, ACM Multimedia 等)的学术论文。
  • 发表年份 (Publication Year): 论文中未明确提及,但从引用的参考文献(如 [7] Tri Dao and Albert Gu. 2024)推断,应为 2024 年或之后。
  • 摘要 (Abstract): 花样滑冰评分包含技术分 (TES) 和节目内容分 (PCS),分别评估运动动作和艺术诠释。现有方法面临三大挑战:1) 未根据花滑评分标准区分音视频特征对 TES 和 PCS 的作用;2) 仅预测总 TES,而未对比赛中时序分离的单个动作元素进行评估;3) 比赛视频过长,难以高效处理长程上下文。为解决这些问题,论文提出了一个双流 Mamba 金字塔网络。该网络遵循真实裁判标准,设计了一个仅基于视觉特征的 TES 评估流和一个基于音视频融合特征的 PCS 评估流。其中,PCS 评估流通过多级融合机制增强 PCS 预测,同时保证 TES 评估不受音频影响。TES 评估流则利用多尺度 Mamba 金字塔和专门的 TES 评分头,有效定位和评估不同时长的动作元素。得益于 Mamba 模型在捕捉长程依赖方面的卓越能力和线性计算复杂度,该方法非常适合处理长时长的花样滑冰视频。实验证明,该框架在 FineFS 基准测试上达到了SOTA水平,并在另外两个数据集上无需额外训练也取得了有竞争力的结果。
  • 原文链接 (Source Link): https://github.com/ycwfs/Figure-Skating-Action-Quality-Assessment (提供了代码库链接,论文PDF通常包含在内或通过ArXiv等预印本平台发布)。

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 如何构建一个既符合花样滑冰专业评分规则、又能高效处理长视频的自动化动作质量评估系统。
    • 重要性与挑战 (Gap):
      1. 规则失配: 现有方法通常将音视频特征混合后用于预测所有分数,但这违背了花样滑冰的评分准则——技术分 (TES) 只应基于视觉动作,而节目内容分 (PCS) 则需要考虑音乐诠释
      2. 评估粒度粗糙: 真实的 TES 是所有单个技术动作得分的总和。然而,现有模型大多直接预测一个笼统的总 TES,缺乏对每个独立动作的定位和打分能力,导致模型不透明且精度受限。
      3. 效率与性能瓶颈: 花样滑冰视频通常长达数分钟,传统的 RNNCNN 难以捕捉长距离的时序依赖关系,而 Transformer 虽然效果好,但其二次方复杂度的计算成本在处理长序列时非常高昂。
    • 创新思路: 本文的切入点是将模型架构设计与领域知识(花滑评分规则)深度对齐。通过构建一个双流结构,强制分离 TES 和 PCS 的信息源,并引入最新、高效的长序列建模架构 Mamba 来解决长视频处理的难题。
  • 核心贡献/主要发现 (Main Contribution/Findings - what):

    • 提出了一个符合花样滑冰评分准则的双流网络架构。 该架构包含一个仅使用视觉特征的 "TES 评估流" 和一个融合了音视频特征的 "PCS 评估流",从根本上解决了以往方法中特征使用与评分规则不匹配的问题。
    • 设计了一个能够进行细粒度动作评估的多尺度 Mamba 金字塔网络。 该网络结合了专门的 TES Head,能够同时定位、分类和评分视频中的每一个技术动作元素,使得最终的 TES 是通过对单个动作求和得出,更符合真实评分逻辑,也提升了模型的可解释性。
    • 首次将 Mamba 架构引入花样滑冰评估任务。 利用 Mamba 的线性计算复杂度和强大的长程依赖建模能力,高效地处理了长达数分钟的比赛视频,在 FineFS 数据集上取得了当前最优(SOTA)性能,并展示了强大的泛化能力。

3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 动作质量评估 (Action Quality Assessment, AQA): 这是一个计算机视觉任务,旨在对视频中的人类动作质量进行量化评分。它不仅要识别动作是什么,更要评估动作做得“好不好”,广泛应用于体育评分、医疗康复、艺术表演等领域。
    • 时序动作定位 (Temporal Action Localization, TAL): 该任务的目标是在未裁剪的长视频中检测出动作发生的起始和结束时间,并识别动作的类别。它是细粒度 AQA 的重要前提,因为只有先准确定位到动作片段,才能对其进行评分。
    • 多模态学习 (Multi-modal Learning): 指的是利用来自多种数据源(模态)的信息进行学习,如同时使用视觉(图像/视频)和听觉(音频)信息。在花滑评估中,视觉捕捉动作姿态,听觉捕捉音乐节奏,二者结合能更全面地评估艺术表现力。
    • Mamba / 状态空间模型 (State Space Model, SSM): Mamba 是一种新型的序列建模架构,其核心是结构化的状态空间模型 (SSM)。与 Transformer 相比,Mamba 在处理长序列时具有线性计算复杂度,同时通过一种选择性机制有效捕捉长程依赖关系,被认为是处理长序列任务的有力竞争者。
  • 前人工作 (Previous Works):

    • 早期的 AQA 方法(如 [26, 30])主要关注从视频中提取时空特征进行整体评分。
    • 一些工作(如 [16])引入了骨骼关键点数据 (Pose Estimation) 来进行更细致的动作分析。
    • LUSD-Net [12] 尝试解耦 TES 和 PCS 的特征,并通过弱监督方式定位子动作,但其定位模块并非端到端训练,且仍然只预测总分。
    • Transformer 类方法(如 [8])虽然能处理长程依赖,但计算成本高昂,不适合处理超长视频。
    • 多模态方法(如 [28, 37])证明了融合音视频对提升 PCS 评分的有效性,但它们普遍将融合后的特征不加区分地用于 TES 和 PCS 预测,违背了评分规则。
  • 技术演进 (Technological Evolution): 花样滑冰 AQA 的技术演进路线为:从整体视频特征回归 -> 引入骨骼点等细粒度信息 -> 尝试解耦不同分数和定位子动作 -> 引入多模态(音视频)信息 -> 本文:将架构设计与评分规则对齐,并引入更高效的长序列模型 Mamba

  • 差异化分析 (Differentiation): 与以往工作相比,本文的核心创新在于:

    1. 架构上的根本性分离: 创造性地设计了视觉单模态流 (TES) 音视频多模态流 (PCS),而不仅仅是在特征层面进行简单融合或解耦。
    2. 评估粒度的深化: 实现了端到端的动作元素定位、分类和评分,使 TES 的计算方式与现实裁判逻辑完全一致。
    3. 模型选择的前沿性: 率先采用 Mamba 替代 Transformer,在保证长程建模能力的同时,大幅提升了处理长视频的效率

4. 方法论 (Methodology - Core Technology & Implementation Details)

本论文提出的模型架构如下图所示,其核心是一个双流(Two-Stream)设计,分别处理技术分 (TES) 和节目内容分 (PCS) 的评估。

  • 方法原理 (Methodology Principles): 该方法的核心思想是模拟人类裁判的评分逻辑。裁判在评判 TES 时,只关注运动员的动作是否标准、到位,与背景音乐无关。而在评判 PCS 时,则会综合考量运动员的滑行技巧、动作编排以及与音乐的契合度。因此,模型设计了一个纯视觉流来预测 TES,以及一个音视频融合流来预测 PCS。

  • 方法步骤与流程 (Steps & Procedures):

    1. 特征提取 (Feature Extractor):

      • 视频特征: 使用在 Kinetics-400 数据集上预训练的 I3D 模型提取视频的 RGB 特征 FvF_v
      • 音频特征: 使用在 AudioSet 数据集上预训练的 VGGish 模型提取音频特征 FaF_a
      • 通过线性层将两种特征映射到统一的维度 CC,得到 Fv,FaRT×CF_v, F_a \in \mathbb{R}^{T \times C},其中 TT 是时序长度。
    2. 时序层次特征编码器 (Temporal Hierarchical Feature Encoder, THFE):

      • 该模块用于从原始特征中捕捉层次化的时序信息,同时保持时间分辨率不变。它由 Temporal Embedding Module (TEM)Temporal Refinement Module (TRM) 组成。
      • TEM:通过一系列 1D 卷积层、ReLULayerNorm 对输入特征进行嵌入。
      • TRM:使用多个 Masked Mamba Blocks 对嵌入后的特征进行深度编码,进一步提炼时序关系。
    3. 多尺度 Mamba 金字塔 (Multi-scale Mamba Pyramid, MMP):

      • 这是模型的核心组件之一,用于生成不同时间尺度的特征表示,以适应花滑中时长各异的动作(如短促的跳跃和持续的旋转)。
      • 它由多个 Mamba 下采样 (Mamba Down Sampling, MDS) 模块堆叠而成。每个 MDS 模块包含 LayerNormMamba、残差连接和最大池化 (MaxPool),在提取特征的同时降低时间分辨率(下采样),从而构建出特征金字塔。
      • MDS 模块的计算过程如下: Fm=MaxPool(Mamba(LN(Fr))+DropPath(Fr)) \mathbf { F } _ { \mathrm { m } } = \mathrm { MaxPool } \left( \mathrm { Mamba } \left( \mathrm { LN } ( \mathbf { F } _ { \mathbf { r } } ) \right) + \mathrm { DropPath } ( \mathbf { F } _ { \mathbf { r } } ) \right) 其中 FrF_r 是输入特征,LN 是层归一化。
    4. 双流信息交互与融合 (Two-Stream Interaction & Fusion):

      • TES 评估流 (上半部分): 纯视觉流。THFEMMP 处理视频特征 FvF_v,生成多尺度的视觉特征金字塔 {Fv1,Fv2,,FvL}\{ \mathbf { F } _ { v } ^ { 1 } , \mathbf { F } _ { v } ^ { 2 } , \ldots , \mathbf { F } _ { v } ^ { L } \}

      • PCS 评估流 (下半部分): 音视频融合流。并行地,另一套 THFEMMP 处理音频特征 FaF_a

      • 多级交叉注意力融合 (Multi-level Cross Attention Fusion, MCAF): 在金字塔的每一层,通过交叉注意力机制将视觉信息融入音频流。如下图 (b) 所示,视频特征作为查询 (Query),音频特征作为键 (Key) 和值 (Value),使得音频特征能够根据视觉内容进行调整和丰富。关键在于,这个融合是单向的,只影响 PCS 流,确保了 TES 流的纯净性。

    5. 分数回归 (Score Regression):

      • TES Head: 该模块接收来自视觉流的多尺度特征金字塔。对于金字塔的每一层,它都并行地预测三项内容:
        1. 动作类别 (Categories): 每个时间点属于哪个技术动作。
        2. 时序偏移 (Offsets): 每个时间点距离其所在动作的开始和结束边界的距离。
        3. 动作分数 (Scores): 每个时间点对应的技术动作的质量得分。 最终,通过后处理(如 soft-NMS)整合预测结果,得到每个动作的片段和分数,求和后即为总 TES。
      • PCS Head: 该模块接收来自音视频融合流的最后一层特征,通过卷积和平均池化层,直接回归出最终的 PCS 总分。
    6. 优化与损失函数 (Optimization & Loss Function):

      • 标签生成: 如下图所示,对于一个基准动作片段,其内部所有时间点的分类标签为 1,回归目标是当前点到片段始末的偏移量,分数目标是该动作的基准分数。

      • 多任务损失函数: 模型的总损失由四部分构成: L=αLfocal+Iρositive(βLdiou+Lelementmse)N++Lpcsmse \mathcal { L } = \frac { \alpha \mathcal { L } _ { \mathrm { f o c a l } } + \mathbb { I } _ { \boldsymbol { \rho } o s i t i v e } ( \beta \mathcal { L } _ { \mathrm { d i o u } } + \mathcal { L } _ { \mathrm { e l e m e n t } } ^ { m s e } ) } { N ^ { + } } + \mathcal { L } _ { \mathrm { p c s } } ^ { m s e }

        • Lfocal \mathcal { L } _ { \mathrm { f o c a l } } : 用于动作分类的 Sigmoid Focal Loss,解决正负样本不平衡问题。
        • Ldiou \mathcal { L } _ { \mathrm { d i o u } } : 用于时序偏移回归的 Differentiable IoU Loss,直接优化预测片段与真实片段的重叠度。
        • Lelementmse \mathcal { L } _ { \mathrm { e l e m e n t } } ^ { m s e } : 用于单个动作元素评分的均方误差损失 (Mean Squared Error, MSE)。
        • Lpcsmse \mathcal { L } _ { \mathrm { p c s } } ^ { m s e } : 用于节目内容分 (PCS) 预测的均方误差损失。
        • α\alphaβ\beta 是平衡不同损失项的权重系数,N+N^+ 是正样本数量。

5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):

    • FineFS: 这是主要的训练和评估数据集。它包含 1604 个高分辨率视频,提供了精确到帧的动作类别、起止时间段和分数,这对于训练本文提出的细粒度 TES 评估模型至关重要。
    • Fis-VFS1000: 这两个是额外的测试数据集,用于验证模型的泛化能力。模型在 FineFS 上训练后,直接在这两个数据集上进行测试,不进行任何微调。Fis-V 包含 500 个女子单人滑短节目视频,FS1000 规模更大,包含 1604 个视频,涵盖所有项目。
  • 评估指标 (Evaluation Metrics):

    • 斯皮尔曼等级相关系数 (Spearman's rank correlation coefficient, SP ρ\rho): 这是 AQA 任务中最常用的核心指标。它衡量的是预测分数排序与真实分数排序之间的一致性,取值范围为 [-1, 1],值越接近 1 表示模型性能越好。它关注的是相对排序的准确性,而不是绝对分值的误差。其计算公式为: ρ=i(airbˉr)(birbˉr)i(airbˉr)2i(birbˉr)2 \rho = \frac { \sum _ { i } ( a _ { i } ^ { r } - \bar { b } ^ { r } ) ( b _ { i } ^ { r } - \bar { b } ^ { r } ) } { \sqrt { \sum _ { i } ( a _ { i } ^ { r } - \bar { b } ^ { r } ) ^ { 2 } \sum _ { i } ( b _ { i } ^ { r } - \bar { b } ^ { r } ) ^ { 2 } } } 其中 ara^rbrb^r 分别代表预测分数和真实分数的排序位次。
    • 平均精度均值 (mean Average Precision, mAP): 这是用于评估时序动作定位性能的指标。它通过计算在不同时序交并比 (temporal Intersection over Union, tIoU) 阈值下的平均精度 (AP) 来综合评估定位的准确性。本文使用了 mAP@[0.5:0.05:0.95],即在 tIoU 从 0.5 到 0.95 的多个阈值上求均值。
  • 对比基线 (Baselines): 论文与多个 SOTA 方法进行了比较,包括 GDLTMS-LSTMTSALUSD-NetAction-NetSkating-MixerSemantic-GuidePAMFN 等。这些基线模型涵盖了基于 LSTMTransformerMLP 以及多模态融合等多种技术路线,具有很强的代表性。

6. 实验结果与分析 (Results & Analysis)

  • 核心结果分析 (Core Results Analysis):

    • FineFS 数据集上的表现 (Table 1):

      Method Free Skating (ρTES) Free Skating (ρPCS) Short Program (ρTES) Short Program (ρPCS)
      GDLT[29] 0.63 0.80 0.64 0.78
      MS-LSTM[30] 0.55 0.62 0.55 0.60
      TSA[31] 0.68 0.78 0.53 0.78
      LUSD-Net [12] 0.78 0.86 0.69 0.81
      Ours 0.80 0.96 0.75 0.94
      • 分析: 本文提出的方法在所有指标上均显著优于之前的 SOTA 方法。特别是在 PCS 预测上(自由滑 0.96,短节目 0.94),性能提升巨大,这有力地证明了引入音频信息和音视频融合对于评估艺术表现分的关键作用。同时,通过细粒度定位和评估单个动作,TES 的预测精度也达到了新的高度。
    • 在其他数据集上的泛化能力 (Table 2):

      Dataset Method ρTES ρPCS
      Fis-V MS-LSTM [30] 0.65 0.78
      M-BERT [14] 0.68 0.82
      Action-Net [36] 0.81 0.70
      Skating-Mixer [28] 0.68 0.82
      Semantic-Guide [8] 0.70 0.83
      PAMFN [37] 0.79 0.89
      GDLT [29] 0.69 0.82
      LUSD-Net [12] 0.68 0.82
      Ours 0.86 0.87
      FS1000 MS-LSTM [30] 0.79 0.80
      M-BERT [14] 0.75 0.82
      Skating-Mixer [28] 0.88 0.85
      Semantic-Guide [8] 0.89 0.85
      Ours 0.85 0.91
      • 分析:没有经过任何额外训练的情况下,模型在 Fis-VFS1000 数据集上也展现出极具竞争力的性能,甚至在多个指标上超过了在该数据集上训练过的模型。这证明了本文方法强大的泛化能力和鲁棒性。尤其是在 FS1000 的 PCS 评估上再次取得最佳,验证了其多模态设计的有效性。
  • 消融实验/参数分析 (Ablation Studies / Parameter Analysis):

    • 音频集成策略 (Table 6): 实验对比了四种情况:1) 无音频(纯视觉);2) 对称融合(音频也融合进 TES 流);3) 单流融合(音视频混合后预测所有分数);4) 本文的双流融合。结果表明,本文的双流融合策略(Two Stream Fusion)效果最好w/o Audio 证实了音频对 PCS 至关重要。Symmetrical Fusion 降低了 TES,说明音频对 TES 是干扰。One Stream Fusion 严重损害了所有性能,证明了不加区分的融合是有害的。
    • 时序编码器结构 (Table 4): 将模型中的 Mamba 模块替换为参数量相近的 CNN 模块。结果显示,Mamba 在所有指标上都显著优于 CNN,证明了 Mamba 强大的长程时序建模能力对于花滑评估任务的优越性。
    • 动作类别数量 (Table 3): 实验比较了 4、8、22、242 四种类别粒度。结果发现,22 个类别在 TES 和 PCS 评分上取得了最佳的平衡和性能。类别太少(4 或 8)虽然定位 mAP 较高,但评分精度不足;类别太多(242)则导致定位性能急剧下降。
    • Mamba 金字塔层数 (Table 5): 实验表明,使用 6 层金字塔的配置性能最佳,能够最好地平衡对不同时长动作的捕捉能力。
    • MCAF 融合层级 (Table 7): 对比了在不同层级进行音视频融合的效果。结果显示,在所有 6 个层级上都进行融合的效果最好,说明多尺度的信息融合对于 PCS 评估是有益的。
    • 损失函数权重 (Table 9): 实验探索了分类损失 (α\alpha) 和回归损失 (β\beta) 的权重。结果表明,将分类任务的权重设置得更高α=0.7,β=0.3\alpha=0.7, \beta=0.3)时,模型整体性能最好。

7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary): 本文成功地提出了一个新颖的、与花样滑冰专业裁判规则高度一致的双流 Mamba 金字塔网络。通过分离 TES(纯视觉)和 PCS(音视频融合)的评估流,并结合多尺度金字塔进行细粒度的动作定位与评分,该模型不仅解决了现有方法在理论依据和评估粒度上的缺陷,还利用 Mamba 架构高效地处理了长视频序列。实验结果表明,该模型在基准数据集上达到了 SOTA 水平,并具备出色的泛化能力。

  • 局限性与未来工作 (Limitations & Future Work):

    • 依赖高质量标注: 本文的细粒度评估方法高度依赖于像 FineFS 这样提供精确时序和分数标注的数据集。在缺乏此类高质量标注的体育项目中,该方法的应用可能会受限。
    • 特征提取器的局限: 模型性能的上界受限于预训练的 I3DVGGish 特征提取器。更先进或针对体育领域优化的特征提取器可能会带来进一步的性能提升。
    • 可解释性仍有空间: 虽然模型通过评估单个动作提升了 TES 的可解释性,但对于 PCS 的评分依据(如音乐的哪个部分影响了评分)仍然是一个“黑盒”。未来可以探索更具可解释性的多模态融合机制。
  • 个人启发与批判 (Personal Insights & Critique):

    • 领域知识驱动的模型设计: 这篇论文最大的亮点在于将领域知识(评分规则)深度融入模型架构设计,而不是简单地堆砌技术。这种“规则对齐”的思想对于解决特定领域的实际问题具有非常强的指导意义,远比单纯地追求模型复杂度和性能指标更有价值。
    • 新架构的成功应用: 本文是 Mamba 架构在体育视频分析领域的一个优秀应用范例,验证了其作为 Transformer 替代方案在处理长视频上的巨大潜力。这启发我们可以将 Mamba 应用于更多长时序、高效率要求的视频理解任务中。
    • 潜在改进点: 当前的 PCS 评估还是一个整体分数。未来或许可以进一步细化,让模型分别预测 PCS 的五个子项(滑行技术、衔接、表演、编排、音乐诠释),并提供相应的归因分析,使模型的评估结果更加透明和可信。此外,可以考虑引入运动员的骨骼关键点作为额外的模态,以更精确地捕捉动作的细节和姿态。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。