论文状态：已完成

DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning

发表：2025/03/15

多模态表示学习 (2)跨模态对齐框架 (1)层级化对齐方法 (1)高斯混合模型 (1)多模态 Transformer (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了DecAlign，一个新型的分层跨模态对齐框架，旨在有效解耦多模态表征，处理模态之间的异质性与同质性。通过原型引导的最优传输与高斯混合模型相结合，DecAlign在保留模态独特特征的同时，增强了语义一致性。实验结果显示，该方法在多个基准数据集上性能优于现有最优方案，推进了多模态表征学习的研究进展。

摘要

Multimodal representation learning aims to capture both shared and complementary semantic information across multiple modalities. However, the intrinsic heterogeneity of diverse modalities presents substantial challenges to achieve effective cross-modal collaboration and integration. To address this, we introduce DecAlign, a novel hierarchical cross-modal alignment framework designed to decouple multimodal representations into modality-unique (heterogeneous) and modality-common (homogeneous) features. For handling heterogeneity, we employ a prototype-guided optimal transport alignment strategy leveraging gaussian mixture modeling and multi-marginal transport plans, thus mitigating distribution discrepancies while preserving modality-unique characteristics. To reinforce homogeneity, we ensure semantic consistency across modalities by aligning latent distribution matching with Maximum Mean Discrepancy regularization. Furthermore, we incorporate a multimodal transformer to enhance high-level semantic feature fusion, thereby further reducing cross-modal inconsistencies. Our extensive experiments on four widely used multimodal benchmarks demonstrate that DecAlign consistently outperforms existing state-of-the-art methods across five metrics. These results highlight the efficacy of DecAlign in enhancing superior cross-modal alignment and semantic consistency while preserving modality-unique features, marking a significant advancement in multimodal representation learning scenarios. Our project page is at https://taco-group.github.io/DecAlign.

思维导图

论文精读

中文精读约 38 分钟读完 · 26,557 字

1. 论文基本信息

1.1. 标题

DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning (DecAlign：用于解耦多模态表征学习的分层跨模态对齐)

1.2. 作者

Chengxuan Qian, Shuo Xing, Shawn Li, Yue Zhao, Zhengzhong Tu 等。作者主要来自德州农工大学 (Texas A&M University) 和南加州大学 (University of Southern California)。

1.3. 发表期刊/会议

论文发布在 arXiv 预印本平台，目前状态为 $v2$ 版本。arXiv 是计算机科学、物理学、数学等领域重要的预印本库，许多顶级会议和期刊论文在正式发表前会先在此发布。

1.4. 发表年份

2025 年。具体发布时间为 2025-03-14T21:47:48.000Z。

1.5. 摘要

多模态表征学习 (Multimodal representation learning) 旨在捕获多模态数据中的共享和互补语义信息。然而，不同模态固有的异质性 (heterogeneity) 给实现有效的跨模态协作和整合带来了巨大挑战。为了解决这一问题，本文引入了 DecAlign，一个新颖的分层跨模态对齐框架 (hierarchical cross-modal alignment framework)，旨在将多模态表征解耦为模态独特 (modality-unique，异质) 和模态通用 (modality-common，同质) 特征。为了处理异质性，DecAlign 采用了一种原型引导的最优传输对齐策略 (prototype-guided optimal transport alignment strategy)，该策略利用高斯混合模型 (Gaussian mixture modeling, GMM) 和多边际传输计划 (multi-marginal transport plans)，从而缓解分布差异并保留模态独特特征。为了增强同质性，DecAlign 通过将潜在分布匹配 (latent distribution matching) 与最大均值差异 (Maximum Mean Discrepancy, MMD) 正则化相结合，确保了模态间的语义一致性。此外，本文还引入了一个多模态 Transformer (multimodal transformer) 来增强高层语义特征融合，进一步减少跨模态不一致性。在四个广泛使用的多模态基准数据集上进行的广泛实验表明，DecAlign 在五项指标上始终优于现有最先进的 (state-of-the-art) 方法。这些结果突出了 DecAlign 在增强卓越的跨模态对齐和语义一致性，同时保留模态独特特征方面的有效性，标志着多模态表征学习领域的一个重大进步。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2503.11892v2 PDF 链接: https://arxiv.org/pdf/2503.11892v2.pdf

2. 整体概括

2.1. 研究背景与动机

多模态表征学习 (Multimodal representation learning) 旨在有效地整合来自不同模态 (modality) 的信息，通过捕获其共享语义 (shared semantics) 同时保留模态独特特征 (modality-unique characteristics)。这在多模态情感分析、推荐系统、自动驾驶、OOD 检测 (out-of-distribution detection) 以及通用视觉理解和推理等众多领域都有广泛应用。

然而，该领域面临的核心挑战是模态之间固有的异质性 (heterogeneity)，这主要体现在以下几个方面：

数据分布差异 (Divergent data distributions)：不同模态的数据通常遵循不同的统计分布。
表征尺度不一 (Various representation scales)：不同模态的特征可能具有不同的维度和表示范围。
语义粒度不同 (Semantic granularities)：同一概念在不同模态中可能以不同的语义粒度呈现。

这些异质性阻碍了有效的跨模态协作和整合。此外，模态独特模式（异质性）与跨模态通用语义（同质性）之间的复杂纠缠进一步加剧了这一挑战。传统的融合方法通常通过简单的拼接或线性变换将原始多模态数据投影到统一空间，这种不加区分的融合往往会将模态独特特征与全局共享语义纠缠在一起，导致语义干扰 (semantic interference)，即详细的单模态特征可能会干扰全局跨模态关系。例如，高维、空间相关的图像特征与低维、时间相关的文本特征之间的维度不匹配，经常导致次优对齐 (suboptimal alignment)，在融合过程中造成信息冗余或关键信息丢失。

2.2. 核心贡献/主要发现

为解决上述挑战，本文提出了 DecAlign，一个分层跨模态对齐框架，其核心贡献和主要发现如下：

模态解耦 (Modality Decoupling)：DecAlign 引入了一个新颖的分层跨模态对齐框架，将多模态特征解耦为模态异质 (modality-heterogeneous) 和模态同质 (modality-homogeneous) 组件。这种解耦允许采用定制策略来捕获模态独特特征和共享语义。
分层对齐策略 (Hierarchical Alignment Strategy)：开发了一种双流对齐机制。
- 异质性对齐 (Heterogeneity Alignment)：针对模态异质性，提出了原型引导的最优传输对齐 (prototype-guided optimal transport alignment)，结合高斯混合模型 (GMM) 和多边际传输计划 (multi-marginal transport plans)，有效缓解分布差异并约束模态独特特征的干扰。同时，通过多模态 Transformer (multimodal transformer) 增强语义对齐和鲁棒性，利用跨模态注意力 (cross-modal attention) 弥合高层语义不一致。
- 同质性对齐 (Homogeneity Alignment)：针对模态同质性，通过潜在分布匹配 (latent distribution matching) 与最大均值差异 (MMD) 正则化相结合，实现语义一致性。
经验评估 (Empirical Evaluation)：在四个广泛使用的多模态基准数据集 (CMU-MOSI, CMU-MOSEI, CH-SIMS, IEMOCAP) 上进行了大量实验，结果表明 DecAlign 在五项指标上始终优于 13 种最先进的方法。这验证了其在多模态表征学习场景中，在改善跨模态对齐和语义一致性同时保留模态独特特征方面的有效性和泛化能力。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 多模态表征学习 (Multimodal Representation Learning)

多模态表征学习 (Multimodal representation learning) 是指从两种或多种不同类型的数据（即模态）中学习统一或协调的表征 (representation) 的过程。这些模态可能包括文本、图像、音频、视频、传感器数据等。其目标是捕获不同模态之间的共享语义信息，同时保留各模态特有的信息，以实现更全面、鲁棒的理解和预测。

3.1.2. 异质性 (Heterogeneity) 与同质性 (Homogeneity)

异质性 (Heterogeneity)：指多模态数据中各模态之间固有的差异性。这包括数据结构、分布、尺度、噪声水平和语义粒度等方面的不同。例如，文本是离散的符号序列，图像是连续的像素矩阵，它们在表示形式上存在显著差异。
同质性 (Homogeneity)：指多模态数据中各模态之间共享的、共同的语义信息。尽管模态形式不同，但它们可能描述同一概念或事件。例如，一段描述猫的文本、一张猫的图片和一段猫叫声的音频，都指向“猫”这个共同语义。

在多模态学习中，处理异质性以避免语义干扰，同时利用同质性以实现信息互补，是核心挑战。

3.1.3. 最优传输 (Optimal Transport, OT)

最优传输 (Optimal Transport, OT) 是一个数学框架，用于衡量两个概率分布之间的距离或转换成本。它旨在找到一个“传输计划”或“映射”，将一个分布的“质量”移动到另一个分布，使得总的传输成本最小化。OT 能够处理复杂的、高维的分布，并且比简单的距离度量（如欧氏距离）更能捕获分布的几何结构。

多边际最优传输 (Multi-Marginal Optimal Transport, MMOT)：是经典最优传输的推广，它涉及将一个源分布同时传输到多个目标分布，或者在多个分布之间寻找一个联合传输计划，使得总成本最小化，同时满足每个边际分布的约束。这在多模态对齐中特别有用，因为可以将一个模态的分布同时对齐到其他所有模态的分布。

3.1.4. 高斯混合模型 (Gaussian Mixture Model, GMM)

高斯混合模型 (Gaussian Mixture Model, GMM) 是一种概率模型，它假设数据点是从若干个服从高斯分布 (Gaussian distribution) 的子群体中生成的。每个子群体都有自己的均值、协方差和权重。GMM 可以用来对复杂的数据分布进行建模，因为它能够将数据点软分配 (soft assignment) 到不同的高斯成分 (Gaussian components)，从而形成聚类 (clustering) 或原型 (prototypes)。在本文中，GMM 用于生成模态独特特征的原型，即每个高斯成分的均值和协方差可以被视为一个类别或语义的原型。

3.1.5. 最大均值差异 (Maximum Mean Discrepancy, MMD)

最大均值差异 (Maximum Mean Discrepancy, MMD) 是一种非参数 (non-parametric) 的距离度量，用于衡量两个概率分布之间的差异。它通过将分布映射到再生核希尔伯特空间 (Reproducing Kernel Hilbert Space, RKHS) 中，然后测量它们在 RKHS 中的平均嵌入 (mean embeddings) 之间的距离来计算。MMD 不需要对分布进行参数化假设（如高斯分布），因此对各种类型的分布都适用。它常被用作训练神经网络的损失函数，以鼓励两个分布变得相似。

MMD 的基本思想是：如果两个分布在 RKHS 中的所有函数上的期望值都相同，那么这两个分布就是相同的。其计算公式为： $\text{MMD}(\mathcal{P}, \mathcal{Q}) = \left\| \mathbb{E}_x[k(x, \cdot)] - \mathbb{E}_y[k(y, \cdot)] \right\|_{\mathcal{H}}$ 其中， $\mathcal{P}$ 和 $\mathcal{Q}$ 是两个分布， $k(\cdot, \cdot)$ 是一个核函数 (kernel function)， $\mathcal{H}$ 是 RKHS。在实际计算中，通常使用样本估计： $\text{MMD}^2(\mathcal{P}, \mathcal{Q}) = \mathbb{E}_{x, x' \sim \mathcal{P}}[k(x, x')] + \mathbb{E}_{y, y' \sim \mathcal{Q}}[k(y, y')] - 2\mathbb{E}_{x \sim \mathcal{P}, y \sim \mathcal{Q}}[k(x, y)]$ 其中 x, x' 是从分布 $\mathcal{P}$ 中采样的， y, y' 是从分布 $\mathcal{Q}$ 中采样的。

3.1.6. Transformer (转换器)

Transformer 是一种基于注意力机制 (attention mechanism) 的神经网络架构，最初用于自然语言处理任务，现已广泛应用于计算机视觉等领域。它的核心是自注意力 (self-attention) 和交叉注意力 (cross-attention) 机制，能够捕捉序列中不同位置之间的依赖关系，并有效处理长距离依赖。

自注意力 (Self-Attention)：允许模型在处理序列中的某个元素时，关注序列中的所有其他元素，并根据它们的重要性进行加权。
交叉注意力 (Cross-Attention)：用于处理来自不同模态的两个序列，允许一个模态的元素查询 (query) 另一个模态的元素（键 key 和值 value），从而实现跨模态的信息交互和融合。

3.2. 前人工作

多模态表征学习领域的研究可以大致分为以下几类：

3.2.1. 通用多模态表征学习

融合策略 (Fusion Strategies)：早期的工作通常采用简单的特征融合，如拼接或线性变换 (MFM, MulT)，将多模态数据投影到统一空间。
- MFM (Tsai et al., 2018)：一种早期融合方法，通过因子分解多模态表征来学习。
- MulT (Tsai et al., 2019)：使用多模态 Transformer，通过跨模态注意力机制进行全局特征融合。
解耦与去纠缠 (Decoupling & Disentanglement)：为了解决异质性与互补性之间的纠缠问题，一些方法尝试将模态无关特征与模态特定特征分离。
- MISA (Hazarika et al., 2020)：通过对比损失和重建损失来分离模态不变 (modality-invariant) 和模态独特特征。
- DMD (Li et al., 2023)：引入图知识蒸馏 (graph knowledge distillation) 来显式建模模态间的相关性。
- FDMER (Yang et al., 2022)：通过因子分解建模进一步增强解耦表征学习。
自监督学习 (Self-Supervised Learning)：
- Self-MM (Yu et al., 2021)：应用自监督对比学习和掩蔽建模来增强模态间的互信息。
- HGraph-CL (Lin et al., 2022)：引入分层图对比学习来建模模态间复杂的交互。

这是多模态学习的核心挑战之一，旨在解决结构、分布和语义差异，以促进特征协同。

共享表征 (Shared Representation)：学习一个统一的潜在空间以实现语义一致性。
- CLIP (Radford et al., 2021)：通过大规模对比学习对齐图像-文本对。
- Uni-Code (Xia et al., 2024b)：使用跨模态信息去纠缠和指数移动平均 (exponential moving average) 来稳定对齐。
基于 Transformer 的跨注意力 (Transformer-based Cross-Attention)：
- MulT 和其他多模态 Transformer 模型 (Yang et al., 2022; Hu et al., 2024) 利用跨注意力机制动态捕获模态间信息。
模态转换 (Modality Translation)：通过跨模态生成或重建建立映射，显式建模依赖关系。
- Liu et al., 2024b; Zeng et al., 2024; Tian et al., 2022 等工作。
知识蒸馏 (Knowledge Distillation)：通过知识转移平衡模态间贡献。
- DMD 应用图蒸馏来建模相关性。
- UMDF (Li et al., 2024b)：使用统一的自蒸馏 (unified self-distillation) 来学习鲁棒的表征。

3.3. 技术演进与差异化分析

现有方法通常从全局视角建模模态，但往往忽视了跨模态交互中出现的token（词元）级别的局部语义不一致性。这限制了细粒度多模态整合，尤其是在需要精确语义融合的任务中。

DecAlign 的创新点在于：

分层对齐 (Hierarchical Alignment)：从局部到全局、从异质性到同质性进行对齐，而不是单一的全局对齐。
显式解耦 (Explicit Decoupling)：明确将多模态表征解耦为模态独特（异质）和模态通用（同质）特征，避免了语义干扰。
原型引导的最优传输 (Prototype-guided Optimal Transport)：针对异质性问题，引入原型引导的最优传输，以处理模态独特特征中的分布差异，同时保留其特定特性。这允许进行细粒度的局部对齐。
MMD 正则化结合潜在分布匹配 (MMD Regularization with Latent Distribution Matching)：针对同质性问题，通过结合潜在分布匹配和 MMD 正则化，确保模态间语义一致性。
多模态 Transformer 辅助 (Multimodal Transformer Assistance)：利用 Transformer 增强高层语义特征融合，进一步减少跨模态不一致性。

与那些可能导致过度对齐 (over-alignment) 并丧失模态特定特性的方法不同，DecAlign 通过结合表征解耦和分层对齐，在确保语义一致性的同时，保留了单模态的独特性。

4. 方法论

4.1. 方法原理

多模态表征学习 (multimodal representation learning) 的根本挑战在于有效解决模态独特特征 (modality-unique characteristics) 与跨模态语义一致性 (cross-modal semantic consistency) 之间的内在冲突。本文提出 DecAlign 框架，旨在解决两个关键问题：

异质性 (Heterogeneity)：指模态之间固有的表征焦点和分布差异，这阻碍了跨模态语义对齐。
同质性 (Homogeneity)：强调了尽管模态存在固有差异，但捕获模态之间共享语义的必要性。

DecAlign 的核心思想是分层跨模态对齐 (hierarchical cross-modal alignment)，显式地将模态独特特征和模态通用特征采用特定的对齐策略进行处理。如图 2 所示，整个框架可以分为以下几个主要步骤：

多模态特征解耦 (Multimodal Feature Decoupling)：将原始多模态特征分解为模态独特 (modality-unique, 异质) 和模态通用 (modality-common, 同质) 特征。
异质性对齐 (Heterogeneity Alignment)：针对模态独特特征，通过原型引导的多边际最优传输 (prototype-guided multi-marginal optimal transport) 策略进行对齐，以处理其分布差异。
同质性对齐 (Homogeneity Alignment)：针对模态通用特征，通过潜在空间语义对齐 (latent space semantic alignment) 和 MMD 正则化进行对齐，以确保语义一致性。
多模态融合与预测 (Multimodal Fusion and Prediction)：将对齐后的特征进行融合，并通过一个全连接层进行下游任务预测。

4.2. 核心方法详解

4.2.1. 多模态特征解耦 (Multimodal Feature Decoupling)

给定一个包含 $M$ 个模态的多模态数据集，每个模态 $m$ 提供了具有其独特时间长度 $T_m$ 和特征维度 $d_m$ 的特征。由于模态之间的这种固有变化，我们首先应用模态独特的 1D 时间卷积层 (modality-unique 1D temporal convolution layers)。这些卷积层聚合局部时间模式，并将所有特征转换为相同的时间长度 $T_s$ 和特征维度 $d_s$ 。由此产生的单模态特征表示为： $\tilde{\mathbf{X}}_m \in \mathbb{R}^{T_s \times d_s}$ 。

为了解决多模态任务中固有的异质性挑战，DecAlign 显式地将多模态表征解耦为模态通用特征 (modality-common features) 和模态独特特征 (modality-unique features)。

模态通用特征：强调跨模态的语义一致性。
模态独特特征：捕获模态特有的特性，可能包含一些冗余信息。

我们使用专门的编码器 $\mathbf{E}_{\mathrm{uni}}^{(m)}$ 和 $\mathbf{E}_{\mathrm{com}}$ 来生成这些特征。模态独特特征 $\mathcal{F}_{\mathrm{uni}}^{(m)}$ 和模态通用特征 $\mathcal{F}_{\mathrm{com}}^{(m)}$ 的生成方式如下： $\mathcal{F}_{\mathrm{uni}}^{(m)} = \mathbf{E}_{\mathrm{uni}}^{(m)}(\tilde{\mathbf{X}}_m)$ $\mathcal{F}_{\mathrm{com}}^{(m)} = \mathbf{E}_{\mathrm{com}}(\tilde{\mathbf{X}}_m)$ 其中， $\mathbf{E}_{\mathrm{uni}}^{(m)}$ 是第 $m$ 个模态的独特特征编码器， $\mathbf{E}_{\mathrm{com}}$ 是所有模态共享的通用特征编码器。所有编码器都被设计成产生相同维度 (dimensionality) 的表征，以确保兼容性。

为了量化并最小化模态独特特征和模态通用特征之间的潜在重叠，我们使用余弦相似度 (cosine similarity) 作为度量。解耦过程的损失函数 $\mathcal{L}_{dec}$ 被定义为： $\mathcal{L}_{dec} = \sum_{m=1}^{M} \frac{\mathcal{F}_{\mathrm{uni}}^{(m)} \cdot (\mathcal{F}_{\mathrm{com}}^{(m)})^{\mathrm{T}}}{\vert \vert \mathcal{F}_{\mathrm{uni}}^{(m)} \vert \vert \vert \mathcal{F}_{\mathrm{com}}^{(m)} \vert \vert}$ 这个损失函数的目标是最小化每个模态的独特特征与通用特征之间的余弦相似度，从而鼓励它们尽可能地正交 (orthogonal) 或不相关，达到解耦的目的。

4.2.2. 异质性对齐 (Heterogeneity Alignment)

模态独特特征在空间结构、尺度、噪声水平和密度等方面通常差异显著，使得直接的点对点对齐既不可靠又计算昂贵。然而，这些特征在指代相同的底层概念或对象类别时，又常常携带语义对齐的信息。为了有效弥合模态独特特征的差异，同时保留共享的语义结构，我们引入类别原型 (category prototypes) 作为跨模态的语义锚点 (semantic anchors)。这些原型代表了不同模态特定表征背后的一致语义模式，并作为指导对齐的参考点。在此基础上，我们采用原型引导的多边际最优传输框架 (prototype-guided multi-marginal optimal transport framework) 来实现异质特征空间中的自适应 (adaptive) 和细粒度 (fine-grained) 对齐。

4.2.2.1. 原型生成 (Prototype Generation)

为了灵活地捕获多模态数据中复杂的分布和潜在相关性，我们采用高斯混合模型 (Gaussian Mixture Model, GMM)。GMM 利用其软分配机制 (soft assignment mechanism) 和高斯分布假设 (Gaussian distribution assumption) 更准确地表示不同模态特征的原型结构。GMM 使用标准的期望最大化 (Expectation-Maximization, EM) 算法进行拟合，该算法迭代估计混合系数 (mixture coefficients)、均值 (means) 和协方差 (covariances)，以最大化模态独特特征的似然 (likelihood)。

我们首先使用 GMM 对模态独特特征进行建模，原型由高斯分布的均值和协方差表示： $\mathcal{P}_m = \{(\boldsymbol{\mu}_m^1, \boldsymbol{\Sigma}_m^1), (\boldsymbol{\mu}_m^2, \boldsymbol{\Sigma}_m^2), \dots, (\boldsymbol{\mu}_m^K, \boldsymbol{\Sigma}_m^K)\}$ 其中， $K$ 表示高斯成分 (Gaussian components) 的数量，这个数量被设置为与下游任务中的类别数量相等。 $\boldsymbol{\mu}_m^k$ 和 $\boldsymbol{\Sigma}_m^k$ 分别是模态 $m$ 的第 $k$ 个高斯成分的均值和协方差。

然后，第 $n$ 个样本 $\mathbf{x}_n$ 属于第 $k$ 个高斯成分的概率 $w_m^n(k)$ 计算如下： $w_m^n(k) = \frac{\boldsymbol{\pi}_k \cdot \mathcal{N}(\mathbf{x}_m^n; \boldsymbol{\mu}_m^k, \boldsymbol{\Sigma}_m^k)}{\sum_{j=1}^{K} \boldsymbol{\pi}_j \cdot \mathcal{N}(\mathbf{x}_m^i; \boldsymbol{\mu}_m^j, \boldsymbol{\Sigma}_m^j)}$ 其中， $\boldsymbol{\pi}_k$ 是第 $k$ 个高斯成分的混合系数 (mixture coefficient)， $\mathcal{N}(\mathbf{x}_m^i; \boldsymbol{\mu}_m^k, \boldsymbol{\Sigma}_m^k)$ 是高斯分布的概率密度函数 (probability density function, PDF)： $\mathcal{N}(\mathbf{x}_m^i; \boldsymbol{\mu}_m^k, \boldsymbol{\Sigma}_m^k) = \frac{\exp\left(-\frac{1}{2}(\mathbf{x}_m^i - \boldsymbol{\mu}_m^k)^{\mathrm{T}} \boldsymbol{\Sigma}_m^{k-1} (\mathbf{x}_m^i - \boldsymbol{\mu}_m^k)\right)}{(2\pi)^{d/2} |\boldsymbol{\Sigma}_m^k|^{1/2}}$ 其中 $d$ 是特征维度。

4.2.2.2. 原型引导的最优传输 (Prototype-guided Optimal Transport)

不同模态的模态独特特征通常位于具有显著分布差异的不同特征空间中。传统的点对点对齐方法难以捕获全局和局部关系。为了解决多模态场景中的这一挑战，我们引入多边际最优传输 (Multi-Marginal Optimal Transport) 方法来建立分布之间的匹配。

跨模态原型匹配成本矩阵 (cross-modal prototype matching cost matrix) 定义为： $C(k_1, k_2, \ldots, k_M) = \sum_{1 \leq i \leq j \leq M} C_{i,j}(k_i, k_j)$ 其中， $C_{i,j}(k_i, k_j)$ 表示模态 $m_i$ 和 $m_j$ 之间第 $k_i$ 和 $k_j$ 个原型对的配对对齐成本 (pairwise alignment cost)： $C_{i,j}(k_i, k_j) = ||\boldsymbol{\mu}_i^{k_i} - \boldsymbol{\mu}_j^{k_j}||^2 + \operatorname{Tr}(\boldsymbol{\Sigma}_i^{k_i} + \boldsymbol{\Sigma}_j^{k_j} - 2(\boldsymbol{\Sigma}_i^{k_i} \boldsymbol{\Sigma}_j^{k_j})^{\frac{1}{2}})$ 这个成本函数是Wasserstein 距离 (Wasserstein distance) 的一种推广，它衡量了两个高斯分布之间的距离，考虑了均值和协方差的差异。 $\operatorname{Tr}(\cdot)$ 表示矩阵的迹 (trace)。

跨模态原型对齐的优化目标旨在最小化所有模态的总对齐成本，同时满足边际分布约束 (marginal distribution constraints)。目标函数为： $T^* = \arg\min_T \sum_k T(k) \cdot C(k) + \lambda \sum_k T(k) \log T(k)$ 其中， $k \in \{k_1, k_2, \ldots, k_M\}$ 表示跨 $M$ 个模态的所有原型组合的索引集合，T(k) 代表联合传输矩阵 (joint transportation matrix)，C(k) 是联合成本矩阵。第二项引入了熵正则化 (entropy regularization)，以促进更平滑和更鲁棒的解决方案。

传输计划矩阵 T(k) 进一步受约束，以确保跨模态的一致性，满足以下边际分布约束： $\sum_{k_j: j \neq i} T(k_1, k_2, \ldots, k_M) = \nu_i(k_i), \forall i \in \{1, 2, \ldots, M\}, \forall k_i$ 其中， $\nu_i(k_i)$ 表示模态 $m_i$ 在其原型上的边际分布。

通过结合最优传输的全局对齐和通过样本到原型校准的局部对齐，整体的异质性对齐损失 $\mathcal{L}_{hete}$ 定义为： $\mathcal{L}_{hete} = \sum_k T^*(k) \cdot C(k) + \frac{1}{N} \sum_{n=1}^{N} \sum_{k=1}^{K} w_i^n(k) \cdot ||\mathcal{F}_i^n - \boldsymbol{\mu}_{j \neq i}^k||^2$ 第一项 $\mathcal{L}_{OT} = \sum_k T^*(k) \cdot C(k)$ 对齐模态间的原型分布，确保全局一致性。第二项 \mathcal{L}_{Proto} = \frac{1}{N} \sum_{n=1}^{N} \sum_{k=1}^{K} w_i^n(k) \cdot ||\mathcal{F}_i^n - \boldsymbol{\mu}_{j \neq i}^k||^2 通过最小化源模态 $i$ 中的样本 $\mathbf{x}_i^n$ 与目标模态 $j$ 中的原型之间的加权距离，确保细粒度对齐。通过结合 $\mathcal{L}_{OT}$ 和 $\mathcal{L}_{Proto}$ ，提供了一个在统一特征空间中对齐异质模态的鲁棒机制。

4.2.3. 同质性对齐 (Homogeneity Alignment)

尽管不同模态在其表征中表现出独特的特征，但它们也共享传达相同语义信息的共同元素。为了有效发现和对齐这些共享特征，解决模态独特变异和分布中残余不一致性带来的内在挑战至关重要。

4.2.3.1. 潜在空间语义对齐 (Latent Space Semantic Alignment)

为了解决模态通用特征中的全局偏移和语义不一致性，并减轻特征融合过程中的信息失真，我们使用高斯分布来建模模态特征分布。通过将表征映射到潜在空间 (latent space)，我们通过均值 (mean)、协方差 (covariance) 和偏度 (skewness) 来量化位置 (position)、形状 (shape) 和对称性 (symmetry) 的差异。其中，偏度被进一步纳入以捕获模态通用特征分布中的不对称性 (asymmetry)，从而使对齐能够解释非高斯语义变异并改善跨模态一致性。

具体而言，对于模态通用特征，其分布近似为： $\mathcal{Z}_{com}^{m_i} \sim \mathcal{N}(\hat{\boldsymbol{\mu}_{com}^{m_i}}, \boldsymbol{\Sigma}_{com}^{m_i}, \hat{\boldsymbol{\Gamma}_{com}^{m_i}})$ 其中 $\boldsymbol{\mu}_{com}^{m_i}$ 、 $\boldsymbol{\Sigma}_{com}^{m_i}$ 和 $\boldsymbol{\Gamma}_{com}^{m_i}$ 分别表示模态 $m_i$ 的通用特征的均值、协方差和偏度。这些统计量的详细公式在附录 B.6 中讨论。

为了确保跨模态的语义一致性，我们定义潜在空间语义对齐损失 $\mathcal{L}_{sem}$ 为： $\mathcal{L}_{sem} = \frac{1}{M(M-1)} \sum_{1 \leq i < j \leq M} \left( ||\boldsymbol{\mu}_{com}^{m_i} - \boldsymbol{\mu}_{com}^{m_j}||^2 + ||\boldsymbol{\Sigma}_{com}^{m_i} - \boldsymbol{\Sigma}_{com}^{m_j}||_F^2 + ||\boldsymbol{\Gamma}_{com}^{m_i} - \boldsymbol{\Gamma}_{com}^{m_j}||^2 \right)$ 此损失函数通过最小化任意两个模态的通用特征分布的均值、协方差和偏度之间的差异，来强制实现语义一致性。其中 $||\cdot||_F$ 表示 Frobenius 范数。

为了灵活地建模共享编码器提取的模态同质特征的潜在分布空间，而无需依赖先验知识，我们使用概率分布编码器 (Probabilistic Distribution Encoder, PDE) 来编码潜在空间中的特征分布。PDE 的输出通过最大均值差异 (Maximum Mean Discrepancy, MMD) 度量在模态间进行比较。MMD 通过将分布映射到再生核希尔伯特空间 (Reproducing Kernel Hilbert Space, RKHS) 并测量其平均嵌入 (mean embeddings) 之间的差异来评估分布之间的距离。这种基于核函数 (kernel-based) 的公式允许非参数建模 (non-parametric modeling)，并在统一空间中捕获高阶统计特性 (higher-order statistical properties)。

跨模态分布的差异量化为： $\mathcal{L}_{\mathrm{MMD}} = \frac{2}{M(M-1)} \sum_{1 \leq i < j \leq M} \Big[ \mathbb{E}_{\mathbf{x}, \mathbf{x}' \sim \mathcal{Z}_{com}^{m_i}} [k(\mathbf{x}, \mathbf{x}')] + \mathbb{E}_{\mathbf{y}, \mathbf{y}' \sim \mathcal{Z}_{com}^{m_j}} [k(\mathbf{y}, \mathbf{y}')] - 2\mathbb{E}_{\mathbf{x} \sim \mathcal{Z}_{com}^{m_i}, \mathbf{y} \sim \mathcal{Z}_{com}^{m_j}} [k(\mathbf{x}, \mathbf{y})] \Big]$ 其中 $k(\cdot, \cdot)$ 是高斯核函数 (Gaussian kernel function)，其定义为： $k(\mathbf{x}, \mathbf{y}) = \exp\Big( - \frac{||\mathbf{x} - \mathbf{y}||^2}{2\sigma^2} \Big)$ 其中 $\sigma$ 是核带宽参数 (kernel bandwidth parameter)。

通过进行潜在空间语义对齐 (Semantic Alignment) 和 MMD-based 分布校正 (MMD-based Distribution Correction)，我们建立了一个分层的同质性对齐机制，有效地实现了模态通用特征的语义和分布一致性。同质性对齐的总损失为： $\mathcal{L}_{homo} = \mathcal{L}_{sem} + \mathcal{L}_{\mathrm{MMD}}$

附录 B.6 提供的统计量估计

均值 (Mean): $\boldsymbol{\mu}_{com}^{(m)} = \frac{1}{N} \sum_{n=1}^{N} \mathbf{f}_n^{(m)}$ 协方差 (Covariance): $\boldsymbol{\Sigma}_{com}^{(m)} = \frac{1}{N} \sum_{n=1}^{N} (\mathbf{f}_n^{(m)} - \boldsymbol{\mu}_{com}^{(m)}) (\mathbf{f}_n^{(m)} - \boldsymbol{\mu}_{com}^{(m)})^{\intercal}$ 偏度 (Skewness): $\boldsymbol{\Gamma}_{com}^{(m)} = \frac{1}{N} \sum_{n=1}^{N} \left( \frac{\mathbf{f}_n^{(m)} - \boldsymbol{\mu}_{com}^{(m)}}{\sqrt{\mathrm{diag}(\boldsymbol{\Sigma}_{com}^{(m)})} + \epsilon} \right)^{\frac{\mathrm{d}}{\mathrm{d}}}$ 其中， $\mathbf{f}_n^{(m)}$ 是模态 $m$ 的第 $n$ 个通用特征向量， $N$ 是样本数量， $\mathrm{diag}(\boldsymbol{\Sigma}_{com}^{(m)})$ 表示协方差矩阵对角线上的元素（即方差）， $\epsilon$ 是一个小的常数以避免除以零。偏度的计算方式通常是三阶标准矩，这里公式中的 $\frac{\mathrm{d}}{\mathrm{d}}$ 可能表示元素级的立方或某些自定义操作。

4.2.4. 多模态融合与预测 (Multimodal Fusion and Prediction)

考虑到多模态异质表征的独特特性（例如，语言中的句法结构、视觉中的空间布局、音频中的时间模式），我们引入了模态特定 Transformer (modality-specific transformers) 来增强全局时间 (global temporal) 和上下文建模 (contextual modeling)。尽管之前的对齐已将模态独特特征放置在语义一致的空间中，但这些表征仍包含丰富的模态内信息，需要进一步的细化。使用每个模态单独的 Transformer 并不影响对齐，因为表征空间已经通过对齐损失进行了正则化 (regularized)。相反，这些 Transformer 充当模态感知细化器 (modality-aware refiners)。

它们的输出与模态通用特征连接起来，使得共享语义和模态特定线索能够共同指导最终的预测。最终预测通过一个全连接层 (fully connected layer) 生成。

整个框架的总体优化目标定义为： $\mathcal{L}_{total} = \mathcal{L}_{task} + \mathcal{L}_{dec} + \alpha \mathcal{L}_{hete} + \beta \mathcal{L}_{homo}$ 其中：

$\mathcal{L}_{task}$ 代表任务特定损失，例如分类任务的交叉熵损失 (cross-entropy loss) 或回归任务的均方误差 (mean squared error)。
$\mathcal{L}_{dec}$ 是多模态特征解耦损失。
$\mathcal{L}_{hete}$ 是异质性对齐损失。
$\mathcal{L}_{homo}$ 是同质性对齐损失。
$\alpha$ 和 $\beta$ 是异质性对齐和同质性对齐损失的权衡超参数 (trade-off hyperparameters)。

5. 实验设置

5.1. 数据集

DecAlign 在四个广泛使用的多模态基准数据集上进行评估：以下是原文 Table 3 的结果：

Dataset	# Train	# Test	# Category	Modality
				Audio	Visual	Text
CMU-MOSEI	16327	4659	2 & 7	¸	✓	u
CMU-MOSI	1284	686	2 & 7
CH-SIMS	1368	457	3	✓	√	¸
IEMOCAP	5810	1623	6	✓	√

5.1.1. CMU-MOSI (Multimodal Opinion Sentiment Intensity)

来源与特点：包含 2,199 段独白电影评论片段，每段都标注了情感得分，范围从 -3（高度负面）到 $+3$ （高度正面）。包含文本、视觉和声学特征，并进行了词对齐。
用途：常用于情感分类和回归任务，是评估多模态模型的关键基准。

5.1.2. CMU-MOSEI (Multimodal Opinion Sentiment and Emotion Intensity)

来源与特点：是 CMU-MOSI 的扩展，包含 22,856 个基于观点的片段，涵盖多样主题、演讲者和录音条件。同样包含词对齐的多模态数据和 -3 到 $+3$ 的情感得分。
用途：由于其规模大且多样性高，用于评估模型在不同领域的泛化能力。

5.1.3. CH-SIMS (Chinese Short-video Multimodal Sentiment)

来源与特点：包含 38,280 条中文语音，专为中文多模态情感分析设计。每条样本包含文本、视觉和声学信息，情感标签范围从 -1（负面）到 $+1$ （正面）。
用途：用于跨语言情感分析研究，是中文多模态情感模型的重要基准。

5.1.4. IEMOCAP (Interactive Emotional Dyadic Motion Capture)

来源与特点：包含 10,039 条动态语音，标注了六种情感类别：生气 (angry)、开心 (happy)、悲伤 (sad)、中性 (neutral)、兴奋 (excited) 和沮丧 (frustrated)。每条样本包含文本、视觉和声学模态。
用途：由于其类别分布不平衡，常采用加权准确率 (WAcc) 和加权平均 F1 分数 (WAF1) 来评估情感识别性能。

5.2. 评估指标

论文使用了多项评估指标来全面衡量 DecAlign 的性能：

5.2.1. 平均绝对误差 (Mean Absolute Error, MAE)

概念定义：MAE 衡量模型预测值与真实值之间差异的平均大小。它表示预测误差的绝对值平均数，对误差的度量是线性的，不会像均方误差 (MSE) 那样对大误差进行平方放大。MAE 越小，表示模型的回归预测越准确。
数学公式： $\text{MAE} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|$
符号解释：
- $N$ : 样本总数。
- $y_i$ : 第 $i$ 个样本的真实值。
- $\hat{y}_i$ : 第 $i$ 个样本的模型预测值。

5.2.2. 皮尔逊相关系数 (Pearson Correlation Coefficient, Corr)

概念定义：皮尔逊相关系数衡量两个变量之间线性关系强度和方向。其值介于 -1 和 $+1$ 之间。 $+1$ 表示完全正线性相关，-1 表示完全负线性相关，0 表示没有线性相关。在回归任务中，Corr 值越高，表示模型的预测与真实值之间的线性关系越强，模型捕获数据趋势的能力越好。
数学公式： $\text{Corr} = \frac{\sum_{i=1}^{N} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{N} (x_i - \bar{x})^2 \sum_{i=1}^{N} (y_i - \bar{y})^2}}$
符号解释：
- $N$ : 样本总数。
- $x_i$ : 第 $i$ 个样本的预测值。
- $y_i$ : 第 $i$ 个样本的真实值。
- $\bar{x}$ : 预测值的平均值。
- $\bar{y}$ : 真实值的平均值。

5.2.3. 二分类准确率 (Acc-2, Binary Accuracy)

概念定义：Acc-2 是针对二分类任务的准确率，衡量模型正确预测样本类别的比例。在情感分析中，通常用于判断情感是正面还是负面（例如，情感强度大于 0 为正面，小于 0 为负面）。Acc-2 越高，表示模型的分类性能越好。
数学公式： $\text{Acc-2} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$
符号解释：
- Number of Correct Predictions: 模型正确分类的样本数量。
- Total Number of Predictions: 样本总数。

5.2.4. F1 分数 (F1 Score)

概念定义：F1 分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值 (harmonic mean)。它综合考虑了分类器的准确性和完整性，在类别不平衡 (class imbalance) 的情况下，F1 分数比准确率更具说服力。F1 分数越高，表示模型在精确率和召回率之间取得了更好的平衡。
数学公式： $\text{F1 Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$ 其中，
- $\text{Precision} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}}$
- $\text{Recall} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}}$
符号解释：
- True Positives (TP): 真实为正类且被预测为正类的样本数。
- False Positives (FP): 真实为负类但被预测为正类的样本数。
- False Negatives (FN): 真实为正类但被预测为负类的样本数。

5.2.5. 7 类准确率 (Acc-7) / 3 类准确率 (Acc-3)

概念定义：Acc-7 或 Acc-3 是多分类任务的准确率，衡量模型在 7 个（CMU-MOSI/MOSEI）或 3 个（CH-SIMS）情感强度类别中正确预测样本的比例。例如，在 CMU-MOSI/MOSEI 中，情感强度可能被离散化为 7 个类别。准确率越高，表示模型在区分多类别情感强度方面的能力越强。
数学公式：同 Acc-2，只是类别数量不同。
符号解释：同 Acc-2。

5.2.6. 加权准确率 (Weighted Accuracy, WAcc)

概念定义：WAcc 是在多分类任务中，考虑到类别不平衡 (class imbalance) 情况下的准确率。它根据每个类别的样本数量对其准确率进行加权平均。这确保了少数类别在评估中得到足够的重视，避免模型偏向于样本量大的多数类别。WAcc 越高，表示模型在所有类别（特别是少数类别）上的表现越均衡和稳健。
数学公式： $\text{WAcc} = \frac{\sum_{j=1}^{C_0} \Gamma_j \cdot \text{Acc}_j}{\sum_{j=1}^{C_0} \Gamma_j}$
符号解释：
- $C_0$ : 情感类别的总数。
- $\Gamma_j$ : 类别 $j$ 中的样本数量。
- $\text{Acc}_j$ : 类别 $j$ 的分类准确率。

5.2.7. 加权平均 F1 分数 (Weighted Average F1 Score, WAF1)

概念定义：WAF1 与 WAcc 类似，也是为了解决类别不平衡问题。它对每个类别的 F1 分数进行加权平均，权重为该类别的样本数量。WAF1 越高，表示模型在所有类别（特别是少数类别）的精确率和召回率之间达到了更好的平衡。
数学公式： $\text{WAF1} = \frac{\sum_{j=1}^{C_0} \Gamma_j \cdot \text{F1}_j}{\sum_{j=1}^{C_0} \Gamma_j}$
符号解释：
- $C_0$ : 情感类别的总数。
- $\Gamma_j$ : 类别 $j$ 中的样本数量。
- $\text{F1}_j$ : 类别 $j$ 的 F1 分数。

5.3. 对比基线

DecAlign 与 13 种最先进的 (state-of-the-art) 方法进行了比较，这些基线代表了多模态表征学习领域中不同的技术路径：

MFM (Tsai et al., 2018)：一种基于因子分解的多模态表征学习模型。
MulT (Tsai et al., 2019)：基于 Transformer 的模型，利用跨模态注意力机制进行融合。
PMR (Fan et al., 2023)：一种原型模态再平衡 (Prototypical Modal Rebalance) 方法。
CubeMLP (Sun et al., 2022)：一种基于 MLP 的多模态情感分析和抑郁症估计模型。
MUTA-Net (Tang et al., 2023)：学习判别性多关系表征 (discriminative multirelation representations)。
MISA (Hazarika et al., 2020)：通过分离模态不变和模态特定表征进行多模态情感分析。
CENet (Wang et al., 2022a)：跨模态增强网络 (Cross-modal Enhancement Network)。
Self-MM (Yu et al., 2021)：通过自监督多任务学习捕获模态特定表征。
FDMER (Yang et al., 2022)：用于多模态情感识别的解耦表征学习。
AOBERT (Kim & Park, 2023)：一种用于多模态情感分析的全模态 BERT 模型。
DMD (Li et al., 2023)：用于情感识别的解耦多模态蒸馏 (Decoupled Multimodal Distilling) 方法。
ReconBoost (Hua et al., 2024)：通过重建增强来实现模态协调。
CGGM (Guo et al., 2025)：用于增强多模态学习的分类器引导梯度调制 (Classifier-guided Gradient Modulation)。

5.4. 实现细节

特征提取：
- CMU-MOSI, CMU-MOSEI, CH-SIMS：使用 MMSA-FET Toolkit (Yu et al., 2021) 进行特征提取。
  - 文本模态：英文数据集使用 bert-base-uncased 提取 768 维特征；CH-SIMS 使用 bert-base-chinese。
  - 视觉模态：使用 OpenFace 工具包的 Facet 模块提取 35 维面部动作特征。
  - 声学模态：使用 COVAREP 提取 74 维声学特征。
- IEMOCAP：遵循 Lian et al., 2023 的预处理流程。
  - 文本模态：使用预训练的 DeBERTa (He et al., 2020) 将词序列编码为 1024 维嵌入。
  - 视觉与声学模态：使用 MA-Net (Zhao et al., 2021) 和 wav2vec (Schneider et al., 2019) 提取特征。
训练设置：
- DecAlign 训练 50 个周期 (epochs)。
- 优化器：Adam。
- 批处理大小 (batch size)：32。
- GPU：单个 NVIDIA A6000。
模型架构：
- 所有数据集共享统一的骨干网络 (backbone)。
- 包含四个 Transformer 层。
- Conv1D 内核大小为 5，用于语言、音频和视觉流。
- DST（动态序列 Transformer）特征维度和注意力头根据数据集规模进行调整（例如，MOSI/CH-SIMS 为 [32, 8]，MOSEI 为 [64, 8]，IEMOCAP 为 [48, 4]）。

超参数：学习率、权重衰减 (weight decay)、梯度裁剪 (gradient clipping) 阈值、调度器耐心 (scheduler patience) 等都进行了详细配置，并列于附录 B.3 的 Table 4 中。以下是原文 Table 4 的结果：

Hyperparameter	MOSI	MOSEI	IEMOCAP	CH-SIMS
Attention Dropout (Audio)	0.3	0.2	0.2	0.3
Attention Dropout (Visual)	0.1	0.2	0.2	0.1
Attention Dropout (Text)	0.4	0.2	0.2	0.4
ReLU Dropout	0.1	0.2	0.2	0.1
Embedding Dropout	0.3	0.2	0.2	0.3
Residual Dropout	0.1	0.2	0.2	0.1
Output Dropout	0.6	0.2	0.2	0.6
Text Dropout	0.5	0.2	0.2	0.5
DST Feature Dim / Heads	[32, 8]	[64, 8]	[48, 4]	[32, 8]
Conv1D Kernel Size (L/A/V)	5/5/5	5/5/ 5	5/5/5	5/5/5
Transformer Levels (nlevels)	4	4	4	4
Batch Size	32	32	32	32
Learning Rate	5e-5	1e-4	1e-4	5e-5
Weight Decay	0.005	0.005	0.005	0.005
Gradient Clipping	0.5	0.6	0.6	0.5
Scheduler Patience	5	5	5	5
Pretrained Model	bert-base-uncased	bert-base-uncased	bert-base-uncased	bert-base-chinese

评估：所有结果均在测试集上进行 5 次独立运行的平均值，并使用固定的随机种子 {1, 2, 3, 4, 5}。

6. 实验结果与分析

6.1. 核心结果分析

DecAlign 在四个多模态基准数据集上的性能对比结果如以下表格所示。以下是原文 Table 1 的结果：

Models	CMU-MOSI			CMU-MOSEI			IEMOCAP (six-class)		CH-SIMS
Models	MAE (↓)	Acc-2 (↑)	F1 Score (↑)	MAE (↓)	Acc-2 (↑)	F1 Score (↑)	WAcc (↑)	WAF1(↑)	MAE (↓)	F1 Score (↑)
MFM (Tsai et al., 2018)	0.951	78.18	78.10	0.681	78.93	76.45	63.38	63.41	0.471	75.28
MulT (Tsai et al., 2019)	0.846	81.70	81.66	0.673	80.85	80.86	65.53	65.21	0.455	76.96
PMR (Fan et al., 2023)	0.895	79.88	79.83	0.645	81.57	81.56	67.04	67.01	0.445	76.55
CubeMLP (Sun et al., 2022)	0.838	81.85	81.74	0.601	81.36	81.75	66.43	66.41	0.459	77.85
MUTA-Net (Tang et al., 2023)	0.767	82.12	82.07	0.617	81.76	82.01	67.44	68.78	0.443	77.21
MISA (Hazarika et al., 2020)	0.788	82.07	82.43	0.594	82.03	82.13	68.48	68.25	0.437	78.43
CENet (Wang et al., 2022a)	0.745	82.40	82.56	0.588	82.13	82.35	69.27	69.58	0.454	78.03
Self-MM (Yu et al., 2021)	0.765	82.88	83.04	0.576	82.43	82.47	70.35	70.43	0.432	77.97
FDMER (Yang et al., 2022)	0.760	83.01	83.22	0.571	83.88	83.35	71.33	71.17	0.424	78.74
AOBERT (Kim & Park, 2023)	0.780	83.03	83.02	0.588	83.90	83.64	71.04	70.89	0.430	78.55
DMD (Li et al., 2023)	0.744	83.24	83.55	0.561	84.17	83.88	72.03	71.98	0.421	79.88
ReconBoost (Hua et al., 2024)	00.793	82.59 82.73	82.72 82.89	0.599	82.98	83.14	71.44	71.58	0.413 0.417	80.41 80.12
CGGM (Guo et al., 2025)	0.787			0.584	83.72	83.94	72.25	72.17
DecAlign (Ours)	0.735	85.75	85.82	0.543	86.48	86.07	73.35	73.43	0.403	81.85

表格中，↑ 表示值越高越好，↓ 表示值越低越好。最佳结果以粗体显示，次佳结果以下划线显示。所有报告结果均为测试集上 5 次运行的平均值。

分析总结：

DecAlign 在所有四个基准数据集（CMU-MOSI, CMU-MOSEI, IEMOCAP, CH-SIMS）和各项评估指标上均表现出持续且显著的优越性。这表明 DecAlign 具有强大的能力来捕获连续目标值中的细微变化，并更精确地区分离散类别。其在不同数据集上的一致性能证明了其在建模多模态数据中的连续和分类模式方面具有增强的能力，反映了对复杂跨模态交互的更全面理解。

对 Transformer-based 方法的超越：与 MulT、Self-MM、PMR 和 MUTA-Net 等依赖交叉注意力机制进行全局特征融合的 Transformer-based 方法相比，DecAlign 能够克服模态独特的干扰和局部语义不一致。Transformer-based 模型通常假设一个共享的潜在空间，这可能导致主导模态掩盖较弱模态，从而造成信息丢失。相比之下，DecAlign 显式解耦了模态异质和模态同质特征，利用原型引导的最优传输进行细粒度对齐，并通过带 MMD 正则化的潜在空间语义对齐实现全局一致性。这减轻了模态干扰，降低了 MAE，提高了 Corr，并增强了分类性能。
对特征解耦 (Feature Decoupling-based) 方法的超越：MISA、FDMER 和 DMD 等多模态特征解耦方法虽然缓解了模态干扰，但它们主要侧重于全局对齐，往往忽略了 token 级别的局部不一致性，这阻碍了细粒度多模态整合。DecAlign 通过双流分层对齐策略 (dual-stream hierarchical alignment strategy) 克服了这一挑战，将基于原型的传输 (prototype-based transport) 用于局部对齐，并结合语义一致性约束 (semantic consistency constraints) 实现鲁棒的全局整合。这使得 DecAlign 能够生成更具表现力的多模态表征，从而在回归和分类指标上均取得了卓越性能。

6.1.1. 混淆矩阵分析 (Confusion Matrix Analysis)

为了进一步验证 DecAlign 的有效性，论文分析了其在 CMU-MOSI 数据集上的混淆矩阵 (confusion matrix)，并与 MulT、MISA 和 DMD 等代表性方法进行了比较。

下图（原文 Figure 3）展示了 CMU-MOSI 数据集上四种代表性模型的预测与真实类别分布的比较：

Figure 3: Comparison of predicted versus ground truth category distributions for four representative models on the CMU-MOSI dataset.

分析总结：

DecAlign 在不同的情感强度级别上实现了更平衡和准确的情感分类，显著减少了误识别错误，尤其是在区分细微情感变化方面。
DecAlign 表现出更强的对角线优势 (diagonal dominance)，反映了更高的情感分类准确率。
在极端情感类别（-3 和 $+3$ ）中，现有模型常常会错误分类样本，但 DecAlign 显著减少了与相邻情感级别的混淆。
在中等情感类别（-1、0 和 1）中，正确预测样本的更高集中度进一步证明了 DecAlign 能够捕获细粒度情感差异，减轻了对中性或极端标签的偏差。
与其他方法（MulT、MISA 和 DMD）在“负面到中性”误识别方面挣扎不同，DecAlign 实现了情感类别之间更清晰的分离，确保了更鲁棒和可解释的预测。这在 -2 和 $+2$ 类别中尤为明显，DecAlign 最大限度地减少了误识别到相邻类别的情况，验证了其分层对齐策略在捕获模态独特细微差别和共享语义模式方面的有效性。

6.2. 消融实验 (Ablation Studies)

为了评估 DecAlign 中各个组件的贡献，论文在 CMU-MOSI 和 CMU-MOSEI 数据集上进行了消融研究。

以下是原文 Table 2 的结果：

Key Modules			CMU-MOSI		CMU-MOSEI		Alignment Strategies				CMU-MOSI		CMU-MOSEI
MFD	Hete	Homo	MAE	F1	MAE	F1	Proto-OT	CT	Sem	MMD	MAE	F1	MAE	F1
✓	✓	X	0.747	84.46	0.562	84.74	✓	✓	✓	X	0.741	84.61	0.564	85.26
✓	X	✓	0.754	84.03	0.588	84.37	✓	✓	×	✓	0.738	84.73	0.553	85.33
✓	×	×	0.784	81.92	0.632	82.22	✓	×	✓	✓	0.743	84.36	0.619	85.21
X	×	X	0.794	81.56	0.624	81.87	X	✓	✓	✓	0.748	84.17	0.624	85.03

6.2.1. 关键组件的影响 (Impact of Key Components)

多模态特征解耦 (MFD)：移除 MFD (即 $MFD=X$ , $Hete=X$ , $Homo=X$ 的情况) 导致性能大幅下降 (MOSI: MAE 0.794, F1 81.56；MOSEI: MAE 0.624, F1 81.87)。这表明在融合之前保留模态独特信息至关重要，解耦是所有后续对齐的基础。
异质性对齐 (Hete)：移除 Hete (即 $MFD=✓$ , $Hete=X$ , $Homo=✓$ 的情况) 导致性能明显下降 (MOSI: MAE 0.754, F1 84.03；MOSEI: MAE 0.588, F1 84.37)。这强调了模态独特特征干扰对特征整合的影响，以及异质性对齐的重要性。
同质性对齐 (Homo)：移除 Homo (即 $MFD=✓$ , $Hete=✓$ , $Homo=X$ 的情况) 导致性能略有下降 (MOSI: MAE 0.747, F1 84.46；MOSEI: MAE 0.562, F1 84.74)。这表明模态内一致性对于模型性能的重要性。
全模型性能：完整模型 ( $MFD=✓$ , $Hete=✓$ , $Homo=✓$ ) 取得了最佳结果 (MOSI: MAE 0.735, F1 85.82；MOSEI: MAE 0.543, F1 86.07)，证实了分层对齐的显著性。
可视化分析：图 4(a)-(d) 可视化了不同情感类别在异质性和同质性对齐模块被冻结时的性能变化。情感类别上的退化进一步验证了分层对齐策略对于在不同情感表达中保持鲁棒性能的必要性。即使禁用任何一个对齐模块，F1 分数仍高于许多最先进的方法，这表明所提出的对齐方法在异质和同质角度都有效。

6.2.2. 特定对齐策略的影响 (Impact of Specific Alignment Strategies)

原型引导最优传输 (Proto-OT)：移除 Proto-OT 导致回归 (MAE) 和分类 (F1) 指标显著下降 (MOSI: MAE 0.748, F1 84.17；MOSEI: MAE 0.624, F1 85.03)。这表明通过最优传输进行的细粒度对齐显著改善了多模态协作预测性能，是误差降低的骨干。
对比训练 (CT)：移除 CT 导致性能下降最为显著 (MOSI: MAE 0.743, F1 84.36；MOSEI: MAE 0.619, F1 85.21)。这表明 CT 在学习判别性多模态表征中扮演着关键角色，对于判别性和边界保持至关重要。
语义一致性 (Sem)：移除 Sem 进一步降低了性能 (MOSI: MAE 0.738, F1 84.73；MOSEI: MAE 0.553, F1 85.33)。这表明强制语义对齐增强了多模态特征整合，对于稳定融合至关重要。
最大均值差异 (MMD) 正则化：移除 MMD 正则化导致性能略有下降 (MOSI: MAE 0.741, F1 84.61；MOSEI: MAE 0.564, F1 85.26)。这突出了 MMD 在全局潜在空间对齐和特征一致性中的作用，提供了非参数化的分布正则化。

6.2.3. 模态间隙分析 (Analysis of Modality Gap)

下图（原文 Figure 4）展示了消融研究的可视化结果。图 (e)-(h) 可视化了视觉和语言模态之间的模态间隙：

Figure 4: Visualization of Ablation Studies. (a)(d) illustrate the performance comparison across different emotion categories on four benchmarks, (e)(h) visualize the modality gap between visual and language modalities on the CMU-MOSEI dataset. 该图像是图表，展示了不同情感类别在多个基准上的性能比较及视觉与语言模态之间的差距。图(a)和(b)为CMU-MOSI和CMU-MOSEI的数据表现，图(c)和(d)为CH-SIMS与IEMOCAP的数据表现。图(e)(f)(g)(h)则分别展示了去除异质性和同质性对比后的效果以及采用DecAlign方法的结果。整体上呈现了所提方法在多模态情感分析中的有效性。

图 4(e)-(h) 展示了视觉和语言模态之间模态间隙的案例研究，说明了 DecAlign 如何缓解模态间隙以增强对齐。

无对齐 (e)：在没有异质性或同质性对齐的模型中，模态间隙显著更大。语言和视觉特征彼此远离，且配对连接不规则。
仅同质性对齐 (f)：配对特征更近，聚类重叠增加，但仍可见不相交的子聚类。这表明仅通过语义对齐不能完全缓解模态特定变化。
仅异质性对齐 (g)：特征更集中，模态间距离进一步缩小。原型引导的最优传输有效对齐了模态独特的结构，但缺乏全局语义一致性。
完整 DecAlign (h)：配对特征紧密聚类并几乎共位，对齐距离最小，跨模态聚类结构一致。这证明了异质性和同质性对齐的互补效应，共同缩小了模态间隙，实现了高度一致的跨模态表征。

这些视觉分析验证了分层对齐对于鲁棒多模态整合至关重要。

6.3. 参数敏感性分析 (Parameter Sensitivity Analysis)

为了分析超参数 $\alpha$ 和 $\beta$ 对 DecAlign 的影响，论文在 CMU-MOSI 和 CMU-MOSEI 数据集上进行了广泛的网格搜索，并评估了模型在不同参数设置下的二分类 F1 分数。

下图（原文 Figure 5）展示了 CMU-MOSI 和 CMU-MOSEI 数据集上超参数敏感性分析的热力图：

Figure 5: Hyperparameter sensitivity analysis on CMUMOSI and CMU-MOSEI in terms of Binary F1 Score.

分析总结：

热力图显示，颜色越深表示性能越高。
最佳设置是 $\alpha = 0.05, \beta = 0.05$ ，在这两个数据集上都达到了最高的性能。
较大的 $\alpha$ 和 $\beta$ 值会导致性能急剧下降，这表明过度的对齐约束会阻碍有效融合。
较小的 $\alpha$ 值与适度的 $\beta$ 值相结合能产生较强的性能，这突出了平衡基于原型的对齐和语义一致性对于优化多模态学习的重要性。

7. 总结与思考

7.1. 结论总结

本文提出了 DecAlign，一个用于解耦多模态表征学习的分层框架。该框架能够单独对齐模态独特（异质）特征和模态通用（同质）特征。通过原型引导的最优传输对齐策略来处理模态异质性，并结合潜在语义对齐和最大均值差异 (MMD) 正则化来增强模态同质性，DecAlign 有效地捕获了跨模态的全局分布和局部语义。在四个广泛使用的多模态基准数据集上进行的实验结果表明，DecAlign 在多项评估指标上持续优于现有最先进的方法，验证了其在改善跨模态对齐和语义一致性，同时保留模态独特特征方面的有效性。

7.2. 局限性与未来工作

论文中未明确指出自身的局限性或未来的研究方向，但从其提出的方法和实验结果来看，可以推断出一些潜在的局限性和未来工作：

潜在局限性：

计算复杂性：
- 原型生成： 高斯混合模型 (GMM) 的拟合，特别是 EM 算法，在处理大规模数据集时可能计算成本较高，并且对组件数量 $K$ 的选择敏感。
- 多边际最优传输： 多边际最优传输的计算复杂度随着模态数量 $M$ 和原型数量 $K$ 的增加呈指数级增长，这可能限制其在更多模态或更细粒度原型场景下的应用。
超参数敏感性： 损失函数中的权衡超参数 $\alpha$ 和 $\beta$ 对模型性能有显著影响，需要在不同数据集上进行仔细调优。GMM 的 $K$ 值以及 MMD 核函数中的 $\sigma$ 参数也需要调优，这增加了模型的复杂性。
特征提取依赖： DecAlign 的性能在很大程度上依赖于预先提取的单模态特征的质量。如果原始特征提取器存在偏差或信息不足，可能会影响模型的最终性能。
泛化能力： 尽管在四个基准数据集上表现出色，但这些数据集主要集中在情感分析和情绪识别领域。DecAlign 在其他多模态任务（如多模态问答、图像描述生成等）上的泛化能力仍需进一步验证。
可解释性： 尽管解耦策略有助于理解模态独特和通用特征，但最优传输的复杂映射以及 Transformer 内部的注意力机制可能仍然难以完全解释，尤其是在细粒度的语义对齐层面。

未来工作方向：

动态原型学习： 探索更动态、自适应的原型学习机制，而不是固定数量的 GMM 组件，以更好地适应不同数据集和任务的复杂性。
可扩展的最优传输： 研究更具计算效率的多边际最优传输算法，或者结合深度学习技术来近似最优传输，从而应对大规模和多模态数量的挑战。
端到端学习： 将特征提取器纳入 DecAlign 的端到端训练框架中，以实现特征和对齐策略的联合优化。
自适应超参数： 开发自适应机制来动态调整 $\alpha$ 和 $\beta$ 等超参数，减少手动调优的工作量和对先验知识的依赖。
更多模态和任务： 将 DecAlign 应用和扩展到更多模态组合（例如，触觉、生理信号）和更广泛的多模态任务，以进一步验证其鲁棒性和通用性。
轻量化和部署： 优化模型结构和计算流程，以实现更轻量化的模型，便于在资源受限的设备上进行部署。

7.3. 个人启发与批判

个人启发：

解耦思想的普适性： 论文提出的“解耦”思想非常具有启发性。在多模态学习中，异质性和同质性往往纠缠不清，明确地将其分离并针对性处理，是一种“分而治之”的有效策略。这种思路不仅适用于多模态，也可能在其他复杂系统（如多任务学习、领域适应）中找到应用，通过解耦核心要素来简化问题。
分层对齐的精妙： 仅仅解耦是不够的，如何有效地对齐解耦后的特征才是关键。DecAlign 采用的分层对齐策略（局部异质性对齐 + 全局同质性对齐）非常精妙。它认识到不同层次和性质的模态差异需要不同的对齐机制，而不是一个“万能”的对齐方案。原型引导的最优传输处理局部细粒度差异，而潜在空间语义和 MMD 则关注全局分布一致性，这种互补性是其成功的关键。
最优传输和 GMM 的结合： 将 GMM 生成原型与最优传输相结合来处理异质性，提供了一个强大的工具。GMM 能够捕捉复杂的模态内分布结构，而最优传输则能以一种对几何结构敏感的方式对齐这些分布，这比简单的特征距离度量更具优势。
对现有方法局限性的深刻洞察： 论文对传统融合方法（语义干扰）和现有解耦方法（忽略 token 级不一致）的批判非常到位。这促使我们思考，在设计多模态模型时，不仅要考虑宏观的模态间关系，也要深入到微观层面，处理更细粒度的对齐问题。

批判：

原型数量 $K$ 的设定： 论文将 GMM 的组件数量 $K$ 设定为与下游任务的类别数量相等。虽然这在情感分类任务中可能是一个合理的启发式方法，但在类别数量不明确或变化较大的任务中，这种设定可能不适用，甚至可能限制模型的灵活性。如何自适应地确定或学习最佳原型数量，是一个值得探讨的问题。
“多边际”的实践深度：论文提到了多边际最优传输，但成本函数 $C(k_1, \ldots, k_M)$ 的定义依然是基于所有模态对的两两对齐成本之和。虽然这满足了多边际传输的定义，但更直接的“联合传输”可能需要更复杂的、高阶的成本函数来捕捉所有模态同时对齐的复杂关系，而非简单地叠加两两成本。目前的方法可能在一定程度上简化了真正复杂的多边际交互。
Transformer 的角色： 论文提到多模态 Transformer 用于“增强高层语义特征融合”，并作为“模态感知细化器”。然而，在已经进行了异质性和同质性对齐之后，Transformer 具体如何进一步提升性能，以及它与先前的对齐机制是协同还是部分冗余，值得更深入的分析和消融实验，例如移除 Transformer 后的性能变化。
对噪声和缺失模态的鲁棒性： 论文未详细探讨 DecAlign 在存在大量模态噪声或模态缺失情况下的表现。原型生成和最优传输对噪声的敏感度，以及在缺失模态时如何维持对齐的有效性，是实际应用中非常重要的问题。
模型复杂度与部署： 尽管效果显著，但模型包含多个编码器、GMM、最优传输求解器和 Transformer，整体架构较为复杂。在资源受限的环境下，其部署和推理效率可能会受到挑战。未来的工作可以探索如何简化模型或提高其计算效率。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 38 分钟读完 · 26,557 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 多模态表征学习 (Multimodal Representation Learning)

3.1.2. 异质性 (Heterogeneity) 与 同质性 (Homogeneity)

3.1.3. 最优传输 (Optimal Transport, OT)

3.1.4. 高斯混合模型 (Gaussian Mixture Model, GMM)

3.1.5. 最大均值差异 (Maximum Mean Discrepancy, MMD)

3.1.6. Transformer (转换器)

3.2. 前人工作

3.2.1. 通用多模态表征学习

3.2.2. 跨模态对齐 (Cross-Modal Alignment)

3.3. 技术演进与差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 多模态特征解耦 (Multimodal Feature Decoupling)

4.2.2. 异质性对齐 (Heterogeneity Alignment)

4.2.2.1. 原型生成 (Prototype Generation)

4.2.2.2. 原型引导的最优传输 (Prototype-guided Optimal Transport)

4.2.3. 同质性对齐 (Homogeneity Alignment)

4.2.3.1. 潜在空间语义对齐 (Latent Space Semantic Alignment)

4.2.3.2. 跨模态分布对齐 (Cross-Modal Distribution Alignment)

附录 B.6 提供的统计量估计

4.2.4. 多模态融合与预测 (Multimodal Fusion and Prediction)

5. 实验设置

5.1. 数据集

5.1.1. CMU-MOSI (Multimodal Opinion Sentiment Intensity)

5.1.2. CMU-MOSEI (Multimodal Opinion Sentiment and Emotion Intensity)

5.1.3. CH-SIMS (Chinese Short-video Multimodal Sentiment)

5.1.4. IEMOCAP (Interactive Emotional Dyadic Motion Capture)

5.2. 评估指标

5.2.1. 平均绝对误差 (Mean Absolute Error, MAE)

5.2.2. 皮尔逊相关系数 (Pearson Correlation Coefficient, Corr)

5.2.3. 二分类准确率 (Acc-2, Binary Accuracy)

5.2.4. F1 分数 (F1 Score)

5.2.5. 7 类准确率 (Acc-7) / 3 类准确率 (Acc-3)

5.2.6. 加权准确率 (Weighted Accuracy, WAcc)

5.2.7. 加权平均 F1 分数 (Weighted Average F1 Score, WAF1)

5.3. 对比基线

5.4. 实现细节

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 混淆矩阵分析 (Confusion Matrix Analysis)

6.2. 消融实验 (Ablation Studies)

6.2.1. 关键组件的影响 (Impact of Key Components)

6.2.2. 特定对齐策略的影响 (Impact of Specific Alignment Strategies)

6.2.3. 模态间隙分析 (Analysis of Modality Gap)

6.3. 参数敏感性分析 (Parameter Sensitivity Analysis)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐

3.1.2. 异质性 (Heterogeneity) 与同质性 (Homogeneity)