论文状态：已完成

Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation

发表：2025/09/11

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究提出了MambaRec，一个新颖的多模态推荐框架，通过注意力引导学习整合局部特征对齐与全局分布正则化，旨在解决细粒度跨模态关联建模不足和全局一致性不足的挑战。核心贡献在于引入了膨胀精炼注意力模块，显著提升了融合质量和鲁棒性，并在多个真实世界数据集上表现出色。

摘要

Multimodal recommendation systems are increasingly becoming foundational technologies for e-commerce and content platforms, enabling personalized services by jointly modeling users' historical behaviors and the multimodal features of items (e.g., visual and textual). However, most existing methods rely on either static fusion strategies or graph-based local interaction modeling, facing two critical limitations: (1) insufficient ability to model fine-grained cross-modal associations, leading to suboptimal fusion quality; and (2) a lack of global distribution-level consistency, causing representational bias. To address these, we propose MambaRec, a novel framework that integrates local feature alignment and global distribution regularization via attention-guided learning. At its core, we introduce the Dilated Refinement Attention Module (DREAM), which uses multi-scale dilated convolutions with channel-wise and spatial attention to align fine-grained semantic patterns between visual and textual modalities. This module captures hierarchical relationships and context-aware associations, improving cross-modal semantic modeling. Additionally, we apply Maximum Mean Discrepancy (MMD) and contrastive loss functions to constrain global modality alignment, enhancing semantic consistency. This dual regularization reduces mode-specific deviations and boosts robustness. To improve scalability, MambaRec employs a dimensionality reduction strategy to lower the computational cost of high-dimensional multimodal features. Extensive experiments on real-world e-commerce datasets show that MambaRec outperforms existing methods in fusion quality, generalization, and efficiency. Our code has been made publicly available at https://github.com/rkl71/MambaRec.

思维导图

论文精读

中文精读约 38 分钟读完 · 23,612 字

1. 论文基本信息

1.1. 标题

Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation (带有多尺度双边注意力的模态对齐用于多模态推荐)

1.2. 作者

Kelir Ren (Hanyang University, 韩国安山)
Chan- Yang Ju (Hanyang University, 韩国安山)
Dong- Ho Lee (Hanyang University, 韩国安山，通讯作者)

1.3. 发表期刊/会议

发表于第34届 ACM 国际信息与知识管理大会 (ACM International Conference on Information and Knowledge Management, CIKM '25)，2025年11月10日至14日，韩国首尔。

1.4. 发表年份

2025年

1.5. 摘要

多模态推荐系统 (Multimodal Recommendation Systems, MRS) 正日益成为电子商务和内容平台的基础技术，它们通过联合建模用户的历史行为和物品的多模态特征（例如视觉和文本）来提供个性化服务。然而，现有的大多数方法依赖于静态融合策略或基于图的局部交互建模，面临两个关键限制：(1) 建模细粒度跨模态关联的能力不足，导致融合质量不佳；(2) 缺乏全局分布级别的一致性，造成表示偏差。为了解决这些问题，我们提出了 MambaRec，一个通过注意力引导学习 (attention-guided learning) 整合局部特征对齐 (local feature alignment) 和全局分布正则化 (global distribution regularization) 的新颖框架。其核心是引入了膨胀精炼注意力模块 (Dilated Refinement Attention Module, DREAM)，该模块使用多尺度膨胀卷积 (multi-scale dilated convolutions) 以及通道注意 (channel-wise attention) 和空间注意 (spatial attention) 来对齐视觉和文本模态之间的细粒度语义模式。这个模块捕获层次关系和上下文感知关联，改善了跨模态语义建模。此外，我们应用最大均值差异 (Maximum Mean Discrepancy, MMD) 和对比损失函数 (contrastive loss functions) 来约束全局模态对齐，增强语义一致性。这种双重正则化减少了特定模态的偏差并提高了鲁棒性。为了提高可扩展性 (scalability)，MambaRec 采用维度降低策略 (dimensionality reduction strategy) 来降低高维多模态特征的计算成本。在真实世界电子商务数据集上的广泛实验表明，MambaRec 在融合质量、泛化能力和效率方面优于现有方法。我们的代码已在 GitHub 上公开。

1.6. 原文链接

https://arxiv.org/abs/2509.09114v1

1.7. PDF 链接

https://arxiv.org/pdf/2509.09114v1.pdf

2. 整体概括

2.1. 研究背景与动机

多模态推荐系统在现代电子商务和内容平台中扮演着越来越重要的角色，因为它们能够整合物品的丰富视觉和文本信息，从而提供更精准的个性化推荐。传统推荐系统主要依赖用户-物品交互数据，容易面临数据稀疏 (data sparsity) 和冷启动 (cold-start) 问题。引入多模态信息可以有效缓解这些问题，通过提供辅助语义信息来补充行为数据。

然而，现有的大多数多模态推荐方法存在以下局限性：

细粒度跨模态关联建模能力不足： 许多模型采用静态的线性投影或简单的融合技术，难以捕捉视觉和文本模态之间复杂的、细粒度的语义对应关系。这导致不同模态的特征融合质量不佳。
缺乏全局分布级别的一致性： 现有方法通常只关注局部特征的融合，而忽略了在模态级别上表示分布的全局一致性。这种忽视会导致不同模态的表示存在偏差 (representational bias)，进而影响模型的泛化能力和鲁棒性。例如，基于图卷积网络 (Graph Convolutional Networks, GCNs) 的方法虽然能捕捉复杂交互信息，但可能难以处理跨模态的分布漂移 (distribution shift) 和高维特征引入的噪声。

针对这些挑战，本论文旨在开发一个能够有效进行细粒度局部特征对齐和全局分布对齐的新型多模态推荐框架。

2.2. 核心贡献/主要发现

本论文提出了 MambaRec 框架，其核心贡献包括：

创新的局部特征对齐模块 (DREAM)： 引入了膨胀精炼注意力模块 (Dilated Refinement Attention Module, DREAM)。该模块结合了多尺度膨胀卷积 (multi-scale dilated convolutions) 来捕获不同尺度的特征信息，并融入了通道注意力 (channel-wise attention) 和空间注意力 (spatial attention) 机制，以自适应地突出关键特征并对齐视觉和文本模态之间的细粒度语义模式。这显著增强了局部特征的对齐准确性。
全局分布正则化机制： 将最大均值差异 (Maximum Mean Discrepancy, MMD) 损失函数引入推荐领域，通过高斯核函数 (Gaussian kernel function) 明确约束模态特征分布的一致性，从而有效提升特征融合质量。此外，通过 InfoNCE 对比损失 (contrastive loss) 进一步补充，实现了全局分布级别上的语义一致性。这种双重正则化策略减少了模态特异性偏差并增强了模型的鲁棒性。
高效的维度优化策略： 设计了一种新颖的内存优化策略，通过可配置的降维因子 (dimensionality reduction factors) 和两阶段特征转换机制，显著降低了高维多模态特征的内存消耗和计算成本，同时保持了高质量的特征表示，确保了模型在大规模推荐环境中的可扩展性和计算效率。

主要发现： 在 Baby、Sports and Outdoors 和 Clothing, Shoes and Jewelry 等真实世界电子商务数据集上的广泛实验表明，MambaRec 在推荐性能（如 Recall@K 和 NDCG@K）方面显著优于各种现有最先进的通用和多模态推荐模型。消融实验 (ablation studies) 验证了局部对齐和全局对齐模块以及多模态融合的有效性。敏感性分析 (sensitivity analysis) 展示了关键超参数对模型性能的影响，并证明了维度优化策略在平衡性能和效率方面的优势。可视化分析进一步证实，MambaRec 能够生成更具区分度的物品表示，有效缓解了传统方法中存在的表示退化 (representation degradation) 问题。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 MambaRec 及其创新点，我们需要了解以下几个基础概念：

多模态推荐系统 (Multimodal Recommendation Systems, MRS)： 一类推荐系统，它不仅仅使用用户与物品的交互历史数据，还会结合物品的多种模态信息（如视觉、文本、音频等）来理解用户偏好和物品特性，从而提供更准确和个性化的推荐。
协同过滤 (Collaborative Filtering)： 传统推荐系统的核心思想之一。它基于用户之间的相似性（例如，购买过相同物品的用户）或物品之间的相似性（例如，被相同用户购买过的物品）来生成推荐。
贝叶斯个性化排序 (Bayesian Personalized Ranking, BPR)： 一种用于隐式反馈数据的排序优化算法。它不是预测用户对某个物品的评分，而是优化用户对物品对的相对偏好，即用户对已交互物品的偏好高于未交互物品。BPR 通常使用成对 (pairwise) 排名损失函数进行优化。
图神经网络 (Graph Neural Networks, GNNs) / 图卷积网络 (Graph Convolutional Networks, GCNs)： 一类处理图结构数据的神经网络。它们通过在图上聚合邻居节点信息来学习节点（如用户、物品）的表示。在推荐系统中，GCNs 可以建模用户-物品交互图，捕捉高阶协同信号。
对比学习 (Contrastive Learning)： 一种自监督学习范式，旨在学习一个表示空间，使得相似的样本（正样本对）相互靠近，不相似的样本（负样本对）相互远离。它通常通过设计一个对比损失函数来实现。
稀疏性问题 (Sparsity Issue)： 在推荐系统中，用户通常只与极少数的物品发生交互，导致用户-物品交互矩阵非常稀疏。这使得传统协同过滤方法难以学习到准确的用户和物品表示。
冷启动问题 (Cold-start Problem)： 当新用户或新物品加入系统时，由于缺乏足够的交互数据，推荐系统难以对其进行有效推荐。多模态信息可以为冷启动物品提供丰富的语义内容，从而缓解这个问题。
注意力机制 (Attention Mechanism)： 深度学习中的一种技术，允许模型在处理输入序列或特征时，能够动态地关注其中最重要的部分，并为其分配更高的权重。它模拟了人类认知中的注意力焦点，有助于模型捕捉关键信息。
膨胀卷积 (Dilated Convolution) / 空洞卷积 (Atrous Convolution)： 一种卷积操作，通过在卷积核中插入空洞来扩大其感受野 (receptive field)，而无需增加参数数量或降低特征图的分辨率。这使得模型能够捕捉到更大范围的上下文信息，同时保持计算效率。
最大均值差异 (Maximum Mean Discrepancy, MMD)： 一种度量两个概率分布之间差异的非参数统计量。它通过将分布映射到再生核希尔伯特空间 (Reproducing Kernel Hilbert Space, RKHS)，然后计算其均值嵌入之间的距离来衡量分布差异。MMD 损失通常用于领域适应 (domain adaptation) 和模态对齐任务中，以拉近不同分布之间的距离。

3.2. 前人工作

论文在 2 Related Work 部分回顾了多模态推荐系统领域的主要发展：

传统推荐系统与多模态扩展：
- BPR (Bayesian Personalized Ranking) [21]: 经典的协同过滤方法，通过优化成对排序损失来提高推荐准确性，但面临数据稀疏和冷启动问题。
- VBPR (Visual Bayesian Personalized Ranking) [9]: 将预训练卷积神经网络 (CNNs) 提取的视觉特征整合到 BPR 模型中，以缓解冷启动问题并提升性能。然而，早期多模态方法通常独立处理各模态，并采用简单的线性组合，难以捕捉复杂的跨模态交互。
基于图神经网络 (GNNs) 的多模态推荐：
- LightGCN [10]: 简化了图卷积框架，专注于邻居聚合，高效建模用户-物品之间的高阶关系。
- MMGCN (Multimodal Graph Convolutional Network) [27]: 为每个模态构建交互图并融合其图嵌入 (graph embeddings)。这种融合虽然提升了性能，但也可能放大模态特定的噪声。
- GRCN (Graph-Refined Convolutional Network) [26]: 通过门控机制 (gating mechanisms) 精炼图结构以抑制噪声交互。
- MGCN (Multi-view Graph Convolutional Network) [30]: 利用用户历史行为指导模态特征的预处理和精炼，并采用多视图图卷积 (multi-view graph convolution) 来更细粒度地融合多模态信息。
- 局限性： 现有的 GNNs 模型仍难以适应跨模态的异构语义粒度 (heterogeneous semantic granularities)，可能导致信息稀释 (information dilution) 和在稠密图中的过平滑 (over-smoothing) 问题。
自监督学习与细粒度融合：
- SLMRee (Self-supervised Learning for Multimedia Recommendation) [23]: 引入跨模态自监督任务和分层对比学习框架 (hierarchical contrastive learning framework)，增强模态表示的鲁棒性。
- BM3 (Bootstrap Multimodal Matching) [35]: 提出自监督策略，通过随机特征丢弃生成对比视图 (contrastive views)，减少对负采样 (negative sampling) 的依赖，提高效率和准确性。
- FREEDOM [34]: 通过冻结物品相似图 (item similarity graph) 和剪枝用户交互图 (user interaction graphs) 来减少内存消耗，旨在提高训练稳定性和资源效率。
- LGMRec (Local and Global Graph Learning for Multimodal Recommendation) [7]: 引入局部-全局模态图学习策略，同时建模模态特定的用户兴趣和共享的跨模态偏好，以缓解模态间的干扰。
- 局限性： 这些方法虽然取得了重要进展，但往往忽视了跨模态的语义一致性和表示分布的协调性。很少有方法能将局部特征对齐和分布一致性以统一的方式明确整合。

3.3. 技术演进

多模态推荐技术经历了从简单到复杂的演进过程：

早期阶段 (基于内容 / 简单融合)： 将视觉、文本等内容特征作为辅助信息，通过简单的特征拼接、线性加权或浅层神经网络与协同过滤模型结合。例如 VBPR 引入视觉特征，但融合方式相对静态。
基于图模型阶段： 引入图神经网络（如 GCN）来建模用户-物品交互图，能够捕捉高阶协同信号。MMGCN、GRCN 等尝试在图结构中融入多模态信息，但往往采用模态特定的图构建或静态融合策略，难以有效处理模态间的异构性和噪声。
自监督学习与对比学习阶段： 借鉴自监督学习的成功经验，通过设计跨模态的自监督任务（如 SLMRee、BM3）或对比损失来学习更鲁棒、更具判别性的模态表示，推动了细粒度融合的发展。
模态对齐与分布一致性阶段 (本文工作)： 认识到仅仅融合特征或进行局部对比不足以解决模态间的深层语义不一致和分布偏差问题。MambaRec 在此基础上，提出了结合局部细粒度对齐（通过 DREAM 模块）和全局分布一致性正则化（通过 MMD 和对比损失）的统一框架，以期实现更全面、更鲁棒的多模态融合。

3.4. 差异化分析

MambaRec 与上述相关工作的主要区别和创新点在于：

统一的对齐框架： 大多数现有方法侧重于单一方面的改进（例如，GNNs 专注于图结构建模，自监督学习专注于表示学习）。MambaRec 首次明确且统一地整合了局部细粒度特征对齐和全局分布级别一致性两大核心目标，通过注意力引导学习实现。
创新的 DREAM 模块： 相较于静态融合或简单注意力，DREAM 模块结合了多尺度膨胀卷积和双重注意力（通道和空间），能够更精细、更动态地捕捉跨模态语义模式，解决了现有方法在捕捉细粒度关联上的不足。
引入 MMD 进行全局分布对齐： 许多自监督方法使用对比损失来拉近正样本对，但 MambaRec 进一步引入 MMD，从统计学角度直接度量并最小化不同模态特征的整体分布差异，有效缓解了表示偏差和模态漂移问题。
效率与可扩展性： 通过专门设计的维度优化策略，MambaRec 在保证高性能的同时，显著降低了高维特征的计算和内存开销，解决了现有方法在大规模场景下的部署挑战。

4. 方法论

本节将详细阐述 MambaRec 框架的设计原理、核心组件及其工作流程。MambaRec 旨在通过注意力引导学习，整合局部特征对齐和全局分布正则化，以解决多模态推荐中细粒度关联建模不足和全局分布不一致的问题。

4.1. 方法原理

MambaRec 的核心思想是，要实现高质量的多模态推荐，不仅需要将不同模态的特征进行融合，更关键的是要确保这些模态特征在不同粒度上保持“对齐”和“一致”。具体来说：

局部特征对齐 (Local Feature Alignment)： 聚焦于视觉和文本模态之间细粒度语义模式的匹配。例如，图像中的特定区域可能与文本描述中的某个关键词高度相关。通过动态调整对这些局部特征的关注，可以实现更精准的跨模态语义映射。
全局分布正则化 (Global Distribution Regularization)： 确保不同模态的整体特征表示在潜在空间中具有相似的统计分布。这有助于减少模态间的偏差，使模型学习到的跨模态联合表示更具鲁棒性和泛化能力。

此外，为了应对高维多模态特征带来的计算和内存挑战，MambaRec 还引入了维度优化机制。

整个框架由三个核心组件构成：(i) 局部特征对齐模块、(ii) 全局分布对齐模块、(iii) 维度优化机制。

下图（原文 Figure 2）展示了 MambaRec 的整体架构：

fig 2 该图像是示意图，展示了两种不同的多模态对齐方法。上部分展示了传统方法在视觉和文本信息处理中的非对齐方式，而下部分展示了我们的方法，通过局部和全局对齐策略提高了模型的融合效果。

4.2. 核心方法详解

4.2.1. 问题表述

给定 $M$ 个用户和 $N$ 个物品，用户与物品的历史交互行为由一个稀疏二值矩阵 $\mathbf{R} \in \{0, 1\}^{M \times N}$ 表示，其中 $\mathbf{R}_{ui} = 1$ 表示用户 $u$ 与物品 $i$ 发生过交互，否则为 0。为了捕捉协同信号，每个用户 $u$ 和物品 $i$ 都被分配一个 $d$ 维的身份嵌入 (identity embedding)，分别表示为 $\mathbf{p}_{u}$ 和 $\mathbf{q}_{i}$ 。此外，每个物品 $i$ 还关联有多模态特征，本文主要关注视觉 (visual, $v$ ) 和文本 (text, $t$ ) 两种模态，模态集合定义为 $\mathcal{M} = \{v, t\}$ 。

对于每个模态 $m \in \mathcal{M}$ ，物品 $i$ 的原始特征表示为 $\mathbf{x}_{i}^{m} \in \mathbb{R}^{d_{m}}$ 。这些原始特征通过一个可学习的线性变换 $W_m \in \mathbb{R}^{d \times d_m}$ 投影到统一的嵌入空间，得到模态嵌入 $\mathbf{h}_i^m = W_m \mathbf{x}_i^m$ 。

用户 $u$ 对物品 $i$ 的预测偏好得分 $\hat{y}_{ui}$ 通过一个评分函数 $\hat{f}$ 计算，该函数融合了用户 $u$ 的身份嵌入、物品 $i$ 的身份嵌入以及其多模态嵌入： $\hat{y}_{ui} = \hat{f} (\mathbf{p}_u,\mathbf{q}_i,\{{\bf h}_i^m\}_{m\in MI})$ 模型的训练基于观察到的交互数据进行监督学习，推理阶段则根据预测得分生成个性化推荐列表。

4.2.2. 维度优化 (Dimensionality Optimization)

为了解决不同模态（图像和文本）特征之间的维度差异和潜在冗余问题，并提高多模态特征融合的效率以及模型的泛化能力，MambaRec 引入了一个维度优化机制。

设图像模态特征矩阵为 $V \in \mathbb{R}^{N \times D_V}$ ，文本模态特征矩阵为 $T \in \mathbb{R}^{N \times D_T}$ ，其中 $N$ 是样本数量， $D_V$ 和 $D_T$ 分别是图像和文本的原始特征维度。我们引入两个可学习的线性降维矩阵 $W_V \in \mathbb{R}^{D_V \times d}$ 和 $W_T \in \mathbb{R}^{D_T \times d}$ ，分别对这两种模态的特征进行投影： $V^{\prime} = VW_{V},\quad T^{\prime} = TW_{T} \quad (12)$ 其中 $V^{\prime}, T^{\prime} \in \mathbb{R}^{N \times d}$ 表示降维后统一的特征表示。目标嵌入维度 $d$ 的大小由降维系数 $r$ 控制，其定义如下： $d = \left\lfloor \frac{\min (D_V,D_T)}{r}\right\rfloor \quad (13)$ 这里， $\min(D_V, D_T)$ 取图像和文本原始维度中的较小值，然后除以降维系数 $r$ 。这确保了两种模态在降维后具有相同的目标维度 $d$ 。

经过维度优化后的模态特征 $V^{\prime}$ 和 $T^{\prime}$ 将作为后续 DREAM 模块的输入，进行结构增强和细粒度特征增强。此机制不仅显著降低了特征空间的维度和计算开销，还提升了多模态融合表示的鲁棒性。

4.2.3. 局部特征对齐 (Local Feature Alignment)

局部特征对齐模块旨在通过多尺度卷积和注意力机制，对齐图像和文本模态之间细粒度的语义模式。MambaRec 提出了膨胀精炼注意力模块 (Dilated Refinement Attention Module, DREAM)，其灵感来源于 DeepLabV3 中的空洞空间金字塔池化 (Atrous Spatial Pyramid Pooling, ASPP) 和卷积块注意力模块 (Convolutional Block Attention Module, CBAM)。

设输入特征图为 $X \in \mathbb{R}^{C \times H \times W}$ ，输出为 $Y \in \mathbb{R}^{C \times H \times W}$ 。DREAM 模块包含五个并行的卷积操作分支来提取多尺度特征，然后通过通道注意力和空间注意力机制对融合后的特征图进行加权和融合。

4.2.3.1. 多尺度特征提取

这五个分支包括：

$1 \times 1$ 卷积分支： 提取细粒度的局部特征，计算成本最小，不扩展感受野，实现轻量级的通道转换并保留高分辨率空间细节。
三个 $3 \times 3$ 膨胀卷积分支： 膨胀率 (dilation rates) 分别为 6、12 和 18。这些配置通过膨胀操作扩大感受野，捕获中远距离的上下文信息，同时通过适当的填充 (padding) 保持空间分辨率。
全局平均池化 (Global Average Pooling) 分支： 对整个空间维度执行全局平均池化，然后通过一个 $1 \times 1$ 卷积将全局表示投影到所需的通道数。生成的 $1 \times 1$ 特征图通过双线性插值 (bilinear interpolation) 上采样到 $H \times W$ ，以与其他分支的空间维度对齐，并提供全局语义上下文。

设这五个分支的输出特征图分别为 $F_1, F_2, F_3, F_4, F_5 \in \mathbb{R}^{H \times W \times C_i}$ 。它们沿着通道维度进行拼接 (concatenated)，以获得融合特征图 $F$ : $F=\operatorname {Concat}_{e}(F_{1},F_{2},F_{3},F_{4},F_{5}) \quad (1)$ 其中 $\operatorname {Concat}_{e}$ 表示沿着通道维度进行拼接。得到的融合表示 $F \in \mathbb{R}^{H \times W \times C}$ 结合了局部细节和全局上下文信息，其中 $C=\sum _{i=1}^{5}C_{i}$ 。

4.2.3.2. 通道注意力机制

为了自适应地增强重要通道，DREAM 在融合特征图 $F$ 上引入了通道注意力模块。首先，对特征图 $F$ 应用全局平均池化 (Global Average Pooling) 来获得一个通道压缩向量 $z \in \mathbb{R}^{C' \times 1 \times 1}$ （如果拼接后有 $C'$ 个通道）。然后，将 $z$ 依次输入两个全连接层：

第一个全连接层使用 ReLU 激活函数 $\delta(\cdot)$ 降低通道维度到 $C'/r$ （ $r$ 为降维比率）。
第二个全连接层恢复维度到 $C'$ ，并输出一个通道权重向量 $M_c \in \mathbb{R}^{C' \times 1 \times 1}$ 。上述过程可表示为： $M_{c}=\sigma (W_{2}(\delta (W_{1}(z)))) \quad (2)$ 其中 $W_1$ 和 $W_2$ 是全连接层的权重矩阵， $\delta$ 和 $\sigma$ 分别表示 ReLU 和 Sigmoid 激活函数。得到的通道注意力权重 $M_c$ 的每个元素值介于 [0, 1] 之间，表示对应通道的重要性。最后，将权重 $M_c$ 乘回到融合特征图 $F$ 上，实现逐通道的特征重校准 (recalibration)： $F_{c}=F\otimes M_{c} \quad (3)$ 其中符号 $\otimes$ 表示每个通道的元素级乘法。经过通道注意力增强后，特征图 $F_c$ 在关键通道上得到放大，同时抑制不重要通道的信息。

4.2.3.3. 空间注意力机制

DREAM 模块还应用空间注意力机制来突出关键的空间位置。具体来说，对融合特征 $F$ 进行通道维度上的平均池化 (average pooling)，以获得一个二维特征图 $P \in \mathbb{R}^{1 \times H \times W}$ 。这里使用的方法是沿每个通道取平均值：P(i,j)=\frac {1}{C^{\prime }}\sum _{c=1}^{C^{\prime }}F(c,i,j)，计算每个空间位置 (i,j) 的平均响应。接着，通过一个 $1 \times 1$ 卷积对 $P$ 进行线性变换，然后通过 Sigmoid 函数进行归一化，得到空间注意力权重图 $M_s \in \mathbb{R}^{1 \times H \times W}$ ： $M_{s}=\sigma (f^{1\times 1}(P)) \quad (4)$ 其中 $f^{1 \times 1}$ 表示 $1 \times 1$ 卷积操作符， $\sigma$ 将结果映射到 [0, 1] 区间。 $M_s$ 中的每个位置 (i,j) 对应一个空间权重，表示该位置的重要性。然后，将这个权重图扩展以匹配 $F$ 的通道数（在每个位置复制到所有通道），并与原始融合特征图 $F$ 进行元素级乘法： $F_{s}=F\otimes M_{s} \quad (5)$ 这产生了具有增强空间注意力的特征图 $F_s$ 。经过此操作， $F_s$ 在重要的空间位置得到增强，同时抑制了背景或不相关区域的影响。

4.2.3.4. 注意力融合

在获得通道增强特征 $F_c$ 和空间增强特征 $F_s$ 后，DREAM 模块通过执行元素级最大化操作来融合这两个特征，从而充分利用这两种注意力信息。具体而言，我们对 $F_c$ 和 $F_s$ 进行元素级最大化操作（记作 $\mathcal{M}$ ）以合并它们： $Y=\mathcal{M}(F_{c},F_{s}) \quad (6)$ 其中 $\mathcal{M}(a,b)$ 表示元素级选择两个输入张量 $a$ 和 $b$ 中较大的值。对于每个通道中的每个位置，它自适应地选择通道注意力分支或空间注意力分支中响应更强的一个作为输出。

经过 DREAM 模块的多尺度特征精炼和注意力加权对齐，输出 $Y$ 包含了更显著和准确的局部特征信息。

4.2.4. 全局分布对齐 (Global Attribution Alignment)

全局对齐模块旨在实现图像和文本特征在空间表示分布上的一致性。其核心是最大均值差异 (MMD) 损失，并辅以 InfoNCE 对比损失以进一步进行特征对齐。

设图像模态特征集合为 $V=\{v_i\}_{i=1}^N$ 且文本模态特征集合为 $T=\{t_j\}_{j=1}^N$ 。我们使用 MMD 来衡量这两种模态特征分布之间的差异。MMD 通过计算分布均值在再生核希尔伯特空间 (Reproducing Kernel Hilbert Space, RKHS) 中的嵌入距离来衡量分布的不一致性。其定义如下： $\mathrm {MMD}^{2}(V,T)={||\frac {1}{N}\sum _{i=1}^{N}\phi \left(v_{i}\right)-\frac {1}{N}\sum _{j=1}^{N}\phi \left(t_{j}\right)||}_{\mathcal {H}}^{2} \quad (7)$ 其中 $\phi(\cdot)$ 表示在 RKHS 中的映射函数。这个表达式可以等价地转换为核函数形式： $\mathrm{MMD}^2 (V,T) = \frac{1}{N^2}\sum_{i = 1}^{N}\sum_{t'}^{N}k(v_i,v_{t'}) + \frac{1}{N^2}\sum_{j = 1}^{N}\sum_{j' = 1}^{N}k(t_j,t_{j'}) - \frac{2}{N^2}\sum_{i = 1}^{N}\sum_{j = 1}^{N}k(v\bar{u},t_j) \quad (8)$ 其中 $k(\cdot, \cdot)$ 是在输入空间上定义的核函数。本文中使用的高斯核函数定义如下： $k(v,t) = \exp \left(-\frac{\|v - t\|^2}{2\sigma^2}\right) \quad (9)$ 其中 $\sigma$ 是一个核带宽 (kernel bandwidth) 超参数，用于调节特征间距离对相似度计算的敏感性。通过最小化上述 MMD 损失，可以有效缩短图像模态和文本模态在整体分布上的距离，从而实现全局语义对齐。

为了进一步增强表示的一致性，MambaRec 引入了 InfoNCE 对比学习损失作为补充。它通过对比学习增强图文匹配对的相似性，并抑制非匹配对的相似性，其表达式如下： $\mathcal{L}_{\mathrm{Inf_oNCE}} = -\frac{1}{N}\sum_{i = 1}^{N}\log \frac{\exp\left(\sin(v_i,t_i) / \tau\right)}{\sum_{j = 1}^{N}\exp\left(\sin(v_i,t_j) / \tau\right)} \quad (10)$ 其中 $\sin(\cdot, \cdot)$ 是归一化特征向量的点积（通常表示余弦相似度）， $\tau$ 是一个温度 (temperature) 超参数。

最终，全局分布对齐模块的总损失由这两个组件的加权组合构成： $\mathcal{L}_{\mathrm{align}} = \lambda_{\mathrm{mmd}}\cdot \mathcal{L}_{\mathrm{MMD}} + \lambda_{\mathrm{cl}}\cdot \mathcal{L}_{\mathrm{Inf_oNCE}} \quad (11)$ 其中 $\lambda_{\mathrm{mmd}}$ 和 $\lambda_{\mathrm{cl}}$ 分别表示这两个损失项的权重系数，其值由模型配置超参数指定。通过这种联合优化策略，MambaRec 在全局分布级别上实现了跨模态语义表示的对齐和融合。

4.2.5. 多视图编码器 (Multi-View Encoder)

为了在全局对齐之前增强特定模态的表示，MambaRec 采用了一个多视图编码器架构，其灵感来源于先前工作 MGCN [30]。这个编码器处理局部对齐模块 (DREAM) 的输出，生成两个语义丰富的视图：一个视觉视图和一个文本视图。每个视图捕捉模态内的关系和在局部融合过程中可能丢失的互补语义。（注：原文此处未提供关于多视图编码器更具体的细节或公式，但指出其作用是为全局对齐准备更丰富的模态特定表示。）

4.2.6. 预测与优化 (Prediction and Optimization)

在 MambaRec 模型中，对于任意用户 $u$ 和物品 $i$ ，模型会生成其融合表示向量 $e_u^* \in \mathbb{R}^d$ 和 $e_i^* \in \mathbb{R}^d$ 。这两个向量的交互得分通过向量的内积 (inner product) 计算： $\hat{y} (u,i) = (e_u^*)^\top e_i^* \quad (14)$ 模型训练以贝叶斯个性化排序 (Bayesian Personalized Ranking, BPR) [21] 作为基本优化目标。BPR 目标用于表征用户对正样本物品（已交互）和负样本物品（未交互）的偏好排序关系。其损失函数定义为： $\mathcal{L}_{\mathrm{BPR}} = \sum_{(u,i,j)\in O} - \log \sigma (\hat{y}_{ui} - \hat{y}_{uj}) \quad (15)$ 其中 $\sigma(\cdot)$ 表示 Sigmoid 函数， $O = \{(u, i, j)\}$ 表示用户 $u$ 偏好正样本 $i$ 胜过负样本 $j$ 的三元组集合。

为了增强表示学习和跨模态融合的一致性，模型进一步引入了 InfoNCE 对比学习损失 $\mathcal{L}_{\mathrm{cl}}$ 和最大均值差异损失 $\mathcal{L}_{\mathrm{mmd}}$ 作为辅助优化项。同时，引入 $\ell_2$ 正则化 (regularization) 以防止模型过拟合。最终的联合优化目标如下： $\mathcal{L} = \mathcal{L}_{\mathrm{BPR}} + \lambda_{\mathrm{cl}}\cdot \mathcal{L}_{\mathrm{cl}} + \lambda_{\mathrm{mmd}}\cdot \mathcal{L}_{\mathrm{mmd}} + \lambda_{\mathrm{reg}}\cdot \| \Theta \| _2^2 \quad (16)$ 其中 $\Theta$ 表示模型中所有可学习参数的集合， $\lambda_{\mathrm{cl}}, \lambda_{\mathrm{mmd}}, \lambda_{\mathrm{reg}}$ 是对应损失项的权重超参数。

5. 实验设置

5.1. 数据集

为了评估 MambaRec 模型的性能，实验使用了 Amazon 产品评论数据集 (Amazon's product review datasets) 的三个代表性子集：

Baby (婴儿用品)
Sports and Outdoors (运动户外)
Clothing, Shoes and Jewelry (服装、鞋子和珠宝)

这些类别覆盖了不同的消费场景，具有显著的用户行为差异和模式特征多样性。数据集按照 5-core 设置进行过滤，即只保留至少有 5 次交互的用户和至少被 5 个用户交互过的物品。

以下是原文 Table 1 的结果：

Dataset	#User	#Item	#Interaction	Density
Baby	19,445	7,050	160,792	0.117%
Sports	35,598	18,357	296,337	0.045%
Clothing	39,387	23,033	278,677	0.031%

模态特征提取：

视觉模态 (Visual Modality)： 使用预训练的 VGG16 卷积神经网络 [22] 提取 4,096 维视觉特征，随后进行降维处理。
文本模态 (Textual Modality)： 使用 Sentence Transformers [20] 从每个物品的标题 (title)、描述 (descriptions)、类别 (categories) 和品牌 (brand) 的拼接文本中提取 384 维文本嵌入。

5.2. 评估指标

为了公平比较，实验采用与 [7, 30, 34] 相同的评估设置，使用两个广泛应用的指标：Recall@K (召回率@K) 和 NDCG@K (归一化折损累计增益@K)，其中 K 设置为 10 和 20。

5.2.1. Recall@K (召回率@K)

概念定义 (Conceptual Definition): 召回率@K 衡量推荐系统在前 K 个推荐中，用户实际感兴趣的物品有多少被成功推荐。它关注的是系统“找全”用户感兴趣物品的能力，即在所有用户实际互动过的物品中，有多少被包含在推荐列表中。较高的 Recall@K 值表明推荐系统能够发现更多用户可能喜欢的物品。
数学公式 (Mathematical Formula): $\mathrm{Recall@K} = \frac{\sum_{u \in U} |\{\text{推荐给用户 } u \text{ 的前 K 个物品}\} \cap \{\text{用户 } u \text{ 实际互动过的物品}\}|}{\sum_{u \in U} |\{\text{用户 } u \text{ 实际互动过的物品}\}|}$
符号解释 (Symbol Explanation):
- $U$ : 所有用户的集合。
- $\{\text{推荐给用户 } u \text{ 的前 K 个物品}\}$ : 模型为用户 $u$ 推荐的得分最高的 K 个物品的集合。
- $\{\text{用户 } u \text{ 实际互动过的物品}\}$ : 用户 $u$ 在测试集中实际互动过的所有物品的集合。
- $|\cdot|$ : 集合的基数（即集合中元素的数量）。

5.2.2. NDCG@K (Normalized Discounted Cumulative Gain@K, 归一化折损累计增益@K)

概念定义 (Conceptual Definition): NDCG@K 是一种衡量推荐列表排序质量的指标，它不仅考虑了推荐物品的相关性，还考虑了相关物品在推荐列表中的位置。排名靠前的相关物品对 NDCG 值的贡献更大，这体现了排序的重要性。NDCG 值介于 0 到 1 之间，1 表示完美排序。
数学公式 (Mathematical Formula): 首先，计算 DCG@K (Discounted Cumulative Gain, 折损累计增益)： $\mathrm{DCG@K} = \sum_{i=1}^{K} \frac{2^{\mathrm{rel}_i} - 1}{\log_2(i+1)}$ 然后，计算理想的 IDCG@K (Ideal DCG, 理想折损累计增益)，即如果推荐列表是完美排序（所有相关物品都排在最前面，且按相关性从高到低排列）时的 DCG 值： $\mathrm{IDCG@K} = \sum_{i=1}^{K} \frac{2^{\mathrm{rel}_i^{ideal}} - 1}{\log_2(i+1)}$ 最后，NDCG@K 为 DCG@K 除以 IDCG@K，进行归一化： $\mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}$
符号解释 (Symbol Explanation):
- $K$ : 推荐列表的长度。
- $i$ : 推荐列表中物品的位置（排名）。
- $\mathrm{rel}_i$ : 推荐列表中第 $i$ 个物品的相关性得分。在隐式反馈场景中，通常是一个二元值，1 表示用户与该物品发生过互动（相关），0 表示未互动（不相关）。
- $\mathrm{rel}_i^{ideal}$ : 理想情况下，排序最优的推荐列表中第 $i$ 个物品的相关性得分。
- $\log_2(i+1)$ : 对排名靠后的物品进行折扣的因子，排名越靠后，折扣越大。分母中的 $+1$ 是为了避免 $i=1$ 时 $\log_2(1)=0$ 的情况。

5.3. 对比基线

MambaRec 模型与以下最先进 (state-of-the-art, SOTA) 推荐方法进行了比较：

5.3.1. 通用模型 (General Models)

BPR [21]: 经典的基于矩阵分解 (matrix factorization) 的排序优化模型，通过成对排名损失进行优化。
LightGCN [10]: 一个简化版的图卷积网络，通过高效的邻居聚合来建模高阶用户-物品关系。

5.3.2. 多模态模型 (Multimodal Models)

VBPR [9]: 将视觉特征集成到 BPR 框架中，以丰富物品表示。
MMGCN [27]: 通过为每个模态构建交互图并融合图嵌入来提升推荐性能。
GRCN [26]: 通过门控机制精炼图结构，以抑制多模态特征中的噪声。
MGCN [30]: 通过特征融合构建多模态协同图，并使用多视图图卷积进行推荐。
SLMRec (Self-supervised Learning for Multimedia Recommendation) [23]: 利用自监督学习和分层对比学习来增强模态表示的鲁棒性。
FREEDOM [34]: 采用冻结和去噪图结构策略，以减少内存消耗并提高训练稳定性。
LGMRec [7]: 引入局部-全局模态图学习策略，同时建模模态特定和跨模态共享偏好。

5.4. 实现细节

框架： 所有模型均在统一的开源框架 MMRec [33] 上实现。
硬件： GeForce RTX4090 GPU (24 GB 内存)。
优化器： Adam 优化器 [12]。
初始化： 模型参数使用 Xavier [5] 初始化方法。
嵌入维度： 用户和物品的嵌入维度统一设置为 64。
批量大小 (Batch Size)： 2048。
训练轮次 (Epochs)： 最大训练轮次为 1000。
早停 (Early Stopping)： 如果验证集上的 Recall@20 连续 20 轮未提升，则触发早停机制，以防止过拟合。
学习率 (Learning Rate)： 初始学习率为 0.001，每 50 轮衰减 0.96。
正则化： $\ell_2$ 正则化权重 (weight decay) 设置为 $1 \times 10^{-4}$ 。
损失权重：
- 对比学习损失 (contrastive learning loss, $\mathcal{L}_{\mathrm{cl}}$ ) 权重 $\lambda_{\mathrm{cl}}$ 设置为 0.01。
- 最大均值差异 (MMD) 损失 [6] 权重 $\lambda_{\mathrm{mmd}}$ 在 [0.1, 0.15, 0.2] 范围内探索。
- MMD 核带宽 $\sigma$ 在 [1.0, 1.5, 2.0] 范围内探索。
降维因子 (Reduction Factor)： 特征提取过程中应用的降维因子 $r$ 设置为 8，以提高模型效率。
随机种子： 所有基线模型的实现都使用相同的随机种子，以确保结果的可重复性和公平性。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 整体性能 (RQ1)

以下是原文 Table 2 的结果，展示了 MambaRec 模型与各种基线模型在三个数据集上的性能比较。

Datasets	Metrics	General Models		Multimodal Models							MAMBARec
Datasets	Metrics	BPR	LightGCN	VBPR	MMGCN	GCRN	SLMRec	FREEDOM	MGCN	LGMREC	MAMBARec
Baby	Recall@10	0.0382	0.0453	0.0425	0.0424	0.0534	0.0545	0.0627	0.0620	0.0644	0.0660*
	Recall@20	0.0595	0.0728	0.0663	0.0668	0.0831	0.0837	0.0992	0.0964	0.1002	0.1013*
	NDCG@10	0.0214	0.0246	0.0223	0.0223	0.0288	0.0296	0.0330	0.0339	0.0349	0.0363*
	NDCG@20	0.0263	0.0317	0.0284	0.0286	0.0365	0.0371	0.0424	0.0427	0.0440	0.0454*
Sports	Recall@10	0.0417	0.0542	0.0561	0.0386	0.0607	0.0676	0.0717	0.0729	0.0720	0.0763*
	Recall@20	0.0633	0.0837	0.0857	0.0627	0.0922	0.1017	0.1089	0.1106	0.1068	0.1147*
	NDCG@10	0.0232	0.0300	0.0307	0.0204	0.0325	0.0374	0.0385	0.0397	0.0390	0.0416*
	NDCG@20	0.0288	0.0376	0.0384	0.0266	0.0406	0.0462	0.0481	0.0496	0.0480	0.0514*
Clothing	Recall@10	0.0200	0.0338	0.0281	0.0224	0.0428	0.0461	0.0629	0.0641	0.0555	0.0673*
	Recall@20	0.0295	0.0517	0.0410	0.0362	0.0663	0.0696	0.0941	0.0945	0.0828	0.0996*
	NDCG@10	0.0111	0.0185	0.0157	0.0118	0.0227	0.0249	0.0341	0.0347	0.0302	0.0367*
	NDCG@20	0.0135	0.0230	0.0190	0.0153	0.0287	0.0308	0.0420	0.0428	0.0371	0.0449*

从 Table 2 可以得出以下关键发现：

MambaRec 显著超越基线模型： MambaRec 在所有三个数据集（Baby, Sports, Clothing）和所有评估指标（Recall@10/20, NDCG@10/20）上都取得了最佳性能，且通常带有星号标记，表示其优势显著。这验证了其多级模态对齐和融合机制的有效性。
- DREAM 模块通过多尺度膨胀卷积和双重注意力机制，增强了图像和文本模态的细粒度表示。
- MMD 和 InfoNCE 约束了跨模态分布一致性，有效缓解了语义偏差。
- 维度压缩机制在保持表示能力的同时，降低了计算和内存开销。
通用模型表现不足： BPR 和 LightGCN 作为通用推荐模型，完全忽略了多模态内容。这使得它们在处理冷启动和数据稀疏场景时表现不佳，显著落后于多模态模型。VBPR 虽然引入了视觉特征，但其缺乏精细的结构建模能力，性能提升有限。
现有多模态模型面临挑战： MMGCN 和 GRCN 等基于图神经网络的方法虽然融合了图结构和模态特征，但通常采用静态或线性融合策略，难以有效过滤噪声信息。SLMRec、FREEDOM、MGCN 和 LGMRec 等尝试通过自监督或对比学习解决问题，但仍难以完全克服噪声干扰和细粒度信息提取不足的问题。
模态对齐的重要性： 实验结果表明，MambaRec 通过引入局部特征增强和全局分布对齐机制，有效地抑制了模态间的噪声干扰，并实现了更充分、细致的信息提取。DREAM 模块动态增强关键信息并抑制冗余特征，而 MMD 损失则在表示层面减少了跨模态分布差异。两者的协同作用使得 MambaRec 展现出更强的抗干扰能力和最优的推荐性能。

6.1.2. 消融实验 (RQ2)

为了验证 MambaRec 中各个模块的有效性，作者进行了消融实验 (ablation studies)。

6.1.2.1. 对齐模块效果

实验设计了三种变体：

MambaRec： 完整模型。
MambaRec without local feature alignment (w/o LA)： 移除局部特征对齐模块 DREAM。
MambaRec without global distribution alignment (w/o GA)： 移除全局分布对齐模块（即移除 MMD 损失和 InfoNCE 损失）。

下图（原文 Figure 3）展示了消融实验的结果：

分析：
完整 MambaRec 的优越性： 完整的 MambaRec 模型在所有评估指标和数据集上均表现最佳。
局部对齐的重要性： 当移除局部模态对齐模块 (w/o LA) 时，模型性能下降最为显著。这表明 DREAM 模块在表征模态细节和捕捉细粒度局部关联方面至关重要。它确保了不同模态之间语义模式的精准匹配。
全局对齐的贡献： 移除全局分布对齐模块 (w/o GA) 同样导致模型性能下降，尽管幅度可能略小于移除局部对齐模块。这强调了 MMD 和对比损失在确保不同模态整体分布一致性方面的作用，它们有助于减少模态特异性偏差并增强模型的泛化能力。
结论： 局部特征对齐和全局分布对齐模块对于 MambaRec 的整体性能都不可或缺，它们共同协作，实现更有效、鲁棒的多模态融合。

6.1.2.2. 模态效果

为了评估不同模态输入组合的影响，实验比较了以下情况：

Text (仅文本模态输入)
Visual (仅视觉模态输入)

Full (文本和视觉模态均输入)

以下是原文 Table 3 的结果：

Datasets	Modality	R@10	R@20	N@10	N@20

Baby	Text	0.0561	0.0863	0.0307	0.0384
	Visual	0.0485	0.0761	0.0270	0.0341
	Full	0.0660	0.1013	0.0363	0.0454
Sports	Text	0.0685	0.1024	0.0373	0.0460
	Visual	0.0575	0.0852	0.0310	0.0382
	Full	0.0763	0.1147	0.0416	0.0514
Clothing	Text	0.0601	0.0900	0.0327	0.0403
	Visual	0.0406	0.0627	0.0217	0.0273
	Full	0.0673	0.0996	0.0367	0.0449

分析：

多模态融合的优势： 结合文本和视觉模态信息 (Full) 总是能带来最优的推荐性能。这强有力地证明了多模态信息之间的互补性。文本模态能够更好地捕捉物品的语义属性（例如，功能、品牌、描述），而视觉模态则直观地呈现物品的外观特征。两者结合提供了更全面、更丰富的物品表征。
单模态的局限性： 仅依赖单一模态（Text 或 Visual）时，推荐效果会不同程度地下降。在 Baby 和 Sports 数据集上，Text 模态的性能优于 Visual 模态，这可能反映了在这些特定商品类别中，文本描述（如功能、评价）对于用户决策可能比单一视觉信息更为关键。而在 Clothing 数据集上，Full 模态的提升幅度更大，说明视觉信息在服装类商品中也具有重要作用。
结论： 整合不同模态的优势能够有效提升推荐系统的性能，验证了多模态推荐的必要性。

6.1.3. 敏感性分析 (RQ3)

作者对关键超参数进行了敏感性分析，以评估其对模型性能的影响。

6.1.3.1. 对比学习损失权重 $\lambda_{cl}$ 的影响

下图（原文 Figure 4）展示了 $\lambda_{cl}$ 在 Baby 和 Sports 数据集上对 Recall@20 和 NDCG@20 的影响：

fig 4

分析：

最优 $\lambda_{cl}$ 值： 当 $\lambda_{cl}$ 从 $10^{-4}$ 增加到 0.01 时，Recall@20 和 NDCG@20 稳步提升。然而，当 $\lambda_{cl}$ 超过 0.01 时，模型性能显著下降。这表明在两个数据集上， $\lambda_{cl} = 0.01$ 是一个最佳设置。
权重过小或过大的影响：
- $\lambda_{cl}$ 过小：对比信号的作用受限，无法有效提升表示能力，导致模态区分度不足。
- $\lambda_{cl}$ 过大：对比学习辅助任务可能过度主导训练过程，削弱了对推荐主目标的优化效果，引入不必要的偏差或噪声。
结论： 适度的对比损失有助于增强模态表示的一致性和判别性，从而提升模型整体推荐性能。

6.1.3.2. MMD 损失权重 $\lambda_{mmd}$ 的影响

下图（原文 Figure 5）展示了在不同降维因子和 MMD 损失权重 $\lambda_{mmd}$ 组合下，Baby 和 Sports 数据集上的 Recall@20 性能：

fig 5

分析：

适中 $\lambda_{mmd}$ 的重要性： 实验结果显示，在参数空间内存在一个有利的性能区域。降维因子为 8 且 $\lambda_{mmd} = 0.15$ 的组合在两个数据集上均表现良好。
$\lambda_{mmd}$ 过小或过大的影响：
- $\lambda_{mmd}$ 过小：可能导致不同模态特征的对齐不充分，信息融合效率低下。
- $\lambda_{mmd}$ 过大：可能过度强调模态分布的一致性，引入不相关的噪声，从而降低模型的判别能力。
结论： 类似于 $\lambda_{cl}$ ，MMD 损失权重 $\lambda_{mmd}$ 也需要仔细调整，以找到一个平衡点，从而有效地缩小模态间的分布差异，同时避免负面影响。

6.1.3.3. 降维因子 (Reduction Factor) 的影响

下图（原文 Figure 6）展示了在 Baby 和 Sports 数据集上，不同降维因子对 Recall@20、模型参数量（占基线的百分比）和计算时间（占基线的百分比）的影响：

fig 6

分析：

性能与效率的权衡： 随着降维因子的增加，模型参数量和计算时间持续下降。然而，Recall@20 呈现非线性波动模式：在适度压缩水平下，性能下降，但在特定点达到峰值。
最优降维因子： 当降维因子为 8 时，Recall@20 达到了较高水平（甚至在 Sports 数据集上达到峰值），同时模型参数量减少了 30% 以上，计算时间也显著降低。这表明适度的压缩不仅减少了资源消耗，还在一定程度上抑制了过拟合引入的噪声，从而提高了模型的泛化稳定性。
过度压缩的危害： 过高的降维因子虽然能大幅减少参数和时间，但由于表示能力不足，会导致性能显著下降。
结论： 在资源受限的部署场景中，选择一个合理的降维因子至关重要。因子为 8 提供了一个良好的性能与效率平衡点。

6.1.4. 可视化分析 (RQ4)

为了验证 MambaRec 在多模态融合中的有效性，作者将 MambaRec 与经典多模态模型 VBPR 进行对比，使用 t-SNE [25] 将融合特征降维到二维，并通过高斯核密度估计 (Gaussian kernel density estimation, KDE) [24] 可视化其分布。

下图（原文 Figure 7）展示了 Baby 数据集上 VBPR 和 MambaRec 的表示分布：

fig 7 该图像是一个对比图，左侧展示了VBPR融合特征的分布，右侧展示了MambaRec融合特征的分布。下方为角度的密度分布图，左侧为VBPR方法，右侧为MambaRec方法。两者的分布及密度特征可以看出MambaRec在跨模态融合上具有更好的性质。

下图（原文 Figure 8）展示了 Sports 数据集上 VBPR 和 MambaRec 的表示分布：

fig 8 该图像是一个对比图，左侧展示了 VBPR 融合特征的分布情况，右侧展示了 MambaRec 融合特征的分布。下方为两种方法在角度上的密度分布对比，表明 MambaRec 在特征融合质量上具有更优的表现。

在 Figure 7 和 Figure 8 中，Baby 数据集以红色表示，Sports 数据集以蓝色表示。

分析：

VBPR 的表示退化问题： 从可视化结果可以看出，VBPR 模型的嵌入分布显示出明显的特征聚类 (feature clustering) 和多模态集中 (multi-modal concentration) 模式。这意味着该模型在处理多模态特征时存在表示退化 (representation degradation) 问题 [4, 19]。不同语义类别的信息集中在嵌入空间的重叠区域，使得有效区分变得困难。
MambaRec 的优越性： 相比之下，MambaRec 具有更均匀的嵌入分布、更广泛的覆盖范围和更平滑的核密度估计 (KDE) 曲线。这表明 MambaRec 学习到的表示更具区分度 (discriminative)。
结论： MambaRec 的模态对齐机制不仅从根本上缓解了传统方法中容易出现的语义退化和模态重叠问题，而且在表达能力和表示结构方面显著提高了多模态推荐系统的整体性能。这有力地验证了 MambaRec 模型的有效性和优越性。

7. 总结与思考

7.1. 结论总结

本论文提出了 MambaRec，一个新颖的多模态推荐框架，旨在解决现有方法在细粒度跨模态关联建模不足和全局分布级别一致性缺乏的问题。MambaRec 的核心创新点包括：

局部特征对齐： 引入了膨胀精炼注意力模块 (DREAM)，该模块利用多尺度膨胀卷积以及通道注意力和空间注意力机制，有效地对齐视觉和文本模态之间的细粒度语义模式，从而缓解了模态异构性导致的融合挑战。
全局分布正则化： 整合了最大均值差异 (MMD) 损失和 InfoNCE 对比损失，以约束全局模态对齐，增强跨模态的语义一致性。这种双重正则化策略有效减少了特定模态的偏差并提升了模型的鲁棒性。
维度优化： 设计了专门的维度降低策略，显著降低了高维多模态特征的内存消耗和计算成本，提高了模型的可扩展性和部署效率。

在真实世界电子商务数据集上的广泛实验表明，MambaRec 在融合质量、泛化能力和效率方面均优于现有的最先进方法。消融研究和敏感性分析进一步验证了 MambaRec 各组件的有效性和超参数选择的重要性。可视化分析也证实了 MambaRec 能学习到更具区分度的物品表示，有效避免了表示退化问题。

7.2. 局限性与未来工作

论文作者指出了 MambaRec 的一个潜在未来研究方向：

扩展到更复杂的模态： 当前工作主要关注视觉和文本模态。未来可以探索将 MambaRec 扩展到处理视频和音频等更复杂、更高维的多模态数据。

7.3. 个人启发与批判

7.3.1. 个人启发

“局部对齐 + 全局对齐”范式的重要性： MambaRec 提出的结合局部细粒度对齐和全局分布正则化的双重对齐范式是一个非常有价值的思路。它解决了多模态融合中两个不同粒度层面的关键挑战，即如何精准匹配局部语义和如何保持整体分布一致。这种范式具有很强的通用性，可以启发其他多模态任务（如多模态检索、多模态生成）的设计。
DREAM 模块的巧妙设计： DREAM 模块结合了膨胀卷积和注意力机制的优势。膨胀卷积扩大感受野，捕获多尺度上下文，而注意力机制则能动态地聚焦于关键特征，实现了高效且精细的局部语义对齐。这种模块化的设计易于集成到现有架构中。
MMD 在推荐领域的应用： 将 MMD 损失引入推荐系统进行模态分布对齐是一个新颖且有效的方法。MMD 能够从统计学角度直接度量分布差异，补充了对比学习在拉近正样本方面的作用，对于解决模态偏差和表示退化问题提供了强有力的理论支撑。
工程效率的考量： 维度优化策略的引入显示了作者在模型实际部署方面的考量。在大规模推荐场景中，高维特征带来的内存和计算开销是真实存在的挑战。在保证性能的前提下进行有效降维，对于提升模型实用性至关重要。

7.3.2. 潜在的问题、未经验证的假设或可以改进的地方

多视图编码器的细节缺失： 论文在“多视图编码器”部分仅提及其灵感来源于 MGCN，并处理 DREAM 输出以生成视觉和文本视图。但并未提供其具体架构、如何增强特定模态表示的细节，也未在消融实验中独立评估其贡献。这使得这一组件的实际作用和设计选择不够清晰。未来的工作可以更详细地阐述这一部分，并进行相应的消融分析。
超参数敏感性： 尽管进行了敏感性分析，但 $\lambda_{\mathrm{cl}}$ 和 $\lambda_{\mathrm{mmd}}$ 两个损失权重的最佳值仍然需要手动调整。在实践中，如何更鲁棒或自适应地确定这些权重是一个挑战。未来的研究可以探索自适应权重调整机制，例如通过多任务学习或元学习来动态优化这些超参数。
核函数的选择与 MMD 的计算成本： MMD 的计算成本通常与样本数量的平方成正比，特别是当使用核函数时。虽然论文提到了维度优化，但大规模数据集上 MMD 的计算效率仍可能是一个瓶颈。未来可以研究更高效的 MMD 近似算法或其变体，以进一步提高可扩展性。
模态间的复杂交互建模： DREAM 模块主要关注视觉和文本特征的融合，但更复杂的模态间交互（例如，图像中特定对象与文本中描述的动词之间的关系）可能需要更高级的建模方式，例如基于图注意力或更复杂的跨模态 Transformer 结构。
长尾物品和冷启动物品的专门处理： 尽管多模态信息有助于缓解冷启动问题，但对于长尾 (long-tail) 物品和极度冷启动的场景，MambaRec 的性能如何，以及是否需要结合其他专门的策略（如元学习、少样本学习）来进一步提升，是值得探讨的方向。
时间敏感性： 论文发布时间为 2025 年 9 月，这通常意味着它是一个预印本。在最终发表时，其方法或实验细节可能会有所调整。在学术研究中，对预印本内容的引用需要保持谨慎。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 38 分钟读完 · 23,612 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

1.7. PDF 链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 问题表述

4.2.2. 维度优化 (Dimensionality Optimization)

4.2.3. 局部特征对齐 (Local Feature Alignment)

4.2.3.1. 多尺度特征提取

4.2.3.2. 通道注意力机制

4.2.3.3. 空间注意力机制

4.2.3.4. 注意力融合

4.2.4. 全局分布对齐 (Global Attribution Alignment)

4.2.5. 多视图编码器 (Multi-View Encoder)

4.2.6. 预测与优化 (Prediction and Optimization)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.2.1. Recall@K (召回率@K)

5.2.2. NDCG@K (Normalized Discounted Cumulative Gain@K, 归一化折损累计增益@K)

5.3. 对比基线

5.3.1. 通用模型 (General Models)

5.3.2. 多模态模型 (Multimodal Models)

5.4. 实现细节

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 整体性能 (RQ1)

6.1.2. 消融实验 (RQ2)

6.1.2.1. 对齐模块效果

6.1.2.2. 模态效果

6.1.3. 敏感性分析 (RQ3)

6.1.3.1. 对比学习损失权重 λcl\lambda_{cl}λcl​ 的影响

6.1.3.2. MMD 损失权重 λmmd\lambda_{mmd}λmmd​ 的影响

6.1.3.3. 降维因子 (Reduction Factor) 的影响

6.1.4. 可视化分析 (RQ4)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 潜在的问题、未经验证的假设或可以改进的地方

相似论文推荐

6.1.3.1. 对比学习损失权重 $\lambda_{cl}$ 的影响

6.1.3.2. MMD 损失权重 $\lambda_{mmd}$ 的影响