AiPaper
论文状态:已完成

MMQ-v2: Align, Denoise, and Amplify: Adaptive Behavior Mining for Semantic IDs Learning in Recommendation

发表:2025/10/29
原文链接PDF 下载
价格:0.10
价格:0.10
已有 18 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

MMQ-v2提出了自适应行为-内容对齐、去噪和放大机制,有效解决了推荐系统中长尾物品行为噪声和信号模糊问题,提升了语义ID的表达能力和泛化性能。实验证明其在大规模工业数据集上的推荐任务表现优越。

摘要

Industrial recommender systems rely on unique Item Identifiers (ItemIDs). However, this method struggles with scalability and generalization in large, dynamic datasets that have sparse long-tail data. Content-based Semantic IDs (SIDs) address this by sharing knowledge through content quantization. However, by ignoring dynamic behavioral properties, purely content-based SIDs have limited expressive power. Existing methods attempt to incorporate behavioral information but overlook a critical distinction: unlike relatively uniform content features, user-item interactions are highly skewed and diverse, creating a vast information gap in quality and quantity between popular and long-tail items. This oversight leads to two critical limitations: (1) Noise Corruption: Indiscriminate behavior-content alignment allows collaborative noise from long-tail items to corrupt their content representations, leading to the loss of critical multimodal information. (2)Signal Obscurity: The equal-weighting scheme for SIDs fails to reflect the varying importance of different behavioral signals, making it difficult for downstream tasks to distinguish important SIDs from uninformative ones. To tackle these issues, we propose a mixture-of-quantization framework, MMQ-v2, to adaptively Align, Denoise, and Amplify multimodal information from content and behavior modalities for semantic IDs learning. The semantic IDs generated by this framework named ADA-SID. It introduces two innovations: an adaptive behavior-content alignment that is aware of information richness to shield representations from noise, and a dynamic behavioral router to amplify critical signals by applying different weights to SIDs. Extensive experiments on public and large-scale industrial datasets demonstrate ADA-SID's significant superiority in both generative and discriminative recommendation tasks.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

MMQ-v2: Align, Denoise, and Amplify: Adaptive Behavior Mining for Semantic IDs Learning in Recommendation (MMQ-v2: 对齐、去噪和放大:推荐系统中语义ID学习的自适应行为挖掘)

1.2. 作者

  • Yi Xu (阿里巴巴国际数字商务集团, 中国北京)
  • Moyu Zhang (阿里巴巴国际数字商务集团, 中国北京)
  • Chaofan Fan (阿里巴巴国际数字商务集团, 中国北京)
  • Jinxin Hu (阿里巴巴国际数字商务集团, 中国北京)
  • Xiaochen Li (阿里巴巴国际数字商务集团, 中国北京)
  • Yu Zhang (阿里巴巴国际数字商务集团, 中国北京)
  • Xiaoyi Zeng (阿里巴巴国际数字商务集团, 中国北京)
  • Jing Zhang (武汉大学计算机学院, 中国武汉)

1.3. 发表期刊/会议

根据摘要,该论文计划发表于 ACM 会议论文集,具体会议名称待定("Make sure to enter the correct conference title from your rights confirmation email (Conference acronym 'XX)")。这表明它是一篇预印本,可能正在投稿或已接受但尚未最终发布。

1.4. 发表年份

2025年 (根据发布时间 UTC:2025-10-29T15:27:23.000Z 推断)

1.5. 摘要

工业推荐系统依赖于独特的物品标识符 (ItemIDs)。然而,在大规模、动态且包含稀疏长尾数据的场景中,这种方法在可扩展性和泛化能力方面面临挑战。基于内容的语义ID (SIDs) 通过内容量化共享知识来解决这一问题。然而,由于忽略了动态行为属性,纯粹基于内容的 SIDs 表达能力有限。现有方法尝试整合行为信息,但却忽略了一个关键区别:与相对统一的内容特征不同,用户-物品互动高度倾斜和多样化,在流行物品和长尾物品之间造成了质量和数量上的巨大信息鸿沟。这种疏忽导致了两个关键局限:(1) 噪声污染 (Noise Corruption):不加区分的行为-内容对齐使得来自长尾物品的协同噪声污染了其内容表示,导致关键多模态信息丢失。(2) 信号模糊 (Signal Obscurity):语义ID的等权重方案未能反映不同行为信号的重要性差异,使得下游任务难以区分重要和无信息量的语义ID。为了解决这些问题,我们提出了一种混合量化框架 MMQ-v2,以自适应地对齐 (Align)去噪 (Denoise)放大 (Amplify) 来自内容和行为模态的多模态信息,用于语义ID学习。该框架生成的语义ID命名为 ADA-SID。它引入了两项创新:一项是自适应行为-内容对齐,该对齐感知信息丰富度以保护表示免受噪声影响;另一项是动态行为路由器,通过对语义ID施加不同权重来放大关键信号。在公共和大规模工业数据集上进行的大量实验证明了 ADA-SID 在生成式和判别式推荐任务中的显著优越性。

1.6. 原文链接

  • 原文链接: https://arxiv.org/abs/2510.25622 (arXiv 预印本)
  • PDF 链接: https://arxiv.org/pdf/2510.25622v2.pdf (arXiv 预印本)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

工业推荐系统在处理大规模、动态且包含稀疏长尾数据的物品时,传统上使用的独特物品标识符 (ItemIDs) 存在可扩展性和泛化能力不足的问题。虽然基于内容的语义ID (SIDs) 通过内容量化(content quantization)共享知识在一定程度上缓解了这个问题,但它们忽视了物品的动态行为属性(如流行度演变、风格变化、特定用户群偏好),导致表达能力受限。现有尝试结合行为信息的方法,未能充分考虑到用户-物品互动的高度倾斜和多样化特性,即流行物品与长尾物品在行为数据量和质量上存在巨大差异。

2.1.2. 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白?

随着推荐系统规模的扩大和物品集合的动态变化,ItemIDs 的固有局限性愈发突出。SIDs 作为一种解决方案,旨在通过为相似物品分配相似标识符来提升泛化能力。然而,如果 SIDs 仅基于静态内容,它们无法捕捉物品随时间演变的动态特性和用户行为反馈,从而限制了推荐性能的天花板。

现有结合行为信息的方法面临的主要挑战和空白是:

  1. 行为数据的高度倾斜与多样性 (Highly Skewed and Diverse Behavioral Data):流行物品拥有丰富而多样的用户交互数据,而长尾物品则交互稀疏且噪音较多。现有方法往往对所有物品一视同仁地进行行为-内容对齐。
  2. 噪声污染 (Noise Corruption):对长尾物品进行不加区分的行为-内容对齐,可能引入来自稀疏交互的协同噪声,从而损害其可靠的内容表示,导致关键多模态信息丢失。
  3. 信号模糊 (Signal Obscurity):现有方法中 SIDs 的等权重方案无法区分不同行为信号的重要性。这意味着下游推荐模型在处理 SIDs 时,难以有效识别和利用那些真正重要的行为信号,从而影响推荐的准确性。

2.1.3. 这篇论文的切入点或创新思路

本论文的切入点在于,认识到流行物品和长尾物品的行为信息质量和数量存在巨大差异,并在此基础上提出一种自适应 (adaptive) 的机制来融合行为和内容信息,而非简单地进行统一对齐。其核心创新思路是构建一个能根据物品行为信息丰富度来自适应地对齐 (Align)去噪 (Denoise)放大 (Amplify) 多模态信息的框架。

2.2. 核心贡献/主要发现

论文的主要贡献体现在以下几个方面:

  1. 首次定制化多模态语义ID学习 (First to Customize Multimodal SIDs Adaptively):据作者所知,该工作首次根据物品协同信号的信息丰富度 (information richness) 来定制行为-内容多模态语义ID(multimodal SIDs),增强了 SIDs 的表达能力并提升了下游推荐任务的泛化性能。
  2. 自适应行为-内容对齐机制 (Adaptive Behavior-Content Alignment Mechanism):提出了一种动态校准行为-内容对齐强度的机制,能够为长尾物品减轻噪声污染,同时为流行物品保留多样化的行为信息。
  3. 动态行为路由器 (Dynamic Behavioral Router):提出了一种动态行为路由器,能够学习为物品的行为 SIDs 集合分配自适应权重,从而有效放大关键的协同信号。
  4. 广泛的实验验证 (Extensive Experimental Validation):在公共和大规模工业数据集上进行了大量的离线实验和在线 A/B 测试,验证了 ADA-SID 在生成式和判别式推荐任务中的有效性、可扩展性和通用性。在线实验显示,广告收入 (Advertising Revenue) 增长了 +3.50%,点击率 (Click-Through Rate, CTR) 增长了 +1.15%。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 MMQ-v2 及其提出的 ADA-SID 框架,以下是一些重要的基础概念:

  • 物品标识符 (ItemIDs):在传统推荐系统中,每个物品都有一个唯一的、离散的数字或字符串作为标识符。这种方法简单直观,但面临可扩展性和泛化能力的挑战,尤其是在物品数量巨大、动态变化或存在大量冷启动/长尾物品时。
  • 语义ID (Semantic IDs, SIDs):与 ItemIDs 不同,SIDs 旨在通过内容量化(content quantization)将物品的高维连续特征(如图像、文本等)编码成一系列离散的语义代码。相似的物品会拥有相似的 SIDs,从而实现知识共享和更好的泛化能力,尤其是在处理新物品和长尾物品时。
  • 多模态信息 (Multimodal Information):指从多个不同类型的数据源获取的信息。在推荐系统中,通常包括:
    • 内容模态 (Content Modality):物品的静态描述性特征,如文本(标题、描述、标签)、视觉(图片、视频)等。
    • 行为模态 (Behavior Modality):用户与物品的动态交互历史,如点击、购买、浏览、评分等。
  • 向量量化 (Vector Quantization, VQ):一种将连续向量空间中的点映射到有限集合中的离散“码字”(codewords)的方法。在推荐系统中,常用于将高维的物品嵌入向量量化为离散的 SIDsVQ 的目标是找到一个码本(codebook)和一个编码函数,使得原始向量能够被其最近的码字(或一组码字)很好地近似。
  • 残差量化 (Residual Quantization, RQ)RQ 是一种高级的向量量化技术,它通过多阶段量化来提高量化精度。在每个阶段,它量化前一阶段的残差(即原始向量与前一阶段量化结果的差异),直到达到期望的精度或 SID 序列长度。RQ-VAE 是结合了 RQVAE (变分自编码器) 的一种模型,用于生成分层或序列化的 SIDs
  • 对比学习 (Contrastive Learning):一种自监督学习范式,通过最大化“正样本对”(positive pairs,通常是同一数据点的不同视图或相似数据点)之间的相似性,同时最小化“负样本对”(negative pairs,通常是不同数据点)之间的相似性来学习有效的表示。
  • 长尾物品 (Long-tail Items):指那些在推荐系统中互动频率非常低、数据稀疏的物品。这些物品通常占物品总数的大多数,但贡献的交互量很少。为这些物品提供准确的推荐是推荐系统的一个重要挑战。
  • 流行物品 (Popular Items):指那些互动频率高、数据丰富的物品。这些物品通常拥有大量的用户交互数据,但如何捕捉其复杂多样的行为模式也是一个挑战。

3.2. 前人工作

本研究将 MMQ-v2 及其 ADA-SID 与现有最先进的 Semantic ID 生成方法进行了比较,这些方法大致分为两类:

3.2.1. 基于内容的语义ID (Content-based SIDs)

这类方法主要依赖物品的静态内容特征来生成 SIDs,不直接考虑用户行为。

  • RQ-VAE (Residual Quantization Variational Autoencoder)TIGER [22] 等工作开创性地将标题、描述、类别等内容特征转换为文本嵌入,并使用 RQ-VAE 将这些嵌入量化为分层 SIDsRQ-VAE 的基本思想是逐步对原始特征向量的残差进行量化,从而生成一个序列化的 SID
    • RQ-VAE核心思想
      1. 编码器 (Encoder):将输入(如物品内容特征)编码为连续的潜在表示 zz
      2. 残差量化 (Residual Quantization)
        • 在第一个阶段,潜在表示 zz 被量化为一个码字 c1c_1
        • 计算残差 r1=zc1r_1 = z - c_1
        • 在第二个阶段,残差 r1r_1 被量化为第二个码字 c2c_2
        • 计算新的残差 r2=r1c2r_2 = r_1 - c_2,依此类推。
        • 最终得到一个由 LL 个码字组成的序列 (c1,c2,,cL)(c_1, c_2, \ldots, c_L) 作为物品的 SID
      3. 解码器 (Decoder):将量化后的 SID 序列(或其聚合表示)解码回原始特征空间,目标是最小化重建误差。
      4. 变分自编码器 (Variational Autoencoder, VAE):通常 RQ-VAE 会集成 VAE 的变分推断机制,以确保潜在空间具有良好的正则化属性,从而生成更具语义意义的 SIDs
  • OPQ (Optimized Product Quantization)RPG [25] 引入 OPQ 将预训练的文本嵌入转换为无序的 SIDs 元组。OPQProduct Quantization (PQ) 的优化版本,它在量化之前对数据进行旋转,以更好地适应数据的分布,从而提高量化精度。

3.2.2. 行为-内容对齐的语义ID (Behavior-Content Aligned SIDs)

这类方法旨在将动态用户行为信息与静态内容信息相结合,以生成更全面的 SIDs。它们可以进一步细分为:

  • 注入显式协同信号 (Injecting Explicit Collaborative Signals)
    • LCRec [31]:设计了一系列对齐任务来统一语义信息和协同信息。
    • ColaRec [32]:直接从预训练的推荐模型中提取协同信号,并将其与内容信息结合。
    • IDGenRec [34]:利用大型语言模型(LLMs)生成语义丰富的文本标识符,在零样本(zero-shot)设置中展现出强大潜力。
  • 对齐预训练表示 (Aligning Pre-trained Representations)
    • EAGER [30]:使用 K-means 在预训练嵌入上生成单独的协同和内容 SIDs,然后在下游任务中进行对齐。
    • DAS [42]:采用多视图对比学习(multi-view contrastive learning)来最大化 SIDs 和协同信号之间的互信息,利用 RQ-VAE 生成分层、行为感知的内容 SIDs
    • LETTER [27]:整合了分层语义、协同信号和代码分配多样性,使用 RQ-VAE 生成行为-内容融合的 SIDs
    • MM-RQ-VAE [17]:使用预训练的协同嵌入和多模态嵌入生成协同 SIDs、文本 SIDs 和视觉 SIDs,并引入对比学习进行行为-内容对齐。
    • RQ-VAE++:本论文中引入的基线模型,它为 RQ-VAE 引入了预训练的内容表示和预训练的协同表示,以评估协同信息的重要性。它为每个物品生成协同、文本和视觉 SIDs

3.3. 差异化分析

ADA-SID 与上述相关工作的主要区别和创新点在于:

  • 自适应性 (Adaptiveness):现有的行为-内容对齐方法大多采用“一刀切”的方式,对所有物品进行无差别对齐。ADA-SID 认识到流行物品和长尾物品的行为信息质量和数量存在巨大差异,首次引入了自适应行为-内容对齐 (adaptive behavior-content alignment) 机制。

  • 噪声处理 (Noise Handling):针对长尾物品稀疏且嘈杂的行为信号,ADA-SID 引入对齐强度控制器 (alignment strength controller),根据物品的信息丰富度 (information richness) 来调整对齐强度,从而去噪 (denoise),防止协同噪声污染其内容表示。

  • 信号放大 (Signal Amplification):针对 SIDs 的等权重问题,ADA-SID 引入动态行为路由器 (dynamic behavioral router),根据行为信号的重要性分配不同的权重,从而放大 (amplify) 关键的协同信号,提高下游模型识别有效信息的能力。

  • 混合量化网络 (Mixture-of-Quantization Network)ADA-SID 采用共享专家和特定专家相结合的混合量化网络,能够同时捕获行为-内容共享信息和模态特定信息,生成多视图 SIDs

    简而言之,ADA-SID 的核心优势在于其信息丰富度感知 (information richness aware) 的自适应融合策略,能够更精细化地处理不同物品的行为数据特性,从而在噪声过滤和信号强化方面超越了以往的统一对齐或简单融合方法。

4. 方法论

本节将详细阐述 ADA-SID 框架的构成,该框架旨在自适应地对齐 (Align)去噪 (Denoise)放大 (Amplify) 多模态信息,以学习语义ID。

4.1. 方法原理

ADA-SID 的核心思想是解决现有语义ID学习方法在处理推荐系统物品时,未能充分考虑行为信息(behavioral information)与内容信息(content information)之间固有的不平衡和差异性。特别是,用户-物品交互的高度倾斜(即流行物品行为丰富而长尾物品行为稀疏且嘈杂)导致了噪声污染和信号模糊问题。

为了解决这些问题,ADA-SID 提出了一个行为-内容混合量化网络 (behavior-content mixture-of-quantization network),它能够同时捕捉共享信息和模态特定信息,并生成并行的、多视图的语义ID。其主要原理包括:

  1. 自适应行为-内容对齐 (Adaptive Behavior-Content Alignment):通过对齐强度控制器 (Alignment Strength Controller) 根据物品行为信息的丰富程度,动态调整行为模态与内容模态之间的对齐强度。对于信息稀疏的长尾物品,降低对齐强度以防止噪声污染其内容表示;对于信息丰富的流行物品,则加强对齐以充分融合其多样的行为模式。
  2. 动态行为路由器 (Dynamic Behavioral Router):引入一个学习型的门控机制,根据行为信息的丰富程度为不同的行为语义ID分配重要性权重。这使得模型能够放大 (Amplify) 关键的协同信号,同时衰减 (attenuate) 无信息量的信号,从而提高下游任务的推荐性能。

4.2. 核心方法详解

ADA-SID 框架如图2所示(原文 Figure 2)。

以下是原文 Figure 2 的结果:

该图像是MMQ-v2论文中ADA-SID框架的示意图,展示了视觉、协同过滤和文本编码器通过专家量化器模块以及动态行为路由器进行自适应行为-内容对齐、去噪及信号放大的流程。图中包含行为内容对齐的加权公式 \(\\sigma(w \\cdot x - b) / \\sigma(w - b)\)。 该图像是MMQ-v2论文中ADA-SID框架的示意图,展示了视觉、协同过滤和文本编码器通过专家量化器模块以及动态行为路由器进行自适应行为-内容对齐、去噪及信号放大的流程。图中包含行为内容对齐的加权公式 σ(wxb)/σ(wb)\sigma(w \cdot x - b) / \sigma(w - b)

图2展示了 ADA-SID 的整体框架,包括视觉、协同过滤和文本编码器,以及随后的专家量化器模块和动态行为路由器。整个流程旨在实现自适应行为-内容对齐、去噪和信号放大。

4.2.1. 问题形式化 (Problem Formulation)

物品分词器(item tokenizer)旨在将每个物品的预训练文本、视觉和行为嵌入(pretrained textual, visual, and behavioral embeddings)量化为一系列离散的语义ID。 形式上,对于给定物品,首先利用预训练的视觉和文本嵌入模型获得其预训练的视觉嵌入 eυ\mathbf { e } _ { \upsilon } 和预训练的文本嵌入 et\mathbf { e } _ { t }。预训练的行为嵌入 eb\mathbf { e } _ { b } 则通过 SASRec 模型从协同信号中获得。 物品分词器 Titem\mathcal { T } _ { \mathrm { i t e m } } 随后将这些高维嵌入量化为离散的 SIDs 序列:

Semantic_IDs=(c1,c2,,cl)=Titem([et,ev,eb]) Semantic\_IDs = ( c _ { 1 } , c _ { 2 } , \ldots , c _ { l } ) = { \mathcal { T } } _ { \mathrm { i t e m } } ( [ \mathbf { e } _ { t } , \mathbf { e } _ { v } , \mathbf { e } _ { b } ] )

符号解释:

  • Semantic_IDsSemantic\_IDs: 物品生成的一系列语义ID。
  • ll: 语义ID序列的长度。
  • cic_i: 序列中的第 ii 个语义ID。
  • Titem\mathcal { T } _ { \mathrm { i t e m } }: 物品分词器,用于将嵌入转换为语义ID。
  • et\mathbf { e } _ { t }: 物品的预训练文本嵌入。
  • ev\mathbf { e } _ { v }: 物品的预训练视觉嵌入。
  • eb\mathbf { e } _ { b }: 物品的预训练行为嵌入。

4.2.2. 行为-内容混合量化网络 (Behavior-Content Mixture-of-Quantization Network)

为了同时捕捉行为-内容共享信息和模态特定信息,ADA-SID 提出了一个行为-内容混合量化网络。该网络包含共享专家(Shared Experts)和特定专家(Specific Experts)。

4.2.2.1. 共享专家 (Shared Experts)

共享专家旨在将对齐后的行为-内容信息量化为共享的潜在嵌入,进而生成共享语义ID。对于给定的物品,其预训练的文本、视觉和行为嵌入首先通过小型两层深度神经网络(two-layer deep neural networksD _ { t } , D _ { v } , D _ { b } 投影到统一的高维空间。这些隐藏表示记作 ht,hv,hb\mathbf { h } _ { \mathbf { t } } , \mathbf { h } _ { \mathbf { v } } , \mathbf { h } _ { \mathbf { b } }

ht=Dt(et),hv=Dv(ev),hb=Db(eb) \mathbf { h } _ { \mathbf { t } } = D _ { t } ( \mathbf { e } _ { \mathbf { t } } ) , \mathbf { h } _ { \mathbf { v } } = D _ { v } ( \mathbf { e } _ { \mathbf { v } } ) , \mathbf { h } _ { \mathbf { b } } = D _ { b } ( \mathbf { e } _ { \mathbf { b } } )

这些隐藏表示随后被连接起来形成一个融合表示 h\mathbf { h }

h=[ht,hv,hb] \mathbf { h } = [ \mathbf { h _ { t } } , \mathbf { h _ { v } } , \mathbf { h _ { b } } ]

为了学习对齐后的行为-内容信息,这些投影后的隐藏表示通过自适应行为-内容对齐机制 (adaptive behavior-content alignment mechanism) 进行优化(详见下文 3.3 节)。对于第 ii 个共享专家 E _ { s , i },隐藏表示 h\mathbf { h } 被编码为共享潜在嵌入 zs,i\mathbf { z } _ { s , i } 并量化为离散语义ID。码本 Cs,i={zqk}k=1KC _ { s , i } = \{ z _ { q _ { k } } \} _ { k = 1 } ^ { K } 包含 KK 个码字,其中 i{1,...,Ns}i \in \{ 1 , . . . , N _ { s } \}NsN_s 表示共享专家的数量。通过最大化 zs,i\mathbf { z } _ { s , i }C _ { s , i } 中所有码字之间的余弦距离来搜索最相似的码字:

zs,i=Es,i(h) \mathbf { z } _ { s , i } = E _ { s , i } ( \mathbf { h } )

cs,i=argmaxj{1,,K} zs,izq,jzs,izq,j,i=1,,Ns c _ { s , i } = \underset { j \in \{ 1 , \ldots , K \} } { \arg \operatorname* { m a x } } \ \frac { \mathbf { z } _ { s , i } ^ { \top } \mathbf { z } _ { q , j } } { \left\| \mathbf { z } _ { s , i } \right\| \left\| \mathbf { z } _ { q , j } \right\| } , \qquad i = 1 , \ldots , N _ { s }

符号解释:

  • Dt,Dv,DbD_t, D_v, D_b: 用于将预训练嵌入投影到统一高维空间的两层深度神经网络。
  • ht,hv,hb\mathbf { h } _ { \mathbf { t } } , \mathbf { h } _ { \mathbf { v } } , \mathbf { h } _ { \mathbf { b } }: 文本、视觉、行为嵌入经过投影后的隐藏表示。
  • h\mathbf { h }: 文本、视觉、行为隐藏表示的拼接。
  • E _ { s , i }: 第 ii 个共享专家编码器。
  • zs,i\mathbf { z } _ { s , i }: 第 ii 个共享专家生成的共享潜在嵌入。
  • c _ { s , i }: 第 ii 个共享专家量化后得到的离散语义ID。
  • C _ { s , i }: 第 ii 个共享专家对应的码本,包含 KK 个码字 {zqk}\{ z_{q_k} \}
  • NsN_s: 共享专家的数量。
  • KK: 码本的大小。
  • zq,j\mathbf { z } _ { q , j }: 码本 Cs,iC_{s,i} 中的第 jj 个码字。

4.2.2.2. 特定专家 (Specific Experts)

特定专家旨在学习每个模态的特定信息,并生成模态特定的语义ID。每个模态都有一组模态特定专家及其对应的码本。例如,专家集 {Et,i}i=1Nt\{ E _ { t , i } \} _ { i = 1 } ^ { N _ { t } } 将预训练的 et\mathbf { e } _ { t } 转换为潜在表示 {zt,i}i=1Nt\{ \mathbf { z } _ { t , i } \} _ { i = 1 } ^ { N _ { t } },然后从码本 {Ct,i}i=1Nt\{ C _ { t , i } \} _ { i = 1 } ^ { N _ { t } } 中使用余弦距离搜索对应的语义ID {ct,i}i=1Nt\{ c _ { t , i } \} _ { i = 1 } ^ { N _ { t } ^ { - } }。视觉和行为模态的潜在表示类似地记作 {zv,i}i=1Nv,{zb,i}i=1Nb\{ \mathbf { z } _ { v , i } \} _ { i = 1 } ^ { N _ { v } } , \{ \mathbf { z } _ { b , i } \} _ { i = 1 } ^ { N _ { b } },对应的量化语义ID为 {cv,i}i=1Nv,{cb,i}i=1Nb\{ c _ { v , i } \} _ { i = 1 } ^ { N _ { v } } , \{ c _ { b , i } \} _ { i = 1 } ^ { N _ { b } },从码本 {zqv,i}i=1Nv,{zqb,i}i=1Nb\{ z _ { q _ { v , i } } \} _ { i = 1 } ^ { N _ { v } } , \{ z _ { q _ { b , i } } \} _ { i = 1 } ^ { N _ { b } } 中搜索。

zt,i=Et,i(et),zv,i=Ev,i(eb),zb,i=Et,i(eb) \mathbf { z } _ { t , i } = E _ { t , i } ( \mathbf { e } _ { t } ) , \mathbf { z } _ { v , i } = E _ { v , i } ( \mathbf { e } _ { b } ) , \mathbf { z } _ { b , i } = E _ { t , i } ( \mathbf { e } _ { b } )

注: 原文此处公式中存在明显的类型错误。根据上下文,第二个公式应为 zv,i=Ev,i(ev)\mathbf { z } _ { v , i } = E _ { v , i } ( \mathbf { e } _ { v } ) (视觉嵌入),第三个公式应为 zb,i=Eb,i(eb)\mathbf { z } _ { b , i } = E _ { b , i } ( \mathbf { e } _ { b } ) (行为嵌入)。我将严格按照原文提供,但在此处特别指出。

解码器随后从融合的潜在表示 z\mathbf z 和码字表示 zq\mathbf z _ { \mathbf q } 重建融合的预训练嵌入 e=[et,ev,eb]\mathbf e = [ \mathbf e _ { \mathbf t } , \mathbf e _ { \mathbf v } , \mathbf e _ { \mathbf b } ]。融合的潜在表示和码字表示的计算如下:

z=i=1Nszs,i+i=1Nogv,izv,i+i=1Ntgt,izt,i+i=1Nbgb,izb,i \mathbf z = \sum _ { i = 1 } ^ { N _ { s } } \mathbf z _ { s , i } + \sum _ { i = 1 } ^ { N _ { o } } g _ { v , i } \mathbf z _ { v , i } + \sum _ { i = 1 } ^ { N _ { t } } g _ { t , i } \mathbf z _ { t , i } + \sum _ { i = 1 } ^ { N _ { b } } g _ { b , i } \mathbf z _ { b , i }

zq=i=1Nszqs,i+i=1Nvgv,izqs,i+i=1Ntgt,izqt,i+i=1NbR(eb)izqb,i \mathbf z _ { \mathbf q } = \sum _ { i = 1 } ^ { N _ { s } } \mathbf z _ { { \mathbf q } _ { s , i } } + \sum _ { i = 1 } ^ { N _ { v } } g _ { v , i } \mathbf z _ { { \mathbf q } _ { s , i } } + \sum _ { i = 1 } ^ { N _ { t } } g _ { t , i } \mathbf z _ { { \mathbf q } _ { t , i } } + \sum _ { i = 1 } ^ { N _ { b } } R ( \mathbf e _ { \mathbf b } ) _ { i } \mathbf z _ { { \mathbf q } _ { b , i } }

其中,gtg_tgvg_v 是通过 MLPsoftmax 从模态嵌入中学习的门控权重,用于聚合模态特定专家: gt=softmax(MLPt(et)+bt) g _ { t } = s o f t m a x ( M L P _ { t } ( \mathbf e _ { t } ) + b _ { t } ) gv=softmax(MLPv(ev)+bv) g _ { v } = s o f t m a x ( M L P _ { v } ( \mathbf e _ { v } ) + b _ { v } )

最终的重建损失可以表示为: rcon=edecoder(z+sg(zqz))2 \sum _ { r \in c o n } = | | \mathbf e - d e c o d e r ( \mathbf z + s g ( \mathbf z _ { q } - \mathbf z ) ) | | ^ { 2 }

注: 上述重建损失的左侧记号 rcon=\sum _ { r \in c o n } = 较为特殊,似乎不完整或存在排版问题。根据上下文,其应表示为原始嵌入 e\mathbf e 与解码器重建结果之间的均方误差 (L2-norm)。sg 通常表示 stop_gradient 操作,用于在反向传播时阻止梯度流过 zqz\mathbf z _ { q } - \mathbf z 这一项,这是 VQ-VAE 训练中的常见技巧。

符号解释:

  • Et,i,Ev,i,Eb,iE_{t,i}, E_{v,i}, E_{b,i}: 文本、视觉、行为模态的第 ii 个特定专家编码器。
  • zt,i,zv,i,zb,i\mathbf { z } _ { t , i } , \mathbf { z } _ { v , i } , \mathbf { z } _ { b , i }: 文本、视觉、行为模态的第 ii 个特定专家生成的潜在嵌入。
  • Nt,Nv,NbN_t, N_v, N_b: 文本、视觉、行为特定专家的数量。
  • z\mathbf z: 融合了共享和特定专家潜在嵌入的表示。
  • zq\mathbf z _ { \mathbf q }: 融合了共享和特定专家量化码字的表示。
  • g _ { v , i } , g _ { t , i } , g _ { b , i }: 视觉、文本、行为模态的门控权重。
  • MLPt,MLPvMLP_t, MLP_v: 多层感知机,用于生成门控权重。
  • bt,bvb_t, b_v: 门控权重生成 MLP 的偏置项。
  • R(eb)R ( \mathbf e _ { \mathbf b } ): 动态行为路由器,用于决定行为 SIDs 的重要性(详见 3.4 节)。
  • e=[et,ev,eb]\mathbf e = [ \mathbf e _ { \mathbf t } , \mathbf e _ { \mathbf v } , \mathbf e _ { \mathbf b } ]: 拼接后的原始预训练嵌入。
  • decoder()decoder(\cdot): 解码器网络。
  • sg()sg(\cdot): stop_gradient 操作。

4.2.3. 自适应行为-内容对齐 (Adaptive Behavior-Content Alignment)

鉴于物品行为信息丰富度的差异,在行为-内容对比学习中不加区分地处理这些信号会引入噪声,影响共享信息的建模。

4.2.3.1. 对齐强度控制器 (Alignment Strength Controller)

对齐强度控制器(Alignment Strength Controller)根据每个物品的行为信息丰富度(information richness)输出一个权重 ww,以调节行为-内容对齐的强度。其设计遵循两个原则:长尾物品的对齐强度应平滑衰减至零,而流行物品的对齐强度应随其估计的信息丰富度增加。 通过物品行为嵌入的 L2 范数作为其信息丰富度的代理。具体而言,对于预训练行为嵌入矩阵 ERK×D\mathbf { E } \in \mathbb { R } ^ { K \times D },包含 KK 个向量 {eb,1,eb,2,,eb,K}\{ \mathbf { e } _ { b , 1 } , \mathbf { e } _ { b , 2 } , \dots , \mathbf { e } _ { b , K } \}。对于第 jj 个嵌入 eb,j\mathbf { e } _ { b , j },对齐强度控制器公式如下:

Nmag(eb,j)=eb,j2Nmax=maxi{1,,K}(Nmag(eb,i)),Nmin=mini{1,,K}(Nmag(eb,i))Nnorm(eb,j)=Nmag(eb,j)NminNmaxNminw=σ(αNnorm(eb,j)β)σ(αβ) \begin{array} { r l } & { N _ { \mathrm { m a g } } ( \mathbf { e } _ { b , j } ) = | | \mathbf { e } _ { b , j } | | _ { 2 } } \\ & { N _ { \mathrm { m a x } } = \displaystyle \operatorname* { m a x } _ { i \in \{ 1 , \dots , K \} } \left( N _ { \mathrm { m a g } } ( \mathbf { e } _ { b , i } ) \right) , N _ { \mathrm { m i n } } = \displaystyle \operatorname* { m i n } _ { i \in \{ 1 , \dots , K \} } \left( N _ { \mathrm { m a g } } ( \mathbf { e } _ { b , i } ) \right) } \\ & { \qquad N _ { \mathrm { n o r m } } ( \mathbf { e } _ { b , j } ) = \displaystyle \frac { N _ { \mathrm { m a g } } ( \mathbf { e } _ { b , j } ) - N _ { \mathrm { m i n } } } { N _ { \mathrm { m a x } } - N _ { \mathrm { m i n } } } } \\ & { \qquad w = \displaystyle \frac { \sigma ( \alpha N _ { \mathrm { n o r m } } ( \mathbf { e } _ { b , j } ) - \beta ) } { \sigma ( \alpha - \beta ) } } \end{array}

符号解释:

  • Nmag(eb,j)N _ { \mathrm { mag } } ( \mathbf { e } _ { b , j } ) : 物品 jj 的行为嵌入 eb,j\mathbf { e } _ { b , j } 的 L2 范数,作为其信息丰富度的代理。
  • NmaxN _ { \mathrm { m a x } }: 所有行为嵌入 L2 范数中的最大值。
  • NminN _ { \mathrm { m i n } }: 所有行为嵌入 L2 范数中的最小值。
  • Nnorm(eb,j)N _ { \mathrm { n o r m } } ( \mathbf { e } _ { b , j } ) : 归一化后的信息丰富度,范围在 [0, 1]
  • ww: 对齐强度权重,由 sigmoid 函数 σ\sigma 映射归一化丰富度得到。
  • α,β\alpha, \beta: 超参数,共同决定曲线的陡峭度和区分长尾物品的阈值。文中指出实验中最佳设置为 α=10,β=9\alpha = 10, \beta = 9
  • σ()\sigma(\cdot): sigmoid 激活函数,将输入压缩到 [0, 1] 范围。

4.2.3.2. 行为-内容对比学习 (Behavior-Content Contrastive Learning)

为了学习行为和内容之间的共享信息,采用了两阶段过程。

  1. 内容模态对齐 (Content Modality Alignment):首先使用对比学习对文本和图像模态进行对齐,以获得统一的内容表示 h _ { c } = h _ { t } + h _ { v }

  2. 行为-内容对齐 (Behavior-Content Alignment):然后,在 h _ { c } 和行为表示 h _ { b } 之间进行对比学习,以最大化内容域和行为域之间的互信息。

    具体而言,对于给定物品,其内容表示和行为表示构成一个正样本对 (hb,hc+)(h _ { b } , h _ { c ^ { + } })。批次中所有其他物品的内容表示则构成负样本对 (ht,hci)(h _ { t } , h _ { c _ { i } ^ { - } }),其中 i=1,,Bi = 1 , \ldots , BBB 是批次大小。

内容模态的对比损失 Lcontent\mathcal { L } _ { c o n t e n t }Lcontent=logexp(sin(ht,hv+)/τ)exp(sin(ht,hv+)/τ)+i=1B1exp(sin(ht,hvi)/τ)logexp(sin(hv,ht+)/τ)exp(sin(hv,ht+)/τ)+i=1B1exp(sin(hv,hti)/τ) \begin{array} { r } { \mathcal { L } _ { c o n t e n t } = - \log \frac { \exp ( \sin ( h _ { t } , h _ { v ^ { + } } ) / \tau ) } { \exp ( \sin ( h _ { t } , h _ { v ^ { + } } ) / \tau ) + \sum _ { i = 1 } ^ { B - 1 } \exp ( \sin ( h _ { t } , h _ { v _ { i } ^ { - } } ) / \tau ) } } \\ { - \log \frac { \exp ( \sin ( h _ { v } , h _ { t ^ { + } } ) / \tau ) } { \exp ( \sin ( h _ { v } , h _ { t ^ { + } } ) / \tau ) + \sum _ { i = 1 } ^ { B - 1 } \exp ( \sin ( h _ { v } , h _ { t _ { i } ^ { - } } ) / \tau ) } } \end{array}

行为-内容对齐的对比损失 Lalign\mathcal { L } _ { a l i g n }Lalign=logexp(sin(hb,hc+)/τ)exp(sin(hb,hc+)/τ)+i=1B1exp(sin(hb,hci)/τ) \mathcal { L } _ { a l i g n } = - \log \frac { \exp ( \sin ( h _ { b } , h _ { c ^ { + } } ) / \tau ) } { \exp ( \sin ( h _ { b } , h _ { c ^ { + } } ) / \tau ) + \sum _ { i = 1 } ^ { B - 1 } \exp ( \sin ( h _ { b } , h _ { c _ { i } ^ { - } } ) / \tau ) }

总的对齐损失 Lalign_total\mathcal { L } _ { a l i g n \_ t o t a l }Lalign_total=Lcontent+wLalign \mathcal { L } _ { a l i g n \_ t o t a l } = \mathcal { L } _ { c o n t e n t } + w \mathcal { L } _ { a l i g n }

符号解释:

  • Lcontent\mathcal { L } _ { c o n t e n t }: 内容模态(文本和视觉)之间的对比损失。
  • Lalign\mathcal { L } _ { a l i g n }: 行为模态与统一内容表示之间的对比损失。
  • Lalign_total\mathcal { L } _ { a l i g n \_ t o t a l }: 总的对齐损失,通过权重 ww 调节行为-内容对齐强度。
  • sim(,)sim(\cdot, \cdot): 余弦相似度函数。
  • ht,hv,hbh_t, h_v, h_b: 文本、视觉、行为模态的隐藏表示。
  • hc=ht+hvh_c = h_t + h_v: 统一的内容表示。
  • hv+,ht+h_{v^+}, h_{t^+}: 文本/视觉表示的正样本对 (来自同一物品)。
  • hvi,htih_{v_i^-}, h_{t_i^-}: 文本/视觉表示的负样本对 (来自批次中其他物品)。
  • hc+h_{c^+}: 统一内容表示的正样本对 (与 hbh_b 来自同一物品)。
  • hcih_{c_i^-}: 统一内容表示的负样本对 (与 hbh_b 来自批次中其他物品)。
  • τ\tau: 温度系数,在实验中设置为 0.07。
  • BB: 批次大小。
  • ww: 来自对齐强度控制器的权重,用于自适应地调节行为-内容对齐的强度。

4.2.4. 动态行为路由器机制 (Dynamic Behavioral Router Mechanism)

物品的互动频率直接决定了其行为表示的信息丰富度。流行物品由于频繁互动,会产生丰富可靠的信号,使其行为 SIDs 至关重要。相反,长尾物品互动稀疏,产生的表示信息量不足,降低了其 SIDs 的重要性。

4.2.4.1. 行为引导的动态路由器 (Behavior-Guided Dynamic Router)

行为引导的动态路由器(Behavior-Guided Dynamic Router)为行为语义ID分配校准后的重要性分数,对流行物品(head items)进行加权,对长尾物品(long-tail items)进行减权,并根据信息丰富度动态调整权重。路由器 R(eb)R ( \mathbf { e _ { b } } ) 被设计为一个可学习的门控机制,其中一个 MLP 处理表示 eb\mathbf { e } _ { b } 以捕捉其特定的语义模式:

R(eb)=σ(Nnorm(eb))relu(MLP(eb)+b) R ( \mathbf { e _ { b } } ) = \sigma ( N _ { \mathrm { n o r m } } ( \mathbf { e } _ { b } ) ) * r e l u ( M L P ( \mathbf { e } _ { b } ) + b )

符号解释:

  • R(eb)R ( \mathbf { e _ { b } } ): 动态行为路由器的输出,为行为语义ID分配重要性分数。

  • σ()\sigma(\cdot): sigmoid 激活函数,将 Nnorm(eb)N _ { \mathrm { n o r m } } ( \mathbf { e } _ { b } ) 映射到 [0, 1] 范围,作为基于幅度(magnitude-based)的缩放器。

  • Nnorm(eb)N _ { \mathrm { n o r m } } ( \mathbf { e } _ { b } ) : 物品行为嵌入 eb\mathbf { e } _ { b } 的归一化 L2 范数(信息丰富度)。

  • relu()relu(\cdot): ReLU 激活函数,引入精确零稀疏性。

  • MLP(eb)+bMLP(\mathbf { e } _ { b } ) + b: 一个多层感知机(MLP)用于提取行为特定语义,并带有一个偏置项 bb

  • *: 元素级乘法。

    这个门控机制通过 MLP 提取行为特定语义,ReLU 引入精确零稀疏性,而基于幅度的缩放器 σ(Nnorm(eb))\sigma ( N _ { \mathrm { n o r m } } ( \mathbf { e } _ { b } ) ) 将权重映射到 [0,1] 并根据信息丰富度进行校准。该机制端到端训练,无需手动阈值,能够放大关键协同信号并衰减无信息信号,从而提高模型的鲁棒性。

4.2.4.2. 稀疏性正则化 (Sparsity Regularization)

为了进一步优化动态行为路由器,引入了稀疏性正则化损失。其目标是鼓励路由器为长尾物品生成更稀疏的 SID 序列(即激活更少的行为 SIDs),为流行物品生成更密集的序列。通过定义一个物品特定的目标稀疏性(item-specific target sparsity),它与物品的信息丰富度(由 eb\mathbf { e _ { b } } 的 L2 范数近似)成反比。正则化损失 L _ { r e g } 随后惩罚与此目标的偏差。

在稀疏混合专家(sparse mixture-of-experts, MoE)设计中,负载不平衡是一个重要问题,可能导致路由崩溃。为解决此问题,框架中加入了负载均衡机制 (load-balancing mechanism)

原文中给出的稀疏性正则化相关的公式如下: Lregi=λi1BjNbjNbfibR(eb)j1λi=λi1αsign(siασϵ1sarrent)λcurrent=1jNb1{R(eb)j>0}/Nbλtarget=θ(1Nnom(eb)/(NmaxNmin)lb=1(1starget)BtBjNb1{R(eb)j>0}/Nb \begin{array} { c } { { { \displaystyle L _ { r e g _ { i } } = \lambda _ { i } \frac { 1 } { B } \sum _ { j } ^ { N _ { b } } \sum _ { j } ^ { N _ { b } } f _ { i b } | | R ( { \bf e } _ { b } ) _ { j } | | _ { 1 } } } } \\ { { { \lambda _ { i } = \lambda _ { i - 1 } \alpha ^ { s i g n ( s _ { i } \alpha \sigma \epsilon ^ { - 1 } { s a r r e n t } ) } } } } \\ { { { \lambda _ { c u r r e n t } = 1 - \sum _ { j } ^ { N _ { b } } 1 \{ R ( e _ { b } ) _ { j } > 0 \} / N _ { b } } } } \\ { { { \lambda _ { t a r g e t } = \theta \ast ( 1 - N _ { \mathrm { n o m } } ( e _ { b } ) / ( N _ { m a x } - N _ { m i n } ) } } } \\ { { { \displaystyle \iint _ { l b } = \frac { 1 } { ( 1 - s _ { t a r g e t } ) B } \sum _ { t } ^ { B } \sum _ { j } ^ { N _ { b } } 1 \{ R ( e _ { b } ) _ { j } > 0 \} / N _ { b } } } } \end{array}

注: 上述公式在原文中存在一些排版或符号上的不清晰。例如, L _ { r e g _ { i } }jNbjNb\sum _ { j } ^ { N _ { b } } \sum _ { j } ^ { N _ { b } } 的双重求和可能应是单重求和或指代不同维度的求和,且 fibf_{ib} 未定义。λi\lambda _ { i } 的更新规则 λi=λi1αsign(siασϵ1sarrent)\lambda _ { i } = \lambda _ { i - 1 } \alpha ^ { s i g n ( s _ { i } \alpha \sigma \epsilon ^ { - 1 } { s a r r e n t } ) } 极其抽象且符号定义模糊 (sarrent, ϵ1\epsilon^{-1})。Nnom(eb)N_{nom}(e_b) 似乎是 Nnorm(eb)N_{norm}(e_b) 的笔误。lb\iint_{lb} 显然是 LlbL_{lb} 的笔误。我将严格按照原文转录,并解释其概念,但指出其在数学表达上的不清晰。

符号解释 (基于其描述的预期功能):

  • L _ { r e g _ { i } }: 稀疏性正则化损失,旨在鼓励路由器为物品生成特定稀疏度的 SID 序列。

    • λi\lambda_i: 稀疏性正则化项的权重,可能会动态调整。
    • R(eb)j1| | R ( { \bf e } _ { b } ) _ { j } | | _ { 1 }: 行为路由器输出 R(eb)R ( { \bf e } _ { b } ) 中第 jj 个分量的 L1 范数,用于衡量稀疏性。
  • λcurrent\lambda _ { c u r r e n t }: 当前行为 SIDs 的激活稀疏度(即激活的 SIDs 比例)。1{R(eb)j>0}1\{R(e_b)_j > 0\} 是指示函数,当 R(eb)j>0R(e_b)_j > 0 时为1,否则为0。

  • λtarget\lambda _ { t a r g e t }: 物品特定的目标稀疏度,与物品的信息丰富度成反比,由 θ(1Nnom(eb)/(NmagNmin))\theta \ast ( 1 - N _ { \mathrm { n o m } } ( e _ { b } ) / ( N _ { m a g } - N _ { m i n } ) ) 计算,其中 θ\theta 是一个超参数,Nnorm(eb)N_{norm}(e_b) 是归一化的信息丰富度,Nmax,NminN_{max}, N_{min} 是最大最小值。

  • L _ { l b } (原文 lb\iint _ { l b } ): 负载均衡损失,用于解决 MoE 模型中的负载不平衡问题,确保所有专家被均匀使用。

    总结来说,动态路由器通过稀疏性和负载均衡正则化,生成灵活且语义丰富的表示。它捕捉多样的物品特征,同时自适应地控制表示的长度和复杂性,以契合物品的内在属性和下游任务需求。

5. 实验设置

5.1. 数据集

本研究在工业数据集和公共数据集上评估了 ADA-SID 框架。

5.1.1. 工业数据集 (Industrial Dataset)

  • 来源与规模: 该数据集收集自东南亚某领先电商广告平台,时间范围为2024年10月至2025年5月。包含超过3000万用户和4000万广告。
  • 特点: 包含用户行为序列(平均长度128),以及丰富的多模态物品内容(图像、标题、描述等)。其规模和复杂性使其成为评估真实世界性能的理想基准。
  • 具体样本示例: 原文未提供具体的物品内容样本,但明确指出包含图像、标题和描述等模态。

5.1.2. 公共数据集 (Public Dataset)

  • 来源与规模: 使用了 Amazon 产品评论数据集 [38] 的 "Beauty" 子集。
  • 特点:
    • 生成式检索 (Generative Retrieval):应用了 5-core 过滤器(即保留至少有5次交互的用户和物品),并构建了时间顺序的用户序列,最大长度为20。

    • 判别式排序 (Discriminative Ranking):将评分二值化(正面:>3,负面:<3 和 =3),并使用时间顺序的 90%/10% 划分进行训练和测试。

      以下是原文 Table 1 的结果:

      DatasetIndustrial DatasetBeauty
      #User#Item#Interaction35,154,13522,363
      48,106,88012,101
      75,730,321,793198,360

Table 1: Statistics of Industrial and Public Datasets.

5.2. 评估指标

本研究从量化指标(quantization metrics)和推荐指标(recommendation metrics)两方面评估了所提出的 ADA-SID 的有效性。

5.2.1. 量化指标 (Quantization Metrics)

  • 重建损失 (Reconstruction Loss)
    • 概念定义: 衡量量化后的表示(SIDs)在解码回原始特征空间时,与原始输入向量之间的差异程度。较低的重建损失表明 SIDs 能够忠实地保留原始信息的语义。
    • 数学公式: Lreconstruction=edecoder(zq)2 L_{\text{reconstruction}} = ||\mathbf{e} - \text{decoder}(\mathbf{z}_q)||^2
    • 符号解释: LreconstructionL_{\text{reconstruction}} 为重建损失,e\mathbf{e} 为原始输入向量(预训练嵌入),decoder()\text{decoder}(\cdot) 为解码器函数,zq\mathbf{z}_q 为量化后的潜在表示。
  • 词元分布熵 (Token Distribution Entropy) [41]:
    • 概念定义: 评估语义码字(semantic codewords)在码本中分布的多样性和平衡性。高熵值意味着码字被更均匀地使用,每个码字都承载了独特的语义信息,有助于避免码字崩溃(codebook collapse)问题。
    • 数学公式: H=k=1Kpklog2(pk) H = - \sum_{k=1}^{K} p_k \log_2(p_k)
    • 符号解释: HH 为熵,KK 为码本大小,pkp_k 为码本中第 kk 个码字的访问频率或概率。
  • 码本利用率 (Codebook Utilization) [40]:
    • 概念定义: 反映模型使用码本向量的效率。高利用率表示码本中的大部分码字都被激活或使用过,而不是只有少数码字被频繁使用。
    • 数学公式: Utilization=Number of used codewordsTotal number of codewords \text{Utilization} = \frac{\text{Number of used codewords}}{\text{Total number of codewords}}
    • 符号解释: Number of used codewords 指码本中至少被一个物品映射到的码字数量,Total number of codewords 为码本总大小 KK

5.2.2. 推荐指标 (Recommendation Metrics)

5.2.2.1. 生成式检索 (Generative Retrieval)

  • 召回率@N (Recall@N)
    • 概念定义: 衡量在推荐列表的前 NN 个物品中,实际相关物品所占的比例。它关注的是模型找到所有相关物品的能力,而不考虑其在列表中的具体位置。
    • 数学公式: Recall@N=Relevant items in top NAll relevant items \text{Recall@N} = \frac{|\text{Relevant items in top N}|}{|\text{All relevant items}|}
    • 符号解释: |\cdot| 表示集合的基数,Relevant items in top N 指在推荐列表前 NN 个物品中实际被用户交互(或相关)的物品集合,All relevant items 指所有与用户相关的物品集合。
  • 归一化折损累计增益@N (NDCG@N)
    • 概念定义: 一种常用的排序质量指标,不仅考虑相关性,还考虑相关物品在推荐列表中的位置。排名靠前的相关物品贡献更大的增益。
    • 数学公式: NDCG@N=DCG@NIDCG@N \text{NDCG@N} = \frac{\text{DCG@N}}{\text{IDCG@N}} 其中,折损累计增益(Discounted Cumulative Gain, DCG)为: DCG@N=i=1N2reli1log2(i+1) \text{DCG@N} = \sum_{i=1}^{N} \frac{2^{\text{rel}_i}-1}{\log_2(i+1)} 理想折损累计增益(Ideal Discounted Cumulative Gain, IDCG)是完美排序下的 DCG 值。
    • 符号解释: NN 为推荐列表的长度,reli\text{rel}_i 为位置 ii 处物品的相关性分数(通常为二值,0或1,或多级评分)。log2(i+1)\log_2(i+1) 对位置 ii 处的增益进行折损。

5.2.2.2. 判别式排序 (Discriminative Ranking)

  • AUC (Area Under the ROC Curve)
    • 概念定义: 衡量二分类模型性能的指标,特别是其区分正负样本的能力。AUC 越大表示模型将随机选择的正样本排在随机选择的负样本之前的概率越大。在推荐系统中,它衡量模型将用户可能点击/喜欢的物品排在不点击/不喜欢的物品之前的能力。
    • 数学公式: AUC=ipositive classjnegative class1(pi>pj)positive class×negative class \text{AUC} = \frac{\sum_{i \in \text{positive class}} \sum_{j \in \text{negative class}} \mathbf{1}(p_i > p_j)}{|\text{positive class}| \times |\text{negative class}|}
    • 符号解释: 1()\mathbf{1}(\cdot) 是指示函数,pip_ipjp_j 分别是模型预测的正样本和负样本的得分。
  • GAUC (Group AUC)
    • 概念定义:AUC 的扩展,特别适用于推荐系统。它计算每个用户的 AUC,然后取这些 AUC 值的加权平均(通常按用户交互次数加权)。GAUC 能够更好地反映模型在个体用户层面的排序能力,避免少数活跃用户主导整体 AUC
    • 数学公式: GAUC=u=1UwuAUCuu=1Uwu \text{GAUC} = \frac{\sum_{u=1}^{U} w_u \cdot \text{AUC}_u}{\sum_{u=1}^{U} w_u}
    • 符号解释: UU 为用户总数,AUCu\text{AUC}_u 为用户 uuAUCwuw_u 为用户 uu 的权重(例如,其交互次数)。

5.2.2.3. 在线指标 (Online Metrics)

  • 广告收入 (Advertising Revenue):在实际在线 A/B 测试中衡量模型对平台广告收入的影响。
  • 点击率 (Click-Through Rate, CTR):衡量推荐物品被用户点击的比例,是评估推荐系统吸引用户互动能力的关键指标。

5.3. 对比基线 (Baselines)

本研究将 ADA-SID 与以下最先进的 Semantic ID 生成方法进行了比较:

  • 物品ID (Item ID):作为判别式排序任务中的传统基线,它为每个物品使用唯一的标识符。在生成式检索范式中,SIDs 充当物品标识符。
  • RQ-VAE [40]TIGER [22] 首次提出使用 RQ-VAE 量化文本、物品描述、类别等内容特征,生成分层 SIDs。这是一个纯内容基线。
  • OPQ [14]RPG [25] 引入 Optimized Product Quantization (OPQ) 将预训练的文本嵌入转换为无序的 SIDs 元组。这也是一个纯内容基线。
  • RQ-Kmeans [43]One-rec [39] 结合 RQ-VAEK-means,以粗到细的方式量化物品的行为微调多模态表示。K-means 聚类应用于残差。这是一个行为-内容对齐基线。
  • DAS [42]:引入多视图对比对齐(multi-view contrastive alignment),最大化 SIDs 和协同信号之间的互信息。它使用 RQ-VAE 生成分层、行为感知的内容 SIDs。这是一个行为-内容对齐基线。
  • LETTER [27]:结合分层语义、协同信号和代码分配多样性,使用 RQ-VAE 生成行为-内容融合的 SIDs。这是一个行为-内容对齐基线。
  • RQ-VAE++:本论文中引入的基线,通过 RQ-VAE 生成 Semantic ID,但同时输入预训练的内容表示和预训练的协同表示。它生成协同、文本和视觉 SIDs。这旨在评估协同信息在 RQ-VAE 框架中的重要性。
  • MM-RQ-VAE [17]:从预训练的协同和多模态嵌入中生成协同、文本和视觉 SIDs。它还引入对比学习进行行为-内容对齐。这是一个行为-内容对齐基线。

5.4. 实验设置细节

  • 推荐基础模型 (Recommendation Foundations)
    • 生成式检索任务:采用 REG4Rec [18],一个强大的多词元预测模型(multi-token prediction model)作为基础框架。
    • 判别式排序任务:采用成熟的参数个性化网络(Parameter Personalized Network, PPNet)[62] 作为骨干架构。
  • 实现细节 (Implementation Details)
    • 工业数据集:码本大小(codebook size)设置为 300,SIDs 长度设置为 8。
      • ADA-SID 具体设置:Ns=2N _ { s } = 2(共享专家数量),Nt=2N _ { t } = 2(文本特定专家数量),Nv=2N _ { v } = 2(视觉特定专家数量),Nb=6N _ { b } = 6(行为特定专家数量)。目标稀疏度 starget=13s _ { t a r g e t } = \frac { 1 } { 3 }
    • 公共数据集 (Amazon Beauty):码本大小设置为 100,SIDs 长度设置为 6。
      • ADA-SID 具体设置:Ns=1N _ { s } = 1Nt=1N _ { t } = 1Nv=1N _ { v } = 1Nb=5N _ { b } = 5。目标稀疏度 starget=35s _ { t a r g e t } = \frac { 3 } { 5 }
    • 预训练表示 (Pre-trained Representations)
      • Qwen3-Embedding 7B [15] 获取。
      • SASRec [16] 获取。
      • 从亚洲某电商广告平台的 PailiTAO v8 获取。
    • 行为 SIDs 激活阈值:得分高于阈值(本文设为 0)的行为 SIDs 被保留,低于阈值的被替换为填充词元(padding token)。该阈值可根据具体性能要求进行调整。

6. 实验结果与分析

6.1. 核心结果分析

实验结果在生成式检索和判别式排序任务中,以及在公共和工业数据集上,均证实了 ADA-SID 的优越性。

6.1.1. 整合行为信息对语义ID的重要性

  • 行为-内容对齐 SIDs 优于纯内容 SIDs:如 Table 2 所示,RQ-KmeansLETTER 等行为-内容对齐 SIDs 方法在 R@100N@100AUC 等指标上始终优于纯内容 SIDs 方法(如 RQ-VAEOPQ)。这表明仅依赖静态内容存在根本局限,整合行为信号是必要的。
  • RQ-VAE++ 的显著提升RQ-VAE++ 相较于原始 RQ-VAE 的性能显著提升,直接证明了在 SID 生成过程中纳入协同信息(collaborative information)的关键价值。
  • 明确生成协同 SIDs 的有效性:比较不同的对齐策略,明确为协同信号生成专用 SIDs(如 MM-RQ-VAERQ-VAE++)比其他方法(如 LETTERDAS)更有效地捕捉复杂的交互模式,从而带来更优的下游性能。

6.1.2. ADA-SID 的有效性

  • 在各项任务中表现卓越ADA-SID 在生成式检索和判别式排序任务中均表现出卓越性能,优于所有基线,包括纯内容 SIDs 和现有行为-内容对齐 SIDs 方法。
  • 归因于其独特设计:这种优越性源于其独特设计:ADA-SID 并非进行不加区分的对齐,而是通过评估物品行为信息的丰富度,智能地融合内容和行为信息。它自适应地放大关键信号,同时抑制噪声,从而产生更鲁棒、更具表达力的物品表示。

6.2. 数据呈现 (表格)

以下是原文 Table 1 的结果:

DatasetIndustrial DatasetBeauty
#User#Item#Interaction35,154,13522,363
48,106,88012,101
75,730,321,793198,360

Table 1: Statistics of Industrial and Public Datasets.

以下是原文 Table 2 (a) Generative Retrieval Evaluation 的结果:

MethodsIndustrial DatasetAmazon Beauty
LreconEntropy↑Util.↑R@50↑R@100↑N@50↑N@100↑Entropy↑Util.↑R@50↑R@100↑N@50↑N@100↑
RQ-VAE0.00334.24811.00000.18540.20830.13370.14210.60283.49040.99000.12130.23980.08030.1304
OPQ0.00384.39810.75630.19720.21040.14910.15180.96473.39800.96000.11170.21890.08020.1302
RQ-Kmeans0.00654.72321.00000.18440.22020.14620.15780.62401.71001.00000.13850.23980.08430.1507
LETTER0.00544.20721.00000.18120.22130.15820.16750.54312.68191.00000.15130.24920.09370.1453
DAS0.00514.35391.00000.18640.22370.15760.16970.54323.68191.00000.15030.24030.09330.1445
RQ-VAE++0.00343.55660.92830.22540.27090.16280.17060.60283.49040.99000.16830.29910.09430.1507
MM-RQ-VAE0.00554.21250.98500.21810.25420.15920.17070.50812.84490.99500.16740.25960.09150.1322
ADA-SID(Ours)0.00325.09771.00000.27720.29260.16890.17140.44704.42061.00000.18550.36750.09960.1784
Improv.+3.03%+7.92%+0.00%+22.45%+7.53%+3.56%+0.23%+12.02%+20.06%+0.00%+10.21%+22.86%+5.62%+18.38%

Table 2 (a) Generative Retrieval Evaluation.

以下是原文 Table 2 (b) Discriminative Ranking Evaluation 的结果:

MethodsIndustrial DatasetAmazon Beauty
Lrecon ↓Entropy↑Util.↑AUC↑GAUC↑Lrecon ↓Entropy↑Util.↑AUC↑GAUC↑
Item ID--0.70780.5845---0.64550.5897
RQ-VAE0.00334.24811.00000.70710.58050.60283.49040.99000.64460.5852
OPQ0,00384.39810.75630.70860.58290.96473.39800.96000.64490.5898
RQ-Kmeans0.00654.72321.00000.70890.58320.62401.71001.00000.64720.5999
LETTER0.00544.20721.00000.70890.58280.54312.68191.00000.64440.5973
DAS0.00514.35391.00000.70910.58450.54323.68191.00000.64660.5933
RQ-VAE++0.00343.55660.92830.71000.58380.60283.49040.99000.64660.5952
MM-RQ-VAE0.00554.21250.98500.70950.58430.50812.84490.99500.64530.5991
ADA-SID(Ours)0.00325.09771.00000.71010.58460.44704.42061.00000.64800.6125
Improv.+3.03%+7.92%+0.00%+0.07%+0.02%+12.02%+20.06%+0.00%+0.12%+2.10%

Table 2 (b) Discriminative Ranking Evaluation.

6.3. 消融实验/参数分析

在工业数据集上进行的消融实验(ablation study)旨在探究 ADA-SID 各组件对整体性能的贡献。

以下是原文 Table 3 的结果:

VariantsLrecon ↓Entropy↑Util.↑R@50↑R@100↑N@50↑N@100↑AUC↑GAUC↑
ADA-SID0.00325.09771.00000.27720.29260.16890.17140.71010.5846
w/o Alignment Strength Controller0.00325.07101.00000.27010.28540.16180.16430.71040.5845
w/o Behavior-content Contrastive Learning0.00325.11531.00000.27330.28740.16530.16760.70970.5846
w/o Sparsity Regularization0.00345.05711.00000.27570.29030.16750.16980.70970.5846
w/o Behavior-Guided Dynamic Router0.00335.08961.00000.27050.28610.16160.16410.70980.5845

Table 3: Ablation Experiments.

6.3.1. 自适应行为-内容对齐的影响

  • 去除对齐强度控制器 (w/o Alignment Strength Controller):当禁用对齐强度控制器,并对内容表示与协同嵌入进行不加区分的对齐时,模型的性能出现退化。这表明在语义ID生成中,抑制行为-内容对齐中的噪声影响至关重要。
  • 去除行为-内容对比学习 (w/o Behavior-content Contrastive Learning):禁用自适应行为-内容对齐模块后,召回率(Recall)和 NDCG 均出现持续下降。这表明内容域和行为域之间存在显著的模态差距,阻碍了模型学习它们的共享信息。对比学习组件对于弥合这一差距和实现有效的行为-内容信息融合至关重要。

6.3.2. 动态行为路由器机制的影响

  • 去除行为引导的动态路由器 (w/o Behavior-Guided Dynamic Router):移除行为引导的动态路由器会损害模型根据信息丰富度估计和加权协同信号的能力,导致判别式排序和生成式检索任务的推荐准确性下降。这表明信息丰富度是衡量协同 SIDs 重要性的可靠指标。
  • 去除稀疏性正则化 (w/o Sparsity Regularization):移除稀疏性正则化项也会导致性能下降。这是因为正则化扮演了两个关键角色:
    1. 通过鼓励稀疏激活(即仅选择少量相关 SIDs),它强制模型为每个 SID 学习更专业化和解耦的表示,从而有效地增加了模型的总容量,类似于混合专家(Mixture-of-Experts, MoE)模型。
    2. 物品特定的稀疏性目标(item-specific sparsity target)鼓励模型明智地分配其表示预算,即为长尾物品使用更少、更高级别的 SIDs,为流行物品使用更多、更详细的 SIDs。缺乏这种指导会导致表达能力较弱且适应性较差的表示。

6.3.3. 稀疏性正则化强度超参数分析

原文 Figure 3 展示了不同稀疏正则化强度对推荐系统指标的影响。

Figure 3: Hyper-Parameter Analysis on Sparsity Regularization. Figure 3: Hyper-Parameter Analysis on Sparsity Regularization.

  • 超参数影响:如图3所示,随着稀疏强度的降低,模型的参数数量增加,编码器容量变大,编码能力增强。结果是判别式排序和生成式检索任务的推荐准确性显著提高。
  • 可变长度灵活性ADA-SID 具有可变长度灵活性优势,允许流行物品使用更长的协同 SID 序列来充分表示其复杂的行为模式,从而带来更强的表达能力和显著的下游性能增益。

6.3.4. 对齐强度控制器超参数敏感性分析

对齐强度控制器超参数 (α,β)(\alpha, \beta) 的敏感性分析。原文 Figure 4 展示了不同超参数下的对齐强度控制器曲线。

Figure 4: Illustration of alignment strength controller with different hyperparameters \(( \\alpha , \\beta )\) . Figure 4: Illustration of alignment strength controller with different hyperparameters (α,β)(\alpha, \beta) .

以下是原文 Table 4 的结果:

VariantsLrecon ↓Entropy↑Utilization↑R@50↑R@100↑N@50↑N@100↑AUC↑GAUC↑
α=20,β=70.00325.08441.00000.27490.28940.16640.16880.71060.5840
α=20, β=90.00325.07111.00000.27500.28890.16770.17090.71050.5842
α=20,β=140.00335.09671.00000.27600.29110.16860.17070.71050.5839
α=10, β=90.00325.09771.00000.27720.29260.16890.17140.71010.5846

Table 4: Hyper-Parameter Analysis on Contrastive Loss Weight.

  • 最优参数配置:如 Table 4 所示,设置 (α=10,β=9)(\alpha = 10, \beta = 9) 实现了最高的推荐准确性。
  • 噪声过滤效果:这个最优结果表明,对于该数据集的分布,当对大约 40% 最不频繁(长尾)的物品应用噪声过滤时,效果最佳。
  • 设计灵活性:参数 α\alphaβ\beta 的可调性突显了模型设计的内在灵活性,使其能够适应不同的数据分布。

6.4. 物品流行度分层性能分析 (RQ4)

尽管独特的 Item IDs 能够从大规模交互数据中为流行物品学习高度独立的表示,但在排序任务中用 SIDs 替代它们仍然是一个挑战。为了研究性能差异,作者基于物品流行度进行了分层分析。物品根据过去 30 天的曝光次数被分为“流行”(popular,前 25%)和“长尾”(long-tail,后 25%)两组,然后评估了每组的 AUC。原文 Figure 5 展示了不同方法在不同流行度物品上的 AUC 表现。

Figure 5: Item Popularity Stratified Performance Comparison. Figure 5: Item Popularity Stratified Performance Comparison.

  • 对于流行物品 (Head Items)

    • 纯内容 SIDs 在排序任务中表现不如简单的 Item IDs
    • 整合协同信息至关重要,因为它增强了 SIDs 的表达能力,使其能够捕捉复杂的行为模式,从而提高性能。
    • ADA-SID 通过显式地对齐、去噪和放大内容与行为模态的融合,超越了以往的方法,产生了显著更具表达力的语义表示。
  • 对于长尾物品 (Tail Items)

    • 所有基于 SID 的方法都通过语义相似物品之间的知识共享,在长尾物品上优于 ItemIDs

    • ADA-SID 取得了最大的性能增益。其自适应对齐机制保护了长尾物品稳定的内容表示,使其免受嘈杂和稀疏行为信号的影响。

    • 同时,其动态行为路由器通过更多地依赖高级语义而非不可靠的细粒度行为线索,学习生成更稀疏、更鲁棒的表示。这种双重机制显著提升了长尾物品的性能。

      通过自适应地平衡流行物品的表达独立性与长尾物品的泛化能力,ADA-SID 生成了更鲁棒和有效的标识符,最终在排序任务中超越了传统的 Item IDs

6.5. 在线实验 (Online Experiments)

研究团队通过在大型电商平台的生成式检索系统上进行了为期 5 天的在线 A/B 测试来验证所提出的方法。

  • 实验设置:实验组使用了 ADA-SID 生成的 8 个词元 SIDs,并分配了 10% 的随机用户流量,与基于生产环境 Item ID 的系统进行对比。
  • 结果ADA-SID 方法在关键业务指标上取得了显著提升:广告收入(Advertising Revenue)增加了 +3.50%,点击率(Click-Through Rate, CTR)增加了 +1.15%。
  • 实际价值:这些在线收益证实了所提出方法的实用价值和生产就绪性。

7. 总结与思考

7.1. 结论总结

本研究提出了 ADA-SID 框架,旨在通过自适应地对齐、去噪和放大(Align, Denoise, and Amplify)多模态信息,学习具有表达力且噪声鲁棒的语义ID(SIDs)。该框架引入了两项核心创新:自适应行为-内容对齐 (adaptive behavior-content alignment) 机制,它能感知信息丰富度以保护表示免受噪声影响;以及动态行为路由器 (dynamic behavioral router) 机制,它通过对 SIDs 施加不同权重来放大关键协同信号并抑制噪声。广泛的离线实验和大规模在线 A/B 测试验证了 ADA-SID 在推荐性能上的显著优越性。这项工作开创了一种基于信息丰富度的自适应融合方法,为构建更鲁棒和个性化的推荐系统铺平了道路。

7.2. 局限性与未来工作

论文作者指出,未来的研究方向包括将这些原则应用于用户侧建模(user-side modeling)。这意味着当前的 ADA-SID 主要聚焦于物品 SIDs 的学习,而用户表示(user representations)的自适应学习和融合是下一步可以探索的方向,例如,根据用户的活跃度、兴趣多样性等信息丰富度来定制其表示学习过程。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 分层处理信息差异的有效性ADA-SID 的核心洞察在于识别并分层处理流行物品和长尾物品之间的行为信息差异。这种“信息丰富度感知”的设计理念非常强大,它不仅仅是简单地融合多模态信息,而是智能地调控融合的强度和方式,以适应数据的固有特性。这对于许多数据分布不均匀的机器学习问题都具有借鉴意义。
  2. 噪声与信号的双重关注:论文明确提出了“噪声污染”和“信号模糊”这两个核心问题,并针对性地设计了“去噪”和“放大”机制。这种从问题根源出发,设计针对性解决方案的思路,使得模型更具解释性和鲁棒性。
  3. 在线 A/B 测试的价值:在线 A/B 测试的结果(广告收入 +3.50%,CTR +1.15%)是其方法实际价值的最有力证明。这表明 ADA-SID 不仅在离线指标上表现出色,在真实的工业场景中也具备显著的业务价值和可部署性。
  4. 混合专家架构的灵活应用:混合量化网络结合了共享专家和模态特定专家,这是一种灵活的架构,能够同时捕捉通用特征和特定特征。动态行为路由器作为一种门控机制,能够实现 MoE 模型的动态稀疏激活和负载均衡,进一步提升了模型的表达能力和效率。

7.3.2. 批判与潜在问题

  1. 公式表述的清晰度问题

    • 在方法论的 4.2.2.2 节中,公式 zv,i=Ev,i(eb),zb,i=Et,i(eb)\mathbf { z } _ { v , i } = E _ { v , i } ( \mathbf { e } _ { b } ) , \mathbf { z } _ { b , i } = E _ { t , i } ( \mathbf { e } _ { b } ) 存在明显的类型错误,其中 ebe_bEt,iE_t,i 应分别对应视觉嵌入 eve_v 和行为专家 Eb,iE_b,i
    • 在 4.2.2.2 节的解码器重建损失部分,rcon=edecoder(z+sg(zqz))2\sum _ { r \in c o n } = | | \mathbf e - d e c o d e r ( \mathbf z + s g ( \mathbf z _ { q } - \mathbf z ) ) | | ^ { 2 } 的左侧记号不完整,尽管可以猜测其含义,但不够严谨。
    • 在 4.2.4.2 节的稀疏性正则化公式(Eq. 20-23)中,存在多处符号模糊(如 f_ib, sarrent)和潜在的排版问题(如双重求和、lb\iint_{lb}),这严重影响了对这些关键正则化项的理解和复现。对于一个严谨的学术论文,这些是需要避免的缺陷。
    • λi\lambda_i 的更新规则 (Eq. 21) 尤其抽象,缺乏足够的上下文解释其工作原理,使得读者难以理解其动态调整稀疏性权重的具体机制。
  2. 对预训练模型的依赖性ADA-SID 的性能高度依赖于高质量的预训练视觉、文本和行为嵌入(如 Qwen3-Embedding 7B, SASRec, PailiTAO v8)。如果这些基础模型的质量不佳或存在偏差,将直接影响 ADA-SIDSID 学习效果。在实际应用中,获取和维护这些高性能的预训练模型本身就是一个挑战。

  3. 超参数调优的复杂性:尽管论文讨论了超参数敏感性,但 ADA-SID 引入了多个关键超参数(如对齐强度控制器中的 α,β\alpha, \beta 以及稀疏性正则化中的 θ,starget\theta, s_{target})。这些参数的有效调优对于模型性能至关重要,但在不同数据集和场景下可能需要大量的实验。模型的复杂性可能导致调优成本较高。

  4. 模型复杂性和计算开销:混合量化网络、多个专家、动态路由器以及多种损失项的引入,使得 ADA-SID 相较于简单模型更为复杂。这可能导致更高的训练和推理计算开销,尽管论文提到了在线 A/B 测试的成功,但未详细说明其在实际部署中的计算效率和资源消耗。

  5. RQ-VAE++ 作为一个“基线”的设定RQ-VAE++ 是论文中一个表现非常强的基线,它通过为 RQ-VAE 提供预训练的内容和协同表示来实现。这表明仅仅将更多预训练的强大信息输入到现有的 RQ-VAE 架构中,就能获得显著提升。虽然 ADA-SID 在此基础上进一步提升,但 RQ-VAE++ 的存在也提示我们,基础嵌入的质量和多样性本身就具有巨大潜力。

  6. 负载均衡的解释不足:论文提到了负载均衡机制以避免 MoE 路由崩溃,但对其具体实现细节和效果的解释,特别是公式 lb\iint_{lb},同样模糊。在 MoE 架构中,负载均衡是一个重要的实践问题,更清晰的阐述将有助于理解其鲁棒性。

    总而言之,MMQ-v2 (ADA-SID) 在解决推荐系统中 SIDs 学习的实际挑战方面迈出了重要一步,特别是通过自适应机制处理不同信息丰富度的物品。其核心理念和在线验证结果令人印象深刻。然而,其方法论中一些公式表达的严谨性和清晰度仍有提升空间,这将有助于读者更好地理解和复现其创新。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。