Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations

Lin Liu

论文状态：已完成

Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations

发表：2025/03/04

原文链接 PDF 下载

价格：0.10

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究提出了级联组织双表示生成式检索框架（COBRA），创新性地将稀疏语义ID与密集向量整合。通过交替生成稀疏ID与密集向量，COBRA实现了端到端训练，动态优化密集表示，并有效捕获用户-物品交互中的语义与协同信号，实验结果验证其在推荐系统中的优越性。

摘要

Generative models have recently gained attention in recommendation systems by directly predicting item identifiers from user interaction sequences. However, existing methods suffer from significant information loss due to the separation of stages such as quantization and sequence modeling, hindering their ability to achieve the modeling precision and accuracy of sequential dense retrieval techniques. Integrating generative and dense retrieval methods remains a critical challenge. To address this, we introduce the Cascaded Organized Bi-Represented generAtive retrieval (COBRA) framework, which innovatively integrates sparse semantic IDs and dense vectors through a cascading process. Our method alternates between generating these representations by first generating sparse IDs, which serve as conditions to aid in the generation of dense vectors. End-to-end training enables dynamic refinement of dense representations, capturing both semantic insights and collaborative signals from user-item interactions. During inference, COBRA employs a coarse-to-fine strategy, starting with sparse ID generation and refining them into dense vectors via the generative model. We further propose BeamFusion, an innovative approach combining beam search with nearest neighbor scores to enhance inference flexibility and recommendation diversity. Extensive experiments on public datasets and offline tests validate our method's robustness. Online A/B tests on a real-world advertising platform with over 200 million daily users demonstrate substantial improvements in key metrics, highlighting COBRA's practical advantages.

思维导图

论文精读

中文精读约 36 分钟读完 · 23,156 字

1. 论文基本信息

1.1. 标题

稀疏与密集相遇：级联稀疏-密集表示的统一生成式推荐 (Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations)

1.2. 作者

Yuhao Yang, Zhi Ji, Zhaopeng Li, Yi Li, Zhonglin Mo, Yue Ding, Kai Chen, Zijian Zhang, Jie Li, Shuanglong Li, Lin Liu。所有作者均隶属于百度公司 (Baidu Inc.)，研究地点位于中国北京。

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台 (arXiv preprint)，目前尚未在特定期刊或会议上正式发表。根据论文提供的发表日期 Published at (UTC)：2025-03-04T10:00:05.000Z，这篇论文预计将于未来发表。

1.4. 发表年份

2025年。

1.5. 摘要

生成式模型 (Generative models) 近期在推荐系统 (recommendation systems) 中引起关注，它们能够直接从用户交互序列 (user interaction sequences) 中预测物品标识符 (item identifiers)。然而，现有方法因量化 (quantization) 和序列建模 (sequence modeling) 等阶段的分离而遭受显著信息损失，这限制了它们达到序列密集检索技术 (sequential dense retrieval techniques) 的建模精度和准确性。将生成式方法与密集检索方法相结合仍然是一个关键挑战。为了解决这个问题，本文引入了 级联组织双表示生成式检索 (Cascaded Organized Bi-Represented generAtive retrieval, COBRA) 框架。COBRA 创新性地通过级联过程整合了稀疏语义 ID (sparse semantic IDs) 和密集向量 (dense vectors)。该方法交替生成这些表示，首先生成稀疏 ID 作为条件，以辅助密集向量的生成。端到端训练 (end-to-end training) 使得密集表示 (dense representations) 能够动态优化，从而从用户-物品交互中同时捕获语义洞察 (semantic insights) 和协同信号 (collaborative signals)。在推理阶段，COBRA 采用粗粒度到细粒度 (coarse-to-fine) 的策略，从稀疏 ID 生成开始，并通过生成式模型将其细化为密集向量。论文进一步提出了 BeamFusion，一种将波束搜索 (beam search) 与最近邻分数 (nearest neighbor scores) 相结合的创新方法，以增强推理灵活性和推荐多样性 (recommendation diversity)。在公开数据集和离线测试上进行的广泛实验验证了 COBRA 方法的鲁棒性。在拥有超过 2 亿日活跃用户的真实广告平台上的在线 A/B 测试 (A/B tests) 表明，COBRA 在关键指标上取得了显著提升，突显了其在实践中的优势。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2503.02453 PDF 链接: https://arxiv.org/pdf/2503.02453v1.pdf 发布状态: arXiv 预印本。

2. 整体概括

2.1. 研究背景与动机

现代数字生态系统中的推荐系统 (recommendation systems) 对于提供个性化物品建议至关重要。随着用户交互数据的爆炸式增长，序列推荐方法 (sequential recommendation methods) 成为研究热点，它们利用用户交互的序列性质来提升推荐性能。

现有挑战与问题：

生成式模型的局限性： 尽管生成式模型能够直接预测目标物品，并在推理 (reasoning) 和少样本学习 (few-shot learning) 等方面表现出新兴能力，但现有方法（如 TIGER）在量化和序列建模阶段之间存在信息损失，导致其在建模精度和准确性上难以达到序列密集检索方法 (sequential dense retrieval methods) 的水平。
密集检索方法的局限性： 序列密集检索方法虽然精度高、鲁棒性强，但对存储和计算资源需求巨大。
整合难题： 如何有效地结合生成式模型的高效性与密集检索方法的精细度，从而弥补二者之间的差距，是一个关键的未解决问题。现有的混合模型 (hybrid models) 如 LIGER，虽然尝试结合稀疏 ID 和密集表示，但其密集表示通常是预训练且固定的，且稀疏 ID 和密集表示可能具有相同的粒度 (granularity)，限制了其灵活性。

论文的切入点/创新思路： 本文旨在弥合生成式推荐与密集检索之间的差距，通过引入一种创新的 级联组织双表示生成式检索 (COBRA) 框架。该框架将稀疏语义 ID (sparse semantic IDs) 和密集向量 (dense vectors) 通过级联过程进行整合，实现信息互补，并采用粗粒度到细粒度的生成策略，以同时捕获物品的高层语义和细粒度特征。

2.2. 核心贡献/主要发现

COBRA 框架的主要贡献可以总结为以下几点：

级联双表示检索框架 (Cascaded Bi-Represented Retrieval Framework)： 引入 COBRA，一个新颖的级联框架，交替生成稀疏语义 ID 和密集向量。通过将密集表示整合到 ID 序列中，COBRA 补充了基于 ID 方法固有的信息损失。使用稀疏 ID 作为生成密集向量的条件，降低了密集表示的学习难度。
通过端到端训练学习密集表示 (Learnable Dense Representations via End-to-End Training)： COBRA 利用原始物品数据作为输入，通过端到端训练生成密集表示。与静态嵌入不同，COBRA 的密集向量是动态学习的，能够捕获语义信息和细粒度细节。
粗粒度到细粒度生成过程 (Coarse-to-Fine Generation Process)： 在推理阶段，COBRA 采用粗粒度到细粒度生成过程。它首先生成稀疏 ID，然后将其反馈给模型以产生精细的密集表示，增强了密集向量的粒度。此外，论文提出了 BeamFusion 机制，用于灵活和多样化的推荐。
全面的实证验证 (Comprehensive Empirical Validation)： 在多个基准数据集上进行的广泛实验表明，COBRA 在推荐准确性方面超越了现有最先进的方法。这些结果验证了 COBRA 的有效性及其在推荐任务中平衡精度和多样性的能力。在真实的工业级广告平台上的在线 A/B 测试也证明了 COBRA 在转化率 (Conversion) 和平均每用户收入 (ARPU) 等关键业务指标上的显著提升。

3. 预备知识与相关工作

本节旨在为读者铺垫理解论文所需的前置知识，并介绍与 COBRA 框架相关的现有研究及其演进。

3.1. 基础概念

推荐系统 (Recommendation Systems)： 个性化信息过滤系统，旨在根据用户的历史行为、偏好以及物品特征，向用户推荐其可能感兴趣的物品（如商品、电影、音乐、新闻等）。
序列推荐 (Sequential Recommendation)： 一种推荐系统范式，它利用用户与物品交互的顺序信息来建模用户的动态偏好。例如，用户最近购买了什么，这会影响他们下一步可能购买的物品。
生成式模型 (Generative Models)： 在推荐系统语境下，生成式模型能够直接“生成”或“预测”目标物品的标识符 (ID)，而不是像判别式模型 (discriminative models) 那样计算每个物品的得分并进行排序。
密集检索 (Dense Retrieval)： 依赖于将用户和物品表示为高维密集向量（嵌入，embeddings）。通过计算这些向量之间的相似度（如余弦相似度），来检索最相关的物品。它能捕获细粒度的语义信息，但通常需要大量存储和计算资源。
稀疏 ID (Sparse ID) / 稀疏表示 (Sparse Representation)： 指的是离散的、通常是整数形式的类别标识符。在推荐系统中，它们可以作为物品的语义标签或分组编码，捕获物品的高层类别或语义信息。相比密集向量，它们存储和计算成本较低，但可能缺乏细粒度信息。
残差量化变分自编码器 (Residual Quantized Variational AutoEncoder, RQ-VAE)： 一种用于学习离散表示的神经网络架构。它通过将连续的输入向量量化 (quantize) 为一系列离散的码本向量 (codebook vectors) 来生成分层的、语义丰富的离散 ID。每个层级的量化都会捕获不同粒度的信息，并通过残差连接 (residual connections) 逐步细化。
Transformer 架构 (Transformer Architecture)： 一种基于自注意力机制 (self-attention mechanism) 的深度学习模型，广泛应用于序列建模任务。它能够并行处理序列中的所有元素，并捕获长距离依赖关系，克服了循环神经网络 (RNN) 的局限性。
- 自注意力机制 (Self-Attention Mechanism)： Transformer 的核心组件，它允许模型在处理序列中的每个元素时，计算该元素与序列中其他所有元素之间的关联强度。其计算公式为： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释：
  - $Q$ (Query)：查询矩阵，由输入序列的表示通过线性变换得到。
  - $K$ (Key)：键矩阵，由输入序列的表示通过线性变换得到。
  - $V$ (Value)：值矩阵，由输入序列的表示通过线性变换得到。
  - $K^T$ ：键矩阵 $K$ 的转置。
  - $QK^T$ ：查询与键的点积，表示查询与每个键的相似度。
  - $\sqrt{d_k}$ ：缩放因子，其中 $d_k$ 是键向量的维度，用于防止点积结果过大导致 softmax 梯度消失。
  - softmax：将相似度分数转换为概率分布，确保所有注意力权重之和为 1。
  - $V$ ：值矩阵，加权求和后得到注意力机制的输出。
对比学习 (Contrastive Learning)： 一种自监督学习范式，通过最大化相似样本（正样本对）之间的相似度，同时最小化不相似样本（负样本对）之间的相似度来学习鲁棒的表示。本文中用于优化密集向量。
波束搜索 (Beam Search)： 一种启发式图搜索算法，常用于生成式任务（如自然语言生成、序列推荐）。它在每一步保留 $M$ 个最有可能的部分序列（即“波束”），而不是像贪婪搜索 (greedy search) 那样只保留一个，从而在计算效率和生成质量之间取得平衡。
近似最近邻 (Approximate Nearest Neighbor, ANN) 搜索： 在高维空间中高效查找与给定查询点“足够近”的点的算法。由于精确最近邻搜索在高维空间中计算成本很高，ANN 算法通过牺牲一定精度来换取查询速度。

3.2. 前人工作

3.2.1. 序列密集推荐 (Sequential Dense Recommendation)

这类方法将用户和物品映射到密集嵌入空间，通过计算嵌入相似度进行推荐。

早期模型： GRU4Rec [14] 利用循环神经网络 (RNN) 捕获时间依赖；Caser [39] 使用卷积神经网络 (CNN) 将序列视为“图像”进行特征提取。
基于 Transformer 的模型： SASRec [18] 和 BERT4Rec [37] 引入自注意力机制，显著提升了性能。SASRec 专注于自回归任务 (autoregressive tasks)，BERT4Rec 采用双向上下文建模 (bidirectional context modeling)。
更高级模型： PinnerFormer [30] 和 FDSA [52] 进一步利用 Transformer 增强用户表示和特征整合。
跨域和对比学习： ZESRec [8]、UniSRec [15] 和 RecFormer [21] 结合文本特征和对比学习 (contrastive learning) 来提升跨域迁移能力。RecFormer 甚至通过双向 Transformer 统一了语言理解和序列推荐。

3.2.2. 生成式推荐 (Generative Recommendation)

这类方法直接生成物品 ID，而非计算排序分数。

统一框架： P5 [11] 将多种推荐任务转化为自然语言序列，提供了一个通用的推荐框架。
基于 RQ-VAE 的生成式检索： TIGER [33] 是生成式检索在推荐系统中应用的先驱。它使用 RQ-VAE 将物品内容特征编码为分层语义 ID，然后通过 Transformer 模型从用户历史中生成物品 ID。
语义与协同信息整合： LC-Rec [53] 通过额外的对齐任务，将语义 ID 与协同过滤 (collaborative filtering) 信息对齐。ColaRec [45] 结合协同过滤信号与内容信息。
与大语言模型 (LLM) 结合： IDGenRec [38] 利用 LLM 生成独特、简洁且语义丰富的文本 ID，在零样本 (zero-shot) 设置中展现潜力。
语义一致性与索引： SEATER [34] 关注通过平衡的 $k$ -叉树结构索引维护语义一致性。

3.3. 技术演进

推荐系统从早期的矩阵分解 (matrix factorization)、协同过滤等方法，发展到基于深度学习的序列推荐模型（如 GRU4Rec、SASRec），再到近期利用 Transformer 和生成式范式 (generative paradigm) 的模型（如 P5、TIGER）。序列密集推荐在捕捉用户行为模式和实现高精度方面表现出色，但计算和存储成本高昂。生成式推荐则在效率和新兴能力方面具有优势，但通常在细粒度建模和信息损失方面面临挑战。如何有效地结合这两类方法的优势，即如何在效率、精度和细粒度建模之间取得平衡，成为当前研究的关键。

3.4. 差异化分析

与 TIGER 的区别： TIGER 仅依赖稀疏 ID 进行生成式检索。COBRA 则整合了稀疏 ID 和密集向量，通过级联过程弥补了纯 ID 方法的信息损失，并动态学习密集表示。
与 LIGER 的区别： LIGER [48] 提出了一个混合模型，同时生成稀疏 ID 和密集表示，将它们视为相同对象粒度的互补表示。然而，LIGER 的密集表示是预训练和固定的，且其 ID 和密集表示可能具有相同的粒度。COBRA 的创新在于：
1. 级联生成： COBRA 采用先生成稀疏 ID，再以此为条件生成密集向量的级联策略，而非同时生成。
2. 可学习的密集表示： COBRA 的密集向量通过端到端训练动态学习和优化，而非固定。
3. 不同粒度： COBRA 明确区分了稀疏 ID 捕获的“粗粒度”语义和密集向量捕获的“细粒度”细节。
4. 粗粒度到细粒度推理： COBRA 在推理阶段采用独特的粗粒度到细粒度策略，进一步提升了推荐的精度和多样性。

4. 方法论

本节将详细介绍 级联组织双表示生成式检索 (COBRA) 框架的方法论。COBRA 创新性地将稀疏语义 ID 和密集向量通过级联过程整合，旨在解决现有生成式推荐模型在信息损失和建模精度上的不足。其核心思想是利用稀疏 ID 捕获高层语义，并以此为条件引导密集向量的生成和细化，从而在推荐过程中兼顾效率与精度。

下图（原文 Figure 2）展示了 COBRA 框架的整体结构：

该图像是一个示意图，展示了COBRA框架的稀疏与密集表示的级联过程。图中包括了稀疏ID生成与密集向量的交替生成过程，使用双向Transformer编码器与解码器进行建模体现了信息流的动态传递。

4.1. 方法原理

COBRA 的核心原理在于级联的稀疏-密集表示和粗粒度到细粒度的生成过程。它假设物品的表示可以分为两个互补的层面：

稀疏 ID (Sparse ID)： 离散的、语义丰富的标识符，捕获物品的类别本质或高层语义信息。这提供了一个稳定的分类基础。
密集向量 (Dense Vector)： 连续的、高维度的向量，捕获物品的细粒度特征和 nuanced 属性信息。这确保了模型能够处理连续的特征分辨率。

COBRA 的目标是构建一个统一的生成式模型，能够预测下一个物品的稀疏 ID 和密集向量。在训练时，模型通过端到端的方式共同优化这两种表示的预测。在推理时，模型首先生成粗粒度的稀疏 ID 候选，然后利用这些 ID 作为条件，生成对应的细粒度密集向量，并通过 BeamFusion 机制融合分数，最终进行推荐。这种设计减轻了纯 ID 方法的信息损失，并提升了密集表示的学习效率。

4.2. 核心方法详解

4.2.1. 稀疏-密集表示 (Sparse-Dense Representation)

4.2.1.1. 稀疏表示 (Sparse Representation)

COBRA 利用残差量化变分自编码器 (RQ-VAE) 来生成稀疏 ID，其灵感来源于 TIGER [33] 中的方法。对于每个物品，首先提取其属性（如标题、价格、类别、描述），将这些属性组织成文本描述，然后将其嵌入到一个密集的向量空间。接着，这个密集向量被量化 (quantized)，从而产生稀疏 ID。这些稀疏 ID 捕获了物品的类别本质 (categorical essence)，为后续处理奠定了基础。

注：论文为简化描述，假设稀疏 ID 仅包含一个级别。但在实际实现中，这种方法可以扩展到多级别稀疏 ID。

4.2.1.2. 密集表示 (Dense Representation)

为了捕获细微的属性信息，COBRA 开发了一个端到端可训练的密集编码器 (end-to-end trainable dense encoder)，用于编码物品的文本内容。每个物品的属性被扁平化为一个文本句子，前缀添加 [CLS] 词元 (token)，然后输入到基于 Transformer 的文本编码器 Encoder 中。密集表示 $\mathbf{v}_t$ 从 [CLS] 词元对应的输出中提取，它捕获了物品文本内容的细粒度细节。在 Figure 2 的下半部分所示，模型还结合了位置嵌入 (position embeddings) 和类型嵌入 (type embeddings)，以建模词元在序列中的位置和上下文信息。这些嵌入以相加的方式添加到词元嵌入中，增强了模型区分不同词元及其位置的能力。

4.2.1.3. 级联表示 (Cascaded Representation)

级联表示将稀疏 ID 和密集向量整合到一个统一的生成式模型中。具体而言，对于每个物品，其稀疏 ID $ID_t$ 和密集向量 $\mathbf{v}_t$ 被组合成一个级联表示 $(ID_t, \mathbf{v}_t)$ 。这种方法结合了两种表示的优势：稀疏 ID 通过离散约束提供了稳定的分类基础，而密集向量则保持了连续的特征分辨率，确保模型同时捕获高层语义和细粒度细节。

4.2.2. 序列建模 (Sequential Modeling)

4.2.2.1. 概率分解 (Probabilistic Decomposition)

目标物品的概率分布建模被分解为两个阶段，利用了稀疏和密集表示的互补优势。具体来说，COBRA 不是直接根据历史交互序列 $S_{1:t}$ 预测下一个物品 $s_{t+1}$ ，而是分别预测稀疏 ID $ID_{t+1}$ 和密集向量 $\mathbf{v}_{t+1}$ ： $P ( I D _ { t + 1 } , \mathbf { v } _ { t + 1 } | S _ { 1 : t } ) = P ( I D _ { t + 1 } | S _ { 1 : t } ) P ( \mathbf { v } _ { t + 1 } | I D _ { t + 1 } , S _ { 1 : t } )$ 符号解释：

$ID_{t+1}$ ：下一个时间步将要生成的稀疏 ID。
$\mathbf{v}_{t+1}$ ：下一个时间步将要生成的密集向量。
$S_{1:t}$ ：历史交互序列，包含从时间步 1 到 $t$ 的物品。
$P(ID_{t+1} | S_{1:t})$ ：在给定历史序列 $S_{1:t}$ 的条件下，生成稀疏 ID $ID_{t+1}$ 的概率，捕获下一个物品的类别本质。
$P(\mathbf{v}_{t+1} | ID_{t+1}, S_{1:t})$ ：在给定稀疏 ID $ID_{t+1}$ 和历史序列 $S_{1:t}$ 的条件下，生成密集向量 $\mathbf{v}_{t+1}$ 的概率，捕获下一个物品的细粒度细节。

这种分解允许 COBRA 同时利用稀疏 ID 提供的类别信息和密集向量捕获的细粒度细节。

4.2.2.2. 统一生成式模型进行序列建模 (Sequential Modeling with a Unified Generative Model)

COBRA 采用基于 Transformer 架构的统一生成式模型来有效捕获用户-物品交互中的序列依赖关系。Transformer 接收一个级联表示的输入序列，其中每个物品都由其稀疏 ID 和密集向量表示。

稀疏 ID 嵌入 (Embedding Sparse IDs)： 稀疏 ID $ID_t$ 通过一个嵌入层 (embedding layer) 转换到密集向量空间： $\mathbf{e}_t = \mathbf{Embed}(ID_t)$ 。这个嵌入 $\mathbf{e}_t$ 与密集向量 $\mathbf{v}_t$ 拼接 (concatenated) 起来，形成模型在每个时间步的输入： $\mathbf { h } _ { t } = [ \mathbf { e } _ { t } ; \mathbf { v } _ { t } ]$ 符号解释：
- $ID_t$ ：时间步 $t$ 的物品的稀疏 ID。
- $\mathbf{e}_t$ ：通过 Embed 层将 $ID_t$ 映射到密集向量空间得到的稀疏 ID 嵌入。
- $\mathbf{v}_t$ ：时间步 $t$ 的物品的密集向量。
- $\mathbf{h}_t$ ：时间步 $t$ 的物品的级联表示，是稀疏 ID 嵌入 $\mathbf{e}_t$ 和密集向量 $\mathbf{v}_t$ 的拼接。
Transformer 建模 (Transformer Modeling)： Transformer 解码器模型 (Transformer Decoder model) 包含多个层，每层都具有自注意力机制 (self-attention mechanisms) 和前馈网络 (feedforward networks)。如 Figure 2 的上半部分所示，解码器的输入序列由级联表示组成。为了增强对序列和上下文信息的建模，这些表示还通过物品位置嵌入 (item position embeddings) 和类型嵌入 (type embeddings) 进行增强。解码器处理这个丰富的输入，生成上下文相关的表示，用于预测后续的稀疏 ID 和密集向量。
稀疏 ID 预测 (Sparse ID Prediction)： 给定历史交互序列 $S_{1:t}$ 来预测稀疏 ID $ID_{t+1}$ ，Transformer 的输入序列为： $\begin{array} { l } { { \bf S } _ { 1 : t } = \left[ { \bf h } _ { 1 } , { \bf h } _ { 2 } , \ldots , { \bf h } _ { t } \right] } \\ { = \left[ \mathbf e _ { 1 } , \mathbf v _ { 1 } , \mathbf e _ { 2 } , \mathbf v _ { 2 } , \ldots , \mathbf e _ { t } , \mathbf v _ { t } \right] } \end{array}$ Transformer 解码器处理序列 $\mathbf{S}_{1:t}$ ，产生一系列向量 $\mathbf{y}_t = \mathrm{TransformerDecoder}(\mathbf{S}_{1:t})$ 。稀疏 ID 预测的逻辑 (logits) 通过一个稀疏头 (SparseHead) 派生： $\mathbf { z } _ { t + 1 } = \mathbf { SparseHead } ( \mathbf { y } _ { t } )$ 符号解释：
- $\mathbf{S}_{1:t}$ ：由历史交互物品的级联表示 $\mathbf{h}_i$ 组成的输入序列。
- $\mathbf{y}_t$ ：Transformer 解码器处理 $\mathbf{S}_{1:t}$ 后在时间步 $t$ 产生的上下文相关表示。
- $\mathbf{SparseHead}$ ：一个全连接层，将 $\mathbf{y}_t$ 映射到稀疏 ID 类别空间。
- $\mathbf{z}_{t+1}$ ：预测稀疏 ID $ID_{t+1}$ 的逻辑值 (logits)。
密集向量预测 (Dense Vector Prediction)： 对于预测密集向量 $\mathbf{v}_{t+1}$ ，Transformer 的输入序列是： $\begin{array} { l } { { \bar { \mathbf { S } } } _ { 1 : t } = [ \mathbf { S } _ { 1 : t } , \mathbf { e } _ { t + 1 } ] } \\ { { \qquad = [ \mathbf { e } _ { 1 } , \mathbf { v } _ { 1 } , \mathbf { e } _ { 2 } , \mathbf { v } _ { 2 } , \dots , \mathbf { e } _ { t } , \mathbf { v } _ { t } , \mathbf { e } _ { t + 1 } ] } } \end{array}$ 符号解释：
- $\bar{\mathbf{S}}_{1:t}$ ：在原始序列 $\mathbf{S}_{1:t}$ 之后，将已预测的稀疏 ID $ID_{t+1}$ 的嵌入 $\mathbf{e}_{t+1}$ 拼接起来形成的序列。这是级联的核心体现，即稀疏 ID 作为条件来帮助生成密集向量。 Transformer 解码器处理 $\bar{\mathbf{S}}_{1:t}$ ，输出预测的密集向量： $\hat { \mathbf { v } } _ { t + 1 } = \mathbf { TransformerDecoder } ( \bar { \mathbf { S } } _ { 1 : t } )$ 符号解释：
- $\hat{\mathbf{v}}_{t+1}$ ：Transformer 解码器预测的下一个物品的密集向量。

4.2.3. 端到端训练 (End-to-End Training)

在 COBRA 中，端到端训练过程旨在联合优化稀疏 ID 预测和密集向量预测。训练过程由一个复合损失函数 (composite loss function) 控制，该函数结合了稀疏 ID 预测损失和密集向量预测损失。

稀疏 ID 预测损失 ( $\mathcal{L}_{\mathrm{sparse}}$ )： 确保模型能够根据历史序列 $S_{1:t}$ 准确预测下一个稀疏 ID。这是一个标准的交叉熵损失 (cross-entropy loss)： $\mathcal { L } _ { \mathrm { s p a r s e } } = - \sum _ { t = 1 } ^ { T - 1 } \log \left( \frac { \exp ( z _ { t + 1 } ^ { I D _ { t + 1 } } ) } { \sum _ { j = 1 } ^ { C } \exp ( z _ { t + 1 } ^ { j } ) } \right)$ 符号解释：
- $T$ ：历史序列的长度。
- $ID_{t+1}$ ：时间步 $t+1$ 的真实稀疏 ID。
- $z_{t+1}^{ID_{t+1}}$ ：在时间步 $t+1$ 处，由 Transformer 解码器生成的、对应于真实稀疏 ID $ID_{t+1}$ 的预测逻辑值 (logit)。
- $C$ ：所有稀疏 ID 的集合（即码本大小）。
- $\exp(\cdot)$ ：指数函数。
- $\sum_{j=1}^C \exp(z_{t+1}^j)$ ：所有稀疏 ID 逻辑值的指数和，用于 softmax 归一化。
密集向量预测损失 ( $\mathcal{L}_{\mathrm{dense}}$ )： 专注于优化密集向量，使其能够区分相似和不相似的物品。该损失函数类似于 InfoNCE 损失，鼓励预测的密集向量与真实正样本 (ground truth positive item) 的密集向量相似，同时远离批量中的负样本 (negative samples)： $\mathcal { L } _ { \mathrm { d e n s e } } = - \sum _ { t = 1 } ^ { T - 1 } \log \frac { \exp ( \cos ( \hat { \mathbf { v } } _ { t + 1 } \cdot \mathbf { v } _ { t + 1 } ) ) } { \sum _ { i t e m _ { j } \in \mathrm { B a t c h } } \exp ( \cos ( \hat { \mathbf { v } } _ { t + 1 } , \mathbf { v } _ { i t e m _ { j } } ) ) }$ 符号解释：
- $\hat{\mathbf{v}}_{t+1}$ ：预测的密集向量。
- $\mathbf{v}_{t+1}$ ：真实正样本物品的密集向量。
- $\mathbf{v}_{item_j}$ ：批次中其他物品的密集向量，作为负样本。
- $\cos(\mathbf{a}, \mathbf{b})$ ：向量 $\mathbf{a}$ 和 $\mathbf{b}$ 之间的余弦相似度。余弦相似度越高，表示向量方向越相似，即越接近。
- Batch：当前训练批次中的所有物品。
  
  密集向量由一个端到端可训练的编码器 Encoder 生成，该编码器在训练过程中进行优化。这确保了密集向量能够根据推荐任务的特定需求进行动态细化和调整。
总损失函数 ( $\mathcal{L}$ )： 整体损失函数由稀疏 ID 预测损失和密集向量预测损失组成： $\mathcal { L } = \mathcal { L } _ { \mathrm { s p a r s e } } + \mathcal { L } _ { \mathrm { d e n s e } }$ 这个双目标损失函数实现了平衡的优化过程，模型在稀疏 ID 的指导下动态细化密集向量。这种端到端训练方法同时捕获高层语义和特征级别的信息，联合优化稀疏和密集表示以获得卓越性能。

4.2.4. 粗粒度到细粒度生成 (Coarse-to-Fine Generation)

在推理阶段，COBRA 采用粗粒度到细粒度的生成过程，涉及稀疏 ID 的顺序生成，然后以级联方式细化密集向量。下图（原文 Figure 3）详细展示了这一过程：

$Figure 3: Illustration of the Coarse-to-Fine Generation process. During inference, $M$ sparse IDs are generated via Beam Search, and appended to the sequence. Dense vectors are then generated and use…$ 该图像是示意图，展示了生成模型在稀疏ID生成和密集向量候选项之间的过程。通过Beam Search生成 $ID_{M+1}$ ，再生成候选密集向量，最后使用BeamFusion结合Beam Score和NN Score对候选项进行评分，选取Top K广告。

这个过程包括两个主要阶段：

稀疏 ID 生成 (Sparse ID Generation)： 给定用户序列 $S_{1:T}$ ，COBRA 利用 Transformer 解码器建模的 ID 概率分布 $P(ID_{T+1} | S_{1:T})$ ，并采用波束搜索 (BeamSearch) 算法来推导出前 $M$ 个稀疏 ID： $\{ { \hat { \mathbf { I D } } } _ { T + 1 } ^ { k } \} _ { k = 1 } ^ { M } = { \mathrm { B eamS earch } } ( { \mathrm { T ransformerD ecoder } } ( \mathbb { S } _ { 1 : T } ) , M )$ 符号解释：
- $\hat{\mathbf{ID}}_{T+1}^k$ ：通过波束搜索生成的第 $k$ 个稀疏 ID 候选。
- $M$ ：波束搜索的宽度，即生成的稀疏 ID 候选数量。
- BeamSearch：波束搜索算法。
- $\mathrm{TransformerDecoder}(\mathbb{S}_{1:T})$ ：Transformer 解码器根据历史序列 $\mathbb{S}_{1:T}$ 产生的用于预测稀疏 ID 的输出。
  
  每个生成的稀疏 ID $\hat{\mathbf{ID}}_{T+1}^k$ 都关联一个波束分数 ( $\phi_{\hat{\mathbf{ID}}_{T+1}^k}$ )。随后，这个稀疏 ID 被转换成嵌入并附加到之前的级联序列嵌入 $\mathbf{S}_{1:T}$ 后，用于生成对应的密集向量 $\hat{\mathbf{v}}_{T+1}^k$ ： $\hat { \mathbf { v } } _ { T + 1 } ^ { k } = \mathrm { TransformerDecoder } ( [ \hat { \mathbf { S } } _ { 1 : T } , \mathbf { Embed } ( \hat { \mathbf { I D } } _ { T + 1 } ^ { k } ) ] )$ 符号解释：
- $\hat{\mathbf{v}}_{T+1}^k$ ：在给定生成的稀疏 ID $\hat{\mathbf{ID}}_{T+1}^k$ 及其嵌入 $\mathbf{Embed}(\hat{\mathbf{ID}}_{T+1}^k)$ 后，由 Transformer 解码器预测的密集向量。
- $[\hat{\mathbf{S}}_{1:T}, \mathbf{Embed}(\hat{\mathbf{ID}}_{T+1}^k)]$ ：将历史序列的级联表示与当前预测的稀疏 ID 嵌入拼接而成的输入序列。
  
  在此之后，采用近似最近邻 (ANN) 搜索来检索与每个生成的密集向量 $\hat{\mathbf{v}}_{T+1}^k$ 最相似的 $N$ 个候选物品： $\mathcal { R } _ { k } = \mathrm { A N N } ( \mathbf { \hat { v } } _ { T + 1 } ^ { k } , C ( \mathbf { \hat { I D } } _ { T + 1 } ^ { k } ) , N )$ 符号解释：
- $\mathcal{R}_k$ ：由第 $k$ 个生成的密集向量 $\hat{\mathbf{v}}_{T+1}^k$ 通过 ANN 搜索得到的 $N$ 个候选物品集合。
- $C(\hat{\mathbf{ID}}_{T+1}^k)$ ：所有属于稀疏 ID $\hat{\mathbf{ID}}_{T+1}^k$ 的物品集合。ANN 搜索在此子集中进行。
- $N$ ：每个稀疏 ID 下检索的候选物品数量。
BeamFusion 机制 (BeamFusion Mechanism)： 为了在精度和多样性之间取得平衡，论文设计了一种全局可比较的物品分数，该分数能够同时反映不同稀疏 ID 之间的差异以及同一稀疏 ID 下物品之间的细粒度差异。BeamFusion 机制定义如下： $\Phi ^ { ( \hat { \mathbf { v } } _ { T + 1 } ^ { k } , \hat { \mathbf { I D } } _ { T + 1 } ^ { k } , \mathbf { a } ) } = \mathrm { Softmax } ( \tau \phi _ { \hat { \mathbf { I D } } _ { T + 1 } ^ { k } } ) \times \mathrm { Softmax } ( \psi \cos ( \hat { \mathbf { v } } _ { T + 1 } ^ { k } , \mathbf { a } ) )$ 符号解释：
- $\Phi^{(\hat{\mathbf{v}}_{T+1}^k, \hat{\mathbf{ID}}_{T+1}^k, \mathbf{a})}$ ：候选物品 $\mathbf{a}$ 在给定生成的密集向量 $\hat{\mathbf{v}}_{T+1}^k$ 和稀疏 ID $\hat{\mathbf{ID}}_{T+1}^k$ 下的 BeamFusion 分数。
- $\mathbf{a}$ ：一个候选物品。
- $\tau$ 和 $\psi$ ：可调节的系数，用于平衡波束分数和余弦相似度分数的影响。
- $\phi_{\hat{\mathbf{ID}}_{T+1}^k}$ ：在波束搜索过程中获得的稀疏 ID $\hat{\mathbf{ID}}_{T+1}^k$ 的波束分数。
- $\cos(\hat{\mathbf{v}}_{T+1}^k, \mathbf{a})$ ：生成的密集向量 $\hat{\mathbf{v}}_{T+1}^k$ 与候选物品 $\mathbf{a}$ 的密集向量之间的余弦相似度。
- Softmax：将分数转换为概率分布，确保不同部分的分数在相似尺度上进行融合。
  
  最后，所有候选物品根据其 BeamFusion 分数进行排名，并选择前 $K$ 个物品作为最终推荐： $\mathcal { R } = \mathrm { TopK } \left( \bigcup _ { k = 1 } ^ { M } \mathcal { R } _ { k } , \Phi , K \right)$ 符号解释：
- $\mathcal{R}$ ：最终的推荐集合。
- $\bigcup_{k=1}^M \mathcal{R}_k$ ：所有 $M$ 个稀疏 ID 及其对应的 ANN 检索结果的并集。
- $\mathrm{TopK}(\cdot, \Phi, K)$ ：从所有候选物品中，根据 BeamFusion 分数 $\Phi$ 选择前 $K$ 个物品的操作。

5. 实验设置

本节详细介绍 COBRA 框架的实验设置，包括使用的数据集、评估指标、对比基线模型以及实现细节。

5.1. 数据集

实验使用了两类数据集：公开数据集和工业级数据集。

公开数据集 (Public Datasets)：
- 来源： Amazon Product Reviews 数据集 [13, 29]。这是一个成熟的推荐任务基准数据集，包含从 1996 年 5 月到 2014 年 9 月的产品评论和相关元数据。
- 子集： 实验选取了三个子集进行分析：“Beauty”、“Sports and Outdoors”和“Toys and Games”。
- 物品嵌入： 物品嵌入 (item embeddings) 是利用标题、价格、类别和描述等属性构建的。
- 数据预处理： 采用 5-core 过滤，即删除少于 5 次用户交互的物品和少于 5 次物品交互的用户，以确保数据质量。
- 数据集统计：
  
  Dataset # Users # Items Sequence Length
  
  Mean Median
  
  Beauty 22,363 12,101 8.87 6
  
  Sports and Outdoors 35,598 18,357 8.32 6
  
  Toys and Games 19,412 11,924 8.63 6
工业级数据集 (Industrial-scale Dataset)：
- 来源： 百度工业数据集 (Baidu Industrial Dataset)，这是一个从百度广告平台用户交互日志中衍生的大规模数据集。
- 特点： 涵盖列表页 (list-page)、双列 (dual-column) 和短视频 (short-video) 等多种推荐场景。包含 500 万用户和 200 万广告。
- 物品表示： 广告主和广告通过标题、行业标签、品牌和推广文本等属性进行表示。这些属性被处理并编码成两级稀疏 ID 和密集向量，以捕获粗粒度和细粒度的语义信息。
- 数据集划分： 训练集 $D_{\mathrm{train}}$ 包含前 60 天的用户交互日志；测试集 $D_{\mathrm{test}}$ 由 $D_{\mathrm{train}}$ 之后一天的日志构建。

5.2. 评估指标

Recall@K (召回率@K)：
1. 概念定义： Recall@K 衡量推荐系统在生成的 K 个推荐结果中，实际与用户相关的项目所占的比例。它关注系统能够“找回”多少用户感兴趣的项目，而不关心这些项目在列表中的具体位置。
2. 数学公式： 对于单个用户，Recall@K 的计算公式为： $\mathrm{Recall@K} = \frac{|\text{Retrieved}_K \cap \text{Relevant}|}{|\text{Relevant}|}$ 通常，最终报告的 Recall@K 是所有用户 Recall@K 值的平均。
3. 符号解释：
  - $\text{Retrieved}_K$ ：推荐系统为用户生成的长度为 K 的推荐列表。
  - $\text{Relevant}$ ：用户在测试集中实际互动过的所有相关项目集合。
  - $|\cdot|$ ：集合的基数，即集合中元素的数量。在公共数据集实验中，使用 $K=5$ 和 $K=10$ 。在工业级数据集实验中，使用 $K \in \{50, 100, 200, 500, 800\}$ 。
NDCG@K (Normalized Discounted Cumulative Gain@K，归一化折损累积增益@K)：
1. 概念定义： NDCG@K 是一个衡量推荐列表排序质量的指标，它不仅关注推荐的相关性，还考虑相关项目在列表中的位置。排名越靠前且相关性越高的项目，其贡献越大。
2. 数学公式： 首先计算 DCG@K (Discounted Cumulative Gain)： $\mathrm{DCG@K} = \sum_{i=1}^K \frac{2^{\mathrm{rel}_i}-1}{\log_2(i+1)}$ 然后计算 IDCG@K (Ideal Discounted Cumulative Gain)，即理想排序下的 DCG@K： $\mathrm{IDCG@K} = \sum_{i=1}^K \frac{2^{\mathrm{rel}_{i_{ideal}}}-1}{\log_2(i+1)}$ 最后，NDCG@K 是 DCG@K 与 IDCG@K 的比值： $\mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}$
3. 符号解释：
  - $\mathrm{rel}_i$ ：推荐列表中排名第 $i$ 个项目的相关性得分。在二元相关性场景下（如用户点击或未点击）， $\mathrm{rel}_i$ 为 1 或 0。
  - $\mathrm{rel}_{i_{ideal}}$ ：理想排序下，排名第 $i$ 个项目的相关性得分。理想排序是将所有相关项目按最高相关性从高到低排列。
  - $\log_2(i+1)$ ：对排名位置 $i$ 进行折损，位置越靠后，折损越大。在公共数据集实验中，使用 $K=5$ 和 $K=10$ 。
Conversion (转化率)：
1. 概念定义： Conversion 衡量用户在接收到推荐后，完成特定预期行为（例如点击广告、购买商品、注册服务等）的百分比。它直接反映了推荐系统对用户行为的实际驱动能力。
2. 数学公式： $\mathrm{Conversion} = \frac{\text{完成目标行为的用户数}}{\text{接收推荐的用户总数}} \times 100\%$
3. 符号解释：
  - 完成目标行为的用户数：在特定时间段内，对推荐项目执行了目标行为（如点击、购买）的唯一用户数量。
  - 接收推荐的用户总数：在同一时间段内，接收到推荐系统的推荐并活跃的用户总数。此指标用于在线 A/B 测试。
ARPU (Average Revenue Per User，平均每用户收入)：
1. 概念定义： ARPU 衡量在特定时期内，平均每个用户为平台带来的收入。这是一个重要的商业指标，反映了推荐系统对平台经济价值的贡献。
2. 数学公式： $\mathrm{ARPU} = \frac{\text{总收入}}{\text{用户总数}}$
3. 符号解释：
  - 总收入：在特定时间段内，通过用户与推荐项目的互动（如广告展示、点击、购买）所产生的总收益。
  - 用户总数：在同一时间段内，活跃用户或被推荐用户的总数。此指标用于在线 A/B 测试。

5.3. 对比基线 (Baselines)

5.3.1. 公开数据集基线

为了全面评估 COBRA 的性能，将其与多种最先进的推荐方法进行了比较：

P5 [11]：将推荐任务转化为自然语言序列的通用框架。
Caser [39]：利用卷积层捕获序列模式。
HGN [28]：采用分层门控网络 (hierarchical gating networks) 捕捉用户长期和短期兴趣。
GRU4Rec [14]：使用门控循环单元 (gated recurrent units) 建模用户行为。
SASRec [18]：基于 Transformer 的模型，用于捕获用户序列中的长期依赖关系。
FDSA [52]：基于自注意力机制的模型，用于物品特征转换。
BERT4Rec [37]：采用带有 cloze 目标 (cloze objective) 的双向自注意力机制进行序列推荐。
S3-Rec [55]：通过互信息最大化 (mutual information maximization) 进行自监督学习的序列推荐模型。
TIGER [33]：使用 RQ-VAE 编码物品内容特征，并使用 Transformer 进行生成式检索。

5.3.2. 工业级数据集基线

在工业级数据集上，COBRA 主要与其变体进行比较，以进行消融研究 (ablation study)：

COBRA w/o ID：移除稀疏 ID，仅依赖密集向量。此变体类似于 RecFormer [21]，使用轻量级 Transformer 进行序列建模。
COBRA w/o Dense：移除密集向量，仅使用稀疏 ID。由于 ID 的粗粒度特性，此变体采用类似于 TIGER [33] 的生成式检索方法，利用语义 ID 进行检索。
COBRA w/o BeamFusion：移除 BeamFusion 模块。此变体使用 top-1 稀疏 ID 和最近邻检索 (nearest-neighbor retrieval) 来获取 top-k 结果。

5.4. 实现细节

稀疏 ID 生成： 采用类似于 [33] 中使用的方法生成语义 ID。具体配置是 3 级语义 ID (3-level semantic ID structure)，每级码本大小为 32。这些语义 ID 通过 T5 模型生成。
COBRA 架构： 采用轻量级架构，包含一个 1 层编码器 (1-layer encoder) 和一个 2 层解码器 (2-layer decoder)。
工业级数据集的稀疏 ID 配置： 在工业级数据集中，稀疏 ID 配置为 2 级语义 ID（ $32 \times 32$ ）。
COBRA w/o Dense 的稀疏 ID 配置： 为了更细粒度地建模广告，COBRA w/o Dense 变体采用 3 级语义 ID ( $256 \times 256 \times 256$ )。

6. 实验结果与分析

本节将详细展示 COBRA 框架在公开数据集和工业级数据集上的实验结果，并进行深入分析，包括核心结果、消融实验、表示学习分析、召回-多样性平衡以及在线 A/B 测试结果。

6.1. 核心结果分析

6.1.1. 公开数据集上的性能比较

COBRA 在公开数据集上持续超越所有基线模型，验证了其在推荐准确性方面的优越性能。以下是原文 Table 2 的结果：

Dataset	Method	@5		@10
Dataset	Method	R@5	N@5	R@10	N@10
Beauty	P5	0.0163	0.0107	0.0254	0.0136
	Caser	0.0205	0.0131	0.0347	0.0176
	HGN	0.0325	0.0206	0.0512	0.0266
	GRU4Rec	0.0164	0.0099	0.0283	0.0137
	BERT4Rec	0.0203	0.0124	0.0347	0.0170
	FDSA	0.0267	0.0163	0.0407	0.0208
	SASRec	0.0387	0.0249	0.0605	0.0318
	S3-Rec	0.0454	0.0244	0.0647	0.0327
	TIGER	0.0454	0.0321	0.0648	0.0384
	COBRA[Ours]	0.0537	0.0395	0.0725	0.0456
Sports and Outdoors	P5	0.0061	0.0041	0.0095	0.0052
	Caser	0.0116	0.0072	0.0194	0.0097
	HGN	0.0189	0.0120	0.0313	0.0159
	GRU4Rec	0.0129	0.0086	0.0204	0.0110
	BERT4Rec	0.0115	0.0075	0.0191	0.0099
	FDSA	0.0182	0.0122	0.0288	0.0156
	SASRec	0.0233	0.0154	0.0350	0.0192
	S3-Rec	0.0251	0.0161	0.0385	0.0204
	TIGER	0.0264	0.0181	0.0400	0.0215
	COBRA[Ours]	0.0305	0.0221	0.0434	0.0257
Toys and Games	P5	0.0070	0.0050	0.0121	0.0066
	Caser	0.0166	0.0071	0.0270	0.0141
	HGN	0.0321	0.0140	0.0497	0.0277
	GRU4Rec	0.0097	0.0059	0.0176	0.0084
	BERT4Rec	0.0116	0.0070	0.0203	0.0099
	FDSA	0.0228	0.0124	0.0381	0.0189
	SASRec	0.0463	0.0225	0.0675	0.0374
	S3-Rec	0.0443	0.0294	0.0700	0.0396
	TIGER	0.0521	0.0306	0.0700	0.0396
	COBRA[Ours]	0.0619	0.0371	0.0772	0.0440

分析：

Beauty 数据集： COBRA 在 Recall@5 达到 0.0537，在 Recall@10 达到 0.0725，分别比次优模型 (TIGER) 提高了 18.3% 和 11.9%。NDCG@5 和 NDCG@10 也有显著提升。
Sports and Outdoors 数据集： COBRA 的 Recall@5 为 0.0305，NDCG@10 为 0.0215，分别优于 TIGER 15.5% 和 18.8%。
Toys and Games 数据集： COBRA 的 Recall@10 达到 0.0772，NDCG@10 为 0.0440，分别超越 TIGER 24.5% 和 19.2%。这些结果强有力地证明了 COBRA 在多个公开数据集上的卓越性能，其级联稀疏-密集表示和粗粒度到细粒度生成策略有效提升了推荐准确性。

6.1.2. 工业级数据集上的性能比较

COBRA 在工业级数据集上也表现出色，显著优于其变体模型，突显了其各组件的有效性。以下是原文 Table 3 的结果：

Method	R@50	R@100	R@200	R@500	R@800
COBRA	0.1180	0.1737	0.2470	0.3716	0.4466
COBRA w/o ID	0.0611	0.0964	0.1474	0.2466	0.3111
COBRA w/o Dense	0.0690	0.1032	0.1738	0.2709	0.3273
COBRA w/o BeamFusion	0.0856	0.1254	0.1732	0.2455	0.2855

分析：

COBRA 的优越性： COBRA 在所有评估指标上都持续超越其变体。例如，在 $K=500$ 时，COBRA 的 Recall@500 达到 0.3716，比 COBRA w/o Dense 变体提升了 42.2%。在 $K=800$ 时，COBRA 的 Recall@800 达到 0.4466，比 COBRA w/o ID 变体提升了 43.6%，比 COBRA w/o BeamFusion 提升了 36.1%。
级联表示的重要性： 在较小的 $K$ 值下，缺乏密集表示 (COBRA w/o Dense) 或稀疏 ID (COBRA w/o ID) 会导致更显著的性能下降。这强调了级联表示对于实现粒度和精度的重要性。
BeamFusion 的有效性： 随着召回大小 $K$ 的增加，BeamFusion 带来的性能优势愈发明显，表明其在实际工业级召回系统中提升召回多样性和准确性的有效性。

6.2. 消融实验与参数分析

工业级数据集上的变体比较实际上就是对 COBRA 各核心组件的消融实验。

移除稀疏 ID (COBRA w/o ID)： 导致召回率下降 26.7% 到 41.5%（例如，R@50 从 0.1180 降至 0.0611）。这突出了语义分类在捕获物品高层信息方面的关键作用。
移除密集向量 (COBRA w/o Dense)： 导致性能下降 30.3% 到 48.3%（例如，R@50 从 0.1180 降至 0.0690）。这强调了密集向量在提供细粒度建模方面的不可或缺性。
移除 BeamFusion (COBRA w/o BeamFusion)： 导致召回率下降 27.5% 到 36.1%（例如，R@50 从 0.1180 降至 0.0856）。这强调了 BeamFusion 在整合稀疏信号、平衡精度和多样性方面的显著作用。

6.3. 进一步分析

6.3.1. 表示学习分析 (Analysis of Representation Learning)

为了评估 COBRA 模型的表示学习能力，论文构建了广告密集嵌入的相似性矩阵。

内 ID 凝聚和间 ID 分离： COBRA 模型在 Figure 4a（原文 Figure 4a 的上部热图）中展示了显著的内 ID 凝聚力 (intra-ID cohesion) 和间 ID 分离性 (inter-ID separation)。这表明 COBRA 的密集嵌入能够熟练地捕获详细的物品特征，同时保持类别内部的语义一致性。
稀疏 ID 的重要性： 相比之下，不包含稀疏 ID 的模型变体（Figure 4b）显示出较弱的类别分离。Figure 4c 中的差异矩阵定量证实，结合稀疏 ID 能够增强凝聚力和分离性。

下图（原文 Figure 4）展示了余弦相似性矩阵的对比：

该图像是一个示意图，展示了COBRA方法与无ID版本的余弦相似性矩阵对比，其中(a)为COBRA方法的相似性，(b)为未采用ID的相似性，(c)则显示两者之间的差异。通过这种比较，可以直观地观察到COBRA方法在广告推荐中的效果提升。

此外，通过使用 t-SNE 可视化 10,000 个随机采样的广告嵌入在二维空间中的分布，进一步验证了 COBRA 的嵌入效果。

清晰的聚类中心： Figure 5（原文 Figure 6，文本描述为 Figure 5）显示，广告能够有效地按类别聚类，表明类别内部具有很强的凝聚力。图中紫色、蓝绿色、浅绿色和深绿色聚类主要对应小说、游戏、法律服务和服装广告，这表明广告表示能够有效捕获语义信息。

下图（原文 Figure 6，文本描述为 Figure 5）展示了 t-SNE 嵌入可视化结果：

该图像是图表，展示了不同阈值下的召回率与多样性的变化关系。横轴为阈值 $T$ ，纵轴分别表示召回率与多样性。随着阈值的变化，召回率整体上升至约 0.6，而多样性则呈现先升后降的趋势，体现了推荐系统在不同设置下的表现差异。

6.3.2. 召回-多样性平衡 (Recall-Diversity Equilibrium)

推荐系统检索阶段的一个挑战是平衡准确性和多样性。为了分析 COBRA 中的这种权衡，论文检查了召回-多样性曲线，这些曲线描述了在固定 $\psi=16$ 的情况下，召回率和多样性指标如何随 BeamFusion 机制中的系数 $\tau$ 变化而变化。

$\tau$ 对多样性的影响： Figure 6（原文 Figure 5，文本描述为 Figure 6）中的曲线表明，增加 $\tau$ 通常会导致多样性下降。
最佳平衡点： COBRA 在 $\tau = 0.9$ 和 $\psi = 16$ 时，在召回率和多样性之间取得了最佳平衡。在此点，模型保持高准确性，同时确保推荐涵盖足够多样的物品。多样性指标被定义为召回物品中不同 ID 的数量，这反映了模型避免冗余并为用户提供更广泛选择的能力。
灵活性： 对 $\tau$ 和 $\psi$ 的这种细粒度控制允许实践者根据具体的业务目标调整对准确性或多样性的侧重。例如，优先考虑探索的平台可以减小 $\tau$ 以增强多样性。这种灵活性使得 COBRA 比具有固定检索策略的模型更具适应性。

下图（原文 Figure 5，文本描述为 Figure 6）展示了召回-多样性曲线：

$Figure 6: Recall-Diversity Curves. The $\\mathbf { x }$ axis represents the coefficient $\\tau$ , and the y-axis shows the Recall $\\textcircled { a } 2 \\mathbf { 0 0 0 }$ and Diversity metrics.$ 该图像是一个示意图，展示了不同类别的稀疏表示。图中颜色分散的点代表了不同的用户互动和推荐对象，周围的插图标示出与特定数据群体相关的具体示例，以增强可视化理解。

6.4. 在线结果 (Online Results)

为了验证 COBRA 在真实世界中的有效性，研究团队于 2025 年 1 月在百度工业数据集上进行了在线 A/B 测试。

测试规模： 测试覆盖了 10% 的用户流量，确保了统计显著性。
评估指标： 主要评估指标是转化率 (Conversion) 和平均每用户收入 (ARPU)，这些指标直接反映了用户参与度和经济价值。
结果： 在 COBRA 策略覆盖的领域，转化率 (Conversion) 实现了 3.60% 的增长，平均每用户收入 (ARPU) 实现了 4.15% 的增长。
结论： 这些结果表明，COBRA 的混合架构不仅在离线评估中提升了推荐质量，而且在生产环境中也带来了可衡量的业务成果，证实了其实用优势。

7. 总结与思考

7.1. 结论总结

本文介绍了 COBRA 框架，一个创新的生成式推荐框架，它通过整合级联的稀疏和密集表示来提升推荐的准确性和多样性。COBRA 的核心在于其粗粒度到细粒度 (coarse-to-fine) 的生成过程：首先生成稀疏 ID 以捕获物品的类别本质，然后以此为条件，通过生成式模型将其细化为密集向量。这种方法有效地弥补了纯稀疏 ID 模型的信息损失，同时利用了密集表示的细粒度特征。此外，提出的 BeamFusion 机制通过结合波束搜索分数和最近邻分数，增强了推理的灵活性，实现了召回率和多样性之间的平衡。通过在公开数据集和工业级数据集上进行的广泛实验，COBRA 证明其性能超越了现有最先进的方法。在线 A/B 测试在真实世界广告平台上的显著业务增长，进一步证实了 COBRA 的有效性和实际应用价值。COBRA 通过同时利用稀疏和密集表示的优势，为大规模推荐任务提供了一个鲁棒且高效的解决方案。

7.2. 局限性与未来工作

论文正文并未设立专门的章节详细阐述局限性和未来工作。但根据其研究内容和现有推荐系统领域的挑战，可以推断出以下潜在的局限性和未来研究方向：

稀疏 ID 生成的成本与灵活性： 论文提到稀疏 ID 是通过 RQ-VAE 生成的，这通常是一个预训练过程。如果物品集合发生剧烈变化或需要实时更新物品 ID，预训练 RQ-VAE 的成本可能会成为一个考量。未来工作可能探索更动态或自适应的稀疏 ID 生成机制。
模型复杂性与推理延迟： COBRA 引入了级联的稀疏 ID 和密集向量生成，以及 BeamFusion 等机制。尽管宣称轻量级架构（1层编码器，2层解码器），但相比纯粹的密集检索或简单生成模型，其推理流程涉及多个步骤（Beam Search、ANN、BeamFusion），可能会在对延迟要求极高的场景中带来挑战。未来的研究可以探索更高效的推理优化技术。
通用性与跨领域应用： 论文主要在电商和广告领域进行了验证。COBRA 的架构在其他推荐场景（如新闻、视频、社交媒体）中的表现如何，以及是否需要针对特定领域进行调整，值得进一步探索。例如，对于冷启动物品（新上架物品）或冷启动用户，如何生成高质量的稀疏 ID 和密集向量可能需要额外的策略。
多行为建模： 论文主要关注用户与物品的单向交互序列。用户在平台上的行为是多样的（点击、收藏、购买、评论等）。未来的工作可以探索如何将 COBRA 扩展到多行为推荐场景，以更全面地理解用户偏好。
长期动态性建模： 尽管 Transformer 能够捕获长期依赖，但用户偏好是动态变化的。COBRA 如何适应用户偏好的长期演变，以及如何有效结合外部知识（如流行趋势、季节性变化）来提升推荐质量，也是值得研究的方向。

7.3. 个人启发与批判

个人启发：

稀疏-密集级联融合的精妙： COBRA 提出的稀疏 ID 和密集向量级联生成模式，是解决生成式推荐模型精度不足的巧妙方法。它通过稀疏 ID 提供宏观语义指导，再通过密集向量进行微观细节补充，真正实现了“粗粒度到细粒度”的优势。这种“解耦但不分离，互为条件，层层细化”的思想，对于设计混合推荐模型具有重要启发。
可学习的密集表示： 与一些将密集嵌入视为固定特征的混合模型不同，COBRA 强调密集表示的端到端可学习性，使其能够动态地适应推荐任务，捕获更精细的语义和协同信号。这使得模型更加灵活和强大。
BeamFusion 的灵活性： BeamFusion 机制在推理阶段平衡召回率和多样性方面提供了可控的杠杆。通过调整 $\tau$ 和 $\psi$ 系数，运营人员可以根据不同的业务目标（例如，新用户侧重探索多样性，老用户侧重精准召回）灵活调整推荐策略，这是实际应用中非常宝贵的特性。
实际应用价值的验证： 在大型工业级平台上的在线 A/B 测试结果，特别是转化率和 ARPU 的显著提升，为学术研究提供了强有力的实践支持。这表明理论创新能够有效转化为实际的商业价值。

批判：

稀疏 ID 的“黑盒”与可解释性： 尽管稀疏 ID 捕获了“类别本质”，但其具体语义可能不像自然语言 ID 那样直观。RQ-VAE 生成的 ID 序列可能仍然是相对“黑盒”的离散码。虽然这有助于模型学习，但在某些需要高可解释性的推荐场景下，可能需要额外的机制来解释这些 ID 的含义。
模型复杂度对部署的影响： 尽管论文称架构轻量，但其推理流程涉及波束搜索、ANN 检索、多阶段生成和 BeamFusion 等，相比单一的检索或排序模型，仍然增加了部署和维护的复杂性。在超大规模、超低延迟的推荐系统中，每一毫秒的延迟都至关重要，这种多阶段级联生成可能仍需进一步的工程优化。
对负采样的依赖： 密集向量预测损失 ( $\mathcal{L}_{\mathrm{dense}}$ ) 采用了类似 InfoNCE 的对比学习方法，这意味着其性能可能在一定程度上依赖于高质量的负样本。负样本的选择策略（例如，是否简单使用批次内其他物品作为负样本）会影响模型学习的质量。论文中未详细描述负采样策略，这可能是未来可改进或分析的方面。
未来的时间戳： 论文的发布时间戳是 2025 年 3 月，这在我当前的时间（2025 年 11 月）看来是未来。这使得对其“最先进性”的评估略显不确定。如果这是真实的研究，那么它在发布时无疑具有很强的创新性。但如果这是一种模拟，则需要考虑这种时间设定可能对评估造成的影响。

总而言之，COBRA 框架在生成式推荐领域迈出了重要一步，通过有效结合稀疏和密集表示，为平衡推荐精度、多样性和效率提供了一个强大的范例。其提出的级联生成和 BeamFusion 机制为未来的混合推荐系统设计提供了新的思路。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Dataset	# Users	# Items	Sequence Length
			Mean	Median
Beauty	22,363	12,101	8.87	6
Sports and Outdoors	35,598	18,357	8.32	6
Toys and Games	19,412	11,924	8.63	6