论文状态：已完成

Long-Sequence Recommendation Models Need Decoupled Embeddings

发表：2024/10/03

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

现代推荐系统中，用户的长期行为序列至关重要。现有模型存在缺陷，单一嵌入难以同时处理注意力与表示。为此，作者提出了解耦注意力与表示嵌入（DARE）模型，分别学习两个独立的嵌入表，实现更准确的相关行为搜索，并在多个数据集上显著提高性能，且加速在线服务。

摘要

Lifelong user behavior sequences are crucial for capturing user interests and predicting user responses in modern recommendation systems. A two-stage paradigm is typically adopted to handle these long sequences: a subset of relevant behaviors is first searched from the original long sequences via an attention mechanism in the first stage and then aggregated with the target item to construct a discriminative representation for prediction in the second stage. In this work, we identify and characterize, for the first time, a neglected deficiency in existing long-sequence recommendation models: a single set of embeddings struggles with learning both attention and representation, leading to interference between these two processes. Initial attempts to address this issue with some common methods (e.g., linear projections -- a technique borrowed from language processing) proved ineffective, shedding light on the unique challenges of recommendation models. To overcome this, we propose the Decoupled Attention and Representation Embeddings (DARE) model, where two distinct embedding tables are initialized and learned separately to fully decouple attention and representation. Extensive experiments and analysis demonstrate that DARE provides more accurate searches of correlated behaviors and outperforms baselines with AUC gains up to 0.9% on public datasets and notable improvements on Tencent's advertising platform. Furthermore, decoupling embedding spaces allows us to reduce the attention embedding dimension and accelerate the search procedure by 50% without significant performance impact, enabling more efficient, high-performance online serving. Code in PyTorch for experiments, including model analysis, is available at https://github.com/thuml/DARE.

思维导图

论文精读

中文精读约 24 分钟读完 · 13,952 字

1. 论文基本信息

1.1. 标题

长序列推荐模型需要解耦的嵌入 (Long-Sequence Recommendation Models Need Decoupled Embeddings)

1.2. 作者

论文作者团队来自清华大学软件学院、BNRist（清华大学-企业合作建立的国家研究中心）以及腾讯公司。这是一项典型的学术界与工业界紧密合作的研究。

第一作者: Ningya Feng (清华大学)
通讯作者: Mingsheng Long (清华大学)
其他作者: Junwei Pan, Jialong Wu, Baixu Chen, Ximei Wang, Qian Li, Xian Hu, Jie Jiang (腾讯公司及清华大学)

1.3. 发表期刊/会议

这篇论文目前以预印本 (preprint) 的形式发布在 arXiv 上，提交时间为2024年10月。通常，这类高质量且具有工业应用背景的论文会投递给顶级的计算机科学会议，如 KDD, SIGIR, WWW, RecSys 等。

1.4. 发表年份

2024年

1.5. 摘要

现代推荐系统中，用户的终身行为序列对于捕捉其兴趣和预测响应至关重要。为了处理这些长序列，通常采用一种两阶段范式：首先，在第一阶段通过注意力机制从原始长序列中搜索一个相关行为的子集；然后，在第二阶段将这些行为与目标项目聚合，构建一个有辨别力的表示来进行预测。

本文首次识别并描述了现有长序列推荐模型中一个被忽视的缺陷：单一的嵌入集合难以同时学习好注意力和表示这两个任务，导致两者之间产生干扰。作者尝试使用一些常见方法（如从自然语言处理领域借鉴的线性投影）来解决此问题，但效果不佳，这揭示了推荐模型所面临的独特挑战。

为了克服这一问题，作者提出了解耦注意力与表示嵌入 (Decoupled Attention and Representation Embeddings, DARE) 模型。该模型初始化并分别学习两个独立的嵌入表，以完全解耦注意力和表示。大量的实验和分析表明，DARE 能够更准确地搜索相关行为，在公共数据集上性能优于基线模型，AUC 提升高达 0.9%，并在腾讯广告平台上取得了显著改进。此外，解耦嵌入空间允许作者在不显著影响性能的情况下，将注意力嵌入的维度降低，从而将搜索过程加速 50%，实现了更高效、高性能的在线服务。

1.6. 原文链接

arXiv 链接: https://arxiv.org/abs/2410.02604
PDF 链接: https://arxiv.org/pdf/2410.02604v3.pdf
发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

在现代推荐系统中，用户的历史行为序列越来越长，甚至达到“终身”级别。为了在有限的响应时间内处理这些超长序列，业界普遍采用一种两阶段方法：

搜索 (Search) 阶段: 从数千甚至上万的历史行为中，快速找出与当前目标商品最相关的少数几个（例如 top-k）行为。
建模 (Modeling) 阶段: 基于这少数几个相关行为，精细地构建用户兴趣表示，并预测其点击率 (CTR)。

这两个阶段都依赖于两个核心模块：注意力 (attention) 模块，用于衡量行为与目标的相关性（主要用于第一阶段的搜索）；以及表示 (representation) 模块，用于生成行为的有辨别力的向量表示（主要用于第二阶段的建模）。

然而，现有的模型（如 TWIN）通常为所有物品（无论是作为历史行为还是目标物品）使用同一套嵌入向量 (Embedding)。这意味着，同一个物品的嵌入向量既要学习如何与其他物品计算相关性分数（注意力任务），又要学习如何自身能被有效地区分和聚合以形成有意义的表示（表示任务）。

2.1.2. 挑战与空白 (Gap)

论文作者敏锐地指出，让单一嵌入同时服务于这两个目标迥异的任务，会产生严重的任务冲突 (Task Conflict)，这是一个被长期忽视的问题。具体表现为：

梯度冲突 (Gradient Conflict): 在模型训练时，表示任务和注意力任务对嵌入向量的更新方向可能是相反的。例如，为了让表示更有区分度，模型可能希望拉远两个不相关物品的嵌入向量；但如果这两个物品在注意力计算中需要表现出某种弱相关性，模型又可能希望拉近它们。这导致梯度方向相互“打架”。
梯度支配 (Gradient Domination): 作者通过实验发现，表示任务产生的梯度幅度远大于注意力任务（约5倍），这意味着嵌入向量的更新主要由表示任务主导，导致注意力任务学习不充分。最终结果是，模型无法准确地衡量行为的相关性，在第一阶段就可能筛掉真正重要的历史行为。
现有方案失效: 一个自然的想法是借鉴自然语言处理 (NLP) 中 Transformer 的做法，使用线性投影矩阵 (linear projections) 将共享的嵌入映射到不同的子空间（即 Query, Key, Value 空间）。但作者发现，这种方法在推荐场景下效果很差，甚至会降低性能。其根本原因在于，推荐系统中的物品 ID 数量极其庞大（数百万至数十亿），而嵌入维度通常受限于“交互坍塌理论”而不能太大（如小于200）。这导致投影矩阵的参数量相对于要映射的物品数量来说严重不足，无法学习到有效的变换。

2.1.3. 创新思路

面对上述挑战，本文提出的思路简单而彻底：完全解耦。既然一个嵌入表学不好两个任务，那就用两个独立的嵌入表：

一个注意力嵌入表 (Attention Embedding Table)：专门用于计算相关性分数，在搜索阶段发挥作用。
一个表示嵌入表 (Representation Embedding Table)：专门用于生成高质量的向量表示，在建模阶段发挥作用。

这种从根源上的解耦，使得两个任务的梯度更新完全独立，彻底解决了梯度冲突和支配问题。

2.2. 核心贡献/主要发现

问题识别与诊断: 首次系统性地识别并证实了长序列推荐模型中，共享嵌入导致的注意力学习与表示学习之间的干扰问题。通过梯度分析，揭示了其背后的梯度冲突和梯度支配现象。
提出 DARE 模型: 提出了一种名为 DARE (Decoupled Attention and Representation Embeddings) 的新模型。其核心是使用两个独立的嵌入表来分别处理注意力和表示任务，从而根本上解决任务冲突。
性能显著提升: 实验证明 DARE 在公共数据集（淘宝、天猫）上取得了最先进的 (state-of-the-art) 性能，AUC 指标最高提升了 0.9%。在腾讯的工业级广告平台上，取得了 1.47% 的 GMV (总成交额) 提升，这在大型商业系统中是极为显著的成果。
推理效率优化: 解耦使得注意力嵌入的维度可以独立设置。实验表明，可以将注意力嵌入维度减半（搜索速度提升50%）甚至减少75%，而模型性能几乎不受影响。这对于需要严格控制延迟的在线服务系统具有巨大的实用价值。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 点击率预测 (Click-Through Rate, CTR Prediction)

CTR 预测是计算广告和推荐系统中最核心的任务之一。它旨在预测一个用户对于一个给定的推荐物品（如商品、广告、视频）进行点击的概率。通常，这个问题被建模为一个二分类问题，模型的输入是用户信息、物品信息、上下文信息等，输出是 0 到 1 之间的一个概率值。

3.1.2. 嵌入 (Embedding)

在机器学习中，特别是处理类别型特征（如用户ID、物品ID）时，我们无法直接将这些高维、稀疏的ID输入模型。嵌入是一种将这些离散的ID映射到低维、稠密的连续向量空间的技术。每个ID都对应一个唯一的向量，这个向量被称为该ID的嵌入向量。嵌入向量能够捕捉ID之间的潜在关系，例如，相似物品的嵌入向量在空间中的距离会更近。

3.1.3. 注意力机制 (Attention Mechanism)

注意力机制模拟了人类的注意力模式，允许模型在处理一个序列时，对不同部分给予不同程度的关注。在推荐系统中，它通常用于计算用户历史行为序列中每个行为对预测目标物品的重要性。 主动补充： 虽然原文未复述，但理解其核心思想对理解本文至关重要。其最常见的形式是缩放点积注意力 (Scaled Dot-Product Attention)，计算公式如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释:

$Q$ (Query, 查询): 代表当前任务或目标，比如在推荐中是“目标物品”的嵌入。
$K$ (Key, 键): 代表序列中可以被查询的元素，比如“历史行为物品”的嵌入。
$V$ (Value, 值): 代表序列中元素的内容，通常与 $K$ 对应，也是“历史行为物品”的嵌入（或其变换）。
$QK^T$ : 计算查询与所有键的点积，得到它们之间的相似度或相关性分数。
$\sqrt{d_k}$ : 缩放因子，其中 $d_k$ 是键向量的维度。用于防止点积结果过大导致 softmax 函数梯度消失。
$\mathrm{softmax}$ : 将相关性分数归一化，得到每个历史行为的权重。
最终结果是所有值的加权和，权重即为计算出的注意力分数。

3.1.4. 多任务学习 (Multi-Task Learning, MTL)

多任务学习是一种让模型同时学习多个相关任务的机器学习范式。其基本思想是，通过共享模型的某些层（如共享的特征提取器），不同任务可以相互借鉴和补充信息，从而提升所有任务的性能。然而，如果任务之间存在冲突，共享表示可能会导致性能下降，这就是本文中提到的任务冲突问题。

3.2. 前人工作

DIN (Deep Interest Network): DIN 是早期在推荐系统中引入注意力机制的里程碑式工作。它提出，用户的兴趣是多样的，应该根据目标物品 (target item) 的不同，动态地计算历史行为的权重。这被称为目标感知注意力 (target-aware attention)。
长序列推荐模型:
- SIM (Search-based Interest Model): 首次提出了处理超长序列的两阶段范式。第一阶段称为 GSU (General Search Unit)，通过简单模型（如向量内积）快速从全量历史中检索一个小的候选集。第二阶段称为 ESU (Exact Search Unit)，在候选集上使用复杂的模型（如 DIN）进行精细建模。
- ETA & SDIM: 这两个模型是对 SIM 框架的改进，主要集中在如何更高效地进行第一阶段的搜索。
- TWIN (Two-stage Interest Network): TWIN 是本文一个非常重要的基线模型。它统一了两阶段中使用的注意力计算方式，都采用目标感知的注意力，显著提升了第一阶段搜索的准确性，从而提高了整体性能。然而，TWIN 正是使用共享嵌入的典型代表，因此也存在本文所指出的任务冲突问题。

3.3. 技术演进

推荐系统中用户行为建模的技术演进路线大致如下：

早期模型: 主要使用协同过滤或浅层模型，难以捕捉复杂的用户兴趣。
深度学习引入: 以 MLP 等模型为主，将用户和物品ID嵌入后进行交互。
序列建模: 引入 RNN、LSTM 等模型来捕捉用户行为的时序性。
注意力机制引入: 以 DIN 为代表，开始考虑不同历史行为对特定目标的重要性是不同的。
长序列建模: 随着在线系统存储能力增强，用户历史序列变长。以 SIM 和 TWIN 为代表的两阶段方法成为主流，解决了长序列的效率问题。
本文工作: 在长序列建模的背景下，深入剖析了现有两阶段方法的核心缺陷（共享嵌入的任务冲突），并提出了从根本上解决该问题的 DARE 模型。

3.4. 差异化分析

本文方法与之前工作的核心区别在于解耦的层次：

NLP 中的 Transformer: 使用参数级别的解耦。它有一个共享的词元 (token) 嵌入表，然后通过不同的线性投影矩阵 ( $W_Q, W_K, W_V$ ) 将共享嵌入映射到独立的 Query, Key, Value 空间。
推荐系统中的 TWIN 等模型: 没有解耦。同一个物品嵌入既充当 Query (当它是目标时)，又充当 Key 和 Value (当它是历史行为时)。
本文的 DARE 模型: 使用嵌入表级别的解耦。它直接维护两个完全独立的嵌入表，一个专用于注意力计算（相当于 Query 和 Key），一个专用于表示聚合（相当于 Value）。这种方法更彻底，且被证明在推荐场景下比 NLP 的参数级别解耦更有效。

4. 方法论

4.1. 方法原理

DARE 模型的核心思想是，将推荐模型中用于计算相关性 (Attention) 和用于生成表示 (Representation) 的功能，在最底层的嵌入层进行彻底分离。通过为每个物品ID维护两个独立的嵌入向量，一个用于注意力计算，一个用于表示构建，从而消除两个任务在参数更新时的冲突。

下图（原文 Figure 6）清晰地展示了 DARE 的模型架构。

Figure 17: The influence of attention and representation embeddings on AUC. 该图像是图表，展示了不同注意力和表示嵌入维度对AUC的影响。左侧图表（a）显示了在淘宝数据集上的测试AUC，右侧图表（b）则展示了在天猫数据集上的测试AUC。两者均探讨了嵌入维度对模型性能的影响。

4.2. 核心方法详解 (逐层深入)

DARE 模型依然遵循两阶段范式，其创新点在于对两个核心模块的嵌入来源进行了重新设计。

4.2.1. 注意力嵌入 (Attention Embedding)

注意力模块的唯一目标是衡量历史行为与目标物品之间的相关性，以决定在搜索阶段保留哪些行为，以及在建模阶段赋予它们多大的权重。为此，DARE 引入了一个专门的注意力嵌入表 $E^{\mathrm{Att}}$ 。

对于一个历史行为 $i$ 和目标物品 $t$ ，它们会分别从 $E^{\mathrm{Att}}$ 中查找到对应的注意力嵌入向量 $e_i^{\mathrm{Att}}$ 和 $v_t^{\mathrm{Att}}$ 。这两个向量专门用于计算注意力分数。

在第一阶段（搜索），模型计算所有历史行为与目标物品的内积分数 $\langle e_i^{\mathrm{Att}}, v_t^{\mathrm{Att}} \rangle$ ，并选取分数最高的 Top-K 个行为进入下一阶段。

在第二阶段（建模），模型对这 Top-K 个行为计算归一化的注意力权重 $w_i$ 。该过程遵循标准的缩放点积注意力，公式如下： $w _ { i } = \frac { { e ^ { \langle { { e _ { i } ^ { \mathrm { A tt } } } , { \bf { v } } _ { t } ^ { \mathrm { A tt } } } \rangle / \sqrt { \lvert { \cal E } ^ { \mathrm { A tt } } } \rvert } } } { { \sum _ { j = 1 } ^ { K } { e ^ { \langle { { e _ { j } ^ { \mathrm { A tt } } } , { \bf { v } } _ { t } ^ { \mathrm { A tt } } } \rangle / \sqrt { \lvert { \cal E } ^ { \mathrm { A tt } } } \rvert } } } }$

符号解释:

$w_i$ : 第 $i$ 个被检索出的历史行为的最终注意力权重。
$e_i^{\mathrm{Att}}$ : 来自注意力嵌入表 $E^{\mathrm{Att}}$ 的第 $i$ 个历史行为的嵌入向量。
$v_t^{\mathrm{Att}}$ : 来自注意力嵌入表 $E^{\mathrm{Att}}$ 的目标物品 $t$ 的嵌入向量。
$\langle \cdot , \cdot \rangle$ : 向量内积 (dot product)。
$K$ : 在搜索阶段检索出的行为数量。
$|\mathcal{E}^{\mathrm{Att}}|$ : 注意力嵌入向量的维度，用作缩放因子。

在反向传播时，与权重 $w_i$ 计算相关的梯度只会更新注意力嵌入表 $E^{\mathrm{Att}}$ ，而不会影响到表示嵌入。

4.2.2. 表示嵌入 (Representation Embedding)

表示模块的目标是为物品生成具有高辨别力 (discriminative) 的向量表示，以便后续的 MLP 网络能更容易地进行分类预测。为此，DARE 引入了另一个独立的表示嵌入表 $E^{\mathrm{Repr}}$ 。

当计算用户兴趣的最终表示时，模型会从 $E^{\mathrm{Repr}}$ 中查找历史行为 $i$ 和目标物品 $t$ 对应的表示嵌入向量 $e_i^{\mathrm{Repr}}$ 和 $v_t^{\mathrm{Repr}}$ 。

作者在这里采用了一种称为目标感知表示 (target-aware representation) 的技术，即不仅仅是加权求和历史行为的表示 $e_i^{\mathrm{Repr}}$ ，而是先将每个历史行为的表示与目标物品的表示进行元素积 (element-wise product, Hadamard product) 运算，即 $e_i^{\mathrm{Repr}} \odot v_t^{\mathrm{Repr}}$ 。这种操作可以显式地建模历史行为和目标之间的特征交互，增强表示的辨别力。

最终，用户的历史兴趣表示 $\pmb{h}$ 被计算为这些交互特征的加权和，权重 $w_i$ 由注意力模块提供： $\pmb { h } = \sum _ { i = 1 } ^ { K } w _ { i } \cdot ( \pmb { e } _ { i } ^ { \mathrm { R epr } } \odot \pmb { v } _ { t } ^ { \mathrm { R epr } } )$

符号解释:

$\pmb{h}$ : 聚合后的用户历史兴趣表示向量。
$w_i$ : 由注意力模块计算出的权重。
$e_i^{\mathrm{Repr}}$ : 来自表示嵌入表 $E^{\mathrm{Repr}}$ 的第 $i$ 个历史行为的嵌入向量。
$v_t^{\mathrm{Repr}}$ : 来自表示嵌入表 $E^{\mathrm{Repr}}$ 的目标物品 $t$ 的嵌入向量。
$\odot$ : 向量的元素积操作。

在反向传播时，与最终预测损失相关的梯度（通过 $\pmb{h}$ 传播回来）只会更新表示嵌入表 $E^{\mathrm{Repr}}$ 。这样，两个嵌入表的学习过程就完全分开了。

4.2.3. 推理加速 (Inference Acceleration)

解耦带来的一个巨大工程优势是维度灵活性。搜索阶段的计算复杂度主要由注意力嵌入的维度 $d_{\mathrm{Att}}$ 和历史序列长度 $N$ 决定，为 $O(N \cdot d_{\mathrm{Att}})$ 。表示模块的表达能力则与表示嵌入的维度 $d_{\mathrm{Repr}}$ 密切相关。在 DARE 中，这两个维度可以独立设置。直观上，计算相关性（点积）可能不需要非常高的维度，而生成有辨别力的表示则需要更高的维度。因此，可以设置 $d_{\mathrm{Att}} \ll d_{\mathrm{Repr}}$ ，例如将 $d_{\mathrm{Att}}$ 设为 $d_{\mathrm{Repr}}$ 的一半或四分之一。这可以在不牺牲模型最终表达能力的情况下，大幅降低搜索阶段的计算开销，从而实现显著的推理加速。

5. 实验设置

5.1. 数据集

实验使用了两个公开的大规模推荐系统数据集，以及一个工业级私有数据集。

Taobao (淘宝): 来自阿里巴巴的公开数据集，包含了用户的点击行为序列。这是一个相对复杂的数据集，类别和物品数量都很大。
Tmall (天猫): 同样来自阿里巴巴，与淘宝类似，但规模和复杂度稍低。
Tencent Advertising Platform (腾讯广告平台): 一个真实世界的超大规模在线广告平台数据集。

下表（原文 Table 2）展示了公共数据集的基本信息：

Dataset #Category #Item #User # Active User

Taobao 9407 4,068,790 984,114 603,176

Tmall 1492 1,080,666 423,862 246,477

Dataset	#Category	#Item	#User	# Active User
Taobao	9407	4,068,790	984,114	603,176
Tmall	1492	1,080,666	423,862	246,477

Active User: 指行为序列超过50次的用户。

5.2. 评估指标

论文使用了推荐系统领域标准的评估指标来衡量模型的性能。

5.2.1. AUC (Area Under the ROC Curve)

概念定义: AUC 是 ROC 曲线下的面积。ROC 曲线以假正例率 (False Positive Rate, FPR) 为横轴，真正例率 (True Positive Rate, TPR) 为纵轴绘制而成。AUC 衡量的是一个模型将随机选择的正样本排在随机选择的负样本前面的概率。它的值在0.5到1之间，越接近1表示模型性能越好。AUC 对样本类别不均衡不敏感，是评估二分类模型排序能力的常用指标。
数学公式: $\text{AUC} = \frac{\sum_{i \in \text{positive class}} \text{rank}_i - \frac{M(M+1)}{2}}{M \times N}$
符号解释:
- $M$ : 正样本的数量。
- $N$ : 负样本的数量。
- $\text{rank}_i$ : 第 $i$ 个正样本在所有样本按预测概率降序排列后的排名。

5.2.2. GAUC (Group AUC)

概念定义: GAUC 是对 AUC 的一种改进，特别适用于推荐系统场景。它首先按照某个维度（本文中是用户ID）对样本进行分组，在每个组内独立计算 AUC，然后根据每个组的展示次数（或样本数）对所有组的 AUC 进行加权平均。GAUC 能够更好地衡量模型对每个用户的个性化推荐性能，消除了用户偏差对整体评估的影响。
数学公式: $\text{GAUC} = \frac{\sum_{u=1}^{U} w_u \cdot \text{AUC}_u}{\sum_{u=1}^{U} w_u}$
符号解释:
- $U$ : 总用户数。
- $\text{AUC}_u$ : 第 $u$ 个用户的样本子集上计算得到的 AUC。
- $w_u$ : 第 $u$ 个用户的权重，通常是该用户的样本数量或展示次数。

5.2.3. Logloss (对数损失)

概念定义: Logloss，也称为交叉熵损失 (Cross-Entropy Loss)，是评估分类模型预测概率准确性的指标。它衡量的是模型预测概率分布与真实标签分布之间的差异。Logloss 的值越小，说明模型的预测越接近真实概率，性能越好。
数学公式: $\text{Logloss} = -\frac{1}{N} \sum_{i=1}^{N} [y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)]$
符号解释:
- $N$ : 样本总数。
- $y_i$ : 第 $i$ 个样本的真实标签（0 或 1）。
- $\hat{y}_i$ : 模型对第 $i$ 个样本预测为正例的概率。

5.2.4. NDCG (Normalized Discounted Cumulative Gain)

概念定义: NDCG 是一种用于评估排序任务质量的指标。它基于两个核心思想：1) 排名靠前的相关结果比排名靠后的更有价值（通过对数折损体现）；2) 评估结果需要归一化，以便在不同查询之间进行比较。NDCG 的值在0到1之间，越接近1表示排序质量越高。在本文中，它被用来评估搜索阶段检索出的行为与真实最相关行为的一致性。
数学公式: $\text{NDCG}@k = \frac{\text{DCG}@k}{\text{IDCG}@k} \quad \text{where} \quad \text{DCG}@k = \sum_{i=1}^{k} \frac{\text{rel}_i}{\log_2(i+1)}$
符号解释:
- $k$ : 评估的排名位置数量。
- $\text{rel}_i$ : 排名第 $i$ 位的项目的相关性得分（在本文中是互信息）。
- $\text{DCG}@k$ : 折损累计增益，计算前 $k$ 个结果的相关性得分总和，排名越靠后，得分折损越大。
- $\text{IDCG}@k$ : 理想折损累计增益，即完美排序（按相关性从高到低）下的 DCG 值，用于归一化。

5.3. 对比基线

论文与一系列有代表性的推荐模型进行了比较，包括：

DIN: 经典的短序列注意力模型。
ETA, SDIM: 基于搜索的长序列模型。
TWIN: 当前最先进 (state-of-the-art) 的两阶段长序列模型，也是本文最核心的比较对象。
TWIN 的变体:
- TWIN (w/ proj.): 尝试使用线性投影进行解耦的 TWIN 版本，用于证明该方法在推荐场景失效。
- TWIN (w/o TR): 不使用目标感知表示 ( $e_i ⊙ v_t$ ) 的原始 TWIN 版本。
- TWIN-4E: 一个假设性的模型，使用四个独立的嵌入表（历史-注意力，目标-注意力，历史-表示，目标-表示），用于论证 DARE 的设计更符合推荐系统的先验知识。
TWIN-V2: TWIN 的一个后续版本，针对短视频推荐场景做了特定优化。

6. 实验结果与分析

6.1. 核心结果分析

论文的核心实验结果清晰地展示了 DARE 模型在多个维度上的优越性。

以下是原文 Table 1 的完整结果，展示了在不同嵌入维度下，各模型在淘宝和天猫数据集上的 AUC 表现。

Setup	Embedding Dim. = 16		Embedding Dim. = 64		Embedding Dim. = 128
Setup	Taobao	Tmall	Taobao	Tmall	Taobao	Tmall
ETA (2021)	0.91326 (0.00338)	0.95744	0.92300 (0.00079)	0.96658 (0.00042)	0.92480 (0.00032)	0.96956 (0.00039)
SDIM (2022)	0.90430 (0.00108)	0.93516	0.90854	0.94110	0.91108	0.94298
DIN (2018)	0.90442 (0.0103)	0.95894 (0.00069)	0.90912 (0.00085)	0.96194 (0.00093)	0.91078 (0.00119)	0.96428 (0.00081)
TWIN (2023)	0.91688 (0.00060)	0.95812 (0.0037)	0.92636 (0.00092)	0.96684 (0.00033)	0.93116 (0.00054)	0.97060 (0.00013)
TWIN (hard)	0.91002 (0.00211)	0.96026 (0.00073)	0.91984 (0.00052)	0.96448 (0.00039)	0.91446 (0.00056)	0.96712 (0.00005)
TWIN (w/ proj.)	0.89642 (0.00053)	0.96152 (0.00024)	0.87176 (0.00048)	0.95570 (0.00042)	0.87990 (0.00055)	0.95724 (0.00019)
TWIN (w/o TR)	0.90732 (0.00351)	0.96170 (0.00088)	0.91590 (0.00437)	0.96320 (0.00403)	0.92060 (0.02022)	0.96366 (0.00194)
TWIN-V2 (2024)	0.89434 (0.00063)	0.94714 (0.00057)	0.90170 (0.00083)	0.95378 (0.00032)	0.90586 (0.00084)	0.95732 (0.00103)
TWIN-4E	0.90414 (0.00077)	0.96124 (0.00110)	0.90356 (0.00063)	0.96372 (0.00037)	0.90946 (0.00059)	0.96016 (0.00045)
DARE (Ours)	0.92568 (0.00025)	0.96800 (0.00024)	0.92992 (0.00046)	0.97074 (0.00012)	0.93242 (0.00045)	0.97254 (0.00016)

关键发现:

DARE 全面领先: 在所有数据集和所有嵌入维度设置下，DARE 的 AUC 均显著优于所有基线模型。在推荐系统中，AUC 提升千分之一（0.1%）通常就被认为是有意义的改进，而 DARE 在淘宝数据集、嵌入维度为16时，相较于 TWIN 提升了近 0.9%，这是一个巨大的飞跃。
低维优势明显: DARE 的优势在低嵌入维度（如16）时尤其突出。这表明解耦机制使得嵌入的学习效率更高，可以用更少的参数达到更好的效果。
线性投影失效验证: TWIN (w/ proj.) 的性能远低于 TWIN，尤其是在淘宝数据集上，AUC 下降了近 2%。这强有力地证明了从 NLP 借鉴的线性投影方法在推荐场景下是无效的。
工业验证: 在腾讯广告平台的在线 A/B 测试中，DARE 带来了 1.47% 的 GMV 提升。这个结果极具说服力，证明了该方法在真实、复杂的商业环境中的巨大价值。

6.2. 注意力准确性分析

为了验证 DARE 是否能更准确地学习行为相关性，作者进行了一系列深入分析。

6.2.1. 与真实相关性的对比

作者使用互信息 (Mutual Information) 作为衡量物品类别之间真实相关性的真值 (Ground Truth)。下图（原文 Figure 8）比较了真实相关性、TWIN 学到的注意力分数和 DARE 学到的注意力分数。

Figure 19: More case studies of the retrieval performance in search stage. 该图像是关联性分析的热力图，展示了不同行为序列与五个类别的相关性。图中提供了多个推荐模型（如DARE、TWIN等）在不同类别下的性能对比，展示了DARE模型在相关性检索中的表现。

真实相关性 (GT): 显示出强烈的语义-时序关联性。与目标类别相同的行为（第5行）相关性最高，并且随着时间变远（位置从左到右）而衰减。
TWIN: 学习到了时序衰减模式，但高估了不同类别之间的语义相关性。这导致它过于关注最近的行为，即使这些行为与目标毫不相关。
DARE: 学到的注意力分布与真实相关性非常接近，同时捕捉到了语义关联和时序衰减两种模式。

6.2.2. 搜索阶段的检索质量

搜索质量直接决定了模型的上限。作者使用 NDCG 指标来评估模型在搜索阶段检索到的行为有多“好”。

下图（原文 Figure 9）展示了检索质量的对比和两个案例分析。

Figure 20: Comparison of learned attention 该图像是一个图表，展示了不同模型（GT、TWIN、DARE）在处理目标类别时的相关性比较。主要展示了类别间的目标感知相关性，以及不同模型在不同目标类别上的注意力分布情况。

NDCG 对比 (a): DARE 的 NDCG 分数（0.8124）远高于所有基线，相比 TWIN (0.5545) 提升了 46.5%。这表明 DARE 能够更准确地从长序列中找出真正重要的行为。
案例分析 (b-c): 在这两个案例中，TWIN 错误地检索了许多与目标类别无关的近期行为，而 DARE 成功地找回了更早但类别相关的关键行为。

结论 1: DARE 成功地解耦了注意力和表示学习，使其能够更准确地捕捉行为间的语义-时序相关性，从而在搜索阶段保留更多有价值的信息。

6.3. 表示辨别力分析

接下来，作者分析了解耦是否也提升了表示的质量。他们使用一种“量化+互信息”的方法来衡量表示的辨别力 (discriminability)，即表示向量区分正负样本的能力。

下图（原文 Figure 10）展示了不同模型的表示辨别力。

Figure 2: The magnitude of embedding gradients from the attention and representation modules. 该图像是一个柱状图，显示了来自注意力模块和表示模块的嵌入梯度的平均大小。图中，注意力的平均梯度幅度较小，约为 $0.5 \times 10^{-3}$ ，而表示的平均梯度幅度明显更大，约为 $2.5 \times 10^{-3}$ ，显示出两者在梯度学习过程中的差异。这突显了注意力和表示在模型训练中的不同重要性和影响。

DARE 的表示辨别力在不同聚类数量下都优于 TWIN，证明解耦对表示学习也有正面影响。
图 (c) 清晰地展示了提升的来源：使用目标感知表示 ( $e_i ⊙ v_t$ ) 带来了巨大提升（橙色部分），而在此基础上，DARE 的解耦机制带来了进一步的提升（绿色部分）。

结论 2: DARE 模型通过解耦机制和目标感知表示，显著提升了学习到的用户兴趣表示的辨别力。

6.4. 收敛速度与推理效率分析

下图（原文 Figure 11）展示了 DARE 在训练和推理方面的效率优势。

Figure 3: Cosine angles of gradients. 该图像是一个直方图，展示了余弦相似度的分布情况。图中分别标注了相似度为负值和零的冲突区（红色）及相似度为正值的相似区（绿色）。在冲突区域中，65.31%的比例表明相应配置存在冲突，而在一致区域中，占比为35.69%。

更快的收敛速度 (a-b): DARE 达到相同的验证集准确率所需的训练迭代次数远少于 TWIN。例如，在天猫数据集上，DARE 只需约 450 次迭代就能达到 TWIN 1300 次迭代的水平，训练效率提升近3倍。
高效的推理 (c-d): 通过降低注意力嵌入的维度，DARE 可以在性能几乎不受影响的情况下，将搜索速度提升50%（复杂度减半）。即使提速75%，性能下降也在可接受范围内。而 TWIN 由于嵌入维度是绑定的，降低维度会导致性能大幅下滑。

结论 3: 嵌入解耦不仅提升了模型效果，还带来了更快的训练收敛和更高效的在线推理能力。

7. 总结与思考

7.1. 结论总结

这篇论文的核心贡献在于，它首次系统性地揭示并解决了长序列推荐模型中因共享嵌入而导致的注意力与表示学习之间的冲突。通过提出一个简单而有效的 DARE 模型，即使用两个独立的嵌入表，作者成功地将这两个任务彻底解耦。

主要发现:

共享嵌入会导致梯度冲突和梯度支配，严重损害了模型的注意力和表示学习能力。
DARE 模型通过解耦，显著提升了注意力准确性和表示辨别力。
DARE 在公开和工业数据集上均取得了最先进的性能，并带来了可观的商业价值 (GMV 提升)。
解耦设计还带来了更快的收敛速度和灵活高效的在线推理能力，具有很高的实用价值。

7.2. 局限性与未来工作

作者在论文附录中坦诚地指出了研究的一些局限性：

线性投影失效的深层原因: 尽管实验证明了线性投影在推荐场景的低维嵌入下会失效，但其背后更深层次的理论原因（例如，为何会导致“过度自信”问题）仍有待探索。
目标感知表示的异常情况: 在一个特定的实验设置下（天猫数据集，嵌入维度16），不使用目标感知表示的 TWIN 反而效果更好。这个反常现象的原因尚未完全清楚，可能与特定数据集的特性有关。
单阶段 vs. 两阶段: 虽然目前两阶段方法是主流，但一些单阶段的长序列建模方法也在发展中。未来哪种范式会成为主导，仍是一个开放问题。

7.3. 个人启发与批判

这篇论文给我带来了几点深刻的启发：

诊断问题比提出复杂方案更重要: 本文最大的亮点不在于 DARE 模型的复杂性（实际上它非常简洁），而在于它对现有模型缺陷的深刻洞察和严谨诊断。通过梯度分析这个简单的工具，作者找到了一个被忽视但影响深远的根本性问题。这体现了优秀研究工作的特点：从第一性原理出发，发现并解决真问题。
“跨界”需谨慎，领域特性是关键: 论文中关于“线性投影在推荐中失效”的分析非常精彩。它警示我们，不能盲目地将一个领域（如 NLP）的成功经验直接套用到另一个领域（如推荐系统）。必须充分考虑领域的独特性，例如推荐系统中ID空间巨大、嵌入维度受限等。
简单即是美 (Simplicity is the ultimate sophistication): DARE 的核心思想——用两个表代替一个表——非常简单，但却直击要害，效果拔群。这提醒我们在设计模型时，应追求优雅、简洁且有效的解决方案，而非堆砌复杂的模块。
潜在应用: 这种“功能解耦”的思想可以推广到更多场景。在任何存在多目标学习且共享底层表示的场景中，如果目标之间存在潜在冲突，都可以考虑使用类似 DARE 的解耦机制。例如，在推荐中同时优化点击率和转化率时，可以为不同目标设计独立的表示模块。

批判性思考:

参数量翻倍: DARE 的主要代价是嵌入表的参数量增加了一倍。对于物品ID数量达到数十亿的超大规模系统，这可能会带来显著的存储和内存开销。虽然作者通过降低注意力嵌入维度缓解了部分问题，但这依然是一个需要在实际部署中权衡的 trade-off。
对短序列的价值: 论文提到，DARE 在短序列场景下的优势不明显。这是因为短序列的注意力任务相对简单，梯度冲突问题不突出。因此，该方法的适用范围主要还是在长序列建模成为瓶颈的场景。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。