论文状态：已完成

LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders

发表：2025/05/07

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了LONGER，一个针对工业推荐系统的长序列Transformer模型，旨在建模超长用户行为序列以捕捉用户偏好。创新包括全局令牌机制以稳定长上下文中的注意力、令牌合并模块降低复杂度，以及通过工程优化提升计算效率，最终在字节跳动的多个场景中表现优异，验证了其工业级扩展性。

摘要

Modeling ultra-long user behavior sequences is critical for capturing both long- and short-term preferences in industrial recommender systems. Existing solutions typically rely on two-stage retrieval or indirect modeling paradigms, incuring upstream-downstream inconsistency and computational inefficiency. In this paper, we present LONGER, a Long-sequence Optimized traNsformer for GPU-Efficient Recommenders. LONGER incorporates (i) a global token mechanism for stabilizing attention over long contexts, (ii) a token merge module with lightweight InnerTransformers and hybrid attention strategy to reduce quadratic complexity, and (iii) a series of engineering optimizations, including training with mixed-precision and activation recomputation, KV cache serving, and the fully synchronous model training and serving framework for unified GPU-based dense and sparse parameter updates. LONGER consistently outperforms strong baselines in both offline metrics and online A/B testing in both advertising and e-commerce services at ByteDance, validating its consistent effectiveness and industrial-level scaling laws. Currently, LONGER has been fully deployed at more than 10 influential scenarios at ByteDance, serving billion users.

思维导图

论文精读

中文精读约 41 分钟读完 · 26,646 字

1. 论文基本信息

1.1. 标题

LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders

1.2. 作者

论文作者均为字节跳动 (ByteDance) 的研究人员，包括： Zheng Chai*, Qin Ren*, Xijun Xiao*, Huizhi Yang*, Bo Han*, Sijun Zhang, Di Chen, Hui Lu, Wenlin Zhao, Lele Yu, Xionghang Xie, Shiru Ren, Xiang Sun, Yaocheng Tan, Peng Xu, Yuchao Zheng†, Di Wu. 其中，带有星号 (*) 的作者表示同等贡献，带有匕首标记 (†) 的作者表示通讯作者。

1.3. 发表期刊/会议

该论文发表于 The Nineteenth ACM Conference on Recommender Systems (RecSys '25)，这是一个在推荐系统领域极具声誉和影响力的顶级国际学术会议。能够在此会议上发表论文，通常意味着工作具有较高的创新性、技术深度和实际应用价值。

1.4. 发表年份

2025年

1.5. 摘要

在工业推荐系统 (industrial recommender systems) 中，对超长用户行为序列 (ultra-long user behavior sequences) 进行建模对于捕捉用户的长期和短期偏好至关重要。现有的解决方案通常依赖于两阶段检索 (two-stage retrieval) 或间接建模范式 (indirect modeling paradigms)，这会导致上下游不一致 (upstream-downstream inconsistency) 和计算效率低下。本文提出了 LONGER，一个针对 GPU 高效推荐系统优化的长序列 Transformer 模型 (Long-sequence Optimized traNsformer for GPU-Efficient Recommenders)。LONGER 包含了以下核心创新点：

全局令牌机制 (global token mechanism)：用于稳定长上下文中的注意力 (attention)。
令牌合并模块 (token merge module)：结合轻量级 InnerTransformers 和混合注意力策略，以降低二次复杂度。
一系列工程优化：包括混合精度训练 (mixed-precision training) 和激活重计算 (activation recomputation)、KV 缓存服务 (KV cache serving)，以及用于统一 GPU 密集和稀疏参数更新的完全同步模型训练和服务框架 (fully synchronous model training and serving framework)。 LONGER 在字节跳动的广告和电商服务中，通过离线指标和在线 A/B 测试，持续超越了强大的基线模型，验证了其持续的有效性和工业级扩展定律 (industrial-level scaling laws)。目前，LONGER 已在字节跳动超过 10 个重要场景中全面部署，服务亿万用户。

1.6. 原文链接

官方发布：https://arxiv.org/abs/2505.04421 PDF 链接：https://arxiv.org/pdf/2505.04421v2.pdf

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题是什么？ 论文的核心目标是解决在工业级推荐系统 (industrial recommender systems) 中，对超长用户行为序列 (ultra-long user behavior sequences) 进行高效且端到端 (end-to-end) 建模的挑战。传统的 Transformer 模型虽然在序列建模中表现出色，但其二次复杂度 $O(L^2)$ 使得处理长度超过 $10^3$ 的序列在计算上非常昂贵，尤其是在对延迟和吞吐量有严格要求的工业场景。

为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白 (Gap)？

重要性： 用户行为序列是捕捉用户偏好（包括长期和短期）的关键信息源。超长序列能够提供更全面的用户画像，有助于提高推荐的准确性和多样性，并缓解“信息茧房 (information cocoon)”现象。
现有挑战/空白：
- 计算限制： 现有方法如 Transformer，其注意力机制的计算复杂度与序列长度的平方成正比，导致在处理超长序列时内存和计算资源消耗巨大。
- 两阶段或间接建模的局限性： 工业界常用的解决方案，如两阶段检索 (two-stage retrieval) (例如 SIM, TWIN) 和预训练用户嵌入 (pre-trained user embeddings)，虽然提高了效率，但不可避免地牺牲了原始完整序列的信息，导致“上下游不一致 (upstream-downstream inconsistency)”或对用户行为的感知不够直接。
- 内存增强模型 (Memory-augmented Models) 的局限性： 尽管 MIMN, LMN, MARM 等模型尝试通过外部记忆来处理长序列，但它们通常需要较长的训练周期来积累记忆命中率，并且在工业级 GPU 效率方面仍有待探索。
- GPU 效率不足： 尽管学术界已有一些直接建模长序列的尝试 (HSTU, Wukong)，但在大规模工业推荐系统中，如何实现 GPU 高效的端到端长序列建模仍是未被充分探索的领域。

这篇论文的切入点或创新思路是什么？ 论文的创新思路在于，在当前计算基础设施（尤其是 GPU）快速发展的前提下，结合模型架构创新和系统级工程优化，开创一个端到端的、GPU 高效的超长序列建模范式。其核心切入点是设计一个优化的 Transformer 架构，通过减少注意力计算量、有效压缩序列信息，并辅以大规模分布式训练和推理优化，使得超长序列（达到 $10^4$ 级别）在工业环境中变得可行。

2.2. 核心贡献/主要发现

论文最主要的贡献是什么？

提出了 LONGER 框架： 这是一个针对 GPU 高效推荐系统优化的长序列 Transformer 架构，实现了在工业环境中以端到端方式将用户序列建模长度扩展到 10,000。
创新的模型架构：
- 全局令牌机制 (Global Tokens)： 通过引入辅助表示来稳定长上下文中的注意力，并作为信息锚点。
- 令牌合并模块 (Token Merge) 与 InnerTrans： 有效压缩序列，通过分组和轻量级内部 Transformer (InnerTrans) 保持局部语义，显著降低二次复杂度。
- 混合注意力策略 (Hybrid Attention)： 结合交叉因果注意力 (cross-causal attention) 和自因果注意力 (self-causal attention)，高效捕捉局部和全局依赖。
全面的工程优化： 针对工业部署需求，集成了完全同步的 GPU 训练和推理框架、混合精度训练 (mixed-precision training) 和激活重计算 (activation recomputation)，以及 KV 缓存服务 (KV cache serving)，极大地提升了 GPU 计算效率和在线部署能力。
大规模工业验证： 在字节跳动的广告和电商场景中，通过十亿级 (billion-scale) 工业数据集上的离线实验和在线 A/B 测试，验证了 LONGER 的鲁棒性、有效性和通用性。

论文得出了哪些关键的结论或发现？这些发现解决了什么具体问题？

端到端长序列建模的有效性： LONGER 在处理长度超过 $10^3$ 甚至达到 $10^4$ 的用户行为序列时，显著优于现有基线模型，证明了直接端到端建模超长序列在工业推荐系统中的巨大潜力，解决了传统方法信息损失和不一致的问题。
计算效率与性能的平衡： Token Merge 和 Hybrid Attention 策略能够将 FLOPs 减少约 50%，同时性能几乎无损，解决了 Transformer 在长序列上计算量过大的问题。
工程优化的关键作用： 混合精度训练、激活重计算、KV 缓存服务以及统一的 GPU 训练/服务框架对于在十亿用户规模的工业环境中实现 LONGER 的高效部署至关重要，解决了大规模系统下的资源瓶颈和延迟问题。
在线 A/B 测试的积极结果： 在 Douyin 广告平台和电商服务中，LONGER 带来了显著的业务指标提升（如广告的 ADSS/ADVV，电商的 Order/U 和 GMV/U），证明了其在实际生产环境中的商业价值。
扩展定律的验证： 论文通过对序列长度、参数数量和 FLOPs 的扩展分析，验证了模型性能随这些因素增长而呈现的幂律趋势 (power-law trend)，为未来推荐系统的大规模发展提供了指导。

3. 预备知识与相关工作

本部分旨在为读者理解 LONGER 模型提供必要的前置技术背景。

3.1. 基础概念

3.1.1. 推荐系统中的序列建模 (Sequential Modeling in Recommender Systems)

在推荐系统 (Recommender Systems) 中，用户行为序列 (user behavior sequence) 是指用户在过去与物品 (items) 发生交互的一系列事件，例如点击、购买、浏览等。序列建模旨在从这些历史行为中学习用户的偏好和兴趣演变，从而预测用户未来可能对哪些物品感兴趣。

长期偏好 (Long-term Preferences)：通常指用户稳定、持续的兴趣，例如一个用户长期喜欢特定类型的电影或商品品牌。
短期偏好 (Short-term Preferences)：指用户近期、临时的兴趣，例如用户刚刚购买了一件露营装备，短期内可能对其他露营相关商品感兴趣。

3.1.2. Transformer 架构

Transformer 是一种基于自注意力 (self-attention) 机制的深度学习模型，最初为自然语言处理 (Natural Language Processing, NLP) 任务设计，但因其强大的序列建模能力而被广泛应用于各种领域，包括推荐系统。

自注意力机制 (Self-Attention Mechanism)：这是 Transformer 的核心组成部分。它允许模型在处理序列中的每个元素时，动态地权衡序列中所有其他元素的重要性。
- 查询 (Query, Q)、键 (Key, K)、值 (Value, V)：在自注意力中，输入序列的每个元素都会生成一个查询向量 $Q$ 、一个键向量 $K$ 和一个值向量 $V$ 。
- 注意力分数 (Attention Score)：通过计算查询向量和所有键向量的点积 (dot product)，得到每个元素与其他元素的相关性分数。
- 缩放 (Scaling)：为了防止点积结果过大导致 softmax 函数梯度过小，注意力分数会除以 $\sqrt{d_k}$ ，其中 $d_k$ 是键向量的维度。
- Softmax 函数：将注意力分数转换为权重，使得所有权重的和为 1。
- 加权求和 (Weighted Sum)：将这些权重应用于值向量，得到每个元素基于其与序列中其他元素的关联程度的加权表示。
- 核心公式：自注意力机制的计算公式如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中：
  - $Q \in \mathbb{R}^{L \times d_k}$ 是查询矩阵 (Query matrix)， $L$ 是序列长度， $d_k$ 是键和查询的维度。
  - $K \in \mathbb{R}^{L \times d_k}$ 是键矩阵 (Key matrix)。
  - $V \in \mathbb{R}^{L \times d_v}$ 是值矩阵 (Value matrix)， $d_v$ 是值的维度。
  - $\frac{QK^T}{\sqrt{d_k}}$ 是缩放点积 (scaled dot-product) 操作。
  - $\mathrm{softmax}(\cdot)$ 函数将分数转换为概率分布。
  - $QK^T$ 表示 $Q$ 和 $K$ 的转置矩阵的乘积，用于计算注意力分数。
  - $\sqrt{d_k}$ 是缩放因子，用于防止内积过大。
  - 输出的维度为 $\mathbb{R}^{L \times d_v}$ 。
多头注意力 (Multi-Head Attention)：Transformer 进一步通过并行运行多个自注意力机制（“头”）来增强模型的表达能力，每个头学习不同的注意力模式，然后将其结果拼接并线性投影。
前馈网络 (Feed-Forward Network, FFN)：在每个注意力层之后，Transformer 使用一个位置共享的前馈网络对每个位置的输出进行独立处理，通常包含两个线性变换和一个激活函数。
残差连接与层归一化 (Residual Connections and Layer Normalization)：为了缓解深度网络中的梯度消失问题，Transformer 广泛使用残差连接和层归一化。

3.1.3. 计算复杂度 (Computational Complexity)

计算复杂度通常用大 O 符号 (Big O notation) 表示，描述算法运行时间或所需空间随输入大小增长的速率。

$O(L^2)$ ：表示计算量与输入序列长度 $L$ 的平方成正比。例如，Transformer 的自注意力机制由于需要计算序列中每对元素之间的相关性，导致其计算复杂度为 $O(L^2 \cdot d)$ ，其中 $d$ 是嵌入维度。当 $L$ 非常大时（例如 $L=10^4$ ）， $L^2$ 会变得天文数字般巨大，使得计算不可行。

3.1.4. 混合精度训练 (Mixed Precision Training)

混合精度训练是指在深度学习模型训练过程中，同时使用单精度 (FP32) 和半精度 (FP16 或 BF16) 浮点数。

FP32 (Single Precision)：32位浮点数，提供高精度，但占用更多内存和计算资源。
FP16/BF16 (Half Precision)：16位浮点数，占用更少内存，计算速度更快。BF16 在动态范围上比 FP16 更好，但精度略低于 FP16。优点：显著减少模型占用的 GPU 内存，加快训练速度，同时保持模型精度。

3.1.5. 激活重计算 (Activation Recomputation / Checkpointing)

在深度学习模型的反向传播 (backward pass) 过程中，需要存储前向传播 (forward pass) 中间层的激活值 (activations) 以计算梯度。对于非常深或宽的模型，这些激活值可能会占用大量 GPU 内存。激活重计算是一种内存优化技术，它在训练时不存储所有中间激活，而是在反向传播需要时重新计算这些激活。这是一种用计算换取内存的方法。

3.1.6. KV 缓存 (KV Cache)

在生成式模型或需要多次推理的场景中，例如解码一个序列或对多个候选进行评分，可以将 Transformer 注意力机制中的键 (Key, K) 和值 (Value, V) 矩阵缓存起来。

在 Transformer 的自注意力或交叉注意力中，一旦 $K$ 和 $V$ 被计算，它们可以在后续的计算中被重用，而无需重新计算整个输入序列的 $K$ 和 $V$ 。这显著减少了推理时间和计算量，尤其是在序列逐渐增长或多个查询共享相同键值对时。

3.2. 前人工作

3.2.1. 传统短序列建模 (Traditional Short-Sequence Modeling)

DIN (Deep Interest Network) [30]: 提出了一种注意力机制，用于从用户行为序列中根据当前候选物品动态地提取用户兴趣。
DIEN (Deep Interest Evolution Network) [29]: 在 DIN 的基础上，引入了兴趣进化网络，捕捉用户兴趣的动态变化。
CAN (Coaction Attention Network) [28]: 关注特征协同作用，进一步优化注意力机制。
多域 (Multi-domain) [2, 4]、多兴趣 (Multi-interest) [1, 11]、序列去噪 (Sequence Denoising) [5, 20] 方法：这些方法分别从不同角度改进用户偏好建模。 局限性：大多数这些模型都是为短序列建模设计的（序列长度通常在 $10^2 - 10^3$ 之间）。

3.2.2. 长序列建模 (Long-Sequence Modeling)

两阶段检索 (Two-stage Retrieval)：
- SIM (Search-based User Interest Modeling) [18] 和 TWIN (TWo-stage Interest Network) [3, 21]：这类方法首先从超长序列中检索出与当前候选物品最相关的 top-k 个物品（通常 $k \sim 10^2$ ），然后对这个缩短的序列进行端到端建模。
- 局限性：牺牲了原始完整序列信息，可能导致信息损失和“上下游不一致 (upstream-downstream inconsistency)”。
预训练用户嵌入 (Pre-trained User Embeddings)：
- 方法：在源模型中预训练整个超长序列以获得一个压缩的用户嵌入 (User Embedding, UE)，然后将其传递给下游推荐模型。
- 代表工作：[9, 13, 31] 提出了相关技术。
- 局限性：尽管支持长达 $10^3$ 的序列预训练，但这种方法对原始超长序列的感知是间接的。
内存增强模型 (Memory-augmented Models)：
- MIMN (Multi-channel User Interest Memory Network) [17]：提出基于神经图灵机 (Neural Turing Machine) 和记忆归纳单元 (Memory Induction Unit) 的结构来记忆用户序列。
- LMN (Large Memory Network) [14]：提出了一种轻量级的结构，利用产品量化 (product quantization) 进行分解。
- MARM (Memory Augmented Recommendation Model) [15]：提出了内存与计算权衡 (memory-for-computation trade-off) 的范式，缓存计算密集型模块的中间结果。
- 局限性：通常需要长时间的训练来积累记忆命中率，且在 GPU 效率方面未充分探索。
直接长序列建模 (Direct Long Sequence Modeling)：
- HSTU [25]：通过堆叠相同的自注意力层和残差连接来建模长序列，在 vanilla Transformer 架构上表现更好。
- Wukong [26]：开发了堆叠因子分解机 (stacked factorization machine) 和线性压缩模块 (linear compression block) 架构，验证了推荐系统中的扩展定律。
- Perceiver [10] 和 Q-Former [12]：在其他领域（如通用感知和多模态）也探索了通过可学习令牌 (learnable tokens) 进行查询压缩的思想。
- 局限性：尽管做出了努力，但大规模工业推荐系统中的 GPU 高效长序列建模仍然是未充分探索的。

3.3. 技术演进

从早期为短序列设计的传统序列模型（如 DIN、DIEN），到尝试通过两阶段、预训练嵌入或外部记忆来间接处理长序列的方法，再到最近直接建模长序列的 Transformer 变体，推荐系统中的序列建模技术一直在演进。这一演进路线主要受到两个方面驱动：

对用户偏好捕捉深度和广度的需求： 越来越长的用户历史行为被认为能更全面地反映用户偏好，从而提高推荐质量和多样性。
计算基础设施的快速发展： 尤其是 GPU 性能的提升，使得处理更复杂的模型和更长的序列成为可能。 LONGER 正是站在这一技术演进的潮头，旨在通过端到端的方式，结合模型创新和工程优化，充分利用现代 GPU 的能力，将长序列建模推向工业级应用的新高度。

3.4. 差异化分析

LONGER 与现有相关工作的主要区别和创新点在于：

端到端建模超长序列： 与两阶段检索和预训练用户嵌入等间接方法不同，LONGER 实现了真正意义上的端到端超长序列建模，避免了信息损失和上下游不一致问题。
GPU 效率优先的设计： LONGER 从模型架构（如 Token Merge、Hybrid Attention）到系统级优化（如混合精度、激活重计算、KV 缓存、同步训练/服务框架），都高度关注 GPU 效率，使其能在大规模工业环境中实际部署。
对 Transformer 复杂度的针对性优化： 通过 Token Merge 和 Hybrid Attention 等机制，有效解决了 vanilla Transformer 在长序列上二次复杂度带来的计算瓶额。
工业级规模的验证： 论文不仅在理论和离线实验上验证了模型的有效性，更通过字节跳动在广告和电商两大核心业务的真实在线 A/B 测试，证实了其在亿万用户规模下的实际商业价值和鲁棒性。

4. 方法论

LONGER 的核心思想是通过创新的 Transformer 架构设计和全面的系统级工程优化，实现对超长用户行为序列的端到端、GPU 高效建模，克服传统 Transformer 的二次计算复杂度限制，同时保持甚至提升推荐性能。

4.1. 方法原理

LONGER 的方法原理基于以下几个核心思想：

全局信息锚定与注意力稳定： 引入 Global Tokens 来汇聚关键信息，并作为长序列中注意力机制的稳定锚点，防止注意力在深层网络中过度集中于早期令牌，从而更好地捕捉全局上下文。
序列压缩与局部语义保持： 针对 Transformer $O(L^2)$ 的复杂度瓶颈，采用 Token Merge 策略对超长序列进行压缩。为了避免信息损失，在合并过程中引入轻量级 InnerTrans 模块来捕捉局部组内的交互信息。
混合注意力机制： 结合了交叉注意力 (cross-attention) 和自注意力 (self-attention) 的优点，在首层使用 Cross-Causal Attention 关联全局信息与序列，随后使用堆叠的 Self-Causal Attention 层进行序列内部的精细化学习，以在保持计算效率的同时，有效捕获特定行为和广泛的上下文信息。
全栈工业级优化： 将模型架构优化与底层的训练和推理系统优化相结合，包括混合精度训练、激活重计算、KV 缓存服务以及统一的 GPU 训练服务框架，确保模型在大规模工业部署中的高效运行。

4.2. 核心方法详解

4.2.1. 问题定义 (Problem Statement)

给定一个用户 $u \in \mathcal{U}$ （其中 $\mathcal{U}$ 是用户集合）及其原始行为序列 $S_u = [\bar{i}_1^{(u)}, ..., i_L^{(u)}]$ （其中 $i_t^{(u)} \in \mathcal{I}$ ， $\mathcal{I}$ 是物品集合， $L$ 是序列长度），以及用户的基本特征 $u_d$ 和交叉特征 (cross features)，以及一个目标物品 $v \in \mathcal{I}$ 。推荐任务的目标是预测用户 $u$ 与物品 $v$ 交互（如点击或转化）的概率。 $P(y = 1 \mid S_u, u_d, v) \in [0, 1]$ 其中：

$y \in \{0, 1\}$ 表示用户 $u$ 是否会与物品 $v$ 交互。
$S_u$ 是用户 $u$ 的行为序列。
$u_d$ 是用户 $u$ 的基本特征信息。
$v$ 是目标物品。模型通过优化二元交叉熵损失 (binary cross-entropy loss) 来学习这个映射关系，数据集为 $\mathcal{D} = \{(S_u, u_d, v, y)\}$ ： $\mathcal{L} = - \frac{1}{|\mathcal{D}|} \sum_{(S_u, u_d, v, y) \in \mathcal{D}} [y \log \hat{y} + (1 - y) \log (1 - \hat{y})]$ 其中：
$|\mathcal{D}|$ 是数据集中样本的总数。
$\hat{y} = f_{\theta}(S_u, v)$ 是推荐模型 $f_{\theta}$ 预测的概率。
$y$ 是真实标签（0 或 1）。

4.2.2. 整体框架 (Overall Framework)

LONGER 的整体架构如图 1 所示。

Figure 1: LONGER Model Architecture.
该图像是LONGER模型架构的示意图，展示了全局令牌机制、自注意力模块和跨注意力模块等关键组件，以及用于处理用户长序列的共享嵌入层和轻量级InnerTransformers。整体架构旨在优化多种特征的处理，以提高推荐系统的效率和准确性。

图 1：LONGER 模型架构。

该框架旨在解决推荐系统中长而复杂的用户行为序列建模挑战，同时保持工业规模下的训练和推理效率。它集成了输入生成、令牌合并、混合注意力机制以及训练服务优化。

输入生成 (Input Generation)：引入 Global Tokens 作为辅助表示，用于全局信息融合和注意力稳定。同时，对原始序列令牌进行增强，加入位置信息。
令牌合并 (Token Merge)：通过将相邻令牌分组并压缩，减少序列长度，降低计算复杂度，同时通过 InnerTrans 模块保留组内局部模式。
混合注意力机制 (Hybrid Attention)：结合 Cross-Causal Attention 和 Self-Causal Attention，在效率和表达力之间取得平衡。
训练与服务优化 (Training and Serving Optimizations)：包括完全同步的 GPU 训练和推理框架、混合精度训练、激活重计算和 KV 缓存服务。

4.2.3. 全局令牌 (Global Tokens)

全局令牌是辅助的表示，被附加到输入序列中。它们的作用是促进全局信息的提取和锚定。

构成：可以包括目标物品表示令牌、可学习的 CLS 令牌、用户 ID (UID) 嵌入，以及高阶压缩的用户-物品交互特征。
注意力感受野 (Receptive Field)：全局令牌具有完整的注意力感受野，这意味着它们可以从整个序列中聚合上下文信号，同时也能影响序列中的所有其他令牌。
目的：
1. 信息锚点 (Information Anchors)：作为集中的信息锚点，增强用户历史、上下文属性和候选物品之间的特征交互。
2. 稳定注意力动态 (Stabilize Attention Dynamics)：在长序列，特别是稀疏注意力配置下，全局令牌有助于稳定注意力机制。正如 StreamLLM [23] 所示，少量全局令牌可以缓解“注意力沉淀 (attention sink)”效应，即深层注意力层过度关注早期令牌的问题。这些令牌充当锚点，保持注意力的多样性并保留长距离依赖建模。

4.2.4. 令牌合并 (Token Merge)

令 $L$ 为序列长度， $d$ 为嵌入维度。处理长行为序列（通常在工业推荐系统中 $L \ge 2000$ 且 $d=32$ ）使用 vanilla Transformer 会带来巨大的计算成本，因为其二次注意力复杂度为 $O(L^2 d)$ 。传统的序列截断 (sequence truncation) 会导致长距离依赖的丢失。为解决此问题，LONGER 提出了令牌合并策略。

策略：将相邻令牌分组，并压缩成更短的序列。这在模型效率和表示保真度之间取得了平衡。通过因子 $K$ 减少序列长度，实现空间压缩。
组内交互：分组后的令牌表示可以通过简单拼接 (concatenation) 形成，也可以通过引入轻量级 InnerTrans 模块增强组内交互。
计算复杂度：给定一个标准 Transformer 编码器层，其 FLOPs (浮点运算次数) 和参数数量可表示为 [16]: $\begin{array}{rl} & \mathrm{FLOPs}_{\mathrm{vanillatrans}} = 24Ld^2 + 4L^2d \\ & \mathrm{Params}_{\mathrm{vanillatrans}} = 12d^2 + 13d \end{array}$ 其中：
- $L$ 是序列长度。
- $d$ 是嵌入维度。
- $24Ld^2$ 和 $4L^2d$ 分别代表密集操作（如线性投影）和注意力计算的 FLOPs。
- $12d^2$ 和 13d 代表层中的参数数量。
  
  令牌合并前后注意力计算复杂度的比例如下： $\frac{\mathrm{FLOPs}_{\mathrm{Merge~Token}}}{\mathrm{FLOPs}_{\mathrm{vanilla}}} = \frac{24Ld^2K + \frac{4L^2d}{K}}{24Ld^2 + 4L^2d} = \frac{6dK + \frac{L}{K}}{6d + L}$ 其中：
- $K$ 是序列长度的缩减因子，即新序列长度为 L/K。这里公式的分子部分 $24Ld^2K$ 与分母 $24Ld^2$ 相比，似乎暗示了 $K$ 是一个乘数，而不是一个简单的除数。然而，根据上下文“reduces the sequence length by a factor of K”，新序列长度应为 L/K。如果将 $L$ 替换为 L/K，则密集的 FLOPs 应该是 $24(L/K)d^2$ ，注意力的 FLOPs 应该是 $4(L/K)^2d$ 。原文公式 (5) 的形式比较特殊，特别是分子中的 $24Ld^2K$ 和 $4L^2d/K$ 。如果 $K$ 是每组的令牌数量，且序列长度变为 L/K，那么新的 FLOPs 通常是 $24(L/K)d^2 + 4(L/K)^2d$ 。这里作者的公式 (5) 可能是对特定实现或参数膨胀的综合考量，我们严格按照原文呈现。
- $6dK + \frac{L}{K}$ 和 $6d + L$ 是简化后的比率表达式。
参数膨胀 (Parameter Expansion)：令牌合并通过缩短序列长度来降低计算复杂度，同时会增加参数数量 $\Theta_{\mathrm{merge}}$ ，从而提高效率和模型表达能力，有利于整体模型性能。 $\Theta_{\mathrm{merge}} = 12K^2d^2 + 13Kd$ 其中：
- $K$ 在这里指的是组内的令牌数量。
- $12K^2d^2 + 13Kd$ 表示引入 InnerTrans 后，模型参数的变化，其中 InnerTrans 内部的 Transformer 块会增加参数。
InnerTrans：为了解决简单拼接 (simple concatenation) 可能导致令牌组内交互不足和细节丢失的问题，引入了 InnerTrans。
- 机制：在每个令牌组内应用一个 Transformer 模块，以实现局部交互。
- 优势：确保组内交互被有效捕获，避免信息损失。由于维度和序列长度非常小，InnerTrans 的计算开销在实践中非常有限。 $\mathbf{M}_i = \mathrm{TransformerBlock}\left( [\mathbf{e}_i^1, ..., \mathbf{e}_i^K] \right)$ 其中：
- $\mathbf{M}_i$ 表示第 $i$ 个组的表示。
- $\mathbf{e}_i^k$ 表示第 $i$ 个组中第 $k$ 个物品的嵌入。
- TransformerBlock 是一个轻量级的 Transformer 块。

4.2.5. LONGER 模型结构 (LONGER Model Structure)

LONGER 模型的架构采用混合注意力机制，结合交叉注意力 (cross-attention) 和自注意力 (self-attention) 层来高效处理输入序列。

4.2.5.1. 输入生成 (Input Generation)

模型的输入由两部分组成：

全局令牌 (Global Tokens)：代表上下文信息（如目标物品特征和用户标识符，参见 3.3 节）。
序列令牌 (Sequence Tokens)：用户的行为序列。这两部分拼接 (concatenated) 起来形成模型的输入。

位置侧信息 (Positional Side Information)：为了更好地捕捉用户行为序列中的时间动态，序列令牌通过以下两种形式的位置编码进行增强：

绝对时间差特征 (Absolute Time-difference Feature)：量化每个用户交互与目标物品之间的时间距离，作为侧信息拼接到每个物品嵌入 (item embedding) 中。
可学习的绝对位置嵌入 (Learnable Absolute Positional Embedding)：编码序列中每个令牌的位置，并添加到物品嵌入中。

输入表示 (Input Representation)：经过位置编码后，令牌通过一个多层感知机 (Multi-Layer Perceptron, MLP) 生成其输入表示 $\mathbf{R} \in \mathbb{R}^{(m+L) \times d}$ 。其中：

$\mathbf{G} \in \mathbb{R}^{m \times \breve{d}}$ 表示 $m$ 个全局令牌的表示。
$\mathbf{H} \in \mathbb{R}^{L \times d}$ 表示 $L$ 个序列令牌的表示。

查询矩阵 (Query Matrix) 构造：查询矩阵 $\mathbf{O}$ 通过拼接 $m$ 个全局令牌 $\mathbf{G} \in \mathbb{R}^{m \times d}$ 和 $k$ 个采样的序列令牌 $\bar{\mathbf{H}}_{\mathsf{S}} \in \mathbb{R}^{k \times d}$ 来构建。
采样策略：采样的序列令牌 $\bar{\mathbf{H}}_{\mathsf{S}}$ 是从完整的序列令牌 $\mathbf{H}$ 中选择的。论文实验发现，选择最近的 $k$ 个令牌作为采样策略效果最佳。
动机：这种混合设计将注意力集中在关键的局部行为和全局上下文信号上，使模型能够高效捕捉特定的序列依赖和更广泛的上下文信息。实验表明，仅采样 40% 的完整序列即可保留超过 95% 的性能提升，同时减少约 50% 的 FLOPs。
复合查询 (Composite Query)： $\mathbf{O} = [\mathbf{G}; \mathbf{H}_{\mathsf{S}}]$ 其中：
- $\mathbf{G}$ 是全局令牌。
- $\mathbf{H}_{\mathsf{S}}$ 是采样的序列令牌。

4.2.5.2. 交叉因果注意力 (Cross-Causal Attention) (第一层)

在第一个注意力层，模型应用交叉因果注意力。

查询 (Query)：使用前一步生成的查询矩阵 $\mathbf{O}$ 。
键 (Key) 和值 (Value)：使用完整的输入令牌 $\mathbf{R} \in \mathbb{R}^{(m+L) \times d}$ 。交叉注意力机制的计算如下： $\mathbf{Q} = \mathbf{O W_Q}, \quad \mathbf{K} = \mathbf{R W_K}, \quad \mathbf{V} = \mathbf{R W_V}$ 其中：
$\mathbf{W_Q}, \mathbf{W_K}, \mathbf{W_V}$ 是查询、键和值投影矩阵，形状均为 $\mathbb{R}^{d \times d}$ 。
$\mathbf{Q} \in \mathbb{R}^{(m+k) \times d}$ , $\mathbf{K} \in \mathbb{R}^{(m+L) \times d}$ , $\mathbf{V} \in \mathbb{R}^{(m+L) \times d}$ 。注意力计算： $\mathrm{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \mathrm{Softmax}\left( \frac{\mathbf{Q} \mathbf{K}^T}{\sqrt{d}} + \mathbf{M} \right) \mathbf{V}$ 其中：
$d$ 是嵌入维度。
$\mathbf{M}$ $M$ 是掩码矩阵 (mask matrix)，定义如下： $\mathbf{M}_{i,j} = \left\{ \begin{array}{ll} 0, & \mathrm{if~} j \geq i, \mathrm{~where~} \{i, j\} \in [1, m+L] \\ -\infty, & \mathrm{otherwise} \end{array} \right.$
- 因果掩码 (Causal Mask)：这种掩码设计的作用有两方面：
  1. 保持时间相关性 (Temporal Relevance)：确保序列中的物品之间的时间关系得到维护。
  2. 不可见性 (Invisibility)：确保序列对候选物品的注意力是单向的，从而支持 KV Cache Serving 机制（参见 3.6.3 节）。
- 作用：因果掩码确保在计算注意力时，任何一个位置的查询都只能关注到其自身以及它之前的键值对，而不能看到未来的信息。注意力计算结果之后，会通过一个前馈网络 (Feed-Forward Network, FFN) 进行进一步处理。

4.2.5.3. 自因果注意力 (Self-Causal Attention) (后续层)

在交叉因果注意力层之后，后续层由几个自因果注意力块 (self-causal attention blocks) 组成。

目的：这些层专注于学习采样令牌序列内部的关系，使模型能够捕捉行为序列中令牌之间的依赖和模式。
结构：每个自因果注意力层之后都会跟着一个 FFN。
计算：自因果注意力机制的计算公式与交叉因果注意力类似，但查询、键和值均来自上一层的输出（即当前层的输入）。 $\mathrm{SelfAttention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \mathrm{softmax}\left( \frac{\mathbf{Q} \mathbf{K}^T}{\sqrt{d}} + \mathbf{M} \right) \mathbf{V}$ 其中：
- $\mathbf{Q}, \mathbf{K}, \mathbf{V}$ 是通过对上一层的输出应用不同的线性投影 $\mathbf{W_Q}, \mathbf{W_K}, \mathbf{W_V}$ 获得的。
- $\mathbf{M}$ 同样是因果掩码，以确保自注意力也是因果的。

4.2.5.4. 堆叠与压缩 (Stacking and Compression)

自因果注意力层被堆叠 $N$ 次，以迭代地精炼输入序列的表示。经过这些层后，模型会生成一个压缩的输出，作为注意力机制的最终输出，用于后续的下游预测任务。 $\mathrm{CrossAttn}( {\bf O}, {\bf R} ) \longrightarrow \mathrm{SelfAttn}( \cdot ) \times N$ 通过在第一层使用交叉注意力，并在后续层使用自注意力，模型能够有效处理长序列，同时利用全局上下文和内部依赖。

4.2.6. 训练与部署优化 (Training and Deployment Optimization)

4.2.6.1. 训练框架 (Training Framework)

LONGER 采用一个为大规模稀疏模型设计的完全同步 (fully synchronous) 训练系统，旨在最大化 GPU 集群上的计算吞吐量和内存效率。

Figure 2: Training Framework
该图像是一个示意图，展示了LONGER模型的训练框架。包括从训练数据（批处理或流处理）到数据处理模块（Fountain），再到多个GPU（GPU0, GPU1, GPU2等）进行全同步的参数更新，展示了高效的训练流程。

图 2：训练框架

设计理念：硬件-软件协同设计 (hardware-software co-design)。
流程：
1. 数据摄取：批处理 (batch) 或流式 (streaming) 形式。
2. 预处理：通过 Fountain 模块。
3. 分发与更新：处理后的训练数据分发到多个 GPU 运行器 (GPU runners)，其中密集参数 (dense parameters) 和稀疏参数 (sparse parameters) 都进行同步更新。
统一参数存储与训练架构：这是该框架的标志性特征。
- 存储位置：密集和稀疏参数都同步存储和更新在 GPU 机器上，无需外部的参数服务器 (Parameter Server)。
- 分层内存系统 (Hierarchical Memory System)：为稀疏嵌入 (sparse embedding) 采用分层内存系统，以适应推荐系统中特征分布模式：
  - 高频特征 (High-frequency features)：存储在高带宽 GPU 内存 (HBM) 中。
  - 中频特征 (Mid-frequency features)：驻留在 CPU 主内存 (MEM) 中。
  - 低频特征 (Low-frequency features)：卸载到本地固态硬盘 (SSD)。
- 优势：这种分层存储布局根据推荐数据的访问特性进行了优化，在延迟、吞吐量和容量之间取得了实际平衡。计算和参数存储完全共置于 GPU 机器上，减少了通信开销和内存传输延迟，从而提高了训练吞吐量，减少了模型陈旧 (staleness)，并增强了收敛稳定性。

4.2.6.2. 混合精度训练和重计算 (Mixed Precision Training and Recompute)

为缓解训练期间的 GPU 内存压力，LONGER 结合使用重计算策略和混合精度训练。

重计算 (Recompute)：
- 背景：反向传播 (reverse-mode automatic differentiation) 需要存储前向传播 (forward pass) 的所有中间激活值 (intermediate activations)，这可能成为主要的内存瓶颈。
- 策略：允许在模型定义级别声明重计算，使选定的激活值在前向传播时被丢弃，并在反向传播需要时重新计算。这是用计算量换取内存节省。
- 实现：由于原生 TensorFlow 不支持重计算，作者通过 custom_gradient 机制实现，允许通过代码级注解进行细粒度控制。
混合精度训练 (Mixed Precision Training)：
- 背景：密集模型扩展带来的计算开销。
- 策略：采用 BF16/FP16 为基础的混合精度训练。用户可以在模型级别配置精度，将较高精度应用于关键组件，较低精度应用于其他部分。
- 效果：在生产工作负载中，平均吞吐量提高 18%，训练时间减少 16%，内存使用减少 18%（密集层最多可减少 28%）。

4.2.6.3. KV 缓存服务 (KV Cache Serving)

为了提高在对多个候选物品进行评分时的推理效率，LONGER 引入了一种 KV 缓存机制，解耦了用户行为令牌和候选特定全局令牌之间的注意力计算。

Figure 3: KV Cache Serving
该图像是一个示意图，展示了标准 Transformer 的注意力计算与 KV 缓存服务的过程。左侧显示了标准 Transformer 针对每个候选项计算全部注意力，右侧展示了缓存用户序列的 KV 过程及逐候选项的 KV 查询。这种方法优化了计算效率，有助于大型推荐系统的实现。

图 3：KV Cache Serving

原理：由于用户序列在不同候选物品之间保持不变，其内部表示可以计算一次并重复使用。
实现：
1. 注意力输入分离：将注意力输入分为两部分：(1) 用户序列令牌，(2) 与候选物品相关的全局令牌。
2. 预计算和缓存：预先计算并缓存用户序列的键 (Key) 和值 (Value) 投影。
3. 按候选计算：对于每个候选物品，只计算其全局令牌与缓存的用户序列之间的注意力。
两阶段推理过程：
1. 预计算并缓存用户序列的键-值张量。
2. 计算每个候选物品的全局令牌与缓存用户序列之间的注意力。
优势：
- 避免了冗余计算，显著降低了服务延迟。
- 在实践中，它将在线服务效率的吞吐量下降从高达 -40% 降低到仅 -6.8%。

5. 实验设置

5.1. 数据集

实验在字节跳动旗下的 Douyin Ads system (抖音广告系统) 上进行，这是一个真实世界、大规模的工业广告推荐场景，专注于转化率 (Conversion Rate, CVR) 预测任务。

数据来源：2024年10月16日至2025年2月23日期间收集的在线用户交互日志子集。
规模：包含 52 亿个样本，覆盖 130 个连续天。
样本内容：每个样本包括用户人口统计特征（如用户 ID (UID)、性别）、超长用户行为序列，以及一个候选广告物品。
行为序列：包含多种交互类型，如页面浏览 (page views)、点击 (clicks) 和转化 (conversions)。
物品特征：涵盖广告内容、展示上下文和相关元数据。
数据划分：采用时间一致性数据划分策略：
- 训练集：前 123 天的数据。
- 离线评估集：剩余 7 天的数据。
动机：这种设置与实际部署实践一致，并有效防止了模型开发过程中的未来数据泄露。

5.2. 评估指标

论文使用了多种评估指标，包括离线指标和在线 A/B 测试指标。

5.2.1. 离线评估指标

5.2.1.1. AUC (Area Under the ROC Curve)

概念定义 (Conceptual Definition): AUC 是接收者操作特征曲线下面积 (Area Under the Receiver Operating Characteristic Curve) 的缩写，是衡量分类模型性能的常用指标。它量化了模型区分正类和负类的能力。从概率上讲，AUC 表示模型将随机选择的正样本的预测分数高于随机选择的负样本的预测分数的概率。在推荐系统中，高 AUC 意味着模型能更好地将用户可能感兴趣的物品（正样本）排在更靠前的位置，而不是用户不感兴趣的物品（负样本）。
数学公式 (Mathematical Formula): 对于二分类问题，AUC 可以通过计算所有正负样本对中，正样本的预测分数高于负样本预测分数的比例来近似。 $\mathrm{AUC} = \frac{\sum_{i \in \text{positive}} \sum_{j \in \text{negative}} \mathbb{I}(P_i > P_j) + 0.5 \cdot \mathbb{I}(P_i = P_j)}{N_{\text{positive}} \cdot N_{\text{negative}}}$
符号解释 (Symbol Explanation):
- $P_i$ : 第 $i$ 个正样本的预测概率。
- $P_j$ : 第 $j$ 个负样本的预测概率。
- $\mathbb{I}(\cdot)$ : 指示函数 (indicator function)，如果括号内的条件为真则返回 1，否则返回 0。
- $N_{\text{positive}}$ : 正样本的总数量。
- $N_{\text{negative}}$ : 负样本的总数量。

5.2.1.2. LogLoss (Binary Cross-Entropy Loss)

概念定义 (Conceptual Definition): LogLoss，即对数损失，是衡量分类模型预测概率与真实标签之间差异的指标。它惩罚对真实标签预测概率较低的模型。LogLoss 越小，表示模型的预测越接近真实情况。在推荐系统中，它衡量了模型预测用户交互概率的准确性。
数学公式 (Mathematical Formula): $\mathcal{L} = - \frac{1}{N} \sum_{i=1}^{N} [y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)]$
符号解释 (Symbol Explanation):
- $N$ : 样本总数。
- $y_i$ : 第 $i$ 个样本的真实标签（0 或 1）。
- $\hat{y}_i$ : 第 $i$ 个样本的预测概率（一个介于 0 和 1 之间的值）。
- $\log(\cdot)$ : 自然对数。

5.2.2. 在线 A/B 测试指标

5.2.2.1. ADSS (Advertiser Score)

概念定义 (Conceptual Definition): ADSS，即广告主评分，是抖音广告系统中一个关键的内部指标。它综合衡量了广告主对广告效果和平台服务的满意度，通常与广告主的投入产出比、转化效果、目标达成度等因素相关。高 ADSS 意味着广告主对广告投放效果更满意。论文指出这是工业广告系统中最重要的指标之一。

5.2.2.2. ADVV (Advertiser Value)

概念定义 (Conceptual Definition): ADVV，即广告主价值，是抖音广告系统中衡量广告投放为广告主带来的实际商业价值的指标。它可能包括广告带来的销售额、转化量、用户获取成本等。高 ADVV 意味着广告投放为广告主创造了更高的商业回报。论文同样指出这是工业广告系统中最重要的指标之一。

5.2.2.3. Order/U (Orders per User)

概念定义 (Conceptual Definition): Order/U，即每用户订单数，是电商平台中衡量用户购买活跃度的指标。它表示在特定时间段内，平均每个用户完成的订单数量。更高的 Order/U 表明用户在平台上的购买意愿更强，复购率可能更高。
数学公式 (Mathematical Formula): $\text{Order/U} = \frac{\text{总订单数量}}{\text{总独立用户数}}$
符号解释 (Symbol Explanation):
- 总订单数量 (Total Number of Orders): 在给定时间段内发生的所有订单的总计数。
- 总独立用户数 (Total Number of Unique Users): 在给定时间段内至少下过一个订单的独立用户的数量。

5.2.2.4. GMV/U (Gross Merchandise Volume per User)

概念定义 (Conceptual Definition): GMV/U，即每用户商品交易总额，是电商平台中衡量用户消费价值的指标。它表示在特定时间段内，平均每个用户创造的商品交易总额（即所有销售商品的总价值）。更高的 GMV/U 表明用户在平台上的消费能力更强，为平台带来的商业价值更大。
数学公式 (Mathematical Formula): $\text{GMV/U} = \frac{\text{总商品交易总额}}{\text{总独立用户数}}$
符号解释 (Symbol Explanation):
- 总商品交易总额 (Total GMV): 在给定时间段内所有售出商品的货币价值总和。
- 总独立用户数 (Total Number of Unique Users): 在给定时间段内至少产生过一次商品交易的独立用户的数量。

5.3. 对比基线 (Baselines)

论文将 LONGER 与多种强大的基线模型进行了比较，这些模型根据其序列建模能力（短序列或长序列）进行分类。

短序列方法：
- TWIN [3]：一种用于 CTR 预测的两阶段兴趣网络，主要处理有限长度的用户行为序列。
- DIN (Recent50)：深度兴趣网络 DIN [30] 的变体，仅使用用户最近的 50 次交互进行建模。
长序列方法：
- SumPooling：一种简单的基线，可能通过对整个长序列的嵌入进行求和来表示用户兴趣。
- DIN [30]：原版深度兴趣网络，尝试处理扩展的行为历史，但可能受限于其架构对超长序列的效率。
- HSTU [25]：一种为长序列设计的 Transformer 变体，通过堆叠自注意力层来建模。
- Transformer [6]：标准的 Transformer 架构，用于长序列建模，但存在二次计算复杂度的效率问题。
  
  实验配置：所有模型都在相同的预处理流程和超参数调整下进行训练，并在一个包含 $48 \times \mathrm{A100s}$ GPU 的集群上进行实验。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 现有方法的比较 (Table 1)

以下是原文 Table 1 的结果：

	Base	SumPooling	TWIN	DIN (Recent50)	DIN	HSTU	Transformer	LONGER
AUC↑	0.83968	0.84201	0.84472	0.84698	0.84982	0.84994	0.85111	0.85290
LogLoss↓	0.48758	0.48538	0.48168	0.47830	0.47452	0.47490	0.47293	0.47103
ΔAUC(%)		+0.28	+0.60	+0.87	+1.21	+1.22	+1.36	+1.57
ΔLogLoss(%)		-0.45	-1.21	-1.90	-2.68	-2.60	-3.00	-3.39

分析：

LONGER 的领先地位：LONGER 在所有模型中表现最佳，AUC 达到 0.85290，LogLoss 达到 0.47103。
相对提升：相较于基线模型 (Base)，LONGER 在 AUC 上有 1.57% 的相对提升，LogLoss 有 3.39% 的相对降低。
与最强基线的比较：与最强的基线模型 Transformer 相比，LONGER 的 AUC 提升了 0.00179 (0.85290 - 0.85111)，相对提升约 0.21%。在工业场景中，即使 0.1% 的 AUC 提升也被认为是显著的。这表明 LONGER 在捕获长距离行为依赖方面的有效性。
长序列建模的优势：普遍来看，能够处理更长序列的模型（如 DIN、HSTU、Transformer、LONGER）表现优于仅处理短序列的模型（如 $DIN (Recent50)$ 、TWIN），验证了长序列信息的重要性。
效率优势：虽然表格未直接展示效率数据，但论文在摘要中提到 LONGER 在保持性能的同时显著提高了效率，解决了 Transformer 在长序列上的计算效率问题。

6.1.2. 消融实验 (Ablation Study) (Table 2)

以下是原文 Table 2 的结果：

Configuration	FLOPs (×10)	AUC↑	LogLoss↓	ΔAUC	ΔLogLoss
LONGER (w/o Merge, 2000)	3.73	0.85111	0.47293	+1.36%	-3.00%
+TokenMerge4(Concat, 500)	2.13	0.85232	0.47145	+1.51%	-3.31%
+TokenMerge8(Concat, 250)	3.03	0.85291	0.47062	+1.58%	-3.48%
Based on LONGER with TokenMerge8
+ InnerTrans	3.52	0.85332	0.47052	+1.63%	-3.50%
Varying Query Number (Sampling Recent k items)
Query number = 50	1.27	0.85235	0.47162	+1.51%	-3.27%
Query number = 80	1.59	0.85248	0.47157	+1.52%	-3.28%
Query number = 100	1.91	0.85290	0.47103	+1.57%	-3.39%
Query number = 150	2.36	0.85290	0.47101	+1.57%	-3.40%
Query number = 200	2.93	0.85331	0.47077	+1.62%	-3.45%
Query number = 250	3.52	0.85332	0.47052	+1.63%	-3.50%
Query Selection Strategies
Learnable 100	1.91	0.84946	0.47523	+1.17%	-2.53%
Recent 100	1.91	0.85290	0.47103	+1.57%	-3.39%
Uniform 100	1.91	0.85183	0.47215	+1.45%	-3.16%
Recent50 + Rest Unif50	1.91	0.85255	0.47129	+1.53%	-3.34%

分析：

TokenMerge 的影响：
- LONGER (w/o Merge, 2000) 指的是标准 Transformer (因为其 FLOPs 和性能与 Table 1 中的 Transformer 完全一致)。
- 引入 TokenMerge4 (Concat, 500)（序列长度缩减 4 倍，到 500）显著降低了 FLOPs (从 $3.73 \times 10^9$ 到 $2.13 \times 10^9$ )，同时 AUC 提升了 0.15% (从 0.85111 到 0.85232)，LogLoss 降低。
- 进一步使用 TokenMerge8 (Concat, 250)（序列长度缩减 8 倍，到 250）进一步提升了性能 (AUC 0.85291, LogLoss 0.47062)。这表明 TokenMerge 不仅高效，还能提升性能，因为它可能减少了噪音或更好地组织了信息。
InnerTrans 的影响：
- 在 TokenMerge8 的基础上，添加 InnerTrans 带来了额外的性能增益 (AUC 从 0.85291 到 0.85332，LogLoss 从 0.47062 到 0.47052)。这证实了 InnerTrans 在合并令牌时捕捉组内细粒度交互的重要性。
查询数量 (Query Number) 的影响：
- 随着查询数量 $k$ 的增加，FLOPs 和性能（AUC 和 LogLoss）通常会改善。
- $Query number = 100$ 的配置 (AUC 0.85290, LogLoss 0.47103, FLOPs $1.91 \times 10^9$ ) 与 $Query number = 250$ (AUC 0.85332, LogLoss 0.47052, FLOPs $3.52 \times 10^9$ ) 相比，性能非常接近，但 FLOPs 减少了约 45.8% ( $(3.52-1.91)/3.52 \approx 0.458$ )。这表明 100 个查询在效率和性能之间找到了一个很好的平衡点，非常适合实际部署。
查询选择策略 (Query Selection Strategies) 的影响：
- 可学习查询 (Learnable 100) 表现最差，AUC 仅为 0.84946。这表明随机初始化的可学习查询不如直接从用户行为中获取的查询有效。
- 最近 100 个行为 (Recent 100) 表现最佳 (AUC 0.85290)，与 $Query number = 100$ 的结果一致。这强调了最近用户行为在捕捉用户意图中的关键作用。
- 均匀采样 100 个行为 (Uniform 100) 和 最近 50 个 + 剩余均匀采样 50 个 (Recent50 + Rest Unif50) 的性能介于可学习查询和最近 100 个行为之间，略低于 Recent 100。
- 结论：这些结果强调了用信息丰富的行为（尤其是最近的行为）来初始化查询对于有效捕捉用户意图的重要性。

6.1.3. 扩展分析 (Scaling Analysis)

6.1.3.1. 序列长度 (Sequence Length)

以下是原文 Figure 4 的结果：

Figure 4: Scaling up sequence length in LONGER.
该图像是图表，展示了LONGER模型在不同序列长度（以Token为单位）下的AUC和LogLoss指标变化。左侧图表显示随着序列长度的增加，AUC值提升的趋势，并列出了五个层的拟合方程及其决定系数R²。右侧图表呈现了对应的LogLoss值随序列长度的变化，显示出LogLoss值随着序列长度增加而降低的趋势，同样包含了层的拟合方程及其R²值。这些结果表明LONGER在处理长序列时的有效性。

图 4：LONGER 序列长度的扩展分析。

分析：

性能随序列长度的提升：图 4 展示了 AUC 和 LogLoss 随输入序列长度增加而变化的趋势。无论是 AUC 还是 LogLoss，都呈现出随着序列长度的增加，性能持续改善（AUC 升高，LogLoss 降低）的趋势。
幂律趋势 (Power-law Trend)：这种性能提升遵循幂律趋势，即性能提升的边际效应会逐渐减弱。
模型深度与序列长度的交互：更深的模型 (Deeper models) 从更长的序列中获益更多。然而，AUC 提升的边际效益随着模型深度的增加而减缓，这表明存在一个平衡点，需要权衡模型容量和计算限制。
结论：长序列能够增强模型性能，尤其是在搭配合适的模型深度时。但当达到一定深度后，进一步的收益会变得边际化。

6.1.3.2. 参数数量 (Parameters)

以下是原文 Figure 5 的结果：

Figure 5: Scaling performance with respect to FLOPs and model parameters.
该图像是一个图表，展示了参数数量与AUC值（图(a)）以及FLOPs与AUC值（图(b)）之间的关系。图中，横坐标分别表示参数数量和FLOPs，纵坐标表示AUC值，各自配有线性拟合曲线，公式分别为 $y = 0.83719 \times 10^{-3} \cdot x^{0.001} \, (R^2 = 0.987)$ 和 $y = 0.82983 \times 10^{-3} \cdot x^{0.001} \, (R^2 = 0.967)$ ，表明了模型复杂度与性能之间的正相关关系。

图 5：FLOPs 和模型参数的扩展性能。

分析：

AUC 随参数数量的增长：图 5(a) 展示了 AUC 随参数数量变化的趋势。在固定层数为 2 且输入序列长度为 2000 的情况下，AUC 随着参数数量的增加而稳定提升，并呈现出强烈的幂律趋势 ( $R^2 = 0.987$ )。
未饱和的性能：这表明在当前参数范围内，增加模型宽度 (hidden dimension size) 可以有效地提高性能，且尚未出现性能饱和的迹象。

6.1.3.3. FLOPs

分析：

AUC 随 FLOPs 的增长：图 5(b) 展示了 AUC 随 FLOPs 变化的趋势。在固定模型维度为 32 的情况下，AUC 随着 FLOPs 的增加而稳定提升，同样呈现出强烈的幂律趋势 ( $R^2 = 0.967$ )。
捕捉高阶依赖：这表明增加计算资源使模型能够处理更长或更复杂的序列，从而捕捉更高阶的依赖关系并提高预测准确性，即使在模型宽度固定的情况下也是如此。
结论：这些结果表明，增加计算资源是提高模型性能的有效途径，但这种效率提升需要在实际系统中的计算和内存限制之间取得平衡。

6.1.4. 在线 A/B 测试 (Online A/B Tests)

在线 A/B 测试在字节跳动的抖音广告和抖音电商平台进行，验证了 LONGER 在真实世界场景中的有效性。

6.1.4.1. 抖音广告平台 (Douyin Ads Platform) (Table 3)

以下是原文 Table 3 的结果：

Advertise Type	ADSS	ADVV
Live Streaming	+1.063%	+1.168%
Short Video	+2.097%	+2.151%
Mall	+1.816%	+1.407%

分析：

全面提升：LONGER 在所有广告形式（直播、短视频、商城）中都带来了 ADSS 和 ADVV 的正向提升。
显著效果：短视频广告的效果提升最为显著，ADSS 提升了 2.097%，ADVV 提升了 2.151%。直播和商城广告也表现出 1% 左右的积极提升。
验证商业价值：这些结果证实了 LONGER 能有效提升广告主满意度和商业价值，对于工业广告系统具有重要意义。

6.1.4.2. 抖音电商服务 (Douyin E-Commerce Service) (Table 4)

以下是原文 Table 4 的结果：

E-commerce Type	Order / U	GMV/U
Live Streaming	+7.9222%	+6.5404%
Short Video	+4.6125%	+5.2771%

分析：

显著的电商指标提升：LONGER 在抖音电商服务中的 Order/U 和 GMV/U 指标上均取得了显著提升。
直播电商效果突出：直播电商的 Order/U 提升高达 7.9222%，GMV/U 提升 6.5404%，表明 LONGER 在促进直播购物转化和价值方面表现尤为突出。
短视频电商同样有效：短视频电商也实现了 Order/U 4.6125% 和 GMV/U 5.2771% 的提升。
结论：这些结果突出了 LONGER 在电商领域，特别是直播和短视频内容形式中，对用户购买行为和商业价值的强大推动作用。

6.2. 消融实验/参数分析

在 6.1.2 节中已详细分析了消融实验和查询数量、查询选择策略对模型性能和计算效率的影响。主要结论是：

TokenMerge 和 InnerTrans 是提升性能和效率的关键组件。
100 个查询的数量在性能和计算成本之间取得了最佳平衡。
选择最近的用户行为作为查询令牌是最有效的策略，优于可学习或均匀采样的查询。

7. 总结与思考

7.1. 结论总结

本文提出了 LONGER，一个为工业推荐系统设计的高效且可扩展的 Transformer 框架，旨在解决超长用户行为序列建模的挑战。LONGER 的核心贡献在于其创新的架构设计和全面的系统级优化。在架构层面，LONGER 引入了：

全局令牌机制 (global tokens)，用于稳定注意力并捕获全局上下文。
令牌合并模块 (token merge)，结合轻量级 InnerTrans 和混合注意力策略，有效降低了 Transformer 的二次计算复杂度，同时保持了局部语义信息。在系统优化层面，LONGER 实现了：
统一的 GPU 同步训练和服务框架 (GPU-synchronous framework)，用于高效处理密集和稀疏参数更新。
混合精度训练 (mixed-precision training) 和 激活重计算 (activation recomputation)，以优化 GPU 内存和计算效率。
KV 缓存服务 (KV cache serving)，显著提升了推理效率。通过在字节跳动十亿级工业数据集上的广泛离线实验以及在广告和电商领域的在线 A/B 测试，LONGER 持续超越了强大的基线模型。它不仅实现了竞争性的准确性，还在延迟敏感的生产环境中显著降低了计算开销，验证了其在亿万用户规模下的鲁棒性和通用性。

7.2. 局限性与未来工作

论文指出未来的工作方向包括：

探索更高效的序列建模技术 (more efficient sequence modeling techniques)：尽管 LONGER 已经取得了显著进步，但仍有空间进一步优化序列建模的效率，可能涉及更先进的稀疏注意力机制、线性注意力变体或其他长序列模型。
改进跨域行为建模 (improving cross-domain behavior modeling)：目前的 LONGER 主要集中在单一领域的长序列建模。在多个业务场景中（如广告和电商），如何更好地利用和整合用户在不同领域之间的行为，以提供更全面的推荐，是一个重要的研究方向。

文章并未明确指出 LONGER 本身的具体局限性，而是提出了更广泛的未来研究方向。从侧面看，这可能意味着 LONGER 在其设计目标（GPU 高效的工业级超长序列建模）上已经达到了一个非常高的水平。

7.3. 个人启发与批判

个人启发：

理论与实践的结合：LONGER 是一个典范案例，展示了如何将先进的深度学习模型（Transformer）与深度的系统级工程优化相结合，以解决真实世界工业场景中的大规模计算和效率挑战。这对于任何希望将其研究成果落地于实际生产环境的研究者都具有重要启发。
长序列的潜力：论文通过实验有力地证明了超长用户行为序列在捕捉用户偏好方面的巨大价值。即使在之前被认为过于昂贵的序列长度上，通过巧妙设计依然可以获得显著的性能提升。
模块化优化思维：LONGER 的成功在于其对 Transformer 核心瓶颈（二次复杂度）进行了多层次、模块化的优化：从宏观的 Token Merge 序列压缩，到微观的 InnerTrans 局部信息保留，再到系统级的训练/推理加速，这种全面而系统的优化方法值得借鉴。
Scaling Law 的实际验证：论文在工业级数据集上验证了性能随序列长度、参数和 FLOPs 增长的幂律趋势，这为推荐系统的未来发展和资源规划提供了宝贵的实证依据。
近期行为的重要性：消融实验中“最近 k 个行为”作为查询选择策略的优异表现，再次强调了在用户行为序列中，用户的近期兴趣对于预测当前意图的关键作用。

批判与可以改进的地方：
Token Merge FLOPs 公式 (5) 的解释清晰度：论文中关于 Token Merge 后的 FLOPs 比例公式 (5) 的表述略显模糊，特别是分子中的 $24Ld^2K$ 项，它与“序列长度缩减因子 K”的直观理解不完全一致。如果 $K$ 是缩减因子，那么原始序列长度 $L$ 应该变为 L/K，则密集的 FLOPs 应该是 $24(L/K)d^2$ 。公式的形式更像是对参数膨胀和计算量变化的某种综合考量，如果能有更详细的推导或解释会更好。
InnerTrans 的详细开销分析：论文提到 InnerTrans 的计算预算“非常有限”，但未提供具体的 FLOPs 或参数增量数据。在消融实验中，加入 InnerTrans 使得 FLOPs 从 $3.03 \times 10^9$ 增加到 $3.52 \times 10^9$ ，这一增量并非微不足道（约 16%）。虽然带来了性能提升，但更详细的成本效益分析（例如，针对不同 $K$ 值时 InnerTrans 的具体贡献与开销）可以进一步支撑其“轻量级”的论断。
Global Tokens 的选择与影响：论文列举了几种 Global Tokens 的类型（目标物品、CLS、UID 等），但未在消融实验中深入探讨不同类型 Global Tokens 或其组合对模型性能和注意力稳定性的具体影响。例如，如果移除某种 Global Token 会带来多大程度的性能下降，或者 CLS 令牌是否真的比其他特定语义的令牌更有效。
通用性评估：尽管在字节跳动内部的两个主要业务场景进行了大规模验证，但 LONGER 尚未在公开的基准数据集上进行评估。这限制了其与更广泛学术界工作的直接比较和通用性判断。在未来，如果能在一些具有代表性的长序列公开数据集上进行测试，将进一步提升论文的学术影响力。
长期影响和多样性：论文主要关注 AUC 和 LogLoss 等预测准确性指标，以及 ADSS、ADVV、Order/U、GMV/U 等商业指标。对于长序列建模可能带来的用户体验多样性提升（例如，缓解信息茧房效应），如果能有定量分析，将使结论更加全面。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。