论文状态：已完成

RankMixer: Scaling Up Ranking Models in Industrial Recommenders

发表：2025/07/21

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了RankMixer，一种针对工业推荐系统的硬件感知排序模型，旨在克服训练和服务成本的限制。RankMixer使用多头词元混合模块替代传统自注意力机制，提高了模型的并行性和效率。同时，通过引入稀疏专家混合变体，支持十亿参数规模，使得模型在扩展性和用户活跃度上都取得显著提升。

摘要

Recent progress on large language models (LLMs) has spurred interest in scaling up recommendation systems, yet two practical obstacles remain. First, training and serving cost on industrial Recommenders must respect strict latency bounds and high QPS demands. Second, most human-designed feature-crossing modules in ranking models were inherited from the CPU era and fail to exploit modern GPUs, resulting in low Model Flops Utilization (MFU) and poor scalability. We introduce RankMixer, a hardware-aware model design tailored towards a unified and scalable feature-interaction architecture. RankMixer retains the transformer's high parallelism while replacing quadratic self-attention with multi-head token mixing module for higher efficiency. Besides, RankMixer maintains both the modeling for distinct feature subspaces and cross-feature-space interactions with Per-token FFNs. We further extend it to one billion parameters with a Sparse-MoE variant for higher ROI. A dynamic routing strategy is adapted to address the inadequacy and imbalance of experts training. Experiments show RankMixer's superior scaling abilities on a trillion-scale production dataset. By replacing previously diverse handcrafted low-MFU modules with RankMixer, we boost the model MFU from 4.5% to 45%, and scale our ranking model parameters by 100x while maintaining roughly the same inference latency. We verify RankMixer's universality with online A/B tests across two core application scenarios (Recommendation and Advertisement). Finally, we launch 1B Dense-Parameters RankMixer for full traffic serving without increasing the serving cost, which improves user active days by 0.3% and total in-app usage duration by 1.08%.

思维导图

论文精读

中文精读约 40 分钟读完 · 25,218 字

1. 论文基本信息

1.1. 标题

RankMixer: 工业推荐系统中扩展排序模型 (RankMixer: Scaling Up Ranking Models in Industrial Recommenders)

1.2. 作者

主要作者包括 Jie Zhu, Zhifang Fan, Xiaoxie Zhu, Yuchen Jiang 等，共计多位研究人员。他们均来自 字节跳动 (ByteDance)。

1.3. 发表期刊/会议

预印本 (Preprint) 形式发布于 arXiv，发布时间为 2025 年 7 月 21 日。由于是预印本，尚未经过同行评审，但通常预印本平台在人工智能和推荐系统领域具有较高的关注度。

1.4. 发表年份

2025年

1.5. 摘要

大型语言模型 (LLMs) 的最新进展激发了人们对扩展推荐系统 (recommendation systems) 的兴趣，但实际应用中仍面临两大障碍。首先，工业推荐系统上的训练和部署成本必须满足严格的延迟 (latency) 限制和高每秒查询次数 (QPS) 需求。其次，排序模型中大多数人工设计的特征交叉 (feature-crossing) 模块继承自 CPU 时代，未能充分利用现代图形处理器 (GPUs)，导致模型浮点运算利用率 (Model Flops Utilization, MFU) 低和可扩展性差。本文引入了 RankMixer，这是一种硬件感知 (hardware-aware) 的模型设计，旨在实现统一且可扩展的特征交互架构。RankMixer 保留了 Transformer 的高并行性，同时用多头词元混合 (multi-head token mixing) 模块取代了二次方的自注意力 (self-attention) 机制，以提高效率。此外，RankMixer 通过逐词元前馈网络 (Per-token FFNs) 保持了对不同特征子空间 (feature subspaces) 的建模以及跨特征空间 (cross-feature-space) 的交互。为了获得更高的投资回报率 (ROI)，本文进一步将其扩展到十亿参数规模，引入了稀疏专家混合 (Sparse-MoE) 变体。同时，采用了一种动态路由策略来解决专家训练不足和不平衡的问题。实验表明，RankMixer 在万亿规模的生产数据集上具有卓越的扩展能力。通过用 RankMixer 替换之前多样化的人工设计低 MFU 模块，模型 MFU 从 4.5% 提高到 45%，并且在保持大致相同推理延迟 (inference latency) 的情况下，将在线排序模型参数扩展了 100 倍。通过在两个核心应用场景（推荐和广告）中的在线 A/B 测试 (A/B tests)，验证了 RankMixer 的通用性。最终，10 亿稠密参数 (Dense-Parameters) 的 RankMixer 在不增加服务成本的情况下全面上线，将用户活跃天数提高了 0.3%，总应用内使用时长提高了 1.08%。

1.6. 原文链接

https://arxiv.org/abs/2507.15551

1.7. PDF 链接

https://arxiv.org/pdf/2507.15551v3.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题与挑战

当前的推荐系统 (Recommendation System, RS) 领域面临两个核心挑战，尤其是在大型语言模型 (Large Language Models, LLMs) 成功扩展的背景下，人们希望将这种扩展能力也应用到 RS 中：

高成本与性能限制： 工业级推荐系统必须严格遵守延迟 (latency) 约束并支持极高的每秒查询次数 (Queries Per Second, QPS)。模型规模的增长不能以牺牲这些关键的在线服务指标为代价。
现有模型设计缺陷： 许多现有的排序模型 (ranking models) 中的特征交叉 (feature-crossing) 模块是为 CPU 时代设计的，在现代图形处理器 (GPUs) 上效率低下。它们通常是内存密集型 (memory-bound) 而非计算密集型 (compute-bound)，导致模型浮点运算利用率 (Model Flops Utilization, MFU) 极低（通常是个位数百分比），这严重阻碍了模型的扩展性 (scalability)。CPU 时代模型的计算成本大致与参数数量成正比，使得激进扩展的投资回报率 (Return on Investment, ROI) 难以实现。

2.1.2. 问题的重要性

推荐系统是信息分发的核心环节，对于用户体验和商业价值至关重要。随着数据量的爆炸式增长，对能够处理海量多领域特征数据并捕获复杂用户行为的深度学习推荐模型 (Deep Learning Recommendation Models, DLRMs) 的需求日益增加。LLMs 的成功表明，模型规模的扩展可以带来性能的显著提升，因此，在 DLRMs 中实现高效且可控的扩展成为了一个迫切的需求。

2.1.3. 论文的切入点与创新思路

本文的切入点在于通过一种 硬件感知 (hardware-aware) 的模型设计，来解决 DLRMs 在扩展性方面的核心问题。其创新思路是：

统一且可扩展的特征交互架构： 提出 RankMixer，取代传统多样化、低 MFU 的手工设计模块。
高并行性与高效率： 借鉴 Transformer 的高并行性，但用更高效的 多头词元混合 (multi-head token mixing) 模块取代二次方的自注意力 (self-attention)，以适应推荐系统异构特征的特点。
区分建模能力： 通过 逐词元前馈网络 (Per-token FFNs) 保持对不同特征子空间建模的能力，同时处理跨特征空间交互。
成本效益的规模扩展： 引入 稀疏专家混合 (Sparse Mixture-of-Experts, Sparse-MoE) 变体，并结合动态路由策略，在参数量大幅增加的同时，控制计算成本，提升 ROI。

2.2. 核心贡献/主要发现

本文的主要贡献和关键发现总结如下：

提出 RankMixer 架构： 引入了一种新颖的、硬件感知的模型设计 RankMixer，旨在高效捕获异构特征交互。它包含两个核心组件：多头词元混合 (multi-head token mixing) 和 逐词元前馈网络 (Per-token FFNs)。
改进 Sparse-MoE 扩展性： 针对 Sparse-MoE 在推荐系统中的专家训练不足和不平衡问题，提出了动态路由策略，增强了 Sparse-MoE 在 RankMixer 中的可扩展性。
实现大规模参数扩展与效率提升： 凭借高 MFU (Model Flops Utilization) 和性能优化，RankMixer 成功将模型参数规模扩展了 70 倍 (从 16M 到 1B)，同时维持了大致相同的推理延迟，甚至有所降低。模型 MFU 从 4.5% 大幅提升至 45%。
验证扩展定律： 在万亿规模的工业推荐数据集上进行了广泛的离线和在线实验，验证了 RankMixer 模型的优越性能和陡峭的扩展定律 (scaling law)。
成功工业部署与显著业务提升： RankMixer 模型已成功部署在抖音 (Douyin) 推荐系统的全流量服务中。在线 A/B 测试结果显示，在不增加服务成本的情况下，用户活跃天数提升了 0.3%，应用内总使用时长提升了 1.08%。同时，在广告 (Advertisement) 等核心应用场景中也展现了通用性，实现了业务指标的显著提升。

3. 预备知识与相关工作

3.1. 基础概念

推荐系统 (Recommendation System, RS): 一种信息过滤系统，旨在预测用户对物品（如商品、视频、新闻等）的偏好，并向用户推荐他们可能感兴趣的物品。其核心目标是连接用户和信息，提升用户体验和平台效益。
深度学习推荐模型 (Deep Learning Recommendation Models, DLRMs): 使用深度神经网络来建模用户-物品交互和各种特征的推荐模型。它们通常包含嵌入层 (embedding layers) 处理稀疏特征（如用户 ID、物品 ID），以及稠密交互层来捕获特征之间的复杂关系。
大型语言模型 (Large Language Models, LLMs): 拥有数亿到数万亿参数的深度学习模型，通过在海量文本数据上进行预训练，学习语言的模式和知识，能够执行各种自然语言处理 (Natural Language Processing, NLP) 任务，如文本生成、问答、翻译等。本文将 LLM 成功扩展的经验作为 DLRM 扩展的动机。
每秒查询次数 (Queries Per Second, QPS): 每秒钟服务器或系统能够处理的查询请求数量。在工业推荐系统中，QPS 是衡量系统吞吐量和处理能力的关键指标，通常要求极高。
延迟 (Latency): 从发送请求到接收响应所需的时间。在工业推荐系统中，尤其是实时排序环节，对延迟有非常严格的限制，通常需要在毫秒级别。
模型浮点运算利用率 (Model Flops Utilization, MFU): 衡量模型在特定硬件上实际浮点运算次数 (FLOPs) 与该硬件理论峰值 FLOPs 能力的比率。MFU 越高，表示硬件资源被模型越有效地利用，通常意味着更快的推理速度和更高的计算效率。低 MFU 意味着大部分硬件计算单元处于空闲状态。
Transformer (变换器): 一种基于自注意力 (self-attention) 机制的深度神经网络架构，最初用于自然语言处理任务。其特点是能够并行处理输入序列中的所有元素，并有效地捕获长距离依赖关系。它因其高并行性和在处理序列数据方面的强大能力而在 NLP、计算机视觉 (Computer Vision, CV) 等领域取得了巨大成功。
自注意力 (Self-attention): Transformer 架构中的核心机制，允许模型在处理序列中的每个元素时，动态地权衡序列中所有其他元素的重要性。它通过计算查询 (Query, $Q$ $Q$ )、键 (Key, $K$ $K$ ) 和值 (Value, $V$ $V$ ) 向量之间的相似度来生成注意力权重。其标准计算公式如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中：
- $Q$ (Query): 查询矩阵，由输入序列中每个词元 (token) 的查询向量组成。
- $K$ (Key): 键矩阵，由输入序列中每个词元的键向量组成。
- $V$ (Value): 值矩阵，由输入序列中每个词元的值向量组成。
- $d_k$ : 键向量的维度，用于缩放点积结果，防止在维度较高时内积过大导致 softmax 梯度过小。
- $QK^T$ : 查询和键的点积，表示查询与键之间的相似度。
- $\mathrm{softmax}(\cdot)$ : 归一化函数，将相似度分数转换为注意力权重，使其和为 1。
- $\mathrm{Attention}(Q, K, V)$ : 输出的注意力加权值，是值向量的加权和。
前馈网络 (Feed-Forward Network, FFN): 深度学习模型中的一个基本组件，通常由两个线性变换 (全连接层) 和一个激活函数组成。在 Transformer 中，每个自注意力层之后都会有一个 FFN，对每个位置的输出独立进行转换。
专家混合 (Mixture-of-Experts, MoE): 一种神经网络架构，通过动态地为每个输入样本选择性地激活一个或多个“专家”网络来增加模型的容量。每个专家通常是一个小型的前馈网络。一个路由器 (router) 负责决定哪个或哪些专家应该处理当前的输入。这使得模型能够处理更复杂的数据分布，同时保持可控的计算成本。
AUC (Area Under the Curve, 曲线下面积): 在二分类问题中，衡量模型性能的常用指标，通常指 ROC 曲线 (Receiver Operating Characteristic curve) 下的面积。AUC 值越高，表示模型区分正负样本的能力越强。
- 概念定义: AUC 量化了模型将随机选择的正样本排在随机选择的负样本之前的概率。它的值介于 0 到 1 之间，0.5 表示模型性能等同于随机猜测，1 表示完美分类。
- 数学公式: 假设存在 $N_p$ 个正样本和 $N_n$ 个负样本，AUC 可以通过以下公式近似计算： $\mathrm{AUC} = \frac{\sum_{i=1}^{N_p} \sum_{j=1}^{N_n} \mathbb{I}(P_i > P_j)}{N_p \cdot N_n}$
- 符号解释:
  - $N_p$ : 正样本的数量。
  - $N_n$ : 负样本的数量。
  - $P_i$ : 第 $i$ 个正样本的模型预测分数。
  - $P_j$ : 第 $j$ 个负样本的模型预测分数。
  - $\mathbb{I}(\cdot)$ : 指示函数 (indicator function)，如果括号内的条件为真，则为 1，否则为 0。
  - $\mathbb{I}(P_i > P_j)$ : 表示正样本 $i$ 的预测分数高于负样本 $j$ 的预测分数。
UAUC (User-level AUC, 用户级别 AUC): 一种在推荐系统中常用的 AUC 变体，它首先为每个用户计算其个性化的 AUC 值，然后对所有用户的 AUC 值进行平均。这能更好地反映模型在个体用户层面的排序能力，避免了少数活跃用户或头部物品对整体 AUC 的主导。
- 概念定义: UAUC 关注模型在每个独立用户交互序列中的排序质量。它通过计算每个用户的 AUC，然后求这些用户 AUC 的平均值来得到。
- 数学公式: $\mathrm{UAUC} = \frac{1}{N_u} \sum_{u=1}^{N_u} \mathrm{AUC}_u$
- 符号解释:
  - $N_u$ : 用户的总数量。
  - $\mathrm{AUC}_u$ : 第 $u$ 个用户对应的 AUC 值，根据该用户所交互的物品计算。
浮点运算次数 (FLOPs): 指示模型执行一次前向传播或反向传播所需的浮点运算的总次数。它是衡量模型计算复杂度的指标，通常与训练和推理时间直接相关。

3.2. 前人工作

DLRMs 与特征交互：
- Wide&Deep [5]: 最早的尝试之一，结合逻辑回归 (wide part) 捕获低阶特征交互，与深度神经网络 (DNN) (deep part) 捕获高阶特征交互。
- DeepFM [11]: 将因子分解机 (Factorization Machine, FM) 和 DNN 结合，同时学习低阶和高阶特征交互。
- DeepCross [26]: 扩展自残差网络 (residual network)，旨在隐式地学习自动特征交互。
- 显式交叉方法： PNN [22]、DCN [32] 及其继任者 DCNv2 [33]、xDeepFM [18]、FGCNN [20]、FiGNN [17] 等，通过设计特定的算子来显式捕获高阶特征交互。
- 基于注意力 (attention) 机制的方法： AutoInt [28] 和 Hiformer [10] 利用注意力机制和残差连接来学习复杂的交互。
- 多算子组合方法： DHEN [39] 提出将多种交互算子（如 DCN、自注意力、FM、LR）组合在一起。
推荐系统中的扩展定律 (Scaling Laws)：
- 早期研究 [2, 6, 40] 简单地加宽或堆叠特征交互层，但效果有限甚至负面 [18, 32]。
- 后续工作如 DHEN [39] 和 Wukong [38] 专注于设计创新的 DNN 结构来提升扩展性能。
- Wukong [38] 堆叠了 FM 和 LCB (Linear Compress Block) 来学习特征交互。
- Zhang 等 [40] 将序列推荐模型扩展到 0.8B 参数。
- HSTU [36] 增强了生成式推荐器 (Generative Recommenders, GRs) 的扩展效果。

3.3. 技术演进

推荐系统中的模型架构从最初的协同过滤 (collaborative filtering) 和矩阵分解 (matrix factorization) 等传统方法，发展到基于 DNNs 的 DLRMs。早期 DLRMs 尝试通过简单的 MLP 堆叠或 Wide&Deep 结构来捕获特征交互。然而，单纯依赖 DNNs 学习高阶特征交互被证明是具有挑战性的 [22, 25]。这促使研究人员转向设计更显式的特征交叉模块，如 DCN 系列和 FM 变体。随着 Transformer 在 NLP 领域的巨大成功，注意力机制也被引入推荐系统，如 AutoInt 和 Hiformer，以期捕获更复杂的特征关系。

然而，这些方法在扩展性上面临实际挑战，尤其是在工业部署中严格的延迟和 QPS 要求下。它们往往导致计算成本和内存消耗的显著增加，且在 GPU 上的 MFU 较低。LLMs 规模扩展的成功启发了推荐系统领域，但如何将 LLM 的扩展能力与 RS 特有的异构特征、低延迟要求结合起来，成为了新的研究方向。RankMixer 正是在这一背景下提出的，它试图通过硬件感知设计、高效的词元混合和逐词元 FFN 来克服现有DLRMs的扩展瓶颈。

3.4. 差异化分析

RankMixer 与相关工作的主要区别和创新点在于：

硬件感知设计与 MFU 优化： 大多数现有模型（如 DCN、AutoInt、DHEN、Wukong）的设计继承自 CPU 时代，在现代 GPU 上 MFU 低，导致计算效率低下。RankMixer 从设计之初就考虑了 GPU 的硬件特性，通过采用大规模通用矩阵乘法 (GEMM) 形状和并行拓扑，将 MFU 从 4.5% 大幅提升至 45%，从而实现了参数规模的百倍扩展而不增加推理延迟。
多头词元混合 (Multi-head Token Mixing) 取代自注意力 (Self-attention)：
- 传统自注意力问题： Self-attention 在 NLP 中效果显著，但其通过内积计算注意力权重的方式，对于推荐系统中固有的异构特征空间（如用户 ID、物品 ID、行为序列等）并不适用。在推荐系统中，ID 空间可能包含数亿个元素，直接计算异构语义空间之间的内积相似度非常困难，且计算量大（二次方复杂度）、内存开销高（注意力权重矩阵）。
- RankMixer 的创新： RankMixer 的 Multi-head Token Mixing 模块通过参数无关的 (parameter-free) 操作实现跨词元交互，避免了 Self-attention 的上述问题。它将每个词元分割成多个“头”，这些头可以看作是词元在不同低维特征子空间中的投影，然后将相同头的不同词元进行拼接以实现信息融合。这种方法在不引入额外参数的情况下实现了高效的全局特征交互，更适合推荐系统的异构数据特点。
逐词元前馈网络 (Per-token FFNs) 实现细粒度建模：
- 传统 FFN 问题： 传统 Transformer 或大部分 DLRM 中的 FFN 参数在所有词元间共享，或者在 MoE 中所有专家共享相同的输入，这可能导致高频特征主导，掩盖低频或长尾特征的信号。
- RankMixer 的创新： RankMixer 的 Per-token FFNs 为每个特征词元分配独立的参数进行转换。这使得模型能够独立建模不同的特征子空间，更好地捕捉其多样性，避免了“特征空间主导”问题，从而提升了整体推荐质量。
稀疏专家混合 (Sparse-MoE) 的动态路由与训练优化：
- 传统 Sparse-MoE 问题： Vanilla Sparse-MoE 在 RankMixer 中可能面临专家利用不平衡和专家训练不足 (under-training) 的问题，因为特征词元本身就具有不同的信息量。
- RankMixer 的创新： 结合 ReLU Routing（允许动态专家数量）和 Dense-training / Sparse-inference (DTSI-MoE) 策略，确保了专家在训练过程中得到充分更新，同时在推理时保持稀疏性，从而以更小的计算成本显著提升了模型容量和 ROI。

4. 方法论

4.1. 方法原理

RankMixer 的核心思想是设计一个硬件感知 (hardware-aware)、统一且可扩展的特征交互架构，以克服工业推荐系统中模型扩展的障碍。其直觉来源于 Transformer 模型的高并行性，但针对推荐系统异构特征的特点进行了关键优化。它旨在通过两个主要组件实现高效的跨特征交互和对不同特征子空间的精细建模，同时通过 Sparse-MoE 进一步提升参数效率和可扩展性。这种设计能够最大化 GPU 的计算吞吐量和模型浮点运算利用率 (MFU)，使得在维持严格延迟约束的同时，将模型参数规模大幅扩展成为可能。

4.2. 核心方法详解 (逐层深入)

4.2.1. 整体架构 (Overall Architecture)

RankMixer 的整体架构由 $T$ 个输入词元 (input tokens) 组成，这些词元经过 $L$ 个连续的 RankMixer 模块处理，最后通过一个输出池化 (output pooling) 算子生成最终的表示。每个 RankMixer 模块包含两个主要组件：(1) 多头词元混合 (Multi-Head Token Mixing) 层，和 (2) 逐词元前馈网络 (Per-Token FeedForward Network, PFFN) 层。

首先，输入的嵌入向量 $e_{\mathrm{input}}$ 被词元化 (tokenized) 为 $T$ 个特征词元 (feature tokens) $\mathbf{x}_1, \mathbf{x}_2, ..., \mathbf{x}_T$ ，每个词元代表一个语义上连贯的特征向量。RankMixer 模块通过以下迭代过程对词元表示进行 $L$ 层精炼：

$\begin{array}{r} \mathsf { S } _ { n - 1 } = \mathrm { L N } \left( \mathrm { T o k e n M i x i n g } \left( \mathbf { X } _ { n - 1 } \right) + \mathbf { X } _ { n - 1 } \right), \\ \mathbf { X } _ { n } = \mathrm { L N } \left( \mathrm { PFFN } \left( \mathsf { S } _ { n - 1 } \right) + \mathsf { S } _ { n - 1 } \right), \quad \quad \end{array}$

其中：

$\mathrm{LN}(\cdot)$ : 层归一化 (layer normalization) 函数，用于稳定训练过程。
$\mathrm{TokenMixing}(\cdot)$ : 多头词元混合模块，用于实现跨词元的信息交互。
$\mathrm{PFFN}(\cdot)$ : 逐词元前馈网络模块，用于对每个词元进行独立转换，捕获特征子空间内的复杂模式。
$\mathbf{X}_{n-1} \in \mathbb{R}^{T \times D}$ : 第 n-1 个 RankMixer 块的输入，表示 $T$ 个词元，每个词元的维度为 $D$ 。
$\mathbf{X}_n \in \mathbb{R}^{T \times D}$ : 第 $n$ 个 RankMixer 块的输出。
$\mathbf{X}_0 \in \mathbb{R}^{T \times D}$ : 初始输入，由 $\mathbf{x}_1, \mathbf{x}_2, ..., \mathbf{x}_T$ 堆叠而成。
$D$ : 模型的隐藏维度 (hidden dimension)。
$\mathsf{S}_{n-1}$ : 经过词元混合和残差连接 (residual connection) 后的中间表示。

最终，输出表示 $\mathbf{O}_{\mathrm{output}}$ 通过对最后一层 $\mathbf{X}_L$ 的表示进行均值池化 (mean pooling) 得到，该表示将用于计算不同任务的预测。

4.2.2. 输入层与特征词元化 (Input Layer and Feature Tokenization)

构建大规模推荐模型的第一步是准备包含丰富信息的输入。这些输入包括：

用户特征 (User features): 如用户 ID (User ID) 和其他用户信息。
候选特征 (Candidate features): 如视频 ID (video ID)、作者 ID (author ID) 等。
序列特征 (Sequence Features): 经过序列模块 [4, 42] 处理以捕获时间兴趣，生成 $e_s$ 。
交叉特征 (Cross Features): 用户和候选物品之间的交叉特征。

所有这些特征都将被转换为具有不同维度的嵌入 (embeddings)。为了在后续阶段实现高效的并行计算，这些不同维度的嵌入必须被转换成维度对齐的向量，即特征词元 (feature-tokens)。这个嵌入对齐过程被称为词元化 (tokenization)。

简单的策略是为每个特征分配一个嵌入，但这在通常有数百个特征的情况下会带来挑战。数百个词元会不可避免地减少每个词元分配的参数和计算量，导致重要特征建模不足和 GPU 核心利用率低下。相反，过少的词元（例如，一个词元）会将模型结构降级为简单的深度神经网络 (Deep Neural Network, DNN)，无法清晰地表示多样化的特征空间，这可能导致主导特征掩盖其他特征。

为解决这些问题，论文提出了一种基于语义的词元化方法，利用领域知识将特征分组为几个语义上连贯的簇。这些分组后的特征按顺序拼接成一个嵌入向量 $e_{\mathrm{input}}$ ，然后被划分为适当数量的固定维度大小的词元。每个特征词元 $\mathbf{x}_i \in \mathbb{R}^D$ 捕获一组代表相似语义方面的特征嵌入。

$e_{\mathrm{input}} = \left[ e_1; e_2; ...; e_N \right]$

$\mathbf { x } _ { i } = \mathrm { Proj } ( e _ { \mathrm { input } } \left[ d \cdot ( i - 1 ) : d \cdot i \right] ), \quad i = 1 , \ldots , T$

其中：

$e_{\mathrm{input}}$ : 拼接后的嵌入向量。
$e_j$ : 第 $j$ 个特征组的嵌入。
$N$ : 特征组的数量。
$d$ : 每个词元的固定维度。
$T$ : 最终的词元数量。
$\mathrm{Proj}(\cdot)$ : 投影函数，将分割后的嵌入映射到维度 $D$ 。
$\mathbf{x}_i \in \mathbb{R}^D$ : 第 $i$ 个特征词元。

4.2.3. RankMixer 模块 (RankMixer Block)

4.2.3.1. 多头词元混合 (Multi-head Token Mixing)

为了促进词元之间的有效信息交换，这对于特征交叉和全局信息建模至关重要，论文引入了多头词元混合模块。每个词元 $\mathbf{x}_t$ 被均匀地划分为 $H$ 个头 (heads)，词元 $\mathbf{x}_t$ 的第 $h$ 个头表示为 $\mathbf{x}_t^{(h)}$ 。

$\left[ \mathbf { x } _ { t } ^ { ( 1 ) } \parallel \mathbf { x } _ { t } ^ { ( 2 ) } \parallel \ldots \parallel \mathbf { x } _ { t } ^ { ( H ) } \right] = \mathrm { SplitHead } \left( \mathbf { x } _ { t } \right)$

其中：

$\mathbf{x}_t$ : 第 $t$ 个词元。
$\mathbf{x}_t^{(h)}$ : 词元 $\mathbf{x}_t$ 的第 $h$ 个头。
$H$ : 头的数量。
$\parallel$ : 表示拼接操作。
$\mathrm{SplitHead}(\cdot)$ : 将词元分割成 $H$ 个头的操作。

这些头可以被视为词元 $\mathbf{x}_t$ 在较低维度特征子空间中的投影，因为推荐任务通常需要从不同的视角考虑。词元混合用于融合这些子空间向量，以实现全局特征交互。形式上，经过多头词元混合后，对应于第 $h$ 个头的词元 $\mathbf{s}^h$ 构造如下：

$\mathbf { s } ^ { h } = { \mathrm { Concat } } \left( \mathbf { x } _ { 1 } ^ { h } , \mathbf { x } _ { 2 } ^ { h } , . . . , \mathbf { x } _ { T } ^ { h } \right)$

其中：

$\mathbf{s}^h$ : 第 $h$ 个混合后的词元。
$\mathrm{Concat}(\cdot)$ : 拼接操作。

所有混合后的词元 $\mathbf{s}_1, \mathbf{s}_2, ..., \mathbf{s}_H$ 堆叠形成 $\mathbf{S} \in \mathbb{R}^{H \times \frac{TD}{H}}$ 。在本文中，为了保持与残差连接相同数量的词元，设置 $H=T$ 。

经过残差连接和归一化模块后，可以生成：

${ \bf s } _ { 1 } , { \bf s } _ { 2 } , . . . , { \bf s } _ { T } = \mathrm { L N } \left( \mathrm { T o k e n M i x i n g } \left( { \bf x } _ { 1 } , { \bf x } _ { 2 } , . . . , { \bf x } _ { T } \right) + \left( { \bf x } _ { 1 } , { \bf x } _ { 2 } , . . . , { \bf x } _ { T } \right) \right)$

尽管自注意力 (self-attention) 在大型语言模型中被证明非常有效，但论文发现它在推荐系统中并非最优。在自注意力机制中，注意力权重是通过词元内积计算的。这种方法适用于 NLP，因为所有词元共享一个统一的嵌入空间。然而，在推荐任务中，特征空间本质上是异构的。计算两个异构语义空间之间的内积相似度非常困难——特别是在推荐系统中，用户和物品侧的特征 ID 空间可能包含数亿个元素。因此，将自注意力应用于如此多样化的输入，其性能并未超越参数无关的多头词元混合方法，反而消耗更多计算、内存 I/O 操作和 GPU 内存。

4.2.3.2. 逐词元前馈网络 (Per-token FFN)

以前的 DLRM 和 DHEN 模型倾向于在一个单一的交互模块中混合来自许多不同语义空间的特征，这可能导致高频字段的支配效应，淹没低频或长尾信号，最终损害整体推荐质量。论文引入了一种参数隔离 (parameter-isolated) 的前馈网络架构，称为逐词元前馈网络 (per-token FFN)。在传统设计中，FFN 的参数在所有词元间共享，但本文的方法为每个词元独立进行转换，从而隔离了每个词元的参数。

对于第 $t$ 个词元 $\mathbf{s}_t$ ，逐词元 FFN 可以表示为：

$\mathbf { v } _ { t } = f _ { \mathrm { pffn } } ^ { t , 2 } \left( \operatorname { Gelu } \left( f _ { \mathrm { pffn } } ^ { t , 1 } \left( \mathbf { s } _ { t } \right) \right) \right)$

其中：

$f _ { \mathrm { pffn } } ^ { t , i } ( \mathbf { x } ) = \mathbf { xW } _ { \mathrm { pffn } } ^ { t , i } + \mathbf { b } _ { \mathrm { pffn } } ^ { t , i }$

$\mathbf{s}_t \in \mathbb{R}^D$ : 第 $t$ 个词元。
$\mathbf{v}_t$ : 第 $t$ 个词元经过 PFFN 后的输出。
$f_{\mathrm{pffn}}^{t,1}(\cdot)$ 和 $f_{\mathrm{pffn}}^{t,2}(\cdot)$ : 第 $t$ 个词元的两个线性变换。
$\mathbf{W}_{\mathrm{pffn}}^{t,1} \in \mathbb{R}^{D \times kD}$ : 第一个线性变换的权重矩阵。
$\mathbf{b}_{\mathrm{pffn}}^{t,1} \in \mathbb{R}^{kD}$ : 第一个线性变换的偏置向量。
$\mathbf{W}_{\mathrm{pffn}}^{t,2} \in \mathbb{R}^{kD \times D}$ : 第二个线性变换的权重矩阵。
$\mathbf{b}_{\mathrm{pffn}}^{t,2} \in \mathbb{R}^{D}$ : 第二个线性变换的偏置向量。
$k$ : 一个超参数，用于调整逐词元 FFN 的隐藏维度 (hidden dimension)。
$\mathrm{Gelu}(\cdot)$ : Gelu 激活函数。

我们将逐词元 FFN 模块总结为：

${ \bf v } _ { 1 } , { \bf v } _ { 2 } , . . . , { \bf v } _ { T } = \mathrm { PFFN } \left( \substack { \bf s } _ { 1 } , \bf { s } _ { 2 } , . . . , \bf { s } _ { { T } } \right)$

其中：

$\mathrm { PFFN } \left( { \bf s } _ { 1 } , { \bf s } _ { 2 } , . . . , { \bf s } _ { T } \right) = f _ { \mathrm { pffn } } ^ { t , 2 } \left( \mathrm { Gelu } \left( f _ { \mathrm { pffn } } ^ { t , 1 } \left( { \bf s } _ { 1 } , { \bf s } _ { 2 } , . . . , { \bf s } _ { T } \right) \right) \right)$

相较于参数完全共享的 FFN，逐词元 FFN 通过引入更多参数来增强建模能力，同时计算复杂度保持不变。值得强调的是，Per-token FFN 与 MMoE 中的专家不同，因为每个 Per-token FFN 处理的是一个独立的词元输入，而 MMoE 中的所有专家共享相同的输入。与 MMoE 中多个专家处理相同输入、以及 Transformer 中不同输入共享一个 FFN 不同，RankMixer 同时分割输入和参数，这有利于学习不同特征子空间的多样性。

4.2.4. RankMixer 中的稀疏专家混合 (Sparse MoE in RankMixer)

为了进一步提高大规模模型 (large-scale models) 的投资回报率 (ROI)，论文可以将每个逐词元 FFN 的稠密 FFN 替换为稀疏专家混合 (Sparse Mixture-of-Experts, Sparse-MoE) 块，这样模型的容量 (capacity) 可以在计算成本大致保持不变的情况下增长。然而，传统的 Sparse-MoE 在 RankMixer 中会退化，原因如下：

(i) 均匀 $k$ 专家路由 (uniform $k$ -expert routing): Top-k 选择将所有特征词元一视同仁，浪费预算在低信息量的词元上，而使高信息量的词元“饥饿”，这阻碍了模型捕捉词元间差异的能力。
(ii) 专家训练不足 (expert under-training): 逐词元 FFN 已经将参数数量乘以 #tokens；再添加非共享专家会进一步导致专家数量爆炸，从而产生高度不平衡的路由和训练不足的专家。

为了解决上述问题，论文结合了两种互补的训练策略：

4.2.4.1. ReLU 路由 (ReLU Routing)

为了赋予词元灵活的专家数量并保持可微分性，论文用一个 ReLU 门加上自适应的 $\ell_1$ 惩罚 [35] 取代了常见的 Topk + softmax。给定词元 $\mathbf{s}_i \in \mathbb{R}^{d_h}$ 的第 $j$ 个专家 $e_{i,j}(\cdot)$ 和路由器 $h(\cdot)$ ：

$G _ { i , j } = \mathrm { ReLU } \big ( h ( \mathbf { s } _ { i } ) \big ), \quad \mathbf { v } _ { i } = \sum _ { j = 1 } ^ { N _ { e } } G _ { i , j } \ : e _ { i , j } ( \mathbf { s } _ { i } )$

其中：

$G_{i,j}$ : 门控值，表示专家 $j$ 对词元 $i$ 的激活程度。
$\mathrm{ReLU}(\cdot)$ : 修正线性单元激活函数。
$h(\mathbf{s}_i)$ : 路由器网络对词元 $\mathbf{s}_i$ 的输出。
$\mathbf{v}_i$ : 词元 $\mathbf{s}_i$ 经过 Sparse-MoE 后的输出。
$e_{i,j}(\mathbf{s}_i)$ : 词元 $\mathbf{s}_i$ 经过第 $j$ 个专家后的输出。
$N_e$ : 每个词元的专家数量。
$N_t$ : 词元总数量。

ReLU Routing 将为高信息量的词元激活更多专家，从而提高参数效率。稀疏性由 $\mathcal{L}_{\mathrm{reg}}$ 和系数 $\lambda$ 来控制，使得平均激活专家比例接近预算：

$\mathcal { L } = \mathcal { L } _ { \mathrm { task } } + \lambda \mathcal { L } _ { \mathrm { reg } }, \quad \mathcal { L } _ { \mathrm { reg } } = \sum _ { i = 1 } ^ { N _ { t } } \sum _ { j = 1 } ^ { N _ { e } } G _ { i , j }$

其中：

$\mathcal{L}$ : 总损失函数。
$\mathcal{L}_{\mathrm{task}}$ : 主任务的损失（例如，CTR 预测损失）。
$\mathcal{L}_{\mathrm{reg}}$ : 正则化损失，用于鼓励稀疏性。
$\lambda$ : 正则化系数。

4.2.4.2. 密集训练/稀疏推断 (DTSI-MoE) (Dense-training / Sparse-inference (DTSI-MoE))

受 [21] 启发，采用了两个路由器 $h_{\mathrm{train}}$ 和 $h_{\mathrm{infer}}$ 。正则化损失 $\mathcal{L}_{\mathrm{reg}}$ 仅应用于 $h_{\mathrm{infer}}$ 。在训练过程中， $h_{\mathrm{train}}$ 和 $h_{\mathrm{infer}}$ 都会更新，但在推理时只使用 $h_{\mathrm{infer}}$ 。结果表明，DS-MoE 使得专家不会遭受训练不足的问题，同时降低了推理成本。Dense-training 确保了大多数专家都能接收到足够的梯度更新，防止专家“饿死”。

4.2.5. 扩展方向 (Scaling Up Directions)

RankMixer 本质上是一个高度并行且可扩展的架构。其参数计数和计算成本可以沿着四个正交轴扩展：

词元数量 (Token count) $T$
模型宽度 (Model width) $D$
层数 (Layers) $L$
专家数量 (Expert Numbers) $E$

对于完全稠密激活的版本，一个样本的参数数量和前向浮点运算次数 (FLOPs) 可以计算为：

$\# \mathrm { Param } \approx 2kLTD^2, ~ \mathrm { FLOPs } \approx 4kLTD^2$

其中：

$\# \mathrm{Param}$ : 模型参数总数。
$\mathrm{FLOPs}$ : 浮点运算总数。
$k$ : 调整 FFN 隐藏维度的比例因子。
$L$ : 模型层数。
$T$ : 词元数量。
$D$ : 模型隐藏维度。

在 Sparse-MoE 版本中，每个样本的有效参数和计算量由激活参数占总参数的比例 $s$ 决定：

$s = { \frac { \# { \mathrm { Activated } } \_ { \mathrm { Param } } } { \# \mathrm { Total } \_ \mathrm { Param } } }$

5. 实验设置

5.1. 数据集

实验使用了来自 抖音 (Douyin) 推荐系统的训练数据。这些数据来源于抖音的在线日志和用户反馈标签。

特征数量： 训练数据集包含 300 多个特征，包括数值特征 (numerical features)、ID 特征 (ID features)、交叉特征 (cross features) 和序列特征 (sequential features)。
ID 规模： 涉及数十亿用户 ID (user IDs) 和数亿视频 ID (video IDs)，所有这些都被转换为嵌入 (embeddings)。
数据规模： 数据集每天覆盖数万亿条记录，实验使用两周内收集的数据进行。

5.2. 评估指标

论文中出现的评估指标及其说明如下：

AUC (Area Under the Curve, 曲线下面积):
- 概念定义: AUC 量化了模型将随机选择的正样本排在随机选择的负样本之前的概率。它的值介于 0 到 1 之间，0.5 表示模型性能等同于随机猜测，1 表示完美分类。在推荐系统中，通常用于评估模型对用户行为（如点击、观看完成）预测的准确性。
- 数学公式: 假设存在 $N_p$ 个正样本和 $N_n$ 个负样本，AUC 可以通过以下公式近似计算： $\mathrm{AUC} = \frac{\sum_{i=1}^{N_p} \sum_{j=1}^{N_n} \mathbb{I}(P_i > P_j)}{N_p \cdot N_n}$
- 符号解释:
  - $N_p$ : 正样本的数量。
  - $N_n$ : 负样本的数量。
  - $P_i$ : 第 $i$ 个正样本的模型预测分数。
  - $P_j$ : 第 $j$ 个负样本的模型预测分数。
  - $\mathbb{I}(\cdot)$ : 指示函数 (indicator function)，如果括号内的条件为真，则为 1，否则为 0。
  - $\mathbb{I}(P_i > P_j)$ : 表示正样本 $i$ 的预测分数高于负样本 $j$ 的预测分数。
- 在本文中的应用: Finish/Skip AUC 用于评估用户完成观看视频或快速跳过视频的预测能力。
UAUC (User-level AUC, 用户级别 AUC):
- 概念定义: UAUC 关注模型在每个独立用户交互序列中的排序质量。它通过计算每个用户的 AUC，然后对所有用户的 AUC 值进行平均来得到。这能更好地反映模型在个体用户层面的排序能力，避免了少数活跃用户或头部物品对整体 AUC 的主导。
- 数学公式: $\mathrm{UAUC} = \frac{1}{N_u} \sum_{u=1}^{N_u} \mathrm{AUC}_u$
- 符号解释:
  - $N_u$ : 用户的总数量。
  - $\mathrm{AUC}_u$ : 第 $u$ 个用户对应的 AUC 值，根据该用户所交互的物品计算。
- 在本文中的应用: 与 AUC 类似，用于评估用户完成观看或跳过视频的预测能力，但聚焦于用户个体层面。
Dense-Param (稠密参数):
- 概念定义: 指模型中稠密部分的参数数量，不包括稀疏嵌入 (sparse embedding) 的参数。这通常是衡量模型主体计算复杂度和容量的关键指标。
Training Flops/Batch (每批次训练浮点运算次数):
- 概念定义: 运行一个批次（例如，512 个样本）通过模型所需的浮点运算次数 (FLOPs)，代表训练的计算成本。
- 数学公式: FLOPs 的具体计算取决于模型架构和操作类型，但通常表示为矩阵乘法、加法、乘法等的总和。例如，一个 $A \times B$ 矩阵与一个 $B \times C$ 矩阵的乘法大约需要 $2 \times A \times B \times C$ 次 FLOPs。
- 符号解释:
  - FLOPs: 浮点运算次数。
  - Batch Size: 每个训练批次中的样本数量。
MFU (Model FLOPs Utilization, 模型浮点运算利用率):
- 概念定义: 衡量模型在特定硬件上实际浮点运算次数 (FLOPs) 与该硬件理论峰值 FLOPs 能力的比率。MFU 越高，表示硬件资源被模型越有效地利用。
- 数学公式: $\mathrm{MFU} = \frac{\mathrm{Actual~FLOPs~Consumption}}{\mathrm{Theoretical~Hardware~FLOPs~Capacity}}$
- 符号解释:
  - $\mathrm{Actual~FLOPs~Consumption}$ : 模型在特定任务中实际消耗的浮点运算次数。
  - $\mathrm{Theoretical~Hardware~FLOPs~Capacity}$ : 硬件在单位时间内理论上能执行的最大浮点运算次数。
Active Days (活跃天数):
- 概念定义: 在实验期间，用户平均的活跃天数。它是日活跃用户 (DAU) 增长的替代指标，用于衡量用户粘性和留存。
Duration (时长):
- 概念定义: 用户在应用中的累积停留时间，用于衡量用户参与度和应用内的使用深度。
Like/Finish/Comment (点赞/完成/评论):
- 概念定义: 用户总的点赞数、完成观看视频数和评论数。这些是衡量用户与内容互动强度的关键行为指标。
ADVV (Advertiser Value, 广告主价值):
- 概念定义: 衡量广告模型在广告场景中为广告主创造的价值，通常与广告收入直接相关。

5.3. 对比基线

论文将 RankMixer 与以下广泛认可的 最先进 (SOTA) 基线模型进行了比较：

DLRM-MLP (base): 作为实验的基线，这是传统的用于特征交叉的多层感知机 (MLP)。
DLRM-MLP-100M: 简单地将 DLRM-MLP 扩展到 1 亿参数的版本，用于展示简单扩展的局限性。
DCNv2 [33]: 一种特征交叉模型，通过交叉网络 (Cross Network) 显式学习高阶特征交互，是特征交叉领域的 SOTA 模型之一。
RDCN [3]: 针对特征交叉模型的最新改进之一。
MoE: 使用多个并行专家进行扩展的模型，用于探索专家混合结构在推荐系统中的表现。
AutoInt [28]: 采用注意力机制结合残差连接来学习复杂特征交互的模型。
DHEN [39]: 一种深度分层集成网络，结合了多种特征交叉算子（如 DCN、自注意力、FM、LR）并堆叠多层。
Hiformer [10]: 结合异构自注意力层和低秩近似矩阵计算的 Transformer 架构，用于推荐系统。
Wukong [38]: 探索特征交互扩展定律的模型，其架构基于 DHEN，并使用了因子分解机块 (Factorization Machine Block, FMB) 和线性压缩块 (Linear Compress Block, LCB)。

5.4. 训练环境

所有实验都在混合分布式训练框架中的数百个 GPU 上进行。

稀疏部分 (sparse part): 异步更新。
稠密部分 (dense part): 同步更新。
优化器超参数 (optimizer hyperparameters): 在所有模型中保持一致。
- 稠密部分： 使用 RMSProp 优化器，学习率为 0.01。
- 稀疏部分： 使用 Adagrad 优化器。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 与最先进 (SOTA) 方法的比较

论文通过在参数量约 1 亿的模型之间进行比较，以确定在相同计算成本下哪种模型结构表现最佳。

以下是原文 Table 1 的结果：

Model	Finish		Skip		Efficiency
Model	AUC↑	UAUC↑	AUC↑	UAUC↑	Params	FLOPs/Batch
DLRM-MLP (base)	0.8554	0.8270	0.8124	0.7294	8.7 M	52 G
DLRM-MLP-100M	+0.15%	−	+0.15%	−	95 M	185 G
DCNv2	+0.13%	+0.13%	+0.15%	+0.26%	22 M	170 G
RDCN	+0.09%	+0.12%	+0.10%	+0.22%	22.6 M	172 G
MoE	+0.09%	+0.12%	+0.08%	+0.21%	47.6 M	158 G
AutoInt	+0.10%	+0.14%	+0.12%	+0.23%	19.2 M	307 G
DHEN	+0.18%	+0.26%	+0.36%	+0.52%	22 M	158 G
HiFormer	+0.48%	−	−	−	116 M	326 G
Wukong	+0.29%	+0.29%	+0.49%	+0.65%	122 M	442 G
RankMixer-100M	+0.64%	+0.72%	+0.86%	+1.33%	107 M	233 G
RankMixer-1B	+0.95%	+1.22%	+1.25%	+1.82%	1.1 B	2.1T

分析：

简单扩展的局限性： 简单地将 DLRM-MLP 扩展到 1 亿参数 (DLRM-MLP-100M) 仅带来了有限的增益 (+0.15% AUC)，表明在推荐系统中，仅仅增加模型宽度或深度而不改变结构是不足以实现性能提升的。
RankMixer 的卓越性能： 在参数量相似（约 100M）的模型中，RankMixer-100M 在所有 AUC 和 UAUC 指标上都显著优于其他所有 SOTA 基线，例如 Finish AUC 增益达到 +0.64%，远高于 DHEN 的 +0.18% 和 Wukong 的 +0.29%。这表明 RankMixer 的架构在捕获特征交互方面更有效。
计算效率的平衡： 尽管 RankMixer-100M 表现最佳，但其 FLOPs/Batch (233 G) 相对适中，低于 AutoInt (307 G)、Hiformer (326 G) 和 Wukong (442 G)，这反映了其在模型容量和计算负载之间取得了良好的平衡。
现有交叉结构模型的缺陷： DCNv2、RDCN、AutoInt、DHEN 等经典交叉结构模型，即使参数规模相对较小，也已经展现出较大的 FLOPs，这暗示了它们在设计上可能存在限制，影响了其在 GPU 上的效率。
大规模 RankMixer 的潜力： RankMixer-1B 模型进一步将参数扩展到 1.1 亿，并在所有指标上实现了更高的提升，Finish AUC 增益达到 +0.95%。这预示了 RankMixer 架构在更大规模下的巨大潜力。

6.1.2. 不同模型的扩展定律 (Scaling Laws of different models)

下图（原文 Figure 2）展示了 AUC 增益与不同模型的密集参数及 Flops 之间的关系。

$Figure 2: Scaling laws between finish Auc-gain and Params/Flops of different models. The $\\mathbf { x }$ axis uses a logarithmic scale.$ 分析：

RankMixer 的陡峭扩展定律： RankMixer 模型在参数和 FLOPs 方面都显示出最陡峭的扩展定律曲线，这意味着随着参数和计算量的增加，其性能增益最为显著，始终优于其他模型。
Wukong 的计算成本问题： 尽管 Wukong 模型在参数曲线上表现出相对陡峭的趋势，但其计算成本（FLOPs）增加得更快。因此，在 AUC vs FLOPs 曲线中，Wukong 与 RankMixer 和 Hiformer 之间的差距更大，表明其计算效率不足。
Hiformer 的性能劣势： Hiformer 的性能略逊于 RankMixer，这可能与其依赖特征级别的词元分割以及 Attention 机制影响其效率有关。
DHEN 的可扩展性有限： DHEN 的扩展性不理想，反映了其交叉结构在面对大规模模型时的局限性。
MoE 的专家平衡挑战： MoE 通过增加专家来扩展的策略带来了专家平衡的挑战，导致其扩展性能不尽如人意。

具体配置的优化： 实验观察到与 LLM 扩展定律相似的结论：模型质量主要与参数总数相关，而不同的扩展方向（深度 $L$ 、宽度 $D$ 、词元 $T$ ）产生的性能几乎相同。从计算效率的角度来看，更大的隐藏维度 (hidden-dim) 会产生更大的矩阵乘法 (GEMM) 形状，从而实现比堆叠更多层更高的 MFU。因此，100M 和 1B 模型的最终配置分别设置为 ( $D=768, T=16, L=2$ ) 和 ( $D=1536, T=32, L=2$ )。

6.1.3. 消融研究 (Ablation Study)

论文对 RankMixer-100M 模型进行了消融研究，以验证其各组件的有效性。

以下是原文 Table 2 的结果：

Setting	ΔAUC
w/o skip connections	-0.07%
w/o multi-head token mixing	-0.50%
w/o layer normalization	-0.05%
Per-token FFN → shared FFN	-0.31%

分析：

残差连接 (skip connections) 的重要性： 移除残差连接导致 AUC 降低 -0.07%，表明其对于模型训练的稳定性和性能提升是必要的。
多头词元混合 (multi-head token mixing) 的关键作用： 移除 Multi-Head Token Mixing 导致 AUC 大幅下降 -0.50%。这说明该模块对于捕获全局信息和实现词元间交互至关重要。如果缺少它，每个 FFN 只能建模部分特征而没有交互。
层归一化 (layer normalization) 的影响： 移除 Layer Normalization 导致 AUC 降低 -0.05%，虽然下降幅度较小，但仍表明其有助于训练稳定性，减少梯度爆炸或消失问题。
逐词元 FFN (Per-token FFN) 的有效性： 将 Per-token FFN 替换为共享 FFN (shared FFN) 导致 AUC 降低 -0.31%。这验证了 Per-token FFN 通过为不同特征子空间分配独立参数进行建模，有效增强了模型的表示能力和推荐质量。

进一步分析了词元混合策略，即特征词元到 FFN 的路由策略。

以下是原文 Table 3 的结果：

Routing strategy	ΔAUC	ΔParams	ΔFLOPs
All-Concat-MLP	-0.18%	0.0%	0.0%
All-Share	-0.25%	0.0%	0.0%
Self-Attention	-0.03%	+16%	+71.8%

分析：

All-Concat-MLP： 将所有词元拼接并通过一个大型 MLP 处理，然后分割回相同数量的词元。性能下降 -0.18%，表明学习大型矩阵的挑战以及局部信息学习的弱化。
All-Share： 没有分割，整个输入向量共享并馈送到每个 Per-token FFN，类似于 MoE。性能显著下降 -0.25%，这表明特征子空间分割和独立建模的重要性，与完全共享输入形成对比。
Self-Attention： 在词元之间应用自注意力进行路由。其性能略低于 Multi-Head Token Mixing，但计算成本高 (+16% 参数，+71.8% FLOPs)。这再次证明了在数百个不同特征子空间中学习相似度的困难。

这些消融研究结果有力地支持了 RankMixer 中 Multi-Head Token Mixing 和 Per-token FFNs 设计的合理性和有效性。

6.1.4. 稀疏专家混合 (Sparse-MoE) 的可扩展性与专家平衡

下图（原文 Figure 3）展示了不同 RankMixer 变体在稀疏激活比率下的 AUC 性能表现 ( $1, 1/2, 1/4, 1/8$ 的专家)：密集训练的 ReLU 路由的 sMoE 几乎保留了 1B 密集模型的所有准确性。

$Figure 3: AUC performance of RankMixer variants under decreasingly sparse activation ratio $( 1 , 1 / 2 , 1 / 4 , 1 / 8$ of experts): dense-training $^ +$ ReLU-routed sMoE preserves almost all accuracy of the 1 B dense model.$ 分析（可扩展性）：

图 3 绘制了 SMoE 稀疏性下的离线 AUC 增益。结合 Dense-Training-Sparse-Inference (DTSI) 与 ReLU routing 对于在积极稀疏性下保持准确性至关重要。
这使得 RankMixer 能够在参数容量（和内存占用）扩展超过 8 倍的情况下，几乎不损失 AUC，并且显著节省推理时间（吞吐量提高 +50%）。
Vanilla SMoE 的性能随着激活专家数量的减少而单调下降，这说明了专家不平衡和训练不足的问题。
添加负载均衡损失 (load-balancing loss) 可以减少相对于 Vanilla SMoE 的性能下降，但仍不及 DTSI + ReLU 版本，因为问题主要在于专家训练而非路由器。
这验证了 Sparse-MoE 是将 RankMixer 从当前 1B 参数扩展到未来 10B 规模部署而不超出成本预算的途径。

下图（原文 Figure 4）是一个图表，展示了 RankMixer 模型中不同 token 的激活专家比率，分为两个层次（layer 1 和 layer 2），每个层次显示多组图。每个子图的横轴表示迭代次数，纵轴表示激活专家比率，能够反映 RankMixer 在特征交互过程中的效率和性能。

分析（专家平衡和多样性）：
Vanilla Sparse MoE 常常遭受专家不平衡的困扰，导致一些专家训练不足，最终出现“死亡专家”（几乎从未被激活的专家），而只有少数固定专家被持续激活。
图 4 显示，结合 DTSI（密集训练，稀疏推断）与 ReLU routing 有效解决了这个问题：
- Dense-training 保证了大多数专家接收到足够的梯度更新，防止专家“饥饿”。
- ReLU routing 使得激活比例在不同词元之间动态变化——图中所示的激活比例根据其信息含量自适应地变化，这与推荐数据多样且高度动态的分布非常吻合。

6.1.5. 在线服务成本 (Online Serving cost)

如何防止推理延迟在参数增加两个数量级的情况下爆炸式增长？在实际系统中，延迟与吞吐量成反比，与服务机器资源的成本成正比。

以下是原文 Table 6 的结果：

Metric	OnlineBase-16M	RankMixer-1B	Change
#Param	15.8M	1.1B	↑ 70X
FLOPs	107G	2106G	↑ 20.7X
Flops/Param(G/M)	6.8	1.9	↓3.6X
MFU	4.47%	44.57%	↑10X
Hardware FLOPs	fp32	fp16	↑2X
Latency	14.5ms	14.3ms	-

分析： 论文指出，尽管 RankMixer-1B 的参数量比之前完全部署的 16M 参数基线模型（结合了 DLRM 和 DCN 结构）增加了大约 70 倍，但最终的推理延迟 (inference latency) 保持稳定，甚至略有下降 (14.5ms → 14.3ms)。这得益于其硬件感知模型设计和优化策略。延迟可以分解为以下公式：

$\mathrm { L a t e n c y } = { \frac { \# \mathrm { Param } \times \mathrm { FLOPs } / \mathrm { Param } \mathrm { r a t i o } } { \mathrm { MFU } \times ( \mathrm { Theoretical } \mathrm { Hardware } \mathrm { FLOPs } ) } }$

如 Table 6 所示，参数增加两个数量级被以下因素逐步抵消：

FLOPs/Param 比率降低： RankMixer 实现了参数 70 倍的增长，但 FLOPs 仅增长了约 20.7 倍。这意味着其 FLOPs/Param 比率（每参数所需浮点运算次数）降低了 3.6 倍（从 6.8 G/M 降至 1.9 G/M）。这表明在相同的 FLOPs 预算下，RankMixer 可以容纳三倍多的参数。
模型浮点运算利用率 (MFU) 提升： RankMixer 通过使用大型通用矩阵乘法 (GEMM) 形状、良好的并行拓扑（将并行的逐词元 FFNs 融合到一个核中），并减少内存带宽成本和开销，将 MFU 提高了近 10 倍（从 4.47% 提高到 44.57%），使模型从内存密集型 (Memory-bound) 转向计算密集型 (Compute-bound) 状态。
量化 (Quantization) 和半精度 (fp16) 推理： 半精度 (fp16) 推理将 GPU 的理论峰值硬件 FLOPs 提高 2 倍。RankMixer 的主要计算包括多个大型矩阵乘法，非常适合半精度推理。

这些优化共同作用，使得 RankMixer 在大幅增加模型容量的同时，能够满足工业级推荐系统的严格延迟要求。

6.1.6. 在线性能 (Online Performance)

为了验证 RankMixer 作为可扩展推荐模型框架的通用性，论文在个性化排序的两个核心应用场景——信息流推荐 (feed recommendation) 和 广告 (advertising)——中进行了在线实验。

以下是原文 Table 4 的结果：

	Douyin app					Douyin lite
	Active Day↑	Duration↑	Like↑	Finish↑	Comment↑	Active Day↑	Duration↑	Like↑	Finish↑	Comment↑
Overall	+0.2908%	+1.0836%	+2.3852%	+1.9874%	+0.7886%	+0.1968%	+0.9869%	+1.1318%	+2.0744%	+1.1338%
Low-active	+1.7412%	+3.6434%	+8.1641%	+4.5393%	+2.9368%	+0.5389%	+2.1831%	+4.4486%	+3.3958%	+0.9595%
Middle-active	+0.7081%	+1.5269%	+2.5823%	+2.5062%	+1.2266%	+0.4235%	+1.9011%	+1.7491%	+2.6568%	+0.6782%
High-active	+0.1445%	+0.6259%	+1.828%	+1.4939%	+0.4151%	+0.0929%	+1.1356%	+1.8212%	+1.7683%	+2.3683%

分析（信息流推荐）：

RankMixer-1B 在抖音 (Douyin) 主应用和抖音极速版 (Douyin Lite) 上的 A/B 测试中，所有业务关键指标均实现了统计显著的提升。
整体提升： 抖音主应用的用户活跃天数 (Active Day) 提升 0.2908%，总使用时长 (Duration) 提升 1.0836%，点赞 (Like) 提升 2.3852%，完成观看 (Finish) 提升 1.9874%，评论 (Comment) 提升 0.7886%。抖音极速版也取得了相似的积极效果。
对低活跃用户的显著改善： Table 4 显示，对于低活跃用户 (Low-active) 群体，改善幅度最大，抖音主应用的活跃天数提升超过 1.7412%，总使用时长提升 3.6434%，点赞提升 8.1641%。这表明模型具有强大的泛化能力，能够有效地捕捉和提升边缘用户的参与度。

以下是原文 Table 5 的结果：

Metric Advertising

ΔAUC↑ ADVV↑

Lift +0.73% +3.90%

Metric	Advertising
Lift	+0.73%	+3.90%

分析（广告）：

在广告场景中，RankMixer-1B 相比 16M 参数的基线模型，AUC 提升了 +0.73%，广告主价值 (ADVV) 提升了 +3.90%。
这些结果证明了 RankMixer 作为统一骨干网络 (unified backbone) 在不同应用场景中的可靠通用性。

6.2. 数据呈现 (表格)

所有表格已在以上小节中完整转录并分析。

7. 总结与思考

7.1. 结论总结

本文成功引入并验证了 RankMixer 模型，这是一个专为工业级推荐系统设计的硬件感知 (hardware-aware)、统一且可扩展的排序模型架构。RankMixer 通过以下关键创新解决了传统 DLRM 在扩展性上的挑战：

多头词元混合 (Multi-head Token Mixing)：取代了自注意力机制，以更高效、参数无关的方式处理推荐系统固有的异构特征交互。
逐词元前馈网络 (Per-token FFNs)：通过为每个特征词元分配独立参数，实现了对不同特征子空间的精细建模，避免了高频特征淹没低频信号的问题。
稀疏专家混合 (Sparse-MoE) 变体与动态路由：结合 ReLU Routing 和 Dense-training / Sparse-inference (DTSI-MoE) 策略，在大幅提升模型容量的同时，解决了专家训练不足和不平衡的问题，有效控制了计算成本。

实验结果表明，RankMixer 在万亿规模的生产数据集上展现出卓越的性能和陡峭的扩展定律。通过用 RankMixer 替换多样化的低 MFU 模块，模型 MFU 从 4.5% 大幅提升至 45%，成功将在线排序模型参数扩展了 100 倍（从 16M 到 1.1B），同时在不增加服务成本的情况下，推理延迟保持稳定甚至略有下降。在线 A/B 测试在抖音 (Douyin) 信息流推荐和广告两大核心场景中取得了显著的业务提升，例如在抖音主应用上用户活跃天数提升 0.3%，总应用内使用时长提升 1.08%，尤其对低活跃用户群体带来了最大的收益。这些成果证明了 RankMixer 的通用性、高效性和在实际工业应用中的巨大价值。

7.2. 局限性与未来工作

论文没有明确列出“局限性”或“未来工作”的独立章节。然而，从其内容中可以推断出以下几点：

更大规模模型的探索： 论文提到 Sparse-MoE 是将 RankMixer 从当前 1B 参数扩展到未来 10B 规模部署而不超出成本预算的途径。这暗示了将模型扩展到 10B 甚至更大规模将是未来的研究方向。
更复杂的特征交互模式： 尽管 RankMixer 解决了异构特征交互的挑战，但推荐系统中的特征交互模式仍极其复杂。未来可能需要探索更深层次或更细粒度的交互建模方法。
动态路由策略的进一步优化： 尽管 ReLU Routing 和 DTSI-MoE 解决了专家平衡问题，但动态路由本身仍有优化空间，例如如何更精确地根据词元信息量分配专家预算，以及如何处理不同任务对专家需求的差异。
硬件感知的普适性： RankMixer 的设计是硬件感知的，旨在最大化 GPU 利用率。但随着新硬件架构的出现，模型可能需要进一步调整以适应新的计算特性。
冷启动和长尾问题的进一步解决： 虽然对低活跃用户的提升显著，但推荐系统中的冷启动用户和长尾物品问题仍然是持续的挑战，RankMixer 可能需要结合其他专门技术来进一步解决。

7.3. 个人启发与批判

7.3.1. 个人启发

硬件感知设计的重要性： 本文最核心的启发是“硬件感知 (hardware-aware)”模型设计理念。在 LLM 时代，模型规模爆炸式增长，但工业界对延迟和 QPS 有严格要求。不再仅仅关注算法效果，而是将模型设计与底层硬件特性紧密结合，最大化 MFU，是实现大规模模型实用化的关键。这对于任何将深度学习模型部署到生产环境的研究者和工程师都具有重要指导意义。
“去自注意力”的思路：针对推荐系统异构特征的特点，大胆放弃了在 NLP 领域大放异彩的 Self-attention 机制，转而采用更高效、参数无关的 Multi-head Token Mixing。这提醒我们，SOTA 模型的组件并非万能，需要根据具体领域的数据特性和计算约束进行创新性调整。
细粒度建模与专家混合的结合： Per-token FFNs 结合 Sparse-MoE 的设计，有效地解决了特征空间主导和专家训练不足的问题。这种为不同语义子空间提供独立建模能力，同时通过稀疏激活控制计算成本的思路，为处理大规模、高维、异构数据提供了一个优雅的解决方案。
工程与算法的协同： RankMixer 的成功部署不仅依赖于算法创新，更离不开工程优化（如 FLOPs/Param 比率降低、fp16 量化）。这再次强调了在工业界，算法研究必须与系统工程紧密结合，才能将研究成果真正落地并产生业务价值。
Scaling Law 在推荐系统中的潜力： 本文通过严谨的实验验证了 RankMixer 在推荐系统中也遵循陡峭的扩展定律，这为未来推荐模型持续扩大规模、提升性能指明了方向，也提供了信心。

7.3.2. 批判

Token Mixing 的理论解释： 论文解释了 Token Mixing 优于 Self-attention 的原因，但其“参数无关 (parameter-free)”的 Concat 操作，虽然计算高效，但其理论上捕获高阶复杂交互的能力是否能媲美带参数的注意力机制，可能仍需更深入的理论分析。它本质上是词元内部特征维度重排后在词元间进行拼接，虽然实现了信息“混合”，但这种混合的“智能性”或“适应性”可能不如学习得到的权重。
超参数的敏感性： RankMixer 引入了词元数量 $T$ 、头数 $H$ (设置为 $T$ )、FFN 的隐藏维度比例 $k$ 等超参数，以及 Sparse-MoE 中的专家数量 $N_e$ 、正则化系数 $\lambda$ 等。这些超参数的调优对于模型性能和效率至关重要。论文中虽然给出了最终配置，但缺乏对这些关键超参数的敏感性分析，这可能会增加模型在其他场景或数据集上部署的难度。
DTSI-MoE 策略的泛化性： Dense-training / Sparse-inference 策略被证明在 RankMixer 中非常有效。但这种策略的普适性如何？是否在所有 MoE 架构和各种任务中都能取得类似效果？其训练阶段的额外计算成本（即使推理阶段节省）是否对所有场景都可接受？
对稀疏嵌入的依赖： 论文主要关注稠密部分的扩展，但推荐系统严重依赖大规模稀疏嵌入。虽然稀疏部分异步更新，但嵌入层的规模和效率仍然是整体系统性能的关键瓶颈。论文对此部分的优化着墨不多，这可能是一个值得深入研究的方向。
长尾和冷启动问题的深层机制： 尽管 RankMixer 对低活跃用户有显著提升，但对于极端冷启动或更深层的长尾问题，其内部机制如何更好地工作？是否需要结合图神经网络 (Graph Neural Networks, GNNs) 或元学习 (Meta-learning) 等技术进一步增强？论文的实验结果主要关注整体用户群体，缺乏对这部分极端用户的独立分析。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。