论文状态：已完成

STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking Models

发表：2025/11/24

高效注意力机制 (3)可扩展的排名模型 (1)语义标记化 (1)正交旋转变换 (1)高维特征稀疏化 (1)

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为STORE的统一可伸缩排名框架，旨在解决个性化推荐系统中的表示瓶颈和计算瓶颈。通过语义词元化、高效注意力机制和正交旋转变换，STORE有效地处理高基数稀疏特征，提高了模型的可伸缩性与效率。

摘要

Ranking models have become an important part of modern personalized recommendation systems. However, significant challenges persist in handling high-cardinality, heterogeneous, and sparse feature spaces, particularly regarding model scalability and efficiency. We identify two key bottlenecks: (i) Representation Bottleneck: Driven by the high cardinality and dynamic nature of features, model capacity is forced into sparse-activated embedding layers, leading to low-rank representations. This, in turn, triggers phenomena like "One-Epoch" and "Interaction-Collapse," ultimately hindering model scalability.(ii) Computational Bottleneck: Integrating all heterogeneous features into a unified model triggers an explosion in the number of feature tokens, rendering traditional attention mechanisms computationally demanding and susceptible to attention dispersion. To dismantle these barriers, we introduce STORE, a unified and scalable token-based ranking framework built upon three core innovations: (1) Semantic Tokenization fundamentally tackles feature heterogeneity and sparsity by decomposing high-cardinality sparse features into a compact set of stable semantic tokens; and (2) Orthogonal Rotation Transformation is employed to rotate the subspace spanned by low-cardinality static features, which facilitates more efficient and effective feature interactions; and (3) Efficient attention that filters low-contributing tokens to improve computional efficiency while preserving model accuracy. Across extensive offline experiments and online A/B tests, our framework consistently improves prediction accuracy(online CTR by 2.71%, AUC by 1.195%) and training effeciency (1.84 throughput).

思维导图

论文精读

中文精读约 34 分钟读完 · 21,945 字

1. 论文基本信息

1.1. 标题

STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking Models

1.2. 作者

Yi Xu, Chaofan Fan, Jinxin Hu, Yu Zhang, Xiaoyi Zeng (阿里巴巴集团，中国北京)； Jing Zhang (武汉大学，中国武汉)。

1.3. 发表期刊/会议

论文作为预印本发表在 arXiv 上。虽然摘要中提到了 ACM 格式引用，但具体会议名称为 Make sure to enter the correct conference title from your rights confirmation email，表明该论文尚未正式发表。考虑到作者来自阿里巴巴集团和武汉大学，并在推荐系统领域，其研究通常会在顶级会议（如 KDD, WWW, SIGIR, WSDM 等）或期刊上发表。

1.4. 发表年份

2025年 (根据 arXiv 发布日期 2025-11-24T00:00:00.000Z)

1.5. 摘要

排名模型（Ranking models）已成为现代个性化推荐系统（personalized recommendation systems）的重要组成部分。然而，在处理高基数（high-cardinality）、异构（heterogeneous）和稀疏（sparse）特征空间时，模型的可伸缩性（scalability）和效率（efficiency）仍面临重大挑战。本文识别出两个关键瓶颈： (i) 表示瓶颈 (Representation Bottleneck)：由特征的高基数和动态性驱动，模型容量被迫进入稀疏激活的嵌入层（sparse-activated embedding layers），导致低秩表示（low-rank representations）。这会引发“单轮过拟合”（"One-Epoch"）和“交互崩溃”（"Interaction-Collapse"）等现象，最终阻碍模型的可伸缩性。 (ii) 计算瓶颈 (Computational Bottleneck)：将所有异构特征整合到一个统一模型中会导致特征词元（feature tokens）数量爆炸，使得传统注意力机制（attention mechanisms）在计算上要求苛刻，并且容易受到注意力分散（attention dispersion）的影响。为了克服这些障碍，本文引入了 STORE，一个统一且可伸缩的基于词元（token-based）的排名框架，其构建于三项核心创新之上： (1) 语义词元化 (Semantic Tokenization)：通过将高基数稀疏特征分解为一组紧凑且稳定的语义词元（semantic tokens），从根本上解决了特征异构性和稀疏性问题； (2) 正交旋转变换 (Orthogonal Rotation Transformation)：用于旋转低基数静态特征（low-cardinality static features）所张成的子空间（subspace），以促进更高效和有效的特征交互； (3) 高效注意力 (Efficient Attention)：通过过滤低贡献词元（low-contributing tokens）来提高计算效率，同时保持模型准确性。通过广泛的离线实验（offline experiments）和在线 A/B 测试（online A/B tests），STORE 框架持续提升了预测准确性（在线点击率 CTR 提高 2.71%，AUC 提高 1.195%）和训练效率（吞吐量提高 1.84 倍）。

1.6. 原文链接

https://arxiv.org/abs/2511.18805

1.7. PDF 链接

https://arxiv.org/pdf/2511.18805.pdf

2. 整体概括

2.1. 研究背景与动机

现代在线服务（如推荐系统）的核心是排名模型（ranking models），它们通过处理海量且异构的特征来建模复杂的用户行为。为了应对特征的多样性，现有的排名模型演变为一系列专门的模块，用于处理特征交互（feature interaction）。然而，这种复杂且碎片化的设计在可伸缩性（scalability）方面面临巨大障碍。与大型语言模型（LLMs）不同，排名模型未能展现出类似的“缩放定律”（Scaling Laws），即随着模型规模的增长，性能并没有相应的可预测提升。

论文指出了阻碍排名模型受益于缩放定律的两个根本性挑战：

表示瓶颈 (Representation Bottleneck)：高基数特征（high-cardinality features）迫使模型容量主要集中在稀疏激活的嵌入层（sparse-activated embedding layers），而非深层网络。这导致了低秩嵌入（low-rank embeddings），并引发了“单轮过拟合”（"One-Epoch"）和“交互崩溃”（"Interaction-Collapse"）问题。这些问题最终限制了模型的可伸缩性，使得增加网络深度或训练轮次（epochs）的回报递减，导致高阶特征交互（high-order feature interactions）的有效性丧失。
计算瓶颈 (Computational Bottleneck)：随着模型规模的扩大以整合大量特征集，导致特征词元（feature tokens）数量爆炸。这使得传统的注意力机制（vanilla attention），其计算复杂度为 $O(L^2)$ （其中 $L$ 是序列长度），变得计算成本高昂，并且加剧了注意力分散（attention dispersion）问题，即重要的信号被淹没在大量不相关的词元中。

因此，论文的动机在于解决排名模型在可伸缩性和效率方面的这些核心挑战，以期实现像LLMs一样更可预测的性能扩展。

2.2. 核心贡献/主要发现

论文引入了 STORE 框架，旨在解决排名模型的表示瓶颈和计算瓶颈。其核心贡献和主要发现可以总结如下：

提出了统一的基于词元的排名模型框架 STORE： STORE 有效地解决了大规模动态特征空间中的异构性和稀疏性问题。这种范式缓解了推荐系统中长期存在的缩放定律瓶颈，支持更可预测的性能扩展。
设计了三项协同的架构创新：
1. 语义词元化 (Semantic Tokenization)： 通过将高基数稀疏特征（如商品ID）分解为紧凑、正交的语义ID（Semantic IDs, SIDs），从根本上解决了特征异构性和稀疏性，缓解了表示瓶颈。
2. 正交旋转变换 (Orthogonal Rotation Transformation)： 对低基数静态特征（如类别ID、年龄、性别）所张成的子空间进行旋转，促进了在不同高维空间中更高效和有效的特征交互，进一步缓解了表示瓶颈。
3. 高效注意力 (Efficient Attention)： 通过对注意力机制进行稀疏化（sparsifying attention）并过滤低贡献词元，降低了二次计算成本（quadratic costs），减轻了计算瓶颈，同时保持了模型准确性。
在工业和公开数据集上进行了广泛实验验证： 离线实验和在线 A/B 测试均表明 STORE 在有效性和效率方面均优于现有最先进的模型。
- 效果提升： 在线 CTR 相对提高了 2.71%，AUC 相对提高了 1.195%（离线 AUC 提高了 1.15%）。
- 效率提升： 训练吞吐量提高了 1.84 倍。
展示了模型在训练轮次、SID数量、层数和稀疏度方面的可伸缩性： 实验证明，STORE 能够有效缓解“单轮过拟合”现象，并随着关键参数的增加而带来性能提升。

这些贡献共同为构建更强大、可伸缩的大规模排名模型提供了一条实用且有效的路径。

3. 预备知识与相关工作

3.1. 基础概念

理解 STORE 框架需要一些推荐系统和深度学习的基础概念。

排名模型 (Ranking Models)：在推荐系统中，排名模型的任务是预测用户对物品（或广告）的偏好程度（如点击率 CTR），并根据预测分数对物品进行排序，将最相关的物品展示给用户。它们是推荐系统后端的核心组件。
推荐系统 (Recommendation Systems)：旨在为用户提供个性化推荐，帮助用户从海量信息中发现感兴趣的物品。广泛应用于电商、内容平台、广告等领域。
高基数特征 (High-Cardinality Features)：指那些取值范围非常大的类别特征，例如用户ID、物品ID、商店ID等。它们的独一无二值（unique values）数量可能达到百万、千万甚至数十亿级别。
稀疏特征 (Sparse Features)：通常与高基数特征相关，指特征的某个特定值在数据集中出现频率非常低。例如，一个物品ID可能只被少数用户点击过。在深度学习模型中，这些特征通常通过嵌入（Embedding）层进行处理。
嵌入层 (Embedding Layers)：在深度学习中，用于将高维的离散类别特征（如用户ID、物品ID）映射到低维、连续的向量空间中。每个离散值对应一个唯一的嵌入向量。对于高基数特征，嵌入层会非常大，导致模型参数量巨大且更新稀疏。
注意力机制 (Attention Mechanism)：一种深度学习技术，允许模型在处理序列数据时，动态地为序列中的不同部分分配不同的“注意力权重”。模型能够聚焦于输入序列中对当前任务最重要的部分，从而提高处理复杂模式的能力。
- 自注意力 (Self-Attention)：注意力机制的一种特殊形式，其中序列中的每个元素都与序列中的所有其他元素计算注意力。它能够捕捉序列内部元素之间的依赖关系。
- 标准自注意力的计算公式：给定查询（Query） $Q$ $Q$ 、键（Key） $K$ $K$ 和值（Value） $V$ $V$ ，注意力输出计算如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释：
  - $Q$ ：查询矩阵，形状为 $(L, d_k)$ ，其中 $L$ 是序列长度， $d_k$ 是键的维度。
  - $K$ ：键矩阵，形状为 $(L, d_k)$ 。
  - $V$ ：值矩阵，形状为 $(L, d_v)$ ，其中 $d_v$ 是值的维度。
  - $Q K^T$ ：查询和键之间的点积，衡量它们之间的相似度。
  - $\sqrt{d_k}$ ：缩放因子，用于防止点积结果过大，导致 softmax 函数梯度过小。
  - $\mathrm{softmax}(\cdot)$ ：归一化函数，将注意力分数转换为概率分布。
  - $V$ ：加权求和的值矩阵。
- 计算复杂度：对于长度为 $L$ 的序列，计算 $QK^T$ 的复杂度为 $O(L^2 \cdot d_k)$ ，计算 softmax 后与 $V$ 相乘的复杂度为 $O(L^2 \cdot d_v)$ 。因此，标准自注意力机制的总计算复杂度是序列长度 $L$ 的平方， $O(L^2)$ ，当 $L$ 很大时，这会变得计算昂贵。
SASRec (Self-Attentive Sequential Recommendation)：一种基于自注意力机制的序列推荐模型，能够有效捕捉用户行为序列中的物品依赖关系，生成高质量的物品嵌入。本文利用预训练的 SASRec 模型的物品嵌入作为语义词元化的输入。
"One-Epoch" 和 "Interaction-Collapse" 问题：
- "One-Epoch"：指在推荐系统中，由于高基数特征导致的模型容量受限，模型在训练一个 epoch（一轮完整的数据遍历）后，性能提升就显著放缓甚至停滞。再增加训练轮次效果不佳。
- "Interaction-Collapse"：指高阶特征交互（如深度网络中学习到的复杂组合模式）在训练过程中逐渐失效或变得不显著，导致模型无法有效利用这些复杂交互来提升性能。

3.2. 前人工作

论文在引言和实验部分提到了多种排名模型，这些模型代表了推荐系统 CTR 预测领域的不同技术演进方向：

基于因子分解机 (Factorization Machine, FM) 的模型：
- FM [8]：通过对特征的二阶交互进行建模，能够有效处理稀疏数据。
- DeepFM [4]：结合了 FM 的低阶特征交互能力和 DNN 的高阶特征交互能力。
基于深度学习的模型：
- DNN：泛指使用深度神经网络进行特征学习和预测的模型。
- Wide&Deep [2]：谷歌提出的模型，结合了线性模型（Wide部分）的记忆能力和深度神经网络（Deep部分）的泛化能力，分别处理原始特征和组合特征。
- DCN (Deep & Cross Network) [11]：在深度网络的基础上引入了一个交叉网络（Cross Network），显式地学习特征之间的有限阶交互。
基于注意力机制的模型：
- AutoInt [9]：利用自注意力机制自动学习特征之间的交互。
- GDCN (Gated Deep Cross Network) [10]：在 DCN 的基础上引入了门控机制，以更好地控制特征交互。
- MaskNet [12]：通过引入基于实例的掩码（instance-guided mask）机制，实现特征维度的乘法交互。
- PEPNet [1]：一种参数和嵌入个性化网络，旨在融入个性化先验信息。
- RankMixer [17]：一种在工业推荐系统中扩展排名模型的方法，可能涉及某种形式的特征混合或聚合。
- OneTrans [15]：利用单个 Transformer 结构统一处理特征交互和序列建模。
- MoBA (Mixture of Block Attention) [7]：一种高效注意力机制，通过路由策略让每个查询只关注键值对的一个小子集，显著降低了计算复杂度。STORE 采用了 MoBA 作为其高效注意力模块。

3.3. 技术演进

推荐系统中的排名模型技术演进大致经历了以下阶段：

早期统计模型与浅层模型 (2000s-2010s)：以协同过滤（Collaborative Filtering）和因子分解机（Factorization Machines）为代表。它们擅长处理稀疏数据和低阶特征交互，但难以捕捉复杂的高阶模式。
深度学习的崛起 (2010s 中后期)：随着计算能力的提升和大数据的发展，DNN、Wide&Deep 等模型开始被引入，能够学习更复杂的非线性特征表示和高阶特征交互。
注意力机制与序列建模 (2018s 至今)：Transformer 及其变种被引入推荐系统，如 SASRec、AutoInt 等，通过自注意力机制有效捕捉用户行为序列中的物品依赖关系和特征间的隐式交互。
大规模与效率优化 (近期)：面对工业级海量数据和特征，模型规模急剧膨胀，计算和表示瓶颈日益突出。研究开始关注如何设计更高效、可伸缩的架构，例如 RankMixer、OneTrans，以及本文的 STORE。这些工作试图在保证效果的同时，优化模型的训练和推理效率，并解决大规模模型带来的“缩放定律”问题。

3.4. 差异化分析

STORE 与现有相关工作的主要区别和创新点在于：

针对表示瓶颈的根本性解决方案： 许多现有模型（如 DeepFM、DCN、AutoInt）主要关注如何更好地学习特征交互，但并未从根本上解决高基数稀疏特征导致的“表示瓶颈”问题，例如嵌入层过大、低秩表示、"One-Epoch"和"Interaction-Collapse"等。STORE 通过引入语义词元化，将高基数稀疏特征转化为紧凑且稳定的语义表示，从源头缓解了这些问题。
区分对待不同类型的特征： STORE 认识到高基数稀疏特征和低基数静态特征具有不同的特性，并为它们设计了不同的处理策略。语义词元化用于高基数特征，而正交旋转变换用于低基数特征。这种分而治之的策略比简单地将所有特征一视同仁地输入网络更为精细和高效。
创新的特征交互方式：
- 语义词元化将传统基于ID的嵌入转换为更具语义信息的词元序列，使得模型能够学习更高层次的抽象交互。
- 正交旋转变换为低基数特征生成了多样化的、正交的子空间表示，这有助于模型在不同的视角下捕捉特征交互，增加了模型表达能力，并引入了多样性正则化，防止了模型坍塌。
高效注意力机制以缓解计算瓶颈： 现有注意力模型（如 AutoInt、OneTrans）在特征词元数量爆炸时面临计算量 $O(L^2)$ 的挑战。STORE 引入了高效注意力（MoBA），通过路由策略过滤低贡献词元，显著降低了计算复杂度，提高了训练和推理效率，同时减轻了注意力分散问题。
协同工作的三大组件： STORE 的三个核心创新（语义词元化、正交旋转变换、高效注意力）是协同工作的，形成了一个统一的框架，共同解决了表示和计算瓶颈，而不仅仅是单一组件的优化。这使得 STORE 能够实现更显著的性能和效率提升。

4. 方法论

4.1. 方法原理

STORE 框架旨在解决推荐系统中排名模型面临的表示瓶颈和计算瓶颈。其核心思想是对不同类型的特征采取差异化的处理策略，并通过高效的注意力机制统一处理特征交互。

该框架将特征分为两类：

高基数稀疏特征 (High-cardinality sparse features)：例如物品ID、用户ID。这类特征数量庞大且出现频率低，容易导致嵌入层巨大、低秩表示、"One-Epoch"和"Interaction-Collapse"等表示瓶颈。STORE 通过语义词元化 (Semantic Tokenization) 将这些特征分解为紧凑、稳定的语义词元。
低基数静态特征 (Low-cardinality static features)：例如类别ID、年龄、性别等。这类特征数量相对较少且稳定。STORE 通过正交旋转变换 (Orthogonal Rotation Transformation) 来增强其特征交互能力。

然后，框架将这些处理后的语义词元和旋转后的特征块整合起来，通过高效注意力 (Efficient Attention) 机制进行统一的特征交互学习，从而解决计算瓶颈，同时保持模型准确性。

4.2. 语义标记器 (Semantic Tokenizer)

语义标记器（Semantic Tokenizer）主要用于处理高基数稀疏特征，如物品ID。传统的做法是将每个物品ID映射为一个独立的嵌入向量，但这会导致嵌入层规模过大且更新稀疏，引发表示瓶颈。语义标记器的目标是将原始的高基数ID映射到一个更稳定、结构化的语义空间，通过生成一系列紧凑的语义ID（SIDs）。

4.2.1. 语义ID生成

论文通过量化预训练嵌入（pre-trained embeddings）来生成语义ID。以物品为例，每个物品的预训练嵌入 $\mathbf{e}_p \in \mathbb{R}^d$ （例如来自 SASRec 模型）被映射为 $K$ 个语义ID的序列： $(SID_1, SID_2, \dots, SID_K) = \mathcal{F}_{\mathrm{item}}(\mathbf{e}_p \in \mathbb{R}^d) \quad (1)$ 符号解释：

$\mathbf{e}_p$ ：表示预训练的物品嵌入（pre-trained item embedding），是一个 $d$ 维的实数向量。
$\mathcal{F}_{\mathrm{item}}$ ：表示物品语义词元化函数，负责将物品嵌入 $\mathbf{e}_p$ 转换为语义ID序列。
$(SID_1, SID_2, \dots, SID_K)$ ：表示生成的 $K$ 个语义ID的序列。
$K$ ：表示为每个物品生成的语义ID的数量。在本文中，设定 $K=H$ （即与高效注意力中的词元数量 $H$ 相等）。

4.2.2. 正交、并行、多专家量化网络 (OPMQ)

为了高效地将高基数ID编码成紧凑并行的语义ID序列，论文提出了正交、并行、多专家量化网络（Orthogonal, Parallel, Multi-expert Quantization network, OPMQ）。对于每个物品，网络使用 $K$ 个专家来编码其预训练嵌入 $\mathbf{e}_p$ 为 $K$ 个潜在表示 $\mathbf{z}_i$ 。

潜在表示生成： $\boldsymbol{z}_i = \boldsymbol{E}_i(\boldsymbol{\mathbf{e}}_p),\quad \boldsymbol{i}\in \{1,\dots,K\} \quad (2)$ 符号解释：

$\mathbf{z}_i$ ：表示第 $i$ 个专家生成的潜在表示（latent representation）。
$\boldsymbol{E}_i$ ：表示第 $i$ 个专家网络（expert network），它是一个将预训练嵌入 $\mathbf{e}_p$ 转换为潜在表示 $\mathbf{z}_i$ 的函数。
$\mathbf{e}_p$ ：同公式 (1) 中的预训练物品嵌入。
$K$ ：专家网络的数量，也对应生成的语义ID的数量。

量化过程： 对于每个潜在向量 $\mathbf{z}_i$ ，将其分配给其最近的码本（codebook）中码字（codeword）的索引，从而得到码字向量 $\mathbf{s}_i$ 。这个过程通常涉及查找一个预定义的码本，并选择距离 $\mathbf{z}_i$ 最近的码字。

重建损失： 整个 OPMQ 网络通过最小化重建误差（reconstruction error）进行端到端训练。重建误差是原始嵌入 $\mathbf{e}_p$ 与聚合了量化向量的解码器输出之间的差异。 $\mathcal{L}_{recon} = ||\mathbf{e}_p - \mathrm{deckor}[\sum_{i}^{K}(\mathbf{z}_i + \mathrm{sg}(\mathbf{s}_i - \mathbf{z}_i))]||^2 \quad (4)$ 符号解释：

$\mathcal{L}_{recon}$ ：表示重建损失函数。
$\mathbf{e}_p$ ：原始的预训练物品嵌入。
$\mathrm{deckor}[\cdot]$ ：表示解码器函数，它将聚合后的量化向量映射回嵌入空间。
$\sum_{i}^{K}(\mathbf{z}_i + \mathrm{sg}(\mathbf{s}_i - \mathbf{z}_i))$ ：表示 $K$ 个量化向量的聚合。其中 $\mathbf{z}_i$ 是潜在表示， $\mathbf{s}_i$ 是对应的码字向量。
$\mathrm{sg}(\cdot)$ ：表示停滞梯度操作（stop-gradient operation），意味着在反向传播时，对 $\mathbf{s}_i - \mathbf{z}_i$ 这部分的梯度不会回传到 $\mathbf{s}_i$ ，这在量化网络训练中是常见的技巧，用于确保梯度只流向 $\mathbf{z}_i$ 。
$||\cdot||^2$ ：表示L2范数的平方，即欧几里得距离的平方。

正交正则化： 为了确保生成的语义ID能够捕捉原始物品的不同且非冗余的方面，对多专家网络的参数进行正交正则化（orthogonal regularization）。具体来说，对于第 $i$ 个专家，其参数向量 $\mathbf{V}_i \in \mathbb{R}^{d_1 d_2}$ 是将其平坦化的参数矩阵 $\mathbf{W}_i \in \mathbb{R}^{d_1 \times d_2}$ 进行L2归一化后的版本。正交正则化作用于这 $K$ 个参数向量的集合。 $\mathcal{L}_{\mathrm{orth}} = \left\| \mathbf{V}\mathbf{V}^{\top} - \mathbf{I}\right\| _F^2 \quad (5)$ 符号解释：

$\mathcal{L}_{\mathrm{orth}}$ ：表示正交正则化项。
$\mathbf{V}$ ：表示由 $K$ 个专家参数向量 $\mathbf{V}_i$ 组成的矩阵。每个 $\mathbf{V}_i$ 是第 $i$ 个专家参数矩阵 $\mathbf{W}_i$ 的L2归一化扁平化版本。
$\mathbf{V}^{\top}$ ：矩阵 $\mathbf{V}$ 的转置。
$\mathbf{I}$ ：表示单位矩阵（identity matrix）。
$\left\| \cdot \right\|_F^2$ ：表示 Frobenius 范数（Frobenius norm）的平方。当 $\mathbf{V}\mathbf{V}^{\top}$ 接近单位矩阵时，意味着 $\mathbf{V}$ 的行（即专家参数向量）是相互正交的。这鼓励不同的专家学习到不同的、非冗余的特征。

4.3. 正交旋转变换 (Orthogonal Rotation Transformation)

正交旋转变换（Orthogonal Rotation Transformation）专注于处理低基数静态特征，这类特征与高基数稀疏特征不同，具有可控的特征大小且更加稳定。

4.3.1. 特征分组与融合

首先，根据领域知识和语义含义，将低基数静态特征手动划分为 $K$ 个语义组，每个组包含若干特征。然后，对每个特征组使用一个浅层多层感知机（MLP）进行组内特征融合。通过将所有语义融合后的特征组拼接起来，得到一个实例级别的特征块（instance-wise feature block），记为 $\mathbf{C}$ 。 $\mathbf{C} = [\mathrm{MLP}_1(g_1),\dots ,\mathrm{MLP}_K(g_K)] \quad (6)$ 符号解释：

$\mathbf{C}$ ：表示实例级别的特征块，由 $K$ 个融合后的特征组拼接而成。
$\mathrm{MLP}_k(\cdot)$ ：表示用于第 $k$ 个特征组的浅层多层感知机。
$g_k$ ：表示第 $k$ 个特征组，包含了语义相关的多个低基数静态特征。
$K$ ：特征组的数量。

4.3.2. 正交旋转

为了在不同的高维空间中促进高效且有效的特征交互，对实例级别的特征块 $\mathbf{C}$ 进行正交旋转变换。通过使用 $K$ 组正交矩阵对 $\mathbf{C}$ 进行旋转，可以获得 $K$ 个多样化的实例级别特征块。对于第 $i$ 次旋转，其公式如下： $\mathbf{O}_{\mathrm{i}} = \mathbf{C}\mathbf{R}_{\mathrm{i}} \quad (7)$ 符号解释：

$\mathbf{O}_{\mathrm{i}}$ ：表示第 $i$ 次旋转后得到的实例级别特征块。
$\mathbf{C}$ ：原始的实例级别特征块。
$\mathbf{R}_{\mathrm{i}}$ ：表示第 $i$ 个正交矩阵（orthogonal matrix）。正交矩阵的特性是其逆等于其转置，即 $\mathbf{R}_{\mathrm{i}}^{\top}\mathbf{R}_{\mathrm{i}} = \mathbf{I}$ ，这意味着旋转操作保持了向量的长度和夹角，只改变了其方向。

4.3.3. 多样性正则化

为了防止旋转矩阵在训练过程中坍塌（例如，所有旋转矩阵变得相同），论文引入了一个多样性正则化项（diversity regularization term）。这个正则化项与正交约束共同作用，鼓励学习到一组多样化的变换。 $\underset{{\bf R}_1,\ldots ,{\bf R}_k}{\min} -\lambda \sum_{i = 1}^{K}\sum_{j = i + 1}^{K}\|{\bf R}_i - {\bf R}_j\| _F^2 \quad (8)$ ${\bf s.t.}\quad{\bf R_i}^T{\bf R_i} = {\bf I},\quad \forall i\in \{1,\ldots ,K\} \quad (9)$ 符号解释：

$\lambda$ ：是一个超参数，用于控制多样性正则化项的权重。在本文中， $\lambda$ 设置为 0.1。
$K$ ：表示旋转矩阵的数量，也对应特征组的数量。
$\mathbf{R}_i$ 和 $\mathbf{R}_j$ ：分别表示第 $i$ 和第 $j$ 个正交旋转矩阵。
$\|\cdot\|_F$ ：表示 Frobenius 范数。最小化 $-\lambda \sum_{i = 1}^{K}\sum_{j = i + 1}^{K}\|{\bf R}_i - {\bf R}_j\| _F^2$ 等价于最大化 $\sum_{i = 1}^{K}\sum_{j = i + 1}^{K}\|{\bf R}_i - {\bf R}_j\| _F^2$ ，这鼓励不同的旋转矩阵之间差异最大化，从而实现多样性。
$\mathbf{R}_i^T\mathbf{R}_i = \mathbf{I}$ ：是正交约束，确保每个 $\mathbf{R}_i$ 都是一个正交矩阵。旋转矩阵和主网络的参数是交替优化的（alternative optimized）。

4.4. 统一特征交互的高效注意力 (Efficient Attention for Unified Feature Interaction)

为了在统一框架中高效地捕捉特征交互，STORE 提出了带有实例级词元（instance-wise tokens）的高效注意力机制。

4.4.1. 词元序列的构建

在第一层，将语义词元（由语义标记器处理得到）的嵌入 $\mathbf{s}_i$ 与旋转后的特征块 $\mathbf{O}_l$ （由正交旋转变换处理得到）拼接起来，形成 $\mathbf{X}_0^l$ 。 $\mathbf{X}_0^l = [\mathbf{s}_i, \mathbf{O}_l]$ 符号解释：

$\mathbf{X}_0^l$ : 表示第 $l$ 个合并后的词元，由语义词元 $\mathbf{s}_i$ 和旋转特征块 $\mathbf{O}_l$ 拼接而成。
$\mathbf{s}_i$ : 语义标记器生成的语义ID嵌入。
$\mathbf{O}_l$ : 正交旋转变换生成的旋转特征块。所有这些合并后的词元形成实例级的词元序列作为高效注意力的输入： $\mathbf{X}_0 = [\mathbf{X}_0^1, \mathbf{X}_0^2, \dots, \mathbf{X}_0^H]$ 其中 $H$ 是词元序列的总长度。这个词元序列构成了查询 $Q$ 和键值对 K,V。

4.4.2. 迭代统一高效注意力

特征交互通过迭代的统一高效注意力层进行学习： $\mathbf{X}_{l} = \mathrm{LN}(\mathrm{EfficientAttention}(\mathbf{X}_{l - 1}) + \mathbf{X}_{l - 1}) \quad (10)$ 符号解释：

$\mathbf{X}_{l}$ ：表示第 $l$ 层注意力模块的输出。
$\mathbf{X}_{l - 1}$ ：表示输入到第 $l$ 层注意力模块的词元序列。
$\mathrm{LN}(\cdot)$ ：表示层归一化（Layer Normalization）操作，用于稳定训练。
$\mathrm{EfficientAttention}(\cdot)$ ：表示高效注意力模块的函数。
+：表示残差连接（residual connection），将输入直接加到注意力模块的输出上，有助于深层网络的训练。

4.4.3. MoBA 高效注意力机制

传统的自注意力机制的计算复杂度为 $O(H^2)$ ，当实例级词元数量 $H$ 很大时，这会变得计算成本过高。为了克服这个瓶颈，STORE 采用了 MoBA (Mixture of Block Attention) [7] 机制。MoBA 通过为每个查询（query）采用路由策略，使其只关注键值对的一个小子集。 $\mathrm{MoBA}(\mathbf{Q},\mathbf{K},\mathbf{V}) = \mathrm{Softmax}\left(\mathbf{QK}\big[\mathrm{Ind}\big]^T\right)\mathbf{V}[\mathrm{Ind}], \quad (11)$ $\mathrm{Ind}_{i} = \big[\big(i - 1\big)\times B + 1,i\times B\big] \quad (12)$ 符号解释：

$\mathbf{Q}, \mathbf{K}, \mathbf{V}$ ：分别表示查询、键和值矩阵，由输入的词元序列 $\mathbf{X}_{l-1}$ 线性变换得到。
$\mathrm{Ind}$ ：是一个动态选择的索引集合，包含键值对子集的索引。
$\mathrm{Ind}_i$ ：表示第 $i$ 个块（block）的索引范围，从 $(i-1) \times B + 1$ 到 $i \times B$ 。这意味着 MoBA 将键值对分成大小为 $B$ 的块，并路由查询到特定的块。
$B$ ：表示选择性块（selective block）的大小。
$\mathbf{K}[\mathrm{Ind}]$ 和 $\mathbf{V}[\mathrm{Ind}]$ ：表示从完整的键和值矩阵中根据索引集合 Ind 选取的子集。这种方法通过让每个查询只与部分键值对进行交互，显著地将计算复杂度从 $O(H^2)$ 降低。这种高效性得益于 STORE 框架有效缓解了特征异构性和稀疏性，使得过滤低贡献词元成为可能，同时保持模型准确性。

5. 实验设置

5.1. 数据集

为了验证 STORE 框架的有效性，实验在两个真实世界的大规模数据集上进行：

Avazu：一个广泛使用的 CTR 预测公共基准数据集。
- 规模：包含 900 万条按时间顺序排列的广告点击日志。
- 特征：23 个特征字段和 3437 个网站ID。
- 特点：典型的高基数稀疏特征数据集，常用于评估CTR预测模型的性能。
工业数据集 (Industrial Dataset)：
- 来源：来自一个国际电子商务广告系统。
- 规模：包含约 70 亿条用户交互记录。
- 特征：包含多样化的物品特征和用户行为序列。
- 特点：真实世界的大规模工业数据，具有高度的复杂性、异构性和稀疏性，是评估模型在实际应用中性能的良好指标。

5.2. 评估指标

实验使用了推荐系统和 CTR 预测领域常用的多个评估指标，包括准确性指标和效率指标。

5.2.1. 预测准确性指标

AUC (Area Under the Receiver Operating Characteristic Curve)
- 概念定义：AUC 衡量分类模型性能的指标，表示随机选择一个正样本和一个负样本时，模型将正样本排在负样本之前的概率。AUC 值越高，模型的分类性能越好，即区分正负样本的能力越强。
- 数学公式：AUC 并非一个简单的解析公式，而是通过绘制 ROC 曲线（Receiver Operating Characteristic Curve）来计算曲线下的面积。ROC 曲线以假正率（False Positive Rate, FPR）为 X 轴，真正率（True Positive Rate, TPR）为 Y 轴。 $\mathrm{AUC} = \int_{0}^{1} \mathrm{TPR}(\mathrm{FPR})^{-1} d(\mathrm{FPR})$
- 符号解释：
  - $\mathrm{TPR} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FN}}$ ：真正率，即召回率（Recall），表示所有真实正样本中被正确预测为正样本的比例。
  - $\mathrm{FPR} = \frac{\mathrm{FP}}{\mathrm{FP} + \mathrm{TN}}$ ：假正率，表示所有真实负样本中被错误预测为正样本的比例。
  - $\mathrm{TP}$ (True Positives)：真阳性，正确预测为正的正样本数。
  - $\mathrm{FN}$ (False Negatives)：假阴性，错误预测为负的正样本数。
  - $\mathrm{FP}$ (False Positives)：假阳性，错误预测为正的负样本数。
  - $\mathrm{TN}$ (True Negatives)：真阴性，正确预测为负的负样本数。 AUC 实际上计算的是所有正负样本对中，正样本预测概率大于负样本预测概率的比例。
GAUC (Group AUC)
- 概念定义：GAUC 是 AUC 的加权平均版本，尤其适用于推荐系统。它首先为每个用户（或某个分组，如会话）计算一个 AUC 值，然后将这些 AUC 值根据用户（或分组）的行为量（如曝光量、点击量）进行加权平均。GAUC 能够更好地反映模型在个性化推荐方面的性能，因为它避免了头部用户对整体 AUC 的过度主导，同时能捕捉到长尾用户或冷启动用户的表现。
- 数学公式： $\mathrm{GAUC} = \frac{\sum_{i=1}^{N} \mathrm{Weight}_i \times \mathrm{AUC}_i}{\sum_{i=1}^{N} \mathrm{Weight}_i}$
- 符号解释：
  - $N$ ：用户（或分组）的总数。
  - $\mathrm{Weight}_i$ ：表示第 $i$ 个用户（或分组）的权重，通常是该用户产生的曝光量或点击量。
  - $\mathrm{AUC}_i$ ：表示针对第 $i$ 个用户（或分组）计算的 AUC 值。
LogLoss (Logarithmic Loss)
- 概念定义：LogLoss 衡量分类模型预测概率与真实标签之间差异的指标。它对模型预测与真实标签相差较大的情况给予更大的惩罚。LogLoss 值越小，模型的预测越准确，且预测概率越接近真实标签。
- 数学公式：对于二分类问题，给定 $N$ 个样本， $y_i$ 是真实标签（0 或 1）， $p_i$ 是模型预测样本 $i$ 为正类的概率： $\mathcal{L}_{\mathrm{LogLoss}} = -\frac{1}{N} \sum_{i=1}^{N} [y_i \log(p_i) + (1 - y_i) \log(1 - p_i)]$
- 符号解释：
  - $N$ ：样本总数。
  - $y_i$ ：第 $i$ 个样本的真实标签，取值为 0 (负类) 或 1 (正类)。
  - $p_i$ ：模型预测第 $i$ 个样本为正类的概率。
  - $\log(\cdot)$ ：自然对数。

5.2.2. 训练效率指标

TFlops/Batch (Tera Floating Point Operations per Batch)
- 概念定义：TFlops/Batch 表示每批次（Batch）数据处理过程中模型执行的浮点运算次数，单位为 Tera (万亿，即 $10^{12}$ )。这个指标主要用于衡量模型的计算量或计算密度。在给定相同任务和硬件资源下，通常 TFlops/Batch 越低，表示模型在处理一个批次数据时的计算开销越小。论文中提到 "1.84x higher training throughput" (训练吞吐量提高 1.84 倍)，这意味着 STORE 能够以更快的速度处理相同的数据量，从而提高了训练效率。
- 数学公式：没有统一的数学公式，通常由深度学习框架或硬件分析工具在运行时统计。
- 符号解释：
  - TFlops：Tera (万亿) Floating Point Operations (浮点运算)。
  - Batch：一个训练批次的数据量。
  - 吞吐量 (Throughput)：单位时间内处理的数据量，通常以样本数/秒或批次/秒表示。更高的吞吐量意味着更高的效率。

5.3. 对比基线

为了证明 STORE 的优越性，论文将其与以下最先进的 CTR 预测模型进行了比较：

FM (Factorization Machines) [8]: 经典的因子分解机模型，通过二阶交叉项捕捉特征交互。
DNN (Deep Neural Network): 基础的深度神经网络模型，用于学习特征的非线性表示和高阶交互。
Wide&Deep [2]: 谷歌提出的模型，结合了线性模型（Wide）和深度神经网络（Deep），分别处理记忆和泛化能力。
DeepFM [4]: 结合了 FM 和 DNN 的优势，同时学习低阶和高阶特征交互。
DCN (Deep & Cross Network) [11]: 引入了交叉网络，显式地学习有界阶的特征交叉。
AutoInt [9]: 使用自注意力机制自动学习特征交互。
GDCN (Gated Deep Cross Network) [10]: 在 DCN 基础上引入门控机制，提升特征交互学习能力。
MaskNet [12]: 通过实例引导的掩码引入特征维度乘法交互。
PEPNet [1]: 参数和嵌入个性化网络，融入个性化先验信息。
RankMixer [17]: 针对工业推荐系统设计，旨在扩展排名模型。
OneTrans [15]: 使用一个 Transformer 统一处理特征交互和序列建模。

这些基线模型涵盖了从传统统计模型到深度学习模型，再到基于注意力的模型的演进，代表了 CTR 预测领域的不同技术路径。

5.4. 实现细节

预训练物品嵌入：STORE 利用一个预训练的 SASRec 模型来获取物品的预训练嵌入（pre-trained item embeddings）。
语义ID (SIDs) 参数：
- 对于公共数据集（Avazu）：语义ID的数量 $K$ 和码本大小（codebook size）分别设置为 (3, 16)。这意味着每个物品被分解为 3 个语义ID，每个语义ID从一个包含 16 个码字的码本中选择。
- 对于工业数据集：语义ID的数量 $K$ 和码本大小分别设置为 (32, 300)。这意味着每个物品被分解为 32 个语义ID，每个语义ID从一个包含 300 个码字的码本中选择。
在线部署参数：在在线部署时，OPMQ 中的 $K$ 设置为 32，码本大小设置为 300。注意力机制的稀疏度（sparsity）设置为 1/2，以在保持性能的同时提高推理效率和响应速度。

6. 实验结果与分析

6.1. 核心结果分析 (RQ1)

论文在公共数据集 Avazu 和一个工业数据集上，对 STORE 与多个基线模型进行了整体性能比较。实验结果如表 1 所示。

以下是原文 Table 1 的结果：

Dataset	Avazu			Industrial
Dataset	AUC	GAUC	Logloss	AUC	GAUC	Logloss
FM	0.7291	0.7248	0.4052	0.6711	0.6011	0.1144
DNN	0.7231	0.7211	0.4052	0.6721	0.6005	0.1148
Wide&Deep	0.7356	0.7329	0.3988	0.6720	0.6018	0.1144
DeepFM	0.7404	0.7375	0.3965	0.6707	0.5907	0.1152
DCN	0.7344	0.7310	0.4042	0.6734	0.6029	0.1141
AutoInt	0.7439	0.7408	0.3948	0.6728	0.6021	0.1142
GDCN	0.7370	0.7344	0.3989	0.6726	0.6022	0.1142
MaskNet	0.7426	0.7383	0.3942	0.6753	0.6054	0.1140
PEPNet	0.7411	0.7380	0.5961	0.6741	0.6039	0.1148
RankMixer	0.7450	0.7412	0.3951	0.6774	0.6053	0.1140
OneTrans	0.7461	0.7432	0.3943	0.6771	0.6058	0.1141
STORE	0.7479	0.7451	0.3912	0.6804	0.6064	0.1139
STORE-4 Epoch	0.7488	0.7463	0.3900	0.6855	0.6086	0.1134
Improv.	+0.362%	+0.417%	+0.913%	+1.195%	+0.462%	+0.526%

分析：

STORE 的显著优越性：
- 在 Avazu 数据集上，STORE（在标准训练轮次下）在 AUC、GAUC 和 LogLoss 方面均超越所有基线模型。相较于最佳基线 OneTrans (AUC 0.7461, GAUC 0.7432, Logloss 0.3943)，STORE 取得了 AUC 0.7479 (+0.24% 绝对提升), GAUC 0.7451 (+0.25% 绝对提升), Logloss 0.3912 (-0.79% 绝对降低) 的表现。相对提升分别为 AUC +0.362%、GAUC +0.417%、Logloss +0.913%。
- 在 工业数据集 上，STORE 也展现出最佳性能。相较于最佳基线 RankMixer (AUC 0.6774, GAUC 0.6053, Logloss 0.1140)，STORE 达到了 AUC 0.6804 (+0.44% 绝对提升), GAUC 0.6064 (+0.18% 绝对提升), Logloss 0.1139 (-0.09% 绝对降低)。相对提升分别为 AUC +1.195%、GAUC +0.462%、Logloss +0.526%。
STORE-4 Epoch 的可伸缩性：
- 特别值得注意的是，STORE-4 Epoch（可能意味着更长的训练时间或更多的计算资源）在两个数据集上都进一步提升了性能。在 工业数据集 上，STORE-4 Epoch 的 AUC 达到 0.6855，GAUC 达到 0.6086，LogLoss 达到 0.1134，这些都是所有模型中的最佳表现。这表明 STORE 能够从更多的训练中获益，缓解了传统排名模型中“One-Epoch”现象，体现了更好的可伸缩性。
与先进模型的对比：
- RankMixer 和 OneTrans 等模型通过聚合特征组来缓解特征异构性，已经比传统网络（如 FM、DNN、Wide&Deep、DeepFM）取得了进步。然而，STORE 通过其独特的语义词元化和正交旋转技术，从根本上解决了问题，因此能够实现更显著的性能提升。这验证了 STORE 针对表示瓶颈的创新性方法是有效的。
总结： STORE 在预测准确性方面（AUC、GAUC、LogLoss）均显著优于现有最先进的排名模型，尤其在工业级大规模数据集上表现出色，并且展现出良好的可伸缩性。

6.2. 消融实验 (RQ2)

为了评估 STORE 中每个组件的贡献，论文进行了消融实验，结果如表 2 所示。

以下是原文 Table 2 的结果：

Variants	AUC	GAUC	Logloss	TFlops/Batch
STORE-4 Epoch	0.6855	0.6086	0.1134	1.764
STORE	0.6804	0.6064	0.1139	1.763
u OPQ	0.6787	0.6045	0.1140	1.763
w RQ-VAE	0.6768	0.6047	0.1141	1.762
w/o Orthogonal Rotation w Vanilla-Attention	0.6780	0.6050	0.1140	1.760
	0.6812	0.6068	0.1137	3.240

分析： 表中 STORE-4 Epoch 和 STORE 的性能已在 RQ1 中分析，此处主要关注消融变体。

语义标记器 (Semantic Tokenizer) 的贡献：
- STORE vs. u OPQ： u OPQ 可能指仅使用标准优化的乘积量化（Optimized Product Quantization, OPQ），而没有 STORE 中提出的正交正则化等高级机制。STORE 的 AUC (0.6804) 优于 u OPQ (0.6787)，表明 OPMQ 中包含的正交正则化等设计对性能有积极影响。
- STORE vs. w RQ-VAE： w RQ-VAE 表示使用递归量化变分自编码器（RQ-VAE）作为语义标记器。STORE 的 AUC (0.6804) 明显优于 w RQ-VAE (0.6768)。这表明 OPMQ 作为语义标记器的设计（包括正交正则化和多专家结构）比其他量化方法（如 RQ-VAE）更有效。
正交旋转变换 (Orthogonal Rotation Transformation) 和高效注意力 (Efficient Attention) 的贡献：
- w/o Orthogonal Rotation w Vanilla-Attention： 这一行表示移除了正交旋转变换，并且高效注意力被替换为传统的香草注意力（Vanilla Attention）。其 AUC (0.6780) 显著低于完整的 STORE (0.6804)。这表明正交旋转变换和高效注意力两者都对模型性能有关键贡献。
- 高效注意力对效率的影响： 观察 w/o Orthogonal Rotation w Vanilla-Attention 的 TFlops/Batch 为 3.240，而完整的 STORE 的 TFlops/Batch 为 1.763。这表明高效注意力机制（MoBA）在保持甚至提升准确性的同时，显著降低了计算成本，提升了训练效率。香草注意力的高计算量是其主要瓶颈。
结论： 消融实验清晰地表明 STORE 的每个核心组件——语义标记器（尤其 OPMQ 的设计）、正交旋转变换和高效注意力——都是其优异性能和效率不可或缺的一部分。

6.3. 可伸缩性研究 (RQ3)

本节通过一系列实验来展示 STORE 的可伸缩性和效率，结果在图 2 中呈现。

fig 2

分析：

a) 轮次数量 (Epoch Number)：
- 图 2a 展示了模型在不同训练轮次下的表现。带 ItemIDs 的模型（可能代表传统方法）在经过多轮训练后性能下降，这通常是“One-Epoch”现象的表现，即模型在少量轮次后就过拟合或无法从更多轮次中获益。
- 相反，使用 SIDs 的模型（STORE 的语义标记化组件）在增加训练轮次后性能持续提升，没有出现明显的性能下降。这验证了 SIDs 有助于缓解“One-Epoch”现象，使得模型能够从更长时间的训练中学习到更多有效信息，从而提高了模型的可伸缩性。
b) SID 数量 (SID Number)：
- 图 2b 探索了 SIDs 数量 $K$ 对模型效果的影响。结果显示，随着 SIDs 数量的增加，模型的性能通常会得到改善。这表明增加语义词元的数量可以为模型提供更丰富的语义信息和更细粒度的表示，从而提升模型的表达能力和准确性。
c) 层数 (Layer Number)：
- 图 2c 展示了增加模型层数对性能的影响。随着层数的增加，模型效果也随之提升。这与传统排名模型面临的“Interaction-Collapse”问题形成对比，传统模型在增加深度时可能面临性能饱和或下降。STORE 能够从更深的网络结构中获益，进一步证明了其在解决表示瓶颈方面的有效性，使得模型能够进行更深层次的特征交互学习。
d) 稀疏度 (Sparsity)：
- 图 2d 探讨了注意力稀疏度与训练效率（TFlops/Batch）和模型准确性（AUC）之间的关系。
- 计算效率： 随着稀疏度的增加（即注意力机制关注的键值对比例减少），TFlops/Batch 显著降低，这意味着计算成本大幅减少，训练效率得到提升。
- 模型准确性： 在一定范围内，即使稀疏度增加，AUC 也能保持在较高水平，甚至在某些稀疏度下略有提升。这表明 STORE 的高效注意力机制能够有效地过滤低贡献词元，在大幅降低计算量的同时，对模型性能的影响最小。这对于大规模部署至关重要，因为它允许在保持高性能的同时，显著提高推理速度。
  
  总结： 可伸缩性研究结果全面验证了 STORE 在多个维度上的优越性。语义词元化有效缓解了“One-Epoch”问题，使其能够从更多训练轮次和更深层网络中获益。同时，高效注意力机制在不牺牲准确性的前提下，显著提升了计算效率，为大规模推荐系统的实际部署提供了强大的支持。

6.4. 在线实验

论文在第 4 节中提到了在线实验结果。

在线 A/B 测试：在一家大型电子商务平台进行了为期 15 天的在线 A/B 测试，将 STORE 与生产基线进行了比较。
结果：STORE 实现了 2.71% 的相对 CTR 提升。
部署参数：在实际部署中，OPMQ 中语义ID的数量 $K$ 设置为 32，码本大小设置为 300。注意力机制的稀疏度设置为 1/2，这在保持性能的同时，显著提高了推理效率和响应速度。

在线实验结果进一步验证了 STORE 在真实世界工业场景中的有效性和实用性。

7. 总结与思考

7.1. 结论总结

本文提出了 STORE (Semantic Tokenization, Orthogonal Rotation and Efficient Attention)，一个统一且可伸缩的基于词元的排名框架，旨在解决现代推荐系统中的两大核心挑战：表示瓶颈和计算瓶颈。

解决了表示瓶颈：
- 通过语义词元化 (Semantic Tokenization)，将高基数稀疏特征（如物品ID）分解为紧凑、稳定的语义ID序列，从而缓解了嵌入层过大、低秩表示、"One-Epoch"和"Interaction-Collapse"等问题，使模型能够从更深的网络和更长的训练中受益。
- 通过正交旋转变换 (Orthogonal Rotation Transformation)，为低基数静态特征生成了多样化、正交的特征表示，增强了特征交互能力。
解决了计算瓶颈：
- 采用了高效注意力 (Efficient Attention) 机制（具体为 MoBA），通过过滤低贡献词元，将传统注意力 $O(L^2)$ 的计算复杂度显著降低，从而大幅提升了训练和推理效率，同时保持了高准确性。
  
  实验结果（包括广泛的离线实验和在线 A/B 测试）强有力地验证了 STORE 在预测准确性（在线 CTR 提升 2.71%，AUC 提升 1.195%）和训练效率（吞吐量提升 1.84 倍）方面的卓越性能。STORE 提供了一条构建更强大、更可伸缩的大规模排名模型的有效路径。

7.2. 局限性与未来工作

论文中没有明确指出 STORE 的具体局限性或未来工作方向。然而，基于其提出的方法和当前研究的普遍趋势，可以推断出一些潜在的局限性并提出未来工作的方向：

潜在局限性：

对预训练嵌入的依赖： STORE 的语义标记化依赖于高质量的预训练物品嵌入（如 SASRec）。如果缺乏高质量的预训练模型或预训练数据，OPMQ 的效果可能会受限。预训练过程本身也可能带来额外的计算成本。
OPMQ 的复杂性： 正交、并行、多专家量化网络（OPMQ）本身包含多个专家网络、量化操作和正则化项，其训练和超参数调优可能较为复杂，需要精细设计和大量实验。
超参数敏感性： 语义ID的数量 $K$ 、码本大小、正交旋转变换中的 $\lambda$ 以及高效注意力中的稀疏度等，都是关键超参数。它们的最佳选择可能因数据集和任务而异，需要进行细致的调优。
MoBA 的通用性： 虽然 MoBA 是一种高效注意力机制，但其路由策略和块大小 $B$ 的选择可能影响其在不同特征分布和序列长度下的表现。
可解释性： 引入语义词元和正交旋转等复杂变换可能在一定程度上降低模型的直接可解释性，虽然这在推荐系统中为了性能通常可接受。

未来工作方向：

更通用的语义标记化： 探索不依赖于特定预训练模型（如 SASRec）的自监督或弱监督语义标记化方法，以提高模型的普适性。
自适应的语义词元和旋转： 研究自适应地确定语义ID数量 $K$ 、码本大小以及旋转矩阵数量的方法，而非手动设定，以减少超参数调优的负担。
异构注意力机制的进一步优化： 探索更先进的、能够根据词元重要性或特征类型动态调整稀疏度的注意力机制，进一步提升效率和准确性。
与其他先进架构的结合： 将 STORE 的核心思想与图神经网络（GNN）、因果推断（Causal Inference）等新兴推荐系统技术相结合，以探索更强大的模型。
在更多场景下的验证： 将 STORE 应用于更广泛的推荐场景（如内容推荐、新闻推荐等）和不同的数据模态，验证其通用性和鲁棒性。

7.3. 个人启发与批判

STORE 这篇论文提供了一个非常清晰且有前景的思路，即通过对特征表示进行“重塑”和对注意力机制进行“精简”，来解决推荐系统在大规模场景下长期存在的扩展性问题。

个人启发：

分而治之的策略： 论文将高基数稀疏特征和低基数静态特征区别对待，并设计了不同的处理模块（语义词元化和正交旋转），这种“因材施教”的策略非常值得借鉴。这提醒我们，在设计模型时，不能一概而论地处理所有输入，而应该根据特征的内在属性进行定制化设计。
“词元化”思想的扩展：语义词元化将 ID 映射为语义序列，这与 LLM 中的分词器（tokenizer）有异曲同工之妙。它将一个高度稀疏、离散的实体（如物品 ID）转化为一个更紧凑、更具语义信息且更易于交互的序列。这为处理其他高基数离散特征（如用户行为序列中的行为类型、用户标签等）提供了新的视角。
效率与效果的平衡艺术： 高效注意力机制展示了在保持甚至提升效果的前提下，大幅削减计算成本的可能性。在工业界，效率往往与效果同等重要，这种通过智能稀疏化来优化资源使用的方法是未来大规模系统设计的关键。
超越"One-Epoch"的潜力： 缓解“One-Epoch”现象意味着模型能够从更多数据和更长时间的训练中持续学习，这对于构建真正的大规模、高性能推荐系统至关重要，使其更接近 LLM 的缩放定律。

批判与潜在改进点：

黑盒组件的透明度： OPMQ 作为一个复杂的子网络，其内部专家如何协同工作，以及正交正则化如何精确地促成多样性，可以在未来的工作中提供更深入的理论分析或可视化解释。
预训练嵌入的耦合性： 论文依赖于 SASRec 的预训练嵌入。虽然这在工业界是常见做法，但在学术研究中，探究 STORE 在没有高质量预训练嵌入的情况下如何表现，或者如何将其与自监督预训练结合，将是很有趣的方向。
正交旋转的泛化性： 正交旋转变换的 $K$ 个组是基于领域知识手动分组的。未来可以探索自动化或数据驱动的特征分组方法，以提高模型的自动化程度和对不同数据集的适应性。
MoBA 的选择： MoBA 是高效注意力的一种具体实现。未来可以探索其他更先进的稀疏或线性注意力机制，或者设计一种针对推荐系统特征交互特点的定制化高效注意力机制。
特征交互的粒度： 语义词元化将物品分解为 $K$ 个语义ID。这是否会丢失某些细粒度的、非语义的高阶交互信息？或者说，是否存在一个最优的 $K$ 值，既能捕捉语义，又不至于过度分解导致信息冗余或丢失？

总的来说，STORE 为推荐系统领域带来了有益的创新，特别是在处理大规模异构数据和提升模型可伸缩性方面。其核心思想具有很好的通用性和借鉴意义，为未来的研究和工业应用提供了坚实的基础。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。