论文状态：已完成

STARS: Semantic Tokens with Augmented Representations for Recommendation at Scale

发表：2025/12/11

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

STARS是一个基于Transformer的序列推荐框架，专为大规模电子商务设计，解决冷启动、动态用户意图等挑战。该系统结合了双内存用户嵌入与语义物品词元，提升了匹配效果和冷启动性能，在线测试中显示出显著的推荐质量提升。

摘要

Real-world ecommerce recommender systems must deliver relevant items under strict tens-of-milliseconds latency constraints despite challenges such as cold-start products, rapidly shifting user intent, and dynamic context including seasonality, holidays, and promotions. We introduce STARS, a transformer-based sequential recommendation framework built for large-scale, low-latency ecommerce settings. STARS combines several innovations: dual-memory user embeddings that separate long-term preferences from short-term session intent; semantic item tokens that fuse pretrained text embeddings, learnable deltas, and LLM-derived attribute tags, strengthening content-based matching, long-tail coverage, and cold-start performance; context-aware scoring with learned calendar and event offsets; and a latency-conscious two-stage retrieval pipeline that performs offline embedding generation and online maximum inner-product search with filtering, enabling tens-of-milliseconds response times. In offline evaluations on production-scale data, STARS improves Hit@5 by more than 75 percent relative to our existing LambdaMART system. A large-scale A/B test on 6 million visits shows statistically significant lifts, including Total Orders +0.8%, Add-to-Cart on Home +2.0%, and Visits per User +0.5%. These results demonstrate that combining semantic enrichment, multi-intent modeling, and deployment-oriented design can yield state-of-the-art recommendation quality in real-world environments without sacrificing serving efficiency.

思维导图

论文精读

中文精读约 38 分钟读完 · 23,920 字

1. 论文基本信息

1.1. 标题

STARS: Semantic Tokens with Augmented Representations for Recommendation at Scale (STARS：用于大规模推荐的增强表示语义词元)

1.2. 作者

Han Chen (Gopuff, United States)
Steven Zhu (Gopuff, United States)
Yingrui Li (Independent Researcher, United States)

1.3. 发表期刊/会议

该论文作为预印本发表在 arXiv 上，目前尚未指明正式发表的期刊或会议。

1.4. 发表年份

2025年

1.5. 摘要

在现实世界的电子商务推荐系统 (ecommerce recommender systems) 中，面临着严格的数十毫秒延迟限制，同时还要应对诸如冷启动产品 (cold-start products)、用户意图快速变化以及季节性、节假日和促销等动态上下文 (dynamic context) 等挑战。本文介绍了 STARS，一个基于 Transformer 的序列推荐框架 (transformer-based sequential recommendation framework)，专为大规模、低延迟的电子商务场景构建。STARS 结合了多项创新：

双内存用户嵌入 (dual-memory user embeddings)：将长期偏好与短期会话意图分离。
语义物品词元 (semantic item tokens)：融合了预训练文本嵌入 (pretrained text embeddings)、可学习的增量 (learnable deltas) 和大语言模型 (Large Language Model, LLM) 导出的属性标签 (attribute tags)，增强了基于内容的匹配、长尾覆盖和冷启动性能。
上下文感知评分 (context-aware scoring)：通过学习的日历和事件偏移量进行评分。
延迟敏感的两阶段检索管道 (latency-conscious two-stage retrieval pipeline)：执行离线嵌入生成和在线最大内积搜索 (Maximum Inner-Product Search, MIPS) 与过滤，实现数十毫秒的响应时间。

在生产规模数据上的离线评估中，STARS 相较于现有 LambdaMART 系统，Hit@5 提升了超过 75%。一项针对 600 万访问的大规模 A/B 测试 (A/B test) 显示出统计学显著的提升，包括总订单量 (+0.8%)、首页加购量 (+2.0%) 和每用户访问量 (+0.5%)。这些结果表明，结合语义丰富、多意图建模和面向部署的设计，可以在真实世界环境中获得最先进的推荐质量，而不会牺牲服务效率。

1.6. 原文链接

https://arxiv.org/abs/2512.10149v1

1.7. PDF 链接

https://arxiv.org/pdf/2512.10149v1.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 电子商务推荐系统的固有挑战

现实世界的电子商务推荐系统面临着多重挑战，使其在提供高质量推荐的同时，必须满足严格的性能要求：

严格的延迟限制 (Strict Latency Constraints)：系统需要在数十毫秒内响应用户请求，这对于深度学习模型来说是一个巨大的工程挑战。
冷启动问题 (Cold-Start Problem)：新产品由于缺乏用户交互历史数据，难以被传统基于协同过滤 (collaborative filtering) 的模型推荐。同样，新用户也面临类似问题。
用户意图快速变化 (Rapidly Shifting User Intent)：用户的兴趣和需求可能在短时间内（例如一个会话内）发生剧烈变化，而长期兴趣与短期意图可能存在差异，需要模型能够灵活捕捉。
动态上下文 (Dynamic Context)：季节性 (seasonality)、节假日 (holidays)、促销活动 (promotions) 等外部因素对用户购买行为有显著影响，模型需要具备实时或近实时的上下文感知能力。

2.1.2. 现有推荐方法的局限性

传统方法 (Traditional Methods)：
- 协同过滤 (Collaborative Filtering)（如矩阵分解 matrix factorization 和双塔检索 two-tower retrieval）：主要从交互日志中学习用户和物品嵌入 (embeddings)，但往往无法充分利用丰富的物品内容（如产品文本），且难以处理冷启动问题。
- 特征驱动的学习排序 (Feature-driven Learning-to-Rank)（如 LambdaMART）：通过优化基于人工特征的评分函数进行推荐，但同样存在对内容利用不足、难以快速适应动态上下文的问题。
序列推荐模型 (Sequential Recommenders)：
- 早期方法如循环神经网络 (Recurrent Neural Networks, RNNs) 和近期基于 Transformer (Transformer) 的模型（如 SASRec、BERT4Rec、TiSASRec），能够建模用户行为序列。
- 尽管这些模型在理论上先进，但将其部署到生产环境仍面临挑战：
  - 语义理解不足 (Lack of Semantic Understanding)：传统的基于 ID 的模型将物品视为不透明的标识符，无法理解其内在语义，导致冷启动产品推荐困难。
  - 用户意图多样性 (Diverse User Intent)：将用户所有行为压缩到单个嵌入中，可能无法有效区分长期偏好和短期会话意图。
  - 大规模服务挑战 (Serving at Scale)：深度模型在每请求 (per request) 运行时成本高昂，且物品目录和用户行为的快速演变要求嵌入能够及时更新。

2.1.3. 本文的切入点与创新思路

为了应对上述挑战，STARS 旨在提供一个集成的解决方案，其创新思路在于：

注入LLM语义知识 (Infusing LLM Semantic Knowledge)：利用大语言模型 (LLM) 提取产品文本的语义特征，增强物品表示，从而有效解决冷启动问题。
双内存用户建模 (Dual-Memory User Modeling)：设计一种双嵌入的用户表示，分别捕获用户的短期会话意图和长期普遍兴趣，以更好地建模用户偏好的异质性 (heterogeneous preferences)。
面向生产的部署设计 (Production-Oriented Deployment Design)：采用两阶段检索架构，通过离线预计算嵌入和在线快速近似最近邻搜索 (Approximate Nearest Neighbor, ANN) 与过滤，确保在生产环境下的低延迟和高可伸缩性。

2.2. 核心贡献/主要发现

本文的主要贡献体现在以下几个方面：

LLM增强的物品语义 (LLM-augmented item semantics)：
- 将冻结的预训练文本嵌入 (pretrained text embeddings)、小型的可学习增量 (learnable delta) 和 LLM 提取的离散属性标签 (discrete attribute tags) 融合到每个物品的词元表示 (token representation) 中。
- 这使得新（冷启动）产品能够通过内容相似性立即被推荐，即便在没有交互历史的情况下也能进行检索。
双内存用户建模 (Dual-memory user modeling)：
- 设计了一种双嵌入用户表示：一个向量捕获下一个物品 (next-item) 意图 (h_next)，另一个捕获一般长期兴趣 (general long-term interests) (h_gen)。
- 这两个嵌入在 Transformer 内部联合学习，以更好地建模异构的用户偏好。
子类别感知负样本 (Subclass-aware negatives)：
- 引入了一种子类别感知 (subclass-aware) 的负样本采样策略，从同一细粒度物品类别中选择困难负样本 (hard negatives)，提高了模型在训练时区分相似物品的能力。
上下文感知评分 (Context-aware scoring)：
- 与编码器联合学习日历/事件/促销偏移量 (calendar/event/promotion offsets)，并在服务时重新应用，以根据当前上下文调整分数。这使得模型能够实时适应动态上下文。
大规模生产部署 (Production deployment at scale)：
- 将 STARS 部署在一个可扩展的两阶段管道中，包括每日离线嵌入刷新 (offline embedding refresh)、基于 ANN (ANN-based) 的候选检索和 Elasticsearch 过滤，实现了数万个物品和数百万用户的毫秒级延迟服务。
  
  主要发现：
显著的离线性能提升：在生产规模数据上的离线评估中，STARS 相较于现有的 LambdaMART 基线模型，Hit@5 相对提升超过 75%。
有希望的在线 A/B 测试结果：针对 600 万访问的大规模 A/B 测试显示，总订单量 (+0.8%)、首页加购量 (+2.0%) 和每用户访问量 (+0.5%) 均有统计学显著提升。
更好的冷启动和长尾泛化能力：由于语义增强和双内存设计，STARS 对新产品和长尾产品表现出更好的泛化能力，并在目录演变时保持稳定性能。
大规模部署下的高效率：在满足严格的数十毫秒延迟限制的同时，成功地在大规模电子商务环境中部署和运行，证明了其服务效率。

3. 预备知识与相关工作

3.1. 基础概念

推荐系统 (Recommender Systems)：帮助用户从海量物品中发现其可能感兴趣的物品，广泛应用于电子商务、媒体等领域。
协同过滤 (Collaborative Filtering, CF)：一种流行的推荐算法，通过分析用户的历史行为（如购买、点击、评分），发现用户或物品之间的相似性，进而做出推荐。它分为基于用户的协同过滤 (User-Based CF)和基于物品的协同过滤 (Item-Based CF)。
矩阵分解 (Matrix Factorization)：协同过滤的一种，通过将用户-物品交互矩阵分解为低维的用户和物品隐向量 (latent vectors) 的乘积，来预测用户对未交互物品的偏好。
双塔检索 (Two-Tower Retrieval)：一种常见的推荐系统架构，其中用户和物品分别由独立的“塔”（通常是神经网络）编码为低维嵌入向量，然后通过计算这些嵌入向量的相似度（如点积 dot product）来检索相关的物品。
学习排序 (Learning-to-Rank, LTR)：将推荐任务视为一个排序问题，通过机器学习模型学习一个排序函数，对候选物品进行打分并按分数排序。LambdaMART 是一种基于梯度提升决策树 (Gradient Boosted Decision Trees, GBDT) 的学习排序算法。
序列推荐 (Sequential Recommendation)：建模用户历史交互序列中物品的顺序关系，以预测用户接下来的兴趣或交互行为。它关注用户行为的动态性和时序性。
Transformer (Transformer)：一种在自然语言处理 (Natural Language Processing, NLP) 领域取得巨大成功的神经网络架构，其核心是自注意力机制 (Self-Attention Mechanism)。在推荐系统中，Transformer 被用于捕捉用户行为序列中的长距离依赖关系。
- 自注意力机制 (Self-Attention Mechanism)：Transformer 的关键组成部分，允许模型在处理序列的某个元素时，能够同时关注序列中的所有其他元素，并根据它们的重要性分配不同的权重。其核心思想是为序列中的每个元素计算查询 (Query, $Q$ )、键 (Key, $K$ ) 和值 (Value, $V$ ) 向量。 $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中， $Q$ 是查询矩阵， $K$ 是键矩阵， $V$ 是值矩阵。Q, K, V 都是由输入序列通过线性变换得到的。 $d_k$ 是键向量的维度，用于缩放点积，防止点积结果过大导致 softmax 函数进入梯度饱和区。softmax 函数将注意力权重归一化，使得所有权重之和为 1。
嵌入 (Embedding)：将高维的稀疏离散特征（如用户 ID、物品 ID、词语）映射到低维的、连续的密集向量空间中的表示。这些向量能够捕捉实体之间的语义关系。
冷启动 (Cold-Start)：推荐系统中的一个经典难题，指的是系统缺乏足够的用户或物品历史数据，导致无法准确生成推荐。这通常发生在新用户注册、新商品上架或新领域首次部署时。
大语言模型 (Large Language Models, LLMs)：经过海量文本数据预训练的神经网络模型，具有强大的自然语言理解、生成和推理能力。它们通过学习文本中的模式和语义关系，可以生成高质量的文本嵌入或提取丰富的文本特征。
近似最近邻搜索 (Approximate Nearest Neighbor, ANN)：在高维向量空间中，快速找到与给定查询向量最相似的 $K$ 个向量。由于精确的最近邻搜索在大规模数据上计算成本高昂，ANN 算法通过牺牲少量精度来大幅提高查询速度，适用于生产环境。常见的 ANN 算法包括 FAISS、HNSW、ScaNN 等。
最大内积搜索 (Maximum Inner-Product Search, MIPS)：一种特殊的 ANN 搜索，目标是找到与查询向量内积最大的 $K$ 个向量。在推荐系统中，内积常用于衡量用户嵌入和物品嵌入之间的相似度。

3.2. 前人工作

3.2.1. LLM增强推荐 (LLM-Augmented Recommendation)

P5 [6]：将推荐任务视为文本到文本 (text-to-text) 的生成任务，通过提示 (prompt-based) 预训练处理多个推荐目标。
UniSRec [10], Text-Is-All-You-Need [7]：将预训练的语言编码器与推荐信号对齐，以将语义知识从文本传输到协同过滤空间，改善零样本 (zero-shot)/冷启动性能和跨领域迁移。
ARAG [8]：工业界实践，结合了意图理解、自然语言过滤、上下文摘要和最终排名，报告了相对于检索增强基线 (retrieval-augmented baselines) 的显著提升。
STARS 的定位：遵循这一趋势，但更注重实用性，将冻结的 LLM 物品向量与小的可学习 $\Delta_i$ 和离散标签结合，使语义信号补充（而非替代）大规模协同信号。

3.2.2. 多兴趣用户建模 (Multi-Interest User Modeling)

MIND [20]：利用胶囊路由 (capsule routing) 为用户提取多个兴趣向量。
ComiRec [21]：学习一个可控的多兴趣模块来平衡准确性和多样性。
DIN [22], DIEN [23]：用于点击率预测 (click-through rate prediction) 的注意力模型，明确区分长期基本兴趣和目标感知的短期意图。
STARS 的定位：沿着这一方向，通过一次 Transformer 前向传播输出两个用户嵌入——h_gen（长期偏好）和 h_next（近期意图）——以支持鲁棒检索和会话感知相关性。

3.2.3. 序列 Transformer 与时间编码 (Sequential Transformers and Temporal Encoding)

SASRec [2]：证明了单向 Transformer (unidirectional Transformer) 可以高效捕捉长距离依赖。
BERT4Rec [3]：引入双向 cloze objective，利用左右上下文。
TiSASRec [4, 15]：将时间间隔和绝对位置编码 (absolute positions) 整合到注意力机制中。
STARS 的定位：通过一个紧凑的 Transformer 编码器与联合学习的日历/上下文信号 (calendar/context signal) 结合，建模长期的季节性及其他外生效应。

3.2.4. 困难负样本采样与对比正则化 (Hard Negative Sampling and Contrastive Regularization)

BPR [25]：对隐式反馈 (implicit feedback) 优化成对损失 (pairwise loss)。
动态负样本挖掘 (dynamic negative mining) 和类别感知采样器 (category-aware samplers) [26, 27]：提供信息更丰富的训练信号。
CL4SRec [5]：通过最大化扰动序列视图之间的一致性来正则化编码器。
STARS 的定位：采用子类别感知负样本 (subclass-aware negatives)——从同一细粒度类别中采样未交互的物品，强制模型在相似替代品之间做出细微区分。

3.2.5. 可扩展检索与系统架构 (Scalable Retrieval and System Architecture)

两阶段架构 [28]：工业推荐系统通常采用快速候选生成 (candidate generation) 后接重排序 (reranking) 的两阶段架构。
向量搜索库 [29, 30, 31]：FAISS、HNSW、ScaNN 等使得十亿规模的 ANN 搜索在毫秒级成为可能。
过滤和混合向量搜索 [32, 33]：在 Web 规模下，结合过滤和多索引的服务框架报告了良好的速度/召回权衡。
STARS 的定位：遵循这种模式，进行每日嵌入刷新，通过 ANN 最大内积搜索 (MIPS) 检索候选，并结合业务规则过滤，以保持低延迟和新鲜度。

3.2.6. 多模态与内容丰富物品表示 (Multimodal and Content-Enriched Item Representations)

VBPR [34]：通过向矩阵分解添加视觉图像特征来改进时尚推荐。
语言中心方法 [7, 10]：将物品视为文本描述，并预训练序列模型以泛化跨领域。
STARS 的定位：将连续（冻结 LLM 向量 + $\Delta_i$ ）和离散（LLM 派生标签）内容信号结合到每个物品的词元中。

3.3. 差异化分析

相较于之前的研究，STARS 的创新之处在于其生产就绪的集成方案，结合了多个先进理念：

LLM派生语义的深度整合：将 LLM 派生出的语义（包括连续的嵌入向量和离散的属性标签）整合到基于 Transformer 的序列推荐系统内部，这使得模型能够更好地理解物品的内在含义，尤其对冷启动物品具有显著优势。
双用户嵌入设计：创新性地设计了两种用户嵌入，分别捕获用户的短期意图和长期兴趣。这有助于模型更细致地理解用户偏好，并在不同的推荐场景中提供更精准的建议。
延迟敏感的两阶段服务管道：通过采用基于 MIPS/点积检索的两阶段服务管道，结合轻量级过滤，实现了快速、可扩展的服务，确保在生产环境中满足严格的延迟要求。

STARS 不仅仅是现有技术的简单堆砌，而是在系统层面进行了深思熟虑的集成和优化，使其能够在真实世界的大规模电子商务环境中提供最先进的推荐质量，同时保持高效的服务能力。

4. 方法论

STARS 模型通过 Transformer 编码器 (Transformer encoder) 对用户的交互序列进行建模，并生成两种用户嵌入 (user embeddings)：用于下一个物品意图 (next-item intent)的 $\mathbf{h}_{\mathrm{next}}$ 和用于一般兴趣 (general interest)的 $\mathbf{h}_{\mathrm{gen}}$ 。序列中的每个物品都由一个经过 LLM 增强的产品词元 (LLM-enhanced product token) 表示，该词元连接了连续的语义向量 (semantic vector)、离散的属性标签 (attribute tags)、上下文和参与信号 (context and engagement signals)。Transformer 利用自注意力机制处理这些丰富的词元，然后从不同位置池化 (pool) 出双用户嵌入。模型通过一个带有子类别感知负样本 (subclass-aware negatives)和基于流行度先验 (popularity-based prior)的候选切片 softmax 损失 (candidate-slice softmax loss) 进行训练。

4.1. LLM增强产品词元 (LLM-Enhanced Product Tokens)

对于每个产品 $i$ ，首先从外部基于 LLM 的嵌入服务（例如，OpenAI 的 text-embedding-3-large 模型）获取一个 $d_e$ 维的语义向量 $\mathbf{e}_i^{\mathrm{LLM}}$ 。这个向量在 STARS 训练期间保持冻结（固定），作为基础物品表示。为了使表示适应平台自身的交互数据，引入了一个可训练的偏移向量 $\Delta_i \in \mathbb{R}^{d_e}$ ，它为每个物品学习，并作为残差项添加到冻结的 LLM 嵌入中。因此，物品 $i$ 的语义嵌入变为 $\mathbf{e}_i^{\mathrm{LLM}} + \Delta_i$ 。

同时，通过离线 LLM 管道为每个产品分配一组人类可解释的属性标签（例如，Organic, Vegan, Gluten-Free, Fair Trade）。每个物品 $i$ 收到一个多热 (multi-hot) 二进制标签向量 $\mathbf{t}_i \in \{\bar{0}, \bar{1}\}^{|\mathcal{V}_{\mathrm{attr}}|}$ ，其中每个维度对应于受控词汇表 $\mathcal{V}_{\mathrm{attr}}$ 中的一个标签。然后，应用一个小型投影网络 $g_{\mathrm{attr}}(\cdot)$ （例如，一个线性层或两层 MLP）将这个稀疏标签向量转换为密集的属性嵌入： $\mathbf{e}_i^{\mathrm{attr}} = g_{\mathrm{attr}}(\mathbf{t}_i) \quad (\mathrm{for example,} \ \mathbf{e}_i^{\mathrm{attr}} = W_{\mathrm{attr}}\mathbf{t}_i)$ 其中， $\mathbf{e}_i^{\mathrm{attr}}$ 是物品 $i$ 的属性嵌入， $g_{\mathrm{attr}}(\cdot)$ 是将稀疏标签向量转换为密集属性嵌入的投影网络， $\mathbf{t}_i$ 是物品 $i$ 的多热二进制属性标签向量， $W_{\mathrm{attr}}$ 是线性投影层的权重矩阵。这个投影属性向量捕获了从 LLM 生成的标签中提取的突出产品特性。

对于每次用户-物品交互，还包括上下文 (contextual) 和交互类型 (interaction-type) 信号。上下文嵌入 $\mathbf{e}_t^{\mathrm{ctx}}$ 编码与交互时间戳 $t$ 相关的时态和外部因素（例如，小时、星期几、当地天气或事件指标），而参与嵌入 $\mathbf{e}_m^{\mathrm{engage}}$ 指示交互类型 $m$ ，例如用户是查看、添加到购物车还是购买了物品。交互物品 $i$ 在时间 $t$ 且交互类型为 $m$ 的最终词元表示由语义向量和属性向量拼接而成： $\mathbf{v}_{i,t,m} \ = \ \left[ \mathbf{e}_i^{\mathrm{LLM}} + \Delta_i \ ; \ \mathbf{e}_i^{\mathrm{attr}} \ \right]$ 其中， $\mathbf{v}_{i,t,m}$ 是物品 $i$ 在时间 $t$ 且交互类型为 $m$ 的最终词元表示，[ ; ] 表示向量拼接， $\mathbf{e}_i^{\mathrm{LLM}}$ 是冻结的 LLM 语义向量， $\Delta_i$ 是可学习的逐物品偏移向量， $\mathbf{e}_i^{\mathrm{attr}}$ 是投影后的属性嵌入。

然后，将上下文嵌入 $\mathbf{e}_t^{\mathrm{ctx}}$ 和参与嵌入 $\mathbf{e}_m^{\mathrm{engage}}$ （以及标准的位置编码 (positional encoding)和新近度编码 (recency encodings)）添加到 $\mathbf{v}_{i,t,m}$ 中，再将其输入到 Transformer。这种上下文和交互信号的整合确保了每个词元不仅反映物品的固有语义，还反映交互的情境上下文。

用户词元 ([USER] token)：在序列的开头预置一个特殊的 [USER] 词元。它通过一个混合编码器 (mixed encoder) 从粗粒度的静态用户特征构建：

归一化的数值特征和分桶特征通过线性层进行投影。
高基数分类特征（例如，电子邮件域名）通过小型嵌入表进行映射。
将得到的向量拼接起来，并通过最终的投影层映射到模型的维度。这个 [USER] 词元扮演着类似于 BERT 中 [CLS] 词元的角色，提供了一个用户偏好的紧凑摘要向量，所有物品词元都可以对其进行注意力计算。

下图（原文 Figure 1）展示了上下文感知物品词元构造的流程以及具有双用户嵌入的 Transformer 训练过程：

该图像是一个示意图，展示了上下文感知项目令牌构造的流程。该流程包括项目嵌入、标签线性投影、时间与上下文嵌入、参与类型嵌入等多个步骤，最终形成用于变换器的上下文感知项目令牌。流程中提到了对比损失和辅助损失的应用。

a 上下文感知物品词元构造。融合冻结的 LLM 物品嵌入与可学习的逐物品 $\Delta$ ，拼接投影的 LLM 生成属性标签，并添加上下文、参与、位置和新近度信号。图中虚线表示仅用于训练的头部，使用上下文产品词汇嵌入和对比/BCE辅助损失。图例：+表示元素级相加；||表示拼接。

b 具有双用户嵌入的 Transformer 训练。输入是 [USER] 词元加上上下文感知物品词元（图 1a）。从隐藏状态 $H$ 中，池化 $H_{\mathrm{[USER]}}$ 得到 $h_{\mathrm{gen}}$ （一般兴趣），池化 $H_T$ 得到 $h_{\mathrm{next}}$ （下一个物品意图）。下一个物品目标使用 logit $z_k = h_{\mathrm{next}}^\top e_k + b_k$ 在候选切片上进行计算，其中包含子类别感知负样本和流行度先验；物品权重 $e_k$ 与物品嵌入绑定。

下图（原文 Figure 2）展示了离线物品内容嵌入的过程：

$Figure 2: Item content embedding (offline). Product text and metadata are encoded by a pretrained text-embedding model (e.g., OpenAI text-embedding-3-large) to produce a frozen semantic vector per item. A learnable per-item $\\Delta _ { i }$ is added later during STARS training (see Figure 1a).$ 该图像是图表，展示了通过指令调优的 LLM（如 GPT-4o）生成的属性标签（离线）。图中提供了示例产品（如 Heinz Organic Ketchup 和 Coca-Cola Classic Cherry）的描述、品牌和类别，以展示如何从产品文本和元数据中提取和标准化属性标签。

图 2：物品内容嵌入（离线）。产品文本和元数据通过预训练的文本嵌入模型（例如，OpenAI text-embedding-3-large）编码，为每个物品生成一个冻结的语义向量。可学习的逐物品 $\Delta_i$ 会在 STARS 训练期间稍后添加（参见图 1a）。

下图（原文 Figure 3）展示了 LLM 生成属性标签的离线过程：

该图像是示意图，展示了离线项目内容嵌入的过程。图中展示了多个项目嵌入（如冰山水和海因茨有机番茄酱）如何从预训练的文本嵌入模型中生成，将其描述、品牌和类别等信息转化为嵌入向量。

图 3：LLM 生成的属性标签（离线）。通过指令调优的 LLM（例如，GPT-4o，通过 chat-completion API）从产品文本和元数据中提取属性标签或属性-值对。输出被标准化为受控词汇表，并转换为多热向量 $\mathbf{t}_i$ ，这些向量通过 $g_{\mathrm{attr}}(\cdot)$ 投影形成用于产品词元 $\mathbf{v}_i$ 的 $\mathbf{e}_i^{\mathrm{attr}}$ 。

4.2. Transformer编码器与双重池化 (Transformer Encoder and Dual Pooling)

模型采用一个 4 层 Transformer 编码器（隐藏维度 $d=672$ ，每层 8 个自注意力头，3072 维 ReLU 激活的前馈子层，使用 0.1 的 dropout）来处理序列的增强物品词元（如上所述）以及开头的特殊 [USER] 词元。

令 $\mathbf{H} = [H_{\mathrm{[USER]}}, H_1, ..., H_T] \in \mathbb{R}^{(T+1) \times d}$ 表示 Transformer 的输出隐藏状态。从这些状态中提取两个用户嵌入如下：

一般兴趣嵌入 ( $\mathbf{h}_{\mathrm{gen}}$ )：对应于 [USER] 词元的隐藏状态，即 $\mathbf{h}_{\mathrm{gen}} = H_{\mathrm{[USER]}}$ 。这个嵌入旨在捕获用户的长期、普遍偏好。
下一个物品嵌入 ( $\mathbf{h}_{\mathrm{next}}$ )：序列中最后一个物品位置的隐藏状态，即 $\mathbf{h}_{\mathrm{next}} = H_T$ 。这个嵌入旨在捕获用户当前的短期、会话内的意图。

对 $\mathbf{h}_{\mathrm{gen}}$ 和 $\mathbf{h}_{\mathrm{next}}$ 应用线性投影层，将其映射到所需的服务维度。剩余的物品特定隐藏状态 $H_1, \ldots, H_{T-1}$ 仅在训练期间用于下一个物品预测，不在服务时保留。

4.3. 训练目标 (Training Objective)

STARS 训练的目标是预测用户序列中的下一个物品。对于给定的正样本物品 $j$ （实际的下一个物品）和一组采样的负样本 $N$ ，我们形成一个候选集 $C = \{j\} \cup N$ 。模型为每个候选物品 $k$ 分配一个 logit (逻辑值)： $z_k \ = \ \mathbf{h}_{\mathrm{next}}^\top \mathbf{e}_k \ + \ b_k$ 其中， $z_k$ 是候选物品 $k$ 的 logit， $\mathbf{h}_{\mathrm{next}}$ 是用户的下一个物品嵌入（作为用户表示）， $\mathbf{e}_k$ 是候选物品 $k$ 的嵌入（其权重与 LLM增强产品词元中的 $\mathbf{e}_i^{\mathrm{LLM}} + \Delta_i$ 绑定）。 $b_k$ 是一个固定的流行度偏差 (popularity bias)，用于降低全局流行物品的权重： $b_k \ = \ -\gamma \log \pi_k, \qquad \pi_k \ = \ \frac{c_k + \alpha}{\sum_\ell c_\ell + \alpha |\mathcal{T}|}$ 其中， $b_k$ 是物品 $k$ 的流行度偏差， $\gamma \geq 0$ 是控制惩罚强度的参数。 $\pi_k$ 是物品 $k$ 在训练语料中的归一化流行度， $c_k$ 是物品 $k$ 在训练语料中的出现次数， $\alpha \geq 0$ 是平滑常数（默认使用 $\alpha=1$ ）， $|\mathcal{T}|$ 是物品目录的大小。使用原始计数 $c_k$ 而不是 $\pi_k$ 只会给所有 logit 添加相同的常数，并不会改变 softmax 的结果。

等价地，候选集上的后验概率可以写为： $p(k \mid C) ~ = ~ \frac{\exp\left(\mathbf{h}_{\mathrm{next}}^\top \mathbf{e}_k\right) \pi_k^{-\gamma}}{\sum_{t \in C} \exp\left(\mathbf{h}_{\mathrm{next}}^\top \mathbf{e}_t\right) \pi_t^{-\gamma}}$ 其中， $p(k \mid C)$ 是在给定候选集 $C$ 的情况下，物品 $k$ 被选中的概率。这个公式明确指出，流行度高的物品（即 $\pi_k$ 大）会被相对地降低权重。模型通过最小化交叉熵损失 (cross-entropy loss) 进行训练： $\mathcal{L}_{\mathrm{next}} = -\log p(j \mid C)$ 其中， $\mathcal{L}_{\mathrm{next}}$ 是下一个物品预测的损失函数， $j$ 是正样本物品。

实现注意事项：

$b_k$ 从训练集预计算一次，并在训练期间保持固定。
设置 $\gamma = 0$ 将恢复标准的点积 softmax。
平滑常数 $\alpha$ 避免了稀有或冷启动物品的 $\log 0$ 问题。

负样本采样 (Negative sampling)：在训练期间，最多包含 $k$ 个“同页面 (same-page)”负样本——这些物品与正样本 $j$ 同时展示（在同一印象/页面视图中），但用户未点击。然后，从与 $j$ 相同的细粒度子类别 (fine-grained subclass) 中采样额外的负样本，以鼓励模型学习对近乎替代品的细微区分。如果需要，会退回到随机目录负样本（在实现中 $k=10$ ）。此外，可选地添加一个小的逻辑损失 (logistic loss) 到采样的负样本上： $\mathcal{L}_{\mathrm{neg}} ~ = ~ -\frac{1}{|N|} \sum_{n \in N} \log \sigma(-z_n)$ 其中， $\mathcal{L}_{\mathrm{neg}}$ 是负样本的逻辑损失， $|N|$ 是负样本的数量， $\sigma(\cdot)$ 是 Sigmoid 函数， $z_n$ 是负样本 $n$ 的 logit。这个损失将负样本的分数推低。

总目标 (Total objective)：整体训练损失结合了下一个物品预测项、可选的负样本采样项以及一个仅用于训练的辅助语义正则化项： $\mathcal{L} = \mathcal{L}_{\mathrm{next}} + \lambda_{\mathrm{neg}} \mathcal{L}_{\mathrm{neg}} + \lambda_{\mathrm{aux}} \mathcal{L}_{\mathrm{aux}}$ 其中， $\mathcal{L}$ 是总训练损失， $\lambda_{\mathrm{neg}}$ 和 $\lambda_{\mathrm{aux}}$ 分别控制负样本损失和辅助损失的贡献强度。

仅训练辅助产品词汇损失 (Training-only auxiliary product-vocabulary loss)：为了进一步正则化物品表示空间，模型添加了一个仅用于训练的辅助头部（在 Figure 1a 中以虚线表示），鼓励语义相关的物品聚集。每个上下文物品表示（Transformer 在其序列上下文中的物品输出）被投影到一个固定的产品词汇嵌入空间中，并应用一个带有 in-batch negatives 的对比/BCE (Binary Cross-Entropy) 目标，以拉近正样本物品对并推开负样本。辅助目标由 $\lambda_{\mathrm{aux}}$ 加权，提高了学习空间的语义连贯性，但在服务时未使用；将 $\lambda_{\mathrm{aux}}=0$ 将禁用此头部，对部署的模型没有影响。

优化与训练设置 (Optimization and training setup)：

使用 AdamW 优化器（基础学习率 $3 \times 10^{-4}$ ，权重衰减 $5 \times 10^{-3}$ ， $\beta_1=0.9, \beta_2=0.95$ ）。
采用 one-cycle schedule 策略（10% 热身，余弦衰减超过 50 个训练周期；峰值学习率约为 $1.5 \times 10^{-3}$ ）。
为稳定早期训练，物品特定的 $\Delta_i$ 嵌入在最初几个周期冻结，然后以较小的有效学习率进行微调。
使用梯度裁剪 (gradient clipping)（每组最大范数 0.8-1.0）和混合精度训练 (mixed-precision training)。
序列被截断/填充到长度 200，每个 GPU 的小批量大小为 1600 个序列。

4.4. 季节性与实时上下文 (Seasonal and Real-Time Context)

STARS 通过可学习的时间之年嵌入 (time-of-year embeddings) 参数化时态上下文，并在推理时应用日历条件上下文偏移 (calendar-conditioned contextual offset)到表示中。实际上，这使得表示空间能够随着季节性需求模式平滑地变化，而无需重新训练模型。例如，系统可以通过调整物品的有效表示，在 12 月自动提升与节假日相关的物品。

通过外生信号实现实时上下文 (Real-Time Context via Exogenous Signals)：虽然模型主要关注日历季节性，但相同的机制可以泛化以整合多个外部上下文信号。令 $\mathbf{e}_{\mathrm{ctx}}(t, \ell)$ 是在时间 $t$ 和地点 $\ell$ 的外生因素特征向量（例如，当地天气 $w_t$ 、假日/事件标志 $h_t$ 和促销指示符 $p_t$ ）。计算一个基于上下文的调整量： $\mathbf{o}_t ~ = ~ W_{\mathrm{ctx}} \left[ \mathbf{e}_{\mathrm{time}}(t) \ ; \ \mathbf{e}_{\mathrm{ctx}}(t, \ell) \right]$ 其中， $\mathbf{o}_t$ 是上下文调整向量， $W_{\mathrm{ctx}}$ 是一个权重矩阵， $\mathbf{e}_{\mathrm{time}}(t)$ 是时间嵌入， $\mathbf{e}_{\mathrm{ctx}}(t, \ell)$ 是在时间 $t$ 和地点 $\ell$ 的外生因素特征向量。

在推理时将 $\mathbf{o}_t$ 添加到用户和/或物品嵌入中。由于 $\mathbf{o}_t$ 是根据最新的上下文特征动态计算的（并且 $W_{\mathrm{ctx}}$ 较小且应用速度快），模型可以实时适应变化的上下文，而无需重新训练主干网络 (backbone)。如果引入全新的上下文特征，只需对轻量级投影 $W_{\mathrm{ctx}}$ 进行微调即可集成它们。

5. 部署

STARS 部署在一个两阶段推荐架构中，包括离线批处理推理阶段 (offline batch inference stage)和在线检索阶段 (online retrieval stage)。下图（原文 Figure 4）高层地说明了这个管道。

下图（原文 Figure 4）展示了两阶段部署流程：

$Figure 4: Two-stage deployment. Offline: logs $\\begin{array} { r l } { \\ } & { { } h _ { \\mathrm { g e n } } / h _ { \\mathrm { n e x t } } \\ \\mathbf { A } \\mathbf { N } \\mathbf { N } } \\end{array}$ & ES indexes. Online: request → hn $\\mathbf { \\Pi } _ { \\mathbf { e x t } } \\mathbf { 1 o o k u p } A$ NN retrieval $ \\mathbf { E } \\mathbf { S }$ filtering ranked recommendations.$ 该图像是示意图，展示了STARS推荐系统的两阶段部署流程。离线阶段包括用户日志和离线推理生成 $h_{gen}/h_{next}$ 及物品令牌，然后建立ANN+ES索引；在线阶段则处理用户请求，进行查找、ANN搜索并通过ES过滤生成推荐结果。

图 4：两阶段部署。离线：日志经过训练的模型推理，生成用户 $h_{\mathrm{gen}}/h_{\mathrm{next}}$ 嵌入和物品嵌入，并构建 ANN 和 Elasticsearch 索引。在线：用户请求到达，查找用户 $h_{\mathrm{next}}$ 嵌入，进行 ANN 检索，然后通过 Elasticsearch 过滤，返回排序后的推荐列表。

5.1. 离线嵌入生成 (Offline Embedding Generation)

每天，系统都会在一个批处理作业中处理最新的用户交互日志。对于每个用户，将训练好的 STARS 模型应用于他们最近的交互历史，计算该用户的 $\mathbf{h}_{\mathrm{gen}}$ 和 $\mathbf{h}_{\mathrm{next}}$ 嵌入，并将这些向量存储在一个键值查找存储中（以用户 ID 为索引）。对于物品，每当添加新产品或产品描述更改时，就会离线生成或更新其基于 LLM 的语义嵌入和标签。然后，物品嵌入（包括任何学习到的增量 delta）会被索引到一个 ANN (Approximate Nearest Neighbor) 结构中以进行检索，并与物品元数据一起存储在 Elasticsearch 索引中（用于过滤）。

5.2. 在线检索 (Online Retrieval)

当用户请求推荐（例如，访问应用程序）时，系统从存储中检索用户预计算的 $\mathbf{h}_{\mathrm{next}}$ 嵌入，并执行 ANN 搜索以找到 top-K 个最近的物品向量。然后，通过 Elasticsearch 过滤这些候选物品，以执行业务规则（例如，确保库存充足和区域适用性）。在推理时，还会从特征存储中获取任何相关的上下文嵌入（例如，当前天气、事件或促销信号），并在 ANN 检索之前将其整合，如第 4.4 节所述。

可选地，系统可以检索两个候选列表——一个使用 $\mathbf{h}_{\mathrm{gen}}$ ，一个使用 $\mathbf{h}_{\mathrm{next}}$ ——并以轮询方式 (round-robin manner)交错它们（跳过重复项），以在保持会话相关性的同时注入一些长期偏好结果。最后，经过过滤的排名靠前的结果返回到前端。整个管道在数十毫秒内完成每次请求。

延迟和规模 (Latency and scale)：生产部署满足严格的服务水平协议 (Service Level Agreement, SLA) 要求，端到端 (end-to-end) 提供推荐仅需数十毫秒。该系统可以轻松扩展到数百万用户和数万个物品，以低延迟处理高并发请求量。

6. 实验设置

本文在自有平台的推荐任务上评估了 STARS，并将其与现有生产模型——基于 LambdaMART 的学习排序 (Learning-to-Rank) 系统进行了比较。报告了在保留数据上使用基于会话评估 (session-based evaluation)的离线 top-K 命中率结果（以 Hit@5 作为主要指标），并描述了在一个大型电子商务购物应用程序的轮播组件 (carousels) 上正在进行的大规模在线 A/B 测试。

6.1. 离线评估 (Offline Evaluation)

6.1.1. 数据集

实验使用了生产规模的电子商务平台数据，这些数据包含数百万用户的真实交互。具体的用户交互日志用于模型的训练和评估。数据特点包括：

生产规模：数据量庞大，代表了真实世界电子商务环境的复杂性和规模。
用户交互日志：包含用户与物品的有序交互序列，例如查看、添加到购物车、购买等。
物品信息：包括产品文本、元数据和 LLM 派生的属性标签，这些是 STARS 模型进行语义增强的关键。
上下文信息：包含与交互时间相关的时态和外部因素（如小时、星期几、事件等），用于上下文感知建模。

6.1.2. 评估指标

对论文中出现的每一个评估指标，按照以下三段结构提供完整说明：

命中率 (Hit@K)
1. 概念定义 (Conceptual Definition)：Hit@K 衡量的是推荐列表前 $K$ 个物品中是否包含用户实际购买（或交互）的目标物品。它关注的是推荐系统能否成功“命中”用户感兴趣的物品，是衡量推荐准确性的一个基础指标。
2. 数学公式 (Mathematical Formula)： $\mathrm{Hit@K} = \frac{\sum_{s \in S} \mathbb{I}(\text{target\_item} \in R_s^K)}{|S|}$
3. 符号解释 (Symbol Explanation)：
  - $S$ ：所有评估会话的集合。
  - $\mathbb{I}(\cdot)$ ：指示函数，如果括号内的条件为真，则为 1，否则为 0。
  - $\text{target\_item}$ ：用户在会话中实际购买（或交互）的目标物品。
  - $R_s^K$ ：在会话 $s$ 中，推荐系统生成的 top-K 推荐列表。
  - $|S|$ ：评估会话的总数。
召回率 (Recall@K)
1. 概念定义 (Conceptual Definition)：Recall@K 衡量的是在推荐列表的前 $K$ 个物品中，有多少比例的用户实际相关的物品被成功推荐。它关注推荐系统发现所有相关物品的能力，尤其在候选物品集合较大时，召回率是一个重要的指标。
2. 数学公式 (Mathematical Formula)： $\mathrm{Recall@K} = \frac{\sum_{u \in U} |R_u^K \cap T_u|}{\sum_{u \in U} |T_u|}$
3. 符号解释 (Symbol Explanation)：
  - $U$ ：用户集合。
  - $R_u^K$ ：为用户 $u$ 推荐的 top-K 物品列表。
  - $T_u$ ：用户 $u$ 实际交互（即相关）的物品集合。
  - $\cap$ ：集合交集运算。
  - $|\cdot|$ ：集合的势（元素数量）。
归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K)
1. 概念定义 (Conceptual Definition)：NDCG@K 是一种综合考虑推荐列表中物品相关性和位置的指标。它对排在列表靠前的相关物品给予更高的权重，而对排在靠后的相关物品给予较低的权重。NDCG 值越高，表示推荐列表的质量越好，越相关的物品排在越前面。
2. 数学公式 (Mathematical Formula)： $\mathrm{DCG@K} = \sum_{j=1}^K \frac{2^{\mathrm{rel}_j}-1}{\log_2(j+1)}$ $\mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}$
3. 符号解释 (Symbol Explanation)：
  - $\mathrm{DCG@K}$ ：折损累计增益。
  - $\mathrm{IDCG@K}$ ：理想折损累计增益，即完美排序下的 DCG 值，用于归一化。
  - $K$ ：推荐列表的长度。
  - $j$ ：推荐列表中物品的位置（从 1 开始）。
  - $\mathrm{rel}_j$ ：位于位置 $j$ 的物品的相关性得分。在二元相关性（相关或不相关）设置中，通常为 1 或 0。
覆盖率 (Coverage@K)
1. 概念定义 (Conceptual Definition)：Coverage@K 衡量的是在所有用户的 top-K 推荐列表中，被推荐过的唯一物品占整个物品目录的比例。它关注推荐系统发现不同物品的能力，避免过度推荐流行物品而导致“马太效应”和多样性不足。
2. 数学公式 (Mathematical Formula)： $\mathrm{Coverage@K} = \frac{|\bigcup_{u \in U} R_u^K|}{|\mathcal{I}|}$
3. 符号解释 (Symbol Explanation)：
  - $U$ ：所有用户的集合。
  - $R_u^K$ ：为用户 $u$ 推荐的 top-K 物品列表。
  - $\bigcup$ ：集合并集运算。
  - $|\cdot|$ ：集合的势（元素数量）。
  - $\mathcal{I}$ ：整个物品目录的集合。

6.1.3. 评估协议

基于会话的评估 (Session-based evaluation)：每个用户会话定义为每天，关注会话中的首次购买。
标签定义：
- label_pre：模型在用户实际购买前是否推荐（印象）了该物品。
- label_any：模型在当天任何时候是否推荐了该物品。
分数和排名计算：为每个会话计算生产模型的得分 (prod_score)，以及 STARS 模型使用 GI 嵌入 ( $\mathbf{h}_{\mathrm{gen}}$ ) 和 NI 嵌入 ( $\mathbf{h}_{\mathrm{next}}$ ) 的得分。
轮询 (RR) 策略：评估一种 round-robin 策略，该策略交错 GI 和 NI 的推荐列表（跳过重复项）。
平均方式：所有指标均在至少有一个正向结果的会话 ( $n_{\mathrm{pos}} > 0$ ) 上进行平均。

6.1.4. 对比基线

LambdaMART (baseline)：现有的生产环境学习排序系统，是基于梯度提升决策树 (GBDT) 的一个变种，广泛应用于信息检索和推荐系统中的排序任务。

6.2. 实验结果与分析

6.2.1. 核心结果分析

以下是原文 Table 1 的结果：

Variant	Hit@5	Hit@10	R@10	NDCG@10	Cov@10
LambdaMART (baseline)	0.3945	0.5603	0.3944	0.371	0.48
STARS (GI)	0.6905	0.7962	0.5925	0.512	0.61
STARS (NI)	0.6930	0.7957	0.5935	0.515	0.60
STARS (RR)	0.6922	0.7975	0.5936	0.519	0.67

表 1：离线基于会话的评估。RR（GI 和 NI 的轮询交错）在 Hit@10/NDCG@10 中产生微小而一致的提升，并改善了覆盖率。

整体会话评估结果： STARS 在排名质量方面相较于生产环境的 LambdaMART 模型取得了显著提升。

Hit@5：从基线的 0.3945 提升到 STARS（使用 GI 或 NI）的约 0.6905-0.6930，绝对提升约 0.296-0.298，相对提升高达约 +75%。这表明 STARS 能够更有效地在用户会话中命中目标购买物品。
Hit@10, R@10, NDCG@10：STARS 在这些指标上均有显著提升，显示出其在更长的推荐列表和排序质量上的优越性。
RR 策略：GI 和 NI 的轮询交错 (round-robin interleaving) 策略（STARS (RR)）在 Hit@10 和 NDCG@10 上带来了额外 0.2-0.4 个百分点的轻微改进，并显著提高了物品覆盖率 (item coverage)（约 7 个百分点，从 0.60/0.61 提升到 0.67）。这表明融合长期和短期信号能够提供适度的多样性收益，并捕获更广泛的用户兴趣。

候选集复杂度效应：下图（原文 Figure 5）展示了 Hit@5 与候选集大小的关系：

Figure 5: Hit@5 vs. candidate-set size (session-based). Relative lift of STARS (NI) over baseline increases with candidateset size. 该图像是图表，展示了 STARS (NI) 与基线系统 (prod) 在不同候选集大小下的 Hit@5 结果。可以观察到，随着候选集大小的增加，STARS 的相对提升效果明显，其中在第一个区间 (1-10) 的 Hit@5 值为 0.98，基线为 0.92。

图 5：Hit@5 与候选集大小（基于会话）。STARS (NI) 相对于基线的相对提升随着候选集大小的增加而增加。

对不同候选集大小下的性能分析显示：

1-10 个候选物品：在选择非常有限的情况下，生产模型表现已很强（Hit@5 约 0.92），STARS 获得相对温和的约 +6-7% 提升。
11-30 个候选物品：中等选择空间，STARS 带来约 +45% 的相对 Hit@5 提升。
31-100 个候选物品：较大选择空间，STARS 带来约 +110% 的相对 Hit@5 提升。
101+ 个候选物品：非常大的选择空间，STARS 提供了约 +265% 的相对提升（基线 Hit@5 约 0.146 vs. STARS 约 0.536）。这个模式表明，STARS 的语义增强和双内存用户建模在用户选择集大且多样时最有价值。

$h_{\mathrm{gen}}$ 和 $h_{\mathrm{next}}$ 最初行为相似性分析：在训练结束后（STARS 首次部署时），一般兴趣用户嵌入 (general-interest user embeddings) 和 下一个物品用户嵌入 (next-item user embeddings) 往往高度对齐。实证观察到每个用户的 h_gen 和 h_next 之间余弦相似度很高，且它们检索的 top-K 物品有很大重叠。这是预期之内的，因为模型刚刚在最新数据上训练。随着时间推移，新的交互到来以及用户行为在不同上下文中的变化，这两个嵌入预计会“解耦”。在运行时间更长的部署中，预期混合两者结果（如 RR 策略）的益处会随 h_gen 和 h_next 逐渐捕获用户意图的不同方面而增长。

类别级别性能快照：以下是原文 Table 2 的结果：

Product Collection	Test Instances (n)	Hit@5
Sour Cream & Cream Cheese	1401	92.1%
Diet Cola	1970	90.2%
Personal Care	4982	16.6%
Health	17651	14.5%

表 2：示例产品集合上的类别级别 Hit@5 性能（基于会话协议）。狭窄、定义明确的类别（例如，Sour Cream & Cream Cheese, Diet Cola）实现了更高的 Hit@5，而宽泛的类别（例如，Personal Care, Health）得分较低。

从 Table 2 可以看出：

具有丰富文本描述和连贯属性的类别（例如，Sour Cream & Cream Cheese, Diet Cola）实现了非常高的 Hit@5（约 90% 或更高），这与 STARS 依赖语义内容的特性一致。
相反，广泛的顶级类别（例如，Health, Personal Care）显示出低得多的 Hit@5（约 15-20%），这反映了类内更大的多样性和较弱的逐物品文本信号。这些结果表明，通过使用更细粒度的分类法或整合额外的物品属性，可以进一步获得收益。

6.2.2. 消融实验 (Ablation Study)

以下是原文 Table 3 的结果：

Model variant	R@1	R@5	R@10	R@20	R@50
Full STARS model	0.0593	0.1653	0.2262	0.2944	0.3966
- No LLM text embeddings	0.0551	0.1433	0.1949	0.2573	0.3586
- No LLM tags	0.0571	0.1529	0.2075	0.2700	0.3660
- No dynamic context (cal- endar/events/promotions)	0.0595	0.1620	0.2190	0.2820	0.3756
- No [USER] token (single embedding)	0.0584	0.1579	0.2142	0.2778	0.3734

表 3：离线验证 Recall@K 的消融研究（全目录评估；禁用流行度先验）。

消融研究（使用序列级别、全目录 Recall@K 评估）结果总结如下：

LLM 语义特征的贡献：移除 LLM 语义特征导致性能下降最显著。
- 移除 LLM 文本嵌入：将 R@5 从 0.1653 降低到 0.1433，R@1 降低到 0.0551。
- 移除 LLM 派生属性标签：将 R@5 降低到 0.1529，R@1 降低到 0.0571。这些结果表明，连续的文本向量和离散的标签提供了互补且非冗余的语义信号，是模型性能的关键。
双用户嵌入的贡献：使用单个用户嵌入（移除双 h_gen/h_next 结构，即移除 [USER] 词元）导致 R@5 下降 4-5%，这与长期偏好和短期意图的解耦减少一致。
动态上下文的贡献：移除动态日历/事件/促销上下文导致 R@5 下降约 2%。尽管下降幅度较小，但在季节性或促销活动频繁的时期，这些信号会变得更加重要。
对服务延迟的影响：这些消融实验都不会影响服务延迟，因为架构和嵌入查找路径保持不变。

6.2.3. 在线 A/B 测试 (Online A/B Testing)

在一个大型电子商务平台 (a large e-commerce platform)的轮播组件 (carousels)上，对 600 万访问进行了统计学显著的 A/B 测试，将 STARS 与生产环境的 LambdaMART 模型进行比较。结果显示用户参与度持续提升：

总订单量 (Total Orders)：+0.8%
首页加购量 (Add-to-Cart on Home Page)：+2.0%
每用户访问量 (Visits per User)：+0.5%
浏览页加购量 (ATC on Browse)：-0.75% 浏览页加购量的轻微下降归因于两个在流量中观察到的效应：

蚕食效应 (cannibalization)：用户在首页更早地找到了相关物品，从而减少了后续的浏览页交互。
分类对齐 (taxonomy alignment)：首页使用更广泛的父类别，STARS 的语义建模在此表现出色，而浏览页展示狭窄的子类别，提升空间有限。

总体而言，实验提供了证据，表明 STARS 能够在大规模环境下提升漏斗顶部 (top-of-funnel)的参与度和购买行为。

7. 总结与思考

7.1. 结论总结

STARS 是一个创新的推荐系统，它通过整合多项先进技术，显著提升了电子商务场景下的推荐质量和效率。其核心贡献包括：

LLM增强的物品表示：结合了冻结的 LLM 文本嵌入、可学习的增量和 LLM 派生属性标签，有效解决了冷启动和长尾物品的推荐问题，增强了内容匹配能力。
双内存用户建模：通过分离用户的长期偏好 (h_gen) 和短期会话意图 (h_next)，模型能够更精细地捕捉用户动态变化的兴趣，尤其在候选物品选择空间较大时，效果更为显著。
上下文感知与鲁棒训练：通过学习日历和事件偏移量实现实时上下文适应，并通过子类别感知负样本和流行度先验提升了模型的判别能力和多样性。
大规模生产部署：采用离线嵌入生成和在线 ANN 检索与过滤的两阶段架构，确保了系统在数百万用户和数万物品规模下的毫秒级低延迟服务。

在离线评估中，STARS 相较于现有生产模型 LambdaMART，Hit@5 实现了超过 75% 的相对提升。在线 A/B 测试也验证了其对总订单量、首页加购量和每用户访问量的积极影响。这些成果共同证明了结合深度学习、语义丰富和精心设计的系统架构，能够在真实世界环境中带来实质性的推荐质量提升，而无需牺牲速度或可伸缩性。

7.2. 局限性与未来工作

7.2.1. 局限性

偏见继承 (Bias Inheritance)：STARS 模型会继承来自用户交互日志和上游 LLM 特征中的固有偏见（例如，流行度偏见、表示偏见、内容偏见）。尽管流行度先验 (popularity prior) 有所缓解，但并不能完全消除这些偏见。
内容特征和分类质量依赖 (Dependency on Content Feature and Taxonomy Quality)：推荐质量直接受限于内容特征和产品分类法的质量。噪声或缺失的属性可能会降低相关性，尤其对于冷启动物品而言。
上下文特征监控 (Context Feature Monitoring)：上下文特征必须受到持续监控。错误指定的偏移量可能会对短期的峰值做出过度反应，导致推荐不稳定。
检索召回率上限 (Retrieval Recall Ceiling)：检索阶段的召回率是端到端推荐质量的上限。如果相关物品未被检索出来，后续的排序阶段也无法挽回。因此，需要持续追踪 ANN 召回率和索引新鲜度。

7.2.2. 未来工作

自适应上下文 (Adaptive Context)：探索学习每位用户对时间和外生信号的敏感性，使上下文偏移量因用户而异，实现更个性化的上下文适应。
反馈感知训练 (Feedback-Aware Training)：使用 bandit 或 反事实目标 (counterfactual objectives) 来使下一个物品损失与业务指标对齐，同时控制探索与利用的平衡。
更细粒度的分类法和物品属性 (Finer-grained Taxonomies and Richer Item Attributes)：进一步强化冷启动性能。
更频繁或增量式的嵌入更新 (More Frequent or Incremental Embedding Updates)：特别适用于快速变化的领域。
轻量级会话感知重排序 (Lightweight Session-Aware Reranking)：在不影响延迟的情况下，进一步优化用户体验。
多目标优化 (Multi-Objective Optimization)：例如，平衡相关性和多样性，以提供更全面的用户体验。

7.3. 个人启发与批判

7.3.1. 个人启发

LLM与传统推荐的融合之道：STARS提供了一个非常实用的范例，展示了如何将LLM强大的语义理解能力（通过预训练嵌入和属性标签）与传统的基于Transformer的序列推荐模型相结合。这种“增强而非替代”的策略，既利用了LLM的优势解决冷启动和长尾问题，又避免了LLM推理成本高、延迟大的缺点，是工业界值得借鉴的融合路径。
双用户嵌入的精妙设计：将用户意图分解为长期偏好 (h_gen) 和短期会话意图 (h_next)，并通过不同的池化策略从Transformer中提取，是一个捕捉用户复杂行为的关键创新。这有助于推荐系统在不同场景下（例如，主页推荐侧重长期兴趣，会话内推荐侧重即时需求）提供更精准的个性化服务。论文中提到两者最终会“解耦”的预期，也为用户行为建模提供了新的视角。
工程与算法的深度结合：STARS 的成功不仅在于其算法创新，更在于其对生产部署的深刻理解。两阶段检索管道、离线嵌入生成、在线轻量级上下文调整等设计，完美平衡了模型复杂度、推荐质量和系统延迟，体现了在真实世界大规模系统中，工程实践与算法设计同等重要。这对于研究者和工程师都有重要的启发意义：在设计模型时，必须同时考虑其在实际环境中的可部署性和性能。
上下文感知的重要性：将日历、事件、促销等动态上下文信号集成到模型中，并通过可学习的偏移量进行实时调整，使得推荐系统能够灵活适应外部环境变化，进一步提升了推荐的相关性和时效性。

7.3.2. 批判与潜在改进

LLM集成深度与灵活性：目前 LLM 主要用于提供冻结的语义嵌入和离线属性标签。未来可以探索更深度的 LLM 集成，例如：
- LLM 作为重排序器 (Reranker)：利用 LLM 更强的理解和推理能力对召回的少量候选进行精细重排序，可能捕捉更复杂的物品关系和用户意图。
- LLM 生成推荐解释：LLM 可以为推荐结果生成自然语言解释，提升用户对推荐的信任度和满意度。
- 动态 LLM 提示 (Dynamic LLM Prompting)：根据用户当前会话或上下文动态生成 LLM 提示，以获取更具针对性的语义信息。
双用户嵌入的强制解耦：论文提到 h_gen 和 h_next 在训练初期可能高度对齐，期待随着时间推移自然解耦。是否可以在训练阶段引入更强的正则化项或辅助任务，强制它们在早期就捕获用户偏好的不同维度，从而加速解耦并可能带来更稳定的性能提升？例如，可以增加一个正交性损失或对比损失，鼓励两者在语义空间中区分开来。
偏见缓解策略的详细化：论文提到了偏见问题，但除了流行度先验之外，并未详细说明其他具体的偏见缓解策略。考虑到 LLM 本身可能带有的偏见，以及用户交互日志中的历史偏见，未来工作可以深入探讨如何通过数据增强、公平性约束、去偏算法或人工审查等多种手段，更全面地解决推荐系统中的公平性和偏见问题。
动态上下文的自适应能力：尽管引入了上下文感知机制，但如果出现全新的、未在训练中见过的上下文特征类型，仍然需要微调 $W_{\mathrm{ctx}}$ 。未来可以研究更自适应的架构，使其能够无需微调就能处理新型上下文，或者通过元学习 (meta-learning) 等方法快速适应新情境。
A/B 测试中“浏览页加购量下降”的深层分析与对策：论文将浏览页加购量下降归因于流量蚕食和分类对齐。这提示模型在不同推荐位和不同粒度的商品分类下，可能需要差异化的优化目标或策略。未来可以探索：
- 多目标优化 (Multi-Objective Optimization)：在训练时平衡不同推荐位的指标，甚至引入显式的多样性目标，以减少蚕食效应。
- 分层或多粒度语义建模：针对广泛父类别和狭窄子类别采用不同的语义建模方式，或者在模型中显式地对分类层级进行编码，以更好地适应浏览页的特点。
- 冷启动物品的精细化：虽然 LLM 增强了冷启动，但在那些“宽泛但缺乏强语义信号”的类别中，如何进一步提升冷启动物品的召回和排序，仍是挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。