论文状态：已完成

OxygenREC: An Instruction-Following Generative Framework for E-commerce Recommendation

发表：2025/12/27

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

OxygenREC是一个面向电商的推荐系统，采用快慢思维架构进行深度推理，以解决传统生成式推荐中的多阶段优化不一致和场景训练独立的问题。通过引入语义对齐机制与指令引导检索，OxygenREC提升了推荐的生成质量，同时满足低延迟与高效资源利用的实际需求。

摘要

Traditional recommendation systems suffer from inconsistency in multi-stage optimization objectives. Generative Recommendation (GR) mitigates them through an end-to-end framework; however, existing methods still rely on matching mechanisms based on inductive patterns. Although responsive, they lack the ability to uncover complex user intents that require deductive reasoning based on world knowledge. Meanwhile, LLMs show strong deep reasoning capabilities, but their latency and computational costs remain challenging for industrial applications. More critically, there are performance bottlenecks in multi-scenario scalability: as shown in Figure 1, existing solutions require independent training and deployment for each scenario, leading to low resource utilization and high maintenance costs-a challenge unaddressed in GR literature. To address these, we present OxygenREC, an industrial recommendation system that leverages Fast-Slow Thinking to deliver deep reasoning with strict latency and multi-scenario requirements of real-world environments. First, we adopt a Fast-Slow Thinking architecture. Slow thinking uses a near-line LLM pipeline to synthesize Contextual Reasoning Instructions, while fast thinking employs a high-efficiency encoder--decoder backbone for real-time generation. Second, to ensure reasoning instructions effectively enhance recommendation generation, we introduce a semantic alignment mechanism with Instruction-Guided Retrieval (IGR) to filter intent-relevant historical behaviors and use a Query-to-Item (Q2I) loss for instruction-item consistency. Finally, to resolve multi-scenario scalability, we transform scenario information into controllable instructions, using unified reward mapping and Soft Adaptive Group Clip Policy Optimization (SA-GCPO) to align policies with diverse business objectives, realizing a train-once-deploy-everywhere paradigm.

思维导图

论文精读

中文精读约 63 分钟读完 · 40,704 字

1. 论文基本信息

1.1. 标题

OxygenREC: An Instruction-Following Generative Framework for E-commerce Recommendation (OxygenREC: 面向电商推荐的指令遵循生成式框架)

1.2. 作者

HaoMiZanAlex Xia ianZhi Ma, Yan Zan Shj ang ZhouHan Xi Ma, Jinguang Liu, Zhen Li, Zhida Jiang, Shusheng Wang, Ning Tang, Yanchen Qiao, Chenxiang Yang, Chen Sun, Jincheng Yuan, Chunhua Peng, Heng Hu, Peijun Yang, Baopeng Yuan, Caiyun Qu, Zhaolong Xing, Hofei Yuan, Haipeng Zhang, Yuzhang Guo, Weijie Ding, Jiahua Gao, Hao Huang, Zhen Chen, Tongxuan Liu, Pinghua Gong。所有作者均来自京东 (JD.com), 中国北京。联系方式：{haoxuegang.1, zhangming229, gongpinghua1}@jd.com。

1.3. 发表期刊/会议

预印本 (arXiv preprint)。

1.4. 发表年份

2025年。

1.5. 摘要

传统的推荐系统存在多阶段优化目标不一致的问题。生成式推荐 (Generative Recommendation, GR) 通过端到端框架缓解了这些问题；然而，现有方法仍然依赖基于归纳模式的匹配机制。尽管响应迅速，但它们缺乏揭示需要基于世界知识进行演绎推理的复杂用户意图的能力。同时，大语言模型 (Large Language Models, LLMs) 展现出强大的深度推理能力，但其延迟和计算成本对于工业应用而言仍具挑战性。更重要的是，在多场景可扩展性方面存在性能瓶颈：如图1所示，现有解决方案需要为每个场景独立训练和部署，导致资源利用率低和维护成本高——这是生成式推荐文献中未解决的挑战。为了解决这些问题，本文提出了 OxygenREC，一个工业级推荐系统，它利用快慢思维 (Fast-Slow Thinking) 来实现深度推理，同时满足真实世界环境中严格的延迟和多场景需求。首先，我们采用了快慢思维架构 (Fast-Slow Thinking architecture)。慢思考 (Slow thinking) 使用近线 (near-line) LLM 管道来合成上下文推理指令 (Contextual Reasoning Instructions)，而快思考 (fast thinking) 则采用高效率的编码器-解码器 (encoder-decoder) 主干网络 (backbone) 进行实时生成。其次，为确保推理指令有效增强推荐生成，我们引入了语义对齐机制 (semantic alignment mechanism)，其中包含指令引导检索 (Instruction-Guided Retrieval, IGR) 来过滤与意图相关的历史行为，并使用 查询到物品损失 (Query-to-Item, Q2I loss) 来保证指令与物品之间的一致性。最后，为了解决多场景可扩展性问题，我们将场景信息转换为可控指令 (controllable instructions)，并使用统一的奖励映射 (unified reward mapping) 和软自适应组剪辑策略优化 (Soft Adaptive Group Clip Policy Optimization, SA-GCPO) 来使策略与多样化的业务目标对齐，从而实现一次训练，随处部署 (train-once-deploy-everywhere) 的范式。

1.6. 原文链接

https://arxiv.org/abs/2512.22386 PDF 链接: https://arxiv.org/pdf/2512.22386v1.pdf

2. 整体概括

2.1. 研究背景与动机

传统的推荐系统通常采用多阶段级联管道 (multi-stage cascaded pipeline)，这导致了多阶段优化目标不一致和错误在阶段间传播的问题。为了解决这些问题，生成式推荐 (Generative Recommendation, GR) 作为一种新的范式出现，将推荐任务视为一个端到端的序列生成任务，从而实现了全局优化和更高的效率。然而，在复杂的工业环境中部署 GR 仍然面临两个关键挑战：

有限的演绎推理能力 (Limited deductive reasoning capabilities):
- 现有 GR 方法的局限: 当前的 GR 方法大多通过归纳 (inductively) 学习用户行为，这在需要世界知识和深度演绎推理的场景中表现不足。
- 具体表现:
  - 复杂上下文中的数据鸿沟 (Data Gaps in Complex Contexts): 传统模型依赖已观测信号，但在新颖或罕见的上下文组合下（如“成都、冬至、年轻父母”），可能无法推断出真正合适的物品（如“吸湿排汗婴儿睡衣”），而只能进行表面关联（如“厚外套”）。这凸显了模型缺乏基于时空知识和常识进行深度推理的能力。
  - 意图解释中的逻辑鸿沟 (Logic Gaps in Intent Interpretation): 归纳模型在解释模糊用户行为时也面临挑战。例如，一个摄影爱好者反复比较两款手机，传统模型可能误认为对两者都感兴趣，而忽略了用户可能因为不满意而继续寻找。一个具有演绎推理能力的推荐系统，结合额外上下文（如摄影教程观看历史），能推断出用户真正优先考虑的是“高质量移动影像”，从而推荐用户从未浏览过的专业摄影手机。
- 挑战: LLMs 展现了解决这些问题的潜力，但直接使用 LLM 主干网络会导致不可接受的在线推理延迟和高昂的计算成本。
多场景适应与资源效率之间的困境 (Dilemma between multi-scenario adaptation and resource efficiency):
- 工业平台的现实: 工业平台需要在多种场景（如主页、购物车）提供推荐服务。
- 现有方案的问题:
  - 为每个场景独立训练模型会导致额外的运营和计算成本。
  - 简单的统一模型则可能面临负迁移 (negative transfer) 问题，即一个场景的优化损害了另一个场景的性能。
- 现有研究不足: 大多数多场景推荐研究主要集中在判别式排序模型，通过场景特定的塔式结构或复杂的路由/门控机制来缓解负迁移，但在生成式推荐领域，如何实现跨不同类型场景的一致工作仍是一个未解决的挑战。
  
  为了解决上述挑战，本文提出了 OxygenREC，一个用于大规模电商推荐的指令遵循统一生成框架 (instruction-following unified generative framework)。该框架旨在集成世界知识进行演绎意图推理，并通过单一统一的主干网络支持可扩展的多场景服务。

2.2. 核心贡献/主要发现

本文的贡献主要体现在以下四个方面：

具有演绎知识注入的快慢思维架构 (Fast-Slow Thinking Architecture with Deductive Knowledge Injection):
- 提出了一种快慢思维架构，用于在不引入在线延迟的情况下注入世界知识和演绎推理能力。
- 慢思考：通过近线 LLM 管道执行慢速意图推理，生成高精度的上下文推理指令。
- 快思考：高吞吐量的编码器-解码器主干网络根据这些指令进行快速实时生成。
语义对齐以实现有效指令控制 (Semantic Alignment for Effective Instruction Control):
- 为确保指令有效，使用查询到物品损失 (Q2I loss) 将指令映射到物品嵌入空间。
- 通过指令引导检索 (IGR) 机制，使用指令作为查询，过滤掉用户历史中不相关的行为，从而增强指令的可控性，确保模型专注于指令所要求的内容。
通过指令和强化学习 (RL) 实现可扩展的多场景对齐 (Scalable Multi-Scenario Alignment via Instruction and Reinforcement Learning (RL)):
- 将场景特定上下文转换为生成模型中的场景指令 (scenario instructions)。
- 为了处理多个业务目标，使用统一的奖励映射服务 (Reward Mapping Service) 结合 软自适应组剪辑策略优化 (SA-GCPO)，使单一策略与不同的业务目标对齐，实现“一次训练，随处部署 (train-once-deploy-everywhere)” 的范式。
大规模生产部署 (Large-Scale Production Deployment):
- OxygenREC 已部署在 JD.com 的核心推荐场景中，通过在线 A/B 测试验证了其显著提升了订单量和商品交易总额 (Gross Merchandise Value, GMV)。
- 系统在各种推荐场景中展现出卓越的灵活性和可扩展性，并在最严苛的工业环境中证明了其作为增长引擎的可靠性。

2.3. 整体架构概览 (原文 Figure 2)

该图像是示意图，展示了OxygenREC的整体架构。左侧描述了基于指令的框架和多模态量化表示，右侧为上下文推理指令的生成流程，以及多场景对齐的奖励映射机制。

Figure 2: The Overall Architecture of OxygenREC. (a) Instruction Following Framework: A transformerbased encoderdecoder backbone that generates semantic item sequences conditioned on specific instructions. (b) Multimodal Quantized Representations: Items are tokenized as multimodal semantic IDs via residual quantization of contrastively trained embeddings, enabling compact and expressive item representations. (c) Contextual Reasoning Instructions: A near-line LLM pipeline that analyzes user behavior and context to synthesize such instructions, bridging the gap between inductive patterns and deductive reasoning. d) MultiScenario Alignment: We achieve a "train-once-deploy-everywhere" workflow by coupling scenario instructions with RL-based alignment.

OxygenREC 通过指令遵循生成范式 (Instruction-Following Generative paradigm) 统一了各种推荐任务。如图2所示，OxygenREC 通过以下两项关键创新弥合了高级推理与实时工业推荐之间的鸿沟，并同时解决了前述的两个挑战：

快慢思维 (Fast-Slow Thinking): 一个近线 LLM 管道（慢思考）将复杂的用户意图提炼成紧凑的上下文推理指令，注入世界知识和演绎信号，同时避免了在线 LLM 带来的延迟。一个高吞吐量的编码器-解码器主干网络（快思考）随后在严格的延迟限制下生成物品序列。
低成本多场景适应 (Low-Cost Multi-Scenario Adaptation): 不再为每个场景使用独立的模型，而是采用一个框架处理所有场景。基于指令控制机制，我们利用场景指令 (scenario instructions) 来引导模型的行为。为保持一致性，一个奖励映射服务 (reward mapping service) 和统一的奖励模型提供了一个单一标准来平衡平台上的多样化目标。在推理阶段，前缀约束束搜索 (prefix-constrained beam search) 强制执行本地业务规则和候选池。这使得系统高度适应，同时又足够精简，适合大规模部署。

端到端的工作流程包括四个阶段：

模型输入表示 (Model Input Representation): 输入层将用户画像特征、LLM 驱动的推理意图、多模态语义 ID 表示的物品输入，以及实时场景信息整合到一个统一空间。
指令遵循预训练 (Instruction-Following Pre-training): 模型通过结合下一词元预测 (Next Token Prediction, NTP) 和语义对齐的多任务目标学习遵循指令。
多场景对齐后训练 (Post-training with Multi-Scenario Alignment): 利用奖励映射服务转换奖励信号，并通过新颖的策略优化策略进行多目标细化。
多场景服务 (Multi-Scenario Serving): 该框架使单个模型能够同时服务于多个场景。在推理过程中，它采用前缀约束解码技术 (prefix-constrained decoding technology) 严格遵循场景特定的业务规则和候选池，从而最大化资源利用效率。

3. 预备知识与相关工作

3.1. 基础概念

推荐系统 (Recommendation Systems, RS): 一类信息过滤系统，旨在预测用户对物品的“偏好”或“评级”，并向用户推荐他们可能感兴趣的物品。
- 传统推荐系统 (Traditional Recommendation Systems): 通常采用多阶段级联管道 (multi-stage cascaded pipeline)，例如先进行召回 (recall)，再进行排序 (ranking)，最后进行重排 (re-ranking)。每个阶段都有独立的优化目标。
- 生成式推荐 (Generative Recommendation, GR): 一种新兴的推荐范式，将推荐任务视为一个端到端的序列生成任务。它直接生成用户可能感兴趣的物品序列的标识符，而非从固定候选池中选择和排序。目标是实现全局优化。
大语言模型 (Large Language Models, LLMs): 具有数亿甚至数万亿参数的深度学习模型，通过在海量文本数据上进行预训练，学习到丰富的语言知识、常识和推理能力，能够执行多种自然语言处理任务。
- 快慢思维 (Fast-Slow Thinking): 借鉴认知心理学概念，将系统分为两个处理路径。慢思考 (Slow thinking) 指的是需要深度推理、消耗时间但能产生高质量输出的过程（如 LLM 进行复杂意图分析）。快思考 (Fast thinking) 指的是快速、直观、低延迟的决策过程（如轻量级模型进行实时生成）。
编码器-解码器架构 (Encoder-Decoder Architecture): 深度学习中常见的一种序列到序列 (sequence-to-sequence) 模型架构。编码器 (Encoder) 负责将输入序列（如用户行为、上下文）转换为一个固定长度的上下文向量或一系列隐藏状态。解码器 (Decoder) 负责根据这个上下文向量和自身之前的输出，自回归地 (auto-regressively) 生成目标序列（如推荐物品序列）。
语义ID (Semantic IDs, SIDs): 物品的离散表示，旨在捕获物品的语义信息。与传统的物品 ID 只是一个唯一标识符不同，SID 通过量化 (quantization) 等方式将物品嵌入到一个语义空间中，使得相似物品具有相似的 SID，从而支持生成式模型的输出。
- 残差量化 (Residual Quantization, RQ): 一种将高维连续向量映射到离散编码序列的技术，通过多层量化器逐步细化表示，每层量化器对前一层残差进行编码，从而实现紧凑且富有表达力的离散表示。
- 码本 (Codebook): 在量化过程中，用于存储离散编码的集合。
强化学习 (Reinforcement Learning, RL): 一种机器学习范式，智能体 (agent) 通过与环境的交互学习最优策略，以最大化累积奖励。在推荐系统中，可以用于根据用户反馈（奖励）优化推荐策略。
- 策略优化 (Policy Optimization): 在强化学习中，调整智能体策略参数以提高其性能的过程。
- 重要性采样 (Importance Sampling): 一种在强化学习中常用的技术，用于估计一个分布下的期望，但从另一个分布中采样。这允许使用离线数据或行为策略 (behavior policy) 的数据来更新目标策略 (target policy)。
- 优势函数 (Advantage Function): 在强化学习中，衡量在特定状态下采取某个行动相对于平均行动的优势，即 $A(s, a) = Q(s, a) - V(s)$ ，其中 Q(s, a) 是行动值函数，V(s) 是状态值函数。
注意力机制 (Attention Mechanism): 深度学习中的一种技术，允许模型在处理序列数据时，动态地聚焦于输入序列中最相关的部分。
- 自注意力 (Self-Attention): Transformer 模型的核心组成部分，允许模型在处理序列中的每个元素时，同时考虑序列中的所有其他元素，并计算它们之间的关联度。
- Transformer 模型 (Transformer Model): 一种基于注意力机制的神经网络架构，广泛应用于自然语言处理和序列建模任务中，通常由多层编码器和解码器组成。

自注意力机制的计算公式: 自注意力机制将输入序列中的每个词元 (token) 转换为三个向量：查询 (Query, $Q$ )、键 (Key, $K$ ) 和值 (Value, $V$ )。这些向量通过以下公式计算注意力分数和加权值： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释:

$Q$ (Query): 查询矩阵，由输入序列中每个词元的查询向量堆叠而成。
$K$ (Key): 键矩阵，由输入序列中每个词元的键向量堆叠而成。
$V$ (Value): 值矩阵，由输入序列中每个词元的值向量堆叠而成。
$K^T$ : 键矩阵的转置。
$d_k$ : 键向量的维度，用于缩放点积结果，防止点积过大导致 softmax 函数梯度过小。
$\mathrm{softmax}(\cdot)$ : 软最大函数，将注意力分数归一化为概率分布。
$\mathrm{Attention}(Q, K, V)$ : 输出的上下文向量，是值向量 $V$ 的加权和，权重由 $Q$ 和 $K$ 的相似度决定。

3.2. 前人工作

论文在附录 $A$ 中对相关工作进行了回顾，主要分为三类：

生成式推荐 (Generative Recommendation):
- 范式转变: GR 将推荐重新定义为端到端的序列生成任务，与传统的判别式模型不同，它直接生成目标物品标识符。
- 物品标识符 (Item Identification): 核心挑战之一是如何将物品表示为离散的词元。早期使用原始文本 ID，近期则转向语义 ID (SIDs) [27, 29, 53, 54]。像 RQ-VAE [48] 和残差量化 [22] 等方法创建了层次化的编码，捕获语义关系，平衡表达能力与词汇量。
- 统一搜索与推荐: 一些工作（如 SynerGen [25] 和 IntSR [64]）探索了通过生成方法统一搜索和推荐，但它们仍基于传统排序模型而非语义 ID 生成。
- LLM 集成: RecGPT 系列 [4, 5] 等方法集成 LLMs 进行推理，但通常采用离线 LLM 推理和简单的双塔召回机制进行在线服务，限制了 LLM 推理能力在实时场景中的充分发挥。
- 架构: GR 的主干网络通常采用基于 Transformer 的编码器-解码器或仅解码器架构 [41, 58, 62]，这些统一结构与现代 GPU 加速器自然对齐，提供比碎片化深度学习管道更高的吞吐量。
- 现有 GR 的局限: 大多数 GR 方法仍然主要通过归纳方式从用户行为中学习，缺乏从稀疏或新颖上下文中推断复杂用户意图的演绎推理 (deductive reasoning) 能力。
基于大语言模型 (LLM-based Recommendation Systems) 的推荐系统:
- LLMs 在自然语言处理领域的成功激发了将其应用于推荐的兴趣 [1, 6, 30, 43]。
- 直接利用 LLMs: 一些方法直接将 LLMs 作为推荐主干网络 [12, 24, 39]，利用其丰富的世界知识和推理能力。例如，OneRec-think [39] 集成了思维链 (Chain-of-Thought, CoT) 推理以增强可解释性。
- 工业部署挑战: 然而，在工业环境中部署此类模型面临严重的延迟和成本限制。数十亿参数 LLM 的自回归解码计算开销通常是实时服务无法承受的 [69]。
多场景推荐和可控性 (Multi-Scenario Recommendation and Controllability):
- 工业平台的复杂性: 工业电商平台服务于多样化的场景（如主页、信息流、购物车），每个场景都有独特的行为和目标。
- 传统 MSR 方法: 传统的多场景推荐 (MSR) 方法主要为判别式排序模型开发，依赖于专门的架构干预，如门控机制 [1]、星型拓扑单元 [9] 或路由机制来缓解负迁移。
- 传统 MSR 的局限: 这些方法引入了结构复杂性，并通过隐式参数调节产生信息瓶颈，通常需要维护独立的模型实例或复杂的路由逻辑，从而增加了运营和维护成本。
- GR 中的 MSR 挑战: 将这些传统 MSR 技术应用于 GR 带来了独特的挑战。现有的 GR 多场景方法 [25] 大多仍处于探索阶段，未能充分解决统一建模与场景特定适应之间的根本权衡。相关挑战也体现在跨领域推荐 [70] 和处理不同场景中不平衡数据分布 [7] 的问题上，但解决方案仍主要为判别式的。

3.3. 技术演进

该领域的技术演进可以概括为以下几个阶段：

传统多阶段推荐 (Cascading Methods): 以 Wide & Deep [15] 和 YouTube 推荐系统 [16] 为代表，采用召回、排序、重排等多阶段管道，每个阶段独立优化。优点是各阶段可针对性优化，但缺点是目标不一致和错误传播。
生成式推荐的兴起 (Emergence of Generative Recommendation): 为解决多阶段不一致性，GR [36, 68] 将推荐视为序列生成任务，实现端到端优化。初期面临物品表示（tokenization）和推理能力不足的挑战。
LLM 的融合与挑战 (Integration of LLMs and Challenges): LLMs [12, 24, 39, 69] 展现出强大的推理能力，被引入推荐系统以克服传统 GR 的演绎推理局限。然而，LLM 的高延迟和计算成本成为工业部署的巨大障碍。
多场景适应的演进 (Evolution of Multi-Scenario Adaptation): 早期 MSR 主要针对判别式排序模型，采用复杂架构（如 MoE [40]、STAR [51]、PLE [55]）来缓解负迁移。但这些方法在 GR 中应用时面临更高的复杂性和成本问题。

3.4. 差异化分析

OxygenREC 的核心创新在于其如何克服现有方法的局限性：

解决演绎推理能力不足:
- 现有 GR: 依赖归纳模式匹配，难以处理复杂意图和数据鸿沟。
- 现有 LLM 推荐: 直接使用 LLM 导致高延迟和计算成本。
- OxygenREC 的创新: 引入快慢思维架构。通过近线 LLM 管道（慢思考） 生成上下文推理指令，将深度演绎推理能力离线注入；然后由高效率编码器-解码器主干网络（快思考） 进行实时生成，避免了在线 LLM 调用带来的延迟。这种分离确保了深度推理的同时，满足了工业应用的低延迟要求。
解决多场景适应与资源效率的困境:
- 现有 MSR: 主要针对判别式模型，通过场景特定架构（如独立模型、门控机制）缓解负迁移，但成本高昂且在 GR 中应用复杂。
- 现有 GR 中的多场景: 大多仍是探索性工作，未充分解决统一性与适应性的权衡。
- OxygenREC 的创新: 实现了“一次训练，随处部署 (train-once-deploy-everywhere)” 的范式。通过将场景信息转换为可控的场景指令 (scenario instructions)，使一个统一模型能够适应多种场景。结合统一的奖励映射服务和 软自适应组剪辑策略优化 (SA-GCPO)，使策略能够对齐多样化的业务目标，显著降低了训练和部署成本。
有效指令控制:
- OxygenREC 引入了语义对齐机制 (semantic alignment mechanism)，包括 指令引导检索 (IGR) 和 查询到物品损失 (Q2I loss)，确保推理指令能够有效地指导推荐生成，过滤掉不相关的历史行为，并保证指令与目标物品之间的一致性。这是现有 GR 文献中未被充分探索的领域。

4. 方法论

4.1. 方法原理

OxygenREC 的核心思想是通过指令遵循生成范式 (Instruction-Following Generative paradigm) 统一多样化的推荐任务，并利用快慢思维 (Fast-Slow Thinking) 架构来弥合深度推理与实时工业推荐之间的鸿沟。其原理基于以下几个关键点：

快慢思维分离: 将需要复杂演绎推理的慢思考过程（如基于世界知识分析用户意图）从实时在线推荐的快思考过程中分离出来。慢思考由近线 LLM 管道完成，生成高精度的上下文推理指令。快思考则由一个高效的编码器-解码器主干网络实时执行，根据这些预生成的指令生成推荐。这样既能利用 LLM 的强大推理能力，又避免了其高延迟。
指令遵循统一化: 将用户意图、场景信息等转化为显式的指令 (Instructions)，作为生成模型的输入条件。模型被训练来遵循这些指令，从而实现对生成过程的精细控制，并使得一个单一模型能够适应多种推荐任务和场景。
语义对齐: 引入机制确保指令与物品表示在语义空间中对齐。这通过 指令引导检索 (IGR) 来过滤用户历史行为，使其与当前意图高度相关；并通过 查询到物品损失 (Q2I loss) 强制指令嵌入与目标物品嵌入的一致性。
多场景适应与资源效率: 将场景信息编码为场景指令，并结合统一的奖励映射和 RL 策略优化 (SA-GCPO)，使单一模型能够学习在不同场景下优化不同的业务目标，实现了“一次训练，随处部署” 的高效范式。

4.2. 核心方法详解

4.2.1. 模型输入表示 (Section 2.2.1)

OxygenREC 采用编码器-解码器架构。编码器将用户侧输入映射到潜在空间，而解码器则在特定指令的条件下生成推荐序列。

编码器输入 ( $X_{enc}$ ): 编码器整合了三个关键输入源：
1. 用户画像 (User Profile): 捕捉用户的静态属性，如人口统计学信息。
2. 用户行为 (User Behavior): 进一步分为短期序列和长期序列。
  - 短期行为: 建模用户兴趣的实时演变。
  - 长期历史 (Long-term history): 通过指令引导检索 (Instruction-Guided Retrieval, IGR) 进行过滤。指令被用作查询，模型仅检索与当前意图相关的历史行为。这增强了指令的可控性，确保模型不会被旧的、不相关的历史数据分散注意力，同时提供了一种高效的方式来整合长期兴趣，使模型对用户有更深入的理解，而不会产生通常的计算延迟。
解码器输入 (Decoder Input): 解码器以编码后的用户表示 $X_{enc}$ 和一个复合指令提示 (composite instruction prompt) $P$ 为条件。这个提示整合了两个不同的信号：
1. 场景指令 ( $I_s$ ): 用于领域控制。
2. 上下文推理指令 ( $I_r$ ): 用于演绎意图指导。它们共同引导目标物品序列的自回归生成。

4.2.2. 多模态量化物品表示 (Section 2.2.2)

如图2(b)所示，OxygenREC 通过训练多模态物品编码器并离散化其输出来构建统一的词汇表。

编码器优化: 编码器通过大规模物品对上的对比学习 Item-to-Item (I2I) 目标 [45, 46] 进行优化，这些物品对来源于跨场景的共现行为。
物品表示: 每个物品由文本元数据和产品图像表示，分别由独立的编码器处理。
特征融合: 采用轻量级模块融合这些特征，其中模态特定的投影将输入映射到共享空间，随后由 Q-Former [34] 和 MLP 层处理，以建模跨模态交互。
离散化: 得到的256维嵌入通过 RQ-KMeans 方案 [22] 进行离散化。这个残差量化过程以从粗到细的方式为每个物品分配一个离散代码元组。模型采用深度为3的层次结构，每层词汇量大小为8,192，从而建立了一个紧凑且富有表达力的语义 ID 空间，专为自回归生成量身定制。

4.2.3. 上下文推理指令 (Section 2.2.3)

如图3所示，本节详细介绍了如何在避免在线 LLM 延迟的同时，将世界知识和演绎推理整合到推荐系统中。

$Figure 3: Overview of our Contextual Reasoning Instructions pipeline. Two parallel branches generate contextual instructions and reasons from spatiotemporal $^ +$ profile signals and recent user behavior sequences. In parallel, `L L M _ { Q R }` rewrites noisy or truncated recent queries, and all outputs are combined to form the final Instructions and Reasons for downstream generation$ 该图像是一个示意图，展示了上下文推理指令的生成流程。图中包含三条分支：第一条从时空和用户资料信号生成指令，第二条基于用户行为序列生成结果，第三条用于重写近期查询，最终汇集输出形成指令和推理结果。

Figure 3: Overview of our Contextual Reasoning Instructions pipeline. Two parallel branches generate contextual instructions and reasons from spatiotemporal $^ +$ profile signals and recent user behavior sequences. In parallel, L L M _ { Q R } rewrites noisy or truncated recent queries, and all outputs are combined to form the final Instructions and Reasons for downstream generation

核心目标是利用 LLMs 构建一个可控且可解释的中间指令层，作为原始用户行为与下游召回或推荐模型之间的显式语义桥梁，从而提高意图对齐和系统稳定性。

如图3所示，复杂的推荐信号被转换为基于多尺度指令的推理过程，将时空上下文、用户画像以及历史行为整合为文本指令和相应的推理原因。这种显式的文本建模增强了推荐决策的可解释性，并允许独立监控中间输出。

时空和用户画像推理 (Spatiotemporal and Profile Reasoning): 该模块旨在根据特定环境约束推断用户的隐式需求。它涵盖三个方面：
- 事件驱动推理 (Event-driven reasoning): 识别当前时间和地点的重要节假日或季节性特征，推断相关购物意图。
- 画像驱动推理 (Profile-driven reasoning): 利用用户的静态特征（如性别、年龄、消费能力）形成个性化的产品偏好结论。
- 时空融合推理 (Spatiotemporal Fusion reasoning): 结合当地文化与实时天气/时间，推断与特定本地化需求相关的意图（如冬至或降雨）。在实践中，使用 JoyAI LLM 生成这些指令，并根据“时间-地点-人物”三元组进行分层存储。在线请求时，使用当前时间、地点和用户画像作为索引快速检索并返回结果。
用户查询重写 ( $LLM_{QR}$ ) (User Query Rewrite): 真实的查询可能因语言噪音或输入截断而导致意图不完整或语义漂移（如“泡沫盒”或“葡萄酒礼品”）。本文提出了 $LLM_{QR}$ 进行语义补全和标准化。
- 训练数据: 包含两种类型——intent-preserving (保留意图的) 和 rewrite-required (需要重写的)。数据来源于从用户反馈中提取的真实数据和使用 DeepSeek-R1 [23] 生成的合成错误样本。
- 模型: 在 Qwen3-0.6B [3] 上进行监督微调 (supervised fine-tuning)。
- 效果: 在人工评估中，该模块的通过率达到 $95.33\%$ ，远优于基线 Vanilla DeepSeek-R1 ( $88.67\%$ )，确保了从原始用户需求到标准化、意图对齐指令的高质量转换。
用户意图推理 (User Intent Reasoning): 真实的搜索通常带有清晰而强烈的即时意图。给定用户行为序列和偏好信息，模型同时生成意图匹配的指令和其推理原因。添加推理理由不仅解释了推荐背后的逻辑，还有助于模型从嘈杂的行为中发现更深层次的动机，极大地提高了意图识别的准确性。
- 数据炼化和自动标注流程: 为了解决真实日志中缺乏显式推理理由标签的问题，设计了一个多 LLM 协同的数据炼化和自动标注流程。
  1. 首先，使用 $LLM_{QR}$ 将最终用户查询映射为标准化查询，然后使用 Qwen3-32B 进行聚合和去重，得到一个标准意图目标。
  2. 接下来，对于完整的行为序列，再次使用 Qwen3-32B 进行对齐过滤，只保留与目标意图强相关的子序列，从而去除噪音。
  3. 最后，基于过滤后的序列和意图目标，使用 DeepSeek-R1 自动生成推理理由作为训练的伪标签。
- 模型: 在 Qwen3-0.6B 上进行监督微调后，模型能够生成意图对齐的指令和理由，并在人工评估中达到 $72\%$ 的可用率。

4.2.4. 指令遵循统一预训练 (Section 2.3)

为了支持注入演绎知识和实现多场景适应的目标，预训练阶段侧重于以下四个组件：

双指令公式化 (Dual-Instruction Formulation): 定义推理指令 ( $I_r$ ) 以通过快慢思维机制注入演绎知识，并定义场景指令 ( $I_s$ ) 以使模型适应多样化的上下文。
带 IGR 的主干网络 (Backbone with IGR): 通过使用“慢”推理得到的意图来过滤“快”生成器所需的“原材料”（用户历史），从而强化快慢逻辑，提高准确性和效率。
异构数据混合 (Heterogeneous Data Mixture): 结合搜索数据和多样化的推荐流量，提供各种指令-标签对。这有助于指令遵循生成，并帮助主干网络适应应用程序中的各种场景。
多目标训练 (Multi-Objective Training): 结合多个目标，将指令与目标物品对齐，以有效控制生成过程。

4.2.4.1. 指令框架设计 (Section 2.3.1) 框架将推荐任务重新定义为指令遵循生成任务， $P(Y \mid X, I_s, I_r)$ 。通过训练模型遵循场景指令和推理指令，主干网络学习根据提供的上下文动态调整其生成分布。

4.2.4.2. 双指令公式化 (Section 2.3.2)

复合指令提示 (Composite Instruction Prompt): 实践中，指令提示由场景指令 ( $I_s$ ) 和上下文推理指令 ( $I_r$ ) 组成。
- $I_s$ 包含两个字段：场景信息和一个可选的触发物品 (trigger item)。
- $I_r$ 通过适配器 (adapter) 从其文本源投影的密集嵌入表示。
- 触发物品的可用性和 $I_r$ 的构建在不同场景以及训练和服务之间有所不同。
场景指令 ( $I_s$ ):
- 指定场景上下文，用于可控生成。包括：
  1. 场景信息 (scenario information): 适用于所有场景，可能包括场景 ID 以及目标场景的其他上下文信号。它引导生成风格和候选物品分布，因为不同场景可能有不同的物品池，用户在不同场景中也可能表现出不同的偏好。
  2. 可选触发物品 (optional trigger item): 仅在某些场景可用（如频道信息流的频道入口物品，或 I2I 推荐的主要物品）。在主页和搜索等场景中通常没有触发物品。
- $I_s$ 有助于单个主干网络通过调整生成风格和候选/物品分布来服务多个场景，而不是为每个场景训练和部署单独的模型。

上下文推理指令 ( $I_r$ ):

通过适配器（第2.3节）从文本指令（通过 LLM 管道合成的用户潜在意图）投影获得的密集嵌入。
在线推理时: 文本指令由近线 LLM 管道（第2.2.3节和图3）合成。
训练时: 为了有效增强模型的指令遵循能力，利用搜索数据中重写/标准化后的用户查询作为 $I_r$ 的自然文本源；对于文本指令不可用的推荐场景，使用默认的可学习指令嵌入。

目的: 搜索查询作为自然且高质量的指令标签数据源；同时，在在线服务中，当近线推理失败或延迟，导致 $I_r$ 可能缺失时，模型仍能根据 $I_s$ 和用户历史生成合理的推荐。

以下是原文 [Table 1] 的结果：

Scenario	Scenario Info	Trigger Item	Contextual Reasoning	Formulation
Search	✓	Zdef	query-derived	P( \| X, (, Zdef, Ir(q)
Homepage	✓	Zdef	default emb.	P(Y \| X, Is(s, Zdef), Idef)
Channel Feeds	✓	Zentry	default emb.	P( \| , (, Zentry), def)
Related Rec. (Item-to-Item)	✓	Zmain	default emb.	P(Y \| X, IS(S, main), def)

Table 1: Training signals and scenario-specific conditional formulations. Scenario information ( s ) is always available. The trigger item is denoted by $z$ (using ${ \it z } _ { \mathrm { d e f } }$ when absent). I _ { r } ( q ) denotes the contextual reasoning instruction embedding projected from the (rewritten/normalized) query, while $I _ { r } ^ { \mathrm { d e f } }$ denotes a default learnable embedding used when the textual instruction is unavailable in training.

4.2.4.3. 带 IGR 的生成主干网络 (Section 2.3.3) OxygenREC 采用类似于 OneRec [68] 的编码器-解码器架构，但通过使用指令提示 ( $I_s, I_r$ ) 作为条件输入来增强解码器。这使得模型能够自回归地生成明确由用户潜在意图和场景上下文引导的物品序列。

为了增强可控生成，确保用户历史上下文与这些指令一致。长期用户历史通常包含许多与用户当前意图不相关的交互。因此，指令引导检索 (IGR) 被引入，用于过滤历史记录并选择最能代表指令提示的交互。这确保了输入上下文与控制信号 ( $I_s, I_r$ ) 对齐，从而产生更精确的输出。如图2(a)所示，该机制由三个组件组成：

适配器 (Adapter): 将指令和物品投影到共享嵌入空间。
Q2I 对齐 (Q2I alignment): 使用真实标注数据 (ground-truth) 目标来监督训练期间的指令-物品相似度。
IGR: 在推理时执行 Top-K 检索，为解码器提供指令对齐的上下文。

适配器机制用于特征映射 (Adapter Mechanism for Feature Mapping): 为了进行基于相似度的检索，查询和历史物品必须在同一空间中可比较。然而，查询由 ( $I_s, I_r$ ) 驱动，而历史物品由物品 ID、辅助特征和文本描述。因此，使用适配器层 (adapter layers) [26] 将它们投影到共享嵌入空间。文本指令 $I_r^{text}$ 由第2.2.3节的近线管道生成，并由用于物品文本的相同文本编码器 $g(\cdot)$ 进行编码。嵌入定义如下： $\begin{array} { r l } & { \mathbf { e } _ { q } = \mathrm { Concat } \left[ \phi _ { \mathrm { scn } } ( I _ s ) , g ^ { \mathrm { train } } ( I _ r ^ { \mathrm { text } } ) \right] } \\ & { \mathbf { e } _ { t } = \mathrm { Concat } \left[ \phi _ { \mathrm { item } } ( \nu _ t ) , \phi _ { \mathrm { side } } ( u _ t ) , g ^ { \mathrm { train } } ( x _ t ) \right] } \\ & { \mathbf { e } _ { h } = \mathrm { Concat } \left[ \phi _ { \mathrm { item } } ( \nu _ h ) , \phi _ { \mathrm { side } } ( u _ h ) , g ^ { \mathrm { frozen } } ( x _ h ) \right] } \\ & { \mathbf { q } = \psi _ { q } ( \mathbf { e } _ { q } ) , \quad \mathbf { t } = \psi _ { i } ( \mathbf { e } _ { t } ) , \quad \mathbf { h } = \psi _ { i } ( \mathbf { e } _ { h } ) } \end{array}$ 符号解释:
- $\mathbf{e}_q$ : 查询的原始特征向量。
- $\mathrm{Concat}[\cdot]$ : 拼接操作。
- $\phi_{scn}(I_s)$ : 将场景信息 $I_s$ 投影到嵌入空间。
- $g^{train}(I_r^{text})$ : 训练阶段使用的文本编码器对文本推理指令 $I_r^{text}$ 进行编码。
- $\mathbf{e}_t$ : 目标物品的原始特征向量。
- $\phi_{item}(\nu_t)$ : 嵌入目标物品 ID $\nu_t$ 。
- $\phi_{side}(u_t)$ : 嵌入目标物品的辅助信息特征 $u_t$ 。
- $g^{train}(x_t)$ : 训练阶段使用的文本编码器对目标物品的文本描述 $x_t$ 进行编码。
- $\mathbf{e}_h$ : 历史物品的原始特征向量。
- $\phi_{item}(\nu_h)$ : 嵌入历史物品 ID $\nu_h$ 。
- $\phi_{side}(u_h)$ : 嵌入历史物品的辅助信息特征 $u_h$ 。
- $g^{frozen}(x_h)$ : 冻结的文本编码器对历史物品的文本描述 $x_h$ 进行编码。
- $I_s$ : 场景信息，包含场景 $s$ 和触发物品 $z$ (当 $z$ 不存在时使用默认值 $z_{def}$ )。
- $\psi_q$ : 查询 $\mathbf{e}_q$ 的投影网络，得到查询嵌入 $\mathbf{q}$ 。
- $\psi_i$ : 物品 $\mathbf{e}_t$ 和 $\mathbf{e}_h$ 的投影网络，得到目标物品嵌入 $\mathbf{t}$ 和历史物品嵌入 $\mathbf{h}$ 。
- $g^{train}(\cdot)$ 和 $g^{frozen}(\cdot)$ : 由于长期历史记录可能非常长，在训练期间不通过长期历史分支（包括 $g^{frozen}(x_h)$ ）反向传播梯度，以减少计算和通信开销。
Q2I 对齐 (Q2I Alignment): 为了使查询嵌入 $\mathbf{q}$ 和历史物品嵌入集合 $\{\mathbf{h}\}$ 可用于检索，将 $\mathbf{q}$ 与目标物品嵌入 $\mathbf{t}$ 对齐。目标物品 $\mathbf{t}$ 仅在训练期间可用，作为监督信号将查询锚定到物品空间中。由于 $\mathbf{t}$ 和历史物品都由相同的适配器 $\psi_i$ 投影，这种对齐确保了在目标物品缺失的在线服务时， $\mathbf{q}$ 可以用于检索相关的历史交互。具体来说，对于大小为 $B$ 的批次，包含标准化查询嵌入 $Q = \{q_1, ..., q_B\}$ 和标准化目标物品嵌入 $T = \{t_1, ..., t_B\}$ ，优化以下辅助目标： $\mathcal { L } _ { \mathrm { Q2I } } = \underbrace { - \frac { 1 } { B } \sum _ { i = 1 } ^ { B } q _ { i } \cdot t _ { i } } _ { \mathrm { A l i g n m e n t } } + \lambda _ { r } \underbrace { ( - \log \left[ \mathrm { V a r } ( \mathbf { Q } ) \cdot \mathrm { V a r } ( \mathbf { T } ) \right] ) } _ { \mathrm { R e g u l a r i z a t i o n } } + \lambda _ { d } \underbrace { \frac { 1 } { B ^ { 2 } - B } \sum _ { i \neq j } ( q _ { i } ^ { \top } q _ { j } ) ^ { 2 } } _ { \mathrm { D e c o r r e l a t i o n } }$ 符号解释:
- $\mathcal{L}_{\mathrm{Q2I}}$ : 查询到物品损失。
- $B$ : 批次大小。
- $q_i$ : 批次中第 $i$ 个样本的标准化查询嵌入。
- $t_i$ : 批次中第 $i$ 个样本的标准化目标物品嵌入。
- $q_i \cdot t_i$ : 查询嵌入和目标物品嵌入之间的点积，用于度量相似度。
- $\lambda_r$ : 正则化项的权重系数。
- $\mathrm{Var}(\mathbf{Q})$ : 批次中查询嵌入 $Q$ 的平均方差（跨嵌入维度）。
- $\mathrm{Var}(\mathbf{T})$ : 批次中目标物品嵌入 $T$ 的平均方差（跨嵌入维度）。
- $\log[\mathrm{Var}(\mathbf{Q}) \cdot \mathrm{Var}(\mathbf{T})]$ : 正则化项，旨在避免维度坍塌 (dimensional collapse)。
- $\lambda_d$ : 去相关项的权重系数。
- $q_i^\top q_j$ : 不同查询嵌入之间的点积。
- $\sum_{i \neq j} (q_i^\top q_j)^2$ : 去相关项，旨在减少嵌入冗余。正则化和去相关项有助于避免维度坍塌 (dimensional collapse) 和减少嵌入冗余 [61, 66]。
IGR (Instruction-Guided Retrieval): 在对齐的嵌入空间中，IGR 使用查询嵌入 $\mathbf{q}$ 从长期历史中检索 Top-K 个最相关的交互（在 $\psi_i$ 空间中）。这不仅减少了噪音和缩短了历史，IGR 还确保模型始终专注于用户当前请求，而不是被过去的习惯分散注意力。

4.2.4.4. 指令遵循预训练：数据混合、信号和目标 (Section 2.3.4)

数据混合 (Data Mixture): 预训练数据是搜索数据和多个推荐场景（如主页、频道信息流、I2I 相关推荐）的混合。这种设计有几个好处：
1. 能够统一建模用户在应用程序中的轨迹，因为真实用户旅程通常交织着浏览、频道入口、物品到物品探索和搜索。
2. 显著扩展了可用的监督信号量：在电商中，正反馈信号（如购买和加入购物车）通常比内容平台稀疏，整合搜索和推荐流量可提高覆盖率和数据效率。
3. 在有和没有上下文推理指令的场景上进行训练，提高了在线服务中指令缺失时的鲁棒性。
训练信号和场景特定公式化 (Training Signals and Scenario-Specific Formulation):
- 所有场景始终包含场景信息作为 $I_s$ 的一部分。
- 某些场景额外提供可选的触发物品（如频道入口物品或产品详情页/购物车中的主要物品）。
- 对于 $I_r$ ，只有搜索数据提供观测到的查询作为直接文本源；对于在训练期间近线指令不可用的推荐场景，使用默认的（可学习的）指令嵌入。
- 表1总结了由此产生的训练信号和场景特定条件公式。
联合学习目标 (Joint Learning Objectives): 训练目标结合了生成准确性与查询到物品对齐： $\mathcal { L } = \mathcal { L } _ { \mathrm { NTP } } + \lambda \mathcal { L } _ { \mathrm { Q2I } }$ 符号解释:
- $\mathcal{L}$ : 联合学习目标。
- $\mathcal{L}_{\mathrm{NTP}}$ : 加权下一词元预测损失 (Weighted Next Token Prediction loss)。
- $\lambda$ : Q2I 损失的权重系数。
- $\mathcal{L}_{\mathrm{Q2I}}$ : 查询到物品损失（如公式2所示）。
加权下一词元预测 ( $\mathcal{L}_{\mathrm{NTP}}$ ) (Weighted Next Token Prediction): 为了优先处理高价值的用户行为，通过加权 NTP 损失优化目标物品序列的自回归似然。对与转化相关的词元赋予更高的权重（例如，购买 > 购物车 > 点击）。

4.2.5. 多场景对齐后训练 (Section 2.4)

在后训练阶段，与之前在单一场景中进行微调的方法不同，OxygenREC 采用多场景建模方法。后训练主要包括两个组件：基于不同场景提供反馈信号的奖励映射系统，以及为不同场景的各种任务设计的基于 RL 的后训练过程。构建了一个真实的在线奖励映射系统，其中包含在线统一排序模型服务和其他多任务奖励。提出了 SA-GCPO，采用软自适应函数计算重要性采样权重，同时将真实用户行为的奖励分数作为区分正负优势样本的阈值。

OxygenREC 的后训练过程主要由三个模块组成：奖励服务、推理阶段和策略学习，如图4所示。

Figure 4: The post-training process of OxygenREC 该图像是OxygenREC的推理阶段与奖励服务的示意图。图中展示了不同场景的数据流向OxygenREC，结合用户信息和序列特征来生成推荐。模型通过统一排名模型获取奖励分数，并与策略学习算法（SFT和SA-GCPO）相结合，实现多场景下的有效推荐。

Figure 4: The post-training process of OxygenREC

对于多场景对齐，根据跨多个场景的用户历史画像和序列行为数据构建特征，然后将其输入到策略模型进行生成。在推理阶段，生成多个候选物品。使用统一的排序模型作为在线奖励服务，通过在线排序服务和其他基于规则的方法，根据请求的物品和用户信息返回一个分数。最后，进行监督微调 (SFT) 和强化学习 (RL) 进行策略学习。策略模型被更新，并重复此过程进行下一次迭代，直到模型收敛。

4.2.5.1. 多场景适应 (Section 2.4.2) 大多数当前的 GR 方法 [10, 39, 68, 69] 在后训练阶段为不同场景分别进行 SFT 和 RL。这些场景特定的训练过程随后与提供 RL 奖励信号的排序模型配对。然而，这种方法需要为每个场景开发和在线部署独立的 GR 模型和排序服务，成本高昂。为了解决这种低效率问题，OxygenREC 的奖励映射系统采用一个统一的排序模型作为集中式奖励模型服务。然后，它在来自各种场景的数据上进行集体后训练，这显著降低了训练和大规模在线部署相关的计算成本。为了在多样化场景中实现鲁棒性能，构建了一个场景感知奖励映射，如下所示：

场景感知奖励映射 (Scenario-Aware Reward Mapping): 如图2(d)所示，系统整合了 RL 阶段，使用针对特定推荐场景量身定制的奖励。总奖励分数是以下不同奖励的加权组合：
1. 格式奖励 (Format Reward): 惩罚结构错误，以确保有效的物品语义 ID 输出。
2. 相对奖励 (Relative Reward): 奖励与用户即时上下文和查询相关的物品（基于 Q2I 语义关系）。
3. 排序奖励 (Ranking Reward): 奖励最大化业务目标（如 GMV 或转化率）的序列。
4. 多样性奖励 (Diversity Reward): 评估 GR 模型生成的一组物品的多样性。
统一排序模型 (Unified Ranking Model): 本文开发了一个新颖的统一多场景排序模型 (unified multi-scenario ranking model)，作为奖励映射服务的核心，在多样化场景中提供一致的排序奖励。许多传统的多场景推荐模型，如 STAR [51] 和 PEPNet [9]，引入复杂的专业结构来缓解负迁移问题，并需要维护独立的模型实例或复杂的路由逻辑，导致高昂的运营和维护成本。为了解决 GR 中的这些问题，本文提出了一种针对离线训练和在线学习的统一列表式 (list-wise) 方法。通过从异构用户特征构建丰富的表示词元，并将其通过共享的基于 Transformer 的特征提取块进行处理，实现了全面的跨场景特征交互和一致的扩展效果，如图5所示。模型进一步整合了自适应建模机制，旨在解决输入特征异构性问题，从而全面增强其表示能力。

该图像是示意图，展示了传统单场景排名模型、传统多场景排名模型与统一排名模型之间的比较。左侧分别为单场景和多场景模型的特征提取结构，右侧则展示了统一模型的转换特征提取块。

Figure 5: Comparison of model architectures: traditional ranking models vs. our unified ranking model

通过标签打包策略 (label packing strategy) 构建多场景训练样本，将传统的点式 (point-wise) 样本转换为列表式 (list-wise) 样本。这些样本根据用户的请求序列按时间顺序排列，并在训练期间应用定制的因果掩码 (causal masking) 机制，以明确建模用户行为轨迹。通过显式行为轨迹建模，系统可以在整个用户路径中最大化转化收益，同时提高多个位置联合推荐的效率。与现有方法相比，所提出的统一排序模型在不同场景和任务中表现出更一致的扩展效果。

4.2.5.2. 强化学习 (Section 2.4.3) 后训练阶段的偏好对齐对于增强模型性能至关重要。许多研究 [23] 采用 GRPO 进行策略学习。OneRec-v1 [68] 提出了 ECPO，它通过剪辑具有大比例的策略来确保训练稳定性。OneRec-v2 [69] 截断边界内的梯度以解决负样本引起的不稳定性。然而，在 OxygenREC 的场景中，由于需要跨多个环境进行统一训练，训练不稳定性问题变得更加突出。此外，由于奖励映射涉及来自格式、相对和排序奖励等多种任务的分数，大多数现有方法采用的硬剪辑策略通常导致样本效率低下和梯度不连续。最近，一些语言建模工作 [21] 采用了平滑门控函数而非硬剪辑来维持训练稳定性。通过利用软门控函数，梯度可以平滑衰减，在确保稳定性的同时保留更多学习信号。

软自适应组剪辑策略优化 (Soft Adaptive Group Clip Policy Optimization, SA-GCPO): 本文提出了 SA-GCPO，采用软自适应方法计算重要性采样 (importance sampling) 权重，同时还将真实用户行为的奖励分数作为区分正负优势样本 (advantage samples) 的阈值。进一步采用非对称温度控制机制，分别对正负优势样本应用不同的温度系数。这种设计加速了负样本的梯度衰减，从而缓解了梯度扩散和训练不稳定性问题。与 [21] 采用优势值符号区分正负优势样本不同，本文提出了基于真实用户反馈定义正负优势样本的方法。在大多数用于 LLM 推理和数学任务的 RLVR 方法 [23, 32, 56] 中，奖励通常具有明确的正负定义。然而，由于 OxygenREC 中奖励设计的多场景和多任务性质，仅仅依靠优势值的符号是不够的。为了解决这个问题，引入了来自真实用户反馈的奖励分数作为定义正负优势的阈值，并随后应用不同的温度系数。这种方法使得在多场景、多任务后训练期间能够明确定义正反馈样本。本文提出的 SA-GCPO 总结如下：给定每个样本 $x \sim D$ ，对于从行为策略 $\pi_{\theta_{old}}$ 为样本 $x$ 生成的一组物品 $\{y_i\}_{i=1}^G$ ，本文提出的 SA-GCPO 采用以下优化目标： $\mathcal { J } _ { \mathrm { SA-GCPO } } ( \theta ) = \mathbb { E } _ { x \sim D , \{ y _ { i } \} _ { i = 1 } ^ { G } \sim \pi _ { \theta _ { \mathrm { o l d } } } ( \cdot | x ) } \left[ \frac { 1 } { G } \sum _ { i = 1 } ^ { G } \frac { 1 } { \left| y _ { i } \right| } \sum _ { t = 1 } ^ { \left| y _ { i } \right| } f _ { i , t } ( r _ { i , t } ( \theta ) ) \Gamma ^ { \mathrm { a d v } } ( \widehat { A } _ { i , t } , R _ { g } ^ { * } ) \right]$ 符号解释:
- $\mathcal{J}_{\mathrm{SA-GCPO}}(\theta)$ : SA-GCPO 的优化目标函数，其中 $\theta$ 是当前策略的参数。
- $\mathbb{E}[\cdot]$ : 期望。
- $x \sim D$ : 样本 $x$ 从数据集 $D$ 中采样。
- $\{y_i\}_{i=1}^G \sim \pi_{\theta_{old}}(\cdot | x)$ : 从旧策略 $\pi_{\theta_{old}}$ 中生成的一组 $G$ 个物品序列 $\{y_i\}$ ，给定样本 $x$ 。
- $G$ : 每个样本 $x$ 生成的物品数量。
- $|y_i|$ : 物品序列 $y_i$ 的长度。
- $f_{i,t}(r_{i,t}(\theta))$ : 软自适应函数，应用于词元级别的重要性比率 $r_{i,t}(\theta)$ 。
- $\Gamma^{\mathrm{adv}}(\widehat{A}_{i,t}, R_g^*)$ : 阈值函数，用于区分正负优势样本。
- $\widehat{A}_{i,t}$ : 第 $i$ 个物品序列中第 $t$ 个词元的标准化优势值。
- $R_g^*$ : 该组中目标物品的奖励分数。
  
  其中 $r_{i,t}(\theta)$ 代表词元级别的重要性比率，定义如下： $r _ { i , t } ( \theta ) = \frac { \pi _ { \theta } ( y _ { i , t } \mid x , y _ { i , < t } ) } { \pi _ { \theta _ { \mathrm { o l d } } } ( y _ { i , t } \mid x , y _ { i , < t } ) }$ 符号解释:
- $r_{i,t}(\theta)$ : 第 $i$ 个物品序列中第 $t$ 个词元的重要性比率。
- $\pi_{\theta}(y_{i,t} \mid x, y_{i,<t})$ : 当前策略 $\pi_{\theta}$ 在给定样本 $x$ 和前 t-1 个词元 $y_{i,<t}$ 的情况下，生成第 $t$ 个词元 $y_{i,t}$ 的概率。
- $\pi_{\theta_{old}}(y_{i,t} \mid x, y_{i,<t})$ : 旧策略 $\pi_{\theta_{old}}$ 在给定样本 $x$ 和前 t-1 个词元 $y_{i,<t}$ 的情况下，生成第 $t$ 个词元 $y_{i,t}$ 的概率。
  
  在公式4中， $f_{i,t}(\rho)$ 表示软自适应函数： $f _ { i , t } ( \rho ) = \sigma \left( \tau _ { i , t } ( \rho - 1 ) \right) \cdot \frac { 4 } { \tau _ { i , t } } , \tau _ { i , t } = \left\{ \begin{array} { l l } { \tau _ { \mathrm { p o s } } , } & { \Gamma ^ { \mathrm { a d v } } ( \widehat { A } _ { i , t } , R _ { g } ^ { * } ) > 0 , } \\ { \tau _ { \mathrm { n e g } } , } & { \mathrm { o t h e r w i s e } , } \end{array} \right.$ 符号解释:
- $f_{i,t}(\rho)$ : 软自适应函数，其中 $\rho$ 为重要性比率 $r_{i,t}(\theta)$ 。
- $\sigma(z) = 1 / (1 + e^{-z})$ : Sigmoid 函数。
- $\tau_{i,t}$ : 温度参数，根据优势样本的类型动态设置。
- $\tau_{\mathrm{pos}}$ : 正优势样本的温度参数。
- $\tau_{\mathrm{neg}}$ : 负优势样本的温度参数。
- $\Gamma^{\mathrm{adv}}(\widehat{A}_{i,t}, R_g^*) > 0$ : 判断优势样本是否为正的条件。其梯度权重 $w_{i,t}(\boldsymbol{\theta})$ 由下式给出： $w _ { i , t } ( \theta ) = 4 p _ { i , t } ( \theta ) \left( 1 - p _ { i , t } ( \theta ) \right) , \quad p _ { i , t } ( \theta ) = \sigma \left( \tau _ { i , t } \left( r _ { i , t } ( \theta ) - 1 \right) \right)$ 符号解释:
- $w_{i,t}(\theta)$ : 梯度权重，取决于 $p_{i,t}(\theta)$ 。
- $p_{i,t}(\theta)$ : 经过 sigmoid 函数处理的重要性比率，与 $\sigma(\tau_{i,t}(r_{i,t}(\theta)-1))$ 等价。当 $r_{i,t}(\theta) = 1$ 时达到峰值，并随着 $r_{i,t}(\theta)$ 的偏离而平滑衰减，实现了 $r_{i,t}(\theta)$ 的软信任区域。
公式4中的 $\Gamma^{\mathrm{adv}}$ 表示用于区分 $\widehat{A}_{i,t}$ 的正负优势样本的阈值函数，定义如下： $\Gamma ^ { \mathrm { a d v } } ( \widehat { A } _ { i , t } , R _ { g } ^ { * } ) = \left\{ \begin{array} { l l } { 0 , } & { \widehat { A } _ { i , t } > 0 \mathrm { a n d } R _ { i } < R _ { g } ^ { * } , } \\ { \widehat { A } _ { i , t } , } & { \mathrm { o t h e rw i s e } , } \end{array} \right.$ 符号解释:
- $\Gamma^{\mathrm{adv}}(\widehat{A}_{i,t}, R_g^*)$ : 阈值函数，用于根据实际用户反馈定义的奖励分数 $R_g^*$ 来筛选优势样本。
- $\widehat{A}_{i,t}$ : 第 $i$ 个物品序列中第 $t$ 个词元的标准化优势值。
- $R_i$ : 物品 $y_i$ 的奖励分数。
- $R_g^*$ : 该组中目标物品的奖励分数。
- 当 $\widehat{A}_{i,t} > 0$ 且 $R_i < R_g^*$ 时，该优势样本被视为无效并设为0，这防止了在非最佳奖励情况下，即使优势为正也进行更新。
  
  $\widehat{A}_i$ 是物品 $y_i$ 的标准化优势，计算方式为： $\widehat { A } _ { i , t } = \widehat { A } _ { i } = \frac { R _ { i } - \mathrm { mean } ( \{ R _ { i } \} _ { i = 1 } ^ { G } ) } { \mathrm { std } ( \{ R _ { i } \} _ { i = 1 } ^ { G } ) }$ 符号解释:
- $\widehat{A}_{i,t}$ : 第 $i$ 个物品序列中第 $t$ 个词元的标准化优势值，与序列级别的优势 $\widehat{A}_i$ 相同。
- $R_i$ : 物品 $y_i$ 的奖励分数。
- $\mathrm{mean}(\{R_i\}_{i=1}^G)$ : 该组中所有物品奖励分数的平均值。
- $\mathrm{std}(\{R_i\}_{i=1}^G)$ : 该组中所有物品奖励分数的标准差。
  
  该方法的主要优势包括：
- 自适应平滑门控 (Adaptive smooth gating): 用连续的基于 Sigmoid 的门控函数取代硬剪辑函数，减少优化噪音并增强训练稳定性。
- 以真实用户反馈作为正/负优势的阈值 (Real user feedback as threshold for pos/neg advantages): 奖励分数来源于用户的真实反馈，用作区分正负优势样本的阈值，从而缓解 RL 训练过程中的奖励欺骗 (reward hacking) 问题。
- 非对称温度控制 (Asymmetric temperature control): 为 $\tau_{\mathrm{neg}}$ 和 $\tau_{\mathrm{pos}}$ 使用不同的温度设置，以更快地衰减负词元梯度，提高稳定性。
- 序列级一致性 (Sequence-level coherence): 由于 SID 代表单个物品，SA-GCPO 简化为类似于 GSPO [67] 的平滑序列级门控，但没有突兀的剪辑。

4.3. 系统实现与优化 (Section 3)

4.3.1. 统一训练框架 (Section 3.1)

OxygenREC 的训练面临独特的工程挑战，需要同时处理 TB 级的稀疏嵌入（推荐系统典型）和 $B$ 级的密集参数（LLM 典型）。传统框架存在鸿沟：TensorFlow 擅长稀疏优化但缺乏成熟的 LLM 支持，而 PyTorch 主导 LLM 训练但不适用于工业级嵌入。为弥合这一差距，本文提出了一个基于 PyTorch [35] 的统一训练框架，集成了工业级稀疏和密集引擎。训练在一个拥有128块 NVIDIA H800 GPU 的生产集群上进行，利用 400GB/s NVLink 和 8*200Gb/s RoCEv2 RDMA 进行高性能互连。通过以下关键优化，实现了 40% 的总模型 FLOPs 利用率 (MFU)。

分布式稀疏优化 (Distributed Sparse Optimization): 设计了一个大规模分布式稀疏引擎，在 PyTorch 中高效处理海量嵌入表。它实现了嵌入在工作节点之间非重叠分区策略 (non-overlapping partition strategy)，并结合了层次化 HBM-MEM 缓存 (hierarchical HBM-MEM caching)。建立了多阶段管道 (multi-stage pipeline) 以隐藏嵌入访问的固有延迟。为避免嵌入陈旧 (embedding staleness)，实现了双缓冲机制 (dual-buffer mechanism) 以提供强一致性保证。这些优化将稀疏操作的时间占比从 15% 减少到 5%，并实现了比最先进的开源嵌入解决方案 1.1-2.4 倍的加速。
算子级加速 (Operator-Level Acceleration): 对于 LLM 主干网络，集成了成熟的优化，包括 BF16 混合精度训练 [31] 和 ZeRO [47] 以提高内存效率。还采用了先进的注意力机制 [17, 49] 和高效架构 [19, 50]。然而，标准注意力实现（如 FlashAttention）不适用于生成式推荐所需的混合掩码模式。为解决此问题，开发了一个专用的注意力加速库。通过利用 CUTLASS [57] 和 TileLang [59] 进行自定义内核编译，训练框架支持灵活的掩码配置，并实现了比 FlexAttention [18] 和 torch.compile [2] 分别快 1.7 倍和 3.0 倍的加速。
场景感知强化学习 (Scenario-Aware Reinforcement Learning): 后训练 RL 阶段涉及独特的工作流设计和模型特性，特别是在处理大规模稀疏参数和多场景定制方面。在 Ray [42] 之上构建了定制的 RL 工作流。在协同部署模式下，启用了稀疏表的共享内存访问，以消除冗余复制，确保在高吞吐量样本生成阶段的有效同步。

4.3.2. 基于 `xLLM` 的推理优化 (Section 3.2)

GR 集成了 LLMs 以增强序列理解，但其推理工作负载与标准 LLM 服务显著不同。GR 通常处理长用户历史提示，同时在较大的束宽（例如， $beam size = 256–512$ ）下生成相对较短的输出。这种设置使得解码成为主要瓶颈：除了活跃假设数量增加外，大束解码在候选排序和随机采样方面产生了大量的额外开销，并且与标准贪婪采样相比，它放大了 KV 缓存容量/流量压力和内存访问效率低下问题。为了满足严格的服务水平目标 (Service Level Objectives, SLOs)，开发了 xGR [4]，一个基于高性能 xLLM 框架 [38] 构建的专用服务系统。xGR 采用紧密耦合的三层架构来最大化硬件效率：

xSchedule (系统级): 一个复杂的调度器，管理任务并行性。它实现了批处理、请求处理和内核执行之间的细粒度管道重叠，确保高 GPU 利用率。
xAttention (算子级): 基于 xLLM 的 PagedAttention 构建，该模块针对 GR 的注意力模式（例如，长提示 + 短解码，混合掩码）进行了进一步定制。它加强了 KV 缓存管理，并引入了分阶段计算分配，以更好地匹配大束解码工作负载。
xBeam (算法级): 一个专门模块，旨在处理大束解码的海量排序开销，并支持在数十亿级物品空间上的高级采样策略。
OxygenREC 的深度定制 (Deep Customization for OxygenREC): 利用上述架构，对 OxygenREC 实施了关键优化：
1. 专门的束搜索和采样 (Specialized Beam Search & Sampling): 与优先确定性输出的标准 NLP 任务不同，推荐需要平衡准确性和多样性。xBeam 实现了一个高度优化的 Beam Sample 内核，高效地将 top-k 选择与核/多项式采样相结合。它采用算子级融合来处理随机性，而不会导致性能下降，显著减少了与香草 (vanilla) 实现相比的解码延迟。
2. 前缀约束解码 (Prefix-Constrained Decoding): 为了强制执行场景特定规则，将特里树索引机制 (Trie Index mechanism) 集成到推理循环中。这个轻量级索引在每个步骤动态生成逻辑掩码，保证在指定物品池内的 100% 生成合法性，而运行时开销可忽略不计。

4.3.3. 推理指令的推理部署 (Section 3.3)

本文采用近线更新机制，以在推荐信号的及时性和系统总开销之间实现平衡。部署架构由两个级联组件组成：基于 LLM 的指令生成服务和基于适配器的文本编码器服务。 LLM 指令模型在近线环境中运行，通过使用时空上下文和用户行为历史合成自然语言推理指令。这些指令不是在用户请求时在线生成的；相反，它们是批量生成的。随后的适配器文本编码器将每个文本指令转换为密集嵌入向量。此嵌入通过用户 ID 进行索引，并存储在低延迟的键值存储（例如，Redis 集群）中，以供下游生成式推荐器实时使用。为了确保指令的及时性，采用了两种更新策略：

每日全量刷新 (Daily full refresh): 一个离线作业每天为所有活跃用户重新生成时空和行为指令，整合最新的上下文信号（例如，季节、位置）和累积的交互。
近线增量更新 (Near-line incremental update): 当用户执行高价值操作（例如，有效搜索、浏览、加入购物车或购买）时，系统会触发近实时指令更新。为防止突发交互导致的过度写入压力和系统不稳定，采用了时间窗口聚合策略 (time-window aggregation strategy)：在短滑动窗口（例如，5分钟）内，来自同一用户的多个行为事件被合并为统一的意图摘要，并且只在窗口结束时执行单次指令重新生成和存储写入。这种设计在保持信号响应性的同时，显著减少了后端负载。

在在线推理期间，生成式推荐模型只需通过用户 ID 检索预计算的指令嵌入，从而实现零在线 LLM 调用、低延迟服务和最终推荐中的高语义保真度。

5. 实验设置

5.1. 数据集

论文中没有明确指出使用了特定的公开数据集名称，但描述了预训练数据是一个混合数据集，包含搜索数据 (search data) 和多个推荐场景 (multiple recommendation scenarios) 的数据。这些场景包括：

主页 (Homepage): 大流量，通常用于被动浏览，意图不明确。
频道信息流 (Channel Feeds): 用户通过特定类别或物品主动进入，具有一定主题一致性。
I2I 相关推荐 (Item-to-Item related recommendations): 基于用户已浏览或互动过的物品进行推荐。

这些数据在 JD.com 的核心推荐场景中收集，涵盖了用户在应用程序中的完整轨迹，包括浏览、频道入口、物品到物品探索和搜索。数据混合旨在提供丰富的指令-标签对，并应对电商平台中正反馈信号（如购买和加入购物车）相对稀疏的问题。

5.2. 评估指标

论文中使用了多种评估指标，包括模型评估指标、语义 ID 评估指标和在线 A/B 测试指标。

5.2.1. 模型评估指标 (Model Evaluation Metrics)

命中率@K (HitRate@K, HR@K)
- 概念定义: HR@K 量化了生成过程的精确度，衡量了在 Top-K 束搜索假设中，生成的候选序列与真实标注数据语义 ID 序列在所有层次代码级别上严格对齐的测试实例比例。它关注模型生成完全正确序列的能力。
- 数学公式: $\mathrm{HR@K} = \frac{1}{|U|} \sum_{u \in U} \mathbb{I}(\text{ground-truth item } \in \text{top-K generated items for } u)$
- 符号解释:
  - $U$ : 所有用户的集合。
  - $|U|$ : 用户总数。
  - $\mathbb{I}(\cdot)$ : 指示函数，当括号内的条件为真时返回1，否则返回0。
  - $\text{ground-truth item}$ : 用户的真实交互物品。
  - $\text{top-K generated items for } u$ : 模型为用户 $u$ 生成的 Top-K 推荐物品列表。
召回率@K (Recall@K)
- 概念定义: Recall@K 评估模型覆盖用户相关兴趣的能力。它计算用户每日正向交互中，在 Top-K 生成候选物品中成功识别的比例，相对于该天所有观测到的用户行为。它关注模型捕捉所有相关物品的能力。
- 数学公式: $\mathrm{Recall@K} = \frac{\sum_{u \in U} |\text{true positives for } u \text{ in top-K}|}{\sum_{u \in U} |\text{all relevant items for } u|}$
- 符号解释:
  - $U$ : 所有用户的集合。
  - $\text{true positives for } u \text{ in top-K}$ : 对于用户 $u$ ，在 Top-K 生成的物品中，实际是用户感兴趣的物品数量。
  - $\text{all relevant items for } u$ : 对于用户 $u$ ，在给定时间内所有实际感兴趣的物品数量。

5.2.2. 语义ID评估指标 (Semantic ID Evaluation Metrics)

语义ID码本覆盖率 (SID Codebook Coverage)
- 概念定义: 该指标评估层次化语义空间利用效率。它衡量在每个量化级别上联合路径的占用率，而非简单的代码使用情况。具体来说，对于给定深度 $L$ ，覆盖率定义为唯一代码元组 $(c_1, \ldots, c_L)$ 的数量与理论总空间（即 $|V|^L$ ，其中 $|V|$ 是码本宽度）之比。这反映了 SKU (库存量单位) 如何有效填充呈指数增长的组合空间。
- 数学公式: $\mathrm{Codebook Coverage@L} = \frac{|\{(c_1, \ldots, c_L) \mid \exists \text{SKU assigned to this tuple}\}|}{|V|^L}$
- 符号解释:
  - $L$ : 量化深度（例如，1, 2, 3）。
  - $(c_1, \ldots, c_L)$ : 一个唯一代码元组。
  - $|\{(c_1, \ldots, c_L) \mid \exists \text{SKU assigned to this tuple}\}|$ : 被至少一个 SKU 占用的唯一代码元组的数量。
  - $|V|$ : 码本宽度（每层词汇量大小）。
  - $|V|^L$ : 理论上在深度 $L$ 可以组成的总代码元组数量。
语义簇纯度 (Semantic Cluster Purity)
- 概念定义: 该指标评估学习到的语义簇与人工定义分类法之间的一致性。它通过衡量每个语义 ID 对应 SKU 集中主要类别的平均主导性来计算。较高的纯度分数表明语义 ID 有效捕获了高级类别语义（例如，分组在特定语义 ID 下的 SKU 始终属于“电子产品”类别，而不是不相关类别的混合）。
- 数学公式: $\mathrm{Cluster Purity} = \frac{1}{N_{SID}} \sum_{sid \in \text{All SIDs}} \max_{c \in \text{Categories}} \frac{|\{\text{SKU} \mid \text{SKU assigned to } sid \text{ and SKU category is } c\}|}{|\{\text{SKU} \mid \text{SKU assigned to } sid\}|}$
- 符号解释:
  - $N_{SID}$ : 唯一语义 ID 的数量。
  - $\text{All SIDs}$ : 所有唯一的语义 ID 集合。
  - $\text{Categories}$ : 所有商品类别的集合。
  - $|\{\text{SKU} \mid \text{SKU assigned to } sid \text{ and SKU category is } c\}|$ : 分配给特定语义 ID sid 且属于类别 $c$ 的 SKU 数量。
  - $|\{\text{SKU} \mid \text{SKU assigned to } sid\}|$ : 分配给特定语义 ID sid 的总 SKU 数量。
  - $\max_{c \in \text{Categories}} (\cdot)$ : 在所有类别中取最大比例，表示该 SID 下主要类别的占比。
语义ID碰撞 (Semantic ID Collision)
- 概念定义: 该指标量化了语义标识符在数十亿 SKU 池中区分单个物品的判别能力。它通过每个唯一 SID 元组的物品基数 (item cardinality) 分布来衡量。报告关键分位数（例如，P90、P99）的 SKU 计数。在这些上分位数处较低的 SKU 计数表示更精细的粒度，意味着语义 ID 序列提供了更接近唯一物品标识符的精确表示。
- 数学公式: 通常通过统计每个 SID 对应的 SKU 数量，并报告其分布的分位数（如P90、P99、P999）来衡量。例如，P99 Collision = 在99%的 SID 元组中，每个 SID 元组关联的 SKU 数量的最大值。
- 符号解释:
  - P90, P99, P999: 分位数，例如 P90 表示有90%的 SID 元组关联的 SKU 数量小于等于该值。数值越低越好。
码本负载均衡 (Codebook Load Balance)
- 概念定义: 该指标衡量物品在量化码本中分布的均匀性。它量化了实际簇大小（分配给特定代码的 SKU 数量）与理论均匀分布（总 SKU 数量 / 码本大小）的偏差。通过检查各个分位数处的比率，评估 RQ-KMeans 过程是否有效地利用了码本的全部容量，或者是否存在模式坍塌 (mode collapse)（某些特定代码被过度利用而其他代码未被充分利用）。
- 数学公式: $\mathrm{Load Balance (P_q)} = \frac{\text{q-th percentile of actual cluster sizes}}{\text{Theoretical uniform cluster size}} \times 100\%$ 其中， $\text{Theoretical uniform cluster size} = \frac{\text{Total SKUs}}{\text{Codebook Size}}$ 。
- 符号解释:
  - $\mathrm{P_q}$ : q-th 分位数（例如，P25、P75、P90）。
  - $\text{actual cluster sizes}$ : 每个代码（或代码元组）所包含的 SKU 数量。
  - $\text{Theoretical uniform cluster size}$ : 如果物品均匀分布，每个代码应该包含的 SKU 数量。
  - 接近 100% 表示负载均衡性越好。

5.2.3. 在线A/B测试指标 (Online A/B Test Metrics)

用户点击率 (User Click-Through Rate, UCTR)
- 概念定义: 衡量用户在推荐系统曝光后点击推荐物品的比例。反映了推荐内容对用户的吸引力。
- 数学公式: $\mathrm{UCTR} = \frac{\text{Unique User Clicks}}{\text{Unique User Exposures}}$
- 符号解释:
  - $\text{Unique User Clicks}$ : 发生点击行为的独立用户数量。
  - $\text{Unique User Exposures}$ : 接收到推荐曝光的独立用户数量。
用户转化率 (User Conversion Rate, UCTCVR)
- 概念定义: 衡量用户在点击推荐物品后完成特定转化行为（如加入购物车、购买）的比例。反映了推荐物品的质量和匹配度。
- 数学公式: $\mathrm{UCTCVR} = \frac{\text{Unique User Conversions}}{\text{Unique User Clicks}}$
- 符号解释:
  - $\text{Unique User Conversions}$ : 发生转化行为的独立用户数量。
  - $\text{Unique User Clicks}$ : 发生点击行为的独立用户数量。
订单量 (Order Volume)
- 概念定义: 衡量由推荐系统促成的订单总数量。是直接衡量业务增长的重要指标。
- 数学公式: 直接统计订单数量，无标准公式。
商品交易总额 (Gross Merchandise Value, GMV)
- 概念定义: 衡量由推荐系统促成的所有交易的商品总价值。是衡量业务收入增长的核心指标。
- 数学公式: 直接统计交易总价值，无标准公式。
延迟 (Latency)
- 概念定义: 衡量推荐系统从接收请求到返回推荐结果所需的时间。对用户体验和系统吞吐量至关重要，工业应用要求严格的低延迟。
- 数学公式: 通常以毫秒 (ms) 为单位报告，无标准公式。

5.3. 对比基线

论文在不同实验中使用了多种对比基线：

语义 ID 演进 (Semantic ID Evolution):
- V1 Semantic ID (Textual Baseline): 纯文本语义离散表示。
- V2 Semantic ID (Multimodal & Behavioral): 引入多模态和行为对齐，使用 MiniCPM-V-8B。
- V3 Semantic ID (Advanced Fusion Architecture): 升级到 Qwen3 和 CLIP 融合架构。
- V4 Semantic ID (Multi-Source Alignment): 最先进版本，使用 Qwen3 和 CLIP-ViT 融合主干网络，通过多源监督增强对比学习。
生成主干网络架构消融 (Generative Backbone Architecture Ablation):
- 不同规模的模型版本，从 0.1B 到 3.0B 参数，通过调整编码器/解码器层数、模型维度和 MoE 配置来构建。
指令词元集成策略 (Instruction Token Integration Strategies):
- No Instruction (Baseline): 不使用指令。
- Replace BOS: 指令替换 BOS (Begin-Of-Sequence) 标记。
- Add to BOS: 指令与 BOS 标记进行元素级求和。
- Insert Left of BOS: 指令插入到 BOS 标记的左侧。
- Insert Right of BOS: 指令插入到 BOS 标记的右侧。
指令组件消融 (Instruction Component Ablation):
- No Instruction (Baseline): 不使用指令。
- Scenario ID Only: 仅使用场景 ID。
- Trigger Item ID Only: 仅使用触发物品 ID。
- Concatenated (Scenario + Trigger): 场景 ID 和触发物品 ID 拼接。
- Fused (Scenario + Trigger): 场景 ID 和触发物品 ID 融合为一个表示。
IGR 消融 (IGR Ablation):
- Base Model (w/o IGR/Q2I): 不使用 IGR 和 Q2I。
- + IGR Only: 仅引入 IGR。
- + IGR+Q2I (Full): 同时使用 IGR 和 Q2I。
统一指令遵循模型 vs. 独立 SFT 基线 (Unified Instruction-Following Model vs. Independent SFT Baselines):
- Independent SFT: 为每个场景独立进行 SFT 训练的模型。
- Unified Model: OxygenREC 的统一指令遵循模型。
SA-GCPO 方法对比 (SA-GCPO Methods Comparison):
- OxygenREC-0.7B-GRPO [23]: 使用 GRPO 进行策略学习。
- OxygenREC-0.7B-GSPO [67]: 使用 GSPO 进行策略学习。
- OxygenREC-0.7B-SA-GCPO: OxygenREC 提出的 SA-GCPO 方法。
在线 A/B 测试 (Online A/B Test):
- Existing production baseline: 现有的生产环境推荐系统。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 轻量级多模态设计 (Lightweight Multimodal Design)

通过系统分析多模态编码器设计，作者发现纯文本编码器 Qwen3 [3, 63] 的表现显著优于其他多模态替代方案。这促使他们最终的模型设计采用 Qwen3 文本编码器和 CLIP [45] 图像编码器独立提取文本和视觉表示，然后通过专门的融合模块（由 Q-Former 层和 MLP 层组成）进行联合融合和压缩。与简单替换多模态主干网络相比，这种专注于融合架构本身的设计使得 HitRate@1 相对提升了 30% 以上，同时嵌入推理速度提升了高达 32 倍。这一发现强调了在推荐场景中，轻量级高效的融合架构在性能和效率方面的重要性。

6.1.2. 语义 `ID` 演进 (Semantic ID Evolution)

以下是原文 [Table 2] 的结果：

Metric		V1 (Textual)	V2 (MiniCPM)	V3 (Fusion)	V4 (Multi-Source)
Codebook Coverage (↑)	Codebook1	100%	100%	100%	100 %
	Codebook2	72.33%	31.22%	70.03%	69.56%
	Codebook3	2.74%	0.013%	0.14%	0.15 %
Cluster Purity (↑)	Cate1	86.30%	83.31%	84.38%	92.80 %
	Cate2	73.45%	66.80%	70.35%	79.90%
	Cate3	53.68%	41.99%	48.41%	59.73%
SID Collision (↓)	P90	10	6	2	2
	P99	79	21	9	9
	P999	419	73	34	35
Load Balance (→ 100%)	P25	32.49%	88.53%	89.25%	89.92%
	P75	144.22%	114.66%	107.39%	105.40%
	P90	212.84%	122.14%	118.60%	118.09%

Table 2: Detailed Evaluation of Semantic ID Versions.
Note: ↑: Higher is better; $\downarrow$ Lower is better; $1 0 0 \%$ : Closer to $100 \%$ is better.

表2展示了语义 ID 版本演进的详细评估，表明了向更高表达能力和稳定性的明确趋势。

V1 (Textual): 文本基线，尽管码本覆盖率看起来很高，但这主要是因为其码本尺寸显著更小（2048 vs. 8192），从根本上限制了其分辨率能力——这一点从其糟糕的 P999 碰撞计数 419 可以看出。
V2 (MiniCPM): 在更深层级（L3 仅 0.013%）的覆盖率较低，表明存在部分码本坍塌 (codebook collapse)。
V3 (Fusion) 和 V4 (Multi-Source): 成功解决了这些问题，利用鲁棒的多模态对齐。
V4 (Multi-Source): 实现了最先进的性能：
- 最高的簇纯度 (Cluster Purity): 92.80%（在 Cate-L1），通过注入显式类别语义实现。
- 卓越的 SID 碰撞 (SID Collision): 将 P999 碰撞减少到仅 35，确保了细粒度的物品区分。
- 最佳的负载均衡 (Load Balance): P90 为 118.09%，证实了多源对比学习范式有效地最大化了高维潜在空间的利用率和均匀性。

6.1.3. 生成主干网络架构消融 (Generative Backbone Architecture Ablation)

以下是原文 [Table 3] 的结果：

Model Size (Tot/Act)	Enc Layers	Dec Layers	Dim (Hidden/Inter)	Experts (Tot/Act)
0.1B / 0.1B	4	4	1024/512	2/1
0.4B / 0.3B	4	6	2048/1024	4/2
0.7B / 0.4B	4	8	2048/1024	8/2
1.5B / 0.4B	4	8	2048/1024	24/2
3.0B / 0.6B	4	16	2048/1024	24/2

Table 3: Model Configurations for Generative Backbone Ablation.

以下是原文 [Table 4] 的结果：

Model Size (Tot)	HR@1	HR@10	Recall@10	Recall@30
0.1B	3.99%	13.17%	10.10%	15.11%
0.4B	4.42%	15.03%	11.38%	17.34%
0.7B	4.84%	16.33%	12.32%	18.71%
1.6B	4.92%	16.61%	12.51%	19.01%
3.0B	5.02%	16.99%	12.78%	19.53%

Table 4: Performance Comparison.

Figure 6: NTP Loss Scaling Laws. 该图像是图表，展示了不同模型在训练步骤中损失（Loss）的变化情况。随着训练步骤的增加，损失逐渐降低，其中各条曲线对应不同的模型参数量，例如0.1B、0.4B等，显示了不同规模下模型训练的效果。

Figure 6: NTP Loss Scaling Laws.

表3详细介绍了评估模型变体的架构规范，从 0.1B 扩展到 3.0B 参数。表4和图6验证了生成式推荐框架中的扩展法则 (scaling laws)。

性能提升: 模型容量与检索性能之间存在普遍的正相关关系。将模型从 0.1B 扩展到 3.0B，HR@10 呈单调提升，从 13.17% 上升到 16.99%。图6也显示，更大的模型通常能实现更低的渐近 NTP 损失。
MoE 饱和分析: 在 0.7B 和 1.6B 变体之间，损失曲线表现出明显的平台期，尽管参数量有所增加，但提升不大。这可能与专家混合 (Mixture-of-Experts, MoE) 架构的稀疏激活机制有关。由于这两种配置每词元使用的专家数量相同，因此在每次前向传播中涉及的有效参数数量保持可比，这可能限制了单纯扩展专家池带来的即时收益。然而，3.0B 模型似乎克服了这一瓶颈，这可能得益于深度增加（16 层解码器层），从而延长了计算路径并进一步降低了 NTP 损失。

6.1.4. 指令词元集成策略 (Instruction Token Integration Straties)

以下是原文 [Table 5] 的结果：

Integration Strategy	HR@1	HR@10	Recall@10	Recall@30
No Instruction	2.78%	10.38%	8.18%	13.01%
Replace BOS	3.30%	12.08%	9.12%	14.38%
Add to BOS	3.50%	12.59%	9.52%	14.93%
Insert Left of BOS	3.33%	12.17%	9.21%	14.50%
Insert Right of BOS	3.53%	12.68%	9.58%	14.91%

Table 5: Performance comparison of different instruction token integration strategies.

表5比较了不同的指令词元集成策略。结果显示，“Insert Right of BOS”策略始终产生最高的检索指标。这种方法允许解码器首先初始化其状态，然后立即将随后的自回归生成基于特定上下文进行条件化，从而提供最有效的指导流。这验证了将指令置于 BOS 标记之后对模型理解和利用指令的重要性。

6.1.5. 指令组件消融 (Instruction Component Ablation)

以下是原文 [Table 6] 的结果：

Instruction Components	HR@1	HR@10	Recall@10	Recall@30
No Instruction (Baseline)	2.78%	10.38%	8.18%	13.01%
Scenario ID Only (1 token)	3.30%	12.17%	9.22%	14.50%
Trigger Item ID Only (1 token)	3.22%	11.60%	9.13%	13.98%
Concatenated (Scenario + Trigger, 2 tokens)	3.53%	12.68%	9.58%	14.91%
Fused (Scenario + Trigger, 1 token)	3.60 %	12.82%	9.68%	15.08%

Table 6: Ablation study on Instruction Token components.

表6展示了指令词元组成部分的消融研究。结果显示，虽然单独使用场景 ID 或触发物品 ID 都能改善性能，但融合指令 (Fused Instruction) （将场景 ID 和触发物品 ID 投影成一个统一表示）达到了最佳性能。这表明这两个信号提供了互补的指导：场景 ID 定义了全局领域特征（如主页的价格敏感性或购物车中的附加逻辑），而触发物品 ID 提供了细粒度的、本地化的用户意图上下文。融合方法的优越性能表明，更深层次的特征交互允许模型更好地捕捉场景上下文和用户意图之间的关系。

6.1.6. `IGR` 消融 (IGR Ablation)

以下是原文 [Table 7] 的结果：

Configuration	HR@1	HR@10	Recall@10	Recall@30
Base Model (w/o IGR/Q2I)	3.76%	12.20%	9.87%	15.53%
+ IGR Only	4.02%	12.91%	10.25%	15.95%
+ IGR+Q2I (Full)	4.19%	13.38%	10.52%	16.23%

Table 7: Ablation study on IGR components

表7展示了在搜索主导场景下对 IGR 机制和 Q2I 对齐的消融研究。

+ IGR Only: 单独引入 IGR 提高了检索质量，因为它更好地专注于相关的历史交互。
+ IGR+Q2I (Full): 包含 IGR 和 Q2I 对齐的完整模型实现了最佳性能，这表明查询和物品空间之间的显式对齐对于有效的 IGR 至关重要。

6.1.7. 统一指令遵循模型 vs. 独立 `SFT` 基线 (Unified Instruction-Following Model vs. Independent SFT Baselines)

以下是原文 [Table 8] 的结果：

Metric	Model Type	Scenario 1	Scenario 2	Scenario 3	Scenario 4	Scenario 5	Scenario 6
HR@1	Independent SFT	6.39%	8.17%	1.12%	1.83%	7.22%	5.29%
HR@1	Unified Model	15.39%	20.75%	17.24%	6.34%	10.54%	25.75%
HR@10	Independent SFT	23.29%	29.05%	5.22%	8.44%	29.84%	19.38%
HR@10	Unified Model	46.73%	55.02%	53.57%	29.89%	37.90%	62.62%

Table 8: Performance comparison: Unified Instruction-Following Model vs. Independent SFT Baselines across six core scenarios.

表8比较了 OxygenREC 的统一指令遵循模型与行业标准的“预训练和场景独立 SFT”方法，后者为每个场景专门微调模型。结果表明，统一模型在所有六个部署场景中都始终优于独立的基线模型。这种优势归因于：

协同知识迁移 (Synergistic Knowledge Transfer): 高资源场景（如主页）增强了低资源场景的表示学习。
通用用户建模 (Universal User Modeling): 捕获了用户兴趣的整体视图。
显著提高的运营效率 (Significantly improved Operational Efficiency): 与管理五个独立的检查点相比，单个模型减少了维护和 GPU 开销。

6.1.8. 触发指令敏感性分析 (Trigger Instruction Sensitivity Analysis)

以下是原文 [Table 9] 的结果：

Metric	Inference Setting	Scenario 3	Scenario 4	Scenario 5	Scenario 6
HR@1	Correct Trigger (Instruction)	20.75%	6.34%	10.54%	25.75%
	Masked Trigger (Default)	10.71%	1.96%	9.26%	18.55%
HR@10	Correct Trigger (Instruction)	55.02%	29.89%	37.90%	62.62%
	Masked Trigger (Default)	40.96%	11.31%	35.74%	50.52%

Table 9: Sensitivity Analysis: Impact of masking the Trigger Item ID during inference (Scenarios 3, 4, 5, 6).

表9展示了在推理时遮蔽触发物品 ID 对性能的影响。在专门设计为由触发物品驱动的场景3、4、5和6中，用通用“默认”嵌入替换真实的触发物品 ID 导致所有测试场景的指标大幅下降。这种急剧下降证实了指令机制的有效性：解码器严重依赖细粒度的触发信号来有效地情境化用户即时意图，充当生成过程的关键“方向盘”。

6.1.9. 后训练的有效性验证 (Post-training of OxygenREC)

6.1.9.1. 合成数据的有效性 (Effectiveness of synthetic data)

Figure 7: Evaluation of synthetic data 该图像是图表，展示了不同合成数据比例下的命中率（Hit Rate@10）比较。图中蓝线代表GRPO算法，橙线代表SA-GCPO算法。随着合成数据比例的增加，两种算法的命中率均有所提升，在20%合成数据时达到最高。

Figure 7: Evaluation of synthetic data

图7评估了合成数据的有效性。实验使用预训练的 OxygenREC-0.7B MOE 作为主干网络，并进行 RL 训练。当合成数据比例为0时，表示在测试数据上进行预训练模型的冷启动性能。观察到 GRPO 的性能在不同比例的合成数据下表现出相当大的不稳定性，而 SA-GCPO 则表现出更一致的结果。此外，SA-GCPO 在不同比例的合成数据下均优于 GRPO，这证明了所提出方法的有效性。

6.1.9.2. `SA-GCPO` 的有效性 (Effectiveness of proposed SA-GCPO)

以下是原文 [Table 10] 的结果：

Methods	Ratio of synthetic data	HR@1	HR@10
OxygenREC0.7B-GRPO	33%	23.85%	62.15%
OxygenREC0.7B-GSPO	33%	24.13%	62.88%
OxygenREC0.7B-SA-GCPO	33%	25.58%	65.95%

Table 10: Evaluation of proposed SA-GCPO with other methods

表10比较了 SA-GCPO 与 GRPO [23] 和 GSPO [67] 的性能。使用预训练的 OxygenREC-0.7B 作为主干网络，合成数据比例控制在 33%。

GSPO 的性能略优于 GRPO。
SA-GCPO 在 HR@1 方面比 GSPO 和 GRPO 分别提高了 1.45 个百分点和 1.73 个百分点。
在 HR@10 方面，SA-GCPO 提高了超过 3 个百分点。这些结果证明了 SA-GCPO 在 RL 方法中的卓越性能。

6.1.9.3. $\tau_{\mathrm{pos}}$ 和 $\tau_{\mathrm{neg}}$ 不同设置的消融研究 (Ablation study for different settings of $\tau_{\mathrm{pos}}$ and $\tau_{\mathrm{neg}}$ )

以下是原文 [Table 11] 的结果：

Tpos	Tneg	HR@1	HR@10
1.0	1.05	25.35%	65.64%
1.0	1.0	25.48%	65.95%
1.0	0.95	25.51%	66.01%

Table 11: Ablation study of temperatures set for positive and negative samples of SA-GCPO

表11展示了对 SA-GCPO 中正负优势样本不同温度设置的消融实验。结果显示，当 $\tau_{\mathrm{pos}} > \tau_{\mathrm{neg}}$ 时，模型性能变得更稳定。为负样本分配较低的温度系数有助于防止 RL 训练期间的性能崩溃，并增强整体训练稳定性。

6.1.10. 在线 `A/B` 测试性能和工业影响 (Online A/B Test Performance and Industrial Impact)

6.1.10.1. 部署场景和用户生命周期覆盖 (Deployment Scenarios and User Lifecycle Coverage)

xLLM 推理引擎的部署显著提升了模型的吞吐量和延迟性能，使得生成式推荐系统能够以更低的计算开销处理高并发请求。这一性能突破促进了模型在 JD App 上三个顺序依赖的场景中的部署，形成了一个覆盖用户整个会话生命周期的整体闭环：

阶段1：兴趣触发 (Homepage Floor):
- 覆盖 JD App 主页上的高流量场景1和场景2。
- 特点：巨大的日活跃用户 (DAU) 和严格的低延迟约束。
- 作用：作为入口点，推荐视觉吸引力强且与用户兴趣高度相关的物品，吸引点击引导用户进入下游信息流。
阶段2：深度探索 (Feeds Recommendation):
- 当用户点击主页两个场景（场景1和场景2）中的 SKU 时，将被引导到相应的信息流页面（场景3和场景4）。
- 作用：系统根据“触发 SKU”（点击物品）和用户的长/短期行为生成推荐。通过无限滚动机制，鼓励用户延长互动时间（浏览时长），培养加入购物车或购买的意图。
阶段3：即时转化 (Checkout Path Recommendations):
- 目标是交易过程。当用户将物品添加到购物车时，加入购物车叠加层 (Add-to-Cart Overlay)（场景5）立即显示一系列相关物品。
- 结账附加项 (Checkout Add-on) 页面（场景6）在支付过程中显示推荐，方便用户选择补充物品。
- 作用：这些结账路径场景利用用户强烈的购买意图，驱动即时的额外转化。
  
  这些场景共同创建了协同路径：吸引注意力（引导），保持兴趣（留存），促进交易（转化），从而优化用户在整个请求生命周期中的体验。

6.1.10.2. 在线 `A/B` 测试结果 (Online A/B Testing Results)

以下是原文 [Table 12] 的结果：

Scenario		UCTR	UCTCVR	Order Volume	GMV	Latency
Homepage Floor	Scenario 1	+0.68%	+2.71%	+2.81%	+4.52%	50ms
Homepage Floor	Scenario 2	+3.55%	+2.26%	+2.21%	+8.40%	50ms
Channel Feeds	Scenario 3*	-0.25%	+7.89%	+8.03%	+1.46%	80ms
Channel Feeds	Scenario 4	+0.78%	+2.17%	+1.49%	+1.66%	80ms
Checkout Path	Scenario 5	+0.40%	+4.21%	+4.28%	+11.80%	50ms
Checkout Path	Scenario 6	+3.29%	3.00%	+2.92%	+4.15%	50ms

Table 12: Online A/B Test Lift at First Launch

表12总结了在线 A/B 测试结果。生成模型在所有关键业务指标上都取得了统计学上的显著提升，包括用户点击率 (UCTR)、用户转化率 (UCTCVR)、订单量 (Order Volume) 和 商品交易总额 (GMV)。这表明其在从高流量主页槽位到高意图交易流等多样化操作环境中的鲁棒性。

信息流场景 (Feeds scenarios): （例如场景3）模型驱动订单量增长超过 8%，表明其能够优先推荐真正符合购买意图的高质量物品，而不仅仅是优化浅层点击。
交易关键的结账路径 (transaction-critical Checkout Path): （场景5-6）模型成功利用即时用户意图，在数十亿候选物品空间下实现了订单量的显著增长。这些结果验证了生成框架在真实世界工业环境中能有效地将语义理解转化为切实的业务增长，覆盖了用户的整个购物生命周期。

7. 总结与思考

7.1. 结论总结

本文提出了 OxygenREC，一个成功将深度推理能力与真实世界部署的严格延迟和可扩展性要求相结合的生成式推荐系统。

快慢思维架构: 实现了并验证了快慢思维架构的有效性。其中“慢思考”部分使用近线 LLM 通过分析用户行为和上下文生成清晰高质量的上下文推理指令；而“快思考”部分——一个轻量级编码器-解码器模型——则根据这些指令实时生成推荐。关键在于，该系统通过确保“慢思考”路径的训练数据（来自历史搜索日志）与“快思考”路径在线遇到的数据之间的一致性，解决了训练与部署之间的鸿沟，实现了平滑的知识迁移，同时避免了在线 LLM 调用，从而保持低延迟并实现智能推理。
指令遵循与语义对齐: 探索了生成式推荐中的指令遵循机制，这是 LLM 的核心能力，但在推荐任务中长期被忽视。通过语义对齐实现了有效的指令控制。指令引导检索 (IGR) 模块根据指令检索最相关的历史用户行为，而查询到物品损失 (Q2I loss) 函数确保推荐结果与用户意图之间的一致性，从而使输出真正符合用户意图。这为工业级推荐模型提供了宝贵的参考范式。
“一次训练，随处部署”范式: OxygenREC 体现了“一次训练，随处部署 (train-once-deploy-everywhere)” 的理念。与为不同场景（如主页或购物车）训练独立模型不同，它将场景特定信息转换为结构化场景指令 (structured Scenario Instructions)。通过共享奖励信号和软自适应组剪辑策略优化 (SA-GCPO)，使单一模型能够学习处理跨所有场景的任务。该系统已在 JD.com 的核心推荐场景中全面部署，并在首次发布时就在多个场景中带来了显著的业务收益，证明了其现实世界影响和实用价值。

7.2. 局限性与未来工作

论文指出了 OxygenREC 现有框架的局限性，并提出了未来可能的研究方向：

通过非自回归生成优化延迟 (Latency Optimization through Non-Autoregressive Generation):
- 当前局限: 现有框架依赖顺序的下一词元预测 (NTP)，面临固有的可扩展性障碍：解码延迟随所需推荐列表长度线性增加，严重阻碍了高吞吐量的实时部署。
- 未来方向: 长期目标是通过过渡到高效的非自回归 (Non-Autoregressive, NAR) 并行生成范式来克服这一限制。该计划旨在通过同时生成整个语义标识符序列来大幅最小化服务延迟并最大化吞吐量。这对于随着模型复杂性和知识集成深度增加而维持性能至关重要。
多场景用户轨迹建模以实现深度意图发现 (Multi-Scenario User Trajectory Modeling for Deep Intent Discovery):
- 当前局限: 当前的指令系统有效利用了即时上下文和场景信息。然而，用户的真实购买意图通常是一个跨平台多个不同场景（例如，主页、搜索、购物车、结账）的复杂决策轨迹。
- 未来方向: 重点将转向多场景用户轨迹建模 (multi-scenario user trajectory modeling)，以捕捉用户行为的完整上下文。这个方向将涉及集成和分析跨场景序列，以揭示深层用户目标以及他们在不同页面之间意图的演变。通过捕捉这些复杂动态，可以升级指令系统以利用更丰富、层次化的意图信号，提供更精确和长期最优的推荐。该策略将通过鲁棒的闭环学习机制进一步与长期用户价值对齐。

7.3. 个人启发与批判

7.3.1. 个人启发

快慢思维架构的巧妙平衡: OxygenREC 的快慢思维 (Fast-Slow Thinking) 架构提供了一个优雅的解决方案，解决了 LLM 强大推理能力与工业应用严格低延迟要求之间的矛盾。将 LLM 的深度推理（慢思考）移至近线，预先生成上下文推理指令，然后由高效的轻量级模型（快思考）实时执行，这在实际系统中非常具有借鉴意义。这种解耦思路不仅限于推荐系统，在任何需要复杂离线计算和快速在线响应的场景（例如内容生成、个性化广告等）都可应用。
指令遵循范式的强大潜力: 将推荐任务重构为指令遵循 (Instruction-Following) 生成任务，并通过语义对齐机制（IGR 和 Q2I 损失）确保指令的有效性，这是 LLM 时代推荐系统发展的一个重要方向。它提供了一种显式且可控的方式来引导模型行为，克服了传统推荐模型“黑箱”的局限性，并增强了模型的可解释性。这种范式可以进一步推广到更多复杂的交互场景，如用户-智能体对话推荐。
“一次训练，随处部署”的高效性: OxygenREC 实现的“一次训练，随处部署 (train-once-deploy-everywhere)” 范式是工业界梦寐以求的。通过将场景信息编码为场景指令并结合统一的奖励映射和 SA-GCPO，不仅显著降低了多场景部署的运营和维护成本，还通过协同知识迁移 (Synergistic Knowledge Transfer) 提升了整体性能。这对于资源有限或场景数量庞大的平台而言，具有巨大的实用价值。
SA-GCPO 在多任务 RL 中的普适性: 提出的 SA-GCPO 结合了软自适应门控、基于真实反馈的优势阈值和非对称温度控制，有效解决了多场景 RL 训练中的不稳定性问题。这种策略优化方法不仅适用于生成式推荐，对于其他面临多环境、多任务奖励复杂性问题的 LLM 或 VLM 后训练场景，也具有很强的借鉴意义。

7.3.2. 批判性思考

指令生成的质量与鲁棒性: OxygenREC 的性能高度依赖于上下文推理指令的质量。尽管论文提出了 LLM 管道进行指令生成和重写，并报告了高可用率，但在极端、新颖或模糊的用户行为模式下，LLM 生成的指令是否始终可靠、无偏见，以及如何有效处理 LLM 自身的幻觉 (hallucination) 问题，是一个值得关注的挑战。如果指令本身存在偏差或错误，可能会导致推荐系统沿着错误的方向进行推理。
指令表示的复杂性与可扩展性: 随着用户意图和场景上下文变得更加复杂，上下文推理指令的文本长度和语义密度可能会增加。虽然目前将其转换为密集嵌入，但如何确保这种表示能够捕获所有细微之处，并且随着知识和推理能力的增长而保持高效，是一个持续的挑战。未来的工作可能需要探索更丰富的指令表示形式或动态指令生成策略。
冷启动问题 (Cold-start Problem): 对于新用户或新物品，由于缺乏足够的行为历史，LLM 管道生成高质量上下文推理指令的难度会增加。虽然论文提到了在指令缺失时模型仍能基于场景指令和用户历史生成推荐，但其性能会受到影响。如何更好地将 LLM 的常识推理能力与冷启动场景结合，例如通过零样本 (zero-shot) 或少样本 (few-shot) 学习来生成初始指令，是未来可以深挖的方向。
隐私与计算资源消耗: 尽管将 LLM 推理置于近线缓解了在线延迟，但近线 LLM 管道的维护和运行仍需要大量的计算资源，尤其是在处理大规模用户和实时更新时。此外，LLM 处理用户行为数据可能涉及隐私问题，如何确保数据安全和合规性是工业部署中不可忽视的方面。
NAR 生成的挑战: 论文提出的未来工作方向——非自回归 (NAR) 生成，虽然能显著降低延迟，但 NAR 模型通常在生成质量和多样性方面不如自回归模型。如何在推荐场景中平衡 NAR 的速度优势和生成质量挑战，尤其是对于长序列和复杂意图的生成，将是关键的研究点。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。