论文状态：已完成

OnePiece: Bringing Context Engineering and Reasoning to Industrial Cascade Ranking System

发表：2025/09/23

工业级排序系统 (1)上下文工程与推理 (1)基于Transformer的推荐模型 (1)多任务训练方法 (1)用户反馈链监督 (1)

价格：0.100000

已有 9 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了OnePiece框架，将上下文工程和多步推理融入工业级级联排序系统，超越现有Transformer架构的增量改进。通过结构化上下文工程、块状潜在推理和渐进式多任务训练，这一框架在Shopee的个性化搜索中有效提升了多个关键业务指标，GMV和广告收入均有显著增长。

摘要

Despite the growing interest in replicating the scaled success of large language models (LLMs) in industrial search and recommender systems, most existing industrial efforts remain limited to transplanting Transformer architectures, which bring only incremental improvements over strong Deep Learning Recommendation Models (DLRMs). From a first principle perspective, the breakthroughs of LLMs stem not only from their architectures but also from two complementary mechanisms: context engineering, which enriches raw input queries with contextual cues to better elicit model capabilities, and multi-step reasoning, which iteratively refines model outputs through intermediate reasoning paths. However, these two mechanisms and their potential to unlock substantial improvements remain largely underexplored in industrial ranking systems. In this paper, we propose OnePiece, a unified framework that seamlessly integrates LLM-style context engineering and reasoning into both retrieval and ranking models of industrial cascaded pipelines. OnePiece is built on a pure Transformer backbone and further introduces three key innovations: (1) structured context engineering, which augments interaction history with preference and scenario signals and unifies them into a structured tokenized input sequence for both retrieval and ranking; (2) block-wise latent reasoning, which equips the model with multi-step refinement of representations and scales reasoning bandwidth via block size; (3) progressive multi-task training, which leverages user feedback chains to effectively supervise reasoning steps during training. OnePiece has been deployed in the main personalized search scenario of Shopee and achieves consistent online gains across different key business metrics, including over $+2\%$ GMV/UU and a $+2.90\%$ increase in advertising revenue.

思维导图

论文精读

中文精读约 62 分钟读完 · 38,368 字

1. 论文基本信息

1.1. 标题

OnePiece: 将上下文工程和推理引入工业级级联排序系统 (OnePiece: Bringing Context Engineering and Reasoning to Industrial Cascade Ranking System)

1.2. 作者

Sunhao Dai†1, Jiakai Tang*1, Jiahua Wu2, Kunwang2, Yuxuan Zhu2, Bingjun Chen2, Bangyang Hong2, Yu Zhao2, Cong Fu2, Kangle Wu2, Yabo Ni2, Anxiang Zeng2, Wenjie Wang3, Xu Chen1, Jun Xu1 and See-Kiong Ng4

隶属机构包括：

中国人民大学 (Renmin University of China)
Shopee
新加坡国立大学 (National University of Singapore)
新加坡管理大学 (Singapore Management University)

1.3. 发表期刊/会议

预印本 (arXiv preprint)

1.4. 发表年份

2025年

1.5. 摘要

尽管在工业搜索和推荐系统中复制大语言模型 (Large Language Models, LLMs) 的成功引起了越来越多的兴趣，但目前大多数工业界的努力仍局限于移植 Transformer 架构，这相较于强大的深度学习推荐模型 (Deep Learning Recommendation Models, DLRMs) 仅带来了增量改进。从第一性原理来看，LLM 的突破不仅源于其架构，还源于两个互补的机制：上下文工程 (context engineering)，即通过上下文线索丰富原始输入查询，以更好地激发模型能力；以及多步推理 (multi-step reasoning)，即通过中间推理路径迭代地细化模型输出。然而，这两个机制及其释放实质性改进的潜力在工业排序系统中仍未得到充分探索。

本文提出了 OnePiece，一个统一的框架，将 LLM 风格的上下文工程和推理无缝集成到工业级级联管道的检索和排序模型中。OnePiece 构建在一个纯 Transformer 主干网络之上，并进一步引入了三项关键创新：(1) 结构化上下文工程 (structured context engineering)，它通过偏好锚点 (preference anchors) 和情境信号 (scenario signals) 增强交互历史，并将它们统一为结构化的词元化 (tokenized) 输入序列，用于检索和排序；(2) 块状潜在推理 (block-wise latent reasoning)，它通过多步表示细化赋予模型能力，并通过块大小 (block size) 扩展推理带宽；(3) 渐进式多任务训练 (progressive multi-task training)，它利用用户反馈链有效监督训练过程中的推理步骤。OnePiece 已部署在 Shopee 的主要个性化搜索场景中，并在不同的关键业务指标上取得了持续的在线收益，包括 GMV/UU（每独立用户商品交易总额）超过 $+2\%$ 和广告收入增长 $+2.90\%$ 。

1.6. 原文链接

arXiv 链接: https://arxiv.org/abs/2509.18091
PDF 链接: https://arxiv.org/pdf/2509.18091v1.pdf
发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

当前，大语言模型 (LLMs) 在自然语言处理 (Natural Language Processing, NLP) 领域取得了巨大成功，尤其是在复杂的推理任务上。这引发了研究者在其他领域，如工业搜索和推荐系统 (Search and Recommender Systems) 中，复制 LLMs 成功机制的兴趣。然而，现有的大多数工业实践主要集中于移植 Transformer 架构，这相对于强大的深度学习推荐模型 (DLRMs) 仅带来了有限的增量改进。

论文指出，LLMs 成功的核心不仅在于其 Transformer 架构，更在于两个互补的机制：

上下文工程 (Context Engineering): 通过丰富原始输入查询来更好地激发模型能力。
多步推理 (Multi-Step Reasoning): 通过迭代细化模型输出，逐步推导出更精确的结果。

然而，这两个关键机制在工业排序系统中仍未得到充分探索。作者认为，现有 Transformer 架构的推荐模型主要依赖原始用户-物品交互序列，缺乏 LLM 风格 prompt 的结构丰富性，导致上下文信息不足。同时，工业排序系统缺乏像 LLMs 那样大规模的 思维链 (chain-of-thought) 标注来直接监督多步推理过程。

因此，论文旨在解决的核心问题是：如何在工业级的级联推荐管道中，有效地引入 LLM 风格的上下文工程和多步推理机制，以突破传统 Transformer 架构带来的增量改进瓶颈，实现实质性的性能提升？

2.2. 核心贡献/主要发现

本文提出的 OnePiece 框架，旨在弥合 LLM 成功机制与工业排序系统之间的鸿沟，其核心贡献和主要发现如下：

首次探索与部署 LLM 关键机制： OnePiece 是首次在工业规模的排序系统中探索和部署上下文工程与多步推理的工作，并在检索和排序任务中显著超越了强大的 DLRM 基线。
统一的框架设计： 提出了 OnePiece 这一统一框架，将结构化上下文工程和块状潜在推理引入级联管道的检索和排序阶段。
- 结构化上下文工程： 增强用户交互历史 (Interaction History, IH)，融合偏好锚点 (Preference Anchors, PA) 和情境描述符 (Situational Descriptors, SD)，并在排序模式中引入候选项目集 (Candidate Item Set, CIS)，形成统一的词元化输入序列。
- 块状潜在推理： 赋予模型多步表示细化的能力，通过调整块大小来扩展推理带宽，实现更精细的用户偏好建模。
- 渐进式多任务训练 (Progressive Multi-Task Training)： 利用自然可用的用户反馈链（如点击、加入购物车、下单）作为分阶段的监督信号，有效优化多步推理过程。
广泛的实验验证： 通过大规模离线实验和在 Shopee 主力个性化搜索场景的在线 A/B 测试，验证了 OnePiece 各设计选择的有效性，展示了其在数据扩展和推理能力方面的优异性能及效率。
- 离线实验： 验证了每个核心设计的有效性，例如上下文工程显著提升了 Recall@100 和 click-AUC，块状推理进一步带来了额外提升。OnePiece 展示了更高的样本效率和更好的数据扩展性。
- 在线 A/B 测试： 在 Shopee 部署后，取得了显著的业务收益，包括 GMV/UU 超过 $+2\%$ 和广告收入增长 $+2.90\%$ 。在检索 A/B 测试中，OnePiece 覆盖了近 $70\%$ 的现有策略召回曝光，并提供了 DLRM 两倍的独占贡献。
- 效率分析： OnePiece 展示了更高的硬件利用率和可控的计算扩展性，使其适用于大规模工业部署。
  
  这些贡献共同验证了 OnePiece 作为一个更强大、能统一检索和排序的推理增强推荐框架的设计理念。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 OnePiece 框架，以下是一些需要掌握的基础概念：

大语言模型 (Large Language Models, LLMs):
- 概念定义: LLMs 是一类参数量巨大（通常数十亿到数万亿）、在海量文本数据上进行预训练的深度学习模型。它们能够理解、生成、翻译和总结人类语言，并在各种复杂的自然语言处理任务中展现出惊人的能力，包括推理、代码生成等。
- 在本文中的意义: OnePiece 借鉴了 LLMs 成功的两个核心机制——上下文工程和多步推理，而非直接使用 LLMs 本身，将其理念应用于推荐系统。
Transformer 架构 (Transformer Architecture):
- 概念定义: Transformer 是一种基于自注意力 (Self-Attention) 机制的深度神经网络架构，由 Vaswani 等人于 2017 年提出。它彻底改变了序列建模任务（如机器翻译、文本生成）的处理方式，取代了传统的循环神经网络 (Recurrent Neural Networks, RNNs) 和卷积神经网络 (Convolutional Neural Networks, CNNs)。Transformer 的核心在于其能够并行处理序列中的所有元素，并通过注意力机制捕捉序列中任意两个位置之间的依赖关系。
- 核心组件:
  - 自注意力机制 (Self-Attention): 允许模型在处理序列中的某个词元时，关注序列中的所有其他词元，并根据相关性分配不同的权重。其核心公式为： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中， $Q$ (Query)、 $K$ (Key)、 $V$ (Value) 是输入序列经过线性变换后得到的三个矩阵； $d_k$ 是键 (Key) 向量的维度，用于缩放，防止内积过大导致 softmax 梯度消失。softmax 函数将注意力权重归一化。
  - 多头自注意力 (Multi-Head Self-Attention, MHSA): 允许模型从不同的“表示子空间”并行地学习注意力。它将 Q, K, V 投影到多个不同的低维空间，分别计算自注意力，然后将结果拼接并再次投影回原始维度。
  - 前馈网络 (Feed-Forward Network, FFN): 一个简单的两层全连接网络，对自注意力层的输出进行非线性变换。
  - 层归一化 (Layer Normalization, LN): 对每个样本的特征维度进行归一化，有助于训练稳定。
  - 位置编码 (Positional Encoding): 由于 Transformer 本身不具备处理序列顺序的能力，通过在输入嵌入中添加位置编码来引入序列中词元的位置信息。
- 在本文中的意义: OnePiece 构建在一个纯 Transformer 主干网络之上，并利用其双向注意力 (bi-directional attention) 特性。
深度学习推荐模型 (Deep Learning Recommendation Models, DLRMs):
- 概念定义: DLRMs 是一类利用深度学习技术来预测用户对物品偏好或交互概率的模型。它们通常处理大规模的稀疏输入特征（如用户 ID、物品 ID、类别等），并通过嵌入层将其转换为稠密向量，然后结合其他稠密特征，通过多层感知机 (Multi-Layer Perceptron, MLP)、交叉网络 (Cross Network) 或注意力机制等复杂结构来学习用户与物品之间的交互模式。
- 在本文中的意义: DLRMs 是目前工业界广泛使用的推荐系统基线模型，本文通过与 DLRM（尤其是 Shopee 的生产基线）进行比较，来证明 OnePiece 的优越性。
上下文工程 (Context Engineering):
- 概念定义: 指的是通过设计和组织模型输入，将原始数据与额外的上下文信息、外部知识或结构化提示相结合，以更好地引导模型理解任务、激发其内在能力，从而生成更准确、更相关的输出。这在 LLMs 中常表现为 prompt engineering，但在 OnePiece 中则扩展到结构化地融合多种信号。
- 在本文中的意义: OnePiece 引入了结构化上下文工程，通过交互历史、偏好锚点、情境描述符和候选项目集来构建丰富的输入序列。
多步推理 (Multi-Step Reasoning):
- 概念定义: 指的是模型不直接给出最终结果，而是通过一系列中间步骤或迭代过程来逐步细化其内部表示或输出。每个步骤都基于前一步骤的结果进行进一步的思考、分析和调整，最终得到更精确、更鲁棒的预测。这在 LLMs 中常见于 思维链 (chain-of-thought) 提示。
- 在本文中的意义: OnePiece 引入了块状潜在推理机制，通过多个推理步骤迭代地细化隐藏状态，并结合渐进式多任务训练来监督这一过程。
级联排序范式 (Cascade Ranking Paradigm):
- 概念定义: 在工业级大规模推荐系统中，为了平衡计算效率和推荐质量，通常采用多阶段的决策流程，即级联排序。这个流程像一个漏斗，分为多个阶段：
  - 检索阶段 (Retrieval Stage): 早期阶段使用轻量级模型从海量候选物品中快速筛选出一小部分（通常是几百到几千个）最有潜力的候选集。目标是保证召回率 (recall)。
  - 预排序阶段 (Pre-ranking Stage): 对检索出的候选集进行进一步的粗排，通常使用比检索阶段稍复杂的模型，进一步缩小候选集规模。
  - 排序阶段 (Ranking Stage): 最后阶段使用最复杂、计算成本最高的模型，对精细筛选后的较小候选集进行精确打分和排序，生成最终的推荐列表。目标是提升准确率 (precision)。
- 在本文中的意义: OnePiece 是一个统一框架，将 LLM 风格的机制无缝集成到级联管道的检索和排序这两个主要阶段。
近似最近邻搜索 (Approximate Nearest Neighbor, ANN):
- 概念定义: ANN 是一种在大型高维数据集中查找与给定查询点“近似”最近邻点的高效算法。与精确最近邻搜索不同，ANN 牺牲一定的准确性以换取计算效率，特别适用于在大规模向量数据库中进行实时检索。
- 在本文中的意义: 在 OnePiece 的检索阶段，通过离线计算所有物品的向量表示，并构建 ANN 索引（如 HNSW 算法），实现在线高效召回。

3.2. 前人工作

论文在 Introduction 和 Related Work 部分提及了多个相关的前人工作，主要分为以下几类：

基于 Transformer 架构的推荐模型：
- SASRec (Kang and McAuley, 2018): 自注意力序列推荐模型，将用户历史行为序列视为一个序列，并使用 Transformer 的编码器来捕捉用户的动态偏好。
- BERT4Rec (Sun et al., 2019): 借鉴 BERT 的双向 Transformer 编码器，通过掩码语言模型 (Masked Language Model) 任务进行预训练，学习序列中的双向依赖关系。
- 现有工业实践 (Wu et al., 2024): 大多数努力集中在移植 Transformer 架构，但相较于 DLRMs 改进有限。
LLM 机制在推荐系统中的探索：
- 上下文工程 (Context Engineering) 导向的方法：
  - 动态行为建模和检索增强方法 (Li et al., 2024; Lin et al., 2024): 从传统的基于时间邻近性的序列建模转向语义行为检索算法，提取与上下文相关的历史交互，以增强鲁棒性和冷启动预测准确性。
- 推理增强 (Reasoning Enhancement) 导向的方法：
  - 显式推理范式 (Explicit Reasoning Paradigms, Fang et al., 2025; Gu et al., 2025): 采用多专家管道和反射-细化机制，生成可解释的中间推理过程，但计算开销较大。
  - 隐式推理范式 (Implicit Reasoning Paradigms, Liu et al., 2025; Tang et al., 2025; Zhang et al., 2025b): 利用连续隐藏状态自回归和深度循环架构，在不要求显式文本生成的情况下实现增强的推理能力，通过专门的对齐目标实现计算效率，同时保持推理深度。
其他推荐系统基线：
- DLRM (Naumov et al., 2019): 深度学习推荐模型，被 Shopee 用作生产基线，结合了多种 SOTA (state-of-the-art，最先进的) 组件，如 DSSM (Huang et al., 2013) 双塔结构、DIN-like (Zhou et al., 2018) 结构、zero-attention (Ai et al., 2019)、DCNv2 (Wang et al., 2021) 和 ResFlow (Fu et al., 2024) 等。
- HSTU (Zhai et al., 2024): Meta 提出的生成式推荐框架。
- ReaRec (Tang et al., 2025): 一种推理增强推荐模型，将用户表示建模为对物品序列的多步推理。

3.3. 技术演进

推荐系统领域的技术演进可以概括为从传统基于协同过滤、内容过滤方法到深度学习方法的转变，再到近年来受大语言模型 (LLMs) 启发的新范式探索：

早期阶段：传统推荐算法
- 主要依赖于用户-物品交互矩阵或物品属性，如协同过滤 (Collaborative Filtering)、矩阵分解 (Matrix Factorization) 等。这些方法在捕捉复杂的用户偏好和物品特征交互方面存在局限性。
深度学习的引入：DLRMs 时代
- 随着深度学习技术的发展，DLRMs 开始在推荐系统中占据主导地位。它们能够处理大规模的稀疏和稠密特征，通过嵌入层将稀疏特征转换为稠密向量，并利用 MLP、交叉网络、注意力机制等学习复杂的非线性交互。DLRM 和其在 Shopee 的生产基线就是这一阶段的代表，集成了 DIN、DCNv2 等先进组件，注重特征工程和模型结构的优化。
序列推荐与 Transformer 的兴起：
- 认识到用户偏好是动态变化的，序列推荐模型应运而生。SASRec 和 BERT4Rec 等模型将 Transformer 架构引入序列推荐，利用其强大的序列建模能力捕捉用户行为序列中的时序依赖和上下文关系。这一阶段主要集中在 Transformer 架构本身的移植。
LLM 时代的启发：上下文与推理的融合
- LLMs 的成功揭示了架构之外的两个关键机制：上下文工程和多步推理。这促使推荐系统研究者思考如何将这些机制引入。
- 上下文工程： 从简单的交互序列扩展到更丰富的用户历史、外部知识、情境信息等，以更好地理解用户意图。例如，Retrieval-Augmented Transformers 探索了将检索到的相关信息融入输入。
- 多步推理： 模仿 LLMs 的 思维链，尝试让推荐模型通过多步决策或细化过程来提高推荐的准确性和可解释性。这包括显式生成推理路径和隐式在模型内部进行迭代表示细化。
  
  OnePiece 正是站在这一技术演进的交叉点上。它超越了简单地移植 Transformer 架构，而是深入挖掘 LLMs 成功的第一性原理——上下文工程和多步推理，并针对工业级级联推荐系统的特点（效率、无显式推理监督）进行了创新性的融合与优化。

3.4. 差异化分析

OnePiece 与现有工作的主要区别和创新点体现在以下几个方面：

统一的 LLM 机制集成方案：
- 现有工作： 大多数 LLM 启发的工作要么专注于 Transformer 架构的移植，要么单独探索上下文工程或推理增强，且往往仅限于检索或排序单一阶段。例如，HSTU 和 ReaRec 尽管使用了 Transformer，但其上下文利用和推理机制不如 OnePiece 系统。
- OnePiece 创新： 首次将 LLM 风格的上下文工程和多步推理这两个互补机制，以统一的框架无缝集成到工业级级联管道的检索和排序两个阶段。这实现了从输入侧的上下文丰富到输出侧的迭代细化的端到端增强。
结构化上下文工程：
- 现有工作： 多数 Transformer 推荐模型主要依赖原始用户-物品交互序列，缺乏 LLM 风格 prompt 的结构化丰富性。DLRM 依赖复杂的特征工程，但这些特征通常是为特定架构定制的。
- OnePiece 创新： 提出了结构化词元化输入序列，除了用户交互历史 (IH) 外，还引入了偏好锚点 (PA)（来自领域知识的辅助序列，如 query-associated top-k purchases）和情境描述符 (SD)（用户画像、查询信息）。在排序阶段，还通过分组集合式 (grouped setwise) 策略将候选项目集 (CIS) 纳入统一序列，实现了候选项目间的交互感知。这种结构化的上下文构建方式，为模型提供了更丰富、更具引导性的信息，从而更好地激发推理能力。
块状潜在推理机制：
- 现有工作： ReaRec 等推理增强模型通常在一个单一的隐藏状态上进行迭代细化，其推理带宽有限。
- OnePiece 创新： 设计了块状潜在推理 (block-wise latent reasoning) 机制。它迭代地细化一组隐藏状态（即一个“块”），而不是单个隐藏状态。这种设计提供了可调节的推理带宽 (adjustable reasoning bandwidth)，避免了信息过度压缩，并鼓励不同词元在块内扮演特定角色，实现更灵活和信息更丰富的表示细化。
渐进式多任务训练：
- 现有工作： 缺乏针对推荐场景多步推理过程的有效监督机制，尤其是在没有 思维链 标注的情况下。
- OnePiece 创新： 提出了渐进式多任务训练 (progressive multi-task training) 策略，利用电商领域自然存在的用户反馈链（如曝光、点击、加入购物车、下单）作为分阶段的监督信号。将不同复杂度的任务分配给不同的推理步骤，使得模型能够逐步学习从浅层参与到深层转化的用户偏好，有效解决了缺乏显式推理监督的问题，并避免了多任务学习中常见的梯度冲突。
工业级部署与验证：
- 现有工作： 许多研究停留在离线实验阶段，缺乏在真实大规模工业系统中的部署和线上 A/B 测试验证。
- OnePiece 创新： 不仅进行了详尽的离线实验，还在 Shopee 的主打个性化搜索场景中进行了大规模线上 A/B 测试，并取得了显著的业务收益（GMV/UU 和广告收入的大幅提升），同时展示了优越的效率和硬件利用率，证明了其在实际工业环境中的可行性和价值。
  
  总而言之，OnePiece 的创新点在于它提供了一个更全面、更系统的解决方案，将 LLM 成功的关键原理深度整合到工业级推荐系统的核心流程中，并通过新颖的模型设计和训练策略，克服了实际部署中的挑战。

4. 方法论

4.1. 方法原理

OnePiece 框架的核心思想是在工业级级联排序系统中，通过借鉴大语言模型 (LLMs) 的上下文工程和多步推理机制，显著提升检索和排序的性能。它构建在一个纯 Transformer 主干网络之上，旨在统一处理异构信号，并分阶段、迭代地细化用户和物品的表示。

其背后的理论基础和直觉是：

丰富上下文以激发能力： 就像 LLMs 通过精心设计的 prompt 和外部知识来更好地理解用户意图一样，推荐系统也需要更丰富的上下文信息。传统的交互历史序列可能不足以捕捉复杂的、情境化的用户偏好。通过结构化上下文工程，将用户长期行为、领域专家知识（偏好锚点）和当前情境信息（情境描述符）融合成统一的输入，可以为模型提供更全面的“思考”基础。
多步迭代推理以精炼输出： LLMs 通过 思维链 或内部迭代来逐步推导复杂问题的答案。类似地，推荐系统中的用户偏好建模和物品排序也并非一步到位的简单过程。通过多步推理，模型可以迭代地细化其对用户偏好的理解和对物品相关性的评估，从粗粒度到细粒度，逐步收敛到更精确的决策。这种迭代过程允许模型在每个步骤中整合新的信息或修正之前的判断。
渐进式监督以有效训练： 在缺乏 思维链 等显式推理路径监督的情况下，如何有效训练多步推理模型是一个挑战。OnePiece 利用推荐系统中天然存在的用户反馈链（如曝光 -> 点击 -> 加入购物车 -> 购买）作为渐进式监督信号。通过将不同复杂度的任务分配给不同的推理步骤，模型可以在早期步骤学习通用、易获得的信号，而在后期步骤学习稀疏、高价值的信号，从而有效地引导每个推理步骤发展出特定的能力。

总之，OnePiece 旨在通过结构化的输入和迭代的内部处理，使推荐模型能够“更像人一样思考”：先全面理解情境，再分步细致地推理，最终做出更明智的推荐决策。

4.2. 核心方法详解

OnePiece 是一个统一框架，将结构化上下文工程、块状潜在推理和渐进式多任务训练策略结合起来。它以一个纯 Transformer 主干网络为基础，统一了检索和排序任务的输入表示和处理方式。

4.2.1. 整体架构概述

OnePiece 的整体架构如 Figure 2 所示，在检索模式 (a) 和排名模式 (b) 下均采用了相同的核心组件：

上下文工程 (Context Engineering): 将异构信号编码为统一的词元序列。
- 包括用户交互历史 (IH)、基于专家经验构建的偏好锚点 (PA)、捕获场景特定上下文的情境描述符 (SD)，以及（仅在排名模式中使用的）候选项目描述符 (CIS)。
基于 Transformer 的主干网络与块状推理 (Transformer-based Backbone with Block-wise Reasoning): 一个简单的纯 Transformer 主干网络，通过潜在推理块迭代地细化中间表示，实现逐步的用户偏好建模。
渐进式多任务训练策略 (Progressive Multi-Task Training Strategy): 一个分阶段的优化策略，利用多层次的用户反馈（例如，早期的块与弱信号对齐，如点击；后期的块由更强但更稀疏的信号指导，如购买）来监督不同的推理块。

下图（原文 Figure 2）展示了 OnePiece 框架的整体架构：

该图像是OnePiece框架的整体架构示意图，展示了检索模式(a)和排名模式(b)。两种模式均采用结构化上下文工程来构建统一输入标记，利用块状潜在推理通过多步推理逐步增强表示，并通过渐进式多任务训练进行优化。

4.2.2. 上下文工程

OnePiece 将所有输入转换为统一的词元序列，可以直接由 Transformer 主干网络处理。为了全面捕捉用户意图和情境上下文信息，设计了四种互补的词元类型。

实体嵌入与投影： 用户 $u$ 、查询 $q$ 和物品 $\nu$ 的特征表示分别记为 $\mathbf{u}$ 、 $\mathbf{q}$ 和 $\mathbf{v}$ 。我们使用实体特定的嵌入函数 $\phi_{\mathrm{user}}(\cdot)$ 、 $\phi_{\mathrm{query}}(\cdot)$ 和 $\phi_{\mathrm{item}}(\cdot)$ 将每个实体的特征信息（包括类别和连续特征）映射到连接的嵌入向量。为了将这些嵌入统一到主干网络的 $d$ 维隐藏空间，我们使用轻量级投影层（如浅层多层感知机 MLPs）。具体定义 $\mathrm{Proj}_{\mathrm{user}}$ 、 $\mathrm{Proj}_{\mathrm{query}}$ 和 $\mathrm{Proj}_{\mathrm{cand}}$ ，每个投影层将其对应的输入维度映射到 $\mathbb{R}^d$ 。交互历史 (IH) 和偏好锚点 (PA) 组件共享 $\mathrm{Proj}_{\mathrm{shared}}$ ，而用户、查询和候选词元使用各自的投影层。

输入词元序列的组件：

交互历史 (Interaction History, IH):
- 编码用户按时间顺序的历史物品交互，捕捉时间模式和演变偏好。
- 给定用户 $u$ $u$ 的交互历史 $S^u = (\mathbf{v}_1^u, \ldots, \mathbf{v}_{n_u}^u)$ $S^{u} = (v_{1}^{u}, \dots, v_{n_{u}}^{u})$ ，我们使用共享投影层嵌入每个物品描述符： $\mathbf{z}_t^{\mathrm{IH}} = \mathrm{Proj}_{\mathrm{shared}}\left(\phi_{\mathrm{item}}(\mathbf{v}_t^u)\right) \in \mathbb{R}^d$ 其中：
  - $\mathbf{v}_t^u$ 表示用户 $u$ 交互的第 $t$ 个物品的特征表示。
  - $\phi_{\mathrm{item}}(\cdot)$ 是物品特定的嵌入函数。
  - $\mathrm{Proj}_{\mathrm{shared}}(\cdot)$ 是共享的投影层，将物品嵌入映射到 $d$ 维隐藏空间。
  - $\mathbf{z}_t^{\mathrm{IH}}$ 是第 $t$ 个物品的投影嵌入。
- 然后，通过添加基于交互顺序的位置嵌入来整合时间信息： $\mathbf{h}_t^{\mathrm{IH}} = \mathbf{z}_t^{\mathrm{IH}} + \mathbf{p}_t^{\mathrm{IH}}, \quad 1 \leq t \leq n_u$ 其中：
  - $\mathbf{p}_t^{\mathrm{IH}} \in \mathbb{R}^d$ 是序列中第 $t$ 次交互的可学习位置嵌入。
  - $\mathbf{h}_t^{\mathrm{IH}}$ 是最终的词元嵌入，整合了内容和时间信息。
偏好锚点 (Preference Anchors, PA):
- 基于领域知识构建，提供高质量的参考点，注入归纳偏置，引导模型推理过程。例如，在个性化搜索中，可以将被查询物品的 top-clicked 物品作为锚点。
- 对于用户 $u$ $u$ ，提供 $B$ $B$ 个锚点组 $\mathcal{A}^u = \{A_1^u, \ldots, A_B^u\}$ $A^{u} = {A_{1}^{u}, \dots, A_{B}^{u}}$ ，每个组包含 $m_b$ $m_{b}$ 个物品 $A_b^u = (\bar{\nu_{b,1}^{\mathrm{PA}}}, \dots, \nu_{b,m_b}^{\mathrm{PA}})$ $A_{b}^{u} = (\overset{ˉ}{ν_{b, 1}^{PA}}, \dots, ν_{b, m_{b}}^{PA})$ 。对于第 $b$ $b$ 个锚点组中的第 $j$ $j$ 个物品，计算词元嵌入： $\mathbf{z}_{b,j}^{\mathrm{PA}} = \mathrm{Proj}_{\mathrm{shared}}\left(\phi_{\mathrm{item}}\left(\mathbf{v}_{b,j}^{\mathrm{PA}}\right)\right) \in \mathbb{R}^d, \quad \mathbf{h}_{b,j}^{\mathrm{PA}} = \mathbf{z}_{b,j}^{\mathrm{PA}} + \mathbf{p}_j^{\mathrm{PA}}$ 其中：
  - $\mathbf{v}_{b,j}^{\mathrm{PA}}$ 是第 $b$ 个锚点组中第 $j$ 个物品的特征表示。
  - $\mathbf{p}_j^{\mathrm{PA}} \in \mathbb{R}^d$ 是组内第 $j$ 个位置的位置嵌入。
- 为了保留组结构，每个组都用可学习的边界词元 $\mathbf{e}_{\mathrm{BOS}}$ (Beginning of Sequence) 和 $\mathbf{e}_{\mathrm{EOS}}$ (End of Sequence) 包裹，得到最终的词元序列： $(\mathbf{e}_{\mathrm{BOS}}, \ \mathbf{h}_{b,1}^{\mathrm{PA}}, \ldots, \ \mathbf{h}_{b,m_b}^{\mathrm{PA}}, \ \mathbf{e}_{\mathrm{EOS}})$
情境描述符 (Situational Descriptors, SD):
- 捕获与排序任务相关的非物品信息，如用户静态特征和查询特定信息。
- 对于用户 $u$ $u$ 及其相关特征，计算嵌入： $\mathbf{z}^{\mathrm{U}} = \mathrm{Proj}_{\mathrm{user}}\big(\phi_{\mathrm{user}}(\mathbf{u})\big) \in \mathbb{R}^d, \quad \mathbf{h}^{\mathrm{U}} = \mathbf{z}^{\mathrm{U}} + \mathbf{p}_k^{\mathrm{U}}$ 其中：
  - $\mathbf{u}$ 是用户 $u$ 的特征表示。
  - $\mathrm{Proj}_{\mathrm{user}}(\cdot)$ 是用户特定的投影层。
  - $\mathbf{h}^{\mathrm{U}} \in \mathbb{R}^d$ 是投影后的用户嵌入。
  - $\mathbf{p}_k^{\mathrm{U}} \in \mathbb{R}^d$ 是用户词元在序列中位置 $k$ 的位置嵌入。
- 类似地，对于查询 $q$ $q$ （推荐场景中可省略），得到： $\mathbf{z}^{\mathrm{Q}} = \mathrm{Proj}_{\mathrm{query}}\left(\phi_{\mathrm{query}}(\mathbf{q})\right) \in \mathbb{R}^d, \quad \mathbf{h}^{\mathrm{Q}} = \mathbf{z}^{\mathrm{Q}} + \mathbf{p}_k^{\mathrm{Q}}$ 其中：
  - $\mathbf{q}$ 是查询 $q$ 的特征表示。
  - $\mathrm{Proj}_{\mathrm{query}}(\cdot)$ 是查询特定的投影层。
  - $\mathbf{p}_k^{\mathrm{Q}} \in \mathbb{R}^d$ 是查询词元的位置嵌入。
候选项目集 (Candidate Item Set, CIS, 仅限排名模式):
- 在排名阶段，为了平衡效率和表达力，OnePiece 采用分组集合式 (grouped setwise) 策略。检索到的候选集 $\mathcal{V}'$ 被随机分成大小为 $C$ （例如 12）的小组，每个小组独立处理，允许组内候选项目间的交互。
- 给定一个包含 $C$ $C$ 个待排序物品的候选组 $C^u = \{\mathbf{v}_1^{\mathrm{CIS}}, \ldots, \mathbf{v}_C^{\mathrm{CIS}}\}$ $C^{u} = {v_{1}^{CIS}, \dots, v_{C}^{CIS}}$ ，我们将每个候选物品嵌入为： $\mathbf{z}_i^{\mathrm{CIS}} = \mathrm{Proj}_{\mathrm{cand}}\left(\phi_{\mathrm{item}}(\mathbf{v}_i^{\mathrm{CIS}})\right) \in \mathbb{R}^d$ 其中：
  - $\mathbf{v}_i^{\mathrm{CIS}}$ 是候选组中第 $i$ 个物品的特征表示。
  - $\mathrm{Proj}_{\mathrm{cand}}(\cdot)$ 是候选物品特定的投影层。
- 为了避免位置和相关性标签之间的虚假相关性，我们故意不为候选词元添加位置嵌入： $\mathbf{h}_i^{\mathrm{CIS}} = \mathbf{z}_i^{\mathrm{CIS}}, \quad 1 \leq i \leq C$

序列打包与排序 (Sequence Packing and Ordering): 最终输入序列通过连接词元子序列 $\oplus$ 得到，遵循固定的排序规则：

检索模式 (Retrieval Mode): $\boldsymbol{\mathcal{I}}_{\mathrm{retrieval}}^u = \underbrace{(\mathbf{h}_1^{\mathrm{IH}}, \dots, \mathbf{h}_{n_u}^{\mathrm{IH}})}_{\mathrm{chronological IH}} \oplus \underbrace{\bigoplus_{b=1}^B \left(\mathbf{e}_{\mathrm{BOS}}, \mathbf{h}_{b,1}^{\mathrm{PA}}, \dots, \mathbf{h}_{b,m_b}^{\mathrm{PA}}, \mathbf{e}_{\mathrm{EOS}}\right)}_{\mathrm{PA groups ordered by business rule}} \oplus \underbrace{(\mathbf{h}^{\mathrm{U}}, \ \mathbf{h}^{\mathrm{Q}}, \dots)}_{\mathrm{SD segment}}.$ 其中：
- IH 词元按交互时间戳升序排列。
- 每个 PA 组由 BOS/EOS 边界词元包裹，组间按预定义业务规则排序。
- SD 词元没有时间顺序，放置在具有不同位置索引的段中。
排名模式 (Ranking Mode): $\mathcal{I}_{\mathrm{rank}}^u = \mathcal{I}_{\mathrm{retrieval}}^u \oplus (\mathbf{h}_1^{\mathrm{CIS}}, \ldots, \mathbf{h}_C^{\mathrm{CIS}}).$ CIS 词元被附加，不带位置编码，以防止模型在训练期间学习序列位置和相关性标签之间的虚假相关性。

下图（原文 Figure 3）展示了 OnePiece 中上下文工程和词元化设计：

Figure 3 | Context engineering and tokenizer design for input token sequences in OnePiece. Both retrieval and ranking share the same construction of interaction history (IH), preference anchors (PA),… 该图像是示意图，展示了OnePiece中检索模式和排名模式下的输入标记序列。图中包括了交互历史、偏好锚点和情境描述符的构建，同时在排名模式中增加了候选项目集的标记，支持单塔架构下的联合评分。

4.2.3. 主干网络架构

OnePiece 的主干网络以统一的方式处理上下文工程生成的打包词元序列。

基于 Transformer 的序列编码 (Transformer-Based Sequential Encoding):

设 $\bar{\boldsymbol{\xi}} = [\mathbf{h}_1; \ldots; \mathbf{h}_N]$ 是由 Sec. 4.2.2 构造的最终输入词元，其中 $N$ 是总输入序列的长度。
我们采用一个 $L$ 层的双向 Transformer (bi-directional Transformer) (Vaswani et al., 2017) 作为主干架构，并使用预归一化 (pre-normalization)。
形式上，设 $\mathbf{H}^l = [\mathbf{h}_1^l; \ldots; \mathbf{h}_N^l] \in \mathbb{R}^{N \times d}$ $H^{l} = [h_{1}^{l}; \dots; h_{N}^{l}] \in R^{N \times d}$ 表示第 $l$ $l$ 层的隐藏状态，初始输入为 $\mathbf{H}^{(0)} = \boldsymbol{\mathcal{I}}$ $H^{(0)} = I$ 。第 $l$ $l$ 层 ( $1 \leq l \leq L$ $1 \leq l \leq L$ ) 的计算如下： $\begin{array}{rl} & \mathbf{H}_{\mathrm{attn}}^l = \mathbf{H}^{l-1} + \mathrm{MHSA}\Big(\mathrm{LN}\Big(\mathbf{H}^{l-1}\Big)\Big), \\ & \quad \mathbf{H}^l = \mathbf{H}_{\mathrm{attn}}^l + \mathrm{FFN}\Big(\mathrm{LN}\Big(\mathbf{H}_{\mathrm{attn}}^l\Big)\Big), \end{array}$ 其中：
- $\mathrm{MHSA}(\cdot)$ 是多头自注意力 (Multi-Head Self-Attention)，此处使用双向注意力。
- $\mathrm{FFN}(\cdot)$ 是位置感知前馈网络 (position-wise Feed-Forward Network)。
- $\mathrm{LN}(\cdot)$ 表示层归一化 (Layer Normalization)。
- $\mathbf{H}^{l-1}$ 是前一层的隐藏状态。
- $\mathbf{H}_{\mathrm{attn}}^l$ 是经过多头自注意力后的中间状态。
- $\mathbf{H}^l$ 是经过前馈网络后的最终隐藏状态。
选择双向注意力是因为个性化排序任务在训练和推理模式下都是非自回归的，允许词元基于完整上下文进行条件化，从而在实践中获得更优性能。最终编码器输出 $\mathbf{H}^L = [\mathbf{h}_1^L; \ldots; \mathbf{h}_N^L]$ 作为后续推理的基础。

块状多步潜在推理 (Block-Wise Multi-Step Latent Reasoning):

受 ReaRec (Tang et al., 2025) 启发，我们采用多步细化过程。与以往方法不同，OnePiece 设计了块状推理机制，其中一组隐藏状态在步骤之间迭代传输。
设 $M$ 表示块大小，它是任务相关的。设 $\mathbf{B}_k \in \mathbb{R}^{M \times d}$ 表示第 $k$ 个推理块。
初始块 $\mathbf{B}_0$ 从最终编码器输出 $\mathbf{H}^L$ 构建： $\mathbf{B}_0 = \mathbf{H}^L[N - M + 1 : N] \in \mathbb{R}^{M \times d}.$ 其中， $\mathbf{H}^L[N - M + 1 : N]$ 表示从 $\mathbf{H}^L$ 中选择最后 $M$ 个隐藏状态作为初始块。
对于步骤 $k \geq 1$ ，我们首先从前一个推理步骤的输出中提取块： $\mathbf{B}_k = \mathbf{H}_{k-1}^L[N + (k - 2)M + 1 : N + (k - 1)M] \in \mathbb{R}^{M \times d}.$ 这里表示从上一步 Transformer 输出的扩展序列中提取下一个块。
为了区分不同的推理步骤，引入推理位置嵌入 (Reasoning Position Embeddings, RPE)。设 $\mathbf{E}_{\mathrm{RPE}} \in \mathbb{R}^{K \times d}$ $E_{RPE} \in R^{K \times d}$ 是一个可学习的嵌入矩阵，其中 $K$ $K$ 是最大推理步骤数。我们定义： $\begin{array}{l} \tilde{\mathbf{B}}_0 = \mathbf{B}_0, \\ \tilde{\mathbf{B}}_k = \mathbf{B}_k + \mathbf{1}_M \otimes \mathbf{E}_{\mathrm{RPE}}[k, :] \quad \mathrm{for} k \geq 1, \end{array}$ 其中：
- $\mathbf{1}_M \in \mathbb{R}^M$ 是一个全为 1 的向量。
- $\otimes$ 表示外积 (outer product)。
- $\mathbf{E}_{\mathrm{RPE}}[k, :]$ 是第 $k$ 个推理步骤的 RPE 向量。
- $\tilde{\mathbf{B}}_k$ 是添加 RPE 后的推理块。
在每个步骤 $k$ $k$ ，我们将基础序列 $\boldsymbol{\mathcal{I}}$ $I$ 与所有先前的增强块 $\tilde{\mathbf{B}}_{<k}$ $\tilde{B}_{< k}$ 和当前块 $\tilde{\mathbf{B}}_k$ $\tilde{B}_{k}$ 连接起来，然后通过 Transformer 主干网络，并使用块状因果掩码 (block-wise causal mask) 进行处理： $[\mathcal{I}; \tilde{\mathbf{B}}_{<k}; \tilde{\mathbf{B}}_k] \xrightarrow[]{\mathcal{F}_{\boldsymbol{\theta}}(\cdot; \mathcal{M}_k)} \mathbf{H}_k^L \in \mathbb{R}^{(N + kM) \times d},$ 其中：
- $\mathcal{F}_{\boldsymbol{\theta}}$ 是 Transformer 更新函数。
- $\mathcal{M}_k$ 是掩码机制，强制信息流约束。
- 如 Figure 4(a) 所示，因果块状掩码 $\mathcal{M}_k$ 强制：(1) 块词元 $\tilde{\mathbf{B}}_k$ 可以关注所有基础词元 $\boldsymbol{\mathcal{I}}$ 和所有历史块 $\tilde{\mathbf{B}}_{<k}$ ；(2) 当前推理块的词元不能关注未来的推理块词元。
迭代应用此过程，得到逐步细化的推理状态 $\tilde{\mathbf{B}}_1, \tilde{\mathbf{B}}_2, \ldots, \tilde{\mathbf{B}}_K$ 。

任务特定块大小 $M$ 策略：

检索模式 (Retrieval Mode): 块大小 $M$ 等于情境描述符 (SD) 的长度，提供足够的容量进行紧凑而富有表达力的细化。用户 ( $\mathbf{h}_{\mathrm{U}}$ ) 和查询 ( $\mathbf{h}_{\mathrm{Q}}$ ) 词元被指定为聚合块，迭代推理这些词元以共同增强匹配过程中的个性化和相关性维度。
排名模式 (Ranking Mode): 块大小 $M=C$ ，其中每个块对应所有候选项目词元。最终块 $\tilde{\mathbf{B}}_K$ 包含用于排序的细化表示。为了防止过拟合候选顺序并鼓励鲁棒的集合式推理，训练期间应用了随机候选分组 (randomized candidate grouping)。

下图（原文 Figure 4）展示了块状推理掩码和渐进式多任务训练：

该图像是图表，展示了区块推理掩码和渐进式多任务训练的概念。左侧 (a) 展示了在区块推理中，各层如何通过因果注意力掩码相互连接；右侧 (b) 表示渐进式训练中任务的复杂性逐步增加，提供有效的过程监督。

4.2.4. 渐进式多任务训练

基于块状多步推理框架，我们获得了一系列中间块表示 $\{ \mathbf{B}_k \}_{k=1}^K$ ，其中 $\mathbf{B}_k \in \mathbb{R}^{M \times d}$ 表示第 $k$ 个推理步骤的 $M$ 个隐藏状态。为了有效监督推理轨迹，引入了渐进式多任务训练 (progressive multi-task training) 范式，通过逐步增加任务复杂性来实现课程学习 (curriculum learning)。

我们定义 $K$ 个学习目标 $\mathcal{T} = \{ \tau_1, \tau_2, \ldots, \tau_K \}$ ，按照从基础到高级的渐进课程排列。例如，在电商领域，这遵循自然的用户参与度进展：曝光 $\to$ 点击 $\to$ 购买。每个推理步骤 $k$ 被分配优化一个任务 $\tau_k$ ，创建一个分步学习轨迹，模型首先掌握基本识别能力，然后进展到复杂的偏好建模。这种渐进式分配在每个推理阶段提供丰富的过程监督，从而更有效地学习中间表示，并确保每个推理块在建立在前一步骤基础之上发展出专门的能力。

检索模式 (Retrieval Mode): 在检索阶段，我们从推理块序列中提取用户表示，并使用校准概率估计和双向对比学习目标进行优化。

用户表示提取： 给定推理块序列 $\{ \mathbf{B}_k \}_{k=1}^K$ ${B_{k}}_{k = 1}^{K}$ ，其中 $\mathbf{B}_k \in \mathbb{R}^{M \times d}$ $B_{k} \in R^{M \times d}$ ，我们通过层归一化后进行平均池化 (mean pooling) 从每个块中提取一个特定于步骤的用户表示： $\mathbf{r}_k = \mathrm{Mean}(\mathrm{LN}(\mathbf{B}_k)) \in \mathbb{R}^d, \quad k \in \{1, 2, ..., K\}.$ 其中：
- $\mathrm{LN}(\cdot)$ 是层归一化。
- $\mathrm{Mean}(\cdot)$ 是平均池化操作。
- $\mathbf{r}_k$ 是第 $k$ 个推理步骤的用户表示。
损失函数： 对于每个训练实例，构建一个候选池 $\Omega$ $Ω$ ，其中包含在渐进任务序列中具有不同行为标签的物品。设 $\mathbf{z}_{\nu} \in \mathbb{R}^d$ $z_{ν} \in R^{d}$ 表示候选物品 $\nu \in \Omega$ $ν \in Ω$ 的物品嵌入。对于分配给步骤 $k$ $k$ 的任务 $\tau_k$ $τ_{k}$ 和候选 $\nu \in \Omega_{\tau_k}$ $ν \in Ω_{τ_{k}}$ ，设 $y_{\nu}^k \in \{0, 1\}$ $y_{ν}^{k} \in {0, 1}$ 表示相应的行为标签。我们将候选池划分为正样本集 $\Omega_{\tau_k}^+$ $Ω_{τ_{k}}^{+}$ 和负样本集 $\Omega_{\tau_k}^-$ $Ω_{τ_{k}}^{-}$ 。
- (i) 二元交叉熵损失 (Binary Cross-Entropy Loss, BCE): 在点级别操作，为单个用户-物品对提供校准的概率估计： $\mathcal{L}_k^{\mathrm{BCE}} = \sum_{\nu \in \Omega_{\tau_k}^+} - \log \sigma(\langle \mathbf{r}_k, \mathbf{z}_{\nu} \rangle) + \sum_{\nu \in \Omega_{\tau_k}^-} - \log \big(1 - \sigma(\langle \mathbf{r}_k, \mathbf{z}_{\nu} \rangle) \big),$ 其中：
  - $\sigma(\cdot)$ 是 Sigmoid 函数，将预测得分转换为概率。
  - $\langle \cdot, \cdot \rangle$ 表示向量内积。
  - $\mathcal{L}_k^{\mathrm{BCE}}$ 是第 $k$ 个推理步骤的二元交叉熵损失。
- (ii) 双向对比学习 (Bidirectional Contrastive Learning, BCL): 在批次级别操作，实现批内样本的全局对比推理。
  - 用户到物品 (User-to-Item, U2I) 对比学习： 使每个用户表示 $\mathbf{r}_k$ $r_{k}$ 能够整体区分正样本物品和负样本候选物品： $\mathcal{L}_k^{\mathrm{U2I}} = \sum_{\nu \in \Omega_{\tau_k}^+} - \log \frac{\exp(\langle \mathbf{r}_k, \mathbf{z}_{\nu} \rangle / \eta)}{\sum_{\nu^+ \in \Omega_{\tau_k}^+} \exp(\langle \mathbf{r}_k, \mathbf{z}_{\nu^+} \rangle / \eta) + \sum_{\nu^- \in \Omega_{\tau_k}^-} \exp(\langle \mathbf{r}_k, \mathbf{z}_{\nu^-} \rangle / \eta)},$ 其中：
    - $\eta > 0$ 是温度参数。
    - $\mathcal{L}_k^{\mathrm{U2I}}$ 是第 $k$ 个推理步骤的用户到物品对比学习损失。
  - 物品到用户 (Item-to-User, I2U) 对比学习： 使每个正样本物品能够识别其对应的用户。设 $\mathcal{R}_k = \{\mathbf{r}_k^{(i)}\}_{i=1}^B$ $R_{k} = {r_{k}^{(i)}}_{i = 1}^{B}$ 是当前训练批次中所有用户表示的集合， $B$ $B$ 是批次大小。那么，I2U 目标是： $\mathcal{L}_k^{\mathrm{I2U}} = \sum_{\nu \in \Omega_{\tau_k}^+} - \log \frac{\exp(\langle \mathbf{r}_k, \mathbf{z}_{\nu} \rangle / \eta)}{\sum_{\mathbf{r}' \in \mathcal{R}_k} \exp(\langle \mathbf{r}', \mathbf{z}_{\nu} \rangle / \eta)}.$ 其中：
    - $\mathcal{L}_k^{\mathrm{I2U}}$ 是第 $k$ 个推理步骤的物品到用户对比学习损失。
  - 完整的 BCL 目标： 结合两个对称组件： $\mathcal{L}_k^{\mathrm{BCL}} = \mathcal{L}_k^{\mathrm{U2I}} + \mathcal{L}_k^{\mathrm{I2U}}.$
总体检索损失： 聚合所有推理步骤的目标，每个步骤 $k$ 优化其分配的任务 $\tau_k$ ： $\mathcal{L}^{\mathrm{retrieval}} = \sum_{k=1}^K \big( \mathcal{L}_k^{\mathrm{BCE}} + \mathcal{L}_k^{\mathrm{BCL}} \big).$ 这种渐进式训练策略提供全面的过程监督，每个推理步骤都接收与其分配任务复杂度相匹配的专用监督信号，实现多步推理能力的更有效学习。

排名模式 (Ranking Mode): 在排名阶段，块大小等于候选组大小 ( $M=C$ )。每个推理块 $\mathbf{B}_k \in \mathbb{R}^{C \times d}$ 包含 $C$ 个隐藏状态 $\{ \mathbf{h}_{i,k} \}_{i=1}^C$ ，其中 $\mathbf{h}_{i,k} \in \mathbb{R}^d$ 表示第 $k$ 个推理步骤中第 $i$ 个候选的隐藏状态。对于分配给推理步骤 $k$ 的任务 $\tau_k$ ，我们通过任务特定的评分网络计算候选物品的 logits：

候选物品 logits 计算： $s_{i,k} = \mathrm{MLP}_{\tau_k}(\mathbf{h}_{i,k}) \in \mathbb{R}, \quad i \in \{1, \ldots, C\},$ 其中：
- $\mathrm{MLP}_{\tau_k}$ 表示任务 $\tau_k$ 的多层感知机。
- $s_{i,k}$ 是第 $k$ 个推理步骤中第 $i$ 个候选物品的 logit 分数。
损失函数： 采用两种互补的学习目标：
- (i) 二元交叉熵损失 (BCE): 为单个候选物品提供点级别的概率校准： $\mathcal{L}_k^{\mathrm{BCE}} = \sum_{i=1}^C \left[ - y_i^{\tau_k} \log \sigma(s_{i,k}) - (1 - y_i^{\tau_k}) \log (1 - \sigma(s_{i,k})) \right],$ 其中：
  - $y_i^{\tau_k} \in \{0, 1\}$ 表示候选物品 $i$ 在任务 $\tau_k$ 上的行为标签。
- (ii) 集合对比学习 (Set Contrastive Learning, SCL): 在集合级别操作，使每个正样本候选物品能够区分自己与集合中的负样本候选物品： $\mathcal{L}_k^{\mathrm{SCL}} = \sum_{i:y_i^{\tau_k}=1} - \log \frac{\exp(s_{i,k} / \eta)}{\sum_{j=1}^C \exp(s_{j,k} / \eta)},$ 其中：
  - 求和是在所有正样本候选物品上进行的。
  - 每个正样本候选物品与组中所有候选物品竞争排名位置。
总体排名损失： 结合所有推理步骤的目标： $\mathcal{L}^{\mathrm{ranking}} = \sum_{k=1}^K \left( \mathcal{L}_k^{\mathrm{BCE}} + \mathcal{L}_k^{\mathrm{SCL}} \right).$ 这种基于课程的 (curriculum-based) 多任务训练在整个推理过程中提供了密集的监督信号，使模型能够学习更有效的逐步推理模式，同时确保每个推理块为其指定任务的复杂度级别发展出适当的能力。

4.2.5. 时间复杂度分析

本节分析了 OnePiece 块状推理框架在检索和排名模式下的时间复杂度。

主干编码器 (Backbone Encoder) (不含推理)：
- 每个 Transformer 层的时空复杂度为 $O(N^2 d + N d^2)$ 。
- 其中 $N$ 是基础序列长度， $d$ 是隐藏维度， $L$ 是层数。
- 因此，总成本为 $O(L (N^2 d + N d^2))$ 。
推理阶段 (Reasoning Phase)：
- 我们采用 KV 缓存 (KV Caching) 技术重用历史的键值对 (key-value pairs)，因此每个新的推理步骤只涉及 $M$ 个新块词元与缓存词元之间的注意力计算。
- 具体来说，在推理步骤 $k$ $k$ ，需要：
  - (i) 为 $M$ 个新块词元计算 Q、K、V： $O(M d^2)$ 。
  - (ii) 计算 $M$ 个新词元与所有 $N + (k-1)M$ 个缓存词元之间的注意力： $O(M (N + kM) d)$ 。
  - (iii) 应用输出投影： $O(M d^2)$ 。
- 因此，步骤 $k$ 中每层的复杂度为： $O \big( M (N + kM) d + M d^2 \big).$
- 聚合 $K$ 个推理步骤和 $L$ 层，总的额外推理成本为： $O \big( L K M (N d + M K d + d^2) \big).$

5. 实验设置

5.1. 数据集

实验基于 Shopee 平台（一个服务东南亚和拉丁美洲数十亿用户的电商平台）30 天的日志数据。数据集统计信息如 Table 1 所示，包含多行为用户交互。

以下是原文 Table 1 的结果：

#User	#Item	#Query	#Impression	#Click	#Add-to-Cart	#Order
10M	93M	12M	0.24B	60M	12M	6M

表 1: Shopee 电商平台从 2025 年 6 月 11 日至 7 月 10 日的数据集统计。数据集包括多行为用户交互。缩写：M = Million ( $10^6$ )，B = Billion ( $10^9$ )。

数据集构建细节 (摘自附录 A 和 B):

离线数据集构建 (Retrieval Stage):
- 目标是检索用户未来可能交互的物品，关注曝光和点击目标。
- 正样本: 过滤掉没有点击行为的会话请求数据。 $m$ 个点击物品作为曝光和点击任务的正样本。
- 负样本: $n$ 个曝光但未点击的物品作为曝光任务的正样本，同时作为点击任务的负样本。
- 额外负样本: 从排序阶段 top-500 结果中未曝光的物品中采样 $k$ 个作为额外负样本。
- 难负样本 (Hard Negative Samples): 从与点击物品相同类别的未曝光物品中采样 $l$ 个，以增强模型收敛并减轻同质化推荐风险。
- m, n, k, l 的具体值基于领域专家经验和经验验证。
离线数据集构建 (Ranking Stage):
- 作为检索阶段的下游，排序任务需要进一步细化用户兴趣和偏好，以更准确地计算候选物品的相关性分数。
- 只保留有点击行为的会话请求数据。
- 正样本: 使用任务特定的交互类型（即曝光、点击、加入购物车、下单）作为正样本。
- 负样本: 转化漏斗中前序任务的交互作为对应任务的负样本（例如，对于下单预测任务，曝光、点击、加入购物车但未购买的物品作为负样本）。
- 增强难负样本: 类似检索阶段，从 top-500 排序结果中未曝光的物品中随机采样，作为增强的难负样本。
上下文工程细节 (Context Engineering Details):
- 交互历史 (IH): 使用用户最近一个月的点击序列、购物车序列和购买序列，按时间顺序排序并合并。序列中每个物品包含物品 ID、类别、店铺和其他相关属性。
- 偏好锚点 (PA): 聚合用户 query-associated 的 top-k 曝光、top-k 点击和 top-k 购买。使用 [BOS] 和 [EOS] 词元分隔不同序列类型，采用序列连接而非混合方法。
- 情境描述符 (SD): 包含用户画像和查询相关的上下文信息。引入两个专门词元：用户词元（整合用户 ID、年龄、位置和其他人口统计特征）和查询词元（整合查询 ID、文本内容、查询流行度及相关信息）。
- 候选项目集 (CIS): 涉及直接的物品特征。
  
  选择这些数据集进行实验是因为 Shopee 平台的数据规模庞大且包含丰富的用户多行为交互，非常适合验证模型在真实工业环境下的性能和可扩展性。

5.2. 评估指标

论文中使用的评估指标分为离线评估和在线 A/B 测试两类。

5.2.1. 离线评估指标

检索阶段： 关注成功召回的点击物品数量。
- Recall@K (召回率@K):
  - 概念定义: Recall@K 表示在模型返回的 $K$ 个推荐结果中，实际被用户点击（或交互）的物品所占的比例。它衡量的是模型在给定推荐数量下，找到所有相关物品的能力。
  - 数学公式: $\mathrm{Recall@K} = \frac{\text{Number of relevant items in top K recommendations}}{\text{Total number of relevant items}}$
  - 符号解释:
    - Number of relevant items in top K recommendations: 在模型给出的前 $K$ 个推荐物品中，用户实际点击（或感兴趣）的物品数量。
    - Total number of relevant items: 用户实际点击（或感兴趣）的所有物品的总数量。
  - 本文报告: Recall@100 和 Recall@500。
排序阶段： 评估模型在三种用户反馈类型（点击 C-、加入购物车 A-、下单 O-）下的性能。
- AUC (Area Under the Curve, 曲线下面积):
  - 概念定义: AUC 是接收者操作特征 (Receiver Operating Characteristic, ROC) 曲线下方的面积。ROC 曲线描绘了分类器在所有分类阈值下的性能，横轴为假正率 (False Positive Rate, FPR)，纵轴为真正率 (True Positive Rate, TPR)。AUC 值通常介于 0 到 1 之间，值越高表示分类器性能越好。它衡量模型区分正负样本的能力。
  - 数学公式: $\mathrm{AUC} = \frac{\sum_{i \in \text{positive class}} \sum_{j \in \text{negative class}} \mathbf{1}(P_i > P_j)}{\text{Number of positive samples} \times \text{Number of negative samples}}$
  - 符号解释:
    - $\mathbf{1}(\cdot)$ : 指示函数，当括号内条件为真时为 1，否则为 0。
    - $P_i$ : 第 $i$ 个正样本的预测概率。
    - $P_j$ : 第 $j$ 个负样本的预测概率。
    - Number of positive samples: 正样本的总数。
    - Number of negative samples: 负样本的总数。
- GAUC (Group-level AUC):
  - 概念定义: GAUC 是 AUC 的加权平均版本，尤其适用于推荐系统等场景，其中不同用户（或查询、组）的样本量可能差异很大。它首先计算每个用户（或组）的 AUC 值，然后根据该用户（或组）的印象数（或其他加权因子）进行加权平均。这可以防止少数活跃用户的 AUC 过度主导整体指标。
  - 数学公式: $\mathrm{GAUC} = \frac{\sum_{u \in \text{Users}} N_u \times \mathrm{AUC}_u}{\sum_{u \in \text{Users}} N_u}$
  - 符号解释:
    - $N_u$ : 用户 $u$ 的印象（或样本）数量。
    - $\mathrm{AUC}_u$ : 用户 $u$ 的 AUC 值。
    - Users: 所有用户的集合。
  - 本文报告: C-AUC/C-GAUC (点击), A-AUC/A-GAUC (加入购物车), O-AUC/O-GAUC (下单)。

5.2.2. 在线 A/B 测试评估指标

GMV/UU (Gross Merchandise Volume per Unique User):
- 概念定义: 平均每个独立用户贡献的商品交易总额。这是一个关键的业务指标，直接反映了平台的盈利能力和用户价值。
GMV(99.5%)/UU:
- 概念定义: 排除掉 top 0.5% 的高价值订单后的平均每个独立用户贡献的商品交易总额。这个指标能够更稳定地反映常规交易的贡献，减少极端高价值订单对整体平均值的影响，体现了交易的稳定性。
AR/UU (Advertising Revenue per Unique User):
- 概念定义: 平均每个独立用户产生的广告收入。反映了广告投放的转化效率和用户对广告内容的接受度。
Order/UU (Orders per Unique User):
- 概念定义: 平均每个独立用户下的订单数量。衡量用户的购买频率。
Paid Order/UU (Paid Orders per Unique User):
- 概念定义: 平均每个独立用户成功支付的订单数量。仅统计完成支付且没有退款的购买，更准确地反映了实际完成的交易。
CTR (Click-Through-Rate, 点击率):
- 概念定义: 点击次数与总曝光次数之比。衡量推荐结果吸引用户点击的能力，反映了推荐内容的吸引力。
- 数学公式: $\mathrm{CTR} = \frac{\text{Number of Clicks}}{\text{Number of Impressions}}$
  - 符号解释:
    - Number of Clicks: 总点击次数。
    - Number of Impressions: 总曝光次数。
CTCVR (Click-to-Conversion Rate, 点击转化率):
- 概念定义: 成功转化（如购买）的次数与总点击次数之比。衡量从用户点击到最终完成购买等转化的效率。
- 数学公式: $\mathrm{CTCVR} = \frac{\text{Number of Conversions}}{\text{Number of Clicks}}$
  - 符号解释:
    - Number of Conversions: 总转化次数。
    - Number of Clicks: 总点击次数。
Buyer (购买者比例):
- 概念定义: 至少下过一个订单的独立用户所占的比例。衡量用户转变为实际购买者的能力。
Bad Query Rate (坏查询率):
- 概念定义: 人工评估员判断推荐内容与查询不相关的查询所占的百分比。它作为推荐准确性和用户满意度的反向衡量指标。

5.3. 对比基线

论文将 OnePiece 与几个代表性的基线模型进行了比较，以全面评估其性能。

DLRM (Production baseline in Shopee):
- 代表性: 这是 Shopee 的生产环境中的实际基线模型，经过高度优化，集成了多种 SOTA 组件，代表了工业界现有最佳实践的性能水平。
- 检索模式 (Retrieval Mode): 采用双塔架构 (two-tower design)，灵感来源于 DSSM (Huang et al., 2013)。查询 (query) 和用户历史 (user history) 分别编码。为了增强相关性建模，采用了 DIN-like (Zhou et al., 2018) 结构和 zero-attention (Ai et al., 2019)。一个轻量级的文本 CNN 用于提取关键词特征，而 DCNv2 (Wang et al., 2021) 捕捉高阶交叉特征。序列特征通过平均池化 (mean pooling) 聚合，然后与其他特征连接，并通过 MLP 融合。
- 排序模式 (Ranking Mode): 采用单塔架构 (single-tower architecture)，将候选物品与用户特征共同编码。主干网络是 ResFlow (Fu et al., 2024)，结合了 DIN-like 目标注意力 (target attention) 和序列行为间的交叉注意力 (cross-attention)。DCNv2 再次用于高阶交互，随后是 MLP 融合。一个 SENet (Hu et al., 2017) 模块进一步支持不同任务的自适应特征选择。
HSTU (Zhai et al., 2024):
- 代表性: Meta 提出的一个代表性的生成式推荐框架。它是一个基于 Transformer 的模型，用于建模用户交互历史。
- 比较设置: 为了公平比较，HSTU 的参数规模与 OnePiece 对齐，并采用相同的侧信息融合策略。
- 变体: 引入了 $HSTU+PA$ 变体，将偏好锚点 (Preference Anchors, PA) 引入其输入序列，使其与 OnePiece 的上下文工程保持一致。
ReaRec (Tang et al., 2025):
- 代表性: 一个代表性的推理增强推荐模型，将用户表示建模为对物品序列的多步推理。
- 比较设置: 香草 (vanilla) ReaRec 架构仅支持检索任务，输入为用户迭代历史序列。为了实验一致性，OnePiece 调整了其主干网络和特征输入以匹配 OnePiece。对于排序，ReaRec 通过在输入序列中引入候选物品并应用目标感知注意力掩码 (target-aware attention mask，类似于 HSTU 中的设计，即序列词元可以关注候选物品，但候选物品之间仍然相互不可见) 进行适配。
- 变体: 类似 HSTU，也评估了 $ReaRec+PA$ 变体，通过偏好锚点增强 IH 和 SD，为推理提供了更强的上下文先验。
  
  这些基线模型涵盖了工业生产环境中的强大基线、流行的生成式推荐框架以及近期提出的推理增强推荐模型，从而能够全面评估 OnePiece 的性能。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 总体性能

以下是原文 Table 2 的结果，总结了不同模型在 30 天训练数据下，检索和排序任务上的性能比较：

Model	Retrieval Mode		Ranking Mode
Model	R@100	R@500	C-AUC	C-GAUC	A-AUC	A-GAUC	O-AUC	O-GAUC
DLRM	0.458	0.679	0.856	0.851	0.893	0.843	0.931	0.854
HSTU	0.443	0.658	0.833	0.829	0.878	0.827	0.913	0.839
HSTU+PA	0.472	0.680	0.855	0.852	0.901	0.848	0.926	0.849
ReaRec	0.452	0.674	0.843	0.838	0.882	0.834	0.919	0.843
ReaRec+PA	0.485	0.701	0.862	0.863	0.908	0.851	0.927	0.851
OnePiece	0.517	0.731	0.911	0.909	0.952	0.897	0.963	0.886

表 2: 不同模型在检索和排序任务上的性能比较，使用 30 天训练数据。检索任务报告 Recall@100 (R@100) 和 Recall@500 (R@500)，在点击样本上评估。排序任务报告在三种反馈类型（点击 C-、加入购物车 A-、下单 O-）下的 AUC 和 GAUC。最优结果加粗显示。

从 Table 2 可以得出以下观察：

DLRM 作为强大基线： DLRM 仍然是一个非常强大的基线。相较于原始的 HSTU 和 ReaRec，DLRM 在大多数评估指标上表现更好，这归因于它充分利用了丰富的特征交互、目标注意力 (target attention) 和多种序列特征。相反，原始的 HSTU 和 ReaRec 表现不如 DLRM，因为它们仅依赖交互行为序列作为输入。
偏好锚点 (PA) 的普遍益处： 偏好锚点 (PA) 机制带来了与主干网络无关的一致收益。 $HSTU+PA$ 和 $ReaRec+PA$ 都优于其对应的 Vanilla 版本，证实了通过辅助偏好信号丰富用户历史能够提供互补信息。在这两者之间，ReaRec 由于其带有双向注意力和推理能力的 Transformer 主干网络，展现出更高的鲁棒性，能够比 HSTU 更好地利用锚点信息。
OnePiece 表现最佳： OnePiece 取得了最好的整体结果。相较于最强的 $ReaRec+PA$ 基线，OnePiece 进一步将 Recall@100 从 0.485 提升到 0.517，C-AUC 从 0.862 提升到 0.911。这些持续的收益归因于其新颖的块状潜在推理和渐进式多任务训练策略，这些策略通过多步推理实现了更细粒度的偏好细化。这些进展验证了 OnePiece 作为更强大、能够统一检索和排序的推理增强推荐框架的设计。

6.1.2. 上下文工程消融研究

以下是原文 Table 3 的结果，展示了 OnePiece 上下文工程的消融研究：

Version Model		Retrieval		Ranking
Version Model		R@100	R@500	C-AUC	C-GAUC	A-AUC	A-GAUC	O-AUC	O-GAUC
V1	IH(ID)	0.407	0.646	0.802	0.802	0.860	0.819	0.908	0.835
V2	IH(ID+Side Info)	0.428	0.657	0.846	0.844	0.871	0.839	0.918	0.845
V3	V2+PA(10)	0.459	0.677	0.879	0.876	0.923	0.863	0.940	0.861
V4	V2+PA(20)	0.467	0.686	0.885	0.886	0.929	0.869	0.946	0.866
V5	V2+PA(30)	0.475	0.689	0.892	0.890	0.936	0.874	0.949	0.871
V6	V2+PA(60)	0.491	0.707	0.901	0.900	0.945	0.886	0.956	0.880
V7	V2+PA(90)	0.504	0.719	0.908	0.905	0.951	0.896	0.962	0.885
V8	V7+SD	0.517	0.731	0.911	0.909	0.952	0.897	0.963	0.886

表 3: OnePiece 上下文工程的消融研究。PA(L) 表示附加最大长度为 L 的偏好锚点序列。SD 表示情境描述符。

为了验证上下文工程设计的有效性，进行了逐步消融研究，逐步向模型输入中添加交互历史 (IH)、偏好锚点 (PA) 和情境描述符 (SD)。

V1 (最小基线): 仅使用由原始物品 ID 组成的交互序列。在检索和排序任务中表现最差。
V2 (IH(ID+Side Info)): 引入每个物品的侧信息，性能明显提升，突出了除原始 ID 外更多物品特征的重要性。
V3-V7 (引入 PA 并增加长度): 在 V2 的基础上，通过添加用户 query-associated 的 top-k 购买、点击和曝光序列来整合偏好锚点 (PA)。从 V3 到 V7，逐渐增加序列长度（从 10 到 90）。结果显示了 PA 明显的扩展效应 (scaling effect)：延长辅助物品序列丰富了 query-specific 的上下文，使模型能够捕捉更细粒度的用户意图，从而稳定提升性能。PA 提供了 query-dependent 信号，这是纯 IH 所缺乏的。
V8 (V7+SD): 最后，结合情境描述符 (SD) 产生了最佳的整体结果，尤其是在检索方面。相较于 V7，Recall@100 从 0.504 提升到 0.517，因为额外的用户和查询侧描述符提供了更强的上下文基础，有助于检索更广泛的相关物品。相反，排序收益微乎其微，因为 IH 已经提供了丰富的个性化信号，而 PA 捕捉了详细的 query-specific 偏好。在排序阶段，SD 的作用相对较弱。

这些消融研究表明，结构化上下文工程非常有效：IH 捕捉长期个性化，PA 提供可扩展的 query-specific 锚点，SD 贡献稳定的上下文基础（尤其有利于检索），它们以互补的方式丰富了用户-查询表示，使 OnePiece 在检索和排序中实现了一致的改进。

6.1.3. 训练策略消融研究

以下是原文 Table 4 和 Table 5 的结果，展示了不同训练策略对检索和排序性能的影响：

Version	Training Strategy	R@100	R@500
V1	Causal Mask	0.464	0.671
V2	Bi-Directional	0.470	0.676
V3	V2 + 1-Step Reasoning, Click Task on Last Step	0.490	0.708
V4	V2 + 1-Step Reasoning, Multi-Task on Last Step	0.495	0.714
V5	V2 + 2-Step Reasoning, Multi-Task on Last Step	0.510	0.726
V6	V2 + 2-Step Reasoning, Progressive Multi-Task	0.517	0.731

表 4: 不同训练策略对检索性能的影响。此处，多任务指联合优化曝光和点击预测损失。

Version	Training Strategy	C-AUC	C-GAUC	A-AUC	A-GAUC	O-AUC	O-GAUC
V1	Causal Mask	0.839	0.836	0.876	0.830	0.911	0.838
V2	Bi-Directional, CIS Inter-Invisible	0.860	0.859	0.903	0.848	0.920	0.847
V3	Bi-Directional, CIS Inter-Visible	0.881	0.879	0.918	0.857	0.937	0.854
V4	V3 + 1-Step Reasoning, Multi-Task on Last Step	0.890	0.889	0.931	0.871	0.946	0.867
V5	V3 + 2-Step Reasoning, Multi-Task on Last Step	0.893	0.894	0.936	0.876	0.948	0.869
V6	V3 + 3-Step Reasoning, Multi-Task on Last Step	0.906	0.902	0.946	0.889	0.957	0.881
V7	V3 + 3-Step Reasoning, Progressive Multi-Task	0.911	0.909	0.952	0.897	0.963	0.886

表 5: 不同训练策略对排序性能的影响。此处，多任务指联合优化曝光、点击和下单预测损失。

双向注意力 (Bidirectional Attention): 从因果注意力基线 (V1) 开始，双向注意力 (V2) 在两项任务中都带来了显著收益，检索 R@100 从 0.464 提升到 0.470，排序 C-AUC 从 0.839 提升到 0.860。这验证了在推荐任务中利用双向注意力（全上下文注意力提供更全面的表示信息）的架构设计。
候选项目相互可见性 (Candidate Inter-Visibility): 对于排序任务，实现候选项目相互可见性 (V3) 带来了另一项重大提升，C-AUC 从 0.860 跃升至 0.881。这证实了 OnePiece 的候选感知框架能够实现准确排序所需的丰富比较推理。
块状推理 (Block-Wise Reasoning): 引入块状推理机制在两项任务中都表现出持续的累积性能收益。
- 检索： 从直接决策到单步推理（点击预测）(V3) 实现了显著改进 (R@100: 0.470 到 0.490)，而最终步骤的多任务学习 (V4) 提供了额外收益 (R@100: 0.495)。增加推理深度带来了预期的渐进收益：两步推理 (V5) 将检索 R@100 提升到 0.510。
- 排序： 三步推理 (V6) 实现了 C-AUC 达 0.906。这些结果表明，OnePiece 的推理框架能够实现日益复杂的偏好建模。
渐进式多任务训练 (Progressive Multi-Task Training): OnePiece 的渐进式多任务训练始终优于在最终步骤进行单嵌入多任务学习。关键优势在于将不同任务分配给多个推理步骤，而不是将所有监督集中在一个最终嵌入上。
- 收益： 渐进式训练在检索中将 R@100 从 0.510 (V5) 提升到 0.517 (V6)，在排序中将 C-AUC 从 0.906 (V6) 提升到 0.911 (V7)，显著超越了单嵌入方法。
- 原因： 这种设计避免了当多个任务竞争优化单个表示时产生的梯度冲突。相反，每个推理步骤作为专门的“读出”词元，帮助模型提取任务特定信息，有效解耦了不同目标之间的梯度流。
- 任务特定优化： 结果还揭示了任务特定的优化模式：检索受益于与曝光-点击层次结构对齐的两步推理，而排序通过捕捉完整转化漏斗的三步推理实现最佳性能，这表明 OnePiece 的渐进式框架如何自然地适应不同的任务复杂度。

6.1.4. 扩展性分析

训练数据扩展 (Training Data Scaling): 下图（原文 Figure 5）展示了不同模型在检索和排序任务上的训练收敛曲线：

Figure 5 | Training convergence curves of different models on retrieval and ranking tasks. 该图像是图表，展示了不同模型在检索和排名任务上的训练收敛曲线。图中左侧为检索模式下的 Recall@100 曲线，右侧为排名模式下的 Click AUC 曲线，均以训练数据跨度（天）为横坐标，说明了 OnePiece 相较于其他模型的表现趋势。

为了分析性能如何随训练数据量的增加而扩展，报告了在不同训练数据跨度（即用于训练的连续日志天数）下的 Recall@100（用于检索）和 AUC（用于排序），涵盖多达 60 天的数据。

数据效率： OnePiece 在仅有 7-10 天的训练数据后就已经超越了所有基线模型 (DLRM 和 HSTU)，这表明其优越的数据效率，这归因于其上下文感知和多步推理架构。
扩展能力： 随着训练数据跨度的增加，DLRM 和 HSTU 迅速达到平台期，而 OnePiece 则持续改进，且领先幅度不断扩大。到第 60 天，OnePiece 与基线模型之间的性能差距显著拉大，基线模型表现出收敛行为，而 OnePiece 仍有进一步提升的潜力。这表明 OnePiece 尚未完全收敛，并且随着更多训练数据的可用，可以实现进一步的性能提升，显示出卓越的扩展能力。
稳定性： OnePiece 的训练曲线在检索和排序任务中都表现出平滑稳定的增长，没有明显的波动，这表明在渐进式多任务监督下优化具有鲁棒性。

这些结果强调了 OnePiece 更强的建模能力以及其有效利用来自更长时间跨度的丰富行为监督的能力。

推理扩展 (Reasoning Scaling): 以下是原文 Table 6 的结果，展示了块大小对 OnePiece 排序性能的影响：

Block Size	C-AUC	C-GAUC	A-AUC	A-GAUC	O-AUC	O-GAUC
M = C = 1	0.885	0.881	0.923	0.861	0.947	0.871
M = C = 4	0.913	0.911	0.951	0.896	0.961	0.885
M = C = 8	0.920	0.918	0.956	0.899	0.964	0.887
M = C = 12	0.927	0.923	0.958	0.903	0.969	0.893

表 6: 块大小对 OnePiece 排序性能的影响。本次实验的训练数据跨度为 60 天。

研究了推理块大小 $M$ （即在排序模式下考虑的候选物品数量）对 OnePiece 排序性能的影响。

性能提升： 从 Table 6 可以看出，将 $M$ 从 1 增加到 12，所有评估指标都得到了持续改进。
最大收益： 最大的性能增益出现在从 $M=1$ 扩展到 $M=4$ 时，因为点式建模 ( $M=1$ ) 缺乏跨样本比较，而将候选物品分组到块中使得推理机制能够更有效地对比偏好。
收益递减： 随着块大小的继续增加，改进变得较小但仍是正向的，表明收益递减 (diminishing returns)。这种效应可能是由于过大的块用冗余信息超载了推理媒介，使其表示容量饱和。

这些发现揭示了在扩展推理带宽和避免信息冗余之间存在权衡，强调了选择适当块大小以最大化块状推理有效性的重要性。

6.1.5. 在线 A/B 测试

在线推理细节：

检索阶段： 离线训练生成整个物品池的向量表示，构建近似最近邻 (ANN) 索引（使用分层可导航小世界 HNSW 算法）以支持高效的在线检索。
排序阶段： 采用以下分数融合策略整合不同任务的输出： $p_{\mathrm{final}} = \alpha \cdot p_{\mathrm{ctr}}^a \cdot p_{\mathrm{ctcvr}}^b + \beta \cdot p_{\mathrm{ctr}}^a \cdot p_{\mathrm{ctcvr}}^b \cdot \mathrm{price} + \gamma \cdot p_{\mathrm{ctr}} \cdot \mathrm{ecpm},$ 其中：
- $\alpha, \beta, \gamma$ 是控制各组件重要性权重的超参数，用于平衡用户体验和业务收入。
- $p_{\mathrm{ctr}}$ 和 $p_{\mathrm{ctcvr}}$ 分别是 OnePiece 最终推理步骤预测的点击率 (clickthrough rate) 和点击转化率 (click-to-conversion rate)，对应于点击和订单任务的 logits。
- $a$ 和 $b$ 调节每个任务在最终排序中的影响。
- price 表示物品的价格信息。
- ecpm 表示物品的广告价值组件。

评估协议： 作为初步的在线探索，所有 A/B 测试实验分配 $10\%$ 的流量：

检索评估： 用 OnePiece 检索模型替换并行召回策略中的一个，具体是替换 DLRM 中原有的用户到物品 (U2I) 召回路径。
排序评估： 用 OnePiece 排序模型替换预排序阶段的 DLRM 模型。

在线 A/B 测试结果：

检索模式： 以下是原文 Table 7 的结果，报告了 OnePiece 检索模式在线 A/B 测试的详细结果：

GMV/UU	GMV(99.5%)/UU	Order/UU	Paid Order/UU	CTCVR	Buyer	Bad Query Rate
+1.08%	+0.91%	+0.71%	+0.98%	+0.66%	+0.41%	-0.17%

表 7: OnePiece 检索模式在线 A/B 测试结果。改进以相对于 DLRM 基线的相对百分比变化报告。

观察到所有关键业务指标的一致改进：

GMV/UU 增长 $+1.08\%$ 。
排除 top 0.5% 高价值订单后， $GMV(99.5%)/UU$ 仍提高 $+0.91\%$ ，表明收益并非仅由偶尔的大额购买驱动，而是反映了常规交易的稳定贡献。
Order/UU 上升 $+0.71\%$ ，Paid Order/UU 甚至增长更快 ( $+0.98\%$ )，表明更高的转化率和更低的退款率。
Buyer 增长 $+0.41\%$ ，意味着更多独立用户成功转化。
CTCVR 提高 $+0.66\%$ ，反映了从曝光到转化的更高端到端转化率。
重要的是，Bad Query Rate 下降 $0.17\%$ ，表明更好的查询相关性和改进的用户体验。

OnePiece 实现了平衡的改进，同时增强了个性化、相关性和整体交易稳定性，这与以往个性化召回策略通常以牺牲相关性为代价提升 GMV 的情况不同。

排序模式： 以下是原文 Table 8 的结果，总结了 OnePiece 排序模式在线 A/B 测试结果：

GMV/UU	GMV(99.5%)/UU	AR/UU	Order/UU	Buyer	CTR	Bad Query Rate
+1.12%	+0.65%	+2.90%	+0.08%	+0.08%	+0.29%	+0.21%

表 8: OnePiece 排序模式在线 A/B 测试结果。改进以相对于 DLRM 基线的相对百分比变化报告。

观察到主要业务指标的一致提升：

GMV/UU 提高 $+1.12\%$ 。
广告收入 (AR/UU) 显著增长 $+2.9\%$ 。
Order/UU 仅略微增加 ( $+0.08\%$ )，这与设计目标一致，即通过分数融合函数（公式 21）将订单相关效用转化为 GMV 和广告收益。
Buyer 也略微上升 $+0.08\%$ ，表明转化用户的覆盖范围更广。
在用户参与度指标方面，CTR 提高 $+0.29\%$ ，表明排序结果的吸引力更强。
同时，Bad Query Rate 增加了 $+0.21\%$ ，这可能是由于引入了更多广告位，导致一些与用户兴趣相关性较低的物品被推荐。然而，这种微小的增加被显著的收入收益所抵消。

这些结果表明，OnePiece 排序不仅加强了核心业务指标，而且在大型工业排序系统中实现了用户体验和业务目标之间的实际权衡。

6.1.6. 召回覆盖率和独占贡献

为了进一步评估 OnePiece 在检索阶段的有效性，分析了 OnePiece 和其他召回路径（与传统 DLRM 基线相比）所贡献的曝光物品之间的重叠情况（即召回覆盖率）。

以下是原文 Table 9 的结果，比较了 DLRM 和 OnePiece 与其他召回策略的重叠覆盖率：

Recall Route	STR1	STR2	Swing I21	KPop	S2I
DLRM	37.3%	31.3%	57.9%	62.5%	47.6%
OnePiece	66.2% (+77.6%)	64.4% (+105.8%)	76.8% (+32.6%)	77.2% (+23.5%)	67.8% (+42.4%)

表 9: DLRM 和 OnePiece 与其他召回策略的重叠覆盖率比较。对于每个召回路径 $R$ ，召回覆盖率计算为 $\mathrm{Coverage}(R)_{\Psi} = \frac{\vert \mathrm{Exposure}_{\mathrm{U2I}} \cap \mathrm{Exposure}_R \vert}{\vert \mathrm{Exposure}_R \vert}$ ，其中 $\mathrm{Exposure}_{\mathrm{U2I}}$ 表示由 DLRM 或 OnePiece 召回的曝光集， $\mathrm{Exposure}_R$ 表示另一个召回路径的曝光集。OnePiece 相对于 DLRM 的相对改进以红色显示。

召回覆盖率提升： OnePiece 在所有召回路径上持续实现更高的召回覆盖率。
- 在稀疏文本召回中，STR1 覆盖率从 $37.3\%$ 提高到 $66.2\%$ ( $+77.6\%$ )，STR2 覆盖率从 $31.3\%$ 提高到 $64.4\%$ ( $+105.8\%$ )。
- 在基于图的 Swing I2I 中观察到类似增益 ( $+32.6\%$ )，关键词流行度召回 KPop ( $+23.5\%$ )，而语义召回 S2I 也显著增加 ( $+42.4\%$ )。
统一模型潜力： 这些一致的改进表明，相较于 DLRM，OnePiece 在所有其他召回路径上实现了实质性的覆盖率提升，揭示了其用一个统一模型取代多个专业召回策略的强大潜力。通过精心设计的上下文工程，OnePiece 可以有效平衡个性化 (Swing I2I)、流行度 (KPop) 和相关性 (STR1 和 STR2)，从而更接近工业规模召回的“一模多用”范式。

为了进一步检验 OnePiece 的独立价值，比较了 OnePiece 和 DLRM 在曝光和点击方面的独占贡献，如 Figure 6 所示。

下图（原文 Figure 6）展示了 OnePiece 在检索阶段的独占贡献：

Figure 6 | Exclusive contribution of OnePiece in the retrieval stage. 该图像是柱状图，展示了 OnePiece 相较于 DLRM 在印象和点击阶段的独特贡献。印象阶段，OnePiece 达到 9.9%，而 DLRM 为 3.6%；点击阶段，OnePiece 为 5.7%，DLRM 则为 2.4%。数据表明，OnePiece 在两个阶段的贡献都有显著提升。

独占贡献显著提升： OnePiece 在独占贡献方面表现出大幅增长：独占曝光份额从 $3.6\%$ 上升到 $9.9\%$ ( $\mathbf{2.8 \times}$ )，独占点击份额从 $2.4\%$ 增长到 $5.7\%$ ( $\mathbf{2.4 \times}$ )。
新颖性和价值： 这些结果表明，OnePiece 不仅能够覆盖其他召回路径的曝光，而且贡献了更多传统 DLRM 召回未捕捉到的新颖曝光和点击。换句话说，OnePiece 的新召回路径几乎是传统 DLRM 独立价值的两倍，展示了其在增强整体召回性能方面的有效性。

6.1.7. 效率分析

以下是原文 Table 10 的结果，比较了 DLRM 和 OnePiece 在检索和排序模式下的计算效率：

Retrieval Mode
Method	Infer. Time↓	MFU↑	MU↑
DLRM	40ms/request	35%	30%
OnePiece	30ms/request (-25%)	80% (+129%)	50% (+67%)
Ranking Mode (batch size=128, KV-Cache enabled)
Method	Infer. Time↓	MFU↑	MU↑
DLRM	109ms/batch	23%	29%
OnePiece (M=1)	110ms/batch (+0.9%)	67% (+191%)	38% (+31%)
OnePiece (M=4)	112ms/batch (+2.8%)
OnePiece (M=8)	115ms/batch (+5.5%)
OnePiece (M=12)	120ms/batch (+10.1%)

表 10: DLRM 和 OnePiece 在检索和排序模式下的计算效率比较，在单个 NVIDIA A30 GPU 上评估。MFU 表示模型 FLOPs 利用率 (Model FLOPs Utilization)，反映达到理论峰值 FLOPs 的比例，而 MU 表示内存利用率 (Memory Utilization)，衡量推理期间 GPU 内存容量的占用百分比。箭头表示每个指标的首选方向：“↑”表示越高越好，“↓”表示越低越好。

OnePiece 在硬件利用率和执行性能方面表现出卓越的特性，支持其在大规模工业部署中的可行性。

增强的检索模式硬件利用率：
- OnePiece 在检索任务中实现了显著的效率提升：推理时间减少 $25\%$ （每请求 30ms vs. 40ms），同时资源利用率大幅提高。
- Model FLOPs Utilization (MFU) 提高 $129\%$ （从 $35\%$ 到 $80\%$ ），表明 OnePiece 的统一 Transformer 架构与现代 GPU 并行化范式具有卓越的兼容性，有效利用了传统嵌入密集型架构 (DLRM) 中未充分利用的张量计算单元。
- 内存利用率 (Memory Utilization, MU) 同步提高 $67\%$ （从 $30\%$ 到 $50\%$ ），代表了更好的资源利用。
- 这种效率提升表明，OnePiece 的架构统一消除了 DLRM 异构组件交互中固有的计算瓶颈，实现了更流畅的数据流和更低的内存传输开销。更高的硬件利用率直接转化为运营成本的降低，这对于每天处理数百万请求的大规模工业部署至关重要。
排序模式受控计算扩展：
- 排序模式评估揭示了 OnePiece 在增加推理复杂度下的高效扩展能力。虽然 OnePiece 相对于 DLRM 基线（109ms）带来适度的开销，但随块大小的扩展行为呈现出理想的亚线性特征：推理时间从 $M=1$ 时的 110ms 增加到 $M=12$ 时的 120ms，对于 $12 \times$ 的推理容量扩展仅增加了 $\mathbf{10.1\%}$ 的开销。
- 渐进的开销模式 ( $0.9\%, 2.8\%, 5.5\%, 10.1\%$ ) 表明块状推理机制实现了高效的计算平摊 (computational amortization)，每个额外的推理块带来的边际成本递减。
- 这种受控的扩展转化为非常有利的效率-性能权衡：如 Table 6 所示，C-AUC 从 $M=1$ 时的 0.885 提高到 $M=12$ 时的 0.927，代表了显著的 $4.7\%$ 相对改进，揭示了统一框架中推理扩展的潜力。
- 尤其值得注意的是，即使在 $M=1$ 时，MFU 也显著提高了 $\mathbf{191\%}$ （从 $23\%$ 到 $67\%$ ），表明 OnePiece 的统一架构与 GPU 计算范式对齐，无论推理复杂度如何。这种效率增益源于基础设施技巧：KV-Caching 机制在保持这种卓越硬件利用率的同时实现了高效的批处理，展示了其在处理高吞吐量生产工作负载方面的有效性。
  
  这些发现确立了 OnePiece 作为生产系统的实用解决方案，提供了可配置的推理深度，从而可以在计算效率和模型性能之间进行灵活权衡。

6.2. 注意力可视化分析 (附录 C)

上下文输入注意力分析 (Attention Analysis of Context Input): 下图（原文 Figure 8）展示了 OnePiece 在不同模式下的注意力分析。注意力图可视化了不同输入组件之间的注意力权重：交互历史 (I)、偏好锚点 (P)、情境描述符 (S) 和候选项目集 (C)。

该图像是图表，展示了OnePiece注意力分析的案例研究，包括检索模式（a）和排名模式（b）。每个子图表示不同层和头的注意力矩阵，呈现输入、偏好和场景信号之间的关系。

从 Figure 8 可以看出，统一的词元序列 (IH, PA, SD, CIS) 如何促进结构化偏好推理：

层级演化： 较低的层（例如 Figure 8(a)-14 和 Figure 8(b)-13）主要形成集中的或对角线的注意力带，突出 IH 词元内的局部序列处理或 SD 和 CIS 之间的短距离连接。而较高的层（Figure 8(a)-58; Figure 8(b)-58）则发展出多区域注意力模式，同时连接多个词元组，表明从局部到全局整合的转变。
头部专业化： 在同一层内，不同的注意力头采用互补的策略：一些强调组件内部的连贯性（例如 Figure 8(b)-7 中的 IHIH 对角线），而另一些则将强大的权重分配给跨组件的信息流（例如 Figure 8(a)-5,6 中的 SD→IH；Figure 8(b)-6 中的 CIS→IH）。这些模式验证了模型学习了分层和多样化的推理策略。

模式特定的行为：

检索模式 (Figure 8(a)): 三词元设计 (IH, PA, SD) 促进了结构化和紧凑的跨组件注意力。例如，Layer-2 的 Head-1 和 Head-2 (Figure 8(a)-5,6) 专注于连接 IH 与 PA，突出锚点如何引导长期偏好召回，而 Head-4 (Figure 8(a)-8) 则加强 SD→IH 连接，将检索 grounding 在情境上下文中。这些交互相对局部化，反映了检索任务的粗粒度候选过滤目标。
排名模式 (Figure 8(b)): 引入 CIS 词元，从根本上扩展了注意力空间到四方交互。这在 Layer-2 的 Head-2 和 Head-4 (Figure 8(b)-6,8) 中最为明显，注意力流同时跨越 IH, PA, SD, CIS，从而实现了对用户偏好信号与显式候选物品的联合评估。IH 词元保持时间序列性 (Figure 8(b)-7)，而 CIS 词元则积极与 PA 和 SD 整合，以实现细粒度的候选比较 (Figure 8(b)-4)。这些复杂的注意力图强调了排序阶段在候选物品间进行细致区分的作用。

多步块状推理注意力分析 (Attention Analysis of Multi-Step Block-wise Reasoning): 下图（原文 Figure 9）展示了 OnePiece 中多步块状推理的注意力可视化：

Figure 9 | Attention visualization of multi-step block-wise reasoning in OnePiece. The heatmaps show attention weights between reasoning blocks (y-axis, as queries) and input components with previous… 该图像是示意图，展示了OnePiece中多步骤块状推理的注意力可视化。左侧 (a) 为检索模式，包含两个推理步骤 $R_1$ 和 $R_2$ ；右侧 (b) 为排名模式，包含三个推理步骤 $R_1$ 、 $R_2$ 和 $R_3$ 。热图通过颜色深浅表示了推理块（y轴）与输入组件及以往推理输出（x轴）之间的注意力权重，输入组件包括交互历史（I）、偏好锚（P）、情境描述符（S）和候选项目（C，仅在排名模式中）。

Figure 9 中的注意力模式展示了推理块如何逐步查询不同的信息源以细化用户表示：

检索模式 (Figure 9(a)):
- R1 对情境描述符 (S) 表现出强烈的集中注意力，对偏好锚点 (P) 表现出中等注意力，而对交互历史 (I) 的注意力极少。这表明初始推理优先考虑上下文和查询特定信号以理解用户意图。
- R2 表现出关键性转变，对交互历史 (I) 中的特定区域产生集中注意力，同时整合来自前一个推理块 R1 的信息。这种从情境-偏好焦点到选择性行为模式识别的演变表明，渐进式推理使模型能够从广泛的上下文理解过渡到有针对性的序列偏好提取。
排名模式 (Figure 9(b)): 三步推理过程 ( $R_1, R_2, R_3$ ) 揭示了日益复杂的注意力整合，具有显著的层次信息增强模式。
- 随着推理的进行，后期的块对更近的推理输出表现出更强的注意力，其中 R3 对 R2 表现出显著的注意力，而对 R1 的注意力相对较弱。
- 这种注意力模式表明，每个推理步骤都逐步巩固和细化来自前一步骤的信息，更近的推理块包含更高级别的抽象，包含了早期洞察。模型有效地学会优先考虑最精炼的表示，而不是重复访问原始的早期输出，这表明了一种高效的信息压缩机制，其中每个推理步骤都建立在日益压缩的偏好理解之上，以实现鉴别性的候选评估。

7. 总结与思考

7.1. 结论总结

本文提出了 OnePiece，一个统一的框架，旨在将结构化上下文工程和块状潜在推理引入工业级级联排序系统。OnePiece 构建于一个纯 Transformer 主干网络之上，通过上下文工程将异构信号（交互历史、偏好锚点、情境描述符和候选物品）组织成结构化的词元化序列。它赋予模型多步推理能力，并通过渐进式多任务训练策略对其进行优化，该策略利用自然可用的用户反馈链来有效监督推理过程。

通过广泛的离线实验，OnePiece 验证了每个设计组件的有效性，并展示了在偏好锚点长度、训练数据跨度和块大小方面的良好扩展性。在 Shopee 主要个性化搜索场景进行的在线 A/B 测试进一步证实了 OnePiece 在各项业务指标上的持续收益，包括 GMV/UU 超过 $+2\%$ 和广告收入增长 $+2.90\%$ ，同时表现出卓越的效率和硬件利用率。这些结果表明，OnePiece 为在真实工业环境中构建可扩展、推理驱动的排序模型提供了一个有前景的新范式。

7.2. 局限性与未来工作

论文作者指出了当前工作的局限性，并提出了未来可能的研究方向：

统一的多路径召回 (Unified Multi-Route Retrieval):
- 局限性： 如图 7 所示，现有的大规模召回系统需要为每个召回路径（如 I2U, I2I, U2I, Q2I 等）设计不同的模型、训练数据和模型参数，以实现多样化的个性化和全面的用户兴趣覆盖。然而，维护多个异构模型资源密集且存在冗余。
- 未来方向： OnePiece 的统一架构为“一模多用”的多路径召回铺平了道路，即单个统一模型可以通过定制的上下文工程（根据特定场景特征调整交互历史、偏好锚点和情境描述符）来服务于不同的推荐目标。第 5.3 节的实证证据表明其强大的多样性和独占性性能，支持在工业应用中简化多路径系统设计的可行性。
可扩展的潜在推理 (Scalable Latent Reasoning):
- 局限性： 尽管 OnePiece 首次成功部署了工业规模的潜在推理，并通过多任务渐进式监督实现，但这种方法也揭示了推理可扩展性方面的固有局限性。挑战在于获取足够的多任务信号来有效监督中间推理过程，这限制了进一步扩展推理能力。
- 未来方向： 未来的研究应探索更有效的潜在推理扩展方法，例如，通过强化学习整合在线用户反馈，以自适应地确定最佳推理深度，或者开发模型自探索与多任务监督过程之间的有机整合，以实现自主推理演化。
  
  下图（原文 Figure 7）比较了现有多路径召回系统和基于 OnePiece 的统一架构：
  
  该图像是示意图，比较了传统多路径检索系统与基于OnePiece的统一架构。在(a)部分，传统多路径检索需要维护多个参数不同的模型，而(b)部分则展示了OnePiece如何通过单一模型处理不同的检索场景，实现统一检索功能，降低系统复杂性。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一些深刻的启发：

第一性原理的价值： OnePiece 没有盲目地追求将 LLMs 本身引入推荐系统，而是回溯到 LLMs 成功的两个核心机制——上下文工程和多步推理。这种从第一性原理出发的思考，使得解决方案更加通用和深入，能够应用于推荐系统的核心挑战，而不仅仅是表面上的架构移植。
上下文工程的重要性被低估： 长期以来，推荐系统中的特征工程被认为是“脏活累活”，但 OnePiece 再次强调了结构化上下文信息对模型性能的巨大影响。通过偏好锚点 (PA) 和情境描述符 (SD) 等创新，证明了超越原始交互序列的丰富上下文能够显著提升模型理解用户意图的能力。
隐式多步推理的巨大潜力： 在缺乏 思维链 等显式推理监督的工业场景中，OnePiece 巧妙地利用用户反馈链进行渐进式多任务训练，有效监督了隐式多步推理过程。这为解决复杂决策任务的训练难题提供了新的思路，特别是在推荐等强调效率和难以获得显式解释的领域。
统一框架的效率与可维护性： OnePiece 旨在用一个统一模型服务于检索和排序，并有可能取代多种专用召回策略。这不仅简化了系统架构，降低了维护成本，还在效率分析中展现出更高的硬件利用率（MFU）和更低的推理延迟，对于大规模工业部署具有决定性意义。
线上 A/B 测试的价值： 论文在 Shopee 这种大规模真实世界场景下的线上 A/B 测试结果，为学术界提供了宝贵的实践经验和信心。线上收益（GMV/UU, 广告收入）和召回覆盖率、独占贡献的分析，证明了该方法不仅在理论上先进，在商业价值上也得到了充分验证。

7.3.2. 批判与潜在改进方向

尽管 OnePiece 取得了显著成功，但作为一篇严谨的学术论文，仍可以从以下几个方面进行批判性思考和探索潜在的改进：

偏好锚点 (PA) 的构建依赖性：
- 批判： PA 的构建（例如 query-associated top-k purchases）依赖于领域专家经验和预定义的业务规则。这种手动或半手动的设计可能耗时耗力，并且在面对快速变化的业务场景或新领域时，其可迁移性和适应性可能受限。
- 改进方向： 探索更自动化、数据驱动的 PA 生成机制，例如，基于图神经网络 (GNN) 自动发现高相关性的锚点，或者利用自监督学习从大量未标注数据中学习 PA 的表示。
潜在推理的可解释性挑战：
- 批判： 论文提出的“块状潜在推理”虽然通过注意力可视化提供了一些直观感受，但其内部的决策过程仍然相对“黑箱”。与 LLM 的显式 思维链 相比，这种隐式推理在出现推荐错误时，难以进行有效的诊断和归因。
- 改进方向： 结合可解释性 (XAI) 技术，例如通过 LIME 或 SHAP 等方法，尝试量化不同上下文组件和推理步骤对最终推荐结果的贡献，从而提高模型的透明度和可信度。
渐进式多任务训练的稀疏性鲁棒性：
- 批判： 渐进式多任务训练依赖于用户反馈链（曝光、点击、加入购物车、购买）。在某些领域或用户群体中，高价值的反馈（如购买）可能非常稀疏。在这种情况下，后期推理步骤的监督信号可能不足，导致模型训练不稳定或无法充分学习深层偏好。
- 改进方向： 引入数据增强技术来缓解稀疏反馈问题，例如生成合成的高价值交互样本；或者结合半监督学习，利用大量无标签的弱监督信号来辅助稀疏任务的训练。
泛化能力与领域特异性：
- 批判： OnePiece 在 Shopee 这种大型电商平台取得了成功，其用户行为、物品特征和业务目标具有一定特异性。模型设计中一些细节（如 PA 的具体构建、推理块大小的设定、分数融合函数）可能针对电商场景进行了优化。其在新闻推荐、内容推荐或学术文献推荐等用户行为模式和物品类型截然不同的领域中的泛化能力仍需进一步验证。
- 改进方向： 在更多样化的领域进行实验，评估 OnePiece 的通用性，并探索如何设计更普适的上下文工程和推理机制，使其能够更好地适应不同领域的特点。
LLM 机制的“仿造”与“集成”界限：
- 批判： 论文强调“引入 LLM 风格的上下文工程和推理”，但并未直接集成 LLMs。这种“仿造”机制的成功令人鼓舞，但也可能引发思考：在未来，当 LLMs 变得更小、更快、更便宜时，是否会有直接集成 LLMs 的推荐系统超越这种“仿造”机制？目前 OnePiece 在 Bad Query Rate 上在排序模式略有增加，这可能暗示了在追求高商业价值（如广告收入）时，模型在相关性控制上仍有提升空间，而 LLM 的语义理解能力可能有所帮助。
- 改进方向： 探索 OnePiece 与小型化、领域定制的 LLMs 或 Embedding Models 进行深度集成的可能性，以进一步增强语义理解和推理能力，并在用户体验和商业目标之间找到更优的平衡点。例如，利用 LLM 生成更丰富的 PA 或 SD 描述。
  
  总而言之，OnePiece 为工业级推荐系统带来了革命性的进步，但在其强大力量的背后，也隐藏着一些值得深入探索的复杂性和权衡。未来的研究可以围绕这些挑战展开，以推动推荐技术迈向更智能、更鲁棒、更可解释的时代。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。