论文状态：已完成

OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search

发表：2025/09/03

原文链接 PDF 下载

价格：0.100000

已有 10 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

论文提出OneSearch，统一端到端生成式电商搜索框架，通过关键词增强层次化量化编码、多视角用户行为序列模型和偏好感知奖励系统，实现查询与商品更精准匹配。在线A/B测试显著提升点击率和订单量，同时降低75%以上运营成本，已部署于快手。

摘要

Traditional e-commerce search systems employ multi-stage cascading architectures (MCA) that progressively filter items through recall, pre-ranking, and ranking stages. While effective at balancing computational efficiency with business conversion, these systems suffer from fragmented computation and optimization objective collisions across stages, which ultimately limit their performance ceiling. To address these, we propose \textbf{OneSearch}, the first industrial-deployed end-to-end generative framework for e-commerce search. This framework introduces three key innovations: (1) a Keyword-enhanced Hierarchical Quantization Encoding (KHQE) module, to preserve both hierarchical semantics and distinctive item attributes while maintaining strong query-item relevance constraints; (2) a multi-view user behavior sequence injection strategy that constructs behavior-driven user IDs and incorporates both explicit short-term and implicit long-term sequences to model user preferences comprehensively; and (3) a Preference-Aware Reward System (PARS) featuring multi-stage supervised fine-tuning and adaptive reward-weighted ranking to capture fine-grained user preferences. Extensive offline evaluations on large-scale industry datasets demonstrate OneSearch's superior performance for high-quality recall and ranking. The rigorous online A/B tests confirm its ability to enhance relevance in the same exposure position, achieving statistically significant improvements: +1.67% item CTR, +2.40% buyer, and +3.22% order volume. Furthermore, OneSearch reduces operational expenditure by 75.40% and improves Model FLOPs Utilization from 3.26% to 27.32%. The system has been successfully deployed across multiple search scenarios in Kuaishou, serving millions of users, generating tens of millions of PVs daily.

思维导图

论文精读

中文精读约 22 分钟读完 · 12,575 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): OneSearch: 对统一端到端生成式电子商务搜索框架的初步探索 (OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search)
作者 (Authors): Ben Chen, Xian Guo, Siyuan Wang, Zihan Liang, Yue Lv, Yufei Ma, 等。作者团队均来自快手科技 (Kuaishou Technology)，表明这是一项由工业界主导、旨在解决实际业务问题的研究。
发表期刊/会议 (Journal/Conference): 论文格式为 ACM 会议格式，但具体会议名称为 nnnnnnn，表明这可能是一篇正在投稿或尚未被接收的预印本 (pre-print)。
发表年份 (Publication Year): 2025 (根据论文元数据和 ACM 引用格式中的年份)。
摘要 (Abstract): 论文提出了一种名为 OneSearch 的统一端到端生成式框架，旨在取代传统电商搜索中效率低下且存在目标冲突的多阶段级联架构 (MCA)。OneSearch 的核心创新包括：(1) 关键词增强的层次化量化编码 (KHQE)，用于在保留项目语义和独特属性的同时，加强查询-项目的相关性约束；(2) 多视角用户行为序列注入策略，通过构建行为驱动的用户ID，并结合长短期行为序列，全面建模用户偏好；(3) 偏好感知奖励系统 (PARS)，通过多阶段监督微调和自适应奖励加权排序，捕捉精细的用户偏好。实验结果表明，OneSearch 在离线和在线 A/B 测试中均取得了显著的业务指标提升（如商品点击率 $+1.67%$ ，订单量 $+3.22%$ ），并大幅降低了 75.40% 的运营成本，提升了模型计算效率。该系统已在快手多个搜索场景成功部署。
原文链接 (Source Link):
- ArXiv 链接: https://arxiv.org/abs/2509.03236
- PDF 链接: https://arxiv.org/pdf/2509.03236v5.pdf
- 发布状态：预印本 (Pre-print)。ArXiv 是一个开放获取的预印本平台，论文未经同行评审。

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题： 传统的电子商务搜索系统广泛采用多阶段级联架构 (Multi-stage Cascading Architecture, MCA)，即“召回-预排序-排序”流水线。这种架构虽然在计算效率和业务转化之间取得了平衡，但存在两大固有缺陷：
  1. 碎片化计算 (Fragmented Compute): 大量计算资源消耗在各阶段之间的数据通信和存储上，而非核心的数值计算。
  2. 优化目标冲突 (Objective Collision): 各阶段模型独立优化，目标不一致（例如，召回阶段追求“大而全”，排序阶段追求“精而准”），导致在早期阶段可能错误地过滤掉最终能满足用户意图的商品，从而限制了整个系统的性能上限。
- 重要性与挑战： 随着商品和用户规模的爆炸式增长，MCA 的天花板效应日益明显。同时，电商搜索场景下，商品信息冗长且充满噪声，查询词简短但意图明确，对相关性有极强约束，这些都对新一代搜索框架提出了更高要求。
- 创新切入点： 论文提出用一个统一的、端到端的生成式模型 (Unified End-to-End Generative Framework) 来彻底取代 MCA。其核心思想是将搜索视为一个序列到序列 (sequence-to-sequence) 的生成任务：输入用户和查询信息，直接生成用户最可能感兴趣的商品ID序列。这种范式从根本上解决了计算碎片化和目标冲突问题。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出 OneSearch 框架： 论文提出了业界首个在电商搜索场景大规模部署的端到端生成式框架 OneSearch，统一了传统架构中的召回、预排序和排序阶段。
- 三大技术创新：
  1. 关键词增强的层次化量化编码 (KHQE): 提出一种新的商品编码方案，结合了层次化量化 (RQ-Kmeans) 和保留独特性征的量化 (OPQ)，并通过提取的核心关键词来增强表示，解决了生成模型在强相关性约束下的信息损失问题。
  2. 多视角用户行为序列注入 (Mu-Seq): 设计了一种创新的用户偏好建模方式，将用户长短期行为序列信息分别注入到用户ID构建、模型输入 (prompt) 和隐式向量表示中，使模型能更全面地理解用户意图。
  3. 偏好感知奖励系统 (PARS): 设计了一套包含多阶段监督微调 (SFT) 和自适应奖励模型的对齐策略，用于指导生成模型学习用户对不同商品的精细偏好差异，从而提升最终生成列表的质量。
- 显著的业务成效： 在快手电商的真实环境中，OneSearch 不仅在商品点击率、购买人数和订单量等核心业务指标上取得了统计显著的正向收益，还极大地降低了服务器运营成本并提升了计算资源利用率。

基础概念 (Foundational Concepts):
- 多阶段级联架构 (Multi-stage Cascading Architecture, MCA): 这是传统大规模检索系统（如搜索、推荐）的标准范式。它像一个多层漏斗，逐步筛选候选物。
  - 召回 (Recall): 从全量商品库（亿级）中，利用多种简单、高效的策略（如倒排索引、向量检索）快速找出数千到数万个与查询相关的候选商品。目标是“宁可错杀一千，不可放过一个”，保证相关商品能进入下一阶段。
  - 预排序 (Pre-ranking): 对召回的候选集（万级）进行初步排序。使用比召回模型复杂、但比排序模型简单的模型，将候选集精简到数百个。
  - 排序 (Ranking): 对预排序后的少数候选商品（百级）使用非常复杂和强大的模型（如深度学习模型），进行最精准的打分和排序，最终呈现给用户。
- 生成式检索 (Generative Retrieval, GR): 一种新兴的检索范式，它不依赖“匹配-排序”，而是将检索视为一个生成任务。其典型流程是：(1) 将每个商品/文档编码成一个唯一的、离散的ID序列（称为 Semantic ID 或 SID）；(2) 训练一个序列到序列模型（如 Transformer），输入查询（或用户信息），直接生成目标商品/文档的 SID 序列；(3) 根据生成的 SID 查找到对应的商品。这种方法天然地将所有阶段统一在一个模型中。
- 量化编码 (Quantization Encoding): 指将高维、连续的向量（如商品表示向量）映射到低维、离散的码本 (codebook) 中的索引。本文提及了多种方法：
  - VQ-VAE: 一种经典的向量量化方法，通过自编码器学习。
  - 残差量化 (Residual Quantization, RQ): 一种分层量化方法。它先对原始向量进行第一次量化，然后对量化后的残差（原始向量与量化结果的差）再进行量化，如此反复多次。这可以形成一种从粗到细的层次化表示。RQ-Kmeans 是使用 K-Means 算法来实现残差量化。
  - 优化乘积量化 (Optimized Product Quantization, OPQ): 一种改进的乘积量化方法，它先对向量进行旋转变换，再将其切分成多个子向量分别量化，旨在减少量化误差，更好地保留原始信息。
前人工作 (Previous Works):
- 阶段内优化： 大量工作致力于优化 MCA 的某个特定阶段，如用于召回的 EBR，用于预排序的 DCN 和 DSSM，以及用于排序的 DIN 和 DeepFM。这些工作虽然有效，但无法突破 MCA 的架构瓶颈。
- 生成式检索探索： 近年来，GR 范式在推荐、广告等领域取得成功。
  - Tiger 和 LC-REC 是早期在推荐领域探索端到端生成式模型的代表。
  - OneRec 首次将生成式框架成功应用于工业级视频推荐场景，统一了召回和排序。
  - OneSug、EGA、OneLoc 分别将此范式应用于电商查询词建议、广告和本地生活服务。
- 针对搜索的生成式检索：
  - GenR-PO 和 GRAM 尝试将生成式方法用于搜索的召回或预排序阶段，但仍未完全摆脱 MCA 架构。
技术演进 (Technological Evolution): 技术演进的脉络清晰可见：从“分阶段优化”（优化 MCA 的召回、排序等环节）-> 到“跨阶段联合优化”（尝试统一各阶段的目标函数）-> 再到本文所代表的“架构统一”（用一个端到端生成模型彻底取代 MCA）。OneSearch 处于技术演进的最前沿，是将 GR 范式应用于复杂且强约束的电商搜索场景的首次成功工业实践。
差异化分析 (Differentiation):
- 与 OneRec 等推荐系统的 GR 模型相比，电商搜索面临更独特的挑战：(1) 商品信息冗余且噪声大；(2) 查询和商品间有强相关性约束，属性错配是致命的；(3) 用户意图推理更复杂。因此，OneSearch 不能简单照搬推荐领域的方案。
- 本文的核心创新 KHQE 编码方案，通过关键词增强和RQ-OPQ 混合量化，正是为了解决上述挑战，在保留层次化语义的同时，强化了核心属性的表示，这在之前的 GR 模型中是没有的。
- Mu-Seq 用户序列注入策略和 PARS 奖励系统也是针对搜索场景的精细化设计，比之前的工作更注重用户意图推理和偏好对齐。如下图 Figure 3 所示，搜索的输入输出与其他场景（如推荐、查询建议）存在本质差异，需要专门设计。
  
  该图像是图3，展示了推荐、搜索/广告、查询建议和底栏四种场景中输入与输出的数据类型差异，区分了闭合词表（蓝色）和开放词表（黄色）的使用情况。

4. 方法论 (Methodology - Core Technology & Implementation Details)

OneSearch 的整体框架如下图所示，它将传统 MCA 的多阶段漏斗（图 b）统一为了一个包含编码器、解码器和奖励系统的端到端生成模型（图 a）。

Figure 1: (a) Our proposed End-to-End generative retrieval framework, (b) the traditional multi-stage cascading architecture in E-commerce search. 该图像是论文中图1的示意图，展示了提出的端到端生成检索框架与传统多阶段级联架构的对比。左侧表示用户查询及商品候选集，右侧分为上部的生成模型与奖励系统，以及下部的召回、预排序和排序三个阶段。

其核心方法论可分解为以下几个关键模块，整体流程如下图 Figure 4 所示。

该图像是论文中OneSearch框架的整体架构示意图，展示了从对齐表示、关键词增强、RQ-OPQ编码、多视角行为序列注入、统一编码-解码结构到偏好感知奖励系统的模块流程，包含关键模块和训练调度。

方法原理 (Methodology Principles):
- OneSearch 的核心思想是将搜索过程重塑为一个条件语言生成任务。给定用户的查询、历史行为等上下文信息，模型直接生成一个或多个最能满足用户需求的商品 SID 序列。为了实现这一目标，模型必须解决三大难题：(1) 如何为海量商品创建高质量、信息丰富的 SID？(2) 如何将复杂的、多维度的用户信息有效融入生成过程？(3) 如何确保生成的商品不仅相关，而且符合用户的个性化偏好？这三大难题分别由 KHQE、Mu-Seq 和 PARS 三个模块来解决。
方法步骤与流程 (Steps & Procedures):

4.1. 关键词增强的层次化量化编码 (Keyword-enhanced Hierarchical Quantization Encoding, KHQE)

这是 OneSearch 的基石，负责将每个商品转换成一个由多个离散 token 组成的 SID。
1. 对齐协同与语义表示 (Aligned Collaborative and Semantic Representation):
  - 目标： 让商品的初始表示向量既包含自身的文本语义信息，又融入基于用户行为的协同过滤信号。
  - 步骤： a. 从用户搜索日志中挖掘高质量的 query-item、query-query、item-item 对。 b. 使用一个预训练的文本编码器 BGE 将查询文本、商品标题、OCR 文本等内容信息编码为初始向量 $e_q$ $e_{q}$ 和 $e_i$ $e_{i}$ 。 c. 设计一个多任务损失函数进行微调，使模型学习协同信号： $\mathcal{L}_{\mathrm{align}} = \lambda_1 \cdot \mathcal{L}_{\mathrm{q2q}} + \lambda_2 \cdot \mathcal{L}_{\mathrm{i2i}} + \lambda_3 \cdot \mathcal{L}_{\mathrm{q2i}} + \lambda_4 \cdot \mathcal{L}_{\mathrm{rank}} + \lambda_5 \cdot \mathcal{L}_{\mathrm{rel}}$
    - 符号解释:
      - $\mathcal{L}_{\mathrm{q2q}}, \mathcal{L}_{\mathrm{i2i}}, \mathcal{L}_{\mathrm{q2i}}$ : 对比学习损失，拉近有协同关系（如一起被点击）的 query-query、item-item、query-item 对的向量距离。
      - $\mathcal{L}_{\mathrm{rank}}$ : Margin Loss，使模型能区分不同用户行为强度（如购买 > 点击 > 曝光）的 query-item 对。
      - $\mathcal{L}_{\mathrm{rel}}$ : 针对困难样本的相关性校正损失，利用 LLM 对相似但不完全相关的样本打分，指导模型学习更精细的相关性。
2. 核心关键词增强 (Core Keyword Enhancement):
  - 目标： 解决商品标题中噪声多、语义乱的问题，强化核心属性（如品牌、材质、风格）在表示向量中的权重。
  - 步骤： a. 利用命名实体识别 (NER) 技术，从海量 query-item 点击对中挖掘出 18 类结构化属性词（如下表 Table 1 所示）。
    
    转录自论文 Table 1:
    
    Entity Modifier Brand Material Style Function
    
    Location Audience Color Marketing Season Pattern
    
    Scene Specifications Price Model Anchor Series
    
    b. 对每个商品，利用 Qwen-VL 模型识别出其包含的核心关键词。 c. 将这些关键词向量的平均值与商品原始向量进行融合，得到增强后的表示： $e_{q}^{o} = \frac{1}{2} (e_{q} + \frac{1}{m} \sum_{i=1}^{m} e_{k}^{i}), \quad e_{i}^{o} = \frac{1}{2} (e_{i} + \frac{1}{n} \sum_{j=1}^{n} e_{k}^{j})$
    - 符号解释:
      - $e_q^o, e_i^o$ : 增强后的查询和商品向量。
      - $e_q, e_i$ : 原始的查询和商品向量。
      - $e_k^i, e_k^j$ : 提取出的核心关键词的向量。
3. RQ-OPQ 层次化量化分词 (RQ-OPQ Hierarchical Quantization Tokenization):
  - 目标： 将增强后的商品向量 $e_i^o$ 转化为离散的 SID 序列，同时保留层次化语义和商品独特性征。
  - 步骤： a. 层次化语义编码 (RQ-Kmeans): 使用残差量化 K-Means 对向量进行 3 层量化。前几层捕捉商品的粗粒度、共性特征（如大类目），后几层捕捉细粒度特征。为了提高码本利用率，论文对第 3 层使用了平衡 K-Means 算法。 b. 独特性征编码 (OPQ): RQ-Kmeans 在最后一层量化后会产生一个残差向量，这个向量包含了商品的独特信息。论文创新性地使用 OPQ 对这个残差向量再次进行量化，生成额外的 SID。
  - 最终 SID 构成： 一个商品的最终 SID 由 3 个来自 RQ-Kmeans 的 token 和 2 个来自 OPQ 的 token 组成，共 5 个 token。这种 RQ + OPQ 的组合拳，既保证了相似商品在前几层 SID 上的一致性（利于模型学习共性），又通过后几层 SID 区分了它们的细微差别（利于精准推荐）。
4.2. 多视角行为序列注入 (Multi-view Behavior Sequence Injection, Mu-Seq)

该模块负责将丰富的用户行为信息高效地提供给生成模型。
1. 行为序列构建的用户ID (Behavior Sequence Constructed User IDs):
  - 目标： 创建能够反映用户个性的、非随机的用户ID。
  - 步骤： 将用户的短期点击序列 (Seq_short) 和长期购买序列 (Seq_long) 中所有商品的 SID，通过一个带时间衰减的加权平均后拼接，形成一个 10 token 长的用户专属 SID。公式如下： $SID_{short} = \lceil \sum_{i=1}^{m} \lambda_i \cdot SID_{s_i} \rceil, \quad \text{where } \lambda_i = \frac{exp(\sqrt{i})}{\sum_{i}^{m} exp(\sqrt{i})}$ $SID_{long} = \lceil \sum_{j=1}^{n} \mu_j \cdot SID_{l_j} \rceil, \quad \text{where } \mu_j = \frac{exp(\sqrt{j})}{\sum_{j}^{n} exp(\sqrt{j})}$
    - 符号解释:
      - $SID_{s_i}, SID_{l_j}$ : 用户历史点击/购买的商品的 SID。
      - $\lambda_i, \mu_j$ : 时间加权系数，越近的行为权重越大。
2. 显式短行为序列注入 (Explicit Short Behavior Sequence):
  - 目标： 让模型直接感知用户近期的兴趣。
  - 步骤： 将用户的近期搜索词序列 Seq_query 和近期点击商品 SID 序列 Seq_short，作为文本 prompt 的一部分，直接拼接到当前查询词之后，输入给模型。
3. 隐式长行为序列注入 (Implicit Long Behavior Sequence):
  - 目标： 高效地编码用户长达上千的长期行为序列，以反映用户的稳定偏好。
  - 步骤： a. 对于长序列（点击、购买、RSU 序列）中的每个商品，获取其 RQ-Kmeans 三个层次的聚类中心向量。 b. 将同一层次的中心向量进行聚合（求和），得到三个代表不同粒度偏好的向量。 c. 将这三类行为序列（点击、购买、RSU）聚合后的向量输入到一个 QFormer 模块中，最终生成一个紧凑的、代表用户长期偏好的向量表示 $Q$ 。 d. 这个向量 $Q$ 将作为 cross-attention 的 key 和 value 注入到 OneSearch 的解码器中，隐式地影响商品生成过程。
4.3. 统一编码器-解码器架构 (Unified Encoder-Decoder Architecture)

OneSearch 采用标准的基于 Transformer 的编码器-解码器架构（如 BART, T5）。
- 输入 (Encoder Input): 拼接了用户ID、当前查询词、查询词SID、显式短行为序列等。
- 输出 (Decoder Output): 模型自回归地生成目标商品的 SID 序列。
- 推理 (Inference): 使用 beam search 算法生成多个候选商品 SID，然后解码成真实商品列表。
4.4. 偏好感知奖励系统 (Preference Aware Reward System, PARS)

该模块负责对模型进行微调，使其不仅能生成相关商品，还能按照用户偏好进行排序。
1. 多阶段监督微调 (Multi-stage Supervised Fine-tuning, SFT):
  - 目标： 分步、分层次地教会模型生成任务。
  - 阶段一：语义内容对齐。 任务包括：文本 -> SID，SID -> 文本，文本 -> 类目。目的是让模型理解 SID 和自然语言的对应关系。
  - 阶段二：共现同步。 任务包括：query -> item，item -> query。目的是让模型学习 query 和 item 之间的通用关联性。
  - 阶段三：用户个性化建模。 将所有用户信息（ID、长短期行为）都加入输入，训练模型生成用户实际交互过的商品。此阶段使用滑动窗口数据增强，通过在用户行为序列上滑动，构造出多个训练样本，增强模型对序列动态变化的建模能力。
2. 自适应奖励系统 (Adaptive Reward System):
  - 目标： 利用更精细的用户行为信号，指导模型学习商品间的偏好差异。
  - 步骤一：构建自适应奖励信号。 a. 将用户行为分为 6 个等级（如购买 > 推荐场景购买 > 点击 > 曝光未点击等），并赋予基础权重。 b. 为了解决数据稀疏性导致的 CTR 和 CVR 偏差，对这两个指标进行平滑校准： $Cnt_{T} = \log((Cnt_{pos} + 10) \cdot (Cnt_{clk} + 10) \cdot (Cnt_{order} + 10))$ $Ctr_i = \frac{\log(Cnt_{clk} + 10)}{Cnt_{T}}, \quad Cvr_i = \frac{\log(Cnt_{order} + 10)}{\log(Cnt_{clk} + 10)}$ c. 最终的奖励分数 r(q,i) 结合了基础权重和校准后的 CTR/CVR。
  - 步骤二：训练奖励模型。 训练一个三塔结构的 SIM 模型，分别预测 CTR、CVR、CTCVR，并结合一个强相关的外部特征 $S_{Rel}$ ，得到最终的偏好分数 Rscore。
  - 步骤三：混合排序框架 (Hybrid Ranking Framework)。 a. 使用训练好的奖励模型对 SFT 后的 OneSearch 生成的列表进行重排。 b. 将被奖励模型排位提升的商品作为正样本，排位下降的作为负样本，构造 list-wise 训练数据。 c. 使用一种类似 DPO (Direct Preference Optimization) 的损失函数进行对齐训练，目标是让 OneSearch 模型本身就能生成更符合奖励模型偏好的排序。损失函数如下： $\mathcal{L} = - \mathbb{E} \Bigg[ \log \sigma \Bigg( \log \sum_{i_l \in \mathcal{I}_l} \exp \left( rw_{\Delta} \max(0, \hat{r}_{\theta}(x_u, i_w) - \hat{r}_{\theta}(x_u, i_l) - \delta) \right) \Bigg) + \alpha \log \pi_{\theta}(i_w | x_u) \Bigg]$
    - 符号解释:
      - $\hat{r}_{\theta}(x_u, i_w), \hat{r}_{\theta}(x_u, i_l)$ : 模型对正样本 $i_w$ 和负样本 $i_l$ 的隐式奖励，它由当前模型 $\pi_{\theta}$ 和参考模型 $\pi_{\mathrm{ref}}$ 的概率比值定义。
      - $\log \pi_{\theta}(i_w | x_u)$ : 对正样本的对数似然损失，即 SFT 阶段的优化目标。
      - 该损失函数将偏好对齐（让正样本得分高于负样本）和监督学习（最大化正样本生成概率）结合在一个框架下，是一种新颖的生成式排序范式。

Entity	Modifier	Brand	Material	Style	Function
Location	Audience	Color	Marketing	Season	Pattern
Scene	Specifications	Price	Model	Anchor	Series

5. 实验设置 (Experimental Setup)

数据集 (Datasets): 实验使用了快手电商平台的大规模真实用户搜索日志 (large-scale industry datasets)。这是一个工业级的数据集，包含了海量的用户查询、点击、购买等行为，具有高度的真实性和挑战性。
评估指标 (Evaluation Metrics):
- 业务指标 (Business Metrics):
  - 商品点击率 (Item CTR):
    1. 概念定义: 衡量用户对展示的商品列表的点击兴趣。它计算的是被点击的商品次数与商品总曝光次数的比率。这是衡量搜索结果吸引力的核心指标。
    2. 数学公式: $\text{Item CTR} = \frac{\text{Total Clicks on Items}}{\text{Total Impressions of Items}}$
    3. 符号解释: Total Clicks on Items 是所有用户点击商品的总次数；Total Impressions of Items 是所有商品被展示给用户的总次数。
  - 购买人数 (Buyer) 和订单量 (Order Volume):
    1. 概念定义: 这两个是衡量商业转化效果的直接指标。Buyer 统计在一次实验中产生购买行为的独立用户数量；Order Volume 统计产生的总订单数量。它们直接关系到平台的收入。
    2. 数学公式: 这两个指标是直接计数，没有标准公式。
  - PV 点击率 (PV CTR) 和 PV 转化率 (PV CVR):
    1. 概念定义: PV 指页面浏览量 (Page View)。PV CTR 指有点击行为的页面浏览量占总页面浏览量的比例。PV CVR 指有购买行为的页面浏览量占总页面浏览量的比例。它们从页面的维度评估整体搜索体验的有效性。
- 效率指标 (Efficiency Metrics):
  - 运营支出 (Operational Expenditure, OPEX):
    1. 概念定义: 指维持系统线上服务所需的硬件（如服务器、GPU）成本。这是工业界评估一个系统经济效益的关键指标。
  - 模型 FLOPs 利用率 (Model FLOPs Utilization, MFU):
    1. 概念定义: 衡量模型在实际运行时，其有效计算量（FLOPs）占硬件理论峰值计算能力的比例。MFU 越高，说明硬件资源被利用得越充分，计算效率越高。OneSearch 统一的架构减少了数据通信开销，因此能大幅提升 MFU。
- 离线评估指标 (Offline Evaluation Metrics):
  - 码本利用率 (Codebook Utilization Rate, CUR):
    1. 概念定义: 在量化编码中，衡量码本（codebook，即所有可用 token 的集合）中有多少比例的 token 被实际使用到。CUR 越高，说明编码的区分度越好，信息熵越大。
  - 独立编码率 (Independent Coding Rate, ICR):
    1. 概念定义: 衡量在所有被编码的商品中，拥有独一无二 SID 序列的商品所占的比例。ICR 越高，说明编码的冲突越少，对不同商品的区分能力越强。
  - Recall@K:
    1. 概念定义: 衡量召回（或生成）列表的准确性。它计算在前 K 个推荐结果中，包含了用户实际点击/购买的商品的比例。
    2. 数学公式: $\text{Recall@K} = \frac{|\text{Retrieved Items}_K \cap \text{Ground Truth Items}|}{|\text{Ground Truth Items}|}$
    3. 符号解释: $\text{Retrieved Items}_K$ 是模型生成的前 K 个商品集合； $\text{Ground Truth Items}$ 是用户实际交互的商品集合。
  - MRR@K (Mean Reciprocal Rank):
    1. 概念定义: 衡量找到第一个正确答案的位置。它计算所有查询的正确答案排名的倒数之和的平均值。如果排名超过 K，则计为 0。该指标对排名靠前的结果给予更高的权重。
    2. 数学公式: $\text{MRR@K} = \frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{\text{rank}_i}$
    3. 符号解释: $|Q|$ 是总查询次数； $\text{rank}_i$ 是第 $i$ 个查询的第一个正确答案在推荐列表中的排名。如果排名大于 K，则 $\frac{1}{\text{rank}_i}$ 计为 0。
对比基线 (Baselines):
- 线上 MCA (Online MCA): 即快手线上正在大规模使用的传统多阶段级联搜索架构。这是最重要、最强的基线，直接对比证明了 OneSearch 的实际业务价值。
- RQ-VAE: 一种经典的量化编码方法，作为 KHQE 模块中编码方案的对比基线。

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis):
- 在线 A/B 测试结果： OneSearch 相比于高度优化的线上 MCA 系统，取得了全方位的显著提升。
  - 引入 RQ-OPQ 和长行为序列后，商品 CTR 提升 +1.45%。
  - 应用了 PARS 奖励模型进行重排后，效果进一步放大，实现了 +1.67% 的商品 CTR，+2.40% 的购买用户数，以及 +3.22% 的订单量增长。这些指标在万亿级 GMV 的电商平台是极为惊人的提升。
  - 反向验证： 论文做了一个有趣的实验，将线上 MCA 的排序阶段去掉，只保留召回和预排序，结果商品 CTR 下降 9.97%，订单量暴跌 39.14%。这反衬出 OneSearch 作为一个统一模型，其性能已经远超一个简化的 MCA，具备了强大的排序能力。
- 效率提升： OneSearch 的架构优势带来了巨大的成本节约和效率提升。
  - 运营成本 (OPEX): 相比 MCA，OneSearch 节省了 75.40% 的服务器开销。
  - 计算效率 (MFU): MFU 从 MCA 的 3.26% 飙升至 27.32%，说明 GPU 的计算潜力得到了更充分的释放。
    
    该图像是图表，展示了在线传统多阶段架构（OnlineMCA）与OneSearch在MFU和OPEX上的比较。OneSearch将MFU从3.26%提升至27.32%，增加了24.06%；同时将OPEX从100%降低至24.60%，减少了75.40%。
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
- 编码方案 (KHQE) 分析：
  - RQ-OPQ 的有效性 (Table 3)： 论文对比了 RQ-VAE、RQ-Kmeans 和最终采用的 RQ-OPQ 三种编码方案。如下表所示，RQ-OPQ 在独立编码率 (ICR) 上达到了惊人的 91.91%，远超前两者，并且在 Recall@10 和 MRR@10 指标上最接近线上 MCA 的性能，证明了其强大的表示能力。
    
    转录自论文 Table 3:
    
    Method CURTotal ICR Recall@10 MRR@10
    
    OnlineMCA - - 0.3440 0.1323
    
    RQ-VAE 1.17% 38.83% 0.2171 0.0689
    
    RQ-Kmeans 7.03% 68.08% 0.2844 0.1038
    
    RQ-OPQ - 91.91% 0.3369 0.1194
  - 关键词增强和平衡 K-Means 的作用 (Table 2)： 如下表所示，引入关键词增强 ( $+keywords$ ) 后，各层码本利用率 (CUR) 和独立编码率 (ICR) 都有提升。而只对第三层进行平衡操作 (+l3 balanced) 能在不破坏层次结构的前提下，将总 CUR 从 1.64% 提升到 7.03%，ICR 提升超过 57%，证明了该策略的有效性。
    
    转录自论文 Table 2 (部分数据):
    
    Configurations CURL1 CURL1*L2 CURTotal ICR
    
    4096-1024-512 99.90% 39.21% 1.30% 40.54%
    
    +keywords 100% 48.95% 1.64% 43.32%
    
    +l3 balanced 100% 48.95% 7.03% 68.08%

Method	CURTotal	ICR	Recall@10	MRR@10
OnlineMCA	-	-	0.3440	0.1323
RQ-VAE	1.17%	38.83%	0.2171	0.0689
RQ-Kmeans	7.03%	68.08%	0.2844	0.1038
RQ-OPQ	-	91.91%	0.3369	0.1194

Configurations	CURL1	CURL1*L2	CURTotal	ICR
4096-1024-512	99.90%	39.21%	1.30%	40.54%
+keywords	100%	48.95%	1.64%	43.32%
+l3 balanced	100%	48.95%	7.03%	68.08%

7. 总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary): 论文成功地设计并部署了业界首个用于电商搜索的统一端到端生成式框架 OneSearch。该框架通过三大核心创新——关键词增强的层次化量化编码 (KHQE)、多视角用户行为序列注入 (Mu-Seq) 和 偏好感知奖励系统 (PARS)，有效解决了传统 MCA 架构的固有弊病。大量的离线和在线实验雄辩地证明，OneSearch 不仅在相关性、个性化和商业转化等核心指标上超越了高度优化的传统系统，而且在计算效率和运营成本上展现出颠覆性的优势。
局限性与未来工作 (Limitations & Future Work):
- 论文提及的未来工作： 论文结尾提到，该系统已在多个场景部署，用于“进一步调查”(for further investigation)，这暗示了作者将继续探索其在更多场景下的潜力，并可能进行更深入的优化。
- 潜在的局限性 (Inferred Limitations):
  1. 训练成本与复杂性： 尽管线上推理成本降低，但 OneSearch 的训练过程（特别是多阶段 SFT 和 PARS）可能非常复杂且计算昂贵。
  2. 新物品冷启动问题： 生成式模型依赖 SID，当一个新商品加入时，如何快速、有效地为其生成高质量的 SID 并让模型学会生成它，仍然是一个挑战。
  3. 可解释性与可控性： 端到端模型像一个“黑盒”，当出现 bad case 时，难以像 MCA 那样定位到是召回、还是排序出了问题。如何对生成结果进行干预和控制是一个难题。
  4. 长尾查询与商品： 尽管论文声称能缓解长尾问题，但对于极低频的查询和商品，生成式模型可能仍然难以学习其表示。
个人启发与批判 (Personal Insights & Critique):
- 启发：
  1. 架构革新的巨大价值： 这篇论文最有冲击力的一点是，它展示了用一个全新的、更优雅的架构去替代一个成熟但陈旧的工业标准架构所能带来的巨大红利。这鼓励研究者们跳出“在旧框架上修修补补”的思维定式。
  2. 工程与算法的完美结合： OneSearch 是一个典型的工业界杰作。它不仅有新颖的算法思想（如 RQ-OPQ 组合、多视角序列注入），更有大量充满“工程智慧”的细节（如 CTR 校准、多阶段微调、混合排序框架），这些细节是模型能否在真实世界落地的关键。
  3. 生成式 AI 在搜索领域的落地范本： OneSearch 为生成式 AI 如何深度改造传统信息检索系统提供了一个非常成功的范例。它没有停留在用大语言模型做对话式搜索的表面，而是深入到了搜索引擎的核心——匹配与排序，实现了底层逻辑的重构。
- 批判性思考：
  1. “端到端”的真实性：论文提出的 PARS 奖励系统，本质上是训练了一个独立的排序模型来指导主模型。这在一定程度上引入了新的“阶段”，使得系统并非“一个模型搞定一切”那么纯粹。虽然这在实践中非常有效，但在概念上削弱了“端到端”的纯粹性。
  2. 对硬件的依赖： OneSearch 的成功高度依赖于强大的 GPU 计算能力。虽然它提升了 MFU，但其模型规模和训练/推理的底层要求可能远高于传统模型，这可能限制了其在资源受限环境下的应用。
  3. 结果的普适性： 论文成果基于快手这一特定平台（内容电商+短视频），其用户行为和商品特性可能与其他传统货架式电商（如亚马逊、淘宝）不同。OneSearch 的成功经验能否直接迁移到其他平台，仍有待验证。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。