ReaSeq: Unleashing World Knowledge via Reasoning for Sequential Modeling
TL;DR 精炼摘要
ReaSeq框架通过利用大规模语言模型中的世界知识,解决了传统推荐系统的知识贫乏和用户兴趣盲点问题。它通过多智能体合作的显式推理,将结构化产品知识转化为丰富的物品表示,同时利用扩散语言模型进行隐式推理。该系统在淘宝部署后实现了IPV提升超过6.0%、订单提升超过2.9%、GMV提升超过2.5%的显著效果,验证了其有效性。
摘要
Industrial recommender systems face two fundamental limitations under the log-driven paradigm: (1) knowledge poverty in ID-based item representations that causes brittle interest modeling under data sparsity, and (2) systemic blindness to beyond-log user interests that constrains model performance within platform boundaries. These limitations stem from an over-reliance on shallow interaction statistics and close-looped feedback while neglecting the rich world knowledge about product semantics and cross-domain behavioral patterns that Large Language Models have learned from vast corpora. To address these challenges, we introduce ReaSeq, a reasoning-enhanced framework that leverages world knowledge in Large Language Models to address both limitations through explicit and implicit reasoning. Specifically, ReaSeq employs explicit Chain-of-Thought reasoning via multi-agent collaboration to distill structured product knowledge into semantically enriched item representations, and latent reasoning via Diffusion Large Language Models to infer plausible beyond-log behaviors. Deployed on Taobao's ranking system serving hundreds of millions of users, ReaSeq achieves substantial gains: >6.0% in IPV and CTR, >2.9% in Orders, and >2.5% in GMV, validating the effectiveness of world-knowledge-enhanced reasoning over purely log-driven approaches.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
ReaSeq: Unleashing World Knowledge via Reasoning for Sequential Modeling (ReaSeq:通过推理释放世界知识以进行序列建模)
1.2. 作者
TaoRank Team*。 *完整作者列表请参阅附录 A (Contributions) 部分。
1.3. 发表期刊/会议
该论文以 技术报告 (Technical Report) 的形式发布。
1.4. 发表年份
2025年
1.5. 摘要
工业推荐系统在日志驱动范式下,面临两个根本性限制:
- 基于ID的物品表示存在知识贫乏 (knowledge poverty):这导致在数据稀疏 (data sparsity) 情况下兴趣建模的脆弱性。
- 对日志之外的用户兴趣存在系统性盲点 (systemic blindness to beyond-log user interests):这限制了模型在平台边界内的性能。 这些限制源于过度依赖浅层交互统计和闭环反馈,而忽视了大型语言模型 (Large Language Models, LLMs) 从海量语料库中学习到的关于产品语义 (product semantics) 和跨领域行为模式的丰富世界知识。
为了解决这些挑战,论文引入了 ReaSeq,一个推理增强 (reasoning-enhanced) 的框架,它利用大型语言模型中的世界知识,通过显式 (explicit) 和隐式 (implicit) 推理来解决上述两个限制。具体来说,ReaSeq 采用通过多智能体协作 (multi-agent collaboration) 实现的显式思维链 (Chain-of-Thought, CoT) 推理,将结构化产品知识提炼成语义丰富的物品表示 (semantically enriched item representations)。同时,它利用扩散大型语言模型 (Diffusion Large Language Models, DLLMs) 进行隐式推理,以推断出合理的日志之外的行为 (plausible beyond-log behaviors)。ReaSeq 已部署在淘宝的排序系统 (ranking system) 上,服务数亿用户,取得了显著的收益:IPV (Item Page Views) 和 CTR (Click-Through Rate) 提升 >6.0%,订单 (Orders) 提升 >2.9%,GMV (Gross Merchandise Volume) 提升 >2.5%。这验证了世界知识增强推理相比纯日志驱动方法的有效性。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2512.21257 PDF 链接: https://arxiv.org/pdf/2512.21257v2.pdf 发布状态: 预印本 (arXiv preprint)
2. 整体概括
2.1. 研究背景与动机
推荐系统是现代数字经济的基础设施,在电子商务、内容流媒体等平台中扮演着用户参与和商业价值创造的核心引擎。其中,排序阶段 (ranking stage) 是任务关键组件,它使用复杂的深度学习模型来精确估计用户偏好,从而最大化点击率 (CTR) 和转化率 (conversion) 等关键业务指标。在现代排序模型中,用户历史行为序列的建模已成为最关键的模块,其核心目标是捕获用户兴趣。
尽管现有序列建模方法已取得了显著的性能提升,但论文认为其持续进展受到一个固有的架构限制,即日志驱动范式 (log-driven paradigm) 的根本制约。这种范式通过专门建模封闭平台生态系统内收集的交互日志序列来学习用户兴趣。这种系统性约束对模型性能造成了内在瓶颈,主要表现为以下两个相互关联的限制:
-
知识贫乏导致的日志内兴趣建模脆弱性 (Brittleness of In-Log Interest Modeling due to Knowledge Poverty):现有序列建模主要采用日志内ID来表示物品,仅从交互日志中的统计共现模式 (statistical co-occurrence patterns) 学习不透明的、高维的基于ID的嵌入 (ID-based embeddings)。这种方法存在知识贫乏问题,即对产品属性(如服装材质和颜色)和用户潜在意图(如对服装场景和风格的需求)的覆盖有限。因此,当交互数据稀疏(在实际系统中很常见)时,贫乏的共现信号可能导致这些基于统计的方法的表示崩溃 (representation collapse),从而使它们对用户日志内兴趣的建模变得脆弱。
-
对日志之外用户兴趣的系统性盲点 (Systemic Blindness to Beyond-Log User Interest):平台日志仅代表用户整体行为图景的稀疏且有偏的样本。它们未能捕获广阔的外部世界,包括跨平台活动、线下行为以及由社交趋势引发的新兴兴趣。因此,日志内范式 (in-log paradigm) 制造了一个系统性盲点,使模型无法感知那些未表现为明确平台内交互的日志之外兴趣,从而对模型性能施加了固有瓶颈。例如,模型可能系统性地将低分分配给与用户日志之外兴趣完美契合的物品,仅仅因为其有限的数据视图中不存在历史先例。
为了解决闭环、日志驱动范式的这些根本限制,论文认为需要进行范式转变。与其试图从日志内数据中提取更精细的统计信号,不如通过外部世界知识来增强序列模型,以帮助它们更好地理解用户兴趣。因此,本文旨在利用大型语言模型 (LLMs) 作为基础知识引擎,将世界知识注入序列模型。
2.2. 核心贡献/主要发现
为了充分发挥 LLM 的世界知识,论文提出了 ReaSeq 框架,它利用 LLM 的显式 (explicit) 和潜在 (latent) 推理能力来构建一个知识系统,以增强序列建模 (Sequential modeling),直接解决日志驱动范式的两个关键限制,其核心贡献和主要发现如下:
- 推理增强表示 (Reasoning-Enhanced Representation, RER):为了对抗知识贫乏,ReaSeq 引入了一个多智能体框架 (multi-agent framework),通过多智能体协作执行显式思维链 (Chain-of-Thought, CoT) 推理。该框架从用户需求导向 (user demand orientation) 和产品属性表征 (product attribute characterization) 双重视角提炼结构化产品知识,生成解耦的、语义丰富的物品表示。这些知识增强的嵌入 (knowledge-enhanced embeddings) 捕获了纯协同过滤方法无法获得的商品属性和使用场景,有效缓解了表示崩溃,并为工业序列建模方法提供了稳健的特征基础。
- 生成行为推理 (Generative Behavior Reasoning, GBR):为了克服系统性盲点,ReaSeq 设计了一个基于扩散大型语言模型 (Diffusion Large Language Model, DLLM) 的生成框架,其任务是重建合理但未观察到的用户行为序列片段。通过以观察到的交互上下文为条件,并利用其嵌入的产品关系和典型意图进展的世界知识,DLLM 隐式地推断与日志内模式和合理日志之外偏好相符的用户行为。这一生成过程有效地扩展了行为信号空间,使系统能够推断用户可能做了什么,从而减轻了模型对未被平台日志捕获的兴趣的盲区。
- 工业部署与显著增益:ReaSeq 已部署在淘宝应用上,并集成到生产级排序架构中,统一了显式知识推理 (Chain of Thought) 和隐式行为补全 (Latent Reasoning)。在线实验表明,ReaSeq 在点击相关和转化相关在线指标上取得了显著且一致的性能提升:IPV 提升 >6.0%,CTR 提升 >6.0%,订单提升 >2.9%,GMV 提升 >2.5%。此外,单独评估 GBR 也显示出优越的在线收益(例如,IPV +2.40%,CTR +2.08%,订单 +4.09%,GMV +5.12%)。这些全面的改进验证了世界知识感知、推理驱动的范式能够帮助序列建模方法深入建模用户兴趣。
3. 预备知识与相关工作
3.1. 基础概念
为了更好地理解 ReaSeq 框架,本节将对论文中提及的一些基础概念进行详细解释,为初学者扫清理解障碍。
- 推荐系统 (Recommender Systems):一类信息过滤系统,旨在预测用户对物品(如商品、电影、音乐、新闻等)的偏好,并向用户推荐他们可能感兴趣的物品。它们是现代数字经济的基础设施。
- 排序阶段 (Ranking Stage):在推荐系统的多阶段架构中,排序是核心环节之一。它接收来自召回阶段(或称候选生成阶段)的少量候选物品,并使用复杂的模型(通常是深度学习模型)对这些物品进行精确的评分,以预测用户点击或转化的可能性,最终按照预测分数的高低进行排序展示。
- 序列建模 (Sequential Modeling):在推荐系统中,指通过分析用户历史行为序列(例如点击、购买、浏览记录)来捕捉用户动态兴趣和偏好演变的过程。目标是根据用户过去的交互序列来预测其下一步可能感兴趣的物品。
- 日志驱动范式 (Log-driven Paradigm):指传统推荐系统主要依赖用户在平台内部生成的交互日志数据(如点击、购买记录)来训练模型。这种范式强调从历史交互模式中学习,但可能受限于日志数据的范围和深度。
- ID-based 物品表示 (ID-based Item Representations):指将每个物品映射为一个唯一的整数ID,然后通过嵌入层 (embedding layer) 将这些ID转换为高维密集向量(嵌入)。这些嵌入主要通过物品之间的共现统计和协同过滤信号来学习,缺乏对物品内在语义属性(如材质、功能)的显式编码。
- 数据稀疏 (Data Sparsity):在推荐系统中,指用户与物品的交互矩阵中绝大多数条目为空(即用户未与大多数物品交互过)。这使得模型难以从少量交互数据中学习到准确的物品表示和用户偏好。
- 冷启动 (Cold-Start):数据稀疏的一个特例,指新用户或新物品由于缺乏足够的历史交互数据,导致推荐系统难以对其进行准确推荐的挑战。
- 表示崩溃 (Representation Collapse):在深度学习中,指模型学习到的物品嵌入或用户嵌入变得过于相似,无法有效区分不同的物品或用户。这会导致模型丧失判别能力,影响推荐质量。
- 大型语言模型 (Large Language Models, LLMs):指拥有数亿甚至数千亿参数的深度学习模型,通过在海量文本数据上进行预训练,学习到丰富的语言知识、世界知识和推理能力。它们能够理解、生成和处理人类语言。
- 世界知识 (World Knowledge):指 LLM 在预训练过程中从互联网文本数据中学习到的关于事实、概念、实体、关系、常识等方面的广泛知识。这种知识超越了特定领域或平台的数据。
- 思维链 (Chain-of-Thought, CoT) 推理:一种 LLM 提示技术,通过鼓励模型生成中间推理步骤(即“思维链”)来解决复杂任务,而不是直接给出最终答案。这有助于提高模型在多步推理任务上的性能和可解释性。
- 多智能体协作 (Multi-agent Collaboration):指多个(通常是 LLM)智能体通过分工、交流和协作来共同完成一个复杂任务的策略。每个智能体可以专注于特定子任务或视角。
- 扩散大型语言模型 (Diffusion Large Language Models, DLLMs):指结合了扩散模型 (Diffusion Models) 和大型语言模型特点的新型生成模型。扩散模型通过逐步向数据添加噪声并学习逆向过程来生成数据,DLLMs 利用这种机制来生成序列数据(如文本、行为序列),并能进行双向上下文推理。
- IPV (Item Page Views, 物品页面浏览量):衡量推荐系统效果的指标之一,指用户通过推荐系统点击并浏览物品详情页面的次数。
- CTR (Click-Through Rate, 点击率):衡量推荐系统效果的指标,指推荐物品被点击的次数占推荐物品展示总次数的比例。
- 订单 (Orders):衡量推荐系统转化效果的指标,指用户通过推荐系统点击并最终支付的订单数量。
- GMV (Gross Merchandise Volume, 商品交易总额):衡量推荐系统商业价值的指标,指用户通过推荐系统完成交易的所有订单的总金额。
3.2. 前人工作
论文在多个方面引用了前人工作,主要可以归纳为以下几类:
-
通用推荐系统与排序模型:
- 深度因子分解机 (Deep Factorization Machines, DeepFM) (Guo et al., 2017):一种结合了因子分解机(FM)和深度神经网络(DNN)的模型,用于 CTR 预测,FM 部分捕捉低阶特征交互,DNN 部分捕捉高阶特征交互。
- 深度兴趣网络 (Deep Interest Network, DIN) (Zhou et al., 2018):针对电子商务场景,提出了一种基于注意力机制的模型,能够根据候选物品动态地激活用户历史行为序列中的相关兴趣,从而更好地捕捉用户多样化兴趣。
- 广义因子分解机 (Generalized Factorization Machines) (Juan et al., 2016):对因子分解机进行扩展,使其能够处理更多类型的特征交互。
- RecGPT-v2 (Yu et al., 2025a) 和 RecGPT (Yu et al., 2025b):这些工作可能代表了将大型生成模型应用于推荐系统的最新进展,旨在利用其强大的生成能力来提升推荐质量。
- 大规模长序列建模 (Longer) (Chai et al., 2025):针对工业推荐系统中用户超长行为序列的挑战,提出了扩展长序列建模的方法。
- Massive Personalization with Decoupled Retrieval-Parameter-Free Transducer Generative Recommenders (Chen et al., 2025):探索了在生成式推荐器中实现大规模个性化的方法。
-
序列推荐与用户行为建模:
- SASRec (Self-Attentive Sequential Recommendation) (Kang and McAuley, 2018):利用自注意力机制 (self-attention mechanism) 来建模用户行为序列中的物品依赖关系,有效捕捉用户兴趣的动态变化。其核心思想是,用户对当前物品的兴趣可能由其历史行为序列中的所有物品共同决定,并通过注意力机制为不同历史物品分配不同的权重。
- 补充知识:自注意力机制 (Self-Attention Mechanism)
自注意力机制是 Transformer 模型的核心组件,它允许模型在处理序列时,为序列中的每个元素计算其与其他所有元素的相关性(注意力权重),从而获得一个包含上下文信息的表示。对于一个输入序列的嵌入矩阵 ,自注意力计算如下:
其中:
- (Query), (Key), (Value) 分别是通过输入 经过线性变换得到的矩阵:, , 。
- 是可学习的权重矩阵。
- 是 Key 向量的维度,用于缩放点积以防止梯度过大。
- 函数将注意力分数归一化为概率分布。
- 该机制的核心在于,每个 Query 都能与所有 Key 计算相似度,并将这些相似度作为权重加权求和对应的 Value。
- 补充知识:自注意力机制 (Self-Attention Mechanism)
自注意力机制是 Transformer 模型的核心组件,它允许模型在处理序列时,为序列中的每个元素计算其与其他所有元素的相关性(注意力权重),从而获得一个包含上下文信息的表示。对于一个输入序列的嵌入矩阵 ,自注意力计算如下:
其中:
- Swing (Yang et al., 2020):一种基于图的协同过滤方法,用于大规模电商推荐,通过构建物品图来捕获物品之间的复杂关系。
- MISS: Multimodal Textual and Searching Item-Level Sequential Behavior Retrieval for Recommendation (Guo et al., 2025):利用多模态文本和搜索行为进行物品级别的序列行为检索,以增强推荐。
- Scaling up long sequence modeling in industrial recommenders (Longer) (Chai et al., 2025):提出了在工业推荐系统中扩展长序列建模的方法。
- Massive personalization with decoupled retrieval-parameter-free transducer generative recommenders (Chen et al., 2025):研究了如何通过解耦检索和无参数传感器生成器实现大规模个性化推荐。
- SASRec (Self-Attentive Sequential Recommendation) (Kang and McAuley, 2018):利用自注意力机制 (self-attention mechanism) 来建模用户行为序列中的物品依赖关系,有效捕捉用户兴趣的动态变化。其核心思想是,用户对当前物品的兴趣可能由其历史行为序列中的所有物品共同决定,并通过注意力机制为不同历史物品分配不同的权重。
-
大型语言模型与推理:
- Qwen Technical Report (Bai et al., 2023):关于 Qwen 系列大型语言模型的报告,展示了其在多种任务上的能力。
- DeepSeek-V3 Technical Report (Liu et al., 2024):关于 DeepSeek-V3 系列大型语言模型的报告。
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022):开创性地提出了思维链 (CoT) 提示技术,展示了通过中间推理步骤提高 LLM 复杂推理能力的方法。
- Multi-agent Collaboration: Harnessing the Power of Intelligent Agents (Talebirad and Nadiri, 2023):探讨了多智能体协作如何利用智能体的力量解决复杂问题。
-
扩散模型与生成式建模:
- Large Language Diffusion Models (Nie et al., 2025):介绍了将扩散模型应用于大型语言模型,以实现生成和推理能力。
- LLaDA (Nie et al., 2025):作为 DLLM 的一个具体实现,其在论文中被用作双向隐式行为推理模型 (BIBR)。
- Sousa: An end-to-end neural audio codec (Zeghidour et al., 2021):介绍了 Residual Quantized Variational Autoencoder (RQ-VAE) 的概念,这是一种用于将连续向量量化为离散代码的模型,被 ReaSeq 用于语义物品标记化。
-
其他相关工作:
- KAPA: Knowledge Augmented Product Attribute Generation for Recommendation (Tang et al., 2025):与本文在知识增强表示方面有相似之处,专注于生成产品属性。
- Thinking Before Doing: Unleashing the Latent Reasoning Power for Sequential Recommendation (Tang et al., 2025):强调在序列推荐中释放潜在推理能力。
- When and How to Eradicate Retransformation Bias Intrinsically from Regression Models in Recommender Systems (Yi et al., 2025b,a):可能讨论了推荐系统中偏差消除的问题。
3.3. 技术演进
该领域的技术演进经历了从纯粹基于统计和协同过滤的日志驱动范式,到尝试整合内容信息、解决稀疏和冷启动问题的阶段,再到近年来大型语言模型 (LLMs) 兴起所带来的新范式。
- 早期阶段:ID-based 协同过滤与浅层统计:最初的推荐系统主要依赖用户与物品的交互历史,通过协同过滤 (Collaborative Filtering) 发现相似用户或物品,并推荐。物品通常由简单的 ID 表示,其嵌入通过大规模矩阵分解或神经网络学习,主要捕获共现统计信息。这种方法简单有效,但在数据稀疏和冷启动问题上表现不佳,且缺乏对物品深层语义的理解。
- 深度学习与序列建模的兴起:随着深度学习的发展,序列建模成为主流,如
DIN和SASRec等模型,开始利用注意力机制等技术捕捉用户兴趣的动态变化。这些模型依然主要依赖日志数据,但能够更好地从序列中提取精细的用户兴趣。然而,它们仍然受限于日志内信息,无法感知日志之外的用户兴趣和丰富的世界知识。 - 多模态与知识图谱的尝试:为了解决语义理解不足的问题,研究者尝试将物品的文本描述、图片等内容特征整合到推荐系统中,或利用知识图谱 (Knowledge Graph) 引入结构化知识。这些方法在一定程度上缓解了知识贫乏,但知识图谱的构建成本高昂,且多模态特征的融合仍需更强大的语义理解能力。
- LLM 驱动的新范式:近期,预训练的 LLMs 展现出强大的世界知识和推理能力。这为推荐系统带来了范式转变的可能性。LLMs 能够理解产品语义、用户意图,甚至推断未观察到的行为。ReaSeq 正是这一新范式下的代表性工作,它不再仅仅依赖“共现拟合 (co-occurrence fitting)”,而是通过“世界感知推理 (world-aware reasoning)”来构建推荐系统。
3.4. 差异化分析
ReaSeq 与现有日志驱动范式的推荐系统相比,主要存在以下核心区别和创新点:
-
知识来源与表示深度:
- 现有范式:主要依赖平台内部的交互日志数据,通过基于 ID 的嵌入来表示物品。这种表示方式是“知识贫乏”的,缺乏对产品语义、属性和用户潜在需求的深层理解,导致在数据稀疏时表现脆弱。
- ReaSeq:利用 LLM 预训练的世界知识,通过推理增强表示 (Reasoning-Enhanced Representation) 显式地将结构化产品知识(用户需求导向和产品属性)蒸馏到语义丰富的物品表示中。这使得物品表示不仅包含协同信号,还融入了深层的、可解释的语义知识。
-
用户兴趣感知范围:
- 现有范式:受限于平台日志数据,对用户兴趣存在“系统性盲点”,无法感知用户在平台之外的活动、线下行为或新兴兴趣。这导致推荐结果可能无法完全契合用户的真实、全面的偏好。
- ReaSeq:通过生成行为推理 (Generative Behavior Reasoning, GBR) 组件,利用 DLLM 的隐式推理能力来推断用户在日志之外的、合理且未观察到的行为。这扩展了模型对用户兴趣的感知范围,使其能够理解更全面的用户画像。
-
建模范式:
- 现有范式:本质上是“共现拟合 (co-occurrence fitting)”,即从观察到的交互模式中学习统计关联。
- ReaSeq:转变为“世界感知推理 (world-aware reasoning)”,即通过知识驱动的推理来理解、预测甚至合成新的用户-物品交互,超越了可观察行为规律的限制。
-
可解释性与鲁棒性:
-
现有范式:ID-based 嵌入通常是黑盒的,难以解释其含义。在数据稀疏时容易出现表示崩溃,缺乏鲁棒性。
-
ReaSeq:多智能体协作的显式推理过程提供了更具可解释性的结构化知识。知识增强的表示在稀疏数据下也更具鲁棒性,因为它们基于物品的内在语义,而非仅仅统计共现。
总而言之,ReaSeq 引入了 LLM 作为强大的知识引擎和推理工具,从根本上改变了推荐系统获取和利用知识的方式,从而解决了传统日志驱动范式在知识深度和行为广度上的两大核心限制。
-
4. 方法论
ReaSeq 是一个推理增强的框架,它利用大型语言模型 (LLMs) 中的世界知识,通过显式推理 (explicit reasoning) 和隐式推理 (implicit reasoning) 来解决日志驱动推荐系统的两大限制。该框架包含两个核心组件:推理增强表示 (Reasoning-Enhanced Representation) 和 生成行为推理 (Generative Behavior Reasoning, GBR)。
ReaSeq 的整体架构如下图(原文 Figure 2)所示,它将显式知识推理(思维链)和隐式行为补全(潜在推理)统一在一个可扩展、低延迟的工业部署框架中。
该图像是一个示意图,展示了ReaSeq框架中的推理增强表示和生成行为推理的过程,包括多代理知识推理和超长序列建模的结构以及各个阶段的作用。
图 2: ReaSeq 框架的架构概览。ReaSeq 由两个协同的部分组成:知识系统 (Knowledge System) 和 应用 (Application)。知识系统是一个离线模块,用于构建两个核心资产:推理增强表示 (Reasoning-Enhanced Representation) 通过多智能体系统生成语义嵌入(来自用户需求和产品属性);生成行为推理 (Generative Behavior Reasoning, GBR) 通过扩散大型语言模型(DLLM)定位并重构合理的日志之外行为。应用部分则展示了如何将这些资产应用于检索式模型 (Retrieval-Based Model)(用于 GSU-ESU 架构)和压缩式模型 (Compression-Based Model)(用于长序列建模的目标感知兴趣提取)。
4.1. 推理增强表示 (Reasoning-Enhanced Representation)
本节介绍了 ReaSeq 知识增强物品排序系统的技术架构,其目标是将浅层协同过滤的物品表示转换为语义丰富的、知识驱动的嵌入。该方法通过一个精心设计、由大型语言模型驱动的多智能体推理框架,从用户中心需求模式和产品内在属性两个互补视角捕获物品信息。通过将这些增强的物品表示集成到排序管道中,推荐系统能够超越简单的共现统计,更深入地理解物品语义和用户意图。
4.1.1. 结构化产品知识系统 (Structured Product Knowledge System)
传统的基于 ID 的物品嵌入虽然在捕获协同信号方面有效,但存在根本性的自举问题 (bootstrapping problem):它们需要大量的交互历史才能达到有意义的表示质量。这种对数据的依赖性形成了一个恶性循环,使得长尾物品(那些最受益于增强表示的物品)始终处于表示不足的状态,从而加剧了流行度偏差 (popularity bias) 并限制了目录多样性。大型语言模型 (LLMs) 的出现,凭借其数十亿参数编码的广泛世界知识和卓越推理能力,为打破这一循环提供了有前景的途径。ReaSeq 不再纯粹从观察到的用户-物品交互中学习物品表示,而是利用 LLM 作为语义引擎 (semantic engines),从物品元数据 (item metadata)、上下文信息和领域专业知识中提炼结构化知识。
ReaSeq 的结构化产品知识系统通过一个分层多智能体知识增强框架 (hierarchical multi-agent knowledge enhancement framework) 实现这一洞察,它从两个互补视角构建物品表示:
- 用户需求导向 (user demand orientation):捕获驱动用户选择特定物品的潜在需求、动机和期望。
- 产品属性表征 (product attribute characterization):阐明物品本身的固有特性、功能和区别特征。 通过协调多个专业 LLM 智能体,在一个由信息提取、维度细化和知识生成组成的渐进式精炼管道中,系统地丰富物品语义,同时保持可解释性和事实基础。
4.1.1.1. 多智能体知识推理 (Multi-Agent Knowledge Reasoning)
ReaSeq 的知识推理架构包含三层分层专业智能体,每层设计用于以递增的粒度逐步精炼和实例化语义知识。其工作流程如下图(原文 Figure 3)所示:
该图像是一个示意图,展示了针对"女装"类别的用户查询处理流程。图中涵盖了分类信息提取代理、用户需求推理及商品属性推理的步骤,并显示了服装款式和材料类型等重要属性。通过这些步骤,系统可以生成与用户兴趣对应的商品推荐。
图 3: 多智能体知识推理框架的工作流程。分类信息提取智能体 (Categorical Information Extraction Agents) 首先从全品类用户查询中提炼出双视角分类体系(用户中心需求和产品中心属性)。然后,物品特定知识生成智能体 (Item-Specific Knowledge Generation Agents) 以此分类体系为提示,分析单个物品的元数据,为每个维度生成具体的、以证据为基础的描述和关键词(例如,“日常通勤”)。
以下详细介绍每层的功能和提示策略。
-
第 1 层:分类信息提取智能体 (Categorical Information Extraction Agents) 基础层建立全面的分类分类体系 (categorical taxonomies),作为后续推理阶段的支架。该层包含两个并行智能体流:
-
用户需求导向流 (User Demand Orientation Stream):部署一个需求提取智能体 (demand extraction agent),分析每个主要类别内历史用户查询和搜索模式。这些查询通过“风格偏好”、“舒适要求”或“合身担忧”等表达直接揭示用户意图。该智能体执行语义聚类 (semantic clustering),将相关需求表达分组,同时确保结果维度是正交 (orthogonal) 且集体全面的。具体而言,智能体迭代地将语义相似的表达合并为统一的需求维度,仅当现有维度无法充分捕获新用户关注点时才创建新维度。这个过程产生了一个紧凑的用户中心需求分类体系,从用户的视角表征物品,独立于商家定义的模式(参见附录 B 的 Prompt Template 1)。
-
产品属性导向流 (Product Attribute Orientation Stream):并行部署一个属性提取智能体 (attribute extraction agent),处理类别中所有物品的商家提供的属性规范。这些规范通常表示为键值对(例如,“材质:棉”、“风格:休闲”),描述产品特征,但通常在商家之间表现出显著的异质性和不一致性。该智能体执行语义抽象 (semantic abstraction) 和聚类,将相关属性从产品分类视角整合为统一维度。通过迭代分组,智能体识别哪些属性表征相同的底层产品方面(例如,将“面料类型”、“材料成分”和“纺织品质”分组为一个维度)。这个过程产生了一个标准化的产品中心属性分类体系,捕获了可以客观表征产品的基本维度,例如“技术规格”、“设计美学”、“材料特性”和“功能特征”,超越了商家特定的模式(参见附录 B 的 Prompt Template 2)。
-
-
第 2 层:维度细化智能体 (Dimension Refinement Agents) 给定第 1 层建立的分类分类体系,第二层将这些高层框架专门化到更细粒度的二级和三级子类别。这种细化至关重要,因为物品特征和用户需求模式在子类别之间通常表现出显著差异。例如,电子产品中的笔记本电脑与智能手机,或鞋类中的跑鞋与徒步靴,需要不同的语义表征。
对于每个子类别,细化智能体接收父类别的分类体系和该子类别的代表性物品样本。然后,智能体执行上下文感知专业化 (context-aware specialization):它们识别父分类体系中哪些维度仍然相关,哪些需要适应,以及哪些新维度作为该子类别的特色出现。关键是,这些智能体被指示确保细化后的维度满足三个关键属性:
-
正交性 (orthogonality):维度应捕获不同、非冗余的方面。
-
全面性 (comprehensiveness):维度集合应共同涵盖与子类别相关的语义空间。
-
客观性 (objectivity):确保维度基于可观察和可验证的属性。
为了提高推理质量,ReaSeq 使用思维链 (Chain-of-Thought, CoT) 提示(Wei et al., 2022; Tang et al.; Talebirad and Nadiri, 2023)实现这些智能体,要求它们在输出细化维度集合之前明确阐述其推理过程。结构化输出包括:(1) 记录继承和适应决策的推理轨迹;(2) 包含细化维度列表及每个维度与父分类体系继承或子类别特定要求之间联系的理由;(3) 维度与其相应物品属性或用户表达之间的映射(参见附录 B 的 Prompt Template 3)。
-
-
第 3 层:物品特定知识生成智能体 (Item-Specific Knowledge Generation Agents) 最后一层将抽象维度实例化为具体的、物品特定的语义知识。给定目标物品和第 2 层精化后的维度框架,知识生成智能体系统地从用户需求和产品属性两个视角分析该物品在每个维度上的特征。
对于每个维度,智能体执行证据驱动推理 (evidence-grounded reasoning):(1) 从物品的元数据(例如标题和描述)中提取事实证据;(2) 将这些证据合成为沿该维度的可解释表征;(3) 提炼准确捕捉该维度特定洞察的关键概念。这种三部分结构——维度标签、基于证据的分析和关键词提取——确保生成的知识既语义丰富又事实有据,防止幻觉的同时保持可解释性。
关键是,智能体通过引用支持每个表征的具体属性或元数据字段来提供明确的理由。例如,当分析一件衬衫的用户需求维度“风格偏好”时,智能体引用“极简领口设计”或“中性色调”等具体证据,而不是做出无根据的推断。这种证据归因机制确保了事实的准确性,并支持对知识质量的下游验证。具体的智能体提示模板在附录 B 的 Prompt Template 4 中提供。
通过整合这三层分层(从粗到细的分类、上下文感知专业化和证据驱动实例化),多智能体框架有效地将原始物品元数据转换为结构化的、多视角的语义表示。这些增强的表示为下游的编码和排序过程提供了原则性的基础,使系统不仅能基于共现统计,还能基于显式、可解释的语义知识来推理物品。这种方法有效地弥合了可观察用户行为与潜在用户意图之间的鸿沟,从而提高了推荐管道中物品理解的深度和可靠性。
4.1.1.2. 推理增强表示构建 (Reasoning-Enhanced Representation Construction)
在建立了多智能体知识推理框架后,ReaSeq 将生成的语义知识编码为密集向量表示,以便无缝集成到工业排序系统中。
形式化问题设置 (Formal Problem Setup) 令 表示物品目录。对于任意物品 ,第 3 层知识生成智能体根据第 2 层维度细化智能体定义的维度,生成沿两个正交视角的结构化语义表征。
-
用户需求视角 (User Demand Perspective): 令 表示为物品类别识别的用户需求维度集合,其中 代表维度总数。对于物品 ,知识生成过程产生: 其中, 表示沿维度 表征物品 的提取关键词序列。
-
产品属性视角 (Product Attribute Perspective): 类似地,令 表示产品属性维度集合,其中 代表属性数量。相应的知识结构为: 其中 表示沿维度 表征物品 的提取关键词序列。
语义编码 (Semantic Encoding) 为了操作这些结构化知识表示,ReaSeq 采用预训练的句子嵌入模型 (sentence embedding models) 将文本知识映射到密集语义向量。具体来说,使用一个在大规模语料库上训练的预训练文本编码器 来捕获跨不同领域的通用语义关系。
对于每个视角,通过连接维度标签及其对应的关键词来构建一个统一的文本序列: 其中 表示带有适当分隔符的字符串连接。这些文本序列随后通过预训练的语义编码器 进行编码,以获得双视角嵌入,最终的知识增强物品表示通过元素级加法获得: 其中 表示嵌入维度。这种统一表示将用户中心需求和产品内在属性封装为整体语义特征。
4.1.2. 推理增强序列建模 (Reasoning-Enhanced Sequential Modeling)
在通过多智能体推理建立了知识增强物品表示后,本节探讨了它们如何集成到主流行为建模框架中,以用于工业排序。本节介绍了两种互补的范式,它们利用语义表示来建模超长用户行为序列中的用户偏好:
-
检索式建模 (Retrieval-Based Modeling):采用两阶段的通用搜索单元 (General Search Unit, GSU) 和精确搜索单元 (Exact Search Unit, ESU) 管道,其中 GSU 对长序列执行高效的语义引导检索,然后 ESU 进行目标感知注意力细化以提取相关模式。
-
压缩式建模 (Compression-Based Modeling):采用可学习的兴趣锚点组 (learnable interest anchor groups) 通过交叉注意力 (cross-attention) 压缩行为序列,通过端到端优化捕获多样化的用户兴趣,同时实现与目标物品的直接交互。
这两种建模途径与其他上下文特征联合集成,用于 CTR 预测,使系统能够联合推理物品语义和用户行为动态。
4.1.2.1. 检索式建模 (Retrieval-Based Modeling)
遵循现有主流方法 (Chang et al., 2023; Wu et al., 2025a; Guo et al., 2025),ReaSeq 框架采用两阶段架构,其中通用搜索单元 (GSU) 执行高效的目标感知检索,精确搜索单元 (ESU) 应用目标注意力细化检索到的交互。值得注意的是,ReaSeq 利用 4.1.1.2 节中的知识增强语义表示作为 GSU 中的检索基础,通过语义相似度匹配实现细粒度兴趣捕获。
检索式建模的架构如下图(原文 Figure 4)所示:
该图像是一个示意图,展示了 ReaSeq 框架中的检索与压缩建模过程。左侧部分为基于检索的建模,包括用户的长期行为序列和嵌入服务;右侧为基于压缩的建模,涉及可学习的兴趣锚点。公式 在图中用于计算相似性。
图 4: ReaSeq 框架中的检索与压缩建模过程。左侧部分展示了检索式建模,其采用 GSU-ESU 架构,通过高效的批次收集注意力机制进行在线评分。右侧部分展示了压缩式建模,其使用兴趣锚点来处理超长序列。来自这两个路径的结果向量与用户特征和其他上下文特征结合,用于最终的 CTR 预测。
-
阶段 1:通用搜索单元 (General Search Unit, GSU) 给定用户行为序列 (其中 表示时间步 的物品)和目标物品 ,GSU 根据语义相似度检索最相关的 个历史交互: 其中 表示余弦相似度 (cosine similarity), 返回得分最高的 个物品的索引。这种语义索引策略与传统方法有根本区别:
- 双视角表示 (Dual-Perspective Representation):每个 都包含用户需求导向(用户寻求什么)和产品属性(物品本质是什么),使相似度计算能够执行多视角匹配,通过相似的用户需求或共享的产品特征识别与目标物品在语义上相关的历史物品。
- 知识驱动多样性 (Knowledge-Grounded Diversity):基于显式元数据知识的表示比纯粹通过交互学习的嵌入展现出更大的语义多样性,并降低了流行度偏差,从而能够检索相关的长尾物品。
-
阶段 2:精确搜索单元 (Exact Search Unit, ESU) 检索到的交互 通过目标感知注意力 (target-aware attention) 进行细化。ReaSeq 采用多头注意力 (multi-head attention),其中来自附录 C 的目标物品表示作为查询 (query),检索到的历史物品作为键 (keys) 和值 (values): 其中 是可学习的权重矩阵, 表示物品表示,它由语义 ID 嵌入 (semantic ID embeddings) 和统计特征组成(来自附录 C), 表示根据目标物品上下文提取的行为表示。
系统部署与优化 (System Deployment and Optimization) 在 GSU 阶段,采用高效的 Top-K 检索服务。对于每个候选物品,该服务高效地查询预构建的向量索引,从用户的超长行为序列中检索 Top-K 个最相关的物品,形成一个精简的相关上下文。在 ESU 的在线服务阶段,ReaSeq 实施了关键的批次级优化以最小化计算开销。首先,请求批次中所有候选物品的检索到的 Top-K 序列被合并和去重,以创建一个单一、独特的历史物品集合。然后,K(Key)和 V(Value)投影仅对这个独特的集合计算一次。随后,对于每个候选物品,构建一个收集索引 (gather index),将其映射到批次范围张量中相应的 K/V 对。一个高效的批次收集 (Batch Gather) 操作使用此索引来组装注意力计算的特定上下文,从而消除了冗余的 K/V 投影并确保了低延迟性能。
通过将检索 (GSU) 和细化 (ESU) 都基于知识增强表示,ReaSeq 框架实现了语义-行为协同:语义知识指导相关历史上下文的选择,而注意力机制根据目标特定相关性自适应地权衡检索到的交互。这种设计将检索空间扩展到频繁共现物品之外,包括语义相关但行为距离较远的交互,解决了纯协同方法在覆盖范围上的限制。最终的 然后与其他用户画像特征、目标物品表示和上下文信号集成,用于 CTR 预测。
4.1.2.2. 压缩式建模 (Compression-Based Modeling)
虽然检索式建模通过稀疏注意力高效处理超长序列,但其离散选择机制引入了一个根本性限制:未被 GSU 检索到的物品在训练期间收到零梯度更新,导致物品表示优化不足和模型收敛缓慢。
为了解决这个限制,ReaSeq 引入了一种压缩式范式 (compression-based paradigm) (Chai et al., 2025; Chen et al., 2025; Li et al., 2023),确保整个行为序列上的密集梯度覆盖。这种方法采用可学习的兴趣锚点 (learnable interest anchors) 通过交叉注意力 (cross-attention) 压缩完整序列,提供互补优势:(1) 完整梯度流 (complete gradient flow),其中每个物品都对训练有贡献;(2) 端到端可微分性 (end-to-end differentiability),能够与排序目标联合优化。此外,语义 ID (SIDs) 使语义相似的物品共享共同的 ID 前缀,即使对于不常检索的物品也能通过参数共享加速收敛。ReaSeq 将基于 SID 的嵌入与其他物品侧信息特征结合: 其中 表示第 层量化码本 中被选中的代码, 表示其他物品特征,包括分类属性(例如品牌、类别)、连续统计特征(例如流行度、价格)等。
-
架构设计 (Architecture Design) 给定行为序列 ,ReaSeq 引入 个可学习的兴趣锚点 ,这些锚点随机初始化并进行端到端学习。
-
阶段 1:交叉注意力压缩 (Cross-Attention Compression) 锚点对完整序列进行注意力操作: 这执行了将历史交互软聚类到 个兴趣组中。
-
阶段 2:目标感知提取 (Target-Aware Extraction) 压缩后的锚点与目标物品进行交互:
-
双路径集成 (Dual-Pathway Integration) ReaSeq 将基于锚点的压缩与 GSU-ESU 的输出集成: 其中 和 分别表示用户画像特征和上下文特征。这种双路径设计结合了显式语义检索(可解释、有依据)与隐式学习压缩(可微分、完全覆盖),弥补了各自的弱点,同时捕获了互补的行为模式。最终的 CTR 预测 通过对集成表示的 MLP (Multi-Layer Perceptron) 获得,使模型能够联合推理物品语义和用户行为动态,以实现准确的点击率估计。
-
训练目标 (Training Objective) 整个排序模型进行端到端训练,以最小化点击率预测的二元交叉熵 (binary cross-entropy, BCE) 损失: 其中 表示训练数据集,包含用户-物品交互元组
(u, i, y), 是二元点击标签(1表示点击,0表示未点击), 是由公式 (4) 预测的 CTR。
-
4.2. 生成行为推理 (Generative Behavior Reasoning, GBR)
本节介绍了 GBR (Generative Behavior Reasoning) 框架,它通过基于观察到的交互和世界知识进行推理,来推断日志之外的行为,从而解决推荐系统对日志之外用户兴趣的系统性盲点。形式上,给定观察到的行为序列 ,目标是: 其中 表示缺失行为可能发生的位置, 表示增强行为, 表示 LLM 中编码的世界知识。这个因子分解将问题分解为:(1) 通过 检测缺失行为可能发生的位置;(2) 通过 生成可能的行为。
这带来了两个关键挑战:
-
挑战 1:日志之外行为定位 (Beyond-Log Behavior Localization):给定超长用户行为序列,如何在没有可观察地面真值 (ground-truth) 标记的情况下,高效识别日志之外活动可能发生的位置?
-
挑战 2:无监督行为生成 (Unsupervised Behavior Generation):如何在没有直接监督的情况下(因为日志之外行为本质上缺乏地面真值标签),指导 LLM 生成语义上合理的增强行为?
为了解决这些挑战,ReaSeq 提出了一个两阶段框架:
- 日志之外行为定位 (Beyond-Log Behavior Location) (4.2.1节):通过基于时间、语义和协同连贯性原则的混合规则和模型过滤,识别候选缺失位置。
- 双向隐式行为推理 (Bidirectional Implicit Behavior Reasoning) (4.2.2节):利用扩散大型语言模型 (Diffusion Large Language Models, DLLM) 通过半监督学习生成上下文驱动的行为补全。 这种方法将不完整的观察数据转换为丰富的行为表示,捕捉了显式平台交互和推断的日志之外偏好。
GBR 的两阶段过程如下图(原文 Figure 5)所示:
该图像是一个示意图,展示了生成行为推理的两个阶段:第一部分为超日志行为位置的识别,包括基于规则和基于模型的过滤方法;第二部分描述了双向隐式行为推理过程,涉及训练阶段和推理阶段。公式 B = ig\, b_{t-1}, b_t, b_{t+1} \big\, 表示行为序列。
图 5: 生成行为推理的两阶段过程。(1) 哪里 (Where):日志之外行为定位。通过混合规则和模型过滤识别缺失行为的可能位置。这些位置表现为用户行为序列中的不连续性([F])。(2) 如何 (How):双向隐式行为推理。一个基于 DLLM 的模型处理序列。在训练期间,它学习填充这些识别出的日志之外不连续点 [F]。
4.2.1. 日志之外行为定位 (Beyond-Log Behavior Location)
为了识别用户行为序列中可能发生缺失交互的位置,ReaSeq 引入了一种行为不连续性定位机制 (behavior discontinuity location mechanism),该机制基于人类决策的认知和时间约束推导出的三个行为假设:
-
假设 1:时间连续性 (Temporal Continuity):用户在平台内的连续交互表现出有限的时间间隔。从物理时间角度看,连续动作之间存在大的时间间隔,表明在观察到的日志之外发生了干预活动,因为用户不太可能长时间不活跃而不参与其他消费渠道。
-
假设 2:认知惯性 (Cognitive Inertia):人类用户在短交互窗口内表现出偏好稳定性——连续行为通常涉及来自语义相关类别的物品。在截然不同的产品类别之间突然转换(例如,从电子产品到杂货)会产生高昂的认知转换成本,这表明这种转换可能意味着缺失了可以提供更平滑语义过渡的中间行为。
-
假设 3:协同连贯性 (Collaborative Coherence):平台范围内的共现模式编码了关于哪些物品自然地一起出现在用户会话中的统计规律。违反这些协同模式的行为序列,即连续物品在用户群体中显示低共现频率,可能表明缺失了可以恢复统计合理性的中间交互。
基于这些假设,ReaSeq 提出了一个混合粗到细定位管道 (hybrid coarse-to-fine location pipeline),结合了规则过滤以提高计算效率,并结合模型细化以提高统计严谨性。
-
阶段 1:基于规则的粗过滤 (Rule-Based Coarse Filtering) 通过识别连续行为 和 同时满足以下两个条件的位置 进行快速候选检测:
- 时间不连续性 (Temporal Discontinuity):时间间隔超过领域特定阈值: 其中 根据平台活动模式经验设定。
- 类别不连续性 (Category Discontinuity):连续物品的主要类别不同:
其中 表示平台分类体系中的顶层类别。
这种粗过滤有效地将候选空间从
T-1个潜在位置减少到一个可管理的子集 ,其中 。
-
阶段 2:基于模型的细粒度过滤 (Model-Based Fine-Grained Filtering) 对于 中剩余的候选位置,ReaSeq 采用协同过滤推荐器来评估统计连贯性。利用任何在平台交互数据上训练的现成序列推荐模型 (例如 Swing (Yang et al., 2020), SASRec (Kang and McAuley, 2018))来执行下一个物品预测。
具体来说,给定候选位置 ,评估观察到的下一个物品 是否与模型的预测偏好一致。模型根据行为上下文生成一个候选物品的排名列表: 其中 表示在 之前的交互, 表示物品 在模型排名结果中的位置。高排名(即观察到的物品在预测列表的末端)表明过渡 在学习到的协同模式下统计上不可信,暗示存在缺失的中间行为。
最终检测到的不连续位置集合为: 其中 是控制检测严格性的阈值:较小的值 施加更宽松的标准,将更多过渡标记为潜在不连续(任何排名在小 Top-N 之外的物品都被认为不可信),而较大的值 施加更严格的标准,仅保留最统计异常的过渡。在实践中, 可以根据领域特定的假阳性与假阴性检测容忍度进行校准。
这种混合检测机制高效地识别出时间、语义和协同信号共同暗示缺失行为的位置,为后续基于 LLM 的增强提供了高质量的输入位置,同时保持了工业规模部署的计算可行性。检测到的位置 随后传递给行为增强模块 (4.2.2节),该模块基于局部行为上下文和全局世界知识生成语义上合理的补全。
4.2.2. 双向隐式行为推理 (Bidirectional Implicit Behavior Reasoning)
在通过不连续性检测定位到候选缺失位置 后,面临一个关键困难:根据定义,缺乏未观察行为的地面真值 (ground-truth) 标签。与传统监督学习中显式标签指导训练不同,增强缺失行为需要基于可观察上下文推断可能发生的情况。
为了克服这个挑战,ReaSeq 将行为增强表述为一个半监督生成任务 (semi-supervised generative task),它结合了在自动构建的带标签数据上的自监督学习 (self-supervised learning) 和在无标签缺失位置上的推理。该方法利用扩散大型语言模型 (Diffusion Large Language Models, DLLM) (Nie et al., 2025; Wu et al.; Li et al., 2023),依靠其广泛的预训练世界知识和双向推理能力来合成上下文连贯的行为。
4.2.2.1. 问题形式化与自监督数据构建 (Problem Formalization and Self-Supervised Data Construction)
-
符号与数据划分 (Notation and Data Partitioning) 给定用户行为序列 和从 4.2.1节 中检测到的不连续位置 ,ReaSeq 将缺失位置划分为两类:
-
无标签缺失位置 (Unlabeled Missing Positions) :我们缺乏地面真值内容并寻求生成增强行为的位置。这些对应于真正未观察到的行为。
-
自监督带标签位置 (Self-Supervised Labeled Positions) :从观察序列中识别出的位置,其中删除一个物品会产生统计上显著的不连续性。这些位置作为代理监督信号,其地面真值是已知的(即原始观察到的物品)。
为了实现这种划分,ReaSeq 引入了一个可学习的特殊词元
[FILL],它作为带标签和无标签缺失位置的统一占位符。因此,增强序列表示可以形式化为: 其中[FILL]词元出现在 中的位置。
-
-
自监督标签构建 (Self-Supervised Label Construction) 为了构建 ,ReaSeq 利用了 4.2.1节 中的假设 3:协同连贯性。具体来说,对于 中的一个观察到的子序列 ,如果物品 在维护协同连贯性方面起着关键作用,那么移除它应该会显著降低给定先行上下文预测 的可预测性。
形式上,令 表示任何预训练的推荐模型。通过比较存在 和不存在 时下一个物品的预测概率来评估 的重要性: 其中 表示直到位置 的序列。大的正 表明在学习到的协同模式下, 对于预测 至关重要。
自监督带标签集合构建为: 其中 是一个用于平衡覆盖率和标签质量的阈值。对于 中的位置,地面真值增强是原始观察到的物品 ,使其适合监督训练。
-
半监督训练数据构建 (Semi-Supervised Training Data Construction) 通过定义 和 ,构建训练语料库,方法是将 中位置的物品替换为
[FILL]词元,同时保留其地面真值标签。生成的序列包含以下混合:-
观察到的物品 (Observed Items): 之外位置的物品,保持不变。
-
带标签填充词元 (Labeled Fill Tokens): 中位置的
[FILL]词元,其地面真值物品是已知的。 -
无标签填充词元 (Unlabeled Fill Tokens): 中位置的
[FILL]词元,用于未来的插补。这种形式化实现了半监督学习:模型学习在 位置预测被掩码的物品(监督信号),同时推理更广泛的序列上下文,使其能够在推理期间泛化到无标签位置 。
-
4.2.2.2. DLLM-Based 生成式训练框架 (DLLM-Based Generative Training Framework)
为了实现行为增强,ReaSeq 采用了扩散大型语言模型 (Diffusion Large Language Model, DLLM) 架构。DLLM 通过其基于扩散的生成过程,具有固有的双向上下文推理能力,能够在推断缺失交互时同时以先行和后续行为上下文为条件。此外,预训练的 DLLM 编码了关于物品语义和跨领域消费模式的广泛世界知识,使其非常适合推理平台边界之外发生的行为。
-
物品表示适应 (Item Representation Adaptation) 为了将 4.1.1.2 节中的知识增强物品表示 与 DLLM 集成,ReaSeq 引入了一个轻量级适配器网络 (adapter network),将语义表示投影到 DLLM 的嵌入空间: 其中 表示 DLLM 的嵌入维度。对于特殊词元
[FILL],引入了一个专用的可学习嵌入 ,随机初始化并在训练期间优化。 -
动态掩码策略 (Dynamic Masking Strategy) 为了训练 DLLM 预测被掩码的物品,ReaSeq 采用了一种动态随机掩码策略,该策略在自监督带标签位置 上操作。这确保模型学习重建在地面真值标签可用位置的物品,同时保留观察到的物品和无标签填充位置的上下文完整性。
形式上,令 表示通过在 中的位置插入
[FILL]词元构建的训练序列。在每个训练步骤中:- 采样一个比率 ,它决定了要掩码的带标签填充词元的比例。
- 对于每个位置 ,采样一个二元掩码指示器 。
- 构建掩码序列:
其中
[MASK]表示训练期间使用的掩码词元,[FILL]表示未掩码的缺失位置。注意,[MASK]词元与[FILL]共享相同的嵌入。
这种动态掩码策略有两个目的:(1) 通过在训练迭代中改变掩码模式来防止过拟合;(2) 它使模型暴露于部分可观察性场景,其中一些缺失位置是已知的(未掩码的词元),而另一些需要推断( 中被掩码的词元),这与推理时 位置未知的情况相符。
-
训练目标 (Training Objective) 遵循 DLLM 的离散扩散框架,ReaSeq 优化模型,使其在给定噪声序列和目标掩码级别的情况下,预测每个被掩码位置的地面真值物品。令 表示 中被掩码词元的数量,令 表示位置 的地面真值物品。训练损失为: 其中 是指示函数, 表示掩码序列 中位置 的状态, 表示 DLLM 在给定噪声序列和掩码比率 条件下对候选物品的预测分布。
由于物品词汇量巨大,ReaSeq 采用采样 softmax (sampled softmax) 来近似条件概率 。如下所示,从同一批次中其他样本的历史序列中抽取 个负样本, 表示第 个
[MASK]的推断表示, 表示地面真值表示, 表示负样本的表示, 表示 和 之间的相似度度量。由于生成的表示在下游应用中总是会进行抢先归一化,以确保特征空间中的分布一致性,因此该损失函数只需关注角度度量空间中的语义属性。因此,ReaSeq 采用余弦相似度作为概率建模中的 函数。 这个目标鼓励模型利用局部行为上下文(周围观察到的物品)和全局世界知识(编码在预训练 DLLM 骨干中)来执行双向潜在推理 (bidirectional latent reasoning):通过向前推理先行上下文和向后推理后续上下文来推断缺失物品,从而合成保持时间连贯性和语义合理性的行为。
4.2.2.3. 推理 (Inference)
在推理时,ReaSeq 使用训练好的 DLLM 为无标签缺失位置 生成增强行为。请注意, 中的位置(用于自监督训练)在推理期间保留其原始观察到的物品。推理过程如下:
-
步骤 1:序列准备 (Sequence Preparation) 通过仅在无标签不连续位置 插入
[FILL]词元来构建输入序列,同时保持观察到的物品不变: -
步骤 2:前向传播 (Forward Pass) 将 输入 DLLM 以获得上下文隐藏状态: 其中每行 对应于位置 的最终层隐藏状态。
-
步骤 3:用于排序的序列增强 (Sequence Augmentation for Ranking) 通过将 中位置的
[FILL]词元替换为它们对应的增强表示,构建最终的增强行为序列: 这个完成的序列作为一种与模型无关的输入增强,可以直接集成到任何下游 CTR 排序模型中。通过将原始不完整的行为序列 替换为增强序列 ,为准确的用户偏好建模提供了更全面的行为信号。
4.3. 语义物品标记化 (Semantic Item Tokenization)
附录 C 详细介绍了语义物品标记化机制,它将连续语义向量转换为离散语义物品 ID (Semantic Item IDs, SIDs),以弥合显式物品知识和行为序列协同信号之间的鸿沟。
架构设计 (Architecture Design) 标记化框架建立在残差量化变分自编码器 (Residual Quantized Variational Autoencoder, RQ-VAE) (Zeghidour et al., 2021) 之上,它逐步将连续向量分解为分层离散代码。架构由三个核心组件组成:
-
语义适配器 (Semantic Adapter) 为了使知识增强表示的维度与量化框架对齐,首先应用一个线性投影适配器: 其中 和 是可学习参数, 表示量化目标嵌入维度。
-
残差量化 (Residual Quantization) 适配后的表示 随后通过 个分层码本 (hierarchical codebook) 进行量化,每个码本 包含 个可学习的代码向量。量化过程迭代进行: 其中 是第 层后的残差向量, 表示从码本 中选择的代码向量。最终的量化表示是所有选定代码的和:
-
重构解码器 (Reconstruction Decoder) 为了确保量化表示保留语义信息,采用一个解码器网络 ,它重构原始的知识增强表示:
训练目标 (Training Objective) RQ-VAE 通过一个复合损失函数进行训练,该函数平衡了重构保真度和码本承诺: 重构损失衡量语义保留质量: 承诺损失 (commitment loss) 鼓励编码器承诺码本条目,同时允许码本向量适应: 其中 表示停止梯度 (stop-gradient) 操作符, 是平衡两个损失的超参数。
语义 ID 提取 (Semantic ID Extraction) 一旦训练完成,RQ-VAE 通过记录每个量化层的码本索引来为每个物品提取离散语义 ID: 其中 表示从第 层码本 中选定代码的索引。
5. 实验设置
本节详细介绍了 ReaSeq 框架在不同组件上的实验设置,包括用于评估推理增强表示和生成行为推理的数据集、评估指标和对比基线。
5.1. 数据集
所有实验都在淘宝 (Taobao) 平台的生产级排名系统上进行,该系统服务着数亿用户。
- 推理增强表示评估:使用了采样印象数据 (sampled impression data),其中包含目标物品和用户历史点击序列信息。
- 生成行为推理 (GBR) 评估:
- 用户群选择:首先从淘宝 App 首页的“猜你喜欢 (Guess What You Like)”业务中,选择了活跃度处于后三分之一(行为日志稀疏)的用户。然后,从其余用户中随机抽取相同数量的用户。这两个群体合并形成最终的用户群,用于后续行为推理和 CTR 建模的离线和在线评估。
5.2. 评估指标
论文中对不同任务和组件使用了多套评估指标。
5.2.1. 推理增强表示的离线评估指标
用于衡量表示捕获协同信号的能力,这些表示最终被输入到序列建模中。
-
Hit Rate at k (, k值命中率)
- 概念定义:衡量用户历史点击序列相对于目标物品的召回能力。对于用户序列中的每个物品,从物品池中检索 Top-K 个最近邻居。如果用户点击的目标物品出现在这个检索到的集合中,则记为一次“命中”。最终的 是平均命中率。
- 数学公式:
- 符号解释:
- :用户总数。
- :表示一个用户。
- :用户 的历史点击序列长度。
- :用户 历史点击序列中的一个物品。
- :用户 在 之后点击的目标物品。
- :物品 在物品池中的所有邻居物品。
- :根据余弦相似度检索 Top-K 个最近邻居。
- :指示函数,如果条件为真则为 1,否则为 0。
-
Same-Model Hit Rate at k (, 同模型k值命中率)
- 概念定义:衡量物品嵌入的实例级识别质量。对一组查询物品进行近似最近邻 (Approximate Nearest Neighbor, A-NN) 搜索,查询对象是生产规模的语料库。如果检索到的 Top-k 候选列表中包含至少一个与查询物品共享相同标准产品单位 (Standard Product Unit, SPU) ID 的物品,则记为一次“命中”。最终的 是所有查询的平均命中率。该指标提供了一个确定性度量,评估嵌入捕获物品内在属性的能力,独立于用户交互信号,直接评估其在真实、大规模检索场景中的细粒度判别力。
- 数学公式:
- 符号解释:
- :查询物品总数。
- :表示一个查询物品。
- :从生产规模的物品语料库中检索 Top-K 个最近邻居。
- :返回物品的标准产品单位 ID。
- :指示函数。
-
Macro Recall (宏召回率)
- 概念定义:通常指对每个类别或每个查询单独计算召回率,然后取所有类别/查询召回率的平均值。在本文上下文中,未给出具体计算方式,但结合 和 的语境,它可能指在多个 K 值或多个查询类型下,对命中率进行平均以获得一个更宏观的召回能力衡量。
- 数学公式:鉴于论文未提供具体公式,采用通用的宏召回率定义,其中先计算每个类别的召回率,再取平均。 其中 是类别 的召回率, 是类别的总数。在本文的语境中, 可能指不同的用户行为序列或不同的 SPU 组。
- 符号解释:
- :类别总数(可能是用户组、SPU 组或不同 值对应的组)。
- :表示一个类别。
- :类别 的召回率。
-
AUC (Area Under the ROC Curve, ROC曲线下面积)
- 概念定义:衡量二分类模型性能的指标。ROC 曲线以假阳性率 (FPR) 为横轴,真阳性率 (TPR) 为纵轴。AUC 值越大,表示模型的分类性能越好,区分正负样本的能力越强。
- 数学公式: 其中 是真阳性率, 是假阳性率, 是 TPR-FPR 曲线的反函数。
- 符号解释:
- (True Positive Rate):真阳性率,又称召回率或敏感度。
- (False Positive Rate):假阳性率,又称 1-特异度。
-
GAUC (Group AUC, 分组AUC)
- 概念定义:在推荐系统中,GAUC 是一种更常用的 AUC 变体,它先对每个用户(或每个请求)计算其内部的 AUC 值,然后将所有用户的 AUC 值进行加权平均(通常根据用户点击次数或曝光次数进行加权)。GAUC 能够更好地反映模型在个体用户层面上的排序能力,尤其是在用户行为差异大的场景下。
- 数学公式:
- 符号解释:
- :用户集合。
- :表示一个用户。
- :用户 的 AUC 值。
- :用户 的权重(例如,用户 的曝光次数或点击次数)。
5.2.2. 生成行为推理的离线评估指标
用于评估 GBR 的推理能力,分别在监督 [MASK] 词元和无监督 [FILL] 词元上进行。
-
In-Batch Perplexity (IB-PPL, 批内困惑度)
- 概念定义:由于物品词汇量过大,采用批内采样 softmax 来近似困惑度。对于一个样本,其 IB-PPL 定义为对其序列中所有
[MASK]词元的对数概率的负平均值的指数。对于[FILL]词元,其地面真值定义为同一序列中与[FILL]预测余弦距离最近的[MASK]位置的地面真值表示。 - 数学公式:
- 符号解释:
- :序列中
[MASK](或[FILL])词元的数量。 - :模型对第 个
[MASK](或[FILL])词元推断出的表示。 - :第 个
[MASK](或[FILL])词元的地面真值表示。 - :第 个
[MASK](或[FILL])词元的第 个负样本表示。 - :余弦相似度。
- :负样本数量。
- :序列中
- 概念定义:由于物品词汇量过大,采用批内采样 softmax 来近似困惑度。对于一个样本,其 IB-PPL 定义为对其序列中所有
-
In-Batch Accuracy (IB-ACC, 批内准确率)
- 概念定义:IB-PPL 的“硬”对应指标。如果预测表示与地面真值之间的距离比与任何批内负样本之间的距离更近,则认为模型预测是准确的。对于
[FILL]词元,其地面真值定义与 IB-PPL 相同。 - 数学公式:
- 符号解释:
- :序列中
[MASK](或[FILL])词元的数量。 - :模型对第 个
[MASK](或[FILL])词元推断出的表示。 - :第 个
[MASK](或[FILL])词元的地面真值表示。 - :第 个
[MASK](或[FILL])词元的第 个负样本表示。 - :余弦相似度。
- :负样本数量。
- :指示函数。
- :序列中
- 概念定义:IB-PPL 的“硬”对应指标。如果预测表示与地面真值之间的距离比与任何批内负样本之间的距离更近,则认为模型预测是准确的。对于
5.2.3. 在线 A/B 测试指标
用于衡量 ReaSeq 在真实生产环境中的业务价值。
- IPV (Item Page Views, 物品页面浏览量):推荐物品页面被用户浏览的次数。
- CTR (Click-Through Rate, 点击率):推荐物品被点击的次数占推荐物品展示总次数的比例。
- Order (订单):用户在点击推荐物品后一天内完成支付的订单数量。
- GMV (Gross Merchandise Volume within 1 day, 1日内商品交易总额):用户在点击推荐物品后一天内完成支付的所有订单的总交易金额。
5.3. 对比基线
5.3.1. 推理增强表示的对比基线
在消融实验中,主要对比了不同组件组合对表示质量的影响:
-
CNC (CN-CLIP-0.2B):一个 0.2B 参数的常规 CLIP 模型,作为基础多模态编码器。
-
GME (LLM-based GME-3B):一个 3B 参数的基于 LLM 的多模态编码器。
-
I2T (Image-to-Text contrastive learning):在淘宝产品语料库上进行图像到文本的对比学习,用于领域适应。
-
IUI (Intra-User-Interaction contrastive learning):在用户历史交互序列内进行对比学习,将协同信号注入多模态编码器。
-
MAKR (Multi-Agent Knowledge Reasoning):基于多智能体推理的产品文本知识增强。
在将表示应用于工业排序系统时,对比了不同的表示集成方案:
-
Retrieval-Based (检索式):将规则检索替换为基于学习表示的 GSU。
-
Compression-Based (压缩式):采用端到端的压缩式建模框架。
-
Compression-Based + SID (压缩式 + 语义ID):在压缩式模型中加入离散语义 ID (SIDs) 作为特征。
-
Retrieval-Based + Compression-Based + SID (检索式 + 压缩式 + 语义ID):结合所有增强。
-
Base + MAKR / Base + GME:将 MAKR 增强或 GME 增强的表示作为特征集成到基线 CTR 模型中。
5.3.2. 生成行为推理 (GBR) 的对比基线
主要对比了不同的行为不连续性定位方法 (BLBL) 和不同的双向隐式行为推理 (BIBR) 损失函数:
- BLBL 变体:
- GBR-T-0:基于时间不连续性 (Temporal Discontinuity, TD) 的定位。
- GBR-C-0:基于类别不连续性 (Category Discontinuity, CD) 的定位。
- GBR-TC-0:结合时间不连续性与类别不连续性 (TD CD) 的混合策略。
- BIBR 损失变体:
- GBR-C-0 (用 损失):使用余弦 InfoNCE 损失 (即公式 (6, 7) 定义的损失)。
- GBR-C-1 (用 损失):使用点式余弦距离损失 ,其中 dist 为余弦距离。
- GBR-C-2 (用 损失):使用点式欧几里得距离(均方误差)损失 ,其中 dist 为欧几里得距离。
6. 实验结果与分析
本节详细解读了 ReaSeq 框架在推理增强表示和生成行为推理方面的实验结果,并分析了其有效性。
6.1. 核心结果分析
6.1.1. 推理增强表示评估
6.1.1.1. 消融分析
为了量化 ReaSeq 表示生成管道中每个组件的贡献,论文进行了一系列消融研究。在实际工业工作流中,产品图片也会被利用,因此采用预训练的多模态编码器来编码产品信息。消融的组件包括:
-
CNC/GME:不同的编码器架构,使用公开可用的预训练权重,包括常规的 CN-CLIP-0.2B (简称
CNC) 和基于 LLM 的 GME-3B (简称GME)。 -
I2T:通过在淘宝产品语料库上进行产品图片和文本之间的对比学习实现的领域适应。
-
IUI:在用户历史交互序列内进行对比学习,将协同信号注入多模态编码器(如 4.1.1.2 节所述)。
-
MAKR:产品文本上的知识增强,即多智能体推理(如 4.1.1.1 节所述)和补充文本信息。
评估不同配置产生的表示质量时,采用推荐场景中常用的指标,衡量表示在下游任务中捕获协同信号的能力。由于这些表示最终被输入到序列建模中,因此在采样印象数据上计算以下指标:
HR@k、SM-HR@k和Macro Recall。
以下是原文 Table 1 的结果:
| Model | HR@30 | HR@50 | HR@100 | HR@200 | HR@500 | HR@1000 | HR@2000 | Macro Recall |
| CNC | 5.8147 | 7.4084 | 9.8393 | 12.8740 | 17.5118 | 21.6971 | 26.3568 | 10.7899 |
| CNC + I2T | 6.6301 | 8.3395 | 11.1559 | 14.5179 | 19.8336 | 24.5121 | 29.9609 | 12.2109 |
| GME | 6.2504 | 7.9256 | 10.5449 | 13.6865 | 18.6276 | 22.8668 | 27.6842 | 11.4249 |
| CNC + I2T + IUI | 7.7743 | 9.9121 | 13.3533 | 17.5096 | 23.9309 | 29.3427 | 35.2294 | 14.5261 |
| GME + I2T + IUI | 7.8405 | 10.0866 | 13.7192 | 17.9351 | 24.4954 | 29.9871 | 35.9946 | 14.8050 |
| CNC + I2T + IUI + MAKR | 8.2114 | 10.4831 | 14.1723 | 18.6145 | 25.3755 | 31.2666 | 37.4908 | 15.4127 |
| GME + I2T + IUI + MAKR | 8.4209 | 10.8162 | 14.6313 | 19.0560 | 25.8410 | 31.6550 | 37.8712 | 15.6966 |
表 1: 不同表示模型在召回任务中的性能比较。所有指标均以百分比 (%) 报告。每列的最佳结果以粗体突出显示。
以下是原文 Table 2 的结果:
| Model | SM-HR@1 | SM-HR@5 | SM-HR@10 | SM-HR@30 | SM-HR@50 | SM-HR@100 | SM-HR@200 | Macro Recall |
| CNC | 24.0900 | 38.4660 | 43.7620 | 51.8655 | 55.6039 | 60.6393 | 65.6118 | 56.9229 |
| CNC + I2T | 27.1294 | 43.5166 | 49.3617 | 58.0366 | 61.9201 | 67.0251 | 71.9308 | 62.5174 |
| GME | 25.2850 | 41.2064 | 47.0972 | 55.8767 | 59.7959 | 64.9361 | 69.8381 | 60.3689 |
| CNC + I2T + IUI | 27.3970 | 44.6171 | 50.9081 | 60.2427 | 64.4017 | 69.7997 | 74.8466 | 64.5652 |
| GME + I2T + IUI | 28.3508 | 45.8085 | 51.9645 | 60.9992 | 65.0083 | 70.2454 | 75.1920 | 65.2103 |
| CNC + I2T + IUI + MAKR | 20.2985 | 37.4966 | 44.8550 | 56.0930 | 61.0400 | 67.3628 | 73.1517 | 61.1497 |
| GME + I2T + IUI + MAKR | 24.6164 | 42.4050 | 49.2282 | 59.2713 | 63.6393 | 69.2249 | 74.3593 | 63.4745 |
表 2: 同模型命中率 (SM-HR) 性能。所有指标均以百分比 (%) 报告。每列的最佳结果以粗体突出显示。
分析要点:
- 监督微调 (I2T 和 IUI) 的关键作用:
- 领域适应:将图像到文本 (Image-to-Text,
I2T) 对比学习应用于内部语料库,显著提升了性能。例如,CNC模型的Macro Recall从 10.79% 提高到 12.21%。这表明将模型特征空间与目标领域的特定语义对齐是关键的第一步。 - 协同信号注入:通过用户内交互 (Intra-User-Interaction,
IUI) 对比学习进一步注入协同信号,持续提升所有指标的性能。例如, 在SM-HR任务中(表 2)取得了最佳的整体性能,将SM-HR@10从GME基础模型的 47.10% 提升到 51.96%,Macro Recall从 60.37% 提升到 65.21%。这突显了将用户行为模式注入多模态编码器,使其学习的表示不仅语义丰富,而且与用户偏好对齐,这对于生产排序系统至关重要。
- 领域适应:将图像到文本 (Image-to-Text,
- 编码器扩展 (Encoder Scaling) 的启示:
- 未微调时:
CNC(0.2B) 和GME(3B) 编码器在未微调时的比较表明,原始预训练的GME模型仅显示出微小增益,有时甚至在某些指标上不如较小的CNC模型(例如表 2 中的SM-HR@1,CNC为 24.09%,GME为 25.29%)。这表明简单增加模型规模并不能保证在特定下游任务上获得更好的开箱即用性能,大型模型的容量可能在没有领域特定指导的情况下未被有效利用。 - 微调后:在应用领域适应微调 () 后,较大的
GME模型始终显著优于其CNC对应模型。例如, 在表 1 中的Macro Recall达到 14.81%,显著高于 的 14.53%。这证实了大型模型具有更大的潜力,但这种潜力只能通过有针对性的监督微调来释放。更大的容量使模型能够更好地吸收来自领域特定 (I2T) 和协同 (IUI) 数据的复杂信号。
- 未微调时:
- 知识增强 (MAKR) 的权衡:
- 召回任务中的优势:在召回任务中(表 1),
MAKR提供了持续的性能提升。最终的GME + I2T + IUI + MAKR模型在所有召回指标上取得了最高分,Macro Recall达到 15.70% 的峰值。这表明基于推理的知识增强通过更深层的语义上下文丰富了产品文本,帮助模型更好地捕捉细微的用户意图。 - SM-HR 任务中的劣势:相反,在
SM-HR任务中(表 2),MAKR导致了显著的性能下降。例如,CNC + I2T + IUI + MAKR的SM-HR@1从 27.40% 急剧下降到 20.30%。MAKR过程通过其本质将这些细粒度细节抽象为更高层次的概念,鼓励模型将“Nike Air Jordan 1,42码,芝加哥配色”不仅视为那双特定的鞋子,还视为“收藏运动鞋”、“篮球鞋”和“80年代时尚的一部分”。这种抽象在实例层面造成了语义“模糊”效应。
- 召回任务中的优势:在召回任务中(表 1),
6.1.1.2. 应用于工业排序系统
为了验证 ReaSeq 推理增强表示在生产环境中的端到端有效性,论文将其集成到下游的点击率 (CTR) 模型中。该模型采用基于 SIM 的架构,是排序阶段的关键组件。基线配置使用两阶段“GSU-ESU”范式,其中通用搜索单元 (GSU) 依赖简单的基于类别的检索规则。进行了一系列消融研究,系统地衡量不同表示集成方案的影响。
以下是原文 Table 3 的结果:
| Method | Overall | Hot Users | Cold-Start Users | |||
| AUC | GAUC | AUC | GAUC | AUC | GAUC | |
| Retrieval-Based | +0.12 | +0.20 | +0.10 | +0.24 | +0.15 | +0.31 |
| Compression-Based | +0.18 | +0.34 | +0.16 | +0.31 | +0.27 | +0.35 |
| Compression-Based + SID | +0.20 | +0.36 | +0.17 | +0.33 | +0.36 | +0.39 |
| Retrieval-Based + Compression-Based + SID | +0.29 | +0.41 | +0.29 | +0.40 | +0.39 | +0.45 |
表 3: 不同表示集成方案在 CTR 模型上的性能提升。所有值表示相对于基线的百分点提升 (%)。
分析要点:
-
基于表示的 GSU 比基于规则更有效:通过将规则检索替换为利用学习表示的“检索式 (Retrieval-Based)”策略,观察到整体
GAUC提升 0.20%。对于冷启动用户 (+0.31% GAUC),收益更为显著,验证了语义、基于表示的检索提供了远优于简单规则的候选质量,其价值在用户行为信号稀疏时最为突出。 -
压缩式建模比检索式更有效:从梯度隔离的两阶段范式转向端到端“压缩式 (Compression-Based)”框架,实现了 0.34% 的
GAUC提升,显著优于仅通过检索式GSU带来的 0.20%。这表明打破搜索和排序阶段之间的梯度隔离允许联合优化,从而形成更全局最优的系统。 -
语义 ID (SIDs) 具有互补价值:在压缩式模型中添加离散语义 ID (
Compression-Based + SID) 带来了额外的收益,将整体GAUC提升至 0.36%。这表明SIDs为连续表示提供了有价值的互补信号,作为强大的、内存高效的分类特征,帮助模型学习特定、高层次的物品模式和关系。 -
两种范式具有正交且复合的收益:将所有增强组合在完整模型中(“Retrieval-Based + Compression-Based + SID”)实现了所有指标的最高性能提升,整体
GAUC提升 0.41%,冷启动用户GAUC更是达到了 0.45%。这证实了优化候选生成阶段(检索式 GSU)和先进的端到端排序架构(压缩式 + SID)所带来的性能收益在很大程度上是叠加和互补的。为了直接量化表示质量对最终排序性能的影响,论文进行了一项比较实验。将不同高质量物品表示(即通过 ReaSeq 推理增强的
MAKR框架和最先进的GME模型)作为特征集成到基线 CTR 模型中。结果以相对于基线模型的AUC和GAUC提升报告。
以下是原文 Table 4 的结果:
| Method | Overall | Hot Users | Cold-Start Users | |||
| AUC | GAUC | AUC | GAUC | AUC | GAUC | |
| Base + MAKR | +0.035 | +0.090 | +0.035 | +0.081 | +0.050 | +0.102 |
| Base + GME | +0.041 | +0.120 | +0.039 | +0.117 | +0.065 | +0.150 |
表 4: 应用于 CTR 模型的不同物品表示的性能比较。结果以相对于基线模型的提升报告。
分析要点:
- 普遍性能提升:集成
MAKR或GME增强表示都带来了所有用户群体的显著性能提升。Base + GME模型实现了整体GAUC0.120% 的大幅提升,验证了更高质量的物品表示为 CTR 模型提供了更强大、更具判别力的特征集。 - 冷启动用户的非比例收益:冷启动用户获得了不成比例的收益。尽管
Base + GME模型整体GAUC提升 0.120%,但冷启动用户提升更为显著,达到 0.150%。这表明GME表示在内容理解和泛化能力上的优势,对于用户获取和新用户引导至关重要。 - GME 表示的优越性:
GME模型在所有指标和用户群体中始终优于MAKR增强模型。例如,在整体人群中,GME带来了 0.120% 的GAUC提升,而MAKR为 0.090%。这表明尽管两种方法都改善了基线,但GME模型的全面微调和更大容量产生了对下游排序任务普遍更有效的表示。
6.1.2. 生成行为推理 (Generative Behavior Reasoning) 评估
6.1.2.1. 定量验证 GBR 的推理能力
为了比较不同设置如何影响模型的行为推理能力,论文考察了各种行为不连续性定位方法 (BLBL) 和行为推理任务的不同损失选项。
以下是原文 Table 5 的结果:
| Models | BLBL | BIBR Loss | [FILL] Ratio (%) | IB-PPL[MASK] | IB-ACC[MASK] (%) | IB-PPL[FILL] | IB-ACC[FILL] (%) |
| BLBL Variants | |||||||
| GBR-T-0 | TD | LInfoNCE | 13.74 | 11.03 | 57.55 | 6.09 | 66.41 |
| GBR-C-0 | CD | LInfoNCE | 30.63 | 5.87 | 67.46 | 4.75 | 75.80 |
| GBR-TC-0 | TD∪CD | LInfoNCE | 31.94 | 7.36 | 62.88 | 5.08 | 72.23 |
| BIBR Loss Variants | |||||||
| GBR-C-0 | CD | LInfoNCE | 30.63 | 5.87 | 67.46 | 4.75 | 75.80 |
| GBR-C-1 | CD | Lcos | 30.63 | 530.33 | 0.50 | 18.17 | 20.01 |
| GBR-C-2 | CD | Lmse | 30.63 | 795.08 | 0.30 | 27.12 | 14.80 |
表 5: GBR 在不同日志之外行为定位 (BLBL) 方案和不同双向隐式行为推理 (BIBR) 损失下的性能比较。
分析要点:
CD比TD更容易推理:尽管CD的[FILL]词元比例高于TD,但其推理难度低得多,因为CD在[FILL]词元上的IB-PPL和IB-ACC表现更优。- 简单的
[FILL]词元有助于 MLM:由于CD在[MASK]词元上的IB-PPL和IB-ACC也优于TD(尽管它们的[MASK]采样策略完全相同),这意味着在推理难度较低的位置插入[FILL]词元可以同时提高模型在掩码语言模型 (Masked Language Model, MLM) 任务上的判别能力。 [FILL]位置比其比例更重要:将两种不连续性定位方案(TD CD)结合并没有提升模型性能,因此仅仅提高[FILL]词元的插入比例可能无法提高模型的推理能力。相比之下,[FILL]词元的插入位置对模型的推理能力影响更大。- 只有上下文感知的损失才有效:与使用点式损失(即 和 )相比,(即公式 (6, 7) 定义的损失)能够促使模型学习具有判别性的语义表示,从而在
[MASK]词元上取得有希望的IB-ACC和IB-PPL结果。 [FILL]的指标比[MASK]简单:值得注意的是,尽管使用点式损失导致模型在[MASK]词元上基本丧失判别能力,但其IB-ACC[FILL]仍超过 10%。这可能是因为[FILL]词元的指标比[MASK]词元简单得多,即IB-ACC[FILL]只需要推断的[FILL]表示命中同一序列中任何一个[MASK]地面真值集合,而IB-ACC[MASK]则要求推断的表示命中[MASK]后面的确切地面真值。
6.1.2.2. 定性验证 GBR 的推理能力
物品视角 (Item Perspective)
为了说明推断表示在物品视角下的语义,论文使用在 [FILL] 位置外推的表示从物品池中检索 Top-1 真实物品,然后与日志点击物品序列中的上下文物品进行比较,如下图(原文 Figure 6.a)所示。
该图像是示意图,展示了用户行为的填充过程及两种视角的行为嵌入分布。左侧(a)为物品视角,展示了填补用户行为的数据,右侧(b)为表示视角,通过 t-SNE 可视化表示不同用户间的行为嵌入分布。
图 6: 验证 GBR 推理能力的项目和表示视角案例可视化。(a) 物品视角:两个用户历史序列中填充了推断出的行为([FILL] 词元)。展示了从 [FILL] 位置检索到的 Top-1 真实物品,并与上下文物品进行对比。例如,案例1中,“儿童娱乐”与“医疗护理”之间的不连续性被“卡通防水绷带”填补,暗示了儿童户外活动后可能的需求。案例2中,“行动辅助”与“食品加工”之间的不连续性被“本地时令蔬菜”填补,暗示了购物和烹饪准备过程。
分析要点:
- 案例 1:从休闲产品到医疗治疗的突然过渡暗示了日志之外的兴趣,GBR 将这种未观察到的意图重构为“卡通图案防水绷带”。这种推断展示了语义一致性:
“防水”属性保持了水上活动相关性;“卡通图案”保留了与儿童娱乐相关的产品属性;“伤口护理”解决了后续交互所暗示的紧急医疗需求;“儿童安全”保持了目标用户的一致性。 - 案例 2:行动辅助设备和食品加工机之间的交互不连续性表明缺失了烹饪食材兴趣。GBR 通过“本地种植的时令蔬菜”弥合了这一空白,其中
“农场新鲜”为购物手推车提供了逻辑采购目标,“沙拉蔬菜”与切片机的功能对齐。这种语义驱动的重建,将新鲜农产品作为中间环节,展示了 GBR 从碎片化日志中合成整体行为链(杂货采购 → 食材准备 → 储存)的能力。 - 总结:这些案例证实了 GBR 范式转换的优势:通过世界知识引导的推理而非历史模式匹配来解决行为不连续性,从而重建日志中缺失但对于连贯用户建模至关重要的兴趣。
表示视角 (Representation Perspective)
论文进一步可视化了不同用户历史序列中词元表示(包括真实物品词元和 [FILL] 词元)的分布,如下图(原文 Figure 6.b)所示。
该图像是示意图,展示了用户行为的填充过程及两种视角的行为嵌入分布。左侧(a)为物品视角,展示了填补用户行为的数据,右侧(b)为表示视角,通过 t-SNE 可视化表示不同用户间的行为嵌入分布。
图 6: 验证 GBR 推理能力的项目和表示视角案例可视化。(b) 表示视角:使用 t-SNE 可视化了两个用户历史序列中词元表示的分布(包括真实物品词元和 [FILL] 词元)。不同颜色的点代表不同用户,点的大小可能表示频率或重要性。[FILL] 词元(橙色和绿色点)通常分布在真实物品簇附近,但也有一些 [FILL] 词元远离现有簇,显示了模型推断日志外行为的能力。
分析要点:
- 两个用户兴趣不同:不同用户的交互物品在表示空间中显示出显著的分布差异,这可能是因为这两个用户的兴趣画像非常不同。
- 大多数
[FILL]与上下文语义一致:大多数[FILL]表示分布在真实物品表示簇周围,且并非简单地复制真实物品,这意味着 GBR 在推断[FILL]词元时不仅保持了语义连续性,还展现出一定程度的泛化能力。 - GBR 可以进行超越序列的推理:确实有少量
[FILL]表示没有关联的真实物品表示簇。图中可视化了两个这样的案例,并显示了从物品池中检索到的最近真实物品。尽管这些物品在表示视角上并未与上下文物品保持语义一致性,但从物品视角(如 Figure 6.a 所示)来看,它们具有高度的行为连续性,这充分证明 GBR 至少具有对[FILL]词元的超越序列的推理能力。 [FILL]的表示崩溃:在真实物品表示密集分布的区域,[FILL]表示趋于崩溃(即过度聚类),这表明行为中过多的语义相似交互物品可能导致部分[FILL]词元的表示崩溃。
6.1.2.3. 应用 GBR 到工业排序系统
为了验证 GBR 推断表示在下游排序场景中的有效性,论文将原始用户历史序列替换为扩展序列,作为 CTR 模型排序阶段序列建模的输入。结果使用常见的 AUC 和 GAUC 指标进行评估。
以下是原文 Table 6 的结果:
| Method | AUC | Impr | GAUC | Impr |
| Base | 0.7495 | - | 0.6176 | |
| GBR-T-0 | 0.7508 | 0.0013 | 0.6280 | 0.0104 |
| GBR-C-1 | 0.7491 | -0.0004 | 0.6180 | 0.0004 |
| GBR-C-0 | 0.7513 | 0.0018 | 0.6284 | 0.0108 |
表 6: 不同 GBR 模型应用于 CTR 模型的性能比较。
分析要点:
GBR-C-0取得了最佳表现,在AUC上提升 0.0018,在GAUC上提升 0.0108。GBR-T-0也显示出正向提升。GBR-C-1甚至导致了性能的轻微下降,这与 6.1.2.1 节中关于损失函数有效性的发现一致,即点式损失(如 )效果不佳。- 这证实了 GBR 通过推断日志之外行为并增强用户行为序列,能够有效提升 CTR 模型的性能,尤其是在用户层面 (GAUC) 具有显著效果。
6.1.3. 在线 A/B 测试
为了验证 ReaSeq 在线业务指标上的有效性,论文通过在两个淘宝 App 场景(首页的“猜你喜欢 (Guess)”业务和“购后 (Post-Buy, PB)”场景)部署 ReaSeq 增强的 CTR 模型,进行了为期两周的在线 A/B 测试。实验运行时间为 2025年10月30日至2025年11月11日,实验组和对照组各获得总流量的 1%。
此外,为了进一步验证 GBR 的单边有效性,在 6.1.2.1 节选定的用户组上,在 Guess 场景进行了为期 3 天(2025年12月22日至2025年12月24日)的在线 A/B 测试,其中采用 Table 6 中的“Base + GBR-C-0”作为实验 CTR 模型,实验组和对照组各获得总流量的 0.2%。
以下是原文 Table 7 的结果:
| Models | Scenarios | Metrics (Absolute Improvements) | ||
| IPV CTR | Order | GMV | ||
| ReaSeq | Guess PB | +6.50% +6.57% +7.68% +7.80% | +2.98% +4.54% | +2.52% +3.14% |
| GBR | Guess | +2.40% +2.08% | +4.09% | +5.12% |
表 7: ReaSeq 和 GBR 在在线 A/B 测试中带来的性能提升。
分析要点:
-
ReaSeq 的显著在线收益:在两个场景中应用 ReaSeq,不仅在点击相关指标(IPV 和 CTR 均 > +6%)上取得了显著提升,而且也提升了转化相关指标(Order 提升 +2.98% 至 +4.54%,GMV 提升 +2.52% 至 +3.14%)。这表明,通过世界知识增强的推理来提升排序系统,能够带来有希望的在线收益。
-
GBR 的单边有效性:GBR 的独立在线 A/B 测试(在 Guess 场景)也显示出与 ReaSeq 整体一致的优异性能(IPV +2.40%,CTR +2.08%,Order +4.09%,GMV +5.12%)。这进一步验证了 GBR 为在线推荐系统带来的业务价值。
这些结果综合证明了 ReaSeq 框架(包括其推理增强表示和生成行为推理组件)在实际工业推荐场景中的强大有效性,超越了传统日志驱动方法的性能上限。
7. 总结与思考
7.1. 结论总结
本文提出了 ReaSeq,一个新颖的世界知识推理范式 (world-knowledge-reasoning paradigm),旨在克服日志驱动工业排序系统的根本性限制:基于 ID 表示的知识贫乏 (knowledge poverty) 导致数据稀疏下的脆弱兴趣建模,以及对日志之外用户兴趣的系统性盲点 (systemic blindness)。
ReaSeq 通过以下两个核心组件实现其目标:
-
推理增强表示 (Reasoning-Enhanced Representations):通过多智能体协作显式提炼产品属性和用户意图,生成语义丰富的物品表示。
-
生成行为推理 (Generative Behavior Reasoning, GBR):通过扩散大型语言模型 (DLLMs) 合成潜在的日志之外交互。
ReaSeq 将推荐系统从单纯的统计模式匹配 (statistical pattern matching) 转化为知识驱动的生成式推理 (knowledge-grounded generative reasoning)。在淘宝上的全面部署证明了其显著收益(IPV >6.0%,CTR >6.0%,订单 >2.9%,GMV >2.5%),验证了它突破传统范式性能上限的突破性,为推荐系统通过世界感知推理主动建模兴趣而非被动拟合日志奠定了新基础。
7.2. 局限性与未来工作
尽管 ReaSeq 框架有效,但论文也指出了 GBR 仍然存在一些局限性,需要在未来的工作中加以解决:
[FILL]定位方案的启发式性质:目前实现的[FILL](日志之外行为)定位方案是朴素的启发式策略。未来计划引入基于模型的策略来更准确地定位日志之外行为。- GBR 的世界知识来源有限:当前实现的 GBR 是一个微型、冷启动的 LLaDA 模型,因此其世界知识仅来源于输入的推理增强表示。未来计划使用开源 LLaDA 模型及其预训练权重,将更多的世界知识注入 GBR。
- GBR 未应用于推理增强排序范式:在当前实验中,GBR 未应用于推理增强排序范式(4.1.2节)。因此,未来将探索使 GBR 适应各种超长序列建模范式。
7.3. 个人启发与批判
7.3.1. 个人启发
ReaSeq 论文提供了一些非常有价值的启发,尤其是在 LLM 与推荐系统结合的背景下:
- LLM 作为知识引擎的潜力:ReaSeq 深刻揭示了 LLM 蕴含的世界知识 (world knowledge) 对于弥补传统推荐系统缺陷的巨大潜力。不再局限于平台内的
ID和共现统计,而是利用 LLM 对产品语义和用户意图的深层理解,这为推荐系统带来了本质的升级。 - 显式与隐式推理的结合:框架将显式思维链推理 (explicit Chain-of-Thought reasoning) 用于结构化知识提取,将隐式扩散模型推理 (implicit diffusion model reasoning) 用于行为生成,这种组合拳策略非常巧妙。它表明 LLM 不仅仅是文本生成器,更是强大的推理引擎 (reasoning engine),能够解决不同层面的复杂问题。
- 突破“日志驱动”范式的桎梏:ReaSeq 明确指出了传统“日志驱动 (log-driven)”范式的两大根本限制(知识贫乏和系统性盲点),并提供了有力的解决方案。特别是生成行为推理 (GBR),通过推断日志之外行为 (beyond-log behaviors),极大地扩展了用户兴趣建模的视野,这是传统方法难以企及的。
- 解决冷启动和稀疏性问题的新思路:知识增强表示和生成行为推理都能有效缓解数据稀疏 (data sparsity) 和冷启动 (cold-start) 问题。当交互数据不足时,物品的内在语义知识和推断出的行为可以提供更鲁棒的信号。
- 多模态融合的深化:虽然论文侧重文本,但其多智能体推理框架天然地可以扩展到处理多模态信息,通过集成图像、视频等多模态 LLM 来进一步增强物品表示。
7.3.2. 批判性思考
尽管 ReaSeq 展示了令人印象深刻的性能和创新性,但也存在一些潜在的问题和可以改进的地方:
-
技术报告的局限性:作为技术报告,论文在某些细节上(例如模型架构的详细参数、训练成本、推理延迟的更细致分析、与更多近期 SOTA 基线的比较)可能不如正式发表的论文严谨。尤其是在 2025 年的时间点,LLM 在推荐领域的进展非常迅速,需要与更多 LLM-based 的最新工作进行对比。
-
[FILL]词元地面真值定义问题:GBR 中对无标签[FILL]词元 (unlabeled[FILL]tokens) 的地面真值定义(“与[FILL]预测余弦距离最近的[MASK]位置的地面真值表示”)略显间接。这在一定程度上是自监督任务的无奈之举,但可能会引入某种形式的偏差。真正的“日志之外行为”是没有地面真值的,这种代理标签的有效性需要更深入的讨论和验证。 -
MAKR 的实例级特异性下降:消融实验显示,多智能体知识推理 (MAKR) 虽然提升了整体召回能力,但在同模型命中率 (SM-HR@k)(实例级识别质量)上反而导致性能下降。论文解释为“语义模糊”效应,即抽象化的知识可能会丢失细粒度信息。这提出了一个挑战:如何在获得高层语义知识的同时,保留物品的独特身份和细微特征?这可能需要更精细的知识注入机制或多粒度表示学习。
-
计算资源与成本:部署 LLM 驱动的多智能体推理和扩散模型通常需要巨大的计算资源和成本。虽然论文强调其在淘宝的“scalable, low-latency framework”部署,但缺乏更具体的成本效益分析和大规模工程挑战的细节。例如,多智能体协作生成知识的过程是否能快速适应物品库的动态变化?
-
LLaDA 模型规模:论文指出 GBR 使用了一个“tiny, cold-start LLaDA”,其世界知识仅来自推理增强表示。这在一定程度上限制了 GBR 的“世界知识”广度。虽然未来计划使用开源 LLaDA 及其预训练权重,但这表明当前版本的 GBR 尚未充分利用 LLM 的全部能力。
-
可解释性与幻觉 (Hallucination):LLM 存在幻觉 (hallucination) 的风险,即生成不真实或不准确的信息。尽管论文强调“证据驱动推理”和“事实有据”,但在大规模、动态的电商场景中,如何严格保证知识的准确性和防止错误信息的传播是一个持续的挑战。
-
泛化能力与领域特异性:ReaSeq 在淘宝上的成功是令人鼓舞的,但其组件(特别是多智能体推理的 Prompt 和规则)在多大程度上可以无缝泛化到其他电商平台或完全不同的推荐领域(如新闻、视频)仍需进一步验证。不同领域的产品语义和用户行为模式可能差异巨大。
总而言之,ReaSeq 为推荐系统引入 LLM 驱动的推理带来了重要的进展,为未来的研究开辟了广阔的道路。但正如所有前沿工作一样,它也为学术界和工业界留下了许多值得深思和改进的空间。
相似论文推荐
基于向量语义检索推荐的相关论文。