GPR: Towards a Generative Pre-trained One-Model Paradigm for Large-Scale Advertising Recommendation
TL;DR 精炼摘要
本文提出了一种新的广告推荐框架GPR(Generative Pre-trained Recommender),将广告推荐重新定义为端到端生成任务,克服现有模型的目标错位和误差传播问题。通过设计统一的输入模式和异构分层解码器,增强语义对齐,提升训练效率,最终实现了强大的建模能力和推理灵活性。
摘要
As an intelligent infrastructure connecting users with commercial content, advertising recommendation systems play a central role in information flow and value creation within the digital economy. However, existing multi-stage advertising recommendation systems suffer from objective misalignment and error propagation, making it difficult to achieve global optimality, while unified generative recommendation models still struggle to meet the demands of practical industrial applications. To address these issues, we propose GPR (Generative Pre-trained Recommender), the first one-model framework that redefines advertising recommendation as an end-to-end generative task, replacing the traditional cascading paradigm with a unified generative approach. To realize GPR, we introduce three key innovations spanning unified representation, network architecture, and training strategy. First, we design a unified input schema and tokenization method tailored to advertising scenarios, mapping both ads and organic content into a shared multi-level semantic ID space, thereby enhancing semantic alignment and modeling consistency across heterogeneous data. Second, we develop the Heterogeneous Hierarchical Decoder (HHD), a dual-decoder architecture that decouples user intent modeling from ad generation, achieving a balance between training efficiency and inference flexibility while maintaining strong modeling capacity. Finally, we propose a multi-stage joint training strategy that integrates Multi-Token Prediction (MTP), Value-Aware Fine-Tuning and the Hierarchy Enhanced Policy Optimization (HEPO) algorithm, forming a complete generative recommendation pipeline that unifies interest modeling, value alignment, and policy optimization. GPR has been fully deployed in the Tencent Weixin Channels advertising system, delivering significant improvements in key business metrics including GMV and CTCVR.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
GPR: Towards a Generative Pre-trained One-Model Paradigm for Large-Scale Advertising Recommendation
1.2. 作者
Jun Zhang 1+, Yi Li1, Yue Liu 1, Chag Wang , Yuan Wan 1, Yulig Xiong 1, Xun Lu , Ha W 1, Ian I 1, E Zhang1, Jiawe Sun 1, Xin Xu 1 Zishi Zhan 1, Ru Iu 1, S H Zhaoxin Zhang 1, Zhengkai Guo 1, Shuojin Yang 2, Meng-Hao Guo 2, Huan Yu 1, Jie Jiang 1, Shi-Min Hu 2
- 腾讯公司 (Tencent Inc., China)
- 清华大学 (Tsinghua University, China)
1.3. 发表期刊/会议
该论文作为预印本 (arXiv preprint) 发布。
- 原文链接: https://arxiv.org/abs/2511.10138
- PDF 链接: https://arxiv.org/pdf/2511.10138v1.pdf
- 发布状态: 预印本,发布时间为 UTC 2025-11-13T09:50:53.000Z。
1.4. 发表年份
2025年
1.5. 摘要
广告推荐系统作为连接用户与商业内容的智能基础设施,在数字经济的信息流和价值创造中扮演着核心角色。然而,现有的多阶段广告推荐系统面临目标错位 (objective misalignment) 和 误差传播 (error propagation) 的问题,难以实现全局最优。同时,统一的生成式推荐模型在实际工业应用中仍难以满足需求。为解决这些问题,本文提出了 GPR (Generative Pre-trained Recommender),这是首个将广告推荐重定义为端到端生成任务的 one-model 框架,用统一的生成方法取代了传统的级联范式。为实现 GPR,作者在统一表示、网络架构和训练策略方面引入了三项关键创新。首先,设计了针对广告场景的统一输入模式 (unified input schema) 和 词元化 (tokenization) 方法,将广告和有机内容映射到共享的多级语义 ID 空间,增强了异构数据间的语义对齐和建模一致性。其次,开发了 异构分层解码器 (Heterogeneous Hierarchical Decoder, HHD),这是一个双解码器架构 (dual-decoder architecture),它将用户意图建模与广告生成解耦,在训练效率和推理灵活性之间取得了平衡,同时保持了强大的建模能力。最后,提出了多阶段联合训练策略 (multi-stage joint training strategy),整合了 多词元预测 (Multi-Token Prediction, MTP)、价值感知微调 (Value-Aware Fine-Tuning, VAFT) 和 分层增强策略优化 (Hierarchy Enhanced Policy Optimization, HEPO) 算法,形成了一个完整的生成式推荐流程,统一了兴趣建模、价值对齐和策略优化。GPR 已全面部署在腾讯微信视频号广告系统,在总商品交易额 (GMV) 和点击转化率 (CTCVR) 等关键业务指标上取得了显著提升。
2. 整体概括
2.1. 研究背景与动机
- 论文试图解决的核心问题是什么?
- 传统多阶段广告推荐系统 (Multi-stage Advertising Recommendation Systems) 的固有缺陷: 传统的“检索-预排序-排序”级联范式存在各阶段优化目标不一致(如检索注重覆盖,排序注重业务结果)、早期模型表达能力有限导致高质量候选被过早淘汰、以及复杂工程实现难以快速迭代和扩展等问题。这些问题导致系统难以达到全局最优,并伴随误差传播。
- 现有统一生成式推荐模型 (Unified Generative Recommendation Models) 在工业应用中的挑战: 尽管生成式模型在统一推荐任务方面显示出潜力,但在实际大规模广告推荐场景中,它们仍面临:
- 数据和行为的极端异构性 (Extreme Heterogeneity in Data and Behavior): 广告与短视频、社交动态等有机内容交织,导致序列和项层面都存在异构性及多样化的用户行为,处理复杂数据分布和噪声对统一表示能力提出严苛要求。
- 效率-灵活性权衡 (Efficiency-Flexibility Trade-off): 工业级系统需要高效训练大规模数据,同时要求灵活的解码能力以处理超长用户行为序列,并在多重约束(如定向、出价、预算)下匹配广告。现有的
decoder-only架构缺乏解码灵活性,encoder-decoder架构训练成本过高。 - 收入和多方利益相关者价值优化 (Revenue and Multi-stakeholder Value Optimization): 广告系统需在用户体验、广告主投资回报率 (
ROI) 和平台收入之间取得平衡。现有预训练方法通常只优化单一简化目标(如最大化预测点击率或转化率),导致目标错位和局部最优,未能实现全局优化的商业价值。
- 为什么这个问题在当前领域是重要的? 在线广告推荐是数字经济的关键组成部分,其核心任务是根据用户历史行为精准匹配广告。系统必须满足严格的实时、低延迟要求,服务数亿用户和数千万动态广告。系统性能的及时性和稳定性直接决定着一个数十亿美元生态系统的正常运作。在用户体验、广告主投资回报率和平台收入之间实现动态平衡是该领域的关键挑战。
- 这篇论文的切入点或创新思路是什么?
论文的创新思路是提出
GPR,一个将广告推荐重新定义为端到端生成任务 (end-to-end generative task) 的one-model框架,用统一的生成方法取代传统的多阶段级联范式。通过在统一表示、网络架构和训练策略上的系统性创新,GPR旨在有效整合异构数据,平衡系统效率与解码灵活性,并精确捕捉业务价值,优化全局多方利益相关者目标。
2.2. 核心贡献/主要发现
本文的主要贡献总结如下:
- 统一输入模式和词元化方法: 提出了一个统一的输入模式和词元化方法,通过四种类型的
词元 (token)来表示整个用户旅程。引入了一种新颖的RQ-Kmeans+量化模型,将内容和广告映射到共享的语义空间,以高效建模异构和超长序列数据。 - 异构分层解码器 (
HHD) 架构: 提出了一个基于双解码器的生成式架构HHD,它分层建模用户理解和推荐项生成,以实现更精细的兴趣表示和更准确的推荐。在解码过程中,HHD集成trie约束、价值指导和高效多阶段剪枝,显著提高了生成准确性和可靠性。 - 多阶段联合训练策略: 提出了一个多阶段联合训练策略,整合了
Multi-Token Prediction (MTP)、Value-Aware Fine-Tuning (VAFT)和Hierarchy Enhanced Policy Optimization (HEPO)算法,从而构建了一个全面的生成式推荐训练流程,无缝统一了兴趣建模、价值对齐和策略优化。 - 大规模工业部署与显著业务提升:
GPR已全面部署在腾讯微信视频号广告系统,通过大规模在线A/B测试,在总商品交易额 (GMV) 和点击转化率 (CTCVR) 等关键业务指标上取得了显著提升,证明了GPR相对于高度优化和成熟的级联系统具有强大的竞争力。
3. 预备知识与相关工作
3.1. 基础概念
- 推荐系统 (Recommender Systems): 旨在预测用户对物品(如商品、电影、新闻、广告)的兴趣并向其推荐相关物品的智能系统。其核心目标是连接用户与他们可能感兴趣的内容,从而提升用户体验、平台留存和商业价值。
- 多阶段级联推荐系统 (Multi-stage Cascading Recommendation Systems): 传统推荐系统通常采用的架构,将推荐过程分解为多个串联阶段,如“检索 (Retrieval)”、 “预排序 (Pre-ranking)” 和 “排序 (Ranking)”。每个阶段在减少候选集的同时,逐步提高精细化程度,但可能导致信息瓶颈和目标不一致。
- 生成式推荐模型 (Generative Recommendation Models): 一种新兴的推荐范式,受到大型语言模型 (LLMs) 成功的启发。它将推荐任务建模为一个序列生成问题,直接生成用户可能感兴趣的物品
ID或其语义ID序列,而非像判别式模型那样对现有物品进行评分或排序。 - 大型语言模型 (Large Language Models, LLMs): 基于
Transformer架构的深度神经网络模型,通过在海量文本数据上进行预训练,学习到强大的语言理解和生成能力。它们通常采用自回归(auto-regressive)的方式,根据上文预测下一个词元。 - 词元化 (Tokenization): 将原始数据(如文本、图像、商品等)转换为模型可以处理的离散单元(
词元,token)的过程。在生成式推荐中,物品通常被量化为语义ID序列,这些ID就是词元。 - 残差矢量量化 (Residual Vector Quantization, RQ): 一种分层的量化方法,通过多个
codebook逐步细化表示。每个codebook学习对前一个codebook剩余误差进行编码,从而以更紧凑、更精细的方式表示高维数据。codebook是一个存储离散向量(code)的集合,用于将连续向量映射到最近的离散code。 - Transformer 架构: 一种基于自注意力机制 (Self-Attention Mechanism) 的神经网络架构,广泛应用于序列建模任务。
- 自注意力机制 (Self-Attention Mechanism):
Transformer的核心组成部分,允许模型在处理序列的某个元素时,动态地权衡序列中所有其他元素的重要性。其计算公式如下: 其中:- (Query), (Key), (Value) 分别是输入序列经过线性变换得到的矩阵。
- 计算
Query与所有Key的点积相似度,表示当前token对其他token的关注程度。 - 是缩放因子,用于防止点积结果过大,稳定梯度。
- 函数将相似度分数转换为权重分布。
- 矩阵与权重分布相乘,得到加权后的
Value向量,即注意力机制的输出。
- 编码器-解码器架构 (Encoder-Decoder Architecture):
Transformer的原始设计,编码器将输入序列编码为上下文表示,解码器根据此表示和已生成的部分序列生成输出序列。 - 仅解码器架构 (Decoder-only Architecture): 一种简化的
Transformer架构,仅包含解码器部分,通常用于自回归生成任务,如LLMs。它通过causal mask确保在生成当前token时只能看到之前的token。
- 自注意力机制 (Self-Attention Mechanism):
- 强化学习 (Reinforcement Learning, RL): 机器学习的一个分支,智能体 (agent) 通过与环境 (environment) 交互来学习如何采取行动 (action) 以最大化累积奖励 (reward)。
- 智能体 (agent): 在强化学习中执行决策和学习的实体。
- 环境 (environment): 智能体与之交互的外部系统,接收智能体的动作并返回新的状态和奖励。
- 状态 (state): 环境在某一时刻的描述,智能体据此做出决策。
- 动作 (action): 智能体在给定状态下可以执行的操作。
- 奖励 (reward): 环境对智能体动作的反馈信号,通常是数值形式,智能体的目标是最大化累积奖励。
- 策略 (policy): 定义智能体在给定状态下选择动作的规则或概率分布。
- 价值函数 (value function): 预测从某一状态(或状态-动作对)开始,智能体遵循某一策略所能获得的未来累积奖励。
- eCPM (Effective Cost Per Mille / Effective Cost Per Thousand Impressions): 有效千次展示成本。在广告领域,指广告主为每千次广告展示所支付的有效费用。它是衡量广告投放效果和收益的关键指标。
3.2. 前人工作
LLMs作为生成式排序器 (Generative Rankers): 近期研究探索将LLMs应用于推荐系统,主要利用其生成下一个推荐项的能力 [10, 17, 18, 36, 38, 43]。这些方法通常将用户行为序列转化为文本序列,然后让LLMs根据文本输入生成下一个项。然而,LLMs的固定词汇表是其核心限制,难以适应现代广告推荐场景中动态变化且大规模的物品集。- 生成式推荐模型 (Generative Recommendation Models): 受
LLMs成功的推动,生成式推荐已成为一个重要的研究方向 [2, 4, 12, 14, 19, 22, 24, 28, 32, 34]。TIGER[24]:一个利用语义ID的生成式推荐模型,使用序列到序列框架生成语义ID进行推荐。HLLM[4]:利用LLMs的预训练能力,通过两层架构分别建模物品表示和用户兴趣。HSTU[34]:采用decoder-only架构处理超长用户历史并生成物品推荐。MTGR[9]:采用HSTU架构,同时保留了原始的深度学习推荐模型 (DLRM) 特征。COBRA[33]:通过级联过程整合稀疏语义ID和密集向量。
- 端到端推荐框架 (End-to-End Recommendation Frameworks):
OneRec[39]:通过encoder-decoder架构和偏好对齐算法 (DPO) 在视频推荐系统中统一了检索和排序。OneRec-V2[40] 转向lazy decoder-only架构,并增加了基于真实用户反馈的强化学习。
- 强化学习 (RL) 在推荐系统中的应用:
- 在传统推荐系统中,
RL用于优化slate/page决策和长远价值。例如Seq2Slate[3] 将重排序建模为自回归slate生成,通过策略梯度进行训练。SlateQ[13] 提出了可分解的slate长期价值。DEAR[37] 利用DQN解决广告插入决策问题。 - 在生成式推荐中,
RL用于将序列生成策略与用户和业务偏好对齐。GeMS[6] 学习slate的变分潜在空间,让RL agent在此连续空间中行动。PrefRec[31] 学习奖励模型,然后优化策略。DPO风格的目标 [23] (如Softmax-DPO,DPO4Rec) 将成对偏好转化为稳定的训练损失,用于对齐生成策略。
- 在传统推荐系统中,
3.3. 技术演进
推荐系统的技术演进从早期的基于内容、协同过滤等方法,逐步发展到深度学习模型,并最终演变为大规模工业级多阶段级联系统。近年来,随着 LLMs 在生成能力上的突破,推荐系统研究范式开始向统一的生成式模型转变,旨在解决传统多阶段系统固有的目标不一致和误差传播问题。GPR 正是这一演进路径上的重要一步,它不仅采纳了生成式范式,更进一步将其成功应用于挑战更大的大规模广告推荐场景,并通过系统性的创新解决了该场景特有的数据异构性、效率灵活性权衡以及多方价值优化等问题,实现了端到端的 one-model 范式。
3.4. 差异化分析
GPR 与相关工作的主要区别和创新点在于:
- 端到端
one-model范式在广告领域的首次成功部署: 尽管OneRec等工作探索了生成式推荐的端到端框架,但GPR是第一个成功部署到大规模真实世界广告系统(腾讯微信视频号)的端到端生成式解决方案,这面对了广告系统特有的行为异构性、稀疏性、多目标优化、精确价值预测等独特挑战。 - 统一表示能力:
GPR提出了独特的统一输入模式和RQ-Kmeans+词元化方法,能够将广告和有机内容(短视频、社交动态等)映射到共享的多级语义ID空间,高效建模极端异构和超长序列数据,增强了语义对齐和模型一致性。这比只关注文本或单一模态的LLM推荐方法更具普适性。 - 异构分层解码器 (
HHD) 架构: 与以往的生成式模型(如HSTU)可能将用户表示与物品生成纠缠在一起不同,GPR的HHD架构通过Heterogeneous Sequence-wise Decoder (HSD)、Progressive Token-wise Decoder (PTD)和Hierarchical Token-wise Evaluator (HTE)的分层结构,解耦了用户意图建模和广告生成。HSD负责深度理解用户行为并生成意图嵌入,PTD通过“思考-精炼-生成”范式实现更准确的预测,HTE则整合价值估计。这种解耦设计实现了训练效率与推理灵活性的平衡,并提升了建模能力。 - 多阶段联合训练策略:
GPR的训练策略是其独特的优势,它整合了MTP、VAFT和HEPO。MTP捕获多线程兴趣,VAFT引入eCPM感知以对齐业务价值,HEPO则通过分层过程奖励和Anticipatory Request Rehearsal (ARR)解决信用分配问题和探索不足,实现全局多方价值优化。这比单纯依赖DPO或单一奖励的RL更加全面和适应工业广告场景。
4. 方法论
4.1. 方法原理
GPR (Generative Pre-trained Recommender) 提出的核心思想是将大规模广告推荐任务重新定义为端到端的生成任务 (end-to-end generative task),以一个统一的生成模型取代传统的“检索-预排序-排序”级联范式。其背后直觉是:如果一个模型能够直接根据用户历史行为和当前上下文,生成具有高商业价值的广告 ID 序列,那么就能从根本上解决传统多阶段系统中固有的目标不一致、误差传播以及复杂工程维护等问题,从而实现全局最优。
为实现这一目标,GPR 采用了三个关键创新点:
-
统一表示: 通过设计一套统一的输入模式和
RQ-Kmeans+词元化方法,将广告、有机内容、用户属性和环境信息全部转化为共享的离散语义ID序列。这使得模型能够以一致的方式处理高度异构的数据,并理解用户的综合兴趣。 -
网络架构: 提出了一种名为异构分层解码器 (Heterogeneous Hierarchical Decoder, HHD) 的
Decoder-only架构。该架构通过将用户意图的深度理解与推荐项的生成过程解耦,并引入“思考-精炼-生成”范式,提高了建模精度和推理效率。 -
训练策略: 采用多阶段联合训练策略 (Multi-stage Joint Training Strategy)。首先通过
Multi-Token Prediction (MTP)预训练捕获多兴趣模式;接着通过Value-Aware Fine-Tuning (VAFT)将模型与广告的商业价值对齐;最后通过Hierarchy Enhanced Policy Optimization (HEPO)强化学习,在模拟环境中进行探索,优化长期和多层级的业务目标。通过这三方面的系统性创新,
GPR旨在实现:
- 高效处理异构数据: 统一表示层解决了广告与有机内容间的异构性问题。
- 平衡效率与灵活性:
HHD架构在提供强大建模能力的同时,兼顾了工业应用所需的训练效率和推理灵活性。 - 全局价值优化: 多阶段训练策略特别是
VAFT和HEPO确保模型不仅仅预测用户兴趣,还能精确地对齐和优化用户体验、广告主ROI和平台收入等多方利益。
4.2. 核心方法详解 (逐层深入)
GPR 框架旨在生成推荐项和拍卖价值,其整体架构如原文 Figure 2 所示。它首先通过新颖的输入模式和 RQ-Kmeans+ 量化器将用户行为序列转化为统一的 词元 序列。然后,异构分层解码器 (HHD) 对这些序列进行深度理解,并预测目标项及其业务价值。最后,在推理阶段,采用价值引导的 Trie 树束搜索 (Value-Guided Trie-Based Beam Search) 算法提高效率和性能。
下图(原文 Figure 2)展示了 GPR 的整体架构:
该图像是GPR的整体架构示意图,展示了异构平台与内容的集成,包括图像、文本和视频广告等。图中展示了分层解码器及用户画像的构建过程,重点介绍了对抗性噪声生成及强化模块的架构。公式部分涉及了生成与优化过程及路径评估。
Figure 2: Overall Architecture of GPR.
4.2.1. 输入模式与处理 (Input Schema and Processing)
为了处理真实世界广告平台中嘈杂、高度异构和超长的用户行为数据(例如微信视频号、朋友圈、公众号等),GPR 提出了一种统一的输入模式来表示用户的整个旅程,该模式由四种 词元 (Token) 组成:
-
User Token (U-Token): 代表用户的属性和偏好,如年龄、性别、地域、兴趣标签等。 -
Organic Token (O-Token): 封装用户交互过的有机内容,如短视频、文章、社交动态等。 -
Environment Token (E-Token): 编码广告请求的即时上下文,如设备类型、时间、地理位置、广告位类型等。 -
Item Token (I-Token): 代表用户曾与之交互的广告项,如点击过的广告、转化过的广告等。此外,为了使物品嵌入与生成模型范式更好地对齐,
GPR将O-Token中的内容和I-Token中的物品都转换为离散的语义ID。传统的RQ-VAE[16] 和RQ-Kmeans[20] 方法存在“码本崩溃 (codebook collapse)”和“潜在空间鲁棒性不足”等问题,导致语义空间利用率低和表示能力受限。为解决这些问题,GPR提出了一种新的量化模型:RQ-Kmeans+。
下图(原文 Figure 3)展示了 RQ-Kmeans+ 的总体架构:
该图像是RQ-Kmeans+的总体架构示意图,展示了多模态语义嵌入如何与初始化由RQ-Kmeans生成的码书相结合,经过Vanilla RQ-VAE进行编码,并最终通过多个码书实现量化处理。涉及的关键公式为 。
Figure 3: Overall Architecture of RQ-Kmeans+.
RQ-Kmeans+ 量化模型
RQ-Kmeans+ 由一个编码器、残差码本 (residual codebooks) 和一个解码器组成。它将码本崩溃主要归因于随机初始化,导致一些向量在训练中很少被激活,最终变为“死向量 (dead vectors)”。为了解决这个问题,RQ-Kmeans+ 采取了以下策略:
-
高质量码本初始化: 首先使用
RQ-Kmeans算法生成一个高质量的码本,并将其作为初始化权重。 -
RQ-VAE损失函数更新: 码本随后使用与RQ-VAE相同的损失函数进行更新,使其能够适应当前的、可学习的潜在空间。 -
编码器侧残差连接: 引入一个残差连接 (residual connection) 到编码器侧,以确保在训练的早期阶段,输出分布仍接近输入分布,从而加速收敛并稳定潜在空间对齐。
最终,
RQ-Kmeans+显著提高了码本利用率,同时保持了潜在空间的灵活性,有效解决了码本崩溃问题。
4.2.2. 异构分层解码器 (Heterogeneous Hierarchical Decoder, HHD)
HHD 是一种 decoder-only 生成式架构,它包含异构序列解码器 (Heterogeneous Sequence-wise Decoder, HSD) 模块、渐进式词元解码器 (Progressive Token-wise Decoder, PTD) 模块 和 分层词元评估器 (Hierarchical Token-wise Evaluator, HTE) 模块。这种分层结构将用户行为的理解与下一个物品的预测解耦,从而实现对用户偏好更细粒度的理解和更准确的预测。
-
异构序列解码器 (Heterogeneous Sequence-wise Decoder, HSD)
HSD模块是主要的解码器,它堆叠了HSTU块 [34],并将统一的词元序列作为输入,以理解用户行为并生成高质量的意图嵌入 (intent embeddings)。在基础的HSTU块之上,GPR引入了多项关键增强来形成HSD中使用的块,包括混合注意力机制 (Hybrid Attention mechanism)、词元感知归一化 (Token-Aware Normalization) 和改进的前馈网络 (Feed-Forward Network, FFN)。-
混合注意力机制 (Hybrid Attention mechanism): 与标准注意力机制不同,
HSD的注意力机制引入了一个额外的嵌入 ,它自适应地调制注意力权重 。这种调制使得HSD能够更有效地关注相关的用户行为,同时主动衰减信息量较少或无关的交互。此外,由于输入模式中的U-Token、O-Token和E-Token共同作为物品预测的提示 (prompt),在这个提示区域应用香草型因果掩码 (vanilla causal mask) 会带来不必要的限制。为解决此问题,GPR提出了混合注意力掩码 。在前缀块 (prefix block) 内部,词元可以使用双向注意力 (bi-directional attention) 自由地相互可见。这种设计使得模型能够充分利用提示词元之间的上下文交互,从而在进行预测之前构建更全面的上下文。混合注意力可以表示为: 其中:
- (Query), (Key), (Value) 是来自输入
词元序列的查询、键和值矩阵。 - 是键向量的维度。
- 是混合注意力掩码,其定义为:
M _ { i j } ^ { \mathrm { h y b r i d } } = \left\{ { \begin{array} { l l } { 0 , } & { { \mathrm { i f ~ } } i < j { \mathrm { ~ o r ~ } } X _ { i } , X _ { j } \in \{ \mathrm { U / O / E \mathrm { - } T o k e n } } \} } \\ { - \infty , } & { { \mathrm { i f ~ } } j > i } \end{array} \right.
这里, 表示在位置 处计算注意力时,位置 处的
词元是否可见。- 当 或 时,掩码值为
0,表示词元之间可以自由相互关注(双向注意力)。这适用于提示块内部的U/O/E-Token。 - 当 时,掩码值为 ,表示
词元只能关注之前的词元(因果掩码),这适用于生成I-Token序列的部分。
- 当 或 时,掩码值为
- 是一个额外的嵌入,用于自适应地调制注意力权重,使其更专注于相关的用户行为。
- (Query), (Key), (Value) 是来自输入
-
词元感知归一化 (Token-Aware Normalization) 和 前馈网络 (FFN): 考虑到不同类型的
词元具有不同的特性,HSD模块为每种词元类型分配独立的归一化层和FFN。这些独立的层将不同类型的词元投影到它们各自的语义子空间中,从而充分捕获异构序列的语义多样性,减少不同词元类型之间的干扰。 -
递归混合策略 (Mixture-of-Recursions, MoR): 引入
MoR机制 [2],它可以在不增加额外参数的情况下增加模型的有效深度和推理能力。这有助于模型处理超长用户行为序列时,获得更强的逻辑推理能力。 -
外部知识注入 (External Knowledge Injection): 为了进一步增强推理能力,模型从一个微调 (fine-tuned) 的
大型语言模型 (LLM)中引入外部知识。LLM生成关于用户潜在兴趣的文本“思考过程 (thought process)”,然后将其词元化并整合到意图嵌入中,以加强语义理解和推理能力。
-
-
渐进式词元解码器 (Progressive Token-wise Decoder, PTD) 在
HSD生成意图嵌入后,PTD模块作为次级解码器,采用传统的Transformer解码器架构来生成目标物品。尽管意图嵌入包含了用户行为的全面表示,但它们可能包含冗余信息,这可能不利于物品预测的准确性。为了解决这个问题,PTD模块采用了一种新颖的“思考-精炼-生成 (Thinking-Refining-Generation)”范式来预测下一个物品的语义ID。-
思考 (Thinking):
PTD模块首先利用交叉注意力机制 (cross-attention mechanism),其中意图嵌入作为键和值。在此基础上,PTD被强制生成 个思考词元 (thinking tokens)。这些思考词元旨在从意图嵌入中提炼出关键信息,并过滤掉不相关的组件。 -
精炼 (Refining):受
LLMs最近在推理方面研究 [21, 30] 的启发,GPR通过集成一个精炼模块 (refining module) 来进一步增强PTD的认知和生成能力。如 Figure 2 (c) 所示,精炼模块基于扩散范式 (diffusion paradigm) [25] 设计,包含一个噪声生成器和一个建模为马尔可夫链的逆过程。在逆过程中,噪声通过一个带有Transformer架构的条件去噪模块迭代地移除。前缀思考词元通过Sum_Pooling聚合,并作为去噪模块的条件。因此,精炼模块能够精炼初始的推理结果,然后将其传递给下游模块。 -
生成 (Generation):最终,利用
思考词元和精炼词元,PTD生成一系列语义代码来表示下一个物品。在推理阶段,GPR进一步利用Trie约束的价值引导束搜索 (Trie-Constrained Value-Guided Beam Search) 来高效解码准确的结果。
-
-
分层词元评估器 (Hierarchical Token-wise Evaluator, HTE) 与传统的单一目标内容推荐系统不同,在线广告系统必须联合优化用户参与度和平台收入。这需要为每个候选广告预测多个业务指标,包括点击率 (
CTR)、转化率 (CVR) 和有效千次展示成本 (eCPM)。为了实现端到端优化,这些多方面的预测必须聚合成一个单一的标量目标,以平衡用户体验和业务目标。GPR将这个聚合指标称为final_value,它作为整个系统的主要优化目标。final_value及其组成部分的详细公式将在强化学习部分(等式 5)提供。为了实现真正的端到端广告生成解决方案,
GPR在分层模型上构建了一个集成的价值估计模块HTE,它将生成与价值估计相结合。这个模块有助于生成候选广告,然后估计其final_value。这种集成、端到端的方法比传统的多阶段系统具有显著优势:它增强了表示和目标层面的一致性 (consistency),从而缓解了检索和排序阶段之间的冲突。此外,这种方法提高了广告系统的整体计算效率。除了在推理阶段进行价值预测外,HTE还在后训练 (post-training) 的强化学习阶段作为评论家模型 (critic model),支持基于价值的优势估计进行策略优化。
4.2.3. 价值引导 Trie 树束搜索 (Value-Guided Trie-Based Beam Search)
由 PTD 预测的目标物品语义代码在广告场景中可能无效或次优,例如它们可能映射到实际不存在的物品、地理定向不符合当前用户的物品、预算已耗尽的物品或价值较低的物品。虽然传统的束搜索 (beam search) 结合后过滤和后排序可以移除无效结果并按价值对其他结果进行排序,但这会导致高昂的计算成本和延迟。
因此,GPR 提出了价值引导 Trie 树束搜索 (Value-Guided Trie-Based Beam Search),它将由用户画像生成的 Trie 树约束和价值估计直接整合到解码步骤中,以早期评估前缀。具体来说:
- 动态调整束宽度 (beam width): 根据
HTE对每个语义代码预测的价值,动态调整束宽度,更高的价值对应于下一个语义代码的更宽的束,以提高潜在收入。 Trie树剪枝 (Trie Tree pruning): 通过一个由当前用户画像生成的Trie树来剪枝搜索空间。这个Trie树是通过应用广告系统中的用户定向策略(根据年龄、性别等属性过滤候选)构建的,因此只包含与用户属性一致的候选,从而实现早期的用户级定向过滤。
4.2.4. 多阶段训练 (Multi-Stage Training)
GPR 模型采用三阶段训练方案 (three-stage regimen),专为稀疏信号、多业务目标和动态物品空间的广告推荐场景设计。首先,预训练 (pretraining) 阶段使用多词元预测 (Multi-Token Prediction, MTP) 来捕获全局、多兴趣的用户模式。接着,对齐阶段 (alignment stage) 引入价值感知 MTP 损失 (value-aware MTP loss),通过对更高价值的物品进行重新加权更新,使优化与业务优先级对齐。最后,在仿真环境中,强化学习 (reinforcement learning) 结合 HEPO 算法,实现超越日志曝光的探索,并在分布偏移 (distribution shift) 下发现未被充分服务但高价值的候选。
下图(原文 Figure 4)展示了 GPR 的训练流程:
该图像是GPR的训练流程示意图,展示了多阶段联合训练策略,包括多标记预测(MTP)、关注价值的微调及使用HEPO的强化学习。通过这种方法,GPR实现了用户意图建模与广告生成的高效整合。
Figure 4: Training Pipeline of GPR.
-
预训练与多词元预测 (Pre-training with Multi-Token Prediction) 预训练阶段旨在在稀疏交互信号(与密集的有机流量不同)下,将广告场景知识注入
GPR,并针对全局、多兴趣用户建模。用户通常会并行追求多个兴趣线索;此阶段的目标是联合且连贯地表示这些线索。GPR使用来自腾讯广告平台的大规模工业语料库,涵盖一年内数亿匿名用户的广告交互(展示、点击、转化)和有机互动。对于每个用户,使用统一的四词元模式 (U/O/E/I-Token如第 2.1 节所述) 构建按时间顺序排列的序列。物品(广告)被编码为 个粗到细的语义代码,这些代码通过残差向量量化获得,提供了物品语义的分层紧凑表示。作为基线,下一个词元预测 (next-token prediction, NTP) 以用户历史和上下文为条件预测后续代码。虽然
NTP对单路径动态有效,但它隐含地假设了主导兴趣轨迹,并倾向于对并行兴趣进行平均,从而限制了在广告场景中的覆盖范围。为了捕获多个并发兴趣,如 Figure 4 (a) 所示,GPR采用MTP[7],通过将解码器扩展为 个并行头 (heads)(默认 )。每个头独立地预测一个兴趣维度的完整 级代码路径,使用相同的骨干状态但独立的投影层。这种设计实现了并发建模而没有相互干扰,并通过每个头上的掩码解码 (masked decoding) 保持了层级合法性。预训练目标聚合每个头、每个层级的似然,并使用单纯形约束的头权重 (simplex-constrained head weights) ,自适应调整以优先处理高质量的兴趣线索: 其中:
-
表示头 在位置 处发出的第 个语义代码。
-
是在给定层级的合法集上的掩码条件概率。
-
表示序列历史。
-
表示上下文特征。
-
表示在位置 处,头 已生成的从第 1 级到第 级的语义代码。
-
是头 的权重,反映了其兴趣线索的质量,初始设置为 ,后续阶段会根据下游监督进行调整。
这个目标产生了一个编码广泛、解耦兴趣结构的骨干网络,为后续的业务对齐和强化学习提供了稳定的基础。
-
-
价值感知微调 (Value-Aware Fine-Tuning, VAFT) 此阶段旨在通过将动作价值和
eCPM意识注入MTP框架,弥合多兴趣预训练与变现目标之间的鸿沟,使模型在保持相关性的同时优先考虑高价值广告。虽然香草型MTP对于多兴趣捕获有效,但它与广告目标并不一致:(i) 它对经济价值差异很大的广告赋予相同的损失权重,可能导致低eCPM的长尾物品主导梯度;(ii) 它对动作类型(展示、点击、转化)一视同仁,忽略了它们的层次业务价值(转化>点击>展示)。GPR引入了一个每头、每位置权重 (per-head, per-position weight) ,它通过结合动作类型和广告的eCPM来编码业务价值,如 Figure 4 (b) 所示。这个权重根据其价值层级区分动作(转化>点击>展示),并按归一化的eCPM进行缩放,以避免幅度失真和来自预训练的虚假 (预训练的 优先处理高质量的兴趣线索)。价值对齐的MTP损失将头重要性和动作/eCPM权重相乘: 其中,复合权重 将头级兴趣质量与位置级业务价值相结合,使更新偏向高eCPM动作,同时保留多兴趣覆盖。
\omega _ { j , t } ^ { V }eCPM`,带有单调变换、可选的剪裁以减轻异常值,以及固定的动作类型系数以强制执行价值层级。这产生了稳定的梯度,避免了对稀有峰值的过度加权,并改善了与收入目标的对齐。
的分母设置为与广告业务价值(转化 `>` 点击 `>` 展示)对齐,如下所示:
* **展示 (Impression)** :分母 (Denominator) (基本收入贡献)。
* **点击 (Click)** :分母 (Denominator) (奖励高点击质量的广告)。
* **转化 (Conversion)** :分母 (Denominator) (优先考虑驱动实际转化的广告)。
这里,`pCTR` 是预测点击率 (predicted Click-Through Rate),`pCVR` 是预测转化率 (predicted Conversion Rate)。
* **后训练与分层增强策略优化 (Post-training with HEPO)**
**监督预训练 (Supervised pretraining)** 通过从历史曝光和互动日志中学习,奠定了坚实的基础,但**仅似然训练 (likelihood-only training)** 存在固有限制:日志数据提供的动作覆盖范围有限。模型只观察由历史策略生成的序列,许多可能的高价值替代方案未被探索。如果没有**反事实评估 (counterfactual evaluation)**,策略将受限于模仿过去的决策,而非发现更优的策略。**强化学习 (Reinforcement learning)** 通过构建一个高保真仿真环境来解决这一限制,该环境能够对策略生成的序列进行反事实评估,将动作支持扩展到历史分布之外,并允许模型在部署前探索新的候选广告。
在生成式推荐的设置中,**状态 (state)** 包括用户的交互历史、上下文信号(如设备、时间、场景)、已发出的多级代码以及级别特定的合法掩码。**动作 (action)** 是由 级解码器(粗到细)产生的层次决策:在每个级别,策略从该级别的合法候选集中选择一个量化代码,最终级别解析为要曝光的具体广告。奖励被分配给决定曝光的最终解码步骤,并对早期级别施加可选的轻微整形(相同信号的小部分)以保留粗级别意图。**情节 (episode)** 对应于单个请求或会话,在单次曝光情况下,在最终级别决策后立即结束。
`GPR` 模型包含一个**异构序列解码器 (HSD)**,它从用户上下文 产生意图嵌入 。**渐进式词元解码器 (PTD)** 执行分层解码以在每个级别 生成语义 `词元` 的动作概率 ,其中 包含 `HSD` 和 `PTD` 的参数。**分层 `eCPM` 估计塔 (Hierarchical Tower for eCPM estimation, HTE)** 在 `RL` 训练中作为价值函数 ,计算预期回报 ,其中 表示在早期级别选择的 `词元`。价值函数作用于 `stopgrad` `(h)`,确保价值梯度不更新骨干网络并保持训练稳定性。
* **仿真环境奖励生成 (Reward Generation with simulation environment)**:
强化学习需要为策略生成的每个候选序列提供奖励信号,但在实时评估所有候选的生产排序模型在计算上是禁止的,并且会导致不可接受的服务延迟。相反,`GPR` 构建了一个高保真仿真环境,用于离线奖励评估,该环境复制了生产服务系统。仿真环境基于小滞后捕获的生产快照构建,保留了包括检索索引、特征处理管道和业务约束规则在内的完整基础设施。它集成了两种更新频率不同的模型:`pCTR/pCVR` 排序模型直接从生产复制以确保奖励保真度,而 `GPR` 策略模型则定期从训练管道推送以评估不断演变的策略。
对于每个用户请求上下文 ,仿真器使用部署的 `GPR` 模型执行束搜索以生成 个候选广告(通常 ),其中每个候选通过 级语义 `ID` 的分层解码获得。每个候选由排序模型评估以获得其预测奖励:
\begin{array} { r l } & { R = \mathsf { f i n a l \_ v a l u e } ( s , \{ z _ { \ell } \} _ { \ell = 1 } ^ { L } ) } \\ & { \quad = \mathsf { e C P M } ( s , \{ z _ { \ell } \} _ { \ell = 1 } ^ { L } ) + \displaystyle \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \alpha _ { i } \mathrm { t a r g e t } _ { i } ( s , \{ z _ { \ell } \} _ { \ell = 1 } ^ { L } ) , } \end{array}
其中:
* 表示唯一标识此候选的 `词元` 序列。
* 是预测的有效千次展示成本。
* 是辅助目标,如 `pCTR` 和 `pCVR`。
* 是辅助目标的权重。
仿真环境记录每个解码级别处的生成概率 ,这些概率作为**行为策略概率 (behavior policy probabilities)** 用于**离策略校正 (off-policy correction)**。
* **分层过程奖励 (Hierarchical Process Rewards, HEPO)**:
当奖励仅在最终曝光级别分配时,中间的分层决策不会收到直接反馈信号。这产生了**信用分配问题 (credit assignment problem)**:粗级别选择必须完全依赖自举 (bootstrapped) 的价值估计来评估其对最终结果的贡献,导致上层学习信号微弱且方差高。例如,用户对智能手机感兴趣,但拒绝了“A 品牌手机 X 型号”的推荐。如果没有中间奖励,负面终端信号会统一影响所有级别,错误地降低“手机”类别的概率,尽管用户有真正的兴趣——错误在于品牌级别,而非类别级别。为了解决这个问题,`GPR` 提出了 `HEPO` (Hierarchical Enhanced Policy Optimization),它构建**过程奖励 (process rewards)**,利用用户特定的偏好模式在每个分层级别提供直接的监督信号。
对于每个级别 ,`GPR` 从用户成功的历史交互中推导出**每个词元受欢迎度得分 (per-token popularity score)** ,表示 `词元` 在导致积极结果的推荐中出现的频率。对于在级别 选择的 `词元` ,通过将其受欢迎度与所有合法候选 `词元` 的平均受欢迎度进行比较,计算出**偏好信号 (preference signal)**:
\Delta _ { \ell } = P _ { \ell } ( z _ { \ell } ) - { \frac { 1 } { | S _ { \ell } | } } \sum _ { t \in S _ { \ell } } P _ { \ell } ( t ) .
其中:
* 是在级别 选择的 `词元`。
* 是级别 的所有合法候选 `词元` 集合。
* 是合法候选 `词元` 的数量。
基线减法确保当所有候选具有相同受欢迎度时信号为零均值,防止系统性偏差。每个级别的**步奖励 (step reward)** 随后为:
r _ { \ell } = \left\{ \begin{array} { l l } { \alpha _ { \ell } \operatorname* { m a x } ( 0 , \Delta _ { \ell } ) , } & { \ell < L , } \\ { R , } & { \ell = L , \end{array} \right.
其中:
* 是从仿真器获得的终端奖励,如等式 5 所定义。
* 是小的缩放因子,确保过程奖励引导学习而不压倒终端奖励。
* **优势与损失 (Advantage and loss)**:
在中间级别,过程奖励必须通过学习到的价值函数与长期业务结果联系起来,以便在整个层级中进行适当的信用分配。在最终曝光级别,终端奖励在请求之间表现出高方差,使得基于评论家 (critic-based) 的价值估计不稳定。由于曝光决策直接决定了显示的广告并需要稳定的优化,`GPR` 转而使用**请求内 -分数归一化 (within-request Z-score normalization)**。对于每个请求,仿真环境生成 个候选,并通过在此集合内归一化奖励来评估其相对优势。
对于粗级别 ,`GPR` 通过**广义优势估计 (Generalized Advantage Estimation, GAE)** [1] 计算优势,使用等式 7 中的过程奖励。累积回报 和时间差分误差 被计算,其中 是价值函数, 是折扣因子。对于最终级别,对 个候选应用 -分数归一化。每个级别的优势 为:
\begin{array} { r } { A _ { \ell } = \left\{ \begin{array} { l l } { \sum _ { l = 0 } ^ { L - \ell - 1 } ( \gamma \lambda ) ^ { l } \delta _ { \ell + l } , } & { \ell < L , } \\ { } \\ { \frac { R - \mu _ { K } } { \sigma _ { K } + \epsilon } , } & { \ell = L , } \end{array} \right. } \end{array}
其中:
* 控制 `GAE` 的偏差-方差权衡。
* 是等式 5 中的终端奖励。
* 和 是在 个候选上计算的均值和标准差。
* 是一个小的常数,用于数值稳定性。
参数为 的策略模型通过最小化以下损失进行更新:
\mathcal { L } _ { \theta } = \mathbb { E } \Bigg [ \sum _ { \ell = 1 } ^ { L } c _ { \ell } \operatorname* { m i n } \Big ( \rho _ { \ell } A _ { \ell } , \mathrm { c l i p } ( \rho _ { \ell } , 1 - \epsilon , 1 + \epsilon ) A _ { \ell } \Big ) \Bigg ] ,
\text{其中:}
* $c_\ell$ \text{是每个级别的权重因子。}
* $\rho _ { \ell } = \pi _ { \theta } ( z _ { \ell } ) / \pi _ { \theta _ { \mathrm { o l d } } } ( z _ { \ell } )$ \text{是}<strong>\text{重要性采样比率} (importance ratio)</strong>\text{。}
* $\pi _ { \theta _ { \mathrm { o l d } } }$ \text{是在仿真中用于采样的行为策略。}
* $\mathrm{clip}(\cdot)$ \text{函数用于将重要性比率} $\rho_\ell$ \text{裁剪在} $[1-\epsilon, 1+\epsilon]$ \text{范围内,以稳定策略更新(类似于} PPO \text{算法)。}
\text{价值函数通过所有级别上的均方误差进行训练:}
\mathcal { L } _ { \phi } = \mathbb { E } \left[ \sum _ { \ell = 1 } ^ { L } ( V _ { \phi } ( s , z _ { 1 : \ell - 1 } ) - G _ { \ell } ) ^ { 2 } \right] .
* **预期请求预演 (Anticipatory Request Rehearsal, ARR)**:
广告生态系统是高度动态的:用户兴趣不断演变,优质创意库存每日都在变化。一个仅凭历史数据训练的模型有被动而非主动的风险。为了实现**预期适应 (anticipatory adaptation)**,`GPR` 引入了 `ARR`,它生成合成训练样本以近似用户的未来请求状态。
`ARR` 不使用陈旧的历史上下文,而是根据每个用户的当前状态构建合成请求,以更好地近似他们下一次实际交互。采样频率适应用户活动模式:对于高活动用户,在高峰期每 2 小时生成一次合成样本,非高峰期每 4 小时一次;对于低活动用户,间隔按其请求率成比例调整。每个合成请求按以下方式从用户的当前状态构建:
* **有机词元 (`Organic token`):** 使用用户最近查看的有机内容(包括短视频和文章)重建,以反映不断演变的兴趣。
* **用户词元 (`User token`):** 对于高活动用户,直接重用上一个请求的特征,因为其个人资料特征在短时间内保持稳定。
* **环境词元 (`Environment token`):** 实时查询,包括预测的广告位置、投放类型和隐私设置,以捕获最新的系统状态。
这些合成样本与仿真环境中的观察样本处理方式相同:部署的 `GPR` 模型生成候选,排序模型评估它们,并按照标准程序计算优势。
# 5. 实验设置
## 5.1. 数据集
实验使用了来自腾讯广告平台的大规模语料库,该语料库包含了广告和有机媒体(如短视频、社交动态和新闻)数据。
* **来源与规模:** 语料库涵盖了为期一年的匿名用户交互数据,涉及数亿用户和数千万动态广告。
* **特点:** 数据包含异构的多模态信号,例如文本元数据(标题、标签、描述)和视觉内容(缩略图和采样帧),这些信号在物品和会话层面进行了对齐。
* **预处理:** 对近乎重复的样本进行了过滤以减少冗余,并对类别分布进行了平衡以限制采样偏差。
* **划分:** 语料库被划分为 80% 的训练集和 20% 的测试集。
## 5.2. 评估指标
对论文中出现的每一个评估指标,详细说明其概念定义、数学公式和符号解释。
* **Collision Rate (冲突率)**
1. **概念定义:** `Collision Rate` 衡量量化模型将不同原始数据点映射到同一个离散编码(`code`)的频率。较低的冲突率表示模型能更好地区分不同项,从而生成更独特的语义 `ID`。
2. **数学公式:**
\text{Collision Rate} = \frac{\text{Number of items mapped to identical codes}}{\text{Total number of items}}
3. **符号解释:**
* `Number of items mapped to identical codes`:表示被映射到相同 `semantic ID` 的项的数量。
* `Total number of items`:表示总的项的数量。
* **Code Usage Rate at level 1 (CUR`_{L1}`) (第一层代码使用率)**
1. **概念定义:** `CUR`_{L1}`` 衡量量化模型在第一层 `codebook` 中实际使用了多少个不同的 `code`。较高的使用率表明 `codebook` 的利用效率高,没有出现“死代码”问题,即所有 `code` 都被有效地学习和使用。
2. **数学公式:**
\text{CUR}_{L1} = \frac{\text{Number of active codes at level 1}}{\text{Total number of codes at level 1}}
3. **符号解释:**
* `Number of active codes at level 1`:表示在第一层 `codebook` 中至少被使用过一次的 `code` 的数量。
* `Total number of codes at level 1`:表示第一层 `codebook` 中所有 `code` 的数量。
* **Path Average Similarity (PAS) (路径平均相似度)**
1. **概念定义:** `PAS` 衡量那些被量化到相同 `semantic ID` 的项,其原始嵌入向量之间的语义相似度。较高的 `PAS` 表示量化出的 `semantic ID` 具有更好的语义一致性,即被分到同一 `semantic ID` 的项在语义上确实是相似的。
2. **数学公式:**
\text{PAS} = \frac{1}{|\mathcal{C}|} \sum_{c \in \mathcal{C}} \left( \frac{1}{|I_c|(|I_c|-1)/2} \sum_{i,j \in I_c, i \neq j} \text{similarity}(\mathbf{e}_i, \mathbf{e}_j) \right)
3. **符号解释:**
* :表示所有 `semantic ID` 的集合。
* :集合 中的一个 `semantic ID`。
* :表示被映射到 `semantic ID` 的所有项的集合。
* :集合 中项的数量。
* :分别表示项 `i, j` 的原始嵌入向量。
* :表示衡量两个嵌入向量相似度的函数(例如余弦相似度)。
* **HitRate@100 (命中率@100)**
1. **概念定义:** 在推荐系统中,`HitRate@K` 衡量模型生成的前 个推荐项中,真实用户所交互的项(或目标项)出现的频率。`HitRate@100` 表示在模型给出的 `top-100` 推荐中,目标项被命中的比例。这个指标用于评估模型的召回能力。
2. **数学公式:**
\text{HitRate@K} = \frac{\text{Number of users for whom the ground-truth item is in top K}}{\text{Total number of users}}
3. **符号解释:**
* :通常为 100,表示推荐列表的长度。
* `Number of users for whom the ground-truth item is in top K`:表示真实交互项出现在 `top K` 推荐列表中的用户数量。
* `Total number of users`:表示总用户数量。
* **nDCG (Normalized Discounted Cumulative Gain) (归一化折损累计增益)**
1. **概念定义:** `nDCG` 是衡量推荐列表质量的指标,尤其关注列表中项的相关性及其位置。它通过折扣累计增益(`DCG`)来加权不同位置的相关性,并用理想排序的 `DCG` (`IDCG`) 进行归一化,使得 `nDCG` 值介于 0 到 1 之间,数值越高表示推荐效果越好。
2. **数学公式:**
\text{DCG}_p = \sum_{i=1}^{p} \frac{2^{\text{rel}_i}-1}{\log_2(i+1)}
\text{IDCG}_p = \sum_{i=1}^{p} \frac{2^{\text{rel}_i^{\text{ideal}}}-1}{\log_2(i+1)}
\text{nDCG}_p = \frac{\text{DCG}_p}{\text{IDCG}_p}
3. **符号解释:**
* :表示推荐列表的长度。
* :表示在模型推荐列表中,位置 处项的相关性得分。
* :表示在理想排序(最相关项排在最前面)中,位置 处项的相关性得分。
* **OPR (Ordered Pair Ratio) (排序对比例)**
1. **概念定义:** `OPR` 衡量推荐列表中所有可能的项对中,有多少对的相对顺序与真实(或理想)的顺序一致。它评估模型在捕获相对偏好方面的准确性,即模型是否能正确地将更“好”的项排在更“差”的项之前。
2. **数学公式:**
\text{OPR} = \frac{\sum_{(i,j) \in P} \mathbb{I}(\text{rank}(i) < \text{rank}(j) \text{ and } \text{ideal\_rank}(i) < \text{ideal\_rank}(j))}{\sum_{(i,j) \in P} \mathbb{I}(\text{ideal\_rank}(i) < \text{ideal\_rank}(j))}
3. **\text{符号解释:}**
* $P$\text{:表示所有项对的集合。}
* $\text{rank}(i)$\text{:表示项} $i$ \text{在模型推荐列表中的排名。}
* $\text{ideal\_rank}(i)$\text{:表示项} $i$ \text{在理想排序中的排名。}
* $\mathbb{I}(\cdot)$\text{:是指示函数,当括号内的条件为真时,值为} 1\text{;否则为} 0\text{。}
* <strong>GMV (Gross Merchandise Volume) (\text{总商品交易额})</strong>
1. **\text{概念定义:}** \text{在电商或广告平台中,指在特定时期内所有通过平台完成的商品销售总额。它是衡量平台业务规模和经济效益的核心指标,直接反映了平台的收入能力。}
2. **\text{数学公式:}**
\text{GMV} = \sum_{\text{all transactions}} (\text{Price of item} \times \text{Quantity of item})
3. **符号解释:**
* `Price of item`:表示售出商品的单价。
* `Quantity of item`:表示售出商品的数量。
* **Costs (广告成本)**
1. **概念定义:** 在广告投放中,指广告主为广告曝光、点击或转化所支付的总费用。它反映了广告投放的经济投入,也是平台收入的一部分。
2. **数学公式:**
\text{Costs} = \sum_{\text{all ads shown}} \text{Cost per interaction}
3. **符号解释:**
* `Cost per interaction`:表示每次广告展示、点击或转化所产生的费用(具体取决于计费模式,如 `CPM`, `CPC`, `CPA`)。
* **CTCVR (Click-Through Conversion Rate) (点击转化率)**
1. **概念定义:** `CTCVR` 衡量用户从点击广告到完成转化行为(如购买、注册)的综合效率。它通常被定义为点击率 (`CTR`) 和转化率 (`CVR`) 的乘积,更全面地反映了广告的整体效果,因为它同时考虑了吸引用户点击的能力和引导用户转化的能力。
2. **数学公式:**
\text{CTCVR} = \text{CTR} \times \text{CVR}
\$\$
3. **符号解释:**
* `CTR` (Click-Through Rate):点击率,即点击数/曝光数。
* `CVR` (Conversion Rate):转化率,即转化数/点击数。
5.3. 对比基线
- 多模态词元化性能评估 (
Section 4.1):- RQ-VAE [16]:标准的离散词元化模型,容易出现死代码问题。
- RQ-Kmeans [20]:使用
K-means进行初始化的词元化模型,但缺乏VAE式的优化。
- 用户行为建模性能评估 (
Section 4.2):- HSTU [34]:基于
decoder-only架构的生成式推荐模型,用于处理超长用户历史。 - OneRec [40]:
encoder-decoder架构的统一推荐模型,能够摄入非纯序列输入并聚合更丰富的特征视图。
- HSTU [34]:基于
- 业务对齐性能评估 (
Section 4.3):- MTP (base):基线多词元预测模型,仅使用均匀的头部/位置权重进行似然训练。
- MTP+VAFT:在
MTP基础上,使用价值感知因子对每个位置的MTP损失进行重新加权。 - MTP+DPO [23]:在
MTP基础上,采用基于偏好的微调方法,学习在预测奖励下构建的成对排序。
- 在线性能评估 (
Section 4.4):- 成熟的多阶段级联系统 (Mature multi-stage cascade): 部署在微信视频号广告系统中的,包含多种检索方法和定制策略的高度优化系统。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 多模态词元化性能
以下是原文 Table 1 的结果:
| Model | Collision (%)↓ | CURL1 (%)↑ | PAS↑ |
|---|---|---|---|
| RQ-VAE | 23.21 | 92.13 | 0.985 |
| RQ-Kmeans | 21.40 | 100 | 0.986 |
| RQ-KMeans+ (Ours) | 20.60 | 99.36 | 0.992 |
Table 1: Performance of Different Tokenizers
分析:
Table 1 展示了 RQ-KMeans+ 在词元化质量方面的优越性。
-
RQ-KMeans+取得了最低的冲突率 (Collision Rate),为20.60%,相较于RQ-VAE(23.21%) 相对降低了11.2%,相较于RQ-Kmeans(21.40%) 相对降低了3.7%。这表明RQ-KMeans+能够更好地将不同的物品映射到唯一的语义ID,减少了语义混淆。 -
RQ-KMeans+的第一层代码使用率 (Code Usage Rate at level 1, CUR_{L1}) 达到了99.36%,接近RQ-Kmeans的100%,并比RQ-VAE高出7.2个百分点。这说明RQ-KMeans+在降低冲突率的同时,并没有牺牲码本的利用效率,有效避免了“死代码”问题。 -
最重要的是,
RQ-KMeans+的路径平均相似度 (Path Average Similarity, PAS) 达到了0.992,高于RQ-VAE(0.985) 和RQ-Kmeans(0.986)。这表明,即使在发生冲突的情况下,RQ-KMeans+也能将语义上更连贯的物品分到相同的语义ID下。这些结果综合证明,
RQ-KMeans+能够生成高质量的语义ID,这些ID不仅利用率高,冲突少,而且在语义上更具一致性,为后续的生成式模型提供了更坚实的基础。
6.1.2. 用户行为建模性能
以下是原文 Table 2 的结果:
| Model | HitR@100 (%) | Δ vs. HSTU |
|---|---|---|
| Baselines | ||
| HSTU (Decoder-only) | 18.98 | |
| OneRec (Encoder-Decoder) | 19.85 | +4.6% |
| HSD | ||
| + Hybrid Attention | 20.56 | +8.3% |
| + Token-Aware FFN | 21.98 | +15.8% |
| + Token-Aware Layer Norm | 20.76 | +9.4% |
| + Mixture of Recursions | 20.09 | +5.9% |
| + External Knowledge | 20.13 | +6.1% |
| PTD | ||
| + Thinking | 21.75 | +14.6% |
| + Refining | 19.61 | +3.3% |
| HTE | ||
| +HTE | 19.91 | +4.9% |
| Training | ||
| + Multi-Token Prediction | 22.38 | +17.9% |
| GPR (Full) | ||
| + All (HSD+PTD+HTE) | 27.32 | +43.9% |
Table 2: HHD Architecture Study
分析:
Table 2 展示了 GPR 及其各组件在用户行为建模性能上的表现,以 HitRate@100 作为评估指标。
-
基线对比:
Full GPR达到了27.32%的HitR@100,相对于HSTU(18.98%) 取得了 的相对提升,相对于OneRec(19.85%) 取得了 的提升。这表明GPR在处理长序列、异构用户行为并预测下一个交互项方面具有显著优势。OneRec略优于HSTU,原因在于其能够整合更丰富的特征视图,而不仅仅是严格的自回归序列输入。 -
消融实验 (
Ablations) 分析:HSD组件的贡献:Hybrid Attention:引入混合注意力机制,使得非生成性前缀能够进行双向注意力,带来了 的相对提升,表明其在捕获上下文信息方面的有效性。Token-Aware FFN:词元感知前馈网络将不同类型词元投影到各自语义子空间,贡献了最大的单项提升 ,说明其有效减少了跨类型干扰。Token-Aware Layer Norm:词元感知层归一化带来了 的提升,进一步印证了处理异构词元特性的重要性。Mixture of Recursions:递归混合策略通过共享参数增加了模型的有效深度和推理能力,贡献了 的提升。External Knowledge:从LLM注入“思考过程”词元,进一步丰富了意图表示,带来了 的提升。
PTD组件的贡献:Thinking:隐式思考机制强制进行多步潜在精炼,带来了 的显著提升,表明其能有效从意图嵌入中提炼关键信息。Refining:精炼模块进一步优化了推理结果,带来了 的提升。
HTE组件的贡献:- :引入分层词元评估器,使
HitR@100达到19.91%,相对提升 。这表明显式价值预测能够锐化候选排序,并为下游拍卖更好地准备生成系统。
- :引入分层词元评估器,使
Training策略的贡献:Multi-Token Prediction:多词元预测策略捕获并行兴趣,提供了最大的单项提升 ,有力支持了多线程兴趣假设。
-
GPR (Full)组合效果: 当所有HSD、PTD和HTE组件以及Multi-Token Prediction训练策略全部启用时,GPR实现了27.32%的HitR@100,相对于HSTU提升高达43.9%。这证明了GPR各项创新组件的协同作用,共同构建了一个强大的生成式推荐框架。
6.1.3. 伸缩性 (Scaling)
下图(原文 Figure 5)展示了六种不同 GPR 参数大小的损失曲线对比:
该图像是图表,展示了六种不同GPR参数大小的损失曲线对比。横轴表示训练步数,纵轴表示损失值,曲线清晰揭示了不同参数设置下的模型训练效果。
Figure 5: Comparison of loss curves for six different GPR parameter sizes.
分析:
Figure 5 展示了 GPR 在不同参数规模(从 0.02B 到 2B)下的训练损失演变。结果清晰地表明了稳健的缩放法则 (robust scaling law):随着模型参数数量的增加,模型在训练过程中始终能达到更低的损失值。这意味着 GPR 具有良好的可伸缩性,通过扩大模型规模能够持续提升性能。值得注意的是,与典型的大型语言模型 (LLMs) 不同,GPR 的总规模主要由稀疏参数(总计约 80B)主导,这在推荐系统中是常见的。这一实证观察验证了通过扩展模型规模来增强性能的巨大潜力。
6.1.4. 业务对齐性能
以下是原文 Table 3 的结果:
| Model | nDCG | OPR | Avg final_value | Max final_value |
|---|---|---|---|---|
| Pretraining & Fine-tuning | ||||
| MTP (base) | 0.3868 | 0.5292 | 0.2412 | 0.6201 |
| + VAFT | 0.3925 | 0.5348 | ||
| Post-training | ||||
| + DPO | 0.4383 | 0.5463 | 0.2442 | 0.6659 |
| + HEPO | 0.4413 | 0.5509 | 0.2630 | 0.7619 |
Table 3: Training & Alignment Study
分析:
Table 3 评估了 GPR 联合训练策略(MTP 预训练、eCPM 感知微调和 HEPO)对业务变现对齐的改进。
-
MTP (base)vs.+ VAFT: 相较于基线MTP,引入Value-Aware Fine-Tuning (VAFT)后,nDCG从0.3868提升到0.3925,OPR从0.5292提升到0.5348。VAFT通过使用动作类型和归一化eCPM对损失进行重新加权,将学习方向转向高价值的展示,同时保持了相关性。虽然表格中未直接显示Avg final_value和Max final_value的具体数值,但nDCG和OPR的提升已表明其在排序质量和偏好捕获上有所改进。 -
vs.
+ HEPO:-
:采用
Direct Preference Optimization (DPO)进行微调,通过优化成对偏好(倾向于在匹配上下文中高价值的物品),进一步提高了nDCG至0.4383,标准化平均final_value从0.2412增加到0.2442,最大final_value从0.6201增加到0.6659。这表明DPO有效地锐化了局部排序。 -
:进一步超越了
DPO,实现了0.4413的nDCG和0.5509的OPR。更显著的是,其平均final_value提升到0.2630,最大final_value达到0.7619。这意味着HEPO算法,特别是通过仿真环境中的反事实探索和分层过程奖励,能够更有效地将监督与序列级奖励对齐,并发现更高价值的候选广告,从而在业务对齐方面取得了更优异的表现。这些结果证明了
GPR的多阶段训练策略,特别是VAFT和HEPO,能够显著提升模型在业务目标(如eCPM和final_value)上的对齐能力,使其更符合广告变现的需求。
-
6.1.5. 在线性能
以下是原文 Table 4 的结果:
| Version | GMV | GMV-Normal | Costs |
|---|---|---|---|
| Launches with incremental changes. | |||
| v0.1:HSD+NTP+DPO | +2.11% | +2.42% | +3.29% |
| v0.2: +HEPO w/o ARR | +0.70% | +0.67% | +0.36% |
| v0.3: +MTP+Thinking | +0.63% | +0.94% | +0.21% |
| v0.4: +PTD | +0.71% | +1.04% | +0.12% |
| v0.5: +HEPO w/ ARR | +0.58% | +0.81% | +0.23% |
Table 4: Online A/B Test Results
分析:
Table 4 总结了 GPR 在微信视频号广告系统中五次迭代在线 A/B 测试的效果。
-
v0.1: (初始部署): 首次全面部署的
GPR版本(包含HSD、NTP预训练和DPO后训练)建立了基线提升,带来了 的GMV增长和 的Costs增长。这表明GPR的初始版本已经能有效提升业务指标。 -
v0.2:
+HEPO w/o ARR(不含ARR的HEPO): 第二次大规模发布用HEPO替换了DPO,带来了额外的 的GMV增长和 的Costs增长。这验证了HEPO相对于DPO在实际广告场景中的优越性。 -
v0.3: (加入
MTP和Thinking): 引入Multi-Token Prediction和Thinking机制,进一步贡献了 的GMV增长和 的Costs增长。这说明多兴趣建模和深度思考对业务表现的积极影响。 -
v0.4: (引入
PTD): 引入渐进式词元解码器 (PTD) 带来了 的GMV增长和 的Costs增长。这表明PTD的“思考-精炼-生成”范式在实际场景中是有效的。 -
v0.5:
+HEPO w/ ARR(含ARR的HEPO): 最后,将HEPO与预期请求预演 (Anticipatory Request Rehearsal, ARR) 结合,贡献了 的GMV增长和 的Costs增长。这表明ARR能够帮助模型更好地适应动态的广告生态系统,从而带来额外的收益。总体而言,在所有轮次的测试中,
GMV和GMV-Normal(针对点击或转化优化的广告,占总GMV的大部分)都持续增长,这表明在延迟和稳定性不变的情况下,GPR实现了更强的变现能力。
以下是原文 Table 5 的结果:
| GMV | CTR | CVR | CTCVR | ||
| v0.1 | +2.11% | +1.69% | +1.15% | +3.16% | |
| User Group | UG1 | +3.56% | +2.51% | +0.82% | +3.72% |
| UG2 | +3.84% | +2.06% | +1.30% | +3.80% | |
| UG3 | +0.92% | +2.18% | +1.91% | +4.63% | |
| UG4 | +0.45% | +1.08% | +1.53% | +2.87% | |
| UG5 | +3.68% | +0.05% | +0.32% | +0.50% | |
| Ad Group | new | +2.97% | +2.25% | +1.41% | +4.02% |
| non-new | +1.65% | +1.42% | +1.12% | +2.78% |
Table 5: Stratified Analysis of Online A/B Test Results
分析:
Table 5 对首次上线版本 (v0.1) 进行了分层分析,展示了在不同用户群和广告群上的表现。
- 用户群 (
User Group) 分析:UG1和UG2代表低活跃用户,GPR在这些群体中取得了强劲的收益。例如,UG1在GMV上提升 ,CTR,CVR,CTCVR。这表明GPR能够更好地挖掘低活跃用户的潜在价值。UG3和UG4代表中等活跃用户,在参与度和效率方面也有所提升。UG3甚至显示出最大的CTCVR提升,达到 。UG5代表高活跃用户,虽然CTR和CVR变化较小,但GMV仍有 的提升,CTCVR提升 。这表明即使对于重度用户,GPR也能更好地将流量分配给更高价值的广告。
- 广告群 (
Ad Group) 分析:-
新上线广告(
new,上线 天)的表现优于已上线广告(non-new,上线 天)。新广告的GMV提升 ,CTCVR提升 ,而老广告的GMV提升 ,CTCVR提升 。这一模式表明GPR在冷启动处理方面表现更强,同时也能维持成熟库存的收益。这些分层分析结果进一步证实了
GPR在不同用户和广告场景下的泛化能力和鲁棒性,特别是其在处理冷启动和挖掘低活跃用户价值方面的优势。
-
6.2. 消融实验/参数分析
在 Section 4.2 的用户行为建模性能评估中,Table 2 的消融实验详细验证了 GPR 各组件的有效性:
-
HSD模块的组件:Hybrid Attention、Token-Aware FFN、Token-Aware Layer Norm、Mixture of Recursions和External Knowledge都对HitRate@100有积极贡献,其中Token-Aware FFN贡献最大,其次是Hybrid Attention。这表明HSD在处理异构序列和深度理解用户意图方面的各项创新都是有效的。 -
PTD模块的组件:Thinking机制带来了显著的提升,而Refining机制提供了进一步的增益,验证了“思考-精炼-生成”范式的有效性。 -
HTE模块: 显式引入价值预测模块HTE提升了HitRate@100,表明业务价值对齐对推荐准确性的积极影响。 -
Multi-Token Prediction训练策略: 捕获并行兴趣的MTP策略带来了所有组件中最大的单项提升,强调了多兴趣建模在广告场景中的重要性。这些消融实验证明了
GPR框架并非单一组件的成功,而是其各个创新模块协同作用的结果。
参数分析 (Scaling):
Figure 5 的缩放实验证实了 GPR 的模型性能与参数量之间存在正相关关系,即模型越大,性能越好(损失越低)。这鼓励了模型在未来进一步扩大规模以获得更高性能的潜力。
7. 总结与思考
7.1. 结论总结
本文提出了 GPR (Generative Pre-trained Recommender),这是首个将广告推荐任务重构为端到端生成任务的 one-model 框架,成功取代了传统的、存在目标不一致和误差传播问题的多阶段级联范式。GPR 通过在统一表示、网络架构和训练策略三方面的系统性创新,有效解决了工业级推荐系统长期面临的挑战,包括异构数据建模、训练-推理效率权衡以及长期价值优化不足。
具体而言,GPR 的核心贡献包括:
-
统一的
RQ-Kmeans+词元化方法: 有效地将广告和有机内容映射到共享语义空间,克服了数据异构性问题。 -
异构分层解码器 (
HHD): 采用双解码器架构,通过HSD深度理解用户意图,并通过PTD的“思考-精炼-生成”范式实现精准广告生成,同时HTE整合了价值评估。 -
多阶段联合训练策略: 整合了
MTP(多兴趣建模)、VAFT(价值对齐) 和HEPO(强化学习,包含分层过程奖励和ARR预演),全面优化了用户兴趣、业务价值和长期策略。通过大规模实验和在腾讯微信视频号广告系统中的在线
A/B测试,GPR展现出显著的优越性,在GMV和CTCVR等关键业务指标上取得了显著提升。这清晰地表明GPR在实际生产环境中对高度优化和成熟的级联系统具有强大的竞争力。GPR的成功部署推动了广告推荐系统从分阶段优化向端到端智能决策的转变,使其能够更统一、自适应地理解用户意图,优化长期价值,并持续驱动数字经济生态系统的智能化演进。
7.2. 局限性与未来工作
论文中未明确列出 GPR 的局限性,但从其方法论和工业级应用的复杂性角度,可以推断以下潜在局限性及可能的未来研究方向:
- 模型复杂度和资源消耗: 作为一个统一的
one-model框架,GPR整合了多个复杂模块和多阶段训练策略(包括LLM外部知识、扩散模型、强化学习模拟环境),这可能导致模型训练和部署的计算资源需求非常高,维护成本也可能较高。未来的工作可以探索如何优化模型结构和训练流程,以降低资源消耗。 - 可解释性挑战:
GPR是一个大型生成式模型,其内部决策过程可能不如传统的判别式模型那样直观易懂。在广告场景中,理解推荐理由对于广告主和平台运营都非常重要。未来研究可以探索提升GPR推荐结果的可解释性。 - 冷启动问题: 尽管论文提到
GPR对新广告的冷启动处理能力较强,但在面对新用户或全新类别的物品时,生成式模型仍可能面临数据稀疏性带来的挑战。未来的工作可以进一步优化冷启动策略。 final_value的通用性与鲁棒性: 论文中定义的final_value是多个业务指标的聚合。这些指标的权重 () 如何设定,以及final_value在不同业务场景或市场波动下的鲁棒性如何,都需要更深入的探讨。最佳的价值函数设计对RL的效果至关重要。ARR样本的质量与偏差:Anticipatory Request Rehearsal (ARR)生成合成训练样本,这有助于模型适应动态环境。然而,合成样本的质量和其与真实未来请求的偏差程度,可能影响训练效果。未来的工作可以研究更高级的样本生成方法,以减少潜在偏差。- 隐私和公平性: 广告推荐系统涉及大量的用户数据,隐私保护和推荐公平性是不可忽视的重要议题。论文中未详细讨论
GPR在这些方面的表现和策略。未来的工作需要将隐私保护和公平性纳入模型设计和评估框架中。
7.3. 个人启发与批判
-
个人启发:
One-Model范式的巨大潜力:GPR成功地将广告推荐这一复杂的工业任务统一到一个生成式模型中,有力证明了one-model范式在解决传统级联系统痛点(目标错位、误差传播)方面的巨大潜力。这对于其他多阶段机器学习系统也具有借鉴意义。- 生成式与强化学习的深度融合:
GPR精巧地结合了生成式模型和强化学习,尤其是HEPO提出的分层过程奖励和ARR,有效解决了生成式RL中常见的信用分配困难和探索不足问题。这为未来推荐系统乃至其他序列决策任务提供了新的思路。 - 异构数据处理的创新: 面对广告推荐中复杂的异构数据(广告、有机内容、用户、环境),
GPR的统一输入模式、RQ-Kmeans+量化和HSD中的词元感知机制,提供了一套全面的解决方案,这对于处理多模态、多源信息的系统具有普适性。 - 业务价值深度对齐:
Value-Aware Fine-Tuning和HTE模块明确地将商业目标(如eCPM)融入到模型的训练和生成过程中,确保模型不仅预测用户兴趣,更直接优化平台收入和广告主ROI,这种深度业务对齐是工业应用成功的关键。
-
批判:
- 计算复杂性与工业可扩展性: 尽管
GPR在生产环境中取得了成功,但其所描述的复杂架构(双解码器、扩散精炼、外部LLM知识、高保真模拟环境、多阶段RL)在实际部署和维护方面可能面临极高的计算资源和工程开销。论文对这些挑战的量化(例如,训练和推理的延迟、吞吐量、资源消耗对比)描述较少,这使得其他团队在复现或参考时难以评估其真实成本效益。 final_value的主观性与动态性:final_value的定义涉及到eCPM和多个辅助目标 () 的加权。这些权重 的确定往往依赖于经验和业务策略,可能需要大量人工调整,且在市场环境变化时可能需要动态调整。论文中对这些权重的来源和调整机制描述不详,这可能影响模型在不同场景下的泛化能力和鲁棒性。LLM外部知识的实际增益与成本: 论文提到引入LLM生成的“思考过程”以增强语义理解和推理能力。但这种外部知识的引入对GPR整体性能的实际贡献(例如,相比于不引入LLM的基线有多少提升)以及其带来的计算开销和潜在的偏差风险,可以有更详细的分析。MoR和Diffusion模块的详细机制: 论文提到了Mixture-of-Recursions (MoR)和基于diffusion paradigm的精炼模块,但对其具体实现细节和在推荐场景中的独特优势,可以给出更深入的阐述,以便读者更好地理解其工作原理。- 对长尾和探索性的影响: 生成式模型有时会倾向于生成高概率的常见物品,从而可能减少对长尾物品的探索。虽然
HEPO的RL探索机制旨在缓解这个问题,但GPR对长尾物品的覆盖和新奇性 (novelty) 方面的表现如何,仍值得进一步探讨。
- 计算复杂性与工业可扩展性: 尽管
相似论文推荐
基于向量语义检索推荐的相关论文。