论文状态：已完成

GPR: Towards a Generative Pre-trained One-Model Paradigm for Large-Scale Advertising Recommendation

发表：2025/11/13

价格：0.100000

已有 10 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新的广告推荐框架GPR（Generative Pre-trained Recommender），将广告推荐重新定义为端到端生成任务，克服现有模型的目标错位和误差传播问题。通过设计统一的输入模式和异构分层解码器，增强语义对齐，提升训练效率，最终实现了强大的建模能力和推理灵活性。

摘要

As an intelligent infrastructure connecting users with commercial content, advertising recommendation systems play a central role in information flow and value creation within the digital economy. However, existing multi-stage advertising recommendation systems suffer from objective misalignment and error propagation, making it difficult to achieve global optimality, while unified generative recommendation models still struggle to meet the demands of practical industrial applications. To address these issues, we propose GPR (Generative Pre-trained Recommender), the first one-model framework that redefines advertising recommendation as an end-to-end generative task, replacing the traditional cascading paradigm with a unified generative approach. To realize GPR, we introduce three key innovations spanning unified representation, network architecture, and training strategy. First, we design a unified input schema and tokenization method tailored to advertising scenarios, mapping both ads and organic content into a shared multi-level semantic ID space, thereby enhancing semantic alignment and modeling consistency across heterogeneous data. Second, we develop the Heterogeneous Hierarchical Decoder (HHD), a dual-decoder architecture that decouples user intent modeling from ad generation, achieving a balance between training efficiency and inference flexibility while maintaining strong modeling capacity. Finally, we propose a multi-stage joint training strategy that integrates Multi-Token Prediction (MTP), Value-Aware Fine-Tuning and the Hierarchy Enhanced Policy Optimization (HEPO) algorithm, forming a complete generative recommendation pipeline that unifies interest modeling, value alignment, and policy optimization. GPR has been fully deployed in the Tencent Weixin Channels advertising system, delivering significant improvements in key business metrics including GMV and CTCVR.

思维导图

论文精读

中文精读约 40 分钟读完 · 22,335 字

1. 论文基本信息

1.1. 标题

GPR: Towards a Generative Pre-trained One-Model Paradigm for Large-Scale Advertising Recommendation

1.2. 作者

Jun Zhang 1+, Yi Li1, Yue Liu 1, Chag Wang , Yuan Wan 1, Yulig Xiong 1, Xun Lu , Ha W 1, Ian I 1, E Zhang1, Jiawe Sun 1, Xin Xu 1 Zishi Zhan 1, Ru Iu 1, S H Zhaoxin Zhang 1, Zhengkai Guo 1, Shuojin Yang 2, Meng-Hao Guo 2, Huan Yu 1, Jie Jiang 1, Shi-Min Hu 2

腾讯公司 (Tencent Inc., China)
清华大学 (Tsinghua University, China)

1.3. 发表期刊/会议

该论文作为预印本 (arXiv preprint) 发布。

原文链接: https://arxiv.org/abs/2511.10138
PDF 链接: https://arxiv.org/pdf/2511.10138v1.pdf
发布状态: 预印本，发布时间为 UTC 2025-11-13T09:50:53.000Z。

1.4. 发表年份

2025年

1.5. 摘要

广告推荐系统作为连接用户与商业内容的智能基础设施，在数字经济的信息流和价值创造中扮演着核心角色。然而，现有的多阶段广告推荐系统面临目标错位 (objective misalignment) 和 误差传播 (error propagation) 的问题，难以实现全局最优。同时，统一的生成式推荐模型在实际工业应用中仍难以满足需求。为解决这些问题，本文提出了 GPR (Generative Pre-trained Recommender)，这是首个将广告推荐重定义为端到端生成任务的 one-model 框架，用统一的生成方法取代了传统的级联范式。为实现 GPR，作者在统一表示、网络架构和训练策略方面引入了三项关键创新。首先，设计了针对广告场景的统一输入模式 (unified input schema) 和 词元化 (tokenization) 方法，将广告和有机内容映射到共享的多级语义 ID 空间，增强了异构数据间的语义对齐和建模一致性。其次，开发了 异构分层解码器 (Heterogeneous Hierarchical Decoder, HHD)，这是一个双解码器架构 (dual-decoder architecture)，它将用户意图建模与广告生成解耦，在训练效率和推理灵活性之间取得了平衡，同时保持了强大的建模能力。最后，提出了多阶段联合训练策略 (multi-stage joint training strategy)，整合了 多词元预测 (Multi-Token Prediction, MTP)、价值感知微调 (Value-Aware Fine-Tuning, VAFT) 和 分层增强策略优化 (Hierarchy Enhanced Policy Optimization, HEPO) 算法，形成了一个完整的生成式推荐流程，统一了兴趣建模、价值对齐和策略优化。GPR 已全面部署在腾讯微信视频号广告系统，在总商品交易额 (GMV) 和点击转化率 (CTCVR) 等关键业务指标上取得了显著提升。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题是什么？
1. 传统多阶段广告推荐系统 (Multi-stage Advertising Recommendation Systems) 的固有缺陷： 传统的“检索-预排序-排序”级联范式存在各阶段优化目标不一致（如检索注重覆盖，排序注重业务结果）、早期模型表达能力有限导致高质量候选被过早淘汰、以及复杂工程实现难以快速迭代和扩展等问题。这些问题导致系统难以达到全局最优，并伴随误差传播。
2. 现有统一生成式推荐模型 (Unified Generative Recommendation Models) 在工业应用中的挑战： 尽管生成式模型在统一推荐任务方面显示出潜力，但在实际大规模广告推荐场景中，它们仍面临：
  - 数据和行为的极端异构性 (Extreme Heterogeneity in Data and Behavior)： 广告与短视频、社交动态等有机内容交织，导致序列和项层面都存在异构性及多样化的用户行为，处理复杂数据分布和噪声对统一表示能力提出严苛要求。
  - 效率-灵活性权衡 (Efficiency-Flexibility Trade-off)： 工业级系统需要高效训练大规模数据，同时要求灵活的解码能力以处理超长用户行为序列，并在多重约束（如定向、出价、预算）下匹配广告。现有的 decoder-only 架构缺乏解码灵活性，encoder-decoder 架构训练成本过高。
  - 收入和多方利益相关者价值优化 (Revenue and Multi-stakeholder Value Optimization)： 广告系统需在用户体验、广告主投资回报率 (ROI) 和平台收入之间取得平衡。现有预训练方法通常只优化单一简化目标（如最大化预测点击率或转化率），导致目标错位和局部最优，未能实现全局优化的商业价值。
为什么这个问题在当前领域是重要的？ 在线广告推荐是数字经济的关键组成部分，其核心任务是根据用户历史行为精准匹配广告。系统必须满足严格的实时、低延迟要求，服务数亿用户和数千万动态广告。系统性能的及时性和稳定性直接决定着一个数十亿美元生态系统的正常运作。在用户体验、广告主投资回报率和平台收入之间实现动态平衡是该领域的关键挑战。
这篇论文的切入点或创新思路是什么？ 论文的创新思路是提出 GPR，一个将广告推荐重新定义为端到端生成任务 (end-to-end generative task) 的 one-model 框架，用统一的生成方法取代传统的多阶段级联范式。通过在统一表示、网络架构和训练策略上的系统性创新，GPR 旨在有效整合异构数据，平衡系统效率与解码灵活性，并精确捕捉业务价值，优化全局多方利益相关者目标。

2.2. 核心贡献/主要发现

本文的主要贡献总结如下：

统一输入模式和词元化方法： 提出了一个统一的输入模式和词元化方法，通过四种类型的 词元 (token) 来表示整个用户旅程。引入了一种新颖的 RQ-Kmeans+ 量化模型，将内容和广告映射到共享的语义空间，以高效建模异构和超长序列数据。
异构分层解码器 (HHD) 架构： 提出了一个基于双解码器的生成式架构 HHD，它分层建模用户理解和推荐项生成，以实现更精细的兴趣表示和更准确的推荐。在解码过程中，HHD 集成 trie 约束、价值指导和高效多阶段剪枝，显著提高了生成准确性和可靠性。
多阶段联合训练策略： 提出了一个多阶段联合训练策略，整合了 Multi-Token Prediction (MTP)、Value-Aware Fine-Tuning (VAFT) 和 Hierarchy Enhanced Policy Optimization (HEPO) 算法，从而构建了一个全面的生成式推荐训练流程，无缝统一了兴趣建模、价值对齐和策略优化。
大规模工业部署与显著业务提升： GPR 已全面部署在腾讯微信视频号广告系统，通过大规模在线 A/B 测试，在总商品交易额 (GMV) 和点击转化率 (CTCVR) 等关键业务指标上取得了显著提升，证明了 GPR 相对于高度优化和成熟的级联系统具有强大的竞争力。

3. 预备知识与相关工作

3.1. 基础概念

推荐系统 (Recommender Systems)： 旨在预测用户对物品（如商品、电影、新闻、广告）的兴趣并向其推荐相关物品的智能系统。其核心目标是连接用户与他们可能感兴趣的内容，从而提升用户体验、平台留存和商业价值。
多阶段级联推荐系统 (Multi-stage Cascading Recommendation Systems)： 传统推荐系统通常采用的架构，将推荐过程分解为多个串联阶段，如“检索 (Retrieval)”、 “预排序 (Pre-ranking)” 和 “排序 (Ranking)”。每个阶段在减少候选集的同时，逐步提高精细化程度，但可能导致信息瓶颈和目标不一致。
生成式推荐模型 (Generative Recommendation Models)： 一种新兴的推荐范式，受到大型语言模型 (LLMs) 成功的启发。它将推荐任务建模为一个序列生成问题，直接生成用户可能感兴趣的物品 ID 或其语义 ID 序列，而非像判别式模型那样对现有物品进行评分或排序。
大型语言模型 (Large Language Models, LLMs)： 基于 Transformer 架构的深度神经网络模型，通过在海量文本数据上进行预训练，学习到强大的语言理解和生成能力。它们通常采用自回归（auto-regressive）的方式，根据上文预测下一个词元。
词元化 (Tokenization)： 将原始数据（如文本、图像、商品等）转换为模型可以处理的离散单元（词元, token）的过程。在生成式推荐中，物品通常被量化为语义 ID 序列，这些 ID 就是 词元。
残差矢量量化 (Residual Vector Quantization, RQ)： 一种分层的量化方法，通过多个 codebook 逐步细化表示。每个 codebook 学习对前一个 codebook 剩余误差进行编码，从而以更紧凑、更精细的方式表示高维数据。codebook 是一个存储离散向量（code）的集合，用于将连续向量映射到最近的离散 code。
Transformer 架构： 一种基于自注意力机制 (Self-Attention Mechanism) 的神经网络架构，广泛应用于序列建模任务。
- 自注意力机制 (Self-Attention Mechanism)： Transformer 的核心组成部分，允许模型在处理序列的某个元素时，动态地权衡序列中所有其他元素的重要性。其计算公式如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中：
  - $Q$ (Query), $K$ (Key), $V$ (Value) 分别是输入序列经过线性变换得到的矩阵。
  - $Q K^T$ 计算 Query 与所有 Key 的点积相似度，表示当前 token 对其他 token 的关注程度。
  - $\sqrt{d_k}$ 是缩放因子，用于防止点积结果过大，稳定梯度。
  - $\mathrm{softmax}$ 函数将相似度分数转换为权重分布。
  - $V$ 矩阵与权重分布相乘，得到加权后的 Value 向量，即注意力机制的输出。
- 编码器-解码器架构 (Encoder-Decoder Architecture)： Transformer 的原始设计，编码器将输入序列编码为上下文表示，解码器根据此表示和已生成的部分序列生成输出序列。
- 仅解码器架构 (Decoder-only Architecture)： 一种简化的 Transformer 架构，仅包含解码器部分，通常用于自回归生成任务，如 LLMs。它通过 causal mask 确保在生成当前 token 时只能看到之前的 token。
强化学习 (Reinforcement Learning, RL)： 机器学习的一个分支，智能体 (agent) 通过与环境 (environment) 交互来学习如何采取行动 (action) 以最大化累积奖励 (reward)。
- 智能体 (agent)： 在强化学习中执行决策和学习的实体。
- 环境 (environment)： 智能体与之交互的外部系统，接收智能体的动作并返回新的状态和奖励。
- 状态 (state)： 环境在某一时刻的描述，智能体据此做出决策。
- 动作 (action)： 智能体在给定状态下可以执行的操作。
- 奖励 (reward)： 环境对智能体动作的反馈信号，通常是数值形式，智能体的目标是最大化累积奖励。
- 策略 (policy)： 定义智能体在给定状态下选择动作的规则或概率分布。
- 价值函数 (value function)： 预测从某一状态（或状态-动作对）开始，智能体遵循某一策略所能获得的未来累积奖励。
eCPM (Effective Cost Per Mille / Effective Cost Per Thousand Impressions)： 有效千次展示成本。在广告领域，指广告主为每千次广告展示所支付的有效费用。它是衡量广告投放效果和收益的关键指标。

3.2. 前人工作

LLMs 作为生成式排序器 (Generative Rankers)： 近期研究探索将 LLMs 应用于推荐系统，主要利用其生成下一个推荐项的能力 [10, 17, 18, 36, 38, 43]。这些方法通常将用户行为序列转化为文本序列，然后让 LLMs 根据文本输入生成下一个项。然而，LLMs 的固定词汇表是其核心限制，难以适应现代广告推荐场景中动态变化且大规模的物品集。
生成式推荐模型 (Generative Recommendation Models)： 受 LLMs 成功的推动，生成式推荐已成为一个重要的研究方向 [2, 4, 12, 14, 19, 22, 24, 28, 32, 34]。
- TIGER [24]：一个利用语义 ID 的生成式推荐模型，使用序列到序列框架生成语义 ID 进行推荐。
- HLLM [4]：利用 LLMs 的预训练能力，通过两层架构分别建模物品表示和用户兴趣。
- HSTU [34]：采用 decoder-only 架构处理超长用户历史并生成物品推荐。
- MTGR [9]：采用 HSTU 架构，同时保留了原始的深度学习推荐模型 (DLRM) 特征。
- COBRA [33]：通过级联过程整合稀疏语义 ID 和密集向量。
端到端推荐框架 (End-to-End Recommendation Frameworks)：
- OneRec [39]：通过 encoder-decoder 架构和偏好对齐算法 (DPO) 在视频推荐系统中统一了检索和排序。OneRec-V2 [40] 转向 lazy decoder-only 架构，并增加了基于真实用户反馈的强化学习。
强化学习 (RL) 在推荐系统中的应用：
- 在传统推荐系统中，RL 用于优化 slate/page 决策和长远价值。例如 Seq2Slate [3] 将重排序建模为自回归 slate 生成，通过策略梯度进行训练。SlateQ [13] 提出了可分解的 slate 长期价值。DEAR [37] 利用 DQN 解决广告插入决策问题。
- 在生成式推荐中，RL 用于将序列生成策略与用户和业务偏好对齐。GeMS [6] 学习 slate 的变分潜在空间，让 RL agent 在此连续空间中行动。PrefRec [31] 学习奖励模型，然后优化策略。DPO 风格的目标 [23] (如 Softmax-DPO, DPO4Rec) 将成对偏好转化为稳定的训练损失，用于对齐生成策略。

3.3. 技术演进

推荐系统的技术演进从早期的基于内容、协同过滤等方法，逐步发展到深度学习模型，并最终演变为大规模工业级多阶段级联系统。近年来，随着 LLMs 在生成能力上的突破，推荐系统研究范式开始向统一的生成式模型转变，旨在解决传统多阶段系统固有的目标不一致和误差传播问题。GPR 正是这一演进路径上的重要一步，它不仅采纳了生成式范式，更进一步将其成功应用于挑战更大的大规模广告推荐场景，并通过系统性的创新解决了该场景特有的数据异构性、效率灵活性权衡以及多方价值优化等问题，实现了端到端的 one-model 范式。

3.4. 差异化分析

GPR 与相关工作的主要区别和创新点在于：

端到端 one-model 范式在广告领域的首次成功部署： 尽管 OneRec 等工作探索了生成式推荐的端到端框架，但 GPR 是第一个成功部署到大规模真实世界广告系统（腾讯微信视频号）的端到端生成式解决方案，这面对了广告系统特有的行为异构性、稀疏性、多目标优化、精确价值预测等独特挑战。
统一表示能力： GPR 提出了独特的统一输入模式和 RQ-Kmeans+ 词元化方法，能够将广告和有机内容（短视频、社交动态等）映射到共享的多级语义 ID 空间，高效建模极端异构和超长序列数据，增强了语义对齐和模型一致性。这比只关注文本或单一模态的 LLM 推荐方法更具普适性。
异构分层解码器 (HHD) 架构： 与以往的生成式模型（如 HSTU）可能将用户表示与物品生成纠缠在一起不同，GPR 的 HHD 架构通过 Heterogeneous Sequence-wise Decoder (HSD)、Progressive Token-wise Decoder (PTD) 和 Hierarchical Token-wise Evaluator (HTE) 的分层结构，解耦了用户意图建模和广告生成。HSD 负责深度理解用户行为并生成意图嵌入，PTD 通过“思考-精炼-生成”范式实现更准确的预测，HTE 则整合价值估计。这种解耦设计实现了训练效率与推理灵活性的平衡，并提升了建模能力。
多阶段联合训练策略： GPR 的训练策略是其独特的优势，它整合了 MTP、VAFT 和 HEPO。MTP 捕获多线程兴趣，VAFT 引入 eCPM 感知以对齐业务价值，HEPO 则通过分层过程奖励和 Anticipatory Request Rehearsal (ARR) 解决信用分配问题和探索不足，实现全局多方价值优化。这比单纯依赖 DPO 或单一奖励的 RL 更加全面和适应工业广告场景。

4. 方法论

4.1. 方法原理

GPR (Generative Pre-trained Recommender) 提出的核心思想是将大规模广告推荐任务重新定义为端到端的生成任务 (end-to-end generative task)，以一个统一的生成模型取代传统的“检索-预排序-排序”级联范式。其背后直觉是：如果一个模型能够直接根据用户历史行为和当前上下文，生成具有高商业价值的广告 ID 序列，那么就能从根本上解决传统多阶段系统中固有的目标不一致、误差传播以及复杂工程维护等问题，从而实现全局最优。

为实现这一目标，GPR 采用了三个关键创新点：

统一表示： 通过设计一套统一的输入模式和 RQ-Kmeans+ 词元化方法，将广告、有机内容、用户属性和环境信息全部转化为共享的离散语义 ID 序列。这使得模型能够以一致的方式处理高度异构的数据，并理解用户的综合兴趣。
网络架构： 提出了一种名为异构分层解码器 (Heterogeneous Hierarchical Decoder, HHD) 的 Decoder-only 架构。该架构通过将用户意图的深度理解与推荐项的生成过程解耦，并引入“思考-精炼-生成”范式，提高了建模精度和推理效率。
训练策略： 采用多阶段联合训练策略 (Multi-stage Joint Training Strategy)。首先通过 Multi-Token Prediction (MTP) 预训练捕获多兴趣模式；接着通过 Value-Aware Fine-Tuning (VAFT) 将模型与广告的商业价值对齐；最后通过 Hierarchy Enhanced Policy Optimization (HEPO) 强化学习，在模拟环境中进行探索，优化长期和多层级的业务目标。

通过这三方面的系统性创新，GPR 旨在实现：

高效处理异构数据： 统一表示层解决了广告与有机内容间的异构性问题。
平衡效率与灵活性： HHD 架构在提供强大建模能力的同时，兼顾了工业应用所需的训练效率和推理灵活性。
全局价值优化： 多阶段训练策略特别是 VAFT 和 HEPO 确保模型不仅仅预测用户兴趣，还能精确地对齐和优化用户体验、广告主 ROI 和平台收入等多方利益。

4.2. 核心方法详解 (逐层深入)

GPR 框架旨在生成推荐项和拍卖价值，其整体架构如原文 Figure 2 所示。它首先通过新颖的输入模式和 RQ-Kmeans+ 量化器将用户行为序列转化为统一的 词元 序列。然后，异构分层解码器 (HHD) 对这些序列进行深度理解，并预测目标项及其业务价值。最后，在推理阶段，采用价值引导的 Trie 树束搜索 (Value-Guided Trie-Based Beam Search) 算法提高效率和性能。

下图（原文 Figure 2）展示了 GPR 的整体架构：

Figure 2: Overall Architecture of GPR. 该图像是GPR的整体架构示意图，展示了异构平台与内容的集成，包括图像、文本和视频广告等。图中展示了分层解码器及用户画像的构建过程，重点介绍了对抗性噪声生成及强化模块的架构。公式部分涉及了生成与优化过程及路径评估。

Figure 2: Overall Architecture of GPR.

4.2.1. 输入模式与处理 (Input Schema and Processing)

为了处理真实世界广告平台中嘈杂、高度异构和超长的用户行为数据（例如微信视频号、朋友圈、公众号等），GPR 提出了一种统一的输入模式来表示用户的整个旅程，该模式由四种 词元 (Token) 组成：

User Token (U-Token)： 代表用户的属性和偏好，如年龄、性别、地域、兴趣标签等。
Organic Token (O-Token)： 封装用户交互过的有机内容，如短视频、文章、社交动态等。
Environment Token (E-Token)： 编码广告请求的即时上下文，如设备类型、时间、地理位置、广告位类型等。
Item Token (I-Token)： 代表用户曾与之交互的广告项，如点击过的广告、转化过的广告等。

此外，为了使物品嵌入与生成模型范式更好地对齐，GPR 将 O-Token 中的内容和 I-Token 中的物品都转换为离散的语义 ID。传统的 RQ-VAE [16] 和 RQ-Kmeans [20] 方法存在“码本崩溃 (codebook collapse)”和“潜在空间鲁棒性不足”等问题，导致语义空间利用率低和表示能力受限。为解决这些问题，GPR 提出了一种新的量化模型：RQ-Kmeans+。

下图（原文 Figure 3）展示了 RQ-Kmeans+ 的总体架构：

Figure 3: Overall Architecture of RQ-Kmeans+. 该图像是RQ-Kmeans+的总体架构示意图，展示了多模态语义嵌入如何与初始化由RQ-Kmeans生成的码书相结合，经过Vanilla RQ-VAE进行编码，并最终通过多个码书实现量化处理。涉及的关键公式为 $0 + 2 + 4 =$ 。

Figure 3: Overall Architecture of RQ-Kmeans+.

RQ-Kmeans+ 量化模型 RQ-Kmeans+ 由一个编码器、残差码本 (residual codebooks) 和一个解码器组成。它将码本崩溃主要归因于随机初始化，导致一些向量在训练中很少被激活，最终变为“死向量 (dead vectors)”。为了解决这个问题，RQ-Kmeans+ 采取了以下策略：

高质量码本初始化： 首先使用 RQ-Kmeans 算法生成一个高质量的码本，并将其作为初始化权重。
RQ-VAE 损失函数更新： 码本随后使用与 RQ-VAE 相同的损失函数进行更新，使其能够适应当前的、可学习的潜在空间。
编码器侧残差连接： 引入一个残差连接 (residual connection) 到编码器侧，以确保在训练的早期阶段，输出分布仍接近输入分布，从而加速收敛并稳定潜在空间对齐。

最终，RQ-Kmeans+ 显著提高了码本利用率，同时保持了潜在空间的灵活性，有效解决了码本崩溃问题。

4.2.2. 异构分层解码器 (Heterogeneous Hierarchical Decoder, HHD)

HHD 是一种 decoder-only 生成式架构，它包含异构序列解码器 (Heterogeneous Sequence-wise Decoder, HSD) 模块、渐进式词元解码器 (Progressive Token-wise Decoder, PTD) 模块 和 分层词元评估器 (Hierarchical Token-wise Evaluator, HTE) 模块。这种分层结构将用户行为的理解与下一个物品的预测解耦，从而实现对用户偏好更细粒度的理解和更准确的预测。

异构序列解码器 (Heterogeneous Sequence-wise Decoder, HSD) HSD 模块是主要的解码器，它堆叠了 HSTU 块 [34]，并将统一的 词元 序列作为输入，以理解用户行为并生成高质量的意图嵌入 (intent embeddings)。在基础的 HSTU 块之上，GPR 引入了多项关键增强来形成 HSD 中使用的块，包括混合注意力机制 (Hybrid Attention mechanism)、词元感知归一化 (Token-Aware Normalization) 和改进的前馈网络 (Feed-Forward Network, FFN)。
- 混合注意力机制 (Hybrid Attention mechanism)：与标准注意力机制不同，HSD 的注意力机制引入了一个额外的嵌入 $U$ ，它自适应地调制注意力权重 $W$ 。这种调制使得 HSD 能够更有效地关注相关的用户行为，同时主动衰减信息量较少或无关的交互。此外，由于输入模式中的 U-Token、O-Token 和 E-Token 共同作为物品预测的提示 (prompt)，在这个提示区域应用香草型因果掩码 (vanilla causal mask) 会带来不必要的限制。为解决此问题，GPR 提出了混合注意力掩码 $M^{\mathrm{hybrid}}$ 。在前缀块 (prefix block) 内部，词元 可以使用双向注意力 (bi-directional attention) 自由地相互可见。这种设计使得模型能够充分利用提示 词元 之间的上下文交互，从而在进行预测之前构建更全面的上下文。
  
  混合注意力可以表示为： $\mathsf { H y b r i d A t t n ( \cdot ) } = S o f t m a x \left( \frac { Q K ^ { \top } } { \sqrt { d } } + M ^ { \mathrm { h y b r i d } } \right) V \odot U$ 其中：
  - $Q$ (Query), $K$ (Key), $V$ (Value) 是来自输入 词元 序列的查询、键和值矩阵。
  - $d$ 是键向量的维度。
  - $M^{\mathrm{hybrid}}$ $M^{hybrid}$ 是混合注意力掩码，其定义为： M _ { i j } ^ { \mathrm { h y b r i d } } = \left\{ { \begin{array} { l l } { 0 , } & { { \mathrm { i f ~ } } i < j { \mathrm { ~ o r ~ } } X _ { i } , X _ { j } \in \{ \mathrm { U / O / E \mathrm { - } T o k e n } } \} } \\ { - \infty , } & { { \mathrm { i f ~ } } j > i } \end{array} \right. 这里， $M_{ij}^{\mathrm{hybrid}}$ $M_{ij}^{hybrid}$ 表示在位置 $i$ $i$ 处计算注意力时，位置 $j$ $j$ 处的 词元 是否可见。
    - 当 $i < j$ 或 $X_i, X_j \in \{\mathrm{U/O/E\mathrm{-}Token}\}$ 时，掩码值为 0，表示 词元 之间可以自由相互关注（双向注意力）。这适用于提示块内部的 U/O/E-Token。
    - 当 $j > i$ 时，掩码值为 $-\infty$ ，表示 词元 只能关注之前的 词元（因果掩码），这适用于生成 I-Token 序列的部分。
  - $U$ 是一个额外的嵌入，用于自适应地调制注意力权重，使其更专注于相关的用户行为。
- 词元感知归一化 (Token-Aware Normalization) 和前馈网络 (FFN)：考虑到不同类型的 词元 具有不同的特性，HSD 模块为每种 词元 类型分配独立的归一化层和 FFN。这些独立的层将不同类型的 词元 投影到它们各自的语义子空间中，从而充分捕获异构序列的语义多样性，减少不同 词元 类型之间的干扰。
- 递归混合策略 (Mixture-of-Recursions, MoR)：引入 MoR 机制 [2]，它可以在不增加额外参数的情况下增加模型的有效深度和推理能力。这有助于模型处理超长用户行为序列时，获得更强的逻辑推理能力。
- 外部知识注入 (External Knowledge Injection)：为了进一步增强推理能力，模型从一个微调 (fine-tuned) 的 大型语言模型 (LLM) 中引入外部知识。LLM 生成关于用户潜在兴趣的文本“思考过程 (thought process)”，然后将其词元化并整合到意图嵌入中，以加强语义理解和推理能力。
渐进式词元解码器 (Progressive Token-wise Decoder, PTD) 在 HSD 生成意图嵌入后，PTD 模块作为次级解码器，采用传统的 Transformer 解码器架构来生成目标物品。尽管意图嵌入包含了用户行为的全面表示，但它们可能包含冗余信息，这可能不利于物品预测的准确性。为了解决这个问题，PTD 模块采用了一种新颖的“思考-精炼-生成 (Thinking-Refining-Generation)”范式来预测下一个物品的语义 ID。
- 思考 (Thinking)：PTD 模块首先利用交叉注意力机制 (cross-attention mechanism)，其中意图嵌入作为键和值。在此基础上，PTD 被强制生成 $K$ 个思考词元 (thinking tokens)。这些 思考词元 旨在从意图嵌入中提炼出关键信息，并过滤掉不相关的组件。
- 精炼 (Refining)：受 LLMs 最近在推理方面研究 [21, 30] 的启发，GPR 通过集成一个精炼模块 (refining module) 来进一步增强 PTD 的认知和生成能力。如 Figure 2 (c) 所示，精炼模块基于扩散范式 (diffusion paradigm) [25] 设计，包含一个噪声生成器和一个建模为马尔可夫链的逆过程。在逆过程中，噪声通过一个带有 Transformer 架构的条件去噪模块迭代地移除。前缀 思考词元 通过 Sum_Pooling 聚合，并作为去噪模块的条件。因此，精炼模块能够精炼初始的推理结果，然后将其传递给下游模块。
- 生成 (Generation)：最终，利用 思考词元 和 精炼词元，PTD 生成一系列语义代码来表示下一个物品。在推理阶段，GPR 进一步利用 Trie 约束的价值引导束搜索 (Trie-Constrained Value-Guided Beam Search) 来高效解码准确的结果。
分层词元评估器 (Hierarchical Token-wise Evaluator, HTE) 与传统的单一目标内容推荐系统不同，在线广告系统必须联合优化用户参与度和平台收入。这需要为每个候选广告预测多个业务指标，包括点击率 (CTR)、转化率 (CVR) 和有效千次展示成本 (eCPM)。为了实现端到端优化，这些多方面的预测必须聚合成一个单一的标量目标，以平衡用户体验和业务目标。GPR 将这个聚合指标称为 final_value，它作为整个系统的主要优化目标。final_value 及其组成部分的详细公式将在强化学习部分（等式 5）提供。

为了实现真正的端到端广告生成解决方案，GPR 在分层模型上构建了一个集成的价值估计模块 HTE，它将生成与价值估计相结合。这个模块有助于生成候选广告，然后估计其 final_value。这种集成、端到端的方法比传统的多阶段系统具有显著优势：它增强了表示和目标层面的一致性 (consistency)，从而缓解了检索和排序阶段之间的冲突。此外，这种方法提高了广告系统的整体计算效率。除了在推理阶段进行价值预测外，HTE 还在后训练 (post-training) 的强化学习阶段作为评论家模型 (critic model)，支持基于价值的优势估计进行策略优化。

4.2.3. 价值引导 `Trie` 树束搜索 (Value-Guided Trie-Based Beam Search)

由 PTD 预测的目标物品语义代码在广告场景中可能无效或次优，例如它们可能映射到实际不存在的物品、地理定向不符合当前用户的物品、预算已耗尽的物品或价值较低的物品。虽然传统的束搜索 (beam search) 结合后过滤和后排序可以移除无效结果并按价值对其他结果进行排序，但这会导致高昂的计算成本和延迟。

因此，GPR 提出了价值引导 Trie 树束搜索 (Value-Guided Trie-Based Beam Search)，它将由用户画像生成的 Trie 树约束和价值估计直接整合到解码步骤中，以早期评估前缀。具体来说：

动态调整束宽度 (beam width)： 根据 HTE 对每个语义代码预测的价值，动态调整束宽度，更高的价值对应于下一个语义代码的更宽的束，以提高潜在收入。
Trie 树剪枝 (Trie Tree pruning)： 通过一个由当前用户画像生成的 Trie 树来剪枝搜索空间。这个 Trie 树是通过应用广告系统中的用户定向策略（根据年龄、性别等属性过滤候选）构建的，因此只包含与用户属性一致的候选，从而实现早期的用户级定向过滤。

4.2.4. 多阶段训练 (Multi-Stage Training)

GPR 模型采用三阶段训练方案 (three-stage regimen)，专为稀疏信号、多业务目标和动态物品空间的广告推荐场景设计。首先，预训练 (pretraining) 阶段使用多词元预测 (Multi-Token Prediction, MTP) 来捕获全局、多兴趣的用户模式。接着，对齐阶段 (alignment stage) 引入价值感知 MTP 损失 (value-aware MTP loss)，通过对更高价值的物品进行重新加权更新，使优化与业务优先级对齐。最后，在仿真环境中，强化学习 (reinforcement learning) 结合 HEPO 算法，实现超越日志曝光的探索，并在分布偏移 (distribution shift) 下发现未被充分服务但高价值的候选。

下图（原文 Figure 4）展示了 GPR 的训练流程：

Figure 4: Training Pipeline of GPR. 该图像是GPR的训练流程示意图，展示了多阶段联合训练策略，包括多标记预测（MTP）、关注价值的微调及使用HEPO的强化学习。通过这种方法，GPR实现了用户意图建模与广告生成的高效整合。

Figure 4: Training Pipeline of GPR.

预训练与多词元预测 (Pre-training with Multi-Token Prediction) 预训练阶段旨在在稀疏交互信号（与密集的有机流量不同）下，将广告场景知识注入 GPR，并针对全局、多兴趣用户建模。用户通常会并行追求多个兴趣线索；此阶段的目标是联合且连贯地表示这些线索。GPR 使用来自腾讯广告平台的大规模工业语料库，涵盖一年内数亿匿名用户的广告交互（展示、点击、转化）和有机互动。对于每个用户，使用统一的四 词元 模式 (U/O/E/I-Token 如第 2.1 节所述) 构建按时间顺序排列的序列。

物品（广告）被编码为 $L$ 个粗到细的语义代码，这些代码通过残差向量量化获得，提供了物品语义的分层紧凑表示。作为基线，下一个词元预测 (next-token prediction, NTP) 以用户历史和上下文为条件预测后续代码。虽然 NTP 对单路径动态有效，但它隐含地假设了主导兴趣轨迹，并倾向于对并行兴趣进行平均，从而限制了在广告场景中的覆盖范围。为了捕获多个并发兴趣，如 Figure 4 (a) 所示，GPR 采用 MTP [7]，通过将解码器扩展为 $N$ 个并行头 (heads)（默认 $N=4$ ）。每个头独立地预测一个兴趣维度的完整 $L$ 级代码路径，使用相同的骨干状态但独立的投影层。这种设计实现了并发建模而没有相互干扰，并通过每个头上的掩码解码 (masked decoding) 保持了层级合法性。

预训练目标聚合每个头、每个层级的似然，并使用单纯形约束的头权重 (simplex-constrained head weights) $\omega_j (\sum_j \omega_j = 1)$ ，自适应调整以优先处理高质量的兴趣线索： $\boldsymbol { L } _ { \mathrm { M T P } } = - \sum _ { j = 1 } ^ { N } \sum _ { t = 1 } ^ { T } \sum _ { \ell = 1 } ^ { L } \omega _ { j } ^ { H } \cdot \log P _ { j } \left( I _ { j , t , \ell } \mid S , C , I _ { j , t , 1 : \ell - 1 } \right) ,$ 其中：
- $I _ { j , t , \ell }$ 表示头 $j$ 在位置 $t$ 处发出的第 $\ell$ 个语义代码。
- $P _ { j } ( \cdot )$ 是在给定层级的合法集上的掩码条件概率。
- $S$ 表示序列历史。
- $C$ 表示上下文特征。
- $I _ { j , t , 1 : \ell - 1 }$ 表示在位置 $t$ 处，头 $j$ 已生成的从第 1 级到第 $\ell-1$ 级的语义代码。
- $\omega _ { j } ^ { H }$ 是头 $j$ 的权重，反映了其兴趣线索的质量，初始设置为 $1/N$ ，后续阶段会根据下游监督进行调整。
  
  这个目标产生了一个编码广泛、解耦兴趣结构的骨干网络，为后续的业务对齐和强化学习提供了稳定的基础。
价值感知微调 (Value-Aware Fine-Tuning, VAFT) 此阶段旨在通过将动作价值和 eCPM 意识注入 MTP 框架，弥合多兴趣预训练与变现目标之间的鸿沟，使模型在保持相关性的同时优先考虑高价值广告。虽然香草型 MTP 对于多兴趣捕获有效，但它与广告目标并不一致：(i) 它对经济价值差异很大的广告赋予相同的损失权重，可能导致低 eCPM 的长尾物品主导梯度；(ii) 它对动作类型（展示、点击、转化）一视同仁，忽略了它们的层次业务价值（转化 > 点击 > 展示）。

GPR 引入了一个每头、每位置权重 (per-head, per-position weight) $\omega _ { j , t } ^ { V }$ ，它通过结合动作类型和广告的 eCPM 来编码业务价值，如 Figure 4 (b) 所示。这个权重根据其价值层级区分动作（转化 > 点击 > 展示），并按归一化的 eCPM 进行缩放，以避免幅度失真和来自预训练的虚假 $\omega _ { j } ^ { H }$ （预训练的 $\omega _ { j } ^ { H }$ 优先处理高质量的兴趣线索）。价值对齐的 MTP 损失将头重要性和动作/eCPM 权重相乘： $L _ { \mathrm { e C P M - M T P } } = - \sum _ { j = 1 } ^ { N } \sum _ { t = 1 } ^ { T } \sum _ { \ell = 1 } ^ { L } \left( \omega _ { j } ^ { H } \omega _ { j , t } ^ { V } \right) \log P _ { j } \left( I _ { j , t , \ell } \mid S , C , I _ { j , t , 1 : \ell - 1 } \right) ,$ 其中，复合权重 $\omega _ { j } ^ { H } \omega _ { j , t } ^ { V }$ 将头级兴趣质量与位置级业务价值相结合，使更新偏向高 eCPM 动作，同时保留多兴趣覆盖。

\omega _ { j , t } ^ { V } $\text{使用经过校准或归一化的}$ eCPM`，带有单调变换、可选的剪裁以减轻异常值，以及固定的动作类型系数以强制执行价值层级。这产生了稳定的梯度，避免了对稀有峰值的过度加权，并改善了与收入目标的对齐。

     $\omega _ { j , t } ^ { V }$  的分母设置为与广告业务价值（转化 `>` 点击 `>` 展示）对齐，如下所示：
    *   **展示 (Impression)**  $( i = 1 )$ ：分母 (Denominator)  $= 1 \rightarrow \omega _ { j , t } ^ { V } \propto \text{eCPM}$  (基本收入贡献)。
    *   **点击 (Click)**  $( i = 2 )$ ：分母 (Denominator)  $= \text{pCTR} \rightarrow \omega _ { j , t } ^ { V } \propto \frac { \text{eCPM} } { \text{pCTR} }$  (奖励高点击质量的广告)。
    *   **转化 (Conversion)**  $( i = 3 )$ ：分母 (Denominator)  $= \text{pCTR} \times \text{pCVR} \rightarrow \omega _ { j , t } ^ { V } \propto \frac { \text{eCPM} } { \text{pCTR} \times \text{pCVR} }$  (优先考虑驱动实际转化的广告)。
        这里，`pCTR` 是预测点击率 (predicted Click-Through Rate)，`pCVR` 是预测转化率 (predicted Conversion Rate)。

*   **后训练与分层增强策略优化 (Post-training with HEPO)**
    **监督预训练 (Supervised pretraining)** 通过从历史曝光和互动日志中学习，奠定了坚实的基础，但**仅似然训练 (likelihood-only training)** 存在固有限制：日志数据提供的动作覆盖范围有限。模型只观察由历史策略生成的序列，许多可能的高价值替代方案未被探索。如果没有**反事实评估 (counterfactual evaluation)**，策略将受限于模仿过去的决策，而非发现更优的策略。**强化学习 (Reinforcement learning)** 通过构建一个高保真仿真环境来解决这一限制，该环境能够对策略生成的序列进行反事实评估，将动作支持扩展到历史分布之外，并允许模型在部署前探索新的候选广告。

    在生成式推荐的设置中，**状态 (state)**  $s$  包括用户的交互历史、上下文信号（如设备、时间、场景）、已发出的多级代码以及级别特定的合法掩码。**动作 (action)**  $a$  是由  $L$  级解码器（粗到细）产生的层次决策：在每个级别，策略从该级别的合法候选集中选择一个量化代码，最终级别解析为要曝光的具体广告。奖励被分配给决定曝光的最终解码步骤，并对早期级别施加可选的轻微整形（相同信号的小部分）以保留粗级别意图。**情节 (episode)** 对应于单个请求或会话，在单次曝光情况下，在最终级别决策后立即结束。

    `GPR` 模型包含一个**异构序列解码器 (HSD)**，它从用户上下文  $s$  产生意图嵌入  $h = \mathrm{HSD}_{\theta}(s)$ 。**渐进式词元解码器 (PTD)** 执行分层解码以在每个级别  $\ell$  生成语义 `词元`  $z_\ell$  的动作概率  $\pi_\theta(\boldsymbol{z}_\ell)$ ，其中  $\theta$  包含 `HSD` 和 `PTD` 的参数。**分层 `eCPM` 估计塔 (Hierarchical Tower for eCPM estimation, HTE)** 在 `RL` 训练中作为价值函数  $V_\phi$ ，计算预期回报  $\boldsymbol{v}_\ell = V_\phi(s, z_{1:\ell-1})$ ，其中  $z_{1:\ell-1} = \{ z_1, \dots, z_{\ell-1} \}$  表示在早期级别选择的 `词元`。价值函数作用于 `stopgrad` `(h)`，确保价值梯度不更新骨干网络并保持训练稳定性。

    *   **仿真环境奖励生成 (Reward Generation with simulation environment)**：
        强化学习需要为策略生成的每个候选序列提供奖励信号，但在实时评估所有候选的生产排序模型在计算上是禁止的，并且会导致不可接受的服务延迟。相反，`GPR` 构建了一个高保真仿真环境，用于离线奖励评估，该环境复制了生产服务系统。仿真环境基于小滞后捕获的生产快照构建，保留了包括检索索引、特征处理管道和业务约束规则在内的完整基础设施。它集成了两种更新频率不同的模型：`pCTR/pCVR` 排序模型直接从生产复制以确保奖励保真度，而 `GPR` 策略模型则定期从训练管道推送以评估不断演变的策略。

        对于每个用户请求上下文  $s$ ，仿真器使用部署的 `GPR` 模型执行束搜索以生成  $K$  个候选广告（通常  $K=40$ ），其中每个候选通过  $L$  级语义 `ID` 的分层解码获得。每个候选由排序模型评估以获得其预测奖励：

    \begin{array} { r l } & { R = \mathsf { f i n a l \_ v a l u e } ( s , \{ z _ { \ell } \} _ { \ell = 1 } ^ { L } ) } \\ & { \quad = \mathsf { e C P M } ( s , \{ z _ { \ell } \} _ { \ell = 1 } ^ { L } ) + \displaystyle \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \alpha _ { i } \mathrm { t a r g e t } _ { i } ( s , \{ z _ { \ell } \} _ { \ell = 1 } ^ { L } ) , } \end{array}

其中：
        *    $\{ \boldsymbol { z } _ { \ell } \} _ { \ell = 1 } ^ { L }$  表示唯一标识此候选的 `词元` 序列。
        *    $\mathsf{eCPM}$  是预测的有效千次展示成本。
        *    $\mathrm{target}_i$  是辅助目标，如 `pCTR` 和 `pCVR`。
        *    $\alpha_i$  是辅助目标的权重。
            仿真环境记录每个解码级别处的生成概率  $\pi _ { \theta _ { \mathrm { o l d } } } ( z _ { \ell } )$ ，这些概率作为**行为策略概率 (behavior policy probabilities)** 用于**离策略校正 (off-policy correction)**。

    *   **分层过程奖励 (Hierarchical Process Rewards, HEPO)**：
        当奖励仅在最终曝光级别分配时，中间的分层决策不会收到直接反馈信号。这产生了**信用分配问题 (credit assignment problem)**：粗级别选择必须完全依赖自举 (bootstrapped) 的价值估计来评估其对最终结果的贡献，导致上层学习信号微弱且方差高。例如，用户对智能手机感兴趣，但拒绝了“A 品牌手机 X 型号”的推荐。如果没有中间奖励，负面终端信号会统一影响所有级别，错误地降低“手机”类别的概率，尽管用户有真正的兴趣——错误在于品牌级别，而非类别级别。为了解决这个问题，`GPR` 提出了 `HEPO` (Hierarchical Enhanced Policy Optimization)，它构建**过程奖励 (process rewards)**，利用用户特定的偏好模式在每个分层级别提供直接的监督信号。

        对于每个级别  $\ell$ ，`GPR` 从用户成功的历史交互中推导出**每个词元受欢迎度得分 (per-token popularity score)**  $P_\ell(t) \in [0, 1]$ ，表示 `词元`  $t$  在导致积极结果的推荐中出现的频率。对于在级别  $\ell$  选择的 `词元`  $z_\ell$ ，通过将其受欢迎度与所有合法候选 `词元`  $S_\ell$  的平均受欢迎度进行比较，计算出**偏好信号 (preference signal)**：

    \Delta _ { \ell } = P _ { \ell } ( z _ { \ell } ) - { \frac { 1 } { | S _ { \ell } | } } \sum _ { t \in S _ { \ell } } P _ { \ell } ( t ) .

其中：
        *    $z_\ell$  是在级别  $\ell$  选择的 `词元`。
        *    $S_\ell$  是级别  $\ell$  的所有合法候选 `词元` 集合。
        *    $|S_\ell|$  是合法候选 `词元` 的数量。
            基线减法确保当所有候选具有相同受欢迎度时信号为零均值，防止系统性偏差。每个级别的**步奖励 (step reward)** 随后为：

    r _ { \ell } = \left\{ \begin{array} { l l } { \alpha _ { \ell } \operatorname* { m a x } ( 0 , \Delta _ { \ell } ) , } & { \ell < L , } \\ { R , } & { \ell = L , \end{array} \right.

其中：
        *    $R$  是从仿真器获得的终端奖励，如等式 5 所定义。
        *    $\alpha_\ell$  是小的缩放因子，确保过程奖励引导学习而不压倒终端奖励。

    *   **优势与损失 (Advantage and loss)**：
        在中间级别，过程奖励必须通过学习到的价值函数与长期业务结果联系起来，以便在整个层级中进行适当的信用分配。在最终曝光级别，终端奖励在请求之间表现出高方差，使得基于评论家 (critic-based) 的价值估计不稳定。由于曝光决策直接决定了显示的广告并需要稳定的优化，`GPR` 转而使用**请求内  $Z$ -分数归一化 (within-request Z-score normalization)**。对于每个请求，仿真环境生成  $K$  个候选，并通过在此集合内归一化奖励来评估其相对优势。

        对于粗级别  $\ell < L$ ，`GPR` 通过**广义优势估计 (Generalized Advantage Estimation, GAE)** [1] 计算优势，使用等式 7 中的过程奖励。累积回报  $G _ { \ell } = \sum _ { k = 0 } ^ { L - \bar { \ell } } \gamma ^ { k } r _ { \ell + k }$  和时间差分误差  $\delta _ { \ell } = r _ { \ell } + \gamma V _ { \phi } \left( s , z _ { 1 : \ell } \right) - V _ { \phi } \left( s , z _ { 1 : \ell - 1 } \right)$  被计算，其中  $V _ { \phi } ( \cdot )$  是价值函数， $\gamma$  是折扣因子。对于最终级别，对  $K$  个候选应用  $Z$ -分数归一化。每个级别的优势  $A_\ell$  为：

    \begin{array} { r } { A _ { \ell } = \left\{ \begin{array} { l l } { \sum _ { l = 0 } ^ { L - \ell - 1 } ( \gamma \lambda ) ^ { l } \delta _ { \ell + l } , } & { \ell < L , } \\ { } \\ { \frac { R - \mu _ { K } } { \sigma _ { K } + \epsilon } , } & { \ell = L , } \end{array} \right. } \end{array}

其中：
        *    $\lambda$  控制 `GAE` 的偏差-方差权衡。
        *    $R$  是等式 5 中的终端奖励。
        *    $\mu_K$  和  $\sigma_K$  是在  $K$  个候选上计算的均值和标准差。
        *    $\epsilon$  是一个小的常数，用于数值稳定性。

            参数为  $\theta$  的策略模型通过最小化以下损失进行更新：

    \mathcal { L } _ { \theta } = \mathbb { E } \Bigg [ \sum _ { \ell = 1 } ^ { L } c _ { \ell } \operatorname* { m i n } \Big ( \rho _ { \ell } A _ { \ell } , \mathrm { c l i p } ( \rho _ { \ell } , 1 - \epsilon , 1 + \epsilon ) A _ { \ell } \Big ) \Bigg ] ,
     $\text{其中：} * $c_\ell$ \text{是每个级别的权重因子。} * $\rho _ { \ell } = \pi _ { \theta } ( z _ { \ell } ) / \pi _ { \theta _ { \mathrm { o l d } } } ( z _ { \ell } )$ \text{是}<strong>\text{重要性采样比率} (importance ratio)</strong>\text{。} * $\pi _ { \theta _ { \mathrm { o l d } } }$ \text{是在仿真中用于采样的行为策略。} * $\mathrm{clip}(\cdot)$ \text{函数用于将重要性比率} $\rho_\ell$ \text{裁剪在} $[1-\epsilon, 1+\epsilon]$ \text{范围内，以稳定策略更新（类似于} PPO \text{算法）。} \text{价值函数通过所有级别上的均方误差进行训练：}$ 
    \mathcal { L } _ { \phi } = \mathbb { E } \left[ \sum _ { \ell = 1 } ^ { L } ( V _ { \phi } ( s , z _ { 1 : \ell - 1 } ) - G _ { \ell } ) ^ { 2 } \right] .

*   **预期请求预演 (Anticipatory Request Rehearsal, ARR)**：
        广告生态系统是高度动态的：用户兴趣不断演变，优质创意库存每日都在变化。一个仅凭历史数据训练的模型有被动而非主动的风险。为了实现**预期适应 (anticipatory adaptation)**，`GPR` 引入了 `ARR`，它生成合成训练样本以近似用户的未来请求状态。

        `ARR` 不使用陈旧的历史上下文，而是根据每个用户的当前状态构建合成请求，以更好地近似他们下一次实际交互。采样频率适应用户活动模式：对于高活动用户，在高峰期每 2 小时生成一次合成样本，非高峰期每 4 小时一次；对于低活动用户，间隔按其请求率成比例调整。每个合成请求按以下方式从用户的当前状态构建：
        *   **有机词元 (`Organic token`)：** 使用用户最近查看的有机内容（包括短视频和文章）重建，以反映不断演变的兴趣。
        *   **用户词元 (`User token`)：** 对于高活动用户，直接重用上一个请求的特征，因为其个人资料特征在短时间内保持稳定。
        *   **环境词元 (`Environment token`)：** 实时查询，包括预测的广告位置、投放类型和隐私设置，以捕获最新的系统状态。
            这些合成样本与仿真环境中的观察样本处理方式相同：部署的 `GPR` 模型生成候选，排序模型评估它们，并按照标准程序计算优势。

# 5. 实验设置

## 5.1. 数据集
实验使用了来自腾讯广告平台的大规模语料库，该语料库包含了广告和有机媒体（如短视频、社交动态和新闻）数据。
*   **来源与规模：** 语料库涵盖了为期一年的匿名用户交互数据，涉及数亿用户和数千万动态广告。
*   **特点：** 数据包含异构的多模态信号，例如文本元数据（标题、标签、描述）和视觉内容（缩略图和采样帧），这些信号在物品和会话层面进行了对齐。
*   **预处理：** 对近乎重复的样本进行了过滤以减少冗余，并对类别分布进行了平衡以限制采样偏差。
*   **划分：** 语料库被划分为 80% 的训练集和 20% 的测试集。

## 5.2. 评估指标
对论文中出现的每一个评估指标，详细说明其概念定义、数学公式和符号解释。

*   **Collision Rate (冲突率)**
    1.  **概念定义：** `Collision Rate` 衡量量化模型将不同原始数据点映射到同一个离散编码（`code`）的频率。较低的冲突率表示模型能更好地区分不同项，从而生成更独特的语义 `ID`。
    2.  **数学公式：**

    \text{Collision Rate} = \frac{\text{Number of items mapped to identical codes}}{\text{Total number of items}}

3.  **符号解释：**
        *   `Number of items mapped to identical codes`：表示被映射到相同 `semantic ID` 的项的数量。
        *   `Total number of items`：表示总的项的数量。

*   **Code Usage Rate at level 1 (CUR`_{L1}`) (第一层代码使用率)**
    1.  **概念定义：** `CUR`_{L1}`` 衡量量化模型在第一层 `codebook` 中实际使用了多少个不同的 `code`。较高的使用率表明 `codebook` 的利用效率高，没有出现“死代码”问题，即所有 `code` 都被有效地学习和使用。
    2.  **数学公式：**

    \text{CUR}_{L1} = \frac{\text{Number of active codes at level 1}}{\text{Total number of codes at level 1}}

3.  **符号解释：**
        *   `Number of active codes at level 1`：表示在第一层 `codebook` 中至少被使用过一次的 `code` 的数量。
        *   `Total number of codes at level 1`：表示第一层 `codebook` 中所有 `code` 的数量。

*   **Path Average Similarity (PAS) (路径平均相似度)**
    1.  **概念定义：** `PAS` 衡量那些被量化到相同 `semantic ID` 的项，其原始嵌入向量之间的语义相似度。较高的 `PAS` 表示量化出的 `semantic ID` 具有更好的语义一致性，即被分到同一 `semantic ID` 的项在语义上确实是相似的。
    2.  **数学公式：**

    \text{PAS} = \frac{1}{|\mathcal{C}|} \sum_{c \in \mathcal{C}} \left( \frac{1}{|I_c|(|I_c|-1)/2} \sum_{i,j \in I_c, i \neq j} \text{similarity}(\mathbf{e}_i, \mathbf{e}_j) \right)

3.  **符号解释：**
        *    $\mathcal{C}$ ：表示所有 `semantic ID` 的集合。
        *    $c$ ：集合  $\mathcal{C}$  中的一个 `semantic ID`。
        *    $I_c$ ：表示被映射到 `semantic ID`  $c$  的所有项的集合。
        *    $|I_c|$ ：集合  $I_c$  中项的数量。
        *    $\mathbf{e}_i, \mathbf{e}_j$ ：分别表示项 `i, j` 的原始嵌入向量。
        *    $\text{similarity}(\cdot, \cdot)$ ：表示衡量两个嵌入向量相似度的函数（例如余弦相似度）。

*   **HitRate@100 (命中率@100)**
    1.  **概念定义：** 在推荐系统中，`HitRate@K` 衡量模型生成的前  $K$  个推荐项中，真实用户所交互的项（或目标项）出现的频率。`HitRate@100` 表示在模型给出的 `top-100` 推荐中，目标项被命中的比例。这个指标用于评估模型的召回能力。
    2.  **数学公式：**

    \text{HitRate@K} = \frac{\text{Number of users for whom the ground-truth item is in top K}}{\text{Total number of users}}

3.  **符号解释：**
        *    $K$ ：通常为 100，表示推荐列表的长度。
        *   `Number of users for whom the ground-truth item is in top K`：表示真实交互项出现在 `top K` 推荐列表中的用户数量。
        *   `Total number of users`：表示总用户数量。

*   **nDCG (Normalized Discounted Cumulative Gain) (归一化折损累计增益)**
    1.  **概念定义：** `nDCG` 是衡量推荐列表质量的指标，尤其关注列表中项的相关性及其位置。它通过折扣累计增益（`DCG`）来加权不同位置的相关性，并用理想排序的 `DCG` (`IDCG`) 进行归一化，使得 `nDCG` 值介于 0 到 1 之间，数值越高表示推荐效果越好。
    2.  **数学公式：**

    \text{DCG}_p = \sum_{i=1}^{p} \frac{2^{\text{rel}_i}-1}{\log_2(i+1)}
    
    \text{IDCG}_p = \sum_{i=1}^{p} \frac{2^{\text{rel}_i^{\text{ideal}}}-1}{\log_2(i+1)}
    
    \text{nDCG}_p = \frac{\text{DCG}_p}{\text{IDCG}_p}

3.  **符号解释：**
        *    $p$ ：表示推荐列表的长度。
        *    $\text{rel}_i$ ：表示在模型推荐列表中，位置  $i$  处项的相关性得分。
        *    $\text{rel}_i^{\text{ideal}}$ ：表示在理想排序（最相关项排在最前面）中，位置  $i$  处项的相关性得分。

*   **OPR (Ordered Pair Ratio) (排序对比例)**
    1.  **概念定义：** `OPR` 衡量推荐列表中所有可能的项对中，有多少对的相对顺序与真实（或理想）的顺序一致。它评估模型在捕获相对偏好方面的准确性，即模型是否能正确地将更“好”的项排在更“差”的项之前。
    2.  **数学公式：**

    \text{OPR} = \frac{\sum_{(i,j) \in P} \mathbb{I}(\text{rank}(i) < \text{rank}(j) \text{ and } \text{ideal\_rank}(i) < \text{ideal\_rank}(j))}{\sum_{(i,j) \in P} \mathbb{I}(\text{ideal\_rank}(i) < \text{ideal\_rank}(j))}
     $3. **\text{符号解释：}** * $P$\text{：表示所有项对的集合。} * $\text{rank}(i)$\text{：表示项} $i$ \text{在模型推荐列表中的排名。} * $\text{ideal\_rank}(i)$\text{：表示项} $i$ \text{在理想排序中的排名。} * $\mathbb{I}(\cdot)$\text{：是指示函数，当括号内的条件为真时，值为} 1\text{；否则为} 0\text{。} * <strong>GMV (Gross Merchandise Volume) (\text{总商品交易额})</strong> 1. **\text{概念定义：}** \text{在电商或广告平台中，指在特定时期内所有通过平台完成的商品销售总额。它是衡量平台业务规模和经济效益的核心指标，直接反映了平台的收入能力。} 2. **\text{数学公式：}**$ 
    \text{GMV} = \sum_{\text{all transactions}} (\text{Price of item} \times \text{Quantity of item})

3.  **符号解释：**
        *   `Price of item`：表示售出商品的单价。
        *   `Quantity of item`：表示售出商品的数量。

*   **Costs (广告成本)**
    1.  **概念定义：** 在广告投放中，指广告主为广告曝光、点击或转化所支付的总费用。它反映了广告投放的经济投入，也是平台收入的一部分。
    2.  **数学公式：**

    \text{Costs} = \sum_{\text{all ads shown}} \text{Cost per interaction}

3.  **符号解释：**
        *   `Cost per interaction`：表示每次广告展示、点击或转化所产生的费用（具体取决于计费模式，如 `CPM`, `CPC`, `CPA`）。

*   **CTCVR (Click-Through Conversion Rate) (点击转化率)**
    1.  **概念定义：** `CTCVR` 衡量用户从点击广告到完成转化行为（如购买、注册）的综合效率。它通常被定义为点击率 (`CTR`) 和转化率 (`CVR`) 的乘积，更全面地反映了广告的整体效果，因为它同时考虑了吸引用户点击的能力和引导用户转化的能力。
    2.  **数学公式：**

    \text{CTCVR} = \text{CTR} \times \text{CVR}
    \$\$
3.  **符号解释：**
    *   `CTR` (Click-Through Rate)：点击率，即点击数/曝光数。
    *   `CVR` (Conversion Rate)：转化率，即转化数/点击数。

5.3. 对比基线

多模态词元化性能评估 (Section 4.1)：
- RQ-VAE [16]：标准的离散词元化模型，容易出现死代码问题。
- RQ-Kmeans [20]：使用 K-means 进行初始化的词元化模型，但缺乏 VAE 式的优化。
用户行为建模性能评估 (Section 4.2)：
- HSTU [34]：基于 decoder-only 架构的生成式推荐模型，用于处理超长用户历史。
- OneRec [40]：encoder-decoder 架构的统一推荐模型，能够摄入非纯序列输入并聚合更丰富的特征视图。
业务对齐性能评估 (Section 4.3)：
- MTP (base)：基线多词元预测模型，仅使用均匀的头部/位置权重进行似然训练。
- MTP+VAFT：在 MTP 基础上，使用价值感知因子对每个位置的 MTP 损失进行重新加权。
- MTP+DPO [23]：在 MTP 基础上，采用基于偏好的微调方法，学习在预测奖励下构建的成对排序。
在线性能评估 (Section 4.4)：
- 成熟的多阶段级联系统 (Mature multi-stage cascade)： 部署在微信视频号广告系统中的，包含多种检索方法和定制策略的高度优化系统。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 多模态词元化性能

以下是原文 Table 1 的结果：

Model	Collision (%)↓	CURL1 (%)↑	PAS↑
RQ-VAE	23.21	92.13	0.985
RQ-Kmeans	21.40	100	0.986
RQ-KMeans+ (Ours)	20.60	99.36	0.992

Table 1: Performance of Different Tokenizers

分析： Table 1 展示了 RQ-KMeans+ 在词元化质量方面的优越性。

RQ-KMeans+ 取得了最低的冲突率 (Collision Rate)，为 20.60%，相较于 RQ-VAE (23.21%) 相对降低了 11.2%，相较于 RQ-Kmeans (21.40%) 相对降低了 3.7%。这表明 RQ-KMeans+ 能够更好地将不同的物品映射到唯一的语义 ID，减少了语义混淆。
RQ-KMeans+ 的第一层代码使用率 (Code Usage Rate at level 1, CUR_{L1}) 达到了 99.36%，接近 RQ-Kmeans 的 100%，并比 RQ-VAE 高出 7.2 个百分点。这说明 RQ-KMeans+ 在降低冲突率的同时，并没有牺牲码本的利用效率，有效避免了“死代码”问题。
最重要的是，RQ-KMeans+ 的路径平均相似度 (Path Average Similarity, PAS) 达到了 0.992，高于 RQ-VAE (0.985) 和 RQ-Kmeans (0.986)。这表明，即使在发生冲突的情况下，RQ-KMeans+ 也能将语义上更连贯的物品分到相同的语义 ID 下。

这些结果综合证明，RQ-KMeans+ 能够生成高质量的语义 ID，这些 ID 不仅利用率高，冲突少，而且在语义上更具一致性，为后续的生成式模型提供了更坚实的基础。

6.1.2. 用户行为建模性能

以下是原文 Table 2 的结果：

Model	HitR@100 (%)	Δ vs. HSTU
Baselines
HSTU (Decoder-only)	18.98
OneRec (Encoder-Decoder)	19.85	+4.6%
HSD
+ Hybrid Attention	20.56	+8.3%
+ Token-Aware FFN	21.98	+15.8%
+ Token-Aware Layer Norm	20.76	+9.4%
+ Mixture of Recursions	20.09	+5.9%
+ External Knowledge	20.13	+6.1%
PTD
+ Thinking	21.75	+14.6%
+ Refining	19.61	+3.3%
HTE
+HTE	19.91	+4.9%
Training
+ Multi-Token Prediction	22.38	+17.9%
GPR (Full)
+ All (HSD+PTD+HTE)	27.32	+43.9%

Table 2: HHD Architecture Study

分析： Table 2 展示了 GPR 及其各组件在用户行为建模性能上的表现，以 HitRate@100 作为评估指标。

基线对比： Full GPR 达到了 27.32% 的 HitR@100，相对于 HSTU (18.98%) 取得了 $+43.9%$ 的相对提升，相对于 OneRec (19.85%) 取得了 $+37.6%$ 的提升。这表明 GPR 在处理长序列、异构用户行为并预测下一个交互项方面具有显著优势。OneRec 略优于 HSTU，原因在于其能够整合更丰富的特征视图，而不仅仅是严格的自回归序列输入。
消融实验 (Ablations) 分析：
- HSD 组件的贡献：
  - Hybrid Attention：引入混合注意力机制，使得非生成性前缀能够进行双向注意力，带来了 $+8.3%$ 的相对提升，表明其在捕获上下文信息方面的有效性。
  - Token-Aware FFN：词元感知前馈网络将不同类型词元投影到各自语义子空间，贡献了最大的单项提升 $+15.8%$ ，说明其有效减少了跨类型干扰。
  - Token-Aware Layer Norm：词元感知层归一化带来了 $+9.4%$ 的提升，进一步印证了处理异构词元特性的重要性。
  - Mixture of Recursions：递归混合策略通过共享参数增加了模型的有效深度和推理能力，贡献了 $+5.9%$ 的提升。
  - External Knowledge：从 LLM 注入“思考过程”词元，进一步丰富了意图表示，带来了 $+6.1%$ 的提升。
- PTD 组件的贡献：
  - Thinking：隐式思考机制强制进行多步潜在精炼，带来了 $+14.6%$ 的显著提升，表明其能有效从意图嵌入中提炼关键信息。
  - Refining：精炼模块进一步优化了推理结果，带来了 $+3.3%$ 的提升。
- HTE 组件的贡献：
  - $+HTE$ ：引入分层词元评估器，使 HitR@100 达到 19.91%，相对提升 $+4.9%$ 。这表明显式价值预测能够锐化候选排序，并为下游拍卖更好地准备生成系统。
- Training 策略的贡献：
  - Multi-Token Prediction：多词元预测策略捕获并行兴趣，提供了最大的单项提升 $+17.9%$ ，有力支持了多线程兴趣假设。
GPR (Full) 组合效果： 当所有 HSD、PTD 和 HTE 组件以及 Multi-Token Prediction 训练策略全部启用时，GPR 实现了 27.32% 的 HitR@100，相对于 HSTU 提升高达 43.9%。这证明了 GPR 各项创新组件的协同作用，共同构建了一个强大的生成式推荐框架。

6.1.3. 伸缩性 (Scaling)

下图（原文 Figure 5）展示了六种不同 GPR 参数大小的损失曲线对比：

Figure 5: Comparison of loss curves for six different GPR parameter sizes. 该图像是图表，展示了六种不同GPR参数大小的损失曲线对比。横轴表示训练步数，纵轴表示损失值，曲线清晰揭示了不同参数设置下的模型训练效果。

Figure 5: Comparison of loss curves for six different GPR parameter sizes.

分析： Figure 5 展示了 GPR 在不同参数规模（从 0.02B 到 2B）下的训练损失演变。结果清晰地表明了稳健的缩放法则 (robust scaling law)：随着模型参数数量的增加，模型在训练过程中始终能达到更低的损失值。这意味着 GPR 具有良好的可伸缩性，通过扩大模型规模能够持续提升性能。值得注意的是，与典型的大型语言模型 (LLMs) 不同，GPR 的总规模主要由稀疏参数（总计约 80B）主导，这在推荐系统中是常见的。这一实证观察验证了通过扩展模型规模来增强性能的巨大潜力。

6.1.4. 业务对齐性能

以下是原文 Table 3 的结果：

Model	nDCG	OPR	Avg final_value	Max final_value
Pretraining & Fine-tuning
MTP (base)	0.3868	0.5292	0.2412	0.6201
+ VAFT	0.3925	0.5348
Post-training
+ DPO	0.4383	0.5463	0.2442	0.6659
+ HEPO	0.4413	0.5509	0.2630	0.7619

Table 3: Training & Alignment Study

分析： Table 3 评估了 GPR 联合训练策略（MTP 预训练、eCPM 感知微调和 HEPO）对业务变现对齐的改进。

MTP (base) vs. + VAFT： 相较于基线 MTP，引入 Value-Aware Fine-Tuning (VAFT) 后，nDCG 从 0.3868 提升到 0.3925，OPR 从 0.5292 提升到 0.5348。VAFT 通过使用动作类型和归一化 eCPM 对损失进行重新加权，将学习方向转向高价值的展示，同时保持了相关性。虽然表格中未直接显示 Avg final_value 和 Max final_value 的具体数值，但 nDCG 和 OPR 的提升已表明其在排序质量和偏好捕获上有所改进。
$+ DPO$ vs. + HEPO：
- $MTP+DPO$ ：采用 Direct Preference Optimization (DPO) 进行微调，通过优化成对偏好（倾向于在匹配上下文中高价值的物品），进一步提高了 nDCG 至 0.4383，标准化平均 final_value 从 0.2412 增加到 0.2442，最大 final_value 从 0.6201 增加到 0.6659。这表明 DPO 有效地锐化了局部排序。
- $MTP+HEPO$ ：进一步超越了 DPO，实现了 0.4413 的 nDCG 和 0.5509 的 OPR。更显著的是，其平均 final_value 提升到 0.2630，最大 final_value 达到 0.7619。这意味着 HEPO 算法，特别是通过仿真环境中的反事实探索和分层过程奖励，能够更有效地将监督与序列级奖励对齐，并发现更高价值的候选广告，从而在业务对齐方面取得了更优异的表现。
  
  这些结果证明了 GPR 的多阶段训练策略，特别是 VAFT 和 HEPO，能够显著提升模型在业务目标（如 eCPM 和 final_value）上的对齐能力，使其更符合广告变现的需求。

6.1.5. 在线性能

以下是原文 Table 4 的结果：

Version	GMV	GMV-Normal	Costs
Launches with incremental changes.
v0.1:HSD+NTP+DPO	+2.11%	+2.42%	+3.29%
v0.2: +HEPO w/o ARR	+0.70%	+0.67%	+0.36%
v0.3: +MTP+Thinking	+0.63%	+0.94%	+0.21%
v0.4: +PTD	+0.71%	+1.04%	+0.12%
v0.5: +HEPO w/ ARR	+0.58%	+0.81%	+0.23%

Table 4: Online A/B Test Results

分析： Table 4 总结了 GPR 在微信视频号广告系统中五次迭代在线 A/B 测试的效果。

v0.1: $HSD+NTP+DPO$ (初始部署)： 首次全面部署的 GPR 版本（包含 HSD、NTP 预训练和 DPO 后训练）建立了基线提升，带来了 $+2.11%$ 的 GMV 增长和 $+3.29%$ 的 Costs 增长。这表明 GPR 的初始版本已经能有效提升业务指标。
v0.2: +HEPO w/o ARR (不含 ARR 的 HEPO)： 第二次大规模发布用 HEPO 替换了 DPO，带来了额外的 $+0.70%$ 的 GMV 增长和 $+0.36%$ 的 Costs 增长。这验证了 HEPO 相对于 DPO 在实际广告场景中的优越性。
v0.3: $+MTP+Thinking$ (加入 MTP 和 Thinking)： 引入 Multi-Token Prediction 和 Thinking 机制，进一步贡献了 $+0.63%$ 的 GMV 增长和 $+0.21%$ 的 Costs 增长。这说明多兴趣建模和深度思考对业务表现的积极影响。
v0.4: $+PTD$ (引入 PTD)： 引入渐进式词元解码器 (PTD) 带来了 $+0.71%$ 的 GMV 增长和 $+0.12%$ 的 Costs 增长。这表明 PTD 的“思考-精炼-生成”范式在实际场景中是有效的。
v0.5: +HEPO w/ ARR (含 ARR 的 HEPO)： 最后，将 HEPO 与预期请求预演 (Anticipatory Request Rehearsal, ARR) 结合，贡献了 $+0.58%$ 的 GMV 增长和 $+0.23%$ 的 Costs 增长。这表明 ARR 能够帮助模型更好地适应动态的广告生态系统，从而带来额外的收益。

总体而言，在所有轮次的测试中，GMV 和 GMV-Normal（针对点击或转化优化的广告，占总 GMV 的大部分）都持续增长，这表明在延迟和稳定性不变的情况下，GPR 实现了更强的变现能力。

以下是原文 Table 5 的结果：

		GMV	CTR	CVR	CTCVR
v0.1		+2.11%	+1.69%	+1.15%	+3.16%
User Group	UG1	+3.56%	+2.51%	+0.82%	+3.72%
	UG2	+3.84%	+2.06%	+1.30%	+3.80%
	UG3	+0.92%	+2.18%	+1.91%	+4.63%
	UG4	+0.45%	+1.08%	+1.53%	+2.87%
	UG5	+3.68%	+0.05%	+0.32%	+0.50%
Ad Group	new	+2.97%	+2.25%	+1.41%	+4.02%
Ad Group	non-new	+1.65%	+1.42%	+1.12%	+2.78%

Table 5: Stratified Analysis of Online A/B Test Results

分析： Table 5 对首次上线版本 (v0.1) 进行了分层分析，展示了在不同用户群和广告群上的表现。

用户群 (User Group) 分析：
- UG1 和 UG2 代表低活跃用户，GPR 在这些群体中取得了强劲的收益。例如，UG1 在 GMV 上提升 $+3.56%$ ，CTR $+2.51%$ ，CVR $+0.82%$ ，CTCVR $+3.72%$ 。这表明 GPR 能够更好地挖掘低活跃用户的潜在价值。
- UG3 和 UG4 代表中等活跃用户，在参与度和效率方面也有所提升。UG3 甚至显示出最大的 CTCVR 提升，达到 $+4.63%$ 。
- UG5 代表高活跃用户，虽然 CTR 和 CVR 变化较小，但 GMV 仍有 $+3.68%$ 的提升，CTCVR 提升 $+0.50%$ 。这表明即使对于重度用户，GPR 也能更好地将流量分配给更高价值的广告。
广告群 (Ad Group) 分析：
- 新上线广告（new，上线 $\leq 3$ 天）的表现优于已上线广告（non-new，上线 $> 3$ 天）。新广告的 GMV 提升 $+2.97%$ ，CTCVR 提升 $+4.02%$ ，而老广告的 GMV 提升 $+1.65%$ ，CTCVR 提升 $+2.78%$ 。这一模式表明 GPR 在冷启动处理方面表现更强，同时也能维持成熟库存的收益。
  
  这些分层分析结果进一步证实了 GPR 在不同用户和广告场景下的泛化能力和鲁棒性，特别是其在处理冷启动和挖掘低活跃用户价值方面的优势。

6.2. 消融实验/参数分析

在 Section 4.2 的用户行为建模性能评估中，Table 2 的消融实验详细验证了 GPR 各组件的有效性：

HSD 模块的组件： Hybrid Attention、Token-Aware FFN、Token-Aware Layer Norm、Mixture of Recursions 和 External Knowledge 都对 HitRate@100 有积极贡献，其中 Token-Aware FFN 贡献最大，其次是 Hybrid Attention。这表明 HSD 在处理异构序列和深度理解用户意图方面的各项创新都是有效的。
PTD 模块的组件： Thinking 机制带来了显著的提升，而 Refining 机制提供了进一步的增益，验证了“思考-精炼-生成”范式的有效性。
HTE 模块： 显式引入价值预测模块 HTE 提升了 HitRate@100，表明业务价值对齐对推荐准确性的积极影响。
Multi-Token Prediction 训练策略： 捕获并行兴趣的 MTP 策略带来了所有组件中最大的单项提升，强调了多兴趣建模在广告场景中的重要性。

这些消融实验证明了 GPR 框架并非单一组件的成功，而是其各个创新模块协同作用的结果。

参数分析 (Scaling)： Figure 5 的缩放实验证实了 GPR 的模型性能与参数量之间存在正相关关系，即模型越大，性能越好（损失越低）。这鼓励了模型在未来进一步扩大规模以获得更高性能的潜力。

7. 总结与思考

7.1. 结论总结

本文提出了 GPR (Generative Pre-trained Recommender)，这是首个将广告推荐任务重构为端到端生成任务的 one-model 框架，成功取代了传统的、存在目标不一致和误差传播问题的多阶段级联范式。GPR 通过在统一表示、网络架构和训练策略三方面的系统性创新，有效解决了工业级推荐系统长期面临的挑战，包括异构数据建模、训练-推理效率权衡以及长期价值优化不足。

具体而言，GPR 的核心贡献包括：

统一的 RQ-Kmeans+ 词元化方法： 有效地将广告和有机内容映射到共享语义空间，克服了数据异构性问题。
异构分层解码器 (HHD)： 采用双解码器架构，通过 HSD 深度理解用户意图，并通过 PTD 的“思考-精炼-生成”范式实现精准广告生成，同时 HTE 整合了价值评估。
多阶段联合训练策略： 整合了 MTP (多兴趣建模)、VAFT (价值对齐) 和 HEPO (强化学习，包含分层过程奖励和 ARR 预演)，全面优化了用户兴趣、业务价值和长期策略。

通过大规模实验和在腾讯微信视频号广告系统中的在线 A/B 测试，GPR 展现出显著的优越性，在 GMV 和 CTCVR 等关键业务指标上取得了显著提升。这清晰地表明 GPR 在实际生产环境中对高度优化和成熟的级联系统具有强大的竞争力。GPR 的成功部署推动了广告推荐系统从分阶段优化向端到端智能决策的转变，使其能够更统一、自适应地理解用户意图，优化长期价值，并持续驱动数字经济生态系统的智能化演进。

7.2. 局限性与未来工作

论文中未明确列出 GPR 的局限性，但从其方法论和工业级应用的复杂性角度，可以推断以下潜在局限性及可能的未来研究方向：

模型复杂度和资源消耗： 作为一个统一的 one-model 框架，GPR 整合了多个复杂模块和多阶段训练策略（包括 LLM 外部知识、扩散模型、强化学习模拟环境），这可能导致模型训练和部署的计算资源需求非常高，维护成本也可能较高。未来的工作可以探索如何优化模型结构和训练流程，以降低资源消耗。
可解释性挑战： GPR 是一个大型生成式模型，其内部决策过程可能不如传统的判别式模型那样直观易懂。在广告场景中，理解推荐理由对于广告主和平台运营都非常重要。未来研究可以探索提升 GPR 推荐结果的可解释性。
冷启动问题： 尽管论文提到 GPR 对新广告的冷启动处理能力较强，但在面对新用户或全新类别的物品时，生成式模型仍可能面临数据稀疏性带来的挑战。未来的工作可以进一步优化冷启动策略。
final_value 的通用性与鲁棒性： 论文中定义的 final_value 是多个业务指标的聚合。这些指标的权重 ( $\alpha_i$ ) 如何设定，以及 final_value 在不同业务场景或市场波动下的鲁棒性如何，都需要更深入的探讨。最佳的价值函数设计对 RL 的效果至关重要。
ARR 样本的质量与偏差： Anticipatory Request Rehearsal (ARR) 生成合成训练样本，这有助于模型适应动态环境。然而，合成样本的质量和其与真实未来请求的偏差程度，可能影响训练效果。未来的工作可以研究更高级的样本生成方法，以减少潜在偏差。
隐私和公平性： 广告推荐系统涉及大量的用户数据，隐私保护和推荐公平性是不可忽视的重要议题。论文中未详细讨论 GPR 在这些方面的表现和策略。未来的工作需要将隐私保护和公平性纳入模型设计和评估框架中。

7.3. 个人启发与批判

个人启发：
- One-Model 范式的巨大潜力： GPR 成功地将广告推荐这一复杂的工业任务统一到一个生成式模型中，有力证明了 one-model 范式在解决传统级联系统痛点（目标错位、误差传播）方面的巨大潜力。这对于其他多阶段机器学习系统也具有借鉴意义。
- 生成式与强化学习的深度融合： GPR 精巧地结合了生成式模型和强化学习，尤其是 HEPO 提出的分层过程奖励和 ARR，有效解决了生成式 RL 中常见的信用分配困难和探索不足问题。这为未来推荐系统乃至其他序列决策任务提供了新的思路。
- 异构数据处理的创新： 面对广告推荐中复杂的异构数据（广告、有机内容、用户、环境），GPR 的统一输入模式、RQ-Kmeans+ 量化和 HSD 中的词元感知机制，提供了一套全面的解决方案，这对于处理多模态、多源信息的系统具有普适性。
- 业务价值深度对齐： Value-Aware Fine-Tuning 和 HTE 模块明确地将商业目标（如 eCPM）融入到模型的训练和生成过程中，确保模型不仅预测用户兴趣，更直接优化平台收入和广告主 ROI，这种深度业务对齐是工业应用成功的关键。
批判：
- 计算复杂性与工业可扩展性： 尽管 GPR 在生产环境中取得了成功，但其所描述的复杂架构（双解码器、扩散精炼、外部 LLM 知识、高保真模拟环境、多阶段 RL）在实际部署和维护方面可能面临极高的计算资源和工程开销。论文对这些挑战的量化（例如，训练和推理的延迟、吞吐量、资源消耗对比）描述较少，这使得其他团队在复现或参考时难以评估其真实成本效益。
- final_value 的主观性与动态性： final_value 的定义涉及到 eCPM 和多个辅助目标 ( $target_i$ ) 的加权。这些权重 $\alpha_i$ 的确定往往依赖于经验和业务策略，可能需要大量人工调整，且在市场环境变化时可能需要动态调整。论文中对这些权重的来源和调整机制描述不详，这可能影响模型在不同场景下的泛化能力和鲁棒性。
- LLM 外部知识的实际增益与成本： 论文提到引入 LLM 生成的“思考过程”以增强语义理解和推理能力。但这种外部知识的引入对 GPR 整体性能的实际贡献（例如，相比于不引入 LLM 的基线有多少提升）以及其带来的计算开销和潜在的偏差风险，可以有更详细的分析。
- MoR 和 Diffusion 模块的详细机制： 论文提到了 Mixture-of-Recursions (MoR) 和基于 diffusion paradigm 的精炼模块，但对其具体实现细节和在推荐场景中的独特优势，可以给出更深入的阐述，以便读者更好地理解其工作原理。
- 对长尾和探索性的影响： 生成式模型有时会倾向于生成高概率的常见物品，从而可能减少对长尾物品的探索。虽然 HEPO 的 RL 探索机制旨在缓解这个问题，但 GPR 对长尾物品的覆盖和新奇性 (novelty) 方面的表现如何，仍值得进一步探讨。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

GPR: Towards a Generative Pre-trained One-Model Paradigm for Large-Scale Advertising Recommendation

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 40 分钟读完 · 22,335 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解 (逐层深入)

4.2.1. 输入模式与处理 (Input Schema and Processing)

4.2.2. 异构分层解码器 (Heterogeneous Hierarchical Decoder, HHD)

4.2.3. 价值引导 Trie 树束搜索 (Value-Guided Trie-Based Beam Search)

4.2.4. 多阶段训练 (Multi-Stage Training)

5.3. 对比基线

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 多模态词元化性能

6.1.2. 用户行为建模性能

6.1.3. 伸缩性 (Scaling)

6.1.4. 业务对齐性能

6.1.5. 在线性能

6.2. 消融实验/参数分析

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐

4.2.3. 价值引导 `Trie` 树束搜索 (Value-Guided Trie-Based Beam Search)