论文状态：已完成

Killing Two Birds with One Stone: Unifying Retrieval and Ranking with a Single Generative Recommendation Model

发表：2025/04/23

价格：0.100000

已有 8 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种统一生成推荐框架（UniGRF），旨在解决推荐系统中检索和排序阶段的信息损失问题。通过将这两个阶段视为序列生成任务，UniGRF实现了信息共享、模型无关性，并引入排序驱动增强模块和动态平衡机制，以优化性能。实验结果显示，UniGRF在各基准数据集上显著优于现有模型。

摘要

In recommendation systems, the traditional multi-stage paradigm, which includes retrieval and ranking, often suffers from information loss between stages and diminishes performance. Recent advances in generative models, inspired by natural language processing, suggest the potential for unifying these stages to mitigate such loss. This paper presents the Unified Generative Recommendation Framework (UniGRF), a novel approach that integrates retrieval and ranking into a single generative model. By treating both stages as sequence generation tasks, UniGRF enables sufficient information sharing without additional computational costs, while remaining model-agnostic. To enhance inter-stage collaboration, UniGRF introduces a ranking-driven enhancer module that leverages the precision of the ranking stage to refine retrieval processes, creating an enhancement loop. Besides, a gradient-guided adaptive weighter is incorporated to dynamically balance the optimization of retrieval and ranking, ensuring synchronized performance improvements. Extensive experiments demonstrate that UniGRF significantly outperforms existing models on benchmark datasets, confirming its effectiveness in facilitating information transfer. Ablation studies and further experiments reveal that UniGRF not only promotes efficient collaboration between stages but also achieves synchronized optimization. UniGRF provides an effective, scalable, and compatible framework for generative recommendation systems.

思维导图

论文精读

中文精读约 40 分钟读完 · 25,582 字

1. 论文基本信息

1.1. 标题

Killing Two Birds with One Stone: Unifying Retrieval and Ranking with a Single Generative Recommendation Model

1.2. 作者

Luankang Zhang (中国科学技术大学)
Kenan Song (华为诺亚方舟实验室)
Yi Quan Lee (华为诺亚方舟实验室)
Wei Guo (华为诺亚方舟实验室)
Hao Wang (中国科学技术大学)
Yawen Li (北京邮电大学)
Huifeng Guo (华为诺亚方舟实验室)
Yong Liu (华为诺亚方舟实验室)
Defu Lian (中国科学技术大学)
Enhong Chen (中国科学技术大学)

1.3. 发表期刊/会议

该论文发布在 arXiv 预印本平台，其发表状态为预印本。arXiv 是计算机科学、物理学、数学等领域重要的预印本库，论文通常在经过同行评审前在此发布，以便快速分享研究成果。

1.4. 发表年份

2025年

1.5. 摘要

在推荐系统 (Recommendation Systems) 中，传统的多阶段范式 (multi-stage paradigm)，如检索 (retrieval) 和排序 (ranking)，常因阶段间的信息损失而导致性能下降。受自然语言处理 (Natural Language Processing, NLP) 领域生成模型 (generative models) 启发，本文提出了一种统一生成推荐框架 (Unified Generative Recommendation Framework, UniGRF)。该框架将检索和排序任务整合到一个单一的生成模型中，通过将两个阶段都视为序列生成任务 (sequence generation tasks)，在不增加额外计算成本的情况下实现充分的信息共享，并保持模型无关性 (model-agnostic)。为了增强阶段间的协作，UniGRF 引入了一个排序驱动增强模块 (ranking-driven enhancer module)，该模块利用排序阶段的精确性来优化检索过程，形成一个增强循环 (enhancement loop)。此外，还集成了一个梯度引导自适应加权器 (gradient-guided adaptive weighter)，用于动态平衡检索和排序的优化，确保同步的性能提升。广泛的实验表明，UniGRF 在基准数据集 (benchmark datasets) 上显著优于现有模型，证实了其在促进信息传输方面的有效性。消融研究 (ablation studies) 和进一步实验揭示，UniGRF 不仅促进了阶段间的有效协作，还实现了同步优化。UniGRF 为生成推荐系统提供了一个有效、可扩展且兼容的框架。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2504.16454
PDF 链接: https://arxiv.org/pdf/2504.16454v1.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

推荐系统在实际工业应用中，为了满足效率要求，通常采用多阶段范式 (multi-stage paradigm)。这个范式一般包括两个主要阶段：

检索 (Retrieval) 阶段： 从海量商品池中高效地筛选出一小部分潜在相关商品，形成一个候选集。这个阶段侧重于效率和召回率 (recall)。
排序 (Ranking) 阶段： 在检索出的候选集内，对商品进行更精确的偏好预测和排序，最终向用户推荐最相关的商品。这个阶段侧重于精确性 (precision)。

然而，这种多阶段设计存在一个核心问题：阶段间的信息损失 (information loss between stages)。由于检索和排序通常使用独立或半独立的模型进行训练，在信息从一个阶段传递到下一个阶段时，可能会丢失重要的上下文信息或引入偏差，从而影响整体推荐性能。

2.1.2. 为什么这个问题很重要

性能瓶颈： 信息损失和偏差传播会导致整个推荐管道的性能下降。
训练复杂性： 为不同阶段分别训练模型，需要独立优化，难以实现全局最优。
数据偏差： 检索阶段产生的候选集可能引入选择偏差 (selection bias)，影响后续排序模型的学习效果。
效率与效果的权衡： 传统的级联框架 (cascade frameworks) 试图连接不同阶段的目标并共同优化，但往往难以有效解决数据偏差和信息损失问题，尤其是在新兴的生成推荐 (generative recommendation) 领域。

2.1.3. 现有研究的挑战与空白

生成模型局限： 尽管生成模型 (generative models) 在推荐系统中取得了显著进展（如 GRU4Rec、SASRec、HSTU 等），但现有方法通常局限于单阶段应用，或需要为每个阶段单独训练模型，这加剧了信息传输中的损失。
传统级联框架不适用性： 现有的一些针对传统推荐模型的级联框架 (cascade frameworks) 试图通过数据或损失视角在阶段间传递信息，但这些方法未能有效解决生成推荐模型中的信息损失和数据偏差问题，也未能实现阶段间的有效协作和同步优化。
统一生成框架的缺失： 缺乏一个能将检索和排序阶段统一到单一生成模型 (generative model) 中，同时解决信息损失、实现高效协作和同步优化的框架。

2.1.4. 本文的切入点与创新思路

受大语言模型 (Large Language Models, LLMs) 在处理多任务方面的成功启发，本文提出了一种统一生成推荐框架 (UniGRF)。其核心创新思路是：

统一建模： 将检索和排序任务整合到一个单一的生成模型中，通过将两者都视为序列生成任务 (sequence generation tasks)，并根据输出位置进行区分，从而实现阶段间的信息共享，减少信息损失。
增强协作： 引入排序驱动增强模块 (ranking-driven enhancer module)，利用排序阶段的高精度来生成高质量样本（例如，难检测的负样本和潜在喜欢项），从而反哺和优化检索阶段，形成一个互增强的循环。
同步优化： 引入梯度引导自适应加权器 (gradient-guided adaptive weighter)，动态监控并调整检索和排序任务的损失权重，以平衡它们的收敛速度，实现同步优化，克服不同任务收敛速度不一致的挑战。

2.2. 核心贡献/主要发现

本文的主要贡献体现在以下几个方面：

首次提出统一生成推荐框架 (UniGRF)： 创造性地探索了构建一个在单一生成模型中统一检索和排序阶段的框架，重点关注阶段间的高效协作和同步优化。据作者所知，这是首次将这两个阶段统一到生成推荐模型中。
开发排序驱动增强模块： 设计了一个排序驱动增强模块 (ranking-driven enhancer module)，以促进阶段间协作。该模块以最小的计算开销高效生成高质量样本，在检索和排序阶段之间建立了一个互增强循环。
引入梯度引导自适应加权器： 提出了一种简单而有效的梯度引导自适应加权器 (gradient-guided adaptive weighter)，实时监控两个阶段的优化速度，动态调整学习权重以实现同步更新，从而使生成模型在这两个阶段都能达到最佳性能。
实验验证与有效性： 在多个基准数据集 (benchmark datasets) 上的广泛实验表明，UniGRF 显著优于最先进的 (state-of-the-art) 基线模型，突出了统一框架的有效性。消融研究和进一步分析证实了 UniGRF 强大的可扩展性以及其在生成推荐中实现多阶段协作和同步优化的能力。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 推荐系统 (Recommendation Systems)

推荐系统旨在通过分析用户的历史交互行为，从海量商品池中识别用户潜在的偏好，并向其推荐可能感兴趣的商品。

3.1.2. 多阶段范式 (Multi-stage Paradigm)

在工业级推荐系统中，由于商品池规模巨大和效率限制，通常将推荐过程拆分为多个顺序阶段。最常见的两个阶段是检索 (retrieval) 和排序 (ranking)。

检索阶段 (Retrieval Stage): 目标是从整个商品池中快速、高效地选出少量（例如几百到几千个）与用户可能相关的候选商品。这一阶段通常使用相对简单的模型，注重召回率 (recall) 和计算效率。
排序阶段 (Ranking Stage): 目标是在检索出的候选集上进行更精细的分析，准确预测用户对每个候选商品的偏好程度（例如点击率），并根据这些预测分数进行排序，最终向用户展示排名靠前的商品。这一阶段通常使用更复杂的模型，注重精确率 (precision) 和排序质量。

3.1.3. 生成模型 (Generative Models) 与自回归范式 (Autoregressive Paradigm)

生成模型 (Generative Models): 一类机器学习模型，旨在学习训练数据的底层分布，并能够生成与训练数据相似的新数据样本。在推荐系统中，这意味着模型可以学习生成用户可能感兴趣的下一个商品。
自回归范式 (Autoregressive Paradigm): 一种序列生成方法，其中序列中的每个元素是根据之前已生成或观测到的元素条件性地生成的。在推荐系统中，这通常意味着根据用户过去交互的序列来预测下一个将要交互的商品。例如，Transformer 模型常用于此范式。

3.1.4. Transformer 模型

Transformer 模型是由 Vaswani 等人于2017年提出的深度学习模型，最初用于自然语言处理 (NLP) 任务。它完全基于注意力机制 (Attention Mechanism)，特别是自注意力 (Self-Attention) 机制，能够并行处理序列数据并捕获长距离依赖关系。在推荐系统中，Transformer 被用于建模用户行为序列，捕捉用户动态兴趣模式。

自注意力机制 (Self-Attention Mechanism): Transformer 的核心组件，允许模型在处理序列中的每个元素时，计算该元素与序列中其他所有元素的关联程度，并据此加权聚合信息。其核心计算公式如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中：

$Q$ (Query)：查询矩阵，由输入序列的每个元素生成，用于查询其他元素。
$K$ (Key)：键矩阵，由输入序列的每个元素生成，用于被查询。
$V$ (Value)：值矩阵，由输入序列的每个元素生成，包含实际要聚合的信息。
$d_k$ ：键向量的维度，用于缩放点积结果，防止梯度过大。
$QK^T$ ：查询与键的点积，表示查询和各个键之间的相似度或关联程度。
$\mathrm{softmax}(\cdot)$ ：将相似度分数归一化为权重分布。
$\sqrt{d_k}$ ：缩放因子，用于防止当 $d_k$ 很大时点积结果过大导致 softmax 函数进入梯度饱和区。

3.1.5. 损失函数 (Loss Functions)

Sampled Softmax Loss (采样 Softmax 损失): 一种用于处理具有巨大输出类别空间（如商品推荐中的海量商品）的分类任务的损失函数。它通过在每次训练迭代中只采样一小部分负样本（以及真实的正样本）来近似计算全 softmax 损失，从而显著降低计算成本。
Binary Cross-Entropy Loss (二元交叉熵损失, BCE Loss): 一种常用于二分类任务的损失函数，例如预测用户是否会点击某个商品。它衡量预测的概率分布与真实标签之间的差异。其核心计算公式如下： $\mathrm{BCELoss}(p, y) = - [y \log(p) + (1-y) \log(1-p)]$ 其中：
- $y$ ：真实标签，通常为0或1。
- $p$ ：模型预测为正类的概率。

3.2. 前人工作

3.2.1. 检索模型 (Retrieval Models)

矩阵分解 (Matrix Factorization, MF) [1]: 基础方法，将用户和商品表示为低维向量，通过向量内积表示偏好。BPR-MF [37] 是一个基于贝叶斯个性化排序的改进版本。
序列推荐 (Sequential Recommendation) 模型： 将用户行为视为序列，采用语言模型技术。
- GRU4Rec [17, 21]: 使用循环神经网络 (RNN) 和门控循环单元 (GRU) 捕获用户短期偏好。
- BERT4Rec [43] 和 SASRec [23]: 引入 Transformer 和自注意力机制来捕获用户行为中的动态兴趣模式。
大型语言模型 (LLMs) 在检索中的应用：
- RLMRec [36]: 利用 LLM 增强语义表示，提高商品向量质量。
- LLMRec [59]: 利用 LLM 增强用户-商品交互数据，并结合内部语义表示。
生成推荐模型 (Generative Recommendation Models):
- HSTU (Meta's Hierarchical Sequential Transduction Units) [67]: 证明模型能力随参数规模扩展，将传统检索和排序任务重新表述为因果自回归问题 (causal autoregressive problems)，转化为序列到序列生成任务 (sequence-to-sequence generation tasks)。但 HSTU 仍为两个阶段分别训练模型。
- HLLM (ByteDance's Hierarchical Large Language Model) [3]: 提出两层框架，其中 Item LLM 整合文本特征，User LLM 从历史交互预测未来兴趣，展示了如何将额外特征集成到生成推荐框架中。

3.2.2. 排序模型 (Ranking Models)

特征交互 (Feature Interaction) 模型：
- DCN [56] (Deep & Cross Network): 结合深度网络和交叉网络捕获特征间高阶交互。
- DeepFM [10]: 结合因子分解机和深度神经网络。
- AutoInt [42], GDCN [47]: 进一步探索特征交互。
序列推荐 (Sequential Recommendation) 模型：
- DIN (Deep Interest Network) [75]: 引入目标感知注意力机制 (target-aware attention mechanism)，根据候选商品动态重赋用户行为序列权重。
- DIEN [74]: 通过 GRU 增强 DIN。
- SIM [33]: 使用搜索技术处理长序列，减少用户序列表示中的噪声。
大型语言模型 (LLMs) 在排序中的应用：
- BAHE [9]: 使用 LLM 的 Transformer 初始块生成改进的用户行为表示，并微调最终块进行点击率 (CTR) 预测。
- HSTU [67]: 也被改编用于排序任务，通过将候选商品附加到用户序列后，并添加 MLP 和预测头。

3.2.3. 级联框架 (Cascade Framework)

由于推荐系统日益复杂，多阶段（检索、预排序、排序、重排序）的级联流程可能导致偏差传播和信息损失。

早期方法 [8]: 旨在连接特定阶段目标并共同优化，以平衡全局效率和有效性。
ECM [41]: 将未曝光数据纳入训练集，将任务细化为多标签分类，解决样本选择偏差 (sample selection bias)。
RankFlow [34]: 先独立训练各阶段模型，然后通过最小化全局损失函数共同优化，促进阶段间信息传输。
CoRR [20]: 使用 Kullback-Leibler (KL) divergence (KL 散度) 在阶段间进行知识蒸馏 (knowledge distillation)，以对齐各阶段进行有效知识迁移。
GPRP [73]: 引入广义概率排序原理 (Generalized Probability Ranking Principle)，估计选择偏差，并开发与下游模块偏差对齐的排序模型，优化多阶段信息检索系统。

3.3. 技术演进

推荐系统的发展经历了从基于内容、协同过滤 (如矩阵分解) 到序列推荐 (RNN, Transformer)，再到近年来受 LLM 启发的生成推荐模型。在传统多阶段范式中，早期关注点是如何在各个独立优化的阶段中更好地建模用户兴趣或特征交互。随着深度学习和 Transformer 的兴起，序列建模能力显著增强。然而，信息损失一直是多阶段管道固有的挑战。前人工作主要通过数据增强、损失函数设计或知识蒸馏等方式来“桥接”阶段间的信息。生成推荐模型的出现，为将整个推荐过程统一为序列生成任务提供了新的视角，但如何在一个模型中同时处理检索和排序并解决它们之间的协作与优化问题，仍是一个开放的挑战。

3.4. 差异化分析

与单阶段生成模型的区别： HSTU 和 Llama 等生成模型虽然强大，但它们通常为单一任务设计，或者为不同阶段单独训练模型。UniGRF 的核心创新在于将检索和排序统一到一个单一的生成模型 (single generative model) 中，从而实现固有的信息共享 (inherent information sharing)，避免了单独训练带来的信息损失。
与传统级联框架的区别： RankFlow 和 CoRR 等级联框架主要关注传统推荐模型，它们通常通过特定的模块或损失函数在两个独立训练的模型之间传输信息。而 UniGRF 针对的是生成推荐模型，并且通过参数共享 (parameter sharing) 和统一建模 (unified modeling) 在一个模型中实现信息共享，这种共享更加深入和高效。此外，UniGRF 引入的排序驱动增强模块 (ranking-driven enhancer module) 和梯度引导自适应加权器 (gradient-guided adaptive weighter) 提供了更精细的协作和同步优化机制，这些是传统级联框架在生成推荐场景下无法有效解决的问题。UniGRF 强调的是在一个模型内部实现互增强 (mutually reinforcing) 和同步优化 (synchronized optimization)，而非仅是外部信息传递。

4. 方法论

本节将详细介绍统一生成推荐框架 (UniGRF) 的方法论，该框架将检索和排序阶段整合到单一生成模型中。UniGRF 的概览如下图（原文 Figure 1）所示，其主要包括三个关键组成部分：统一生成推荐框架本身、排序驱动增强模块、以及梯度引导自适应加权器。

该图像是论文中框架结构的示意图，展示了一个统一推荐模型的整体设计，包括检索和排序模块、Ranking-Driven Enhancer以及Gradient-Guided Adaptive Weighter三个关键组成部分，体现了各模块间的信息流和交互。

图 1: UniGRF 框架概览

4.1. 统一生成推荐框架 (A Unified Generative Recommendation Framework)

传统的生成推荐方法常专注于单一阶段或为每个阶段使用独立的模型，导致数据选择偏差和信息损失。为解决这些问题，UniGRF 提出将检索和排序阶段整合到单一生成模型 (single generative model) 中。

对于每个用户 $u$ ，其交互历史序列为 $X_u = \{ i_1, b_1, \dots, i_k, b_k, \dots, i_n, b_n \}$ 。其中， $i_k \in \mathcal{I}$ 是第 $k$ 个交互的商品， $b_k \in \mathcal{B} = \{0, 1\}$ 表示交互类型（ $b_k=1$ 为点击， $b_k=0$ 为未点击）。序列长度 $n$ 是固定的，不足 $n$ 的序列会用 [padding] 词元填充。

4.1.1. 编码与生成

首先，序列中的商品 items 和交互类型 interaction types 被编码为嵌入向量 (embeddings)，形成 $\mathbf{e}_u = \{ \mathbf{e}_1^i, \mathbf{e}_1^b, \dots, \mathbf{e}_k^i, \mathbf{e}_k^b, \dots, \mathbf{e}_n^i, \mathbf{e}_n^b \}$ 。一个基于 Transformer 的自回归生成模型 (autoregressive Transformer-based generative model) 对这些嵌入进行处理，产生输出： $\mathrm{Transformer}(\mathbf{e}_u) = \{ \mathbf{e}_1^{b'}, \mathbf{e}_2^{i'}, \dots, \mathbf{e}_k^{b'}, \mathbf{e}_{k+1}^{i'}, \dots, \mathbf{e}_n^{b'}, \mathbf{e}_{n+1}^{i'} \}$ 其中， $\mathbf{e}_k^{b'}$ 表示预测第 $k$ 个商品点击概率的隐式表示，对应排序阶段 (ranking stage) 的目标；而 $\mathbf{e}_{k+1}^{i'}$ 则是预测用户将要交互的下一个商品嵌入，对应检索阶段 (retrieval stage) 的目标。通过这种方式，UniGRF 将检索和排序阶段统一到单个生成模型中。

UniGRF 被设计为模型无关 (model-agnostic) 和即插即用 (plug-and-play) 的框架，可与任何自回归生成模型架构无缝集成。它通过将检索和排序统一到单一模型，有效地将时间和空间复杂度减半。为了确保模型输出与设计目标一致，UniGRF 引入了两个特定约束。

4.1.2. 检索阶段的约束 (Constraint on the Retrieval Stage in UniGRF)

在检索阶段，模型基于用户之前的 $k$ 次交互预测下一个商品 $\mathbf{e}_{k+1}^{i'}$ 。为了生成候选集，模型会计算这个预测商品与商品池 $\mathcal{I}$ 中所有商品的相似度，选取最相似的商品添加到候选集 $\mathcal{I}^c$ 中。这个候选集随后会在排序阶段进行更精确的排序。

为了优化此阶段，UniGRF 采用采样 Softmax 损失 (Sampled Softmax Loss) [22]。目标是最小化损失，使预测的下一个商品嵌入 $\mathbf{e}_k^{i'}$ 尽可能接近用户实际交互的下一个商品嵌入 $\mathbf{e}_k^i$ 。同时，模型从商品池 $\mathcal{I}$ 中随机采样一组负样本 $S$ ，并希望负样本的嵌入 $\mathbf{e}_k^j$ 远离 $\mathbf{e}_k^{i'}$ 。

具体而言，检索阶段的损失函数如下： $\begin{array}{r l} & \mathcal{L}_{\mathrm{retrieval}} = \displaystyle \sum_{u \in \mathcal{U}} \sum_{k=2}^{n} \mathrm{SampledSoftmaxLoss}(\mathbf{e}_k^{i'}) \\ & = - \displaystyle \sum_{u \in \mathcal{U}} \sum_{k=2}^{n} \log \left( \frac{\exp ( \mathrm{sim} ( \mathbf{e}_k^{i'}, \mathbf{e}_k^{i} ) )}{\exp ( \mathrm{sim} ( \mathbf{e}_k^{i'}, \mathbf{e}_k^{i} ) ) + \sum_{j \in S} \exp ( \mathrm{sim} ( \mathbf{e}_k^{i'}, \mathbf{e}_k^{j} ) )} \right) \end{array}$ 其中：

$\mathcal{L}_{\mathrm{retrieval}}$ ：检索阶段的损失。
$u \in \mathcal{U}$ ：表示所有用户集合中的用户 $u$ 。
$k$ ：用户交互序列中的索引，从第二个交互开始（因为要预测下一个）。
$\mathrm{SampledSoftmaxLoss}(\cdot)$ ：采样 Softmax 损失函数。
$\mathbf{e}_k^{i'}$ ：模型预测的用户下一个将要交互的商品嵌入。
$\mathbf{e}_k^i$ ：用户实际交互的第 $k$ 个商品（即下一个正样本）的嵌入。
$S$ ：从商品池中随机采样的一组负样本的集合。
$\mathbf{e}_k^j$ ：负样本 $j \in S$ 的嵌入。
$\mathrm{sim}(\mathbf{a}, \mathbf{b}) = \mathbf{a} \cdot \mathbf{b}$ ：向量 $\mathbf{a}$ 和 $\mathbf{b}$ 之间的相似度，这里采用内积 (inner product)。

4.1.3. 排序阶段的约束 (Constraint on the Ranking Stage in UniGRF)

排序阶段旨在评估用户偏好，通过预测用户点击候选集 $\mathcal{I}^c$ 中商品的概率。商品将根据这些概率值进行排序，高概率商品被推荐。

为了预测点击概率，UniGRF 额外引入了一个小型神经网络。具体来说，对于每个输入商品 $i_k$ ，模型生成其对应的隐式表示 $\mathbf{e}_k^{b'}$ 。然后，将 $\mathbf{e}_k^{b'}$ 输入一个小型神经网络 $f_{\phi}(\cdot)$ ，并通过 sigmoid 激活函数得到预测的点击分数 $score_k = \mathrm{sigmoid} ( f_{\phi} ( \mathbf{e}_k^{b'} ) )$ 。这个分数与用户实际反馈 $b_k$ 相比，使用二元交叉熵损失 (Binary Cross-Entropy Loss, BCE Loss) 进行优化： $\mathcal{L}_{ranking} = \sum_{u \in \mathcal{U}} \sum_{k=1}^{n} \mathrm{BCELoss} ( score_k, b_k )$ 其中：

$\mathcal{L}_{ranking}$ ：排序阶段的损失。
$u \in \mathcal{U}$ ：表示所有用户集合中的用户 $u$ 。
$k$ ：用户交互序列中的索引。
$\mathrm{BCELoss}(\cdot, \cdot)$ ：二元交叉熵损失函数。
$score_k$ ：模型预测的第 $k$ 个商品的点击分数。
$b_k$ ：用户对第 $k$ 个商品的实际反馈（点击或未点击）。
$f_{\phi}(\cdot)$ ：一个小型神经网络，用于从 $\mathbf{e}_k^{b'}$ 预测点击分数。
$\mathrm{sigmoid}(\cdot)$ ：sigmoid 激活函数，将输出值压缩到 (0, 1) 之间，表示概率。

通过将检索和排序阶段统一到单一生成模型中，UniGRF 解决了先前生成推荐方法中固有的信息损失和数据偏差问题。它在检索阶段从整个商品池中抽取负样本，使模型能够学习真实的数据分布，从而减少排序阶段的偏差。单一模型的设计确保了共享参数可以促进跨阶段的数据分布理解。此外，排序阶段捕获的更精确用户兴趣，通过共享参数的知识迁移，反过来增强了检索任务的性能。

4.2. 排序驱动增强模块 (Ranking-Driven Enhancer)

UniGRF 虽然统一了检索和排序阶段，但仍需要一个协作机制来有效利用两个阶段的信息进行相互增强。为此，本文引入了排序驱动增强模块 (ranking-driven enhancer module)。该模块通过准确识别潜在的喜欢商品和难以检测的不喜欢商品，促进阶段间协作并改进用户偏好建模。

4.2.1. 难检测不喜欢商品生成器 (Hard-to-Detect Disliked Items Generator)

在检索阶段，为了计算效率，负样本 $S$ 通常是从商品池 $\mathcal{I}$ 中随机选择的。这种方法常导致负样本与正样本过于容易区分，从而限制了模型的训练效果。为了解决这个问题，UniGRF 利用排序模型的高精度来识别更具挑战性的负样本，称之为难检测不喜欢商品 (hard-to-detect disliked items)，记作 $\mathcal{H}$ 。这些样本包含更丰富的信息，可以增强检索阶段的训练。通过在 $\mathcal{H}$ 上重复训练模型，直到它能有效区分这些样本，从而促进信息从排序阶段向检索阶段的传递。

构建难检测不喜欢商品集 $\mathcal{H}$ 的过程如下：

计算排序得分： 对于负样本集合 $S$ 中的商品，计算排序阶段的分数： $score_{\mathrm{ranking}} = \mathrm{sigmoid} ( f_{\phi} ( \mathbf{e}^S ) )$ 其中：
- $score_{\mathrm{ranking}}$ ：排序阶段对负样本集合 $S$ 中商品的预测点击分数。
- $\mathbf{e}^S$ ：负样本集合 $S$ 中商品的嵌入。
- $f_{\phi}(\cdot)$ ：排序阶段的评分函数（小型神经网络）。
计算检索得分： 同时，计算检索得分： $score_{\mathrm{retrieval}} = \mathrm{sigmoid} ( \mathrm{sim} ( \mathbf{e}^{i'}, \mathbf{e}^S ) )$ 其中：
- $score_{\mathrm{retrieval}}$ ：检索阶段对负样本集合 $S$ 中商品的预测相似度分数。
- $\mathbf{e}^{i'}$ ：模型预测的用户下一个将要交互的商品嵌入。
- $\mathrm{sim}(\cdot, \cdot)$ ：相似度函数（内积）。
计算相对得分： 相对得分定义为： $score = score_{\mathrm{retrieval}} \cdot \left( \frac{score_{\mathrm{retrieval}}}{score_{\mathrm{ranking}}} - 1 \right)$ 这个相对得分衡量了商品在检索阶段被认为相关但排序阶段却认为不相关的程度。得分越高，表示该商品越“难检测”为不喜欢。
选择难检测负样本： 选取相对得分最高的 $m$ 个商品作为难检测不喜欢商品 (hard-to-detect disliked items)，并将其加入到集合 $\mathcal{H}$ 中。这些难负样本随后与随机采样的负样本一起，构成下一个训练周期的新负样本集 $S$ 。这个过程持续进行，直到模型能够有效区分这些商品（即它们获得低分并从 $\mathcal{H}$ 中移除）。通过不断将这些难检测不喜欢商品集成到训练过程中，UniGRF 为检索阶段引入了更多信息丰富的数据，从而提高了模型的训练效率。

4.2.2. 潜在喜欢商品生成器 (Potential Favorite Items Generator)

在负样本集 $S$ 中，一些商品可能实际上是用户喜欢的。如果这些商品被随机选中并错误地标记为负样本，可能会引入偏差，影响模型性能。为了解决这个问题，UniGRF 基于排序阶段对用户意图的精确理解，生成潜在喜欢商品 (potential favorite items)，为检索阶段提供更准确的训练样本。

具体过程如下：

评分并识别： 对前一个训练周期中（最初通过随机负采样生成）的样本集 $S$ 中的每个商品进行评分。排序模型得分较高的商品被认为是用户潜在喜欢的商品。
设定阈值并存储： 定义一个阈值 $\alpha$ 。排序模型得分 $score_{\mathrm{ranking}} > \alpha$ 的商品被标记为潜在喜欢商品，并存储在集合 $\mathcal{P}$ 中。
重新标记并训练： 对于 $\mathcal{P}$ 中的潜在喜欢商品，如果将其错误地视为负样本会误导生成模型的学习过程。为缓解此问题，在随后的迭代中，它们的标签被重新分配为正样本。这种调整有助于生成模型通过将这些商品作为正例纳入学习，从而更准确地学习用户偏好，纠正先前的错误分类，并增强整体模型性能。

通过难检测不喜欢商品生成器 (Hard-to-Detect Disliked Items Generator) 和潜在喜欢商品生成器 (Potential Favorite Items Generator)，UniGRF 利用排序阶段对用户意图更精确的理解，为检索阶段生成高质量的训练数据，同时保持原始数据分布。由于两个阶段的任务在一个参数完全共享的模型中统一，检索阶段对数据分布理解的改进也将惠及排序阶段，形成一个互增强的反馈循环。

值得注意的是，排序得分的计算通过线性复杂度的函数 $f_{\phi}(\cdot)$ 完成，而检索得分的计算则集成在检索损失中。这种设计确保了该模块的额外计算开销极小。因此，排序驱动增强模块为 UniGRF 引入了一个高效、低成本的协作机制，通过利用两个阶段的相互依赖性实现了双向增强。

4.3. 梯度引导自适应加权器 (Gradient-Guided Adaptive Weighter)

在通过排序驱动增强模块实现检索和排序阶段的协作增强后，一个新挑战随之出现：在完全共享的统一框架中，检索和排序阶段的收敛速度显著不同，这使得同步优化变得复杂。为解决此问题，本文引入了梯度引导自适应加权器 (Gradient-Guided Adaptive Weighter)。该机制通过监控不同时间步长 (time steps) 下的梯度更新速率来评估检索和排序阶段的学习速度。它动态调整这些阶段的损失权重，以对齐它们的收敛速度，从而促进同步优化并提升整体性能。

具体来说，模型通过反向传播 (back-propagating) 梯度更新参数。损失值下降越快，梯度变化越大，任务更新速度也越快。因此，我们使用损失下降的幅度来定性分析收敛速度： $r_a = \mathcal{L}_{retrieval}^t / \mathcal{L}_{retrieval}^{t-1} \\ r_b = \mathcal{L}_{ranking}^t / \mathcal{L}_{ranking}^{t-1}$ 其中：

$r_a$ ：检索任务的收敛速率。
$r_b$ ：排序任务的收敛速率。
$\mathcal{L}_{retrieval}^t$ 和 $\mathcal{L}_{ranking}^t$ ：分别表示在第 $t$ 个时间步长 (time step) 时的检索损失和排序损失。
t-1：表示前一个时间步长。

收敛速率 $r_a$ 和 $r_b$ 代表检索和排序任务的相对优化幅度。 $r$ 值越大，表示收敛越慢，因此应该赋予该任务更大的权重。这种基于梯度的优化速度近似方法可以动态监控不同阶段的更新速率，从而动态调整优化速度。

基于此，我们自适应地计算权重： $w_a = \frac{\lambda_a \exp \left( r_a / T \right)}{\exp \left( r_a / T \right) + \exp \left( r_b / T \right)} \\ w_b = \frac{\lambda_b \exp \left( r_b / T \right)}{\exp \left( r_a / T \right) + \exp \left( r_b / T \right)}$ 其中：

$w_a$ ：检索阶段的自适应权重。
$w_b$ ：排序阶段的自适应权重。
$T$ ：温度系数 (temperature coefficient)，用于调整检索和排序之间的权重差异。较小的 $T$ 值会导致较大的权重差异。
$\lambda_a$ 和 $\lambda_b$ ：超参数，用于将两个阶段的损失缩放到相同的量级。

在自适应调整权重后，我们动态地加权检索和排序损失，得到最终的损失函数 $\mathcal{L}^t$ 用于优化： $\mathcal{L}^t = w_a \cdot \mathcal{L}_{retrieval}^t + w_b \cdot \mathcal{L}_{ranking}^t$ 这个梯度引导自适应加权损失 $\mathcal{L}^t$ 使得检索和排序阶段的任务能够同步优化。它允许模型同时满足两个阶段的需求，从而充分利用统一框架提供的充足信息传输以及排序驱动增强模块带来的高效协作机制，最终提升两个阶段的推荐性能。

5. 实验设置

5.1. 数据集

为了验证所提出的统一生成框架 UniGRF 的有效性，实验在三个不同规模的公共推荐数据集上进行：MovieLens-1M、MovieLens-20M 和 Amazon-Books。这些数据集来源于真实用户的在线交互，广泛用于推荐系统研究。

MovieLens-1M [14]: 包含约100万条电影用户评分记录，涉及约6,040名用户和3,900部电影。评分范围1到5，并包含用户基本信息和电影元数据。
MovieLens-20M [14]: 更大规模的数据集，包含约2,000万条评分记录，覆盖约138,000名用户和27,000部电影，时间跨度从1995年到2015年。
Amazon-Books [31]: Amazon 商品评论数据集的一个子集，专注于图书类别。包含数百万条用户评分和评论。

数据预处理：

将每个用户的交互记录按时间顺序排列，形成用户历史交互序列。
过滤掉交互次数少于三次的序列。
对于评分数据，进行二元处理：评分大于3的标记为1（表示用户喜欢），否则标记为0。

以下是原文 Table 1 提供的实验数据集统计信息：

Datasets #Users #Items #Inters. Avg. n

MovieLens-1M 6,040 3,706 1,000,209 165.6

MovieLens-20M 138,493 26,744 20,000,263 144.4

Amazon-Books 694,897 686,623 10,053,086 14.5

Datasets	#Users	#Items	#Inters.	Avg. n
MovieLens-1M	6,040	3,706	1,000,209	165.6
MovieLens-20M	138,493	26,744	20,000,263	144.4
Amazon-Books	694,897	686,623	10,053,086	14.5

表 1: 实验数据集的统计信息。

选择这些数据集的原因在于它们涵盖了不同规模和密度的真实世界用户交互数据，能够全面验证模型在不同场景下的性能和泛化能力。

5.2. 评估指标

为了确保公平比较，所有方法都采用相同的训练集和测试集划分策略：用户最后一次交互的商品作为测试集，倒数第二次交互的商品作为验证集，其余所有交互商品作为训练集。为了避免候选集中的采样偏差，检索阶段的候选集使用整个商品集。

5.2.1. 检索性能指标

检索性能通过以下指标衡量：

NDCG@K (Normalized Discounted Cumulative Gain at K):
- 概念定义: 一种常用的排序质量评估指标，它考虑了推荐列表中商品的相关性以及它们在列表中的位置。相关性越高的商品被排在越靠前的位置，NDCG 值越高。它对位置靠前的相关商品给予更高的权重。
- 数学公式: $\mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}$ 其中， $\mathrm{DCG@K}$ (Discounted Cumulative Gain at K) 的计算公式为： $\mathrm{DCG@K} = \sum_{i=1}^{K} \frac{2^{rel_i} - 1}{\log_2(i+1)}$ 而 $\mathrm{IDCG@K}$ (Ideal Discounted Cumulative Gain at K) 是理想情况下（即所有相关商品都按最高相关性从高到低排序）的 $\mathrm{DCG@K}$ 值，作为归一化因子。
- 符号解释:
  - $K$ : 考虑的推荐列表长度（top-K）。
  - $rel_i$ : 推荐列表中第 $i$ 个商品的相关性得分（例如，1表示相关，0表示不相关；或多级评分）。
HR@K (Hit Rate at K):
- 概念定义: 衡量在推荐列表前 K 个商品中是否包含至少一个用户真正交互过的商品。它关注的是模型能否“击中”用户感兴趣的商品，而不考虑其精确位置。
- 数学公式: $\mathrm{HR@K} = \frac{\text{Number of users with at least one hit in top K}}{\text{Total number of users}}$
- 符号解释:
  - $K$ : 考虑的推荐列表长度（top-K）。
  - “hit”: 指用户实际交互的商品出现在推荐列表的前 K 个位置中。
MRR (Mean Reciprocal Rank):
- 概念定义: 用于评估排序任务中第一个正确答案位置的平均倒数。如果第一个正确答案在推荐列表中的位置越靠前，MRR 值就越高。
- 数学公式: $\mathrm{MRR} = \frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{\mathrm{rank}_i}$
- 符号解释:
  - $|Q|$ : 查询 (query) 的总数量（在推荐系统中通常是用户数量）。
  - $\mathrm{rank}_i$ : 第 $i$ 个查询中第一个正确答案的排名位置。如果未找到正确答案，其倒数排名通常视为0。
    
    实验中，K 值设定为10和50。

5.2.2. 排序性能指标

排序性能通过以下指标衡量：

AUC (Area Under the ROC Curve):
- 概念定义: 曲线下面积，是 ROC 曲线 (Receiver Operating Characteristic Curve) 下方的面积。ROC 曲线以真阳性率 (True Positive Rate, TPR) 为纵轴，假阳性率 (False Positive Rate, FPR) 为横轴绘制。AUC 值通常用于衡量二分类模型（如点击率预测）的性能，表示模型将正例排在负例前面的能力。AUC 值越高，模型性能越好，1表示完美分类，0.5表示随机分类。
- 数学公式: $\mathrm{AUC} = \frac{\sum_{i \in \text{positive class}} \sum_{j \in \text{negative class}} \mathbb{I}(P(i) > P(j))}{\text{Number of positive pairs}}$ 或者，通过计算 ROC 曲线下的面积。
- 符号解释:
  - P(i): 模型预测正例 $i$ 的分数。
  - P(j): 模型预测负例 $j$ 的分数。
  - $\mathbb{I}(\cdot)$ : 指示函数，当括号内条件为真时为1，否则为0。
  - Number of positive pairs: 正样本和负样本对的总数。

5.3. 对比基线

为了全面评估 UniGRF，论文将其与最先进的 (state-of-the-art) 检索和排序方法以及级联框架进行了比较。

5.3.1. 检索模型 (Retrieval Models)

这些模型通常独立训练用于检索任务。

BPR-MF [37]: 基于矩阵分解 (Matrix Factorization) 和贝叶斯个性化排序 (Bayesian Personalized Ranking) 框架。
GRU4Rec [21]: 使用循环神经网络 (RNN) 和门控循环单元 (GRU) 进行序列推荐。
NARM [27]: 通过结合循环神经网络和注意力机制捕获用户不同偏好。
SASRec [23]: 通过自注意力层捕获用户行为中的复杂模式。

5.3.2. 排序模型 (Ranking Models)

这些模型通常独立训练用于排序任务。

DCN [56]: 结合深度网络和交叉网络捕获特征间高阶交互。
DIN [75]: 引入注意力机制动态建模用户兴趣分布。
GDCN [47]: 通过门控交叉网络 (gated cross network) 传播和聚合信息，捕获特征间复杂关系和上下文信息。

5.3.3. 生成模型 (Generative Models)

选择支持检索和排序任务架构的生成模型。值得注意的是，这些模型通常是为单一任务独立训练的，而非同时执行两个任务。

HSTU [67]: 通过点聚合注意力机制 (point-wise aggregated attention mechanism) 和 M-FALCON 算法显著提高训练和推理效率。
Llama [45]: 最初设计用于自然语言处理 (NLP) 任务的 Transformer 架构。本文将其改编为推荐系统，并使用 HSTU 的序列生成方法执行检索和排序。

5.3.4. 生成模型的级联框架 (Cascade Frameworks for Generative Model)

这些框架旨在解决阶段间的信息传输问题，通常使用两个独立的传统模型，并辅以专门的信息交换模块。本文将这些框架中的检索和排序模块实例化为 HSTU 模型，以验证其在生成推荐场景中的有效性。

RankFlow-HSTU [34]: 该框架首先进行独立训练，然后进行联合训练，以实现检索和排序阶段之间的信息传输和共享。
CoRR-HSTU [20]: CoRR 框架引入了使用 Kullback-Leibler (KL) divergence (KL 散度) 的知识蒸馏 (knowledge distillation) 方法，以有效对齐检索和排序阶段，实现知识传输。

5.4. 参数设置

为了确保公平比较，所有基线模型在相同数据集上使用相同的超参数设置，学习率 (learning rate) 统一设置为 $1e^{-3}$ 。

检索阶段负样本数量：
- MovieLens-1M 数据集：128个负样本。
- MovieLens-20M 和 Amazon-Books 数据集：256个负样本。
训练轮次 (Epochs)：
- 仅排序模型：训练20个 epochs，如果 AUC 值在5个 epochs 内没有改进则应用早停 (early stopping)。
- 其他模型：训练100个 epochs，同样使用早停策略。
Transformer 层数：
- MovieLens-1M 数据集：2层。
- MovieLens-20M 和 Amazon-Books 数据集：4层（除非另有说明）。
训练方式： 所有模型均采用分布式训练，利用8张计算卡。

6. 实验结果与分析

6.1. 核心结果分析

为了确保公平和全面的比较，UniGRF 使用代表性的生成模型 HSTU 和 Llama 进行实例化，分别命名为 UniGRF-HSTU 和 UniGRF-Llama。以下是原文 Table 2 和 Table 3 展示的基线方法和 UniGRF 在三个数据集上的检索和排序结果。

6.1.1. 检索性能对比

以下是原文 Table 2 的结果：

Dataset	MovieLens-1M					MovieLens-20M					Amazon-Books
Model	NG@10	NG@50	HR@10	HR@50	MRR	NG@10	NG@50	HR@10	HR@50	MRR	NG@10	NG@50	HR@10	HR@50	MRR
BPRMF	0.0607	0.1027	0.1185	0.3127	0.0556	0.0629	0.1074	0.1241	0.3300	0.0572	0.0081	0.0135	0.0162	0.0412	0.0078
GRU4Rec	0.1015	0.1460	0.1816	0.3864	0.0895	0.0768	0.1155	0.1394	0.3177	0.0689	0.0111	0.0179	0.0207	0.0519	0.0107
NARM	0.1350	0.1894	0.2445	0.4915	0.1165	0.1037	0.1552	0.1926	0.4281	0.0910	0.0148	0.0243	0.0280	0.0722	0.0141
SASRec	0.1594	0.2208	0.2899	0.5671	0.1388	0.1692	0.2267	0.3016	0.5616	0.1440	0.0229	0.0353	0.0408	0.1059	0.0213
Llama	0.1746	0.2343	0.3110	0.5785	0.1477	0.1880	0.2451	0.3268	0.5846	0.1605	0.0338	0.0493	0.0603	0.1317	0.0305
HSTU	0.1708	0.2314	0.3132	0.5862	0.1431	0.1814	0.2325	0.3056	0.5371	0.1569	0.0337	0.0502	0.0613	0.1371	0.0305
RankFlow-HSTU	0.1096	0.2178	0.2184	0.5062	0.0988	0.0985	0.2064	0.2002	0.4245	0.1221	0.0281	0.0307	0.0324	0.0878	0.0249
CoRR-HSTU	0.1468	0.2662	0.2081	0.5435	0.1261	0.1629	0.2166	0.2796	0.5236	0.1409	0.0352	0.0521	0.0612	0.1360	0.0315
UniGRF-Llama	0.1765	0.2368	0.3219	0.5921	0.1478	0.1891	0.2464	0.3270	0.5846	0.1652	0.0351	0.0508	0.0624	0.1347	0.0316
UniGRF-HSTU	0.1756	0.2326	0.3140	0.5909	0.1484	0.1816	0.2384	0.3178	0.5747	0.1548	0.0354	0.0522	0.0638	0.1415	0.0319

表 2: 三个数据集上的检索性能比较。最优结果加粗，次优结果带下划线 ( $\mathrm{p-value < 0.05}$ )。注：原始表格中 UniGRF-Llama 和 UniGRF-HSTU 的最佳和次佳标记在 MovieLens-1M 和 MovieLens-20M 上有微小差异，这里按照原文表格内容进行转录。在 Amazon-Books 上，UniGRF-HSTU 表现最佳，UniGRF-Llama 次佳。

6.1.2. 排序性能对比

以下是原文 Table 3 的结果：

Dataset	ML-1M	ML-20M	Books
Model	AUC	AUC	AUC
DCN	0.7176	0.7098	0.7042
DIN	0.7329	0.7274	0.7159
GDCN	0.7364	0.7089	0.7061
Llama	0.7819	0.7722	0.7532
HSTU	0.7621	0.7807	0.7340
RankFlow-HSTU	0.6340	0.6439	0.6388
CoRR-HSTU	0.7497	0.7492	0.7357
UniGRF-Llama	0.7932	0.7776	0.7559
UniGRF-HSTU	0.7832	0.7941	0.7672

表 3: 三个数据集上的排序性能比较。最优结果加粗，次优结果带下划线 ( $\mathrm{p-value < 0.05}$ )。注：原始表格中 UniGRF-Llama 和 UniGRF-HSTU 的最佳和次佳标记在 MovieLens-1M 和 MovieLens-20M 上有微小差异，这里按照原文表格内容进行转录。在 Amazon-Books 上，UniGRF-HSTU 表现最佳，UniGRF-Llama 次佳。

6.1.3. 结论与分析

从这些性能对比中，可以得出以下结论：

生成模型的潜力： 在检索和排序任务中，HSTU 和 Llama 等生成方法 (generative methods) 始终优于非生成方法 (non-generative methods)。这表明生成模型通过学习更丰富的特征表示和更深层的用户兴趣关系，具有巨大的发展潜力。
UniGRF 的卓越性能： 无论是基于 HSTU 还是 Llama 架构，UniGRF 框架在检索和排序阶段都持续超越所有基线模型。这证明了 UniGRF 通过强大的信息传输 (information transfer) 机制，实现了高效的阶段间协作和同步优化，从而有效提升了性能。同时，UniGRF 的模型无关性 (model-agnostic) 表明它是一个有前途的统一生成推荐框架。
传统级联框架的局限性： 像 RankFlow-HSTU 和 CoRR-HSTU 这样的级联框架表现不佳，甚至对性能产生负面影响。这表明传统的级联框架未能适应生成推荐模型，无法促进必要的阶段间信息传输以提升性能。
排序阶段的显著提升： 尽管 UniGRF 在检索阶段取得了改进，但在排序阶段的性能提升更为显著。这可能是因为检索阶段通过采样负例学习，而排序阶段任务相对简单，自身信息不足。单独训练排序模块时性能相对较差，因此通过阶段间信息传输更容易获得显著增强。这种趋势对 UniGRF 的实际应用具有积极意义。检索阶段主要生成一个大的候选集，对最终结果的直接影响较小，对指标变化不那么敏感。相比之下，排序阶段直接影响推荐结果的质量。因此，UniGRF 在排序阶段的优越性能尤为关键，因为它能显著提升整体推荐性能。
稀疏数据下的表现： 在 Amazon-Books 数据集上，UniGRF 模型表现出比其他数据集更显著的性能提升。此外，CoRR 级联框架在该数据集上也表现相对较好。这可能与数据集的稀疏性有关。稀疏数据限制了可用信息的量，使得跨阶段信息传输 (cross-stage information transfer) 在这种情况下变得尤为关键。

6.2. 消融实验与参数分析

6.2.1. 消融实验 (Ablation Study)

为了验证每个模块的有效性，论文进行了消融实验，将 UniGRF 与其三个变体进行比较，并与微调范式进行对比。所有推荐模块均使用 HSTU 模型实例化。以下是原文 Table 4 的结果：

Model	AUC	NG@10	NG@50	HR@10	HR@50	MRR
HSTU	0.7621	0.1708	0.2314	0.3132	0.5862	0.1431
(1) w/o Enhancer	0.7815	0.1717	0.2318	0.3117	0.5824	0.1446
(2) w/o Weighter	0.7582	0.1734	0.2317	0.3199	0.5824	0.1441
(3) w/o Both	0.7293	0.1681	0.2276	0.3113	0.5824	0.1392
(a) HSTU-FT-a	0.7752	-	-	-	-	-
(b) HSTU-FT-b	-	0.1727	0.2308	0.3182	0.5807	0.1436
UniGRF-HSTU	0.7832	0.1756	0.2326	0.3140	0.5909	0.1484

表 4: MovieLens-1M 上的消融分析。

“w/o Both”变体：表现最差，未能超越独立优化的 HSTU 模型。这证实了仅将检索和排序统一到一个生成框架中不足以提升性能，反而可能因缺乏协作机制和同步优化而导致性能下降。这强调了设计有效的统一生成推荐框架的必要性。
“w/o Enhancer”变体：采用均匀负采样 (uniform negative sampling) 导致检索阶段性能下降。这表明，与排序驱动增强模块 (Ranking-Driven Enhancer) 不同，均匀负采样未能捕获用户深层兴趣，可能引入噪声，降低生成模型的有效性。
“w/o Weighter”变体：由于缺少自适应权重调整机制，排序性能相较于 UniGRF-HSTU 显著下降。这突出了梯度引导自适应加权器 (Gradient-Guided Weighter) 在实现同步优化和达到两个阶段最佳性能方面的关键作用。然而，“w/o Weighter” 变体仍优于 “w/o Both” 变体，这表明排序驱动增强模块 (Ranking-Driven Enhancer) 通过增强阶段间协作可以提升生成推荐模型的性能。此外，这种提升可能源于该模块能够使模型专注于在排序阶段选择的样本，从而潜在地增强了排序阶段的监督信号。
微调范式对比： 基于微调范式的模型 HSTU-FT-a 和 HSTU-FT-b 相较于基础模型 HSTU 性能有所提升。这表明通过特定机制在检索和排序阶段之间传递信息是有效的。然而，尽管训练轮次更多，HSTU-FT-a 和 HSTU-FT-b 的性能未能超越 UniGRF-HSTU。这表明采用统一生成框架进行检索和排序阶段的建模能够促进更充分的信息传输。

6.2.2. 超参数 $m$ 的影响 (Impact of Hyper-parameter $m$ )

UniGRF 通过排序驱动增强模块 (Ranking-Driven Enhancer) 生成 $m$ 个包含用户细粒度负兴趣的商品。为探究引入更具挑战性样本的效果，实验固定负样本总数（MovieLens-1M 为128，MovieLens-20M 为256），并改变难检测不喜欢商品 $m$ 的值，分别为 $\{0, 2, 5, 10, 20\}$ 。下图（原文 Figure 2）展示了 MovieLens-1M 和 MovieLens-20M 数据集上的结果：

$Figure 2: Impact of varying the number of hard-to-detect disliked items $m$ .$ 该图像是图表，展示了MovieLens-1M和MovieLens-20M数据集上模型的检索与排名表现。横坐标为参数m，纵坐标为AUC值，蓝色曲线表示排名，红色曲线表示检索，数据趋势显示了两者之间的性能差异。

图 2: 改变难检测不喜欢商品 $m$ 数量的影响。

MovieLens-20M (较大数据集)： 随着 $m$ 从0增加到20，检索和排序阶段的性能都呈现持续上升趋势。这表明通过排序驱动增强模块 (Ranking-Driven Enhancer) 引入困难负样本，有助于模型学习用户准确偏好，实现阶段间互增强，从而提升推荐性能。
MovieLens-1M (较小数据集)： 检索和排序阶段的性能随着 $m$ 从0增加到20，呈现先上升后下降的趋势，并在 $m=5$ 附近达到最佳值。这表明在较小的数据集中，适度引入难负样本能有效增强模型的学习能力，帮助其更好地捕捉用户细粒度偏好。然而，当 $m$ 值过大时，模型可能过度关注这些难负样本，导致过拟合 (overfitting)，从而影响整体性能。此外，当难负样本比例过高时，模型可能在每个训练周期重复遇到相同的负样本，降低训练样本的多样性，限制模型的泛化能力。因此，在小数据集上，选择适当数量的难负样本对于平衡模型性能提升和避免过拟合至关重要。

6.2.3. 优化同步对统一框架性能的影响 (Analysis of the Impact of Optimization on Unified Framework Performance)

为了评估阶段间同步优化的重要性，实验调整了不同阶段的优化速度，并展示了检索和排序阶段推荐性能随 epochs 变化的曲线。下图（原文 Figure 3）展示了 MovieLens-20M 数据集上的分析结果：

Figure 3: Effect of synchronized stage optimization on unified generative framework performance. 该图像是图表，展示了在不同情况下，Rank和Retrieve的AUC表现随Epoch变化的曲线，左侧为未使用Enhancer和Weight的结果，右侧为UniGRF-HSTU的结果，明确显示了两种方法在性能优化方面的差异。

图 3: 同步阶段优化对统一生成框架性能的影响。

简单损失相加 (w/o Weighter 场景) (图 3(a))： 检索阶段（红色曲线）的性能持续上升，而排序阶段（蓝色曲线）的推荐性能在几个 epochs 内达到最佳值后迅速下降。这种现象是由于阶段间训练缺乏同步。检索阶段涉及负采样，通常更具挑战性，而排序阶段的训练任务相对简单。这导致模型在优化过程中偏向检索阶段，使得排序任务训练不足。特别是在训练后期，模型过度偏向检索任务，导致排序阶段性能显著下降。这种异步优化 (asynchronous optimization) 现象限制了统一生成框架内充分信息共享和高效阶段间协作的潜力。
UniGRF 同步优化 (图 3(b))： 我们的框架 UniGRF 通过调整两个阶段的优化步调，实现了检索和排序的同步优化。自适应的两阶段损失加权使得检索阶段（红色曲线）的性能提升曲线更为平滑，而排序阶段（蓝色曲线）的性能持续提升。这表明梯度引导自适应加权策略 (gradient-guided adaptive weighting strategy) 能够实时监控训练速率和损失收敛速度的变化，动态调整每个阶段的损失权重，确保在整个训练过程中给予适当的关注。通过同步优化两个阶段，UniGRF 有效地利用了统一生成框架的潜力，显著提升了推荐性能。

6.2.4. 扩展定律分析 (Analysis on Scaling Law)

为了研究模型在参数扩展下的性能变化，实验调整了生成架构中的 Transformer 层数，并观察对模型性能的影响。实验将 Transformer 块实例化为 HSTU，层数设置为 $\{2, 4, 8, 16, 24, 32\}$ 。下图（原文 Figure 4）展示了 MovieLens-20M 数据集上 UniGRF-HSTU 的实验结果：

Figure 4: Effect of parameter expansion on model loss and recommendation performance. 该图像是一个示意图，展示了层数与损失（Loss）和性能（Performance）之间的关系。左侧图表（a）显示了排名损失（Ranking Loss，蓝线）和检索损失（Retrieval Loss，红线）的变化，右侧图表（b）展示了在不同层数下的性能评估，包括排名（Ranking，AUC）和检索（Retrieval，MRG20）。

图 4: 参数扩展对模型损失和推荐性能的影响。

损失值变化 (图 4(a))： 随着模型参数规模的增加，检索和排序任务的损失值持续下降。这一趋势表明，我们的模型遵循扩展定律 (scaling law)，即通过增加参数规模可以改进模型。
推荐性能变化 (图 4(b))： 模型的实际性能也随着 Transformer 层数的增加而提升。这不仅验证了损失值的下降与模型性能的提升一致，也表明在更复杂的模型架构下，UniGRF 能够更有效地捕获数据中的复杂模式。这些结果表明，通过扩展模型参数，我们的模型不仅可以降低损失，还可以显著提升检索和排序的整体性能，展现出强大的应用潜力。目前本文主要关注构建统一生成推荐框架，以实现阶段间的高效协作和同步优化，并在 MovieLens-20M 等大型公共数据集上展示了 UniGRF 的可扩展性。未来的工作将研究工业数据集上的扩展定律。

7. 总结与思考

7.1. 结论总结

本文提出了统一生成推荐框架 (UniGRF)，旨在解决传统推荐系统多阶段范式（检索和排序）固有的信息损失问题。UniGRF 通过将检索和排序整合到一个单一的生成模型 (generative model) 中，将两个阶段都视为序列生成任务 (sequence generation tasks)，实现了阶段间充分的信息共享，且不增加额外计算成本，并保持了模型无关性 (model-agnostic)。

UniGRF 的核心创新包括：

排序驱动增强模块 (ranking-driven enhancer module)：利用排序阶段的高精度，生成高质量的难检测不喜欢商品 (hard-to-detect disliked items) 和潜在喜欢商品 (potential favorite items)，反哺检索阶段，形成互增强的协作循环。
梯度引导自适应加权器 (gradient-guided adaptive weighter)：动态监控检索和排序阶段的优化速度，自适应调整损失权重，确保两个任务的同步优化 (synchronized optimization)，从而克服了不同任务收敛速度不一致的挑战。

广泛的实验结果表明，UniGRF 在多个基准数据集 (benchmark datasets) 上显著优于最先进的 (state-of-the-art) 基线模型，验证了其在促进信息传输和提升推荐性能方面的有效性。消融研究 (ablation studies) 证实了每个模块的关键作用，并进一步分析了其在实现高效协作和同步优化方面的能力。此外，对超参数 (hyper-parameter) 的分析和扩展定律 (scaling law) 的探讨也展现了 UniGRF 的强大可扩展性和应用潜力。

7.2. 局限性与未来工作

论文作者指出了以下局限性和未来研究方向：

更多阶段的统一： 目前 UniGRF 专注于统一检索和排序阶段。未来计划探索将更多阶段（如预排序 (prerank) 和重排序 (rerank)）也纳入此统一框架。
工业场景应用： 计划将 UniGRF 应用于特定的工业场景，以验证其在实际应用中的效果。
参数扩展研究： 尽管本文已在大型公共数据集 MovieLens-20M 上初步验证了 UniGRF 的可扩展性，但未来工作将深入研究在工业数据集 (industrial datasets) 上的扩展定律 (scaling law)，以期通过扩展参数实现更大的性能提升。

7.3. 个人启发与批判

7.3.1. 个人启发

统一建模的强大潜力： 本文最主要的启发在于，将推荐系统的多个阶段（如检索和排序）统一到一个单一的生成模型 (generative model) 中，而非简单地进行级联，能带来显著的性能提升。这种“两鸟在手 (Killing Two Birds with One Stone)”的思路，通过参数共享 (parameter sharing) 实现了更深层次的信息传输 (information transfer) 和数据分布 (data distribution) 的理解，这对于解决多阶段系统中的信息损失和偏差传播问题提供了优雅的解决方案。
精巧的协作与优化机制： 排序驱动增强模块 (ranking-driven enhancer module) 利用排序阶段的“精确性”来指导检索阶段的“召回”，通过生成高质量的负样本和纠正潜在的正样本，形成了一个智能的反馈循环 (feedback loop)。而梯度引导自适应加权器 (gradient-guided adaptive weighter) 则巧妙地解决了不同任务收敛速度不一致的难题，这在多任务学习 (multi-task learning) 中是一个普遍且棘手的问题，其解决方案具有通用性。
模型无关性和可扩展性： UniGRF 作为模型无关 (model-agnostic) 框架的特性，使其具有很强的普适性，可以与各种先进的自回归生成模型结合。同时，对扩展定律 (scaling law) 的初步验证表明，随着模型规模的增大，UniGRF 的性能有望持续提升，这在大模型时代具有重要意义。

7.3.2. 批判与潜在改进

计算成本考量： 尽管论文声称“在不增加额外计算成本的情况下实现充分的信息共享”，但排序驱动增强模块 (ranking-driven enhancer module) 需要计算所有负样本的排序得分和检索得分来筛选难检测不喜欢商品 (hard-to-detect disliked items) 和潜在喜欢商品 (potential favorite items)，这在商品池非常大的情况下仍然可能带来显著的计算开销。虽然论文提到了排序得分的计算是线性复杂度，但对于超大规模的商品集，这个“线性”也可能不可承受。未来的工作可以探讨更高效的难样本挖掘策略，例如基于聚类或更稀疏的采样方法。
超参数敏感性： 排序驱动增强模块 (ranking-driven enhancer module) 中的 $m$ （难检测不喜欢商品数量）和 $\alpha$ （潜在喜欢商品阈值），以及梯度引导自适应加权器 (gradient-guided adaptive weighter) 中的 $T$ （温度系数）和 $\lambda_a, \lambda_b$ （损失缩放超参数）都是关键的超参数。它们的调优可能非常耗时且对性能影响较大，尤其是在不同数据集上。论文虽然进行了 $m$ 的参数分析，但缺乏对其他关键超参数的全面分析。在实际部署中，可能需要更鲁棒的超参数自适应或自动调优机制。
理论分析的深入： 论文通过实验证明了信息传输和同步优化的有效性，但对这些机制为何如此有效，以及它们如何从理论上影响模型的泛化能力 (generalization capability) 或表示学习 (representation learning) 的深入分析可以进一步加强其贡献。例如，为什么这种统一范式比知识蒸馏等方法更能促进信息传输？
对冷启动问题的探讨： 推荐系统中的冷启动 (cold-start) 问题是一个普遍挑战。统一生成模型如何处理新用户或新商品的推荐，以及 UniGRF 的增强机制是否能在这方面提供额外帮助，是值得探讨的问题。
可解释性 (Interpretability)： 作为一个大型生成模型 (generative model)，其决策过程通常是黑盒的。在推荐领域，尤其是在某些对信任度要求高的场景，模型的可解释性非常重要。如何提升 UniGRF 的可解释性，例如理解为什么某些商品被判定为“难检测不喜欢”或“潜在喜欢”，将是一个有价值的研究方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。