AiPaper
论文状态:已完成

Align$^3$GR: Unified Multi-Level Alignment for LLM-based Generative Recommendation

发表:2025/11/14
原文链接PDF 下载
价格:0.10
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

Align$^3$GR框架通过统一的多级对齐方法,有效将大型语言模型(LLMs)转化为推荐系统。其创新性包括双重词元化、增强行为建模及渐进式决策优化策略,解决了语义与行为错位的问题,实验结果显示,在Recall@10和NDCG@10指标上显著超越最先进基线。

摘要

Large Language Models (LLMs) demonstrate significant advantages in leveraging structured world knowledge and multi-step reasoning capabilities. However, fundamental challenges arise when transforming LLMs into real-world recommender systems due to semantic and behavioral misalignment. To bridge this gap, we propose Align3^3GR, a novel framework that unifies token-level, behavior modeling-level, and preference-level alignment. Our approach introduces: Dual tokenization fusing user-item semantic and collaborative signals. Enhanced behavior modeling with bidirectional semantic alignment. Progressive DPO strategy combining self-play (SP-DPO) and real-world feedback (RF-DPO) for dynamic preference adaptation. Experiments show Align3^3GR outperforms the SOTA baseline by +17.8% in Recall@10 and +20.2% in NDCG@10 on the public dataset, with significant gains in online A/B tests and full-scale deployment on an industrial large-scale recommendation platform.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Align3^3GR: Unified Multi-Level Alignment for LLM-based Generative Recommendation (Align3^3GR:面向大语言模型生成式推荐的统一多级对齐框架)

1.2. 作者

  • Wencai Ye (叶文才)

  • Mingjie Sun (孙明杰)

  • Shuhang Chen (陈书航)

  • Wenjin Wu (吴文金)

  • Peng Jiang (江鹏)

    所有作者均来自快手科技 (Kuaishou Technology),中国。

1.3. 发表期刊/会议

该论文以预印本 (arXiv preprint) 形式发布。

1.4. 发表年份

2025年。

1.5. 摘要

大型语言模型 (Large Language Models, LLMs) 在利用结构化世界知识和多步推理能力方面展现出显著优势。然而,在将 LLMs 转化为实际推荐系统 (Recommender Systems, RS) 时,由于语义和行为错位 (semantic and behavioral misalignment) 而面临根本性挑战。为了弥合这一差距,本文提出了 Align3^3GR,一个统一令牌级 (token-level)、行为建模级 (behavior modeling-level) 和偏好级 (preference-level) 对齐的新颖框架。该方法引入了:

  1. 双重词元化 (Dual tokenization):融合用户-物品语义和协同信号。

  2. 增强行为建模 (Enhanced behavior modeling):通过双向语义对齐。

  3. 渐进式 DPO (Progressive DPO) 策略:结合自博弈 (self-play, SP-DPO) 和真实世界反馈 (real-world feedback, RF-DPO) 以实现动态偏好适应。

    实验结果表明,Align3^3GR 在公开数据集上,Recall@10 指标超越最先进 (state-of-the-art, SOTA) 基线模型 +17.8%,NDCG@10 指标超越 +20.2%。此外,在工业级大规模推荐平台的在线 A/B 测试和全面部署中也获得了显著增益。

1.6. 原文链接与 PDF 链接

  • 原文链接: https://arxiv.org/abs/2511.11255v1

  • PDF 链接: https://arxiv.org/pdf/2511.11255v1.pdf

    该论文目前是 arXiv 上的预印本 (preprint),这意味着它尚未经过正式的同行评审,但已公开发布以供社区审阅和讨论。

2. 整体概括

2.1. 研究背景与动机

推荐系统 (Recommender Systems, RS) 是现代数字平台不可或缺的基础设施,广泛应用于电商、视频流媒体和社交媒体等领域。随着大型语言模型 (Large Language Models, LLMs) 的快速发展,研究人员探索了两种主要范式将 LLMs 整合到 RS 中:

  1. 增强传统判别式推荐器 (discriminative recommenders):例如,提供改进的内容和用户理解,或实现查询重写和推理。

  2. 作为独立的生成式推荐器 (generative recommenders):模型直接以端到端方式输出推荐物品。

    从增强到完全替代的转变带来了一个根本性挑战:如何真正将 LLMs 转化为推荐系统?这其中的关键在于有效弥合预训练 LLMs 与个性化推荐系统之间的根本性差距:

  • LLMs 关注语义信息 (semantic information):主要通过下一个词元预测 (next-token prediction, NTP) 来处理语义。

  • RS 关注用户隐式偏好 (implicit preferences):倾向于根据用户的交互行为信息来建模偏好。

    现有的研究工作(例如通过词元化、多任务监督微调 (supervised fine-tuning, SFT) 和基于偏好的强化学习 (Reinforcement Learning, RL))试图弥合这一差距,但仍存在以下具体挑战或空白 (Gap):

  1. 词元化 (Tokenization) 的局限性:许多现有方法在词元化阶段独立处理用户和物品信息,忽略了它们之间的协同 (collaborative) 和语义 (semantic) 依赖关系。这种孤立的建模未能捕捉到对全面偏好学习至关重要的相互影响,导致推荐性能不佳。

  2. 偏好对齐 (Preference Alignment) 的不足:LLMs 与真实世界用户偏好和业务目标对齐面临额外挑战。尽管像直接偏好优化 (Direct Preference Optimization, DPO) 这样的强化学习方法试图将用户偏好信号纳入 RS,但它们通常依赖离线数据收集,缺乏渐进式学习机制,难以适应动态的用户兴趣。真实世界用户行为偏好复杂且模糊,增加了模型直接学习的难度。

    本文旨在解决这些挑战,通过提出一个统一的多级对齐框架,使 LLMs 能够更有效地作为生成式推荐系统运行。

2.2. 核心贡献/主要发现

本文提出了 Align3^3GR,一个统一的多级对齐框架,旨在系统性地整合令牌级、行为建模级和偏好级对齐,从而弥合 LLMs 与推荐系统之间的差距。其核心贡献和主要发现包括:

  1. 提出统一的多级对齐框架 Align3^3GR:Align3^3GR 联合优化令牌级、行为建模级和偏好级对齐,以系统性地解决 LLMs 在推荐任务中的语义和行为错位问题。
  2. 设计双重 SCID 词元化方案:引入分层词元化方案,为用户和物品生成紧凑且联合优化的语义-协同 ID (Semantic-Collaborative ID, SCID)。该方案融合了用户-物品的语义和协同信号,为后续的 SFT 和基于偏好的 RL 奠定了坚实基础,确保了整个推荐管道的有效对齐。
  3. 增强行为建模级对齐:在 SFT 阶段,通过将用户 SCID 注入所有任务提示来丰富输入表示。同时,引入双向对齐任务(从文本预测用户 SCID,以及从用户 SCID 重构用户文本),显式地将 SCID 词元与其实际语义意义联系起来。
  4. 开发渐进式 DPO 策略:受课程学习 (curriculum learning) 启发,提出一种渐进式 DPO 策略(由易到难),该策略结合了:
    • 自博弈 DPO (Self-Play DPO, SP-DPO):通过自我交互生成多样化的训练数据,缓解数据稀疏性和探索限制。
    • 真实世界反馈 DPO (Real-world Feedback DPO, RF-DPO):利用实际用户反馈(分为厌恶、中性、喜欢三级)逐步将模型与真实用户兴趣和业务目标对齐。
  5. 显著的性能提升
    • 在公开数据集(如 Instruments)上,Align3^3GR 在 Recall@10 指标上超越最强基线模型 17.8%,在 NDCG@10 指标上超越 20.2%,展现出一致且显著的改进。

    • 在工业级推荐平台的在线 A/B 测试中,Align3^3GR 在召回率 (Recall@100) 上超越工业基线,并实现了统计学上显著的 +1.432% 营收提升,验证了其在实际生产环境中的商业价值。

      这些贡献共同证明了 Align3^3GR 在弥合 LLMs 与推荐系统之间差距方面的有效性,为构建鲁棒、可扩展和个性化的生成式推荐系统提供了新范式。

3. 预备知识与相关工作

3.1. 基础概念

理解 Align3^3GR 框架需要掌握以下核心概念:

  • 推荐系统 (Recommender Systems, RS):通过分析用户行为和物品特征,预测用户对未交互物品的偏好,并向其推荐可能感兴趣的物品的系统。它们是电商、流媒体、社交媒体等现代数字平台的核心组成部分。
  • 大型语言模型 (Large Language Models, LLMs):基于深度学习,特别是 Transformer 架构的超大规模语言模型。它们通过在海量文本数据上进行预训练,学习语言的统计规律和世界知识,并展现出强大的文本理解、生成、推理和多步规划能力。
  • 生成式推荐 (Generative Recommendation):一种新兴的推荐范式,将推荐任务重新定义为序列生成问题。LLMs 直接生成推荐物品的标识符(如 ID、标题、语义 ID),而非仅仅预测用户对物品的评分或点击率。这种方法允许模型利用丰富的语义上下文并产生动态适应的输出格式。
  • 语义错位 (Semantic Misalignment):指预训练 LLMs 主要关注文本的语义连贯性和语言模式,但在推荐任务中,这些语义信息可能无法直接有效地映射到用户对物品的隐式偏好和行为模式上,导致语义理解与推荐意图之间的不一致。
  • 行为错位 (Behavioral Misalignment):指 LLMs 在语言建模中侧重下一个词元预测,而推荐系统则更侧重于建模用户与物品之间的交互行为序列和协同模式。这种任务目标上的差异,使得 LLMs 难以直接捕捉用户复杂的、隐性的行为偏好。
  • 词元 (Token):在自然语言处理中,是文本的最小有意义单元,可以是单词、子词或字符。在 Align3^3GR 中,词元不仅指自然语言词元,还包括表示用户和物品的语义-协同 ID (Semantic-Collaborative ID, SCID)
  • 下一个词元预测 (Next-Token Prediction, NTP):LLMs 的一种主要训练任务,模型根据之前的词元序列预测下一个词元。这是 LLM 核心的语言建模能力。
  • 监督微调 (Supervised Fine-tuning, SFT):在预训练 LLM 的基础上,使用带有标签的特定任务数据对模型进行进一步训练,以使其适应特定下游任务(如推荐任务),从而激发其在该任务上的初始能力。
  • 强化学习 (Reinforcement Learning, RL):一种机器学习范式,智能体 (agent) 通过与环境交互学习如何采取行动以最大化累积奖励。在推荐系统中,可以根据用户反馈(奖励)优化推荐策略。
  • 直接偏好优化 (Direct Preference Optimization, DPO):一种高效且稳定的强化学习方法,用于将 LLMs 与人类偏好对齐。与传统的 RLHF (Reinforcement Learning from Human Feedback) 不同,DPO 无需训练单独的奖励模型,而是通过一个简洁的损失函数直接优化策略模型,以最大化偏好数据中“优选”响应的对数似然,同时最小化“劣选”响应的对数似然。
  • 语义-协同 ID (Semantic-Collaborative ID, SCID):本文提出的,融合了物品或用户的语义信息(如文本描述)和协同信息(如交互行为模式)的离散标识符。它通过一个联合学习框架生成,旨在全面捕捉用户和物品的特性。
  • 量化变分自编码器 (Residual Quantized Variational AutoEncoder, RQ-VAE):一种用于生成离散表示(如码本索引)的神经网络模型。它将连续的嵌入 (embedding) 向量量化为一系列离散的码本向量,从而实现高效的存储和检索。在本文中用于将连续的语义-协同嵌入转化为离散的 SCID 词元。
  • 课程学习 (Curriculum Learning):一种训练策略,模型首先在“容易”的样本上学习,然后逐渐过渡到“困难”的样本。这种由易到难的学习路径有助于模型更稳定地收敛,并提高泛化能力。
  • 自博弈 (Self-Play):在强化学习中,智能体通过与自身的多个版本进行交互来生成训练数据。这有助于模型在没有外部人类反馈的情况下,探索更广泛的状态空间并发现更优的策略,尤其适用于数据稀疏的环境。

3.2. 前人工作

本文的灵感和发展建立在以下几个关键领域的前人工作之上:

3.2.1. 生成式推荐 (Generative Recommendation)

  • 核心思想:将传统的信息检索 (retrieval) 任务重构为序列生成任务,使模型能够利用完整的语义上下文并动态适应输出格式。
  • 技术方向
    • 序列生成检索 (Sequence Generation Retrieval):如 DSI (Tay et al. 2022; Chen et al. 2023) 和 GENRE (Si et al. 2023),将检索转化为自回归 (autoregressive) 的用户上下文词元生成。
    • 索引或词元化突破:如 RQ-VAE (Lee et al. 2022)、分层 K 均值 (hierarchical k-means) (Qi et al. 2017) 和 PQ (Jegou, Douze, and Schmid 2010),将内容嵌入转换为短的离散词元,从而驱动 TIGER (Rajput et al. 2023)、LC-Rec (Zheng et al. 2024)、LETTER (Wang et al. 2024a) 和 EAGER-LLM (Hong et al. 2025) 等生成式推荐模型。
  • 本文差异化:现有方法在词元化时常独立处理用户和物品信息,忽略了它们之间的协同和语义依赖。Align3^3GR 提出双重 SCID 词元化,联合编码用户和物品,融合语义和协同信号。

3.2.2. LLMs 的偏好对齐 (Preference Alignment of LLMs)

  • NLP 领域研究:主要通过人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF) (Bai et al. 2022) 和直接偏好优化 (Direct Preference Optimization, DPO) (Rafailov et al. 2023) 进行。
    • RLHF:通过奖励模型 (reward model) 指导策略更新,但存在不稳定性高、计算成本大的问题。
    • DPO:通过直接优化模型参数来解决 RLHF 的局限性,启发了 IPO (Yang, Tan, and Li 2025)、cDPO (Furuta et al. 2024)、rDPO (Qian et al. 2025) 和 Softmax-DPO (Chen et al. 2024b) 等变体,以应对噪声鲁棒性和无偏学习。
  • 应用于推荐系统挑战:稀疏的、隐式的偏好数据使得静态离线优化和适应动态用户兴趣变得困难 (Deng et al. 2025)。
  • 近期进展:课程学习 (Liao et al. 2024) 和自博弈 (Wu et al. 2024; Gao et al. 2025) 提高了偏好对齐效果。渐进式策略 (progressive strategies) 通过组织由易到难的训练增强了鲁棒性。
  • 本文差异化:本文在这些渐进式策略的基础上,结合自博弈和真实世界反馈,提出了渐进式 DPO 策略 (SP-DPO 和 RF-DPO),旨在弥合静态偏好优化与大规模推荐系统动态需求之间的差距。

3.3. 技术演进

该领域的技术演进可以概括为以下几个阶段:

  1. 传统推荐模型 (Traditional Recommendation Models):早期基于协同过滤、矩阵分解 (Matrix Factorization, MF) 等方法,主要关注用户-物品交互数据,但缺乏对语义内容的深度理解。
  2. 深度学习推荐 (Deep Learning Recommendation):引入深度神经网络,如循环神经网络 (Recurrent Neural Networks, RNN) 和 Transformer,以更好地捕捉序列模式 (SASRec, BERT4Rec) 和图结构信息 (LightGCN)。
  3. LLMs 增强传统推荐:LLMs 作为特征提取器或辅助工具,提升用户/物品表示或进行查询理解。
  4. LLMs 作为生成式推荐器:将推荐任务直接视为文本生成任务,通过生成物品 ID 或语义 ID 来推荐。
    • 早期生成式方法:如 DSI,直接生成 ID。
    • 结合量化词元化:引入 RQ-VAE 等技术将物品嵌入量化为离散词元,如 TIGER、LC-Rec,使得 LLM 可以生成这些词元。这一阶段开始尝试在词元化中加入协同信号 (P5-CID, EAGER-LLM)。
  5. LLMs 偏好对齐与强化学习:将 NLP 领域的 RLHF/DPO 技术引入推荐系统,以更好地对齐用户偏好。
  6. 多级统一对齐:Align3^3GR 代表了这一演进的最新阶段,它不仅在词元化层面融合语义和协同信息,还在行为建模和偏好学习层面进行系统性对齐,并通过渐进式学习和真实反馈来适应动态偏好。

3.4. 差异化分析

Align3^3GR 与相关工作的主要区别和创新点体现在其统一的多级对齐框架上:

  • 与早期生成式推荐的差异

    • BIGRec 使用物品标题作为文本标识符,P5-SemID 使用元数据生成语义标识符,它们主要依赖文本语义。Align3^3GR 则在词元化阶段就融合了语义和协同信号,形成更全面的 SCID。
    • TIGER 和 LC-Rec 使用码本 (codebook) 量化标识符,LETTER 提出了可学习的词元化器。Align3^3GR 在此基础上,通过双重 SCID 词元化,不仅为物品,也为用户生成协同感知的词元,并联合优化用户和物品的表示。
  • 与 EAGER-LLM 的差异:EAGER-LLM 已经开始在词元级对齐中建模用户-物品协同信号。Align3^3GR 更进一步,不仅在词元化阶段进行双重 SCID 的联合优化,还在行为建模阶段引入用户 SCID 注入双向语义对齐任务,并在偏好对齐阶段引入渐进式 DPO,形成更全面的三级对齐。

  • 与现有偏好对齐方法的差异

    • RLHF 和 DPO 及其变体(如 Softmax-DPO)在 NLP 领域取得了成功,但应用于推荐系统时面临数据稀疏和动态偏好的挑战。

    • Align3^3GR 通过渐进式 DPO (SP-DPO 和 RF-DPO),解决了静态偏好优化的问题。SP-DPO 通过自博弈生成多样化数据以缓解数据稀疏性,而 RF-DPO 则通过真实世界反馈逐步对齐动态用户兴趣和业务目标。这种结合课程学习的渐进式策略是其独特之处。

      总之,Align3^3GR 的核心创新在于提供了一个端到端的、统一的多级对齐框架,系统地解决了 LLMs 在推荐任务中从底层数据表示到顶层偏好学习的各个环节的挑战,而非仅仅关注其中某一个方面。

4. 方法论

4.1. 方法原理

Align3^3GR 的核心思想是,将预训练的 LLMs 成功转化为高性能的推荐系统,需要从多个层面对齐 LLMs 的语言建模能力与推荐系统的核心需求。这种对齐不能是孤立的,而应是统一且系统化的。该框架通过三个紧密关联的阶段实现:

  1. 令牌级对齐 (Token-level Alignment):解决如何将用户和物品信息有效编码为 LLMs 可理解的离散词元,同时融合语义和协同信号。

  2. 行为建模级对齐 (Behavior Modeling-level Alignment):解决如何在 LLM 内部的监督微调 (SFT) 阶段,使模型理解推荐任务特有的数据结构、用户行为模式和用户-物品关系。

  3. 偏好级对齐 (Preference-level Alignment):解决如何通过强化学习,特别是渐进式 DPO,使模型的生成输出与真实的、动态的用户偏好和业务目标高度一致。

    直观上,这个多级对齐过程就像建造一座桥梁:

  • 令牌级对齐是打地基,确保用户和物品的基本信息能以最丰富、最紧凑的形式被 LLM 接收。

  • 行为建模级对齐是搭建桥的主体结构,教 LLM 理解“推荐”这个概念,以及用户行为背后的逻辑。

  • 偏好级对齐是精装修和调试,通过真实的反馈和逐步学习,使桥梁能完美适应车流(用户偏好)的变化,并高效运作。

    这种分层、渐进且统一的方法,旨在弥合 LLMs 在语义理解与推荐系统在行为偏好建模之间的根本性差距,从而实现高质量的个性化和鲁棒的适应性。

4.2. 核心方法详解

4.2.1. 框架概述 (Overview of the Proposed Framework)

Align3^3GR 是一个统一的多级对齐框架,旨在系统地弥合 LLMs 和推荐系统之间的差距。如 Figure 2 所示,它由三个紧密对齐的阶段组成:

Figure 2: (a) The architecture of \(\\mathbf { A l i g n ^ { 3 } G R }\) , a unified multi-level alignment framework for generative recommendation, which iedual Cencers andRQ-VAEs.Preferec-evelletplishev proressivP-DPO ndRF-DPO
该图像是一个示意图,展示了Align3^3GR框架的结构,包括多级对齐的机制。图中展示了用户和项目的双重编码,令牌级对齐,以及偏好级对齐的进展,涉及自我游戏(SP-DPO)与真实反馈(RF-DPO)的结合。

图 2:(a) Align3^3GR 的架构,一个用于生成式推荐的统一多级对齐框架,其集成了双重编码器和 RQ-VAE。偏好级通过渐进式 P-DPO 和 RF-DPO 来实现。

  1. 令牌级对齐 (Token-level Alignment):引入基于用户-物品双重学习策略的新型词元化方案,实现用户/物品特定语义-协同特征的双轨融合,生成分层离散的 SCID。这在保持紧凑词元空间的同时,最小化了训练和推理期间的计算开销。

  2. 行为建模级对齐 (Behavior Modeling-level Alignment):在 LCRec (Zheng et al. 2024) 的基础上设计了增强的多任务 SFT。它不仅将用户 SCID 纳入模型,还通过用户对齐任务,显式地将这些 SCID 与其语义信息进行对齐。

  3. 偏好级对齐 (Preference-level Alignment):受课程学习启发,提出一种渐进式 DPO 策略(由易到难)。该策略结合了自博弈 DPO (SP-DPO) 用于持续自我改进,以及真实世界反馈 DPO (RF-DPO) 用于同时从生成性能和真实用户反馈的角度学习偏好。

    这三个级别共同形成了一个连贯的对齐管道,使基于 LLM 的生成式推荐 (GR) 模型能够在大规模动态推荐中实现高质量的个性化和鲁棒的适应性。

4.2.2. 令牌级对齐:双重SCID词元化 (Token-level Alignment: Dual SCID Tokenization)

现有生成式推荐的词元化方法主要编码物品,而忽视用户结构建模。即便有些方法包含了用户表示,也鲜少与物品嵌入共同优化,导致用户-物品对齐不佳且表示缺乏关键的协同信号。Align3^3GR 认为有效的词元化方案应联合编码用户和物品,并利用统一的、共同优化的框架来学习相互对齐的、富有表达力的表示。

双重 SCID 词元化通过在一个统一的双重学习框架中整合用户和物品的语义和协同特征来解决这些问题。具体流程如下:

  1. 特征提取:首先提取用户和物品的语义特征(例如,配置文件或描述)和协同特征(例如,行为模式)。

  2. 专用编码器:这些特征由专门的编码器处理:

    • 冻结的语义编码器 (Frozen Semantic Encoder):使用预训练的语言模型(如 T5 (Ni et al. 2021))初始化,捕捉文本表示。
    • 冻结的协同编码器 (Frozen Collaborative Encoder):使用行为模型(如 DIN (Zhou et al. 2018)),建模行为动态。
  3. 混合语义-协同 (SC) 编码器:将语义和协同嵌入连接 (concatenated) 起来,并通过一个混合 SC 编码器(例如,多层感知器 (MLP))处理,该编码器整合两种信息类型,生成统一的 SC 嵌入(用户为 SCu\mathbf{SCu},物品为 SCi\mathbf{SCi})。

  4. 量化为 SCID:最后,使用 RQ-VAE (Lee et al. 2022) 将这些统一的嵌入量化为离散的 SCID。

    训练目标包括两个主要组成部分:

  5. 嵌入级优化:用户-物品行为损失 (LU2I\mathcal{L}_{\mathrm{U2I}}):为了增强用户和物品 SC 嵌入之间的对齐,我们优化了一个采样-Softmax (sampled-softmax) 用户-物品行为损失 LU2I\mathcal{L}_{\mathrm{U2I}}LU2I=1B(u,i+)B[logexp(uuvi+)exp(uuvi+)+jNuexp(uuvj)] \mathcal { L } _ { \mathrm { U2I } } = - \frac { 1 } { | \mathcal { B } | } \sum _ { ( u , i ^ { + } ) \in \mathcal { B } } \left[ \log \frac { \exp ( \mathbf { u } _ { u } ^ { \top } \mathbf { v } _ { i ^ { + } } ) } { \exp ( \mathbf { u } _ { u } ^ { \top } \mathbf { v } _ { i ^ { + } } ) + \sum _ { j \in \mathcal { N } _ { u } } \exp ( \mathbf { u } _ { u } ^ { \top } \mathbf { v } _ { j } ) } \right]

    • 符号解释
      • B|\mathcal{B}|:批次大小 (batch size)。
      • (u,i+)(u, i^+):表示批次 B\mathcal{B} 中的一个正向用户-物品交互对,其中 uu 是用户, i+i^+ 是用户 uu 实际交互过的正向物品。
      • uu\mathbf{u}_u:用户 uu 的 SC 嵌入 (SCu)。
      • vi+\mathbf{v}_{i^+}:正向物品 i+i^+ 的 SC 嵌入 (SCi)。
      • Nu\mathcal{N}_u:针对用户 uu 随机采样的负向物品集合,通常在批次内进行采样。
      • vj\mathbf{v}_j:负向物品 jj 的 SC 嵌入 (SCi)。
      • exp(uuv)\exp(\mathbf{u}_u^\top \mathbf{v}):表示用户嵌入和物品嵌入的点积经过指数化,可以理解为衡量用户 uu 对物品的偏好或相似度得分。
      • 整个损失函数是一个负对数似然损失,旨在最大化用户 uu 对正向物品 i+i^+ 的偏好得分相对于负向物品 jNuj \in \mathcal{N}_u 的偏好得分。
  6. 整体联合损失 (L\mathcal{L}):将 U2I 行为损失与用户特定和物品特定的 RQ-VAE 量化损失结合起来: L=αLU2I+γ(LUser :RQ+LItem :RQ) \mathcal { L } = \alpha \cdot \mathcal { L } _ { \mathrm { U2I } } + \gamma \cdot \left( \mathcal { L } _ { \mathrm { U s e r \ :R Q } } + \mathcal { L } _ { \mathrm { I t e m \ :R Q } } \right)

    • 符号解释

      • LU2I\mathcal{L}_{\mathrm{U2I}}:如上所述的用户-物品行为损失。
      • LUser:RQ\mathcal{L}_{\mathrm{User:RQ}}:用户嵌入的重建和量化损失,来自用户侧的 RQ-VAE。
      • LItem:RQ\mathcal{L}_{\mathrm{Item:RQ}}:物品嵌入的重建和量化损失,来自物品侧的 RQ-VAE。
      • α,γ\alpha, \gamma:是权衡不同损失项的超参数。
    • 训练策略:实际操作中,首先设置 α=1,γ=0\alpha=1, \gamma=0 来优化 LU2I\mathcal{L}_{\mathrm{U2I}},以稳定行为对齐并确保 SC 编码器充分学习(通过 AUC 监控)。一旦稳定,则切换到 α=0.1,γ=1\alpha=0.1, \gamma=1 以侧重优化量化损失。

      推理阶段:用户和物品模块独立部署,各自生成其 SCID 供下游使用。这种设计不仅压缩了词元空间,还通过在整个模型管道中保留协同关系,使得下游的多任务 SFT 和基于偏好的 RL 更加有效。

4.2.3. 行为建模级对齐:多任务SFT (Behavior Modeling-level Alignment: Multi-task SFT)

在通过对齐词元化获得每个用户和物品的量化 SCID 后,我们继续在新的词元空间中增强 LLM 的生成和语义对齐能力。

  1. 词汇扩展:首先,按照之前的工作 (Zheng et al. 2024),我们将 LLM 的词汇表扩展,使其包含用户和物品的 SCID 词元,从而避免了词汇表外 (out-of-vocabulary, OOV) 问题,并确保与自回归生成任务的平滑整合。
  2. 多任务 SFT 框架:我们基于 LCRec 框架构建了一个多任务 SFT 框架,其中包含以下任务:
    • 序列物品预测 (Sequential Item Prediction)
    • 非对称物品预测 (Asymmetric Item Prediction)
    • 基于用户意图的物品预测 (Item Prediction Based on User Intention)
    • 个性化偏好推理 (Personalized Preference Inference) 这些任务旨在增强模型捕捉序列依赖、理解隐式用户偏好以及多样化和自适应地对齐用户行为与物品的能力。

然而,LC-Rec 在捕捉用户-物品协同和语义关系方面仍有限制。为解决此问题,我们提出两项关键增强:

Figure 3: Behavior Modeling-level Alignment.
该图像是图示,展示了Align3^3GR框架中多层对齐的概念。图中分为三部分:序列物品预测、显性索引-语言对齐以及隐性推荐导向对齐。每部分包含了不同的预测和对齐策略,通过图形化展示了用户与物品关系的建模过程。

图 3:行为建模级对齐。

  1. 用户 SCID 注入:如图 3 所示,我们将用户的 SCID 词元注入到所有任务提示中。这确保了更丰富的上下文对齐,使模型能够利用更全面的用户特征。
  2. 双向对齐目标 (Bidirectional Alignment Objectives):引入了两个额外的双向对齐任务,明确地将结构化信息与语义信息对齐:
    • 文本到 SCID (text \to SCID):从用户档案文本 (profile text) 预测用户的 SCID 词元。这有助于 LLM 将用户的自然语言描述与其结构化的 SCID 关联起来。

    • SCID 到文本 (SCID \to text):从给定的 SCID 词元重构用户档案文本。这使得 LLM 能够理解 SCID 所蕴含的真实世界语义含义,从而为 SCID 词元提供语义基础。

      与现有工作相比,我们的 SFT 设计通过直接整合 SCID 词元来丰富用户建模,并通过双向任务显式对齐结构化和语义信息,为下游的偏好优化提供了更坚实的基础。

4.2.4. 偏好级对齐:带有自博弈和真实世界反馈的渐进式DPO (Preference-level Alignment: Progressive DPO with Self-Play and Real-world Feedback)

尽管前述阶段使模型具备了初步的推荐能力,但在 SFT 之后简单的偏好优化不足以实现持续改进或鲁棒的业务对齐。这是因为标注偏好数据的覆盖范围有限,无法捕捉真实推荐场景的全部复杂性。为解决此问题,我们引入了结合自博弈 (SP-DPO) 和真实世界反馈 (RF-DPO) 的渐进式 DPO 策略。

具体来说,SP-DPO 首先利用自博弈来获得基本的生成能力,通过生成多样化和信息丰富的数据,从而缓解数据稀疏性和探索限制。然后,RF-DPO 利用真实世界反馈将模型约束到真实推荐任务,形成一个协同的、渐进式学习策略。渐进式 DPO 基于 Softmax-DPO (Chen et al. 2024b),通过构建包含多个被拒绝响应的训练样本。它以 SFT 模型作为初始化。每个阶段的训练目标正式定义为:

\begin{array} { r l r } { { \mathcal { L } ( \pi _ { \theta } ^ { i } , \pi _ { \mathrm { r e f } } ^ { i } ) = - \mathbb { E } _ { ( x , y _ { w } ^ { i } , Y _ { l } ^ { i } ) \sim \mathcal { D } ^ { i } } \Bigg [ \log \sigma \Bigg ( - \log \sum _ { y _ { l } ^ { i } \in Y _ { l } ^ { i } } \exp ( \frac { \sigma } { \sigma } ) } \\ & { } & { ( \beta \log \frac { \pi _ { \theta } ^ { i } ( y _ { l } ^ { i } \mid x ) } { \pi _ { \mathrm { r e f } } ^ { i } ( y _ { l } ^ { i } \mid x ) } - \beta \log \frac { \pi _ { \theta } ^ { i } ( y _ { w } ^ { i } \mid x ) } { \pi _ { \mathrm { r e f } } ^ { i } ( y _ { w } ^ { i } \mid x ) } ) \Bigg ) \Bigg ] } } \end{array}

  • 符号解释
    • πθi\pi _ { \theta } ^ { i }:在阶段 ii 的当前策略模型(即待优化的 LLM)。

    • πrefi\pi _ { \mathrm { ref } } ^ { i }:在阶段 ii 的参考策略模型,通常是之前阶段训练好的模型或 SFT 模型,其参数在当前阶段固定。

    • xx:输入提示 (prompt),例如用户行为历史。

    • ywiy _ { w } ^ { i }:在阶段 ii 的“被选择”响应 (chosen response),即优选的推荐结果。

    • YliY _ { l } ^ { i }:在阶段 ii 的“被拒绝”响应集合 (set of rejected responses),即劣选的推荐结果。

    • Di\mathcal { D } ^ { i }:在阶段 ii 的渐进式训练数据集。

    • β\beta:一个超参数,用于控制 DPO 损失的强度。

    • σ()\sigma ( \cdot ):Sigmoid 激活函数。

    • 公式中的 logyliYliexp(σσ)\log \sum_{y_l^i \in Y_l^i} \exp(\frac{\sigma}{\sigma}) 部分存在明显的格式问题或印刷错误,根据 Softmax-DPO 的标准形式,它通常表示被拒绝响应的对数几率之和的对数项,或者是与奖励函数相关的项。此处按照原文精确复述,但需注意其可能不完整或存在排版问题。在标准 Softmax-DPO 中,该项应为 logyliYliexp(βlogπθi(ylix)πrefi(ylix))\log \sum_{y_l^i \in Y_l^i} \exp(\beta \log \frac{\pi_\theta^i(y_l^i|x)}{\pi_{\mathrm{ref}}^i(y_l^i|x)} ),代表被拒绝响应的负偏好分数之和。

    • 该损失函数的目标是最大化被选择响应的相对对数概率与被拒绝响应的相对对数概率之间的差距。通过这种方式,模型学会区分优选和劣选的响应,从而与偏好数据对齐。

      每个阶段微调后的模型 πθi\pi _ { \theta } ^ { i } 将成为下一个阶段的参考策略 πrefi+1ˉ\pi _ { \mathrm { ref } } ^ { i + { \bar { 1 } } },从而更好地捕捉偏好差异。

渐进式 SP-DPO (Progressive SP-DPO): 利用自博弈机制通过比较其自身生成的输出与真实情况来增强模型的生成能力。考虑到 SCID 的分层性质,我们将渐进式 SP-DPO 学习分为三个阶段:容易 (Easy)中等 (Medium)困难 (Hard)。这使用前缀-Ngram 匹配度量 (prefix-ngram match metric) (Zheng et al. 2025) 进行区分(相同的前缀表示相似的语义和协同信息)。

  • 容易阶段:偏好数据中被选择和被拒绝的 SCID 响应完全不同,没有共享的前缀-Ngram,易于区分。
  • 中等和困难阶段:被选择和被拒绝的 SCID 响应之间的前缀-Ngram 重叠度逐渐增加,增加了判别的难度,但它们仍然是非相同的。 这些三阶段偏好数据,结合真实用户行为序列,逐步作为训练数据 Di\mathcal { D } ^ { i } 用于偏好学习。此外,前缀-Ngram 匹配度量可以扩展到 SCID 向量相似度度量,以实现更“软”的样本构建策略。

渐进式 RF-DPO (Progressive RF-DPO): 通过向用户推荐其自身生成的结果来捕获真实用户反馈作为偏好对齐数据。反馈被分为三个级别:厌恶 (disliked)中性 (neutral)喜欢 (liked)

  • 渐进式学习

    • 容易阶段:使用强烈厌恶的物品作为负样本(喜欢的物品作为正样本)。
    • 困难阶段:使用中性物品作为更难的负样本(喜欢的物品仍为正样本)。 这种分阶段的方法系统地强化了偏好学习。
  • 在工业推荐设置中

    • 厌恶:显式负反馈(例如,不喜欢)。
    • 中性:隐式负反馈(例如,曝光但未点击)。
    • 喜欢:正反馈(例如,喜欢或购买)。
  • 在公开数据集(例如,Amazon 评论)中:使用基于 LLM 的情感模型 (ecomgpt (Li et al. 2023)) 对评论进行评分,将分数映射到不同级别:厌恶 (1分)、中性 (2-3分)、喜欢 (4-5分)。

    整合这种细粒度的反馈使得 RF-DPO 能够更好地与用户兴趣和业务目标对齐,从而提高推荐相关性。

渐进式 DPO 框架的优势: 通过采用从易到难的渐进式过程,并同时利用自博弈和真实世界反馈,模型能够持续增强其识别和泛化用户偏好的能力,克服静态数据的“偏好天花板”。关键的理论洞察是,精心设计的课程可以提供任务分布之间更平滑的插值,从而实现比直接方法更高效的学习。

5. 实验设置

5.1. 数据集

实验使用了三个来自不同领域的真实世界序列推荐数据集:

  1. Instruments:亚马逊评论数据集的一个子集,主要关注用户与乐器设备的交互。

  2. Beauty:同样来自亚马逊评论数据集,包含与美容产品相关的广泛用户行为。

  3. Yelp:包含来自 Yelp 挑战赛数据集的用户-商家交互。

    数据预处理:遵循标准协议 (Zheng et al. 2024; Rajput et al. 2023; Wang et al. 2024a),对交互次数少于五次的用户和物品进行过滤。采用留一法 (leave-one-out strategy) 将数据划分为训练集、验证集和测试集。所有序列模型的用户历史长度限制为最多 20 个物品。

工业级部署:Align3^3GR 还在一个工业级大型广告推荐平台上进行了在线 A/B 测试和全面部署。

5.2. 评估指标

模型性能使用标准的 Top-K 指标进行评估:

  1. Recall@K (R@K\mathrm{R@K})

  2. NDCG@K (N@K\mathrm{N@K})

    其中 K{5,10}K \in \{5, 10\}。以下是这些指标的详细说明:

5.2.1. Recall@K (召回率@K)

  • 概念定义:Recall@K 衡量的是在模型推荐的 Top-K 物品列表中,有多少比例的用户实际感兴趣(即在测试集中有过交互)的物品被成功召回。它关注的是模型发现所有相关物品的能力。对于序列推荐任务,通常指模型成功预测到下一个真实交互物品的比例。
  • 数学公式: 对于单个用户 uu 的一次推荐,如果其下一个真实交互物品 inexti_{next} 包含在推荐列表 LuL_u 的前 KK 个物品中: Recall@Ku={1if inextLu[1..K]0otherwise\mathrm{Recall@K}_u = \begin{cases} 1 & \text{if } i_{next} \in L_u[1..K] \\ 0 & \text{otherwise} \end{cases} 最终的 Recall@K 是所有用户 Recall@K 值的平均: Recall@K=1UuURecall@Ku\mathrm{Recall@K} = \frac{1}{|U|} \sum_{u \in U} \mathrm{Recall@K}_u
  • 符号解释
    • KK:推荐列表的长度阈值。
    • inexti_{next}:用户 uu 在测试集中的下一个真实交互物品。
    • Lu[1..K]L_u[1..K]:模型为用户 uu 生成的 Top-K 推荐物品列表。
    • U|U|:测试集中用户的总数。

5.2.2. NDCG@K (归一化折损累积增益@K)

  • 概念定义:NDCG@K 是一种更精细的推荐列表质量评估指标,它不仅考虑了推荐物品的相关性,还考虑了这些物品在推荐列表中的位置。相关性更高的物品如果排名靠前,会获得更高的分数。这是一个归一化指标,值介于 0 到 1 之间,1 表示完美推荐。
  • 数学公式: 首先计算折损累积增益 (Discounted Cumulative Gain, DCG): DCG@K=j=1K2relj1log2(j+1)\mathrm{DCG@K} = \sum_{j=1}^{K} \frac{2^{rel_j} - 1}{\log_2(j+1)} 然后计算理想折损累积增益 (Ideal Discounted Cumulative Gain, IDCG),即假设推荐列表是完美排序的 DCG 值: IDCG@K=j=1K2reljideal1log2(j+1)\mathrm{IDCG@K} = \sum_{j=1}^{K} \frac{2^{rel_j^{\text{ideal}}} - 1}{\log_2(j+1)} 最终的 NDCG@K 是 DCG@K 与 IDCG@K 的比值: NDCG@K=DCG@KIDCG@K\mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}
  • 符号解释
    • KK:推荐列表的长度阈值。
    • jj:推荐列表中物品的位置(排名)。
    • reljrel_j:在推荐列表第 jj 位上的物品的相关性得分。在序列推荐中,如果第 jj 位是下一个真实交互物品,则 relj=1rel_j=1,否则 relj=0rel_j=0
    • reljidealrel_j^{\text{ideal}}:在理想排序下,第 jj 位物品的相关性得分。对于只有一个真实下一个交互物品的序列推荐,这意味着如果真实物品排在第一位,则 rel1ideal=1rel_1^{\text{ideal}}=1,其他为 0。
    • log2(j+1)\log_2(j+1):对位置 jj 的惩罚因子,排名越靠后的物品,其增益折损越大。

5.2.3. Revenue (Improve.) (营收提升)

  • 概念定义:在工业级广告推荐平台中,营收提升是直接衡量推荐系统商业价值的核心指标。它量化了新模型相对于基线模型在特定时间段内带来的总收入增长百分比。
  • 数学公式:通常通过 A/B 测试计算,公式为: Revenue Improve.=Treatment Group RevenueControl Group RevenueControl Group Revenue×100%\mathrm{Revenue\ Improve.} = \frac{\mathrm{Treatment\ Group\ Revenue} - \mathrm{Control\ Group\ Revenue}}{\mathrm{Control\ Group\ Revenue}} \times 100\%
  • 符号解释
    • Treatment Group Revenue:实验组(使用新模型)的总营收。
    • Control Group Revenue:对照组(使用基线模型)的总营收。

5.3. 对比基线

论文将 Align3^3GR 与以下两类强基线模型进行了比较:

5.3.1. 传统推荐方法

  • MF (Matrix Factorization) (Mehta and Rana 2017):矩阵分解,一种经典的协同过滤方法,通过将用户和物品分解到低维隐空间来预测偏好。
  • LightGCN (He et al. 2020):一种轻量级的图卷积网络 (Graph Convolutional Network, GCN),通过在用户-物品交互图上传播嵌入来学习用户和物品表示。

5.3.2. 序列推荐方法

  • Caser (Tang and Wang 2018):使用卷积序列嵌入的个性化 Top-N 序列推荐模型。
  • HGN (Ma, Kang, and Liu 2019):用于序列推荐的分层门控网络 (Hierarchical Gating Networks)。
  • BERT4Rec (Sun et al. 2019):基于 Transformer 的双向编码器表示,适用于序列推荐。
  • SASRec (Kang and McAuley 2018):自注意力序列推荐模型,使用 Transformer 捕获序列依赖。
  • BigRec (Bao et al. 2025):一种基于 LLM 的 GR 模型,使用物品标题作为文本标识符。

5.3.3. 生成式和基于 LLM 的推荐方法

  • P5-SemID (Wang et al. 2024a):利用物品元数据作为语义标识符的生成式推荐模型。
  • P5-CID (Wang et al. 2024a):通过聚类方式将协同信号整合到基于 LLM 的模型中的方法。
  • TIGER (Rajput et al. 2023):应用码本 (codebook) 量化标识符的生成式检索推荐模型。
  • LETTER-TIGER (Wang et al. 2024a):LETTER 是一种可学习的词元化器,与 TIGER 结合使用。
  • LC-Rec (Zheng et al. 2024):通过辅助对齐任务增强码本词元化的模型。
  • LETTER-LC-Rec (Wang et al. 2024a):LETTER 与 LC-Rec 结合使用。
  • EAGER-LLM (Hong et al. 2025):进一步建模用户-物品协同信号以实现词元级对齐的方法。

5.4. 实现细节

  • 骨干 LLM (Backbone LLM):Llama2-7B (Touvron et al. 2023)。
  • 参数高效微调 (Parameter-Efficient Fine-tuning, PEFT):采用 LoRA (Low-Rank Adaptation of Large Language Models) (Hu et al. 2022) 进行微调。
  • 物品词元化 (Item Tokenization):使用 3 级 RQ-VAE,每个码本包含 256 个维度为 32 的嵌入。
  • SCID 整合:用户和物品的 SCID 表示都被整合到模型的词汇表中,以防止 OOV (Out-Of-Vocabulary) 问题。
  • 训练过程
    • 总步数:20,000 步。
    • 优化器:AdamW。
    • 批次大小 (Batch Size):1024。
    • 学习率 (Learning Rate):从 {1e3,5e4,1e4}\{1\mathrm{e}{-3}, 5\mathrm{e}{-4}, 1\mathrm{e}{-4}\} 中根据验证集性能选择。
  • 硬件:4 块 NVIDIA RTX A800 GPU。
  • 超参数调优:例如 α\alphaβ\beta,在验证集上进行调优。
  • Softmax-DPO 设置:对于每个样本,选择一个被选响应 (chosen response),20 个被拒绝响应 (rejected responses)。
  • 评估:报告不同随机种子下五次运行的平均结果。
  • 生成式方法:使用束搜索 (beam search),束宽 (beam width) 设置为 20。

6. 实验结果与分析

6.1. 离线性能

以下是原文 Table 1 的结果,展示了 Align3^3GR 在三个公共数据集上的整体离线性能。

以下是原文 Table 1 的结果:

Model Instruments Beauty Yelp
R@5 R@10 N@5 N@10 R@5 R@10 N@5 N@10 R@5 R@10 N@5 N@10
Traditional Recommendation Methods
MF 0.0479 0.0735 0.0330 0.0412 0.0294 0.0474 0.0145 0.0191 0.0220 0.0381 0.0138 0.0190
LightGCN 0.0794 0.1000 0.0662 0.0728 0.0305 0.0511 0.0194 0.0260 0.0248 0.0407 0.0156 0.0207
Sequential Recommendation Methods
Caser 0.0543 0.0710 0.0355 0.0409 0.0205 0.0347 0.0131 0.0176 0.0150 0.0263 0.0099 0.0134
HGN 0.0813 0.1048 0.0668 0.0774 0.0325 0.0512 0.0206 0.0266 0.0186 0.0326 0.0115 0.0159
Bert4Rec 0.0671 0.0822 0.0560 0.0608 0.0203 0.0347 0.0124 0.0170 0.0186 0.0291 0.0115 0.0159
SASRec 0.0851 0.0947 0.0627 0.0690 0.0380 0.0588 0.0246 0.0313 0.0183 0.0296 0.0116 0.0152
BigRec 0.0713 0.0576 0.0470 0.0491 0.0243 0.0299 0.0110 0.0198 0.0154 0.0169 0.0137 0.0142
Generative and LLM-based Recommendation Methods
P5-SemID 0.0775 0.0964 0.0669 0.0730 0.0393 0.0584 0.0273 0.0335 0.0202 0.0324 0.0131 0.0170
P5-CID 0.0809 0.1006 0.0682 0.0741 0.0404 0.0597 0.0284 0.0347 0.0219 0.0347 0.0140 0.0181
TIGER 0.0870 0.1058 0.0737 0.0797 0.0395 0.0610 0.0262 0.0331 0.0253 0.0407 0.0164 0.0213
LC-Rec 0.0909 0.1122 0.0763 0.0831 0.0431 0.0672 0.0286 0.0364 0.0277 0.0359 0.0158 0.0199
LETTER-LC-Rec 0.0824 0.1015 0.0712 0.0772 0.0443 0.0642 0.0311 0.0374 0.0230 0.0393 0.0168 0.0211
EAGER-LLM 0.0991 0.1224 0.0851 0.0926 0.0548 0.0830 0.0369 0.0459 0.0373 0.0569 0.0251 0.0315
Align3^3GR 0.1103 0.1442 0.0970 0.1113 0.0627 0.0994 0.0434 0.0529 0.0425 0.0679 0.0299 0.0403
Improvement +11.3% +17.8% +11.3% +20.2% +14.4% +19.8% +17.6% +15.3% +13.9% +19.3% +19.1% +27.9%

观察与分析

  • Align3^3GR 的卓越性能:Align3^3GR 在所有三个数据集(Instruments, Beauty, Yelp)和所有评估指标(Recall@5, Recall@10, NDCG@5, NDCG@10)上都持续取得了最佳或极具竞争力的结果。这强有力地验证了其多级对齐策略的有效性。
  • 显著超越 SOTA 基线
    • 特别是在 Instruments 数据集上,Align3^3GR 显著超越了最强的生成式基线 EAGER-LLM,Recall@10 提升了 17.8%,NDCG@10 提升了 20.2%。这种提升幅度非常可观,表明其在捕获复杂用户偏好和协同关系方面具有显著优势。
    • BeautyYelp 数据集上,也观察到了类似的显著性能提升,例如 Beauty 上的 Recall@10 提升 19.8%,Yelp 上的 NDCG@10 提升 27.9%。
  • 生成式方法普遍优于传统方法:总体来看,基于 LLM 的生成式推荐方法(如 TIGER, LC-Rec, EAGER-LLM, Align3^3GR)普遍优于传统的推荐方法(如 MF, LightGCN, Caser, BERT4Rec, SASRec)。这表明 LLM 在推荐任务中利用其语义理解和生成能力确实带来了性能优势。
  • 协同信号的重要性:P5-CID (融入协同信号) 通常优于 P5-SemID (仅语义 ID),这凸显了协同信息在推荐中的重要性。EAGER-LLM 进一步建模用户-物品协同信号,性能也优于其他大多数生成式基线,直到 Align3^3GR 的出现。
  • 多级对齐的综合效果:Align3^3GR 的成功归因于其将令牌级(双重 SCID 词元化)、行为建模级(增强多任务 SFT)和偏好级(渐进式 DPO)对齐有机地结合在一起。这种全面的对齐策略使其能够:
    • 更有效地捕获用户和物品的复杂关系。

    • 更好地理解用户行为模式。

    • 更精确地适应动态用户偏好。

      这些离线评估结果充分证明了 Align3^3GR 每个对齐级别,以及统一词元化和自适应偏好优化策略的协同作用,对于实现鲁棒、可扩展的生成式推荐至关重要。

6.2. 增量对齐配置下的性能

下图(原文 Figure 4)展示了在 Instruments 数据集上,逐步添加 Align3^3GR 各个模块时,Recall@10 的增量性能。

Figure 4: Recall \(( \\% 1 0 \\% )\) under incremental alignment configurations; "Single `+` SEQ" denotes using item-side semantic IDs as tokens for the sequence task, while `" + "` indicates cumulative addition of each module.
该图像是一个图表,展示了在增量对齐配置下的 Recall ( ext{Recall@10} ext{\text{(}%\text{)}}) 结果。图中比较了不同方法的性能,包括 'Single + SEQ' 和各个对齐级别的逐步添加,结果显示了各方法的 Recall 变化趋势。

图 4:在增量对齐配置下的 Recall@10 (百分比);“Single + SEQ”表示使用物品侧语义 ID 作为序列任务的词元,而“+”表示每个模块的累积添加。

观察与分析

  • 清晰的性能提升轨迹:Figure 4 清晰地揭示了 Align3^3GR 框架中每个对齐模块对模型性能的积极贡献,呈现出明显的上升趋势。

  • 令牌级对齐的显著影响

    • 从“Single + SEQ”基线(使用物品侧语义 ID)到引入双重学习 (Dual Learning) 的物品侧 SCID,性能出现了急剧提升。这强调了在令牌级别建模协同语义的价值,以及双重 SCID 词元化在为后续任务打下坚实基础方面的作用。
    • 后续引入用户侧 SCID 也进一步贡献了性能,表明用户和物品的联合词元化是有效的。
  • 行为建模级对齐的贡献:在令牌级对齐的基础上,行为建模级对齐(例如,通过增强多任务 SFT,包括用户 SCID 注入和双向语义对齐)进一步提高了性能。

  • 偏好级对齐带来最实质性改进:该图显示,偏好级对齐阶段(特别是渐进式 DPO 结合自博弈和真实世界反馈)带来了最实质性的性能提升。这凸显了 Align3^3GR 在动态场景中适应用户偏好的强大能力。

  • 全面超越 SOTA 基线:在所有阶段,Align3^3GR 的性能都显著优于最先进的基线 EAGER-LLM。这证实了多级对齐在弥合 LLMs 与推荐系统之间差距方面的优越性。

    这些增量实验结果不仅证明了 Align3^3GR 整体框架的有效性,也验证了其每个组件的必要性和贡献。

6.3. 在线 A/B 测试

以下是原文 Table 2 的结果,展示了 Align3^3GR 在工业场景中的性能对比。

以下是原文 Table 2 的结果:

Baseline TIGER Align3^3GR
Recall@100 0.218 0.229 0.242
Revenue (Improve.) - 0.555%↑ 1.432% ↑

观察与分析

  • 工业级 Recall@100 提升:Align3^3GR 在在线召回率 (Recall@100) 方面超越了工业两塔检索基线 (Baseline) 和生成式 TIGER 模型,达到了 0.242。这表明 Align3^3GR 能够有效地召回更多相关物品。

  • 显著的营收提升:最重要的是,Align3^3GR 在所有广告场景的全面部署中,实现了统计学上显著的 +1.432% 的营收提升。这是一个关键的业务指标,直接证明了 Align3^3GR 在实际生产环境中带来了切实的商业价值。

  • 超越其他生成式模型:Align3^3GR 的营收提升显著高于 TIGER 模型 (+0.555%↑),这进一步证实了其方法在工业级大规模场景下的优越性。

    这些结果表明,Align3^3GR 的多级对齐策略能够将离线优势转化为可衡量的业务价值,证明了其在生产环境中的实用性和有效性。

6.4. 消融研究

为了深入探究每个对齐级别的影响,论文在 Instruments 数据集上进行了全面的消融研究。为了确保公平性,当对某个对齐级别进行消融时,其余级别的配置都固定在其最佳设置。例如,在研究令牌级对齐时,SFT 任务和渐进式 RF-DPO 策略都采用完整设置。

6.4.1. 双重 SCID 词元化的影响

以下是原文 Table 3 的结果,展示了双重 SCID 词元化的消融研究结果。

以下是原文 Table 3 的结果:

Tokenization CF U-I Alignment Recall@10 NDCG@10
Item × × 0.1322 0.0978
Item × 0.1346 0.0991
Dual × × 0.1390 0.1032
Dual × 0.1426 0.1083
Dual × 0.1428 0.1091
Dual 0.1442 0.1113

符号解释

  • Tokenization (词元化)

    • Item:仅使用物品侧词元化,不进行用户-物品联合编码。
    • Dual:激活用户和物品的双重词元化。
  • CF (Collaborative Features, 协同特征):指示是否包含协同特征。

  • U-I Alignment (用户-物品对齐):指示是否通过 LU2I\mathcal{L}_{\mathrm{U2I}} 行为损失联合优化用户和物品嵌入。

    观察与分析

  • 双重词元化的必要性:从 Item 切换到 Dual 词元化(第一行 vs 第三行,或第二行 vs 第五行)带来了显著的性能提升。例如,从 Item (×\timesCF, ×\timesU-I Alignment) 的 Recall@10 0.1322 提升到 Dual (×\timesCF, ×\timesU-I Alignment) 的 0.1390。这表明联合建模用户和物品词元表示是至关重要的。

  • 协同特征的重要性:在 ItemDual 两种词元化设置下,引入协同特征 (CF) 都会进一步增强性能(第一行 vs 第二行,第三行 vs 第五行)。这突出强调了在表示学习过程中整合协同信号的重要性。

  • 用户-物品对齐的有效性:通过 LU2I\mathcal{L}_{\mathrm{U2I}} 行为损失进行用户-物品对齐(U-I Alignment)带来了持续的增益,尤其是在结合了双重词元化和协同特征时。例如,从 Dual (×\timesCF, ×\timesU-I Alignment) 的 Recall@10 0.1390 提升到 Dual (×\timesCF, U-I Alignment) 的 0.1426。

  • 所有组件的互补性:最终,当所有组件(双重词元化、协同特征和用户-物品对齐)都被激活时 (Dual, CF, U-I Alignment),Align3^3GR 达到了最佳性能 (Recall@10 0.1442, NDCG@10 0.1113)。这证明了所有三个组件都是互补的,并且对于实现最佳推荐性能至关重要。

    这些结果有力地证明了双重 SCID 词元化设计的合理性及其各个组成部分对模型性能的贡献。

6.4.2. 行为建模级对齐任务的影响

以下是原文 Table 4 的结果,展示了各种语义对齐任务的消融研究结果。

以下是原文 Table 4 的结果:

Methods Recall@5 Recall@10 NDCG@5 NDCG@10
SEQ 0.1042 0.1329 0.0867 0.0982
+ B1 0.1054 0.1399 0.0908 0.1045
+ User SCID 0.1091 0.1417 0.0937 0.1051
+ B2 0.1103 0.1442 0.0959 0.1113

符号解释

  • SEQ:基础任务,使用用户历史行为中的物品 SCID 进行序列预测。

  • + B1:在 SEQ 基础上,引入了什么任务,原文中未明确说明 B1 对应哪个具体任务,根据上下文可能指 LC-Rec 中的其他辅助任务或某种基础的对齐任务,但由于原文未提供具体定义,此处不做额外推测。

  • + User SCID:在 SEQ 基础上,将用户 SCID 词元注入所有任务提示。

  • + B2:在 SEQ 基础上,引入了用户侧双向对齐任务 (bidirectional alignment objectives),即从文本预测用户 SCID 和从用户 SCID 重构用户文本。

    观察与分析

  • SEQ 任务作为基线:以 SEQ 任务(使用物品 SCID 进行序列预测)作为起点,其性能为 Recall@10 0.1329,NDCG@10 0.0982。

  • 用户 SCID 的贡献:在 SEQ 任务的基础上,引入用户 SCID (行 + User SCID) 带来了额外的性能增益 (Recall@10 提升至 0.1417)。这表明将结构化且信息丰富的用户 SCID 词元直接注入到 LLM 的输入中,有助于 LLM 更好地捕捉用户-物品交互语义,提升用户建模能力。

  • 双向对齐任务 (B2) 的显著效果引入用户侧双向对齐任务 +B2+ B2 带来了最显著的性能提升 (Recall@10 达到 0.1442,NDCG@10 达到 0.1113)。这个任务通过在用户档案文本和 SCID 之间建立双向监督,使得 LLM 能够更深层次地将结构化用户 SCID 与其真实的语义含义对齐。这证明了将 LLMs 暴露于结构化用户语义的关键作用。

  • 结合令牌级和语义级监督:这些发现支持了作者的假设,即有效的对齐需要在令牌级和语义级都进行监督,从而使模型能够在语言和推荐信号之间建立更强的对应关系。

6.4.3. 偏好级对齐任务的影响

以下是原文 Table 5 的结果,展示了偏好级对齐策略的消融研究结果。

以下是原文 Table 5 的结果:

DPO Variant Self-Play Progressive Recall@10 NDCG@10
Softmax-DPO × × 0.1295 0.0972
SP-DPO × 0.1356 0.1033
SP-DPO 0.1396 0.1042
RF-DPO (based on progressive SP-DPO) × 0.1414 0.1049
RF-DPO (based on progressive SP-DPO) 0.1442 0.1113

符号解释

  • Softmax-DPO:作为基线,使用朴素的 Softmax-DPO 方法,其中“被选择”响应是真实下一个物品 SCID,“被拒绝”响应是随机采样的 20 个生成物品 SCID。

  • SP-DPO (Self-Play DPO):引入自博弈机制的 DPO。

  • RF-DPO (Real-world Feedback DPO):引入真实世界反馈的 DPO。根据原文描述,RF-DPO 是在渐进式 SP-DPO 的基础上进行的。

  • Self-Play (自博弈):指示是否启用自博弈机制。

  • Progressive (渐进式):指示是否采用从易到难的课程学习策略。

    观察与分析

  • DPO 基线:从 SFT 训练好的模型开始,基线 Softmax-DPO (不带自博弈和渐进式) 取得了 Recall@10 0.1295 和 NDCG@10 0.0972 的性能。

  • 自博弈 (Self-Play) 的效果:引入自博弈机制 (从 Softmax-DPOSP-DPO, Self-Play, ×Progressive) 使 Recall@10 从 0.1295 提升到 0.1356。这表明自博弈能够通过生成多样化的训练数据,有效提升模型的生成能力和偏好学习效果,缓解数据稀疏和探索限制。

  • 渐进式学习 (Progressive Learning) 的效果

    • 在 SP-DPO 分支中,应用渐进式学习 (从 SP-DPO ×Progressive 到 SP-DPO Progressive) 进一步提高了性能 (Recall@10 提升到 0.1396)。这验证了从易到难的课程学习策略能够带来更平稳的收敛和更稳定的训练。
    • 在 RF-DPO 分支中,渐进式训练 (RF-DPO Progressive) 同样持续优于静态版本 (RF-DPO ×Progressive),最终达到了最佳的整体性能 (Recall@10 0.1442, NDCG@10 0.1113)。
  • 真实世界反馈 (Real-world Feedback) 的最终优势:RF-DPO (基于渐进式 SP-DPO) 引入真实世界反馈后,性能进一步提升。结合渐进式策略的 RF-DPO 达到了整个消融研究中的最佳性能。这表明将模型与实际用户兴趣和业务目标对齐是至关重要的,而渐进式策略使其能够更有效地利用这些反馈。

    这些结果共同证明了渐进式优化和真实反馈整合的互补优势,它们在将 LLMs 与用户偏好信号对齐方面发挥着关键作用。

7. 总结与思考

7.1. 结论总结

本文提出了 Align3^3GR,一个为基于 LLM 的生成式推荐设计的统一多级对齐框架。该框架旨在弥合预训练 LLMs 的语言建模能力与推荐系统对用户隐式偏好和行为模式建模之间的根本性差距。Align3^3GR 通过以下三个紧密集成且相互促进的对齐级别实现这一目标:

  1. 令牌级对齐:引入双重语义-协同 ID (SCID) 词元化,联合编码用户和物品的语义与协同信息,为 LLM 提供了丰富且紧凑的输入表示。

  2. 行为建模级对齐:通过增强的多任务监督微调 (SFT),将用户 SCID 注入提示,并引入双向语义对齐任务(文本到 SCID,SCID 到文本),使 LLM 能够更深入地理解用户行为模式和结构化语义。

  3. 偏好级对齐:采用渐进式直接偏好优化 (DPO) 策略,结合自博弈 DPO (SP-DPO) 生成多样化数据,以及真实世界反馈 DPO (RF-DPO) 逐步与实际用户偏好和业务目标对齐,通过“由易到难”的课程学习方式持续优化模型。

    实验结果在多个公共数据集(Instruments, Beauty, Yelp)上证明了 Align3^3GR 的卓越性能,Recall@10 和 NDCG@10 等指标显著超越了最先进的基线模型,最高提升分别达到 17.8% 和 20.2%。更重要的是,在工业级大规模广告推荐平台的在线 A/B 测试中,Align3^3GR 实现了统计学上显著的 +1.432% 营收提升,验证了其在实际生产环境中的商业价值和可扩展性。

这些发现突出强调了分层对齐对于构建鲁棒、自适应和高性能 LLM 驱动的生成式推荐系统的重要性。

7.2. 局限性与未来工作

尽管 Align3^3GR 取得了显著成功,但论文中并未明确提供独立的局限性或未来工作章节。根据论文内容和当前研究趋势,可以推断出以下潜在局限性及未来研究方向:

潜在局限性

  1. 计算资源需求:Align3^3GR 依赖 Llama2-7B 作为骨干 LLM,并涉及多级训练(词元化、SFT、DPO)。这通常意味着巨大的计算资源需求,包括大量的 GPU 内存和计算时间。对于资源有限的研究者或小型企业,部署和训练成本可能较高。

  2. 数据依赖性:尽管渐进式 DPO 引入了自博弈来缓解数据稀疏性,但真实世界反馈 DPO 仍然高度依赖高质量、大规模的用户反馈数据。对于新启动的平台或长尾物品,获取足够的反馈数据仍可能是一个挑战。

  3. DPO 公式表达:论文中 DPO 损失函数(公式 3)的表达在 exp(\frac{\sigma}{\sigma}) 部分存在明显格式问题或印刷错误,这可能给读者理解其精确数学含义带来困扰。

  4. 模型复杂性:多级对齐框架的引入使得整个系统变得更加复杂,调试、维护和理解各组件之间的相互作用可能需要更多专业知识。

  5. 缺乏对冷启动和长尾问题的显式讨论:虽然融合了协同信号,但论文没有详细分析 Align3^3GR 在处理新用户、新物品(冷启动问题)或推荐长尾物品方面的具体表现和优势。

    未来工作方向

  6. 更高效的 DPO 变体:探索新的 DPO 变体,以进一步提高训练效率、稳定性和对噪声偏好的鲁棒性。例如,结合离线强化学习 (Offline RL) 技术来更好地利用历史数据。

  7. 多模态推荐:将 Align3^3GR 扩展到多模态推荐场景,融合图像、视频、音频等非文本信息,以提供更丰富和个性化的推荐。

  8. 实时适应性:研究如何进一步提升模型的实时适应能力,以应对用户偏好和物品库的快速变化。例如,探索在线学习或更快的微调机制。

  9. 公平性与可解释性:对 LLM 驱动的推荐系统进行公平性 (fairness) 和可解释性 (interpretability) 分析,确保推荐结果的公正性,并向用户提供推荐理由。

  10. 不同 LLM 骨干的探索:评估 Align3^3GR 在不同规模和架构的 LLM 骨干模型上的表现,以探究其通用性和可扩展性。

  11. 更精细的用户行为建模:探索更复杂的序列建模技术或外部知识图谱,以捕获更深层次的用户意图和物品关系。

7.3. 个人启发与批判

个人启发: Align3^3GR 的设计思路非常具有启发性,它没有将 LLM 和推荐系统简单地拼接,而是从底层表示到高层偏好学习进行了系统性的深度融合。这种“三级对齐”的框架体现了对 LLM 在推荐领域面临挑战的深刻理解:

  1. SCID 的重要性:双重 SCID 词元化是其成功的基础。通过将语义和协同信息深度融合到一个紧凑的离散表示中,LLM 能够同时捕捉到物品的属性和用户行为偏好,这比单纯的 ID 或语义 ID 更具表达力。

  2. 渐进式 DPO 的巧妙:将课程学习思想引入 DPO,并通过 SP-DPO 和 RF-DPO 结合,是解决推荐领域数据稀疏、偏好动态变化的绝妙策略。SP-DPO 弥补了数据不足,RF-DPO 确保了与真实世界反馈的对齐,而渐进式学习则保证了训练的稳定性和效率。这种从“由易到难”的训练范式非常符合人类学习的认知过程,也更适合 LLM 这种复杂模型。

  3. 工业落地的验证:在线 A/B 测试的成功以及高达 +1.432% 的营收提升,是该工作最大的亮点之一。这不仅证明了其学术研究的有效性,更彰显了其在实际生产环境中带来的巨大商业价值,为 LLM 在推荐系统领域的应用提供了坚实的信心。

    批判与可以改进的地方

  4. DPO 损失函数细节:公式 (3) 中 logexp(σσ)\log \sum \exp(\frac{\sigma}{\sigma}) 的部分确实令人困惑,可能是排版或公式描述上的疏忽。一个更清晰、更标准的 Softmax-DPO 数学表述及其推导过程,将极大地增强论文的严谨性。对于初学者而言,这可能会是一个理解上的障碍。

  5. 消融研究的完整性:在行为建模级对齐的消融研究中,+B1+B1 的具体含义没有明确说明,这使得读者难以完全理解该组件的具体贡献。更详细的描述或附录中的补充说明会很有帮助。

  6. 计算效率与延迟:虽然取得了性能提升,但基于 Llama2-7B 的生成式推荐模型,其推理延迟和计算成本通常远高于传统召回模型。论文提到了“最小化计算开销”,但没有提供具体的推理速度对比或量化分析。在工业场景中,实时性和成本是关键考量因素,这方面的深入讨论会更有价值。

  7. 多样性和新颖性分析:生成式推荐除了准确性,其生成结果的多样性 (diversity) 和新颖性 (novelty) 也是重要的评估维度。论文主要关注召回率和 NDCG,如果能包含对推荐列表多样性和新颖性的分析,将使评估更加全面。

  8. 对齐过程的可解释性:Align3^3GR 提供了多级对齐机制,但对于每个级别(特别是行为建模级和偏好级)中 LLM 具体“学到了什么”,以及这些对齐如何影响其内部决策过程,仍有进一步探索的空间。更强的可解释性将有助于理解模型的优势和潜在偏差。

    总体而言,Align3^3GR 为 LLM 在推荐系统中的应用提供了一个全面且高效的框架,其在理论设计和工业实践上的双重验证,使其成为该领域一个重要的里程碑式工作。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。