MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation
TL;DR 精炼摘要
提出MiniOneRec开源框架,实现生成式推荐端到端流程,利用残差量化VAE构建SID,针对0.5B-7B参数Qwen模型进行后训练。验证了生成式推荐的规模效应及参数效率,通过全流程SID对齐和带约束强化学习显著提升排序精度和推荐多样性。
摘要
The recent success of large language models (LLMs) has renewed interest in whether recommender systems can achieve similar scaling benefits. Conventional recommenders, dominated by massive embedding tables, tend to plateau as embedding dimensions grow. In contrast, the emerging generative paradigm replaces embeddings with compact Semantic ID (SID) sequences produced by autoregressive Transformers. Yet most industrial deployments remain proprietary, leaving two fundamental questions open: (1) Do the expected scaling laws hold on public benchmarks? (2) What is the minimal post-training recipe that enables competitive performance? We present MiniOneRec, to the best of our knowledge, the first fully open-source generative recommendation framework, which provides an end-to-end workflow spanning SID construction, supervised fine-tuning, and recommendation-oriented reinforcement learning. We generate SIDs via a Residual Quantized VAE and post-train Qwen backbones ranging from 0.5B to 7B parameters on the Amazon Review dataset. Our experiments reveal a consistent downward trend in both training and evaluation losses with increasing model size, validating the parameter efficiency of the generative approach. To further enhance performance, we propose a lightweight yet effective post-training pipeline that (1) enforces full-process SID alignment and (2) applies reinforcement learning with constrained decoding and hybrid rewards. Together, these techniques yield significant improvements in both ranking accuracy and candidate diversity.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
MiniOneRec: 一个用于扩展生成式推荐的开源框架 (MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation)
1.2. 作者
-
Xiaoyu Kong, Leheng Sheng, Junfei Tan, Yuxin Chen, Jiancan Wu, An Zhang, Xiang Wang, Xiangnan He
-
University of Science and Technology of China (中国科学技术大学)
-
National University of Singapore (新加坡国立大学)
-
作者邮箱:{kongxy,sober_clever}@mail.ustc.edu.com, {leheng.sheng,yuxin.chen}@u.nus.edu, {wujcan,an.zhang3.14,xiangwang1223,xiangnanhe}@gmail.com
1.3. 发表期刊/会议
该论文发布于 arxiv 预印本平台。
1.4. 发表年份
2025年。
1.5. 摘要
大语言模型 (LLMs) 近期的成功重新激起了人们对推荐系统 (recommender systems) 能否实现类似规模化优势 (scaling benefits) 的兴趣。传统的推荐系统,主要由大规模嵌入表 (embedding tables) 主导,其性能往往随着嵌入维度 (embedding dimensions) 的增长而停滞。与此相反,新兴的生成范式 (generative paradigm) 通过自回归 Transformer (autoregressive Transformers) 生成紧凑的语义ID (Semantic ID, SID) 序列来替代嵌入。然而,大多数工业部署仍然是专有的,这使得两个基本问题悬而未决:(1) 预期的规模化法则 (scaling laws) 在公开基准测试上是否成立?(2) 实现竞争性能所需的最小后训练 (post-training) 配方是什么?
本文提出了 MiniOneRec,据作者所知,这是第一个完全开源的生成式推荐框架 (open-source generative recommendation framework),它提供了一个端到端工作流 (end-to-end workflow),涵盖了 SID 构建、有监督微调 (supervised fine-tuning, SFT) 和面向推荐的强化学习 (recommendation-oriented reinforcement learning)。作者通过残差量化变分自编码器 (Residual Quantized VAE, RQ-VAE) 生成 SIDs,并对参数量从 0.5B 到 7B 的通义千问 (Qwen) 主干网络 (backbones) 在亚马逊评论数据集 (Amazon Review dataset) 上进行后训练。实验结果显示,随着模型规模的增加,训练和评估损失 (evaluation losses) 都呈现一致的下降趋势,这验证了生成方法在参数效率 (parameter efficiency) 上的优势。为了进一步提升性能,作者提出了一个轻量级而有效的后训练流程,该流程 (1) 强制执行全流程 SID 对齐 (full-process SID alignment),以及 (2) 应用带有约束解码 (constrained decoding) 和混合奖励 (hybrid rewards) 的强化学习。这些技术共同带来了排序准确度 (ranking accuracy) 和候选多样性 (candidate diversity) 的显著提升。
1.6. 原文链接
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题
当前推荐系统领域面临的核心问题是:
- 大语言模型 (LLMs) 在多个领域展现出强大的规模化优势 (scaling benefits),即模型越大性能越好。推荐系统能否也实现类似的规模化优势?
- 新兴的生成式推荐范式虽然在工业界取得了成功,但大多数部署都是闭源的。这导致研究社区无法验证其在公开基准测试上的规模化法则,也无法了解实现竞争性能所需的最小后训练策略。
2.1.2. 问题的重要性与现有研究空白
- 传统推荐系统的瓶颈: 传统的推荐模型,如基于嵌入表 (embedding tables) 的模型,往往在参数量增加到一定程度后性能出现瓶颈 (plateau),无法像 LLMs 那样持续受益于模型规模的扩大。其主要参数集中在大型嵌入表上,而预测部分通常是简单的内积或浅层网络,限制了模型的表达能力和泛化性。
- 生成式推荐的潜力与黑箱: 生成式推荐通过将物品转换为紧凑的语义ID (SID) 序列,并使用自回归 Transformer 进行预测,理论上能更好地利用大规模参数,并展现类似 LLMs 的规模化行为。然而,现有成功的工业级生成式推荐系统(如 OneRec, OnePiece)都是专有且闭源的,使得学术界难以复现、验证和改进,这阻碍了该领域开放研究的进展。
- 缺乏系统性验证和开放性方案: 市场上缺乏一个全面的、开源的框架来系统地研究生成式推荐的规模化特性,并探索在公开数据集上实现高性能的有效训练策略。
2.1.3. 论文的切入点与创新思路
论文的切入点是构建一个完全开源的端到端生成式推荐框架,从而开放地研究和验证生成式推荐的规模化法则,并探索一套高效的后训练流程。其创新思路在于:
- 开源化与可复现性: 首次提供了一个涵盖 SID 构建、有监督微调 (SFT) 和强化学习 (RL) 的完整开源框架 MiniOneRec,使得研究人员可以在公开数据集上复现和扩展生成式推荐。
- 系统性规模化验证: 在公开基准测试(Amazon Review)上,使用不同规模(0.5B 到 7B)的 Qwen 主干网络,系统性地验证了生成式推荐模型的规模化法则,证明了其参数效率优势。
- 轻量级高效后训练流程: 提出并验证了一套包括“全流程 SID 对齐”和“带约束解码与混合奖励的强化学习”的后训练方法,这些方法被证明能显著提升推荐准确度和多样性。
2.2. 核心贡献/主要发现
2.2.1. 主要贡献
- 发布首个开源生成式推荐框架 MiniOneRec: 提供了一个端到端的工作流,涵盖了
SID构建、SFT和面向推荐的RL,包括完整的源代码、可复现的训练管道和公开的模型检查点。 - 验证生成式推荐的规模化法则: 首次在公开数据集上系统地研究了生成式推荐模型的规模化行为。实验证明,随着模型规模的增加,训练损失和评估损失均一致下降,证实了生成范式优越的参数效率。
- 优化后训练策略: 设计了一个轻量级而全面的后训练流程,包括:
- 全流程
SID对齐: 增强词元空间与语言空间之间的联系,将SID词元嵌入模型词汇表,并在SFT和RL阶段施加辅助对齐任务。 - 强化偏好优化 (Reinforced Preference Optimization): 采用
GRPO(组相对策略梯度) 进行优化,结合了约束解码 (constrained decoding)、基于束搜索 (beam-based sampling) 的采样策略,以及混合奖励 (hybrid reward) 设计,有效提升了推荐准确度和多样性。
- 全流程
2.2.2. 关键结论或发现
- 规模化效应显著: 生成式推荐模型确实在公开数据集上展现了与 LLMs 类似的规模化法则。模型越大,其训练损失和评估损失越低,参数效率越高。
- 世界知识的重要性: 预训练 LLM 携带的世界知识对生成式推荐的性能至关重要。从预训练权重开始训练的模型显著优于从随机初始化开始训练的模型。全流程的语言-
SID对齐能有效利用这种知识。 - 强化学习的有效性: 结合约束解码、多样化采样(如束搜索)和设计合理的混合奖励(结合规则和排序感知惩罚)的强化学习,能够显著提升推荐性能,尤其是在排序准确度和候选多样性方面。
- 跨域泛化能力:
MiniOneRec在未见过的域上具有良好的泛化能力,能够发现可重用的交互模式,这对于跨域推荐具有重要意义。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 大语言模型 (LLMs)
概念定义: 大语言模型 (LLMs) 是一类基于 Transformer 架构的深度学习模型,通过在海量文本数据上进行自监督预训练,学习到丰富的语言知识、世界知识和推理能力。它们通常拥有数十亿甚至数千亿的参数,能够执行文本生成、问答、翻译等多种自然语言处理任务。
在本文中的作用: LLMs 的成功激发了推荐系统领域对规模化优势的探索。MiniOneRec 使用 Qwen 系列模型作为其主干网络,旨在利用 LLMs 强大的语言理解和生成能力来改进推荐效果。
3.1.2. 推荐系统 (Recommender Systems)
概念定义: 推荐系统 (Recommender Systems) 是一种信息过滤系统,旨在预测用户对物品(如电影、书籍、商品等)的偏好,并向用户推荐他们最可能感兴趣的物品。其核心目标是解决信息过载问题,帮助用户发现新内容,同时提高平台的用户参与度和商业价值。
在本文中的作用: MiniOneRec 致力于改进推荐系统,特别是通过引入生成范式来克服传统推荐系统的局限性,并利用 LLMs 的能力实现更精准和多样的推荐。
3.1.3. 嵌入表 (Embedding Tables)
概念定义: 在机器学习和深度学习中,嵌入表 (Embedding Tables) 是一种将高维离散特征(如用户ID、物品ID、类别ID等)映射到低维连续向量空间的数据结构。每个离散特征都有一个对应的嵌入向量,这些向量在训练过程中学习得到,能够捕获特征之间的语义关系。
在本文中的作用: 传统推荐系统严重依赖大规模 嵌入表 来存储用户和物品的表示。论文指出,这种设计限制了模型规模化后的性能提升,因为大部分参数被 嵌入表 占据,而预测逻辑相对简单。
3.1.4. 生成范式 (Generative Paradigm)
概念定义: 生成范式 (Generative Paradigm) 在推荐系统中指的是将推荐问题建模为序列生成任务。模型不是直接预测用户对物品的评分或点击概率,而是生成用户可能感兴趣的物品序列的标识符(如 SID 序列)。
在本文中的作用: MiniOneRec 采用 生成范式,将物品编码为 SID 序列,并使用自回归 Transformer 模型生成这些序列,从而实现推荐。这种范式被认为能更好地利用 LLMs 的能力并实现规模化优势。
3.1.5. 语义ID (Semantic ID, SID)
概念定义: 语义ID (Semantic ID, SID) 是一种将物品的丰富语义信息压缩成紧凑离散编码序列的方式。这些编码通常通过量化技术从物品的原始特征(如文本描述)中提取。每个物品不再是一个单一的离散ID,而是一个由几个离散 token 组成的序列。
在本文中的作用: MiniOneRec 的核心是使用 SID 来表示物品。通过 RQ-VAE 将物品的文本描述转换为 SID 序列,从而将推荐任务转化为 SID 序列的生成任务,使得 LLMs 能够处理。
3.1.6. 自回归 Transformer (Autoregressive Transformer)
概念定义: 自回归 Transformer (Autoregressive Transformer) 是一种基于 Transformer 架构的模型,其特点是在生成序列中的下一个元素时,会依赖于所有已经生成的先前元素。这种模型通常用于序列到序列的任务,如语言生成、机器翻译等。
在本文中的作用: MiniOneRec 使用 自回归 Transformer 模型(具体是 Qwen 主干网络)来生成 SID 序列,预测用户下一个可能交互的物品。
3.1.7. 有监督微调 (Supervised Fine-tuning, SFT)
概念定义: 有监督微调 (SFT) 是一种训练技术,它在一个预训练模型(如 LLM)的基础上,使用特定任务的带标签数据进行进一步的训练。目标是使模型适应新任务,并提高其在该任务上的性能。
在本文中的作用: MiniOneRec 在 SID 构建后,首先对 Qwen 主干网络进行 SFT,使用用户-物品交互序列数据,以暖启动 (warm-up) 模型并实现初步的 SID 与语言对齐。
3.1.8. 强化学习 (Reinforcement Learning, RL)
概念定义: 强化学习 (RL) 是一种机器学习范式,智能体 (agent) 通过与环境的交互学习,根据环境提供的奖励信号来优化其行为策略,以最大化累积奖励。
在本文中的作用: MiniOneRec 在 SFT 之后,进一步使用面向推荐的 强化学习 来优化模型。这包括利用 GRPO 算法,并设计特定的采样策略和奖励函数,以提升推荐系统的排序准确度和多样性。
3.1.9. 残差量化变分自编码器 (Residual Quantized VAE, RQ-VAE)
概念定义: 残差量化变分自编码器 (RQ-VAE) 是一种将连续向量量化为离散编码的技术,它通过多层量化器顺序地量化残差信息。每层量化器学习一个码本 (codebook),并对上一层量化后的残差进行量化,最终将原始连续向量表示为一系列码本索引。这种方法能够以紧凑的方式表示高维信息,并保留语义。
在本文中的作用: MiniOneRec 使用 RQ-VAE 来将物品的文本描述(通过文本编码器得到的语义向量)转换为紧凑的 SID 序列,这是生成式推荐的关键第一步。
3.1.10. 组相对策略梯度 (Group Relative Policy Gradient, GRPO)
概念定义: 组相对策略梯度 (GRPO) 是一种强化学习算法,特别适用于 LLM 的微调。它通过从同一个提示 (prompt) 生成多个候选输出 (roll-outs),并在这些组内对奖励进行标准化来计算优势函数 (advantages),从而减少梯度方差。与传统的 PPO 不同,GRPO 往往不需要单独的价值网络或复杂的奖励模型,而是可以使用基于规则的奖励信号。
在本文中的作用: MiniOneRec 在 SFT 阶段之后,采用 GRPO 对模型进行进一步的强化偏好优化,以提升推荐性能。
3.1.11. 约束解码 (Constrained Decoding)
概念定义: 约束解码 (Constrained Decoding) 是一种在生成文本序列时,通过施加特定规则或限制来指导模型输出的技术。这些规则可以包括强制生成某些词汇、避免生成某些词汇、遵循特定语法结构或格式等,以确保生成内容的有效性和符合预期。
在本文中的作用: 在 MiniOneRec 的 RL 阶段,采用 约束解码 确保模型生成的 SID 序列是有效的物品 SID 或其规范标题,避免生成无效或不相关的 token,从而保证每次生成的输出都是一个合法的推荐物品。
3.2. 前人工作
3.2.1. 传统推荐模型
- 基于嵌入表的模型:
Kang and McAuley (2018)、Hidasi et al. (2016)、Tang and Wang (2018)、、Fang et al. (2020)等。这些模型通常将用户和物品表示为嵌入向量,并使用内积或浅层网络进行预测。 - 局限性: 论文指出,这类模型主要参数集中在大型嵌入表上,导致性能容易出现瓶颈,难以实现
LLMs那样的规模化优势。
3.2.2. 生成式推荐 (Generative Recommendation)
- 早期探索:
TIGER (Rajput et al., 2023):使用RQ-VAE将物品的文本嵌入(标题和描述)映射到SIDs。这是一个重要的先驱工作,MiniOneRec在SID构建上遵循了TIGER的做法。HSTU (Zhai et al., 2024):引入流式架构以适应高基数和非平稳日志。LC-Rec (Zheng et al., 2024):通过多任务学习将LLM与SIDs对齐,使模型能够理解这些符号。
- 更好的编码设计:
RecForest (Feng et al., 2022):通过层次 -means 聚类物品,并使用聚类索引作为token。EAGER (Wang et al., 2024)和TokenRec (Qu et al., 2024):将协同和语义证据直接融入tokenizer。
- 工业级部署:
MTGR (Wang et al., 2025):保留DLRM特征,增加用户级压缩,加速训练和推理。OneRec (Zhou et al., 2025b):通过惰性解码器架构降低服务成本,并通过改进的RL算法稳定优化。OnePiece (Dai et al., 2025):发现在潜在空间中进行推理可以进一步提高生成式推荐性能。
- MiniOneRec 与这些工作的区别: 尽管工业界已有一些生成式推荐的成功案例,但它们大多是闭源的。
MiniOneRec的核心贡献在于提供了一个完全开源的框架,并系统性地验证了规模化法则,同时探索了适用于公开数据集的高效后训练策略。在SID构建上,MiniOneRec借鉴了TIGER的RQ-VAE方法。
3.2.3. LLM 和强化学习在推荐中的应用
- 基于人类反馈的强化学习 (RLHF):
PPO (Schulman et al., 2017):最常用的RLHF优化器,但对于数十亿参数的模型来说内存密集。DPO (Rafailov et al., 2023):直接偏好优化,移除独立的价值网络,最大化偏好和非偏好输出之间的对数似然差距,降低了成本。S-DPO (Chen et al., 2024b):将DPO的思想应用于推荐,将基于softmax的负采样视为隐式成对偏好。
- 轻量级在线方法:
GRPO (Shao et al., 2024; DeepSeek-AI et al., 2024):组相对策略梯度,通过从同一提示生成多个候选,并在组内标准化奖励来减少梯度方差。它使用基于规则的奖励信号,而不是学习的奖励模型。
- MiniOneRec 与这些工作的区别:
MiniOneRec采用了GRPO作为其强化学习阶段的核心算法,原因在于其轻量级特性和对规则奖励的支持。同时,MiniOneRec针对推荐任务的特殊性,解决了生成空间有限和排序监督稀疏的问题,设计了特殊的采样策略(束搜索)和混合奖励函数。
3.3. 技术演进与差异化分析
3.3.1. 技术演进
推荐系统从早期的协同过滤、基于内容的推荐,到深度学习时代的嵌入表模型(如 GRU4Rec、SASRec),再到近期结合 Transformer 架构的序列推荐模型。随着 LLMs 的兴起,研究焦点逐渐转向如何将 LLMs 的强大能力融入推荐系统,从而催生了生成式推荐范式。这一范式将物品编码为离散的 SID 序列,并通过 LLM 来生成这些序列。
3.3.2. 差异化分析
MiniOneRec 与相关工作的主要区别和创新点在于:
- 与传统推荐模型对比: 传统模型依赖大规模嵌入表,参数效率低,难以规模化。
MiniOneRec采用生成范式和SID,将参数集中在Transformer主干网络,展现出更好的规模化优势和参数效率。 - 与现有生成式推荐模型对比: 尽管
TIGER等工作提出了SID的概念,OneRec等在工业界取得了成功,但MiniOneRec是首个完全开源的端到端框架。它不仅复现了SID构建,更重要的是在公开数据集上系统验证了规模化法则,并提供了经过优化的后训练策略,包括全流程SID对齐和针对推荐任务的强化学习 (GRPO、约束解码、混合奖励)。这使得MiniOneRec能够超越现有生成式解决方案,并在公共基准上取得更好的性能。 - 与 LLM 驱动的推荐系统对比:
BIGRec、D³、S-DPO等利用LLM的世界知识,但MiniOneRec通过全流程SID对齐和定制化的RL优化,更好地将LLM的语言空间与SID空间融合,同时在紧凑的SID空间操作,减少了上下文token数量,提高了推理效率。其GRPO结合了ranking-aware奖励和constrained beam search,更精准地优化了推荐质量和多样性。
4. 方法论
本节将详细阐述 MiniOneRec 框架的建模策略,如图2所示。MiniOneRec 首先通过 RQ-VAE 分词器将物品文本转换为离散的 SID,然后通过 SFT 和 RL 对 Qwen 主干网络进行训练,旨在利用 LLMs 的世界知识和强化学习的优化能力,实现高效准确的生成式推荐。
该图像是一个示意图,展示了MiniOneRec框架的关键组成部分,包括LLM编码器、RQ-VAE生成SID和约束化束搜索的过程,以及全流程SID对齐的概念。图中还指出了如何通过ACC奖励和Rank奖励来更新模型参数。
图 2: MiniOneRec 框架。RQ-VAE 构建物品 SID 码本。然后执行 SFT 来预热 LLM 并获得初步对齐。在 RL 中,通过约束解码的束搜索,模型顺序生成一个排名列表,包含不同且有效的 SIDs。GRPO 更新策略,并端到端地强制执行 SID 对齐。这种对齐目标在 SFT 和 RL 阶段都得以保留,以促进更深层次的语义理解。
4.1. 任务制定 (Task Formulation)
MiniOneRec 将推荐任务制定为一个序列生成问题。
对于每个用户 ,其交互过的物品 按照时间顺序排列,形成一个历史序列 。
每个物品 都由一个结构化的 ID 序列表示,例如 。这些结构化 ID 通常被称为 语义ID (SIDs),它们通过量化技术和语义嵌入保留了层次语义。
一个生成策略 ,由一个参数为 的自回归模型实现,读取完整的用户历史 ,并被训练来预测与用户 品味最匹配的下一个物品 。在推理阶段,模型递归地生成物品 token;作者通过标准束搜索 (beam-search) 算法保留 个最有希望的 beam,并将它们作为推荐列表返回。模型性能通过生成式推荐中常用的评估指标报告。
4.2. 物品分词 (Item Tokenization)
在 SID 风格的生成式推荐器中,首要任务是将每个物品转换为一个离散的 token 序列。MiniOneRec 遵循 TIGER 的实践,采用 RQ-VAE 来实现这一目标。具体的流程如下:
-
文本拼接: 对于每个物品 ,将其标题和文本描述连接起来形成一个单一的句子。
-
语义向量生成: 这个句子通过一个冻结的文本编码器(例如
Sheng et al., 2025提到的模型)进行处理,生成一个 维的语义向量 。 -
残差量化: 将 应用
RQ-VAE。在每个级别 (),都有一个独立的码本 (codebook) ,其中 是码本大小。- 作者设置 (即三层量化)和 (每层码本大小为256),这意味着每个物品由三个字节表示。这种选择提供了 种可能的编码,足以覆盖包含数亿商品的目录,同时保持词汇表较小。
- 残差初始化为 ,并按以下方式更新:
符号解释:
- : 量化级别索引,从
0到L-1。 - : 总的量化级别数,本文中为 3。
- : 码本中的索引。
- : 在级别 上,与当前残差 距离最近的码本向量 的索引。
- : 在级别 的码本 中,第 个码本向量。
- : 在级别 之前的残差向量。
- : 欧几里得范数(L2 范数)。
- : 在级别 量化后,剩余的残差向量,用于下一个量化级别。
- : 量化级别索引,从
-
离散
token序列收集: 收集索引序列 作为物品 的离散token序列;这些索引构成了后续生成式推荐器所消耗的物品token。量化后的潜在表示 (latent) 通过以下方式重建: 符号解释:
-
: 最终的量化潜在表示,是所有级别码本向量的求和。
-
: 在级别 上选择的码本向量索引。
-
: 在级别 的码本中,由索引 选定的码本向量。
-
: 解码器 (decoder)。
-
: 从量化潜在表示 重建得到的语义向量,应尽可能接近原始语义向量 。
码本、编码器和解码器是联合训练的,而文本编码器保持冻结。损失函数是重建项和
RQ正则化项之和: 符号解释: -
: 总损失函数。
-
: 重建损失项,衡量原始语义向量 与重建向量 之间的 L2 距离。目标是使重建向量尽可能接近原始向量。
-
:
RQ正则化项,用于码本学习。 -
: 停止梯度操作符 (stop-gradient operator),表示在反向传播时不对其内部的表达式计算梯度。
-
: 这项鼓励码本向量 移动到残差向量 的位置,但梯度不通过 反向传播到编码器。
-
: 承诺项 (commitment term),鼓励编码器的输出 靠近码本向量 。系数 控制其权重。梯度不通过 反向传播到码本。
为了防止码本坍塌 (codebook collapse),作者遵循先前工作中的热启动 (warm-start) 技巧,并使用在第一个训练批次上计算的 -means 质心来初始化每个码本。
4.3. 与 LLMs 对齐 (Alignment with LLMs)
LLMs 拥有对世界和人类行为的广泛理解,可以作为推荐系统中协同信号的补充。现有工作表明,将 LLM 的世界知识与 SID 表示联系起来可以显著增强生成式推荐。因此,MiniOneRec 不仅仅像早期工作那样单独训练 SIDs,而是引入了几个对齐目标,将语言空间与 SID 信号连接起来。作者采用了两大类任务:
-
推荐任务 (Recommendation Tasks):
LLM接收时间有序的历史序列和清晰的指令,并被要求预测用户可能参与的下一个物品的SID。 -
对齐任务 (Alignment Tasks): 一系列桥接任务强制实现自然语言和
SID空间之间的双向映射,将离散编码与文本关联起来,同时将语言知识注入其嵌入中。这两类任务在整个
SFT阶段和随后的RL阶段中都进行联合优化。在RL阶段,作者采用约束解码 (constrained decoding),使得模型只能从包含每个物品的SID及其规范标题的预定义列表中生成token。这种约束保证了输出的有效性,并使得基于规则的奖励计算变得直接。附录 A 提供了提示的详细示例。
4.4. 强化偏好优化 (Reinforced Preference Optimization)
在 SFT 之后,MiniOneRec 使用 GRPO (Shao et al., 2024; DeepSeek-AI et al., 2024) 进一步优化策略。GRPO 与经典 RLHF 的不同之处在于,它为每个提示生成多个候选(roll-outs),并在组内对奖励进行标准化,这减少了梯度方差。
GRPO 步骤:
- 对于每个提示 ,冻结的策略 会被
roll-out次,产生 。 - 每个候选 都被分配一个标量分数 。
- 优势 (Advantages) 在组内进行标准化:
符号解释:
-
: 第 个候选的标准化优势。
-
: 第 个候选的标量分数(奖励)。
-
: 组内所有 个奖励的平均值。
-
: 组内所有 个奖励的标准差。
替代目标函数变为: 符号解释:
-
-
:
GRPO的替代目标函数,用于更新策略参数 。 -
: 对提示 和生成的候选 取期望。
-
: 每个提示生成的候选数量。
-
: 第 个候选序列的长度。
-
: 序列中的
token位置。 -
:
token级别的重要性比率 (importance ratio),衡量当前策略 相对于旧策略 生成token的概率比值。 -
: 第 个候选在
token处的优势,通常简化为 。 -
: 将重要性比率 裁剪到 范围内,以稳定训练并防止过大的策略更新。
-
: 结合原始和裁剪后的目标,选择较小值,这是
PPO目标函数的典型特征。 -
:
KL散度正则化项,限制更新后的策略 不会离参考模型 太远。 是KL项的权重。将带有可验证奖励的强化学习 (RLVR) 应用于推荐面临两个障碍:
-
独特的生成空间: 动作空间是物品
SIDs的封闭集合,比自然语言词汇表小几个数量级。重复采样容易产生重复项,浪费计算。因此,作者混合使用动态采样 (dynamic sampling) 和约束束搜索 (constrained beam search) 来扩大覆盖范围,同时保持输出有效。 -
稀疏的排序监督: 硬二元奖励(正确物品为1,否则为0)对排序质量的指导作用很小。作者引入了一个辅助的排序感知奖励 (rank-aware reward),以较低的分数惩罚难度较高的负样本。此外,还探索了语义相似度 (semantic similarity) 和协同分数 (collaborative scores) 等密集信号来提供更丰富的监督。
4.4.1. 采样策略 (Sampling Strategy)
将 RLVR 移植到推荐领域的一个实际障碍是有限的动作空间导致采样多样性差:用相同的提示多次查询策略通常会返回相同的物品,因此模型观察到的不同负样本很少。多样性通过以下公式衡量:
符号解释:
-
: 多样性指标。
-
: 个生成的物品序列集合。
-
: 集合中独一无二的物品数量。
-
: 生成的总物品数量。
-
更高的值表示更丰富的监督。
研究了两种互补的补救措施:
-
动态采样 (Dynamic Sampling) (Yu et al., 2025): 首先进行过采样,然后选择一个子集,该子集 (i) 必须包含真实物品,并且 (ii) 最大化内部多样性。尽管有帮助,但这需要额外的正向传播,并且随着训练的进行仍然会恶化。
-
束搜索 (Beam Search): 作者最终转向了不带长度归一化的束搜索 (Bao et al., 2024; Tan et al., 2025)。通过构造,所有
beam都不同,因此该方法保证了每个组内零重复,并提供了更好的多样性-效率权衡。基于研究结果,
MiniOneRec最终采用约束束搜索作为其默认采样器,确保每个生成的物品都是有效的,同时仍然提供多样化的候选轨迹集。
4.4.2. 奖励设计 (Reward Design)
推荐模型通常通过 NDCG 等排序指标进行评估。相比之下,标准的 GRPO 设置提供的是二元奖励,即真实物品为1,其他所有候选为0。这种策略将所有负样本视为同样有害。早期研究 (Wu et al., 2021; Chen et al., 2024b) 表明,关注困难负样本可以产生更强的排序器。受这些结果的启发,作者引入了排序感知奖励 (rank-aware reward),根据负样本在模型自身排序中出现的位置来施加不同的惩罚。
给定一个负候选 ,其生成概率排名为 (其中 表示最有可能),设置: 符号解释:
- : 第一个中间奖励函数,用于计算负样本 的原始排序感知惩罚。
- : 模型生成的一个候选物品。
- : 真实目标物品。
0: 如果候选物品 是真实物品 ,则惩罚为0。- : 如果 不是真实物品,则根据其生成概率排名 施加惩罚。排名越靠前(即 越小),惩罚越大(值越负)。 时惩罚最强。
- : 最终的排序感知奖励,通过对所有负样本的 进行归一化得到。
- : 对所有 个候选(包括真实物品和负样本)的 值进行求和,用于归一化。 因此,模型非常自信地生成的负样本(低 )会受到更强的惩罚。
最终的奖励结合了基于规则的组件和排序组件: 符号解释:
-
: 最终用于
GRPO的混合奖励。 -
: 基于规则的奖励项。
-
: 排序感知奖励项。
其中,基于规则的奖励项为: 符号解释:
-
: 二元规则奖励。
-
1: 如果生成的候选物品 是真实目标物品 ,则奖励为 1。 -
0: 否则,奖励为 0。这种混合奖励结合了二元正确性与软性排序项,帮助
LLM区分困难负样本。然而,推荐数据还包含其他未充分利用的线索。为了探究这些信息是否能增强甚至取代RLVR中的基于规则的组件,作者还尝试了协同奖励 (collaborative reward)。具体来说,对于策略建议的每个物品,从预训练的协同过滤模型中获取其logit,并将其作为奖励反馈,从而注入从历史用户-物品交互中提取的知识。MiniOneRec最终选择结合排序和规则的混合奖励作为其默认设置。
5. 实验设置
5.1. 数据集
实验在亚马逊评论数据集 (Amazon Review dataset) 的两个真实世界切片上进行,分别是 Office(办公用品)和 Industrial(工业用品)领域。这些数据集由 Hou et al., 2024 提供。
数据集特点:
- 来源: 亚马逊评论数据集,是一个广泛用于推荐系统研究的公开数据集。
- 领域:
Office和Industrial两个子集代表了不同的商品类别,具有不同的用户行为和物品特性,有助于评估模型的泛化能力。 - 用途: 用于训练、验证和测试
MiniOneRec模型,并与其他基线方法进行性能比较。Industrial数据集还用于跨域 (out-of-distribution, OOD) 鲁棒性实验,即在Industrial训练,在Office测试。
5.2. 评估指标
为了衡量 top-K 推荐准确度,MiniOneRec 遵循标准实践,计算 命中率 (Hit Rate, HR@K) 和 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K)。
5.2.1. 命中率 (Hit Rate, HR@K)
概念定义: 命中率 (HR@K) 衡量在推荐列表的 top-K 中是否包含了用户实际交互过的物品。它是一个二元指标,如果推荐列表中包含真实物品,则为 1,否则为 0。HR@K 越高,表示模型召回相关物品的能力越强。
数学公式: 符号解释:
- : 在 个推荐物品中的命中率。
- : 所有用户的集合。
- : 用户总数。
- : 指示函数,如果括号中的条件为真,则为 1,否则为 0。
- : 用户 实际交互过的目标物品。
- : 为用户 生成的 个推荐物品列表。
5.2.2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K)
概念定义: 归一化折损累计增益 (NDCG@K) 是一种排序质量指标,它不仅考虑推荐列表中是否包含相关物品,还考虑这些相关物品在列表中的位置。排名靠前的相关物品会获得更高的权重。NDCG@K 的值介于 0 和 1 之间,1 表示完美排序。它常用于评估推荐、搜索等任务中列表的质量。
数学公式:
首先定义 累计增益 (Cumulative Gain, CG@K):
其中 是排名第 位的物品的相关性分数(通常为二元,相关为1,不相关为0)。
然后是 折损累计增益 (Discounted Cumulative Gain, DCG@K):
最后是 归一化折损累计增益 (NDCG@K):
其中 IDCG@K 是理想情况下的 DCG@K,即完美排序下的 DCG@K,用于将 DCG@K 归一化到 0 到 1 的范围。
符号解释:
- : 在 个推荐物品中的归一化折损累计增益。
- : 排名第 位的物品的相关性分数。在二元相关性场景中,如果物品是真实物品,则 ,否则 。
- : 推荐列表的长度。
- : 折损因子,使得排名靠后的物品对总分贡献减小。
- : 理想折损累计增益,是当所有相关物品以完美顺序排列时所能达到的最大
DCG@K值。
5.3. 对比基线
论文将 MiniOneRec 与三类基线模型进行了比较:
-
传统推荐模型 (Traditional Recommendation Models):
GRU4Rec (Hidasi et al., 2016):基于门控循环单元 (GRU) 的序列推荐模型。Caser (Tang and Wang, 2018):基于卷积神经网络 (CNN) 的序列推荐模型,能够捕捉高阶的局部序列模式。SASRec (Kang and McAuley, 2018):基于自注意力机制 (Self-Attention) 的序列推荐模型,能够捕捉长距离依赖。
-
生成式推荐模型 (Generative Recommendation Models):
HSTU (Zhai et al., 2024):一种流式架构,适用于高基数和非平稳的用户日志。TIGER (Rajput et al., 2023):使用RQ-VAE将物品文本嵌入转换为SIDs,并用 Transformer 生成SID序列。LC-Rec (Zheng et al., 2024):通过多任务学习将LLM与SIDs对齐。
-
LLM-基于的推荐模型 (LLM-based Recommendation Models):
-
BIGRec (Bao et al., 2023):利用LLMs的文本理解和生成能力进行推荐。 -
:一种基于
LLM的推荐模型。 -
S-DPO (Chen et al., 2024b):将直接偏好优化 (DPO) 适应到推荐场景,利用负采样作为隐式偏好。这些基线模型涵盖了序列推荐领域的经典方法、新兴的
SID生成方法以及最新的LLM驱动方法,具有很强的代表性,可以全面评估MiniOneRec的性能。
-
5.4. 训练细节
SID构建:- 物品文本(标题和描述)通过
Qwen3-Embedding-4B编码器嵌入。 RQ-VAE执行残差量化。RQ-VAE分词器在一个 GPU 上训练,批大小为 20480,学习率为 ,训练 10,000 个epoch。- 生成的
SID词汇表被插入到Qwen2.5-Instruct主干网络中。
- 物品文本(标题和描述)通过
SFT阶段:- 在八个
NVIDIA H100上进行,每个 GPU 承载 128 个样本。 - 训练持续最多十个
epoch,采用早停 (patience one epoch)。 - 初始学习率为 ,遵循余弦衰减调度。
- 在八个
GRPO阶段:- 从
SFT的检查点开始,额外应用GRPO训练两个epoch,KL权重 保持不变。 - 在
roll-out期间,采用宽度为 16 的束搜索 (beam search),确保每个输入生成 16 个不同的候选序列。
- 从
- 基线训练细节 (传统推荐模型):
- 使用二元交叉熵损失和 Adam 优化器。
- 学习率从 中选择,权重衰减项扫描 。
- 批大小为 1024。
- 基线训练细节 (
TIGER和其他LLM模型):TIGER使用T5编码器-解码器,并重用Qwen3-Embedding-4B进行物品嵌入。- 所有
LLM驱动的系统(包括MiniOneRec)共享Qwen2.5-Instruct主干网络。 - 使用 AdamW 优化器。
SFT和偏好对齐的批大小为 128 个样本,RL的批大小为 512 个样本。SFT学习率为 ,S-DPO和RL学习率为 。S-DPO运行一个epoch,KL权重 ,采样三个负样本。D³尝试插值因子 为 0.8, 0.9, 1.0。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 规模化分析 (Scaling Analysis)
以下是原文 Figure 1 (Left) 和 Figure 3 的结果:
该图像是一个图表,左侧展示了不同参数量模型的收敛损失与每样本训练FLOPs的关系,右侧展示了不同训练阶段下的HR@10指标。左侧图中,随着模型参数的增加,收敛损失逐渐减少;右侧图则显示出三种MiniOneRec模型在不同训练阶段的表现,其中“MiniOneRec”模型在“SFT-then-RL”阶段的表现优于其他模型。
图 1: 左图:从 0.5B 到 7B 参数的规模化曲线。右图:世界知识对模型性能的影响:MiniOneRec-W/O ALIGN 使用预训练 LLM 权重但省略了 SID-文本对齐,而 MiniOneRec-Scratch 从随机初始化开始训练并省略了对齐。
该图像是一个示意图,展示了不同参数量的 Qwen2.5-Instruct 模型在训练过程中评估损失随训练轮数变化的趋势。可以看出,随着训练轮数的增加,所有模型的评估损失均呈现下降趋势。在训练第 2.5 轮时,评估损失达到了最低点,且模型参数量越大,评估损失越低。
图 3: 评估损失 vs. SFT 训练 epoch。
分析:
- 损失一致下降: 如图 1 左侧和图 3 所示,
MiniOneRec在生成式推荐范式下展现了明确的规模化能力。随着模型参数量从 0.5B 增加到 7B,模型的收敛损失 (Figure 1 Left) 和SFT训练过程中的评估损失 (Figure 3) 都呈现出一致的下降趋势。 - 参数效率优势: 这种现象强烈验证了生成方法在参数效率上的优势,即更大的模型能够更好地学习数据模式,并获得更低的训练和泛化误差。
- 更快的收敛: 图 3 进一步表明,参数量更大的模型不仅能达到更低的评估损失,而且在训练过程中收敛速度也更快,在整个训练过程中(尤其是
epoch 2.5之后)都保持着更低的损失。 - 潜力: 这种卓越的规模化效应揭示了生成式推荐器作为下一代推荐模型的巨大潜力。
6.1.2. 性能比较 (Performance Comparison)
以下是原文 Table 1 的结果:
| Datasets | Methods | HR@3 | NDCG@3 | HR@5 | NDCG@5 | HR@10 | NDCG@10 |
| Traditional | |||||||
| Industrial | GRU4Rec | 0.0638 | 0.0542 | 0.0774 | 0.0598 | 0.0999 | 0.0669 |
| Caser SASRec | 0.0618 0.0790 | 0.0514 0.0700 | 0.0717 0.0909 | 0.0555 0.0748 | 0.0942 0.1088 | 0.0628 0.0806 | |
| Generative | |||||||
| HSTU | 0.0927 | 0.0885 | 0.1037 | 0.0918 | 0.1163 | 0.0958 | |
| TIGER | 0.0852 | 0.0742 | 0.1010 | 0.0807 | 0.1321 | 0.0908 | |
| LCRec | 0.0915 | 0.0805 | 0.1057 | 0.0862 | 0.1332 | 0.0952 | |
| LLM-based | |||||||
| BIGRec | 0.0931 | 0.0841 | 0.1092 | 0.0907 | 0.1370 | 0.0997 | |
| D S-DPO | 0.1024 0.1032 | 0.0991 0.0906 | 0.1213 0.1238 | 0.0989 0.0991 | 0.1500 0.1524 | 0.1082 0.1082 | |
| Ours | |||||||
| MiniOneRec | 0.1143 | 0.1011 | 0.1321 | 0.1084 | 0.1586 | ||
| Traditional | 0.1167 | ||||||
| Office | GRU4Rec | 0.0629 | 0.0528 | 0.0789 | 0.0595 | 0.1019 | 0.0669 |
| Caser SASRec | 0.0748 | 0.0615 | 0.0865 | 0.0664 | 0.1093 | 0.0737 | |
| 0.0861 | 0.0769 | 0.0949 | 0.0805 | 0.1120 | 0.0858 | ||
| Generative | |||||||
| HSTU | 0.1134 | 0.1031 | 0.1252 | 0.1079 | 0.1400 | 0.1126 | |
| TIGER LCRec | 0.0986 | 0.0852 0.0807 | 0.1163 | 0.0960 | 0.1408 | 0.1002 | |
| 0.0921 | 0.1048 LLM-based | 0.0859 | 0.1237 | 0.0920 | |||
| BIGRec | 0.1069 | 0.0961 | 0.1204 | 0.1017 | 0.1434 | 0.1091 | |
| D3 | 0.1204 | 0.1055 | 0.1406 | 0.1139 | 0.1634 | 0.1213 | |
| S-DPO | 0.1169 | 0.1033 | 0.1356 | 0.1110 | 0.1587 | 0.1255 | |
| Ours | |||||||
| MiniOneRec | 0.1217 | 0.1088 | 0.1420 | 0.1172 | 0.1634 | 0.1242 | |
分析:
- LLM 世界知识的价值: 从表格中可以明显看出,由
LLM驱动的推荐器(如BIGRec、D³、S-DPO)显著优于传统的推荐系统(如GRU4Rec、Caser)。这表明LLM中蕴含的广泛世界知识能够有效转化为更高的推荐准确度。 - 生成式方法的优势: 生成式推荐模型 (
HSTU、TIGER、LCRec) 通常优于传统方法,证实了将推荐问题建模为生成任务的有效性。 - MiniOneRec 的卓越性能:
MiniOneRec在Industrial和Office两个数据集上,在绝大多数报告的指标(HR@K和NDCG@K)上持续超越了所有基线模型,包括传统的、生成式的和LLM基于的解决方案。- 在
Industrial数据集上,MiniOneRec的HR@3达到 0.1143,NDCG@3达到 0.1011,均高于其他方法。 - 在
Office数据集上,MiniOneRec的HR@3达到 0.1217,NDCG@3达到 0.1088,同样表现最佳。
- 在
- 效率优势:
MiniOneRec在紧凑的SID空间而非冗长的文本标题上操作,所需上下文token大幅减少,从而实现更快的推理速度、更低的延迟和更小的内存占用,这对于工业部署至关重要。
6.1.3. 迁移性 (Transferability)
以下是原文 Table 2 的结果:
| Dataset | Method | HR@3 | NDCG@3 | HR@5 | NDCG@5 | HR@10 | NDCG@10 |
| Office | GRU4Rec | 0.0629 | 0.0528 | 0.0789 | 0.0595 | 0.1019 | 0.0669 |
| Qwen-Text | 0.0031 | 0.0021 | 0.0044 | 0.0026 | 0.0057 | 0.0030 | |
| Qwen-SID | 0.0300 | 0.0214 | 0.0456 | 0.0282 | 0.0733 | 0.0373 | |
| MiniOneRec-w/RL-OOD | 0.0553 | 0.0433 | 0.0691 | 0.0489 | 0.0892 | 0.0553 |
分析:
- 实验设置: 验证
MiniOneRec的域外鲁棒性 (OOD robustness),在Industrial域训练,在未见过的Office域测试。 Qwen-Text性能不佳:Qwen-Text直接使用纯文本表示用户历史并预测物品标题,性能非常差(HR@3仅为 0.0031),表明在没有进一步微调的情况下,直接使用LLM处理原始文本进行 OOD 推荐是无效的。Qwen-SID性能提升:Qwen-SID采用SID编码用户历史并预测SID,性能显著优于Qwen-Text(HR@3达到 0.0300),这表明结构化的SID词汇表更易于LLM利用和泛化。MiniOneRec-w/RL-OOD的泛化能力: 尽管MiniOneRec-w/RL-OOD略低于在Office域内训练的GRU4Rec,但考虑到它完全在Industrial域训练,且跳过了SFT阶段(仅通过GRPO优化以强调泛化),其在未见过域上的性能(HR@3达到 0.0553)令人印象深刻。- 跨域模式发现: 这表明
MiniOneRec成功地从SID序列中发现了可重用的交互模式,即使在领域发生重大转变和SIDs可能存在语义漂移的情况下,也具有良好的泛化能力,凸显了该框架在跨域推荐方面的潜力。
6.1.4. 预训练 LLM 影响 (Pre-trained LLM Impact)
以下是原文 Table 3 的结果:
| Datesets | Methods | HR@3 | NDCG@3 | HR@5 | NDCG@5 | HR@10 | NDCG@10 |
| Industrial | MiniOneRec-scratch | 0.0757 | 0.0672 | 0.0891 | 0.0726 | 0.1134 | 0.0804 |
| MiniOneRec | 0.1125 | 0.0988 | 0.1259 | 0.1046 | 0.1546 | 0.1139 | |
| Office | MiniOneRec-scratch | 0.0959 | 0.0855 | 0.1057 | 0.0896 | 0.1196 | 0.0941 |
| MiniOneRec | 0.1217 | 0.1088 | 0.1420 | 0.1172 | 0.1634 | 0.1242 |
分析:
- 实验设置: 比较从通用预训练
LLM初始化和从随机权重开始训练的MiniOneRec变体。 - 预训练权重的重要性: 在
Industrial和Office两个数据集上,从预训练权重开始初始化的MiniOneRec模型(MiniOneRec)显著优于从随机初始化开始训练的模型(MiniOneRec-scratch)。例如,在Industrial数据集上,MiniOneRec的HR@3为 0.1125,远高于MiniOneRec-scratch的 0.0757。 - 推理能力与世界知识: 这项结果支持了两个假设:
LLM在大规模语言预训练中获得的通用推理能力,使得模型能够将next-SID预测任务视为模式发现问题(如第 5.4 节讨论)。LLM中已编码的事实知识,为理解每个SID背后的真实世界语义提供了先发优势,其中一部分可以迁移到推荐领域。
6.2. 消融实验 (Ablation Study)
以下是原文 Figure 4 的结果:
该图像是图表,展示了不同策略下的推荐准确率(HR@10)。图中分为三部分,分别为对齐策略、采样策略和奖励设计,柱状图显示了MiniOneRec在工业和办公环境中的表现。不同的实验条件下,推荐系统的性能有显著差异。
图 4: MiniOneRec 各个组件有效性的研究。图 4a 考察了不同对齐策略下的模型性能;图 4b 研究了各种采样策略;图 4c 评估了替代奖励设计的影响。
6.2.1. 对齐策略 (Aligning Strategy)
实验设置: 比较完整 MiniOneRec 与以下三个简化变体:
MINIONEREC-W/O ALIGN:移除所有语言-SID对齐,将推荐纯粹视为SID-to-SID任务。MINIONEREC-W/ SFTALIGN:仅在SFT阶段保持对齐目标,而RL阶段仅使用SID数据。MINIONEREC-W/ RLALIGN:SFT仅依赖SID监督,对齐任务在RL阶段引入。
分析 (基于 Figure 4a):
- 全流程对齐的重要性: 完整的
MiniOneRec模型(在整个管道中保持对齐)在所有指标上均表现最佳,这表明在SFT和RL阶段都强制执行语言-SID对齐至关重要。 - 缺乏对齐的劣势:
MINIONEREC-W/O ALIGN性能最差,显著低于其他所有变体。这强烈表明,将SID生成与LLM的世界知识结合是不可或缺的。 - 分阶段对齐不如全流程:
MINIONEREC-W/ SFTALIGN和MINIONEREC-W/ RLALIGN的性能介于MINIONEREC-W/O ALIGN和完整MiniOneRec之间,这说明在特定阶段进行对齐虽然有益,但不如在整个流程中保持对齐效果好。这可能是因为持续的对齐有助于模型建立更深层次的语义理解。
6.2.2. 采样策略 (Sampling Strategy)
实验设置: 仅切换轨迹生成器,其他所有设置保持不变:
MINIONEREC-COMMON:依赖于一个普通的Top-k解码器来生成所需数量的路径。MINIONEREC-DYNAMIC:遵循两步采样器:首先过采样 1.5 倍的预算,然后保留尽可能多的独特物品用于RL。- 完整模型:采用宽度为 16 的束搜索 (beam search)。
分析 (基于 Figure 4b):
- 束搜索的效率与准确性: 完整的
MiniOneRec模型(使用束搜索)在准确性上表现最佳。同时,它只需要动态采样变体约三分之二的样本量。 - 多样性与成本权衡: 这表明束搜索在所测试的策略中是最具成本效益的选择,它能在保证多样性的同时,有效提升性能。
MINIONEREC-DYNAMIC试图通过过采样来增加多样性,但其效率和最终性能不如束搜索。MINIONEREC-COMMON性能最差,可能因为其多样性不足。
6.2.3. 奖励设计 (Reward Design)
实验设置: 比较三种变体:
MINIONEREC-w/ ACC:仅依赖二元正确性信号作为奖励。MINIONEREC-w/ COLLABORATIVE:用从冻结的SASRec模型中获取的logit替换排序项,以提供协同线索。- 完整
MiniOneRec:结合了规则和排序感知奖励。
分析 (基于 Figure 4c):
- 混合奖励的最佳性能: 完整的
MiniOneRec(采用混合奖励,即规则奖励与排序感知惩罚相结合)取得了最佳的总体性能。这验证了本文提出的混合奖励设计的有效性,它能更好地指导模型优化推荐质量。 - 二元奖励的局限性:
MINIONEREC-w/ ACC仅使用二元正确性奖励,其性能低于完整模型,表明简单的二元奖励无法提供足够的指导信息来优化排序质量。 - 协同奖励的负面影响: 令人惊讶的是,将协同奖励信息注入
RL过程反而导致了性能的显著下降。作者推测,这可能是由于奖励作弊 (reward hacking) 导致的:随着推荐准确度下降,奖励却持续增加,揭示了这种协同奖励信号与真实目标之间存在错位。这意味着直接将协同模型的logit作为奖励可能无法准确反映推荐质量,甚至可能误导RL过程。
7. 总结与思考
7.1. 结论总结
本报告介绍了 MiniOneRec,据作者所知,这是第一个完全开源的生成式推荐框架。它提供了一个端到端的工作流,涵盖了 SID 构建、SFT 和面向推荐的 RL。通过在公开基准测试上系统地验证规模化法则,论文证明了大型生成式推荐器能够实现比小型对应模型更低的训练和评估损失,从而证实了基于 SID 的范式相对于传统以嵌入为中心的模型在参数效率上的优势。在此基础上,论文引入了有效的后训练技术:
-
全流程
SID对齐: 将SID token嵌入模型词汇表,并在SFT和RL阶段都施加辅助对齐任务,以增强语言与SID空间之间的语义联系。 -
强化偏好优化: 结合约束解码、基于束搜索的采样策略和混合奖励设计(包含规则奖励和排序感知惩罚),以同时提升推荐准确度和候选多样性。
在亚马逊评论数据集上进行的广泛实验表明,
MiniOneRec持续超越了强大的序列推荐、生成式推荐和LLM基于的基线模型,同时保持了轻量级的后训练足迹。
7.2. 局限性与未来工作
7.2.1. 论文作者指出的局限性
论文中未明确指出自身的具体局限性,但从其未来发展规划和实验分析中可以推断一些潜在的方面:
- 数据集规模和多样性: 尽管使用了
Amazon Review数据集,但其规模和多样性可能仍不足以完全模拟工业级推荐场景的复杂性。 SID编码器的通用性: 尽管RQ-VAE表现良好,但SID的构建方式可能还有改进空间,以更好地捕捉物品的复杂语义。LLM主干网络的局限: 当前使用的是Qwen2.5-Instruct模型,更大、更先进的LLM主干网络可能会带来进一步的性能提升,但也会增加计算成本。- 奖励函数的复杂性: 尽管提出了混合奖励,但奖励作弊问题仍然存在,尤其是协同奖励表现不佳,这表明设计更鲁棒、更精准的奖励函数仍是挑战。
7.2.2. 未来研究方向
论文指出了以下未来发展方向:
- 维护和扩展
MiniOneRec代码库: 将持续维护和扩展代码库,并提供公共路线图以指导未来开发,欢迎社区贡献。 - 引入新数据集: 探索在更多样化和更大规模的数据集上进行实验。
- 更先进的分词方案: 研究和实现更先进的
token化方案来表示物品。 - 更大规模的主干模型: 探索使用更大参数量的
LLM主干网络。 - 增强训练管道: 进一步优化和增强训练管道,以提高效率和性能。
7.3. 个人启发与批判
7.3.1. 个人启发
- 生成式范式的潜力:
MiniOneRec强有力地证明了将推荐任务建模为序列生成问题,并结合LLM的强大能力,是推荐系统未来发展的一个重要方向。尤其是在参数效率和规模化能力上,生成式方法有望突破传统推荐系统的瓶瓶颈。 - 世界知识的融合: 论文强调了
LLM的世界知识对于推荐系统的重要性。通过SID对齐任务,将语言空间与离散SID空间连接起来,是一种非常有效的知识迁移方式,使得推荐模型能够更好地理解物品的语义。这启发我们,未来推荐系统应更深入地探索如何利用多模态和通用知识。 - RL 在推荐中的精细化应用: 论文详细探讨了
RL在推荐场景中的挑战(如生成空间有限、排序监督稀疏)并提出了有效的解决方案(约束解码、束搜索、混合奖励)。这为RL在复杂、离散且需要高质量排序的推荐场景中的应用提供了宝贵的经验和范式。特别是由排序位置决定的惩罚机制,精准地引导模型关注并优化困难负样本,这在其他RL任务中也具有借鉴意义。 - 开源的重要性: 作为首个开源的端到端生成式推荐框架,
MiniOneRec极大地降低了该领域的研究门槛,促进了学术界对这一前沿方向的探索和合作,这是对整个社区的巨大贡献。
7.3.2. 批判与潜在改进
- 协同奖励的“奖励作弊”问题: 论文中协同奖励导致性能下降的现象值得深入探讨。简单地将协同过滤模型的
logit作为奖励可能没有充分考虑到RL优化目标与协同模型目标之间的差异。未来的工作可以探索更复杂的协同奖励设计,例如:- 将协同得分与
LLM的语义相关性进行加权融合。 - 使用
RL训练一个奖励模型,该模型能够从协同信号中学习更符合用户偏好(而非仅仅是概率)的奖励。 - 探索其他形式的负样本策略,以减少奖励作弊。
- 将协同得分与
SID粒度和语义损失:RQ-VAE将物品文本压缩为固定长度的SID序列。尽管有效,但这种压缩可能导致部分细粒度语义信息的丢失。未来的工作可以探索:- 自适应
SID长度,根据物品描述的复杂性动态调整SID序列长度。 - 更高级的量化技术,例如结合上下文信息进行量化,以更好地保留语义。
- 多层次
SID表示,允许模型在不同粒度上理解物品。
- 自适应
- 计算资源需求: 尽管
MiniOneRec强调参数效率和SID空间的紧凑性,但使用 7B 参数的LLM仍然需要大量的计算资源进行训练和推理(特别是RL阶段的束搜索和多次roll-out)。对于资源有限的研究者和工业界而言,如何进一步优化资源消耗是一个持续的挑战。例如,可以探索知识蒸馏、剪枝等模型压缩技术。 - 个性化与用户建模: 论文主要关注物品的生成和排序。虽然用户历史被用作输入,但用户本身的个性化特征(如人口统计学信息、偏好标签)如何更有效地融入
LLM的prompt或模型结构中,以实现更深层次的个性化,仍有待进一步研究。 cold-start问题: 对于新用户或新物品,由于历史交互数据稀疏或缺乏,SID构建和LLM推荐都可能面临挑战。如何利用LLM的世界知识和零/少样本学习能力来更好地解决cold-start问题是一个有前景的研究方向。
相似论文推荐
基于向量语义检索推荐的相关论文。