Optimizing Generative Ranking Relevance via Reinforcement Learning in Xiaohongshu Search
TL;DR 精炼摘要
本研究将小红书搜索的排序相关性建模为推理任务,利用强化学习框架优化生成式相关性模型,以解决传统模型的解释性差和对监督微调数据的高度依赖。创新包括设计多步推理提示词和步骤优势掩码策略,实验证明该方法在离线和在线测试中显著提升了相关性匹配的效果。
摘要
Ranking relevance is a fundamental task in search engines, aiming to identify the items most relevant to a given user query. Traditional relevance models typically produce scalar scores or directly predict relevance labels, limiting both interpretability and the modeling of complex relevance signals. Inspired by recent advances in Chain-of-Thought (CoT) reasoning for complex tasks, we investigate whether explicit reasoning can enhance both interpretability and performance in relevance modeling. However, existing reasoning-based Generative Relevance Models (GRMs) primarily rely on supervised fine-tuning on large amounts of human-annotated or synthetic CoT data, which often leads to limited generalization. Moreover, domain-agnostic, free-form reasoning tends to be overly generic and insufficiently grounded, limiting its potential to handle the diverse and ambiguous cases prevalent in open-domain search. In this work, we formulate relevance modeling in Xiaohongshu search as a reasoning task and introduce a Reinforcement Learning (RL)-based training framework to enhance the grounded reasoning capabilities of GRMs. Specifically, we incorporate practical business-specific relevance criteria into the multi-step reasoning prompt design and propose Stepwise Advantage Masking (SAM), a lightweight process-supervision strategy which facilitates effective learning of these criteria through improved credit assignment. To enable industrial deployment, we further distill the large-scale RL-tuned model to a lightweight version suitable for real-world search systems. Extensive experiments on industrial datasets, along with online A/B tests, demonstrate the effectiveness of our approach.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Optimizing Generative Ranking Relevance via Reinforcement Learning in Xiaohongshu Search (在小红书搜索中通过强化学习优化生成式排序相关性)
1.2. 作者
Ziyang Zeng (北京邮电大学), Heming Jing, Jindong Chen, Xiangli Li, Hongyu Liu, Yixuan He, Zhengyu Li, Yige Sun, Zheyong Xie, Yuqing Yang (北京邮电大学), Shaosheng Cao, Jun Fan, Yi Wu, Yao Hu。 主要作者来自小红书 (Xiaohongshu Inc.) 的搜索技术团队与北京邮电大学。
1.3. 发表期刊/会议
发表于预印本平台 arXiv (arXiv:2512.00968),从格式看为提交至 ACM 相关会议(如 SIGIR/KDD/WWW)的工业界论文。
1.4. 发表年份
2025年
1.5. 摘要
排序相关性(Ranking Relevance)是搜索引擎的核心任务。传统的判别式模型(如输出一个标量分数)存在解释性差、难以建模复杂信号等局限。本文将小红书搜索的相关性建模转化为一个推理任务 (Reasoning Task),利用大语言模型 (LLM) 的思维链 (Chain-of-Thought, CoT) 能力来增强解释性和性能。为解决现有生成式相关性模型对监督微调 (SFT) 数据依赖性强、泛化能力差的问题,作者提出了一个基于强化学习 (Reinforcement Learning, RL) 的训练框架。核心创新包括:将业务特定准则融入多步推理提示词设计,以及提出步骤优势掩码 (Stepwise Advantage Masking, SAM) 策略,实现轻量级的过程监督(Process Supervision)和更精确的信度分配(Credit Assignment)。实验证明该方法在离线指标和在线 A/B 测试中均取得了显著提升,并成功蒸馏部署于工业生产环境。
1.6. 原文链接
-
arXiv 链接: https://arxiv.org/abs/2512.00968
-
发布状态: 预印本 (v1)
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 搜索系统需要判断用户输入的查询 (Query) 与笔记 (Note) 之间的相关性。传统模型输出的是“黑盒”分数,无法解释为什么相关。
- 现有挑战:
- 解释性不足: 传统标量模型无法提供决策依据。
- SFT 的局限性: 现有的推理型模型依赖大量人工标注的推理路径进行微调,成本高且泛化性差。
- 领域相关性难题: 开放域搜索存在大量歧义情况(如“植物为什么需要光”和光合作用的关系),通用模型的自由推理往往不够严谨,缺乏领域知识的约束。
- 创新切入点: 将相关性评估定义为“推理”而非“分类”,并利用强化学习(而非单纯的 SFT)来激发模型的推理潜能,同时引入业务准则作为推理的“公理”。
2.2. 核心贡献/主要发现
-
推理化建模: 将相关性建模定义为多步推理任务,通过思维链 (CoT) 提升复杂场景下的理解能力。
-
准则增强提示词: 首次将积累多年的工业级相关性准则显式注入提示词,为模型提供“领域先验知识”。
-
SAM 机制 (Stepwise Advantage Masking): 提出一种新型的强化学习优化策略。它通过提取推理过程中的中间得分,对推理步骤进行“对错”判定,只奖励正确的推理步骤,惩罚错误的步骤,解决了强化学习中“结果正确但推理过程错误”的欺骗行为。
-
工业落地: 通过知识蒸馏将 32B 的大模型能力迁移到 0.1B 的轻量化模型中,实现了 20ms 的极低延迟部署。
3. 预备知识与相关工作
3.1. 基础概念
- 思维链 (Chain-of-Thought, CoT): 指大模型在输出最终答案前,先生成一段解释逻辑的技术。这能显著提升模型处理复杂逻辑的能力。
- 监督微调 (Supervised Fine-Tuning, SFT): 使用“输入-标准答案”对模型进行直接训练。
- 强化学习 (Reinforcement Learning, RL): 模型(智能体)通过在环境中尝试并根据反馈(奖励)来优化自身策略的过程。
- 词元 (token): 文本处理的最小单位,模型生成的每一个字词都可以看作一个词元。
3.2. 前人工作与技术演进
- 判别式模型 (Discriminative Models): 如 BERT 架构的排序模型,输入 Query 和 Note,输出 0-1 之间的相关性概率。
- 生成式相关性模型 (Generative Relevance Models, GRMs):
- Vanilla GRMs: 直接输出“Yes”或“No”。
- Reasoning-based GRMs: 先推理再给结论,但主要依靠 SFT。
- 本文的差异化: 现有的方法要么只管结果不管过程(Outcome-based RL),要么需要极其昂贵的人工过程标注。本文通过
SAM机制,利用模型自身输出的中间分进行自动的、分步骤的信度分配。
3.3. 核心算法背景:GRPO
本文使用了 分组相对策略优化 (Group Relative Policy Optimization, GRPO)。这是由 DeepSeek 提出的一种无需价值函数 (Value Function) 网络、通过组内相对奖励进行归一化的强化学习算法,非常适合可验证的推理任务。
4. 方法论
4.1. 方法原理
论文的核心思想是将相关性评估分为三个结构化步骤:语义分析 -> 规则判定 -> 总结决策。利用强化学习中的 SAM 机制来确保模型在这三步中都走在正确的道路上。
4.2. 核心方法详解
4.2.1. 任务定义
模型 接收输入 (指令)、(查询)、(笔记),首先生成推理轨迹 ,最后提取出预测标签 。
词元的自回归生成公式为: 其中 表示时刻 之前生成的词元序列。模型的目标是最大化预测标签与真实标签 一致的期望概率。
4.2.2. 准则增强提示词 (Criteria-augmented Prompt)
作者设计了一个三阶段的推理结构(见原文 Figure 3):
-
第一步:通用语义分析: 关键词匹配、意图分析,输出一个初步分数。
-
第二步:基于准则的上限分析: 引入特定的业务规则(如:如果是对比类查询,若笔记只包含一个项,相关性上限是多少),输出一个上限分数。
-
第三步:最终反思与判断: 综合前两步得出最终标签。
要求: 模型在每一步结束时,必须用 包裹一个中间相关性分数。这为后续的
SAM提供了监督信号。
4.2.3. 强化学习优化:GRPO 框架
在强化学习阶段,优化目标(目标函数)如下:
- : 奖励函数。如果预测正确为 1,错误为 0。
- : KL 散度,防止模型在强化学习过程中“跑偏”,背离初始模型太远。
- : 控制 KL 惩罚力度的超参数。
4.2.4. 步骤优势掩码 (Stepwise Advantage Masking, SAM)
这是本文最核心的创新。在传统的强化学习(如 GRPO)中,如果最后答案对了,整条推理轨迹的所有单词都会得到正向奖励。但这会导致“瞎猫碰到死耗子”的推理也被鼓励。
SAM 的逻辑如下:
- 从推理轨迹中提取三步的中间分数 。
- 定义每一步的正确性指标 (即 是否等于真实标注 )。
- 构建掩码 :
- 如果最终结果正确,只给那些中间分数也正确的步骤加正向奖励。
- 如果最终结果错误,只给那些中间分数错误的步骤加负面惩罚(掩盖掉其中可能正确的推理片段,避免误伤逻辑正确的部分)。
最终的优化目标 (SAM-augmented GRPO): 这里的 是优势函数 (Advantage Function),代表该动作比平均水平好多少。 的引入实现了词元级/步骤级的精准信度分配。
5. 实验设置
5.1. 数据集
实验使用了小红书搜索真实的工业数据集:
- RANDOM: 15,000 对随机采样的 Query-Note 对,反映了真实系统的整体分布。
- LONGTAIL: 15,000 对长尾(低频)查询。这类查询更难,更考验模型的语义推理能力。
- 标签体系: 五分类 ,涵盖从“强不相关”到“完美相关”。
5.2. 评估指标
- 准确率 (Accuracy, ACC): 预测正确的样本占总样本的比例。
- 2-ACC: 二分类准确率(将非负与负样本分开)。
- 5-ACC: 原始五分类准确率。
- Macro F1 分数: 每一类的 F1 分数取算术平均,对类别不平衡(如少数类标签)更敏感。
- Weighted F1 分数: 根据各类别样本量加权的 F1 分数。
5.3. 对比基线
-
SFT-Label: 传统的直接预测标签,不推理。
-
SFT-Reasoning: 模仿 DeepSeek 生成的推理路径进行微调。
-
PPO-Reasoning: 使用标准的近端策略优化 (PPO) 算法。
-
OutcomeRL-Reasoning: 只基于最终结果对错进行奖励的强化学习(标准 GRPO)。
6. 实验结果与分析
6.1. 核心结果分析
以下是原文 Table 2 的离线评估结果:
| 模型 | 数据量 | RANDOM | LONGTAIL | ||||||
|---|---|---|---|---|---|---|---|---|---|
| 2-ACC | 5-ACC | Macro F1 | Weighted F1 | 2-ACC | 5-ACC | Macro F1 | Weighted F1 | ||
| SFT-Label | 200k | 90.26 | 78.64 | 65.66 | 77.40 | 89.11 | 77.66 | 63.24 | 76.31 |
| SFT-Reasoning-v2 | 500k | 83.04 | 63.06 | 51.76 | 63.16 | 81.15 | 63.55 | 50.64 | 63.65 |
| OutcomeRL-Reasoning | 150k+50k | 92.09 | 80.90 | 72.46 | 79.98 | 89.62 | 77.03 | 65.08 | 75.96 |
| ProcessRL-Reasoning (Ours) | 150k+50k | 92.45 | 81.23 | 73.55 | 80.43 | 90.04 | 77.72 | 66.39 | 76.77 |
关键发现:
- 推理并非总是有效: 仅使用 SFT 训练推理模型(SFT-Reasoning)效果反而比不推理(SFT-Label)差。这说明模型在长推理链中容易迷失,简单的模仿学习无法学到精髓。
- RL 的威力: 强化学习版本显著超过了所有 SFT 版本。其中本文提出的
ProcessRL(带 SAM 机制) 在所有指标上均表现最优,特别是在代表稳健性的Macro F1上提升巨大。 - 数据效率: 如图 4 所示,作者的方法仅需 200k 总数据就能超过 SFT 在 1M 数据上的表现,展示了极高的数据利用效率。
6.2. 在线 A/B 测试
在真实的小红书流量中,该模型带来了以下提升:
-
CES (核心参与度指标): 提升 +0.72%。这意味着用户点击、点赞、收藏等行为显著增加。
-
DCG 0/1 (排序质量指标): 降低 -0.36%。意味着搜索结果中的“坏结果”变少了。
7. 总结与思考
7.1. 结论总结
本文证明了在搜索相关性任务中,“推理”是有价值的,但前提是必须通过强化学习进行正确的引导。通过引入领域准则和 SAM 过程监督机制,模型不仅学会了“判别”,更学会了“讲理”。这套框架在工业界具有极强的参考价值,尤其是在需要平衡模型性能与解释性的场景下。
7.2. 局限性与未来工作
- 过度联想 (Over-Association): 模型有时会利用其内部知识进行过度推理(例如:因为演员相同就认为两部剧相关),这可能导致假阳性。
- 准则适配挑战: 当业务规则发生动态更新时,模型可能表现出“训练惯性”,无法立即适应新规则。作者提出未来需要探索“动态准则微调”。
- 通用化验证: 目前依赖硬编码的 分数。未来可以结合“LLM-as-Verifier”(让另一个模型当裁判)来支持更灵活的非结构化推理验证。
7.3. 个人启发
这篇论文非常具有启发性的一点在于:它展示了如何将“工业界的土方法”(积累多年的专家规则)与“学术界的前沿工具”(GRPO、CoT 推理)优雅地结合。很多时候,纯学术的方法在工业界落地时会因为缺乏领域常识而“水土不服”,而本文的 SAM 机制通过简单的提示词约束实现了低成本的过程监督,为我们提供了一个解决大模型“虚假推理”问题的实战范本。
相似论文推荐
基于向量语义检索推荐的相关论文。