Language Ranker: A Lightweight Ranking framework for LLM Decoding
TL;DR 精炼摘要
本文提出了Language Ranker,一个轻量级的排序框架,用于优化大语言模型(LLMs)的解码过程。此框架通过将解码视为推荐系统的排序阶段,并引入基模型提取的特征对候选响应进行重新排序,提升了生成效率,与大规模奖励模型性能相当,且额外参数仅需不足0.5M,降低了计算成本。
摘要
Conventional research on large language models (LLMs) has primarily focused on refining output distributions, while paying less attention to the decoding process that transforms these distributions into final responses. Recent advances, such as scaling the computation of inference time with reward models, have underscored the importance of decoding, but these methods often suffer from high computational costs and limited applicability. In this paper, we revisit LLM generation through the lens of recommender systems, conceptualizing the decoding process as analogous to the ranking stage in recommendation pipelines. From this perspective, we observe that both traditional decoding methods and reward models exhibit clear limitations such as redundancy. Motivated by this insight, we propose Language Ranker, a novel framework that introduces a lightweight module to rerank candidate responses using features extracted by the base model. Experiments across a wide range of tasks show that Language Ranker achieves performance comparable to large-scale reward models, while requiring only <0.5M additional parameters, significantly reducing the computational overhead during both training and inference stages. This highlights the efficiency and effectiveness of our method, showcasing its potential to fully unlock the capabilities of LLMs.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Language Ranker: A Lightweight Ranking framework for LLM Decoding (语言排序器:一种用于大语言模型解码的轻量级排序框架)
1.2. 作者
Chenheng Zhang、Tianqi Du、Jizhe Zhang、Mingqing Xiao、Yifei Wang、Yisen Wang 和 Zhouchen Lin。 他们主要来自北京大学 (Peking University) 的通用人工智能国家重点实验室 (State Key Lab of General Artificial Intelligence) 和人工智能研究院 (Institute for Artificial Intelligence),以及麻省理工学院计算机科学与人工智能实验室 (MIT CSAIL, MA, USA) 和微软亚洲研究院 (Microsoft Research Asia)。
1.3. 发表期刊/会议
该论文尚未在正式期刊或会议上发表,目前是发布在预印本平台 arXiv 上的一篇预印本 (preprint) 论文。arXiv 是一个开放获取的电子档案库,用于存储物理学、数学、计算机科学等领域的科学论文。
1.4. 发表年份
2025年10月23日 (UTC)。
1.5. 摘要
传统的大语言模型 (Large Language Models, LLMs) 研究主要集中在改进输出分布 (output distributions),而对将这些分布转换为最终响应的解码过程 (decoding process) 关注较少。近期,诸如使用奖励模型 (reward models) 在推理时进行计算扩展等进展,凸显了解码的重要性,但这些方法通常面临高昂的计算成本和有限的适用性。本文将 LLMs 的生成过程重新审视,将其视为推荐系统 (recommender systems) 中的排序阶段 (ranking stage)。从这个视角,我们观察到传统解码方法和奖励模型都存在明显的局限性,例如冗余 (redundancy)。受此启发,我们提出了 Language Ranker,一个新颖的框架,引入一个轻量级模块 (lightweight module),利用基模型 (base model) 提取的特征 (features) 对候选响应 (candidate responses) 进行重新排序 (rerank)。在广泛任务上的实验表明,Language Ranker 实现了与大规模奖励模型相当的性能,而仅需要不到 0.5M 的额外参数,显著降低了训练和推理阶段的计算开销。这突出了我们方法的效率和有效性,展示了其充分释放 LLMs 潜力的潜力。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2510.21883 PDF 链接: https://arxiv.org/pdf/2510.21883v1.pdf 发布状态: 预印本 (preprint)。
2. 整体概括
2.1. 研究背景与动机
-
论文试图解决的核心问题是什么?
- 问题一: 现有的大语言模型 (LLMs) 研究主要集中于提升模型本身的输出分布质量(如通过模型规模扩展、监督微调 (Supervised Fine-tuning, SFT) 或强化学习与人类反馈 (Reinforcement Learning with Human Feedback, RLHF)),但对将这些分布转化为最终响应的“解码过程”关注不足。
- 问题二: 当前的解码策略(如
top-k sampling、self-consistency、contrastive decoding)大多是基于规则 (rule-based) 且任务特定 (task-specific) 的,这限制了它们充分利用 LLMs 强大输出分布的能力。 - 问题三: 最近引入的奖励模型 (reward models) 虽然能通过在推理时计算来选择最佳响应,提升了性能,但它们带来了显著的计算和时间开销,限制了其可扩展性 (scalability) 和在更广泛场景中的适用性 (applicability)。这些奖励模型通常需要从头开始进行特征工程 (feature engineering),与基模型 (base model) 已经完成的特征提取存在冗余。
-
为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白 (Gap)?
- 有研究表明,如果能从模型生成的多个样本中选出最佳响应,一个 7B 参数的模型甚至可能超越一个 70B 参数的模型。这强调了解码过程在最大化模型性能方面的巨大潜力。
- 现有解码策略的规则性、任务特定性以及奖励模型的高成本,构成了充分挖掘 LLMs 潜力的主要障碍。奖励模型作为辅助模型,在训练和推理阶段都需要加载模型参数,这增加了内存和计算负担,尤其是在资源受限的环境中。现有方法忽略了基模型在生成候选响应时已经提取的高质量特征,导致了计算上的冗余。
-
这篇论文的切入点或创新思路是什么?
- 论文将 LLMs 的生成过程重新审视,将其类比为推荐系统 (recommender systems) 中的排序阶段 (ranking stage)。
- 受推荐系统中“特征共享”思想的启发,提出了一种轻量级 (lightweight) 的排序框架
Language Ranker。该框架通过一个小型可学习模块,直接利用基模型在生成过程中已经提取的隐藏状态 (hidden states) 作为特征,对候选响应进行重新排序 (rerank),从而避免了奖励模型高昂的计算成本和冗余的特征工程。
2.2. 核心贡献/主要发现
-
论文最主要的贡献是什么?
- 理论视角创新: 将大语言模型 (LLMs) 的生成过程重新解读为推荐系统 (recommender systems) 中的排序机制 (ranking mechanisms),揭示了现有解码策略和奖励模型在效率和通用性方面的局限性。
- 框架创新: 提出了
Language Ranker,一个新颖的、轻量级的排序框架,用于 LLMs 的解码过程。该框架高效且有效,它通过引入一个小型模块,利用基模型 (base model) 提取的共享特征对候选响应进行重新排序。 - 灵活性与个性化:
Language Ranker框架允许单个基模型与不同的轻量级排序器 (ranker) 灵活配对,以实现对不同用户需求或任务的个性化适应。由于ranker的轻量级特性,它甚至可以在边缘设备 (edge devices) 或本地用户设备上进行部署和持续学习 (continual learning)。 - 效率与性能: 实验证明,
Language Ranker在多种任务和不同规模的基模型上,实现了与大规模奖励模型 (reward models) 相当的性能,而仅需不到0.5M的额外参数。这显著降低了训练和推理阶段的计算开销。
-
论文得出了哪些关键的结论或发现?这些发现解决了什么具体问题?
Language Ranker显著提升了基模型的性能,在某些任务上甚至超越了更大的奖励模型,证明了其在性能上的竞争力。- 其参数量远小于奖励模型,且可在 CPU 上高效训练和推理,解决了奖励模型计算成本高、部署受限的问题。
Ranker Scaling Law揭示了随着候选响应数量的增加,Language Ranker的性能会持续提升,为推理时间计算的扩展提供了一条新路径。- 消融研究 (ablation study) 证明了投影层 (projection layer) 和指令特征 (instruction feature) 对
ranker的轻量化和性能至关重要。 Language Ranker对超参数 (hyper-parameters) 具有更好的鲁棒性,更容易训练。Language Ranker表现出强大的跨领域 (cross-domain) 和跨任务 (cross-task) 迁移能力,表明其泛化性强,适用于多样化的应用场景。 这些发现共同解决了传统解码策略的效率低下、缺乏通用性以及奖励模型计算成本高昂的挑战,为 LLMs 的高效、灵活和个性化部署开辟了新的途径。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文提出的 Language Ranker 框架,我们需要了解以下核心概念:
- 大语言模型 (Large Language Models, LLMs): 这是一类基于深度学习的语言模型,通常具有数十亿甚至数千亿参数,通过在海量文本数据上进行预训练来学习语言的模式和结构。它们能够执行文本生成、问答、翻译等多种自然语言处理 (Natural Language Processing, NLP) 任务。
- 解码过程 (Decoding Process): 在 LLMs 中,解码是指将模型预测的下一个词元 (token) 的概率分布转换为实际文本序列的过程。预训练的 LLM 会输出一个概率分布,表示下一个词元是什么,而解码策略则负责从这个分布中选择词元来构建最终的响应。常见的解码策略包括贪婪解码 (greedy decoding)、束搜索 (beam search)、
top-k sampling等。 - 奖励模型 (Reward Model, RM): 在强化学习与人类反馈 (Reinforcement Learning with Human Feedback, RLHF) 中,奖励模型是一个辅助的神经网络,用于学习人类对 LLM 生成响应的偏好。它接收 LLM 的响应作为输入,并输出一个标量分数(奖励值),表示该响应的质量或符合人类偏好的程度。奖励模型通常用于指导 LLM 的微调过程,或在推理时对多个候选响应进行评分和选择。
- 推荐系统 (Recommender Systems): 是一类旨在预测用户对物品(如商品、电影、新闻)偏好并向用户推荐相关物品的信息过滤系统。典型的推荐系统通常包含两个主要阶段:
- 召回 (Retrieval) 阶段: 从海量物品库中快速筛选出少量用户可能感兴趣的候选物品。
- 排序 (Ranking) 阶段: 对召回阶段筛选出的候选物品进行精细化排序,选出最符合用户偏好的物品。
- 特征工程 (Feature Engineering): 指利用领域知识将原始数据转换为对机器学习模型更有效的特征的过程。在 LLMs 和推荐系统中,这可能涉及到从文本、用户行为等数据中提取有意义的数值表示。
- 隐藏状态 (Hidden States): 在神经网络模型中,尤其是像
Transformer这样的序列模型中,隐藏状态是指模型内部层在处理输入序列时产生的激活值。这些状态捕获了输入序列的上下文信息和语义表示,可以被视为对输入文本的特征提取。 - Top-k 采样 (Top-k Sampling): 一种解码策略,在生成下一个词元时,只考虑模型预测概率最高的 个词元,并从这 个词元中进行随机采样。这有助于增加生成文本的多样性,同时避免生成低质量的词元。
- 自洽性 (Self-Consistency): 一种用于提高 LLM 推理性能的解码策略。它通过多次采样生成多个不同的推理路径(如思维链 (Chain-of-Thought, CoT)),然后通过多数投票 (majority voting) 或其他聚合方法,从这些路径中选择最一致的答案作为最终输出。它假设正确的答案更有可能在不同的推理路径中被多次达到。
- 对比解码 (Contrastive Decoding): 一种解码策略,旨在通过在生成过程中对比来自不同模型的输出或同一模型在不同设置下的输出,来提高生成文本的质量和连贯性。它通常涉及一个“好”的生成器和一个“差”的生成器,通过最小化它们之间的差异来引导生成器产生更好的文本。
- 监督微调 (Supervised Fine-tuning, SFT): 在预训练的 LLM 基础上,使用带有标注数据(即输入-输出对)的特定任务数据集进行进一步训练的过程,以使模型更好地适应特定任务。
- 强化学习与人类反馈 (Reinforcement Learning with Human Feedback, RLHF): 一种训练 LLM 的方法,通过收集人类对模型响应的偏好数据来训练一个奖励模型,然后使用这个奖励模型作为奖励函数来指导 LLM 通过强化学习进行微调,使其生成更符合人类偏好的响应。
- 低秩适应 (Low-Rank Adaptation, LoRA): 一种参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 技术,通过在预训练模型的少量低秩矩阵上进行训练,而不是更新整个模型,从而大幅减少微调所需的计算和存储资源。
3.2. 前人工作
论文在 1 Introduction 和 4 Related Work 部分提及了多项相关的前人研究,这些工作构成了 Language Ranker 提出的背景和动机。
-
提升 LLM 输出分布质量的方法:
- 模型规模扩展 [1]: 通过增加模型参数量来提高性能。例如,
GPT-3、LLaMA等模型的成功。 - 监督微调 (SFT) [2, 3]: 使用特定任务数据对预训练模型进行微调,以适应下游任务。
- 强化学习与人类反馈 (RLHF) [4, 5]: 通过人类偏好数据训练奖励模型,指导 LLM 生成更符合人类预期的响应。
- 模型规模扩展 [1]: 通过增加模型参数量来提高性能。例如,
-
传统解码方法:
Top-k sampling[6, 7] 和Temperature-based sampling[25]、Nucleus sampling[26]: 这些是基本的采样策略,用于从模型输出的概率分布中选择下一个词元。它们在生成多样性和质量之间进行权衡。Self-consistency[8, 27]: 针对推理任务,通过生成多个推理路径并进行多数投票来提高答案的准确性。- 辅助模型解码 [9, 28, 29]: 利用一个辅助模型来指导生成过程,使其更好地满足特定要求,例如
Contrastive Decoding[9]。
-
推理时间计算 (Inference-Time Computing) 与奖励模型 (Reward Models):
- 利用奖励模型选优 [10, 11, 12, 13]: 近期研究发现,如果在推理时能够从多个样本中选出最佳响应,即使是小模型也能达到大模型的性能。奖励模型被引入来近似这个“神谕 (oracle)”选择器,对候选响应进行评分和选择 [11, 12, 13, 15, 39]。
- 奖励模型的挑战 [30, 31]: 奖励模型在
RLHF中广泛使用,但在实际部署中,它们通常带来显著的计算开销。 - 现有改进方向 [34, 35, 36, 37]:
Self-critic模型 [34, 35]:让模型学会自我评估,但性能仍有不足。- 基于嵌入 (embedding-based) 的替代方案 [36]:简化奖励模型训练,但仍需额外的正向传播以提取嵌入。
- 同时评分所有候选词元 [37]:减少调用频率,但更依赖大规模模型。
-
推荐系统 [14]: 论文明确将 LLM 解码类比推荐系统,借鉴了其召回和排序阶段的范式。
3.3. 技术演进
该领域的技术演进可以概括为:
- 早期 LLM 发展: 核心是构建更大、更强的 LLM 主干网络 (backbone),并通过海量数据预训练,提升其理解和生成能力。
- 解码策略的探索: 针对如何将 LLM 输出的概率分布转化为最终文本,发展出多种规则性、任务特定的解码策略,如
top-k sampling、self-consistency等。这些方法在一定程度上提升了输出质量或多样性,但仍受限于其固定规则或特定任务场景。 - 奖励模型的兴起: 随着
RLHF的普及,奖励模型作为评估和选择 LLM 响应的强大工具崭露头角。它们能够学习人类偏好,并在推理时用于对多个候选响应进行精细化排序,显著提升了 LLM 的性能。然而,奖励模型通常是独立的、参数量较大的模型,其高昂的训练和推理成本成为瓶颈。 - 推理时间计算的优化: 研究者开始关注如何更有效地利用推理时的计算资源来提升 LLM 性能,而不仅仅是扩展模型本身。这包括优化采样配置、引入奖励模型进行
reranking等。 Language Ranker的提出: 本文站在“推理时间计算”的背景下,通过引入推荐系统中的“特征共享”理念,提出了Language Ranker。它代表了从高成本、冗余的奖励模型向轻量级、高效、可学习的排序框架的演进,旨在在保持甚至超越性能的同时,大幅降低计算开销,并实现更好的灵活性和个性化。
3.4. 差异化分析
Language Ranker 与相关工作的主要区别和创新点体现在以下几个方面:
-
与传统解码策略 (如
beam search,top-k sampling,self-consistency等) 的差异:- 可学习性 vs. 规则性: 传统解码策略大多是基于固定规则的,缺乏学习能力。
Language Ranker则是一个可学习的模块,能够通过数据训练来优化排序策略,从而更好地适应任务需求和人类偏好。 - 通用性 vs. 任务特定性: 许多传统解码策略(如
self-consistency)对特定任务(如数学推理)效果显著,但在其他任务(如代码生成、通用指令遵循)上效果不佳。Language Ranker被设计为一个更通用的排序框架,在多种任务上都表现出强大的性能。 - 特征利用: 传统解码策略通常直接作用于模型的
logits或概率分布,未充分利用基模型深度提取的语义特征。Language Ranker直接利用基模型中间层的高质量隐藏状态作为特征进行排序。
- 可学习性 vs. 规则性: 传统解码策略大多是基于固定规则的,缺乏学习能力。
-
与奖励模型 (Reward Models, RMs) 的差异:
-
计算效率和参数量: 这是最核心的差异。奖励模型通常是独立的、参数量较大的模型(例如,与基模型同等规模或稍小),在训练和推理时都需要完整的正向传播 (forward pass),导致显著的计算和内存开销。
Language Ranker仅是一个轻量级模块(参数量<0.5M),它复用基模型在生成候选响应时已经提取的隐藏状态特征,避免了额外的模型正向传播,从而大幅降低了计算开销。 -
特征冗余: 奖励模型通常需要进行自己的特征工程,这与基模型已经完成的文本理解和特征提取存在冗余。
Language Ranker通过“特征共享”解决了这种冗余,它“站在巨人的肩膀上”,直接利用基模型已有的强大表示。 -
部署灵活性和个性化: 奖励模型由于其规模,部署在资源受限环境或进行个性化微调较为困难。
Language Ranker的轻量级特性使其可以在 CPU 上进行训练和推理,从而支持在边缘设备 (edge devices) 上部署,实现单一基模型与多个个性化排序器配对,以适应多样化的用户需求。 -
训练难度和鲁棒性: 实验表明,奖励模型对超参数敏感,训练难度较大。
Language Ranker则对超参数更鲁棒,更易于训练。通过以上差异化分析,可以看出
Language Ranker在保持甚至超越现有奖励模型性能的同时,显著提升了 LLM 解码过程的效率、通用性和部署灵活性,从而解决了当前 LLM 应用中的关键瓶颈。
-
4. 方法论
本节将详细阐述 Language Ranker 框架的核心方法,包括其架构设计、特征提取机制、排序器类型及其训练方法。
4.1. 方法原理
Language Ranker 的核心思想是将大语言模型 (LLMs) 的解码过程类比为推荐系统 (recommender systems) 中的排序阶段。在这种类比下:
-
用户输入 (User Input):对应于推荐系统中的用户查询或用户画像。
-
LLM 基模型 (LLM Base Model):其早期层可被视为执行“特征工程 (feature engineering)”,从用户输入中提取高层次的语义特征。其语言头 (language head) 和采样过程则类似于推荐系统中的“召回器 (retriever)”,生成一组粗略的、多样化的候选响应(即“物品”)。
-
Language Ranker模块:作为推荐系统中的“排序器 (ranker)”,它利用基模型已经提取的特征,对召回的候选响应进行精细化排序,选出最优质的最终响应。这种设计模式的关键在于特征共享 (feature sharing):
Language Ranker不会像传统的奖励模型 (reward models) 那样从头开始进行特征提取,而是直接利用基模型已经为生成任务准备好的隐藏状态 (hidden states) 作为输入特征。这极大地减少了计算冗余,提升了效率。
4.2. 核心方法详解
Language Ranker 框架主要包含三个关键步骤:特征提取、Ranker 设计和数据集构建与训练。
4.2.1. 特征提取
在推理阶段,为了让排序器能够对候选响应进行评估,需要从基模型中提取有意义的特征。
- 指令特征 (Instruction Feature) :
- 首先,定义一个超参数来选择基模型中的特定层(例如,约底部 60% 的层)。
- 将给定的指令(用户输入)输入到基模型中,并记录所选层中对应于指令最终词元 (final token) 的隐藏状态。这个隐藏状态被作为指令特征,记为 。
- 候选响应特征 (Candidate Response Features) :
-
基模型开始生成过程,通过采样策略(例如
temperature为 1.5,max_new_tokens为 1024)生成 个候选响应。 -
当每个候选响应完全生成后,同样从基模型的所选层中提取对应于该响应最终词元的隐藏状态。这些隐藏状态被作为各个候选响应的特征,记为 。
这些指令特征 和响应特征 随后被送入
Language Ranker进行排序。
-
4.2.2. Ranker 设计
Language Ranker 提供了两种设计范式:Listwise Ranker 和 Pointwise Ranker,它们分别以不同的方式处理候选响应。
4.2.2.1. Listwise Ranker (列表式排序器)
Listwise Ranker 同时处理所有候选响应,这使得它能够直接在候选之间进行比较,捕捉列表级别的交互信息。
其处理流程如下:
- 特征投影与转换:
- 首先,将指令特征 和所有候选响应特征 拼接起来,形成一个特征列表。
- 然后,通过一个 投影函数 (Projection Function)
Proj将这些高维特征投影到一个低维空间 。这个投影层对于保持排序器轻量级至关重要,因为它压缩了信息并显著减少了后续处理的参数数量。 - 接着,这些投影后的特征被送入一个 转换块 (Transformer Block)
Trans进行处理。 - 公式:
符号解释:
- : 原始指令特征。
- : 第 个原始候选响应特征。
Proj: 将高维输入特征投影到低维空间的函数。Trans: 处理投影特征的 Transformer 块。- : 投影并经过 Transformer 块处理后的指令特征。
- : 投影并经过 Transformer 块处理后的第 个候选响应特征。
- 相关性分数计算:
Listwise Ranker使用一个 相关性函数 (Relevance Function)Rele来计算处理后的指令特征 与每个处理后的候选响应特征 之间的相关性分数 。- 公式:
符号解释:
- : 投影并经过 Transformer 块处理后的指令特征。
- : 投影并经过 Transformer 块处理后的第 个候选响应特征。
Rele: 计算指令特征与候选响应特征之间相关性分数的函数。- : 第 个候选响应与指令的相关性分数。
- 最终,选择具有最高分数 的候选响应作为最终输出。
4.2.2.2. Pointwise Ranker (点式排序器)
Pointwise Ranker 独立评估每个候选响应,它不直接考虑候选响应之间的相互关系。
其处理流程如下:
- 特征投影与 MLP 处理:
- 对于每个候选响应 ,首先将其原始特征 通过 投影函数
Proj投影到低维空间。指令特征 也同样被投影。 - 然后,每个投影后的特征 和 分别独立地通过一个 共享的 MLP 块 (Multi-Layer Perceptron Block) 进行处理。
- 公式:
符号解释:
- : 原始指令特征。
- : 第 个原始候选响应特征。
Proj: 将高维输入特征投影到低维空间的函数。MLP: 对投影特征进行处理的 MLP 块。- : 投影并经过 MLP 块处理后的指令特征。
- : 投影并经过 MLP 块处理后的第 个候选响应特征。
- 对于每个候选响应 ,首先将其原始特征 通过 投影函数
- 相关性分数计算:
- 对于每个候选响应,
Pointwise Ranker使用一个 相关性函数Rele来计算处理后的指令特征 与该候选响应处理后的特征 之间的相关性分数 。 - 公式:
符号解释:
- : 投影并经过 MLP 块处理后的指令特征。
- : 投影并经过 MLP 块处理后的第 个候选响应特征。
Rele: 计算指令特征与候选响应特征之间相关性分数的函数。- : 第 个候选响应与指令的相关性分数。
- 同样,最终选择具有最高分数 的候选响应作为最终结果。
- 对于每个候选响应,
4.2.2.3. 相关性函数 Rele 的选择
Rele 函数的具体形式取决于响应标签的类型:
- 二分类标签 (Binary Labels) : 如果标签是二元的(0 或 1,表示正确或错误),则采用 余弦相似度 (cosine similarity) 来计算 ,将任务视为一个分类问题。
- 具体分数标签 (Specific Score Labels) : 如果每个响应被分配一个具体的评分,则采用一个可学习的线性函数来拟合这些分数:
符号解释:
-
: 第 个候选响应与指令的相关性分数。
-
Rele: 相关性函数。 -
: 经过处理的指令特征。
-
: 经过处理的第 个候选响应特征。
-
: 一个可学习的权重矩阵。
-
concat: 将两个特征向量进行拼接 (concatenation) 的操作。为了效率,在所有主要实验中,
Listwise Ranker使用单个 Transformer 块,Pointwise Ranker使用单个 MLP 块。
-
4.2.3. 数据集构建与 Ranker 训练
Language Ranker 的训练数据集构建方式与奖励模型数据集相似,几乎不产生额外的计算或时间开销。
- 数据生成与特征记录:
- 对于训练集中的每个指令,基模型会生成 100 个候选响应。
- 在此过程中,记录每个指令对应的指令特征 和每个候选响应对应的响应特征 。
- 标签分配:
- 收集所有响应后,根据任务的特性分配标签。例如,对于数学任务,如果答案正确则标记为 1,否则为 0。对于指令遵循任务,可以由另一个模型(如
DeepSeek-V3)进行评分。
- 收集所有响应后,根据任务的特性分配标签。例如,对于数学任务,如果答案正确则标记为 1,否则为 0。对于指令遵循任务,可以由另一个模型(如
4.2.3.1. Listwise Ranker 训练
- 数据分组:
- 对于每个查询,从之前构建的数据集中随机采样 个候选响应。
- 重复此过程多次,并过滤掉不包含正负响应的数据组。
- 最终,收集每查询 个数据组及其对应的隐藏状态,表示为 。
- 损失函数:
- 二分类标签 : 使用余弦相似度计算 ,并采用 KL 散度 (KL Divergence) 损失进行优化。
符号解释:
- : 训练数据组的索引,从
1到 。 - : 候选响应的索引,从
1到 。 - : 第 个数据组中第 个候选响应的真实标签(0 或 1)。
- : 归一化常数,通常是正样本的数量或 。
- : 真实标签的概率分布,表示为 在所有候选中的比例。
- : 模型预测的第 个数据组中第 个候选响应的相关性分数。
- : 模型预测分数的
softmax归一化分布 。 - : 衡量两个概率分布 和 之间差异的 KL 散度。
- : 列表式排序器的分类损失函数。
- : 训练数据组的索引,从
- 回归标签 : 应用之前介绍的 learnable
Rele函数,并使用 均方误差 (Mean Squared Error, MSE) 损失。 符号解释:- : 训练数据组的总数。
- : 每个数据组中的候选响应数量。
- : 模型预测的第 个数据组中第 个候选响应的相关性分数。
- : 第 个数据组中第 个候选响应的真实分数。
- : 列表式排序器的回归损失函数。
- 二分类标签 : 使用余弦相似度计算 ,并采用 KL 散度 (KL Divergence) 损失进行优化。
符号解释:
4.2.3.2. Pointwise Ranker 训练
- 数据配对:
- 对于每个查询,将每个候选响应与其对应的指令独立配对。
- 形式上表示为:。
- 损失函数:
- 二分类标签 : 使用
sigmoid函数将分数转换为概率,并采用 二元交叉熵 (Binary Cross-Entropy, BCE) 损失。 符号解释:- : 训练样本的总数。
- : 模型预测的第 个样本的相关性分数。
- : 经过
sigmoid函数转换后的预测概率。 - : 第 个样本的真实标签(0 或 1)。
- : 点式排序器的分类损失函数。
- 回归标签 : 使用 均方误差 (MSE) 损失。
符号解释:
- : 训练样本的总数。
- : 模型预测的第 个样本的相关性分数。
- : 第 个样本的真实分数。
- : 点式排序器的回归损失函数。
- 二分类标签 : 使用
5. 实验设置
本节详细介绍 Language Ranker 在不同任务上的实验设置,包括基线模型、排序器配置、评估模型、数据集、评估指标和超参数。
5.1. 数据集
实验在三个代表性 LLM 任务上进行:数学、编码和函数调用。此外,还在通用指令遵循任务上进行了评估(详见附录 B.1)。
-
数学任务 (Mathematics Task):
- 数据集: MATH 数据集 [20]。
- 特点: 包含 12,500 个竞赛级别的数学问题,涵盖七个主题和五个难度级别。
- 使用方式: 为确保覆盖范围和效率,从不同主题和难度级别中均匀采样 1,000 个问题用于训练,1,000 个问题用于测试。
- 样本示例(伪例,原文未提供):
- 问题:
A train travels at a speed of 60 miles per hour. How long will it take to travel 180 miles? - 正确答案:
3 hours
- 问题:
-
编码任务 (Coding Task):
- 数据集: MBPP 数据集 (Mostly Basic Python Programs) [21]。
- 特点: 包含简短的 Python 编程问题,每个问题都附带测试用例,用于评估生成解决方案的正确性。
- 使用方式: 完整使用 MBPP 数据集,其中 374 个问题用于训练,500 个问题用于测试。
- 样本示例(伪例,原文未提供):
- 问题:
Write a Python function to find the maximum of three numbers. - 测试用例:
max_of_three(1, 2, 3) == 3
- 问题:
-
函数调用任务 (Function Calling Task):
- 数据集: xlam-function-calling-60k 数据集 [22]。
- 特点: 包含 60,000 个高质量的函数调用问题和答案。
- 使用方式: 随机采样 1,500 个更具挑战性的问题(包含三个以上 API),并将其分为 1,000 个训练示例和 500 个测试示例。
- 样本示例(伪例,原文未提供):
- 问题:
Please set a reminder for me to buy groceries at 5 PM tomorrow and also send a message to John saying 'See you tomorrow'. - 正确函数调用:
[{"name": "set_reminder", "arguments": {"time": "tomorrow 5 PM", "task": "buy groceries"}}, {"name": "send_message", "arguments": {"recipient": "John", "message": "See you tomorrow"}}]
- 问题:
-
指令遵循任务 (Instruction-Following Task) (附录 B.1):
- 训练数据集: Databricks-Dolly-15k 数据集 [43] 的前 1,000 条查询。
- 评估数据集: AlpacaEval [44],一个广泛认可的 LLMs 指令遵循能力评估基准。它包含来自
Self-Instruct、OASST、Anthropic's Helpful dataset、Vicuna和Koala的多样化测试查询。 - 为什么选择这些数据集: 这些数据集涵盖了 LLMs 常见的多种能力,包括推理、代码生成、结构化输出和通用指令理解,能够全面验证
Language Ranker在不同任务类型和复杂度下的性能和通用性。
5.2. 评估指标
对于论文中出现的每一个评估指标,本部分将按照概念定义、数学公式和符号解释的结构进行说明。
-
数学任务、编码任务、函数调用任务:准确率 (Accuracy)
- 概念定义 (Conceptual Definition): 准确率是衡量模型在分类或离散预测任务中表现的标准指标,表示模型正确预测的样本数占总样本数的比例。在这些任务中,一个响应只有完全正确才被计为正确。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
Number of Correct Predictions: 模型给出与真实标注数据 (Ground Truth) 完全匹配的正确响应数量。Total Number of Predictions: 参与评估的所有响应的总数量。
- 任务特定标签标准:
- 数学任务: 从每个响应中提取最终答案,并与真实答案进行精确匹配。如果答案完全匹配,则标记为正确;否则(包括因格式错误无法提取答案),标记为不正确。
- 编码任务: 提取生成的代码段,并在预定义的测试用例集上执行。只有当所有测试用例都通过时,响应才被标记为正确;否则,标记为不正确。
- 函数调用任务: 从每个响应中提取函数调用,并使用正则表达式解析函数名和参数值。只有当函数名和所有参数都与真实函数调用完全匹配时,响应才被标记为正确。
-
指令遵循任务:长度控制胜率 (Length-Controlled Win Rate)
- 概念定义 (Conceptual Definition): 长度控制胜率是一种用于评估 LLM 在通用指令遵循任务中相对表现的指标,尤其是在使用自动评估器时。它通过比较模型响应与参考模型响应的质量,并考虑响应长度差异可能导致的评估偏差,来计算模型胜出的比例。此指标旨在模拟人类判断,并通过调整长度因素来提供更公平的比较。
- 数学公式 (Mathematical Formula):
原文未直接给出长度控制胜率的数学公式,但根据
AlpacaEval[44] 和Length-Controlled AlpacaEval[45] 的惯例,它通常基于一个自动评估器(如另一个 LLM)对模型响应和参考模型响应进行两两比较,并根据评分判断胜负。其核心思想是,对于每个查询,模型会生成一个响应,同时有一个参考模型也生成一个响应。评估器会对这两个响应进行评分,并判断哪个更好。胜率是模型响应被判定为“更好”的比例。长度控制部分通常通过在评估器评分时加入长度偏好惩罚或使用标准化长度的响应来抵消评估器可能对长响应的固有偏好。 假设 是模型响应的得分, 是参考模型响应的得分。 其中,Number of Wins for Model是指模型响应得分高于参考模型响应得分的次数。Length-Controlled通常意味着在计算胜负时,会通过某种方式(例如,对评分进行长度校正)来减少响应长度对胜负判断的影响。 - 符号解释 (Symbol Explanation):
Number of Wins for Model: 模型在与参考模型的比较中胜出的次数。Total Number of Comparisons: 总的比较次数(即评估查询的数量)。
- 任务特定标签标准:
- 指令遵循任务缺乏客观的真实标注数据 (Ground Truth) 答案,因此采用基于 LLM 的自动评估。
- 遵循
AlpacaFarm[44] 的方法,使用DeepSeek-V3模拟人类判断,为所有采样响应分配 0 到 5 分的评分。 - 评估时使用官方
AlpacaEval评估器,计算Length-Controlled Win Rate。对于每个基模型,使用其对应的Instruct变体作为参考模型(例如,Llama3.1-8B-Instruct作为Llama3.1-8B-Base的参考)。
5.3. 对比基线
为了全面评估 Language Ranker 的性能,论文将其与以下基线模型和解码策略进行了比较:
-
奖励模型 (Reward Models, RMs):
- RM (gpt2): 基于
GPT-2[16] 训练的奖励模型。这是一个相对较小的模型,但其参数量仍比Language Ranker大 100 倍以上。它代表了独立的、中等规模的奖励模型。 - RM (Llama8B), RM (Qwen7B), RM (Qwen32B), RM (Gemma3): 使用
LoRA(Low-Rank Adaptation) 在对应基模型上训练的奖励模型。虽然其可训练参数数量与GPT-2奖励模型相似,但在训练和推理时,整个基模型(例如 8.2B 参数的 Llama8B)都必须加载到 GPU 内存中,导致显著更大的计算开销。这代表了与基模型紧密结合的大规模奖励模型。
- RM (gpt2): 基于
-
传统解码策略 (Common Decoding Strategies):
-
Beam Search(束搜索): 一种确定性的解码策略,通过在每个时间步保留概率最高的 个(束宽)部分序列,并扩展它们,最终选择总概率最高的序列。它通常用于生成高质量但多样性较低的响应。 -
First Sample(第一个采样响应): 作为最简单的基线,直接使用模型生成的第一个采样响应作为输出。这代表了不进行任何额外排序或选择的原始模型输出。 -
Self-Consistency(自洽性) [8] (附录 B.3): 在某些任务(如数学)中,通过生成多个推理路径并进行多数投票来提高答案的准确性。这代表了基于多样本聚合的解码策略。这些基线模型和解码策略涵盖了从简单采样到复杂的奖励模型
reranking,以及不同规模和架构的 LLMs,提供了全面的性能对比。
-
5.4. 评估模型
为了证明 Language Ranker 的通用性 (generality) 和可扩展性 (scalability),实验在多种不同架构和规模的基模型上进行了评估。所有模型均在零样本 (zero-shot) 设置下进行评估。
LLaMA3.1-8B-Instruct[17]:Meta公司开发的一款 8B 参数规模的指令遵循大语言模型。Qwen2.5-7B-Instruct[18]: 阿里云开发的一款 7B 参数规模的指令遵循大语言模型。Qwen2.5-32B-Instruct[18]: 阿里云开发的一款 32B 参数规模的指令遵循大语言模型。Gemma3-4B-it[19] (详见附录 B.2):Google开发的一款 4B 参数规模的指令遵循大语言模型,进一步验证了方法在不同模型架构和更小模型规模上的适用性。LLaMA3.1-8B-Base[17] 和Qwen2.5-7B-Base[18] (用于指令遵循任务,详见附录 B.1): 这些是未经过指令微调的基础模型,用于评估Language Ranker辅助它们提升通用指令遵循能力的效果。
5.5. 超参数
在采样过程中,设置 temperature (温度) 为 1.5 以生成多样化的响应,max_new_tokens (最大新词元数量) 为 1024 以确保生成完整的答案。对于每个问题,采样 100 个响应。
在训练阶段,论文进行了网格搜索以确定最佳超参数。以下是附录 A 中列出的超参数范围:
| Hyperparameter | Value | ||||||||
|---|---|---|---|---|---|---|---|---|---|
| Sampling | |||||||||
| Sampling Temperature | 1.5 | ||||||||
| Sampling Max New Tokens | 1024 | ||||||||
| Ranker Training | |||||||||
| Batch Size | [256, 1024] | ||||||||
| Epoch | 1 | ||||||||
| Optimizer | [SGD, AdamW] | ||||||||
| SGD LR | [0.05, 0.1, 0.5, 1.0] | ||||||||
| SGD Momentum | [0.0, 0.9] | ||||||||
| AdamW LR | [1e-5, 1e-4] | ||||||||
| AdamW Betas | (0.9, 0.999) | ||||||||
| Weight Decay | 1e-4 | ||||||||
| LR Schedule | [Constant, Cosine Decay] | ||||||||
| Projection Dimension | 64 | ||||||||
| Reward Model Training | |||||||||
| Batch Size | [64, 256] | ||||||||
| Epoch | 1 | ||||||||
| Optimizer | AdamW | ||||||||
| AdamW LR | [5e-5, 5e-4] | ||||||||
| AdamW Betas | (0.9, 0.999) | ||||||||
| Weight Decay | 1e-4 | ||||||||
| LR Schedule | [Constant, Cosine, Decay] | ||||||||
| LoRA r | 64 | ||||||||
| LoRA alpha | [64, 128] |
Ranker 设置:
Ranker采用单 Transformer 块 (listwise) 或单 MLP 块 (pointwise)。- 特征提取:从基模型底部约 60% 的层提取隐藏状态。
- 数据组中的候选响应数量:训练和评估时均为 10 个。
- 训练目标:二分类问题,使用余弦相似度计算最终
logits,并采用分类损失 (如公式 8 或 11 所述)。
6. 实验结果与分析
本节将深入分析 Language Ranker 在各项任务上的实验结果,并探讨其性能、效率、配置影响和泛化能力。
6.1. 核心结果分析
以下是原文 Table 2 的结果,展示了 Language Ranker 与奖励模型和常见解码策略在三个任务上的总性能比较。
以下是原文 Table 2 的结果:
| Method | Parameter | MATH | MBPP | xLAM |
| Llama3.1-8B-Instruct | ||||
| ListRanker (ours) | 0.30M | 46.3 | 54.5 | 32.6 |
| PointRanker (ours) | 0.28M | 45.8 | 55.1 | 30.4 |
| RM (gpt2) | 137M | 42.9 | 47.7 | 29.4 |
| RM (Llama8B) | 176M / 8.2B | 45.1 | 52.9 | 32.8 |
| Beam Search | 40.3 | 42.3 | 27.0 | |
| First Sample | 25.1 | 41.9 | 10.6 | |
| Qwen2.5-7B-Instruct | ||||
| ListRanker (ours) | 0.27M | 74.8 | 63.2 | 71.0 |
| PointRanker (ours) | 0.25M | 75.2 | 62.7 | 70.4 |
| RM (gpt2) | 137M | 71.9 | 60.2 | 65.4 |
| RM (Qwen7B) | 161M / 7.6B | 74.6 | 62.9 | 70.2 |
| Beam Search | 67.9 | 62.2 | 68.0 | |
| First Sample | 68.7 | 60.6 | 57.0 | |
| Qwen2.5-32B-Instruct | ||||
| ListRanker (ours) | 0.36M | 81.1 | 74.2 | 72.8 |
| PointRanker (ours) | 0.34M | 81.3 | 74.6 | 72.4 |
| RM (gpt2) | 137M | 78.8 | 70.6 | 68.8 |
| RM (Qwen32B) | 537M / 32.8B | 80.7 | 75.9 | 73.6 |
分析:
-
显著的性能提升:
Language Ranker(包括ListRanker和PointRanker) 在所有评估任务和所有基模型上都显著优于First Sample和Beam Search这两种基础解码策略。- 例如,在
Llama3.1-8B-Instruct上,ListRanker在 MATH 任务上将性能从First Sample的 25.1 提升到 46.3 (超过 20%),在 MBPP 上从 41.9 提升到 54.5 (超过 12%)。 - 这强有力地证明了通过对候选响应进行学习式排序,可以极大地挖掘 LLM 的潜在能力。
- 例如,在
-
超越小型奖励模型:
Language Ranker始终优于 。- 拥有 137M 参数,而我们的
ranker仅有<0.5M参数,规模小了 100 多倍,但性能反而更优。这凸显了Language Ranker在效率和效果上的卓越。
- 拥有 137M 参数,而我们的
-
媲美大规模奖励模型:
Language Ranker的性能与基于基模型 (如Llama8B,Qwen7B,Qwen32B) 训练的奖励模型相当,甚至在某些情况下更优。- 例如,在
Llama3.1-8B-Instruct上,ListRanker(46.3) 甚至略优于 (45.1) 在 MATH 任务上的表现。在 MBPP 上,PointRanker(55.1) 再次超越 (52.9)。 - 在函数调用任务 (xLAM) 上,
ListRanker(32.6) 仅比 (32.8) 略低 0.2%。 - 对于
Qwen2.5-7B-Instruct,Language Ranker甚至全面超越了所有基线,包括 。 - 对于
Qwen2.5-32B-Instruct这样的更大基模型,参数不到0.5M的Language Ranker实现了与32B规模奖励模型(需加载 32.8B 参数)相当的性能。这表明ranker能够有效利用更强大基模型提取的更具表达力的特征。
- 例如,在
-
效率优势: 奖励模型 (如 ) 即使使用
LoRA训练,其可训练参数虽然与gpt2相当,但在推理和训练时仍需加载整个基模型(如 8.2B),计算开销巨大。Language Ranker则仅需加载自身极小的参数,显著减少了计算负担。这些结果共同证明了
Language Ranker作为一种轻量级、高效且与大规模奖励模型性能相当的 LLM 解码排序框架的巨大潜力。
6.2. 数据呈现 (表格)
6.2.1. Ranker Scaling Law (排序器扩展定律)
以下是原文 Figure 4 的内容:

该图像是一个图表,展示了基于Llama3.1构建的Language Ranker在数学、编码和函数调用任务中的表现。随着候选响应数量的增加,各任务的准确率均呈现出持续提升的趋势,说明Language Ranker在不同任务中的有效性。
Figure 4: The performance of the Language Ranker built on Llama3.1 improves consistently across all three tasks as the number of candidate responses increases.
分析:
该图展示了基于 Llama3.1 构建的 Language Ranker 在三个任务(MATH, MBPP, xLAM)上的性能如何随候选响应数量的增加而变化。
- 一致性提升: 在所有三个任务中,随着提供给
ranker的候选响应数量从少量增加到更多(图中曲线向右延伸),Language Ranker的性能(准确率)均呈现出持续上升的趋势。 - 揭示扩展潜力: 这一现象被称为“排序器扩展定律 (Ranker Scaling Law)”。它表明,通过增加推理时可供排序的候选数量,即使不改变
ranker或基模型本身的规模,也能持续提升模型性能。这提供了一种与传统奖励模型(通常通过优化采样配置或更大模型实现性能提升)互补的、高效的推理时计算扩展方式。
6.2.2. CPU Trainability (CPU 可训练性)
以下是原文 Table 3 的结果:
| Method | CPU | A100 |
| Listwise Ranker | 67s | 44s |
| Pointwise Ranker | 71s | 42s |
| RM (gpt2) | >1h | 72s |
| RM (Llama8b) | too long | 24min |
分析: 该表比较了不同方法在 MBPP 数据集上的总训练时间,包括数据加载阶段,分别在 CPU 和 A100 GPU 上的表现。
- 轻量级
Ranker的 CPU 优势:Listwise Ranker和Pointwise Ranker在 CPU 上的训练时间分别为 67 秒和 71 秒。虽然比 A100 GPU 上的 44 秒和 42 秒稍长,但仍处于非常高效的水平。这与奖励模型形成了鲜明对比。 - 奖励模型的高成本: 在 CPU 上训练超过 1 小时,而 则“太长”以至于无法有效完成。这凸显了奖励模型对计算资源的巨大需求。
- 支持个性化部署:
Language Ranker的 CPU 可训练性是其重要优势。它意味着ranker可以部署在资源有限的边缘设备 (edge devices) 甚至用户本地设备上,从而实现个性化适应和持续学习 (continual learning),而无需依赖昂贵的中央 GPU 资源。基模型可以在高性能中央节点运行,并将紧凑的隐藏状态传输给边缘的ranker。
6.2.3. Ablation Study (消融研究)
以下是原文 Table 4 的结果:
| Ranker Setting | Accuracy | ||
| Parameter | |||
| Listwise Ranker | 46.3 | 0.30M | |
| remove projection | 46.4 | 192M | |
| remove instruction | 44.2 | 0.30M | |
| Pointwise Ranker | 45.8 | 0.28M | |
| remove projection | 46.0 | 128M | |
| remove instruction | 44.1 | 0.28M | |
| remove MLP block | 42.5 | 0.25M | |
分析:
该表展示了在 Llama3.1-8B 作为基模型的情况下,不同 ranker 架构消融设置对 MATH 任务性能和参数量的影响。
- 投影层 (Projection Layer) 的重要性:
- 移除
Listwise Ranker的投影层后,参数量从0.30M飙升到192M,但准确率仅从 46.3 略微提升到 46.4。 - 同样,移除
Pointwise Ranker的投影层后,参数量从0.28M增加到128M,准确率从 45.8 略微提升到 46.0。 - 这表明投影层在将高维特征压缩到低维空间方面发挥着关键作用,有效保持了
ranker的轻量级,且对性能几乎没有负面影响。去除它会导致参数量急剧增加,但性能提升微乎其微,强调了其在效率上的贡献。
- 移除
- 指令特征 (Instruction Feature) 的作用:
- 移除
Listwise Ranker的指令特征(即用一个可学习向量替换它)后,准确率从 46.3 下降到 44.2。 - 移除
Pointwise Ranker的指令特征后,准确率从 45.8 下降到 44.1。 - 这强调了指令特征作为“用户信息”的重要性,它能够有效地指导
ranker计算响应与指令之间的相关性。这一发现与将 LLM 类比为推荐系统的观点一致。
- 移除
- MLP 块的重要性 (Pointwise Ranker):
-
移除
Pointwise Ranker的 MLP 块后,准确率显著下降到 42.5,尽管参数量略有减少(0.25M)。 -
这表明 MLP 块在处理和转换特征以计算相关性方面是必要的,即使是单个简单的 MLP 块也能带来显著的性能增益。
总结来说,消融研究证实了投影层在保持
ranker轻量级方面的关键作用,并强调了指令特征和核心处理块(如 MLP 块)对Language Ranker性能的重要性。
-
6.3. Ranker Configurations (排序器配置)
以下是原文 Table 5 的结果:
| Ranker Type | Hidden States Layer | Block Number | ||||||
| 0.1 | 0.3 | 0.6 | 1.0 | 1 | 2 | 3 | 4 | |
| Llama3.1-8B-Instruct | ||||||||
| Listwise Ranker | 41.2 | 44.6 | 46.3 | 44.9 | 46.3 | 46.7 | 46.6 | 46.9 |
| Pointwise Ranker | 40.6 | 43.6 | 45.8 | 44.0 | 45.8 | 46.2 | 46.4 | 46.3 |
| Qwen2.5-7B-Instruct | ||||||||
| Listwise Ranker | 70.6 | 72.7 | 74.8 | 73.6 | 74.8 | 74.9 | 75.2 | 75.4 |
| Pointwise Ranker | 71.4 | 73.1 | 75.2 | 73.9 | 75.2 | 75.1 | 75.6 | 75.5 |
分析:
该表比较了在 Llama3.1-8B-Instruct 和 Qwen2.5-7B-Instruct 两种基模型下,不同 ranker 配置(隐藏状态提取层和块数量)对 MATH 任务性能的影响。
-
隐藏状态提取层 (Hidden States Layer):
- 结果显示,从基模型底部约 60% 处的层提取特征(即
0.6比例)对ranker性能最为有效。 - 无论是
Listwise Ranker还是Pointwise Ranker,当特征提取层比例为0.6时,性能通常达到最佳(Llama3.1-8B 上分别为 46.3 和 45.8;Qwen2.5-7B 上分别为 74.8 和 75.2)。 - 提取自模型较浅层 (
0.1,0.3) 或最顶层 (1.0) 的特征效果相对较差。这支持了这样的观点:基模型靠后的层可能过度拟合于其原始的下一个词元预测 (next-token prediction) 任务,而中间层则提供了更全面的上下文表示,更适合作为通用排序的特征。
- 结果显示,从基模型底部约 60% 处的层提取特征(即
-
块数量 (Block Number):
- 在
Listwise Ranker和Pointwise Ranker中,增加ranker内部块的数量(从 1 增加到 4)对性能的影响是边际的。 - 例如,对于 Llama3.1-8B 的
Listwise Ranker,从 1 个块到 4 个块,性能从 46.3 提升到 46.9,增幅非常小。对于Pointwise Ranker也有类似趋势。 - 这表明,由于基模型已经提取了高质量的特征,
ranker的任务相对简单,因此不需要非常复杂的内部结构(多个块)就能取得良好性能。进一步扩展ranker的规模并不会带来显著的性能收益,再次强调了其轻量级设计的合理性。
- 在
6.4. Hyperparameter Robustness (超参数鲁棒性)
以下是原文 Table 6 的结果:
(a) Listwise Ranker
| Optimizer Learning Rate | SGD | AdamW |
| 0.05 | 46.2 | 46.2 |
| 0.1 | 46.1 | 46.1 |
| 0.5 | 45.8 | 45.9 |
| 1.0 | 45.7 | 46.1 |
| Batch Size=256 | ||
| Batch Size=1024 | 46.3 | 45.9 |
(b) Reward Model (Llama8B)
| Optimizer Learning Rate | AdamW |
| 5e-5 | 41.2 |
| 1e-4 | 42.2 |
| 2e-4 | 45.1 |
| 5e-4 | 43.6 |
| Batch Size=64 | |
| Batch Size=256 | 44.7 |
分析:
该表比较了 Language Ranker (Listwise Ranker) 和奖励模型 (Llama8B) 在 MATH 数据集上对不同超参数配置的鲁棒性。绿色的结果表示最佳性能,红色的结果表示最差性能。
-
Listwise Ranker的高鲁棒性:- 在 12 种不同的超参数配置下(优化器、学习率、批量大小),
Listwise Ranker的准确率波动范围仅为0.6%(最高 46.3%,最低 45.7%)。 - 这表明
Language Ranker对超参数的选择不敏感,更容易进行训练和部署,无需耗费大量精力进行精细的超参数调优。
- 在 12 种不同的超参数配置下(优化器、学习率、批量大小),
-
奖励模型的敏感性:
-
相比之下,奖励模型对超参数更为敏感,在 8 种配置下的准确率波动范围高达
3.9%(最高 45.1%,最低 41.2%)。 -
这意味着训练奖励模型需要更精细的超参数调优,否则可能导致性能显著下降。
这种鲁棒性是
Language Ranker的一个实际优势,降低了其在不同任务和部署场景下的应用门槛。
-
6.5. Cross-Domain and Cross-Task Transfer (跨领域和跨任务迁移)
6.5.1. Cross-Domain Transfer (跨领域迁移)
以下是原文 Table 7 的结果:
| Source Task | Target Task | ||||||
| PA | A | NT | CP | G | IA | PC | |
| PA | 67.5 | 61.3 | 38.2 | 43.7 | 33.4 | 21.9 | 32.2 |
| 0.0 | -0.4 | -0.5 | -0.2 | 0.0 | -0.8 | -1.7 | |
| A | 66.0 | 61.7 | 38.5 | 42.0 | 34.7 | 22.3 | 31.1 |
| NT | -1.5 | 0.0 | -0.2 | -1.9 | -4.0 | -0.4 | -2.8 |
| 64.9 | 60.2 | 38.7 | 41.4 | 35.7 | 20.7 | 31.0 | |
| CP | -2.6 | -1.5 | 0.0 | -2.5 | -2.7 | -2.0 | -2.9 |
| 66.5 | 61.3 | 37.4 | 43.9 | 35.3 | 22.2 | 32.6 | |
| G | -1.0 | -0.4 | -1.3 | 0.0 | -2.1 | -0.5 | -1.3 |
| 66.0 | 60.5 | 36.7 | 41.4 | 37.4 | 22.4 | 31.1 | |
| IA | -1.5 | -1.2 | -1.8 | -2.5 | 0.0 | -0.3 | -2.8 |
| 64.3 | 58.8 | 35.7 | 38.6 | 32.4 | 22.7 | 31.3 | |
| PC | -3.2 | -2.9 | -2.8 | -5.3 | -5.0 | 0.0 | -2.6 |
| 63.0 | 59.1 | 35.6 | 41.1 | 34.5 | 22.3 | 33.9 | |
| -4.5 | -2.6 | -2.9 | -2.9 | -2.9 | -0.4 | 0.0 | |
注: 表格中每一对数字的上一个数字是目标任务的准确率,下一个数字是相对于在目标任务上训练的 ranker 的性能下降。
任务缩写:
- PA: Prealgebra (初等代数)
- A: Algebra (代数)
- NT: Number Theory (数论)
- CP: Counting and Probability (计数与概率)
- G: Geometry (几何)
- IA: Intermediate Algebra (中等代数)
- PC: Precalculus (微积分预备)
分析:
该表展示了在 MATH 数据集上,使用 Llama3.1-8B-Instruct 作为基模型时,ranker 在单一问题类型上训练后,向其他问题类型进行泛化 (generalization) 的能力。
- 稳健的跨领域性能: 训练在任何单个领域(
Source Task)的ranker,在所有其他目标领域(Target Task)上都保持了稳健的性能。这意味着ranker学到的排序能力并非高度领域特定,而是具有一定的通用性。 - 接近领域特定
ranker: 在许多情况下,迁移性能(表中的第一个数字)接近甚至与在目标领域上直接训练的ranker的性能(通过与对角线元素比较,性能下降值接近 0)相媲美。例如,训练在PA上的ranker在 上的准确率为 33.4,与在 上训练的ranker性能下降 0.0。 - 深层特征的有效性: 这种强大的迁移能力表明
ranker能够有效利用基模型提取的深层、通用的语义特征,这些特征在不同数学子领域之间具有一定的共享性。
6.5.2. Cross-Task Transfer (跨任务迁移)
以下是原文 Table 8 的结果:
| Method | To MATH | To MBPP |
| Ranker From MATH | 46.3 | 51.2 (-3.3) |
| Ranker From MBPP | 43.4 (-2.9) | 54.5 |
| RM (gpt2) | 42.9 (-3.4) | 47.7 (-6.8) |
注: 括号中的数字表示相对于 ranker 在目标任务上训练的性能下降。例如,Ranker From MATH 迁移到 MBPP 任务,性能为 51.2,比直接在 MBPP 训练的 ranker (54.5) 下降 3.3。
分析:
该表评估了 Language Ranker 在数学和编码任务之间的跨任务泛化能力。
Language Ranker的跨任务稳健性:- 训练在 MATH 任务上的
ranker迁移到 MBPP 任务时,性能为 51.2,虽然比在 MBPP 上直接训练的ranker(54.5) 下降 3.3,但仍表现良好。 - 同样,训练在 MBPP 任务上的
ranker迁移到 MATH 任务时,性能为 43.4,比在 MATH 上直接训练的ranker(46.3) 下降 2.9,性能下降幅度不大。
- 训练在 MATH 任务上的
- 超越
GPT-2奖励模型: 值得注意的是,Language Ranker的跨任务迁移性能甚至超越了GPT-2奖励模型的领域内性能。-
训练在 MBPP 上的
ranker迁移到 MATH 任务后,准确率为 43.4,高于 在 MATH 任务上的 42.9。 -
训练在 MATH 上的
ranker迁移到 MBPP 任务后,准确率为 51.2,高于 在 MBPP 任务上的 47.7。 -
这进一步突出了
Language Ranker的强大泛化能力,即使未在目标任务上直接训练,也能取得比专用但笨重的奖励模型更好的表现。这些迁移实验结果共同证明了
Language Ranker框架的强大泛化能力,使其能够适应未见过的数据领域和任务类型,这对于实际应用中资源受限和需求多样的场景至关重要。
-
6.6. 其他实验结果
6.6.1. Instruction-Following Task (指令遵循任务) (附录 B.1)
以下是原文 Table 10 的结果:
| Method | Parameter | Llama3.1-8B-Base | Qwen2.5-7B-Base |
| ListRanker (ours) | <0.3M | 30.7 | 46.3 |
| PointRanker (ours) | <0.3M | 27.1 | 45.8 |
| RM (gpt2) | 137M | 27.1 | 42.9 |
| RM (base) | ~170M/8B | 31.6 | 45.3 |
| First Sample | 19.0 | 25.1 | |
| Beam Search | — | 20.4 | 40.3 |
分析:
该表展示了 Language Ranker 在通用指令遵循任务上的表现,使用 Llama3.1-8B-Base 和 Qwen2.5-7B-Base 作为基模型,并以其对应的 Instruct 模型作为参考计算胜率。
- 显著提升:
Language Ranker(无论是ListRanker还是PointRanker) 均大幅超越了First Sample和Beam Search等普通解码策略。例如,ListRanker将Llama3.1-8B-Base的胜率从First Sample的 19.0 提升到 30.7。 - 媲美奖励模型:
Language Ranker的性能与从基模型训练的奖励模型 (RM (base)) 相当。例如,ListRanker在Qwen2.5-7B-Base上实现了 46.3% 的胜率,高于RM (base)的 45.3%。 - 小参数大作为:
Qwen2.5-7B-Base在一个不到0.3M参数的ranker辅助下,达到了 46.3% 的胜率,而Qwen2.5-7B-Instruct是一个经过大量指令遵循任务微调的模型。这表明Language Ranker能够有效地将基础模型的能力提升到接近Instruct模型的水平,具有很强的实用价值。
6.6.2. Experimental Results on Gemma3-4B-it (在 Gemma3-4B-it 上的实验结果) (附录 B.2)
以下是原文 Table 11 的结果:
| Method | Parameter | MATH | MBPP |
| Gemma3-4B-it | |||
| ListRanker (ours) | 0.20M | 72.2 | 51.4 |
| PointRanker (ours) | 0.19M | 72.4 | 51.7 |
| RM (gpt2) | 137M | 69.2 | 50.3 |
| RM (Gemma3) | 161M / 7.6B | 69.1 | 50.9 |
| Beam Search | 67.4 | 49.2 | |
分析:
该表展示了 Language Ranker 在 Gemma3-4B-it 这个较小规模且不同架构的基模型上的表现。
- 持续有效性:
ListRanker和PointRanker在Gemma3-4B-it上也显著提升了 MATH 和 MBPP 任务的性能。例如,ListRanker在 MATH 上达到 72.2,在 MBPP 上达到 51.4,均远超Beam Search和 。 - 跨架构和规模的鲁棒性: 这一结果进一步验证了
Language Ranker方法的有效性和鲁棒性,它不仅适用于LLaMA和Qwen这种大型模型,也能在Gemma这种不同架构和较小规模的模型上工作良好。
6.6.3. Detailed Comparison with Existing Decoding Methods (与现有解码方法的详细比较) (附录 B.3)
以下是原文 Table 12 的结果:
| Method | MATH | MBPP | xLAM | AlpacaEval |
| ListRanker (ours) | 46.3 | 54.5 | 32.6 | 30.7 |
| Self-Consistency | 44.9 | 41.9 | 24.6 | 20.4 |
| First Sample | 25.1 | 41.9 | 10.6 | 20.4 |
分析:
该表比较了 ListRanker 和 Self-Consistency 方法在不同任务上的表现。
Self-Consistency的局限性:Self-Consistency在 MATH 任务上确实带来了性能提升(从First Sample的 25.1 提升到 44.9),这与它在推理任务中的已知优势一致。- 然而,在代码生成 (MBPP)、函数调用 (xLAM) 和通用指令遵循 (AlpacaEval) 等任务上,
Self-Consistency的表现显著弱于ListRanker,甚至与First Sample持平或仅有微弱提升。例如,在 MBPP 任务上,Self-Consistency(41.9) 几乎与First Sample(41.9) 相同,远低于ListRanker的 54.5。在 xLAM 任务上,Self-Consistency(24.6) 提升有限。 - 这证实了
Self-Consistency等基于多数投票的解码策略在输出多样、语义等效性复杂的任务中效果不佳,因为其依赖的“共识”难以形成。
ListRanker的通用性:ListRanker在所有这些任务中都表现出强大的性能,显示了其作为通用排序框架的优势,能够适应不同类型的输出和任务需求。- 正交性: 论文指出
Contrastive Decoding[9] 和DoLa[46] 等修改模型输出概率分布的方法与Language Ranker(侧重于后采样排序)是正交且互补的,这意味着它们可以独立集成,甚至可能进一步提升性能。
7. 总结与思考
7.1. 结论总结
本文提出了 Language Ranker,一个用于增强大语言模型 (LLMs) 解码过程的新颖、轻量级排序框架。通过将 LLMs 的生成过程重新解读为推荐系统 (recommender systems) 中的排序阶段,论文识别并解决了现有解码策略的规则性、任务特定性以及奖励模型 (reward models) 高昂计算成本和冗余特征工程的局限性。
Language Ranker 的核心贡献在于其创新性地引入了一个轻量级模块,该模块直接利用基模型 (base model) 在生成候选响应时已经提取的隐藏状态 (hidden states) 作为特征,对这些候选响应进行高效、准确的重新排序 (rerank)。实验结果在数学、编码、函数调用和通用指令遵循等多种任务上,以及 LLaMA、Qwen 和 Gemma 等不同架构和规模的基模型上,一致地证明了 Language Ranker 实现了与大规模奖励模型相当的性能,而仅需要不到 0.5M 的额外参数。这显著降低了训练和推理阶段的计算开销。
此外,Language Ranker 的轻量级设计使其具有 CPU 可训练性 (CPU trainability) 和对超参数 (hyper-parameters) 的鲁棒性,从而支持单个基模型与多个任务特定或个性化排序器灵活配对,为 LLMs 在资源受限环境下的个性化部署和持续学习 (continual learning) 提供了可能。其强大的跨领域和跨任务迁移能力进一步凸显了方法的通用性和实用价值。
7.2. 局限性与未来工作
-
局限性:
- 对中间层隐藏状态的访问需求: 尽管
Language Ranker在理论上不会引入额外的计算开销(因为它重用基模型已经生成的隐藏状态),但它要求在推理过程中能够访问基模型中间层的隐藏状态。目前,主流的 LLM 推理框架(如vLLM)尚未完全支持这一功能。这在实际部署中可能构成一定的技术障碍。
- 对中间层隐藏状态的访问需求: 尽管
-
未来工作:
- 论文作者期望随着基于表示 (representation-based) 的方法在 LLM 领域中的快速发展,这种对中间层隐藏状态访问的限制将在未来得到缓解。这意味着推理框架和硬件的发展将逐渐适应这种新的计算范式。
7.3. 个人启发与批判
-
个人启发:
- 推荐系统视角的创新性: 将 LLM 解码类比推荐系统是一个非常新颖且富有洞察力的视角。它提供了一个清晰的框架来理解 LLM 生成过程中的“召回”和“排序”阶段,并启发性地利用了推荐系统中成熟的“特征共享”理念,从而找到了解决现有 LLM 解码痛点(高成本、冗余)的有效路径。
- 效率与性能的平衡:
Language Ranker在参数量极小的情况下,能达到甚至超越大型奖励模型的性能,这对于 LLM 的实际部署具有里程碑式的意义。它表明并非所有辅助任务都需要巨大的模型,轻量级、智能的设计同样能发挥巨大作用。 - 个性化与边缘部署的潜力:
ranker的 CPU 可训练性及其与基模型的解耦,为 LLM 的个性化和边缘部署描绘了令人兴奋的蓝图。想象一下,一个通用的大模型在云端提供强大的基础能力,而每个用户或每个任务可以在本地设备上训练和部署一个轻量级的ranker来满足其独特的需求,这将极大地拓展 LLM 的应用边界。 - 对推理时间计算的贡献: 论文证实了“排序器扩展定律”,即增加候选响应数量可以持续提升性能,为未来 LLM 推理计算的优化提供了新的方向。这与仅依赖扩大模型规模的趋势形成了有益的补充。
-
批判与潜在改进:
- “冗余”的更精确定义: 论文多次提到奖励模型的“冗余”。虽然直觉上理解是特征提取的重复,但在更严谨的理论层面,可以更详细地阐述这种冗余的具体计算成本(例如,与基模型的梯度流、内存占用等关联),以便更量化地论证
Language Ranker的优势。 - 中间层特征选择的自适应性: 论文通过实验发现从基模型底部约 60% 的层提取特征效果最好。这虽然是一个经验性的发现,但未来可以探索更具自适应性的机制来自动选择或融合来自不同层的特征,例如通过可学习的权重组合多层特征,而不是简单地选择一个固定层。这将进一步增强
ranker的通用性。 - 对 值(候选响应数量)的权衡分析:
Ranker Scaling Law强调增加候选数量能提升性能,但同时也意味着基模型需要生成更多响应,这本身也会增加推理时间。论文可以更详细地分析在实际应用中,性能提升与生成时间成本之间的最佳平衡点,或者提供一个指导原则来选择合适的 值。 - “通用人工智能”的进一步探讨: 论文指出其方法有助于“充分解锁 LLMs 的能力”,这是一个很大的愿景。虽然
Language Ranker在特定任务和效率上表现出色,但其在更广泛的“通用人工智能”背景下的具体贡献和局限性可以进一步探讨。例如,这种reranking机制如何影响 LLM 的泛化推理能力、安全性或创造力等更深层次的方面。 - KL 散度公式中的 : 在
Listwise Ranker的 KL 散度损失公式中, 定义为 。这里的 未被明确定义。通常,如果 是二元标签,并且 代表真实概率分布,那么 可能是正样本的数量或 值,以确保 。这一点在论文中可以更清晰地说明。
- “冗余”的更精确定义: 论文多次提到奖励模型的“冗余”。虽然直觉上理解是特征提取的重复,但在更严谨的理论层面,可以更详细地阐述这种冗余的具体计算成本(例如,与基模型的梯度流、内存占用等关联),以便更量化地论证
相似论文推荐
基于向量语义检索推荐的相关论文。