论文状态：已完成

RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs

发表：2025/03/08

大语言模型路由 (2)大语言模型规模化研究 (1)大语言模型性能基准 (1)路由器评估基准 (1)多模型选择机制 (1)

原文链接 PDF 下载

价格：0.100000

已有 10 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出RouterEval基准，基于8500+大语言模型及12项评测，首次系统验证模型级规模效应：路由器在增加候选模型数时显著提升整体性能，超越单模型表现。RouterEval助力路由器研究，揭示现有方法仍有改进空间。

摘要

Routing large language models (LLMs) is a new paradigm that uses a router to recommend the best LLM from a pool of candidates for a given input. In this paper, our comprehensive analysis with more than 8,500 LLMs reveals a novel model-level scaling up phenomenon in Routing LLMs, i.e., a capable router can significantly enhance the performance of this paradigm as the number of candidates increases. This improvement can even surpass the performance of the best single model in the pool and many existing strong LLMs, confirming it a highly promising paradigm. However, the lack of comprehensive and open-source benchmarks for Routing LLMs has hindered the development of routers. In this paper, we introduce RouterEval, a benchmark tailored for router research, which includes over 200,000,000 performance records for 12 popular LLM evaluations across various areas such as commonsense reasoning, semantic understanding, etc., based on over 8,500 various LLMs. Using RouterEval, extensive evaluations of existing Routing LLM methods reveal that most still have significant room for improvement. See https://github.com/MilkThink-Lab/RouterEval for all data, code and tutorial.

思维导图

论文精读

中文精读约 17 分钟读完 · 10,317 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs (RouterEval：一个用于探索大语言模型中“模型级规模效应”的综合性路由基准)
作者 (Authors): Zhongzhan Huang, Guoming Ling, Yupei Lin, Yandong Chen, Shanshan Zhong, Hefeng Wu, Liang Lin。所有作者均来自中山大学 (Sun Yat-sen University)。
发表期刊/会议 (Journal/Conference): arXiv 预印本。这意味着该论文已公开发布以征求同行意见，但尚未经过正式的同行评审并发表在学术会议或期刊上。
发表年份 (Publication Year): 2025 (根据 arXiv ID 2503.10657 推断)。
摘要 (Abstract): “大语言模型路由”(Routing LLMs) 是一个新兴范式，它通过一个“路由器”(router) 为给定输入从一个候选模型池中推荐最佳的 LLM。本文通过对超过 8,500 个 LLM 的全面分析，揭示了该范式中一个新颖的“模型级规模效应”(model-level scaling up)：随着候选模型数量的增加，一个能力足够强的路由器能显著提升系统整体性能，甚至超越模型池中最好的单个模型以及许多现有的强力 LLM。然而，该领域缺乏一个全面、开源的基准来推动路由器研究。为此，本文推出了 RouterEval，这是一个专为路由器研究设计的基准，它包含了基于 8,500 多个不同 LLM 在 12 个流行 LLM 评测（涵盖常识推理、语义理解等领域）上的超过 2 亿条性能记录。通过 RouterEval，本文对现有路由方法进行了广泛评估，发现它们仍有巨大的改进空间。
原文链接 (Source Link):
- ArXiv 页面: https://arxiv.org/abs/2503.10657
- PDF 链接: https://arxiv.org/pdf/2503.10657v2.pdf
- 代码和数据: https://github.com/MilkThink-Lab/RouterEval
- 发布状态: 预印本 (Preprint)。

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题: 随着开源和闭源的大语言模型 (LLM) 数量爆炸式增长，如何高效地利用这个庞大的、能力各异的模型生态系统，以最低的成本获得最佳的性能？简单地依赖单个最强的模型（如 GPT-4）不仅成本高昂，而且该模型也并非在所有任务上都是最优解。
- 当前挑战与空白 (Gap): 一个名为“大语言模型路由” (Routing LLMs) 的新范式应运而生，其核心是训练一个“路由器”来智能地为每个任务分配合适的 LLM。然而，这个领域尚处于早期阶段，严重缺乏一个全面、大规模、开源的基准测试平台。现有的相关工作要么模型池太小，要么评测维度单一，要么性能数据不公开，这极大地阻碍了更强大、更通用的路由器的开发和公平比较。
- 创新切入点: 本文的作者认为，Routing LLMs 范式可能存在一种类似于传统模型参数规模效应的“模型级规模效应”。他们假设：随着候选 LLM 数量的增加，整个系统的“天花板”会随之提高。为了验证这一假设并推动领域发展，他们着手构建一个前所未有的超大规模性能数据集，并基于此设计一个专门的评测基准。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 发现并验证了“模型级规模效应” (Model-level Scaling Up Phenomenon): 本文最核心的发现是，在 Routing LLMs 范式中，系统的整体性能会随着候选 LLM 数量的增加而显著提升，前提是拥有一个足够强大的路由器。这种性能提升甚至可以轻松超越模型池中任何单个最强的模型，也强于许多外部的顶尖模型。这证明了通过“组合”多个（甚至是较弱的）模型来超越单个“巨无霸”模型是一条极具前景的技术路径。
- 构建并发布了 RouterEval 基准: 这是本文的另一项重大贡献。作者们收集、整理并开源了超过 2 亿条性能记录，这些记录涵盖了 8,500 多个 LLM 在 12 个主流评测任务上的表现。基于此，他们构建了一个名为 RouterEval 的综合性基准，为研究者提供了一个训练和评估 LLM 路由器的“靶场”。RouterEval 包含不同难度设置、不同候选模型组合，并提供了海量的额外数据，极大地降低了该领域的研究门槛。

基础概念 (Foundational Concepts)

大语言模型 (Large Language Models, LLMs): 指的是像 GPT-4、Llama 等基于海量文本数据训练的深度学习模型。它们参数量巨大，能够理解和生成类似人类的语言，可以执行翻译、问答、写作等多种任务。
大语言模型路由 (Routing LLMs): 这是本文的核心范式。想象你有一个团队，团队里有多个专家（LLM），每个专家擅长的领域不同。当一个新任务（输入）来临时，你需要一个聪明的项目经理（路由器）来判断哪个专家最适合处理这个任务，然后把任务交给他。如下图所示，路由器接收输入，并从一个 LLM 池 (LLM Pool) 中选择一个最合适的模型来处理它，以达成如高准确率、低成本等特定目标。

该图像是一个示意图，展示了Routing LLMs的工作流程。两个输入通过一个路由器被分配到不同的LLM池中的模型，分别得到不同的输出结果，体现了路由选择对任务处理的影响。
规模效应/缩放法则 (Scaling Laws): 在深度学习领域，这通常指一个现象：当模型的参数量、训练数据量或计算量以指数级增加时，模型的性能（如损失函数值）会以一种可预测的、幂律的方式平滑提升。本文提出的“模型级规模效应” (model-level scaling up) 是对这一概念的延伸，指的是系统的性能随着候选模型数量的增加而提升。
专家混合模型 (Mixture-of-Experts, MoE): 这是一种神经网络架构，其内部包含多个“专家”子网络（通常是前馈网络）。对于每个输入，一个门控网络 (gating network) 会决定激活哪个或哪些专家来处理。Routing LLMs 可以被看作是一种**“模型级别”的 MoE** (Model-level "MoE")，其中每个“专家”不再是网络的一部分，而是一个完整的、独立的 LLM。

前人工作 (Previous Works)

作者指出，尽管 Routing LLMs 的研究正在快速发展，但现有的基准存在明显不足：

一些工作如 Lu et al. (2024a) 和 Hu et al. (2024a) 也构建了相关基准，但普遍存在以下问题：
- LLM 候选池不足: 包含的模型数量有限，无法充分探索“模型级规模效应”。
- 评测维度单一: 覆盖的任务类型不够广泛。
- 数据封闭或不足: 核心的性能记录不公开或数量太少，限制了研究的复现和扩展。
  
  RouterEval 正是为了解决这些痛点而设计的。

差异化分析 (Differentiation)

本文在第 6 节详细分析了 Routing LLMs 与其他相关范式的区别与联系：

推荐系统 (Recommender System): Routing LLMs 可以看作一种特殊的推荐系统。其中，“用户”是输入查询 (input)，“物品”是候选 LLM，而性能记录则是“用户-物品交互历史”。路由器的任务就是为“用户”推荐最合适的“物品”。但其挑战在于，“用户”（即输入）是无限的，且获取“交互历史”（即模型在具体输入上的表现）的成本极高。
LLM 集成 (LLMs Ensemble): 集成方法通常是让所有候选模型都对输入进行推理，然后通过投票等方式整合所有结果。相比之下，Routing LLMs 在推理前就进行选择性分配，只让一个或少数模型工作，因此计算效率更高。
LLM 融合 (LLMs Fusion): 融合技术（如模型合并 model merging）旨在将多个模型的参数合并成一个更强的新模型。这通常要求被融合的模型具有相同的结构。而 Routing LLMs 对模型结构没有要求，可以兼容异构模型，应用上更加灵活。

总而言之，Routing LLMs 不仅是一个独特的范式，还能与上述所有范式兼容，例如，可以将融合后的模型或集成系统作为候选池的一员，进一步提升性能。

4. 方法论 (Methodology - Core Technology & Implementation Details)

方法原理 (Methodology Principles)

论文的核心方法论分为两大部分：一是通过一个思想实验来揭示“模型级规模效应”，二是从零开始构建 RouterEval 基准。

1. 揭示“模型级规模效应”

为了探索候选模型数量 ( $m$ ) 与系统性能之间的关系，作者设计了一个巧妙的仿真实验。

核心思想: 通过模拟不同能力的路由器，观察当候选 LLM 数量从少到多变化时，系统的最终性能如何演变。
理论路由器构建:
- 神谕路由器 (Oracle Router, $r_o$ ): 这是一个理论上完美的路由器，它总能为任意给定的输入 $s$ 从 $m$ 个候选 LLM 中选出表现最好的那一个。它的性能代表了 Routing LLMs 范式在该候选池下的理论上限。
- 带噪声的神谕路由器 (Noisy Oracle Router, $r_o(p)$ ): 为了模拟能力从弱到强的各种真实路由器，作者定义了 $r_o(p)$ $r_{o} (p)$ 。它的行为如下： $r _ { o } ( p ) = \begin{cases} { r _ { o } , } & { \text{with probability } p, } \\ { \omega _ { m } , } & { \text{with probability } 1 - p, } \end{cases}$
  - 公式解释:
    - $r_o(p)$ 有 $p$ 的概率会像神谕路由器 $r_o$ 一样做出完美选择。
    - 有 1-p 的概率会退化成一个随机采样器 $\omega_m$ ，即从 $m$ 个模型中完全随机地选择一个。
    - $p$ 是一个介于 0 和 1 之间的概率值，代表了路由器的“能力水平”。当 $p \to 1$ 时，路由器接近完美；当 $p \to 0$ 时，路由器接近随机猜测。
实验流程:
1. 针对一个评测任务（如 ARC、MMLU-PRO 等）。
2. 对于一个给定的候选池大小 $m$ (例如 $m=10$ )，从总的 LLM 池中随机抽取 $m$ 个模型，构成一个候选子集。这个过程重复 100 次，得到 100 个不同的候选子集。
3. 对于每一个子集，计算不同能力水平的路由器 $r_o(p)$ (例如 $p=0, 0.1, ..., 1.0$ ) 的平均性能。
4. 改变 $m$ 的值（从 2 到数千），重复上述过程。
5. 将结果绘制成图，横轴是候选 LLM 数量 $m$ ，纵轴是系统性能（准确率），不同的曲线代表不同的路由器能力 $p$ 。
结果解读 (见下图):

$Figure 2: The Model-level Scaling Up Phenomenon in Routing LLMs. As shown in Section 3, the Prob. $p$ EY u l r capability. If $p 0$ , then $r _ { o } ( p )$ degenerates into a random sampler. When th…$ 该图像是四个子图组成的图表，展示了Routing LLMs中模型级别规模效应，横轴为LLM候选数量，纵轴为准确率，不同颜色对应概率 $p$ 值，虚线表示参考LLM性能。
- 现象: 从图中可以清晰地看到，当路由器能力 $p$ 较高时（红色曲线），系统性能随着候选 LLM 数量 $m$ 的增加而急剧提升。
- 关键发现:
  1. 模型级规模效应: 当路由器能力足够强 (如 $p \geq 0.5$ ) 时，增加候选模型数量是提升系统性能的有效途径，这证实了“模型级规模效应”的存在。
  2. 弱模型也大有可为: 即使候选池中大部分是性能平平的开源小模型，在强大的路由器调度下，它们通过能力互补、精细分工，最终的系统性能也能超越像 GPT-4 这样的顶尖模型（图中虚线 Ref. LLM）。
  3. 少量候选即有效: 即使只有 3 到 10 个候选模型，系统性能也能获得巨大提升，这对于资源有限的用户极具吸引力。

2. 构建 `RouterEval` 基准

目标: 将路由器的训练和评估形式化为一个标准的分类问题。
数据格式: RouterEval 提供的数据对为 $(\mathcal{X}, \mathcal{Y}) = \{ \kappa(s_j), v_j \}_{j=1}^n$ 。
- $\kappa(s_j)$ : 输入样本 $s_j$ 的表示 (representation)，即其 embedding。论文提供了多种预训练编码器（如 Sentence-BERT, RoBERTa）生成的 embedding。
- $v_j$ : 一个 $m$ 维的选择向量 (selection vector)，是路由器的训练目标（标签）。 $v_j \in \{0, 1\}^m$ 。如果第 $i$ 个 LLM 在样本 $s_j$ 上表现最优（或足够好），则向量的第 $i$ 位为 1，否则为 0。一个样本可以有多个最优的 LLM，此时 $v_j$ 中可以有多个 1。
候选 LLM 池的构建 (The Construction of LLM Candidates): 为了全面评估路由器，RouterEval 精心设计了不同难度的候选模型组合。
- 难度级别:
  - 简单 (easy): $m \in \{3, 5\}$ ，候选模型少，适合快速验证。
  - 困难 (hard): $m \in \{10, 100, 1000\}$ ，候选模型多，考验路由器的极限能力。
- 候选组类型: 对于每个任务和 $m$ $m$ 值，构建了三种类型的候选组：
  1. “全明星”组 (all-strong): 候选者全部从表现最好的前 20% 模型中挑选。
  2. “全菜鸟”组 (all-weak): 候选者全部从表现最差的后 20% 模型中挑选。
  3. “强弱混合”组 (strong-to-weak): 候选者从所有模型中均匀挑选，能力参差不齐。
- 设计目的: 这种设计可以从多个角度考察路由器的能力。例如，在“全菜鸟”组中取得好成绩，意味着路由器能有效利用弱模型间的互补性；在“强弱混合”组中表现出色，则考验路由器在复杂环境下的辨别能力。
额外训练数据 (Extra Training Data): 除了标准的训练/验证/测试集，RouterEval 还提供了超过 2 亿条原始性能记录。研究者可以利用这些数据进行数据增强、自监督预训练、少样本学习等，以训练出更强大的路由器。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):
- RouterEval 的评测任务基于 12 个非常流行和权威的 LLM 基准，涵盖了广泛的能力维度：
  - 常识推理: ARC, HellaSwag, Winogrande
  - 综合知识/问答: MMLU, TruthfulQA, GPQA, MMLU-PRO
  - 数学推理: GSM8k, MATH Lvl 5
  - 指令遵循: IFEval
  - 多任务语言理解: BBH
  - 科学推理: MUSR
- 选择这些数据集是为了保证评测的全面性和多样性，避免路由器只在特定类型的任务上表现良好。
评估指标 (Evaluation Metrics):
- 1. 原始指标 (Original metric, $\mu_o(r_\theta)$ ):
  1. 概念定义: 该指标直接衡量通过路由器选择的 LLM 在特定基准测试上最终实现的性能（通常是准确率）。它反映了整个 Routing LLMs 系统的端到端有效性。
  2. 数学公式: 假设评测集有 $n$ 个样本 $s_j$ ，score(output, answer) 函数用于判断模型输出是否正确（正确为 1，错误为 0）。 $\mu_o(r_\theta) = \frac{1}{n} \sum_{j=1}^{n} \operatorname{score}(\ell_{\text{selected\_by\_}r_\theta}(s_j), \text{answer}_j)$
  3. 符号解释:
    - $r_\theta$ : 待评估的路由器。
    - $\ell_{\text{selected\_by\_}r_\theta}(s_j)$ : 路由器为样本 $s_j$ 选择的 LLM。
    - $\operatorname{score}(\cdot, \cdot)$ : 评估函数，计算单个样本的得分。
- 2. 参考值 (Reference value, $V_R$ ):
  1. 概念定义: 该指标将路由系统的性能与一个公认的、非常强大的外部参考模型（如 GPT-4）进行比较。如果 $V_R > 1$ ，则意味着由多个（可能较弱）模型组成的路由系统成功地“以弱胜强”，超越了单个顶级模型。
  2. 数学公式: $V_R = \frac{\mu_o(r_\theta)}{\operatorname{Perf.}(\text{ref.})}$
  3. 符号解释:
    - $\mu_o(r_\theta)$ : 路由系统的原始指标得分。
    - $\operatorname{Perf.}(\text{ref.})$ : 参考模型（如 GPT-4）在该基准上的性能得分。
- 3. 最佳单模型值 (Best single model value, $V_B$ ):
  1. 概念定义: 该指标将路由系统的性能与候选池内部表现最好的那个模型进行比较。如果 $V_B > 1$ ，则证明路由器不仅仅是学会了“永远选择最好的那个”，而是真正地实现了“1+1>2”，通过智能调度发挥了多个模型的协同优势。
  2. 数学公式: $V_B = \frac{\mu_o(r_\theta)}{\operatorname{Perf.}(\text{BSM})}$
  3. 符号解释:
    - $\mu_o(r_\theta)$ : 路由系统的原始指标得分。
    - $\operatorname{Perf.}(\text{BSM})$ : 候选池中最佳单个模型 (Best Single Model) 在该基准上的性能得分。
- 4. 分类偏差 (Classification bias, $E_p$ ):
  1. 概念定义: 该指标使用信息熵来衡量路由器选择的多样性。一个好的路由器应该能根据不同输入的特点，灵活地选择不同的 LLM。如果路由器倾向于总是选择同一个或少数几个 LLM，那么它的熵会很低，这被称为“分类偏差”，意味着它没有充分利用整个模型池。高熵值通常更受欢迎。
  2. 数学公式: $E_p = - \frac{1}{n} \sum_{j=1}^{n} \sum_{i=1}^{m} P_i^{(j)} \log P_i^{(j)}$
  3. 符号解释:
    - $n$ : 测试样本的总数。
    - $m$ : 候选 LLM 的数量。
    - $P_i^{(j)}$ : 路由器对于第 $j$ 个测试样本，选择第 $i$ 个 LLM 的输出概率。
对比基线 (Baselines):
- 强力路由器 (Strong router):
  - Oracle router ( $r_o$ ): 理论上的性能上限。
  - $r_o(0.5)$ : 一个能力中等的路由器，一半概率完美选择，一半概率随机选择。
- 现有路由器方法 (Existing router):
  - LinearR: 使用线性分类器的路由器。
  - MLPR: 使用多层感知机 (MLP) 的路由器。
  - C-RoBERTa: 基于 RoBERTa 的分类器。
  - MLC 和 PRknn: 其他近期提出的路由器方法。

6. 实验结果与分析

核心结果分析 (Core Results Analysis)

以下是论文中 Table 1 和 Table 2 的转录和分析，展示了在 easy level ( $m \in \{3, 5\}$ ) 上的实验结果。

Table 1: RouterEval 上的结果 (Part 1, m=3 & 5)

注: 由于原始表格复杂，此处使用 HTML $<div class="table-wrapper"><table>$ 进行转录。 $μo$ 为原始性能, VR 为参考值, VB 为最佳单模型值, Ep 为分类偏差熵。

m	Router	ARC				HellaSwag				MMLU				TruthfulQA
m	Router	μo↑	VR↑	VB↑	Ep↑	μo↑	VR↑	VB↑	Ep↑	μo↑	VR↑	VB↑	Ep↑	μo↑	VR↑	VB↑	Ep↑
3	Oracle r_o	0.80	0.94	1.34	1.02	0.80	0.84	1.08	1.32	0.89	1.03	1.35	1.00	0.85	1.27	1.21	1.05
	r_o(0.5)	0.67	0.79	1.11	1.47	0.74	0.78	1.00	1.53	0.75	0.87	1.11	1.47	0.74	1.10	1.04	1.47
	LinearR	0.61	0.71	0.96	1.42	0.75	0.79	1.00	1.43	0.74	0.85	1.04	1.30	0.72	1.08	1.00	1.36
	MLPR	0.61	0.71	0.96	1.42	0.75	0.78	1.00	1.43	0.74	0.86	1.04	1.26	0.71	1.06	0.96	1.30
	C-RoBERTa	0.62	0.73	1.00	1.03	0.75	0.79	1.00	0.29	0.73	0.84	1.02	0.62	0.71	1.06	0.96	0.31
	MLC	0.63	0.74	1.00	0.81	0.75	0.78	1.00	1.01	0.73	0.85	1.02	0.79	0.70	1.05	0.95	0.49
	PRknn	0.60	0.71	0.97	1.56	0.72	0.76	0.97	1.57	0.70	0.81	0.98	1.55	0.70	1.04	0.95	1.55
	Random	0.54	0.64	0.89	1.59	0.68	0.71	0.91	1.59	0.62	0.71	0.88	1.59	0.62	0.93	0.86	1.59
5	Oracle r_o	0.85	1.00	1.34	1.57	0.81	0.85	1.10	2.00	0.92	1.07	1.63	1.49	0.89	1.33	1.27	1.72
	r_o(0.5)	0.70	0.82	1.09	2.16	0.74	0.78	1.00	2.25	0.75	0.87	1.24	2.14	0.75	1.12	1.05	2.19
	LinearR	0.64	0.75	0.93	2.15	0.75	0.79	1.00	2.19	0.69	0.80	1.01	2.04	0.72	1.08	0.97	2.15
	MLPR	0.64	0.75	0.93	2.13	0.75	0.79	1.01	2.20	0.70	0.81	1.02	2.00	0.71	1.05	0.93	2.11
	C-RoBERTa	0.66	0.78	0.97	0.82	0.75	0.79	1.00	0.52	0.68	0.79	0.98	1.02	0.70	1.04	0.92	0.84
	MLC	0.63	0.74	0.90	1.28	0.75	0.78	1.01	1.65	0.69	0.79	0.99	1.11	0.68	1.02	0.91	1.04
	PRknn	0.63	0.74	0.95	2.30	0.71	0.74	0.95	2.31	0.64	0.74	0.94	2.30	0.70	1.04	0.95	2.29
	Random	0.55	0.65	0.83	2.32	0.67	0.71	0.91	2.32	0.58	0.67	0.86	2.32	0.61	0.92	0.83	2.32

结果解读:
1. 现有方法潜力巨大: $Oracle r_o$ 的性能远超所有现有的路由器方法，其 $V_B$ 值普遍大于 1.2，说明完美路由可以带来巨大收益。这表明现有方法还有极大的提升空间。
2. 超越单模型很难: 多数现有路由器方法的 $V_B$ 值小于或约等于 1，这意味着它们在很多情况下甚至无法稳定地超越候选池中最好的那个模型，更不用说发挥协同优势了。
3. 分类偏差问题: 像 C-RoBERTa 和 MLC 等方法在某些任务上 $E_p$ 值非常低（例如 HellaSwag 上 C-RoBERTa 的 $E_p$ 只有 0.29），这表明它们可能存在严重的分类偏差，倾向于只选择某一个模型，失去了路由的意义。

消融实验/参数分析 (Ablation Studies / Parameter Analysis)

论文在第 6 节进行了更深入的分析。

不同候选组的影响 (见下图):

该图像是一个柱状图，展示了不同候选模型组在TruthfulQA和MMLU两个任务上的准确率表现，柱子颜色区分了Strong、Weak及其组合，虚线表示参考LLM的准确率基准。
- 分析: 该图比较了“全明星 (Strong)”、“全菜鸟 (Weak)”和“强弱混合 (Strong-to-Weak)”三种候选组的表现。
  - 毫无疑问，“全明星”组的上限最高。
  - 最有趣的发现是： 即使是“全菜鸟”组（蓝色柱），在神谕路由器 $r_o$ 的调度下，其性能也能达到非常高的高度，在 MMLU 任务上甚至接近了参考模型 GPT-4 的水平。这再次印证了“弱模型通过互补也能办成大事”的观点。
  - 然而，对于现有路由器（如 C-RoBERTa），它们在处理“全菜鸟”组时表现很差，说明它们无法有效挖掘弱模型之间的互补性。

路由器的分类偏差分析:

Table 3: MMLU 任务上不同候选组的 $E_p$ 值

m	Router	all-strong	all-weak	strong-to-weak
3	Oracle r_o	1.39	0.77	0.96
	r_o(0.5)	1.55	1.42	1.45
	LinearR	1.54	1.54	0.81
	MLPR	1.50	1.52	0.76
	C-RoBERTa	0.93	0.94	0.00
	MLC	1.52	0.34	0.52
	PRknn	1.58	1.56	1.52

分析: C-RoBERTa 在“强弱混合”组的 $E_p$ 值竟然为 0.00。这意味着它完全丧失了多样性，只会死板地选择同一个模型（很可能是训练集里表现最好的那个），这是一种严重的过拟合。这解释了为什么它的性能不佳。相比之下，神谕路由器即使在有强有弱的环境中，也需要多样化的选择（ $E_p=0.96$ ）才能达到最优性能。因此，消除偏见是提升路由器能力的关键。

7. 总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary):
1. 本文首次通过大规模实验揭示并验证了 Routing LLMs 范式中的“模型级规模效应”，证明了组合多个（甚至较弱的）LLM 是一个极具潜力的性能提升路径。
2. 为了解决该领域缺乏标准化评估工具的问题，本文构建并开源了 RouterEval——一个迄今为止规模最大、最全面的 LLM 路由器基准。
3. 通过在 RouterEval 上的评测，本文发现现有的路由器方法虽然有一定效果，但普遍存在性能不足和分类偏差等问题，距离理论上限还有很长的路要走，未来的研究大有可为。
局限性与未来工作 (Limitations & Future Work):
- 局限性:
  - 部署挑战: 当候选模型数量非常大时，在生产环境中部署和维护这么多模型会带来巨大的工程挑战。但作者也指出，在 3-10 个模型的小范围内就能取得很高的性价比。
  - 数据仍不足: 尽管 2 亿条记录已经很多，但对于训练一个完美的通用路由器来说，可能仍然不够。获取这些性能数据的成本极高，需要整个社区的共同努力。
- 未来工作:
  - 提升路由器性能: 作者建议可以从推荐系统领域借鉴思想，如设计更好的表示学习方法、解决冷启动问题、利用因果推断技术来消除选择偏差等。
  - 扩展路由目标: 当前 RouterEval 主要关注性能。未来可以扩展到多目标优化，如同时考虑性能、计算成本、延迟和幻觉率等。
个人启发与批判 (Personal Insights & Critique):
- 启发:
  1. “集体智慧”的力量: 这篇论文雄辩地证明了，通过聪明的协作机制，一个由“普通人”组成的团队可以胜过一个“超级天才”。这为 AI 领域的发展提供了一个与“大力出奇迹”（不断堆参数）同样重要、甚至更具经济效益的思路。它降低了参与门槛，使得拥有较小模型的组织和个人也能通过协作参与到前沿竞争中。
  2. 数据和基准是第一生产力: RouterEval 本身的构建就是一项巨大的工程和贡献。它就像 ImageNet 之于计算机视觉，为 Routing LLMs 这个新兴领域铺平了道路，使得后续的研究能够站在巨人的肩膀上，进行公平、可复现的比较。
- 批判性思考:
  1. 路由器的开销: 论文主要关注最终性能，但路由器本身也需要计算资源和时间。在对延迟要求极高的实时应用中，路由决策所需的时间可能成为瓶颈。未来的工作需要将路由器的开销也纳入评估体系。
  2. 动态模型池: RouterEval 的模型池是静态的。在真实世界中，每天都有新的模型发布，旧的模型被淘汰。如何设计一个能够适应动态模型池、支持“即插即用”的路由器，是一个更具挑战性但极具价值的问题。
  3. 从“选择”到“生成”: 目前的路由器是“选择题”，即从给定选项中选一个。一个更高级的路由器或许能做“填空题”甚至“问答题”，例如，它不仅能选择模型，还能动态地为所选模型提供特定的提示（prompt）或配置，以最大化其在该任务上的表现。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。