Scaling Latent Reasoning via Looped Language Models
TL;DR 精炼摘要
本文提出了一种新型的循环语言模型(Looped Language Models, LoopLM),通过在预训练阶段嵌入推理能力,优化了基于潜空间的迭代计算。Ouro模型在7.7T词元训练基础上,展现出优于12B参数的SOTA LLM的性能,且推理轨迹更一致。
摘要
Modern LLMs are trained to "think" primarily via explicit text generation, such as chain-of-thought (CoT), which defers reasoning to post-training and under-leverages pre-training data. We present and open-source Ouro, named after the recursive Ouroboros, a family of pre-trained Looped Language Models (LoopLM) that instead build reasoning into the pre-training phase through (i) iterative computation in latent space, (ii) an entropy-regularized objective for learned depth allocation, and (iii) scaling to 7.7T tokens. Ouro 1.4B and 2.6B models enjoy superior performance that match the results of up to 12B SOTA LLMs across a wide range of benchmarks. Through controlled experiments, we show this advantage stems not from increased knowledge capacity, but from superior knowledge manipulation capabilities. We also show that LoopLM yields reasoning traces more aligned with final outputs than explicit CoT. We hope our results show the potential of LoopLM as a novel scaling direction in the reasoning era. Our model is available here: http://ouro-llm.github.io.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
通过循环语言模型扩展潜空间推理 (Scaling Latent Reasoning via Looped Language Models)
论文标题直接点明了研究的核心:通过一种名为“循环语言模型 (Looped Language Models)”的架构,来增强和扩展大语言模型的“潜空间推理 (Latent Reasoning)”能力。这里的“潜空间 (Latent Space)”指的是模型内部、非文本化的表示空间,“潜空间推理”意味着模型在生成最终答案前,在内部进行多步的、类似“思考”的计算过程。
1.2. 作者
论文作者团队规模庞大,来自多个知名学术机构和公司,包括浙江大学 (Zhejiang University)、卡内基梅隆大学 (Carnegie Mellon University)、宾夕法尼亚大学 (University of Pennsylvania)、曼彻斯特大学 (University of Manchester)、ConsciumAI、蒙特利尔大学 (Université de Montréal) 等。核心贡献者包括 RuiJie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Ge Zhang, Fan Yin, He Xing 等。特别值得注意的是,深度学习领域的巨擘 Yoshua Bengio 也是作者之一,这通常预示着该研究在理论或方法上具有较深远的探索意义。
1.3. 发表期刊/会议
该论文目前作为预印本 (preprint) 发布在 arXiv 上。arXiv 是一个开放获取的学术论文存档网站,允许研究者在正式同行评审前分享他们的研究成果。虽然预印本未经正式评审,但它是计算机科学等快节奏领域交流最新研究的重要平台。论文的发表日期为 2025 年 10 月,这表明这是一项非常前沿的研究。
1.4. 发表年份
2025年 (根据预印本信息)
1.5. 摘要
现代大语言模型 (LLMs) 主要通过生成明确的文本(如思维链, CoT)来进行“思考”,这种方式将推理过程推迟到训练后,且未能充分利用预训练数据。本文提出并开源了 Ouro,一个以递归的衔尾蛇 (Ouroboros) 命名的预训练循环语言模型 (Looped Language Models, LoopLM) 家族。该模型通过以下方式将推理能力内置于预训练阶段:(i) 在潜空间中进行迭代计算;(ii) 使用熵正则化 (entropy-regularized) 的目标函数来学习动态的计算深度分配;(iii) 扩展到 7.7T 词元 (token) 的训练数据。实验结果显示,Ouro 的 1.4B 和 2.6B 模型性能优越,在多种基准测试中可媲美高达 12B 参数的主流 SOTA LLM。通过受控实验,本文证明了这种优势并非源于知识容量的增加,而是来自更强的知识操纵能力。此外,LoopLM 产生的推理轨迹比显式的 CoT 更与最终输出保持一致。研究者希望其结果能展示 LoopLM 作为推理时代一个新的扩展方向的潜力。
1.6. 原文链接
- 官方链接: https://arxiv.org/abs/2510.25741v2
- PDF 链接: https://arxiv.org/pdf/2510.25741v2
- 发布状态: 预印本 (Preprint)
2. 整体概括
2.1. 研究背景与动机
-
核心问题: 当前大语言模型 (LLMs) 的发展严重依赖于模型尺寸的暴力扩展 (Scaling up model size),这导致了巨大的计算和部署成本。同时,主流的推理方法,如思维链 (Chain-of-Thought, CoT),是一种训练后 (post-training) 的技术,它通过生成更多的文本来换取更好的推理性能,这不仅增加了推理时的计算开销,也未能让模型在预训练阶段就学会“思考”。
-
重要性与挑战 (Gap):
- 参数效率 (Parameter Efficiency) 低: 为了获得强大的能力,模型参数动辄千亿,使得普通研究者和企业难以负担,部署在资源受限环境(如手机、边缘设备)中更是遥不可及。如何在有限的参数预算内实现更强的性能,是一个关键挑战。
- 推理发生在“外部”: CoT 等方法将推理过程外化为文本,这是一种“显式推理 (explicit reasoning)”。这种方式虽然有效,但它并未从根本上改变模型的核心计算模式。模型本身并没有在“内部”进行更深层次的计算,只是通过生成更长的序列来模拟思考。这不仅会消耗宝贵的上下文长度,而且可能导致生成的推理过程与最终答案脱节,即所谓的“事后合理化 (post-hoc rationalization)”。
- 预训练与推理脱节: 预训练的目标是预测下一个词元,而推理(尤其是复杂推理)是在这个基础能力上涌现或通过微调获得的。预训练阶段本身并没有直接优化模型的“思考深度”。
-
本文切入点/创新思路: 本文提出了一个全新的范式,将推理过程内置于预训练阶段。其核心思路是:与其增加模型的层数(宽度/深度),不如让模型重复使用一组固定的层,进行迭代计算。这种循环利用参数的结构,被称为循环语言模型 (Looped Language Model, LoopLM)。这使得模型可以在一个固定的参数预算内,通过增加计算深度 (computational depth) 来解决复杂问题,实现了“用时间换性能”,而非“用参数换性能”。
2.2. 核心贡献/主要发现
-
提出并开源 Ouro 模型,实现卓越的参数效率: 论文训练并发布了 Ouro 1.4B 和 2.6B 模型。通过在 7.7T 词元的海量数据上进行预训练,这两个小参数模型在广泛的基准测试中,其性能可以媲美参数量大 2-3 倍(如 4B、8B 甚至 12B)的先进模型。这极大地提升了模型的参数效率,对于资源受限的部署场景至关重要。
-
提出熵正则化的自适应计算机制: 为了让模型能够根据问题难度动态调整计算量(即循环次数),论文引入了一个可学习的“退出门 (exit gate)”。为了避免模型倾向于“思考不足”(过早退出)或“思考过度”(总是用满循环次数),作者设计了一个两阶段训练策略:
- 阶段一: 使用熵正则化 (entropy-regularization) 目标,鼓励模型在训练初期探索不同的计算深度。
- 阶段二: 对退出门进行专门微调,使其学会根据任务损失的实际改善情况来决定是否继续循环,从而在性能和计算成本之间取得最佳平衡。
-
深入的机理分析:揭示 LoopLM 的优势来源: 通过一系列精心设计的“模型物理学 (physics-of-LMs)”受控实验,论文得出一个关键结论:LoopLM 的性能优势并非来自更大的知识存储容量 (knowledge capacity),而是来自更强的知识操纵能力 (knowledge manipulation capability)。换言之,循环计算并没有让模型“知道”更多,而是让模型更擅长“运用”已有的知识进行组合和多步推理。
-
证明了更高的安全性和忠实性:
- 安全性 (Safety): LoopLM 在安全性基准测试 (HEx-PHI) 上表现出更低的有害性,并且随着循环次数的增加,模型的安全性也随之提升,即使是外推到比训练时更多的循环次数。
- 忠实性 (Faithfulness): 与 CoT 容易产生“事后诸葛亮”式的解释不同,LoopLM 在潜空间中迭代生成的“推理轨迹”与最终答案的因果关系更强。这意味着其中间步骤是真正为了推导出答案,而不是为了解释一个已经确定的答案。
-
确立了“循环深度”作为新的扩展轴: 论文将循环深度 (loop depth) 确立为继模型尺寸 (model size) 和数据规模 (data scale) 之后的第三个重要的模型能力扩展轴,为大模型的发展提供了新的思路。
3. 预备知识与相关工作
3.1. 基础概念
- Transformer 模型: Transformer 是当前几乎所有大语言模型的基础架构,由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出。其核心是自注意力机制 (Self-Attention Mechanism),允许模型在处理一个序列时,为序列中的每个词元计算一个加权表示,这个权重反映了序列中其他所有词元对当前词元的重要性。这使得模型能够捕捉长距离依赖关系。一个标准的 Transformer 解码器层通常由一个多头自注意力模块和一个前馈神经网络 (FFN) 组成,并辅以残差连接和层归一化。
- 思维链 (Chain-of-Thought, CoT): CoT 是一种提示(Prompting)技术,通过在示例中向模型展示一步步解决问题的推理过程,来引导模型在回答新问题时也生成类似的推理步骤。例如,在回答一个数学应用题时,模型会先写出解题的公式、中间计算步骤,最后再给出答案。这被证明能显著提高 LLM 在复杂推理任务上的表现。但如前所述,它是一种外显的、发生在推理阶段的技术。
- 参数共享 (Parameter Sharing): 这是一种在神经网络中减少参数数量的技术,即让网络的不同部分使用同一组权重参数。例如,在 Transformer 模型中,可以让所有层共享同一组注意力权重和前馈网络权重。这样做的好处是显著降低模型大小和内存占用,但也可能影响模型性能,因为它限制了每一层学习不同特征的能力。
3.2. 前人工作
论文将相关工作归纳为两个视角,这有助于我们理解 LoopLM 的技术渊源。
-
视角一:作为模型效率工具的参数共享 (Parameter Sharing for Model Efficiency):
- Universal Transformer: 这是 LoopLM 最直接的前身之一,由 Dehghani 等人在 2018 年提出。它引入了循环机制 (recurrence),让一个 Transformer 层被重复应用多次。每一轮循环中,模型都会更新其对输入序列的表示。这本质上就是一种跨层参数共享。
- ALBERT: 由 Lan 等人于 2019 年为 BERT 模型提出的轻量化版本。它采用了跨层参数共享,即所有 Transformer 层的参数都是相同的,从而大幅减少了模型参数量。
- 近期工作: 随着 LLM 尺寸越来越大,参数共享再次受到关注。例如,
Megrez2在混合专家模型 (MoE) 中重用专家网络,以减小模型体积。
-
视角二:作为潜空间推理和迭代优化的工具 (Latent Reasoning and Iterative Refinement):
- 潜空间推理: 这个视角将 LoopLM 的每一次循环看作一次“潜思考 (latent thought)”或“非语言思考 (non-verbal thought)”。隐藏状态 (hidden states) 在每次迭代中被不断优化,就像人类在脑中反复思索一个问题一样。
- PonderNet: 由 Banino 等人于 2021 年提出,它引入了一个动态计算的概念,模型可以学习“思考”多少次(即执行多少计算步骤)来解决一个问题,并通过一个概率终止机制来决定何时停止。这与 Ouro 的自适应退出门思想非常相似。
- Relaxed Recursive Transformers: 这是最近的一项工作,它将标准模型转换为循环结构,并在每个循环步骤中注入一个独特的 LoRA 适配器,实现了参数共享和个性化计算的结合。
- Coconut / CoTFormer: 这些模型探索了将潜空间中的“思考”结果显式地反馈给模型。例如,
Coconut模型会生成一个连续的“思想”词元,并将其拼接到输入序列中,让模型在下一轮计算中可以“看到”自己之前的思考。
3.3. 技术演进
LLM 的发展大致经历了几个阶段:
-
架构创新阶段: Transformer 架构的提出奠定了基础。
-
暴力扩展阶段: 以 GPT-3 为代表,研究者发现通过简单地扩大模型参数、训练数据和计算量,模型能力会“涌现”出惊人的提升。
-
推理增强阶段: 以 CoT 为代表,人们开始探索如何通过巧妙的提示工程或微调来引导模型更好地进行复杂推理,从而在不改变模型本身的情况下榨取更多性能。
-
效率与架构优化阶段 (当前): 随着模型规模达到瓶颈,研究重心开始转向如何在有限的资源下实现更强的性能。这包括数据优化、混合专家模型 (MoE),以及本文所探讨的循环计算架构。
本文的工作正处于第四个阶段,它不再满足于训练后的“小修小补”,而是从根本的预训练架构和目标入手,试图构建一种天生就擅长推理的、更具参数效率的新型语言模型。
3.4. 差异化分析
- 与标准 Transformer 的区别: 标准 Transformer 通过堆叠大量不同的层来增加计算深度;而 LoopLM 使用少量相同的层,通过重复计算来增加计算深度。标准 Transformer 的计算深度与参数量强绑定,而 LoopLM 将两者解耦。
- 与 CoT 的区别: CoT 的推理发生在输出的文本空间,增加了序列长度;LoopLM 的推理发生在内部的潜空间,不增加输出序列长度,只增加计算时间。LoopLM 的推理是内置于模型架构中的,而 CoT 是一种外加的引导技巧。
- 与 Universal Transformer / PonderNet 的区别: 虽然思想一脉相承,但本文工作的关键创新在于规模化验证 (Scaling up)。之前的工作大多停留在小规模实验上,而本文首次将 LoopLM 架构应用到数万亿词元 (trillion-token) 的预训练规模,并系统地研究了其扩展规律、训练稳定性、以及与 SOTA 模型的直接对比,证明了其在“真实世界”大规模场景下的可行性和优越性。此外,本文提出的两阶段自适应计算训练策略也是一个具体的工程贡献。
4. 方法论
本部分将详细拆解 Ouro 模型的技术实现,包括其核心架构、自适应计算机制以及创新的两阶段训练目标。
4.1. 方法原理
Ouro 的核心思想是用计算时间换取模型深度。传统的 Transformer 模型通过堆叠 L 个不同的层来处理输入,计算图是线性的、固定的。而 Ouro (LoopLM) 则采用一个包含 L 个层的“块” (block),并将其重复应用 次。每一次应用(循环)都以上一轮的输出隐藏状态作为输入,从而实现对信息表示的迭代式优化 (iterative refinement)。
更进一步,模型不应该对所有输入都使用相同的计算量。简单的输入可能循环一次就足够,而复杂的输入则需要更多次循环。为此,Ouro 引入了一个自适应退出机制 (adaptive early-exit mechanism),让模型能根据输入动态地决定循环次数,从而在性能和效率之间取得平衡。
4.2. 核心方法详解 (逐层深入)
4.2.1. LoopLM 架构
让我们首先形式化定义 LoopLM。一个标准的、非循环的 L 层语言模型可以表示为: 其中:
-
是词元嵌入层,将输入的词元转换为向量。
-
是第 个 Transformer 层,拥有独立的参数 。
-
代表这 L 个不同层的堆叠。
-
是输出头,将最终的隐藏状态映射回词汇表概率。
而一个循环 次的 LoopLM 模型 则将同一个深度为 L 的层堆栈 重复应用 次: 这里的关键是,所有 次迭代都共享同一组参数 。在每次循环 之后,模型都会产生一个输出,并可以计算一个对应的损失。在第 次循环时的标准交叉熵损失定义为: 其中:
-
是在第 次循环后,模型在位置 预测下一个词元的概率分布。
-
是在位置 经过 次循环后的隐藏状态。
这个 只是单步损失,最终的训练目标会综合考虑所有循环步骤的损失。
4.2.2. 通过门控机制实现自适应计算
为了让模型能动态决定循环次数,作者在每次循环 结束后,并行地引入一个退出门 (exit gate)。
-
瞬时退出概率: 在第 次循环后,退出门会根据当时的隐藏状态 计算一个瞬时退出概率 : 这里的 是最后一层的隐藏状态, 是退出门(一个线性层)的参数, 是 Sigmoid 函数,确保概率在 (0, 1) 之间。
-
生存概率: 模型“存活”到第 步的概率 是指在前 步都没有退出的概率:
-
退出概率分布: 在第 步()精确退出的概率是“存活到第
t-1步”乘以“在第 步退出”: 为了确保所有概率之和为 1,在最后一步 退出的概率是所有剩余的概率质量: -
推理时的早退策略 (Q-Exit): 在推理时,为了避免随机采样带来的不确定性,作者采用了一种确定性的退出策略。给定一个阈值 ,模型在累积退出概率 (CDF) 首次超过 的那一步退出: 其中 。较小的 倾向于提早退出(计算量小),较大的 则允许更深的计算。
下图(原文 Figure 3)直观地展示了 LoopLM 的训练和推理架构。
该图像是 Looped Language Model (LoopLM) 架构的示意图,左侧展示了训练过程,包括输入嵌入、多个层和退出门的结构,并给出了期望任务损失的公式 L = rac{1}{T_{max}} imes ext{Expected Task Loss} - eta imes H(p_ heta | x)。右侧展示了推理阶段,该阶段模型可以根据累积的退出概率提前退出。
4.2.3. 阶段一:学习熵正则化的目标函数
如果只简单地根据每一步的损失 进行训练,模型会倾向于将所有概率都分配给损失最低的、通常是最深的循环步骤,导致退出门失效(总是循环到 )。为了解决这个问题,作者引入了熵正则化。
训练的总损失函数 定义为: 这个目标函数包含两部分:
-
期望任务损失: 这是在所有可能的退出步骤上的任务损失 的期望值,权重为在该步骤退出的概率 。它同时优化了模型在所有深度的预测能力和退出门的决策。
-
熵正则化: 是退出概率分布 的熵。最大化熵会使 的分布更均匀,防止其过早地坍缩到某一个单一的深度。系数 控制了这个正则化的强度。
变分推断视角: 作者进一步指出,这个损失函数可以被看作是证据下界 (ELBO) 的负值。在这个视角下,退出步骤 是一个潜变量,其后验分布由模型学习 (),而其先验分布 是我们预设的。如果选择一个均匀先验 (),那么 KL 散度 就等价于 。因此,最小化 ELBO 损失就等价于最小化上述的熵正则化损失(相差一个常数)。选择均匀先验意味着我们对计算深度没有预设的偏好,让模型完全根据输入难度来自己学习。
4.2.4. 阶段二:专注的自适应门控训练
在模型主体(LM 参数)经过充分预训练后,作者冻结 LM 参数,只对退出门的参数 进行专门的微调。这个阶段的目标是让退出门的决策更“聪明”,即只有当多一次循环能带来足够大的性能提升时,才选择继续。
-
定义“提升”信号: 作者首先计算从
t-1步到 步,模型在单个样本 上损失的减少量,作为“继续循环”的价值信号: 其中 是样本 在第 步的损失。 表示性能仍在提升。 -
生成理想行为标签: 基于这个价值信号,生成一个“理想”的继续概率 。如果提升量 大于某个阈值 ,则理想行为是继续 ();否则是退出 ()。这通过一个 Sigmoid 函数实现: 其中 是一个较大的斜率,使其成为一个近似的阶跃函数。
-
自适应退出损失: 训练目标是让门控预测的继续概率 () 逼近理想标签 。这通过标准的二元交叉熵损失实现: 总的自适应损失是所有步骤损失的平均。这个训练过程直接教会了退出门如何权衡“多一步计算的成本”与“可能带来的性能收益”。
4.2.5. Ouro 训练流程
下图(原文 Figure 4)展示了 Ouro 模型的端到端训练流程,该流程共使用了 7.7T 词元的数据。
该图像是一个示意图,展示了Ouro模型在训练过程中的不同阶段和策略,包括Warmup、Stable Training和CT Annealing等步骤。图中展示了模型规模的演变,最终形成Ouro-2.6B和Ouro-1.4B模型,并强调了其推理能力。
模型架构: Ouro 采用了标准的 Decoder-only Transformer 架构,使用 RoPE 位置编码和 SwiGLU 激活函数。为了训练稳定性,采用了 RMSNorm 在注意力层和 FFN 层之前。具体配置见下表(原文 Table 2)。
| Model | Parameters | Layers | Hidden Size (dmodel) | Attention | FFN | Pos. Embed. | Vocab Size |
|---|---|---|---|---|---|---|---|
| Ouro 1.4B | 1.4B | 24 | 2048 | MHA | SwiGLU | RoPE | 49,152 |
| Ouro 2.6B | 2.6B | 48 | 2048 | MHA | SwiGLU | RoPE | 49,152 |
训练阶段:
- 阶段 1 (Pre-training): 在 6T 词元的通用网络文本、代码和数学数据上进行预训练。初期使用 8 个循环步骤,但为了稳定性,后期减少到 4 个。Ouro 2.6B 模型是通过“上采样 (upcycling)” 1.4B 模型的 24 个预训练层(复制为 48 层)得到的,这种操作在循环架构下尤其平滑。
- 阶段 2 (CT Annealing): 在 1.4T 词元的高质量数据上进行持续训练,重点增强数学和代码能力,序列长度扩展到 16K。
- 阶段 3 (LongCT): 在 20B 词元的长文本数据上训练,将上下文能力扩展到 64K。
- 阶段 4 (Mid-training): 使用 300B 词元的高质量、多样化的指令微调 (SFT) 数据混合进行“中途训练”,进一步提升模型的高级能力。
- 阶段 5 (Reasoning SFT): 最后,在约 8.3M 个高质量的推理导向型样本上进行监督微调,得到最终的
Ouro-Thinking模型。
5. 实验设置
5.1. 数据集
论文的训练和评估使用了大量多样化的数据集,以确保模型的通用性和在特定领域的专业能力。
训练数据集: 整个训练流程横跨四个阶段,共计使用 7.7T 词元。
- 阶段 1 (Pre-training): 主要由大规模网络文本构成,如
Nemotron-CC(6.3T tokens) 和MAP-CC。为了增强基础能力,还混入了代码数据集OpenCoder和数学数据集MegaMath。 - 阶段 2 (CT Annealing): 引入更高质量的数据,包括
Nemotron-CC的高质量子集、高质量数学数据 (MegaMath-high-quality,Nemotron-CC-Math-v1) 和代码数据 (Nemotron-Code,OpenCoder-Annealing)。 - 阶段 3 (LongCT): 使用
ProLong-64K数据集,专门用于训练模型的长上下文处理能力。 - 阶段 4 (Mid-training & SFT): 混合了超过 20 个开源的 SFT 数据集,以及专门用于数学、代码、科学推理和对话的高质量数据集,如
OpenThoughts3,AceReason-1.1-SFT,OpenCodeReasoning等。
评估数据集: 论文在一系列广泛认可的基准上对模型进行了评估,覆盖了通用知识、推理、数学、代码等多个维度。
- 通用能力:
MMLU,MMLU-Pro,BBH,ARC-C,HellaSwag,Winogrande。 - 数学与代码:
GSM8K,MATH500,HumanEval, ,MBPP, 。 - 高级推理:
AIME 2024/2025(美国数学邀请赛),OlympiadBench(奥赛级别科学问题),GPQA(研究生水平问题),BeyondAIME(超高难度数学题)。 - 安全性:
HEx-PHI,用于评估模型的有害内容生成倾向。 - 忠实性:
Quora Question Pairs,用于检验模型的中间推理步骤是否真正影响最终决策。
5.2. 评估指标
论文中使用了多个标准指标来评估模型性能。
-
Accuracy (准确率):
- 概念定义 (Conceptual Definition): 这是最常见的分类任务指标,衡量模型预测正确的样本占总样本的比例。在多项选择题任务(如 MMLU, ARC-C)中,它代表模型选对正确选项的频率。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
Number of Correct Predictions: 模型输出与真实标签一致的样本数量。Total Number of Predictions: 评估集中的总样本数量。
-
Pass@k:
- 概念定义 (Conceptual Definition): 这是代码生成任务中常用的指标。
Pass@k指的是,对于每个问题,模型生成 个候选代码,只要其中至少有一个能够通过所有单元测试,就认为该问题解答成功。Pass@1是最严格的,要求模型生成的第一个答案就必须是正确的。 - 数学公式 (Mathematical Formula): 该指标没有一个简单的封闭公式,其估计值通常通过蒙特卡洛方法计算。对于一个问题,如果生成 个样本 (),其中有 个是正确的,那么该问题
Pass@k成功率的无偏估计是: - 符号解释 (Symbol Explanation):
- : 为一个问题生成的总样本数。
- : 在 个样本中通过测试的正确样本数。
- : 评估
Pass@k的 值。
- 概念定义 (Conceptual Definition): 这是代码生成任务中常用的指标。
-
ROC AUC (Area Under the Receiver Operating Characteristic Curve):
- 概念定义 (Conceptual Definition): ROC AUC 用于评估二元分类器的性能。ROC 曲线描绘了在不同分类阈值下,真正例率 (True Positive Rate, TPR) 与 假正例率 (False Positive Rate, FPR) 之间的关系。AUC 即曲线下的面积,取值在 0 到 1 之间。AUC 值为 1 表示完美分类器,0.5 表示随机猜测。它衡量的是模型对正负样本进行排序的能力,即模型将正样本预测为正的概率值大于将负样本预测为正的概率值的可能性。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- (真正例率,也称召回率)
- (假正例率)
TP: 真阳性,FP: 假阳性,FN: 假阴性,TN: 真阴性。
-
Harmfulness Score (有害性得分):
- 概念定义 (Conceptual Definition): 在 HEx-PHI 基准中,这是一个由 GPT-4o 作为裁判给出的主观评分,范围从 1 到 5。分数越高,表示模型的回复内容越有害。
- 数学公式 (Mathematical Formula): 无标准化公式,为裁判模型给出的序数评分。
- 符号解释 (Symbol Explanation): N/A。
5.3. 对比基线
论文将 Ouro 模型与一系列当前最先进的 (SOTA) 开源模型进行了比较,这些模型覆盖了不同的参数规模。
-
小尺寸模型 (1B-4B): , , , 。
-
中等尺寸模型 (7B-12B):
Qwen2.5 7B,Llama3.1 8B,Qwen3 8B,Gemma3 12B。 -
推理能力特化模型:
DeepSeek-Distill-Qwen-1.5B/7B。选择这些基线模型具有代表性,因为它们是当前开源社区中性能最强、使用最广泛的模型,能够有力地证明 Ouro 模型在参数效率上的优势。
6. 实验结果与分析
6.1. 核心结果分析
论文的核心论点是 LoopLM 架构能以更少的参数实现与更大模型相媲美的性能,尤其是在推理任务上。实验结果有力地支持了这一论点。
6.1.1. 基础模型性能对比 (Parameter Efficiency)
以下是原文 Table 7 和 Table 8 的结果,展示了 Ouro 1.4B 和 2.6B 基础模型与不同尺寸基线模型的性能对比。为了清晰地展示跨列标题,这里使用 HTML 表格。
Ouro 1.4B 模型对比: 以下是原文 Table 7 的结果:
| Gemma3 1B | Llama3.2 1.2B | Qwen2.5 1.5B | Qwen3 1.7B | Qwen2.5 3B | Llama3.2 3B | Qwen3 4B | Gemma3 4B | Ouro 1.4B R4 | |
|---|---|---|---|---|---|---|---|---|---|
| Architecture | Dense | Dense | Dense | Dense | Dense | Dense | Dense | Dense | LoopLM |
| # Params | 1.0B | 1.0B | 1.5B | 1.7B | 3.0B | 3.0B | 4.0B | 4.0B | 1.4B |
| # Tokens | 2T | 9T | 18T | 36T | 18T | 9T | 36T | 4T | 7.7T |
| General Tasks | |||||||||
| MMLU | 39.85 | 45.46 | 60.99 | 62.46 | 65.62 | 59.69 | 73.19 | 58.37 | 67.35 |
| MMLU-Pro | 11.31 | 11.80 | 29.11 | 37.27 | 37.87 | 33.34 | 51.40 | 34.61 | 48.62 |
| BBH | 30.26 | 30.72 | 43.66 | 53.51 | 55.37 | 39.45 | 70.95 | 66.32 | 71.02 |
| ARC-C | 39.25 | 41.98 | 54.44 | 55.72 | 55.46 | 52.47 | 63.65 | 60.92 | 60.92 |
| HellaSwag | 56.12 | 59.35 | 67.73 | 67.09 | 74.54 | 73.09 | 75.66 | 75.58 | 74.29 |
| Winogrande | 58.72 | 62.75 | 66.77 | 66.30 | 70.17 | 69.14 | 71.19 | 71.07 | 72.30 |
| Math & Coding Tasks | |||||||||
| GSM8K | 2.05 | 7.05 | 60.73 | 70.28 | 74.60 | 67.20 | 72.86 | 68.69 | 78.92 |
| MATH500 | 41.00 | 7.40 | 17.60 | 25.80 | 42.60 | 40.80 | 59.60 | 68.60 | 82.40 |
| HumanEval | 6.70 | 19.50 | 52.40 | 66.50 | 68.90 | 29.90 | 77.40 | 34.80 | 74.40 |
| HumanEval+ | 5.50 | 17.40 | 46.30 | 59.80 | 62.20 | 26.20 | 70.70 | 29.30 | 67.40 |
| MBPP | 12.40 | 35.70 | 60.30 | 68.00 | 63.00 | 50.30 | 78.80 | 60.60 | 73.00 |
| MBPP+ | 10.10 | 29.10 | 50.00 | 58.50 | 54.20 | 39.70 | 65.90 | 51.10 | 62.70 |
Ouro 2.6B 模型对比: 以下是原文 Table 8 的结果:
| Qwen2.5 3B | Llama3.2 3B | Qwen3 4B | Gemma3 4B | Qwen2.5 7B | Llama3.1 8B | Qwen3 8B | Gemma3 12B | Ouro 2.6B R4 | |
|---|---|---|---|---|---|---|---|---|---|
| Architecture | Dense | Dense | Dense | Dense | Dense | Dense | Dense | Dense | LoopLM |
| # Total Params | 3.0B | 3.0B | 4.0B | 4.0B | 7.0B | 8.0B | 8.0B | 12.0B | 2.6B |
| # Trained Tokens | 18T | 9T | 36T | 4T | 18T | 15T | 36T | 12T | 7.7T |
| General Tasks | |||||||||
| MMLU | 65.62 | 59.69 | 73.19 | 58.37 | 74.20 | 73.02 | 76.63 | 72.14 | 74.60 |
| MMLU-Pro | 37.87 | 33.34 | 51.40 | 34.61 | 43.55 | 43.24 | 53.72 | 49.21 | 55.73 |
| BBH | 55.37 | 39.45 | 71.14 | 66.32 | 53.72 | 71.56 | 77.65 | 78.41 | 80.46 |
| ARC-C | 55.46 | 52.47 | 63.65 | 60.75 | 63.65 | 60.75 | 66.10 | 72.44 | 66.40 |
| HellaSwag | 74.54 | 73.09 | 75.66 | 75.58 | 79.98 | 81.97 | 79.60 | 83.68 | 79.69 |
| Winogrande | 70.17 | 69.14 | 71.19 | 71.27 | 76.48 | 77.11 | 76.80 | 77.74 | 75.85 |
| Math & Coding Tasks | |||||||||
| GSM8K | 74.60 | 67.20 | 72.86 | 68.69 | 81.50 | 78.17 | 83.09 | 77.18 | 81.58 |
| MATH500 | 42.60 | 40.80 | 59.60 | 68.60 | 61.20 | 52.90 | 62.30 | 83.20 | 90.85 |
| HumanEval | 68.90 | 29.90 | 77.70 | 34.80 | 79.30 | 38.40 | 84.80 | 46.30 | 78.70 |
| HumanEval+ | 62.20 | 26.20 | 70.70 | 29.30 | 70.60 | 31.10 | 75.30 | 37.20 | 70.70 |
| MBPP | 63.00 | 50.30 | 78.80 | 60.60 | 73.80 | 62.40 | 79.00 | 73.50 | 80.40 |
| MBPP+ | 54.20 | 39.70 | 65.90 | 51.10 | 63.50 | 51.60 | 67.90 | 66.10 | 66.60 |
分析:
- Ouro 1.4B (使用4次循环) 的性能全面超越了同等参数规模的模型,并与 3B-4B 规模的模型(如 Qwen3-4B)形成了强有力的竞争。特别是在需要多步推理的数学任务上,如
GSM8K(78.92 vs 72.86) 和MATH500(82.40 vs 59.60),Ouro 1.4B 甚至显著优于 4B 参数的对手。 - Ouro 2.6B 的表现更为惊人,其在多个推理密集型基准上超越了 8B 甚至 12B 的模型。例如,在
MMLU-Pro(55.73 vs 53.72 for Qwen3-8B)、BBH(80.46 vs 77.65 for Qwen3-8B) 和MATH500(90.85 vs 83.20 for Gemma3-12B) 上,Ouro 2.6B 均取得了领先。 - 这些结果强有力地证明了 LoopLM 架构的参数效率优势。它表明,通过在潜空间进行迭代计算,一个小模型可以达到或超过比它大几倍的传统模型的推理能力。
6.1.2. 高级推理模型性能 (Ouro-Thinking)
在经过专门的推理微调 (SFT) 后,Ouro-Thinking 模型在极具挑战性的数学和科学竞赛级基准上表现出色。下图(原文 Figure 2)和下表(原文 Table 9)展示了其性能。
该图像是一个图表,展示了Ouro系列模型在多项先进推理基准测试(如AIME24, AIME25, Olympiadbench等)中的表现,与多种基线模型进行了比较。Ouro-1.4B和Ouro-2.6B在多个数据集上的得分表现优于或接近其他较大模型,提供了有关推理能力的有价值洞见。
以下是原文 Table 9 的结果:
| Model | AIME24 | AIME25 | Olympiad bench | Beyond AIME | HLE | Super GPQA | GPQA | ||
|---|---|---|---|---|---|---|---|---|---|
| pass@1 | pass@10 | pass@1 | pass@10 | ||||||
| Ouro-1.4B-Thinking-R4 | 65.0 | 83.3 | 46.3 | 73.3 | 71.6 | 34.0 | 5.21 | 47.4 | 45.5 |
| Ouro-2.6B-Thinking-R4 | 64.7 | 90.0 | 50.3 | 76.7 | 76.4 | 39.0 | 5.58 | 53.7 | 52.7 |
| --- | |||||||||
| Qwen3-1.7B | 32.0 | 55.6 | 22.0 | 33.3 | 56.4 | 15.0 | 4.13 | 35.9 | 34.0 |
| Qwen3-4B | 61.3 | 75.0 | 51.3 | 63.3 | 73.2 | 31.0 | 5.21 | 51.9 | 54.5 |
| Qwen3-8B | 73.0 | 86.7 | 66.7 | 81.3 | 75.3 | 38.0 | 2.22 | 48.0 | 59.1 |
| --- | |||||||||
| Deepseek-Distill-Qwen-1.5B | 29.6 | 66.7 | 23.0 | 43.33 | 56.44 | 9.0 | 4.2 | 26.5 | 33.2 |
| Deepseek-Distill-Qwen-7B | 57.3 | 83.3 | 36.0 | 73.3 | 72.0 | 30.0 | 5.14 | 46.6 | 51.0 |
分析:
- Ouro-1.4B-Thinking 的性能接近甚至超过了 Qwen3-4B,例如在
AIME 2024(65.0 vs 61.3) 和BeyondAIME(34.0 vs 31.0) 上。 - Ouro-2.6B-Thinking 的性能与强大的 Qwen3-8B 模型相当,在
OlympiadBench(76.4 vs 75.3) 和BeyondAIME(39.0 vs 38.0) 上取得了更高的分数。 - 这再次验证了循环计算架构在需要深度、复杂推理的任务上的巨大潜力。
6.1.3. 性能与循环深度的关系
论文研究了性能如何随着循环步数的变化而变化,包括外推 (extrapolation)到比训练时()更多的步数。
以下是原文 Table 12 和 Table 13 的结果:
| Benchmark | T=1 | T=2 | T=3 | T=4 | T=5 | T=6 | T=7 | T=8 |
|---|---|---|---|---|---|---|---|---|
| OlympiadBench | 2.22 | 59.70 | 70.67 | 71.55 | 72.30 | 69.48 | 69.04 | 66.81 |
| SuperGPQA | 2.03 | 33.07 | 44.50 | 47.37 | 48.73 | 46.15 | 45.29 | 42.88 |
| AIME 2024 | 0.00 | 37.33 | 62.33 | 65.00 | 60.67 | 50.67 | 42.33 | 38.67 |
| AIME 2025 | 0.33 | 25.00 | 43.33 | 46.30 | 47.00 | 43.00 | 41.00 | 38.00 |
| Benchmark | T=1 | T=2 | T=3 | T=4 | T=5 | T=6 | T=7 | T=8 |
|---|---|---|---|---|---|---|---|---|
| OlympiadBench | 18.96 | 68.59 | 75.56 | 76.44 | 71.85 | 69.19 | 57.63 | 39.26 |
| SuperGPQA | 15.66 | 48.58 | 56.70 | 53.68 | 56.45 | 55.44 | 53.32 | 46.84 |
| AIME 2024 | 3.00 | 52.00 | 70.33 | 64.70 | 57.00 | 56.33 | 49.67 | 39.00 |
| AIME 2025 | 2.00 | 40.67 | 50.67 | 50.30 | 49.33 | 46.00 | 38.00 | 24.33 |
分析:
- 迭代是必须的: 两个模型在 (即不循环)时性能极差,证明了迭代计算对于解决复杂推理任务是必不可少的。
- 性能峰值: 性能通常在训练时设定的最大深度()附近达到峰值。有趣的是,1.4B 模型在某些任务上于 达到最佳,表现出一定的外推能力。2.6B 模型则倾向于在 或 达到峰值。
- 外推性能下降: 当循环次数远超训练深度时(如 ),性能开始下降。这表明模型的能力是针对其训练过的计算深度进行优化的,无限增加循环次数并不能无限提升性能。
6.1.4. 自适应计算与效率分析
论文评估了不同的早退策略在 MMLU 基准上的表现,结果如下图(原文 Figure 5)所示。

分析:
- 自适应策略的优越性: 所有自适应策略(Ponder gate, Hidden state diff)都显著优于静态退出(即固定循环次数)的基线。例如,在平均循环 2.5 次的计算预算下,自适应门控策略能达到 64-66% 的准确率,而静态循环 2 次只能达到约 60%,循环 3 次则需要更高的计算成本。
- 专门训练的效果: 经过阶段二专注训练的门控(橙色菱形)在所有计算预算下都取得了最佳的准确率-效率权衡。这证明了论文提出的基于任务损失改进信号的训练方法是有效的。
- 启发式方法的有效性: 基于“隐藏状态变化幅度”的启发式方法(绿色方形)表现也相当不错,说明表示的收敛性是计算完成的一个良好指标。但这依然略逊于学习到的门控,表明显式地监督学习退出决策能捕捉更优的策略。
6.2. 消融实验/参数分析
6.2.1. 优势来源:知识操纵 vs. 知识容量
这是论文中最具洞察力的实验之一。作者设计了两个合成任务来解耦模型的能力。
-
Capo 任务 (知识容量测试): 模型被训练记忆大量合成的个人简介。结果如下图左侧(原文 Figure 6, Left)所示,相同参数量的 LoopLM 和标准 Transformer 能够记忆的知识量(以 bits/parameter 衡量)几乎完全相同。这表明循环本身并不增加模型的原始知识存储能力。
-
Mano & 多跳问答任务 (知识操纵测试):
-
Mano任务要求模型执行复杂的、树状结构的模块化算术。 -
多跳问答任务要求模型组合多个事实进行推理。 -
结果如下图右侧(原文 Figure 6, Right)和 Figure 7 所示,在这些需要组合和运用知识的任务上,LoopLM 的性能远超同等参数量、甚至同等计算量 (iso-FLOP) 的标准 Transformer。
-
此外,Figure 7 显示 LoopLM 学习多跳推理的样本效率 (sample efficiency) 更高,即用更少的训练样本就能学会任务。
该图像是一个散点图,展示了知识位数与参数数量的关系。图中不同颜色和形状的点分别代表不同参数数量的模型,并且显示了具有循环结构(loop)和非循环结构的模型之间的性能对比。趋势线表明,循环模型在同等参数下具有更高的知识表达能力。
该图像是图表,展示了不同循环次数的 LoopLM 模型在多跳 QA 任务中的性能表现。左侧图表显示了在不同唯一训练样本数量下的准确率,右侧图表展示了在训练步骤数量变化时的准确率。结果表明,随着循环次数的增加,模型在样本效率和训练步骤上的表现均有所提升。结论: 这些实验雄辩地证明了 LoopLM 的优势来源于其架构对知识操纵和组合推理任务的归纳偏置 (inductive bias)。循环结构天然地适合执行迭代式的、算法性的计算流程。
-
6.2.2. 安全性与忠实性分析
-
安全性 (Safety): 如下图左侧(原文 Figure 8a)所示,在 HEx-PHI 安全基准上,随着循环次数的增加,模型的有害性得分单调下降,有害率也随之降低。这一趋势甚至在外推到 的情况下依然成立。这揭示了一个惊人的特性:即使任务性能在外推时下降,模型的安全对齐性却在持续增强。迭代思考似乎能让模型更审慎。
-
忠实性 (Faithfulness): 论文通过 Quora Question Pairs 数据集检验中间步骤的可靠性。如下图右侧(原文 Figure 9)所示,LoopLM 的中间步骤预测会随着循环的深入而不断变化(一致性矩阵的非对角线值远低于 100%)。这与标准 CoT 模型在思考前就已“内定”答案的现象形成鲜明对比。这表明 LoopLM 的潜空间迭代是一个真正的、有因果关系的推理过程,而非对最终答案的事后解释。
该图像是图表,展示了Ouro 1.4B和2.6B模型在HEx-PHI评估中的有害性得分和有害性率随着递归步骤的变化。这些数据表明,Ouro模型在区分良性和有害提示方面表现出色,有助于增强安全性。
该图像是一个展示 ROC AUC 与层级索引关系的图表,包含 Qwen3-4B-Instruct、Qwen3-4B-Thinking、Ouro 1.4B(R2、R3、R4)模型的数据。图中用不同颜色的曲线表示各模型的性能,右侧为热图,显示不同轮次间相互一致性。竖直虚线标记循环边界。
7. 总结与思考
7.1. 结论总结
本论文成功地展示了循环语言模型 (LoopLM) 作为一种实现高参数效率和强大推理能力的可行路径。其主要结论可以总结为:
- 卓越的参数效率: 通过在预训练中引入潜空间迭代计算,小参数的 Ouro 模型(1.4B/2.6B)能够在广泛的基准测试中,达到或超过参数量大 2-3 倍的先进模型(4B-12B)的性能。
- 优势源于知识操纵: LoopLM 的性能优势并非来自更大的知识容量,而是其循环架构带来的更强的知识操纵和组合推理能力,使其天然地适合执行算法性和多步推理任务。
- 有效的自适应计算: 论文提出的两阶段训练策略(熵正则化+专注门控训练)能有效学习一个自适应退出门,让模型根据输入难度动态分配计算资源,实现性能与效率的最佳平衡。
- 更高的安全性与忠实性: LoopLM 的迭代过程不仅能产生与最终答案因果关系更强的“忠实”推理轨迹,还能随着循环深度的增加而提升模型的安全对齐性。
- 新的扩展维度: 研究将“循环深度”确立为继模型参数和数据规模之后的第三个关键扩展轴,为未来大模型的发展,特别是在数据和算力受限的背景下,指明了一个富有前景的方向。
7.2. 局限性与未来工作
论文同样坦诚地指出了当前工作的一些局限性,并展望了未来的研究方向。
-
局限性:
- 强化学习对齐困难: 作者尝试使用强化学习(RLVR)对模型进行对齐,但并未取得显著成功。主要原因是现有的高效 RL 推理框架(如 vLLM/SGLang)都是为固定计算图设计的,无法很好地支持 LoopLM 这种动态计算深度的架构,导致训练和推理之间出现策略不匹配 (off-policy mismatch) 的问题。
- 外推性能有限: 虽然模型在安全等某些方面表现出良好的外推能力,但在多数任务上,当循环次数远超训练深度时,性能会下降。如何让模型在更深的未见过的循环深度上也能保持或提升性能,仍是一个开放问题。
-
未来工作:
- 开发支持动态计算的 RL 基础设施: 为 LoopLM 这类架构量身定制高效的强化学习训练和推理系统是未来的一个关键工程挑战。
- 增强深度外推能力: 研究如何训练模型,使其能够在推理时泛化到更深的计算层次。
- 探索更复杂的循环机制: 当前模型采用的是简单的层堆栈重复,未来可以探索更复杂的机制,如混合循环(Mixture-of-Recursions),在不同循环步骤使用不同的计算模块。
7.3. 个人启发与批判
这篇论文给我带来了深刻的启发,也引发了一些批判性思考。
-
启发:
- 从“堆参数”到“堆计算”的转变: 这篇论文最核心的启发是,模型能力的提升不一定非要通过增加参数。通过让模型“多想一会儿”(增加迭代计算),同样可以达到甚至超越更大模型的效果。这为硬件资源有限的研究者和开发者提供了一条“以时间换空间”的有效路径。
- 推理能力的本质: 论文关于“知识容量”与“知识操纵”的区分非常精彩。它揭示了当前 LLM 面临的挑战可能不只是“知道得不够多”,更是“想得不够明白”。LoopLM 的成功表明,优化模型的计算过程(即如何“想”)可能比单纯灌输知识(如何“记”)更为关键。
- 可解释性与忠实性的新途径: 潜空间推理为我们提供了一个观察模型“心智活动”的窗口。虽然潜空间状态本身难以解释,但通过追踪其演变以及在每一步的预测变化,我们可以获得比分析 CoT 文本更接近模型真实决策过程的线索,这对于构建更可信、更可靠的 AI 系统至关重要。
-
批判与思考:
-
推理延迟问题: LoopLM 的核心是以时间换性能。在推理时,多次循环必然会增加单个词元生成的延迟。虽然论文通过 KV 缓存共享等方法优化了内存,但对于延迟敏感的应用(如实时对话),这种架构是否实用仍需进一步评估。自适应退出机制虽然能缓解这一问题,但在最坏情况下(处理复杂问题时),延迟依然是其固有短板。
-
训练稳定性挑战: 作者提到,在训练初期使用 8 个循环步骤时遇到了不稳定的问题,最终不得不减少到 4 步。这表明循环架构的梯度流比标准 Transformer 更复杂,优化难度更大。虽然作者通过调整批大小、学习率等方式解决了问题,但这暗示着将 LoopLM 扩展到更深的循环深度(例如 16 或 32 次循环)可能会面临更大的训练挑战。
-
“知识操纵”能力的泛化性: 论文中的合成实验设计得非常巧妙,但这些任务(如模块化算术、合成多跳问答)都具有高度的结构性和算法性。LoopLM 在这些任务上的优势是否能完全泛化到更开放、更模糊、更依赖常识的真实世界推理任务中,还需要在更广泛的场景下进行验证。
-
架构的复杂性: 相比于简单的 Transformer 堆叠,LoopLM 引入了循环、退出门、两阶段训练等更复杂的组件。这无疑增加了实现和调试的难度,可能会成为其被广泛采纳的一个障碍。
总而言之,这篇论文提出了一种极具前瞻性的模型架构,并用扎实的实验和深入的分析证明了其巨大潜力。它不仅提供了一个高性能、高效率的开源模型,更重要的是,它为整个领域思考“如何构建更会思考的 AI”开辟了一条激动人心的新道路。尽管还存在一些工程和理论上的挑战,但 LoopLM 所代表的“内置推理”范式,很可能成为后扩展时代(post-scaling era)大模型发展的关键方向之一。
-
相似论文推荐
基于向量语义检索推荐的相关论文。