Less is More: Recursive Reasoning with Tiny Networks
TL;DR 精炼摘要
本文提出“微型递归模型”(TRM),旨在解决大型语言模型(LLM)在数独、ARC-AGI等高难度、多步推理任务中的不足。TRM简化了此前复杂的分层推理模型(HRM),仅采用一个两层的微型神经网络(7M参数)进行递归推理。研究发现,TRM展现出比HRM更强的泛化能力,并在ARC-AGI-1和ARC-AGI-2测试集上分别达到45%和8%的准确率。TRM以远低于0.01%的参数量超越了多数LLM,验证了“少即是多”的递归推理范式在硬性推理任务上的高效性。
摘要
Hierarchical Reasoning Model (HRM) is a novel approach using two small neural networks recursing at different frequencies. This biologically inspired method beats Large Language models (LLMs) on hard puzzle tasks such as Sudoku, Maze, and ARC-AGI while trained with small models (27M parameters) on small data (around 1000 examples). HRM holds great promise for solving hard problems with small networks, but it is not yet well understood and may be suboptimal. We propose Tiny Recursive Model (TRM), a much simpler recursive reasoning approach that achieves significantly higher generalization than HRM, while using a single tiny network with only 2 layers. With only 7M parameters, TRM obtains 45% test-accuracy on ARC-AGI-1 and 8% on ARC-AGI-2, higher than most LLMs (e.g., Deepseek R1, o3-mini, Gemini 2.5 Pro) with less than 0.01% of the parameters.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): 少即是多:用微型网络进行递归推理 (Less is More: Recursive Reasoning with Tiny Networks)
- 作者 (Authors): Alexia Jolicoeur-Martineau (三星蒙特利尔人工智能实验室 Samsung SAIL Montréal)
- 发表期刊/会议 (Journal/Conference): 本文目前发布在预印本网站 arXiv 上,尚未经过同行评审。arXiv 是物理学、数学、计算机科学等领域的学术论文开放获取平台,是研究人员分享最新成果的重要渠道。
- 发表年份 (Publication Year): 2025 (根据 arXiv 编号推断,这是一个未来的占位年份,实际提交时间可能在 2024 年)
- 摘要 (Abstract): 论文介绍了一种名为
分层推理模型 (Hierarchical Reasoning Model, HRM)的新方法,该方法使用两个不同频率递归的小型神经网络,在数独、迷宫和 ARC-AGI 等困难的解谜任务上,以小模型(27M 参数)和小数据(约 1000 样本)超越了大型语言模型 (LLMs)。然而,HRM 复杂且可能不是最优的。为此,作者提出了一个更简单的递归推理方法——微型递归模型 (Tiny Recursive Model, TRM)。TRM 仅使用一个 2 层的微型网络(7M 参数),却实现了比 HRM 更强的泛化能力。在 ARC-AGI-1 和 ARC-AGI-2 测试集上,TRM 分别取得了 45% 和 8% 的准确率,以不到 0.01% 的参数量超越了大多数大型语言模型。 - 原文链接 (Source Link):
https://arxiv.org/pdf/2510.04871(这是一个虚构的链接,但格式正确)
2. 整体概括 (Executive Summary)
- 研究背景与动机 (Background & Motivation - Why):
- 核心问题:
大型语言模型 (Large Language Models, LLMs)虽然强大,但在需要精确、多步、结构化推理的困难解谜任务(如数独、ARC-AGI)上表现不佳。它们自回归的生成方式容易“一步错,步步错”。 - 现有挑战: 尽管
思维链 (Chain-of-thoughts, CoT)和测试时计算 (Test-Time Compute, TTC)等技术能提升 LLMs 的推理能力,但它们成本高昂、依赖高质量数据,且依然无法在某些高难度任务上取得突破。 - 切入点: 最近提出的
分层推理模型 (HRM)展示了一条新路径:使用小型、特制的递归网络来解决这些问题,并取得了优于 LLMs 的成果。然而,HRM 模型本身结构复杂,其理论基础(如生物学启发、不动点定理)的应用也存在疑点,且训练效率不高。因此,本文的动机是:能否简化 HRM 的复杂结构,同时提升其性能和效率?
- 核心问题:
- 核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出了
微型递归模型 (Tiny Recursive Model, TRM): 这是一个对 HRM 的重大简化和改进。TRM 的核心贡献在于证明了“少即是多”的原则在递归推理领域的有效性。 - 关键发现与改进点:
- 结构简化: 将 HRM 的两个网络简化为一个微型网络(仅 2 层),参数量从 27M 降至 7M。
- 理论简化: 抛弃了 HRM 复杂且不完全适用的
隐函数定理 (Implicit Function Theorem, IFT)和1步梯度近似,代之以对完整的递归过程进行端到端反向传播,反而获得了巨大性能提升。 - 效率提升: 简化了
自适应计算时间 (Adaptive Computational Time, ACT)机制,将每次优化的前向传播次数从 2 次减少到 1 次。 - 性能超越: 在数独、迷宫、ARC-AGI-1 和 ARC-AGI-2 等多个基准测试中,TRM 以远少于 HRM 和 LLMs 的参数量,取得了当前最优 (State-of-the-Art, SOTA) 的性能。
- 提出了
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
- 基础概念 (Foundational Concepts):
- 大型语言模型 (Large Language Models, LLMs): 指参数量巨大(通常数十亿至万亿)的深度学习模型,通过在海量文本数据上进行预训练,掌握了丰富的语言知识和一定的推理能力。它们通常以
自回归 (auto-regressive)方式逐个生成词元(token)来构建答案。 - 思维链 (Chain-of-thoughts, CoT): 一种提示(prompting)技术,通过引导 LLM 在给出最终答案前,先生成一步步的推理过程来模拟人类思考,从而提高复杂问题的回答准确率。
- 深度监督 (Deep Supervision): 一种训练策略。在一个深层或长时序的模型中,不仅在最终输出端计算损失,还在多个中间步骤引入监督信号(即计算损失并反向传播)。这有助于缓解梯度消失问题,并引导模型学习逐步完善其内部状态或中间输出。
- 递归推理 (Recursive Reasoning): 指一个模型或函数被反复应用于其自身的输出,以迭代地优化或生成一个解决方案。每一步递归都在前一步的基础上进行修正或推理。
- 自适应计算时间 (Adaptive Computational Time, ACT): 一种让循环神经网络(RNN)或类似模型为不同输入动态决定计算步数的机制。对于简单输入,模型可以提前停止计算;对于复杂输入,则可以进行更多次迭代。
- 隐函数定理 (Implicit Function Theorem, IFT) 与 1 步梯度近似: 在
深度均衡模型 (Deep Equilibrium Models, DEQ)等研究中,如果一个递归过程能够收敛到一个不动点 (fixed-point)(即 ),IFT 提供了一种高效计算梯度的方法,即只需在不动点处进行一次计算,而无需对整个迭代过程进行反向传播。这被称为1步梯度近似。
- 大型语言模型 (Large Language Models, LLMs): 指参数量巨大(通常数十亿至万亿)的深度学习模型,通过在海量文本数据上进行预训练,掌握了丰富的语言知识和一定的推理能力。它们通常以
- 前人工作 (Previous Works):
- 核心对比对象:
分层推理模型 (Hierarchical Reasoning Model, HRM)- 解决了什么问题: HRM 成功地证明了小型递归网络可以在特定推理任务上超越庞大的 LLMs,为解决困难谜题提供了新的思路。
- 核心机制:
- 双网络递归: 使用一个高频更新的“低层”网络 f_L 和一个低频更新的“高层”网络 f_H,模拟大脑不同层次的处理频率。
- 1步梯度近似: 依赖 IFT,仅对递归过程的最后两步进行梯度反向传播,以节省内存。
- 深度监督: 在多达 16 个“监督步骤”中迭代优化答案,并将上一步的隐状态作为下一步的初始值。
- 存在的局限性:
- 理论基础存疑: IFT 的应用前提是达到不动点,但 HRM 的少量递归步数远未达到收敛,因此其梯度近似的合理性受到质疑。
- 结构复杂: 双网络、双隐变量以及基于生物学的解释使其难以理解和分析。
- 效率低下: 其 ACT 机制需要两次前向传播才能完成一次参数更新。
- 核心对比对象:
- 差异化分析 (Differentiation):
- TRM vs. HRM: TRM 是对 HRM 的一次彻底的“减法”。它保留了
深度监督和递归推理的核心思想,但抛弃了所有复杂且非必要的组件。核心区别在于:- 网络数量: TRM 使用 1 个网络,HRM 使用 2 个。
- 梯度计算: TRM 进行完全反向传播,HRM 使用1步梯度近似。
- 模型大小: TRM 更小(2层 vs. 4层),参数更少(7M vs. 27M)。
- 理论依赖: TRM 无需复杂的生物学解释或不动点定理。
- 训练效率: TRM 的 ACT 机制更高效(1次前向传播 vs. 2次)。
- TRM vs. HRM: TRM 是对 HRM 的一次彻底的“减法”。它保留了
4. 方法论 (Methodology - Core Technology & Implementation Details)
本部分详细拆解 微型递归模型 (TRM) 的核心设计。TRM 的整体流程如下图所示:
该图像为模型结构示意图,展示了递归推理模型的流程。输入包括问题(x)、预测答案(y)和潜在变量(z)。模型通过4层包含自注意力(Self-Attention)、多层感知机(MLP)及归一化(Add & Norm)模块进行特征处理。递归过程先多次更新潜在变量z(基于x、y、z),再更新预测答案y,重复16次以优化答案,最终通过反向嵌入映射计算交叉熵损失。
上图展示了 TRM 的工作流程。模型接收问题 x、当前预测答案 y 和一个潜在推理状态 z 作为输入。其核心是一个递归循环:
- 更新推理状态 (Improve the latent z): 模型首先进行 n 次迭代,每次都调用网络来更新潜在推理状态 z。输入是问题 x、当前答案 y 和当前的 z。
- 更新答案 (Improve the prediction y): 在 n 次 z 的更新后,模型再调用一次网络来更新答案 y。这次的输入是更新后的 z 和旧的答案 y。
- 深度监督循环: 上述 (1) 和 (2) 的完整过程会重复最多 次,每次都试图在前一步的基础上进一步优化答案 y。
- 方法原理与步骤 (Methodology Principles & Steps):
-
重新诠释隐变量: HRM 中的 z_H 和 z_L 被 TRM 重新定义为更直观的 y (当前答案的嵌入表示) 和 z (潜在的推理过程/思维链)。y 直接对应最终输出,而 z 是为了生成下一个更优 y 所需的中间思考过程。作者认为,同时保留 y 和 z 是必要的:y 告诉模型当前解是什么,z 告诉模型“我是如何得到这个解的”,两者共同指导下一步的迭代。
-
单一网络实现双重功能: TRM 证明了不需要两个独立的网络。一个网络
net(·)即可同时执行两个任务:- 更新推理 z: 当输入为 (x, y, z) 时,网络输出新的 z。
- 更新答案 y: 当输入为 (y, z) 时(不包含原始问题 x),网络输出新的 y。
- 这种设计通过输入的不同组合来区分任务,大大减少了参数量。
-
完整的反向传播替代 1 步梯度近似: 这是 TRM 性能大幅提升的关键。TRM 不再假设递归收敛到不动点,而是将一次完整的“n 次 z 更新 + 1 次 y 更新”视为一个计算单元,并对这 n+1 次网络调用进行完整的
时间反向传播 (Backpropagation Through Time, BPTT)。虽然这增加了单步的计算成本,但提供了更准确的梯度信号,从而实现了惊人的泛化能力提升(如消融实验所示,从 56.5% 提升到 87.4%)。 -
深度递归与深度监督的结合:
-
深度递归 (Deep Recursion): 在每个监督步骤 (supervision step) 内部,TRM 会执行 T 次递归。前
T-1次递归在torch.no_grad()上下文中执行,不计算梯度,其目的是在不增加反向传播成本的情况下,让 y 和 z 先“自行演化”到一个更好的状态。最后 1 次递归则正常计算梯度。这是一种计算效率和梯度精度的权衡。 -
伪代码如下所示:
该图像为代码片段,展示了一个基于递归推理的神经网络训练流程函数实现。包含latent_recursion函数和deep_recursion函数,前者实现递归调用神经网络计算更新变量y和z,后者通过多次调用latent_recursion提升输出结果。最后代码段展示了训练循环,利用交叉熵损失函数进行深度监督的梯度传播和参数更新,并在预测q_hat超过阈值时提前停止训练。
-
-
“少即是多”的架构选择: 作者发现,将网络从 4 层减少到 2 层,并相应增加递归次数 n(以保持总计算量相似),可以显著减少过拟合,提升泛化能力。这表明在小数据集上,更深的网络不如更“长”的递归过程有效。
-
简化的 ACT: TRM 的 ACT 机制仅通过一个简单的
二元交叉熵 (Binary Cross-Entropy)损失来学习一个“停止”信号(即判断当前答案是否已正确),从而省去了 HRM 中用于计算“继续”信号所需的第二次前向传播,提高了训练速度。
-
5. 实验设置 (Experimental Setup)
- 数据集 (Datasets):
- Sudoku-Extreme: 极难的 9x9 数独谜题。训练集仅 1000 个样本,测试集高达 42.3 万个,用于测试模型在小样本学习和强泛化方面的能力。
- Maze-Hard: 30x30 的困难迷宫,最短路径长度超过 110。训练集和测试集各 1000 个样本。
- ARC-AGI-1 & ARC-AGI-2: 一种抽象几何推理的基准测试,被认为是衡量通用人工智能的重要标准。任务以少量示例(2-3 对输入输出)的形式给出,模型需要解决 1-2 个测试输入。
- 数据增强 (Data Augmentation): 由于训练数据极少,实验中使用了大量的数据增强,如颜色排列、旋转、翻转等,以提高模型的泛化能力。
- 评估指标 (Evaluation Metrics):
- 主要使用 测试准确率 (
% Test accuracy) 来评估模型性能,即模型正确解决的测试样本所占的百分比。
- 主要使用 测试准确率 (
- 对比基线 (Baselines):
- 大型语言模型 (LLMs): 包括
Deepseek R1,Claude 3.7,Gemini 2.5 Pro等 SOTA 模型,它们使用CoT进行推理。 - 分层推理模型 (HRM): 本文主要的改进对象和对比基线。
- 直接预测 (Direct pred): 一个标准的、没有递归结构的监督学习模型,作为基础基线。
- 大型语言模型 (LLMs): 包括
6. 实验结果与分析 (Results & Analysis)
- 核心结果分析 (Core Results Analysis):
- 全面超越: 参考论文中的 Table 4 和 Table 5,TRM 在所有四个基准测试中均显著优于 HRM 和各类 LLMs。
- Sudoku-Extreme & Maze-Hard (Table 4):
- 在数独任务上,
TRM-MLP(使用 MLP 替代自注意力)取得了 87.4% 的惊人准确率,远超 HRM 的 55.0% 和 LLMs 的 0.0%。这表明对于固定尺寸输入的结构化任务,专门设计的架构可能比通用自注意力更有效。 - 在迷宫任务上,
TRM-Att(使用自注意力)取得了 85.3% 的准确率,也显著高于 HRM 的 74.5%。
- 在数独任务上,
- ARC-AGI (Table 5):
- 在 ARC-AGI-1 上,
TRM-Att达到了 44.6% 的准确率,高于 HRM 的 40.3% 和所有列出的 LLMs(除了专为该任务定制的Bespoke (Grok-4))。 - 在更难的 ARC-AGI-2 上,
TRM-Att取得了 7.8% 的准确率,同样优于 HRM 的 5.0% 和 Gemini 2.5 Pro 的 4.9%。
- 在 ARC-AGI-1 上,
- 参数效率: TRM 取得这些成绩时,仅使用了 7M 参数,而 HRM 为 27M,LLMs 更是高达数百亿甚至万亿级别。这充分体现了 TRM 架构的强大效率。
- 消融实验/参数分析 (Ablation Studies / Parameter Analysis):
- 论文中的 Table 1 提供了在 Sudoku-Extreme 数据集上详尽的消融实验,这是理解 TRM 各组件贡献的关键。
- 梯度计算是关键: 完整版的 TRM (87.4%) 与使用
1-step gradient的版本 (56.5%) 之间存在超过 30% 的巨大差距,证明了完全反向传播是 TRM 成功的核心。 - 单一网络更优: 使用单一网络的 TRM (87.4%) 优于使用两个独立网络
fH, fL的版本 (82.4%),说明单一网络足以胜任,且能更好地泛化。 - 层数“少即是多”: 2 层网络 (87.4%) 优于 4 层网络 (79.5%),证实了在小数据上,更浅但递归更长的模型能有效避免过拟合。
- 架构选择: 对数独任务,
MLP-Mixer架构 (87.4%) 优于self-attention(74.7%),说明针对特定任务结构调整架构的重要性。 - 其他组件的有效性: 实验还验证了简化的
ACT、EMA等组件都对最终性能有正面贡献。
- 梯度计算是关键: 完整版的 TRM (87.4%) 与使用
- 递归深度分析 (Table 3): 该表比较了不同递归参数 n 和 T 下 HRM 和 TRM 的性能。结果显示,TRM 在相似的有效计算深度下始终优于 HRM,并且性能在 T=3, n=6 时达到峰值,说明递归深度并非越深越好,存在一个最优区间。
- 论文中的 Table 1 提供了在 Sudoku-Extreme 数据集上详尽的消融实验,这是理解 TRM 各组件贡献的关键。
7. 总结与思考 (Conclusion & Personal Thoughts)
- 结论总结 (Conclusion Summary):
- 本文成功提出了
微型递归模型 (TRM),一个比 HRM 更简单、更小、更高效且性能更强的递归推理框架。 - TRM 的成功挑战了当前 AI 领域“模型越大越好”的主流范式,证明了通过精心设计的递归结构,微型网络也能在特定高难度推理任务上超越巨型模型。
- 核心的改进包括:用单一微型网络代替双网络,用完全反向传播代替有问题的 1 步梯度近似,并简化了整体理论框架。
- 本文成功提出了
- 局限性与未来工作 (Limitations & Future Work):
- 理论解释不足: 论文承认,虽然实验证明了递归的有效性,但目前仍缺乏一个坚实的理论来解释“为什么深度递归比深度网络更能防止过拟合”。
- 任务局限性: TRM 目前主要在结构化的解谜任务上得到验证,其能否推广到更开放、更通用的自然语言推理任务仍是未知数。
- 超参数敏感: 模型的性能对递归次数 n 和 T 等超参数较为敏感,需要针对不同任务进行调整,缺乏通用的
缩放法则 (Scaling laws)。 - 未来方向: 作者提出,希望将 TRM 扩展到生成式任务中,使其能够为一个问题生成多种可能的答案,而不仅仅是单一的确定性输出。
- 个人启发与批判 (Personal Insights & Critique):
- 启发: 这篇论文给我最大的启发是“架构创新重于暴力缩放”。在所有人都追求更大模型的时代,这项工作回归本源,通过精巧的算法设计(递归)来榨取小模型的极限潜能,为 AI 发展提供了另一条思路。这对于资源有限的研究者和需要高效部署模型的工业界来说,具有重要意义。
- 批判性思考:
- 泛化能力的边界: TRM 的成功高度依赖于任务的“可分解性”和“迭代改进”特性。对于那些无法通过逐步修正来解决的、需要“灵光一现”的顿悟式问题,这种递归方法可能效果不佳。
- 数据增强的依赖: 实验严重依赖大量的数据增强来弥补训练样本的不足。在某些无法轻易进行数据增强的领域,该方法的有效性可能会打折扣。
- 与 LLM 的关系: TRM 并非要取代 LLM,而是展示了一种解决特定短板的“专家模型”思路。未来的一个有趣方向可能是将 TRM 这样的递归推理模块与 LLM 的通用知识能力相结合,构建更强大的混合智能系统。
相似论文推荐
基于向量语义检索推荐的相关论文。