Detailed balance in large language model-driven agents
TL;DR 精炼摘要
大语言模型驱动的智能体在解决复杂问题上表现出色,然而缺乏宏观动力学的理论框架。本文提出基于最小作用量原理的方法,测量生成状态之间的转移概率,发现细致平衡现象,表明生成过程依赖潜在势函数而非通用规则。这是首次在LLM动态中发现的宏观物理法则,旨在提升AI智能体研究的科学性。
摘要
Large language model (LLM)-driven agents are emerging as a powerful new paradigm for solving complex problems. Despite the empirical success of these practices, a theoretical framework to understand and unify their macroscopic dynamics remains lacking. This Letter proposes a method based on the least action principle to estimate the underlying generative directionality of LLMs embedded within agents. By experimentally measuring the transition probabilities between LLM-generated states, we statistically discover a detailed balance in LLM-generated transitions, indicating that LLM generation may not be achieved by generally learning rule sets and strategies, but rather by implicitly learning a class of underlying potential functions that may transcend different LLM architectures and prompt templates. To our knowledge, this is the first discovery of a macroscopic physical law in LLM generative dynamics that does not depend on specific model details. This work is an attempt to establish a macroscopic dynamics theory of complex AI systems, aiming to elevate the study of AI agents from a collection of engineering practices to a science built on effective measurements that are predictable and quantifiable.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Detailed balance in large language model-driven agents (大语言模型驱动的智能体中的细致平衡)
1.2. 作者
Zhuo-Yang Song (宋卓阳), Qing-Hong Cao (曹庆宏), Ming-xing Luo (罗明星), Hua Xing Zhu (朱华星)
隶属机构:
- 北京大学物理学院 (School of Physics, Peking University)
- 北京大学高能物理中心 (Center for High Energy Physics, Peking University)
- 北京计算科学研究中心 (Beijing Computational Science Research Center)
1.3. 发表期刊/会议
发表时间 (UTC):2025-12-10 (注:根据提供的元数据,这是一篇发表于 2025 年末的学术论文,原文格式暗示其投递于物理学领域的顶刊,如 Physical Review Letters 类型的快报。)
1.4. 摘要
大语言模型(LLM)驱动的智能体正在成为解决复杂问题的强大新范式。尽管在工程实践上取得了成功,但目前仍缺乏理解和统一其宏观动力学的理论框架。本文提出了一种基于最小作用量原理 (Least Action Principle) 的方法,用于估计嵌入在智能体中的 LLM 的潜在生成方向性。通过实验测量 LLM 生成状态之间的转移概率,作者在统计上发现了 LLM 生成转移中的细致平衡 (Detailed Balance) 现象。这表明 LLM 的生成过程可能不是通过学习通用的规则集和策略来实现的,而是通过隐式学习一类潜在势函数 (Potential Functions) 来实现的,这些函数可能超越了特定的 LLM 架构和提示模板。据作者所知,这是首次在不依赖特定模型细节的情况下,在 LLM 生成动力学中发现宏观物理定律。这项工作试图建立复杂 AI 系统的宏观动力学理论,旨在将 AI 智能体的研究从工程实践的集合提升为建立在可预测和可量化的有效测量之上的科学。
1.5. 原文链接
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 随着大语言模型(LLM)的发展,基于 LLM 的 智能体 (Agents)(即结合了 LLM、工具和记忆系统的自主系统)在科学发现、代码生成等领域表现出色。然而,目前对这些智能体的理解主要停留在微观层面(如 token 的统计概率)或工程层面(如提示词工程、模块设计),缺乏一个统一的宏观理论框架来解释它们的动态行为。
- 重要性与挑战: 我们观察到智能体不仅是随机生成内容,而是表现出明显的目标导向性。现有的理论难以解释这种介于“随机搜索”和“确定性规划”之间的复杂动力学。如果不理解其背后的物理规律,AI 智能体的设计就只能依赖试错,难以预测和量化。
- 切入点: 作者借鉴物理学中的热力学平衡 (Thermodynamic Equilibrium) 和 最小作用量原理,尝试将 LLM 智能体的生成过程建模为一个在状态空间中的马尔可夫链,并探索其中是否存在类似于物理系统的守恒律或平衡态性质。
2.2. 核心贡献与主要发现
- 理论创新: 提出了基于最小作用量原理的理论框架,用于量化 LLM 智能体的生成方向性。定义了作用量 (Action) 和 势函数 (Potential Function) ,将智能体的目标导向行为解释为势函数的最小化过程。
- 核心发现: 在实验中统计性地发现了 LLM 生成的状态转移满足 细致平衡 (Detailed Balance) 条件。
- 这是一个惊人的发现,意味着 LLM 智能体在宏观上表现得像一个处于热平衡的物理系统。
- 这意味着 LLM 并非简单地死记硬背规则,而是隐式地学习了一个全局的“势函数”(类似于能量地形图),并倾向于向“势能”更低(即质量更高或更接近目标)的状态转移。
- 验证: 在 conditioned word generation(条件单词生成)和 symbolic fitting(符号拟合)任务中,验证了不同模型(如 GPT-5 Nano, Claude-4 等)均表现出这种特性,并利用该原理成功反推了 LLM 内部隐含的势函数解析形式。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,初学者需要掌握以下核心概念:
- 大语言模型驱动的智能体 (LLM-driven Agents): 这不仅仅是聊天机器人。它是一个系统,以 LLM 为核心大脑,配备了感知环境、使用工具(如计算器、搜索引擎)、存储记忆和规划行动的能力。智能体通过不断地“观察-思考-行动”循环来解决复杂问题。
- 马尔可夫链 (Markov Chain): 一种随机过程模型。系统的下一个状态(State)只取决于当前状态,而与过去的历史无关。在本文中,智能体的“思考过程”被看作是在不同“状态”(如代码草稿、中间推理结果)之间跳跃的过程。
- 细致平衡 (Detailed Balance):
这是统计物理学中的一个核心概念。在一个处于热平衡的系统中,对于任意两个状态 和 ,从 转移到 的概率流必须等于从 转移到 的概率流。
- 公式表达为:,其中 是状态的分布概率, 是转移概率。
- 直观理解:如果你录下系统的运行视频,正着放和倒着放,在统计上是无法区分的。这意味着系统没有净的“环流”。
- 最小作用量原理 (Least Action Principle): 物理学的基石之一。它指出,自然界的演化往往遵循某种量(称为“作用量”)取极值的路径。例如,光走直线是因为这样时间最短。本文借用这一思想,认为 LLM 倾向于选择那些能让某种“认知势能”下降最快的路径。
- 势函数 (Potential Function):
想象一个起伏的山地地形,小球倾向于滚向低处。这个地形的高度就是“势函数”。在本文中,势函数
V(f)衡量了状态 的“坏”程度(或者说离目标的距离)。LLM 倾向于生成势能更低(即更好)的状态。
3.2. 前人工作
- LLM 智能体: 引用了如 FunSearch, AlphaEvolve 等工作,这些工作利用 LLM 进行科学发现,但缺乏理论解释。
- LLM 解释性: 现有的解释性工作多集中在微观的神经元或注意力机制上,或者是宏观的基准测试,缺乏动力学视角的分析。
- 物理学方法在 AI 中的应用: 提及了 Hopfield 网络(能量模型)、玻尔兹曼机等早期将物理概念引入神经网络的工作。本文是首次将这些宏观热力学定律应用于现代 LLM 智能体的生成动力学。
4. 方法论
4.1. 方法原理
本文的核心思想是将 LLM 智能体的生成过程视为在一个离散状态空间 中的随机游走。作者假设存在一个潜在的势函数 ,主导着智能体的偏好。智能体倾向于从高势能状态向低势能状态转移。为了找到这个隐藏的势函数,作者定义了一个作用量,并利用变分法来估计这个势函数。
4.2. 核心方法详解
步骤 1: 定义状态空间与转移核
首先,将智能体的工作流程形式化。
-
状态 (State) : 智能体在某一时刻保留的完整信息(如当前的任务目标、历史记录、代码、文件系统等)。
-
转移核 (Transition Kernel) : 这是指智能体在当前状态为 时,生成(跳转到)新状态 的概率。这对应于公式中的 。 下图(原文 FIG. 1)展示了这一框架的示意图:智能体在状态空间中根据概率转移,潜在的势函数 决定了这种转移的方向性。
该图像是示意图,展示了大语言模型(LLM)生成方向性的形式化框架。图中描绘了状态空间及可能的状态转移,其中状态 到状态 的转移概率为 ,而逆向转移概率为 。潜在函数 描述了智能体对各状态的全局排序,并在平衡时满足详细平衡条件:。
步骤 2: 定义作用量 (Action)
为了量化智能体的行为是否符合某种全局的“偏好”(即势函数),作者定义了作用量 (Action) 。作用量衡量了智能体的实际转移与假设的势函数 之间的“不匹配”程度。
- 符号解释:
-
: 作用量,一个标量值。
-
: 对状态空间中所有可能的起始状态 进行积分(或求和)。
-
: 从 转移到 的概率。
-
V(f), V(g): 状态 和 的势函数值(标量)。 -
K(x): 一个凸函数 (Convex Function),用于惩罚那些违反势函数下降趋势的转移。 -
: 势能差。如果 ,说明是从高处流向低处(顺势),这是好的;反之则是逆势。
作者具体选择了指数形式的凸函数
K(x): 其中 类似于物理中的“倒温度”,控制系统对势能差的敏感程度。这意味着如果一个转移是从低势能跳向高势能(,即 为负),K(x)会变得很大,从而增加作用量 。
-
步骤 3: 最小作用量原理与变分法
作者提出,描述 LLM 智能体行为的最佳势函数 ,应该是那个能使作用量 最小化的函数。 数学上,这要求作用量 对 的变分(Variational Derivative)为零:
这一条件等价于要求 满足以下平衡方程(对于所有状态 ):
- 符号解释:
- : 函数 的导数。
- 第一项表示流出 的通量,第二项表示流入 的通量。这本质上是一个流量平衡方程。
步骤 4: 细致平衡条件的推导
这是一个关键的理论连接点。如果系统不仅处于流动的平衡,而且满足细致平衡 (Detailed Balance),即任意两点间的正向流等于逆向流: (其中 是平衡分布)。
在这种情况下,作者证明了势函数 V(f) 与转移概率之间存在一个非常简洁的关系:
- 直观解释: 这个公式告诉我们,如果你发现从 到 的概率比从 到 的概率大(左边大于 0),那么 的势能一定比 高(右边也大于 0)。转移概率的对数比值直接等于势能差。
- 意义: 这为我们提供了一种通过观测转移概率 来直接测量潜在势函数 的方法,并验证系统是否遵循物理定律。
5. 实验设置
5.1. 数据集与任务
实验设计了两个任务来模拟不同复杂度的智能体行为:
-
条件单词生成 (Conditioned Word Generation):
- 任务: 给定一个提示词(如 "WIZARDS"),要求生成一个新的单词,使得新单词中所有字母的索引值之和等于 100(A=1, B=2, ...)。
- 状态: 单词本身。
- 目的: 这是一个微观任务,便于大规模统计转移概率。
-
符号拟合 (Symbolic Fitting) - IdeaSearchFitter:
- 任务: 给定一组数据点
(x, y),要求智能体生成一个数学表达式y=f(x)来拟合这些数据。这是一个长推理链任务,涉及复杂的表达式树。 - 状态: 数学表达式的字符串形式。
- 数据集: 使用了 Feynman Benchmark 数据集(物理公式发现基准)。
- 样本示例: 表 I 展示了一些状态及其势能。
表 I:智能体 的部分状态及其势能示例 (注:原文 Table I 如下)
states Potential (状态与势能) param1 * tanh(param2 * x + param3) + param4 5.70 param1 - (param2 / (x + param3)) 0.88 param1 * x / (1 + param2 * log(x + 1)) -0.57 param1 * tanh(param2 * x) + param3 -1.57 param2 + param1 * (1 - exp(-x)) -3.30 注:
param代表拟合参数。势能越低(如 -3.30),表示 LLM 认为该表达式越“好”或越接近目标。 - 任务: 给定一组数据点
5.2. 模型
实验使用了三种不同能力的模型(注:这是论文设定的 2025 年的模型环境):
- GPT-5 Nano: 探索能力强,生成多样性高。
- Claude-4: 收敛极快,倾向于利用(Exploitation)。
- Gemini-2.5-flash: 同样收敛快,容易陷入局部最优。
5.3. 评估指标
-
转移核估计 (Transition Kernel Estimation):
- 符号解释: 是观测到的从 到 的次数, 是从 出发的总采样次数。
-
细致平衡验证 (Detailed Balance Verification): 对于状态空间中的闭合环路 ,如果细致平衡成立,势能差之和应为 0。因此,对数转移概率之和也应为 0:
- 符号解释: 此公式用于检查三元组(triplet)或更长环路中,顺时针和逆时针的转移概率乘积是否相等(对数和为0)。
6. 实验结果与分析
6.1. 核心结果分析:细致平衡的验证
发现 1: 不同模型的行为模式 Claude-4 和 Gemini-2.5-flash 表现出极强的收敛性,迅速坍缩到少数几个低势能状态("低温"行为)。而 GPT-5 Nano 表现出更强的探索性("高温"行为),生成了大量不同的状态。
下图(原文 FIG. 2)展示了 Claude-4 在单词生成任务中的转移过程,明显向低势能单词(如 ATTITUDE)汇聚。

发现 2: 统计验证细致平衡 (GPT-5 Nano) 对于 GPT-5 Nano 这种探索性强的模型,作者统计了所有观测到的三状态闭环(Triplets)。结果表明,正向路径和逆向路径的对数转移概率之和在误差范围内相等,紧密分布在对角线上。 这有力地证明了 LLM 的生成动力学在统计上满足细致平衡条件。
下图(原文 FIG. 3)展示了 GPT-5 Nano 模型的三元组验证结果。数据点集中在 对角线附近,意味着 。

发现 3: 长推理链任务中的验证 在更复杂的符号拟合任务中,智能体 也验证了细致平衡。作者计算了通过最小作用量原理估计出的势能差 与实际观测的对数转移概率比 。 结果显示两者高度一致(线性相关),进一步确认了公式 (5) 的有效性。
下图(原文 FIG. 4)展示了符号拟合任务中的验证结果。红线是理论预测,蓝点是实验数据,两者吻合度很高。
该图像是图表,展示了符号拟合任务中代理 验证详细平衡条件的数据点。横轴为 ,纵轴为 。红色虚线表示详细平衡的趋势线,包含1375个数据点和相应的误差条。数据拟合优度为 。
6.2. 势函数的发现与解析
利用 IdeaSearch 算法,作者不仅估计了势函数的数值,还搜索出了它的显式数学形式(Python 代码形式)。这个发现的势函数包含 49 个参数,不仅关注表达式的语法正确性,还关注其与特定数学模式(如 exp, log, tanh)的亲和力。
- 势函数的作用: 实验表明,LLM 倾向于向该势函数值更低的状态转移。
- 数据呈现:
-
Table V 列出了发现的势函数的部分参数值。例如
paren_penalty(括号不匹配惩罚)为 11.70,说明 LLM 极其厌恶语法错误;log_bonus为 1.35,说明 LLM 在此任务中偏好对数函数。以下是原文 Table V 的结果:
Parameter Value Parameter Value empty_input_potential -0.85 freq_var_weight 1.82 paren_penalty 11.70 freq_var_cap 10.04 extra_char_penalty 0.43 entropy_bonus 0.60 extra_char_threshold 2.13 log_v_bonus 1.35 length_penalty_divisor 4.00 log_bonus 0.60 max_depth_penalty 0.42 pattern_affinity_bonus 0.1 max_depth_threshold 0.33 pattern_count_divisor 11.67 func_penalty 0.36 linear_logy_weight 0.29 div_pow_penalty 0.42 centered_linear_weight 0.27 abs_penalty 6.50 nonlinear_weight 0.81 trig-penalty 0.75 exp_weight ... nested_expr_penalty 0.54 proximity_cap ...
-
6.3. 预测能力
作者还展示了该势函数预测状态转移方向的能力。如下图所示,大部分高概率转移(红色线)确实指向了势能降低的方向(纵轴向下)。
下图(原文 FIG. 5)展示了势函数预测转移方向的能力。红线表示势能增加的转移(较少),绿线表示势能减少的转移(占主导,约70%)。
该图像是图表,展示了使用 IdeaSearch 发现的潜在函数预测状态转移方向的能力。每个点代表从状态 到状态 的转移对,图中显示了70个选定状态的子图,红绿线分别表示潜在函数增减的转移关系,横轴为均方误差对数,纵轴为潜在函数值。
7. 总结与思考
7.1. 结论总结
本文通过引入物理学中的最小作用量原理和细致平衡概念,建立了一个量化 LLM 智能体宏观动力学的理论框架。
- 理论突破: 证明了 LLM 智能体的状态转移在宏观上遵循细致平衡条件,类似于热平衡系统。
- 机制解释: 揭示了 LLM 的生成并非简单的规则学习,而是隐式地构建了一个全局的势函数。智能体的推理过程本质上是在这个势能面上“滑向”低势能状态的过程。
- 量化工具: 提出了一种不依赖具体模型细节,仅通过观测输入输出转移概率即可测量这一势函数的方法。
7.2. 局限性与未来工作
- 局限性:
- 目前仅在离散且定义明确的状态空间(如单词生成、数学表达式)中进行了验证。对于开放式的对话或多模态任务,状态空间的定义和转移概率的测量将极具挑战性。
- 对于高度过拟合的模型(偏离平衡态),细致平衡可能不再成立,该理论的适用性需要进一步修正。
- 未来工作:
- 探索非平衡态热力学工具在 LLM 中的应用,例如通过偏离平衡的程度来量化模型的过拟合水平。
- 利用势函数设计新的优化策略,例如通过人为调整“温度”参数来控制智能体的探索(Exploration)与利用(Exploitation)的平衡。
7.3. 个人启发与批判
- 启发: 这篇论文极具启发性地将 AI 视为一个物理系统。这种视角转换非常美妙:我们不再需要在微观的神经网络权重中迷失,而是可以像研究气体一样,通过温度、压强(势能、作用量)等宏观量来理解 AI 的行为。这为“AI 物理学”这一新兴领域奠定了基础。
- 批判:
- 状态定义的依赖性: 理论的有效性高度依赖于如何定义“状态”。如果状态定义得不够“粗粒度”或不合理,马尔可夫性可能不成立,导致理论失效。
- 计算成本: 为了验证细致平衡,需要大量的采样来估计转移概率 。对于大型复杂任务,这种穷举式的采样在计算上可能是昂贵的。
- 因果与相关: 势函数虽然能描述行为,但它真的是 LLM 内部的真实机制吗?还是只是观察者强加的一个数学等价模型?这仍是一个哲学与科学并存的问题。
相似论文推荐
基于向量语义检索推荐的相关论文。