A-LAMP: Agentic LLM-Based Framework for Automated MDP Modeling and Policy Generation
TL;DR 精炼摘要
本研究提出了A-LAMP框架,旨在自动化从自然语言任务描述到马尔可夫决策过程(MDP)建模和策略生成的流程。通过将建模、编码和训练分解为可验证的阶段,A-LAMP显著提高了策略生成能力,超越了传统大型语言模型的表现,且其轻量级变体也能达到较大模型的性能。
摘要
Applying reinforcement learning (RL) to real-world tasks requires converting informal descriptions into a formal Markov decision process (MDP), implementing an executable environment, and training a policy agent. Automating this process is challenging due to modeling errors, fragile code, and misaligned objectives, which often impede policy training. We introduce an agentic large language model (LLM)-based framework for automated MDP modeling and policy generation (A-LAMP), that automatically translates free-form natural language task descriptions into an MDP formulation and trained policy. The framework decomposes modeling, coding, and training into verifiable stages, ensuring semantic alignment throughout the pipeline. Across both classic control and custom RL domains, A-LAMP consistently achieves higher policy generation capability than a single state-of-the-art LLM model. Notably, even its lightweight variant, which is built on smaller language models, approaches the performance of much larger models. Failure analysis reveals why these improvements occur. In addition, a case study also demonstrates that A-LAMP generates environments and policies that preserve the task's optimality, confirming its correctness and reliability.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
A-LAMP: Agentic LLM-Based Framework for Automated MDP Modeling and Policy Generation (A-LAMP:基于智能体大语言模型的自动化 MDP 建模与策略生成框架)
1.2. 作者
Hong Je-Gal, Chan-Bin Yi, Hyun-Suk Lee 隶属于韩国世宗大学(Sejong University)人工智能与机器人系及人工智能系。
1.3. 发表期刊/会议
发表于 ArXiv(预印本)。 发布时间:2025年12月12日 (UTC)。
1.4. 摘要
将强化学习(RL)应用于现实世界任务通常面临巨大挑战,因为这需要将非正式的任务描述转化为形式化的马尔可夫决策过程(MDP),编写可执行的仿真环境代码,并训练策略智能体。由于建模错误、代码脆弱以及目标不对齐,自动化这一过程非常困难。本文提出了 A-LAMP 框架,利用基于大语言模型的智能体系统,自动将自由形式的自然语言任务描述转换为 MDP 公式并生成训练好的策略。该框架将建模、编码和训练分解为可验证的阶段,确保了语义的一致性。实验表明,A-LAMP 在经典控制和自定义 RL 领域均优于单一的最先进 LLM 模型,且生成的策略能够保持任务的最优性。
1.5. 原文链接
-
arXiv 页面: https://arxiv.org/abs/2512.11270v1
-
PDF 下载: https://arxiv.org/pdf/2512.11270v1.pdf
2. 整体概括
2.1. 研究背景与动机
- 核心问题:强化学习(Reinforcement Learning, RL)虽然在游戏和模拟中表现出色,但要将其部署到现实世界(如网络调度、库存管理)中,门槛极高。因为现实任务通常以模糊的自然语言或文档形式存在,而 RL 算法需要精确的数学定义(MDP)和无错误的计算机代码(Environment)。
- 现有挑战(Gap):
- 转化难度大:从“自然语言描述”到“数学公式”再到“可执行代码”,这一过程目前严重依赖人类专家,耗时且易错。
- 单一 LLM 的局限:直接让一个大语言模型(如 GPT-4)从头到尾生成整个 RL 流程,往往会导致“幻觉”(Hallucination),即生成的代码能跑但逻辑不对,或者 MDP 定义与代码实现不一致。
- 灵活性差:一旦任务目标微调(例如从最大化吞吐量变为最小化能耗),传统流程需要专家重新手动建模。
- 创新思路:受人类专家解决问题的思维过程启发,作者提出了 多智能体协作(Multi-Agent Collaboration) 和 分阶段验证(Staged Verification) 的思路,将复杂的端到端生成任务拆解为抽象、公式化和编码三个阶段。
2.2. 核心贡献/主要发现
-
A-LAMP 框架:提出了一个模块化的多智能体 LLM 框架,能够从自由文本描述自动生成 MDP 模型、仿真环境代码和训练好的策略。
-
性能提升:在多个基准测试中,A-LAMP 的策略生成成功率显著高于单一 LLM 模型(如 GPT-4o)。
-
轻量化潜力:基于较小模型(Gemma3-27B)构建的“Light A-LAMP”版本,其性能甚至接近或超过了单一的大型模型(GPT-4o),证明了架构设计的有效性。
-
可解释性与透明度:框架生成的中间产物(如参数列表、目标函数公式)是人类可读的,便于审查和验证。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,初学者需要掌握以下核心概念:
- 马尔可夫决策过程 (Markov Decision Process, MDP):这是强化学习的数学基础。一个 MDP 通常由五元组 定义:
- (State Space):状态空间,描述环境当前的情况(例如:无人机的位置、电量)。
- (Action Space):动作空间,智能体可以做出的选择(例如:向左飞、向右飞)。
- (Transition Probability):状态转移概率,执行动作后环境如何变化。
- (Reward Function):奖励函数,告诉智能体某个动作好不好(例如:送到快递+10分,撞墙-100分)。
- (Discount Factor):折扣因子,权衡当前奖励与未来奖励的重要性。
- 智能体 (Agent) 与 环境 (Environment):在 RL 中,智能体通过观察状态做出动作,环境接收动作并反馈新的状态和奖励。本文的重点之一就是自动编写这个“环境”的代码。
- 基于 LLM 的智能体 (LLM-based Agent):指利用大语言模型(如 GPT-4)作为核心大脑,通过特定的提示词(Prompt)扮演特定角色(如“程序员”、“数学家”),并能使用工具或与其他智能体交互的系统。
3.2. 前人工作
-
LLM 的推理与规划:研究表明 LLM 具备推理能力(如 Chain-of-Thought),工具如 Toolformer 和 ChatDev 展示了将复杂任务分解为多智能体协作的潜力。
-
RL 中的 LLM 应用:
- EUREKA [Ma et al., 2023]:专注于利用 LLM 自动设计和优化奖励函数。
- Voyager [Wang et al., 2023a]:利用 LLM 进行具身智能体的探索和规划。
- G-Sim [Holt et al., 2025]:尝试利用 LLM 构建仿真器。
-
差异化分析:上述工作大多只关注 RL 流程中的某一个环节(如只设计奖励,或只生成计划)。A-LAMP 的独特之处在于它实现了从“自然语言”到“训练好的策略”的全流程自动化,涵盖了 MDP 建模、环境代码编写和 RL 训练循环的构建。
4. 方法论
4.1. 方法原理:模拟人类专家流程
A-LAMP 的核心设计理念是模仿人类专家解决 RL 问题的认知过程。人类专家不会一步到位地写代码,而是遵循以下三个阶段:
-
抽象思想 (Abstract Idea):从模糊的需求中提取关键参数、目标和限制。
-
公式化 (Formulation):将概念转化为数学 MDP 定义(公式、状态向量、奖励函数)。
-
编码 (Coding):将数学定义翻译成 Python 代码(Gym 环境)。
下图(原文 Figure 1)展示了这一对比,A-LAMP 将每个认知步骤替换为专门的 LLM 智能体。
该图像是一个示意图,比较了手动人工专家流程与自动化的 A-LAMP 流程在策略生成过程中的区别。两者均分为三个阶段——抽象思想阶段、公式化阶段和编码阶段,其中人类专家输入领域知识和任务想法,而 A-LAMP 则使用自由形式的自然语言描述任务。图中还展示了 A-LAMP 中的不同智能体,如参数代理、变量代理和建模代理等。
4.2. 核心方法详解 (逐层深入)
A-LAMP 框架由一系列按顺序协作的专门智能体组成。
4.2.1. 第一阶段:抽象思想 (Abstract Idea Phase)
这一阶段的目标是将非结构化的文本转化为结构化的 JSON 数据。
- 输入:自然语言的任务描述(例如:“控制一个无人机送快递,要省电……”)。
- 智能体分工:
- 参数智能体 (Parameter Agent):提取已知常数(如:地图大小 ,重力加速度)。
- 目标智能体 (Objective Agent):明确任务的最终目的(如:最大化利润,保持倒立摆平衡)。
- 变量智能体 (Variable Agent):识别决策变量(智能体能控制什么)和系统变量(环境如何变化)。
- 约束智能体 (Constraint Agent):提取必须遵守的规则(如:电量不能为负,必须先取货再送货)。
4.2.2. 第二阶段:公式化 (Formulation Phase)
这一阶段将结构化信息转化为严谨的数学 MDP。
-
建模智能体 (Modeling Agent): 它负责将自然语言目标转化为数学形式。例如,对于一个优化任务,它会定义目标函数 。 该智能体生成的公式通常遵循标准强化学习的累积奖励最大化形式: 其中, 是策略, 是 时刻的奖励, 是折扣因子。智能体还需要将约束条件转化为代数不等式(例如 )。
-
SAR 智能体 (State-Action-Reward Agent): 它基于上述建模,明确定义 MDP 的三个核心组件:
-
状态 (State):选择哪些变量作为观察输入(例如:[位置, 速度])。
-
动作 (Action):定义动作空间的类型(离散或连续)和形状。
-
奖励 (Reward):设计具体的奖励计算逻辑。
下图(原文 Figure 2)展示了一个无线网络调度任务的案例。可以看到中间红框部分,SAR 智能体定义了奖励公式,例如香农公式: 这确保了后续编码阶段有明确的数学依据。
该图像是一个示意图,展示了A-LAMP在无线网络调度问题中的应用。图中包含多个代理,如参数代理、目标代理和变量代理,分别负责处理参数、目标和变量,同时展示了组合环境与策略的结果,包含可执行环境和训练策略。此外,图中还标示了包含公式 R_t = rac{ ext{log}_2(1 + rac{P imes G_{ ext{scheduledUser}, t}}{10^{-10} imes ext{NoiseDensity}})}的奖励信息。 -
-
错误修正模块 (Error Correction Module): 在图 2 中标记为 "Q" 的绿色圆圈代表错误修正。智能体会被要求自查(Self-reflection),如果置信度低,会重新生成或请求人类澄清。这大大减少了早期阶段的级联错误。
4.2.3. 第三阶段:编码 (Coding Phase)
这一阶段将数学定义转化为可运行的 Python 代码。
- 环境智能体 (Environment Agent): 定义环境的转移逻辑 (Transition Logic)。它不写代码,而是用逻辑语言描述:“当采取动作 A 时,如果满足约束 C,则状态 S 变为 S',否则……”
- 编码智能体 (Coding Agent):
这是唯一的“程序员”。它接收前面所有阶段的输出(参数、变量、数学公式、逻辑),并生成:
- 符合 OpenAI Gym 标准的自定义环境类(包含
reset()和step()函数)。 - DQN(深度 Q 网络)的训练循环代码。
- 符合 OpenAI Gym 标准的自定义环境类(包含
- 代码执行器 (Code Executor): 运行生成的代码。如果报错,会将错误日志反馈给编码智能体进行自动调试 (Feedback Loop)。
5. 实验设置
5.1. 数据集与任务
作者选择了 5 个不同难度的任务来验证框架,涵盖了经典控制和自定义领域。
- 经典控制任务:
- Cart-pole (倒立摆):保持杆子直立。
- Mountain-car (山地车):利用动量冲上山顶。
- 自定义/领域特定任务(这些任务需要 A-LAMP 从零构建环境):
- Wireless (无线网络调度):多用户资源分配,涉及复杂的信道模型(香农容量)。
- Drone-delivery (无人机配送): 网格世界,涉及取货、送货和能量管理。
- Inventory-management (库存管理):零售库存优化,需求服从泊松分布,涉及订货成本、持有成本和缺货惩罚。
5.2. 评估指标
为了全面评估生成质量,作者定义了三个递进的成功率指标:
-
建模成功率 (Modeling Success Rate)
- 概念定义:评估提取的 MDP 组件(状态、动作、奖励)在逻辑上是否正确且完整。
- 计算方法:人工专家审核生成的 JSON/LaTeX 文档。
- 公式:
-
编码成功率 (Coding Success Rate)
- 概念定义:评估生成的 Python 代码是否能在标准环境中无语法错误地运行。
- 计算方法:执行代码,检查是否有运行时错误。
- 公式:
-
策略生成成功率 (Policy Generation Success Rate)
- 概念定义:这是最关键的指标。不仅要求代码能跑,还要求 RL 训练能够收敛,并且最终策略能解决任务(获得高回报)。
- 计算方法:检查训练曲线是否收敛,并评估最终策略的性能是否达标。
- 公式:
5.3. 对比基线
-
A-LAMP (GPT-4o):本文提出的完整框架,使用 GPT-4o 作为后端。
-
Light A-LAMP (Gemma3-27B):使用参数量较小的开源模型 Gemma3-27B,测试框架对小模型的兼容性。
-
Single-Model GPT-4o:直接把任务描述给 GPT-4o,让它一步生成所有代码。
-
Single-Model Gemma3-27B:同上,使用 Gemma3-27B。
6. 实验结果与分析
6.1. 核心结果分析
表 1(原文 Table 1)展示了各方法在 5 个任务上的表现。结果以三元组形式呈现:建模成功率 / 编码成功率 / 策略生成成功率。
以下是原文 Table 1 的结果:
| Task | A-LAMP | A-LAMP w/o EC | Light A-LAMP | Gemma3-27B | GPT-4o |
|---|---|---|---|---|---|
| Cart-pole | - | 1.00 / 0.95 / 0.95 | 1.00 / 0.85 / 0.45 | 1.00 / 0.60 / 0.35 | 1.00 / 0.75 / 0.45 |
| Mountain-car | - | 1.00 / 1.00 / 0.75 | 0.95 / 0.70 / 0.55 | 1.00 / 0.35 / 0.30 | 1.00 / 1.00 / 0.40 |
| Wireless | 1.00 / 1.00 / 0.45 | 0.90 / 0.80 / 0.40 | 0.95 / 0.60 / 0.15 | 0.55 / 0.65 / 0.05 | 0.80 / 0.90 / 0.20 |
| Drone-del. | 0.80 / 0.95 / 0.45 | 0.65 / 0.75 / 0.30 | 0.55 / 0.50 / 0.15 | 0.40 / 0.05 / 0.00 | 0.35 / 0.55 / 0.10 |
| Inv.-mgmt. | 1.00 / 0.55 / 0.30 | 1.00 / 0.40 / 0.20 | 0.85 / 0.25 / 0.05 | 0.60 / 0.00 / 0.00 | 0.65 / 0.05 / 0.05 |
分析:
- A-LAMP 全面领先:在所有任务中,A-LAMP(特别是带有错误修正 EC 的版本)的策略生成成功率最高。例如在复杂的
Wireless任务中,A-LAMP 达到了 0.45 的成功率,而单一 GPT-4o 仅为 0.20。 - 复杂任务优势明显:在
Drone-delivery和Inv.-mgmt.这种需要从头编写环境逻辑的任务中,单一模型几乎完全失败(成功率接近 0),而 A-LAMP 依然能保持一定的成功率。 - 小模型逆袭:Light A-LAMP (Gemma3-27B) 的表现经常接近甚至超过单一的 GPT-4o。这证明了框架结构(分解与验证)比模型本身的参数量更重要。
6.2. 失败案例分析
为了探究为什么 A-LAMP 更好,作者分析了失败的分布情况。下图(原文 Figure 3)展示了失败原因的分解。

关键发现:
- 消除了“伪成功”:单一模型(GPT-4o)常出现“代码能跑但逻辑错误”的情况(即图中的 )。A-LAMP 通过严格的建模验证,几乎消除了这种情况,确保代码不仅能跑,而且是对应正确任务的。
- 提升了训练稳定性:即使建模和编码都对了,RL 训练也可能不收敛。A-LAMP 生成的 MDP 结构更合理(状态定义更精准),使得训练阶段()的成功率大幅提升。
6.3. 案例研究:无线网络调度
为了验证生成的策略是否真的有效,作者深入分析了无线网络调度任务。这是一个凸优化问题,存在理论上的最优解(贪婪策略)。
下图(原文 Figure 4)展示了 A-LAMP 生成的 DQN 智能体的训练和评估结果。
该图像是一个图表,展示了A-LAMP生成的DQN在训练和评估阶段的回报。左侧图(a)表示训练进展,回报随着迭代次数逐渐增加;右侧图(b)则对比了DQN与贪婪基线的策略评估,两者回报相近但存在波动。
-
图 4(a) 显示训练回报(Training Return)迅速上升并稳定,说明生成的奖励函数和环境逻辑是自洽的。
-
图 4(b) 将 DQN 策略(蓝色)与贪婪策略(Greedy,理论最优,橙色)进行对比。可以看出 DQN 的性能非常接近最优解,证明 A-LAMP 不仅生成了代码,还保持了任务的最优性结构 (Optimality Structure)。
7. 总结与思考
7.1. 结论总结
本文提出了 A-LAMP,这是一个端到端的自动化框架,解决了将自然语言任务描述转化为可部署 RL 策略的难题。通过将流程分解为抽象、公式化和编码三个阶段,并引入多智能体协作与错误修正机制,A-LAMP 显著提高了建模的准确性和代码的鲁棒性。实验证明,该框架不仅优于单一的大模型,还能赋能较小的模型处理复杂任务。
7.2. 局限性与未来工作
- 编码阶段仍脆弱:虽然建模阶段很强,但作者指出编码阶段(Coding Phase)仍然是瓶颈。语法错误或逻辑漏洞可能导致执行失败。
- 调试成本:目前的自动调试循环比较基础,未来可以引入更细粒度的编码智能体。
- 超参数调优:目前的框架可能使用固定的 RL 超参数(如学习率),引入自动超参数调优(Hyperparameter Tuning)是未来的方向。
7.3. 个人启发与批判
- “慢思考”的工程化:A-LAMP 本质上是利用工程框架强迫 LLM 进行“慢思考”(System 2 Thinking)。它不让模型凭直觉直接输出答案,而是强制其经过参数提取、数学建模等中间步骤。这种结构化思维链 (Structured Chain-of-Thought) 是提升 LLM 解决复杂问题能力的通用范式,可以迁移到软件工程、法律文书生成等其他领域。
- 数学作为中间语言:框架的一个亮点是使用 LaTeX 数学公式作为自然语言和代码之间的桥梁。数学具有歧义性低、逻辑严密的特点,作为中间模态(Modality)非常有效。
- 潜在问题:目前的评估主要在仿真环境中。如果生成的环境模型(如无线信道模型)与真实物理世界存在偏差(Sim-to-Real Gap),生成的策略在现实中可能失效。框架目前没有包含“现实世界反馈”的校准机制。
相似论文推荐
基于向量语义检索推荐的相关论文。