Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning
TL;DR 精炼摘要
本文综述了大型模型赋能的具身人工智能,强调其在自主决策和具身学习中的应用。研究了分层和端到端决策范式,探讨了大型模型如何提升决策过程及视觉-语言-动作模型的能力。此外,还首次将世界模型整合进论述中,分析其在增强学习中的重要性与挑战。
摘要
Embodied AI aims to develop intelligent systems with physical forms capable of perceiving, decision-making, acting, and learning in real-world environments, providing a promising way to Artificial General Intelligence (AGI). Despite decades of explorations, it remains challenging for embodied agents to achieve human-level intelligence for general-purpose tasks in open dynamic environments. Recent breakthroughs in large models have revolutionized embodied AI by enhancing perception, interaction, planning and learning. In this article, we provide a comprehensive survey on large model empowered embodied AI, focusing on autonomous decision-making and embodied learning. We investigate both hierarchical and end-to-end decision-making paradigms, detailing how large models enhance high-level planning, low-level execution, and feedback for hierarchical decision-making, and how large models enhance Vision-Language-Action (VLA) models for end-to-end decision making. For embodied learning, we introduce mainstream learning methodologies, elaborating on how large models enhance imitation learning and reinforcement learning in-depth. For the first time, we integrate world models into the survey of embodied AI, presenting their design methods and critical roles in enhancing decision-making and learning. Though solid advances have been achieved, challenges still exist, which are discussed at the end of this survey, potentially as the further research directions.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
大型模型赋能的具身人工智能:决策与具身学习综述 (Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning)
1.2. 作者
WENLONG LIANG, RUI ZHOU*, YANG MA, BING ZHANG, SONGLIN LI, YIJIA LIAO, PING KUANG。 所有作者均来自中国电子科技大学 (University of Electronic Science and Technology of China, China)。其中 RUI ZHOU 被标记为通讯作者。
1.3. 发表期刊/会议
该论文目前作为预印本 (preprint) 发布于 arXiv。
1.4. 发表年份
2025年8月14日 (UTC)。
1.5. 摘要
具身人工智能 (Embodied AI) 旨在开发具备物理形态的智能系统,使其能够在真实世界环境中感知、决策、行动和学习,为实现通用人工智能 (Artificial General Intelligence, AGI) 提供了一条有前景的途径。尽管经过数十年的探索,具身智能体在开放动态环境中实现通用任务的人类水平智能仍然充满挑战。最近大型模型 (Large Models) 的突破通过增强感知、交互、规划和学习能力,彻底改变了具身人工智能领域。
本文对大型模型赋能的具身人工智能进行了全面综述,重点关注自主决策 (autonomous decision-making) 和具身学习 (embodied learning)。我们探讨了分层 (hierarchical) 和端到端 (end-to-end) 两种决策范式,详细阐述了大型模型如何增强分层决策中的高层规划 (high-level planning)、低层执行 (low-level execution) 和反馈机制,以及大型模型如何增强视觉-语言-动作 (Vision-Language-Action, VLA) 模型以实现端到端决策。
对于具身学习,我们介绍了主流的学习方法,深入阐述了大型模型如何增强模仿学习 (imitation learning) 和强化学习 (reinforcement learning)。本文首次将世界模型 (world models) 整合到具身人工智能的综述中,介绍了其设计方法及其在增强决策和学习中的关键作用。尽管取得了坚实的进展,挑战依然存在,本文在综述的最后讨论了这些挑战,并将其作为未来的研究方向。
1.6. 原文链接
- 原文链接 (arXiv): https://arxiv.org/abs/2508.10399
- PDF 链接 (arXiv): https://arxiv.org/pdf/2508.10399v1.pdf 该论文目前发布为 arXiv 预印本。
2. 整体概括
2.1. 研究背景与动机
核心问题: 具身人工智能领域面临的核心挑战是如何使具备物理形态的智能体 (embodied agents) 在开放、非结构化和动态的真实世界环境中实现人类水平的通用任务智能。虽然具身人工智能被认为是实现通用人工智能 (AGI) 的一条有前景的道路,但其发展仍受到诸多限制。
问题重要性与现有研究挑战:
- 早期系统局限性: 早期具身人工智能系统 (如基于符号推理和行为主义的系统) 依赖于僵化的预编程规则,导致适应性有限和智能肤浅。虽然机器人已广泛应用于受控环境,但其功能仍受限于特定场景。
- 深度学习的进步与不足: 深度学习的出现标志着一个转折点,视觉引导规划和基于强化学习的控制显著减少了智能体对精确环境建模的依赖。然而,这些模型通常在任务特定数据集上训练,在泛化 (generalization) 和可迁移性 (transferability) 方面仍面临挑战,限制了它们在多样化场景中的通用应用。
- 大型模型的兴起与新挑战: 近期大型模型 (Large Models) 的突破,显著提升了具身人工智能的感知、交互、规划和学习能力,为通用具身智能体奠定了基础。然而,大型模型赋能的具身人工智能仍处于起步阶段,在泛化、可扩展性 (scalability) 和无缝环境交互方面仍面临挑战。
- 现有综述的不足: 作者指出,现有研究分散且缺乏系统分类。多数综述主要关注大型模型本身 (如大型语言模型 LLM 和视觉-语言模型 VLM),很少关注大型模型与具身智能体之间的协同作用。即使涉及集成,也倾向于关注特定组件 (如规划、学习、模拟器、应用),而非整体范式及其组件如何协同提升智能。此外,一些综合性综述未能涵盖最新进展,特别是自2024年以来日益突出的视觉-语言-动作 (VLA) 模型和端到端决策 (end-to-end decision-making)。
论文的切入点和创新思路: 本综述旨在填补现有空白,通过对大型模型赋能的具身人工智能进行全面、系统的回顾,聚焦于自主决策 (autonomous decision-making) 和具身学习 (embodied learning) 两个核心方面。论文首次将世界模型 (world models) 整合到具身人工智能的综述中,并采用“双重分析方法 (dual analytical methodology)”:
- 横向分析 (Horizontal analysis): 比较不同方法,如不同的大型模型、分层与端到端决策、模仿学习与强化学习、以及多样化的具身学习策略。
- 纵向分析 (Vertical analysis): 追溯核心模型或方法的演变,详细阐述其起源、后续进展和开放挑战。 这种方法旨在为研究人员提供一个清晰的理论框架和实践指导,以应对挑战并抓住机遇,推动具身人工智能向 AGI 迈进。
2.2. 核心贡献/主要发现
本综述的主要贡献总结如下:
- 聚焦大型模型对具身人工智能的赋能:
- 针对分层决策 (hierarchical decision-making),从高层规划 (high-level planning)、低层执行 (low-level execution) 和反馈增强 (feedback enhancement) 的视角对相关工作进行回顾和分类。
- 针对端到端决策 (end-to-end decision-making),重点回顾 VLA 模型及其增强机制。
- 针对具身学习 (embodied learning),深入探讨大型模型如何赋能模仿学习 (imitation learning) 中策略网络和策略网络的构建,以及强化学习 (reinforcement learning) 中奖励函数设计和策略网络构建。
- 全面回顾具身决策和具身学习:
- 在决策方面,全面回顾了大型模型赋能的分层和端到端范式,并进行了详细比较。
- 在学习方面,不仅回顾了模仿学习和强化学习,还涵盖了迁移学习 (transfer learning) 和元学习 (meta-learning)。
- 此外,首次系统地回顾了世界模型 (world models) 及其在促进决策和学习中的作用。
- 采用双重分析方法提供深入见解:
- 结合横向分析(比较不同方法,如不同的大型模型、分层与端到端决策、模仿学习与强化学习等)和纵向分析(追溯核心模型或方法的演变、细节、挑战)。
- 这种方法能够提供宏观概览和对主流具身人工智能方法的深入洞察。
主要发现/结论:
- 大型模型通过增强感知、交互、规划和学习能力,极大地推动了具身人工智能的发展。
- 分层决策和端到端决策各有优劣,VLA 模型代表了端到端决策的最新进展。
- 大型模型显著提升了模仿学习和强化学习的效能,尤其是在策略网络构建和奖励函数设计方面。
- 世界模型在模拟验证和知识增强方面对决策至关重要,并在状态转换模拟和数据生成方面极大地促进了具身学习。
- 具身人工智能领域仍面临具身数据稀缺、持续学习、计算与部署效率以及虚实鸿沟 (sim-to-real gap) 等关键挑战。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 具身人工智能 (Embodied AI)
具身人工智能旨在开发具有物理形式的智能系统,使其能够像人类一样,在真实世界环境中进行感知 (perceiving)、决策 (decision-making)、行动 (acting) 和学习 (learning)。其核心理念是,真正的智能源于智能体与其环境的互动。一个具身人工智能系统通常包括两个主要部分:
- 物理实体 (Physical Entities):例如人形机器人 (humanoid robots)、四足机器人 (quadruped robots) 和智能汽车 (intelligent vehicles)。它们负责执行动作并接收来自物理世界的反馈,充当物理世界与数字世界之间的接口。
- 智能体 (Intelligent Agents):构成认知核心,使系统能够自主决策和学习。 具身智能体模仿人类学习和解决问题的范式:从各种资源(如书籍、教学材料、在线内容)学习技能,在陌生场景中评估环境、规划行动、心理模拟策略,并根据结果和外部反馈进行适应。
3.1.2. 大型模型 (Large Models)
大型模型是近年来在架构、数据规模和任务复杂性方面取得显著突破的模型,展现出强大的感知、推理和交互能力。主要类型包括:
- 大型语言模型 (Large Language Model, LLM):处理自然语言输入,理解上下文细微差别,并生成可操作的响应。通常作为具身智能体的认知主干 (cognitive backbone)。
- 大型视觉模型 (Large Vision Model, LVM):处理视觉信息,例如图像分类、目标检测和分割。通常用于感知任务或作为任务执行期间可调用的 API。
- 大型视觉-语言模型 (Large Vision-Language Model, LVLM):整合预训练的视觉编码器和视觉-语言融合模块,处理视觉输入并通过语言提示响应视觉相关查询。
- 多模态大型模型 (Multimodal Large Model, MLM):能够处理文本、视觉、音频等多种模态数据。根据输入-输出范式,可分为多模态输入文本输出模型 (multimodal-input text-output models) 和多模态输入多模态输出模型 (multimodal-input multimodal-output models)。
- 视觉-语言-动作模型 (Vision-Language-Action, VLA Model):直接将多模态输入(如视觉观察和语言指令)映射到动作输出,旨在提高机器人的感知-动作整合能力。
3.1.3. 决策范式 (Decision-Making Paradigms)
具身人工智能的自主决策可以通过两种主要方法实现:
- 分层范式 (Hierarchical Paradigm):将感知 (perception)、规划 (planning) 和执行 (execution) 分离为不同的模块。它分解复杂任务为可管理的子任务,增强了可调试性、优化和维护。
- 端到端范式 (End-to-End Paradigm):将感知、语言理解、规划和动作执行等功能整合到一个统一框架中,直接将多模态输入映射到动作输出,以实现无缝操作。
3.1.4. 具身学习 (Embodied Learning)
具身学习使智能体能够通过与环境的长期交互自主地完善其行为策略和认知模型,实现持续改进。主要方法包括:
- 模仿学习 (Imitation Learning, IL):通过模仿专家或视频演示来获取技能,高效地学习策略。
- 强化学习 (Reinforcement Learning, RL):通过迭代试错和环境奖励来优化技能,适用于高维动态环境。
- 迁移学习 (Transfer Learning):在相关任务之间转移知识,以加速学习和提高在新任务上的泛化能力。
- 元学习 (Meta-Learning):学习如何学习,使智能体能够用少量数据快速适应新任务。
3.1.5. 世界模型 (World Models)
世界模型是环境的内部模拟或表示。通过世界模型,智能系统可以预测未来状态、理解因果关系,并在不完全依赖真实世界交互的情况下做出合理决策。它们为智能体提供了试错和积累经验的机会。
3.2. 前人工作
具身人工智能的发展经历了多个阶段,从早期的符号推理和行为主义,到深度学习的推动,再到大型模型的革命性影响。
3.2.1. 早期具身人工智能系统
- 符号推理和行为主义: 早期的具身人工智能系统,如 Shakey the Robot [21, 200],依赖于严格的预编程规则和符号推理,其智能表现受限于受控环境,缺乏适应性和通用性。
3.2.2. 深度学习的推动
- 视觉引导规划和基于强化学习的控制: 深度学习,特别是深度强化学习 (Deep Reinforcement Learning, DRL) [130, 173],显著减少了智能体对精确环境建模的依赖,使得机器人能够在更复杂的环境中执行任务。然而,这些模型通常为特定任务训练,泛化和可迁移性受限。
3.2.3. 大型模型的演进与通用能力增强 (General Capability Enhancement, GCE)
大型模型在近年来取得了显著突破,并被应用于增强具身智能体的能力。图3(下图)展示了主要大型模型的时间线。
该图像是一个时间线图,展示了2018年至2025年间主要大型模型的演变和发展趋势。图中标记了不同类型模型的名称和发布年份,突出显示了模型在各自类别中的贡献。
图 3. 主要大型模型的时间线。
大型语言模型 (LLM):
- BERT [42] (2018): 谷歌发布的双向 Transformer 模型,通过自监督任务预训练,显著提升了自然语言任务的性能。
- GPT 系列 [149, 150, 54] (2018-2020): OpenAI 发布的基于 Transformer 架构的生成模型。GPT-3 [54] 首次展示了零样本 (zero-shot) 和少样本 (few-shot) 学习能力。
- Codex [32]: 在代码数据集上预训练,用于代码生成和理解。
- ChatGPT [1] (基于 GPT-3.5): 实现了自然流畅的用户交互,支持广泛的知识领域。
- PaLM [8, 39]: 谷歌的模型,擅长语言理解、生成和推理。
- InstructGPT [138]: 基于 GPT-3,利用强化学习与人类反馈 (Reinforcement Learning from Human Feedback, RLHF) 使模型行为与人类偏好对齐。
- Vicuna [38] 和 Llama 系列 [182, 183]: Meta 发布的开源模型,推动了开源研究。
大型视觉模型 (LVM):
- Vision Transformer (ViT) [45] (2020): 将 Transformer 架构应用于计算机视觉,将图像分割为固定大小的块,使用自注意力机制捕捉全局依赖。
- DINO [27] 和 DINOv2 [136]: Facebook AI 利用自监督学习与 ViT,生成高质量图像表示。
- Masked Autoencoder (MAE) [78]: 利用自监督学习重建被遮蔽的视觉输入,在大规模无标注图像数据集上进行预训练。
- Segment Anything Model (SAM) [97, 156]: 在1100万张图像上预训练,支持多样化的分割任务,并具有强大的适应性。
大型视觉-语言模型 (LVLM):
- CLIP [148]: OpenAI 开发,通过对比学习 [35] 在大规模图像-文本对上训练图像和文本编码器,使视觉表示与文本语义对齐。
- BLIP [108] 和 BLIP-2 [107]: 采用双向自监督学习融合视觉和语言数据,BLIP-2 引入 QFormer 结构进行高效跨模态融合。
- Flamingo [6]: 在少样本学习方面表现出色,处理多模态数据。
- GPT-4V [223]: 将 GPT 扩展到联合处理图像-文本输入,具有强大的多模态推理能力。
- DeepSeek-V3 [115]: 采用动态稀疏激活架构,扩展了多模态推理的边界,结合任务特定专家和动态参数分配,实现高计算效率。
多模态大型模型 (MLM):
- 多模态输入文本输出模型:
- Video-Chat [109] 和 VideoLLaMA [218]: 增强视频分析,整合视觉和音频输入。
- Gemini [179]: 谷歌设计的多模态模型,高效处理文本、图像和音频。
- PaLM-E [46]: 将多模态输入转换为统一向量,输入到 PaLM 模型进行端到端训练。
- 多模态输入多模态输出模型:
- DALL·E 系列 [155, 154, 16]: 扩展 GPT-3,生成与提示对齐的创意图像。DALL·E2 引入 CLIP 增强图像质量,DALL·E3 提升图像-提示对齐。
- Sora [22]: OpenAI 发布的视频生成模型,能从文本提示创建高质量连贯视频。
视觉-语言-动作模型 (VLA Model):
-
RT-2 [234]: 首次提出 VLA 概念,利用预训练视觉-语言模型将动作空间离散化为动作词元 (action tokens),通过互联网数据和机器人数据联合微调实现泛化。
-
BYO-VLA [74], 3D-VLA [226], PointVLA [105]: 解决视觉输入处理问题。
-
Octo [180] 和 Diffusion-VLA [196]: 解决动作生成准确性问题。
-
TinyVLA [198] 和 [18]: 提高计算效率。
通用能力增强技术 (General Capability Enhancement, GCE): 图4(下图)展示了这些增强技术。
该图像是图表,展示了大模型在各类智能系统中的能力增强。图中的各个部分分别说明了不同的学习和决策过程,包括上下文学习(In-Context Learning)、推理与行动(Reasoning and Acting)、增广生成(Retrieval Augmented Generation)等,展示了大模型如何通过不同机制提升智能体的决策和学习能力。
图 4. 大型模型的通用能力增强。
- 上下文学习 (In-Context Learning, ICL) [23]: 通过精心设计的提示 (prompts),使大型模型无需额外训练即可实现零样本泛化。
- 思维链 (X of Thoughts, XoT) 系列:
- CoT (Chain of Thoughts) [195]: 将中间推理步骤整合到提示中,引导大型模型分解复杂问题。
- ToT (Tree of Thoughts) [213]: 扩展 CoT,以树状结构探索多个推理路径,允许评估替代方案和回溯。
- GoT (Graph of Thoughts) [15]: 进一步推进 ToT,采用图结构表示中间状态和依赖关系,实现灵活的非线性推理。
- 检索增强生成 (Retrieval Augmented Generation, RAG) [103]: 从外部知识库检索相关信息,并将其提供给大型模型以生成准确响应,缓解模型知识过时或不完整问题。
- 推理与行动 (Reasoning and Acting, ReAct) [214]: 将推理与行动执行相结合,使大型模型在执行任务时产生明确的推理轨迹,增强决策透明度。
- 强化学习与人类反馈 (Reinforcement Learning from Human Feedback, RLHF) [138]: 将人类偏好整合到大型模型训练中,使其与人类价值观和意图对齐。
- 模型上下文协议 (Model Context Protocol, MCP) [81]: Anthropic 引入的开源标准,为大型模型提供与外部数据源、工具和服务的标准化接口,增强互操作性和适应性。
3.3. 技术演进
具身人工智能的技术演进可以概括为从规则驱动到数据驱动,再到大型模型驱动的范式转变:
- 早期具身人工智能 (数十年前): 基于符号推理和行为主义,依赖于刚性的预编程规则。机器人功能受限于高度受控的环境,缺乏通用性和适应性。
- 深度学习时代 (近十年): 随着机器学习,特别是深度学习的兴起,具身人工智能取得了重大进展。
- 视觉引导规划和基于强化学习的控制成为主流,减少了对精确环境建模的依赖。
- 智能体开始能够从数据中学习,但通常需要任务特定数据集,在泛化和可迁移性方面仍有瓶颈。
- 大型模型赋能时代 (近年至今): 大型模型的突破 (如 LLM, LVM, LVLM, MLM) 为具身人工智能带来了革命性变化。
- 感知、交互、规划和学习能力得到显著增强,为构建通用具身智能体奠定了基础。
- 分层决策中,LLM 提升了高层规划的灵活性和低层执行的适应性,并通过多源反馈实现闭环优化。
- 端到端决策中,VLA 模型 (如 RT-2) 将感知、语言理解和动作生成整合到一个统一框架,实现更流畅的感知-动作映射。
- 具身学习中,大型模型通过扩散模型和 Transformer 架构赋能模仿学习和强化学习,改进策略网络和奖励函数设计。
- 世界模型被引入,提供内部环境模拟能力,促进更高效的决策和学习。 虽然大型模型带来了前所未有的能力,但具身人工智能仍面临泛化、可扩展性、无缝环境交互、数据稀缺、持续学习、计算效率和虚实鸿沟等挑战。
3.4. 差异化分析
本文旨在提供一个全面而系统的综述,特别关注大型模型赋能下的具身人工智能的决策和学习方面。与现有相关综述相比,本文的差异化和创新点主要体现在:
以下是原文 Table 1 的结果:
| Survey type | Related surveys | Publication time | Large models | Decision-making | Embodied learning | World model | |||
| HierarchicalEnd2end | IL | RL | Other | ||||||
| Specific | [29, 104, 113, 151, | 2024 | √ | × | × | × | × | × | × |
| 191, 225] [210] | 2024 | × | √ | × | √ | √ | √ | ||
| [26] | 2024 | √ | × | × | × | × | × | × × | |
| [7, 227] | 2025 | × | × | × | √ | √ | √ | × | |
| [188] | 2024 | × | √ | × | × | × | × | × | |
| [204] | 2024 | × | √ | × | × | × | √ | × | |
| [165] | 2025 | × | × | × | × | √ | × | × | |
| [43, 122] | 2024 | × | × | × | × | × | × | √ | |
| Compre hensive | [119] | 2024 | √ | √ | √ | √ | √ | × | × |
| [190] | 2024 | × | √ | √ | J | × | × | × | |
| [95] | 2024 | × | √ | √ | √ √ | × | × | × | |
| [117] | 2024 | √ √ | √ | √ √ | √ | × | √ | × | |
| Ours | √ | √ | √ | √ | |||||
表1:本综述与相关综述在综述范围上的比较。
核心区别和创新点:
-
聚焦大型模型与具身智能体的协同: 许多现有综述 [29, 104, 113, 151, 191, 225] 主要关注大型模型本身(如 LLM 或 VLM),而忽视了它们与具身智能体的具体结合方式和协同效应。本文则明确以大型模型赋能具身人工智能为视角,深入探讨这种融合带来的变革。
-
决策范式的全面覆盖与对比: 现有部分综述可能涉及决策 [188, 190, 95],但本文不仅全面涵盖了分层决策 (Hierarchical Decision-Making) 和端到端决策 (End-to-end Decision-Making) 两种范式,还对它们进行了详细的比较,特别是对 VLA 模型和端到端决策的最新进展给予了充分关注,这弥补了早期综述的不足 [48, 220],甚至一些2024年的综述 [119] 也未能提供与分层范式的详细比较。
-
具身学习的深度探讨: 本文深入阐述了大型模型如何增强模仿学习 (Imitation Learning, IL) 和强化学习 (Reinforcement Learning, RL),并首次将迁移学习 (Transfer Learning, TL) 和元学习 (Meta-Learning, ML) 也纳入具身学习的讨论范畴。
-
首次整合世界模型 (World Models): 这是一个显著的创新点。作者明确指出,本文是首次将世界模型整合到具身人工智能的综述中,详细介绍了其设计方法及其在增强决策和学习中的关键作用。这为理解具身智能体如何进行内部模拟和预测提供了新的视角,而这是许多其他综述 [119, 190, 95, 117] 所缺失的。
-
双重分析方法: 本文采用横向(比较不同方法)和纵向(追溯方法演变)的“双重分析方法”,旨在提供更深入的洞察,这在其他综述中较少提及或系统应用。
-
更新及时性: 鉴于该领域的快速发展,本文涵盖了包括 VLA 模型在内的许多最新进展,这对于一些较早的综合性综述 [48, 220] 是无法做到的。
总体而言,本综述通过聚焦大型模型赋能、全面覆盖决策与学习范式、首次整合世界模型以及采用系统性分析方法,在具身人工智能领域提供了一个更全面、更深入、更及时的研究概览。
4. 方法论
本章节将详细拆解大型模型如何赋能具身人工智能的自主决策和具身学习。
4.1. 具身人工智能的决策范式
自主决策 (autonomous decision-making) 的目标是将环境感知 (environmental perception) 和任务理解 (task understanding) 转化为可执行的决策和物理动作。本文将决策范式分为分层决策和端到端决策两种。
4.1.1. 分层自主决策 (Hierarchical Autonomous Decision-Making)
传统决策通常采用分层范式,由感知与交互 (perception and interaction)、高层规划 (high-level planning)、低层执行 (low-level execution) 以及反馈与增强 (feedback and enhancement) 组成。感知层依赖视觉模型,高层规划依赖预定义逻辑规则,低层执行依赖经典控制算法。然而,这些方法在非结构化或动态环境中适应性有限,且难以实现整体优化。
大型模型通过其强大的学习、推理和泛化能力,为分层决策带来了突破。其工作流程如下:环境感知首先解释智能体周围环境;然后,LLM 赋能的高层规划结合感知信息和任务指令,将复杂任务分解为子任务;接着,LLM 赋能的低层执行将子任务转换为精确的物理动作;最后,LLM 赋能的反馈增强引入闭环反馈以提升智能。图5(下图)展示了分层决策的流程。
该图像是示意图,展示了大型模型赋能的体现智能决策过程,包含高层规划、低层执行和反馈增强三个主要模块。高层规划利用自然语言和编程语言生成指令,低层执行则结合传统控制算法和大型视觉模型。此外,反馈增强部分通过人类和环境反馈优化决策流程。
图 5. 分层决策范式,由感知与交互、高层规划、低层执行、反馈和增强组成。
4.1.1.1. 高层规划 (High-Level Planning)
高层规划根据任务指令和感知信息生成合理的计划。传统方法依赖基于规则的方法 [59, 75, 126],例如使用 PDDL (Planning Domain Definition Language) 定义初始状态和目标,然后通过启发式搜索规划器 (heuristic search planner) 验证动作可行性并选择最优动作序列。这些方法在结构化环境中有效,但在非结构化或动态场景中适应性较差。大型模型利用其零样本 (zero-shot) 和少样本 (few-shot) 泛化能力,解决了这些挑战。
LLM 赋能的高层规划根据规划形式可分为结构化语言规划、自然语言规划和编程语言规划。图6(下图)展示了这些类别。
该图像是图示,展示了大型模型(LLM)在三个不同规划方法中的应用,包括结构化语言规划、自然语言规划和编程语言规划。图中描述了如何通过LLM生成PDDL文件,并在不同上下文中生成计划。
图 6. 大型模型赋能的高层规划。
-
结构化语言规划与 LLM (Structured Language Planning with LLM): LLM 可以通过两种策略增强结构化语言规划:
- LLM 作为规划器: 利用 LLM 的零样本/少样本泛化能力生成计划。然而,LLM 常因严格的 PDDL 语法和语义生成不可行的计划 [185]。为了解决这个问题,LLV [9] 引入外部验证器(如 PDDL 解析器或环境模拟器)通过错误反馈迭代地完善 LLM 生成的计划。FSP-LLM [175] 优化提示工程 (prompt engineering) 以使计划与逻辑约束对齐,确保任务可行性。
- LLM 自动化 PDDL 生成: 减少领域建模中的手动工作。在 LLM P [116] 中,LLM 创建 PDDL 领域文件和问题描述,然后由传统规划器解决,结合语言理解与符号推理。PDDL-WM [64] 使用 LLM 迭代构建和完善 PDDL 领域模型,并通过解析器和用户反馈验证其正确性和可执行性。
-
自然语言规划与 LLM (Natural Language Planning with LLM): 自然语言比结构化语言更具表达灵活性,能充分利用 LLM 将复杂计划分解为子计划 [110, 167]。然而,自然语言规划常生成不可行的计划,因为其输出通常基于经验而非实际环境。例如,当指令为“清理房间”时,LLM 可能会建议“取回吸尘器”,而不会验证吸尘器是否可用。
- Zero-shot [85] 探索了使用 LLM 将高级任务分解为一系列可执行的语言规划步骤的可行性。实验表明 LLM 可以基于常识推理生成初步计划,但缺乏对物理环境和动作可行性的约束。
- SayCAN [4] 将 LLM 与强化学习结合,将 LLM 生成的计划与预定义技能库和价值函数 (value functions) 结合,评估动作可行性。通过计算动作的预期累积奖励 (expected cumulative rewards) 来过滤掉不切实际的步骤(例如,“跳到桌子上拿杯子”),转而选择更安全的、高价值的动作。
- Text2Motion [114] 通过整合几何可行性 (geometric feasibility) 进一步增强涉及空间交互任务的规划。它使用 LLM 提出候选动作序列,然后由检查器评估其物理可行性,以避免“将大盒子堆叠在小球上”等动作。
- Grounded Decoding [87] 通过引入灵活的解码策略解决固定技能集的局限性。它将 LLM 输出与实时具身模型动态整合,根据当前环境状态和智能体能力评估动作可行性,指导 LLM 生成符合上下文的计划。
-
编程语言规划与 LLM (Programming Language Planning with LLM): 编程语言规划将自然语言指令转换为可执行程序,利用代码的精确性定义空间关系、函数调用 (function calls) 和控制 API,以实现具身任务中的动态高层规划。
- CaP [112] 将任务规划转换为代码生成,生成 Python 风格的程序,通过递归定义函数创建动态函数库。例如,在机器人导航中,CaP 首先定义“移动”函数,然后根据任务需求扩展为“避障移动”或“接近目标”。
- Instruct2Act [84] 通过利用多模态基础模型 (multimodal foundation models) 统一感知、规划和控制,提供更集成的解决方案。它使用视觉-语言模型进行准确的对象识别和空间关系理解,将感知数据输入 LLM,LLM 从预定义的机器人技能库中生成基于代码的动作序列。
- ProgPrompt [176] 采用结构化提示 (structured prompts),包含环境操作、对象描述和示例程序,以指导 LLM 生成定制的、基于代码的计划。
4.1.1.2. 低层执行 (Low-Level Execution)
在高层任务规划之后,低层动作通过预定义的技能列表 [85] 执行。技能列表代表具身智能体执行特定任务所需的一系列基本能力或动作模块,作为任务规划和物理执行之间的桥梁。低层技能的实现涉及控制理论、机器学习和机器人工程。这些方法从传统控制算法演变为学习驱动控制和模块化控制。图7(下图)展示了低层执行的演进。
该图像是图表,展示了传统控制算法、基于学习的控制与模块化控制的关系以及所需的技能和子任务。左侧展示了PID和MPC等算法的基本技能,中央强调了模仿学习和强化学习的互动流程,右侧则介绍了大语言模型(LLM)在检测和分类任务中的应用示例。
图 7. 低层执行。
-
传统控制算法 (Traditional Control Algorithms): 基本技能通常使用传统控制算法设计,这些算法主要利用具有清晰数学推导和物理原理的经典模型 [56]。
- PID 控制 (Proportional-Integral-Derivative, PID) [81]: 调整参数以最小化机器人手臂关节控制中的误差。
- 状态反馈控制 (State Feedback Control) [178]: 通常与线性二次调节器 (Linear Quadratic Regulator, LQR) [125] 结合使用,利用系统状态数据优化性能。
- 模型预测控制 (Model Predictive Control, MPC) [2]: 预测未来状态并通过滚动优化 (rolling optimization) 生成控制序列,适用于无人机路径跟踪等任务。 传统控制算法具有数学可解释性、低计算复杂度和实时性能,但面对动态环境时缺乏适应性,难以处理高维不确定系统动力学。它们需要与数据驱动技术(如深度学习和强化学习)结合以增强泛化能力。
-
学习驱动控制与 LLM (Learning-Driven Control with LLM): 机器人学习位于机器学习和机器人学的交界处,使智能体能够从大量数据(包括人类演示、模拟和环境交互)中开发控制策略和低层技能。
- 模仿学习 (Imitation Learning): 从专家演示中训练策略,实现策略的快速开发,减少探索时间。Embodied-GPT [131] 利用 7B 语言模型进行高层规划,并通过模仿学习将计划转换为低层策略。
- 强化学习 (Reinforcement Learning): 通过迭代试错和环境奖励优化策略,适用于高维动态环境。Hi-Core [140] 采用两层框架,LLM 设置高层策略和子目标,而强化学习在低层生成特定动作。 这些由 LLM 赋能的学习驱动控制方法提供了强大的适应性和泛化能力,但通常需要大量数据和计算资源,且策略的收敛性和稳定性难以保证。
-
模块化控制与 LLM 和预训练模型 (Modular Control with LLM and Pretrained Models): 模块化控制将 LLM 与预训练策略模型(如用于视觉识别的 CLIP [148] 和用于分割的 SAM [96])集成。通过向 LLM 提供这些工具的描述,可以在任务执行期间动态调用它们。
- DEPS [192] 根据任务需求和预训练模型的自然语言描述,结合多个不同模块完成检测和动作。
- PaLM-E [46] 将 LLM 与用于分割和识别的视觉模块融合。
- CLIPort [172] 利用 CLIP 进行开放词汇检测 (open-vocabulary detection)。
- [112] 利用 LLM 生成代码,创建可调用函数库用于导航和操作。 这种模块化方法通过利用共享的预训练模型,确保了跨任务的可扩展性和可重用性。然而,调用外部策略模型可能引入额外的计算和通信延迟,尤其是在自动驾驶 [216] 等实时任务中。此外,智能体的整体性能高度依赖于预训练策略模型的质量。
4.1.1.3. 反馈与增强 (Feedback and Enhancement)
分层决策架构通过任务描述和示例提示 (example prompts) 指导任务规划。为确保任务规划质量,应引入闭环反馈机制。反馈可以来自大型模型本身、人类和外部环境。图8(下图)展示了反馈与增强的来源。
该图像是示意图,展示了大模型的反馈与增强机制,包括自我反思、人工反馈和环境反馈三个部分。图中分别详细说明了大模型在计划、执行和反馈过程中的角色,以及策略优化的机制。
图 8. 反馈与增强。
-
大型模型的自我反思 (Self-Reflection of Large Models): 大型模型可以充当任务规划器、评估器和优化器,从而在没有外部干预的情况下迭代完善决策过程。智能体获取动作反馈,自主检测和分析失败的执行,并从先前的任务中不断学习。这种自我反思和优化机制使大型模型能够生成稳健的策略,在长序列规划 (long-sequence planning)、多模态任务和实时场景中具有优势。自我反思可以通过两种方式实现:
- 基于重新提示 (Re-Prompting) 的计划重新生成 [153]: 根据检测到的执行失败或前置条件错误触发计划重新生成。Re-Prompting 将错误上下文(例如,在开门前未能解锁)作为反馈,动态调整提示,从而纠正 LLM 生成的计划。DEPS [153] 采用“描述、解释、计划、选择”框架,LLM 描述执行过程,解释失败原因,并重新提示以纠正计划缺陷。
- 内省机制 (Introspection Mechanism): 使 LLM 能够独立评估和完善其输出。Self-Refine [121] 使用单个 LLM 进行规划和优化,通过多个自我反馈循环迭代改进计划的合理性。Reflexion [170] 扩展了这一机制,通过整合长期记忆 (long-term memory) 存储评估结果,结合多种反馈机制增强计划可行性。ISR-LLM [231] 在基于 PDDL 的规划中应用迭代自优化。Voyager [189] 针对编程语言规划,通过从执行失败中提取反馈来构建动态代码技能库。
-
人工反馈 (Human Feedback): 人工反馈通过与人类建立交互式闭环机制,提高规划的准确性和效率。这种方法使智能体能够根据人类反馈动态调整行为。
- KNOwNO [161] 引入不确定性测量框架,允许 LLM 识别知识空白并在高风险或不确定场景中寻求人类帮助。
- EmbodiedGPT [132] 采用规划-执行-反馈循环,当低层控制失败时,智能体请求人类输入。这种人工反馈与强化学习和自监督优化相结合,使智能体能够迭代完善其规划策略。
- YAY Robot [168] 允许用户通过命令暂停机器人并提供指导,促进实时基于语言的纠正。
- IRAP [80] 允许与人类进行交互式问答,以获取任务特定知识,从而实现精确的机器人指令。
-
环境反馈 (Environment Feedback): 环境反馈通过与环境的动态交互增强基于 LLM 的规划。
- Inner Monologue [88] 将多模态输入转换为语言描述,用于“内心独白”推理,允许 LLM 根据环境反馈调整计划。
- TaPA [203] 整合开放词汇目标检测 (open-vocabulary object detection),并为导航和操作定制计划。
- DoReMi [65] 检测计划和实际结果之间的差异,并利用多模态反馈动态调整任务。
- 在多智能体设置中,RoCo [123] 利用环境反馈和智能体间通信实时纠正机械臂路径规划。 基于 LLM 的规划通常需要将反馈转换为自然语言。VLM 通过整合视觉输入和语言推理来简化这一点,避免了反馈转换。
- ViLaIn [171] 将 LLM 与 VLM 结合,从语言指令和场景观察生成机器可读的 PDDL,以高精度驱动符号规划器。
- ViLA [83] 和 Octopus [211] 利用 GPT-4V MLM 生成计划,整合感知数据以实现稳健的零样本推理。
- Voxposer [86] 进一步利用 MLM 提取空间几何信息,从机器人观察生成 3D 坐标和约束图,以填充代码参数,从而增强规划中的空间精度。
4.1.2. 端到端自主决策 (End-to-End Autonomous Decision-Making)
分层范式依赖于独立的任务规划、动作执行和反馈模块,因此存在误差累积问题,并且难以泛化到多样化任务。此外,从大型模型中提取的高层语义知识难以直接应用于机器人动作执行,导致集成鸿沟。为缓解这些挑战,端到端自主决策近期受到了广泛关注,它直接将多模态输入(即视觉观察和语言指令)映射到动作输出。这通常由视觉-语言-动作 (Vision-Language-Action, VLA) 模型实现。图9(下图)展示了端到端决策范式。
该图像是一幅示意图,展示了通过视觉语言动作(VLA)实现的端到端自主决策流程。图中包含了规划、执行和感知的统一处理过程,强调了消除沟通延迟的优势,确保机器人在变化环境中能够实时适应和快速响应。
图 9. 通过 VLA 实现的端到端决策。
4.1.2.1. 视觉-语言-动作模型 (Vision-Language-Action Models)
VLA 模型通过将感知、语言理解、规划、动作执行和反馈优化整合到一个统一框架中,代表了具身人工智能的突破。通过利用大型模型丰富的先验知识,VLA 模型能够在动态、开放的环境中实现精确且适应性强的任务执行。一个典型的 VLA 模型包含三个关键组件:词元化与表示 (tokenization and representation)、多模态信息融合 (multimodal information fusion) 和动作去词元化 (action detokenization)。图10(下图)展示了 VLA 模型的架构。
该图像是示意图,展示了视觉-语言-动作模型的构造和信息处理流程。图中包括视觉编码器、语言编码器和状态编码器,分别负责不同类型的信息输入。通过多模态信息融合,输入的信息被解码为动作指令,随后输入到动作头以执行具体的机器人动作。该流程强调了从感知到执行的反馈和更新机制,展示了决策过程的复杂性。
图 10. 视觉-语言-动作模型。
- 词元化与表示 (Tokenization and Representation): VLA 模型使用四种词元类型:视觉 (vision)、语言 (language)、状态 (state) 和动作 (action),对多模态输入进行编码,以生成上下文感知的动作。
- 视觉词元 (Vision tokens) 和 语言词元 (language tokens) 将环境场景和指令编码为嵌入 (embeddings),构成了任务和上下文的基础。
- 状态词元 (State tokens) 捕获智能体的物理配置,包括关节位置、力矩、夹持器状态、末端执行器姿态和物体位置。
- 动作词元 (Action tokens) 基于先前的词元自回归生成,表示低层控制信号(如关节角度、扭矩、车轮速度)或高层运动基元(如“移动到抓取姿态”、“旋转手腕”),使 VLA 模型能够充当语言驱动的策略生成器 (policy generators)。
- 多模态信息融合 (Multimodal Information Fusion): 视觉词元、语言词元和状态词元通过跨模态注意力机制 (cross-modal attention mechanism) 融合为一个统一的嵌入 (unified embedding),通常在 Transformer 架构中实现。这种机制动态地权衡每种模态的贡献,使 VLA 模型能够根据任务上下文联合推理物体语义、空间布局和物理约束。
- 动作去词元化 (Action Detokenization): 融合后的嵌入随后被传递给一个自回归解码器 (autoregressive decoder),通常在 Transformer 架构中实现,以生成一系列对应于低层控制信号或高层运动基元的动作词元。动作生成可以是离散的 (discrete) 或连续的 (continuous)。
- 在离散动作生成 (discrete action generation) 中,模型从预定义的一组动作中选择,如特定的运动基元或离散化的控制信号,并将其映射到可执行命令。
- 在连续动作生成 (continuous action generation) 中,模型输出细粒度的控制信号,通常使用最终的 MLP 层从连续分布中采样,实现精确的操作或导航。 这些动作词元通过将其映射到可执行控制命令进行去词元化,并传递给执行循环。该循环反馈更新的状态信息,使 VLA 模型能够实时动态适应扰动、物体位移或遮挡。
机器人 Transformer 2 (RT-2) [234] 是一个著名的 VLA 模型。它利用 Vision Transformer (ViT) [45] 进行视觉处理,并利用 PaLM 整合视觉、语言和机器人状态信息。RT-2 将动作空间离散化为八个维度(包括 6 自由度末端执行器位移、夹持器状态和终止命令),每个维度(终止命令除外)被分为 256 个离散区间,并作为动作词元嵌入到 VLM 词汇表中。在训练期间,RT-2 采用两阶段策略:首先使用互联网规模的视觉-语言数据进行预训练以增强语义泛化;然后进行微调,将输入(即机器人摄像头图像和文本任务描述)映射到输出(即动作词元序列,例如 )。
4.1.2.2. VLA 模型增强 (Enhancements on VLA)
尽管 VLA 端到端决策架构功能强大,但在复杂的具身任务中仍存在显著局限性。
-
感知鲁棒性不足: 实时闭环机制使得 VLA 模型对视觉和语言输入的扰动高度敏感,视觉噪声(如遮挡或杂乱背景)可能导致动作输出不稳定,影响任务可靠性。此外,对 2D 感知的依赖限制了模型解释复杂 3D 空间关系的能力。
-
动作生成精度有限: 动作生成过程通常依赖输出层简单的策略网络 (policy networks),难以满足高精度和动态演化任务的需求,导致次优轨迹。
-
高计算与部署成本: 训练 VLA 模型需要大量的计算资源,导致高昂的部署成本和可扩展性挑战。
为解决这些问题,研究人员提出了以下增强方法。图11(下图)展示了这些增强。
该图像是示意图,展示了增强视觉-语言-动作(VLA)模型的方法。图中分为三个部分:第一部分展示了感知能力的增强方法,包括SigLip和Ego3D PE等;第二部分描述了轨迹行动优化的流程,利用Octo和Diffusion VLA模型;第三部分则强调了训练成本的减少,利用预训练模型和动作专家。整体体现了大模型在决策与学习中的应用。
图 11. 视觉-语言-动作模型的增强。
-
感知能力增强 (Perception Capability Enhancement):
- BYO-VLA [74]: 通过实现运行时观察干预机制 (runtime observation intervention mechanism) 优化词元化和表示组件,利用自动化图像预处理过滤掉来自遮挡物体和杂乱背景的视觉噪声。
- TraceVLA [229]: 专注于多模态信息融合组件,引入视觉轨迹提示 (visual trajectory prompts) 到跨模态注意力机制。通过将轨迹相关数据与视觉、语言和状态词元整合,增强时空感知,实现精确的动作轨迹预测。
- 3D-VLA [226]: 将 3D 大型模型与基于扩散的世界模型 (diffusion-based world model) 结合,处理点云和语言指令。它生成语义场景表示并预测未来点云序列,改善 3D 对象关系理解。
- SpatialVLA [147]: 强调机器人分拣任务中的空间理解问题。它提出 Ego3D 位置编码 (Ego3D position encoding) 将 3D 信息直接注入输入观察,并采用自适应动作方案 (adaptive action schemes) 提高机器人在不同环境中的适应性。
-
轨迹动作优化 (Trajectory Action Optimization): 离散动作空间限制了未定义或高精度动作的表达。基于扩散 (diffusion-enhanced) 的方法可以通过扩散模型建模复杂的机器人行为,提供更平滑、更可控的动作。
- Octo [180]: 结合 Transformer 和扩散模型生成机器人动作。它通过 Transformer 处理多模态输入,提取视觉-语言特征,并使用条件扩散解码器 (conditional diffusion decoders) 基于这些特征迭代优化动作序列,从而生成平滑精确的轨迹。
- Diffusion-VLA [196]: 将语言模型与扩散策略解码器 (diffusion policy decoder) 结合到一个统一框架中。它使用自回归语言模型解析语言指令并生成初步任务表示,然后将其输入扩散策略解码器,通过渐进式去噪过程优化动作序列。
- [18]: 利用流匹配 (flow matching) 表示复杂的连续动作分布。与扩散模型中使用的多步采样相比,流匹配通过连续流场建模优化动作生成过程,从而降低计算开销并提高实时性能。
-
训练成本降低 (Training Cost Reduction): VLA 模型在复杂任务中需要高昂的计算成本。为降低训练成本,研究人员提出了优化方法,以在保持任务性能的同时提高推理速度 (inference speed)、数据效率 (data efficiency) 和实时性能。
- [18]: (同上)其流匹配方法降低了计算开销。
- TinyVLA [198]: 通过设计轻量级多模态模型和扩散策略解码器,显著提高了推理速度和数据效率。
- OpenVLA-OFT [92]: 使用并行解码 (parallel decoding) 代替传统的自回归生成,在单次前向传播中生成完整的动作序列,显著减少了推理时间。
- Edge-VLA [25]: 专为边缘设备定制的精简 VLA,以 OpenVLA 相当的性能实现 30-50Hz 的推理速度,并针对低功耗、实时部署进行了优化。
4.1.2.3. 主流 VLA 模型 (Mainstream VLA Models)
以下是原文 Table 2 的结果:
| Model | Contributions | Enhancements | |||
| • | Pioneering large-scale VLA, jointly | P | A | C | |
| RT-2 [234] (2023) | Vision Encoder: ViT22B/ViT-4B Language Encoder: PaLIX/PaLM-E Action Decoder: Symbol-tuning | fine-tuned on web-based VQA and robotic datasets, unlocking advanced emergent functionalities. | × | ||
| Seer [63] (2023) | •Vision Encoder: Visual backbone Language Encoder: Transformer-based Action Decoder: Autoregressive action prediction head | Efficiently predict future video frames from language instructions by extending a pretrained text-to-image diffusion model. | √ | × | √ |
| Octo [180] (2024) | Vision Encoder: CNN • Language Encoder: T5-base Action Decoder: Diffusion Transformer | First generalist policy trained on a massive multi-robot dataset (800k+ trajectories). A powerful open-source foundation model. | × | × | |
| Open- VLA [94] (2024) | • Vision Encoder: DINOv2 + SigLIP Language Encoder: Prismatic-7B Action Decoder: Symbol-tuning | An open-source alternative to RT-2, superior parameter efficiency and strong generalization with efficient LoRA fine-tuning. | × | × | √ |
| Mobility- VLA [37] (2024) | Vision Encoder: Long-context ViT + goal image encoder •Language Encoder: T5-based instruction encoder Action Decoder: Hybrid diffusion + au- toregressive ensemble | Leverages demonstration tour videos as an environmental prior, using a long-context VLM and topological graphs for navigating based on complex multimodal instructions. | √ | √ | × |
| Tiny-VLA [198] (2025) | Vision Encoder: FastViT with low-latency encoding Language Encoder: Compact language en- coder (128-d) Action Decoder: Diffusion policy decoder (50M parameters) | Outpaces OpenVLA in speed and precision; eliminates pretraining needs; achieves 5x faster inference for real-time applications. | × | × | √ |
表2:主流 VLA 模型 (P: 感知, A: 轨迹动作, C: 训练成本)。
| Model | Architecture | Contributions | Enhancements | |
| A | C | |||
| Diffusion- VLA [196] (2024) | Transformer-based visual encoder for con- textual perception Language Encoder: Autoregressive rea- soning module with next-token prediction Diffusion policy head for robust action sequence generation | Leverage diffusion-based action modeling for precise control; superior contextual awareness and reliable sequence planning. | × | √ × |
| Point- VLA [105] (2025) | •Vision Encoder: CLIP + 3D Point Cloud Language Encoder: Llama-2 Action Decoder: Transformer with spatial token fusion | Excel at long-horizon and spatial reasoning tasks; avoid retraining by preserving pretrained 2D knowledge | √ | × |
| VLA- Cache [208] (2025) | Vision Encoder: SigLIP with token mem- ory buffer Language Encoder: Prismatic-7B •Action Decoder: Transformer with dy- namic token reuse | Faster inference with near-zero loss; dynamically reuse static features for real-time robotics | × | × √ |
| π0 [18] (2024) | Vision Encoder: PaliGemma VLM back- bone Language Encoder: PaliGemma (multi- modal) | Employ flow matching to produce smooth, high-frequency (50Hz) action trajectories for real-time control. | ||
| π0 Fast [143] (2025) | • Vision Encoder: PaliGemma VLM back- bone Language Encoder: PaliGemma (multi- modal) Action Decoder: Autoregressive Trans- former with FAST | Introduces an efficient action tokenization scheme based on the Discrete Cosine Transform (DCT), enabling autoregressive models to handle high-frequency tasks and significantly speeding up training. | × | √ √ |
| Edge-VLA [25] (2025) | • Vision Encoder: SigLIP + DINOv2 Language Encoder: Qwen2 (0.5B parame- ters) Action Decoder: Joint control prediction (non-autoregressive) | Streamlined VLA tailored for edge devices, delivering 3050Hz inference speed with OpenVLA-comparable performance, optimized for low-power, real-time deployment. | × × | √ |
表2:主流 VLA 模型 (P: 感知, A: 轨迹动作, C: 训练成本) (续)。
| Architecture | Contributions | Enhancements | |||
| •Vision Encoder: SigLIP + DINOv2 (multi- An optimized fine-tuning recipe for | P | ||||
| OpenVLA- OFT [92] (2025) | view) j • Language Encoder: Llama-2 7B Action Decoder: Parallel decoding with action chunking and L1 regression | VLAs that integrates parallel decoding and a continuous action representation to improve inference speed and task success. | × | √ | |
| Spatial- VLA [147] (2025) | • Vision Encoder: SigLIP from PaLiGemma2 4B Language Encoder: PaLiGemma2 •Action Decoder: Adaptive Action Grids and autoregressive transformer | Enhance spatial intelligence by injecting 3D information via 'Ego3D Position Encoding' and representing actions with 'Adaptive Action Grids'. | √ | × | |
| MoLe- VLA [219] (2025) | • Vision Encoder: Multi-stage ViT with STAR router Language Encoder: CogKD-enhanced Transformer Action Decoder: Sparse Transformer with dynamic routing | A brain-inspired architecture that uses dynamic layer-skipping (Mixture-of-Layers) and knowledge distillation to improve efficiency. | × | × | V |
| VLA [230] (2025) | Vision Encoder: Object-centric spatial ViT DexGrasp- Language Encoder: Transformer with grasp sequence reasoning Action Decoder: Diffusion controller for grasp pose generation | A hierarchical framework for general dexterous grasping, using a VLM for high-level planning and a diffusion policy for low-level control. | × | √ | × |
| Dex-VLA [197] (2025) | A large plug-in diffusion-based action expert and an embodiment curriculum learning strategy for efficient cross-robot training and adaptation. | × | × | ||
表2:主流 VLA 模型 (P: 感知, A: 轨迹动作, C: 训练成本) (续)。
上述表格总结并比较了主流 VLA 模型,从它们的架构、主要贡献以及在感知 (P)、轨迹动作 (A) 和训练成本 (C) 方面的增强进行了分类。
- RT-2 [234]: 作为 VLA 模型的开创性工作,通过在网络 VQA 和机器人数据集上联合微调,解锁了先进的涌现功能。其主要贡献在于概念的提出和大规模应用,但在感知、轨迹优化和训练成本方面未进行特定增强。
- Seer [63]: 通过扩展预训练的文本到图像扩散模型,有效地从语言指令预测未来的视频帧,在感知和训练成本方面有所增强。
- Octo [180]: 第一个在海量多机器人数据集(80万+轨迹)上训练的通用策略,是一个强大的开源基础模型。在轨迹动作优化方面有所贡献,但在感知和训练成本方面未突出增强。
- OpenVLA [94]: 作为 RT-2 的开源替代品,通过高效的 LoRA (Low-Rank Adaptation) 微调,实现了卓越的参数效率和强大的泛化能力,降低了训练成本。
- Mobility-VLA [37]: 利用演示巡视视频作为环境先验,结合长上下文 VLM 和拓扑图,基于复杂多模态指令进行导航,增强了感知和轨迹动作优化。
- TinyVLA [198]: 在速度和精度上超越 OpenVLA,消除了预训练需求,实现了 5 倍快的推理速度,适用于实时应用,显著降低了训练成本。
- Diffusion-VLA [196]: 利用基于扩散的动作建模实现精确控制,具有卓越的上下文感知能力和可靠的序列规划,增强了轨迹动作优化。
- Point-VLA [105]: 擅长长时程 (long-horizon) 和空间推理任务,通过保留预训练的 2D 知识避免重新训练,增强了感知能力。
- VLA-Cache [208]: 通过动态特征重用,实现了更快的推理速度和近乎零的损失,适用于实时机器人应用,降低了训练成本。
- [18]: 采用流匹配 (flow matching) 生成平滑、高频率(50Hz)的动作轨迹,适用于实时控制,增强了轨迹动作优化。
- Fast [143]: 引入基于离散余弦变换 (DCT) 的高效动作词元化方案,使自回归模型能够处理高频任务并显著加快训练速度,增强了轨迹动作优化和训练成本降低。
- Edge-VLA [25]: 专为边缘设备精简的 VLA,以与 OpenVLA 相当的性能实现了 30-50Hz 的推理速度,并针对低功耗、实时部署进行了优化,降低了训练成本。
- OpenVLA-OFT [92]: 针对 VLA 的优化微调方案,整合了并行解码和连续动作表示,以提高推理速度和任务成功率,降低了训练成本。
- Spatial-VLA [147]: 通过“Ego3D 位置编码”注入 3D 信息,并使用“自适应动作网格”表示动作,增强了空间智能,提升了感知能力。
- MoLe-VLA [219]: 一种受大脑启发架构,利用动态层跳过 (Mixture-of-Layers) 和知识蒸馏 (knowledge distillation) 提高效率,降低了训练成本。
- DexGrasp-VLA [230]: 一个用于通用灵巧抓取的分层框架,利用 VLM 进行高层规划,扩散策略进行低层控制,增强了轨迹动作优化。
- Dex-VLA [197]: 大型插件式基于扩散的动作专家和具身课程学习策略,用于高效的跨机器人训练和适应,增强了轨迹动作优化。
4.1.2.4. 分层与端到端决策的比较 (Hierarchical versus End-to-End Decision-Making)
分层和端到端是实现具身智能自主决策的两种截然不同的范式,它们在设计理念、实现策略、性能特征和应用领域上各有特点。以下是原文 Table 3 的比较。
| Aspect | Hierarchical | End-to-End |
|---|---|---|
| Architecture | Perception: dedicated modules (e.g., SLAM, CLIP) High-level planning: structured, language, pro- Planning: implicit via VLA pretraining gram • Low-level execution: predefined skill lists ment |
Perception: integrated in tokenization Action generation: Autoregressive generation with diffusion-based decoders •Feedback: LLM self-reflection, human, environ- • Feedback: inherent in closed-loop cycle |
| Performance | Reliable in structured tasks Limited in dynamic settings |
• Superior in complex, open-ended tasks with strong generalization Dependent on training data |
| Interpretability | High, with clear modular design | Low, due to black-box nature of neural net- works |
| Generalization | Limited, due to reliance on human-designed Strong, driven by large-scale pretraining structures | Sensitive to data gaps |
| Real-time | duce delays in complex scenarios | Low, inter-module communications may intro- High, direct perception-to-action mapping min- imizes processing overhead |
| Computational Cost | tion but coordination overhead | •Moderate, with independent module optimiza- •High, requiring significant resources for train- ing |
表3:分层与端到端决策范式的比较。
| Aspect | Hierarchical | End-to-End |
|---|---|---|
| Application | Suitable for industrial automation, drone navi- Suitable for domestic robots, virtual assistants, gation, autonomous driving | human-robot collaboration |
| Advantages | High interpretability High reliability Easy to integrate domain knowledge |
•Seamless multimodal integration Efficient in complex tasks • Minimal error accumulation |
| Limitations | Sub-optimal, due to module coordination issues Low adaptability to unstructured settings |
Low interpretability High dependency on training data High computational costs •Low generalization in out-of-distribution sce- narios |
表3:分层与端到端决策范式的比较 (续)。
主要差异:
- 架构 (Architecture): 分层架构将感知、高层规划和低层执行分解为独立模块(如 SLAM、CLIP 用于感知;结构化语言、自然语言、编程语言规划;预定义技能列表用于低层执行)。端到端架构则通过 VLA 模型将感知集成到词元化中,动作生成通过基于扩散的解码器自回归进行,反馈则内在包含在闭环循环中。
- 性能 (Performance): 分层架构在结构化任务中可靠,但在动态设置中受限。端到端架构在复杂、开放式任务中表现卓越,泛化能力强,但依赖训练数据。
- 可解释性 (Interpretability): 分层架构因其清晰的模块化设计而具有高可解释性。端到端架构由于神经网络的黑箱性质而可解释性较低。
- 泛化能力 (Generalization): 分层架构因依赖人类设计的结构而泛化能力有限。端到端架构通过大规模预训练驱动,泛化能力强,但对数据空白敏感。
- 实时性 (Real-time): 分层架构中模块间的通信可能引入延迟。端到端架构直接从感知到动作映射,最大程度减少处理开销,实时性高。
- 计算成本 (Computational Cost): 分层架构适中,模块可独立优化,但有协调开销。端到端架构高,训练需要大量资源。
- 应用 (Application): 分层架构适用于工业自动化、无人机导航、自动驾驶。端到端架构适用于家用机器人、虚拟助手、人机协作。
- 优点 (Advantages): 分层架构具有高可解释性、高可靠性,易于集成领域知识。端到端架构具有无缝多模态集成、在复杂任务中高效、最小的错误累积。
- 局限性 (Limitations): 分层架构因模块协调问题可能次优,对非结构化设置适应性低。端到端架构可解释性低,高度依赖训练数据,计算成本高,在分布外场景泛化能力低。
4.2. 具身学习方法 (Embodied Learning Methodologies)
具身学习 (embodied learning) 旨在使智能体在与环境的交互过程中获取复杂技能并完善其能力 [227]。通过不断学习和优化技能,智能体能够实现精确决策和实时适应。这可以通过多种学习策略的协同实现。图12(下图)展示了具身学习的过程和方法。
该图像是一个示意图,展示了不同方法在自我学习中的应用,包括模仿学习、迁移学习、元学习和强化学习。模仿学习通过多样来源快速获取技能,迁移学习将已学技能应用于相关任务,元学习提高学习效率,强化学习通过奖励优化技能。
图 12. 具身学习:过程和方法。
具身学习可以建模为目标条件部分可观察马尔可夫决策过程 (goal-conditional partially observable Markov decision process, POMDP),定义为一个八元组 :
-
:环境状态集。每个状态编码多模态信息,如文本描述、图像或结构化数据。
-
:动作集。每个动作表示一个指令或命令,通常以自然语言表达。
-
:可能目标集。 指定一个特定目标,例如“购买一台笔记本电脑”。
-
:状态转移概率函数。对于每个状态-动作对
(s, a), 定义了下一个状态 的概率分布。 -
:目标条件奖励函数,评估动作 在状态 下推进目标 的程度。对于每个三元组
(s, a, g),奖励可以是数值(如分数)或文本(如“干得好”),为目标提供交互式反馈。 -
:观察集,可能包括文本、视觉或多模态数据,表示智能体对状态的局部视图。
-
:观察概率函数,定义在通过动作 转移到状态 后观察到 的概率。
-
:折扣因子,平衡即时和长期奖励。仅当奖励为数值时应用。
在时间步 ,智能体接收到观察 和目标 。它根据策略 选择动作 。执行动作后,环境状态转移到 ,产生观察 和奖励 。
-
对于端到端决策,VLA 模型直接编码策略 ,处理多模态观察 并生成动作 。
-
对于分层决策,高层智能体通过 LLM 增强的策略 生成上下文感知的子目标 ,然后低层策略 将子目标映射到动作 。低层策略可以通过模仿学习或强化学习学习。
以下是原文 Table 4 的结果:
Methods Strengths Limitations Applications Imitation Learning •Rapid policy learning by Dependent on diverse, high- mimicking expert demon- strations Efficient for tasks with high- quality data quality demonstrations Limited adaptability to new tasks or sparse data scenar- ios Robotic manipulation Structured navigation Human-robot interaction with expert guidance Reinforcement Learning • Optimizes policies in dy- namic uncertain environ- ments via trial-and-errors Excels in tasks with clear re- ward signals Requires large samples and Autonomous navigation computational resources Sensitive to reward function and discount factor Adaptive human-robot in- teraction • Dynamic task optimization Transfer Learning •Accelerates learning by • Risks negative transfer Navigation across diverse transferring knowledge between related tasks Enhances generalization in • Requires task similarity for related tasks when tasks differ signifi- cantly effective learning environments • Manipulation with shared structures •Cross-task skill reuse Meta-Learning •Rapid adaptation to new tasks with minimal data Ideal for diverse embodied tasks Demands extensive pre- training and large datasets Establishing a universal meta-policy is resource- intensive Rapid adaptation in naviga- tion, manipulation, or inter- action across diverse tasks and environments
表4:具身人工智能学习方法比较。
4.2.1. 模仿学习 (Imitation Learning)
模仿学习是具身学习中的关键方法,它通过模仿专家演示使智能体学习策略,从而快速获取目标导向任务的决策策略 [204]。训练通过专家状态-动作对 (s, a) 的数据集进行监督学习。目标是学习一个策略 ,通过最小化专家动作的负对数似然 (negative log-likelihood) 来密切复制专家的行为。
其目标函数定义如下: 其中 是专家演示集。每个演示 包含一个长度为 的状态-动作对序列: 在连续动作空间中,策略 通常建模为高斯分布 (Gaussian distribution),目标函数通过预测动作与专家动作之间的均方误差 (Mean Squared Error, MSE) 进行近似。
模仿学习样本效率高,因为它避免了大量的试错,但高度依赖演示数据的质量和覆盖范围,在未见场景中存在困难。结合模仿学习和强化学习的混合方法可以通过模仿学习初始化策略,并通过强化学习进行完善,增强对未见情况的鲁棒性。
4.2.2. 强化学习 (Reinforcement Learning)
强化学习是目前具身学习中的主导方法。它使智能体通过与环境的试错交互来学习策略,非常适合动态和不确定环境 [139]。在每个时间步 ,智能体观察状态 并根据其策略 选择动作 。执行动作后,智能体从奖励函数 R(s, a, g) 接收奖励 ,环境根据状态转移概率 转移到新状态 ,产生观察 。
强化学习的目标函数是最大化预期累积奖励: 其中 是折扣因子,平衡即时和长期奖励。
强化学习擅长优化复杂任务的策略,但需要大量的探索,计算成本高昂。模仿学习和强化学习的混合方法可以改善这一问题,模仿学习提供初始策略以减少探索,强化学习通过与环境的交互进行完善。
4.2.3. 迁移学习 (Transfer Learning)
在从头开始训练需要大量样本和时间的情况下,迁移学习可以减轻工作量 [152]。它允许智能体利用源任务的知识加速相关目标任务的学习。通过从源任务转移学习到的策略、特征或表示,智能体可以提高目标任务的效率和泛化能力。
给定源任务,其状态-动作空间由状态 、动作 和策略 定义,迁移学习将源策略 适应于具有不同动力学或目标的目标任务。目标是通过少量目标任务数据微调策略,最小化源策略 与目标策略 之间的散度 (divergence)。该过程由目标任务的任务特定损失指导,并受 Kullback-Leibler (KL) 散度约束以进行策略对齐: 其中 表示目标任务的最优策略参数, 和 分别是源策略和目标策略的参数, 衡量源策略 与目标策略 之间的散度, 是目标任务的任务特定损失, 是平衡策略对齐和任务性能的正则化参数。
4.2.4. 元学习 (Meta-Learning)
元学习也可以用于具身人工智能,使智能体学习如何学习 [51, 66],从而能够用少量样本迅速推断新任务的最优策略。在每个时间步 ,智能体接收到观察 和目标 ,并根据适应任务特定动力学的元策略选择动作 ,这些动力学由状态转移概率 和奖励函数 R(s, a, g) 定义。目标是通过最小化任务特定数据上的损失来优化跨任务的预期性能。
在模型无关元学习 (Model-Agnostic Meta-Learning, MAML) [52] 的背景下,这通过学习一组初始模型参数 来实现,这些参数可以快速适应新任务,只需最少的更新。具体来说,对于一组任务 ,MAML 优化元目标如下: 其中 表示最优元策略参数, 是任务特定损失, 是由 参数化的模型, 是通过学习率 进行梯度更新后的任务特定参数,外部优化最小化适应后跨任务的预期损失。
4.2.5. 大型模型赋能的模仿学习 (Imitation Learning Empowered by Large Models)
模仿学习的主要目标是通过模仿演示者的动作,使智能体达到专家水平的性能。行为克隆 (behavior cloning) [53] 作为最重要的模仿学习方法,将模仿学习表述为一个监督回归任务。给定观察 和目标 ,策略网络 预测预期动作 。
行为克隆在构建鲁棒策略方面仍面临困难 [204]。它对高质量专家演示的依赖阻碍了向未见状态或目标的泛化。专家演示通常表现出随机性、多模态性和复杂性,策略网络难以捕捉,导致模仿保真度受损和性能下降。大型模型的最新进展显著增强了行为克隆,解决了其固有限制。如图13(下图)所示,大型模型从以下几个方面赋能模仿学习:
-
利用扩散模型构建策略网络。
-
利用 Transformer 构建策略网络。
该图像是图示,展示了利用扩散模型和变换器的模仿学习机制。图中包含专家数据集、状态/观察与动作的关系,以及基于扩散模型和变换器的决策网络结构示意。
图 13. 扩散模型或 Transformer 赋能的模仿学习。
-
扩散模型策略网络 (Diffusion-based Policy Network): 扩散模型在处理复杂多模态分布方面表现出色 [40]。它们可用于生成多样化的动作轨迹,从而增强策略的鲁棒性和表达能力。
- Pearce [142] 提出了一个基于扩散模型的模仿学习框架,将扩散模型整合到策略网络中。通过迭代地对专家演示进行加噪和去噪优化,该框架可以捕捉动作分布的多样性,并生成多样化的动作序列。
- DABC [34] 采用两阶段过程,在扩散模型的赋能下训练策略网络。它首先通过行为克隆预训练一个基础策略网络,然后通过扩散模型完善动作分布建模。
- Diffusion Policy [36] 提出了一个策略网络,将扩散模型作为视觉驱动机器人任务的决策模型。它使用视觉输入和机器人当前状态作为条件,采用 U-Net 作为去噪网络,根据视觉特征和状态向量预测去噪步骤,从而生成连续动作序列。
- 为了增强策略网络的空间感知能力,3D-Diffusion [217] 提出了一个基于 3D 输入的扩散策略框架。它使用简单的 3D 表示作为输入,利用扩散模型生成动作序列,从而通过捕捉空间信息提高视觉运动策略的泛化能力。
-
变换器策略网络 (Transformer-based Policy Network): Transformer 架构可以通过将专家轨迹视为序列数据,并利用自注意力机制 (self-attention mechanisms) 建模动作、状态和目标之间的依赖关系,从而赋能模仿学习。这种端到端方法最小化了中间步骤中的误差累积,增强了策略的一致性和准确性。
- Google 的 RT-1 [20] 首次展示了 Transformer 在机器人控制中的潜力。通过结合大规模、多样化数据集(13万+轨迹,700+任务)和预训练视觉-语言模型,它显著提高了未见任务和场景的任务泛化能力。
- 后续工作 RT-Trajectory [62] 引入了“轨迹草图 (trajectory sketch)”方法,整合低层视觉线索以增强端到端 Transformer 的任务泛化能力。
- 斯坦福大学的 ALOHA [224] 利用 Transformer 的编码-解码结构从多视角图像生成机械臂动作序列,以低成本硬件实现精确的双臂操作。其后续研究使用动作分块 (action chunking) 策略预测多步动作序列,显著提高了长期任务的稳定性和一致性。
- Mobile ALOHA [58] 将原始任务扩展到全身协调的移动操作任务,引入移动平台和远程操作界面来处理更复杂的双臂任务。
- 对于 3D 空间操作,HiveFormer [224] 和 RVT [60] 利用多视角数据和 CLIP 进行视觉-语言特征融合,直接预测 6D 抓取姿态,在 RLBench 和真实世界机械臂任务中取得了最先进的性能。
- Man 针对可变形物体(如织物或软材料)的抓取,提出了一个结合视觉和触觉反馈的 Transformer 框架。
- Google 的 RoboCat [19] 采用跨任务、跨实体具身模仿学习,整合 VQ-GAN [50] 对视觉输入进行词元化,利用决策 Transformer (Decision Transformer) 预测动作和观察,仅用少量样本即可实现快速策略泛化。
- RoboAgent [17] 采用类似的编码-解码结构,融合视觉、任务描述和机器人状态,以最小化动作序列预测误差。
- CrossFormer [44] 提出了一个基于 Transformer 的跨具身任务模仿学习架构,在大规模专家数据上训练,统一处理操作、导航、移动和空中任务,展示了多任务学习的潜力。
4.2.6. 大型模型赋能的强化学习 (Reinforcement Learning Empowered by Large Models)
通过与环境的交互,强化学习 [11] 使智能体能够发展最优控制策略,适应多样化的未见场景,在动态环境中保持鲁棒性,并从有限数据中学习,从而在真实世界中实现复杂的任务。早期强化学习基于策略搜索和价值函数优化,如 Q-学习 [194] 和 SARSA [164]。随着深度学习的主导地位,强化学习与深度神经网络结合,形成了深度强化学习 (DRL),使其能够从高维输入中学习复杂的策略,取得了显著成就,如 AlphaGo [174] 和 Deep Q-Network (DQN) [130]。
尽管取得了这些进展,强化学习在构建策略网络 和设计奖励函数 R(s, a, g) 方面仍面临局限性。大型模型的最新进展从以下几个方面赋能了强化学习:
-
改进奖励函数设计。
-
通过建模复杂动作分布优化策略网络构建。 如图14(下图)所示。
该图像是一个示意图,展示了大模型在强化学习中的应用。图中展示了环境、状态、动作以及基于奖励函数和策略网络构建的设计,涉及扩散、变换器和大语言模型的构建方法。该图揭示了如何通过大模型设定奖励来优化智能体的决策过程。
图 14. 大型模型赋能的强化学习。
-
奖励函数设计 (Reward Function Design): 设计奖励函数一直是强化学习的挑战 [49],因为它复杂且具有任务特定性。传统奖励函数由领域专家手动设计,需要全面考虑任务完成度、能耗、安全性以及各因素的权重,这非常困难。手动设计常导致稀疏或缩放不佳的奖励,引起奖励欺骗 (reward hacking) 等问题。 大型模型通过生成 (1) 奖励信号 或 (2) 奖励函数
R(s, a, g),提供了一个有前景的解决方案,减少了对手动设计的依赖,并捕捉复杂的多模态反馈。- Kwon et al. 和 Language to Rewards (L2R) [215] 分别引入了零样本和少样本方法,利用 GPT-3 直接从文本行为提示中生成奖励信号,将高层目标转化为硬件特定的控制策略。
- Text2Reward [205] 通过从环境描述和示例生成密集的、可解释的 Python 奖励函数来改进这一点,并通过人工反馈迭代完善,在机器人操作和运动任务中实现了高成功率。
- Eureka [120] 利用 GPT-4 从任务和环境提示中创建密集奖励。它采用自动化迭代策略优化奖励函数,超越了人工设计的奖励,减轻了 Text2Reward 对人工反馈的依赖。
- Auto MC-Reward [106] 通过多阶段管道在 Minecraft 中实现全面自动化,其中奖励设计器生成奖励信号,验证器确保质量,轨迹分析器通过失败驱动迭代完善奖励。
-
策略网络构建 (Policy Network Construction): 离线强化学习 (Offline reinforcement learning) [101] 从预收集的数据集中学习最优策略,无需在线交互。但对静态数据集的依赖可能导致数据集中不存在的动作出现错误。策略正则化 (policy regularization) 可以通过限制行为策略的偏差来缓解这个问题。但策略表达能力的局限性和次优的正则化方法可能导致性能不佳。 为增强离线强化学习的表达能力和适应性,研究人员提出了利用 (1) 扩散模型、(2) 基于 Transformer 的架构和 (3) LLM 来赋能策略网络的构建。如图15(下图)所示。
该图像是示意图,展示了基于扩散模型、变换器和大规模语言模型(LLM)的决策政策设计。图中分别列出了这三种方法在 Q 学习和策略优化中的作用,强调了各自的网络结构和信息流动。主要内容包括扩散模型的策略、变换器的执行流程及微调的 LLM 策略。公式部分涉及 Q 函数的更新,标记为 Q(s, a)。图 15. 大型模型赋能的策略网络构建。
-
扩散模型策略网络构建 (Policy network construction with diffusion models): 扩散模型 [40] 通过迭代加噪和去噪,建模复杂动作分布,从而增强策略表达能力。
- DiffusionQL [193] 采用扩散模型作为基础策略,在 Q-学习框架内建模动作分布并训练以最大化价值函数目标。
- 然而,扩散模型需要大量的去噪步骤才能从完全加噪状态生成动作。为减轻工作量,EDP [91] 引入了一种高效的采样方法,可以在单一步骤中从中间加噪状态重建动作,显著降低了计算开销。
-
基于 Transformer 架构策略网络构建 (Policy network construction with Transformer-based architectures): 基于 Transformer 的架构利用自注意力机制捕捉轨迹中的长期依赖,从而提高策略的灵活性和准确性。
- 决策 Transformer (Decision Transformer) [31] 将离线强化学习重新定义为条件序列建模问题,将状态-动作-奖励轨迹视为序列输入,并应用监督学习从离线数据集中生成最优动作。
- 在此基础上,Prompt-DT [207] 通过引入提示工程 (prompt engineering) 在少样本场景中增强泛化能力。
- 为了提高动态环境中的适应性,在线决策 Transformer (Online Decision Transformer, ODT) [228] 通过离线强化学习预训练 Transformer 学习序列生成,然后通过在线强化学习交互进行微调。
- Q-Transformer [30] 将 Transformer 的序列建模与 Q 函数估计相结合,自回归地学习 Q 值以生成最优动作。
- 在多任务离线强化学习中,Gato [158] 采用基于 Transformer 的序列建模方法。
-
LLM 策略网络构建 (Policy network construction with LLM): 在 Transformer 的序列建模能力基础上,LLM 通过利用预训练知识简化离线强化学习任务,引入了一种新范式。
- GLAM [28] 使用 LLM 作为策略智能体,生成可执行的动作序列,并通过 PPO (Proximal Policy Optimization) 进行在线优化,利用上下文记忆提高长时程规划中的序列一致性。
- LaMo [169] 采用 GPT-2 作为基础策略,通过 LoRA (Low-Rank Adaptation) 进行微调以保留先验知识,将状态-动作-奖励序列转换为语言提示以生成与任务对齐的策略。
- Reid [159] 探索了 LLM 的可迁移性,使用预训练的 BERT,通过外部知识库进行增强和特定任务微调。
-
4.3. 世界模型 (World Models)
世界模型 (world models) 作为环境的内部模拟或表示,使智能系统能够在不完全依赖真实世界交互的情况下,预测未来状态、理解因果关系并做出合理决策。它们提供了一个丰富的认知框架,促进在复杂动态环境中更高效的学习、决策和适应,从而增强智能体执行复杂任务的能力。本节将探讨世界模型的设计及其在决策和具身学习中的贡献。图16(下图)展示了世界模型及其在决策和具身学习中的应用。
该图像是示意图,展示了世界模型在决策制定和体现学习中的应用。图中包含三部分:左上角为不同类型的世界模型设计,包括潜在空间模型、基于变换器的模型和基于扩散的模型;右侧展示了世界模型在决策制定中的作用,强调预测和上下文知识的整合;底部则说明了世界模型在体现学习中的应用,包括状态转移、奖励和数据生成等关键环节。图中还提到了JEPA和相关组件的交互关系。
图 16. 世界模型及其在决策和具身学习中的应用。
4.3.1. 世界模型设计 (Design of World Models)
世界模型概念可追溯到强化学习 [233]。传统强化学习依赖重复的智能体-环境交互,计算成本高昂,在数据稀缺或复杂场景中不切实际。世界模型使智能体能够在模拟环境中学习,特别适用于数据稀缺或复杂场景。在设计方面,当前世界模型可分为四种类型:潜在空间世界模型、基于 Transformer 的世界模型、基于扩散的世界模型和联合嵌入预测架构。图16的上半部分展示了这些类型。
-
潜在空间世界模型 (Latent Space World Model): 以循环状态空间模型 (Recurrent State Space Model, RSSM) [67, 69] 为代表,促进潜在空间中的预测。RSSM 从像素观察中学习动态环境模型,并在编码的潜在空间中规划动作。通过将潜在状态分解为随机和确定性部分,RSSM 考虑了环境的确定性和随机性因素。
- PlaNet [71] 采用 RSSM,结合门控循环单元 (Gated Recurrent Unit, GRU) 和卷积变分自编码器 (Convolutional Variational AutoEncoder, CVAE),利用 CNN 进行潜在动力学建模和模型预测控制。
- Dreamer [70] 通过从潜在表示中学习动作器 (actor) 和价值网络 (value networks) 进一步发展了它。
- Dreamer V2 [72] 纯粹从世界模型生成的想象序列中学习行为,在 Atari 200M 基准测试中取得了与人类玩家相当的性能。
- Dreamer V3 [73] 通过 symlog 预测、层归一化 (layer normalization) 和指数移动平均 (exponential moving average) 的归一化回报增强了稳定性。
-
变换器世界模型 (Transformer-based World Model): 潜在空间世界模型通常依赖 CNN 或循环神经网络 (Recurrent Neural Networks, RNN),在处理高维、连续或多模态环境时面临挑战。基于 Transformer 的世界模型提供了强大的替代方案。它们利用注意力机制建模多模态输入,克服了 CNN 和 RNN 的局限性,特别是在复杂记忆交互任务中表现出色。
- IRIS [129] 是最早将 Transformer 应用于世界模型之一,智能体在自回归 Transformer 世界模型中学习技能。IRIS 使用矢量量化变分自编码器 (Vector Quantized Variational Autoencoder, VQ-VAE) 对图像进行词元化,并采用自回归 Transformer 预测未来词元。
- Google 的 Genie [24] 基于时空 Transformer (spatial-temporal Transformer) [206],通过自监督学习在大量未标注互联网视频数据集上训练,性能优于传统 RSSM。
- TWM [162] 提出了一个基于 Transformer-XL 的世界模型。它将 Transformer-XL 的段级循环机制迁移到世界模型中,能够捕捉环境状态之间的长期依赖。
- STORM [222] 利用随机 Transformer,融合状态和动作到单个词元中,提高了训练效率。
-
扩散世界模型 (Diffusion-based World Model): 以 OpenAI 的 Sora [22] 为代表,扩散世界模型在原始图像空间中生成预测视频序列方面取得了显著进展。与潜在空间世界模型和基于 Transformer 的世界模型不同,Sora 利用编码网络将视频和图像转换为词元,然后由大型扩散模型对这些词元应用加噪和去噪过程,随后将其映射回原始图像空间,根据语言描述生成多步图像预测。
- UniPi [47] 采用扩散模型在图像空间中建模智能体轨迹,从语言输入和初始图像生成未来关键视频帧,然后通过时间序列中的超分辨率创建一致、高质量的图像序列。
- UniSim [212] 通过在互联网数据和机器人交互视频上联合训练扩散模型,进一步改进了轨迹预测,能够预测高级和低级任务指令的长序列视频轨迹。
-
联合嵌入预测架构 (Joint Embedding Predictive Architecture, JEPA): 上述数据驱动的世界模型在自然语言处理任务中表现出色,但由于其对训练数据的依赖,缺乏真实世界的常识。Meta 的 Yann LeCun 提出的联合嵌入预测架构 (JEPA) [102] 是一种突破性方法,旨在克服常识方面的局限性。受人类大脑高效学习的启发,JEPA 在高层表示空间中引入了分层规划和自监督学习。
- 分层规划 (Hierarchical planning): 将复杂任务分解为多个抽象级别,每个级别解决特定的子任务,以简化决策和控制,侧重于语义特征而非像素级输出。
- 自监督学习 (Self-supervised learning): JEPA 训练网络预测缺失或隐藏的输入数据,使其能够在大型无标注数据集上进行预训练,并针对多样化任务进行微调。 JEPA 的架构包括感知模块 (perception module) 和认知模块 (cognitive module),使用潜在变量 (latent variables) 捕获基本信息同时过滤冗余,支持高效决策和未来场景规划。通过整合双系统概念,JEPA 平衡了“快速”直觉反应与“慢速”审慎推理。
4.3.2. 世界模型在决策中的应用 (World Model in Decision-Making)
世界模型可以为智能体提供强大的内部表示,使其能够在采取实际行动之前预测环境动态和潜在结果。对于决策,它主要扮演两个角色:(1) 模拟验证和 (2) 知识增强。图16的左侧展示了这些机制。
-
世界模型用于模拟验证 (World Model for Simulated Validation): 在机器人学中,测试决策可能非常昂贵且耗时,特别是对于序列性、长期性任务,当前决策会深刻影响未来性能。世界模型通过实现模拟验证 (simulated validation) 缓解了这一问题,允许智能体“试探性”地执行动作并观察可能的结果,而无需在真实世界中进行实际操作。
- NeBula [3] 使用贝叶斯滤波 (Bayesian filtering) 构建概率信念空间 (probabilistic belief spaces),使机器人能够在包括未知环境在内的多样结构配置中进行有效推理,提供了一种在不确定性下预测结果的复杂方法。
- UniSim [212] 是一种用于真实世界交互的生成式模拟器,可以模拟高级指令和低级控制的视觉结果。它包含一个统一的生成框架,以动作作为输入,整合不同模态的各种数据集。
-
世界模型用于知识增强 (World Model for Knowledge Augmentation): 为了成功完成真实世界任务,智能体通常需要丰富的知识和环境常识。世界模型可以为智能体增强预测性和上下文知识,这对于策略规划至关重要。通过预测未来环境状态或丰富智能体对世界的理解,世界模型使智能体能够预判结果、避免错误并随时间优化性能。
- 世界知识模型 (World Knowledge Model, WKM) [146] 通过在任务前提供全局先验知识并在任务期间维护局部动态知识来模仿人类的心理世界知识。它从专家和采样轨迹中合成全局任务知识和局部状态知识,与 LLM 集成时可实现卓越的规划性能。
- Agent-Pro [221] 将智能体与其环境(尤其是在交互任务中与其他智能体)的交互转化为“信念 (beliefs)”。这些信念代表了智能体对环境的社会理解,并为后续决策和行为策略更新提供信息。
- GovSim [144] 探索了 LLM 智能体社会中合作行为的出现。这些智能体通过多智能体对话收集关于外部世界和其他智能体策略的信息,隐式地形成自己的高层见解和世界模型表示。
4.3.3. 世界模型在具身学习中的应用 (World Model in Embodied Learning)
除了决策制定,世界模型还可以使智能体高效地学习新技能和新行为。与通常因直接智能体-环境交互而产生高计算成本和数据效率低下的无模型强化学习 (model-free reinforcement learning) 不同,基于模型的强化学习 (model-based reinforcement learning) 利用世界模型通过 (1) 模拟状态转移和 (2) 生成数据来简化学习过程。图16的右侧展示了这些作用。
-
世界模型用于状态转移模拟 (World Model for State Transitions): 传统强化学习是无模型的,直接从智能体-环境交互中学习,计算密集且在数据稀缺或复杂场景中不切实际。基于模型的强化学习通过利用明确捕获状态转移和动态的世界模型来缓解这些限制,允许智能体从模拟环境中增强其学习过程,以实现安全、经济高效和数据高效的训练。世界模型创建了真实世界的虚拟表示,使智能体能够探索假设动作并完善策略,而无需承担真实世界交互固有的风险或成本。
- RobotDreamPolicy [145] 学习世界模型并在其中开发策略,大大减少了与真实环境的交互。
- DayDreamer [202] 利用 Dreamer V2(一个基于 RSSM 的世界模型)将观察编码为潜在状态并预测未来状态,在真实机器人上以高样本效率实现快速技能学习。
- SWIM [128] 通过利用互联网规模的人类视频数据来理解丰富的人类交互并获得有意义的 affordances。它最初在大型以自我为中心的视频数据集上训练,然后用机器人数据进行微调以适应机器人领域。
-
世界模型用于数据生成 (World Model for Data Generation): 除了赋能学习和优化策略,世界模型,特别是基于扩散的世界模型,还可以用于合成数据。这对于具身人工智能尤其有价值,因为收集多样化和广泛的真实世界数据具有挑战性。基于扩散的世界模型可以合成真实的轨迹数据、状态表示和动力学,从而增强现有数据集或创建全新数据集以改进学习过程。
- SynthER [118] 利用基于扩散的世界模型生成低维离线强化学习轨迹数据以增强原始数据集。评估表明,扩散模型可以有效地从轨迹数据中学习状态表示和动力学方程。
- MTDiff [77] 将基于扩散的世界模型应用于生成多任务轨迹,使用专家轨迹作为提示来指导智能体轨迹的生成,使其与特定任务目标和动态对齐。
- VPDD [76] 使用大规模人类操作数据集训练轨迹预测世界模型,然后仅用少量标注动作数据微调动作生成模块,显著减少了策略学习对大量机器人交互数据的需求。
5. 实验设置
作为一篇综述文章,本文不包含具体的实验设置和结果,而是总结了具身人工智能领域中常见的数据集、评估指标和对比基线。
5.1. 数据集
训练具身智能体需要庞大而多样的数据集。
- 真实世界机器人数据:
- RT-X [186]: 收集了来自 60 多个实验室的机械臂数据,并构建了开放的 X-Embodiment 数据集。
- AutoRT [5]: 提出了在未知环境中自动数据收集的系统。
- VIMA [89]: 包含 65 万次演示。
- RT-1 [28]: 包含 13 万次演示。 尽管这些数据集规模庞大,但与视觉-语言领域的数据集(例如 LAION-5B 包含 57.5 亿个文本-图像对)相比,真实世界机器人数据仍然稀缺。
- 人类数据集的整合:
- Ego4D [61]: 提供了从互联网视频中获取的丰富真实世界动态和观察。这有助于通过利用常见的人类行为和交互来提高机器人任务的上下文理解。
- 世界模型生成数据:
-
SynthER [118]: 利用基于扩散的世界模型合成数据,增强离线强化学习轨迹数据集。
选择这些数据集进行实验的原因是它们能够提供真实世界的复杂性和多样性,以训练和测试具身智能体在不同任务和环境中的表现。然而,机器人设计的多样性、真实世界交互的复杂性以及各种任务的特定需求,使得真实世界机器人数据收集面临巨大挑战。
-
5.2. 评估指标
在具身人工智能领域,评估方法的性能通常关注以下几个方面,这些指标旨在量化智能体在完成任务、适应环境和泛化能力上的表现:
-
任务成功率 (Task Success Rate, TSR)
- 概念定义: TSR 衡量智能体在给定任务中成功完成目标的百分比。它直接反映了智能体的任务执行能力和可靠性。
- 数学公式:
- 符号解释:
成功完成任务的数量:智能体在多次尝试中,达到任务预设目标状态的次数。尝试任务的总数量:智能体执行任务的总次数。
-
泛化能力 (Generalization Capability)
- 概念定义: 泛化能力衡量智能体在未见过的新任务、新环境或新对象上的表现。它考察模型是否能够将其在训练数据上学到的知识和技能有效地迁移到不同的场景中。
- 评估方式: 通常通过在与训练数据具有不同特征(如不同物体摆放、不同环境布局、不同指令措辞)的测试集上进行任务成功率评估来衡量。没有统一的数学公式,而是通过对比不同泛化场景下的任务成功率来判断。
-
样本效率 (Sample Efficiency)
- 概念定义: 样本效率衡量智能体在达到特定性能水平所需的环境交互次数或所需训练数据的量。更高的样本效率意味着模型可以更快地学习和适应,尤其是在数据收集成本高昂的真实世界机器人任务中至关重要。
- 评估方式: 通常通过绘制学习曲线 (learning curve),观察达到特定任务成功率所需的训练步数或演示数量来衡量。
- 数学公式(近似): 可以通过计算单位训练数据量下性能提升的速率来近似,例如:
- 符号解释:
- :智能体性能(如任务成功率)的变化量。
- :训练数据样本数量的变化量或环境交互步数的变化量。
-
实时性能/推理延迟 (Real-time Performance / Inference Latency)
- 概念定义: 实时性能衡量智能体从接收感知输入到生成并执行动作所需的时间。低延迟对于在动态环境中进行安全、及时响应至关重要。
- 数学公式: 通常以毫秒 (ms) 或赫兹 (Hz)(频率)表示。
- 符号解释:
决策生成时间:模型处理输入并输出动作指令所需的时间。动作执行时间:物理实体完成动作所需的时间。Latency:总延迟。Frequency:每秒决策和执行循环的次数。
-
鲁棒性 (Robustness)
-
概念定义: 鲁棒性衡量智能体在面对扰动、噪声或不确定性(如传感器噪声、环境变化、轻微的物理干扰)时,保持其性能的能力。
-
评估方式: 通常通过在引入不同程度噪声或扰动的环境中测试任务成功率来衡量。例如,在视觉输入中添加遮挡、改变光照条件,或在机器人执行过程中施加轻微外力。
这些评估指标共同为具身人工智能方法的性能提供了全面的视图,帮助研究人员理解和改进智能体在复杂真实世界场景中的能力。
-
5.3. 对比基线
在具身人工智能领域,大型模型赋能的方法通常会与以下几类基线模型进行比较,以展示其优越性:
-
传统控制算法: 如 PID 控制、模型预测控制 (MPC) 等,这些方法在结构化环境中表现良好,但缺乏处理非结构化和动态环境的能力。
-
基于深度学习的传统方法: 未使用大型模型,而是采用传统的深度神经网络进行感知、规划或控制。例如,基于 CNN 的视觉处理和基于 DQN/PPO 的强化学习方法。
-
未赋能大型模型的模仿学习/强化学习: 这些基线展示了在不利用大规模预训练知识的情况下,模仿学习或强化学习的性能上限。
-
特定任务的大型模型: 可能会与一些只专注于特定任务的大型模型进行比较,以展示其通用性。
-
其他大型模型赋能的基线: 在大型模型赋能的具身人工智能领域,新的 SOTA (state-of-the-art) 方法不断涌现,因此最新的工作通常会与前沿的 LLM-robotics、VLM-robotics 或早期 VLA 模型进行比较。
这些基线具有代表性,因为它们涵盖了从经典控制到现代深度学习,再到大型模型驱动的不同技术范式,从而能够全面评估新方法的创新性和有效性。
6. 实验结果与分析
作为一篇综述文章,本文不包含具体的实验结果数据或作者自己的消融实验。然而,它通过对大量现有研究的总结和比较,揭示了大型模型赋能具身人工智能领域的核心成果和趋势。本节将根据综述的内容,对主要发现和比较进行总结。
6.1. 核心结果分析
本文通过回顾大量前沿工作,得出了以下核心结论:
-
大型模型显著增强了感知、交互、规划和学习能力:
- 感知增强: LVM、LVLM 和 MLM 通过其强大的视觉理解能力,使具身智能体能够更准确地识别物体、理解场景语义和空间关系。例如,SAM 在分割任务中的强大能力,以及 GPT-4V 在处理图像-文本联合输入时的多模态推理能力。VLA 模型通过感知能力增强技术(如 BYO-VLA 的运行时观察干预、3D-VLA 的 3D 感知)进一步提升了对复杂环境的理解。
- 规划增强: LLM 作为认知主干,极大地提升了具身智能体的高层规划能力。无论是结构化语言规划(通过 PDDL 生成和验证)、自然语言规划(通过 SayCAN 和 Grounded Decoding 结合常识与环境约束),还是编程语言规划(通过 CaP 和 Instruct2Act 生成可执行代码),LLM 都使其能够分解复杂任务,生成更灵活、适应性更强的计划。
- 执行与控制: 大型模型赋能的低层执行结合了学习驱动和模块化控制。模仿学习和强化学习与 LLM 结合,使得智能体能从数据中学习更精细的控制策略。此外,LLM 能够动态调用预训练模型(如 CLIP、SAM)作为工具,实现更灵活的模块化控制。
- 学习效率: 大型模型通过扩散模型和 Transformer 架构赋能模仿学习和强化学习,解决了传统方法在处理复杂行为分布和奖励函数设计上的难题。扩散模型能捕捉动作分布的多样性,Transformer 则擅长建模轨迹中的长期依赖。LLM 在奖励函数设计方面的应用(如 Eureka、Text2Reward)显著降低了手动设计的难度,并能生成更高质量的密集奖励。
-
分层与端到端决策范式各有优劣:
- 分层决策在可解释性、可靠性和集成领域知识方面表现优异,适用于结构化任务。但其模块间的协调问题和对非结构化环境的低适应性是主要局限。大型模型通过提升各模块的智能性,缓解了其部分问题。
- 端到端决策(VLA 模型)通过将感知、语言理解和动作生成整合到一个统一框架,减少了模块间误差累积,并在复杂、开放式任务中展现出强大的泛化能力和实时性。然而,其黑箱性质导致可解释性低,且高度依赖大规模训练数据和计算资源。VLA 模型的增强研究集中在提升感知能力、优化轨迹动作生成(如扩散模型的应用)和降低训练成本(如参数高效微调和模型压缩)。
-
世界模型在具身人工智能中扮演关键角色:
-
决策支持: 世界模型通过提供内部环境模拟能力,实现了“模拟验证”,使智能体能够在采取实际行动前预判结果,避免错误。同时,通过“知识增强”,世界模型能为智能体提供预测性和上下文知识,支持更复杂的策略规划。
-
学习加速: 基于模型的强化学习利用世界模型模拟状态转移,大大提高了样本效率,降低了真实世界交互的成本和风险。此外,世界模型(尤其是扩散模型)能够合成逼真的轨迹数据和状态表示,有效缓解了具身数据稀缺的问题,增强了学习过程。
总体而言,大型模型已成为推动具身人工智能发展不可或缺的动力,使其在从感知到学习的各个环节都取得了显著进步。但同时,其自身的局限性也催生了新的研究方向。
-
6.2. 数据呈现 (表格)
本综述的核心数据呈现体现在其对现有文献的分类和比较上,特别是 Table 1 和 Table 2。
以下是原文 Table 1 的结果:
| Survey type | Related surveys | Publication time | Large models | Decision-making | Embodied learning | World model | |||
| HierarchicalEnd2end | IL | RL | Other | ||||||
| Specific | [29, 104, 113, 151, | 2024 | √ | × | × | × | × | × | × |
| 191, 225] [210] | 2024 | × | √ | × | √ | √ | √ | ||
| [26] | 2024 | √ | × | × | × | × | × | × × | |
| [7, 227] | 2025 | × | × | × | √ | √ | √ | × | |
| [188] | 2024 | × | √ | × | × | × | × | × | |
| [204] | 2024 | × | √ | × | × | × | √ | × | |
| [165] | 2025 | × | × | × | × | √ | × | × | |
| [43, 122] | 2024 | × | × | × | × | × | × | √ | |
| Compre hensive | [119] | 2024 | √ | √ | √ | √ | √ | × | × |
| [190] | 2024 | × | √ | √ | J | × | × | × | |
| [95] | 2024 | × | √ | √ | √ √ | × | × | × | |
| [117] | 2024 | √ √ | √ | √ √ | √ | × | √ | × | |
| Ours | √ | √ | √ | √ | |||||
表1:本综述与相关综述在综述范围上的比较。
Table 1 分析: 该表格清晰地展示了本综述与其他相关综述在覆盖范围上的差异。
-
大型模型 (Large models): 本综述以及 [29, 104, 113, 151, 191, 225], [26], [119], [117] 明确涵盖了大型模型,表明这是当前研究的热点。
-
决策制定 (Decision-making):
- 分层 (Hierarchical): 本综述、[210], [188], [204] 和所有综合性综述都涵盖了分层决策。
- 端到端 (End2end): 本综述以及 [119], [190], [95], [117] 涵盖了端到端决策,这表明端到端决策在具身人工智能领域日益重要。
-
具身学习 (Embodied learning):
- 模仿学习 (IL): 本综述以及 [210], [7, 227], [165], [119], [95], [117] 涵盖了模仿学习。
- 强化学习 (RL): 本综述以及 [210], [7, 227], [119], [190], [95], [117] 涵盖了强化学习。
- 其他 (Other): 本综述涵盖了“其他”学习方法(如迁移学习、元学习),这在许多其他综述中是缺失的,例如 [119] 和 [117] 也没有覆盖。
-
世界模型 (World model): 本综述是唯一明确涵盖世界模型的综述,除了少数专门针对世界模型的综述 [43, 122]。这突显了本综述在提供具身人工智能全面视角方面的独特贡献。
以下是原文 Table 2 的结果:
Model Contributions Enhancements • Pioneering large-scale VLA, jointly P A C RT-2 [234] (2023) Vision Encoder: ViT22B/ViT-4B Language Encoder: PaLIX/PaLM-E Action Decoder: Symbol-tuning fine-tuned on web-based VQA and robotic datasets, unlocking advanced emergent functionalities. × Seer [63] (2023) •Vision Encoder: Visual backbone Language Encoder: Transformer-based Action Decoder: Autoregressive action prediction head Efficiently predict future video frames from language instructions by extending a pretrained text-to-image diffusion model. √ × √ Octo [180] (2024) Vision Encoder: CNN • Language Encoder: T5-base Action Decoder: Diffusion Transformer First generalist policy trained on a massive multi-robot dataset (800k+ trajectories). A powerful open-source foundation model. × × Open- VLA [94] (2024) • Vision Encoder: DINOv2 + SigLIP Language Encoder: Prismatic-7B Action Decoder: Symbol-tuning An open-source alternative to RT-2, superior parameter efficiency and strong generalization with efficient LoRA fine-tuning. × × √ Mobility- VLA [37] (2024) Vision Encoder: Long-context ViT + goal image encoder •Language Encoder: T5-based instruction encoder Action Decoder: Hybrid diffusion + au- toregressive ensemble Leverages demonstration tour videos as an environmental prior, using a long-context VLM and topological graphs for navigating based on complex multimodal instructions. √ √ × Tiny-VLA [198] (2025) Vision Encoder: FastViT with low-latency encoding Language Encoder: Compact language en- coder (128-d) Action Decoder: Diffusion policy decoder (50M parameters) Outpaces OpenVLA in speed and precision; eliminates pretraining needs; achieves 5x faster inference for real-time applications. × × √
表2:主流 VLA 模型 (P: 感知, A: 轨迹动作, C: 训练成本)。
| Model | Architecture | Contributions | Enhancements | |
| A | C | |||
| Diffusion- VLA [196] (2024) | Transformer-based visual encoder for con- textual perception Language Encoder: Autoregressive rea- soning module with next-token prediction Diffusion policy head for robust action sequence generation | Leverage diffusion-based action modeling for precise control; superior contextual awareness and reliable sequence planning. | × | √ × |
| Point- VLA [105] (2025) | •Vision Encoder: CLIP + 3D Point Cloud Language Encoder: Llama-2 Action Decoder: Transformer with spatial token fusion | Excel at long-horizon and spatial reasoning tasks; avoid retraining by preserving pretrained 2D knowledge | √ | × |
| VLA- Cache [208] (2025) | Vision Encoder: SigLIP with token mem- ory buffer Language Encoder: Prismatic-7B •Action Decoder: Transformer with dy- namic token reuse | Faster inference with near-zero loss; dynamically reuse static features for real-time robotics | × | × √ |
| π0 [18] (2024) | Vision Encoder: PaliGemma VLM back- bone Language Encoder: PaliGemma (multi- modal) | Employ flow matching to produce smooth, high-frequency (50Hz) action trajectories for real-time control. | ||
| π0 Fast [143] (2025) | • Vision Encoder: PaliGemma VLM back- bone Language Encoder: PaliGemma (multi- modal) Action Decoder: Autoregressive Trans- former with FAST | Introduces an efficient action tokenization scheme based on the Discrete Cosine Transform (DCT), enabling autoregressive models to handle high-frequency tasks and significantly speeding up training. | × | √ √ |
| Edge-VLA [25] (2025) | • Vision Encoder: SigLIP + DINOv2 Language Encoder: Qwen2 (0.5B parame- ters) Action Decoder: Joint control prediction (non-autoregressive) | Streamlined VLA tailored for edge devices, delivering 3050Hz inference speed with OpenVLA-comparable performance, optimized for low-power, real-time deployment. | × × | √ |
表2:主流 VLA 模型 (P: 感知, A: 轨迹动作, C: 训练成本) (续)。
| Architecture | Contributions | Enhancements | |||
| •Vision Encoder: SigLIP + DINOv2 (multi- An optimized fine-tuning recipe for | P | ||||
| OpenVLA- OFT [92] (2025) | view) j • Language Encoder: Llama-2 7B Action Decoder: Parallel decoding with action chunking and L1 regression | VLAs that integrates parallel decoding and a continuous action representation to improve inference speed and task success. | × | √ | |
| Spatial- VLA [147] (2025) | • Vision Encoder: SigLIP from PaLiGemma2 4B Language Encoder: PaLiGemma2 •Action Decoder: Adaptive Action Grids and autoregressive transformer | Enhance spatial intelligence by injecting 3D information via 'Ego3D Position Encoding' and representing actions with 'Adaptive Action Grids'. | √ | × | |
| MoLe- VLA [219] (2025) | • Vision Encoder: Multi-stage ViT with STAR router Language Encoder: CogKD-enhanced Transformer Action Decoder: Sparse Transformer with dynamic routing | A brain-inspired architecture that uses dynamic layer-skipping (Mixture-of-Layers) and knowledge distillation to improve efficiency. | × | × | V |
| VLA [230] (2025) | Vision Encoder: Object-centric spatial ViT DexGrasp- Language Encoder: Transformer with grasp sequence reasoning Action Decoder: Diffusion controller for grasp pose generation | A hierarchical framework for general dexterous grasping, using a VLM for high-level planning and a diffusion policy for low-level control. | × | √ | × |
| Dex-VLA [197] (2025) | A large plug-in diffusion-based action expert and an embodiment curriculum learning strategy for efficient cross-robot training and adaptation. | × | × | ||
表2:主流 VLA 模型 (P: 感知, A: 轨迹动作, C: 训练成本) (续)。
Table 2 分析: 该表格系统地比较了主流 VLA 模型在架构、贡献和增强方面的表现。
-
架构多样性: VLA 模型采用多样的视觉编码器(如 ViT、CNN、DINOv2+SigLIP、CLIP+3D Point Cloud)、语言编码器(如 PaLM-E、T5-base、Prismatic-7B、Llama-2、PaliGemma)和动作解码器(如 Symbol-tuning、自回归预测头、扩散 Transformer、流匹配)。这反映了 VLA 领域对不同组件组合的探索。
-
增强方向:
- 感知增强 (P): 许多模型专注于提升感知能力,例如 Seer (预测未来视频帧)、Mobility-VLA (长上下文 VLM 和拓扑图)、Point-VLA (3D 点云)、Spatial-VLA (Ego3D 位置编码)。这表明精确和多维度的环境理解是 VLA 发展的关键。
- 轨迹动作优化 (A): 基于扩散的模型(如 Octo、Diffusion-VLA、、 Fast、DexGrasp-VLA、Dex-VLA)在生成平滑、精确和高频的动作轨迹方面展现出优势。这解决了离散动作空间的局限性,使得机器人控制更加精细和鲁棒。
- 训练成本降低 (C): 许多研究致力于提高 VLA 模型的效率,使其能在资源受限的设备上部署。例如,OpenVLA (LoRA 微调)、TinyVLA (轻量级模型、快速推理)、VLA-Cache (动态词元重用)、 Fast (高效动作词元化)、Edge-VLA (边缘设备优化)、OpenVLA-OFT (并行解码)、MoLe-VLA (动态层跳过)。这对于推动具身人工智能的实际应用至关重要。
-
开源与通用性: Octo 和 OpenVLA 作为开源模型,在通用策略和参数效率方面做出了重要贡献,推动了社区的发展。
-
新兴趋势: 3D 感知 (Point-VLA, Spatial-VLA)、实时控制 (TinyVLA, Fast, Edge-VLA) 和更精细的抓取操作 (DexGrasp-VLA) 是 VLA 模型未来的重要发展方向。
通过这些表格,本综述不仅总结了领域现状,还清晰地指出了不同方法的特点、优势和局限性,为读者提供了全面的概览。
6.3. 消融实验/参数分析
在大型模型赋能的具身人工智能研究中,消融实验 (Ablation Studies) 和参数分析 (Parameter Analysis) 是验证模型组件有效性和理解其行为的关键手段。虽然本文作为综述没有进行自己的实验,但它总结了在具身人工智能研究中如何进行这些分析:
-
消融实验验证组件有效性: 研究者通常会系统地移除或替换模型中的特定组件(例如,移除 LLM 规划模块,或替换为传统规划器;移除 VLA 模型中的某个视觉编码器,或关闭多模态融合机制),然后比较模型性能。这种方法旨在量化每个组件对整体性能的贡献,从而验证其设计选择的合理性。例如,在 VLA 模型中,可能会进行消融实验以证明引入扩散模型进行动作轨迹优化的效果,或验证特定感知增强模块对任务成功率的影响。
-
关键超参数的影响: 参数分析旨在理解模型关键超参数(如学习率、模型大小、训练数据量、奖励函数的权重、扩散模型的步数等)如何影响性能。例如,在强化学习中,折扣因子 的选择会显著影响长期与短期奖励的平衡。在大型模型微调中,LoRA 等 PEFT 方法的秩 (rank) 参数会影响效率与性能的权衡。研究者通常通过敏感性分析 (sensitivity analysis) 来确定最优参数配置,并讨论其对模型稳定性、收敛速度和最终性能的影响。
这些实验通常在模拟环境(如 Habitat、Isaac Gym)或受控的真实机器人平台上进行,使用上述的评估指标(如任务成功率、样本效率、推理延迟)来量化结果。通过这些深入分析,研究者能够更好地理解模型的工作原理,优化模型设计,并为未来的研究提供指导。
7. 总结与思考
7.1. 结论总结
本综述对大型模型赋能下的具身人工智能进行了全面而系统的审视,聚焦于自主决策和具身学习两大核心方面。文章首先概述了具身人工智能的基本概念和大型模型的分类及其通用能力增强技术。随后,深入探讨了两种决策范式——分层决策和端到端决策。
在分层决策中,大型模型显著增强了高层规划(结构化、自然语言和编程语言规划)、低层执行(结合传统控制、学习驱动和模块化控制)以及多源反馈(自我反思、人工和环境反馈)机制,提升了智能体的决策质量和适应性。
在端到端决策中,VLA 模型作为核心,通过词元化与表示、多模态信息融合和动作去词元化实现直接的感知-动作映射。本综述详细介绍了 VLA 模型的各项增强,包括感知能力提升、轨迹动作优化(特别是扩散模型的应用)和训练成本降低,并对主流 VLA 模型进行了比较。
此外,本文系统地介绍了具身学习方法,包括模仿学习、强化学习、迁移学习和元学习,并深入分析了大型模型如何赋能模仿学习(通过扩散和 Transformer 策略网络)和强化学习(通过改进奖励函数设计和策略网络构建)。
尤为重要的是,本综述首次将世界模型整合到具身人工智能的讨论中,阐述了其在决策(模拟验证、知识增强)和学习(状态转移模拟、数据生成)中的关键作用。
最后,文章指出了具身人工智能领域当前面临的严峻挑战,包括具身数据稀缺、持续学习、计算与部署效率以及虚实鸿沟,并提出了潜在的未来研究方向。
总体而言,大型模型已成为推动具身人工智能迈向通用人工智能的强大引擎,显著提升了其在复杂真实世界环境中感知、决策、行动和学习的能力。
7.2. 局限性与未来工作
本文在第 7 节“挑战与未来展望 (CHALLENGE AND FUTURE PROSPECTS)”中详细讨论了具身人工智能领域面临的开放性问题,并指出了潜在的未来研究方向。
7.2.1. 具身数据稀缺性 (Scarcity of Embodied Data)
- 局限性: 训练具身智能体需要大量多样化的数据集,但真实世界机器人数据因机器人设计多样性、真实世界交互复杂性以及特定任务要求等原因,仍然严重不足。现有数据集(如 VIMA、RT-1)的规模远小于视觉-语言领域的对应数据集(如 LAION-5B)。此外,直接整合大规模人类数据集(如 Ego4D)也面临人类与机器人形态差异导致的动作错位和可迁移性降低问题。
- 未来方向:
- 利用世界模型合成数据: 特别是基于扩散的世界模型,可以从现有智能体经验中合成新数据,例如 SynthER [118] 通过扩散世界模型增强离线强化学习轨迹数据集。
- 更智能的数据生成机制: 探索能够生成高质量、高多样性、且能有效弥合数据真实世界差距的合成数据方法。
- 跨模态数据整合与对齐: 研发更有效的机制,将人类数据(视频、演示)转换为机器人可用的、对齐的动作和感知信息。
7.2.2. 持续学习 (Continual Learning)
- 局限性: 具身智能体需要能够自主更新知识并优化策略,同时保持先前获得的能力。然而,持续学习面临核心挑战:
- 灾难性遗忘 (Catastrophic forgetting) [141]: 学习新任务会损害先前知识。
- 高效自主探索 (Efficient autonomous exploration) 困难: 在高维状态空间或稀疏奖励场景中,难以平衡探索新经验和利用现有知识。
- 真实世界不可预测性: 传感器退化、机械磨损等问题增加了持续学习的复杂性。
- 未来方向:
- 经验回放 (Experience replay) [10]: 通过周期性重访历史数据来缓解灾难性遗忘。
- 正则化技术 (Regularization techniques) [98]: 在学习新任务时约束权重更新以保留先前知识。
- 数据混合策略 (Data mixing strategies) [100]: 整合不同比例的先验数据分布与新数据以减少特征失真。
- 增强自监督学习: 通过内在动机驱动主动探索。
- 多智能体协作机制: 通过集体交互加速个体学习。
7.2.3. 计算与部署效率 (Computation and Deployment Efficiency)
- 局限性: 日益复杂的具身智能模型需要大量的计算资源进行训练和部署。例如,DiffusionVLA [22] 需要数百个高端 GPU 和数周训练,推理延迟达数秒,不适用于实时控制。RT-2 [234] 复杂的架构需要约 20GB 显存,难以部署在资源受限的边缘设备(如实际机器人)上。基于云计算的部署因数据隐私、安全和实时操作限制而通常不切实际。
- 未来方向:
- 参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 方法 [82]: 如 LoRA,显著降低微调成本(可达全微调的 1/10),但可能在复杂任务中牺牲性能。
- 模型压缩技术: 包括知识蒸馏 (knowledge distillation) 和量化 (quantization)。TinyVLA [234] 通过知识蒸馏将模型压缩至约 1000 万参数,结合快速采样算法和 4 位量化,实现 30ms 推理延迟和 2GB 内存占用。
- 硬件加速 (Hardware acceleration) [232]: 提供即时性能提升,但缺乏跨平台泛化性。
- 设计轻量级架构: 优化大型模型通过压缩技术和设计固有的轻量级架构是最可行的方案。
7.2.4. 虚实鸿沟 (Sim-to-Real Gap)
- 局限性: 模拟器 [163] 允许在大量多样化模拟数据上训练智能体,成本效益高且可扩展。然而,模拟器与真实世界环境之间存在“虚实鸿沟” [187],导致在模拟器中训练的智能体部署到真实世界时表现不佳。这包括不准确的物理动力学(摩擦、碰撞、流体行为难以精确建模 [33])和视觉渲染差异(光照、相机曝光、材料特性难以模拟 [14])。模拟无法完全复制现实,导致训练策略在真实世界的分布外场景中失败。
- 未来方向:
- 先进模拟器开发: 例如,可微分且高度逼真的 Genesis [134] 正在积极通过精确的物理建模和照片级真实感渲染来缩小这一差距。
- 域适应 (Domain Adaptation) 和域随机化 (Domain Randomization) 技术: 进一步研究和改进,使模型能够从模拟数据中学习到更具鲁棒性的特征,从而更好地泛化到真实世界。
- 混合现实学习 (Hybrid Reality Learning): 结合模拟和真实世界的优势,例如通过少量真实世界交互来微调在模拟器中训练的策略。
7.3. 个人启发与批判
这篇综述为大型模型赋能的具身人工智能领域提供了一个全面而深入的视角,对于初学者和资深研究者都极具价值。
个人启发:
- 大型模型的潜能远超预期: 综述详细展示了大型模型在具身人工智能各个环节(感知、规划、执行、学习)的赋能能力,尤其是 VLA 模型和世界模型的结合,预示着具身智能体将从过去的“任务特定”迈向“通用智能体”的巨大潜力。这启发我们应更积极地探索大型模型作为通用智能体核心组件的可能性。
- 范式融合与协同是关键: 分层决策与端到端决策并非互斥,而是各有优势。未来的具身人工智能系统可能需要更巧妙地融合这两种范式,例如高层由 LLM 进行符号规划,低层由 VLA 模型进行端到端控制。这种“混合智能 (hybrid intelligence)”的思路,结合了大型模型的推理能力和端到端系统的流畅性,有望克服单一范式的局限。
- 世界模型的重要性被低估: 综述强调了世界模型在决策和学习中的关键作用,并首次将其系统地整合进来。这提醒我们,仅有强大的感知和控制能力是不够的,智能体还需要一个内部的“心理模型”来理解环境、预测未来、进行规划和生成经验,这对于迈向 AGI 至关重要。世界模型的发展将是具身人工智能的下一个前沿。
- 数据是永恒的挑战与机遇: 具身数据稀缺性是核心痛点,但世界模型的数据生成能力、人类数据的整合以及高效微调方法都提供了解决途径。这启发我们,未来研究应更注重如何从有限的真实数据中最大化学习,以及如何智能地利用合成数据和多模态数据。
批判与可以改进之处:
-
评估基准的标准化缺失: 综述虽然提及了各种模型和方法,但未能深入探讨具身人工智能领域缺乏统一、大规模、可复现的评估基准的问题。当前模型的性能往往在不同的模拟器或机器人平台上进行评估,这使得不同研究之间的直接比较变得困难。未来的综述或研究应呼吁建立更具普适性的基准,以加速领域发展。
-
伦理与安全考虑: 具身智能体在真实世界中操作,其决策和行动可能涉及复杂的伦理和社会安全问题。例如,自主驾驶机器人、护理机器人等。本综述虽然全面,但并未对大型模型赋能下的具身人工智能可能带来的伦理风险、偏见问题、以及如何确保其安全、可信赖地在人类环境中运行进行深入讨论。这在 AGI 的追求中是不可回避的关键一环。
-
计算资源的可持续性: 综述中多次提及大型模型的巨大计算需求以及部署效率挑战。虽然提出了模型压缩和 PEFT 等方案,但并未深入探讨如何在保证性能的前提下,从更根本的设计层面(如稀疏性、脉冲神经网络、神经形态计算)解决计算可持续性的问题,以支持更广泛的实际部署。
-
理论基础的深入探讨: 综述主要从工程和应用角度对现有方法进行了分类和总结。虽然对初学者非常友好,但在某些部分可以更深入地探讨这些大型模型赋能的背后理论,例如为什么 Transformer 架构在建模轨迹时表现出色?扩散模型在生成多样性动作上的理论优势是什么?这些理论层面的洞察可以帮助读者更好地理解这些技术选择的深层原因。
-
对“涌现能力 (Emergent Capabilities)”的讨论略显不足: 综述在介绍大型模型时提到了其“涌现能力”,但在具身人工智能的背景下,这种能力具体如何体现、如何被测量、以及它是否真正地带来了超越简单组合的智能,可以有更深入的阐述。例如,VLA 模型是否真的具备了超越其组件的“具身常识”或“具身推理”能力?
总而言之,这篇综述是一项出色的工作,为理解具身人工智能的现状和未来奠定了坚实基础。通过不断解决现有挑战,并结合更深入的理论探索和伦理考量,具身人工智能有望在大型模型的推动下,真正迈向通用智能的愿景。
相似论文推荐
基于向量语义检索推荐的相关论文。