Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI
TL;DR 精炼摘要
本综述全面探讨了具身人工智能的最新进展,强调其在实现通用人工智能以及连接网络空间与物理世界中的重要性。分析涵盖了具身感知、交互、智能体及仿真到现实适应等四个主要研究目标,探讨了多模态大模型的复杂性及其应用。同时总结了当前面临的挑战及未来方向。
摘要
Embodied Artificial Intelligence (Embodied AI) is crucial for achieving Artificial General Intelligence (AGI) and serves as a foundation for various applications (e.g., intelligent mechatronics systems, smart manufacturing) that bridge cyberspace and the physical world. Recently, the emergence of Multi-modal Large Models (MLMs) and World Models (WMs) have attracted significant attention due to their remarkable perception, interaction, and reasoning capabilities, making them a promising architecture for embodied agents. In this survey, we give a comprehensive exploration of the latest advancements in Embodied AI. Our analysis firstly navigates through the forefront of representative works of embodied robots and simulators, to fully understand the research focuses and their limitations. Then, we analyze four main research targets: 1) embodied perception, 2) embodied interaction, 3) embodied agent, and 4) sim-to-real adaptation, covering state-of-the-art methods, essential paradigms, and comprehensive datasets. Additionally, we explore the complexities of MLMs in virtual and real embodied agents, highlighting their significance in facilitating interactions in digital and physical environments. Finally, we summarize the challenges and limitations of embodied AI and discuss potential future directions. We hope this survey will serve as a foundational reference for the research community. The associated project can be found at https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI
中文翻译:《对齐网络空间与物理世界:具身人工智能的综合综述》
1.2. 作者
Yang Liu, Weixing Chen, Yongjie Bai, Xiaodan Liang, Guanbin Li, Wen Gao, Liang Lin
作者团队主要来自中山大学计算机科学与工程学院、广东省大数据分析与处理重点实验室、鹏城实验室以及北京大学数字媒体研究所。其中,Liang Lin教授为通讯作者。
1.3. 发表期刊/会议
该论文作为预印本 (arXiv preprint) 发表。 发布状态:预印本 (Preprint) 领域声誉:arXiv 是一个广受学术界认可的预印本服务器,允许研究人员在同行评审之前分享其研究成果,对快速传播和交流最新科研进展具有重要影响力。
1.4. 发表年份
2024年7月9日
1.5. 摘要
具身人工智能 (Embodied Artificial Intelligence, Embodied AI) 对于实现 通用人工智能 (Artificial General Intelligence, AGI) 至关重要,并作为连接 网络空间 (cyberspace) 和 物理世界 (physical world) 的各种应用(例如 智能机电系统 (intelligent mechatronics systems)、智能制造 (smart manufacturing))的基础。最近,多模态大模型 (Multi-modal Large Models, MLMs) 和 世界模型 (World Models, WMs) 的出现因其卓越的感知、交互和推理能力而引起了广泛关注,使其成为 具身智能体 (embodied agents) 的一个有前景的架构。在本综述中,我们对 具身人工智能 (Embodied AI) 的最新进展进行了全面探索。我们的分析首先探讨了 具身机器人 (embodied robots) 和 模拟器 (simulators) 的代表性前沿工作,以充分理解其研究重点和局限性。然后,我们分析了四个主要研究目标:1) 具身感知 (embodied perception),2) 具身交互 (embodied interaction),3) 具身智能体 (embodied agent),以及 4) 仿真到现实适应 (sim-to-real adaptation),涵盖了最先进的方法、基本范式和综合数据集。此外,我们还探讨了 多模态大模型 (MLMs) 在虚拟和真实 具身智能体 (embodied agents) 中的复杂性,强调了它们在促进数字和物理环境中交互方面的重要性。最后,我们总结了 具身人工智能 (embodied AI) 面临的挑战和局限性,并讨论了潜在的未来方向。我们希望本综述能为研究社区提供一个基础性的参考。相关项目可在 https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List 找到。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2407.06886 PDF 链接: https://arxiv.org/pdf/2407.06886v8.pdf
2. 整体概括
2.1. 研究背景与动机
这篇论文旨在解决的核心问题是:如何在 多模态大模型 (MLMs) 和 世界模型 (WMs) 时代,全面梳理和理解 具身人工智能 (Embodied AI) 的最新进展,尤其是在连接 网络空间 (cyber space) 和 物理世界 (physical world) 方面的应用。
这个问题在当前领域是重要的,原因在于:
-
实现通用人工智能 (AGI) 的关键路径: 论文开宗明义指出,
具身人工智能 (Embodied AI)是实现通用人工智能 (AGI)的基础。与仅在虚拟环境中解决抽象问题的离身人工智能 (disembodied AI)不同,具身人工智能 (Embodied AI)强调智能体通过物理实体与真实世界交互,从而获得更深层次的理解和泛化能力。 -
应用潜力巨大:
具身人工智能 (Embodied AI)是智能机电系统 (intelligent mechatronics systems)和智能制造 (smart manufacturing)等领域的核心技术,能显著提升系统的效率和功能。 -
新兴技术挑战与机遇:
多模态大模型 (MLMs)和世界模型 (WMs)的崛起,带来了前所未有的感知、交互和推理能力,为构建通用具身智能体 (embodied agents)提供了新途径。然而,这些新模型的能力(如长期记忆、复杂意图理解、复杂任务分解)仍有限制。 -
现有综述的不足: 大多数关于
具身人工智能 (Embodied AI)的现有综述论文已经过时,未能充分涵盖多模态大模型 (MLMs)时代(约2023年开始)的最新进展,尤其是在具身机器人 (embodied robots)、模拟器 (simulators)、世界模型 (WMs)和具身智能体 (embodied agents)方面的最新发展被忽视。这篇论文的切入点和创新思路是:在
多模态大模型 (MLMs)和世界模型 (WMs)的背景下,从网络空间 (cyber space)到物理世界 (physical world)的对齐视角,提供一份全面的具身人工智能 (Embodied AI)综述,填补现有研究空白。
2.2. 核心贡献/主要发现
这篇论文的核心贡献可以总结为以下三点:
-
首次全面综述: 据作者所知,这是第一篇从
多模态大模型 (MLMs)和世界模型 (WMs)视角,探讨网络空间 (cyber space)与物理世界 (physical world)对齐的具身人工智能 (Embodied AI)综合综述,提供了关于方法论、基准、挑战和应用的新见解。 -
详细分类与体系构建: 论文将
具身人工智能 (Embodied AI)分类并总结为几个基本部分,包括具身机器人 (robots)、模拟器 (simulators),以及四个主要研究任务:具身感知 (embodied perception)、具身交互 (embodied interaction)、具身智能体 (embodied agents)和仿真到现实适应 (sim-to-real adaptation)。这构成了一个详细的具身人工智能 (Embodied AI)分类学。 -
提出新的数据集标准与大规模数据集: 为了促进鲁棒、通用
具身智能体 (embodied agents)的发展,论文提出了一个新的数据集标准ARIO (All Robots In One),并开发了一个统一的大规模ARIO数据集,包含约300万个片段,来自258个系列和321,064个任务。论文的主要发现揭示了
多模态大模型 (MLMs)和世界模型 (WMs)在推动具身人工智能 (Embodied AI)发展中的关键作用,同时强调了当前在数据、任务执行、因果推理、评估基准、安全与隐私方面存在的挑战,并指出了未来的研究方向。
3. 预备知识与相关工作
3.1. 基础概念
理解本文需要以下最基本的技术、理论或模型:
-
具身人工智能 (Embodied Artificial Intelligence, Embodied AI): 这是一种将
人工智能 (Artificial Intelligence, AI)系统与物理身体结合,使其能够感知、理解并与物理世界 (physical world)交互的领域。不同于仅在虚拟环境中运行的人工智能 (AI),具身人工智能 (Embodied AI)强调智能体 (agent)通过其“身体”在真实或模拟环境中体验和学习,从而发展出更接近人类的智能。其目标是使智能体 (agent)能够像人类一样,通过感知和行动来解决现实世界中的复杂问题。 -
通用人工智能 (Artificial General Intelligence, AGI):
通用人工智能 (AGI)指的是一种具有像人类一样广泛的认知能力,能够理解、学习并应用知识解决各种任务的人工智能 (AI)。它能够处理不同领域的问题,而不是局限于特定任务。具身人工智能 (Embodied AI)被认为是实现通用人工智能 (AGI)的关键路径之一,因为真实世界的交互能提供丰富的学习经验,促进智能体 (agent)发展出更泛化的理解和适应能力。 -
离身人工智能 (Disembodied Artificial Intelligence): 指的是主要在
网络空间 (cyber space)中运行的人工智能 (AI)系统,它们没有物理身体,不直接与物理世界 (physical world)交互。例如,大型语言模型 (Large Language Models, LLMs)如ChatGPT[4],它们通过处理文本数据进行认知和决策,但没有实际的物理行动能力。论文中通过表格 I 对离身人工智能 (Disembodied AI)和具身人工智能 (Embodied AI)进行了对比。Type Environment Physical Entities Description Representative Agents Disembodied AI Cyber Space No Cognition and physical entities are disentangled ChatGPT [4], RoboGPT [8] Embodied AI Physical Space Robots, Cars, Other devices Cognition is integrated into physical entities RT-1 [9], RT-2 [10], RT-H [3]
表 I:离身人工智能与具身人工智能的比较
- 智能体 (Agent): 在
人工智能 (AI)中,智能体 (agent)是一个能够感知其环境并通过执行行动来影响该环境以实现特定目标的自主实体。智能体 (agent)可以是软件程序(如聊天机器人 (chatbots))或物理实体(如机器人 (robots))。 - 具身智能体 (Embodied Agent): 具有物理身体的
智能体 (agent),能够通过传感器感知物理世界 (physical world)并通过执行器在其中行动。例如,机器人 (robots)、自动驾驶汽车 (autonomous vehicles)等。 - 多模态大模型 (Multi-modal Large Models, MLMs):
多模态大模型 (MLMs)是能够处理和理解多种类型数据(如图像、文本、音频、视频)的大型模型 (Large Models)。它们通过学习不同模态之间的关联,实现更全面的世界理解和更丰富的交互能力。例如,视觉-语言模型 (Vision-Language Models, VLMs)能够同时处理图像和文本信息。 - 世界模型 (World Models, WMs):
世界模型 (WMs)是一种深度学习 (deep learning)模型,旨在学习并模拟环境的动态行为。它通过观察环境和自身行动的后果来构建一个内部的、压缩的环境表示 (representation),然后利用这个表示 (representation)来预测未来的状态和奖励,从而进行规划和决策。这使得智能体 (agent)能够在不实际执行物理行动的情况下进行“思考”和“想象”。
3.2. 前人工作
论文在引言部分指出了现有 具身人工智能 (Embodied AI) 综述的局限性,并引用了多项相关工作:
- 现有综述: 论文提到了几篇先前的综述文章 [5], [6], [17], [18]。指出其中大部分在
多模态大模型 (MLMs)时代(约2023年)之前发表,因此已过时。即使是2023年之后发表的综述 [6], [18],也主要侧重于视觉-语言-动作模型 (vision-language-action models)或智能制造 (smart manufacturing)中的具身人工智能系统 (embodied AI system),未能充分涵盖多模态大模型 (MLMs)、世界模型 (WMs)和具身智能体 (embodied agents)的最新发展,也忽略了具身机器人 (embodied robots)和模拟器 (simulators)。 - 代表性具身模型: 论文提到了
RT-2[2] 和RT-H[3] 作为近期具有代表性的具身模型 (embodied models),它们是视觉-语言-动作模型 (vision-language-action models, VLA models)的例子,展示了多模态大模型 (MLMs)在具身智能体 (embodied agents)中的应用潜力。RT-1[9] 也是一个早期的重要工作。 - 离身人工智能示例:
ChatGPT[4] 被用作离身人工智能 (disembodied AI)的代表,强调其与具身人工智能 (Embodied AI)的区别。RoboGPT[8] 则是一个将大语言模型 (LLMs)应用于机器人任务规划的例子,但仍属于离身 (disembodied)范畴。 - 视觉与语言基础模型: 论文指出
最先进的 (state-of-the-art)视觉编码器 (vision encoders)[13], [14] 提供了精确的物体类别、姿态和几何估计,而强大的大语言模型 (Powerful Large Language Models, LLMs)使机器人更好地理解语言指令 (linguistic instructions)。多模态大模型 (MLMs)则提供了具身机器人 (embodied robots)视觉 (visual)和语言 (linguistic)表示 (representations)对齐的可行方法。 - 世界模型:
世界模型 (WMs)[15], [16] 展现了卓越的模拟能力 (simulation capabilities)和对物理定律 (physical laws)的理解,使具身模型 (embodied models)能够全面理解物理 (physical)和真实环境 (real environments)。
3.3. 技术演进
具身人工智能 (Embodied AI) 领域的技术演进可以概括为以下几个关键阶段:
-
早期研究与传统方法: 早期
具身人工智能 (Embodied AI)研究主要集中在机器人技术 (robotics)、控制理论 (control theory)和传统机器学习 (traditional machine learning)方法。例如,同时定位与建图 (Simultaneous Localization and Mapping, SLAM)、路径规划 (path planning)和物体识别 (object recognition)等任务通常依赖于基于几何、特征工程和强化学习 (reinforcement learning)的方法。这些方法在特定任务和受控环境中表现良好,但在复杂、动态和未见环境中泛化能力 (generalization capabilities)有限。 -
深度学习的兴起: 随着
深度学习 (deep learning)的发展,特别是卷积神经网络 (Convolutional Neural Networks, CNNs)和循环神经网络 (Recurrent Neural Networks, RNNs)的普及,具身感知 (embodied perception)和决策制定 (decision-making)能力得到了显著提升。深度强化学习 (Deep Reinforcement Learning, DRL)将深度学习 (deep learning)与强化学习 (reinforcement learning)结合,使得智能体 (agent)能够从经验中学习复杂的策略 (policy),从而在模拟环境中完成更复杂的任务。然而,仿真到现实鸿沟 (sim-to-real gap)和数据效率 (data efficiency)仍然是主要挑战。 -
多模态大模型 (MLMs) 时代: 近年来,
大语言模型 (LLMs)在自然语言处理 (Natural Language Processing, NLP)领域取得了突破性进展,而视觉-语言模型 (Vision-Language Models, VLMs)则实现了视觉 (vision)和语言 (language)的对齐。这些多模态大模型 (MLMs)拥有强大的感知 (perception)、理解 (understanding)、推理 (reasoning)和泛化能力 (generalization capabilities)。它们被引入具身人工智能 (Embodied AI)领域,使得具身智能体 (embodied agents)能够更好地理解人类的语言指令 (linguistic instructions),进行高层次的任务规划 (task planning),并利用丰富的世界知识 (world knowledge)来处理复杂场景。例如,RT-2等视觉-语言-动作模型 (VLA models)直接将网络知识 (web knowledge)迁移到机器人控制 (robotic control)中。 -
世界模型 (WMs) 的发展:
世界模型 (WMs)的兴起,使得具身智能体 (embodied agents)能够构建内部的环境动态模型 (environmental dynamics model),从而在“想象”中进行规划 (planning)和预测 (prediction),减少对真实世界交互的依赖,并有望解决仿真到现实鸿沟 (sim-to-real gap)的问题,提高数据效率 (data efficiency)和安全性 (safety)。本文的工作正处于
多模态大模型 (MLMs)和世界模型 (WMs)驱动具身人工智能 (Embodied AI)发展的最前沿,旨在系统地总结这些新兴技术如何改变具身人工智能 (Embodied AI)的格局。
3.4. 差异化分析
本文与相关工作的主要区别和创新点体现在以下几个方面:
- 全面性和及时性: 论文强调,与其他现有综述相比,本文在
多模态大模型 (MLMs)时代(约2023年开始)之后发表,因此能够涵盖更前沿和最新的研究进展。它填补了现有综述未能及时更新的空白。 - 深度融合新兴范式: 本文首次将
具身人工智能 (Embodied AI)与多模态大模型 (MLMs)和世界模型 (WMs)紧密结合,从网络空间 (cyber space)和物理世界 (physical world)对齐的视角进行深入探讨。这两种新兴模型被认为是具身智能体 (embodied agents)的关键架构,而此前的综述未能充分强调或系统分析它们的融合。 - 结构化覆盖广泛子领域: 论文不仅涵盖了核心的
具身感知 (embodied perception)、具身交互 (embodied interaction)和具身智能体 (embodied agent)任务,还专门分析了具身机器人 (embodied robots)、模拟器 (simulators)这些基础设施,以及仿真到现实适应 (sim-to-real adaptation)这一关键的部署挑战。这种全面的结构化视角为初学者提供了清晰的具身人工智能 (Embodied AI)领域全景图。 - 提出新的数据集标准: 论文不仅总结了现有数据集,还主动提出了
ARIO (All Robots In One)这一新的数据集标准和大规模数据集,旨在解决当前多机器人数据集格式不统一、模态不完整、数据量不足等问题,这体现了对领域未来发展的积极贡献。 - 聚焦实际应用与挑战: 论文明确指出
具身人工智能 (Embodied AI)在智能机电系统 (intelligent mechatronics systems)和智能制造 (smart manufacturing)等领域的应用价值,并详细分析了当前面临的挑战(如长时序任务执行 (long-horizon task execution)、因果推理 (causal reasoning)、统一评估基准 (unified evaluation benchmark)、安全与隐私 (security and privacy)),为未来的研究提供了明确的方向。
4. 方法论
这篇综述论文的方法论主要体现在其对 具身人工智能 (Embodied AI) 领域研究的结构化梳理和深度分析上。它采用一种分层且全面的方法来组织和呈现当前的研究现状、关键技术、面临的挑战以及未来发展方向。
4.1. 方法原理
本文的核心方法原理是通过系统性的文献调研和分类,构建一个以 多模态大模型 (MLMs) 和 世界模型 (WMs) 为核心的 具身人工智能 (Embodied AI) 统一分析框架。其背后的理论直觉是,具身人工智能 (Embodied AI) 的本质在于 智能体 (agent) 如何有效地感知、理解并与 物理世界 (physical world) 交互。而 多模态大模型 (MLMs) 提供了强大的感知和推理能力,世界模型 (WMs) 提供了模拟和预测 环境动态 (environmental dynamics) 的能力,二者结合有望弥合 网络空间 (cyber space) 和 物理世界 (physical world) 之间的鸿沟,加速 通用人工智能 (AGI) 的实现。
因此,本文的方法论旨在:
- 奠定基础: 首先概述
具身人工智能 (Embodied AI)的基础构成,即具身机器人 (embodied robots)和模拟器 (simulators),它们是智能体 (agent)存在和学习的硬件与软件环境。 - 解构核心任务: 接着,将
具身人工智能 (Embodied AI)的核心挑战分解为四个关键研究任务 (具身感知 (embodied perception)、具身交互 (embodied interaction)、具身智能体 (embodied agent)、仿真到现实适应 (sim-to-real adaptation)),并对每个任务进行深入分析。 - 突出新兴范式: 特别强调
多模态大模型 (MLMs)和世界模型 (WMs)在这些任务中的应用和影响,以及它们如何改变了具身智能体 (embodied agents)的设计和能力。 - 识别瓶颈与方向: 最后,通过总结现有工作的局限性,提出未来的研究方向,为该领域的发展提供指导。
4.2. 核心方法详解 (逐层深入)
本综述的核心方法在于其结构化分析框架,以下将详细介绍其各个组成部分:
4.2.1. 具身机器人 (Embodied Robots)
本部分首先介绍了 具身智能体 (embodied agents) 所使用的物理实体,即 具身机器人 (embodied robots)。这些机器人是 具身人工智能 (Embodied AI) 与 物理世界 (physical world) 交互的载体。
-
固定底座机器人 (Fixed-base Robots): 因其高精度而广泛应用于实验室自动化和工业领域,例如
Franka Emika panda[19]、Kuka iiwa[21] 和Sawyer[23]。 -
轮式机器人 (Wheeled Robots): 结构简单、成本低廉,在物流和仓储中效率高,例如
Kiva和Jackal机器人 [25]。但它们在不平坦地形上表现不佳。 -
履带式机器人 (Tracked Robots): 适用于农业和灾害救援等越野任务,其履带系统在柔软地形上提供稳定性 [26]。
-
四足机器人 (Quadruped Robots): 擅长复杂地形探索和救援任务,例如
Unitree Robotics的A1和Go1,以及Boston Dynamics的Spot。 -
人形机器人 (Humanoid Robots): 模仿人类运动和行为,提供个性化服务,其灵巧的双手能够执行复杂任务 [27], [28]。结合
大语言模型 (LLMs),有望提高制造、医疗和服务领域的效率和安全性 [29]。 -
仿生机器人 (Biomimetic Robots): 复制自然生物的运动和功能,有助于在复杂环境中操作并通过模仿生物机制提高能源效率 [30], [31]。例如,
鱼形机器人 (fish-like)[32]、昆虫形机器人 (insect-like)[33] 和软体机器人 (soft-bodied robots)[34]。下图(原文 Figure 2)展示了这些不同类型的
具身机器人 (Embodied Robots):
该图像是一个示意图,展示了多种类型的具身机器人,包括固定式机器人、轮式机器人、履带式机器人、四足机器人、人形机器人和仿生机器人。这些机器人在实现人工智能的应用中起着重要作用。
4.2.2. 具身模拟器 (Embodied Simulators)
具身模拟器 (Embodied simulators) 是 具身人工智能 (Embodied AI) 的关键工具,因其成本效益、安全特性、可扩展性、快速原型设计和可访问性而具有重要意义。它们允许 受控实验 (controlled experimentation)、训练数据生成 (data generation for training) 和 评估 (evaluation),并提供 标准化基准 (standardized benchmarks)。
- 通用模拟器 (General Simulators): 提供一个与
物理世界 (physical world)紧密模拟的虚拟环境,用于算法开发和模型训练。-
Isaac Sim[36]:先进的机器人和人工智能 (AI)仿真平台,具有高保真物理仿真、实时光线追踪、丰富的机器人模型库和深度学习 (deep learning)支持。 -
Gazebo[47]:开源机器人仿真器,具有广泛的机器人库,与ROS紧密集成。 -
PyBullet[39]:Bullet物理引擎的Python 接口 (Python interface),易于使用,支持实时物理仿真。 -
Genesis[35]:新推出的可微分物理引擎 (differentiable physics engine),具有令人印象深刻的生成能力 (generative capabilities)。 下表(原文 Table II)展示了11个通用模拟器的关键特性和主要应用场景:Simulator Year HFPS HQGR RRL DLS LSPC ROS MSS CP Physics Engine Main Applications Genesis [35] 2024 O o O O O O Custom RL, LSPS, RS Isaac Sim [36] 2023 O O O O O O O PhysX Nav, AD Isaac Gym [37] 2019 O O O PhysX RL,LSPS Gazebo [38] 2004 O O O O O ODE, Bullet, Simbody, DART Nav,MR PyBullet [39] 2017 O O Bullet RL,RS Webots [40] 1996 O O O O ODE RS MuJoCo [41] 2012 O o Custom RL, RS Unity ML-Agents [42] 2017 O O O Custom RL, RS AirSim [43] 2017 O o Custom Drone sim, AD, RL MORSE [44] 2015 o O Bullet Nav, MR V-REP (CoppeliaSim) [45] 2013 O O O O Bullet, ODE, Vortex, Newton MR, RS
-
表 II:通用模拟器比较。HFPS:高保真物理仿真;HQGR:高质量图形渲染;RRL:丰富的机器人库;DLS:深度学习支持;LSPC:大规模并行计算;ROS:机器人操作系统;MSS:多传感器支持;CP:碰撞检测。O 表示该模拟器在该方面表现出色。
下图(原文 Figure 3)展示了通用模拟器的可视化效果:
![Fig. 3. Examples of General Simulators. The MuJoCo's figure is from \[46\].](/files/papers/695a14c35411c3e2652eaef3/images/3.jpg)
*该图像是示意图,展示了多个通用模拟器的实例,包括 Isaac Sim、Webots、Pybullet、V-REP(CoppeliaSim)、Genesis、MuJoCo、Unity ML-Agents、AirSim、MORSE 和 Gazebo。这些模拟器在机器人和模拟器研究中具有重要意义。*
- 基于真实场景的模拟器 (Real-Scene Based Simulators): 这些模拟器从
真实世界 (real world)收集数据,创建逼真3D资产 (photorealistic 3D assets),并使用3D游戏引擎 (3D game engines)(如UE5和Unity)构建场景,以满足家庭活动 (household activities)中复杂具身任务 (embodied tasks)的需求。-
SAPIEN[48]:专为模拟与铰接物体(如门、橱柜)的交互而设计。 -
VirtualHome[49]:以其独特的环境图 (environment graph)著称,支持基于自然语言描述 (natural language descriptions)的高级具身规划 (embodied planning)。 -
AI2-ThOR[50]:提供丰富的交互式场景,但交互通常是基于脚本 (script-based),缺乏真实的物理交互。 -
iGibson[51] 和TDW[52]:提供细粒度的具身控制 (embodied control)和高度模拟的物理交互 (physical interactions)。iGibson场景丰富真实,适合复杂和长期的移动操作;TDW允许更大的场景扩展自由度,并具有独特的音频和流体仿真。 -
Matterport3D[53]:基础2D-3D视觉数据集 (2D-3D visual dataset),广泛用于具身人工智能 (Embodied AI)基准测试。 -
Habitat:虽然其具身智能体 (embodied agent)缺乏交互能力,但其广泛的室内场景、用户友好界面和开放框架使其在具身导航 (embodied navigation)中备受推崇。 -
InfiniteWorld[54]:专注于统一和可扩展的仿真框架,通过分布式协作、人工智能 (AI)辅助和人在回路 (Human-in-the-Loop)为复杂的机器人交互提供强大支持。 -
自动化仿真场景构建:
RoboGen[55]、HOLODECK[56]、PhyScene[57] 和ProcTHOR[58] 等工具能够通过大语言模型 (LLMs)或条件扩散模型 (conditional diffusion models)自动生成高质量、多样化和交互性强的仿真场景。下图(原文 Figure 4)展示了基于真实场景的模拟器示例:
该图像是一个示意图,展示了多个基于真实场景的模拟器,包括AI2-THOR、Matterport 3D、Virtualhome、SAPIEN、Habitat、iGibson、TDW和Infinite-World等,这些工具在虚拟环境中进行人机交互与感知研究。
-
4.2.3. 具身感知 (Embodied Perception)
具身感知 (Embodied Perception) 要求 智能体 (agent) 在 物理世界 (physical world) 中移动并与环境交互,这需要对 3D空间 (3D space) 和 动态环境 (dynamic environments) 有更深层次的理解。
-
主动视觉感知 (Active Visual Perception): 需要
状态估计 (state estimation)、场景感知 (scene perception)和环境探索 (environment exploration)等基本能力。- 视觉同时定位与建图 (Visual Simultaneous Localization and Mapping, vSLAM): 旨在确定机器人在未知环境中的位置,同时构建环境地图 [97]。
传统vSLAM (Traditional vSLAM)[95]:使用图像数据和多视图几何来估计机器人姿态并构建低级地图(例如稀疏、半密集或密集点云)。方法包括基于滤波器的方法 (filter-based approaches)(如MonoSLAM[60])、基于关键帧的方法 (keyframe-based methods)(如ORB-SLAM[61]) 和直接跟踪技术 (direct tracking techniques)(如LSD-SLAM[62])。语义vSLAM (Semantic vSLAM)[95]:通过整合语义信息 (semantic information)克服了传统vSLAM (Traditional vSLAM)的局限性,增强了机器人感知和导航未知环境的能力,例如 [63]、QuadricSLAM[64]、So-SLAM[65]、SG-SLAM[66]、OVD-SLAM[67]、GS-SLAM[68]。
- 3D场景理解 (3D Scene Understanding): 旨在区分物体的
语义 (semantics)、识别其位置 (locations)并推断3D场景数据 (3D scene data)的几何属性 (geometric attributes)[101]。基于投影的方法 (Projection-based methods):将3D点 (3D points)投影到各种图像平面上,并使用基于2D CNN的骨干网络 (2D CNN-based backbones)进行特征提取 (feature extraction)(如MV3D[69]、PointPillars[70]、MVCNN[71])。基于体素的方法 (Voxel-based methods):将点云 (point clouds)转换为规则的体素网格 (voxel grids)以方便3D卷积操作 (3D convolution operations)(如VoxNet[72]、SSCNet[73]),并通过稀疏卷积 (sparse convolution)提高效率 (如MinkowskiNet[74]、SSCNs[75]、Embodiedscan[76])。基于点云的方法 (Point-based methods):直接处理点云 (point clouds)(如PointNet[77]、 [78]、PointMLP[79])。- 新兴架构: 为实现模型可扩展性,出现了
基于Transformer (Transformers-based)(如PointTransformer[80]、Swin3d[81]、PT2[82]、3D-VisTA[83]、LEO[84]、PQ3D[85]) 和基于Mamba (Mamba-based)(如PointMamba[86]、Mamba3D[87]) 架构。
- 主动探索 (Active Exploration): 弥补了
被动感知 (passive perception)的不足,使机器人能够动态地与环境交互并感知周围环境。-
与环境交互 (Interacting with the environment):例如Pinto et al.[88] 提出的好奇机器人 (curious robot)通过物理交互 (physical interaction)学习视觉表示;Tatiya et al.[89] 提出的多阶段投影框架 (multi-stage projection framework)通过学习探索性交互 (exploratory interactions)传递隐式知识。 -
改变视角 (Changing the viewing direction):例如Jayaraman et al.[90] 提出的强化学习 (reinforcement learning)方法,通过减少对环境未观察部分的不确定性来主动获取信息丰富的视觉观察;NeU-NBV[91] 引入了无地图规划框架 (mapless planning framework);Hu et al.[92] 开发了机器人探索算法 (robot exploration algorithm);Fan et al.[93] 将主动识别 (active recognition)视为顺序证据收集过程 (sequential evidence-gathering process)。下表(原文 Table III)比较了主动视觉感知方法:
Function Type Methods vSLAM Traditional vSLAM MonoSLAM [60], ORB-SLAM [61], LSD-SLAM [62] Semantic vSLAM SLAM++ [63], QuadricSLAM [64], So-SLAM [65],SG-SLAM [66], OVD-SLAM [67], GS-SLAM [68] 3D Scene Understanding Projection-based MV3D [69], PointPillars [70], MVCNN [71] Voxel-based VoxNet [72], SSCNet [73]), MinkowskiNet [74], SSCNs [75], Embodiedscan [76] Point-based PointNet [77], PointNet++ [78], PointMLP [79], PointTransformer [80], Swin3d [81], PT2 [82],3D-VisTA [83], LEO [84], PQ3D [85], PointMamba [86], Mamba3D [87] Active Exploration Interacting with the environment Pinto et al. [88], Tatiya et al. [89] Changing the viewing direction Jayaraman et al. [90], NeU-NBV [91], Hu et al. [92], Fan et al. [93]
-
表 III:主动视觉感知方法的比较。
下图(原文 Figure 5)展示了主动视觉感知的示意图:
该图像是关于主动视觉感知的示意图,展示了被动视觉感知的各个方面,包括3D场景理解、定位与映射精度提升和视觉SLAM。图中还指出了观察能力的改善、主动探索的激活和最终的行动,这些要素共同作用于主动视觉感知系统。 - 视觉同时定位与建图 (Visual Simultaneous Localization and Mapping, vSLAM): 旨在确定机器人在未知环境中的位置,同时构建环境地图 [97]。
-
视觉语言导航 (Visual Language Navigation, VLN): 是一项重要任务,旨在遵循
语言指令 (linguistic instructions)在未见环境 (unseen environments)中进行导航 (navigation)。- 核心任务:
智能体 (agent)接收视觉信息 (visual information)() 和自然语言指令 (natural language instructions)(),结合历史信息 (historical information)(),选择一个或一系列行动 (Action) 来完成指令要求。 其中,Action是选择的行动或一系列候选行动, 是当前观察, 是历史信息, 是自然语言指令, 代表模型。 - 数据集 (Datasets):
VLN任务根据指令粒度、任务类型和环境特性产生了多种数据集。例如:-
R2R[105] 和R4R[106] 基于Matterport3D,提供逐步指令 (step-by-step instructions)。 -
VLN-CE[107] 将R2R和R4R扩展到连续环境 (continuous environments)。 -
TOUCHDOWN[108] 基于Google Street View,用于户外 (outdoor)导航。 -
REVERIE[109] 和SOON[110] 涉及目标描述导航 (described goal navigation),要求智能体 (agent)定位不可见目标。 -
DDN[111] 仅提供人类需求 (human demands)。 -
ALFRED[112] 和OVMM[113] 涉及带交互的导航 (navigation with interaction),用于完成家庭任务。 -
BEHAVIOR-1K[114] 包含长序列、复杂、依赖技能 (long-sequence, complex, skill-dependent)的日常任务。 -
CVDN[115] 和DialFRED[116] 引入了对话 (dialogue)能力,允许智能体 (agent)在不确定时提问。下表(原文 Table IV)比较了不同的
VLN数据集:Dataset Year Simulator Environment Feature Size R2R [105] 2018 M3D I, D SbS 21,567 R4R [106] 2019 M3D I, D SbS 200,000+ VLN-CE [107] 2020 Habitat I, C SbS - TOUCHDOWN [108] 2019 - O, D SbS 9,326 REVERIE [109] 2020 M3D I, D DGN 21,702 SOON [110] 2021 M3D I, D DGN 3,848 DDN [111] 2023 AT I, C DDN 30,000+ ALFRED [112] 2020 AT I, C NwI 25,743 OVMM [113] 2023 Habitat I, C NwI 7,892 BEHAVIOR-1K [114] 2023 OG I, C LSNwI 1,000 CVDN [115] 2020 M3D I, D D&O 2,050 DialFRED [116] 2022 AT I, C D&O 53,000
-
表 IV:不同 VLN 数据集的比较。M3D: Matterport3D, AT: AI2-THOR, OG: OmniGibson, I: 室内, D: 离散, O: 室外, C: 连续, SbS: 逐步指令, DGN: 目标描述导航, DDN: 需求驱动导航, NwI: 带交互的导航, LSNwI: 长跨度带交互的导航, D&O: 对话和预言机。
下图(原文 Figure 6)展示了
VLN的概览和不同任务类型:
该图像是示意图,展示了虚拟环境中的一名智能体与人类的互动。图中包含了两部分:左侧说明了交互环境中的自然语言指令,右侧展示了不同的导航任务与互动步骤。智能体通过观察和执行任务,完成目标导航。- 方法 (Methods):
VLN方法主要分为基于记忆理解 (Memory-Understanding Based)和基于未来预测 (Future-Prediction Based)。-
基于记忆理解 (Memory-Understanding Based):专注于环境的感知和理解,以及基于历史观察或轨迹的模型设计。基于图学习 (Graph-based learning):如LVERG[117]、LM-Nav[121]、HOP[122] 通过构建导航图来编码历史轨迹信息。语义地图构建 (Semantic map construction):如FILM[120]、VER[127] 从RGB-D观察和语义分割 (semantic segmentation)构建语义地图 (semantic map)。学习方案 (Learning schemes):如CMG[118] 使用对抗学习 (adversarial learning),GOAT[126] 使用因果学习 (causal learning),RCM[119] 使用跨模态匹配 (cross-modal matching)和自监督模仿学习 (self-supervised imitation learning),FSTT[124] 引入测试时适应 (Test-Time Adaptation, TTA)。大型模型应用 (Large model applications):如NaviLLM[123]、NaVid[128]、LHVLN[137] 利用LLMs的世界知识 (world knowledge)和编码能力 (encoding capabilities)。
-
基于未来预测 (Future-Prediction Based):关注对未来状态的建模、预测和理解。基于图学习 (Graph-based learning):如BGBL[131] 和ETPNav[134] 设计路径点预测器 (waypoint predictor),将连续环境 (continuous environment)中的复杂导航迁移到离散环境 (discrete environment)中。环境编码 (Environment encoding):如NvEM[130] 通过主题模块 (theme module)和参考模块 (reference module)对邻近视图进行融合编码 (fusion encoding);HNR[133] 使用大规模预训练 (large-scale pre-trained)分层神经辐射表示模型 (hierarchical neural radiation representation model)预测未来环境的视觉表示。强化学习 (Reinforcement learning):如LookBY[129] 使用强化预测 (reinforcement prediction)预测未来状态和奖励。大型模型应用 (Large model applications):如MiC[132] 要求LLM根据指令直接预测目标及其可能位置。
-
混合方法 (Hybrid methods): 如
MCR-Agent[135] 和OVLM[136] 结合了历史学习 (learning from the past)和未来预测 (learning for the future)。下表(原文 Table V)比较了
VLN方法:Method Model Year Feature Memory-UnderstandingBased LVERG [117] 2020 Graph Learning CMG [118] 2020 Adversarial Learning RCM [119] 2021 Reinforcement learning FILM [120] 2022 Semantic Map LM-Nav [121] 2022 Graph Learning HOP [122] 2022 History Modeling NaviLLM [123] 2024 Large Model FSTT [124] 2024 Test-Time Augmentation DiscussNav [125] 2024 Large Model GOAT [126] 2024 Causal Learning VER [127] 2024 Environment Encoder NaVid [128] 2024 Large Model Future-PredictionBased LookBY [129] 2018 Reinforcement Learning NvEM [130] 2021 Environment Encoder BGBL [131] 2022 Graph Learning Mic [132] 2023 Large Model HNR [133] 2024 Environment Encoder ETPNav [134] 2024 Graph Learning Others MCR-Agent [135] 2023 Multi-Level Model OVLM [136] 2023 Large Model
-
表 V:VLN 方法的比较。
- 核心任务:
4.2.4. 具身交互 (Embodied Interaction)
具身交互 (Embodied interaction) 指 智能体 (agents) 在 物理 (physical) 或 模拟空间 (simulated space) 中与人类和环境进行的交互。
-
具身问答 (Embodied Question Answering, EQA):
智能体 (agent)需要从第一人称视角 (first-person perspective)探索环境,收集必要信息以回答给定问题。-
数据集 (Datasets):
EQA v1[138] 是第一个EQA数据集。其他数据集包括MT-EQA[139] (多目标)、MP3D-EQA[140] (真实3D环境 (3D environment))、IQUAD V1[141] (交互式环境)、VideoNavQA[142] (解耦视觉推理和导航)、SQA3D[143] (简化协议)、K-EQA[144] (需要先验知识的复杂问题)、OpenEQA[145] (开放词汇,支持情景记忆 (episodic memory)和主动探索 (active exploration))、HM-EQA[146] (基于GPT4-V生成)、S-EQA[147] (利用GPT-4生成数据)、EXPRESS-Bench[148] (最大的探索感知EQA (exploration-aware EQA)数据集)。下表(原文 Table VI)比较了不同的
EQA数据集:Dataset Year Type Data Sources Simulator Query Creation Answer Size EQA v1 [138] 2018 Active EQA SUNCG House3D Rule-Based open-ended 5,000+ MT-EQA [139] 2019 Active EQA SUNCG House3D Rule-Based open-ended 19,000+ MP3D-EQA [140] 2019 Active EQA MP3D Simulator based on MINOS Rule-Based open-ended 1,136 IQUAD V1 [141] 2018 Interactive EQA AI2THOR Rule-Based multi-choice 75,000+ VideoNavQA [142] 2019 Episodic Memory EQA SUNCG House3D Rule-Based open-ended 101,000 SQA3D [143] 2022 QA only ScanNet Manual multi-choice 33,400 K-EQA [144] 2023 Active EQA AI2THOR Rule-Based open-ended 60,000 OpenEQA [145] 2024 Active EQA, Episodic Memory EQA ScanNet, HM3D Habitat Manual open-ended 1,600+ HM-EQA [146] 2024 Active EQA HM3D Habitat VLM multi-choice 500 S-EQA [147] 2024 Active EQA VirtualHome LLM binary EXPRESS-Bench [148] 2025 Exploration-aware EQA HM3D Habitat VLM open-ended 2,044
表 VI:不同 EQA 数据集的比较。
下图(原文 Figure 7)展示了
EQA任务的不同类型:
该图像是图表,展示了一个智能体在探索环境中的过程,并包括多种问答任务。灰色框中的场景代表智能体观察到的环境,而其他框则展示了不同类型的问题,例如单一目标、多目标和交互任务等,智能体在获取足够信息后会停止探索。图中还包含了基于记忆、知识和对象状态的问题示例。- 方法 (Methods):
- 基于神经网络方法 (Neural Network Methods): 早期通过构建
深度神经网络 (deep neural networks),并使用模仿学习 (imitation learning)和强化学习 (reinforcement learning)进行训练。例如Das et al.[138] 提出的包含视觉、语言、导航和问答四个模块的智能体 (agent)。后续工作Wu et al.[152] 统一训练导航和QA模块;Gordon et al.[141] 引入分层交互记忆网络 (Hierarchical Interactive Memory Network)处理动态环境;Tan et al.[144] 利用神经程序合成 (neural program synthesis)和知识图谱 (knowledge graphs)解决复杂问题。 - 基于
LLMs/VLMs方法 (LLMs/VLMs Methods):Majumdar et al.[145] 使用LLMs和VLMs处理EM-EQA和A-EQA任务,结合基于边界的探索 (frontier-based exploration, FBE)[154]。Sakamoto et al.[155] 和Ren et al.[146] 采用FBE并利用保形预测 (conformal prediction)或图像-文本匹配 (image-text matching)提前停止探索。Patel et al.[156] 利用多个基于LLM的智能体 (LLM-based agents)探索环境并独立回答问题,然后训练中央回答模型 (Central Answer Model)聚合响应。
- 基于神经网络方法 (Neural Network Methods): 早期通过构建
-
-
具身抓取 (Embodied Grasping): 结合
传统运动学方法 (traditional kinematic methods)[157], [158] 与大型模型 (large models),实现多感官感知 (multi-sensory perception)和推理 (reasoning)。-
数据集 (Datasets): 早期抓取数据集 [159]-[164] 包含
单物体 (single objects)和杂乱场景 (cluttered scenes)的抓取标注(4-DOF或6-DOF)。随着多模态大模型 (MLMs)发展,出现了语义抓取数据集 (semantic-grasping datasets)[165]-[167],整合了语言信息。下表(原文 Table VII)展示了具身抓取数据集:
Dataset Year Type Modality Grasp Label Gripper Finger Objects Grasps Scenes Language Cornell [159] 2011 Real RGB-D Rect. 2 240 8K Single × Jacquard [160] 2018 Sim RGB-D Rect. 2 11K 1.1M Single × 6-DOF GraspNet [161] 2019 Sim 3D 6D 2 206 7.07M Single × ACRONYM [162] 2021 Sim 3D 6D 2 8872 17.7M Multi × MultiGripperGrasp [163] 2024 Sim 3D - 2-5 345 30.4M Single × OCID-Grasp [164] 2021 Real RGB-D Rect. 2 89 75K Multi × OCID-VLG [165] 2023 Real RGB-D,3D Rect. 2 89 75K Multi √ ReasoingGrasp [166] 2024 Real RGB-D 6D 2 64 99.3M Multi √ CapGrasp [167] 2024 Sim 3D - 5 1.8K 50K Single √
表 VII:具身抓取数据集。
- 语言引导抓取 (Language-guided grasping): 结合
多模态大模型 (MLMs),使智能体 (agent)能够根据隐式 (implicit)或显式 (explicit)人类指令执行抓取操作。显式指令 (Explicit instructions)[169], [170]:明确指定抓取物体的类别。隐式指令 (Implicit instructions)[166], [167]:需要推理 (reasoning)来识别物体或其部分,涉及空间推理 (spatial reasoning)(例如,“抓取棕色纸巾盒右边的键盘”)和逻辑推理 (logical reasoning)(例如,“我渴了,你能给我喝点东西吗?”)。
- 端到端方法 (End-to-End Approaches):
CLIPORT[168]:结合CLIP和Transporter Net的语言条件模仿学习智能体 (language-conditioned imitation learning agent)。CROG[165]:基于OCID数据集,利用CLIP的视觉基础能力直接从图像-文本对中学习抓取合成。Reasoning Grasping[166]:引入第一个推理抓取基准数据集 (reasoning grasping benchmark dataset),并提出端到端推理抓取模型 (end-to-end reasoning grasping model)。SemGrasp[167]:一种基于语义的抓取生成方法 (semantic-based grasp generation method),将语义信息 (semantic information)整合到抓取表示中。
- 模块化方法 (Modular Approaches):
-
F3RM[169]:将CLIP的文本-图像先验提升到3D空间 (3D space),用于语言定位 (language localization)后进行抓取生成。 -
GaussianGrasper[170]:利用3D高斯场 (3D Gaussian field)实现语言引导抓取 (language-guided grasping)任务。下图(原文 Figure 8)展示了语言引导的抓取任务概览:
该图像是一个示意图,展示了语言引导的抓取任务(a)和人-代理-物体交互(b)以及出版状态(c)。左侧部分通过不同的指令示例(如直接物体说明、空间推理等)展示了抓取与场景的关系。右侧显示了不同年份的出版论文数量,反映了该领域的研究增长趋势。
-
-
4.2.5. 具身智能体 (Embodied Agent)
具身智能体 (Embodied agent) 是 多模态大模型 (MLMs) 赋能的 智能体 (agent),能够将虚拟空间的能力转移到 物理世界 (physical world)。完成任务通常涉及 高层具身任务规划 (high-level Embodied Task Planning) 和 低层具身行动规划 (low-level Embodied Action Planning)。
-
具身任务规划 (Embodied Task Planning): 将抽象复杂的任务分解为具体的子任务。
- 利用
LLMs的涌现能力进行规划 (Planning utilizing the Emergent Capabilities of LLMs):LLMs可以利用其内部世界知识 (internal world knowledge)和思维链推理 (chain-of-thought reasoning)来分解抽象任务。例如Translated LM[179]、Inner Monologue[180]、ReAd[181] 等。一些工作还利用记忆库 (memory bank)存储成功示例 [182]-[184] 或使用代码作为推理媒介 [185], [186]。Socratic Models[187] 和Socratic Planner[188] 利用苏格拉底式提问 (Socratic questioning)获得可靠规划。 - 利用具身感知模型的视觉信息进行规划 (Planning utilizing the visual information from embodied perception model): 将
视觉信息 (visual information)整合到任务规划 (task planning)中,例如通过物体检测器 (object detector)查询环境中物体信息并反馈给LLM以修改计划 [187], [189], [190]。RoboGPT[8] 考虑了同一任务中相似物体的不同名称。SayPlan[191] 和ConceptGraphs[192] 使用分层3D场景图 (hierarchical 3D scene graphs)来表示环境。 - 利用
VLMs进行规划 (Planning utilizing the VLMs):VLM能够捕捉潜在空间中的视觉细节和上下文信息。EmbodiedGPT[193] 使用Embodied-Former模块对齐具身 (embodied)、视觉 (visual)和文本信息 (textual information)。LEO[194] 将2D自我中心图像 (2D egocentric images)和3D场景 (3D scenes)编码为视觉词元 (visual tokens)。EIF-Unknow[195] 使用从体素特征 (Voxel Features)中提取的语义特征图 (Semantic Feature Maps)作为视觉词元 (visual tokens)。RT系列[2], [9]、PaLM-E[196] 和Matcha[197] 等具身多模态基础模型 (embodied multimodal foundation models)通过大规模数据集训练,实现了具身场景 (embodied scenarios)中视觉 (visual)和文本特征 (textual features)的对齐。
- 利用
-
具身行动规划 (Embodied Action Planning): 解决
任务规划 (task planning)子任务粒度不足导致的真实世界 (real-world)不确定性。- 利用
API进行行动 (Action utilizing APIs): 为LLMs提供预训练策略模型 (pre-trained policy models)的定义,使其能够有效地理解和使用它们完成特定任务 [189], [199]。LLMs可以通过生成代码将工具抽象为函数库 [186]。Reflexion[200] 在执行过程中调整这些工具。DEPS[201] 使LLMs通过零样本学习 (zero-shot learning)学习和组合各种技能。 - 利用
VLA模型进行行动 (Action utilizing VLA model): 利用具身多模态基础模型 (embodied multimodal foundation models)的能力进行规划和执行行动,减少通信延迟,提高系统响应速度和效率 [10], [193], [202]。这种紧密集成促进了实时反馈和策略 (strategy)自我调整。
- 利用
-
在多样化环境中的可扩展性 (Scalability in Diverse Environments): 涉及通过鲁棒的
感知 (perception)、高效的决策制定 (decision-making)和资源优化 (resource optimization)来适应更大、更复杂环境。策略包括分层SLAM (hierarchical SLAM)、多模态感知 (multimodal perception)和边缘计算 (edge computing)。多智能体系统 (multi-agent systems)和去中心化通信 (decentralized communication)增强了协作可扩展性,而泛化 (generalization)则依赖于领域适应 (domain adaptation)。下图(原文 Figure 9)展示了具身智能体的框架:
该图像是示意图,展示了高层任务规划和低层行动规划的流程,包括任务规划、视觉描述和视觉表示等内容。图中还涉及了多模态大模型(LLM/VLM)和其在高低层次的应用,以及实体化的相关任务。
4.2.6. 仿真到现实适应 (Sim-to-Real Adaptation)
仿真到现实适应 (Sim-to-Real adaptation) 是指将 模拟环境 (simulated environments) (网络空间 (cyber space)) 中学习到的能力或行为转移到 真实世界 (real-world) 场景 (物理世界 (physical world)) 的过程。
-
具身世界模型 (Embodied World Model): 创建与
真实世界 (real-world)环境高度相似的基于仿真的世界模型 (simulation-based world models)。这些模型预测下一个状态以进行决策,并从头开始在物理世界 (physical world)数据上进行训练。-
基于生成的方法 (Generation-based Methods):生成模型 (generative models)能够理解和生成符合物理定律 (physical laws)的图像 (如World Models[203])、视频 (如Sora[16]、Pandora[204])、点云 (如3D-VLA[205]) 或其他格式的数据 (如DWM[206])。这些模型通过内在结构捕获统计特性并模拟物理 (physical)和因果关系 (causal relationships)。 -
基于预测的方法 (Prediction-based Methods):通过构建和利用内部表示 (internal representations)来预测和理解环境。在潜在空间 (latent space)中重建相应特征,捕获更深层次的语义 (semantics)和相关世界知识 (world knowledge)。例如I-JEPA[15]、MC-JEPA[207]、A-JEPA[208]、Point-JEPA[209]、IWM[210]。 -
知识驱动方法 (Knowledge-driven Methods):将人工构建的知识 (artificially constructed knowledge)注入模型,赋予其世界知识 (world knowledge)。例如real2sim2real[217] 使用真实世界知识 (real-world knowledge)构建符合物理 (physics-compliant)的模拟器。通过结合人工物理规则 (artificially created physical rules)与LLMs或MLMs,可以生成多样化且语义丰富 (semantically rich)的场景 (如Holodeck[56]、LEGENT[221]、GRUtopia[222])。下图(原文 Figure 10)展示了具身世界模型的分类:
该图像是示意图,展示了三种嵌入式世界模型的分类,包括生成方法、预测方法和知识驱动方法。每种方法都有不同的结构,其中生成方法通过自编码器学习输入空间与输出空间之间的转换关系,预测方法则在潜在空间中训练世界模型,而知识驱动方法则将人工构建的知识注入模型以满足特定知识约束。
-
-
数据收集与训练 (Data Collection and Training):
-
真实世界数据 (Real-World Data): 收集成本高昂,但对于训练大容量模型和提高
泛化能力 (generalization)至关重要。例如Open X-Embodiment[202] (来自22个机器人的数据)、UMI[224] (动态、双手数据)、Mobile ALOHA[225] (全身移动操作)。 -
模拟数据 (Simulated Data): 成本效益高,允许自动化、高效的数据收集。例如
CLIPORT[168] 和Transporter Networks[227] 使用Pybullet模拟器数据训练,并成功迁移到真实世界 (real-world)。 -
仿真到现实范式 (Sim-to-Real Paradigms):
-
Real2Sim2real[229]:通过在“数字孪生”仿真中强化学习 (reinforcement learning)开发策略,然后转移到真实世界 (real world)。 -
TRANSIC[230]:通过实时人工干预 (human intervention)和残差策略训练 (residual policy training)减少仿真到现实鸿沟 (sim-to-real gap)。 -
领域随机化 (Domain Randomization)[231]-[233]:通过改变仿真参数以覆盖真实世界 (real-world)条件,提高模型泛化能力 (generalization)。 -
系统识别 (System Identification)[234], [235]:创建真实世界场景 (real-world scenes)的精确仿真。 -
Lang4sim2real[236]:利用自然语言描述 (natural language descriptions)弥合仿真到现实鸿沟 (sim-to-real gap)。下图(原文 Figure 11)展示了
仿真到现实迁移 (sim-to-real transfer)的五种范式:
该图像是示意图,展示了将虚拟环境中的智能体技术应用于现实世界的过程,包括Real2Sim2Real、TRANSIC、Domain Randomization及Lang4Sim2Real四个主要部分,强调了相关模型训练和转移的步骤与策略。
-
-
ARIO (All Robots In One) 数据集标准: 论文提出了
ARIO[237] 作为新的数据集标准,旨在解决当前数据集在全面传感器模态 (comprehensive sensory modalities)、统一格式 (unified format)、多样化控制对象 (diverse control objects)表示、数据量不足 (insufficient data volume)以及模拟与真实数据结合 (combined simulated and real data)等方面的局限性。ARIO标准统一记录不同形态机器人的控制和运动数据,并提出了一个大规模ARIO数据集,包含约300万个片段、258个系列和321,064个任务。下图(原文 Figure 12)展示了
ARIO中的示例任务:
该图像是示意图,展示了三个不同类型的任务,包括长时间跨度任务、双手操作任务和丰富接触任务。每个任务下方提供了相应的操作说明,分别涉及物体的拾取与放置。
-
5. 实验设置
由于本文是一篇综述论文,其本身不包含新的实验设置。因此,本节将讨论该综述所涉及的 具身人工智能 (Embodied AI) 领域中常用的数据集、评估指标和对比基线,以帮助读者理解该领域的研究实践。
5.1. 数据集
具身人工智能 (Embodied AI) 领域使用了多样化的数据集,涵盖了从 视觉语言导航 (Visual Language Navigation, VLN) 到 具身抓取 (Embodied Grasping) 等各种任务。这些数据集的特点和应用场景各不相同:
-
视觉语言导航 (VLN) 数据集:
- R2R (Room to Room) [105]: 基于
Matterport3D模拟器,提供室内环境中的逐步指令 (step-by-step instructions)。 - R4R (Room-for-Room) [106]: 扩展了
R2R的路径,提供更长的轨迹,需要更强的长距离指令和历史对齐能力。 - VLN-CE [107]: 将
R2R和R4R扩展到连续环境 (continuous environments),允许智能体 (agent)自由移动。 - TOUCHDOWN [108]: 基于
Google Street View,用于户外 (outdoor)街景导航,目标是找到特定物体。 - REVERIE [109]: 基于
Matterport3D,要求智能体 (agent)根据简洁指令定位远处的不可见目标物体。 - ALFRED [112]: 基于
AI2-THOR模拟器,涉及交互式环境 (interactive environment)中的家庭任务,包含粗粒度和细粒度指令。 - BEHAVIOR-1K [114]: 基于
OmniGibson,包含1,000个长序列 (long-sequence)、复杂、依赖技能的日常任务,要求智能体 (agent)完成长跨度导航-交互任务 (long-span navigation-interaction tasks)。 - CVDN [115] 和 DialFRED [116]: 引入
对话 (dialogue)机制,允许智能体 (agent)在不确定时提问以获取帮助。
- R2R (Room to Room) [105]: 基于
-
具身问答 (EQA) 数据集:
- EQA v1 [138]: 第一个
EQA数据集,基于SUNCG和House3D模拟器,包含位置、颜色等问题类型。 - IQUAD V1 [141]: 基于
AI2-THOR,问题涉及存在性、计数和空间关系,要求智能体 (agent)理解功能性 (affordances)并与动态环境交互。 - K-EQA [144]: 包含具有逻辑子句和知识相关短语的复杂问题,需要先验知识来回答。
- OpenEQA [145]: 第一个
开放词汇 (open-vocabulary)的EQA数据集,支持情景记忆 (episodic memory)和主动探索 (active exploration)。
- EQA v1 [138]: 第一个
-
具身抓取 (Embodied Grasping) 数据集:
- Cornell [159] 和 Jacquard [160]: 传统的
RGB-D抓取数据集,提供2指夹具 (2-finger gripper)的矩形抓取 (Rectangular grasp)标注。 - 6-DOF GraspNet [161] 和 ACRONYM [162]: 提供
6-DOF (6自由度)抓取姿态标注的3D模拟数据集。 - OCID-VLG [165] 和 ReasoningGrasp [166]: 结合了
语义表达 (semantic expressions)的数据集,用于语言引导抓取 (language-guided grasping)任务。 - CapGrasp [167]: 用于
语义丰富 (semantically rich)的灵巧手抓取 (dexterous hand grasp)任务。
- Cornell [159] 和 Jacquard [160]: 传统的
-
统一机器人数据集标准:ARIO (All Robots In One) [237]:
- 该论文提出了
ARIO作为一种新的数据集标准,旨在优化现有数据集并促进通用具身智能体 (embodied agents)的开发。它统一了不同形态机器人的控制和运动数据格式,并提供了大规模的数据集(约300万个片段,来自258个系列和321,064个任务),以解决当前多模态、多机器人数据集的碎片化和不兼容问题。
- 该论文提出了
5.2. 评估指标
在 具身人工智能 (Embodied AI) 领域,不同的任务类型使用不同的评估指标来衡量 智能体 (agent) 的性能。以下是一些常见的评估指标及其说明:
5.2.1. 视觉语言导航 (Visual Language Navigation, VLN)
-
成功率 (Success Rate, SR):
- 概念定义:
成功率 (SR)衡量智能体 (agent)成功到达目标位置并完成指令的百分比。它反映了智能体 (agent)在导航任务中的基本有效性。 - 数学公式:
- 符号解释:
- :成功完成任务的
情节 (episode)数量。 - :所有
情节 (episode)的总数量。
- :成功完成任务的
- 概念定义:
-
路径长度 (Path Length, PL):
- 概念定义:
路径长度 (PL)衡量智能体 (agent)从起始位置到最终位置所走过的总距离。通常用于评估导航效率,但需要与最短路径长度 (Shortest Path Length)结合使用。 - 数学公式: 通常是
智能体 (agent)轨迹中所有连续位置之间距离的总和。 - 符号解释:
- :
智能体 (agent)轨迹中的位置点数量。 - :
智能体 (agent)在时间步 的位置。 - :位置 和 之间的欧几里得距离。
- :
- 概念定义:
-
导航误差 (Navigation Error, NE):
- 概念定义:
导航误差 (NE)衡量智能体 (agent)最终位置与目标位置之间的距离。较小的导航误差 (NE)表示智能体 (agent)更准确地到达了目标。 - 数学公式:
- 符号解释:
- :
智能体 (agent)在情节 (episode)结束时的最终位置。 - :任务指定的目标位置。
- :
- 概念定义:
-
路径长度加权成功率 (Success weighted by Path Length, SPL) [105]:
- 概念定义:
SPL是一个综合指标,结合了成功率 (SR)和导航效率 (navigation efficiency)。它奖励成功的导航,并惩罚不必要的长路径。如果智能体 (agent)成功到达目标,其SPL值会根据其路径长度与最短路径长度 (optimal path length)的比值进行加权。 - 数学公式:
- 符号解释:
- :
情节 (episode)的总数量。 - :
情节 (episode)是否成功(成功为1,失败为0)。 - :
情节 (episode)的最短路径长度 (optimal path length)。 - :
智能体 (agent)在情节 (episode)中实际行走的路径长度。
- :
- 概念定义:
5.2.2. 具身问答 (Embodied Question Answering, EQA)
-
问答准确率 (Question Answering Accuracy, QA Accuracy):
- 概念定义: 对于选择题或开放式问答,
QA 准确率 (QA Accuracy)衡量智能体 (agent)对问题的回答与真实标注 (Ground Truth)答案的匹配程度。对于开放式问题,可能使用BLEU或ROUGE等自然语言生成 (natural language generation)指标。 - 数学公式 (对于选择题):
- 符号解释:
- :
智能体 (agent)给出正确答案的问题数量。 - :所有问题的总数量。
- :
- 概念定义: 对于选择题或开放式问答,
-
成功率 (Success Rate, SR):
- 概念定义: 在
EQA中,成功率 (SR)可以衡量智能体 (agent)是否成功导航到足够的信息区域并正确回答了问题。这通常结合了导航和问答两个子任务的成功。 - 数学公式: 与
VLN中的SR类似,但成功条件包含正确回答问题。
- 概念定义: 在
-
探索效率 (Exploration Efficiency):
- 概念定义: 衡量
智能体 (agent)在回答问题前探索环境的效率,例如所覆盖区域的比例或探索路径的长度。EXPRESS-Bench[148] 引入了探索感知EQA (exploration-aware EQA)指标,旨在更忠实地评估探索 (exploration)行为。
- 概念定义: 衡量
5.2.3. 具身抓取 (Embodied Grasping)
-
抓取成功率 (Grasp Success Rate):
- 概念定义: 衡量
智能体 (agent)成功抓取目标物体的百分比。这是抓取任务 (grasping task)中最直接的性能指标。 - 数学公式:
- 符号解释:
- :成功抓取物体的尝试次数。
- :总的抓取尝试次数。
- 概念定义: 衡量
-
碰撞率 (Collision Rate):
- 概念定义: 衡量
智能体 (agent)在尝试抓取过程中与环境或非目标物体发生碰撞的频率。较低的碰撞率 (Collision Rate)表示智能体 (agent)的操作更安全和精确。 - 数学公式:
- 符号解释:
- :发生碰撞的次数。
- :总的抓取尝试次数。
- 概念定义: 衡量
-
抓取姿态准确性 (Grasp Pose Accuracy):
- 概念定义: 衡量
智能体 (agent)生成的抓取姿态与理想或真实标注 (Ground Truth)抓取姿态之间的匹配程度。通常通过几何距离 (geometric distance)或角度误差 (angular error)来量化。
- 概念定义: 衡量
5.3. 对比基线
作为一篇综述论文,其本身不进行实验,而是对领域内现有研究进行总结和比较。因此,本节将讨论在 具身人工智能 (Embodied AI) 各子任务中,研究人员通常会与哪些类型的“基线”方法进行比较。这些基线代表了不同技术范式或发展阶段的典型方法。
-
传统强化学习 (Traditional Reinforcement Learning, RL) 方法:
- 在
具身智能体 (embodied agent)的行动规划 (action planning)和控制 (control)方面,深度强化学习 (Deep Reinforcement Learning, DRL)方法是常见的基线。它们通过与环境的交互学习策略 (policy),但通常需要大量的训练数据,并且在泛化性 (generalization)和仿真到现实迁移 (sim-to-real transfer)方面存在挑战。 - 例如,在
VLN中,早期方法常使用序列到序列 (sequence-to-sequence)模型结合强化学习 (RL)来学习导航策略 (policy)。
- 在
-
基于规则或符号规划的方法:
- 在
具身任务规划 (embodied task planning)领域,传统的基于规则 (rule-based)或符号规划 (symbolic planning)算法(如PDDL[173]、MCTS[174]、 [175])是常见的基线。这些方法依赖于预定义的规则和启发式,在受控环境中表现良好,但在动态或未见环境中适应性 (adaptability)较差。
- 在
-
单模态深度学习方法:
- 在
具身感知 (embodied perception)任务中,纯视觉模型 (visual models)(如目标检测器 (object detectors)、语义分割网络 (semantic segmentation networks))或纯语言模型 (language models)(如用于指令理解的BERT类模型)是常见的基线。这些模型通常无法处理多模态信息融合带来的复杂性。
- 在
-
早期的视觉-语言方法:
- 在
视觉语言导航 (VLN)和具身问答 (EQA)等多模态任务 (multimodal tasks)中,早期的视觉-语言模型 (vision-language models)结合RNN或注意力机制 (attention mechanisms)是常见的基线。 - 例如
Anderson et al.[105] 的VLN工作。
- 在
-
基于
大语言模型 (LLMs)或视觉-语言模型 (VLMs)的非具身方法:- 随着
LLMs和VLMs的发展,许多研究首先在离身 (disembodied)设置下探索它们的能力,例如ChatGPT[4] 或RoboGPT[8] 在文本或图像上的规划和推理。这些构成了验证具身 (embodied)优势的基线。
- 随着
-
不同
仿真到现实迁移 (Sim-to-Real Transfer)范式:- 在
仿真到现实适应 (sim-to-real adaptation)中,各种仿真到现实 (sim-to-real)策略本身就是相互比较的基线,例如领域随机化 (Domain Randomization)[231]、系统识别 (System Identification)[234]、Real2Sim2real[229] 等,它们各自代表了不同的迁移策略。
- 在
-
基于
多模态大模型 (MLMs)和世界模型 (WMs)的方法 (作为新基线):- 随着
MLMs和WMs)的出现,它们本身也成为了该领域新的、强大的基线,后续研究将致力于超越这些模型的性能,或者在特定具身任务 (embodied tasks)中优化它们的应用。
- 随着
6. 实验结果与分析
由于本文是一篇综述论文,其“实验结果与分析”并非基于作者自己的新实验,而是对现有文献中“成果”的总结、比较和趋势分析。因此,本节将根据论文中对各研究方向的描述和总结,来呈现其核心发现。
6.1. 核心结果分析
这篇综述的核心分析结果表明,具身人工智能 (Embodied AI) 领域正经历由 多模态大模型 (MLMs) 和 世界模型 (WMs) 驱动的重大变革,这些新兴技术为其发展注入了强大动力。
-
MLMs和WMs的赋能作用: 论文强调,
多模态大模型 (MLMs)和世界模型 (WMs)以其卓越的感知、交互和推理能力,成为了构建具身智能体 (embodied agents)的有前景架构。它们能够将网络空间 (cyber space)的丰富知识迁移到物理世界 (physical world),显著提升具身智能体 (embodied agents)理解复杂指令、进行高级规划和处理多模态信息的能力。例如,MLMs赋能了具身智能体 (embodied agents)在视觉语言导航 (VLN)中更好地理解语言指令 (linguistic instructions),在具身问答 (EQA)中利用世界知识 (world knowledge)进行推理,并在具身抓取 (Embodied Grasping)中实现语义理解 (semantic understanding)。 -
具身感知能力显著提升: 在
具身感知 (Embodied Perception)方面,视觉同时定位与建图 (vSLAM)和3D场景理解 (3D Scene Understanding)方法不断演进,结合主动探索 (Active Exploration)机制,使智能体 (agent)能够更全面、动态地感知和理解物理环境 (physical environments)。Transformer和Mamba等新架构的引入,进一步提升了3D点云 (3D point cloud)处理和场景理解 (scene understanding)的能力。 -
具身交互多样化与智能化:
具身交互 (Embodied Interaction)任务(如具身问答 (EQA)和具身抓取 (Embodied Grasping))的复杂性和智能化程度不断提高。LLMs/VLMs的应用使得智能体 (agent)能够理解更复杂的查询、进行情景记忆 (episodic memory)和主动探索 (active exploration),并根据显式 (explicit)或隐式 (implicit)语言指令 (linguistic instructions)执行精细的抓取操作,展现出更强的语义推理 (semantic reasoning)能力。 -
具身智能体走向通用化:
具身智能体 (Embodied Agent)的发展正朝着通用化 (generalization)方向迈进。高层任务规划 (high-level task planning)结合LLMs的涌现能力 (emergent capabilities)和视觉信息 (visual information),以及低层行动规划 (low-level action planning)采用API或VLA模型 (VLA models),使得智能体 (agent)能够分解和执行复杂的长时序任务 (long-horizon tasks)。 -
仿真到现实适应面临挑战与机遇:
仿真到现实适应 (Sim-to-Real adaptation)依然是关键挑战。具身世界模型 (Embodied World Models)(基于生成、预测和知识驱动)的出现为弥合仿真到现实鸿沟 (sim-to-real gap)提供了新途径,使得智能体 (agent)能够发展物理直觉 (physical intuition)。同时,新的数据收集 (data collection)方法和仿真到现实范式 (sim-to-real paradigms)(如领域随机化 (Domain Randomization)、Real2Sim2real)也在不断探索。 -
数据集的重要性与标准化呼吁: 论文通过对现有数据集的详细梳理,揭示了其在规模、模态、格式和多样性方面的不足。提出的
ARIO数据集标准和大规模数据集,旨在为具身人工智能 (Embodied AI)领域提供一个统一、全面的基石,以支持鲁棒 (robust)、通用具身智能体 (general-purpose embodied agents)的发展。总体而言,该综述描绘了
具身人工智能 (Embodied AI)作为一个融合计算机视觉 (CV)、自然语言处理 (NLP)和机器人技术 (robotics)的交叉领域,正加速向通用人工智能 (AGI)迈进,但仍需克服在数据、推理和部署方面的多重挑战。
6.2. 数据呈现 (表格)
以下是原文中所有表格的转录和解释。
以下是原文 Table I 的结果:
| Type | Environment | Physical Entities | Description | Representative Agents |
| Disembodied AI | Cyber Space | No | Cognition and physical entities are disentangled | ChatGPT [4], RoboGPT [8] |
| Embodied AI | Physical Space | Robots, Cars, Other devices | Cognition is integrated into physical entities | RT-1 [9], RT-2 [10], RT-H [3] |
表 I:离身人工智能与具身人工智能的比较。
**分析:** 此表格清晰地对比了 `离身人工智能 (Disembodied AI)` 和 `具身人工智能 (Embodied AI)` 的核心特征。`离身人工智能 (Disembodied AI)` 仅存在于 `网络空间 (Cyber Space)`,没有物理实体,其认知与物理实体是分离的,例如 `ChatGPT`。而 `具身人工智能 (Embodied AI)` 则存在于 `物理空间 (Physical Space)`,拥有机器人、汽车等物理实体,其认知与物理实体是整合的,例如 `RT-1`、`RT-2`。这为理解 `具身人工智能 (Embodied AI)` 的核心概念奠定了基础。以下是原文 Table II 的结果:
| Simulator | Year | HFPS | HQGR | RRL | DLS | LSPC | ROS | MSS | CP | Physics Engine | Main Applications |
| Genesis [35] | 2024 | O | o | O | O | O | O | Custom | RL, LSPS, RS | ||
| Isaac Sim [36] | 2023 | O | O | O | O | O | O | O | PhysX | Nav, AD | |
| Isaac Gym [37] | 2019 | O | O | O | PhysX | RL,LSPS | |||||
| Gazebo [38] | 2004 | O | O | O | O | O | ODE, Bullet, Simbody, DART Nav,MR | ||||
| PyBullet [39] | 2017 | O | O | Bullet | RL,RS | ||||||
| Webots [40] | 1996 | O | O | O | O | ODE | RS | ||||
| MuJoCo [41] | 2012 | O | o | Custom | RL, RS | ||||||
| Unity ML-Agents [42] | 2017 | O | O | O | Custom | RL, RS | |||||
| AirSim [43] | 2017 | O | o | Custom | Drone sim, AD, RL | ||||||
| MORSE [44] | 2015 | o | O | Bullet | Nav, MR | ||||||
| V-REP (CoppeliaSim) [45] | 2013 | O | O | O | O | Bullet, ODE, Vortex, Newton MR, RS |
表 II:通用模拟器比较。HFPS:高保真物理仿真;HQGR:高质量图形渲染;RRL:丰富的机器人库;DLS:深度学习支持;LSPC:大规模并行计算;ROS:机器人操作系统;MSS:多传感器支持;CP:碰撞检测。O 表示该模拟器在该方面表现出色。
**分析:** 此表格详细列出了11个通用模拟器的发布年份、核心功能和主要应用领域。可以看出,`Isaac Sim` 在多个方面(高保真物理仿真、高质量图形渲染、丰富的机器人库、深度学习支持、大规模并行计算、ROS、多传感器支持、碰撞检测)都表现出色,适合多种机器人和 `AI` 研究。`Genesis` 作为2024年发布的新模拟器,也展现出强大的潜力。一些老牌模拟器如 `Gazebo` 和 `V-REP` 依然因其广泛支持和灵活性而常用。此表格对于选择合适的模拟器进行 `具身人工智能 (Embodied AI)` 研究提供了重要的参考。以下是原文 Table III 的结果:
| Function | Type | Methods |
|---|---|---|
| vSLAM | Traditional vSLAM | MonoSLAM [60], ORB-SLAM [61], LSD-SLAM [62] |
| Semantic vSLAM | SLAM++ [63], QuadricSLAM [64], So-SLAM [65],SG-SLAM [66], OVD-SLAM [67], GS-SLAM [68] | |
| 3D Scene Understanding | Projection-based | MV3D [69], PointPillars [70], MVCNN [71] |
| Voxel-based | VoxNet [72], SSCNet [73]), MinkowskiNet [74], SSCNs [75], Embodiedscan [76] | |
| Point-based | PointNet [77], PointNet++ [78], PointMLP [79], PointTransformer [80], Swin3d [81], PT2 [82],3D-VisTA [83], LEO [84], PQ3D [85], PointMamba [86], Mamba3D [87] | |
| Active Exploration | Interacting with the environment | Pinto et al. [88], Tatiya et al. [89] |
| Changing the viewing direction | Jayaraman et al. [90], NeU-NBV [91], Hu et al. [92], Fan et al. [93] |
表 III:主动视觉感知方法的比较。
**分析:** 该表格对 `主动视觉感知 (Active Visual Perception)` 的三个核心功能:`视觉同时定位与建图 (vSLAM)`、`3D场景理解 (3D Scene Understanding)` 和 `主动探索 (Active Exploration)` 进行了分类和方法总结。在 `vSLAM` 方面,从 `传统vSLAM (Traditional vSLAM)` 到 `语义vSLAM (Semantic vSLAM)` 的发展,体现了引入高级语义信息的重要性。`3D场景理解 (3D Scene Understanding)` 则展示了从 `基于投影 (Projection-based)`、`基于体素 (Voxel-based)` 到 `基于点云 (Point-based)` 方法的演进,以及近期 `Transformer` 和 `Mamba` 架构的引入。`主动探索 (Active Exploration)` 方法强调了通过与环境交互或改变视角来获取更多信息。此表格全面概述了 `具身智能体 (embodied agents)` 进行环境感知所依赖的技术基础。以下是原文 Table IV 的结果:
| Dataset | Year | Simulator | Environment | Feature | Size | ||
|---|---|---|---|---|---|---|---|
| Type | Continuity | Type | Interaction | ||||
| R2R [105] | 2018 | M3D | I | D | SbS | No | 21,567 |
| R4R [106] | 2019 | M3D | I | D | SbS | No | 200,000+ |
| VLN-CE [107] | 2020 | Habitat | I | C | SbS | No | - |
| TOUCHDOWN [108] | 2019 | - | O | D | SbS | No | 9,326 |
| REVERIE [109] | 2020 | M3D | I | D | DGN | No | 21,702 |
| SOON [110] | 2021 | M3D | I | D | DGN | No | 3,848 |
| DDN [111] | 2023 | AT | I | C | DDN | No | 30,000+ |
| ALFRED [112] | 2020 | AT | I | C | NwI | Yes | 25,743 |
| OVMM [113] | 2023 | Habitat | I | C | NwI | Yes | 7,892 |
| BEHAVIOR-1K [114] | 2023 | OG | I | C | LSNwI | Yes | 1,000 |
| CVDN [115] | 2020 | M3D | I | D | D&O | Yes (Dialogue) | 2,050 |
| DialFRED [116] | 2022 | AT | I | C | D&O | Yes (Dialogue) | 53,000 |
表 IV:不同 VLN 数据集的比较。M3D: Matterport3D, AT: AI2-THOR, OG: OmniGibson, I: 室内, D: 离散, O: 室外, C: 连续, SbS: 逐步指令, DGN: 目标描述导航, DDN: 需求驱动导航, NwI: 带交互的导航, LSNwI: 长跨度带交互的导航, D&O: 对话和预言机。
**分析:** 此表格对 `视觉语言导航 (VLN)` 领域中的多个关键数据集进行了系统比较。数据集涵盖了不同的模拟器(`Matterport3D`、`Habitat`、`AI2-THOR` 等)、环境类型(室内/室外、离散/连续)和 `特征 (Feature)`(逐步指令、目标描述导航、需求驱动导航、带交互的导航、长跨度带交互的导航、对话和预言机)。值得注意的是,`ALFRED`、`OVMM` 和 `BEHAVIOR-1K` 等数据集引入了 `交互 (interaction)`,使任务更加复杂和真实。`CVDN` 和 `DialFRED` 则进一步引入了 `对话 (dialogue)` 能力,提升了 `智能体 (agent)` 的辅助决策能力。该表格为 `VLN` 任务的研究者提供了选择合适数据集的指南。以下是原文 Table V 的结果:
| Method | Model | Year | Feature |
|---|---|---|---|
| Memory-UnderstandingBased | LVERG [117] | 2020 | Graph Learning |
| CMG [118] | 2020 | Adversarial Learning | |
| RCM [119] | 2021 | Reinforcement learning | |
| FILM [120] | 2022 | Semantic Map | |
| LM-Nav [121] | 2022 | Graph Learning | |
| HOP [122] | 2022 | History Modeling | |
| NaviLLM [123] | 2024 | Large Model | |
| FSTT [124] | 2024 | Test-Time Augmentation | |
| DiscussNav [125] | 2024 | Large Model | |
| GOAT [126] | 2024 | Causal Learning | |
| VER [127] | 2024 | Environment Encoder | |
| NaVid [128] | 2024 | Large Model | |
| Future-PredictionBased | LookBY [129] | 2018 | Reinforcement Learning |
| NvEM [130] | 2021 | Environment Encoder | |
| BGBL [131] | 2022 | Graph Learning | |
| Mic [132] | 2023 | Large Model | |
| HNR [133] | 2024 | Environment Encoder | |
| ETPNav [134] | 2024 | Graph Learning | |
| Others | MCR-Agent [135] | 2023 | Multi-Level Model |
| OVLM [136] | 2023 | Large Model |
表 V:VLN 方法的比较。
**分析:** 此表格对 `视觉语言导航 (VLN)` 领域的方法进行了分类,主要分为 `基于记忆理解 (Memory-Understanding Based)` 和 `基于未来预测 (Future-Prediction Based)`。`基于记忆理解 (Memory-Understanding Based)` 方法在 `VLN` 中占据主流,倾向于利用 `图学习 (Graph Learning)`、`对抗学习 (Adversarial Learning)`、`强化学习 (Reinforcement learning)`、`语义地图 (Semantic Map)` 和 `历史建模 (History Modeling)` 来处理 `历史轨迹 (historical trajectories)`。近年来,`大模型 (Large Model)` (如 `NaviLLM`、`DiscussNav`、`NaVid`) 的应用显著增多。`基于未来预测 (Future-Prediction Based)` 方法则通过 `强化学习 (Reinforcement Learning)`、`环境编码器 (Environment Encoder)` 和 `图学习 (Graph Learning)` 来预测未来状态,`大模型 (Large Model)` 也在其中扮演了角色 (如 `Mic`)。此表格展示了 `VLN` 研究从传统 `深度学习 (deep learning)` 方法向 `大型模型 (Large Model)` 驱动的趋势演变。以下是原文 Table VI 的结果:
| Dataset | Year | Type | Data Sources | Simulator | Query Creation | Answer | Size |
|---|---|---|---|---|---|---|---|
| EQA v1 [138] | 2018 | Active EQA | SUNCG | House3D | Rule-Based | open-ended | 5,000+ |
| MT-EQA [139] | 2019 | Active EQA | SUNCG | House3D | Rule-Based | open-ended | 19,000+ |
| MP3D-EQA [140] | 2019 | Active EQA | MP3D | Simulator based on MINOS | Rule-Based | open-ended | 1,136 |
| IQUAD V1 [141] | 2018 | Interactive EQA | AI2THOR | Rule-Based | multi-choice | 75,000+ | |
| VideoNavQA [142] | 2019 | Episodic Memory EQA | SUNCG | House3D | Rule-Based | open-ended | 101,000 |
| SQA3D [143] | 2022 | QA only | ScanNet | Manual | multi-choice | 33,400 | |
| K-EQA [144] | 2023 | Active EQA | AI2THOR | Rule-Based | open-ended | 60,000 | |
| OpenEQA [145] | 2024 | Active EQA, Episodic Memory EQA | ScanNet, HM3D | Habitat | Manual | open-ended | 1,600+ |
| HM-EQA [146] | 2024 | Active EQA | HM3D | Habitat | VLM | multi-choice | 500 |
| S-EQA [147] | 2024 | Active EQA | VirtualHome | LLM | binary | ||
| EXPRESS-Bench [148] | 2025 | Exploration-aware EQA | HM3D | Habitat | VLM | open-ended | 2,044 |
表 VI:不同 EQA 数据集的比较。
**分析:** 该表格列出了 `具身问答 (EQA)` 任务中的多个数据集,并比较了它们的年份、类型、数据来源、模拟器、查询创建方式、回答类型和大小。`EQA` 数据集从早期的 `Active EQA` 类型(如 `EQA v1`、`MT-EQA`)发展到 `Interactive EQA`(如 `IQUAD V1`),再到涉及 `情景记忆 (Episodic Memory EQA)` 和需要 `先验知识 (prior knowledge)` 的 `K-EQA`。近年来,随着 `大型模型 (Large Models)` 的发展,`OpenEQA` 和 `HM-EQA` 引入了 `开放词汇 (open-vocabulary)` 和 `VLM` 生成查询,`EXPRESS-Bench` 则专注于 `探索感知 (Exploration-aware)` 评估。这反映了 `EQA` 任务从简单对象问答向复杂场景理解和 `常识推理 (commonsense reasoning)` 的演进。以下是原文 Table VII 的结果:
| Dataset | Year | Type | Modality | Grasp Label | Gripper Finger | Objects | Grasps | Scenes | Language |
|---|---|---|---|---|---|---|---|---|---|
| Cornell [159] | 2011 | Real | RGB-D | Rect. | 2 | 240 | 8K | Single | × |
| Jacquard [160] | 2018 | Sim | RGB-D | Rect. | 2 | 11K | 1.1M | Single | × |
| 6-DOF GraspNet [161] | 2019 | Sim | 3D | 6D | 2 | 206 | 7.07M | Single | × |
| ACRONYM [162] | 2021 | Sim | 3D | 6D | 2 | 8872 | 17.7M | Multi | × |
| MultiGripperGrasp [163] | 2024 | Sim | 3D | - | 2-5 | 345 | 30.4M | Single | × |
| OCID-Grasp [164] | 2021 | Real | RGB-D | Rect. | 2 | 89 | 75K | Multi | × |
| OCID-VLG [165] | 2023 | Real | RGB-D,3D | Rect. | 2 | 89 | 75K | Multi | √ |
| ReasoingGrasp [166] | 2024 | Real | RGB-D | 6D | 2 | 64 | 99.3M | Multi | √ |
| CapGrasp [167] | 2024 | Sim | 3D | - | 5 | 1.8K | 50K | Single | √ |
表 VII:具身抓取数据集。
**分析:** 此表格总结了 `具身抓取 (Embodied Grasping)` 领域的主要数据集。可以看出,早期数据集(如 `Cornell`、`Jacquard`)主要提供 `RGB-D` 数据和 `矩形抓取 (Rectangular grasp)` 标签,且不包含语言信息。随着研究的深入,数据集开始提供 `3D` 数据和 `6自由度 (6-DOF)` 抓取标签(如 `6-DOF GraspNet`、`ACRONYM`)。最显著的趋势是,近年来出现了整合 `语言 (Language)` 模态的数据集(如 `OCID-VLG`、`ReasoningGrasp`、`CapGrasp`),这与 `多模态大模型 (MLMs)` 在 `具身人工智能 (Embodied AI)` 中的应用趋势相符,使得 `智能体 (agent)` 能够进行 `语言引导抓取 (language-guided grasping)`。此外,数据集中的物体和抓取数量也呈指数级增长。6.3. 消融实验/参数分析
本篇论文是一篇综述,因此其本身不进行 消融实验 (ablation studies) 或 参数分析 (parameter analysis)。这些分析通常在具体的模型或算法研究论文中进行,以验证模型各组件的有效性或超参数对性能的影响。
然而,在论文对各个研究子方向的讨论中,间接体现了对“组件有效性”和“挑战”的分析。例如:
- 在
具身智能体 (Embodied Agent)部分,论文指出任务规划 (task planning)的高准确率(如RoboGPT达到96%)与整体任务完成率 (overall task completion rate)(仅60%)之间的差距,这间接说明了低层行动规划器 (low-level planner)的性能是限制具身智能体 (embodied agent)的关键因素,这可以被视为对行动规划器组件有效性的隐式分析。 - 在
仿真到现实适应 (Sim-to-Real adaptation)的具身世界模型 (Embodied World Model)局限性部分,论文讨论了世界模型 (WMs)在处理真实世界环境 (real-world environments)的复杂性和可变性时的挑战,以及泛化能力 (generalization)、数据效率 (data efficiency)和可解释性 (interpretability)等问题,这可以被看作是对世界模型 (WMs)现有局限性的分析,指导未来研究如何通过改进组件来提升性能。
7. 总结与思考
7.1. 结论总结
本文全面综述了 具身人工智能 (Embodied AI) 领域的最新进展,尤其是在 多模态大模型 (MLMs) 和 世界模型 (WMs) 赋能下,如何将 网络空间 (cyber space) 与 物理世界 (physical world) 对齐。论文深入探讨了 具身机器人 (embodied robots) 和 模拟器 (simulators) 的现状与发展,并系统分析了 具身感知 (embodied perception)、具身交互 (embodied interaction)、具身智能体 (embodied agent) 和 仿真到现实适应 (sim-to-real adaptation) 四个关键研究目标。通过详细介绍 最先进的 (state-of-the-art) 方法、基本范式和综合数据集,论文为该领域构建了一个清晰的知识图谱。此外,本文还提出了 ARIO 这一统一的大规模数据集标准,以应对现有数据集的局限性。最终,论文总结了 具身人工智能 (Embodied AI) 面临的挑战,并展望了未来的研究方向,强调了其在实现 通用人工智能 (AGI) 方面的关键意义。
7.2. 局限性与未来工作
论文作者指出了 具身人工智能 (Embodied AI) 领域当前面临的几项关键挑战,并据此提出了未来的研究方向:
-
高质量机器人数据集 (High-quality Robotic Datasets):
- 局限性: 收集足够的
真实世界机器人数据 (real-world robotic data)耗时且资源密集,仅依赖模拟数据 (simulation data)会加剧仿真到现实鸿沟 (sim-to-real gap)。当前缺乏大规模、多样化且集成多模态(图像、3D视觉 (3D vision)、文本、触觉、听觉)的统一数据集。 - 未来工作: 需要不同机构之间紧密合作,创建多样化的
真实世界机器人数据集 (real-world robotic datasets)。同时,开发更真实、高效的模拟器 (simulators)以提高模拟数据 (simulated data)质量,并构建大规模数据集,结合高质量模拟环境数据 (simulated environment data)来辅助真实世界数据 (real-world data),以实现跨场景 (cross-scenario)和跨任务 (cross-task)的泛化具身模型 (generalizable embodied models)。ARIO标准正是为此目标而提出。
- 局限性: 收集足够的
-
长时序任务执行 (Long-Horizon Task Execution):
- 局限性: 诸如“打扫厨房”等
长时序任务 (long-horizon tasks)需要机器人规划和执行一系列低级行动。当前的高层任务规划器 (high-level task planners)虽然初步成功,但由于缺乏针对具身任务 (embodied tasks)的微调 (tuning),在多样化场景中往往不足。 - 未来工作: 需要开发配备
鲁棒感知能力 (robust perception capabilities)和丰富常识知识 (commonsense knowledge)的高效规划器。可以结合轻量级监控模块 (monitor modules)进行高频监控,以及两个适配器 (adapters)进行低频次的子任务和路径适应性推理,以平衡规划复杂性和实时适应性。
- 局限性: 诸如“打扫厨房”等
-
因果推理 (Causal Reasoning):
- 局限性: 现有
数据驱动的具身智能体 (data-driven embodied agents)依赖数据关联 (data correlations)进行决策,未能真正理解知识、行为和环境之间的因果关系 (causal relations),导致策略 (strategies)存在偏差,难以在真实世界 (real-world)中稳健可靠地运行。 - 未来工作:
具身智能体 (embodied agents)需要由世界知识 (world knowledge)驱动,具备自主的因果推理能力 (causal reasoning capability)。通过交互理解世界,并通过溯因推理 (abductive reasoning)学习其运作方式,可以增强具身智能体 (embodied agents)在复杂真实世界环境 (real-world environments)中的适应性 (adaptability)、决策可靠性 (decision reliability)和泛化能力 (generalization capabilities)。还需要建立跨模态 (cross-modality)的时空因果关系 (spatial-temporal causal relations),并使智能体 (agent)理解物体功能性 (affordances)以实现动态场景 (dynamic scenes)中的自适应任务规划 (adaptive task planning)。
- 局限性: 现有
-
统一评估基准 (Unified Evaluation Benchmark):
- 局限性: 现有
低层控制策略 (low-level control policies)的评估基准在所评估的技能上差异显著,且物体和场景通常受模拟器 (simulator)限制。许多高层任务规划器 (high-level task planners)基准仅通过问答任务评估规划能力 (planning capability)。 - 未来工作: 综合评估
具身模型 (embodied models)的基准应涵盖各种技能,并使用真实模拟器 (realistic simulators)。更理想的方法是同时评估高层任务规划器 (high-level task planner)和低层控制策略 (low-level control policy)在执行长时序任务 (long-horizon tasks)时的成功率,而不是孤立评估规划器。
- 局限性: 现有
-
安全与隐私 (Security and Privacy):
- 局限性:
具身智能体 (embodied agents)部署在敏感或私人空间时面临显著安全挑战 (security challenges)。它们对LLMs的依赖引入了新的漏洞,例如LLMs易受后门攻击 (backdoor attacks)(词语注入、场景操纵、知识注入),可能导致自主车辆 (autonomous vehicles)撞向障碍物或机器人执行危险行动。 - 未来工作: 需要评估潜在的
攻击向量 (attack vectors)并开发更鲁棒的防御措施。此外,应使用安全提示 (secure prompting)、状态管理 (state management)和安全验证机制 (safety validation mechanisms)来增强安全性 (security)和鲁棒性 (robustness)。
- 局限性:
7.3. 个人启发与批判
-
个人启发:
- AGI 路径的具身视角: 这篇综述极大地强化了
具身人工智能 (Embodied AI)作为实现通用人工智能 (AGI)核心路径的观点。它清晰地描绘了智能体 (agent)必须通过物理世界 (physical world)的交互才能获得真正智能的直觉,这比纯粹基于网络空间 (cyber space)的人工智能 (AI)更具说服力。 - MLMs 与 WMs 的关键作用: 论文深刻揭示了
多模态大模型 (MLMs)和世界模型 (WMs)在具身人工智能 (Embodied AI)发展中的革命性作用。它们不仅提供了强大的感知和推理基础,更重要的是,它们为智能体 (agent)赋予了从网络世界 (cyber world)中学习并应用于物理世界 (physical world)的能力,以及在内部模拟和规划的能力,这对于克服仿真到现实鸿沟 (sim-to-real gap)至关重要。 - 系统化思维的价值: 综述的结构化分析方法本身就具有很强的启发性。从
机器人 (robots)、模拟器 (simulators)这些基础设施,到感知 (perception)、交互 (interaction)、智能体 (agent)核心任务,再到仿真到现实 (sim-to-real)部署挑战,这种自下而上、全面覆盖的框架对于理解复杂领域、识别关键问题和规划研究方向非常有益。 - ARIO 数据集标准的提出: 作为一篇综述,不仅仅停留在总结,而是主动提出
ARIO这种具有前瞻性的数据集标准和大规模数据集,体现了作者对推动领域发展的责任感和实践性思考。这有助于解决数据碎片化和不兼容的痛点,加速通用具身智能体 (general-purpose embodied agents)的研发。
- AGI 路径的具身视角: 这篇综述极大地强化了
-
批判性思考:
- 新兴技术更新速度: 尽管这篇综述非常新颖,但
多模态大模型 (MLMs)和世界模型 (WMs)领域的发展速度极快,几乎每月都有新的模型和技术涌现。因此,即使是最新的综述,在发布后不久也可能在某些具体模型或细节上略显滞后。如何构建一个能够动态更新和适应这种快速变化的综述框架,可能是未来可以探索的方向。 - AGI 路线图的模糊性: 论文强调了
具身人工智能 (Embodied AI)对实现AGI的重要性,但具体的AGI路线图或里程碑仍相对模糊。例如,当前具身智能体 (embodied agents)距离真正的人类级别常识推理 (commonsense reasoning)、开放世界泛化 (open-world generalization)和长时序任务执行 (long-horizon task execution)还有多远?需要哪些关键的突破性技术?如果能提供更具体的阶段性目标,或许能为研究者指明更清晰的路径。 - 计算资源与可及性挑战:
多模态大模型 (MLMs)和世界模型 (WMs)的训练和部署往往需要极其庞大的计算资源。这在论文中并未作为核心挑战进行深入讨论。对于初学者和资源有限的研究机构而言,这种高昂的成本可能成为具身人工智能 (Embodied AI)普及和创新的一大障碍。未来的研究可能需要探索更高效 (efficient)、更轻量级 (lightweight)的模型或分布式学习 (distributed learning)范式,以提高具身人工智能 (Embodied AI)的可及性。 - 伦理与社会影响:
具身人工智能 (Embodied AI)与物理世界 (physical world)的深度融合,必然带来复杂的伦理和社会影响,例如就业、隐私、责任归属等问题。虽然论文提到了安全与隐私 (Security and Privacy),但对其更广泛的社会维度讨论相对较少。在AGI的愿景下,这些非技术层面的挑战同样关键且迫切。
- 新兴技术更新速度: 尽管这篇综述非常新颖,但
相似论文推荐
基于向量语义检索推荐的相关论文。