论文状态：已完成

Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

发表：2024/07/09

多模态大语言模型 (27)体现人工智能综述 (1)世界模型 (2)虚实适配 (1)智能机械系统 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本综述全面探讨了具身人工智能的最新进展，强调其在实现通用人工智能以及连接网络空间与物理世界中的重要性。分析涵盖了具身感知、交互、智能体及仿真到现实适应等四个主要研究目标，探讨了多模态大模型的复杂性及其应用。同时总结了当前面临的挑战及未来方向。

摘要

Embodied Artificial Intelligence (Embodied AI) is crucial for achieving Artificial General Intelligence (AGI) and serves as a foundation for various applications (e.g., intelligent mechatronics systems, smart manufacturing) that bridge cyberspace and the physical world. Recently, the emergence of Multi-modal Large Models (MLMs) and World Models (WMs) have attracted significant attention due to their remarkable perception, interaction, and reasoning capabilities, making them a promising architecture for embodied agents. In this survey, we give a comprehensive exploration of the latest advancements in Embodied AI. Our analysis firstly navigates through the forefront of representative works of embodied robots and simulators, to fully understand the research focuses and their limitations. Then, we analyze four main research targets: 1) embodied perception, 2) embodied interaction, 3) embodied agent, and 4) sim-to-real adaptation, covering state-of-the-art methods, essential paradigms, and comprehensive datasets. Additionally, we explore the complexities of MLMs in virtual and real embodied agents, highlighting their significance in facilitating interactions in digital and physical environments. Finally, we summarize the challenges and limitations of embodied AI and discuss potential future directions. We hope this survey will serve as a foundational reference for the research community. The associated project can be found at https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List.

思维导图

论文精读

中文精读约 40 分钟读完 · 26,654 字

1. 论文基本信息

1.1. 标题

Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

中文翻译：《对齐网络空间与物理世界：具身人工智能的综合综述》

1.2. 作者

Yang Liu, Weixing Chen, Yongjie Bai, Xiaodan Liang, Guanbin Li, Wen Gao, Liang Lin

作者团队主要来自中山大学计算机科学与工程学院、广东省大数据分析与处理重点实验室、鹏城实验室以及北京大学数字媒体研究所。其中，Liang Lin教授为通讯作者。

1.3. 发表期刊/会议

该论文作为预印本 (arXiv preprint) 发表。发布状态：预印本 (Preprint) 领域声誉：arXiv 是一个广受学术界认可的预印本服务器，允许研究人员在同行评审之前分享其研究成果，对快速传播和交流最新科研进展具有重要影响力。

1.4. 发表年份

2024年7月9日

1.5. 摘要

具身人工智能 (Embodied Artificial Intelligence, Embodied AI) 对于实现 通用人工智能 (Artificial General Intelligence, AGI) 至关重要，并作为连接 网络空间 (cyberspace) 和 物理世界 (physical world) 的各种应用（例如 智能机电系统 (intelligent mechatronics systems)、智能制造 (smart manufacturing)）的基础。最近，多模态大模型 (Multi-modal Large Models, MLMs) 和 世界模型 (World Models, WMs) 的出现因其卓越的感知、交互和推理能力而引起了广泛关注，使其成为 具身智能体 (embodied agents) 的一个有前景的架构。在本综述中，我们对 具身人工智能 (Embodied AI) 的最新进展进行了全面探索。我们的分析首先探讨了 具身机器人 (embodied robots) 和 模拟器 (simulators) 的代表性前沿工作，以充分理解其研究重点和局限性。然后，我们分析了四个主要研究目标：1) 具身感知 (embodied perception)，2) 具身交互 (embodied interaction)，3) 具身智能体 (embodied agent)，以及 4) 仿真到现实适应 (sim-to-real adaptation)，涵盖了最先进的方法、基本范式和综合数据集。此外，我们还探讨了 多模态大模型 (MLMs) 在虚拟和真实 具身智能体 (embodied agents) 中的复杂性，强调了它们在促进数字和物理环境中交互方面的重要性。最后，我们总结了 具身人工智能 (embodied AI) 面临的挑战和局限性，并讨论了潜在的未来方向。我们希望本综述能为研究社区提供一个基础性的参考。相关项目可在 https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List 找到。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2407.06886 PDF 链接: https://arxiv.org/pdf/2407.06886v8.pdf

2. 整体概括

2.1. 研究背景与动机

这篇论文旨在解决的核心问题是：如何在 多模态大模型 (MLMs) 和 世界模型 (WMs) 时代，全面梳理和理解 具身人工智能 (Embodied AI) 的最新进展，尤其是在连接 网络空间 (cyber space) 和 物理世界 (physical world) 方面的应用。

这个问题在当前领域是重要的，原因在于：

实现通用人工智能 (AGI) 的关键路径： 论文开宗明义指出，具身人工智能 (Embodied AI) 是实现 通用人工智能 (AGI) 的基础。与仅在虚拟环境中解决抽象问题的 离身人工智能 (disembodied AI) 不同，具身人工智能 (Embodied AI) 强调智能体通过物理实体与真实世界交互，从而获得更深层次的理解和泛化能力。
应用潜力巨大： 具身人工智能 (Embodied AI) 是 智能机电系统 (intelligent mechatronics systems) 和 智能制造 (smart manufacturing) 等领域的核心技术，能显著提升系统的效率和功能。
新兴技术挑战与机遇： 多模态大模型 (MLMs) 和 世界模型 (WMs) 的崛起，带来了前所未有的感知、交互和推理能力，为构建通用 具身智能体 (embodied agents) 提供了新途径。然而，这些新模型的能力（如长期记忆、复杂意图理解、复杂任务分解）仍有限制。
现有综述的不足： 大多数关于 具身人工智能 (Embodied AI) 的现有综述论文已经过时，未能充分涵盖 多模态大模型 (MLMs) 时代（约2023年开始）的最新进展，尤其是在 具身机器人 (embodied robots)、模拟器 (simulators)、世界模型 (WMs) 和 具身智能体 (embodied agents) 方面的最新发展被忽视。

这篇论文的切入点和创新思路是：在 多模态大模型 (MLMs) 和 世界模型 (WMs) 的背景下，从 网络空间 (cyber space) 到 物理世界 (physical world) 的对齐视角，提供一份全面的 具身人工智能 (Embodied AI) 综述，填补现有研究空白。

2.2. 核心贡献/主要发现

这篇论文的核心贡献可以总结为以下三点：

首次全面综述： 据作者所知，这是第一篇从 多模态大模型 (MLMs) 和 世界模型 (WMs) 视角，探讨 网络空间 (cyber space) 与 物理世界 (physical world) 对齐的 具身人工智能 (Embodied AI) 综合综述，提供了关于方法论、基准、挑战和应用的新见解。
详细分类与体系构建： 论文将 具身人工智能 (Embodied AI) 分类并总结为几个基本部分，包括 具身机器人 (robots)、模拟器 (simulators)，以及四个主要研究任务：具身感知 (embodied perception)、具身交互 (embodied interaction)、具身智能体 (embodied agents) 和 仿真到现实适应 (sim-to-real adaptation)。这构成了一个详细的 具身人工智能 (Embodied AI) 分类学。
提出新的数据集标准与大规模数据集： 为了促进鲁棒、通用 具身智能体 (embodied agents) 的发展，论文提出了一个新的数据集标准 ARIO (All Robots In One)，并开发了一个统一的大规模 ARIO 数据集，包含约300万个片段，来自258个系列和321,064个任务。

论文的主要发现揭示了 多模态大模型 (MLMs) 和 世界模型 (WMs) 在推动 具身人工智能 (Embodied AI) 发展中的关键作用，同时强调了当前在数据、任务执行、因果推理、评估基准、安全与隐私方面存在的挑战，并指出了未来的研究方向。

3. 预备知识与相关工作

3.1. 基础概念

理解本文需要以下最基本的技术、理论或模型：

具身人工智能 (Embodied Artificial Intelligence, Embodied AI)： 这是一种将 人工智能 (Artificial Intelligence, AI) 系统与物理身体结合，使其能够感知、理解并与 物理世界 (physical world) 交互的领域。不同于仅在虚拟环境中运行的 人工智能 (AI)，具身人工智能 (Embodied AI) 强调 智能体 (agent) 通过其“身体”在真实或模拟环境中体验和学习，从而发展出更接近人类的智能。其目标是使 智能体 (agent) 能够像人类一样，通过感知和行动来解决现实世界中的复杂问题。
通用人工智能 (Artificial General Intelligence, AGI)： 通用人工智能 (AGI) 指的是一种具有像人类一样广泛的认知能力，能够理解、学习并应用知识解决各种任务的 人工智能 (AI)。它能够处理不同领域的问题，而不是局限于特定任务。具身人工智能 (Embodied AI) 被认为是实现 通用人工智能 (AGI) 的关键路径之一，因为真实世界的交互能提供丰富的学习经验，促进 智能体 (agent) 发展出更泛化的理解和适应能力。

离身人工智能 (Disembodied Artificial Intelligence)： 指的是主要在 网络空间 (cyber space) 中运行的 人工智能 (AI) 系统，它们没有物理身体，不直接与 物理世界 (physical world) 交互。例如，大型语言模型 (Large Language Models, LLMs) 如 ChatGPT [4]，它们通过处理文本数据进行认知和决策，但没有实际的物理行动能力。论文中通过表格 I 对 离身人工智能 (Disembodied AI) 和 具身人工智能 (Embodied AI) 进行了对比。

Type	Environment	Physical Entities	Description	Representative Agents
Disembodied AI	Cyber Space	No	Cognition and physical entities are disentangled	ChatGPT [4], RoboGPT [8]
Embodied AI	Physical Space	Robots, Cars, Other devices	Cognition is integrated into physical entities	RT-1 [9], RT-2 [10], RT-H [3]

表 I：离身人工智能与具身人工智能的比较

智能体 (Agent)： 在 人工智能 (AI) 中，智能体 (agent) 是一个能够感知其环境并通过执行行动来影响该环境以实现特定目标的自主实体。智能体 (agent) 可以是软件程序（如 聊天机器人 (chatbots)）或物理实体（如 机器人 (robots)）。
具身智能体 (Embodied Agent)： 具有物理身体的 智能体 (agent)，能够通过传感器感知 物理世界 (physical world) 并通过执行器在其中行动。例如，机器人 (robots)、自动驾驶汽车 (autonomous vehicles) 等。
多模态大模型 (Multi-modal Large Models, MLMs)： 多模态大模型 (MLMs) 是能够处理和理解多种类型数据（如图像、文本、音频、视频）的 大型模型 (Large Models)。它们通过学习不同模态之间的关联，实现更全面的世界理解和更丰富的交互能力。例如，视觉-语言模型 (Vision-Language Models, VLMs) 能够同时处理图像和文本信息。
世界模型 (World Models, WMs)： 世界模型 (WMs) 是一种 深度学习 (deep learning) 模型，旨在学习并模拟环境的动态行为。它通过观察环境和自身行动的后果来构建一个内部的、压缩的 环境表示 (representation)，然后利用这个 表示 (representation) 来预测未来的状态和奖励，从而进行规划和决策。这使得 智能体 (agent) 能够在不实际执行物理行动的情况下进行“思考”和“想象”。

3.2. 前人工作

论文在引言部分指出了现有 具身人工智能 (Embodied AI) 综述的局限性，并引用了多项相关工作：

现有综述： 论文提到了几篇先前的综述文章 [5], [6], [17], [18]。指出其中大部分在 多模态大模型 (MLMs) 时代（约2023年）之前发表，因此已过时。即使是2023年之后发表的综述 [6], [18]，也主要侧重于 视觉-语言-动作模型 (vision-language-action models) 或 智能制造 (smart manufacturing) 中的 具身人工智能系统 (embodied AI system)，未能充分涵盖 多模态大模型 (MLMs)、世界模型 (WMs) 和 具身智能体 (embodied agents) 的最新发展，也忽略了 具身机器人 (embodied robots) 和 模拟器 (simulators)。
代表性具身模型： 论文提到了 RT-2 [2] 和 RT-H [3] 作为近期具有代表性的 具身模型 (embodied models)，它们是 视觉-语言-动作模型 (vision-language-action models, VLA models) 的例子，展示了 多模态大模型 (MLMs) 在 具身智能体 (embodied agents) 中的应用潜力。RT-1 [9] 也是一个早期的重要工作。
离身人工智能示例： ChatGPT [4] 被用作 离身人工智能 (disembodied AI) 的代表，强调其与 具身人工智能 (Embodied AI) 的区别。RoboGPT [8] 则是一个将 大语言模型 (LLMs) 应用于机器人任务规划的例子，但仍属于 离身 (disembodied) 范畴。
视觉与语言基础模型： 论文指出 最先进的 (state-of-the-art) 视觉编码器 (vision encoders) [13], [14] 提供了精确的物体类别、姿态和几何估计，而 强大的大语言模型 (Powerful Large Language Models, LLMs) 使机器人更好地理解 语言指令 (linguistic instructions)。多模态大模型 (MLMs) 则提供了 具身机器人 (embodied robots) 视觉 (visual) 和 语言 (linguistic) 表示 (representations) 对齐的可行方法。
世界模型： 世界模型 (WMs) [15], [16] 展现了卓越的 模拟能力 (simulation capabilities) 和对 物理定律 (physical laws) 的理解，使 具身模型 (embodied models) 能够全面理解 物理 (physical) 和 真实环境 (real environments)。

3.3. 技术演进

具身人工智能 (Embodied AI) 领域的技术演进可以概括为以下几个关键阶段：

早期研究与传统方法： 早期 具身人工智能 (Embodied AI) 研究主要集中在 机器人技术 (robotics)、控制理论 (control theory) 和 传统机器学习 (traditional machine learning) 方法。例如，同时定位与建图 (Simultaneous Localization and Mapping, SLAM)、路径规划 (path planning) 和 物体识别 (object recognition) 等任务通常依赖于基于几何、特征工程和 强化学习 (reinforcement learning) 的方法。这些方法在特定任务和受控环境中表现良好，但在复杂、动态和未见环境中 泛化能力 (generalization capabilities) 有限。
深度学习的兴起： 随着 深度学习 (deep learning) 的发展，特别是 卷积神经网络 (Convolutional Neural Networks, CNNs) 和 循环神经网络 (Recurrent Neural Networks, RNNs) 的普及，具身感知 (embodied perception) 和 决策制定 (decision-making) 能力得到了显著提升。深度强化学习 (Deep Reinforcement Learning, DRL) 将 深度学习 (deep learning) 与 强化学习 (reinforcement learning) 结合，使得 智能体 (agent) 能够从经验中学习复杂的 策略 (policy)，从而在模拟环境中完成更复杂的任务。然而，仿真到现实鸿沟 (sim-to-real gap) 和 数据效率 (data efficiency) 仍然是主要挑战。
多模态大模型 (MLMs) 时代： 近年来，大语言模型 (LLMs) 在 自然语言处理 (Natural Language Processing, NLP) 领域取得了突破性进展，而 视觉-语言模型 (Vision-Language Models, VLMs) 则实现了 视觉 (vision) 和 语言 (language) 的对齐。这些 多模态大模型 (MLMs) 拥有强大的 感知 (perception)、理解 (understanding)、推理 (reasoning) 和 泛化能力 (generalization capabilities)。它们被引入 具身人工智能 (Embodied AI) 领域，使得 具身智能体 (embodied agents) 能够更好地理解人类的 语言指令 (linguistic instructions)，进行高层次的 任务规划 (task planning)，并利用丰富的 世界知识 (world knowledge) 来处理复杂场景。例如，RT-2 等 视觉-语言-动作模型 (VLA models) 直接将 网络知识 (web knowledge) 迁移到 机器人控制 (robotic control) 中。
世界模型 (WMs) 的发展： 世界模型 (WMs) 的兴起，使得 具身智能体 (embodied agents) 能够构建内部的 环境动态模型 (environmental dynamics model)，从而在“想象”中进行 规划 (planning) 和 预测 (prediction)，减少对真实世界交互的依赖，并有望解决 仿真到现实鸿沟 (sim-to-real gap) 的问题，提高 数据效率 (data efficiency) 和 安全性 (safety)。

本文的工作正处于 多模态大模型 (MLMs) 和 世界模型 (WMs) 驱动 具身人工智能 (Embodied AI) 发展的最前沿，旨在系统地总结这些新兴技术如何改变 具身人工智能 (Embodied AI) 的格局。

3.4. 差异化分析

本文与相关工作的主要区别和创新点体现在以下几个方面：

全面性和及时性： 论文强调，与其他现有综述相比，本文在 多模态大模型 (MLMs) 时代（约2023年开始）之后发表，因此能够涵盖更前沿和最新的研究进展。它填补了现有综述未能及时更新的空白。
深度融合新兴范式： 本文首次将 具身人工智能 (Embodied AI) 与 多模态大模型 (MLMs) 和 世界模型 (WMs) 紧密结合，从 网络空间 (cyber space) 和 物理世界 (physical world) 对齐的视角进行深入探讨。这两种新兴模型被认为是 具身智能体 (embodied agents) 的关键架构，而此前的综述未能充分强调或系统分析它们的融合。
结构化覆盖广泛子领域： 论文不仅涵盖了核心的 具身感知 (embodied perception)、具身交互 (embodied interaction) 和 具身智能体 (embodied agent) 任务，还专门分析了 具身机器人 (embodied robots)、模拟器 (simulators) 这些基础设施，以及 仿真到现实适应 (sim-to-real adaptation) 这一关键的部署挑战。这种全面的结构化视角为初学者提供了清晰的 具身人工智能 (Embodied AI) 领域全景图。
提出新的数据集标准： 论文不仅总结了现有数据集，还主动提出了 ARIO (All Robots In One) 这一新的数据集标准和大规模数据集，旨在解决当前多机器人数据集格式不统一、模态不完整、数据量不足等问题，这体现了对领域未来发展的积极贡献。
聚焦实际应用与挑战： 论文明确指出 具身人工智能 (Embodied AI) 在 智能机电系统 (intelligent mechatronics systems) 和 智能制造 (smart manufacturing) 等领域的应用价值，并详细分析了当前面临的挑战（如 长时序任务执行 (long-horizon task execution)、因果推理 (causal reasoning)、统一评估基准 (unified evaluation benchmark)、安全与隐私 (security and privacy)），为未来的研究提供了明确的方向。

4. 方法论

这篇综述论文的方法论主要体现在其对 具身人工智能 (Embodied AI) 领域研究的结构化梳理和深度分析上。它采用一种分层且全面的方法来组织和呈现当前的研究现状、关键技术、面临的挑战以及未来发展方向。

4.1. 方法原理

本文的核心方法原理是通过系统性的文献调研和分类，构建一个以 多模态大模型 (MLMs) 和 世界模型 (WMs) 为核心的 具身人工智能 (Embodied AI) 统一分析框架。其背后的理论直觉是，具身人工智能 (Embodied AI) 的本质在于 智能体 (agent) 如何有效地感知、理解并与 物理世界 (physical world) 交互。而 多模态大模型 (MLMs) 提供了强大的感知和推理能力，世界模型 (WMs) 提供了模拟和预测 环境动态 (environmental dynamics) 的能力，二者结合有望弥合 网络空间 (cyber space) 和 物理世界 (physical world) 之间的鸿沟，加速 通用人工智能 (AGI) 的实现。

因此，本文的方法论旨在：

奠定基础： 首先概述 具身人工智能 (Embodied AI) 的基础构成，即 具身机器人 (embodied robots) 和 模拟器 (simulators)，它们是 智能体 (agent) 存在和学习的硬件与软件环境。
解构核心任务： 接着，将 具身人工智能 (Embodied AI) 的核心挑战分解为四个关键研究任务 (具身感知 (embodied perception)、具身交互 (embodied interaction)、具身智能体 (embodied agent)、仿真到现实适应 (sim-to-real adaptation))，并对每个任务进行深入分析。
突出新兴范式： 特别强调 多模态大模型 (MLMs) 和 世界模型 (WMs) 在这些任务中的应用和影响，以及它们如何改变了 具身智能体 (embodied agents) 的设计和能力。
识别瓶颈与方向： 最后，通过总结现有工作的局限性，提出未来的研究方向，为该领域的发展提供指导。

4.2. 核心方法详解 (逐层深入)

本综述的核心方法在于其结构化分析框架，以下将详细介绍其各个组成部分：

4.2.1. 具身机器人 (Embodied Robots)

本部分首先介绍了 具身智能体 (embodied agents) 所使用的物理实体，即 具身机器人 (embodied robots)。这些机器人是 具身人工智能 (Embodied AI) 与 物理世界 (physical world) 交互的载体。

固定底座机器人 (Fixed-base Robots)： 因其高精度而广泛应用于实验室自动化和工业领域，例如 Franka Emika panda [19]、Kuka iiwa [21] 和 Sawyer [23]。
轮式机器人 (Wheeled Robots)： 结构简单、成本低廉，在物流和仓储中效率高，例如 Kiva 和 Jackal 机器人 [25]。但它们在不平坦地形上表现不佳。
履带式机器人 (Tracked Robots)： 适用于农业和灾害救援等越野任务，其履带系统在柔软地形上提供稳定性 [26]。
四足机器人 (Quadruped Robots)： 擅长复杂地形探索和救援任务，例如 Unitree Robotics 的 A1 和 Go1，以及 Boston Dynamics 的 Spot。
人形机器人 (Humanoid Robots)： 模仿人类运动和行为，提供个性化服务，其灵巧的双手能够执行复杂任务 [27], [28]。结合 大语言模型 (LLMs)，有望提高制造、医疗和服务领域的效率和安全性 [29]。
仿生机器人 (Biomimetic Robots)： 复制自然生物的运动和功能，有助于在复杂环境中操作并通过模仿生物机制提高能源效率 [30], [31]。例如，鱼形机器人 (fish-like) [32]、昆虫形机器人 (insect-like) [33] 和 软体机器人 (soft-bodied robots) [34]。

下图（原文 Figure 2）展示了这些不同类型的 具身机器人 (Embodied Robots)：

该图像是一个示意图，展示了多种类型的具身机器人，包括固定式机器人、轮式机器人、履带式机器人、四足机器人、人形机器人和仿生机器人。这些机器人在实现人工智能的应用中起着重要作用。

4.2.2. 具身模拟器 (Embodied Simulators)

具身模拟器 (Embodied simulators) 是 具身人工智能 (Embodied AI) 的关键工具，因其成本效益、安全特性、可扩展性、快速原型设计和可访问性而具有重要意义。它们允许 受控实验 (controlled experimentation)、训练数据生成 (data generation for training) 和 评估 (evaluation)，并提供 标准化基准 (standardized benchmarks)。

通用模拟器 (General Simulators)： 提供一个与 物理世界 (physical world) 紧密模拟的虚拟环境，用于算法开发和模型训练。

Isaac Sim [36]：先进的机器人和 人工智能 (AI) 仿真平台，具有高保真物理仿真、实时光线追踪、丰富的机器人模型库和 深度学习 (deep learning) 支持。
Gazebo [47]：开源机器人仿真器，具有广泛的机器人库，与 ROS 紧密集成。
PyBullet [39]：Bullet 物理引擎的 Python 接口 (Python interface)，易于使用，支持实时物理仿真。

Genesis [35]：新推出的 可微分物理引擎 (differentiable physics engine)，具有令人印象深刻的 生成能力 (generative capabilities)。下表（原文 Table II）展示了11个通用模拟器的关键特性和主要应用场景：

Simulator	Year	HFPS	HQGR	RRL	DLS	LSPC	ROS	MSS	CP	Physics Engine	Main Applications
Genesis [35]	2024	O	o	O	O		O	O	Custom	RL, LSPS, RS
Isaac Sim [36]	2023	O	O	O	O	O	O	O	PhysX	Nav, AD
Isaac Gym [37]	2019	O		O	O				PhysX	RL,LSPS
Gazebo [38]	2004	O	O			O	O	O	ODE, Bullet, Simbody, DART Nav,MR
PyBullet [39]	2017			O				O	Bullet	RL,RS
Webots [40]	1996	O	O				O	O	ODE	RS
MuJoCo [41]	2012			O				o	Custom	RL, RS
Unity ML-Agents [42]	2017	O		O				O	Custom	RL, RS
AirSim [43]	2017	O						o	Custom	Drone sim, AD, RL
MORSE [44]	2015						o	O	Bullet	Nav, MR
V-REP (CoppeliaSim) [45]	2013		O	O				O	O	Bullet, ODE, Vortex, Newton MR, RS

表 II：通用模拟器比较。HFPS：高保真物理仿真；HQGR：高质量图形渲染；RRL：丰富的机器人库；DLS：深度学习支持；LSPC：大规模并行计算；ROS：机器人操作系统；MSS：多传感器支持；CP：碰撞检测。O 表示该模拟器在该方面表现出色。

下图（原文 Figure 3）展示了通用模拟器的可视化效果：

![Fig. 3. Examples of General Simulators. The MuJoCo's figure is from \[46\].](/files/papers/695a14c35411c3e2652eaef3/images/3.jpg)
*该图像是示意图，展示了多个通用模拟器的实例，包括 Isaac Sim、Webots、Pybullet、V-REP（CoppeliaSim）、Genesis、MuJoCo、Unity ML-Agents、AirSim、MORSE 和 Gazebo。这些模拟器在机器人和模拟器研究中具有重要意义。*

基于真实场景的模拟器 (Real-Scene Based Simulators)： 这些模拟器从 真实世界 (real world) 收集数据，创建 逼真3D资产 (photorealistic 3D assets)，并使用 3D游戏引擎 (3D game engines)（如 UE5 和 Unity）构建场景，以满足 家庭活动 (household activities) 中复杂 具身任务 (embodied tasks) 的需求。
- SAPIEN [48]：专为模拟与铰接物体（如门、橱柜）的交互而设计。
- VirtualHome [49]：以其独特的 环境图 (environment graph) 著称，支持基于 自然语言描述 (natural language descriptions) 的高级 具身规划 (embodied planning)。
- AI2-ThOR [50]：提供丰富的交互式场景，但交互通常是 基于脚本 (script-based)，缺乏真实的物理交互。
- iGibson [51] 和 TDW [52]：提供细粒度的 具身控制 (embodied control) 和高度模拟的 物理交互 (physical interactions)。iGibson 场景丰富真实，适合复杂和长期的移动操作；TDW 允许更大的场景扩展自由度，并具有独特的音频和流体仿真。
- Matterport3D [53]：基础 2D-3D视觉数据集 (2D-3D visual dataset)，广泛用于 具身人工智能 (Embodied AI) 基准测试。
- Habitat：虽然其 具身智能体 (embodied agent) 缺乏交互能力，但其广泛的室内场景、用户友好界面和开放框架使其在 具身导航 (embodied navigation) 中备受推崇。
- InfiniteWorld [54]：专注于统一和可扩展的仿真框架，通过分布式协作、人工智能 (AI) 辅助和 人在回路 (Human-in-the-Loop) 为复杂的机器人交互提供强大支持。
- 自动化仿真场景构建： RoboGen [55]、HOLODECK [56]、PhyScene [57] 和 ProcTHOR [58] 等工具能够通过 大语言模型 (LLMs) 或 条件扩散模型 (conditional diffusion models) 自动生成高质量、多样化和交互性强的仿真场景。
  
  下图（原文 Figure 4）展示了基于真实场景的模拟器示例：
  
  该图像是一个示意图，展示了多个基于真实场景的模拟器，包括AI2-THOR、Matterport 3D、Virtualhome、SAPIEN、Habitat、iGibson、TDW和Infinite-World等，这些工具在虚拟环境中进行人机交互与感知研究。

4.2.3. 具身感知 (Embodied Perception)

具身感知 (Embodied Perception) 要求 智能体 (agent) 在 物理世界 (physical world) 中移动并与环境交互，这需要对 3D空间 (3D space) 和 动态环境 (dynamic environments) 有更深层次的理解。

主动视觉感知 (Active Visual Perception)： 需要 状态估计 (state estimation)、场景感知 (scene perception) 和 环境探索 (environment exploration) 等基本能力。

视觉同时定位与建图 (Visual Simultaneous Localization and Mapping, vSLAM)： 旨在确定机器人在未知环境中的位置，同时构建环境地图 [97]。
- 传统vSLAM (Traditional vSLAM) [95]：使用图像数据和多视图几何来估计机器人姿态并构建低级地图（例如稀疏、半密集或密集点云）。方法包括 基于滤波器的方法 (filter-based approaches) (如 MonoSLAM [60])、基于关键帧的方法 (keyframe-based methods) (如 ORB-SLAM [61]) 和 直接跟踪技术 (direct tracking techniques) (如 LSD-SLAM [62])。
- 语义vSLAM (Semantic vSLAM) [95]：通过整合 语义信息 (semantic information) 克服了 传统vSLAM (Traditional vSLAM) 的局限性，增强了机器人感知和导航未知环境的能力，例如 $SLAM++$ [63]、QuadricSLAM [64]、So-SLAM [65]、SG-SLAM [66]、OVD-SLAM [67]、GS-SLAM [68]。
3D场景理解 (3D Scene Understanding)： 旨在区分物体的 语义 (semantics)、识别其 位置 (locations) 并推断 3D场景数据 (3D scene data) 的 几何属性 (geometric attributes) [101]。
- 基于投影的方法 (Projection-based methods)：将 3D点 (3D points) 投影到各种图像平面上，并使用 基于2D CNN的骨干网络 (2D CNN-based backbones) 进行 特征提取 (feature extraction) (如 MV3D [69]、PointPillars [70]、MVCNN [71])。
- 基于体素的方法 (Voxel-based methods)：将 点云 (point clouds) 转换为规则的 体素网格 (voxel grids) 以方便 3D卷积操作 (3D convolution operations) (如 VoxNet [72]、SSCNet [73])，并通过 稀疏卷积 (sparse convolution) 提高效率 (如 MinkowskiNet [74]、SSCNs [75]、Embodiedscan [76])。
- 基于点云的方法 (Point-based methods)：直接处理 点云 (point clouds) (如 PointNet [77]、 $PointNet++$ [78]、PointMLP [79])。
- 新兴架构： 为实现模型可扩展性，出现了 基于Transformer (Transformers-based) (如 PointTransformer [80]、Swin3d [81]、PT2 [82]、3D-VisTA [83]、LEO [84]、PQ3D [85]) 和 基于Mamba (Mamba-based) (如 PointMamba [86]、Mamba3D [87]) 架构。

主动探索 (Active Exploration)： 弥补了 被动感知 (passive perception) 的不足，使机器人能够动态地与环境交互并感知周围环境。

与环境交互 (Interacting with the environment)：例如 Pinto et al. [88] 提出的 好奇机器人 (curious robot) 通过 物理交互 (physical interaction) 学习视觉表示；Tatiya et al. [89] 提出的 多阶段投影框架 (multi-stage projection framework) 通过学习 探索性交互 (exploratory interactions) 传递隐式知识。

改变视角 (Changing the viewing direction)：例如 Jayaraman et al. [90] 提出的 强化学习 (reinforcement learning) 方法，通过减少对环境未观察部分的不确定性来主动获取信息丰富的视觉观察；NeU-NBV [91] 引入了 无地图规划框架 (mapless planning framework)；Hu et al. [92] 开发了 机器人探索算法 (robot exploration algorithm)；Fan et al. [93] 将 主动识别 (active recognition) 视为 顺序证据收集过程 (sequential evidence-gathering process)。

下表（原文 Table III）比较了主动视觉感知方法：

Function	Type	Methods

vSLAM	Traditional vSLAM	MonoSLAM [60], ORB-SLAM [61], LSD-SLAM [62]
	Semantic vSLAM	SLAM++ [63], QuadricSLAM [64], So-SLAM [65],SG-SLAM [66], OVD-SLAM [67], GS-SLAM [68]
3D Scene Understanding	Projection-based	MV3D [69], PointPillars [70], MVCNN [71]
	Voxel-based	VoxNet [72], SSCNet [73]), MinkowskiNet [74], SSCNs [75], Embodiedscan [76]
	Point-based	PointNet [77], PointNet++ [78], PointMLP [79], PointTransformer [80], Swin3d [81], PT2 [82],3D-VisTA [83], LEO [84], PQ3D [85], PointMamba [86], Mamba3D [87]
Active Exploration	Interacting with the environment	Pinto et al. [88], Tatiya et al. [89]
	Changing the viewing direction	Jayaraman et al. [90], NeU-NBV [91], Hu et al. [92], Fan et al. [93]

表 III：主动视觉感知方法的比较。

下图（原文 Figure 5）展示了主动视觉感知的示意图：

Fig. 5. The schematic diagram of active visual perception. Visual SLAM and 3D Scene Understanding provide the foundation for passive visual perception, while active exploration provides activeness to the passive perception system. These elements works collaboratively for the active visual perception system. 该图像是关于主动视觉感知的示意图，展示了被动视觉感知的各个方面，包括3D场景理解、定位与映射精度提升和视觉SLAM。图中还指出了观察能力的改善、主动探索的激活和最终的行动，这些要素共同作用于主动视觉感知系统。

视觉语言导航 (Visual Language Navigation, VLN)： 是一项重要任务，旨在遵循 语言指令 (linguistic instructions) 在 未见环境 (unseen environments) 中进行 导航 (navigation)。

核心任务： 智能体 (agent) 接收 视觉信息 (visual information) ( $O$ ) 和 自然语言指令 (natural language instructions) ( $I$ )，结合 历史信息 (historical information) ( $H$ )，选择一个或一系列行动 (Action) 来完成指令要求。 $Action = \mathcal{M}(O, H, I)$ 其中，Action 是选择的行动或一系列候选行动， $O$ 是当前观察， $H$ 是历史信息， $I$ 是自然语言指令， $\mathcal{M}$ 代表模型。

数据集 (Datasets)： VLN 任务根据指令粒度、任务类型和环境特性产生了多种数据集。例如：

R2R [105] 和 R4R [106] 基于 Matterport3D，提供 逐步指令 (step-by-step instructions)。
VLN-CE [107] 将 R2R 和 R4R 扩展到 连续环境 (continuous environments)。
TOUCHDOWN [108] 基于 Google Street View，用于 户外 (outdoor) 导航。
REVERIE [109] 和 SOON [110] 涉及 目标描述导航 (described goal navigation)，要求 智能体 (agent) 定位不可见目标。
DDN [111] 仅提供 人类需求 (human demands)。
ALFRED [112] 和 OVMM [113] 涉及 带交互的导航 (navigation with interaction)，用于完成家庭任务。
BEHAVIOR-1K [114] 包含 长序列、复杂、依赖技能 (long-sequence, complex, skill-dependent) 的日常任务。

CVDN [115] 和 DialFRED [116] 引入了 对话 (dialogue) 能力，允许 智能体 (agent) 在不确定时提问。

下表（原文 Table IV）比较了不同的 VLN 数据集：

Dataset	Year	Simulator	Environment	Feature	Size
R2R [105]	2018	M3D	I, D	SbS	21,567
R4R [106]	2019	M3D	I, D	SbS	200,000+
VLN-CE [107]	2020	Habitat	I, C	SbS	-
TOUCHDOWN [108]	2019	-	O, D	SbS	9,326
REVERIE [109]	2020	M3D	I, D	DGN	21,702
SOON [110]	2021	M3D	I, D	DGN	3,848
DDN [111]	2023	AT	I, C	DDN	30,000+
ALFRED [112]	2020	AT	I, C	NwI	25,743
OVMM [113]	2023	Habitat	I, C	NwI	7,892
BEHAVIOR-1K [114]	2023	OG	I, C	LSNwI	1,000
CVDN [115]	2020	M3D	I, D	D&O	2,050
DialFRED [116]	2022	AT	I, C	D&O	53,000

表 IV：不同 VLN 数据集的比较。M3D: Matterport3D, AT: AI2-THOR, OG: OmniGibson, I: 室内, D: 离散, O: 室外, C: 连续, SbS: 逐步指令, DGN: 目标描述导航, DDN: 需求驱动导航, NwI: 带交互的导航, LSNwI: 长跨度带交互的导航, D&O: 对话和预言机。

下图（原文 Figure 6）展示了 VLN 的概览和不同任务类型：

该图像是示意图，展示了虚拟环境中的一名智能体与人类的互动。图中包含了两部分：左侧说明了交互环境中的自然语言指令，右侧展示了不同的导航任务与互动步骤。智能体通过观察和执行任务，完成目标导航。

方法 (Methods)： VLN 方法主要分为 基于记忆理解 (Memory-Understanding Based) 和 基于未来预测 (Future-Prediction Based)。

基于记忆理解 (Memory-Understanding Based)：专注于环境的感知和理解，以及基于历史观察或轨迹的模型设计。
- 基于图学习 (Graph-based learning)：如 LVERG [117]、LM-Nav [121]、HOP [122] 通过构建导航图来编码历史轨迹信息。
- 语义地图构建 (Semantic map construction)：如 FILM [120]、VER [127] 从 RGB-D 观察和 语义分割 (semantic segmentation) 构建 语义地图 (semantic map)。
- 学习方案 (Learning schemes)：如 CMG [118] 使用 对抗学习 (adversarial learning)，GOAT [126] 使用 因果学习 (causal learning)，RCM [119] 使用 跨模态匹配 (cross-modal matching) 和 自监督模仿学习 (self-supervised imitation learning)，FSTT [124] 引入 测试时适应 (Test-Time Adaptation, TTA)。
- 大型模型应用 (Large model applications)：如 NaviLLM [123]、NaVid [128]、LHVLN [137] 利用 LLMs 的 世界知识 (world knowledge) 和 编码能力 (encoding capabilities)。
基于未来预测 (Future-Prediction Based)：关注对未来状态的建模、预测和理解。
- 基于图学习 (Graph-based learning)：如 BGBL [131] 和 ETPNav [134] 设计 路径点预测器 (waypoint predictor)，将 连续环境 (continuous environment) 中的复杂导航迁移到 离散环境 (discrete environment) 中。
- 环境编码 (Environment encoding)：如 NvEM [130] 通过 主题模块 (theme module) 和 参考模块 (reference module) 对邻近视图进行 融合编码 (fusion encoding)；HNR [133] 使用 大规模预训练 (large-scale pre-trained) 分层神经辐射表示模型 (hierarchical neural radiation representation model) 预测未来环境的视觉表示。
- 强化学习 (Reinforcement learning)：如 LookBY [129] 使用 强化预测 (reinforcement prediction) 预测未来状态和奖励。
- 大型模型应用 (Large model applications)：如 MiC [132] 要求 LLM 根据指令直接预测目标及其可能位置。

混合方法 (Hybrid methods)： 如 MCR-Agent [135] 和 OVLM [136] 结合了 历史学习 (learning from the past) 和 未来预测 (learning for the future)。

下表（原文 Table V）比较了 VLN 方法：

Method	Model	Year	Feature
Memory-UnderstandingBased	LVERG [117]	2020	Graph Learning
	CMG [118]	2020	Adversarial Learning
	RCM [119]	2021	Reinforcement learning
	FILM [120]	2022	Semantic Map
	LM-Nav [121]	2022	Graph Learning
	HOP [122]	2022	History Modeling
	NaviLLM [123]	2024	Large Model
	FSTT [124]	2024	Test-Time Augmentation
	DiscussNav [125]	2024	Large Model
	GOAT [126]	2024	Causal Learning
	VER [127]	2024	Environment Encoder
	NaVid [128]	2024	Large Model
Future-PredictionBased	LookBY [129]	2018	Reinforcement Learning
	NvEM [130]	2021	Environment Encoder
	BGBL [131]	2022	Graph Learning
	Mic [132]	2023	Large Model
	HNR [133]	2024	Environment Encoder
	ETPNav [134]	2024	Graph Learning
Others	MCR-Agent [135]	2023	Multi-Level Model
Others	OVLM [136]	2023	Large Model

表 V：VLN 方法的比较。

4.2.4. 具身交互 (Embodied Interaction)

具身交互 (Embodied interaction) 指 智能体 (agents) 在 物理 (physical) 或 模拟空间 (simulated space) 中与人类和环境进行的交互。

具身问答 (Embodied Question Answering, EQA)： 智能体 (agent) 需要从 第一人称视角 (first-person perspective) 探索环境，收集必要信息以回答给定问题。

数据集 (Datasets)： EQA v1 [138] 是第一个 EQA 数据集。其他数据集包括 MT-EQA [139] (多目标)、MP3D-EQA [140] (真实 3D环境 (3D environment) )、IQUAD V1 [141] (交互式环境)、VideoNavQA [142] (解耦视觉推理和导航)、SQA3D [143] (简化协议)、K-EQA [144] (需要先验知识的复杂问题)、OpenEQA [145] (开放词汇，支持 情景记忆 (episodic memory) 和 主动探索 (active exploration))、HM-EQA [146] (基于 GPT4-V 生成)、S-EQA [147] (利用 GPT-4 生成数据)、EXPRESS-Bench [148] (最大的 探索感知EQA (exploration-aware EQA) 数据集)。

下表（原文 Table VI）比较了不同的 EQA 数据集：

Dataset	Year	Type	Data Sources	Simulator	Query Creation	Answer	Size
Dataset	Year	Type	Data Sources	Simulator	Query Creation	Answer	Size
EQA v1 [138]	2018	Active EQA	SUNCG	House3D	Rule-Based	open-ended	5,000+
MT-EQA [139]	2019	Active EQA	SUNCG	House3D	Rule-Based	open-ended	19,000+
MP3D-EQA [140]	2019	Active EQA	MP3D	Simulator based on MINOS	Rule-Based	open-ended	1,136
IQUAD V1 [141]	2018	Interactive EQA		AI2THOR	Rule-Based	multi-choice	75,000+
VideoNavQA [142]	2019	Episodic Memory EQA	SUNCG	House3D	Rule-Based	open-ended	101,000
SQA3D [143]	2022	QA only	ScanNet		Manual	multi-choice	33,400
K-EQA [144]	2023	Active EQA		AI2THOR	Rule-Based	open-ended	60,000
OpenEQA [145]	2024	Active EQA, Episodic Memory EQA	ScanNet, HM3D	Habitat	Manual	open-ended	1,600+
HM-EQA [146]	2024	Active EQA	HM3D	Habitat	VLM	multi-choice	500
S-EQA [147]	2024	Active EQA		VirtualHome	LLM	binary
EXPRESS-Bench [148]	2025	Exploration-aware EQA	HM3D	Habitat	VLM	open-ended	2,044

表 VI：不同 EQA 数据集的比较。

下图（原文 Figure 7）展示了 EQA 任务的不同类型：

Fig. 7. The gray box displays the scenes an agent observes during exploration. The other boxes show various types of question answering tasks. Except for the task of answering questions based on episodic memory, the agent ceases exploration once it has gathered sufficient information to answer the question. 该图像是图表，展示了一个智能体在探索环境中的过程，并包括多种问答任务。灰色框中的场景代表智能体观察到的环境，而其他框则展示了不同类型的问题，例如单一目标、多目标和交互任务等，智能体在获取足够信息后会停止探索。图中还包含了基于记忆、知识和对象状态的问题示例。

方法 (Methods)：
- 基于神经网络方法 (Neural Network Methods)： 早期通过构建 深度神经网络 (deep neural networks)，并使用 模仿学习 (imitation learning) 和 强化学习 (reinforcement learning) 进行训练。例如 Das et al. [138] 提出的包含视觉、语言、导航和问答四个模块的 智能体 (agent)。后续工作 Wu et al. [152] 统一训练导航和 QA 模块；Gordon et al. [141] 引入 分层交互记忆网络 (Hierarchical Interactive Memory Network) 处理动态环境；Tan et al. [144] 利用 神经程序合成 (neural program synthesis) 和 知识图谱 (knowledge graphs) 解决复杂问题。
- 基于 LLMs/VLMs 方法 (LLMs/VLMs Methods)： Majumdar et al. [145] 使用 LLMs 和 VLMs 处理 EM-EQA 和 A-EQA 任务，结合 基于边界的探索 (frontier-based exploration, FBE) [154]。Sakamoto et al. [155] 和 Ren et al. [146] 采用 FBE 并利用 保形预测 (conformal prediction) 或 图像-文本匹配 (image-text matching) 提前停止探索。Patel et al. [156] 利用多个 基于LLM的智能体 (LLM-based agents) 探索环境并独立回答问题，然后训练 中央回答模型 (Central Answer Model) 聚合响应。

具身抓取 (Embodied Grasping)： 结合 传统运动学方法 (traditional kinematic methods) [157], [158] 与 大型模型 (large models)，实现 多感官感知 (multi-sensory perception) 和 推理 (reasoning)。

数据集 (Datasets)： 早期抓取数据集 [159]-[164] 包含 单物体 (single objects) 和 杂乱场景 (cluttered scenes) 的抓取标注（4-DOF 或 6-DOF）。随着 多模态大模型 (MLMs) 发展，出现了 语义抓取数据集 (semantic-grasping datasets) [165]-[167]，整合了语言信息。

下表（原文 Table VII）展示了具身抓取数据集：

Dataset	Year	Type	Modality	Grasp Label	Gripper Finger	Objects	Grasps	Scenes	Language
Cornell [159]	2011	Real	RGB-D	Rect.	2	240	8K	Single	×
Jacquard [160]	2018	Sim	RGB-D	Rect.	2	11K	1.1M	Single	×
6-DOF GraspNet [161]	2019	Sim	3D	6D	2	206	7.07M	Single	×
ACRONYM [162]	2021	Sim	3D	6D	2	8872	17.7M	Multi	×
MultiGripperGrasp [163]	2024	Sim	3D	-	2-5	345	30.4M	Single	×
OCID-Grasp [164]	2021	Real	RGB-D	Rect.	2	89	75K	Multi	×
OCID-VLG [165]	2023	Real	RGB-D,3D	Rect.	2	89	75K	Multi	√
ReasoingGrasp [166]	2024	Real	RGB-D	6D	2	64	99.3M	Multi	√
CapGrasp [167]	2024	Sim	3D	-	5	1.8K	50K	Single	√

表 VII：具身抓取数据集。

语言引导抓取 (Language-guided grasping)： 结合 多模态大模型 (MLMs)，使 智能体 (agent) 能够根据 隐式 (implicit) 或 显式 (explicit) 人类指令执行抓取操作。
- 显式指令 (Explicit instructions) [169], [170]：明确指定抓取物体的类别。
- 隐式指令 (Implicit instructions) [166], [167]：需要 推理 (reasoning) 来识别物体或其部分，涉及 空间推理 (spatial reasoning)（例如，“抓取棕色纸巾盒右边的键盘”）和 逻辑推理 (logical reasoning)（例如，“我渴了，你能给我喝点东西吗？”）。
端到端方法 (End-to-End Approaches)：
- CLIPORT [168]：结合 CLIP 和 Transporter Net 的 语言条件模仿学习智能体 (language-conditioned imitation learning agent)。
- CROG [165]：基于 OCID 数据集，利用 CLIP 的视觉基础能力直接从图像-文本对中学习抓取合成。
- Reasoning Grasping [166]：引入第一个 推理抓取基准数据集 (reasoning grasping benchmark dataset)，并提出 端到端推理抓取模型 (end-to-end reasoning grasping model)。
- SemGrasp [167]：一种 基于语义的抓取生成方法 (semantic-based grasp generation method)，将 语义信息 (semantic information) 整合到抓取表示中。
模块化方法 (Modular Approaches)：
- F3RM [169]：将 CLIP 的文本-图像先验提升到 3D空间 (3D space)，用于 语言定位 (language localization) 后进行抓取生成。
- GaussianGrasper [170]：利用 3D高斯场 (3D Gaussian field) 实现 语言引导抓取 (language-guided grasping) 任务。
  
  下图（原文 Figure 8）展示了语言引导的抓取任务概览：
  
  该图像是一个示意图，展示了语言引导的抓取任务（a）和人-代理-物体交互（b）以及出版状态（c）。左侧部分通过不同的指令示例（如直接物体说明、空间推理等）展示了抓取与场景的关系。右侧显示了不同年份的出版论文数量，反映了该领域的研究增长趋势。

4.2.5. 具身智能体 (Embodied Agent)

具身智能体 (Embodied agent) 是 多模态大模型 (MLMs) 赋能的 智能体 (agent)，能够将虚拟空间的能力转移到 物理世界 (physical world)。完成任务通常涉及 高层具身任务规划 (high-level Embodied Task Planning) 和 低层具身行动规划 (low-level Embodied Action Planning)。

具身任务规划 (Embodied Task Planning)： 将抽象复杂的任务分解为具体的子任务。
- 利用 LLMs 的涌现能力进行规划 (Planning utilizing the Emergent Capabilities of LLMs)： LLMs 可以利用其 内部世界知识 (internal world knowledge) 和 思维链推理 (chain-of-thought reasoning) 来分解抽象任务。例如 Translated LM [179]、Inner Monologue [180]、ReAd [181] 等。一些工作还利用 记忆库 (memory bank) 存储成功示例 [182]-[184] 或使用代码作为推理媒介 [185], [186]。Socratic Models [187] 和 Socratic Planner [188] 利用 苏格拉底式提问 (Socratic questioning) 获得可靠规划。
- 利用具身感知模型的视觉信息进行规划 (Planning utilizing the visual information from embodied perception model)： 将 视觉信息 (visual information) 整合到 任务规划 (task planning) 中，例如通过 物体检测器 (object detector) 查询环境中物体信息并反馈给 LLM 以修改计划 [187], [189], [190]。RoboGPT [8] 考虑了同一任务中相似物体的不同名称。SayPlan [191] 和 ConceptGraphs [192] 使用 分层3D场景图 (hierarchical 3D scene graphs) 来表示环境。
- 利用 VLMs 进行规划 (Planning utilizing the VLMs)： VLM 能够捕捉潜在空间中的视觉细节和上下文信息。EmbodiedGPT [193] 使用 Embodied-Former 模块对齐 具身 (embodied)、视觉 (visual) 和 文本信息 (textual information)。LEO [194] 将 2D自我中心图像 (2D egocentric images) 和 3D场景 (3D scenes) 编码为 视觉词元 (visual tokens)。EIF-Unknow [195] 使用从 体素特征 (Voxel Features) 中提取的 语义特征图 (Semantic Feature Maps) 作为 视觉词元 (visual tokens)。RT系列 [2], [9]、PaLM-E [196] 和 Matcha [197] 等 具身多模态基础模型 (embodied multimodal foundation models) 通过大规模数据集训练，实现了 具身场景 (embodied scenarios) 中 视觉 (visual) 和 文本特征 (textual features) 的对齐。
具身行动规划 (Embodied Action Planning)： 解决 任务规划 (task planning) 子任务粒度不足导致的 真实世界 (real-world) 不确定性。
- 利用 API 进行行动 (Action utilizing APIs)： 为 LLMs 提供 预训练策略模型 (pre-trained policy models) 的定义，使其能够有效地理解和使用它们完成特定任务 [189], [199]。LLMs 可以通过生成代码将工具抽象为函数库 [186]。Reflexion [200] 在执行过程中调整这些工具。DEPS [201] 使 LLMs 通过 零样本学习 (zero-shot learning) 学习和组合各种技能。
- 利用 VLA 模型进行行动 (Action utilizing VLA model)： 利用 具身多模态基础模型 (embodied multimodal foundation models) 的能力进行规划和执行行动，减少通信延迟，提高系统响应速度和效率 [10], [193], [202]。这种紧密集成促进了实时反馈和 策略 (strategy) 自我调整。
在多样化环境中的可扩展性 (Scalability in Diverse Environments)： 涉及通过鲁棒的 感知 (perception)、高效的 决策制定 (decision-making) 和 资源优化 (resource optimization) 来适应更大、更复杂环境。策略包括 分层SLAM (hierarchical SLAM)、多模态感知 (multimodal perception) 和 边缘计算 (edge computing)。多智能体系统 (multi-agent systems) 和 去中心化通信 (decentralized communication) 增强了协作可扩展性，而 泛化 (generalization) 则依赖于 领域适应 (domain adaptation)。

下图（原文 Figure 9）展示了具身智能体的框架：

该图像是示意图，展示了高层任务规划和低层行动规划的流程，包括任务规划、视觉描述和视觉表示等内容。图中还涉及了多模态大模型（LLM/VLM）和其在高低层次的应用，以及实体化的相关任务。

4.2.6. 仿真到现实适应 (Sim-to-Real Adaptation)

仿真到现实适应 (Sim-to-Real adaptation) 是指将 模拟环境 (simulated environments) (网络空间 (cyber space)) 中学习到的能力或行为转移到 真实世界 (real-world) 场景 (物理世界 (physical world)) 的过程。

具身世界模型 (Embodied World Model)： 创建与 真实世界 (real-world) 环境高度相似的 基于仿真的世界模型 (simulation-based world models)。这些模型预测下一个状态以进行决策，并从头开始在 物理世界 (physical world) 数据上进行训练。
- 基于生成的方法 (Generation-based Methods)：生成模型 (generative models) 能够理解和生成符合 物理定律 (physical laws) 的图像 (如 World Models [203])、视频 (如 Sora [16]、Pandora [204])、点云 (如 3D-VLA [205]) 或其他格式的数据 (如 DWM [206])。这些模型通过内在结构捕获统计特性并模拟 物理 (physical) 和 因果关系 (causal relationships)。
- 基于预测的方法 (Prediction-based Methods)：通过构建和利用 内部表示 (internal representations) 来预测和理解环境。在 潜在空间 (latent space) 中重建相应特征，捕获更深层次的 语义 (semantics) 和相关 世界知识 (world knowledge)。例如 I-JEPA [15]、MC-JEPA [207]、A-JEPA [208]、Point-JEPA [209]、IWM [210]。
- 知识驱动方法 (Knowledge-driven Methods)：将 人工构建的知识 (artificially constructed knowledge) 注入模型，赋予其 世界知识 (world knowledge)。例如 real2sim2real [217] 使用 真实世界知识 (real-world knowledge) 构建符合 物理 (physics-compliant) 的模拟器。通过结合 人工物理规则 (artificially created physical rules) 与 LLMs 或 MLMs，可以生成多样化且 语义丰富 (semantically rich) 的场景 (如 Holodeck [56]、LEGENT [221]、GRUtopia [222])。
  
  下图（原文 Figure 10）展示了具身世界模型的分类：
  
  该图像是示意图，展示了三种嵌入式世界模型的分类，包括生成方法、预测方法和知识驱动方法。每种方法都有不同的结构，其中生成方法通过自编码器学习输入空间与输出空间之间的转换关系，预测方法则在潜在空间中训练世界模型，而知识驱动方法则将人工构建的知识注入模型以满足特定知识约束。
数据收集与训练 (Data Collection and Training)：
- 真实世界数据 (Real-World Data)： 收集成本高昂，但对于训练大容量模型和提高 泛化能力 (generalization) 至关重要。例如 Open X-Embodiment [202] (来自22个机器人的数据)、UMI [224] (动态、双手数据)、Mobile ALOHA [225] (全身移动操作)。
- 模拟数据 (Simulated Data)： 成本效益高，允许自动化、高效的数据收集。例如 CLIPORT [168] 和 Transporter Networks [227] 使用 Pybullet 模拟器数据训练，并成功迁移到 真实世界 (real-world)。
- 仿真到现实范式 (Sim-to-Real Paradigms)：
  - Real2Sim2real [229]：通过在“数字孪生”仿真中 强化学习 (reinforcement learning) 开发策略，然后转移到 真实世界 (real world)。
  - TRANSIC [230]：通过实时 人工干预 (human intervention) 和 残差策略训练 (residual policy training) 减少 仿真到现实鸿沟 (sim-to-real gap)。
  - 领域随机化 (Domain Randomization) [231]-[233]：通过改变仿真参数以覆盖 真实世界 (real-world) 条件，提高模型 泛化能力 (generalization)。
  - 系统识别 (System Identification) [234], [235]：创建 真实世界场景 (real-world scenes) 的精确仿真。
  - Lang4sim2real [236]：利用 自然语言描述 (natural language descriptions) 弥合 仿真到现实鸿沟 (sim-to-real gap)。
    
    下图（原文 Figure 11）展示了 仿真到现实迁移 (sim-to-real transfer) 的五种范式：
    
    该图像是示意图，展示了将虚拟环境中的智能体技术应用于现实世界的过程，包括Real2Sim2Real、TRANSIC、Domain Randomization及Lang4Sim2Real四个主要部分，强调了相关模型训练和转移的步骤与策略。
- ARIO (All Robots In One) 数据集标准： 论文提出了 ARIO [237] 作为新的数据集标准，旨在解决当前数据集在 全面传感器模态 (comprehensive sensory modalities)、统一格式 (unified format)、多样化控制对象 (diverse control objects) 表示、数据量不足 (insufficient data volume) 以及 模拟与真实数据结合 (combined simulated and real data) 等方面的局限性。ARIO 标准统一记录不同形态机器人的控制和运动数据，并提出了一个大规模 ARIO 数据集，包含约300万个片段、258个系列和321,064个任务。
  
  下图（原文 Figure 12）展示了 ARIO 中的示例任务：
  
  该图像是示意图，展示了三个不同类型的任务，包括长时间跨度任务、双手操作任务和丰富接触任务。每个任务下方提供了相应的操作说明，分别涉及物体的拾取与放置。

5. 实验设置

由于本文是一篇综述论文，其本身不包含新的实验设置。因此，本节将讨论该综述所涉及的 具身人工智能 (Embodied AI) 领域中常用的数据集、评估指标和对比基线，以帮助读者理解该领域的研究实践。

5.1. 数据集

具身人工智能 (Embodied AI) 领域使用了多样化的数据集，涵盖了从 视觉语言导航 (Visual Language Navigation, VLN) 到 具身抓取 (Embodied Grasping) 等各种任务。这些数据集的特点和应用场景各不相同：

视觉语言导航 (VLN) 数据集：
- R2R (Room to Room) [105]： 基于 Matterport3D 模拟器，提供室内环境中的 逐步指令 (step-by-step instructions)。
- R4R (Room-for-Room) [106]： 扩展了 R2R 的路径，提供更长的轨迹，需要更强的长距离指令和历史对齐能力。
- VLN-CE [107]： 将 R2R 和 R4R 扩展到 连续环境 (continuous environments)，允许 智能体 (agent) 自由移动。
- TOUCHDOWN [108]： 基于 Google Street View，用于 户外 (outdoor) 街景导航，目标是找到特定物体。
- REVERIE [109]： 基于 Matterport3D，要求 智能体 (agent) 根据简洁指令定位远处的不可见目标物体。
- ALFRED [112]： 基于 AI2-THOR 模拟器，涉及 交互式环境 (interactive environment) 中的家庭任务，包含粗粒度和细粒度指令。
- BEHAVIOR-1K [114]： 基于 OmniGibson，包含1,000个 长序列 (long-sequence)、复杂、依赖技能的日常任务，要求 智能体 (agent) 完成 长跨度导航-交互任务 (long-span navigation-interaction tasks)。
- CVDN [115] 和 DialFRED [116]： 引入 对话 (dialogue) 机制，允许 智能体 (agent) 在不确定时提问以获取帮助。
具身问答 (EQA) 数据集：
- EQA v1 [138]： 第一个 EQA 数据集，基于 SUNCG 和 House3D 模拟器，包含位置、颜色等问题类型。
- IQUAD V1 [141]： 基于 AI2-THOR，问题涉及存在性、计数和空间关系，要求 智能体 (agent) 理解 功能性 (affordances) 并与动态环境交互。
- K-EQA [144]： 包含具有逻辑子句和知识相关短语的复杂问题，需要先验知识来回答。
- OpenEQA [145]： 第一个 开放词汇 (open-vocabulary) 的 EQA 数据集，支持 情景记忆 (episodic memory) 和 主动探索 (active exploration)。
具身抓取 (Embodied Grasping) 数据集：
- Cornell [159] 和 Jacquard [160]： 传统的 RGB-D 抓取数据集，提供 2指夹具 (2-finger gripper) 的 矩形抓取 (Rectangular grasp) 标注。
- 6-DOF GraspNet [161] 和 ACRONYM [162]： 提供 6-DOF (6自由度) 抓取姿态标注的 3D 模拟数据集。
- OCID-VLG [165] 和 ReasoningGrasp [166]： 结合了 语义表达 (semantic expressions) 的数据集，用于 语言引导抓取 (language-guided grasping) 任务。
- CapGrasp [167]： 用于 语义丰富 (semantically rich) 的 灵巧手抓取 (dexterous hand grasp) 任务。
统一机器人数据集标准：ARIO (All Robots In One) [237]：
- 该论文提出了 ARIO 作为一种新的数据集标准，旨在优化现有数据集并促进通用 具身智能体 (embodied agents) 的开发。它统一了不同形态机器人的控制和运动数据格式，并提供了大规模的数据集（约300万个片段，来自258个系列和321,064个任务），以解决当前多模态、多机器人数据集的碎片化和不兼容问题。

5.2. 评估指标

在 具身人工智能 (Embodied AI) 领域，不同的任务类型使用不同的评估指标来衡量 智能体 (agent) 的性能。以下是一些常见的评估指标及其说明：

成功率 (Success Rate, SR)：
- 概念定义： 成功率 (SR) 衡量 智能体 (agent) 成功到达目标位置并完成指令的百分比。它反映了 智能体 (agent) 在导航任务中的基本有效性。
- 数学公式： $SR = \frac{\text{Number of Successful Episodes}}{\text{Total Number of Episodes}} \times 100\%$
- 符号解释：
  - $\text{Number of Successful Episodes}$ ：成功完成任务的 情节 (episode) 数量。
  - $\text{Total Number of Episodes}$ ：所有 情节 (episode) 的总数量。
路径长度 (Path Length, PL)：
- 概念定义： 路径长度 (PL) 衡量 智能体 (agent) 从起始位置到最终位置所走过的总距离。通常用于评估导航效率，但需要与 最短路径长度 (Shortest Path Length) 结合使用。
- 数学公式： 通常是 智能体 (agent) 轨迹中所有连续位置之间距离的总和。 $PL = \sum_{i=1}^{N-1} \text{distance}(p_i, p_{i+1})$
- 符号解释：
  - $N$ ：智能体 (agent) 轨迹中的位置点数量。
  - $p_i$ ：智能体 (agent) 在时间步 $i$ 的位置。
  - $\text{distance}(p_i, p_{i+1})$ ：位置 $p_i$ 和 $p_{i+1}$ 之间的欧几里得距离。
导航误差 (Navigation Error, NE)：
- 概念定义： 导航误差 (NE) 衡量 智能体 (agent) 最终位置与目标位置之间的距离。较小的 导航误差 (NE) 表示 智能体 (agent) 更准确地到达了目标。
- 数学公式： $NE = \text{distance}(p_{final}, p_{target})$
- 符号解释：
  - $p_{final}$ ：智能体 (agent) 在 情节 (episode) 结束时的最终位置。
  - $p_{target}$ ：任务指定的目标位置。
路径长度加权成功率 (Success weighted by Path Length, SPL) [105]：
- 概念定义： SPL 是一个综合指标，结合了 成功率 (SR) 和 导航效率 (navigation efficiency)。它奖励成功的导航，并惩罚不必要的长路径。如果 智能体 (agent) 成功到达目标，其 SPL 值会根据其路径长度与 最短路径长度 (optimal path length) 的比值进行加权。
- 数学公式： $SPL = \frac{1}{N} \sum_{i=1}^{N} S_i \frac{L_{optimal,i}}{\max(L_{agent,i}, L_{optimal,i})}$
- 符号解释：
  - $N$ ：情节 (episode) 的总数量。
  - $S_i$ ：情节 (episode) $i$ 是否成功（成功为1，失败为0）。
  - $L_{optimal,i}$ ：情节 (episode) $i$ 的 最短路径长度 (optimal path length)。
  - $L_{agent,i}$ ：智能体 (agent) 在 情节 (episode) $i$ 中实际行走的路径长度。

5.2.2. 具身问答 (Embodied Question Answering, EQA)

问答准确率 (Question Answering Accuracy, QA Accuracy)：
- 概念定义： 对于选择题或开放式问答，QA 准确率 (QA Accuracy) 衡量 智能体 (agent) 对问题的回答与 真实标注 (Ground Truth) 答案的匹配程度。对于开放式问题，可能使用 BLEU 或 ROUGE 等 自然语言生成 (natural language generation) 指标。
- 数学公式 (对于选择题)： $\text{QA Accuracy} = \frac{\text{Number of Correct Answers}}{\text{Total Number of Questions}} \times 100\%$
- 符号解释：
  - $\text{Number of Correct Answers}$ ：智能体 (agent) 给出正确答案的问题数量。
  - $\text{Total Number of Questions}$ ：所有问题的总数量。
成功率 (Success Rate, SR)：
- 概念定义： 在 EQA 中，成功率 (SR) 可以衡量 智能体 (agent) 是否成功导航到足够的信息区域并正确回答了问题。这通常结合了导航和问答两个子任务的成功。
- 数学公式： 与 VLN 中的 SR 类似，但成功条件包含正确回答问题。
探索效率 (Exploration Efficiency)：
- 概念定义： 衡量 智能体 (agent) 在回答问题前探索环境的效率，例如所覆盖区域的比例或探索路径的长度。EXPRESS-Bench [148] 引入了 探索感知EQA (exploration-aware EQA) 指标，旨在更忠实地评估 探索 (exploration) 行为。

5.2.3. 具身抓取 (Embodied Grasping)

抓取成功率 (Grasp Success Rate)：
- 概念定义： 衡量 智能体 (agent) 成功抓取目标物体的百分比。这是 抓取任务 (grasping task) 中最直接的性能指标。
- 数学公式： $\text{Grasp Success Rate} = \frac{\text{Number of Successful Grasps}}{\text{Total Number of Grasp Attempts}} \times 100\%$
- 符号解释：
  - $\text{Number of Successful Grasps}$ ：成功抓取物体的尝试次数。
  - $\text{Total Number of Grasp Attempts}$ ：总的抓取尝试次数。
碰撞率 (Collision Rate)：
- 概念定义： 衡量 智能体 (agent) 在尝试抓取过程中与环境或非目标物体发生碰撞的频率。较低的 碰撞率 (Collision Rate) 表示 智能体 (agent) 的操作更安全和精确。
- 数学公式： $\text{Collision Rate} = \frac{\text{Number of Collisions}}{\text{Total Number of Grasp Attempts}} \times 100\%$
- 符号解释：
  - $\text{Number of Collisions}$ ：发生碰撞的次数。
  - $\text{Total Number of Grasp Attempts}$ ：总的抓取尝试次数。
抓取姿态准确性 (Grasp Pose Accuracy)：
- 概念定义： 衡量 智能体 (agent) 生成的抓取姿态与理想或 真实标注 (Ground Truth) 抓取姿态之间的匹配程度。通常通过 几何距离 (geometric distance) 或 角度误差 (angular error) 来量化。

5.3. 对比基线

作为一篇综述论文，其本身不进行实验，而是对领域内现有研究进行总结和比较。因此，本节将讨论在 具身人工智能 (Embodied AI) 各子任务中，研究人员通常会与哪些类型的“基线”方法进行比较。这些基线代表了不同技术范式或发展阶段的典型方法。

传统强化学习 (Traditional Reinforcement Learning, RL) 方法：
- 在 具身智能体 (embodied agent) 的 行动规划 (action planning) 和 控制 (control) 方面，深度强化学习 (Deep Reinforcement Learning, DRL) 方法是常见的基线。它们通过与环境的交互学习 策略 (policy)，但通常需要大量的训练数据，并且在 泛化性 (generalization) 和 仿真到现实迁移 (sim-to-real transfer) 方面存在挑战。
- 例如，在 VLN 中，早期方法常使用 序列到序列 (sequence-to-sequence) 模型结合 强化学习 (RL) 来学习导航 策略 (policy)。
基于规则或符号规划的方法：
- 在 具身任务规划 (embodied task planning) 领域，传统的 基于规则 (rule-based) 或 符号规划 (symbolic planning) 算法（如 PDDL [173]、MCTS [174]、 $A*$ [175]）是常见的基线。这些方法依赖于预定义的规则和启发式，在受控环境中表现良好，但在动态或未见环境中 适应性 (adaptability) 较差。
单模态深度学习方法：
- 在 具身感知 (embodied perception) 任务中，纯 视觉模型 (visual models)（如 目标检测器 (object detectors)、语义分割网络 (semantic segmentation networks)）或纯 语言模型 (language models)（如用于指令理解的 BERT 类模型）是常见的基线。这些模型通常无法处理多模态信息融合带来的复杂性。
早期的视觉-语言方法：
- 在 视觉语言导航 (VLN) 和 具身问答 (EQA) 等 多模态任务 (multimodal tasks) 中，早期的 视觉-语言模型 (vision-language models) 结合 RNN 或 注意力机制 (attention mechanisms) 是常见的基线。
- 例如 Anderson et al. [105] 的 VLN 工作。
基于 大语言模型 (LLMs) 或 视觉-语言模型 (VLMs) 的非具身方法：
- 随着 LLMs 和 VLMs 的发展，许多研究首先在 离身 (disembodied) 设置下探索它们的能力，例如 ChatGPT [4] 或 RoboGPT [8] 在文本或图像上的规划和推理。这些构成了验证 具身 (embodied) 优势的基线。
不同 仿真到现实迁移 (Sim-to-Real Transfer) 范式：
- 在 仿真到现实适应 (sim-to-real adaptation) 中，各种 仿真到现实 (sim-to-real) 策略本身就是相互比较的基线，例如 领域随机化 (Domain Randomization) [231]、系统识别 (System Identification) [234]、Real2Sim2real [229] 等，它们各自代表了不同的迁移策略。
基于 多模态大模型 (MLMs) 和 世界模型 (WMs) 的方法 (作为新基线)：
- 随着 MLMs 和 WMs) 的出现，它们本身也成为了该领域新的、强大的基线，后续研究将致力于超越这些模型的性能，或者在特定 具身任务 (embodied tasks) 中优化它们的应用。

6. 实验结果与分析

由于本文是一篇综述论文，其“实验结果与分析”并非基于作者自己的新实验，而是对现有文献中“成果”的总结、比较和趋势分析。因此，本节将根据论文中对各研究方向的描述和总结，来呈现其核心发现。

6.1. 核心结果分析

这篇综述的核心分析结果表明，具身人工智能 (Embodied AI) 领域正经历由 多模态大模型 (MLMs) 和 世界模型 (WMs) 驱动的重大变革，这些新兴技术为其发展注入了强大动力。

MLMs和WMs的赋能作用： 论文强调，多模态大模型 (MLMs) 和 世界模型 (WMs) 以其卓越的感知、交互和推理能力，成为了构建 具身智能体 (embodied agents) 的有前景架构。它们能够将 网络空间 (cyber space) 的丰富知识迁移到 物理世界 (physical world)，显著提升 具身智能体 (embodied agents) 理解复杂指令、进行高级规划和处理多模态信息的能力。例如，MLMs 赋能了 具身智能体 (embodied agents) 在 视觉语言导航 (VLN) 中更好地理解 语言指令 (linguistic instructions)，在 具身问答 (EQA) 中利用 世界知识 (world knowledge) 进行推理，并在 具身抓取 (Embodied Grasping) 中实现 语义理解 (semantic understanding)。
具身感知能力显著提升： 在 具身感知 (Embodied Perception) 方面，视觉同时定位与建图 (vSLAM) 和 3D场景理解 (3D Scene Understanding) 方法不断演进，结合 主动探索 (Active Exploration) 机制，使 智能体 (agent) 能够更全面、动态地感知和理解 物理环境 (physical environments)。Transformer 和 Mamba 等新架构的引入，进一步提升了 3D点云 (3D point cloud) 处理和 场景理解 (scene understanding) 的能力。
具身交互多样化与智能化： 具身交互 (Embodied Interaction) 任务（如 具身问答 (EQA) 和 具身抓取 (Embodied Grasping)）的复杂性和智能化程度不断提高。LLMs/VLMs 的应用使得 智能体 (agent) 能够理解更复杂的查询、进行 情景记忆 (episodic memory) 和 主动探索 (active exploration)，并根据 显式 (explicit) 或 隐式 (implicit) 语言指令 (linguistic instructions) 执行精细的抓取操作，展现出更强的 语义推理 (semantic reasoning) 能力。
具身智能体走向通用化： 具身智能体 (Embodied Agent) 的发展正朝着 通用化 (generalization) 方向迈进。高层任务规划 (high-level task planning) 结合 LLMs 的 涌现能力 (emergent capabilities) 和 视觉信息 (visual information)，以及 低层行动规划 (low-level action planning) 采用 API 或 VLA模型 (VLA models)，使得 智能体 (agent) 能够分解和执行复杂的 长时序任务 (long-horizon tasks)。
仿真到现实适应面临挑战与机遇： 仿真到现实适应 (Sim-to-Real adaptation) 依然是关键挑战。具身世界模型 (Embodied World Models)（基于生成、预测和知识驱动）的出现为弥合 仿真到现实鸿沟 (sim-to-real gap) 提供了新途径，使得 智能体 (agent) 能够发展 物理直觉 (physical intuition)。同时，新的 数据收集 (data collection) 方法和 仿真到现实范式 (sim-to-real paradigms)（如 领域随机化 (Domain Randomization)、Real2Sim2real）也在不断探索。
数据集的重要性与标准化呼吁： 论文通过对现有数据集的详细梳理，揭示了其在规模、模态、格式和多样性方面的不足。提出的 ARIO 数据集标准和大规模数据集，旨在为 具身人工智能 (Embodied AI) 领域提供一个统一、全面的基石，以支持 鲁棒 (robust)、通用具身智能体 (general-purpose embodied agents) 的发展。

总体而言，该综述描绘了 具身人工智能 (Embodied AI) 作为一个融合 计算机视觉 (CV)、自然语言处理 (NLP) 和 机器人技术 (robotics) 的交叉领域，正加速向 通用人工智能 (AGI) 迈进，但仍需克服在数据、推理和部署方面的多重挑战。

6.2. 数据呈现 (表格)

以下是原文中所有表格的转录和解释。

以下是原文 Table I 的结果：

Type	Environment	Physical Entities	Description	Representative Agents
Disembodied AI	Cyber Space	No	Cognition and physical entities are disentangled	ChatGPT [4], RoboGPT [8]
Embodied AI	Physical Space	Robots, Cars, Other devices	Cognition is integrated into physical entities	RT-1 [9], RT-2 [10], RT-H [3]

表 I：离身人工智能与具身人工智能的比较。

**分析：** 此表格清晰地对比了 `离身人工智能 (Disembodied AI)` 和 `具身人工智能 (Embodied AI)` 的核心特征。`离身人工智能 (Disembodied AI)` 仅存在于 `网络空间 (Cyber Space)`，没有物理实体，其认知与物理实体是分离的，例如 `ChatGPT`。而 `具身人工智能 (Embodied AI)` 则存在于 `物理空间 (Physical Space)`，拥有机器人、汽车等物理实体，其认知与物理实体是整合的，例如 `RT-1`、`RT-2`。这为理解 `具身人工智能 (Embodied AI)` 的核心概念奠定了基础。

以下是原文 Table II 的结果：

Simulator	Year	HFPS	HQGR	RRL	DLS	LSPC	ROS	MSS	CP	Physics Engine	Main Applications
Genesis [35]	2024	O	o	O	O		O	O	Custom	RL, LSPS, RS
Isaac Sim [36]	2023	O	O	O	O	O	O	O	PhysX	Nav, AD
Isaac Gym [37]	2019	O		O	O				PhysX	RL,LSPS
Gazebo [38]	2004	O	O			O	O	O	ODE, Bullet, Simbody, DART Nav,MR
PyBullet [39]	2017			O				O	Bullet	RL,RS
Webots [40]	1996	O	O				O	O	ODE	RS
MuJoCo [41]	2012			O				o	Custom	RL, RS
Unity ML-Agents [42]	2017	O		O				O	Custom	RL, RS
AirSim [43]	2017	O						o	Custom	Drone sim, AD, RL
MORSE [44]	2015						o	O	Bullet	Nav, MR
V-REP (CoppeliaSim) [45]	2013		O	O				O	O	Bullet, ODE, Vortex, Newton MR, RS

**分析：** 此表格详细列出了11个通用模拟器的发布年份、核心功能和主要应用领域。可以看出，`Isaac Sim` 在多个方面（高保真物理仿真、高质量图形渲染、丰富的机器人库、深度学习支持、大规模并行计算、ROS、多传感器支持、碰撞检测）都表现出色，适合多种机器人和 `AI` 研究。`Genesis` 作为2024年发布的新模拟器，也展现出强大的潜力。一些老牌模拟器如 `Gazebo` 和 `V-REP` 依然因其广泛支持和灵活性而常用。此表格对于选择合适的模拟器进行 `具身人工智能 (Embodied AI)` 研究提供了重要的参考。

以下是原文 Table III 的结果：

Function	Type	Methods
Function	Type	Methods
vSLAM	Traditional vSLAM	MonoSLAM [60], ORB-SLAM [61], LSD-SLAM [62]
vSLAM	Semantic vSLAM	SLAM++ [63], QuadricSLAM [64], So-SLAM [65],SG-SLAM [66], OVD-SLAM [67], GS-SLAM [68]
3D Scene Understanding	Projection-based	MV3D [69], PointPillars [70], MVCNN [71]
	Voxel-based	VoxNet [72], SSCNet [73]), MinkowskiNet [74], SSCNs [75], Embodiedscan [76]
	Point-based	PointNet [77], PointNet++ [78], PointMLP [79], PointTransformer [80], Swin3d [81], PT2 [82],3D-VisTA [83], LEO [84], PQ3D [85], PointMamba [86], Mamba3D [87]
Active Exploration	Interacting with the environment	Pinto et al. [88], Tatiya et al. [89]
Active Exploration	Changing the viewing direction	Jayaraman et al. [90], NeU-NBV [91], Hu et al. [92], Fan et al. [93]

表 III：主动视觉感知方法的比较。

**分析：** 该表格对 `主动视觉感知 (Active Visual Perception)` 的三个核心功能：`视觉同时定位与建图 (vSLAM)`、`3D场景理解 (3D Scene Understanding)` 和 `主动探索 (Active Exploration)` 进行了分类和方法总结。在 `vSLAM` 方面，从 `传统vSLAM (Traditional vSLAM)` 到 `语义vSLAM (Semantic vSLAM)` 的发展，体现了引入高级语义信息的重要性。`3D场景理解 (3D Scene Understanding)` 则展示了从 `基于投影 (Projection-based)`、`基于体素 (Voxel-based)` 到 `基于点云 (Point-based)` 方法的演进，以及近期 `Transformer` 和 `Mamba` 架构的引入。`主动探索 (Active Exploration)` 方法强调了通过与环境交互或改变视角来获取更多信息。此表格全面概述了 `具身智能体 (embodied agents)` 进行环境感知所依赖的技术基础。

以下是原文 Table IV 的结果：

Dataset	Year	Simulator	Environment		Feature		Size
Dataset	Year	Simulator	Type	Continuity	Type	Interaction	Size
R2R [105]	2018	M3D	I	D	SbS	No	21,567
R4R [106]	2019	M3D	I	D	SbS	No	200,000+
VLN-CE [107]	2020	Habitat	I	C	SbS	No	-
TOUCHDOWN [108]	2019	-	O	D	SbS	No	9,326
REVERIE [109]	2020	M3D	I	D	DGN	No	21,702
SOON [110]	2021	M3D	I	D	DGN	No	3,848
DDN [111]	2023	AT	I	C	DDN	No	30,000+
ALFRED [112]	2020	AT	I	C	NwI	Yes	25,743
OVMM [113]	2023	Habitat	I	C	NwI	Yes	7,892
BEHAVIOR-1K [114]	2023	OG	I	C	LSNwI	Yes	1,000
CVDN [115]	2020	M3D	I	D	D&O	Yes (Dialogue)	2,050
DialFRED [116]	2022	AT	I	C	D&O	Yes (Dialogue)	53,000

**分析：** 此表格对 `视觉语言导航 (VLN)` 领域中的多个关键数据集进行了系统比较。数据集涵盖了不同的模拟器（`Matterport3D`、`Habitat`、`AI2-THOR` 等）、环境类型（室内/室外、离散/连续）和 `特征 (Feature)`（逐步指令、目标描述导航、需求驱动导航、带交互的导航、长跨度带交互的导航、对话和预言机）。值得注意的是，`ALFRED`、`OVMM` 和 `BEHAVIOR-1K` 等数据集引入了 `交互 (interaction)`，使任务更加复杂和真实。`CVDN` 和 `DialFRED` 则进一步引入了 `对话 (dialogue)` 能力，提升了 `智能体 (agent)` 的辅助决策能力。该表格为 `VLN` 任务的研究者提供了选择合适数据集的指南。

以下是原文 Table V 的结果：

Method	Model	Year	Feature
Method	Model	Year	Feature
Memory-UnderstandingBased	LVERG [117]	2020	Graph Learning
	CMG [118]	2020	Adversarial Learning
	RCM [119]	2021	Reinforcement learning
	FILM [120]	2022	Semantic Map
	LM-Nav [121]	2022	Graph Learning
	HOP [122]	2022	History Modeling
	NaviLLM [123]	2024	Large Model
	FSTT [124]	2024	Test-Time Augmentation
	DiscussNav [125]	2024	Large Model
	GOAT [126]	2024	Causal Learning
	VER [127]	2024	Environment Encoder
	NaVid [128]	2024	Large Model
Future-PredictionBased	LookBY [129]	2018	Reinforcement Learning
	NvEM [130]	2021	Environment Encoder
	BGBL [131]	2022	Graph Learning
	Mic [132]	2023	Large Model
	HNR [133]	2024	Environment Encoder
	ETPNav [134]	2024	Graph Learning
Others	MCR-Agent [135]	2023	Multi-Level Model
Others	OVLM [136]	2023	Large Model

表 V：VLN 方法的比较。

**分析：** 此表格对 `视觉语言导航 (VLN)` 领域的方法进行了分类，主要分为 `基于记忆理解 (Memory-Understanding Based)` 和 `基于未来预测 (Future-Prediction Based)`。`基于记忆理解 (Memory-Understanding Based)` 方法在 `VLN` 中占据主流，倾向于利用 `图学习 (Graph Learning)`、`对抗学习 (Adversarial Learning)`、`强化学习 (Reinforcement learning)`、`语义地图 (Semantic Map)` 和 `历史建模 (History Modeling)` 来处理 `历史轨迹 (historical trajectories)`。近年来，`大模型 (Large Model)` (如 `NaviLLM`、`DiscussNav`、`NaVid`) 的应用显著增多。`基于未来预测 (Future-Prediction Based)` 方法则通过 `强化学习 (Reinforcement Learning)`、`环境编码器 (Environment Encoder)` 和 `图学习 (Graph Learning)` 来预测未来状态，`大模型 (Large Model)` 也在其中扮演了角色 (如 `Mic`)。此表格展示了 `VLN` 研究从传统 `深度学习 (deep learning)` 方法向 `大型模型 (Large Model)` 驱动的趋势演变。

以下是原文 Table VI 的结果：

Dataset	Year	Type	Data Sources	Simulator	Query Creation	Answer	Size
Dataset	Year	Type	Data Sources	Simulator	Query Creation	Answer	Size
EQA v1 [138]	2018	Active EQA	SUNCG	House3D	Rule-Based	open-ended	5,000+
MT-EQA [139]	2019	Active EQA	SUNCG	House3D	Rule-Based	open-ended	19,000+
MP3D-EQA [140]	2019	Active EQA	MP3D	Simulator based on MINOS	Rule-Based	open-ended	1,136
IQUAD V1 [141]	2018	Interactive EQA		AI2THOR	Rule-Based	multi-choice	75,000+
VideoNavQA [142]	2019	Episodic Memory EQA	SUNCG	House3D	Rule-Based	open-ended	101,000
SQA3D [143]	2022	QA only	ScanNet		Manual	multi-choice	33,400
K-EQA [144]	2023	Active EQA		AI2THOR	Rule-Based	open-ended	60,000
OpenEQA [145]	2024	Active EQA, Episodic Memory EQA	ScanNet, HM3D	Habitat	Manual	open-ended	1,600+
HM-EQA [146]	2024	Active EQA	HM3D	Habitat	VLM	multi-choice	500
S-EQA [147]	2024	Active EQA		VirtualHome	LLM	binary
EXPRESS-Bench [148]	2025	Exploration-aware EQA	HM3D	Habitat	VLM	open-ended	2,044

表 VI：不同 EQA 数据集的比较。

**分析：** 该表格列出了 `具身问答 (EQA)` 任务中的多个数据集，并比较了它们的年份、类型、数据来源、模拟器、查询创建方式、回答类型和大小。`EQA` 数据集从早期的 `Active EQA` 类型（如 `EQA v1`、`MT-EQA`）发展到 `Interactive EQA`（如 `IQUAD V1`），再到涉及 `情景记忆 (Episodic Memory EQA)` 和需要 `先验知识 (prior knowledge)` 的 `K-EQA`。近年来，随着 `大型模型 (Large Models)` 的发展，`OpenEQA` 和 `HM-EQA` 引入了 `开放词汇 (open-vocabulary)` 和 `VLM` 生成查询，`EXPRESS-Bench` 则专注于 `探索感知 (Exploration-aware)` 评估。这反映了 `EQA` 任务从简单对象问答向复杂场景理解和 `常识推理 (commonsense reasoning)` 的演进。

以下是原文 Table VII 的结果：

Dataset	Year	Type	Modality	Grasp Label	Gripper Finger	Objects	Grasps	Scenes	Language
Dataset	Year	Type	Modality	Grasp Label	Gripper Finger	Objects	Grasps	Scenes	Language
Cornell [159]	2011	Real	RGB-D	Rect.	2	240	8K	Single	×
Jacquard [160]	2018	Sim	RGB-D	Rect.	2	11K	1.1M	Single	×
6-DOF GraspNet [161]	2019	Sim	3D	6D	2	206	7.07M	Single	×
ACRONYM [162]	2021	Sim	3D	6D	2	8872	17.7M	Multi	×
MultiGripperGrasp [163]	2024	Sim	3D	-	2-5	345	30.4M	Single	×
OCID-Grasp [164]	2021	Real	RGB-D	Rect.	2	89	75K	Multi	×
OCID-VLG [165]	2023	Real	RGB-D,3D	Rect.	2	89	75K	Multi	√
ReasoingGrasp [166]	2024	Real	RGB-D	6D	2	64	99.3M	Multi	√
CapGrasp [167]	2024	Sim	3D	-	5	1.8K	50K	Single	√

表 VII：具身抓取数据集。

**分析：** 此表格总结了 `具身抓取 (Embodied Grasping)` 领域的主要数据集。可以看出，早期数据集（如 `Cornell`、`Jacquard`）主要提供 `RGB-D` 数据和 `矩形抓取 (Rectangular grasp)` 标签，且不包含语言信息。随着研究的深入，数据集开始提供 `3D` 数据和 `6自由度 (6-DOF)` 抓取标签（如 `6-DOF GraspNet`、`ACRONYM`）。最显著的趋势是，近年来出现了整合 `语言 (Language)` 模态的数据集（如 `OCID-VLG`、`ReasoningGrasp`、`CapGrasp`），这与 `多模态大模型 (MLMs)` 在 `具身人工智能 (Embodied AI)` 中的应用趋势相符，使得 `智能体 (agent)` 能够进行 `语言引导抓取 (language-guided grasping)`。此外，数据集中的物体和抓取数量也呈指数级增长。

6.3. 消融实验/参数分析

本篇论文是一篇综述，因此其本身不进行 消融实验 (ablation studies) 或 参数分析 (parameter analysis)。这些分析通常在具体的模型或算法研究论文中进行，以验证模型各组件的有效性或超参数对性能的影响。

然而，在论文对各个研究子方向的讨论中，间接体现了对“组件有效性”和“挑战”的分析。例如：

在 具身智能体 (Embodied Agent) 部分，论文指出 任务规划 (task planning) 的高准确率（如 RoboGPT 达到96%）与 整体任务完成率 (overall task completion rate)（仅60%）之间的差距，这间接说明了 低层行动规划器 (low-level planner) 的性能是限制 具身智能体 (embodied agent) 的关键因素，这可以被视为对行动规划器组件有效性的隐式分析。
在 仿真到现实适应 (Sim-to-Real adaptation) 的 具身世界模型 (Embodied World Model) 局限性部分，论文讨论了 世界模型 (WMs) 在处理 真实世界环境 (real-world environments) 的复杂性和可变性时的挑战，以及 泛化能力 (generalization)、数据效率 (data efficiency) 和 可解释性 (interpretability) 等问题，这可以被看作是对 世界模型 (WMs) 现有局限性的分析，指导未来研究如何通过改进组件来提升性能。

7. 总结与思考

7.1. 结论总结

本文全面综述了 具身人工智能 (Embodied AI) 领域的最新进展，尤其是在 多模态大模型 (MLMs) 和 世界模型 (WMs) 赋能下，如何将 网络空间 (cyber space) 与 物理世界 (physical world) 对齐。论文深入探讨了 具身机器人 (embodied robots) 和 模拟器 (simulators) 的现状与发展，并系统分析了 具身感知 (embodied perception)、具身交互 (embodied interaction)、具身智能体 (embodied agent) 和 仿真到现实适应 (sim-to-real adaptation) 四个关键研究目标。通过详细介绍 最先进的 (state-of-the-art) 方法、基本范式和综合数据集，论文为该领域构建了一个清晰的知识图谱。此外，本文还提出了 ARIO 这一统一的大规模数据集标准，以应对现有数据集的局限性。最终，论文总结了 具身人工智能 (Embodied AI) 面临的挑战，并展望了未来的研究方向，强调了其在实现 通用人工智能 (AGI) 方面的关键意义。

7.2. 局限性与未来工作

论文作者指出了 具身人工智能 (Embodied AI) 领域当前面临的几项关键挑战，并据此提出了未来的研究方向：

高质量机器人数据集 (High-quality Robotic Datasets)：
- 局限性： 收集足够的 真实世界机器人数据 (real-world robotic data) 耗时且资源密集，仅依赖 模拟数据 (simulation data) 会加剧 仿真到现实鸿沟 (sim-to-real gap)。当前缺乏大规模、多样化且集成多模态（图像、3D视觉 (3D vision)、文本、触觉、听觉）的统一数据集。
- 未来工作： 需要不同机构之间紧密合作，创建多样化的 真实世界机器人数据集 (real-world robotic datasets)。同时，开发更真实、高效的 模拟器 (simulators) 以提高 模拟数据 (simulated data) 质量，并构建大规模数据集，结合高质量 模拟环境数据 (simulated environment data) 来辅助 真实世界数据 (real-world data)，以实现 跨场景 (cross-scenario) 和 跨任务 (cross-task) 的 泛化具身模型 (generalizable embodied models)。ARIO 标准正是为此目标而提出。
长时序任务执行 (Long-Horizon Task Execution)：
- 局限性： 诸如“打扫厨房”等 长时序任务 (long-horizon tasks) 需要机器人规划和执行一系列低级行动。当前的 高层任务规划器 (high-level task planners) 虽然初步成功，但由于缺乏针对 具身任务 (embodied tasks) 的 微调 (tuning)，在多样化场景中往往不足。
- 未来工作： 需要开发配备 鲁棒感知能力 (robust perception capabilities) 和丰富 常识知识 (commonsense knowledge) 的高效规划器。可以结合轻量级 监控模块 (monitor modules) 进行高频监控，以及两个 适配器 (adapters) 进行低频次的子任务和路径适应性推理，以平衡规划复杂性和实时适应性。
因果推理 (Causal Reasoning)：
- 局限性： 现有 数据驱动的具身智能体 (data-driven embodied agents) 依赖 数据关联 (data correlations) 进行决策，未能真正理解知识、行为和环境之间的 因果关系 (causal relations)，导致 策略 (strategies) 存在偏差，难以在 真实世界 (real-world) 中稳健可靠地运行。
- 未来工作： 具身智能体 (embodied agents) 需要由 世界知识 (world knowledge) 驱动，具备自主的 因果推理能力 (causal reasoning capability)。通过交互理解世界，并通过 溯因推理 (abductive reasoning) 学习其运作方式，可以增强 具身智能体 (embodied agents) 在复杂 真实世界环境 (real-world environments) 中的 适应性 (adaptability)、决策可靠性 (decision reliability) 和 泛化能力 (generalization capabilities)。还需要建立 跨模态 (cross-modality) 的 时空因果关系 (spatial-temporal causal relations)，并使 智能体 (agent) 理解 物体功能性 (affordances) 以实现 动态场景 (dynamic scenes) 中的 自适应任务规划 (adaptive task planning)。
统一评估基准 (Unified Evaluation Benchmark)：
- 局限性： 现有 低层控制策略 (low-level control policies) 的评估基准在所评估的技能上差异显著，且物体和场景通常受 模拟器 (simulator) 限制。许多 高层任务规划器 (high-level task planners) 基准仅通过问答任务评估 规划能力 (planning capability)。
- 未来工作： 综合评估 具身模型 (embodied models) 的基准应涵盖各种技能，并使用 真实模拟器 (realistic simulators)。更理想的方法是同时评估 高层任务规划器 (high-level task planner) 和 低层控制策略 (low-level control policy) 在执行 长时序任务 (long-horizon tasks) 时的成功率，而不是孤立评估规划器。
安全与隐私 (Security and Privacy)：
- 局限性： 具身智能体 (embodied agents) 部署在敏感或私人空间时面临显著 安全挑战 (security challenges)。它们对 LLMs 的依赖引入了新的漏洞，例如 LLMs 易受 后门攻击 (backdoor attacks)（词语注入、场景操纵、知识注入），可能导致 自主车辆 (autonomous vehicles) 撞向障碍物或机器人执行危险行动。
- 未来工作： 需要评估潜在的 攻击向量 (attack vectors) 并开发更鲁棒的防御措施。此外，应使用 安全提示 (secure prompting)、状态管理 (state management) 和 安全验证机制 (safety validation mechanisms) 来增强 安全性 (security) 和 鲁棒性 (robustness)。

7.3. 个人启发与批判

个人启发：
- AGI 路径的具身视角： 这篇综述极大地强化了 具身人工智能 (Embodied AI) 作为实现 通用人工智能 (AGI) 核心路径的观点。它清晰地描绘了 智能体 (agent) 必须通过 物理世界 (physical world) 的交互才能获得真正智能的直觉，这比纯粹基于 网络空间 (cyber space) 的 人工智能 (AI) 更具说服力。
- MLMs 与 WMs 的关键作用： 论文深刻揭示了 多模态大模型 (MLMs) 和 世界模型 (WMs) 在 具身人工智能 (Embodied AI) 发展中的革命性作用。它们不仅提供了强大的感知和推理基础，更重要的是，它们为 智能体 (agent) 赋予了从 网络世界 (cyber world) 中学习并应用于 物理世界 (physical world) 的能力，以及在内部模拟和规划的能力，这对于克服 仿真到现实鸿沟 (sim-to-real gap) 至关重要。
- 系统化思维的价值： 综述的结构化分析方法本身就具有很强的启发性。从 机器人 (robots)、模拟器 (simulators) 这些基础设施，到 感知 (perception)、交互 (interaction)、智能体 (agent) 核心任务，再到 仿真到现实 (sim-to-real) 部署挑战，这种自下而上、全面覆盖的框架对于理解复杂领域、识别关键问题和规划研究方向非常有益。
- ARIO 数据集标准的提出： 作为一篇综述，不仅仅停留在总结，而是主动提出 ARIO 这种具有前瞻性的数据集标准和大规模数据集，体现了作者对推动领域发展的责任感和实践性思考。这有助于解决数据碎片化和不兼容的痛点，加速 通用具身智能体 (general-purpose embodied agents) 的研发。
批判性思考：
- 新兴技术更新速度： 尽管这篇综述非常新颖，但 多模态大模型 (MLMs) 和 世界模型 (WMs) 领域的发展速度极快，几乎每月都有新的模型和技术涌现。因此，即使是最新的综述，在发布后不久也可能在某些具体模型或细节上略显滞后。如何构建一个能够动态更新和适应这种快速变化的综述框架，可能是未来可以探索的方向。
- AGI 路线图的模糊性： 论文强调了 具身人工智能 (Embodied AI) 对实现 AGI 的重要性，但具体的 AGI 路线图或里程碑仍相对模糊。例如，当前 具身智能体 (embodied agents) 距离真正的人类级别 常识推理 (commonsense reasoning)、开放世界泛化 (open-world generalization) 和 长时序任务执行 (long-horizon task execution) 还有多远？需要哪些关键的突破性技术？如果能提供更具体的阶段性目标，或许能为研究者指明更清晰的路径。
- 计算资源与可及性挑战： 多模态大模型 (MLMs) 和 世界模型 (WMs) 的训练和部署往往需要极其庞大的计算资源。这在论文中并未作为核心挑战进行深入讨论。对于初学者和资源有限的研究机构而言，这种高昂的成本可能成为 具身人工智能 (Embodied AI) 普及和创新的一大障碍。未来的研究可能需要探索更 高效 (efficient)、更 轻量级 (lightweight) 的模型或 分布式学习 (distributed learning) 范式，以提高 具身人工智能 (Embodied AI) 的可及性。
- 伦理与社会影响： 具身人工智能 (Embodied AI) 与 物理世界 (physical world) 的深度融合，必然带来复杂的伦理和社会影响，例如就业、隐私、责任归属等问题。虽然论文提到了 安全与隐私 (Security and Privacy)，但对其更广泛的社会维度讨论相对较少。在 AGI 的愿景下，这些非技术层面的挑战同样关键且迫切。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 40 分钟读完 · 26,654 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解 (逐层深入)

4.2.1. 具身机器人 (Embodied Robots)

4.2.2. 具身模拟器 (Embodied Simulators)

4.2.3. 具身感知 (Embodied Perception)

4.2.4. 具身交互 (Embodied Interaction)

4.2.5. 具身智能体 (Embodied Agent)

4.2.6. 仿真到现实适应 (Sim-to-Real Adaptation)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.2.1. 视觉语言导航 (Visual Language Navigation, VLN)

5.2.2. 具身问答 (Embodied Question Answering, EQA)

5.2.3. 具身抓取 (Embodied Grasping)

5.3. 对比基线

6. 实验结果与分析

6.1. 核心结果分析

6.2. 数据呈现 (表格)

6.3. 消融实验/参数分析

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐