论文状态：已完成

A Survey: Learning Embodied Intelligence from Physical Simulators and World Models

发表：2025/07/02

世界模型 (2)身体智能学习 (1)物理模拟器 (1)自主机器人控制 (1)智能决策规划 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本综述探讨了具身智能在实现通用人工智能中的关键作用，重点分析物理模拟器与世界模型的结合如何增强智能机器人的自主性与适应能力。通过整合这些技术，本研究提供了具身人工智能学习的新进展和未来挑战的全面视角，助力于实用化的智能决策与规划。

摘要

The pursuit of artificial general intelligence (AGI) has placed embodied intelligence at the forefront of robotics research. Embodied intelligence focuses on agents capable of perceiving, reasoning, and acting within the physical world. Achieving robust embodied intelligence requires not only advanced perception and control, but also the ability to ground abstract cognition in real-world interactions. Two foundational technologies, physical simulators and world models, have emerged as critical enablers in this quest. Physical simulators provide controlled, high-fidelity environments for training and evaluating robotic agents, allowing safe and efficient development of complex behaviors. In contrast, world models empower robots with internal representations of their surroundings, enabling predictive planning and adaptive decision-making beyond direct sensory input. This survey systematically reviews recent advances in learning embodied AI through the integration of physical simulators and world models. We analyze their complementary roles in enhancing autonomy, adaptability, and generalization in intelligent robots, and discuss the interplay between external simulation and internal modeling in bridging the gap between simulated training and real-world deployment. By synthesizing current progress and identifying open challenges, this survey aims to provide a comprehensive perspective on the path toward more capable and generalizable embodied AI systems. We also maintain an active repository that contains up-to-date literature and open-source projects at https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey.

思维导图

论文精读

中文精读约 92 分钟读完 · 65,029 字

1. 论文基本信息

1.1. 标题

A Survey: Learning Embodied Intelligence from Physical Simulators and World Models (一项综述：从物理模拟器和世界模型中学习具身智能)

1.2. 作者

Xiaoio Long, Qingrui Zhao, KaiwenZhang, Zihao Zhang, Dingrui Wang*, Yumeng Liu, Zhengjhu, Yi ${ \sqcup } ^ { * }$ ,Shozheng Wang*, Xinzhe Wei, Wei Li, Wei Yin, Yao ao, Jia an, Qiu Shen, Ruigangang, Xun Cao†, Qionghai Dai

1.3. 发表期刊/会议

arXiv 预印本 (Preprint)

1.4. 发表年份

2025年

1.5. 摘要

具身智能 (Embodied Intelligence) 的追求已将机器人研究推向通用人工智能 (AGI) 的前沿。具身智能关注能够在物理世界中感知、推理和行动的智能体。实现强大的具身智能不仅需要先进的感知和控制能力，还需要将抽象认知根植于真实世界的交互中。物理模拟器 (Physical Simulators) 和世界模型 (World Models) 这两项基础技术，已成为实现这一目标的关键推动力。物理模拟器提供受控、高保真环境，用于训练和评估机器人智能体，从而实现复杂行为的安全高效开发。相比之下，世界模型赋予机器人对其周围环境的内部表征，使其能够超越直接感官输入进行预测性规划和自适应决策。本综述系统回顾了通过整合物理模拟器和世界模型来学习具身人工智能 (Embodied AI) 的最新进展。我们分析了它们在增强智能机器人自主性、适应性和泛化能力方面的互补作用，并讨论了外部仿真与内部建模在弥合模拟训练与真实世界部署之间差距的相互作用。通过综合当前进展并识别开放挑战，本综述旨在为通向更强大、更具泛化能力的具身人工智能系统提供全面视角。我们还维护一个包含最新文献和开源项目的活跃代码库：https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2507.00917 PDF 链接: https://arxiv.org/pdf/2507.00917v3.pdf 发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

当前人工智能 (Artificial Intelligence) 和机器人技术 (Robotics Technology) 的快速发展，使得智能体 (Agents) 与物理世界 (Physical World) 的交互成为研究的核心焦点。实现通用人工智能 (AGI) 面临的关键问题是如何将抽象推理 (Abstract Reasoning) 根植于对现实世界的理解和行动中。传统的脱离实体 (disembodied) 的智能系统仅在符号或数字数据上运行，而具身智能 (Embodied Intelligence) 则强调通过与环境的物理交互进行感知 (Perception)、行动 (Action) 和认知 (Cognition) 的重要性。

然而，智能机器人 (Intelligent Robots) 在真实世界的部署面临诸多挑战，例如：

成本与安全问题 (Cost and Safety Problem): 真实世界的数据收集成本高昂且可能存在风险，尤其是在危险或高风险场景中。
控制与可重复性问题 (Control and Repeatability Problem): 真实世界的数据收集受光照、背景和传感器噪声等多种因素影响，难以保证数据质量和实验的可重复性。

这些挑战导致了数据瓶颈 (Data Bottlenecks)，严重限制了相关算法的泛化能力 (Generalization Capability) 和适用性。为了解决这些问题，模拟到现实迁移 (Sim2Real Transfer) 成为了关键方法。物理模拟器 (Physical Simulators) 提供了受控且高保真的训练环境，而世界模型 (World Models) 则通过内部表征 (Internal Representations) 实现了预测性规划 (Predictive Planning) 和自适应决策 (Adaptive Decision-Making)。本综述旨在系统地分析这两种技术如何协同作用，共同推动具身智能的发展。

2.2. 核心贡献/主要发现

本综述的主要贡献总结如下：

智能机器人分级标准 (Levels of Intelligent Robots): 提出了一个全面的五级分级标准 (IR-L0至IR-L4)，用于评估类人机器人 (Humanoid Robot) 在自主性 (Autonomy)、任务处理能力 (Task Handling Ability)、环境适应性 (Environmental Adaptability) 和社会认知能力 (Societal Cognition Ability) 四个关键维度上的自主性。
机器人学习技术分析 (Analysis of Recent Techniques of Robot Learning): 系统回顾了智能机器人学在腿部运动 (Legged Locomotion)（如双足行走、跌倒恢复）、操作 (Manipulation)（如灵巧控制、双手协调）和人机交互 (Human-Robot Interaction)（如认知协作、社会嵌入）方面的最新进展。
主流物理模拟器分析 (Analysis of Current Physical Simulators): 对当前主流模拟器（如Webots、Gazebo、MuJoCo、Isaac Gym/Sim/Lab等）进行了全面的比较分析，涵盖了物理仿真能力 (Physical Simulation Capabilities)、渲染质量 (Rendering Quality) 和传感器支持 (Sensor Support)。
世界模型最新进展 (Recent Advancements of World Models): 重新审视了世界模型的主要架构及其潜在作用，例如作为可控模拟器 (Controllable Simulators)、动态模型 (Dynamic Models) 和奖励模型 (Reward Models) 来服务具身智能。此外，全面讨论了为自动驾驶 (Autonomous Driving) 和铰接机器人 (Articulated Robots) 等特定应用设计的世界模型。
弥合模拟与现实鸿沟 (Bridging Sim2Real Gap): 讨论了外部仿真与内部建模在弥合模拟训练与真实世界部署之间差距的相互作用，强调了两种技术的互补作用。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 具身智能 (Embodied Intelligence)

具身智能 (Embodied Intelligence) 是人工智能 (Artificial Intelligence) 领域的一个重要范式，它强调智能体 (Agents) 的认知能力 (Cognitive Abilities) 是通过其与物理世界 (Physical World) 的交互、感知 (Perception) 和行动 (Action) 紧密相连并形成的。与传统的、仅在符号或数字数据上运行的脱离实体 (disembodied) 智能系统不同，具身智能认为智能体的身体 (Body) 和环境 (Environment) 在其智能发展中扮演着核心角色。机器人通过物理身体进行感知和行动，可以从经验中学习，验证假设，并通过持续的交互来完善策略。这种感知输入、运动控制 (Motor Control) 和认知处理 (Cognitive Processing) 的闭环集成是实现真正自主性 (Autonomy) 和适应性 (Adaptability) 的基础。

3.1.2. 物理模拟器 (Physical Simulators)

物理模拟器 (Physical Simulators) 是为机器人技术 (Robotics) 提供受控、高保真虚拟环境的软件工具。它们通过对物理定律 (Physical Laws) 的建模，模拟现实世界中的对象运动、碰撞、重力、摩擦等物理现象。例如，Gazebo 或 MuJoCo 等模拟器允许研究人员在部署到真实世界之前，安全、高效地训练和评估机器人智能体的复杂行为。模拟器在机器人开发中具有成本效益 (Cost-effectiveness)、安全性 (Safety)、可控性 (Control) 和可重复性 (Repeatability) 等优点，是加速机器人算法开发和验证的重要工具。

3.1.3. 世界模型 (World Models)

世界模型 (World Models) 是赋予机器人对其周围环境内部表征 (Internal Representations) 的人工智能模型。它们能够理解现实世界的动态 (Dynamics)，包括物理特性 (Physics) 和空间属性 (Spatial Properties)，从而实现预测性规划 (Predictive Planning) 和超越直接感官输入的自适应决策 (Adaptive Decision-Making)。世界模型允许智能体在内部模拟 (Simulate) 经验，而无需直接与真实世界交互，从而显著提高样本效率 (Sample Efficiency)。这个概念在 Ha 和 Schmidhuber 的开创性工作 [18] 中得到了普及，他们展示了智能体如何学习紧凑的环境表征 (Environmental Representations) 进行内部规划。最近，视频生成模型 (Video Generation Models) 的发展，如 Sora [263]，进一步提升了世界模型在模拟物理世界方面的能力。

3.1.4. 通用人工智能 (Artificial General Intelligence, AGI)

通用人工智能 (Artificial General Intelligence, AGI) 指的是能够像人类一样或超越人类在各种认知任务中执行智能行为的系统。与专注于特定任务的狭义人工智能 (Narrow AI) 不同，AGI 的目标是实现跨领域 (Diverse Domains) 的学习、理解、适应和应用知识。具身智能被认为是实现 AGI 的关键途径之一，因为它提供了将抽象认知与现实世界互动相结合的物理基础。

3.1.5. 模拟到现实迁移 (Simulation-to-Reality Transfer, Sim2Real)

模拟到现实迁移 (Sim2Real Transfer) 是一种在虚拟模拟器中训练机器人策略 (Policies) 或模型，然后将其部署到真实世界机器人上的方法。由于在真实世界中进行数据收集和训练的成本高昂、耗时且存在风险，Sim2Real 范式变得至关重要。通过在高保真模拟环境中生成大量的合成数据 (Synthetic Data)，可以显著提高数据生成效率，并获得精确的自动标注 (Automated Annotation) 和可控的语义标签 (Controllable Semantic Labeling)。Sim2Real 的挑战在于如何弥合模拟器与真实世界之间的差距（Sim2Real Gap），确保在模拟中学习到的知识和行为能够有效地泛化到实际物理世界中。

3.2. 前人工作

本综述在以下几个关键领域借鉴并区分了前人的工作：

机器人模拟器综述 (Robotics Simulators Surveys): 已有文献 [19]-[21] 专注于机器人模拟器的各个方面，详细介绍了不同的模拟平台及其功能。本综述在此基础上，更深入地比较了主流模拟器的物理特性、渲染能力和传感器支持，并探讨了它们在具身智能训练中的具体作用。
世界模型综述 (World Models Surveys): 其他综述 [22]-[24] 也探讨了世界模型，但通常侧重于其架构、预测能力或在特定领域的应用。本综述的独特之处在于，它将世界模型与物理模拟器相结合，分析它们如何共同为具身智能赋能，并系统地将其核心作用（神经模拟器、动态模型、奖励模型）进行分类和讨论。
机器人能力量化框架 (Robot Capability Quantification Frameworks): 现有研究提出了多种量化机器人能力的方法，例如 DARPA 机器人挑战赛 (DARPA Robotics Challenge) 的评估方案 [11]、ISO 13482 服务机器人安全标准 [12] 以及关于自主性级别 (Autonomy Levels) 的综述 [13], [14]。然而，本综述在此基础上，首次提出了一个综合“智能认知”和“自主行为”维度，并包含“社会交互”的五级能力分级模型 (IR-L0至IR-L4)，旨在提供一个更全面的评估和指导框架。
视频生成模型 (Video Generation Models): 近期，Sora [263] 和 Kling [264] 等视频生成模型在生成高保真视频和模拟物理世界方面取得了显著进展。本综述将这些模型作为世界模型的关键技术发展，分析了它们在自动驾驶和机器人领域的应用潜力，并引用了 Yann LeCun 关于视频世界模型重要性的观点 [266]。

3.3. 技术演进

具身智能领域的技术演进呈现出从单一技术到融合多模态、多学科方法的趋势。

从传统控制到机器学习 (From Traditional Control to Machine Learning): 早期机器人控制主要依赖 模型预测控制 (Model Predictive Control, MPC) [28] 和 全身控制 (Whole-Body Control, WBC) [32] 等基于模型的方法。这些方法需要精确的物理模型和手工调优，在复杂和不确定环境中表现受限。随着机器学习 (Machine Learning) 的兴起，强化学习 (Reinforcement Learning, RL) [39] 和 模仿学习 (Imitation Learning, IL) [3] 逐渐成为主流，使机器人能够从经验和演示中自主学习复杂行为。
模拟器从简单到高保真、并行化 (Simulators from Simple to High-Fidelity and Parallelized): 早期模拟器如 Webots [239] 和 Gazebo [15] 提供了基本的物理仿真功能。随着对训练效率和真实感的需求增加，MuJoCo [16] 提供了高精度的接触动力学模拟。近年来，NVIDIA Isaac 系列 (特别是 Isaac Gym [242]、Isaac Sim [243] 和 Isaac Lab [246])、Genesis [250] 和 Newton [251] 等模拟器通过 GPU 加速、实时光线追踪 (Real-time Ray Tracing) 和可微分物理 (Differentiable Physics) 实现了前所未有的并行化和高保真度，极大地加速了机器人学习。
世界模型从抽象到具象、生成式 (World Models from Abstract to Concrete, Generative): 初始的世界模型如 Ha 和 Schmidhuber [18] 的工作，侧重于学习紧凑的潜在空间 (Latent Space) 动态以进行内部规划。随着深度学习 (Deep Learning) 技术的发展，特别是生成模型 (Generative Models) 的进步，世界模型开始能够直接生成高保真度的未来观测，如视频序列。变压器 (Transformer) [276] 和 扩散模型 (Diffusion Models) [284] 的应用，使得世界模型能够处理更复杂的时空依赖性，并生成更逼真的环境模拟，成为强大的神经模拟器 (Neural Simulators)。
多模态融合与基础模型 (Multimodal Fusion and Foundation Models): 最新的趋势是融合多模态 (Multimodal) 输入（视觉、语言、动作），并利用在海量数据上预训练的基础模型 (Foundation Models)（如 大语言模型 (Large Language Models, LLMs)、视觉语言模型 (Vision-Language Models, VLMs) 和 视觉-语言-行动模型 (Visual-Language-Action Models, VLA) [4]）来增强机器人的语义理解、任务规划和泛化能力。

3.4. 差异化分析

本综述与现有文献的主要区别在于其独特的视角和综合性：

协同作用的综合分析 (Synergistic Analysis): 现有综述通常独立地关注机器人模拟器 [19]-[21] 或世界模型 [22]-[24]。本综述则明确强调并深入分析了物理模拟器和世界模型之间互补和协同作用，探讨了它们如何共同促进具身智能的发展。例如，模拟器提供外部训练环境，而世界模型则创建内部认知框架。
具身智能全景图 (Comprehensive Embodied Intelligence Landscape): 除了技术分析，本综述还提出了一个创新的五级智能机器人能力分级模型 (IR-L0至IR-L4)，这为评估和指导机器人发展提供了一个统一的框架，超越了现有文献中零散的自主性级别评估。
具体应用领域的深入探讨 (In-depth Exploration of Specific Application Domains): 综述详细分析了世界模型在自动驾驶 (Autonomous Driving) 和铰接机器人 (Articulated Robots) 这两个关键应用领域中的具体实现、挑战和技术趋势，将抽象的世界模型概念与实际机器人任务紧密结合。
前瞻性展望与挑战 (Forward-Looking Perspective and Challenges): 本综述不仅总结了现有进展，还系统地识别了具身人工智能面临的开放挑战，并展望了未来的研究方向，如对可微分物理 (Differentiable Physics)、多模态融合 (Multimodal Fusion) 和因果推理 (Causal Reasoning) 的需求。

4. 方法论

本综述系统地分析了物理模拟器和世界模型在具身智能发展中的关键作用。其方法论主要体现在对现有研究的结构化梳理、分类和比较，并在此基础上提出了一个评估智能机器人能力的框架。

4.1. 论文结构与概览

本综述的结构设计旨在全面覆盖具身人工智能 (Embodied AI) 领域的关键方面，并突出物理模拟器 (Physical Simulators) 和世界模型 (World Models) 的核心作用。其组织方式如下：

第一节：引言 (Introduction)。 介绍了具身人工智能的重要性，以及物理模拟器和世界模型如何促进其发展。
第二节：智能机器人分级 (Levels of Intelligent Robots)。 提出了一个包含五个级别的智能机器人分级系统 (IR-L0至IR-L4)，并详细阐述了分级标准、影响因素和各级别特征。
第三节：机器人移动性、灵巧性和交互 (Robotic Mobility, Dexterity And Interaction)。 综述了智能机器人学在运动控制、操作和人机交互方面的最新进展，包括腿部运动、跌倒恢复、单手/双手操作、全身操作和基础模型在机器人操作中的应用。
第四节：通用物理模拟器 (General Physical Simulators)。 讨论了主流模拟器的优缺点，并从物理特性、渲染能力、传感器和关节组件支持等方面进行了比较分析。
第五节：世界模型 (World Models)。 介绍了世界模型的概念、代表性架构演进，以及它们作为神经模拟器、动态模型和奖励模型的核心作用。
第六节：智能体世界模型应用 (World Models for Intelligent Agents)。 深入探讨了世界模型在自动驾驶和铰接机器人领域的具体应用、挑战和技术趋势。
第七节：结论 (Conclusion)。 总结了本综述的主要发现，并提出了未来的研究方向和开放性挑战。

4.2. 智能机器人能力分级模型 (IR-L0至IR-L4)

为了系统地评估和指导智能机器人 (Intelligent Robots) 的发展，本综述提出了一个全面的五级能力分级模型，从基本的机械执行到完全自主的社会智能。这个模型涵盖了自主性 (Autonomy)、任务处理能力 (Task Handling Ability)、环境适应性 (Environmental Adaptability) 和社会认知能力 (Societal Cognition Ability) 四个关键维度。

4.2.1. 分级标准 (Level Criteria)

本标准根据机器人在以下方面的能力进行分类：

任务独立完成能力 (Task Independence): 从完全依赖人类控制到完全自主 (Full Autonomy)。
任务难度 (Task Difficulty): 从简单的重复劳动到创新的问题解决 (Innovative Problem-Solving)。
环境适应性 (Environmental Adaptability): 机器人 (Robot) 在动态 (Dynamic) 或极端 (Extreme) 环境中工作的能力。
社会认知能力 (Societal Cognition Ability): 机器人理解、与人类社会情境互动和响应的能力。

4.2.2. 分级影响因素 (Level Factors)

机器人智能水平 (Intelligent Level) 的评估基于以下五个因素：

自主性 (Autonomy): 机器人自主决策的能力。
任务处理能力 (Task Handling Ability): 机器人能处理的任务复杂性。
环境适应性 (Environmental Adaptability): 机器人在不同环境中的表现。

社会认知能力 (Societal Cognition Ability): 机器人 (Robots) 在社会场景中表现出的智能水平。

以下是原文 Table 1 的结果，展示了分级级别与影响因素之间的关系：

Level	Autonomy	Task Handling Ability	Environmental Adaptability	Societal Cognition Ability
IR-LO	Human Control	Basic Tasks	Controlled Only	No Social Cognition
IR-L1	Human Supervised	Complex Navigation	Predictable Environments	Basic Recognition
IR-L2	Human Assisted	Dynamic Collaboration	Adaptive Learning	Simple Interaction
IR-L3	ConditionalAutonomy	Multitasking	Dynamic Adaptation	Emotional Intelligence
IR-L4	Full Autonomy	Innovation	Universal Flexibility	Advanced Social Intelligence

4.2.3. 分类级别 (Classification Levels)

IR-L0: 基本执行级别 (Basic Execution Level):
- 特点: 完全非智能、程序驱动 (Program-driven)，执行高度重复、机械化、确定性任务 (Deterministic Tasks)，如工业焊接。
- 感知: 极度有限，通常只有限位开关 (Limit Switches)、编码器 (Encoders)。
- 控制: 基于预定义指令 (Predefined Instructions) 或实时遥操作 (Real-time Teleoperation)，无实时反馈 (Real-time Feedback)。
- 人机交互 (Human-Robot Interaction): 无或仅限于简单按钮/遥操作。
IR-L1: 程序响应级别 (Programmatic Response Level):
- 特点: 有限的基于规则的响应能力 (Rule-based Reactive Capabilities)，执行预定义任务序列 (Predefined Task Sequences)，如清洁和接待机器人。
- 感知: 使用红外、超声波、压力传感器等基础传感器触发特定行为模式 (Behavioral Patterns)。
- 控制: 规则引擎 (Rule Engines) 和有限状态机 (Finite State Machines, FSM)，补充基础 SLAM (Simultaneous Localization and Mapping) 或随机行走算法。
- 人机交互: 基本的语音和触摸界面，支持简单命令-响应协议。
IR-L2: 初步环境感知与自主性级别 (Preliminary Environmental Awareness and Autonomous Capabilities Level):
- 特点: 具备初步的环境感知 (Environmental Awareness) 和自主能力 (Autonomous Capabilities)，能够响应环境变化并切换任务模式。
- 感知: 集成感知模块（相机、麦克风阵列、激光雷达 LiDAR），实现基本物体识别 (Object Identification) 和环境建图 (Environmental Mapping)。
- 控制: 有限状态机 (FSM)、行为树 (Behavior Trees) [27]、SLAM、路径规划 (Path Planning) 和避障 (Obstacle Avoidance)。
- 人机交互: 语音识别 (Speech Recognition) 和合成 (Synthesis)，支持理解和执行基本命令。
- 意义: 迈向真正的“上下文理解 (Contextual Understanding)”。
IR-L3: 类人认知与协作级别 (Humanoid Cognition and Collaboration Level):
- 特点: 在复杂动态环境 (Complex, Dynamic Environments) 中自主决策 (Autonomous Decision-making)，支持复杂的多模态人机交互 (Multimodal Human-Robot Interaction)。
- 感知: 视觉、语音、触觉等多模态融合 (Multimodal Fusion)；情感计算 (Affective Computing) 用于情绪识别 (Emotion Recognition) 和动态用户建模 (Dynamic User Modeling)。
- 控制: 深度学习架构 (Deep Learning Architectures)（CNNs, Transformers）用于感知和语言理解；强化学习 (Reinforcement Learning) 用于自适应策略优化 (Adaptive Policy Optimization)；规划和推理模块 (Planning and Reasoning Modules) 用于复杂任务工作流管理。
- 人机交互: 多轮自然语言对话 (Multi-turn Natural Language Dialogue)；面部表情识别 (Facial Expression Recognition) 和反馈；基础的同理心 (Empathy) 和情绪调节 (Emotion Regulation) 能力。
- 安全与伦理 (Safety and Ethics): 嵌入式伦理治理系统 (Ethical Governance Systems) 预防不安全或不合规行为。
IR-L4: 完全自主级别 (Fully Autonomous Level):
- 特点: 在任何环境下无需人工干预即可完全自主感知 (Perception)、决策 (Decision-making) 和执行 (Execution)。
- 感知: 全方位 (Omnidirectional)、多尺度 (Multi-scale)、多模态传感系统 (Multimodal Sensing Systems)；实时环境建模 (Real-time Environment Modeling) 和意图推断 (Intent Inference)。
- 控制: 通用人工智能 (AGI) 框架，整合元学习 (Meta-learning)、生成式人工智能 (Generative AI) 和具身智能 (Embodied Intelligence)；自主任务生成 (Autonomous Task Generation) 和高级推理能力 (Advanced Reasoning Capabilities)。
- 人机交互: 自然语言理解 (Natural Language Understanding) 和生成 (Generation)；复杂社会上下文适应 (Complex Social Context Adaptation)；同理心 (Empathy) 和伦理审议 (Ethical Deliberation)。
- 安全与伦理: 嵌入式动态伦理决策系统 (Dynamic Ethical Decision Systems)，在伦理困境中做出道德选择。

4.3. 机器人学习技术综述

本节回顾了智能机器人学 (Intelligent Robotics) 中的基础技术方法，包括控制策略和学习范式。

4.3.1. 模型预测控制 (Model Predictive Control, MPC)

模型预测控制 (Model Predictive Control, MPC) [28] 是一种强大的控制策略，在过去二十年中在人形机器人 (Humanoid Robotics) 领域获得了显著关注。

核心思想: MPC 是一种基于优化的方法，它使用动态模型 (Dynamic Model) 预测系统的未来行为，并通过在每个时间步解决优化问题来计算控制动作 (Control Actions)。
优点: 能够明确处理输入 (Inputs) 和状态 (States) 的约束，特别适用于人形机器人等复杂、高维系统 (High-dimensional Systems) [29]。
发展:
- Tom Erez 等人 [30] 引入了一个全面的实时 MPC 系统，将其应用于人形机器人 (Humanoid Robot) 的完整动力学 (Full Dynamics)，使其能够执行站立、行走和从扰动中恢复等复杂任务。
- Jonas Koenemann 等人 [31] 于2015年在真实的 HRP-2 机器人上实现了完整的 MPC，这是首次将全身模型预测控制器 (Whole-Body Model Predictive Controller) 应用于复杂动态机器人 (Complex Dynamic Robot) 的实时控制。

4.3.2. 全身控制 (Whole-Body Control, WBC)

全身控制 (Whole-Body Control, WBC) 是一种综合框架，使机器人能够同时协调其所有关节 (Joints) 和肢体 (Limbs) 来实现不同的运动。

核心方法: 通常涉及将机器人 (Robot) 的运动 (Motion) 和力 (Force) 目标 (Objectives) 制定为一系列优先级任务 (Prioritized Tasks)，例如保持平衡 (Maintaining Balance)、遵循期望轨迹 (Following a Desired Trajectory) 或用手施加特定力。这些任务被转化为数学约束 (Mathematical Constraints) 和目标，然后使用优化技术 (Optimization Techniques) 或分层控制框架 (Hierarchical Control Frameworks) 求解 [32]。
实现技术: 动态建模 (Dynamic Modeling)、逆运动学求解 (Inverse Kinematics Solving) 和优化算法 (Optimization Algorithms)。
发展:
- Oussama Khatib 及其合作者在2000年代初引入了用于控制冗余机械手 (Redundant Manipulators) 的操作空间公式 (Operational Space Formulation)，后来扩展到人形机器人 [33]。
- 基于优化的 WBC (Optimization-based WBC) 具有强大的灵活性，允许模块化地添加或删除约束 (Constraints)，并通过设置不同的任务层次 (Task Hierarchies) 或软任务权重 (Soft Task Weightings) 来解决冲突约束 [34]-[36]。
- 近年来，随着人工智能 (Artificial Intelligence) 的发展，特别是强化学习 (Reinforcement Learning)，研究人员提出了 ExBody2 [37] 和 HugWBC [38] 等框架，这些框架在模拟环境 (Simulated Environments) 中训练控制策略 (Control Policies)，并将其迁移到实际机器人 (Actual Robots) 上，实现了更自然、更具表现力的全身运动控制。

4.3.3. 强化学习 (Reinforcement Learning, RL)

强化学习 (Reinforcement Learning, RL) [39] 是机器学习 (Machine Learning) 的一个分支，在人形机器人 (Humanoid Robotics) 领域变得越来越有影响力。

核心思想: 智能体 (Agent)（如人形机器人）可以通过与环境交互 (Interacting with its Environment) 并接收奖励 (Rewards) 或惩罚 (Penalties) 形式的反馈来学习执行复杂任务。
优点: 与需要明确编程或行为建模的传统控制方法 [40], [41] 不同，RL 使机器人能够通过试错 (Trial and Error) 自主发现最优行动 (Optimal Actions)，因此特别适用于人形机器人经常遇到的高维 (High-dimensional)、动态 (Dynamic) 和不确定 (Uncertain) 环境 [42]。
发展:
- RL 在人形机器人中的应用可追溯到1990年代末和2000年代初。1998年，Masahiro Morimoto 和 Kenji Doya [43] 引入了一种 RL 方法，使模拟的双关节、三连杆机器人 (Simulated Two-joint, Three-link Robot) 能够自主学习从躺卧姿势站立起来的动态运动。
- 此后，RL 被用于实现人形机器人 (Humanoid Robots) 的复杂行为，例如 DeepLoco [44] 和其他工作 [45], [46] 对深度 RL (Deep RL) 在双足任务 (Bipedal Tasks) 中的能力进行了广泛探索，但它们尚未被证明适用于物理机器人。
- 2019年，Xie 等人 [47] 使用迭代强化学习 (Iterative Reinforcement Learning) 和确定性动作随机状态 (Deterministic Action Stochastic State, DASS) 元组逐步完善奖励函数 (Reward Function) 和策略架构 (Policy Architecture)，实现了物理 Cassie 双足机器人 (Bipedal Robot) 的鲁棒动态行走。

4.3.4. 模仿学习 (Imitation Learning, IL)

模仿学习 (Imitation Learning, IL) 是一种机器人范式，机器人通过观察和模仿演示 (Demonstrations) 来学习执行任务，这些演示通常由人类或其他智能体提供 [3], [48]-[50]。

核心思想: IL 绕过了显式编程 (Explicit Programming) 或手工设计奖励函数 (Handcrafted Reward Functions) 的需要，使人形机器人能够更高效、更直观地学习复杂行为。
应用: 通过利用演示，机器人可以学习行走、操作或社交互动等技能，这些技能通过传统控制 (Traditional Control) 或强化学习 (Reinforcement Learning) 方法难以指定。
人形机器人运动控制: IL 通常利用经过重定向 (Retargeting) 的人体动作捕捉数据 (Human Motion Capture Data)，或从基于模型的轨迹规划 (Model-based Trajectory Planning)（如自然行走、跑步等）生成的参考步态 (Reference Gaits)，并鼓励机器人在模拟中遵循这些参考轨迹，以实现更自然和稳定的运动步态 [51]-[53]。
挑战:
- 获取专家演示数据 (Expert Demonstration Data) 成本高昂。
- 数据多样性 (Data Diversity) 不足和质量问题。
- 在有限演示数据上训练的策略泛化能力 (Generalization) 差，难以适应新环境或任务。
解决方案: 研究人员和公司正专注于开发更高效的数据收集硬件平台 (Data Collection Hardware Platforms) 或遥操作技术 (Teleoperation Technologies) 以扩展数据 [49], [54], [55]，同时也在探索新型训练数据，如从视频数据中提取人类动作 [56]。

4.3.5. 视觉-语言-行动模型 (Visual-Language-Action Models, VLA)

视觉-语言-行动模型 (Visual-Language-Action Models, VLA) 代表了一种跨模态人工智能 (Cross-modal Artificial Intelligence) 框架，它整合了视觉感知 (Visual Perception)、语言理解 (Language Understanding) 和行动生成 (Action Generation)。

核心概念: 利用大语言模型 (Large Language Models, LLMs) 的推理能力，直接将自然语言指令 (Natural Language Instructions) 映射到物理机器人 (Physical Robotic) 的行动。
发展:
- 2023年，Google DeepMind 推出了 RT-2 [65]，首次将此范式应用于机器人控制，通过将机器人控制指令离散化为类语言词元 (Language-like Tokens)，实现了端到端 (End-to-End) 的视觉-语言-行动映射。
- 随后，出现了许多端到端 VLA 模型 [4], [66]-[71]，进一步推动了 VLA 模型在机器人领域的应用和发展。
挑战:
- 难以可靠地处理以前未遇到的任务或环境。
- 实时推理 (Real-time Inference) 限制了在动态情况下的响应速度。
- 训练数据集 (Training Datasets) 中的偏差、跨模态语义接地 (Semantic Grounding) 的困难，以及系统集成的计算复杂性 (Computational Complexity) 持续阻碍其进一步发展 [72]。

4.4. 机器人移动性、灵巧性和交互

4.4.1. 机器人移动性 (Robotic Locomotion)

机器人移动性 (Robotic Locomotion) 的目标是实现自然的运动模式，包括行走、跑步和跳跃。本节探讨了腿部运动 (Legged Locomotion) 和跌倒保护与恢复 (Fall Protection and Recovery) 的最新进展。

4.4.1.1. 腿部运动 (Legged Locomotion)

双足机器人 (Bipedal Robots) 在导航复杂地形、模仿人类行为和无缝融入以人为中心的环境方面具有独特优势。研究主要分为：无结构环境适应 (Unstructured Environment Adaption) 和 高动态运动 (High Dynamic Movements)。

无结构环境适应: 强调在复杂、未知或动态环境中保持稳定行走的能力。
- 早期努力: 主要使用位置控制 (Position-controlled) 的人形机器人。Sang-Ho Hyon [57] 引入了基于无源性 (Passivity-based) 的接触力控制框架，使 SARCOS 人形机器人 [73] 能够在不同高度和时变倾斜的室内地形上主动平衡。
- 后续进展: 探索了在线学习地形适应 [74]、带有地形估计的顺应性控制 [58] 以及将 线性倒立摆模型 (Linear Inverted Pendulum Model, LIPM) 与足力控制 [75] 相结合，如 Kajita 等人 [75] 在 HRP-4C 人形机器人上的演示。
- 挑战: 早期方法对地形适应能力有限，因为位置控制的机器人关节具有高传动比 (High Gear-ratio)，阻抗高 (High Impedance)，容易在受到大冲击时损坏 [76]。
- 现代解决方案: 现代人形和四足机器人 (Quadruped Robots) 使用低传动比的力控关节 (Force-controlled Joints)，提供更好的柔顺性 (Compliance) 和更平滑的响应 [77], [78]。
- 先进算法: 随着计算能力的增强，研究人员开发了更复杂的控制算法 [85]。Jacob Reher 等人 [59] 引入了全面的全身动态控制器 (Full-body Dynamic Controller)，成功实现了 Cassie 双足机器人 (Bipedal Robot) 在各种地形上的稳定行走。George Mesesan 等人 [60] 将 发散成分运动 (Divergent Component of Motion, DCM) 用于质心轨迹规划 (Center of Mass Trajectory Planning) 与基于无源性 (Passivity-based) 的全身控制器 (Whole-Body Controller, WBC) 相结合。
- 外部感知与路径规划: Jiunn-Kai Huang 等人 [62] 将低频路径规划器 (Low-frequency Path Planner) 与高频反应控制器 (High-frequency Reactive Controller) 集成，使 Cassie Blue 机器人能够自主穿越复杂地形。
- 基于学习的方法: Joonho Lee 等人 [86] 首次成功将强化学习 (Reinforcement Learning) 应用于腿部运动的真实世界，在室外环境中表现优于传统方法 [87]。Jonah Siekmann 等人 [61] 使用域随机化 (Domain Randomization) 方法，使 Cassie 机器人 (Cassie Robot) 能够盲走楼梯。研究人员还利用深度相机 (Depth Cameras) 和激光雷达 (LiDAR) 构建高度图 (Height Maps) [63]、感知内部模型 (Perceptive Internal Models, PIM) [88] 或端到端策略 (End-to-end Policy) [64]，显著增强了机器人在不同地形上的移动能力。
高动态运动: 如跑步和跳跃，对双足机器人 (Bipedal Robots) 的控制系统提出了更高要求，机器人必须在短时间内管理快速支撑转换、姿态调整和精确力控制。
- 早期研究: 采用简化的动态模型，如 弹簧加载倒立摆 (Spring-Loaded Inverted Pendulum, SLIP) [89]、线性倒立摆模型 (Linear Inverted Pendulum Model, LIPM) [90] 和 单刚体模型 (Single Rigid Body Model, SRBM) [91]，以降低计算复杂性 (Computational Complexity) 并实现实时控制。
- Xiaobin Xiong 和 Aaron D. Ames [79] 开发了一个简化的弹簧-质量模型，通过基于 控制李雅普诺夫函数 (Control Lyapunov Function, CLF) 的 二次规划 (Quadratic Program, QP) 进行控制。
- Qi 等人 [80] 提出了一种基于 LIPM 的 压力中心 (Center of Pressure, CoP) 引导角动量控制器 (Angular Momentum Controller)。
- He 等人 [83] 引入了 质心动力学模型 (Centroidal Dynamics Model, CDM) 与 MPC 框架相结合，实现了 KUAVO 人形机器人 (Humanoid Robot) 的连续跳跃运动。
- 基于强化学习 (RL-based) 方法: 在跑步 [81]、跳跃 [82] 和离散地形跑酷 [92] 等活动中显示出有希望的结果，显著扩展了双足运动的能力。
- 模仿学习 (Imitation Learning): 利用大量人类运动数据集 [93]，已被用于实现富有表现力的动态机器人行为。对抗运动先验 (Adversarial Motion Priors, AMP) [94] 从动作捕捉数据中提取风格化奖励 (Style-based Rewards)。Exbody [37], [95]、OmniH20 [96] 和 ASAP [84] 等框架实现了自然灵活的全身运动。

4.4.1.2. 跌倒保护与恢复 (Fall Protection and Recovery)

人形机器人容易不稳定和跌倒，可能导致硬件损坏或操作中断。

基于模型的方法 (Model-based Methods):
- UKEMI [97] 通过控制机器人跌倒时的姿态，分散冲击力 (Impact Forces) 并减少关键部件的损坏。
- Libo Meng 等人 [99] 通过对人类跌倒的生物力学分析，提出了一种跌倒运动控制方法。
- Dong 等人 [100] 提出了一种柔顺控制框架 (Compliant Control Framework)，使机器人能够根据外部扰动调整其刚度和阻尼特性 (Stiffness and Damping Characteristics)。
基于学习的方法 (Learning-based Methods):
- HiFAR [102] 通过多阶段课程学习 (Multi-stage Curriculum Learning) 方法训练人形机器人 (Humanoid Robots) 从跌倒中恢复。
- HoST [101] 通过平滑正则化 (Smoothing Regularization) 和隐式动作速度限制 (Implicit Action Velocity Limits) 实现了 Unitree G1 机器人在复杂环境 (Complex Environments) 中从不同姿态站立起来。
- Embrace Collisions [103] 通过全身接触 (Whole-body Contacts) 扩展了机器人与环境交互的能力，而不是仅限于手和脚。

4.4.2. 机器人操作 (Robotic Manipulation)

机器人操作 (Robotic Manipulation) 任务涵盖了从简单的拾取物体到涉及组装或烹饪的复杂序列的广泛活动。

4.4.2.1. 单手操作任务 (Unimanual Manipulation Task)

单手操作 (Unimanual Manipulation) 指使用单个末端执行器 (End Effector)（如手或夹持器）与物体 (Objects) 交互和操作。

夹持器操作 (Gripper-based Manipulation):
- 早期研究: 集中于精确的物理模型 (Physical Models) 和预编程 (Pre-programming) [105]，在结构化环境 (Structured Settings) 中有效，但难以适应非结构化环境 (Unstructured Environments)。
- 基于学习的方法 (Learning-based Approaches):
  - 感知: PoseCNN [107] 实现了实例级 6D 姿态估计 (Instance-level 6D Pose Estimation)；NOCS [108] 推动了类别级估计 (Category-level Estimation)。
  - 功能可供性学习 (Functional Affordance Learning): AffordanceNet [109] 通过监督学习 (Supervised Learning) 识别可操作区域；Where2Act [110] 使用自监督模拟交互 (Self-supervised Simulation Interactions)。
  - 模仿学习 (Imitation Learning): Neural Descriptor Fields (NDFs) [111] 增强了策略泛化；Diffusion Policy [3] 利用扩散模型 (Diffusion Models) 进行多模态动作；RT2 [112] 整合基础模型 (Foundation Models) 来解释复杂指令。
  - 任务导向操作: 机器人 (Robots) 能够处理杂乱环境 (Cluttered Environments)（如 CollisionNet [113], PerAct [114]）、操作可变形 (Deformable) 和铰接物体 (Articulated Objects) [115]-[118]。
灵巧手操作 (Dexterous Hand Manipulation): 旨在使机器人以类似于人类手的方式，以复杂、精确的方式与物理世界 (Physical World) 交互。
- 早期工作: 专注于硬件设计和理论基础。Utah/MIT Hand [121] 和 Shadow Hand [122] 探索了高自由度 (High Degrees of Freedom) 和仿生结构 (Biomimetic Structures)；BarrettHand [123] 展示了欠驱动设计 (Underactuated Designs)。Napier [124] 分类了人类抓取模式，Salisbury 和 Craig [125] 分析了多指力控制 (Multi-fingered Force Control) 和运动学 (Kinematics)。
- 基于学习的方法 (Learning-based Methods): 已成为主流，使用机器学习解决高维状态空间 (High-dimensional State Spaces) 和复杂接触动力学 (Complex Contact Dynamics) 的挑战。
  - 两阶段方法: 首先生成抓取姿态 (Grasping Poses)，然后控制灵巧手实现这些姿态。关键挑战在于从视觉观测 (Visual Observations) 中生成高质量姿态，通过基于优化 [126]-[128]、基于回归 [129], [130] 或基于生成 [131]-[140] 的策略来解决。例如，UGG [136] 使用扩散模型 (Diffusion Model) 统一姿态和物体几何生成。
  - 端到端方法 (End-to-end Methods): 使用强化学习 (Reinforcement Learning) 或模仿学习 (Imitation Learning) 直接建模抓取轨迹。RL 在模拟中训练策略以进行真实世界迁移 [142]-[144]，例如 DexVIP [145] 和 GRAFF [146]。DextrAH-G [147] 和 DextrAH-RGB [148] 通过大规模模拟实现真实世界泛化。IL 由人类演示驱动 [54], [146], [149]，擅长复杂任务但泛化能力不足。创新包括 SparseDFF [150] 和 Neural Attention Field [151] 增强泛化能力，DexGraspVLA [152] 采用视觉-语言-行动框架 (Vision-Language-Action Framework)。

4.4.2.2. 双手操作任务 (Bimanual Manipulation Task)

双手操作 (Bimanual Manipulation) 指需要协调使用两只手臂的机器人任务，实现复杂操作如协作运输、精确组装和处理柔性或可变形物体 [155]。

挑战: 高维状态-动作空间 (High-dimensional State-action Spaces)、臂间和环境碰撞的可能性、以及有效双手协调和动态角色分配的必要性。
早期研究: 引入归纳偏置 (Inductive Biases) 或结构分解 (Structural Decompositions) 来简化学习和控制。例如，BUDS [156] 将双手操作任务分解为稳定器 (Stabilizer) 和执行器 (Executor) 功能角色。SIMPLe [157] 利用图高斯过程 (Graph Gaussian Processes, GGP) 来表示运动基元 (Motion Primitives)。
大规模数据收集与模仿学习 (Large-scale Data Collection and Imitation Learning):
- ALOHA 系列 [49], [153], [158] 利用现成的硬件和定制的 3D 打印组件，高效收集多样化、大规模的演示数据 (Demonstration Data)。
- ACT [49] 将动作分块 (Action Chunking) 与 条件变分自动编码器 (Conditional Variational Autoencoder, CVAE) 框架相结合。
- Mobile ALOHA [153] 引入了移动底座 (Mobile Base) 并简化了 ACT 管线。
- RDT-1B [50] 提出了基于扩散 DiT 架构 (Diffusion DiT Architecture) 的双手操作基础模型 (Foundation Model)。
灵巧手双手操作 (Dexterous Robotic Hands): 引入了额外的挑战。最近的研究 [140], [159], [160] 调查了基于强化学习 (RL-based) 的方法，将人类双手操作技能 (Human Bimanual Manipulation Skills) 迁移到机器人灵巧手。

4.4.2.3. 全身操作控制 (Whole-Body Manipulation Control)

全身操作 (Whole-Body Manipulation) 指人形机器人 (Humanoid Robots) 使用其整个身体（包括双臂 [155]、躯干 [161]、轮式或腿部底座 [162] 和/或其它组件 [163]）与物体交互和操作的能力。

进展: 基于学习的全身操作在增强机器人的自主性、适应性和在复杂环境中的交互能力方面取得了显著进展。
大型预训练模型 (Large Pre-trained Models): 利用 LLMs、VLMs 和生成模型 (Generative Models) 增强语义理解 (Semantic Understanding) 和泛化能力 (Generalization Capabilities)。例如，TidyBot [164] 利用 LLMs 的归纳能力学习个性化家务整理偏好。MOO [165] 通过 VLMs 将语言指令中的物体描述映射到视觉观测。HARMON [166] 结合人类运动生成先验 (Human Motion Generation Priors) 和 VLM 编辑。
视觉演示 (Visual Demonstrations): 指导学习操作技能。OKAMI [167] 提出了一种物体感知重定向方法 (Object-aware Redirection Method)，使人形机器人能够从单个 RGB-D 视频中模仿技能。iDP3 [168] 通过改进的 3D 扩散策略实现了多场景任务执行策略。
鲁棒和灵巧的全身控制: OmniH20 [96] 采用强化学习 Sim-to-Real 方法，训练全身控制策略，协调运动和操作。HumanPlus [6] 系统结合基于 Transformer 的低级控制策略和视觉模仿策略。WB-VIMA [119] 通过自回归动作去噪 (Autoregressive Action Denoising) 建模全身动作的层次结构。

4.4.2.4. 人形机器人操作中的基础模型 (Foundation Models in Humanoid Robot Manipulation)

基础模型 (Foundation Models, FMs) 是在互联网规模数据上预训练的大规模模型，包括 大语言模型 (LLMs)、视觉模型 (VMs) 和 视觉-语言模型 (VLMs)。

作用: 使人形机器人能够在复杂、动态和非结构化环境 (Unstructured Environments) 中执行操作任务，涉及复杂的环境感知和建模 (Environmental Perception and Modeling)、抽象任务理解 (Abstract Task Understanding) 和长序列 (Long-sequence) 多步骤任务 (Multi-step Tasks) 的自主规划。
两种主要技术范式:
- 分层方法 (Hierarchical Approach): 利用预训练的语言或视觉-语言基础模型作为高级任务规划和推理引擎 (High-level Task Planning and Reasoning Engines)，将复杂任务分解为子目标序列 (Sequences of Sub-goals)。这些高级输出传递给低级行动策略 (Low-level Action Policies)（通常通过模仿学习 (Imitation Learning) 或强化学习 (Reinforcement Learning) 训练的专家策略）来执行物理交互动作。例如，Figure AI 展示了 Helix [174]，NVIDIA 开发了 GR00T N1 [175]，C\nabla 8 \times 8 \times 8 - 720p\pi_0 $\text{模型}$ [176]。
- 端到端方法: 将机器人操作数据直接整合到基础模型训练中，构建端到端 VLA 模型 [4], [68], [177], [178]。如 Google DeepMind 的 RT 系列 [112], [177]。

4.9.3. 人机交互 (Human-Robot Interaction, HRI)

人机交互 (HRI) 关注使机器人理解和响应人类需求和情感。

4.9.3.1. 认知协作 (Cognitive Collaboration)

指机器人与人类之间的双向认知对齐。

核心目标: 使机器人不仅理解显式指令，还能理解隐式意图，并动态调整行为。
研究进展: Lemaignan 等人 [182] 探索社交人机交互中机器人认知技能。多模态意图学习 [183] 被认为是关键。Laplaza 等人 [185] 通过上下文语义分析推断交互意图。在无人类直接参与的任务中，机器人通过语义理解解决目标导向导航任务 [186]-[190]。

4.9.3.2. 物理可靠性 (Physical Reliability)

在 HRI 中指人类与机器人之间力、时间、距离的有效协调，确保安全高效任务执行。

核心目标: 机器人动态响应人类动作变化，避免物理冲突，确保人类安全。
研究方向:
- 物理交互中的实时控制: 依赖先进的运动规划和控制策略。如 PRM [193], RRT [194] 等基于采样的规划器 [195]-[199]；CHOMP [200], STOMP [201] 等基于优化的规划器 [203]-[205]。阻抗控制和导纳控制提供柔顺安全的物理接触响应 [208]-[211]。
- 大规模生成数据集构建: 利用模仿学习和强化学习获取自适应运动策略 [214]-[216]。HandoverSim [217]、GenH2R [218] 和 MobileH2R [191] 等平台提供仿真和基准测试。

指机器人识别和适应社会规范、文化期望和群体动态的能力。

研究策略: 解决社会空间理解和行为理解。
- 社会空间理解: 机器人解释和适应人类群体的空间动态，通过近体空间 [219], [220] 等概念。
- 行为理解: 解读人类交流的语言和非语言复杂性。语言研究探索对话建模、会话结构和话语分析 [224]-[228]。非语言研究关注手势、凝视和情感表达的解释 [229], [230]。

5. 实验设置

作为一篇综述论文，本节主要描述了综述本身在评估现有工作时所采用的范围、分类标准和方法。

5.1. 综述范围与分类标准

本综述的范围和分类标准确保了对具身人工智能 (Embodied AI) 领域物理模拟器 (Physical Simulators) 和世界模型 (World Models) 的全面而深入的分析。

时间范围 (Timeframe): 主要关注 2018年至2025年间的最新发展，以捕捉该领域快速演进的趋势和突破。
重点应用领域 (Focus Areas): 重点考察自动驾驶 (Autonomous Driving) 和机器人 (Robots) 这两个具身智能的关键应用领域。
模拟器分类 (Categorization of Simulators): 对主流物理模拟器 (Mainstream Physical Simulators) 的评估，基于其：
- 物理特性 (Physical Properties): 如吸附 (Suction)、随机外力 (Random External Forces)、可变形物体 (Deformable Objects)、软体接触 (Soft-body Contacts)、流体机制 (Fluid Mechanism)、离散元方法仿真 (DEM Simulation) 和可微分物理 (Differentiable Physics)。
- 渲染能力 (Rendering Capabilities): 包括渲染引擎 (Rendering Engine)、光线追踪 (Ray Tracing)、基于物理的渲染 (Physically-Based Rendering, PBR) 和可扩展并行渲染 (Scalable Parallel Rendering)。
- 传感器与关节类型支持 (Sensor and Joint Types Support): 涵盖 IMU、力接触、RGB 相机、LiDAR、GPS 等传感器，以及浮动、固定、铰链、球形、棱柱、螺旋等关节类型。
世界模型分类 (Categorization of World Models): 对世界模型 (World Models) 的分析，基于其：
- 架构 (Architectures): 如循环状态空间模型 (RSSM)、联合嵌入预测架构 (JEPA)、基于变换器的状态空间模型 (Transformer-based State Space Models)、自回归生成世界模型 (Autoregressive Generative World Models) 和基于扩散的生成世界模型 (Diffusion-based Generative World Models)。
- 核心作用 (Core Roles): 将世界模型划分为神经模拟器 (Neural Simulator)、动态模型 (Dynamic Model) 和奖励模型 (Reward Model) 三种功能角色。
- 应用 (Applications): 详细探讨世界模型在自动驾驶 (Autonomous Driving) 和铰接机器人 (Articulated Robots) 中的具体应用。

5.2. 智能机器人能力评估框架

本综述提出了一个创新的五级智能机器人能力评估框架 (IR-L0至IR-L4)，这本身就是一种用于评估和分类机器人智能的“评估标准”。该框架涵盖了四个关键维度：

自主性 (Autonomy): 衡量机器人独立决策和行动的能力，从完全依赖人类控制到完全自主。
任务处理能力 (Task Handling Ability): 评估机器人能够处理的任务的复杂性和难度，从简单的重复性任务到创新的问题解决。
环境适应性 (Environmental Adaptability): 考察机器人在动态、不确定或极端环境中的表现和适应能力。

社会认知能力 (Societal Cognition Ability): 评估机器人在社会情境中理解、交互和响应的能力，从无社会认知到高级社会智能。

以下是原文 Table 1 的结果，详细展示了每个级别在这些维度上的特征：

Level	Autonomy	Task Handling Ability	Environmental Adaptability	Societal Cognition Ability
IR-LO	Human Control	Basic Tasks	Controlled Only	No Social Cognition
IR-L1	Human Supervised	Complex Navigation	Predictable Environments	Basic Recognition
IR-L2	Human Assisted	Dynamic Collaboration	Adaptive Learning	Simple Interaction
IR-L3	ConditionalAutonomy	Multitasking	Dynamic Adaptation	Emotional Intelligence
IR-L4	Full Autonomy	Innovation	Universal Flexibility	Advanced Social Intelligence

5.3. 模拟器与世界模型的比较维度

本综述通过详细的表格和文字描述，对主流模拟器和世界模型进行了多维度的比较，这些比较维度构成了评估它们能力和适用性的核心“指标”：

模拟器物理特性比较 (Table 2): 评估了吸附、随机外力、可变形物体、软体接触、流体机制、离散元方法仿真和可微分物理的支持情况。这直接反映了模拟器在物理真实感和复杂交互建模方面的能力。
渲染能力比较 (Table 3): 评估了渲染引擎、光线追踪、基于物理的渲染和可扩展并行渲染的支持情况。这决定了模拟器生成视觉数据 (Visual Data) 的保真度 (Fidelity) 和训练效率 (Training Efficiency)。
传感器与关节组件支持比较 (Table 4): 评估了 IMU、力接触、RGB 相机、LiDAR、GPS 等传感器以及各种关节类型（浮动、固定、铰链、球形、棱柱、螺旋）的支持情况。这反映了模拟器在复制真实机器人硬件和感知能力方面的完整性。
世界模型架构演进 (Figure 17, Figure 18): 比较了不同世界模型架构（RSSM、JEPA、Transformer-based、Autoregressive、Diffusion-based）在建模复杂环境动态和生成未来观测方面的优势和劣势。
世界模型核心作用 (Figure 19, Figure 20): 评估了世界模型作为神经模拟器、动态模型和奖励模型在基于模型的强化学习、规划和数据生成中的具体功能。
应用领域的具体技术趋势 (Table 5, Table 6, Table 7): 详细对比了自动驾驶和铰接机器人领域中各类世界模型的输入、输出、架构、数据集和实验环境，以揭示不同模型的适用范围和性能特点。

6. 实验结果与分析

本节将分析综述论文中呈现的主要发现和趋势，重点突出物理模拟器和世界模型在具身智能 (Embodied Intelligence) 发展中的关键作用。

6.1. 智能机器人能力层级分析

本综述提出的 IR-L0 到 IR-L4 的分级模型 (Table 1) 提供了一个清晰的路线图，用于理解和评估智能机器人 (Intelligent Robots) 的能力：

从 IR-L0 到 IR-L1 (Human Control -> Human Supervised): 代表了机器人从完全受控的工业机械 (Industrial Machinery) 过渡到具备有限规则响应 (Rule-based Reactive Capabilities) 和基本环境感知 (Basic Environmental Awareness) 的服务机器人 (Service Robots)。这一阶段主要依赖预编程和基础传感器。
从 IR-L1 到 IR-L2 (Human Supervised -> Human Assisted): 标志着机器人开始具备初步的自主性 (Preliminary Autonomy) 和环境适应能力 (Environmental Adaptability)。它们能够进行动态协作 (Dynamic Collaboration) 和简单交互 (Simple Interaction)，但仍需人类辅助。这一阶段引入了多模态传感器 (Multimodal Sensors) 和行为决策框架 (Behavior Decision Frameworks)。
从 IR-L2 到 IR-L3 (Human Assisted -> Conditional Autonomy): 是一个质的飞跃，机器人开始展现类人认知 (Humanoid Cognition) 和复杂协作能力。它们能在复杂动态环境 (Complex, Dynamic Environments) 中自主决策，理解人类意图 (Human Intentions) 和情感 (Emotions)，并进行多任务处理 (Multitasking)。深度学习 (Deep Learning) 和强化学习 (Reinforcement Learning) 在此阶段发挥关键作用。
IR-L4 (Full Autonomy): 代表了具身智能的巅峰，机器人具备完全自主感知、决策和执行能力，能在任何环境下无需人工干预。它们拥有自我演进的伦理推理 (Self-evolving Ethical Reasoning)、高级认知 (Advanced Cognition) 和社会智能 (Social Intelligence)。这一级别是通用人工智能 (AGI) 在物理世界中的体现。

这一分级模型不仅有助于评估当前机器人的技术水平，也为未来研究指明了方向，强调了从感知到推理、从控制到协作、从个体到社会的全面发展路径。

6.2. 物理模拟器对比分析

对主流物理模拟器 (Mainstream Physical Simulators) 的比较分析揭示了该领域的显著进展和当前的技术格局 (Table 2, Table 3, Table 4)：

物理真实感 (Physical Realism) 的提升: 早期模拟器如 Webots 和 Gazebo 提供了基础的刚体动力学 (Rigid-body Dynamics) 仿真。而 MuJoCo 因其高精度的接触动力学 (Contact Dynamics) 建模而脱颖而出。最新的 Isaac 系列 (特别是 Isaac Sim 和 Isaac Lab) 和 Genesis 平台则通过 GPU 加速和先进的物理求解器，实现了对可变形物体 (Deformable Objects)、软体接触 (Soft-body Contacts) 和流体机制 (Fluid Mechanism) 更高保真度的模拟。这对于模拟机器人与复杂环境的交互（如抓取柔软物体、在液体中移动）至关重要。
渲染能力 (Rendering Capabilities) 的飞跃: 从基于 OpenGL 的基础渲染 (e.g., MuJoCo, PyBullet) 到支持 PBR (基于物理的渲染)、光线追踪 (Ray Tracing) 的高保真渲染 (e.g., Isaac Sim, SAPIEN, Genesis)，模拟器在生成视觉数据 (Visual Data) 方面取得了巨大进步。这对于训练依赖视觉的机器人系统 (Vision-based Robotic Systems) 至关重要，能够显著缩小 Sim2Real 差距。
并行化 (Parallelization) 与训练效率 (Training Efficiency): Isaac Gym 的出现是一个分水岭，它实现了在单个 GPU 上并行训练数千个环境的能力，极大加速了强化学习 (Reinforcement Learning) 的样本效率 (Sample Efficiency)。随后的 Isaac Sim/Lab 和 Genesis 平台也继承并发展了这种可扩展并行渲染 (Scalable Parallel Rendering) 能力，成为大规模机器人学习的基石。
可微分物理 (Differentiable Physics) 的兴起: MuJoCo XLA、PyBullet 的 Tiny Differentiable Simulator 和 Genesis 对可微分物理的支持，使得模拟器能够与基于梯度的优化算法无缝集成，为端到端学习 (End-to-End Learning) 和基于模型的控制提供了新的可能性。
传感器 (Sensors) 和关节类型 (Joint Types) 的全面支持: 大多数主流模拟器已能支持常见的传感器（RGB 相机、IMU、力接触）和关节类型。然而，对 LiDAR、GPS 和复杂关节（如螺旋关节）的全面、高保真支持仍是部分模拟器的挑战，而 Isaac Sim 和 Genesis 等平台在这方面表现更为出色。

优势： 模拟器提供了成本效益高、安全、可控且可重复的训练和测试环境，是机器人开发不可或缺的工具。 局限性： 模拟器依然面临准确性、复杂性和数据依赖性的挑战，可能无法完全捕捉真实世界的复杂性，且存在过拟合特定场景的风险。这引出了对世界模型的需求。

6.3. 世界模型发展与应用分析

世界模型 (World Models) 的发展标志着具身智能 (Embodied Intelligence) 领域的一个范式转变，从硬编码的物理规则转向数据驱动的动态学习。

6.3.1. 世界模型架构演进 (Architectural Evolution)

从潜在动态到生成式 (From Latent Dynamics to Generative): 早期世界模型如 RSSM (循环状态空间模型，e.g., Dreamer 系列 [267]-[271]) 专注于学习紧凑的潜在空间 (Latent Space) 动态，以实现高效规划和长期预测。
注意力机制的引入 (Introduction of Attention Mechanisms): Transformer [276] 架构的引入，克服了 RNN 在建模长期依赖方面的局限性，提升了世界模型在处理复杂时序数据时的表现 (e.g., TransDreamer [276], Genie [278])。
生成模型的大规模应用 (Large-scale Application of Generative Models):
- 自回归模型 (Autoregressive Models): 逐帧预测未来的视频观测，擅长捕捉高层结构 (e.g., GAIA-1 [282], OccWorld [283])。但可能在长期一致性和计算效率上受限。
- 扩散模型 (Diffusion Models): 成为视频生成 (Video Generation) 的新基石 (e.g., Sora [263], DriveDreamer [289], GAIA-2 [291])。它们通过迭代去噪 (Iterative Denoising) 过程，生成高质量、高保真且时空一致的视频，能够更好地建模 3D 结构和物理动态。这是世界模型作为神经模拟器的关键推动力。

6.3.2. 世界模型的核心作用 (Core Roles of World Models)

世界模型的三种核心作用（神经模拟器、动态模型、奖励模型）互为补充，共同增强了智能体 (Agents) 的能力：

作为神经模拟器 (Neural Simulator): 通过生成可控、高保真的合成经验 (Synthetic Experiences)，替代或补充传统物理模拟器 (Physical Simulators)。例如 NVIDIA Cosmos [294] 和 Wayve 的 GAIA 系列 [282], [291] 生成逼真的驾驶场景。这种能力在数据稀缺或成本高昂的领域（如自动驾驶、机器人操作）尤为重要。
作为动态模型 (Dynamic Model): 在基于模型的强化学习 (MBRL) 中，世界模型学习环境的动态，使智能体能够在内部模拟 (Simulate) 交互并进行规划 (Planning)，从而显著提高样本效率 (Sample Efficiency)。Dreamer 系列 [267]-[271] 是这一领域的代表，它通过在潜在空间中进行想象的展开 (Imagined Rollouts) 来学习策略。
作为奖励模型 (Reward Model): 解决了强化学习中奖励函数设计困难的问题。世界模型通过评估智能体行为的预测可能性 (Prediction Likelihood) 来隐式推断奖励 (e.g., VIPER [305])。当智能体行为产生高度可预测的轨迹时，被赋予高奖励，从而无需人工设计奖励。

6.3.3. 自动驾驶世界模型技术趋势 (Autonomous Driving World Models Technical Trends)

自动驾驶世界模型 (Autonomous Driving World Models) 正在重塑车辆仿真和测试方式：

生成架构从自回归到扩散模型演进 (Generative Architecture Evolution): 从 GAIA-1 的自回归 Transformer [282] 到 DriveDreamer 系列 [313] 和 GAIA-2 [312] 的扩散模型，再到 MagicDrive-V2 [318] 的扩散 Transformer，生成质量和可控性不断提高。
多模态集成与可控场景生成 (Multi-Modal Integration and Controllable Scenario Generation): 整合相机图像、LiDAR 点云、文本、车辆轨迹等多种输入，实现特定、可控驾驶场景的生成 (e.g., GAIA-2 [312], DriveDreamer-2 [314])。这对于压力测试 (Stress-test) 自动驾驶系统至关重要。
3D 时空理解与基于占用的表征 (3D Spatial-Temporal Understanding and Occupancy-Based Representations): 从单纯生成图像转向 3D 感知建模，如 OccSora [321], Drive-OccWorld [323] 使用 4D 占用网格表征驾驶场景。这提供了几何一致性 (Geometric Consistency) 和对物体深度、遮挡的理解。
与自动驾驶管线的端到端集成 (End-to-End Integration with Autonomous Driving Pipelines): 世界模型正从独立工具向自动驾驶系统的预测组件发展。例如 MILE [350] 联合学习世界动态和驾驶策略。这种集成延伸到奖励建模 (e.g., Vista [376])，并最终目标是构建能够进行感知、预测和规划的统一神经架构 (e.g., Doe-1 [367], DrivingGPT [370])。

6.3.4. 铰接机器人世界模型技术趋势 (Articulated Robots World Models Technical Trends)

铰接机器人世界模型 (Articulated Robots World Models) 的发展具有以下潜力：

触觉增强世界模型用于灵巧操作 (Tactile-Enhanced World Models for Dexterous Manipulation): 结合高分辨率接触建模 (High-resolution Contact Modeling) 和视触觉融合 (Visuotactile Fusion)，预测滑动、变形和最佳抓取力。通过自监督触觉编码器 (Self-supervised Tactile Encoders) 和图/变换器架构处理时空触觉信号，使机器人能以类似人类的方式处理新物体，克服 Sim2Real 挑战。
统一世界模型实现跨硬件和跨任务泛化 (Unified World Models for Cross-Hardware and Cross-Task Generalization): 关注硬件无关的动态编码 (Hardware-agnostic Dynamics Encoding) 和任务自适应潜在空间 (Task-adaptive Latent Spaces)，以泛化到不同的具身形态 (Embodiments) 和任务。关键方向包括模块化架构 (Modular Architectures)、元强化学习 (Meta-reinforcement Learning)、以物体为中心 (Object-centric) 的表征和通过残差物理建模 (Residual Physics Modeling) 弥合 Sim2Real 差距。
分层世界模型用于长期任务 (Hierarchical World Models for Long-Horizon Task): 关注分层规划 (Hierarchical Planning) 和时间抽象 (Temporal Abstraction) 来处理复杂的、多阶段任务。关键进展包括目标条件潜在空间 (Goal-conditioned Latent Spaces)、记忆增强变换器 (Memory-augmented Transformers)、自监督技能发现 (Self-supervised Skill Discovery) 和交互式人类反馈 (Interactive Human Feedback)。

6.4. Sim2Real挑战与世界模型的弥合作用

模拟器 (Simulators) 的局限性（准确性不足、复杂性高、数据依赖性强、易过拟合）促使了世界模型 (World Models) 的发展。世界模型通过以下方式弥合 Sim2Real 差距：

克服数据稀缺 (Overcoming Data Scarcity): 世界模型作为神经模拟器，能够生成大规模、高保真的合成数据 (Synthetic Data)，补充真实世界数据，降低数据收集成本和风险。
提高样本效率 (Improving Sample Efficiency): 作为动态模型，世界模型允许智能体 (Agents) 在内部进行想象的展开 (Imagined Rollouts) 和规划 (Planning)，从而在不与真实世界交互的情况下学习策略，大大减少了对真实世界样本的需求。
增强泛化能力 (Enhancing Generalization): 世界模型学习环境的底层动态 (Underlying Dynamics) 和因果关系 (Causal Relationships)，而不是仅仅依赖于表面相关性。这使得训练出的策略在面对真实世界中的新颖或未见情况时，具有更强的泛化能力。
自适应决策 (Adaptive Decision-making): 世界模型赋予智能体预测未来状态 (Future States) 的能力，使其能够进行前瞻性规划 (Proactive Planning) 和自适应决策 (Adaptive Decision-making)，从而更好地应对真实世界的不确定性 (Uncertainty)。

总之，世界模型代表了对现实世界现象进行建模的更复杂、更灵活的方法，能够适应新数据，更有效地处理复杂系统，并减少对大量数据集的依赖。它们与先进物理模拟器 (Advanced Physical Simulators) 的结合，共同为构建鲁棒且具泛化能力的具身人工智能系统奠定了基础。

7. 总结与思考

7.1. 结论总结

本综述全面地探讨了物理模拟器 (Physical Simulators) 和世界模型 (World Models) 在推动具身人工智能 (Embodied AI) 发展中的关键和互补作用。论文提出了一个创新的五级智能机器人能力分级模型 (IR-L0至IR-L4)，为评估机器人自主性 (Autonomy) 提供了统一框架。通过对主流模拟器在物理特性、渲染能力和传感器支持等方面的详细比较，揭示了该领域向 GPU 加速、可微分物理 (Differentiable Physics) 和高保真渲染 (High-fidelity Rendering) 发展的趋势。

同时，综述深入分析了世界模型的架构演进，从早期的潜在动态模型到基于变换器 (Transformer-based) 和扩散模型 (Diffusion Models) 的生成式方法。世界模型作为神经模拟器 (Neural Simulator)、动态模型 (Dynamic Model) 和奖励模型 (Reward Model) 的核心作用，在自动驾驶 (Autonomous Driving) 和铰接机器人 (Articulated Robots) 领域的应用中得到了充分体现，显著提升了样本效率 (Sample Efficiency)、长期规划 (Long-horizon Planning) 和跨环境泛化 (Generalization across Environments) 能力。

论文强调，物理模拟器和世界模型的整合不仅弥合了模拟到现实 (Sim2Real) 的差距，还为具身智能 (Embodied Intelligence) 的下一代发展开辟了新途径，有望将机器人技术从任务专用自动化 (Task-specific Automation) 提升到能够无缝融入人类社会的通用智能 (General-purpose Intelligence)。

7.2. 局限性与未来工作

本综述在指出当前具身人工智能 (Embodied AI) 领域取得巨大进展的同时，也坦诚地揭示了仍存在的重大挑战和未来的研究方向。

7.2.1. 挑战 (Challenges)

高维度与部分可观测性 (High-Dimensionality and Partial Observability): 自动系统处理高维传感器输入，而这些观测本身就是不完整的。这引入了不确定性，需要鲁棒的状态估计 (State Estimation) 或信念状态 (Belief State) 维护来支持决策。
因果推理与相关性学习 (Causal Reasoning versus Correlation Learning): 许多当前世界模型 (World Models) 擅长学习相关性而非因果关系 (Causal Relationships)。这阻碍了真正的泛化 (Generalization)，因为它无法进行反事实推理 (Counterfactual Reasoning)（即评估“如果...会怎样”的场景）。实现鲁棒性能需要从相关性模式匹配转向对环境的真正因果理解。
抽象和语义理解 (Abstract and Semantic Understanding): 有效的世界模型必须超越低级信号预测，在更高的语义和抽象层面运作。一个鲁棒的模型不应仅仅预测未来的像素或激光雷达点，还应推理抽象概念，如交通法规、行人意图和物体可供性 (Object Affordances)。将这些不同层次的抽象整合是实现智能和上下文感知行为的关键。
系统评估和基准测试 (Systematic Evaluation and Benchmarking): 世界模型的客观评估和比较是一个重大挑战。传统的指标（如未来预测的均方误差 Mean Squared Error）通常不足，可能与下游任务的性能不相关。需要开发新的评估框架，其指标能评估模型在规划中的效用、在安全关键场景中的鲁棒性以及捕捉环境中因果相关方面的能力。
记忆架构与长期依赖 (Memory Architecture and Long-Term Dependencies): 准确的长期预测 (Long-term Forecasting) 极具挑战性，因为预测误差会累积，且现实世界具有随机性。一个关键挑战是设计能够长期保留和检索相关信息的记忆架构。
人机交互与可预测性 (Human Interaction and Predictability): 对于在以人为中心的环境中运行的智能体 (Agents)，世界模型 (World Models) 的作用不仅限于环境预测。它还必须促进对人类而言可理解、可预测和符合社会规范的智能体行为。
可解释性与可验证性 (Interpretability and Verifiability): 深度学习 (Deep Learning) 世界模型通常是不透明的“黑箱”，难以理解其预测背后的原理。对于自动驾驶等安全关键应用，审计和理解模型内部决策过程的能力是不可或缺的。
组合泛化与抽象 (Compositional Generalization and Abstraction): 尽管 Sim2Real 差距是一个众所周知的泛化问题，但一个更深层的挑战是组合泛化。人类可以学习离散的概念并立即泛化到新颖的组合，而当前模型通常需要大量暴露于特定的组合示例。理想的世界模型应学习实体、它们的关系及其物理属性的解耦、抽象表征。
数据整理与偏差 (Data Curation and Bias): 世界模型的性能根本上取决于训练数据的质量和组成。模型不可避免地会继承并可能放大数据集中存在的偏差。一个关键方面是处理“长尾”的稀有但安全关键的事件。

7.2.2. 未来工作 (Future Perspectives)

更复杂的自适应建模框架 (More Sophisticated, Adaptable Modeling Frameworks): 世界模型代表了向更鲁棒、更通用工具发展的自然演进，以建模真实世界现象。
触觉增强世界模型用于灵巧操作 (Tactile-Enhanced World Models for Dexterous Manipulation): 结合高分辨率接触建模 (High-resolution Contact Modeling) 和视触觉融合 (Visuotactile Fusion) 来提升机器人的灵巧性。
统一世界模型实现跨硬件和跨任务泛化 (Unified World Models for Cross-Hardware and Cross-Task Generalization): 专注于硬件无关的动态编码 (Hardware-agnostic Dynamics Encoding) 和任务自适应潜在空间 (Task-adaptive Latent Spaces)，以泛化到不同的具身形态和任务。
分层世界模型用于长期任务 (Hierarchical World Models for Long-Horizon Task): 关注分层规划 (Hierarchical Planning) 和时间抽象 (Temporal Abstraction) 来处理复杂的、多阶段任务。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇综述为理解具身人工智能 (Embodied AI) 的当前格局及其未来发展方向提供了极其全面的视角。

系统性思维的重要性： 论文通过对 IR-L0 到 IR-L4 分级标准的提出，清晰地描绘了机器人智能的演进路径。这不仅是对现有技术的总结，更是对未来研究的指导，提醒研究者在追求先进技术的同时，不忘其在真实世界中的实际应用层级。这种分层框架对于评估具身智能的进展和设定研究目标具有重要的实践意义。
模拟器与世界模型的共生关系： 综述成功地强调了物理模拟器 (Physical Simulators) 和世界模型 (World Models) 并非替代关系，而是互补共生。模拟器提供外部的“实验场”，而世界模型则构建智能体内部的“认知地图”。这种内外部结合的学习范式，是克服 Sim2Real 鸿沟、实现高效机器人学习的关键。这启发我们，在未来具身 AI 系统的设计中，应将二者视为统一整体来考量。
生成模型的核心地位： 扩散模型 (Diffusion Models) 和 Transformer 在世界模型中的广泛应用，特别是其在自动驾驶和机器人操作中生成高保真、可控场景的能力，预示着生成模型将在具身 AI 领域扮演越来越核心的角色。它们不仅能生成训练数据，还能作为智能体的内部预测和规划机制。
多模态和基础模型的未来： 综述中提及的 VLA 模型 (Visual-Language-Action Models) 和基础模型 (Foundation Models) 在机器人学习中的应用，指明了未来研究将更加注重多模态信息融合和利用大规模预训练模型来增强机器人的语义理解和泛化能力。这暗示着“通用”机器人智能的实现，可能需要从模仿人类的多模态感知和推理机制入手。

7.3.2. 批判

尽管本综述内容详尽且具启发性，仍存在一些可以批判和改进的地方：

缺乏具体的量化分析： 综述在比较模拟器和世界模型时，虽然提供了详细的特性对比表，但在某些方面缺乏更深入的量化分析。例如，不同模拟器的计算效率 (Computational Efficiency) 和物理精度 (Physical Accuracy) 在不同任务下的具体表现、世界模型在不同泛化场景下的定量性能差异等。更具体的基准测试数据和性能曲线可能会增强其说服力。
“长尾问题”的深度不足：综述提到了数据整理与偏差中的“长尾问题” (Long Tail Problem)，这在自动驾驶和机器人操作中尤为关键。然而，关于世界模型如何有效解决罕见但高风险事件的学习和泛化，以及其在应对这些边缘情况时的鲁棒性限制，可以进行更深入的探讨和案例分析。
伦理和社会影响的讨论有限： 尽管 IR-L3 和 IR-L4 级别提及了社会认知能力 (Societal Cognition Ability) 和伦理治理系统 (Ethical Governance Systems)，但综述对具身智能的伦理和社会影响的讨论相对较少。随着机器人越来越自主地融入人类社会，其决策的公平性、透明度、责任归属以及对就业、隐私等方面的长远影响，值得更深入的讨论。
工业界和学术界实践的结合： 综述主要侧重于学术研究的进展。如果能更多地结合工业界在实际部署具身 AI 系统时遇到的挑战和解决方案（例如特斯拉在自动驾驶中的实际经验、亚马逊在仓储机器人中的应用），可能会使综述更具实践指导意义。
对现有挑战解决方案的评估： 综述列举了许多挑战，但对于这些挑战目前有哪些主流的或有潜力的解决方案，以及这些方案各自的优缺点和适用场景，可以进行更系统的评估。例如，针对因果推理，除了提及挑战，可以深入分析当前基于因果发现、因果干预等方法在世界模型中的应用现状。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。