论文状态:已完成

A Survey: Learning Embodied Intelligence from Physical Simulators and World Models

发表:2025/07/02
原文链接PDF 下载
价格:0.100000
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本综述探讨了具身智能在实现通用人工智能中的关键作用,重点分析物理模拟器与世界模型的结合如何增强智能机器人的自主性与适应能力。通过整合这些技术,本研究提供了具身人工智能学习的新进展和未来挑战的全面视角,助力于实用化的智能决策与规划。

摘要

The pursuit of artificial general intelligence (AGI) has placed embodied intelligence at the forefront of robotics research. Embodied intelligence focuses on agents capable of perceiving, reasoning, and acting within the physical world. Achieving robust embodied intelligence requires not only advanced perception and control, but also the ability to ground abstract cognition in real-world interactions. Two foundational technologies, physical simulators and world models, have emerged as critical enablers in this quest. Physical simulators provide controlled, high-fidelity environments for training and evaluating robotic agents, allowing safe and efficient development of complex behaviors. In contrast, world models empower robots with internal representations of their surroundings, enabling predictive planning and adaptive decision-making beyond direct sensory input. This survey systematically reviews recent advances in learning embodied AI through the integration of physical simulators and world models. We analyze their complementary roles in enhancing autonomy, adaptability, and generalization in intelligent robots, and discuss the interplay between external simulation and internal modeling in bridging the gap between simulated training and real-world deployment. By synthesizing current progress and identifying open challenges, this survey aims to provide a comprehensive perspective on the path toward more capable and generalizable embodied AI systems. We also maintain an active repository that contains up-to-date literature and open-source projects at https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

A Survey: Learning Embodied Intelligence from Physical Simulators and World Models (一项综述:从物理模拟器和世界模型中学习具身智能)

1.2. 作者

Xiaoio Long, Qingrui Zhao, KaiwenZhang, Zihao Zhang, Dingrui Wang*, Yumeng Liu, Zhengjhu, Yi { \sqcup } ^ { * } ,Shozheng Wang*, Xinzhe Wei, Wei Li, Wei Yin, Yao ao, Jia an, Qiu Shen, Ruigangang, Xun Cao†, Qionghai Dai

1.3. 发表期刊/会议

arXiv 预印本 (Preprint)

1.4. 发表年份

2025年

1.5. 摘要

具身智能 (Embodied Intelligence) 的追求已将机器人研究推向通用人工智能 (AGI) 的前沿。具身智能关注能够在物理世界中感知、推理和行动的智能体。实现强大的具身智能不仅需要先进的感知和控制能力,还需要将抽象认知根植于真实世界的交互中。物理模拟器 (Physical Simulators) 和世界模型 (World Models) 这两项基础技术,已成为实现这一目标的关键推动力。物理模拟器提供受控、高保真环境,用于训练和评估机器人智能体,从而实现复杂行为的安全高效开发。相比之下,世界模型赋予机器人对其周围环境的内部表征,使其能够超越直接感官输入进行预测性规划和自适应决策。本综述系统回顾了通过整合物理模拟器和世界模型来学习具身人工智能 (Embodied AI) 的最新进展。我们分析了它们在增强智能机器人自主性、适应性和泛化能力方面的互补作用,并讨论了外部仿真与内部建模在弥合模拟训练与真实世界部署之间差距的相互作用。通过综合当前进展并识别开放挑战,本综述旨在为通向更强大、更具泛化能力的具身人工智能系统提供全面视角。我们还维护一个包含最新文献和开源项目的活跃代码库:https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2507.00917 PDF 链接: https://arxiv.org/pdf/2507.00917v3.pdf 发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

当前人工智能 (Artificial Intelligence) 和机器人技术 (Robotics Technology) 的快速发展,使得智能体 (Agents) 与物理世界 (Physical World) 的交互成为研究的核心焦点。实现通用人工智能 (AGI) 面临的关键问题是如何将抽象推理 (Abstract Reasoning) 根植于对现实世界的理解和行动中。传统的脱离实体 (disembodied) 的智能系统仅在符号或数字数据上运行,而具身智能 (Embodied Intelligence) 则强调通过与环境的物理交互进行感知 (Perception)、行动 (Action) 和认知 (Cognition) 的重要性。

然而,智能机器人 (Intelligent Robots) 在真实世界的部署面临诸多挑战,例如:

  • 成本与安全问题 (Cost and Safety Problem): 真实世界的数据收集成本高昂且可能存在风险,尤其是在危险或高风险场景中。

  • 控制与可重复性问题 (Control and Repeatability Problem): 真实世界的数据收集受光照、背景和传感器噪声等多种因素影响,难以保证数据质量和实验的可重复性。

    这些挑战导致了数据瓶颈 (Data Bottlenecks),严重限制了相关算法的泛化能力 (Generalization Capability) 和适用性。为了解决这些问题,模拟到现实迁移 (Sim2Real Transfer) 成为了关键方法。物理模拟器 (Physical Simulators) 提供了受控且高保真的训练环境,而世界模型 (World Models) 则通过内部表征 (Internal Representations) 实现了预测性规划 (Predictive Planning) 和自适应决策 (Adaptive Decision-Making)。本综述旨在系统地分析这两种技术如何协同作用,共同推动具身智能的发展。

2.2. 核心贡献/主要发现

本综述的主要贡献总结如下:

  • 智能机器人分级标准 (Levels of Intelligent Robots): 提出了一个全面的五级分级标准 (IR-L0至IR-L4),用于评估类人机器人 (Humanoid Robot) 在自主性 (Autonomy)、任务处理能力 (Task Handling Ability)、环境适应性 (Environmental Adaptability) 和社会认知能力 (Societal Cognition Ability) 四个关键维度上的自主性。
  • 机器人学习技术分析 (Analysis of Recent Techniques of Robot Learning): 系统回顾了智能机器人学在腿部运动 (Legged Locomotion)(如双足行走、跌倒恢复)、操作 (Manipulation)(如灵巧控制、双手协调)和人机交互 (Human-Robot Interaction)(如认知协作、社会嵌入)方面的最新进展。
  • 主流物理模拟器分析 (Analysis of Current Physical Simulators): 对当前主流模拟器(如Webots、Gazebo、MuJoCo、Isaac Gym/Sim/Lab等)进行了全面的比较分析,涵盖了物理仿真能力 (Physical Simulation Capabilities)、渲染质量 (Rendering Quality) 和传感器支持 (Sensor Support)。
  • 世界模型最新进展 (Recent Advancements of World Models): 重新审视了世界模型的主要架构及其潜在作用,例如作为可控模拟器 (Controllable Simulators)、动态模型 (Dynamic Models) 和奖励模型 (Reward Models) 来服务具身智能。此外,全面讨论了为自动驾驶 (Autonomous Driving) 和铰接机器人 (Articulated Robots) 等特定应用设计的世界模型。
  • 弥合模拟与现实鸿沟 (Bridging Sim2Real Gap): 讨论了外部仿真与内部建模在弥合模拟训练与真实世界部署之间差距的相互作用,强调了两种技术的互补作用。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 具身智能 (Embodied Intelligence)

具身智能 (Embodied Intelligence) 是人工智能 (Artificial Intelligence) 领域的一个重要范式,它强调智能体 (Agents) 的认知能力 (Cognitive Abilities) 是通过其与物理世界 (Physical World) 的交互、感知 (Perception) 和行动 (Action) 紧密相连并形成的。与传统的、仅在符号或数字数据上运行的脱离实体 (disembodied) 智能系统不同,具身智能认为智能体的身体 (Body) 和环境 (Environment) 在其智能发展中扮演着核心角色。机器人通过物理身体进行感知和行动,可以从经验中学习,验证假设,并通过持续的交互来完善策略。这种感知输入、运动控制 (Motor Control) 和认知处理 (Cognitive Processing) 的闭环集成是实现真正自主性 (Autonomy) 和适应性 (Adaptability) 的基础。

3.1.2. 物理模拟器 (Physical Simulators)

物理模拟器 (Physical Simulators) 是为机器人技术 (Robotics) 提供受控、高保真虚拟环境的软件工具。它们通过对物理定律 (Physical Laws) 的建模,模拟现实世界中的对象运动、碰撞、重力、摩擦等物理现象。例如,GazeboMuJoCo 等模拟器允许研究人员在部署到真实世界之前,安全、高效地训练和评估机器人智能体的复杂行为。模拟器在机器人开发中具有成本效益 (Cost-effectiveness)、安全性 (Safety)、可控性 (Control) 和可重复性 (Repeatability) 等优点,是加速机器人算法开发和验证的重要工具。

3.1.3. 世界模型 (World Models)

世界模型 (World Models) 是赋予机器人对其周围环境内部表征 (Internal Representations) 的人工智能模型。它们能够理解现实世界的动态 (Dynamics),包括物理特性 (Physics) 和空间属性 (Spatial Properties),从而实现预测性规划 (Predictive Planning) 和超越直接感官输入的自适应决策 (Adaptive Decision-Making)。世界模型允许智能体在内部模拟 (Simulate) 经验,而无需直接与真实世界交互,从而显著提高样本效率 (Sample Efficiency)。这个概念在 HaSchmidhuber 的开创性工作 [18] 中得到了普及,他们展示了智能体如何学习紧凑的环境表征 (Environmental Representations) 进行内部规划。最近,视频生成模型 (Video Generation Models) 的发展,如 Sora [263],进一步提升了世界模型在模拟物理世界方面的能力。

3.1.4. 通用人工智能 (Artificial General Intelligence, AGI)

通用人工智能 (Artificial General Intelligence, AGI) 指的是能够像人类一样或超越人类在各种认知任务中执行智能行为的系统。与专注于特定任务的狭义人工智能 (Narrow AI) 不同,AGI 的目标是实现跨领域 (Diverse Domains) 的学习、理解、适应和应用知识。具身智能被认为是实现 AGI 的关键途径之一,因为它提供了将抽象认知与现实世界互动相结合的物理基础。

3.1.5. 模拟到现实迁移 (Simulation-to-Reality Transfer, Sim2Real)

模拟到现实迁移 (Sim2Real Transfer) 是一种在虚拟模拟器中训练机器人策略 (Policies) 或模型,然后将其部署到真实世界机器人上的方法。由于在真实世界中进行数据收集和训练的成本高昂、耗时且存在风险,Sim2Real 范式变得至关重要。通过在高保真模拟环境中生成大量的合成数据 (Synthetic Data),可以显著提高数据生成效率,并获得精确的自动标注 (Automated Annotation) 和可控的语义标签 (Controllable Semantic Labeling)。Sim2Real 的挑战在于如何弥合模拟器与真实世界之间的差距(Sim2Real Gap),确保在模拟中学习到的知识和行为能够有效地泛化到实际物理世界中。

3.2. 前人工作

本综述在以下几个关键领域借鉴并区分了前人的工作:

  • 机器人模拟器综述 (Robotics Simulators Surveys): 已有文献 [19]-[21] 专注于机器人模拟器的各个方面,详细介绍了不同的模拟平台及其功能。本综述在此基础上,更深入地比较了主流模拟器的物理特性、渲染能力和传感器支持,并探讨了它们在具身智能训练中的具体作用。
  • 世界模型综述 (World Models Surveys): 其他综述 [22]-[24] 也探讨了世界模型,但通常侧重于其架构、预测能力或在特定领域的应用。本综述的独特之处在于,它将世界模型与物理模拟器相结合,分析它们如何共同为具身智能赋能,并系统地将其核心作用(神经模拟器、动态模型、奖励模型)进行分类和讨论。
  • 机器人能力量化框架 (Robot Capability Quantification Frameworks): 现有研究提出了多种量化机器人能力的方法,例如 DARPA 机器人挑战赛 (DARPA Robotics Challenge) 的评估方案 [11]、ISO 13482 服务机器人安全标准 [12] 以及关于自主性级别 (Autonomy Levels) 的综述 [13], [14]。然而,本综述在此基础上,首次提出了一个综合“智能认知”和“自主行为”维度,并包含“社会交互”的五级能力分级模型 (IR-L0至IR-L4),旨在提供一个更全面的评估和指导框架。
  • 视频生成模型 (Video Generation Models): 近期,Sora [263] 和 Kling [264] 等视频生成模型在生成高保真视频和模拟物理世界方面取得了显著进展。本综述将这些模型作为世界模型的关键技术发展,分析了它们在自动驾驶和机器人领域的应用潜力,并引用了 Yann LeCun 关于视频世界模型重要性的观点 [266]。

3.3. 技术演进

具身智能领域的技术演进呈现出从单一技术到融合多模态、多学科方法的趋势。

  • 从传统控制到机器学习 (From Traditional Control to Machine Learning): 早期机器人控制主要依赖 模型预测控制 (Model Predictive Control, MPC) [28] 和 全身控制 (Whole-Body Control, WBC) [32] 等基于模型的方法。这些方法需要精确的物理模型和手工调优,在复杂和不确定环境中表现受限。随着机器学习 (Machine Learning) 的兴起,强化学习 (Reinforcement Learning, RL) [39] 和 模仿学习 (Imitation Learning, IL) [3] 逐渐成为主流,使机器人能够从经验和演示中自主学习复杂行为。
  • 模拟器从简单到高保真、并行化 (Simulators from Simple to High-Fidelity and Parallelized): 早期模拟器如 Webots [239] 和 Gazebo [15] 提供了基本的物理仿真功能。随着对训练效率和真实感的需求增加,MuJoCo [16] 提供了高精度的接触动力学模拟。近年来,NVIDIA Isaac 系列 (特别是 Isaac Gym [242]、Isaac Sim [243] 和 Isaac Lab [246])、Genesis [250] 和 Newton [251] 等模拟器通过 GPU 加速、实时光线追踪 (Real-time Ray Tracing) 和可微分物理 (Differentiable Physics) 实现了前所未有的并行化和高保真度,极大地加速了机器人学习。
  • 世界模型从抽象到具象、生成式 (World Models from Abstract to Concrete, Generative): 初始的世界模型如 HaSchmidhuber [18] 的工作,侧重于学习紧凑的潜在空间 (Latent Space) 动态以进行内部规划。随着深度学习 (Deep Learning) 技术的发展,特别是生成模型 (Generative Models) 的进步,世界模型开始能够直接生成高保真度的未来观测,如视频序列。变压器 (Transformer) [276] 和 扩散模型 (Diffusion Models) [284] 的应用,使得世界模型能够处理更复杂的时空依赖性,并生成更逼真的环境模拟,成为强大的神经模拟器 (Neural Simulators)。
  • 多模态融合与基础模型 (Multimodal Fusion and Foundation Models): 最新的趋势是融合多模态 (Multimodal) 输入(视觉、语言、动作),并利用在海量数据上预训练的基础模型 (Foundation Models)(如 大语言模型 (Large Language Models, LLMs)视觉语言模型 (Vision-Language Models, VLMs)视觉-语言-行动模型 (Visual-Language-Action Models, VLA) [4])来增强机器人的语义理解、任务规划和泛化能力。

3.4. 差异化分析

本综述与现有文献的主要区别在于其独特的视角和综合性:

  • 协同作用的综合分析 (Synergistic Analysis): 现有综述通常独立地关注机器人模拟器 [19]-[21] 或世界模型 [22]-[24]。本综述则明确强调并深入分析了物理模拟器和世界模型之间互补和协同作用,探讨了它们如何共同促进具身智能的发展。例如,模拟器提供外部训练环境,而世界模型则创建内部认知框架。
  • 具身智能全景图 (Comprehensive Embodied Intelligence Landscape): 除了技术分析,本综述还提出了一个创新的五级智能机器人能力分级模型 (IR-L0至IR-L4),这为评估和指导机器人发展提供了一个统一的框架,超越了现有文献中零散的自主性级别评估。
  • 具体应用领域的深入探讨 (In-depth Exploration of Specific Application Domains): 综述详细分析了世界模型在自动驾驶 (Autonomous Driving) 和铰接机器人 (Articulated Robots) 这两个关键应用领域中的具体实现、挑战和技术趋势,将抽象的世界模型概念与实际机器人任务紧密结合。
  • 前瞻性展望与挑战 (Forward-Looking Perspective and Challenges): 本综述不仅总结了现有进展,还系统地识别了具身人工智能面临的开放挑战,并展望了未来的研究方向,如对可微分物理 (Differentiable Physics)、多模态融合 (Multimodal Fusion) 和因果推理 (Causal Reasoning) 的需求。

4. 方法论

本综述系统地分析了物理模拟器和世界模型在具身智能发展中的关键作用。其方法论主要体现在对现有研究的结构化梳理、分类和比较,并在此基础上提出了一个评估智能机器人能力的框架。

4.1. 论文结构与概览

本综述的结构设计旨在全面覆盖具身人工智能 (Embodied AI) 领域的关键方面,并突出物理模拟器 (Physical Simulators) 和世界模型 (World Models) 的核心作用。其组织方式如下:

  • 第一节:引言 (Introduction)。 介绍了具身人工智能的重要性,以及物理模拟器和世界模型如何促进其发展。
  • 第二节:智能机器人分级 (Levels of Intelligent Robots)。 提出了一个包含五个级别的智能机器人分级系统 (IR-L0至IR-L4),并详细阐述了分级标准、影响因素和各级别特征。
  • 第三节:机器人移动性、灵巧性和交互 (Robotic Mobility, Dexterity And Interaction)。 综述了智能机器人学在运动控制、操作和人机交互方面的最新进展,包括腿部运动、跌倒恢复、单手/双手操作、全身操作和基础模型在机器人操作中的应用。
  • 第四节:通用物理模拟器 (General Physical Simulators)。 讨论了主流模拟器的优缺点,并从物理特性、渲染能力、传感器和关节组件支持等方面进行了比较分析。
  • 第五节:世界模型 (World Models)。 介绍了世界模型的概念、代表性架构演进,以及它们作为神经模拟器、动态模型和奖励模型的核心作用。
  • 第六节:智能体世界模型应用 (World Models for Intelligent Agents)。 深入探讨了世界模型在自动驾驶和铰接机器人领域的具体应用、挑战和技术趋势。
  • 第七节:结论 (Conclusion)。 总结了本综述的主要发现,并提出了未来的研究方向和开放性挑战。

4.2. 智能机器人能力分级模型 (IR-L0至IR-L4)

为了系统地评估和指导智能机器人 (Intelligent Robots) 的发展,本综述提出了一个全面的五级能力分级模型,从基本的机械执行到完全自主的社会智能。这个模型涵盖了自主性 (Autonomy)、任务处理能力 (Task Handling Ability)、环境适应性 (Environmental Adaptability) 和社会认知能力 (Societal Cognition Ability) 四个关键维度。

4.2.1. 分级标准 (Level Criteria)

本标准根据机器人在以下方面的能力进行分类:

  • 任务独立完成能力 (Task Independence): 从完全依赖人类控制到完全自主 (Full Autonomy)。
  • 任务难度 (Task Difficulty): 从简单的重复劳动到创新的问题解决 (Innovative Problem-Solving)。
  • 环境适应性 (Environmental Adaptability): 机器人 (Robot) 在动态 (Dynamic) 或极端 (Extreme) 环境中工作的能力。
  • 社会认知能力 (Societal Cognition Ability): 机器人理解、与人类社会情境互动和响应的能力。

4.2.2. 分级影响因素 (Level Factors)

机器人智能水平 (Intelligent Level) 的评估基于以下五个因素:

  • 自主性 (Autonomy): 机器人自主决策的能力。

  • 任务处理能力 (Task Handling Ability): 机器人能处理的任务复杂性。

  • 环境适应性 (Environmental Adaptability): 机器人在不同环境中的表现。

  • 社会认知能力 (Societal Cognition Ability): 机器人 (Robots) 在社会场景中表现出的智能水平。

    以下是原文 Table 1 的结果,展示了分级级别与影响因素之间的关系:

    Level Autonomy Task Handling Ability Environmental Adaptability Societal Cognition Ability
    IR-LO Human Control Basic Tasks Controlled Only No Social Cognition
    IR-L1 Human Supervised Complex Navigation Predictable Environments Basic Recognition
    IR-L2 Human Assisted Dynamic Collaboration Adaptive Learning Simple Interaction
    IR-L3 ConditionalAutonomy Multitasking Dynamic Adaptation Emotional Intelligence
    IR-L4 Full Autonomy Innovation Universal Flexibility Advanced Social Intelligence

4.2.3. 分类级别 (Classification Levels)

  • IR-L0: 基本执行级别 (Basic Execution Level):
    • 特点: 完全非智能、程序驱动 (Program-driven),执行高度重复、机械化、确定性任务 (Deterministic Tasks),如工业焊接。
    • 感知: 极度有限,通常只有限位开关 (Limit Switches)、编码器 (Encoders)。
    • 控制: 基于预定义指令 (Predefined Instructions) 或实时遥操作 (Real-time Teleoperation),无实时反馈 (Real-time Feedback)。
    • 人机交互 (Human-Robot Interaction): 无或仅限于简单按钮/遥操作。
  • IR-L1: 程序响应级别 (Programmatic Response Level):
    • 特点: 有限的基于规则的响应能力 (Rule-based Reactive Capabilities),执行预定义任务序列 (Predefined Task Sequences),如清洁和接待机器人。
    • 感知: 使用红外、超声波、压力传感器等基础传感器触发特定行为模式 (Behavioral Patterns)。
    • 控制: 规则引擎 (Rule Engines) 和有限状态机 (Finite State Machines, FSM),补充基础 SLAM (Simultaneous Localization and Mapping) 或随机行走算法。
    • 人机交互: 基本的语音和触摸界面,支持简单命令-响应协议。
  • IR-L2: 初步环境感知与自主性级别 (Preliminary Environmental Awareness and Autonomous Capabilities Level):
    • 特点: 具备初步的环境感知 (Environmental Awareness) 和自主能力 (Autonomous Capabilities),能够响应环境变化并切换任务模式。
    • 感知: 集成感知模块(相机、麦克风阵列、激光雷达 LiDAR),实现基本物体识别 (Object Identification) 和环境建图 (Environmental Mapping)。
    • 控制: 有限状态机 (FSM)、行为树 (Behavior Trees) [27]、SLAM、路径规划 (Path Planning) 和避障 (Obstacle Avoidance)。
    • 人机交互: 语音识别 (Speech Recognition) 和合成 (Synthesis),支持理解和执行基本命令。
    • 意义: 迈向真正的“上下文理解 (Contextual Understanding)”。
  • IR-L3: 类人认知与协作级别 (Humanoid Cognition and Collaboration Level):
    • 特点: 在复杂动态环境 (Complex, Dynamic Environments) 中自主决策 (Autonomous Decision-making),支持复杂的多模态人机交互 (Multimodal Human-Robot Interaction)。
    • 感知: 视觉、语音、触觉等多模态融合 (Multimodal Fusion);情感计算 (Affective Computing) 用于情绪识别 (Emotion Recognition) 和动态用户建模 (Dynamic User Modeling)。
    • 控制: 深度学习架构 (Deep Learning Architectures)(CNNs, Transformers)用于感知和语言理解;强化学习 (Reinforcement Learning) 用于自适应策略优化 (Adaptive Policy Optimization);规划和推理模块 (Planning and Reasoning Modules) 用于复杂任务工作流管理。
    • 人机交互: 多轮自然语言对话 (Multi-turn Natural Language Dialogue);面部表情识别 (Facial Expression Recognition) 和反馈;基础的同理心 (Empathy) 和情绪调节 (Emotion Regulation) 能力。
    • 安全与伦理 (Safety and Ethics): 嵌入式伦理治理系统 (Ethical Governance Systems) 预防不安全或不合规行为。
  • IR-L4: 完全自主级别 (Fully Autonomous Level):
    • 特点: 在任何环境下无需人工干预即可完全自主感知 (Perception)、决策 (Decision-making) 和执行 (Execution)。
    • 感知: 全方位 (Omnidirectional)、多尺度 (Multi-scale)、多模态传感系统 (Multimodal Sensing Systems);实时环境建模 (Real-time Environment Modeling) 和意图推断 (Intent Inference)。
    • 控制: 通用人工智能 (AGI) 框架,整合元学习 (Meta-learning)、生成式人工智能 (Generative AI) 和具身智能 (Embodied Intelligence);自主任务生成 (Autonomous Task Generation) 和高级推理能力 (Advanced Reasoning Capabilities)。
    • 人机交互: 自然语言理解 (Natural Language Understanding) 和生成 (Generation);复杂社会上下文适应 (Complex Social Context Adaptation);同理心 (Empathy) 和伦理审议 (Ethical Deliberation)。
    • 安全与伦理: 嵌入式动态伦理决策系统 (Dynamic Ethical Decision Systems),在伦理困境中做出道德选择。

4.3. 机器人学习技术综述

本节回顾了智能机器人学 (Intelligent Robotics) 中的基础技术方法,包括控制策略和学习范式。

4.3.1. 模型预测控制 (Model Predictive Control, MPC)

模型预测控制 (Model Predictive Control, MPC) [28] 是一种强大的控制策略,在过去二十年中在人形机器人 (Humanoid Robotics) 领域获得了显著关注。

  • 核心思想: MPC 是一种基于优化的方法,它使用动态模型 (Dynamic Model) 预测系统的未来行为,并通过在每个时间步解决优化问题来计算控制动作 (Control Actions)。
  • 优点: 能够明确处理输入 (Inputs) 和状态 (States) 的约束,特别适用于人形机器人等复杂、高维系统 (High-dimensional Systems) [29]。
  • 发展:
    • Tom Erez 等人 [30] 引入了一个全面的实时 MPC 系统,将其应用于人形机器人 (Humanoid Robot) 的完整动力学 (Full Dynamics),使其能够执行站立、行走和从扰动中恢复等复杂任务。
    • Jonas Koenemann 等人 [31] 于2015年在真实的 HRP-2 机器人上实现了完整的 MPC,这是首次将全身模型预测控制器 (Whole-Body Model Predictive Controller) 应用于复杂动态机器人 (Complex Dynamic Robot) 的实时控制。

4.3.2. 全身控制 (Whole-Body Control, WBC)

全身控制 (Whole-Body Control, WBC) 是一种综合框架,使机器人能够同时协调其所有关节 (Joints) 和肢体 (Limbs) 来实现不同的运动。

  • 核心方法: 通常涉及将机器人 (Robot) 的运动 (Motion) 和力 (Force) 目标 (Objectives) 制定为一系列优先级任务 (Prioritized Tasks),例如保持平衡 (Maintaining Balance)、遵循期望轨迹 (Following a Desired Trajectory) 或用手施加特定力。这些任务被转化为数学约束 (Mathematical Constraints) 和目标,然后使用优化技术 (Optimization Techniques) 或分层控制框架 (Hierarchical Control Frameworks) 求解 [32]。
  • 实现技术: 动态建模 (Dynamic Modeling)、逆运动学求解 (Inverse Kinematics Solving) 和优化算法 (Optimization Algorithms)。
  • 发展:
    • Oussama Khatib 及其合作者在2000年代初引入了用于控制冗余机械手 (Redundant Manipulators) 的操作空间公式 (Operational Space Formulation),后来扩展到人形机器人 [33]。
    • 基于优化的 WBC (Optimization-based WBC) 具有强大的灵活性,允许模块化地添加或删除约束 (Constraints),并通过设置不同的任务层次 (Task Hierarchies) 或软任务权重 (Soft Task Weightings) 来解决冲突约束 [34]-[36]。
    • 近年来,随着人工智能 (Artificial Intelligence) 的发展,特别是强化学习 (Reinforcement Learning),研究人员提出了 ExBody2 [37] 和 HugWBC [38] 等框架,这些框架在模拟环境 (Simulated Environments) 中训练控制策略 (Control Policies),并将其迁移到实际机器人 (Actual Robots) 上,实现了更自然、更具表现力的全身运动控制。

4.3.3. 强化学习 (Reinforcement Learning, RL)

强化学习 (Reinforcement Learning, RL) [39] 是机器学习 (Machine Learning) 的一个分支,在人形机器人 (Humanoid Robotics) 领域变得越来越有影响力。

  • 核心思想: 智能体 (Agent)(如人形机器人)可以通过与环境交互 (Interacting with its Environment) 并接收奖励 (Rewards) 或惩罚 (Penalties) 形式的反馈来学习执行复杂任务。
  • 优点: 与需要明确编程或行为建模的传统控制方法 [40], [41] 不同,RL 使机器人能够通过试错 (Trial and Error) 自主发现最优行动 (Optimal Actions),因此特别适用于人形机器人经常遇到的高维 (High-dimensional)、动态 (Dynamic) 和不确定 (Uncertain) 环境 [42]。
  • 发展:
    • RL 在人形机器人中的应用可追溯到1990年代末和2000年代初。1998年,Masahiro MorimotoKenji Doya [43] 引入了一种 RL 方法,使模拟的双关节、三连杆机器人 (Simulated Two-joint, Three-link Robot) 能够自主学习从躺卧姿势站立起来的动态运动。
    • 此后,RL 被用于实现人形机器人 (Humanoid Robots) 的复杂行为,例如 DeepLoco [44] 和其他工作 [45], [46] 对深度 RL (Deep RL) 在双足任务 (Bipedal Tasks) 中的能力进行了广泛探索,但它们尚未被证明适用于物理机器人。
    • 2019年,Xie 等人 [47] 使用迭代强化学习 (Iterative Reinforcement Learning) 和确定性动作随机状态 (Deterministic Action Stochastic State, DASS) 元组逐步完善奖励函数 (Reward Function) 和策略架构 (Policy Architecture),实现了物理 Cassie 双足机器人 (Bipedal Robot) 的鲁棒动态行走。

4.3.4. 模仿学习 (Imitation Learning, IL)

模仿学习 (Imitation Learning, IL) 是一种机器人范式,机器人通过观察和模仿演示 (Demonstrations) 来学习执行任务,这些演示通常由人类或其他智能体提供 [3], [48]-[50]。

  • 核心思想: IL 绕过了显式编程 (Explicit Programming) 或手工设计奖励函数 (Handcrafted Reward Functions) 的需要,使人形机器人能够更高效、更直观地学习复杂行为。
  • 应用: 通过利用演示,机器人可以学习行走、操作或社交互动等技能,这些技能通过传统控制 (Traditional Control) 或强化学习 (Reinforcement Learning) 方法难以指定。
  • 人形机器人运动控制: IL 通常利用经过重定向 (Retargeting) 的人体动作捕捉数据 (Human Motion Capture Data),或从基于模型的轨迹规划 (Model-based Trajectory Planning)(如自然行走、跑步等)生成的参考步态 (Reference Gaits),并鼓励机器人在模拟中遵循这些参考轨迹,以实现更自然和稳定的运动步态 [51]-[53]。
  • 挑战:
    • 获取专家演示数据 (Expert Demonstration Data) 成本高昂。
    • 数据多样性 (Data Diversity) 不足和质量问题。
    • 在有限演示数据上训练的策略泛化能力 (Generalization) 差,难以适应新环境或任务。
  • 解决方案: 研究人员和公司正专注于开发更高效的数据收集硬件平台 (Data Collection Hardware Platforms) 或遥操作技术 (Teleoperation Technologies) 以扩展数据 [49], [54], [55],同时也在探索新型训练数据,如从视频数据中提取人类动作 [56]。

4.3.5. 视觉-语言-行动模型 (Visual-Language-Action Models, VLA)

视觉-语言-行动模型 (Visual-Language-Action Models, VLA) 代表了一种跨模态人工智能 (Cross-modal Artificial Intelligence) 框架,它整合了视觉感知 (Visual Perception)、语言理解 (Language Understanding) 和行动生成 (Action Generation)。

  • 核心概念: 利用大语言模型 (Large Language Models, LLMs) 的推理能力,直接将自然语言指令 (Natural Language Instructions) 映射到物理机器人 (Physical Robotic) 的行动。
  • 发展:
    • 2023年,Google DeepMind 推出了 RT-2 [65],首次将此范式应用于机器人控制,通过将机器人控制指令离散化为类语言词元 (Language-like Tokens),实现了端到端 (End-to-End) 的视觉-语言-行动映射。
    • 随后,出现了许多端到端 VLA 模型 [4], [66]-[71],进一步推动了 VLA 模型在机器人领域的应用和发展。
  • 挑战:
    • 难以可靠地处理以前未遇到的任务或环境。
    • 实时推理 (Real-time Inference) 限制了在动态情况下的响应速度。
    • 训练数据集 (Training Datasets) 中的偏差、跨模态语义接地 (Semantic Grounding) 的困难,以及系统集成的计算复杂性 (Computational Complexity) 持续阻碍其进一步发展 [72]。

4.4. 机器人移动性、灵巧性和交互

4.4.1. 机器人移动性 (Robotic Locomotion)

机器人移动性 (Robotic Locomotion) 的目标是实现自然的运动模式,包括行走、跑步和跳跃。本节探讨了腿部运动 (Legged Locomotion) 和跌倒保护与恢复 (Fall Protection and Recovery) 的最新进展。

4.4.1.1. 腿部运动 (Legged Locomotion)

双足机器人 (Bipedal Robots) 在导航复杂地形、模仿人类行为和无缝融入以人为中心的环境方面具有独特优势。研究主要分为:无结构环境适应 (Unstructured Environment Adaption)高动态运动 (High Dynamic Movements)

  • 无结构环境适应: 强调在复杂、未知或动态环境中保持稳定行走的能力。

    • 早期努力: 主要使用位置控制 (Position-controlled) 的人形机器人。Sang-Ho Hyon [57] 引入了基于无源性 (Passivity-based) 的接触力控制框架,使 SARCOS 人形机器人 [73] 能够在不同高度和时变倾斜的室内地形上主动平衡。
    • 后续进展: 探索了在线学习地形适应 [74]、带有地形估计的顺应性控制 [58] 以及将 线性倒立摆模型 (Linear Inverted Pendulum Model, LIPM) 与足力控制 [75] 相结合,如 Kajita 等人 [75] 在 HRP-4C 人形机器人上的演示。
    • 挑战: 早期方法对地形适应能力有限,因为位置控制的机器人关节具有高传动比 (High Gear-ratio),阻抗高 (High Impedance),容易在受到大冲击时损坏 [76]。
    • 现代解决方案: 现代人形和四足机器人 (Quadruped Robots) 使用低传动比的力控关节 (Force-controlled Joints),提供更好的柔顺性 (Compliance) 和更平滑的响应 [77], [78]。
    • 先进算法: 随着计算能力的增强,研究人员开发了更复杂的控制算法 [85]。Jacob Reher 等人 [59] 引入了全面的全身动态控制器 (Full-body Dynamic Controller),成功实现了 Cassie 双足机器人 (Bipedal Robot) 在各种地形上的稳定行走。George Mesesan 等人 [60] 将 发散成分运动 (Divergent Component of Motion, DCM) 用于质心轨迹规划 (Center of Mass Trajectory Planning) 与基于无源性 (Passivity-based) 的全身控制器 (Whole-Body Controller, WBC) 相结合。
    • 外部感知与路径规划: Jiunn-Kai Huang 等人 [62] 将低频路径规划器 (Low-frequency Path Planner) 与高频反应控制器 (High-frequency Reactive Controller) 集成,使 Cassie Blue 机器人能够自主穿越复杂地形。
    • 基于学习的方法: Joonho Lee 等人 [86] 首次成功将强化学习 (Reinforcement Learning) 应用于腿部运动的真实世界,在室外环境中表现优于传统方法 [87]。Jonah Siekmann 等人 [61] 使用域随机化 (Domain Randomization) 方法,使 Cassie 机器人 (Cassie Robot) 能够盲走楼梯。研究人员还利用深度相机 (Depth Cameras) 和激光雷达 (LiDAR) 构建高度图 (Height Maps) [63]、感知内部模型 (Perceptive Internal Models, PIM) [88] 或端到端策略 (End-to-end Policy) [64],显著增强了机器人在不同地形上的移动能力。
  • 高动态运动: 如跑步和跳跃,对双足机器人 (Bipedal Robots) 的控制系统提出了更高要求,机器人必须在短时间内管理快速支撑转换、姿态调整和精确力控制。

    • 早期研究: 采用简化的动态模型,如 弹簧加载倒立摆 (Spring-Loaded Inverted Pendulum, SLIP) [89]、线性倒立摆模型 (Linear Inverted Pendulum Model, LIPM) [90] 和 单刚体模型 (Single Rigid Body Model, SRBM) [91],以降低计算复杂性 (Computational Complexity) 并实现实时控制。
    • Xiaobin XiongAaron D. Ames [79] 开发了一个简化的弹簧-质量模型,通过基于 控制李雅普诺夫函数 (Control Lyapunov Function, CLF)二次规划 (Quadratic Program, QP) 进行控制。
    • Qi 等人 [80] 提出了一种基于 LIPM压力中心 (Center of Pressure, CoP) 引导角动量控制器 (Angular Momentum Controller)。
    • He 等人 [83] 引入了 质心动力学模型 (Centroidal Dynamics Model, CDM)MPC 框架相结合,实现了 KUAVO 人形机器人 (Humanoid Robot) 的连续跳跃运动。
    • 基于强化学习 (RL-based) 方法: 在跑步 [81]、跳跃 [82] 和离散地形跑酷 [92] 等活动中显示出有希望的结果,显著扩展了双足运动的能力。
    • 模仿学习 (Imitation Learning): 利用大量人类运动数据集 [93],已被用于实现富有表现力的动态机器人行为。对抗运动先验 (Adversarial Motion Priors, AMP) [94] 从动作捕捉数据中提取风格化奖励 (Style-based Rewards)。Exbody [37], [95]、OmniH20 [96] 和 ASAP [84] 等框架实现了自然灵活的全身运动。

4.4.1.2. 跌倒保护与恢复 (Fall Protection and Recovery)

人形机器人容易不稳定和跌倒,可能导致硬件损坏或操作中断。

  • 基于模型的方法 (Model-based Methods):
    • UKEMI [97] 通过控制机器人跌倒时的姿态,分散冲击力 (Impact Forces) 并减少关键部件的损坏。
    • Libo Meng 等人 [99] 通过对人类跌倒的生物力学分析,提出了一种跌倒运动控制方法。
    • Dong 等人 [100] 提出了一种柔顺控制框架 (Compliant Control Framework),使机器人能够根据外部扰动调整其刚度和阻尼特性 (Stiffness and Damping Characteristics)。
  • 基于学习的方法 (Learning-based Methods):
    • HiFAR [102] 通过多阶段课程学习 (Multi-stage Curriculum Learning) 方法训练人形机器人 (Humanoid Robots) 从跌倒中恢复。
    • HoST [101] 通过平滑正则化 (Smoothing Regularization) 和隐式动作速度限制 (Implicit Action Velocity Limits) 实现了 Unitree G1 机器人在复杂环境 (Complex Environments) 中从不同姿态站立起来。
    • Embrace Collisions [103] 通过全身接触 (Whole-body Contacts) 扩展了机器人与环境交互的能力,而不是仅限于手和脚。

4.4.2. 机器人操作 (Robotic Manipulation)

机器人操作 (Robotic Manipulation) 任务涵盖了从简单的拾取物体到涉及组装或烹饪的复杂序列的广泛活动。

4.4.2.1. 单手操作任务 (Unimanual Manipulation Task)

单手操作 (Unimanual Manipulation) 指使用单个末端执行器 (End Effector)(如手或夹持器)与物体 (Objects) 交互和操作。

  • 夹持器操作 (Gripper-based Manipulation):

    • 早期研究: 集中于精确的物理模型 (Physical Models) 和预编程 (Pre-programming) [105],在结构化环境 (Structured Settings) 中有效,但难以适应非结构化环境 (Unstructured Environments)。
    • 基于学习的方法 (Learning-based Approaches):
      • 感知: PoseCNN [107] 实现了实例级 6D 姿态估计 (Instance-level 6D Pose Estimation);NOCS [108] 推动了类别级估计 (Category-level Estimation)。
      • 功能可供性学习 (Functional Affordance Learning): AffordanceNet [109] 通过监督学习 (Supervised Learning) 识别可操作区域;Where2Act [110] 使用自监督模拟交互 (Self-supervised Simulation Interactions)。
      • 模仿学习 (Imitation Learning): Neural Descriptor Fields (NDFs) [111] 增强了策略泛化;Diffusion Policy [3] 利用扩散模型 (Diffusion Models) 进行多模态动作;RT2 [112] 整合基础模型 (Foundation Models) 来解释复杂指令。
      • 任务导向操作: 机器人 (Robots) 能够处理杂乱环境 (Cluttered Environments)(如 CollisionNet [113], PerAct [114])、操作可变形 (Deformable) 和铰接物体 (Articulated Objects) [115]-[118]。
  • 灵巧手操作 (Dexterous Hand Manipulation): 旨在使机器人以类似于人类手的方式,以复杂、精确的方式与物理世界 (Physical World) 交互。

    • 早期工作: 专注于硬件设计和理论基础。Utah/MIT Hand [121] 和 Shadow Hand [122] 探索了高自由度 (High Degrees of Freedom) 和仿生结构 (Biomimetic Structures);BarrettHand [123] 展示了欠驱动设计 (Underactuated Designs)。Napier [124] 分类了人类抓取模式,SalisburyCraig [125] 分析了多指力控制 (Multi-fingered Force Control) 和运动学 (Kinematics)。
    • 基于学习的方法 (Learning-based Methods): 已成为主流,使用机器学习解决高维状态空间 (High-dimensional State Spaces) 和复杂接触动力学 (Complex Contact Dynamics) 的挑战。
      • 两阶段方法: 首先生成抓取姿态 (Grasping Poses),然后控制灵巧手实现这些姿态。关键挑战在于从视觉观测 (Visual Observations) 中生成高质量姿态,通过基于优化 [126]-[128]、基于回归 [129], [130] 或基于生成 [131]-[140] 的策略来解决。例如,UGG [136] 使用扩散模型 (Diffusion Model) 统一姿态和物体几何生成。
      • 端到端方法 (End-to-end Methods): 使用强化学习 (Reinforcement Learning) 或模仿学习 (Imitation Learning) 直接建模抓取轨迹。RL 在模拟中训练策略以进行真实世界迁移 [142]-[144],例如 DexVIP [145] 和 GRAFF [146]。DextrAH-G [147] 和 DextrAH-RGB [148] 通过大规模模拟实现真实世界泛化。IL 由人类演示驱动 [54], [146], [149],擅长复杂任务但泛化能力不足。创新包括 SparseDFF [150] 和 Neural Attention Field [151] 增强泛化能力,DexGraspVLA [152] 采用视觉-语言-行动框架 (Vision-Language-Action Framework)。

4.4.2.2. 双手操作任务 (Bimanual Manipulation Task)

双手操作 (Bimanual Manipulation) 指需要协调使用两只手臂的机器人任务,实现复杂操作如协作运输、精确组装和处理柔性或可变形物体 [155]。

  • 挑战: 高维状态-动作空间 (High-dimensional State-action Spaces)、臂间和环境碰撞的可能性、以及有效双手协调和动态角色分配的必要性。
  • 早期研究: 引入归纳偏置 (Inductive Biases) 或结构分解 (Structural Decompositions) 来简化学习和控制。例如,BUDS [156] 将双手操作任务分解为稳定器 (Stabilizer) 和执行器 (Executor) 功能角色。SIMPLe [157] 利用图高斯过程 (Graph Gaussian Processes, GGP) 来表示运动基元 (Motion Primitives)。
  • 大规模数据收集与模仿学习 (Large-scale Data Collection and Imitation Learning):
    • ALOHA 系列 [49], [153], [158] 利用现成的硬件和定制的 3D 打印组件,高效收集多样化、大规模的演示数据 (Demonstration Data)。
    • ACT [49] 将动作分块 (Action Chunking) 与 条件变分自动编码器 (Conditional Variational Autoencoder, CVAE) 框架相结合。
    • Mobile ALOHA [153] 引入了移动底座 (Mobile Base) 并简化了 ACT 管线。
    • RDT-1B [50] 提出了基于扩散 DiT 架构 (Diffusion DiT Architecture) 的双手操作基础模型 (Foundation Model)。
  • 灵巧手双手操作 (Dexterous Robotic Hands): 引入了额外的挑战。最近的研究 [140], [159], [160] 调查了基于强化学习 (RL-based) 的方法,将人类双手操作技能 (Human Bimanual Manipulation Skills) 迁移到机器人灵巧手。

4.4.2.3. 全身操作控制 (Whole-Body Manipulation Control)

全身操作 (Whole-Body Manipulation) 指人形机器人 (Humanoid Robots) 使用其整个身体(包括双臂 [155]、躯干 [161]、轮式或腿部底座 [162] 和/或其它组件 [163])与物体交互和操作的能力。

  • 进展: 基于学习的全身操作在增强机器人的自主性、适应性和在复杂环境中的交互能力方面取得了显著进展。
  • 大型预训练模型 (Large Pre-trained Models): 利用 LLMsVLMs 和生成模型 (Generative Models) 增强语义理解 (Semantic Understanding) 和泛化能力 (Generalization Capabilities)。例如,TidyBot [164] 利用 LLMs 的归纳能力学习个性化家务整理偏好。MOO [165] 通过 VLMs 将语言指令中的物体描述映射到视觉观测。HARMON [166] 结合人类运动生成先验 (Human Motion Generation Priors) 和 VLM 编辑。
  • 视觉演示 (Visual Demonstrations): 指导学习操作技能。OKAMI [167] 提出了一种物体感知重定向方法 (Object-aware Redirection Method),使人形机器人能够从单个 RGB-D 视频中模仿技能。iDP3 [168] 通过改进的 3D 扩散策略实现了多场景任务执行策略。
  • 鲁棒和灵巧的全身控制: OmniH20 [96] 采用强化学习 Sim-to-Real 方法,训练全身控制策略,协调运动和操作。HumanPlus [6] 系统结合基于 Transformer 的低级控制策略和视觉模仿策略。WB-VIMA [119] 通过自回归动作去噪 (Autoregressive Action Denoising) 建模全身动作的层次结构。

4.4.2.4. 人形机器人操作中的基础模型 (Foundation Models in Humanoid Robot Manipulation)

基础模型 (Foundation Models, FMs) 是在互联网规模数据上预训练的大规模模型,包括 大语言模型 (LLMs)视觉模型 (VMs)视觉-语言模型 (VLMs)

  • 作用: 使人形机器人能够在复杂、动态和非结构化环境 (Unstructured Environments) 中执行操作任务,涉及复杂的环境感知和建模 (Environmental Perception and Modeling)、抽象任务理解 (Abstract Task Understanding) 和长序列 (Long-sequence) 多步骤任务 (Multi-step Tasks) 的自主规划。
  • 两种主要技术范式:
    • 分层方法 (Hierarchical Approach): 利用预训练的语言或视觉-语言基础模型作为高级任务规划和推理引擎 (High-level Task Planning and Reasoning Engines),将复杂任务分解为子目标序列 (Sequences of Sub-goals)。这些高级输出传递给低级行动策略 (Low-level Action Policies)(通常通过模仿学习 (Imitation Learning) 或强化学习 (Reinforcement Learning) 训练的专家策略)来执行物理交互动作。例如,Figure AI 展示了 Helix [174],NVIDIA 开发了 GR00T N1 [175],\pi_0$ \text{模型}$ [176] 整合了预训练的视觉-语言模型和流匹配 (Flow Matching) 架构。 * <strong>端到端方法 (End-to-End Approach):</strong> 将机器人操作数据直接整合到基础模型 (Foundation Models) 的训练或微调 (Fine-tuning) 过程中,构建端到端视觉-语言-行动模型 (Vision-Language-Action, VLA) [4], [68], [177], [178]。这些模型直接学习多模态输入到机器人动作输出的映射。例如,`Google DeepMind` 的 `RT`(Robotics Transformer)系列 [112], [177] 代表了典型的 VLA 模型。 ### 4.4.3. 人机交互 (Human-Robot Interaction, HRI) 人机交互 (Human-Robot Interaction, HRI) 关注使机器人能够理解和响应人类需求和情感,促进机器人 (Robots) 的高效合作、陪伴和个性化服务。 * **三个主要维度:** `认知协作 (Cognitive Collaboration)`、`物理可靠性 (Physical Reliability)` 和 `社会嵌入性 (Social Embeddedness)`。 #### 4.4.3.1. 认知协作 (Cognitive Collaboration) 认知协作 (Cognitive Collaboration) 指机器人 (Robots) 与人类之间的双向认知对齐 (Bidirectional Cognitive Alignment),实现自然和直观的沟通与合作。 * **核心目标:** 使机器人不仅能理解人类的显式指令(如语音命令 [181]、手语指令),还能理解隐式意图 (Implicit Intentions)(如情绪和上下文),并动态调整其行为以匹配人类认知模式和期望。 * **研究进展:** * `Lemaignan` 等人 [182] 探讨了社交人机交互 (Social Human-Robot Interaction) 中机器人认知所需的关键技能,包括几何推理 (Geometric Reasoning)、上下文评估 (Contextual Assessment) 和多模态对话 (Multimodal Dialogue)。 * 多模态意图学习 (Multimodal Intention Learning) 被认为是实现认知协作的关键 [183]。例如,整合面部表情和身体动作来解释口头指令的情感语气和潜在意图 [184]。 * `Laplaza` 等人 [185] 的研究展示了如何通过人类动作的上下文语义分析 (Contextual Semantic Analysis) 推断交互意图。 * 在无直接人类参与的交互任务中,机器人通过对环境的语义理解来解决面向目标的导航任务 (Goal-oriented Navigation Tasks),如 `L3mvn` [186], `Sg-Nav` [187], `Trihelper` [188], `CogNav` [189] 和 `UniGoal` [190] 利用大语言模型 (LLMs) 模拟人类认知状态。 #### 4.4.3.2. 物理可靠性 (Physical Reliability) 物理可靠性 (Physical Reliability) 在人机交互 (HRI) 中指人类与机器人之间力 (Force)、时间 (Timing) 和距离 (Distance) 的有效协调,以确保安全、高效和人机兼容的任务执行。 * **核心目标:** 使机器人能够动态响应人类动作的实时变化,包括调整运动策略 (Movement Strategies)、避免物理冲突 (Physical Conflicts) 和确保人类安全。 * **研究方向:** * <strong>物理交互中的实时控制 (Real-time Control in Physical Interaction):</strong> 依赖先进的运动规划 (Motion Planning) 和控制策略。 * <strong>基于采样的规划器 (Sampling-based Planners):</strong> 如 `概率路线图 (Probabilistic Road Map, PRM)` [193] 和 `快速探索随机树 (Rapidly-exploring Random Tree, RRT)` [194] 及其扩展,被广泛用于生成共享工作空间 (Shared Workspaces) 中的无碰撞 (Collision-free) 和人类感知轨迹 (Human-aware Trajectories) [195]-[199]。 * <strong>基于优化的规划器 (Optimization-based Planners):</strong> 如 `CHOMP` [200]、`STOMP` [201]、`ITOMP` [202]、`TrajOpt` [203], [204] 和 `GPMP` [205] 进一步提高了轨迹质量 (Trajectory Quality)。 * **控制方面:** 阻抗控制 (Impedance Control) 和导纳控制 (Admittance Control) 提供柔顺和安全的物理接触响应 [208]-[211]。 * <strong>基于仿真平台的大规模生成数据集构建 (Large-scale Generative Dataset Construction based on Simulation Platforms):</strong> * 模仿学习 (Imitation Learning) 和强化学习 (Reinforcement Learning) 方法使机器人能够从数据和经验中获取自适应运动策略 [214]-[216]。 * `HandoverSim` [217] 提供了用于人机物体交接的仿真和基准测试平台。 * `GenH2R` [218] 引入了具有广泛 3D 模型和灵巧抓取生成 (Dexterous Grasp Generation) 的仿真环境。 * `MobileH2R` [191] 集成了 `CHOMP` [200] 生成的专家演示。 #### 4.4.3.3. 社会嵌入性 (Social Embeddedness) 社会嵌入性 (Social Embeddedness) 在人机交互 (HRI) 中指机器人 (Robot) 识别和适应社会规范 (Social Norms)、文化期望 (Cultural Expectations) 和群体动态 (Group Dynamics) 的能力,使其能够无缝融入人类环境。 * **研究策略:** 解决社会空间理解 (Social Space Understanding) 和行为理解 (Behavior Understanding)。 * **社会空间理解:** 使机器人能够解释和适应人类群体的空间动态。例如,通过近体空间 (Peripersonal Space) [219], [220] 等概念,机器人能更好地解释协作或防御行为。 * **行为理解:** 侧重于从语言 (Linguistic) 和非语言 (Non-linguistic) 角度解读人类交流的复杂性。语言研究探索对话建模 (Dialogue Modeling)、会话结构 (Conversational Structure) 和话语分析 (Discourse Analysis) [224]-[228]。非语言研究关注手势 (Gestures)、凝视 (Gaze) 和情感表达 (Emotional Expressions) 的解释 [229], [230]。 * **挑战:** 机器人必须准确平衡任务效率 (Task Efficiency) 和社会适宜性 (Social Appropriateness)。 ## 4.5. 通用物理模拟器 (General Physical Simulators) 本节重点介绍了当前机器人研究中的主流模拟器,并分析了它们的各项能力。 ### 4.5.1. 主流模拟器 (Mainstream Simulators) * **Webots** [239]: 1998年推出,2018年开源。提供机器人建模、编程和仿真的集成框架。支持多种传感器模式,跨平台,多语言 API。缺乏对可变形体和流体动力学的支持。 * **Gazebo** [15]: 2002年开发,广泛采用的开源模拟器,与机器人中间件 (Robotic Middleware) 集成。支持多种传感器和机器人模型,模块化插件系统。与 `Webots` 类似,在高级物理交互方面有限。两者都与 `ROS (Robot Operating System)` 紧密集成。 * **MuJoCo (Multi-Joint dynamics with Contact)** [16]: 2012年推出,2021年被 `Google DeepMind` 收购。专为铰接系统 (Articulated Systems) 中的接触丰富动力学 (Contact-rich Dynamics) 仿真而设计,提供高精度物理计算。擅长接触动力学和强化学习 (RL) 应用。渲染能力有限,不支持流体、离散元方法 (DEM) 或激光雷达 (LiDAR) 仿真。 * **PyBullet** [240]: 2017年推出,`Bullet` 物理引擎的 Python 接口。开源、轻量级、用户友好。在仿真保真度和功能丰富性方面略逊于某些主流模拟器。 * **CoppeliaSim** [241]: 约2010年推出,前身为 `V-REP`。通用机器人仿真软件,核心优势是分布式控制架构。教育版开源免费。 * **NVIDIA Isaac 系列:** 旨在建立机器人开发和具身人工智能 (Embodied AI) 研究的闭环技术生态系统。 * **Isaac Gym** [242]: 2021年推出,率先实现了大规模 GPU 加速物理仿真,支持同时并行训练数千个环境。渲染保真度有限,不支持光线追踪、流体或 LiDAR 仿真。 * **Isaac Sim** [243]: 基于 `Omniverse` 平台 [244] 的全功能数字孪生模拟器 (Digital Twin Simulator)。结合 `PhysX 5` 物理引擎和 `RTX` 实时光线追踪 (Real-time Ray Tracing),实现高保真 LiDAR 仿真。 * **Isaac Lab** [246]: 基于 `Isaac Sim` 的模块化强化学习框架 (Modular Reinforcement Learning Framework)。采用平铺渲染技术 (Tiled Rendering Technique) 高效处理多相机输入。 * **SAPIEN (SimulAted Part-based Interactive ENvironment)** [247]: 2020年推出,专注于复杂、部件级交互对象 (Part-level Interactive Objects) 的物理真实建模。 * **Genesis** [250]: 2024年发布,通用物理仿真平台,旨在统一多种物理求解器。关键创新是生成式数据引擎 (Generative Data Engine)。具备可微分性 (Differentiability),适用于具身智能和可微分仿真。 * **NVIDIA Newton** [251]: `NVIDIA`、`Google DeepMind` 和 `Disney Research` 于2025年联合开发的开源物理引擎。目标是高保真仿真和机器人学习。 ### 4.5.2. 模拟器物理特性 (Physical Properties of Simulators) 高保真物理属性仿真 (Physical Property Simulation) 对于生成真实数据和有效策略迁移至关重要。以下是原文 Table 2 的结果,展示了不同模拟器对各种物理仿真类型的支持情况。 <div class="table-wrapper"><table> <thead> <tr> <td rowspan="1">Simulator</td> <td rowspan="1">Physics Engine</td> <td rowspan="1">Suction</td> <td rowspan="1">Random external forces</td> <td rowspan="1">Deformable objects</td> <td rowspan="1">Soft-body contacts</td> <td rowspan="1">Fluid mechanism</td> <td rowspan="1">DEM simulation</td> <td rowspan="1">Differentiable physics</td> </tr> </thead> <tbody> <tr> <td>Webots</td> <td>ODE(default)</td> <td>✓</td> <td>✓</td> <td>X</td> <td>✓</td> <td>✓</td> <td>X</td> <td>X</td> </tr> <tr> <td>Gazebo</td> <td>DART(default)</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>√</td> <td>√</td> <td>X</td> </tr> <tr> <td>MuJoCo</td> <td>MuJoCo</td> <td>-</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>X</td> <td>X</td> <td>✓</td> </tr> <tr> <td>CoppeliaSim</td> <td>Bullet, ODE, Vortex, Newton</td> <td>√</td> <td>S</td> <td>✓</td> <td>S</td> <td>X</td> <td>X</td> <td>✓</td> </tr> <tr> <td>PyBullet</td> <td>Bullet</td> <td>X</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>X</td> <td>X</td> <td>✓</td> </tr> <tr> <td>Isaac Gym</td> <td>PhysX, FleX(GPU)</td> <td>X</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>X</td> <td>✓</td> <td>✓</td> </tr> <tr> <td>Isaac Sim</td> <td>PhysX(GPU)</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>✓</td> </tr> <tr> <td>Isaac Lab</td> <td>PhysX(GPU)</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>✓</td> </tr> <tr> <td>SAPIEN</td> <td>PhysX</td> <td>✓</td> <td>✓</td> <td>X</td> <td>✓</td> <td>X</td> <td>X</td> <td>✓</td> </tr> <tr> <td>Genesis</td> <td>Custom-designed</td> <td>+</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>✓</td> </tr> </tbody> </table></div> * <strong>吸附 (Suction):</strong> 主要指接触界面的非刚性附着行为,如真空吸附抓取物体。`Webots`、`CoppeliaSim` 和 `Isaac Sim` 提供原生模块支持。`MuJoCo` 和 `Gazebo` 则通过用户自定义逻辑或插件实现。 * <strong>随机外力 (Random external forces):</strong> 模拟环境中的不确定性,如物体碰撞、风力等,增强机器人平衡能力和抗扰动性。大多数平台支持,但实现方式不同,`Isaac Gym` 提供了高效的并行控制接口。 * <strong>可变形物体 (Deformable objects):</strong> 指在外力作用下形状发生变化的材料,如布料、绳索和软体机器人。`MuJoCo` 和 `PyBullet` 提供基础功能。`Isaac Gym`、`Isaac Sim`、`Isaac Lab` 提供更高级的解决方案,利用 GPU 加速。`Genesis` 整合了最先进的物理求解器。 * <strong>软体接触 (Soft-body contacts):</strong> 指软材料(如布料、橡胶)与其它物体之间的交互仿真。`Webots`、`Gazebo`、`MuJoCo`、`CoppeliaSim` 和 `PyBullet` 提供基础仿真能力。`Isaac Gym`、`Isaac Sim`、`Isaac Lab` 和 `Genesis` 提供更高级和精确的仿真。 * <strong>流体机制 (Fluid mechanism):</strong> 液体和气体运动及相互作用的计算模型。`Webots` 和 `Gazebo` 提供基本功能。`Isaac Sim` 通过基于粒子的方法支持更复杂的流体行为。`Genesis` 整合了先进的物理求解器。 * <strong>离散元方法仿真 (DEM (Discrete Element Method) simulation):</strong> 将物体建模为刚性粒子集合,仿真粒子间接触、碰撞和摩擦等相互作用。目前主流模拟器不原生支持 `DEM`,但 `Gazebo` 可通过插件扩展。 * <strong>可微分物理 (Differentiable physics):</strong> 模拟器计算物理状态相对于输入参数(如控制信号、物体姿态)梯度的能力,实现端到端优化和学习。`MuJoCo XLA`、`PyBullet` 的 `Tiny Differentiable Simulator` 和 `Genesis` 都支持可微分物理。 ### 4.5.3. 渲染能力 (Rendering Capabilities) 仿真渲染能力 (Simulation Rendering Capabilities) 对于现代机器人研究和开发至关重要,它提供高效的虚拟实验环境,并有助于缩小 `Sim2Real` 差距。以下是原文 Table 3 的结果,展示了不同模拟器的渲染能力。 <div class="table-wrapper"><table> <thead> <tr> <td rowspan="1">Simulator</td> <td rowspan="1">Rendering Engine</td> <td rowspan="1">Ray Tracing</td> <td rowspan="1">Physically-Based Rendering</td> <td rowspan="1">Scalable Parallel Rendering</td> </tr> </thead> <tbody> <tr> <td>Webots</td> <td>WREN (OpenGL-based)</td> <td>X</td> <td>✓</td> <td>X</td> </tr> <tr> <td>Gazebo</td> <td>Ogre (OpenGL-based)</td> <td>✓</td> <td>✓</td> <td>X</td> </tr> <tr> <td>Mujoco</td> <td>OpenGL-based</td> <td>X</td> <td>X</td> <td>X</td> </tr> <tr> <td>CoppeliaSim</td> <td>OpenGL-based</td> <td>X</td> <td>X</td> <td>X</td> </tr> <tr> <td>PyBullet</td> <td>OpenGL-based (GPU) TinyRender (CPU)</td> <td>X</td> <td>X</td> <td>X</td> </tr> <tr> <td>Isaac Gym</td> <td>Vulkan-based</td> <td>X</td> <td>✓</td> <td>✓</td> </tr> <tr> <td>Isaac Sim</td> <td>Omniverse RTX Renderer</td> <td>✓</td> <td>✓</td> <td>✓</td> </tr> <tr> <td>Isaac Lab</td> <td>Omniverse RTX Renderer</td> <td>✓</td> <td>✓</td> <td>✓</td> </tr> <tr> <td>SAPIEN</td> <td>SapienRenderer (Vulkan-based)</td> <td>✓</td> <td>✓</td> <td>✓</td> </tr> <tr> <td>Genesis</td> <td>PyRender+LuisaRender</td> <td>✓</td> <td>✓</td> <td>✓</td> </tr> </tbody> </table></div> * <strong>渲染引擎 (Rendering Engine):</strong> `OpenGL` [254] 广泛采用。`Webots` 使用专有的 `WREN` 引擎。`MuJoCo` 和 `CoppeliaSim` 集成 `OpenGL` 渲染器。`PyBullet` 提供 `OpenGL` 和 `TinyRender`。`Isaac Gym` 利用 `Vulkan` [255]。`Isaac Sim` 和 `Isaac Lab` 集成 `NVIDIA Omniverse` 生态系统,使用 `Omniverse RTX` 渲染器。`SAPIEN` 使用自定义的 `Vulkan` 渲染引擎。`Genesis` 采用 `PyRender` [257] 和 `LuisaRender` [258]。 * <strong>光线追踪 (Ray Tracing):</strong> 模拟光线物理行为,生成高度准确的阴影、反射、折射和全局照明,对 `LiDAR` 和深度相机等传感器的物理模拟至关重要。`Webots`、`MuJoCo` 和 `PyBullet` 不提供原生实时光线追踪。`CoppeliaSim` 集成 `POV-Ray`。`Isaac Sim` 和 `Isaac Lab` 通过 `Omniverse RTX` 渲染器提供鲁棒的实时光线追踪。`SAPIEN` 也提供显著的光线追踪支持。`Gazebo` 通过实验性的 `NVIDIA OptiX` [259] 支持光线追踪。`Genesis` 使用 `LuisaRender`。 * <strong>基于物理的渲染 (Physically-Based Rendering, PBR):</strong> 根据材料的物理属性(如粗糙度和金属性)建模光线与材料的相互作用,生成更真实一致的视觉效果。`Webots` 的 `WREN` 引擎实现了 `PBR` 管线。`Gazebo` 通过 `Ignition Rendering` 支持 `PBR`。`MuJoCo`、`CoppeliaSim` 和 `PyBullet` 缺乏 `PBR` 支持。`Isaac Sim` 和 `Isaac Lab` 固有支持 `PBR`。`SAPIEN` 和 `Genesis` 也支持 `PBR`。 * <strong>可扩展并行渲染 (Scalable Parallel Rendering):</strong> 同时渲染多个独立的仿真环境,以进行大规模强化学习 (RL) 或数据收集。`Isaac Gym`、`Isaac Sim/Lab`、`SAPIEN` 和 `Genesis` 都将强大的并行渲染能力作为核心架构特性。老旧或通用模拟器通常缺乏这种高吞吐量的并行视觉渲染能力。 ### 4.5.4. 传感器与关节组件类型 (Sensor and Joint Component Types) 传感器 (Sensors) 是机器人感知 (Robot Perception) 的重要组成部分,为运动控制 (Motion Control) 和环境理解 (Environmental Understanding) 提供基础。准确模拟各种关节类型 (Joint Types) 对于在模拟器中重现机器人的结构和运动特性至关重要。以下是原文 Table 4 的结果,展示了不同模拟器对传感器和关节类型的支持情况。 <div class="table-wrapper"><table> <thead> <tr> <td rowspan="1">Simulator</td> <td colspan="3">SensorIMU/Force contact/ LiDAR GPSRGB Camera</td> <td colspan="2">Joint typeFloating/Fixed/Hinge HelicalSpherical/Prismatic</td> </tr> </thead> <tbody> <tr> <td>Webots</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>X</td> <td>✓</td> </tr> <tr> <td>azebo</td> <td>√</td> <td>√</td> <td>√</td> <td>√</td> <td>√</td> </tr> <tr> <td>Mujoco</td> <td>✓</td> <td>✓</td> <td>X</td> <td>X</td> <td>✓</td> </tr> <tr> <td>CoppeliaSim</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>√</td> <td>√</td> </tr> <tr> <td>PyBullet</td> <td>✓</td> <td>✓</td> <td>X</td> <td>X</td> <td>✓</td> </tr> <tr> <td>Isaac Gym</td> <td>✓</td> <td>X</td> <td>✓</td> <td>X</td> <td>✓</td> </tr> <tr> <td>Isaac Sim</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>X</td> <td>✓</td> </tr> <tr> <td>Isaac Lab</td> <td>✓</td> <td>✓</td> <td>✓</td> <td>X</td> <td>✓</td> </tr> <tr> <td>SAPIEN</td> <td>✓</td> <td>+</td> <td>X</td> <td>X</td> <td>✓</td> </tr> <tr> <td>Genesis</td> <td>✓</td> <td>✓</td> <td>✓</td> <td colspan="2">X</td> </tr> </tbody> </table></div> * <strong>传感器 (Sensors):</strong> * **常用传感器:** 大多数主流平台支持常用传感器,包括视觉 (RGB)、惯性测量单元 (IMU) 和接触力 (Contact Force) 传感。`Isaac Sim` 和 `Isaac Lab` 提供全面的高保真传感器仿真。`Genesis` 提供全面的多模态传感器支持。 * **特定传感器:** `Isaac Gym` 和 `SAPIEN` 不原生支持 `LiDAR` 传感器。`MuJoCo`、`PyBullet` 和 `SAPIEN` 缺乏 `GPS` 支持。 * <strong>关节类型 (Joint Types):</strong> * **常见关节:** 大多数模拟器支持浮动关节 (Floating Joints)、固定关节 (Fixed Joints)、铰链关节 (Hinge Joints)、球形关节 (Spherical Joints) 和棱柱关节 (Prismatic Joints)。 * <strong>螺旋关节 (Helical Joints):</strong> 这种关节类型较少支持,目前仅在 `Gazebo` 和 `CoppeliaSim` 中原生实现。 ## 4.6. 世界模型 (World Models) 世界模型 (World Models) 被定义为“理解现实世界动态,包括物理和空间属性的生成式人工智能模型” [17]。它使智能体 (Agents) 能够预测未来状态并规划行动,模仿人类导航和与环境交互的认知过程。 ### 4.6.1. 世界模型的代表性架构 (Representative Architectures of World Models) 世界模型已演变为多样化的架构范式,以捕捉复杂环境的动态。 * <strong>循环状态空间模型 (Recurrent State Space Model, RSSM):</strong> * **核心思想:** 使用紧凑的潜在空间 (Compact Latent Space) 对环境的演化状态 (Evolving State) 进行编码,并使用循环结构 (Recurrent Structure) 建模其时间动态 (Temporal Dynamics)。 * **优点:** 实现了长期预测 (Long-horizon Prediction) 和决策 (Decision-making),通过在潜在空间 (Latent Space) 中模拟可能的未来 (Possible Futures),而不是直接预测原始观测 (Raw Observations)。 * **代表:** `Dreamer` 系列 [267]-[271] 普及了 `RSSM` 框架。 * <strong>联合嵌入预测架构 (Joint-Embedding Predictive Architecture, JEPA):</strong> * **核心思想:** 与 `RSSM` 类似,`JEPA` 模型也在抽象潜在空间 (Abstract Latent Space) 中建模世界,但学习目标不同。`JEPA` 模型通过纯粹的自监督方式 (Self-supervised Manner) 预测缺失内容的抽象级别表征 (Abstract-level Representations),而不是重建视觉观测。 * **优点:** 避免了显式生成解码器 (Explicit Generative Decoders) 的需要。 * **代表:** `Yann Lecun` [272] 提出了 `JEPA`。`I-JEPA (Image JEPA)` [273] 和 `V-JEPA (Video JEPA)` [274], [275] 分别在静态和时间领域实例化了这一思想。 * <strong>基于变换器的状态空间模型 (Transformer-based State Space Models):</strong> * **核心思想:** 将循环神经网络 (Recurrent Neural Networks, RNNs) 替换为基于注意力 (Attention-based) 的序列建模 (Sequence Modeling),以解决循环架构在建模长期依赖 (Long-range Dependencies) 方面的限制。 * **优点:** 提供了更大的表达能力 (Expressiveness) 和并行性 (Parallelism)。 * **代表:** `TransDreamer` [276]、`TWM` [277] 和 `Google Deepmind` 的 `Genie` [278]。 * <strong>自回归生成世界模型 (Autoregressive Generative World Models):</strong> * **核心思想:** 将世界建模视为对词元化 (Tokenized) 视觉观测 (Visual Observations) 的序列预测任务。利用 `Transformer` 架构生成以过去上下文为条件的未来观测 (Future Observations),通常整合动作或语言等多种模态输入。 * **代表:** 早期视频生成框架如 `CogVideo` [279]、`NUWA` [280] 和 `VideoPoet` [281]。自动驾驶和 3D 场景生成的世界模型如 `GAIA-1` [282]、`OccWorld` [283]。 * <strong>基于扩散的生成世界模型 (Diffusion-based Generative World Models):</strong> * **核心思想:** 扩散模型 (Diffusion Models) 通过迭代去噪 (Iteratively Denoising) 从噪声中捕获复杂数据分布,在合成时间一致 (Temporally Consistent) 的视觉序列方面提供稳定的训练和卓越的保真度。 * **优点:** 提供了比自回归模型更强的时空一致性 (Spatiotemporal Coherence) 和更高的视觉质量 (Visual Quality)。 * **代表:** `VDM` [284]、`Imagen Video` [285]、`VideoLDM` [286]、`SVD` [287]。`OpenAI` 的 `Sora` [263] 和 `Google Deepmind` 的 `Veo3` [288] 展示了视觉真实感以及建模 3D 结构和物理动态的能力。`DriveDreamer` [289]、`Vista` [290] 和 `GAIA-2` [291] 将扩散模型应用于生成以动作或其他模态为条件的视频或 3D 场景。 ### 4.6.2. 世界模型的核心作用 (Core Roles of World Models) 世界模型 (World Models) 作为环境的通用表征 (General-purpose Representations),在各种领域中扮演着关键推动者的角色。 * <strong>世界模型作为神经模拟器 (World Models as Neural Simulator):</strong> * **核心思想:** 生成式世界模型 (Generative World Models) 能够合成以多种输入(如文本、图像、轨迹)为条件的时间连贯且语义接地的视频 (Temporally Coherent and Semantically Grounded Videos),从而模拟复杂、可控的环境。 * **应用:** 为自动驾驶 (Autonomous Driving)、机器人 (Robotics) 和虚拟智能体 (Virtual Agents) 提供可扩展的训练和评估。 * **代表:** `NVIDIA` 的 `Cosmos` 系列 [294] 提供了用于构建基础视频模型 (Foundation Video Models) 的统一平台,可适应于机器人和自动驾驶等领域。`Cosmos-Transfer1` [295] 引入了空间条件 (Spatially Conditioned) 的多模态视频生成器 (Multi-modal Video Generator)。 * **领域特定模拟器:** `Wayve` 的 `GAIA` 系列 [282], [291] 专注于真实的交通模拟。 * **3D 结构化神经模拟器:** `DriveWorld` [296] 构建了城市规模的交通模拟器。`DOME` [297] 提出了一个扩散式世界模型,预测未来 3D 占用帧 (3D Occupancy Frames)。`AETHER` [298] 引入了几何感知框架 (Geometry-aware Framework)。`DeepVerse` [299] 将世界建模重新定义为 4D 自回归视频生成任务。 * <strong>世界模型作为动态模型 (World Models as Dynamic Models):</strong> * **核心思想:** 在基于模型的强化学习 (Model-based Reinforcement Learning, MBRL) 中,智能体 (Agent) 构建环境的内部模型,包括动态模型 (Dynamic Model) 和奖励模型 (Reward Model)。世界模型通过学习预测以过去交互为条件的未来状态或观测,作为 MBRL 中的通用动态模型。 * **优点:** 显著提高样本效率 (Sample Efficiency),因为智能体可以在模拟环境中进行规划或策略学习。 * **代表:** `Dreamer` 系列 [267]-[271] 系统地探索了从视觉输入进行潜在空间 (Latent-space) 建模的方法。`ContextWM` [301] 使用自然视频以无监督方式学习可泛化视觉动态 (Generalizable Visual Dynamics)。`iVideoGPT` [302] 使用 `VQVAE` [303] 将视频、动作和奖励词元化为多模态序列。 * <strong>世界模型作为奖励模型 (World Models as Reward Models):</strong> * **核心思想:** 利用其学习到的动态 (Learned Dynamics) 来隐式推断奖励 (Rewards),通过衡量智能体行为与模型预测的一致性。如果轨迹高度可预测(即与世界模型的期望匹配),则会获得更高的奖励。 * **优点:** 解决了强化学习 (Reinforcement Learning, RL) 中设计有效奖励信号 (Reward Signals) 的基本挑战。 * **代表:** `VIPER` [305] 训练了一个自回归视频世界模型 (Autoregressive Video World Model) 来进行专家演示 (Expert Demonstrations),然后使用模型的预测可能性作为在线智能体行为的奖励。 ## 4.7. 智能体世界模型应用 (World Models for Intelligent Agents) 本节探讨了世界模型在自动驾驶 (Autonomous Driving) 和铰接机器人 (Articulated Robots) 领域的具体应用。 ### 4.7.1. 自动驾驶世界模型 (World Models for Autonomous Driving) 传统自动驾驶架构采用模块化设计,存在感知错误累积、长期依赖建模困难和在不熟悉场景中性能下降等问题。视频生成式世界模型 (Video Generation-based World Models) 已成为自动驾驶的关键研究领域。 #### 4.7.1.1. 世界模型作为自动驾驶的神经模拟器 (WMs as Neural Simulators for Autonomous Driving) 神经模拟器 (Neural Simulators) 专注于生成真实的驾驶场景,用于训练和测试自动驾驶系统。 * `GAIA-1` [282]: 开创性地将世界建模视为自动驾驶中的序列预测,整合视频、文本和动作输入,通过自回归变换器 (Autoregressive Transformer) 架构生成真实的驾驶场景。 * `GAIA-2` [312]: 结合结构化条件 (Structured Conditioning),如自我车辆动力学、多智能体交互和环境因素,改进了可控生成。 * `DriveDreamer` [313]: 引入了基于扩散的生成,具有结构化交通约束。`DriveDreamer-2` [314] 通过整合 `LLMs`,实现自然语言驱动的场景生成。`DriveDreamer4D` [315] 进一步增强了 4D 驾驶场景表征。 * `MagicDrive` [316]: 引入了新颖的街景生成框架。`MagicDrive3D` [317] 扩展了可控 3D 生成能力。`MagicDrive-V2` [318] 将框架扩展到高分辨率、长时间视频。 * `Panacea` [319]: 专注于全景视频生成,具有多视角一致性机制。 * `WoVoGen` [320]: 引入显式 4D 世界体积 (4D World Volumes) 作为基础元素,实现了多相机视频生成的一致性。 * `OccSora` [321]: 采用基于扩散的 4D 占用生成模型,模拟 3D 世界发展。 * `DriveWorld` [322]: 使用基于占用的 `记忆状态空间模型 (Memory State-Space Models, MSSM)` 进行 4D 场景理解。 * `Drive-OccWorld` [323]: 结合占用预测和端到端规划。 * `InfinityDrive` [324]: 实现了无限长驾驶序列的生成。 * `ReconDreamer` [325]: 通过在线恢复和渐进式数据更新策略增强驾驶场景重建。 #### 4.7.1.2. 世界模型作为自动驾驶的动态模型 (WMs as Dynamic Models for Autonomous Driving) 动态模型 (Dynamic Models) 专注于学习驾驶环境中的底层物理和运动模式,主要服务于感知、预测和规划任务。 * `MILE` [350]: 开创性地为城市驾驶进行基于模型的模仿学习,联合学习预测世界模型和驾驶策略。 * `TrafficBots` [352]: 解决了多智能体交通模拟,通过条件变分自动编码器 (Conditional Variational Autoencoders) 实现可配置的智能体个性化。 * `UniWorld` [353]: 采用 4D 几何占用预测 (4D Geometric Occupancy Prediction) 作为基础预训练任务。 * `OccWorld` [283]: 使用向量量化变分自动编码器 (Vector-quantized Variational Autoencoders) 从 3D 占用数据中学习离散场景词元 (Discrete Scene Tokens)。 * `GaussianWorld` [368]: 将 3D 占用预测重新定义为 4D 占用预测,使用高斯世界模型 (Gaussian World Models) 推断场景演化。 * `DFIT-OccWorld` [369]: 通过解耦动态流 (Decoupled Dynamic Flow) 引入高效的占用世界模型。 * `MUvO` [356]: 整合空间体素表征 (Spatial Voxel Representations),从相机和 `LiDAR` 数据中学习传感器无关的几何理解。 * `ViDAR` [357]: 引入视觉点云预测 (Visual Point Cloud Forecasting) 作为预训练任务。 * `LAW` [360]: 提出了无感知标签 (Perception Labels) 的自监督学习。 * `Think2Drive` [358]: 展示了在潜在空间 (Latent Space) 中高效的强化学习。 * `Cosmos-Reason1` [351]: 探索结合物理常识和具身推理 (Embodied Reasoning)。 * `Doe-1` [367]: 将自动驾驶公式化为下一个词元生成问题。 * `DrivingGPT` [370]: 结合驾驶世界建模和轨迹规划。 #### 4.7.1.3. 世界模型作为自动驾驶的奖励模型 (WMs as Reward Models for Autonomous Driving) 奖励模型 (Reward Models) 评估驾驶行为的质量和安全性,通常与强化学习 (Reinforcement Learning) 集成以优化策略。 * `Vista` [376]: 展示了使用模型自身模拟能力的可泛化奖励函数 (Generalizable Reward Functions)。 * `WoTE` [379]: 专注于使用鸟瞰图世界模型 (Bird's-Eye View World Models) 进行实时安全评估。 * `Drive-WM` [378]: 实现了多未来轨迹探索,并通过基于图像的奖励评估。 * `Iso-Dream` [375]: 解决了驾驶环境中可控与不可控动态分离的挑战。 ### 4.7.2. 铰接机器人世界模型 (World Models for Articulated Robots) 铰接机器人 (Articulated Robots)(包括机械臂 (Robotic Arms)、四足机器人 (Quadruped Robots) 和人形机器人 (Humanoid Robots))作为具身智能的核心载体,对世界建模提出了独特而严格的要求。 #### 4.7.2.1. 世界模型作为铰接机器人的神经模拟器 (WMs as Neural Simulators for Articulated Robots) 世界模型 (World Models) 通过学习生成时间连贯 (Temporally Coherent) 且语义丰富 (Semantically Rich) 的物理环境表征,作为神经模拟器 (Neural Simulators)。 * `NVIDIA` 的 `Cosmos World Foundation Model Platform` [294]: 建立了一个统一的框架,用于构建能够通过扩散 (Diffusion) 和自回归 (Autoregressive) 架构生成物理精确 3D 视频预测的基础世界模型。 * `WHALE` [381]: 提出了一种可泛化世界模型框架,具有行为条件 (Behavior-conditioning) 和回溯展开 (Retracing-rollout)。 * `RoboDreamer` [382]: 引入了一种用于机器人决策 (Robotic Decision-making) 的组合世界模型。 * `DreMa` [383]: 引入了一种组合世界模型,结合高斯泼溅 (Gaussian Splatting) 和物理模拟。 * `DreamGen` [384]: 引入了一个四阶段管线,用于通过神经轨迹训练可泛化机器人策略。 * `EnerVerse` [385]: 引入了一种用于机器人操作的生成式基础模型 (Generative Foundation Model)。 * `WorldEval` [386]: 引入了一个基于世界模型的管线,用于在线机器人策略评估。 * `华为云盘古世界模型 (Huawei Cloud's Pangu World Model)` [387]: 综合了摄像头视频、激光雷达点云等数据,生成高保真的数字环境。 * `RoboTransfer` [388]: 提出了一个几何一致的视频扩散框架,用于机器人视觉策略迁移。 #### 4.7.2.2. 世界模型作为铰接机器人的动态模型 (WMs as Dynamic Models for Articulated Robots) 世界模型 (World Models) 通过从观察数据中学习环境动态 (Environmental Dynamics) 的预测表征,作为基于模型的强化学习 (MBRL) 中的动态模型。 * `PlaNet` [429]: 提出了一个用于基于像素规划的潜在动态模型 (Latent Dynamic Model)。 * `Plan2Explore` [262]: 引入了一个自监督强化学习 (Self-supervised Reinforcement Learning) 智能体。 * `Dreamer` 系列 [300]: 学习了高维观测中的潜在状态动态。 * `Dreaming` [395] 和 `DreamingV2` [396]: 改进了 `Dreamer` 的解码器或结合了离散潜在状态。 * `DreamerPro` [397]: 通过将原型表征 (Prototypical Representations) 整合到 `Dreamer` 的世界模型中,增强了 `MBRL` 对视觉干扰的鲁棒性。 * `LEXA` [398]: 引入了一个统一的框架,用于无监督目标达成。 * `FOWM` [399]: 提出了一个结合离线世界模型预训练和在线微调的框架。 * `SWIM` [400]: 提出了一个用于机器人操作的可供性空间世界模型 (Affordance-space World Model)。 * `DWL` [401]: 是一个用于人形机器人运动的端到端强化学习框架。 * `Surfer` [402]: 引入了一个基于世界模型的机器人操作框架。 * `GAS` [403]: 提出了一个基于世界模型的深度强化学习框架,专门用于外科机器人操作。 * `Puppeteer` [404]: 提出了一个用于视觉全身人形机器人控制的层次世界模型 (Hierarchical World Model)。 * `TWIST` [405]: 提出了一个教师-学生世界模型蒸馏框架 (Teacher-Student World Model Distillation Framework)。 * `PIVOT-R` [406]: 提出了一个原始驱动 (Primitive-driven) 路径点感知世界模型 (Waypoint-aware World Model)。 * `HarmonyDream` [407]: 提出了一个世界模型的任务协调框架。 * `SafeDreamer` [408]: 将基于 `拉格朗日 (Lagrangian)` 的方法与 `Dreamer` 框架中的世界模型规划集成。 * `WMP` [409]: 提出了一个基于世界模型的感知框架,用于腿部运动。 * `RWM` [410] 和 `RWM-0` [411]: 引入了具有双自回归机制 (Dual-autoregressive Mechanisms) 的神经网络机器人世界模型。 * `ssWM` [430]: 使用状态空间世界模型加速基于模型的强化学习。 * `WMR` [413]: 提出了一个用于盲人形机器人运动的端到端世界模型重建框架。 * `PIN-WM` [414]: 提出了一个用于非抓取操作的物理信息世界模型 (Physics-informed World Model)。 * `LUMOS` [415]: 引入了一个语言条件模仿学习 (Language-conditioned Imitation Learning) 框架。 * `OSVI-WM` [432]: 提出了一个使用世界模型引导轨迹生成 (World-model-guided Trajectory Generation) 的单次视觉模仿学习框架。 * `FOCUS` [417]: 引入了一个用于机器人操作的以物体为中心的世界模型 (Object-centric World Model)。 * `FLIP` [418]: 提出了一个以流为中心 (Flow-centric) 的基于模型规划框架,用于语言-视觉操作。 * `EnerVerse-AC` [419]: 提出了一个用于机器人评估的动作条件世界模型 (Action-conditional World Model)。 * `FlowDreamer` [420]: 提出了一个使用显式 3D 场景流表征 (3D Scene Flow Representations) 的 `RGB-D` 世界模型。 * `HWM` [421]: 引入了轻量级基于视频的世界模型,用于人形机器人学。 * `MoDem-V2` [422]: 通过基于模型的强化学习框架实现了真实世界的接触丰富操作学习。 * `V-JEPA 2` [275]: 是一个 1.2B 参数的世界模型,采用联合嵌入预测架构,用于视频理解、预测和零样本规划。 #### 4.7.2.3. 世界模型作为铰接机器人的奖励模型 (WMs as Reward models for Articulated Robots) 世界模型 (World Models) 利用其学习到的动态 (Learned Dynamics) 来隐式推断奖励 (Rewards),通过衡量智能体行为与模型预测的一致性。 * `PlaNet` [267]: 使用显式学习的奖励预测器 (Reward Predictor),作为动态模型 (Dynamic Model) 的一部分。 * `VIPER` [427]: 提出了使用预训练视频预测模型 (Pretrained Video Prediction Models) 作为强化学习 (Reinforcement Learning) 的奖励信号。 ## 4.8. 图像与公式文本摘要 ### 4.8.1. 图像 1.jpg: 物理模拟器和世界模型在具身智能中的作用 ![Fig. 1: Physical simulator and world model play vital roles for embodied intelligence. Simulator provides an explicit modeling of the real world, offering a controlled environment where robots can train, test, and refine their behaviors. World model offers internal representations of the environment, enabling robots to autonomously simulate, predict, and plan actions within their cognitive framework.](/files/papers/695a15ac8c5983e9f07b9746/images/1.jpg) *该图像是示意图,展示了物理模拟器和世界模型在体现智能方面的重要角色。左侧是现实世界,物理模拟器提供显式模型,右侧是智能机器人,展现其身体能力和认知能力。世界模型通过隐式编码,帮助机器人在模拟中规划和预测行为。* 该图像是示意图,展示了物理模拟器 (Physical Simulator) 和世界模型 (World Model) 在具身智能 (Embodied Intelligence) 发展中的关键作用。左侧的真实世界 (Real World) 与右侧的智能机器人 (Intelligent Robot) 及其具身能力 (Embodied Capabilities) 和认知能力 (Cognitive Abilities) 形成对比。物理模拟器通过提供真实世界的显式模型 (Explicit Modeling),为机器人提供了受控环境 (Controlled Environment),用于训练、测试和完善其行为。世界模型则通过提供环境的内部表征 (Internal Representations),使机器人能够在认知框架内自主模拟、预测和规划行动。 ### 4.8.2. 图像 2.jpg: 智能机器人层级与技术路线 ![该图像是示意图,展示了智能机器人的不同层级及其与物理模拟器和世界模型的关系。左侧列出了智能机器人的五个层级,从基本执行到完全自主,右侧则描述了机器人运动、灵巧性和交互的相关内容。](/files/papers/695a15ac8c5983e9f07b9746/images/2.jpg) *该图像是示意图,展示了智能机器人的不同层级及其与物理模拟器和世界模型的关系。左侧列出了智能机器人的五个层级,从基本执行到完全自主,右侧则描述了机器人运动、灵巧性和交互的相关内容。* 该图像是示意图,展示了智能机器人 (Intelligent Robots) 的不同层级及其与物理模拟器 (Physical Simulators) 和世界模型 (World Models) 的关系。图的左侧列出了从 `IR-L0` (基本执行) 到 `IR-L4` (完全自主) 的五个智能机器人层级。右侧描述了机器人运动 (Locomotion)、灵巧性 (Dexterity) 和交互 (Interaction) 等相关内容,这些都是具身智能的关键组成部分。图的底部则说明了物理模拟器、世界模型、具身智能、自动驾驶 (Autonomous Driving) 和机器人学习 (Robotic Learning) 等领域的相互关联。 ### 4.8.3. 图像 3.jpg: 智能机器人分级 ![该图像是一个示意图,展示了四个不同等级的机器人智能(IR-L0到IR-L4)的分类。IR-L0为基础执行的工业机器人,IR-L1为简单服务机器人的程序响应,IR-L2为具备基本感知和适应能力的一般服务机器人,IR-L3为具有类人认知和合作能力的伴侣机器人,IR-L4为完全自主的科幻电影机器人。](/files/papers/695a15ac8c5983e9f07b9746/images/3.jpg) *该图像是一个示意图,展示了四个不同等级的机器人智能(IR-L0到IR-L4)的分类。IR-L0为基础执行的工业机器人,IR-L1为简单服务机器人的程序响应,IR-L2为具备基本感知和适应能力的一般服务机器人,IR-L3为具有类人认知和合作能力的伴侣机器人,IR-L4为完全自主的科幻电影机器人。* 该图像是一个示意图,展示了智能机器人 (Intelligent Robots) 的分级体系,从 `IR-L0` (基本执行) 到 `IR-L4` (完全自主),强调了越高的自主性 (Autonomy) 带来更高的智能 (Intelligence)。 * `IR-L0` (基本执行级别): 代表基础执行的工业机器人。 * `IR-L1` (程序响应级别): 代表简单的服务机器人,具备程序响应能力。 * `IR-L2` (初步环境感知与自主性级别): 代表具备基本感知和适应能力的一般服务机器人。 * `IR-L3` (类人认知与协作级别): 代表具有类人认知和合作能力的伴侣机器人。 * `IR-L4` (完全自主级别): 代表完全自主的科幻电影级别的机器人。 ### 4.8.4. 图像 4.jpg: 人形机器人在无结构环境适应中的进展时间线 ![Fig. 4: Timeline of advancements in unstructured environment adaption of humanoid robot.](/files/papers/695a15ac8c5983e9f07b9746/images/4.jpg) *该图像是一个示意图,展示了人形机器人在不平坦环境适应中的进展时间线。图中包括了从2008年到2024年的不同阶段,涉及机器人的平衡、走路、适应不均 terrain 和进行预感知行走等能力的发展。* 该图像是一个示意图,展示了人形机器人 (Humanoid Robot) 在无结构环境适应 (Unstructured Environment Adaption) 方面的进展时间线。从2008年开始,通过 `SARCOS` 机器人 (SARCOS Robot) 的地形适应,到2019年 `Cassie` 机器人 (Cassie Robot) 的动态行走,再到2024年的基于视觉的复杂地形运动和跑酷学习。图中标注了关键技术和研究成果,包括地形适应、平衡控制、顺应性行走、在线学习、模拟到现实 (Sim2Real) 强化学习、深度相机和激光雷达集成等。 ### 4.8.5. 图像 5.jpg: 人形机器人高动态运动进展时间线 ![Fig. 5: Timeline of advancements in high dynamic movements of humanoid robot.](/files/papers/695a15ac8c5983e9f07b9746/images/5.jpg) *该图像是一个时间轴,展示了人形机器人在动态运动方面的进展,包括跳跃和冲刺记录,从2018年的7英寸跳跃到2025年的复杂跳跃动作。* 该图像是一个时间轴,展示了人形机器人 (Humanoid Robot) 在高动态运动 (High Dynamic Movements) 方面的进展。 * **2018年:** `Cassie` 机器人实现了 7 英寸的垂直跳跃。 * **2023年:** `Cassie` 机器人跑步速度达到 5 米/秒,能够跳跃 0.5 米,并且在 `KUAVO` 机器人上实现了连续跳跃。 * **2024年:** `Cassie` 机器人能够跨越 0.8 米宽的间隙,并进行跑酷动作。 * **2025年:** `ASAP` 框架实现了复杂的跳投 (Fadeaway Jump-Shot) 动作。 ### 4.8.6. 图像 6.jpg: Unitree G1机器人在复杂环境中从不同姿势起立 ![Fig. 6: The HOST, proposed by Tao Huang et al. \[101\], enables the Unitree G1 robot to stand-up from diverse postures in complex environments.](/files/papers/695a15ac8c5983e9f07b9746/images/6.jpg) *该图像是一个示意图,展示了Unitree G1机器人在复杂环境中从不同姿势起立的过程,包括多个动态场景和姿势变化。* 该图像是一个示意图,展示了由 `Tao Huang` 等人 [101] 提出的 `HoST` 方法,使 `Unitree G1` 机器人在复杂环境 (Complex Environments) 中能够从不同姿势起立。图中描绘了机器人在多种动态场景下从卧姿或坐姿平稳地站立起来的过程,展现了其在跌倒恢复 (Fall Recovery) 和姿态控制 (Posture Control) 方面的能力。 ### 4.8.7. 图像 7.jpg: DexCap系统在灵巧操作中的应用 ![Fig. 7: DexCap \[54\] is a portable motion capture system that collects human hand movements, enabling robots to complete tasks from simple picks to complex operations like Tea preparing.](/files/papers/695a15ac8c5983e9f07b9746/images/7.jpg) *该图像是一个插图,展示了DexCap便携式动作捕捉系统的应用。上方显示了一名穿戴手套的人类用户在操控盒子中的物体,右侧为对应的3D模型展示;下方则呈现出机器手臂在进行物品抓取和精细操作的示例,如捡取篮子和整理茶具等任务。* 该图像是一个插图,展示了 `DexCap` [54] 便携式动作捕捉系统在灵巧操作 (Dexterous Manipulation) 中的应用。上方显示了一名穿戴 `DexCap` 手套的人类用户在操控盒子中的物体,右侧为对应的 3D 模型展示了手部动作的捕捉。下方则呈现出机器手臂在进行物品抓取和精细操作的示例,例如捡取篮子和整理茶具等任务,说明 `DexCap` 系统能够收集人类手部动作数据,从而使机器人完成从简单抓取到复杂操作的任务。 ### 4.8.8. 图像 8.jpg: ALOHA系列和RoboTwin 2.0在双手操作中的应用 ![Fig. 8: (1)The ALOHA series \[49\], \[153\] feature a low-cost, open-source hardware system that enables the learning of fine-grained, complex, and long-horizon mobile bimanual manipulation tasks, such as slot battery and cooking shrimp. This provides a robotic platform foundation for subsequent research. (2)RoboTwin 2.0 \[154\] enhances dual-arm manipulation by generating simulated data in simulator. It offers 50 dual-arm tasks, 731 diverse objects, and 5 embodiments for comprehensive research and development.](/files/papers/695a15ac8c5983e9f07b9746/images/8.jpg) *该图像是一个示意图,展示了ALOHA系列和RoboTwin 2.0的应用场景。ALOHA系列展示了一种低成本的开源硬件系统,用于学习复杂的双手移动操作任务,如插槽电池和烹饪虾。RoboTwin 2.0增强了双臂操作,提供50个双臂任务和731种多样对象,支持全面的研究与开发。* 该图像是一个示意图,展示了 `ALOHA` 系列 [49], [153] 和 `RoboTwin 2.0` [154] 在双手操作 (Bimanual Manipulation) 方面的应用。 * <strong>左侧 (1):</strong> `ALOHA` 系列展示了一种低成本、开源的硬件系统,能够学习细粒度、复杂和长期 (Long-horizon) 的移动双手操作任务,例如插入电池和烹饪虾。这为后续研究提供了机器人平台基础。 * <strong>右侧 (2):</strong> `RoboTwin 2.0` 通过在模拟器 (Simulator) 中生成数据来增强双臂操作 (Dual-arm Manipulation)。它提供了 50 个双臂任务 (Dual-arm Tasks)、731 种多样化对象和 5 种具身形态 (Embodiments),用于全面的研究和开发。 ### 4.8.9. 图像 9.jpg: 人形机器人的全身操作控制 ![Fig. 9: The BRS, introduced by Yunfan Jiang et al. \[119\], enables a humanoid robot to perform a wide range of complex household chores that require Whole-Body Manipulation Control, such as cleaning a toilet, taking out trash, and organizing shelves.](/files/papers/695a15ac8c5983e9f07b9746/images/9.jpg) *该图像是一个示意图,展示了一个人形机器人在执行多种复杂家务任务,包括清洁厕所、倒垃圾和整理架子。这些任务展现了机器人的全身操作控制能力。* 该图像是一个示意图,展示了由 `Yunfan Jiang` 等人 [119] 引入的 `BRS` 系统,使人形机器人 (Humanoid Robot) 能够执行一系列复杂的家庭琐事,这些任务需要全身操作控制 (Whole-Body Manipulation Control)。图中的机器人正在进行清洁马桶、倒垃圾和整理货架等多种日常任务,突显了其集成全身协调和操作能力。 ### 4.8.10. 图像 10.jpg: 机器人操作中的基础模型范式 ![该图像是示意图,展示了传统方法、分层方法和端到端方法在机器人行动中的作用。分别通过感知、规划和控制,强调了高层预训练的VLMs或LLMs与低层控制策略的结合,最后引入视觉-语言-行动(VLA)模型以实现智能机器人更好的自主性和适应性。](/files/papers/695a15ac8c5983e9f07b9746/images/10.jpg) *该图像是示意图,展示了传统方法、分层方法和端到端方法在机器人行动中的作用。分别通过感知、规划和控制,强调了高层预训练的VLMs或LLMs与低层控制策略的结合,最后引入视觉-语言-行动(VLA)模型以实现智能机器人更好的自主性和适应性。* 该图像是示意图,展示了两种利用基础模型 (Foundation Models) 驱动机器人操作 (Robot Operations) 的主要技术范式。 * <strong>左侧 (传统方法):</strong> 仅通过感知 (Perception)、规划 (Planning) 和控制 (Control) 进行操作。 * <strong>中间 (分层方法):</strong> 利用预训练的 `VLMs` 或 `LLMs` 作为高级推理引擎,将语言指令 (Language Instructions) 和视觉输入 (Visual Inputs) 转化为低级控制策略 (Low-level Control Policies) 的动作。这使得机器人能够执行复杂任务并进行多任务处理。 * <strong>右侧 (端到端方法):</strong> 直接将视觉-语言-行动 (Visual-Language-Action, VLA) 模型作为基础模型 (Foundation Model),实现从多模态输入到机器人动作的端到端映射,从而实现更高的自主性和适应性。 ### 4.8.11. 图像 11.jpg: 认知交互分析促进人机协作 ![Fig. 11: Cognitive interaction analysis enables effective humanrobot collaboration in assembly tasks \[180\].](/files/papers/695a15ac8c5983e9f07b9746/images/11.jpg) *该图像是示意图,展示了人机协作在装配任务中的认知互动分析。左侧展示了待装配的零件,如轴承和盖子,右侧展示了协作机器人与人类操作员在装配过程中的不同状态,包括获取部件和装配产品的步骤。* 该图像是示意图,展示了认知交互分析 (Cognitive Interaction Analysis) 如何在装配任务中实现有效的人机协作 (Human-Robot Collaboration)。左侧展示了待装配的零件,如轴承和盖子。右侧展示了协作机器人 (Collaborative Robot) 与人类操作员 (Human Operator) 在装配过程中的不同状态。通过认知分析,机器人能够理解人类意图 (Human Intentions) 和行为模式,从而在获取部件、执行装配等步骤中进行更流畅和有效的协作。 ### 4.8.12. 图像 12.jpg: 物理可靠性通过感知与规划确保 ![Fig. 12: Physical Reliability are ensured through perception and planning \[191\].](/files/papers/695a15ac8c5983e9f07b9746/images/12.jpg) *该图像是示意图,展示了物理可靠性通过感知与规划来保障的过程。图中显示了多个代表性角色和其与环境的交互关系,强调了内在感知机制的重要性与决策过程之间的联系。* 该图像是示意图,展示了物理可靠性 (Physical Reliability) 如何通过感知 (Perception) 和规划 (Planning) 来确保。图中显示了多个智能体 (Agents) 及其与环境的交互关系,强调了内在感知机制 (Perception Mechanisms) 和决策过程 (Decision-making Processes) 之间的紧密联系。通过精确的感知输入和优化的规划算法,机器人能够在动态环境中安全、高效地执行任务,从而保障物理可靠性。 ### 4.8.13. 图像 13.jpg: 机器人与人类社交导航场景 ![Fig. 13: A social navigation scenario where the robot communicates its intent to a human via a wearable haptic interface \[237\].](/files/papers/695a15ac8c5983e9f07b9746/images/13.jpg) *该图像是一个示意图,展示了机器人通过可穿戴触觉接口与人类进行社交导航的场景。在图中,一个人正朝着右侧走,机器人在他的前方进行导航。可穿戴触觉接口向用户传达机器人的意图。* 该图像是一个示意图,展示了一个社交导航 (Social Navigation) 场景,其中机器人 (Robot) 通过可穿戴触觉接口 (Wearable Haptic Interface) 向人类传达其意图。图中,一个人正朝着右侧行走,机器人与他并行或稍前进行导航。可穿觉接口可能提供振动或压力反馈,指导人类的行动或预警机器人的意图,从而实现更流畅、更安全的社会交互。 ### 4.8.14. 图像 14.jpg: 机器人研究的主流模拟器 ![Fig. 14: Mainstream Simulators for robotic research.](/files/papers/695a15ac8c5983e9f07b9746/images/14.jpg) *该图像是图表,展示了用于机器人研究的主流仿真器,包括Webots、Gazebo、CoppeliaSim、PyBullet、Genesis、Isaac Gym、Isaac Sim、Isaac Lab、MuJoCo和SAPIEN等。这些仿真器为机器人智能体的训练和评估提供了高保真度的环境。* 该图像是图表,展示了用于机器人研究的主流模拟器 (Mainstream Simulators)。这些模拟器包括 `Webots`、`Gazebo`、`CoppeliaSim`、`PyBullet`、`Genesis`、`Isaac Gym`、`Isaac Sim`、`Isaac Lab`、`MuJoCo` 和 `SAPIEN`。这些平台为机器人智能体 (Robotic Agents) 的训练和评估提供了高保真度的虚拟环境,支持从物理仿真到渲染、传感器模拟等多个方面。 ### 4.8.15. 图像 15.jpg: 模拟器中的主要关节类型 ![Fig. 15: Main joint types in simulators. \[260\]](/files/papers/695a15ac8c5983e9f07b9746/images/15.jpg) *该图像是示意图,展示了六种主要的关节类型,包括浮动关节、铰链关节、球形关节、棱柱关节、固定关节和螺旋关节。这些关节在机器人模拟器中用于实现不同的运动机制。* 该图像是示意图,展示了模拟器 (Simulators) 中六种主要的关节类型 (Joint Types)。这些关节是构建机器人模型并模拟其运动的基础。 * <strong>浮动关节 (Floating Joint):</strong> 允许物体在 3D 空间中自由平移和旋转。 * <strong>固定关节 (Fixed Joint):</strong> 完全约束两个物体之间的相对运动。 * <strong>铰链关节 (Hinge Joint):</strong> 允许物体绕一个固定轴旋转。 * <strong>球形关节 (Spherical Joint):</strong> 允许物体绕一个固定点进行 3D 旋转。 * <strong>棱柱关节 (Prismatic Joint):</strong> 允许物体沿一个固定轴进行线性平移。 * <strong>螺旋关节 (Helical Joint):</strong> 允许物体同时进行旋转和沿同一轴线的平移,如螺丝运动。 ### 4.8.16. 图像 16.jpg: 世界模型在AI系统中的作用与训练 ![该图像是示意图,展示了在没有奖励的环境中,通过无任务探索学习全局世界模型的过程。该模型支持预测和适应不同任务(A、B、C),并实现零样本或少样本适应能力。](/files/papers/695a15ac8c5983e9f07b9746/images/16.jpg) *该图像是示意图,展示了在没有奖励的环境中,通过无任务探索学习全局世界模型的过程。该模型支持预测和适应不同任务(A、B、C),并实现零样本或少样本适应能力。* 该图像是一个示意图,展示了世界模型 (World Models) 在人工智能 (AI) 系统中的作用和训练方式。 * <strong>左侧 (a):</strong> 展示了 `Lecun` 提出的 `AI` 系统中世界模型 (World Model) 的作用 [261]。世界模型预测由想象中的动作引起的可能未来世界状态 (Future World States),并利用短期记忆 (Short-term Memory) 和预测的世界状态,与内在成本批评器 (Intrinsic Cost Critic) 及其相关的内在成本 (Intrinsic Cost) 结合,进行规划 (Planning)。当前世界状态由感知估计 (Perception Estimates) 获得。 * <strong>右侧 (b):</strong> 展示了如何以自监督方式 (Self-supervised Manner) 学习世界模型 [262]。智能体 (Agent) 通过在环境中进行无任务探索 (Task-agnostic Exploration) 来学习一个全局世界模型 (Global World Model),该模型能够预测和适应不同的任务 (Task A, B, C),并实现零样本 (Zero-shot) 或少样本适应 (Few-shot Adaptation)。 ### 4.8.17. 图像 17.jpg: 世界模型的代表性架构和应用 ![Fig. 17: Representative architectures and applications of world models.](/files/papers/695a15ac8c5983e9f07b9746/images/17.jpg) *该图像是示意图,展示了世界模型的代表性架构及其应用。包括递归状态空间模型、联合嵌入预测架构、扩散式和基于变换器的世界模型,并呈现了不同年份的应用实例,如自动驾驶和通用机器人等。* 该图像是示意图,展示了世界模型 (World Models) 的代表性架构演变及其应用。 * **架构演变:** 从早期的循环状态空间模型 (RSSM) 演变到联合嵌入预测架构 (JEPA),再到基于变换器 (Transformer-based) 的状态空间模型、自回归生成模型 (Autoregressive Generative Models) 和基于扩散的生成模型 (Diffusion-based Generative Models)。 * **应用领域:** 世界模型在自动驾驶 (Autonomous Driving)、机器人学习 (Robotic Learning) 和通用代理 (General-purpose Agents) 等多个领域中发挥着关键作用。 * **时间线:** 图中也大致显示了这些架构和应用在时间上的发展。 ### 4.8.18. 图像 18.jpg: 自回归变换器与视频扩散世界模型对比 ![Fig. 18: Comparison of autoregressive transformer-based world models and video diffusion-based world model](/files/papers/695a15ac8c5983e9f07b9746/images/18.jpg) *该图像是图表,展示了自回归变换器基础的世界模型(例如 GAIA-1)和视频扩散基础的世界模型(例如 Vista)的比较。左侧展示了自回归过程的结构,而右侧则概述了视频扩散模型的时间演变及其未来预测能力。* 该图像是图表,展示了自回归变换器基础的世界模型 (Autoregressive Transformer-based World Models) 和视频扩散基础的世界模型 (Video Diffusion-based World Models) 的比较。 * <strong>左侧 (自回归变换器):</strong> 例如 `GAIA-1`,通过自回归过程 (Autoregressive Process) 逐步生成未来帧。其特点是基于离散词元 (Discrete Tokens) 序列生成,可能在长期一致性方面面临挑战。 * <strong>右侧 (视频扩散模型):</strong> 例如 `Vista`,通过迭代去噪 (Iterative Denoising) 过程生成视频帧。其特点是能够生成具有高视觉质量 (High Visual Quality) 和时空一致性 (Spatiotemporal Coherence) 的视频,并且可以条件化 (Conditioned) 于动作 (Action) 或其他模态。 ### 4.8.19. 图像 19.jpg: 基于模型的强化学习通用框架 ![Fig. 19: The general framework of Model-based RL. The agent learns a dynamic model $f : ( s _ { t } , a _ { t } ) \\ : \\ : s _ { t + 1 }$ and a reward model `r : ( s _ { t } , a _ { t } ) r _ { t } ,` which are used to simulate interactions and improve policy learning.](/files/papers/695a15ac8c5983e9f07b9746/images/19.jpg) *该图像是一个示意图,展示了基于模型的强化学习框架。图中包含三个主要组件:动态模型(Environment)、奖励模型(Reward Model)和策略模型(Policy Model / Agent)。状态 $s_t$ 经过策略模型生成动作 $a_t$,并接收奖励 $r_t$,同时预测下一个状态 $s_{t+1}$。该框架强调了各组件之间的相互作用,以改进政策学习。* 该图像是一个示意图,展示了基于模型的强化学习 (Model-based Reinforcement Learning, MBRL) 的通用框架。 * <strong>智能体 (Agent)</strong> (Policy Model): 根据当前状态 $s_t$ 生成动作 $a_t$。 * <strong>环境模型 (Environment Model):</strong> 包含两个核心部分: * <strong>动态模型 (Dynamic Model):</strong> 学习函数 $f : (s_t, a_t) \rightarrow s_{t+1}$,预测在状态 $s_t$ 执行动作 $a_t$ 后,下一个状态 $s_{t+1}$ 是什么。 * <strong>奖励模型 (Reward Model):</strong> 学习函数 $r : (s_t, a_t) \rightarrow r_t$,预测在状态 $s_t$ 执行动作 $a_t$ 后,会获得多少奖励 $r_t$。 * **交互过程:** 智能体 (Agent) 使用动态模型和奖励模型在内部模拟 (Simulate) 与环境的交互,从而帮助智能体做出更好的决策,提高策略学习 (Policy Learning) 效率。 ### 4.8.20. 图像 20.jpg: 潜在动态模型与规划 ![该图像是示意图,展示了世界模型学习(左侧)和演员-评论家学习(右侧)两个不同的学习框架。左侧的框架通过编码器(enc)和解码器(dec)进行信息处理,而右侧框架则通过价值函数(v)与动作(a)进行决策学习。两个框架都展示了环境状态(z)和输入图像(x)的关系。](/files/papers/695a15ac8c5983e9f07b9746/images/20.jpg) *该图像是示意图,展示了世界模型学习(左侧)和演员-评论家学习(右侧)两个不同的学习框架。左侧的框架通过编码器(enc)和解码器(dec)进行信息处理,而右侧框架则通过价值函数(v)与动作(a)进行决策学习。两个框架都展示了环境状态(z)和输入图像(x)的关系。* 该图像是示意图,展示了潜在动态模型 (Latent Dynamic Models) 在基于模型的强化学习 (MBRL) 中学习和规划的两个核心方面。 * <strong>左侧 (学习世界模型):</strong> 智能体 (Agent) 通过编码器 (Encoder, `enc`) 将原始图像观测 (Raw Image Observation, $x_t$) 映射到紧凑的潜在状态 (Latent State, $s_t$)。世界模型 (World Model) 在潜在空间中学习动态,预测下一个潜在状态 $s_{t+1}$ 和奖励 $r_t$,然后解码器 (Decoder, `dec`) 可以将潜在状态解码回图像 $x_t$。 * <strong>右侧 (通过世界模型进行规划):</strong> 智能体 (Agent) 在学习到的世界模型中进行“想象的展开 (Imagined Rollouts)”。从当前潜在状态 $s_t$ 开始,智能体在潜在空间中模拟一系列动作 $a_t, a_{t+1}, \dots$,并利用预测的奖励 $r_t, r_{t+1}, \dots$ 和价值函数 (Value Function, $v$) 来评估这些轨迹,从而选择最优动作。 ### 4.8.21. 图像 21.jpg: 自动驾驶世界模型的三种角色 ![该图像是示意图,展示了神经模拟器、动力学模型和奖励模型之间的关系。输入由当前驾驶状态和不同条件组成,通过编码器和世界模型处理,并用于下游任务的计划与控制。各模块通过解码器输出相关信息。](/files/papers/695a15ac8c5983e9f07b9746/images/21.jpg) *该图像是示意图,展示了神经模拟器、动力学模型和奖励模型之间的关系。输入由当前驾驶状态和不同条件组成,通过编码器和世界模型处理,并用于下游任务的计划与控制。各模块通过解码器输出相关信息。* 该图像是示意图,展示了世界模型 (World Models) 在自动驾驶 (Autonomous Driving) 中扮演的三种主要角色:神经模拟器 (Neural Simulator)、动态模型 (Dynamic Model) 和奖励模型 (Reward Model)。 * **输入:** 统一输入包括当前驾驶状态 (Current Driving State) 和各种条件信息 (Conditions)。 * <strong>编码器 (Encoder):</strong> 将输入编码为潜在表征 (Latent Representation)。 * <strong>世界模型 (World Model):</strong> 根据潜在表征和条件,处理核心预测和生成任务。 * **作为神经模拟器:** 生成未来的驾驶场景 (Future Driving Scenarios),用于数据增强 (Data Augmentation) 和安全验证 (Safety Validation)。 * **作为动态模型:** 预测环境的未来状态和行为,支持感知 (Perception)、预测 (Prediction) 和规划 (Planning) 任务。 * **作为奖励模型:** 评估驾驶行为的质量和安全性,为强化学习 (Reinforcement Learning) 提供奖励信号。 * <strong>解码器 (Decoder):</strong> 将世界模型输出的潜在表征解码为具体的下游任务 (Downstream Tasks) 结果,如未来的视频帧、运动预测或策略控制。 ### 4.8.22. 图像 22.jpg: GAIA系列、MagicDrive和DriveDreamer的自动驾驶世界模型管线 ![该图像是示意图,展示了世界模型在编码和解码过程中如何处理多视角图像的信息。左侧展示了多个摄像头捕捉的图像,经过编码器处理后,进入世界模型模块,结合时间步和条件嵌入,最终形成去噪图像,右侧显示了重建的场景。](/files/papers/695a15ac8c5983e9f07b9746/images/22.jpg) *该图像是示意图,展示了世界模型在编码和解码过程中如何处理多视角图像的信息。左侧展示了多个摄像头捕捉的图像,经过编码器处理后,进入世界模型模块,结合时间步和条件嵌入,最终形成去噪图像,右侧显示了重建的场景。* 该图像是示意图,展示了 `GAIA` 系列 [312]、`MagicDrive` [316] 和 `DriveDreamer` [313] 自动驾驶世界模型 (Autonomous Driving World Models) 的三种代表性管线。 * <strong>GAIA 系列管线 (左侧):</strong> `GAIA` 模型主要包含两个核心组件:视频词元化器 (Video Tokenizer) 和潜在世界模型 (Latent World Model)。多视角 (Multi-view) 图像经过编码器 (Encoder) 处理后,输入到世界模型,该模型结合时间步 (Timestep) 和条件嵌入 (Condition Embeddings),最终生成去噪 (Denoised) 图像。 * <strong>MagicDrive 管线 (中间):</strong> `MagicDrive` 模型接受多样化的输入,如相机姿态 (Camera Poses)、道路地图 (Road Maps) 和 3D 边界框 (3D Bounding Boxes)。这些输入通过定制的编码策略 (Encoding Strategies) 处理,并结合跨视图注意力模块 (Cross-view Attention Module) 生成一致的多相机视图 (Multi-camera Views)。 * <strong>DriveDreamer 管线 (右侧):</strong> `DriveDreamer` 模型通过条件输入 (Conditional Inputs) 和扩散模型 (Diffusion Model) 生成未来驾驶视频和动作。它将结构化交通约束 (Structured Traffic Constraints) 和 `LLMs` 整合到其生成过程中,以实现多样化和可控的场景生成。 ### 4.8.23. 图像 23.jpg: Cosmos-Predict世界基础模型 ![Fig. 23: The Cosmos-Predict World Foundation Model processes input videos through Cosmos-Tokenize1 $C \\nabla 8 \\times 8 \\times 8 -$ $7 2 0 \\mathrm { p }$ , encoding them into latent representations perturbed with Gaussian noise. A 3D patchification step structures these latents, followed by iterative self-attention, crossattention (conditioned on text), and MLP blocks, modulated by adaptive layer normalization. Finally, the decoder reconstructs high-fidelity video output from the refined latent space. This architecture enables robust spatiotemporal modeling for diverse Physical AI applications \[294\].](/files/papers/695a15ac8c5983e9f07b9746/images/24.jpg) *该图像是示意图,展示了Cosmos-Predict世界模型的工作流程。输入视频经过3D Patchify和自注意力层处理后,与文本条件交叉注意,最终重构高保真视频输出。模型完成从当前状态到未来状态的预测,用以引导机器人执行任务。* 该图像是示意图,展示了 `Cosmos-Predict` 世界基础模型 (World Foundation Model) 的工作流程 [294]。 * **输入:** 原始视频 (Input Videos) 经过 `Cosmos-Tokenize1` 模块 (C\nabla 8 \times 8 \times 8 - 720p) 处理,将其编码为被高斯噪声扰动 (Perturbed with Gaussian Noise) 的潜在表征 (Latent Representations)。 * **处理:** 经过 3D 分块 (3D Patchification) 步骤结构化这些潜在变量后,它们通过迭代的自注意力 (Iterative Self-attention)、交叉注意力 (Cross-attention)(以文本为条件)和多层感知机 (MLP) 模块进行处理,并由自适应层归一化 (Adaptive Layer Normalization) 进行调节。 * **输出:** 最后,解码器 (Decoder) 从细化的潜在空间 (Refined Latent Space) 重建高保真视频输出 (High-fidelity Video Output)。 这个架构能够为多样化的物理人工智能 (Physical AI) 应用提供鲁棒的时空建模 (Spatiotemporal Modeling)。 ### 4.8.24. 图像 25.jpg: 潜在动态模型中的不同转换机制 ![该图像是图示,展示了三种不同类型的模型:确定性模型(RNN)、随机模型(SSM)和递归状态空间模型。每种模型通过不同的结构表达了动作、隐藏状态和观测值之间的关系。](/files/papers/695a15ac8c5983e9f07b9746/images/25.jpg) *该图像是图示,展示了三种不同类型的模型:确定性模型(RNN)、随机模型(SSM)和递归状态空间模型。每种模型通过不同的结构表达了动作、隐藏状态和观测值之间的关系。* 该图像是图示,展示了潜在动态模型 (Latent Dynamic Models) 中采用的不同转换机制 (Transition Mechanisms) 或时间预测方式。 * <strong>左侧 (a): 循环神经网络 (RNN) 模型:</strong> 描述了 `DreamerV2` [269] 等基于 `RNN` 的模型,其中潜在状态 (Latent State, $s_t$) 依赖于前一个潜在状态 $s_{t-1}$、动作 $a_{t-1}$ 和当前观测 $o_t$ 的编码。这种模型通过确定性 (Deterministic) 和随机 (Stochastic) 转换来处理信息。 * <strong>中间 (b): 状态空间模型 (SSM):</strong> 描述了 `SSM`,其中潜在状态 (Latent State) 的转换是线性的。 * <strong>右侧 (c): 循环状态空间模型 (RSSM):</strong> `RSSM` (如 `PlaNet` [267] 和 `Dreamer` [268]) 结合了确定性 ($s_t$) 和随机 ($z_t$) 潜在变量,通过循环神经网络 (RNN) 捕获动态。 图中展示了这些模型如何从观测 (Observation, $o_t$) 编码 (Encode) 潜在状态 ($z_t, s_t$),并通过动态模型 (Dynamic Model) 预测下一个潜在状态和奖励 (Reward, $r_t$),最终解码 (Decode) 回观测。 ### 4.8.25. 图像 26.jpg: 自监督学习架构 ![该图像是示意图,展示了三种不同的架构:联合嵌入架构(a)、生成架构(b)、和联合嵌入预测架构(c)。图中包含了相关的编码器和解码器以及它们之间的关系,关键的判别器 $D(s_x, s_y)$ 在不同架构中起到了重要的作用。](/files/papers/695a15ac8c5983e9f07b9746/images/26.jpg) *该图像是示意图,展示了三种不同的架构:联合嵌入架构(a)、生成架构(b)、和联合嵌入预测架构(c)。图中包含了相关的编码器和解码器以及它们之间的关系,关键的判别器 $D(s_x, s_y)$ 在不同架构中起到了重要的作用。* 该图像是示意图,展示了自监督学习架构 (Self-supervised Learning Architectures),利用隐式对比 (Implicit Contrastive) 方法来建模兼容性。 * <strong>左侧 (a): 联合嵌入架构 (Joint-Embedding Architecture):</strong> 两个编码器 (Encoder, $E_1, E_2$) 将输入 $x$ 和 $y$ 编码为潜在表征 ($s_x, s_y$)。判别器 $D(s_x, s_y)$ 评估这些表征的兼容性,目标是使兼容输入的兼容性低 (Low for Compatible Inputs),不兼容输入的兼容性高 (High for Incompatible Inputs)。 * <strong>中间 (b): 生成架构 (Generative Architecture):</strong> 编码器 $E$ 将输入 $x$ 编码为 $s_x$,解码器 $G$ 尝试从 $s_x$ 重建 $x$。 * <strong>右侧 (c): 联合嵌入预测架构 (Joint-Embedding Predictive Architecture):</strong> 编码器 $E$ 将 $x$ 编码为 $s_x$,而预测器 $P$ 尝试从 $s_x$ 预测 $s_y$,其中 $s_y$ 是由另一个编码器 $E'$ 编码的 $y$。判别器 $D(P(s_x), s_y)$ 评估预测 $P(s_x)$ 与真实 $s_y$ 之间的兼容性。 ## 4.9. 机器人学习技术综述 ### 4.9.1. 机器人移动性 (Robotic Locomotion) 机器人移动性 (Robotic Locomotion) 旨在实现自然运动模式,包括行走、跑步和跳跃。通过感知 (Perception)、规划 (Planning) 和控制 (Control) 的集成,具备移动能力的机器人可达到 `IR-L2` 级别。 #### 4.9.1.1. 腿部运动 (Legged Locomotion) * <strong>无结构环境适应 (Unstructured Environment Adaption):</strong> 关注在复杂、未知或动态环境中保持稳定行走的能力。 * **早期方法:** 主要使用位置控制的人形机器人,如 `SARCOS` [73] 机器人,通过基于无源性的接触力控制框架 [57] 实现地形适应。 * **挑战:** 早期机器人关节由于高传动比导致高阻抗,在受到大冲击时易损坏 [76],限制了地形适应能力。 * **现代进展:** 采用力控关节 (Force-controlled Joints) 和低传动比 [77], [78],提高了柔顺性 (Compliance)。 * **先进算法:** `Jacob Reher` 等人 [59] 提出全身动态控制器,实现 `Cassie` 机器人 [59] 在户外草地等地形的稳定行走。`George Mesesan` 等人 [60] 结合 `DCM` (发散成分运动) 和基于无源性的 `WBC` (全身控制) 实现 `TORO` 机器人 [60] 在软垫上的动态行走。 * **外部感知整合:** `Jiunn-Kai Huang` 等人 [62] 将低频路径规划器与高频反应控制器集成,使 `Cassie Blue` 机器人能穿越复杂地形。 * **基于学习的方法:** `Joonho Lee` 等人 [86] 首次成功将强化学习应用于腿部运动的真实世界,超越传统方法 [87]。`Jonah Siekmann` 等人 [61] 使用域随机化训练 `Cassie` 机器人盲走楼梯。利用深度相机和激光雷达构建高度图 [63]、感知内部模型 (PIM) [88] 或端到端策略 [64] 进一步增强了机器人移动能力。 * <strong>高动态运动 (High Dynamic Movements):</strong> 跑步和跳跃等高动态运动对双足机器人控制系统要求更高。 * **简化模型:** 早期研究采用 `SLIP` (弹簧加载倒立摆) [89]、`LIPM` (线性倒立摆模型) [90] 和 `SRBM` (单刚体模型) [91] 来降低计算复杂性。 * **代表工作:** `Xiaobin Xiong` 和 `Aaron D. Ames` [79] 使用 `CLF-QP` 实现 `Cassie` 机器人的垂直跳跃。`Qi` 等人 [80] 基于 `LIPM` 提出 `CoP` 引导角动量控制器。`He` 等人 [83] 引入 `CDM-MPC` 实现 `KUAVO` 机器人的连续跳跃。 * <strong>基于强化学习 (RL-based):</strong> 在跑步 [81]、跳跃 [82] 和跑酷 [92] 等活动中显示出良好效果。 * <strong>模仿学习 (Imitation Learning):</strong> 利用人类运动数据集 [93] 实现富有表现力的机器人行为。`AMP` (对抗运动先验) [94] 从动作捕捉数据中提取风格化奖励。`Exbody` [37], [95]、`OmniH20` [96] 和 `ASAP` [84] 等框架实现了自然灵活的全身运动。 #### 4.9.1.2. 跌倒保护与恢复 (Fall Protection and Recovery) 人形机器人容易跌倒,可能造成损坏或操作中断。 * **基于模型的方法:** * `UKEMI` [97] 控制机器人跌倒姿态以最小化损坏,并设计关节运动模式和控制策略进行恢复 [98]。 * `Libo Meng` 等人 [99] 提出基于人类跌倒生物力学分析的跌倒运动控制方法。 * `Dong` 等人 [100] 提出柔顺控制框架,使机器人能调整刚度和阻尼以响应外部扰动。 * **基于学习的方法:** * `HiFAR` [102] 通过多阶段课程学习训练人形机器人从跌倒中恢复。 * `HoST` [101] 通过平滑正则化和隐式动作速度限制,使 `Unitree G1` 机器人在复杂环境中从不同姿态站立起来。 * `Embrace Collisions` [103] 扩展了机器人通过全身接触与环境交互的能力。 ### 4.9.2. 机器人操作 (Robotic Manipulation) 机器人操作涵盖从简单拾取到复杂组装等任务。 #### 4.9.2.1. 单手操作任务 (Unimanual Manipulation Task) 指使用单个末端执行器(如夹持器或灵巧手)进行操作。 * <strong>夹持器操作 (Gripper-based Manipulation):</strong> * **传统方法:** 早期研究依赖精确物理模型和预编程 [105],适用于结构化环境,但对非结构化环境适应性差。 * **基于学习方法:** * **感知:** `PoseCNN` [107] 实现实例级 6D 姿态估计;`NOCS` [108] 推动类别级估计。 * **功能可供性学习:** `AffordanceNet` [109] 通过监督学习识别可操作区域;`Where2Act` [110] 使用自监督模拟交互。 * **模仿学习:** `NDFs` [111] 增强策略泛化;`Diffusion Policy` [3] 利用扩散模型进行多模态动作;`RT2` [112] 整合基础模型解释复杂指令。 * **任务导向操作:** 机器人能处理杂乱环境(如 `CollisionNet` [113], `PerAct` [114]),操作可变形和铰接物体 [115]-[118]。 * <strong>灵巧手操作 (Dexterous Hand Manipulation):</strong> 旨在实现类似人类手的复杂精确操作。 * **早期工作:** 关注硬件设计(如 `Utah/MIT Hand` [121], `Shadow Hand` [122], `BarrettHand` [123])和理论基础(如 `Napier` [124] 的抓取模式分类,`Salisbury` 和 `Craig` [125] 的力控制和运动学分析)。 * **基于学习方法:** 克服了传统基于模型方法的局限性,成为主流。 * **两阶段方法:** 先生成抓取姿态,再控制灵巧手实现。如 `UGG` [136] 使用扩散模型生成姿态和物体几何,`SpringGrasp` [141] 建模部分观测的不确定性。 * **端到端方法:** 直接使用强化学习或模仿学习建模抓取轨迹。如 `DexVIP` [145] 和 `GRAFF` [146] 整合视觉可供性线索;`DextrAH-G` [147] 和 `DextrAH-RGB` [148] 通过大规模模拟实现真实世界泛化。`SparseDFF` [150] 和 `Neural Attention Field` [151] 增强泛化能力;`DexGraspVLA` [152] 采用视觉-语言-行动框架。 #### 4.9.2.2. 双手操作任务 (Bimanual Manipulation Task) 需要协调使用两只手臂的机器人任务。 * **挑战:** 高维状态-动作空间、潜在的臂间和环境碰撞、以及有效协调和角色分配的需求。 * **早期研究:** `BUDS` [156] 将任务分解为稳定器和执行器角色;`SIMPLe` [157] 使用图高斯过程表示运动基元。 * **大规模数据收集与模仿学习:** `ALOHA` 系列 [49], [153], [158] 实现了高效的演示数据收集。`ACT` [49] 结合动作分块和 `CVAE` 框架。`Mobile ALOHA` [153] 引入移动底座。`RDT-1B` [50] 提出了基于扩散 `DiT` 架构的双手操作基础模型。 * **灵巧手双手操作:** `[140]`, `[159]`, `[160]` 调查了基于强化学习的方法将人类技能迁移到机器人灵巧手。 #### 4.9.2.3. 全身操作控制 (Whole-Body Manipulation Control) 指人形机器人使用其整个身体与物体交互和操作。 * **进展:** 基于学习的方法在增强机器人自主性、适应性和交互能力方面取得显著进展。 * **大型预训练模型:** `TidyBot` [164] 利用 `LLMs` 学习个性化偏好;`MOO` [165] 通过 `VLMs` 将语言指令映射到视觉观测;`HARMON` [166] 结合人类运动生成先验和 `VLM` 编辑。 * **视觉演示:** `OKAMI` [167] 提出物体感知重定向方法;`iDP3` [168] 通过 3D 扩散策略实现多场景任务执行。 * **鲁棒和灵巧的全身控制:** `OmniH20` [96] 采用强化学习 `Sim-to-Real` 训练全身控制策略;`HumanPlus` [6] 系统结合 `Transformer` 低级控制策略和视觉模仿策略;`WB-VIMA` [119] 建模全身动作的层次结构。 #### 4.9.2.4. 人形机器人操作中的基础模型 (Foundation Models in Humanoid Robot Manipulation) 基础模型 (FMs) 是在互联网规模数据上预训练的大规模模型(`LLMs`, `VMs`, `VLMs`)。 * **作用:** 使人形机器人能在复杂动态非结构化环境中执行操作任务。 * **两种范式:** * **分层方法:** 利用预训练的语言或视觉-语言基础模型作为高级任务规划和推理引擎。如 `Figure AI` 的 `Helix` [174],`NVIDIA` 的 `GR00T N1` [175],\pi_0模型 \text{模型} [176]。
    • 端到端方法: 将机器人操作数据直接整合到基础模型训练中,构建端到端 VLA 模型 [4], [68], [177], [178]。如 Google DeepMindRT 系列 [112], [177]。

4.9.3. 人机交互 (Human-Robot Interaction, HRI)

人机交互 (HRI) 关注使机器人理解和响应人类需求和情感。

4.9.3.1. 认知协作 (Cognitive Collaboration)

指机器人与人类之间的双向认知对齐。

  • 核心目标: 使机器人不仅理解显式指令,还能理解隐式意图,并动态调整行为。
  • 研究进展: Lemaignan 等人 [182] 探索社交人机交互中机器人认知技能。多模态意图学习 [183] 被认为是关键。Laplaza 等人 [185] 通过上下文语义分析推断交互意图。在无人类直接参与的任务中,机器人通过语义理解解决目标导向导航任务 [186]-[190]。

4.9.3.2. 物理可靠性 (Physical Reliability)

在 HRI 中指人类与机器人之间力、时间、距离的有效协调,确保安全高效任务执行。

  • 核心目标: 机器人动态响应人类动作变化,避免物理冲突,确保人类安全。
  • 研究方向:
    • 物理交互中的实时控制: 依赖先进的运动规划和控制策略。如 PRM [193], RRT [194] 等基于采样的规划器 [195]-[199];CHOMP [200], STOMP [201] 等基于优化的规划器 [203]-[205]。阻抗控制和导纳控制提供柔顺安全的物理接触响应 [208]-[211]。
    • 大规模生成数据集构建: 利用模仿学习和强化学习获取自适应运动策略 [214]-[216]。HandoverSim [217]、GenH2R [218] 和 MobileH2R [191] 等平台提供仿真和基准测试。

4.9.3.3. 社会嵌入性 (Social Embeddedness)

指机器人识别和适应社会规范、文化期望和群体动态的能力。

  • 研究策略: 解决社会空间理解和行为理解。
    • 社会空间理解: 机器人解释和适应人类群体的空间动态,通过近体空间 [219], [220] 等概念。
    • 行为理解: 解读人类交流的语言和非语言复杂性。语言研究探索对话建模、会话结构和话语分析 [224]-[228]。非语言研究关注手势、凝视和情感表达的解释 [229], [230]。

5. 实验设置

作为一篇综述论文,本节主要描述了综述本身在评估现有工作时所采用的范围、分类标准和方法。

5.1. 综述范围与分类标准

本综述的范围和分类标准确保了对具身人工智能 (Embodied AI) 领域物理模拟器 (Physical Simulators) 和世界模型 (World Models) 的全面而深入的分析。

  • 时间范围 (Timeframe): 主要关注 2018年至2025年间的最新发展,以捕捉该领域快速演进的趋势和突破。
  • 重点应用领域 (Focus Areas): 重点考察自动驾驶 (Autonomous Driving) 和机器人 (Robots) 这两个具身智能的关键应用领域。
  • 模拟器分类 (Categorization of Simulators): 对主流物理模拟器 (Mainstream Physical Simulators) 的评估,基于其:
    • 物理特性 (Physical Properties): 如吸附 (Suction)、随机外力 (Random External Forces)、可变形物体 (Deformable Objects)、软体接触 (Soft-body Contacts)、流体机制 (Fluid Mechanism)、离散元方法仿真 (DEM Simulation) 和可微分物理 (Differentiable Physics)。
    • 渲染能力 (Rendering Capabilities): 包括渲染引擎 (Rendering Engine)、光线追踪 (Ray Tracing)、基于物理的渲染 (Physically-Based Rendering, PBR) 和可扩展并行渲染 (Scalable Parallel Rendering)。
    • 传感器与关节类型支持 (Sensor and Joint Types Support): 涵盖 IMU、力接触、RGB 相机、LiDAR、GPS 等传感器,以及浮动、固定、铰链、球形、棱柱、螺旋等关节类型。
  • 世界模型分类 (Categorization of World Models): 对世界模型 (World Models) 的分析,基于其:
    • 架构 (Architectures): 如循环状态空间模型 (RSSM)、联合嵌入预测架构 (JEPA)、基于变换器的状态空间模型 (Transformer-based State Space Models)、自回归生成世界模型 (Autoregressive Generative World Models) 和基于扩散的生成世界模型 (Diffusion-based Generative World Models)。
    • 核心作用 (Core Roles): 将世界模型划分为神经模拟器 (Neural Simulator)、动态模型 (Dynamic Model) 和奖励模型 (Reward Model) 三种功能角色。
    • 应用 (Applications): 详细探讨世界模型在自动驾驶 (Autonomous Driving) 和铰接机器人 (Articulated Robots) 中的具体应用。

5.2. 智能机器人能力评估框架

本综述提出了一个创新的五级智能机器人能力评估框架 (IR-L0至IR-L4),这本身就是一种用于评估和分类机器人智能的“评估标准”。该框架涵盖了四个关键维度:

  • 自主性 (Autonomy): 衡量机器人独立决策和行动的能力,从完全依赖人类控制到完全自主。

  • 任务处理能力 (Task Handling Ability): 评估机器人能够处理的任务的复杂性和难度,从简单的重复性任务到创新的问题解决。

  • 环境适应性 (Environmental Adaptability): 考察机器人在动态、不确定或极端环境中的表现和适应能力。

  • 社会认知能力 (Societal Cognition Ability): 评估机器人在社会情境中理解、交互和响应的能力,从无社会认知到高级社会智能。

    以下是原文 Table 1 的结果,详细展示了每个级别在这些维度上的特征:

    Level Autonomy Task Handling Ability Environmental Adaptability Societal Cognition Ability
    IR-LO Human Control Basic Tasks Controlled Only No Social Cognition
    IR-L1 Human Supervised Complex Navigation Predictable Environments Basic Recognition
    IR-L2 Human Assisted Dynamic Collaboration Adaptive Learning Simple Interaction
    IR-L3 ConditionalAutonomy Multitasking Dynamic Adaptation Emotional Intelligence
    IR-L4 Full Autonomy Innovation Universal Flexibility Advanced Social Intelligence

5.3. 模拟器与世界模型的比较维度

本综述通过详细的表格和文字描述,对主流模拟器和世界模型进行了多维度的比较,这些比较维度构成了评估它们能力和适用性的核心“指标”:

  • 模拟器物理特性比较 (Table 2): 评估了吸附、随机外力、可变形物体、软体接触、流体机制、离散元方法仿真和可微分物理的支持情况。这直接反映了模拟器在物理真实感和复杂交互建模方面的能力。
  • 渲染能力比较 (Table 3): 评估了渲染引擎、光线追踪、基于物理的渲染和可扩展并行渲染的支持情况。这决定了模拟器生成视觉数据 (Visual Data) 的保真度 (Fidelity) 和训练效率 (Training Efficiency)。
  • 传感器与关节组件支持比较 (Table 4): 评估了 IMU、力接触、RGB 相机、LiDAR、GPS 等传感器以及各种关节类型(浮动、固定、铰链、球形、棱柱、螺旋)的支持情况。这反映了模拟器在复制真实机器人硬件和感知能力方面的完整性。
  • 世界模型架构演进 (Figure 17, Figure 18): 比较了不同世界模型架构(RSSM、JEPA、Transformer-based、Autoregressive、Diffusion-based)在建模复杂环境动态和生成未来观测方面的优势和劣势。
  • 世界模型核心作用 (Figure 19, Figure 20): 评估了世界模型作为神经模拟器、动态模型和奖励模型在基于模型的强化学习、规划和数据生成中的具体功能。
  • 应用领域的具体技术趋势 (Table 5, Table 6, Table 7): 详细对比了自动驾驶和铰接机器人领域中各类世界模型的输入、输出、架构、数据集和实验环境,以揭示不同模型的适用范围和性能特点。

6. 实验结果与分析

本节将分析综述论文中呈现的主要发现和趋势,重点突出物理模拟器和世界模型在具身智能 (Embodied Intelligence) 发展中的关键作用。

6.1. 智能机器人能力层级分析

本综述提出的 IR-L0IR-L4 的分级模型 (Table 1) 提供了一个清晰的路线图,用于理解和评估智能机器人 (Intelligent Robots) 的能力:

  • IR-L0IR-L1 (Human Control -> Human Supervised): 代表了机器人从完全受控的工业机械 (Industrial Machinery) 过渡到具备有限规则响应 (Rule-based Reactive Capabilities) 和基本环境感知 (Basic Environmental Awareness) 的服务机器人 (Service Robots)。这一阶段主要依赖预编程和基础传感器。

  • IR-L1IR-L2 (Human Supervised -> Human Assisted): 标志着机器人开始具备初步的自主性 (Preliminary Autonomy) 和环境适应能力 (Environmental Adaptability)。它们能够进行动态协作 (Dynamic Collaboration) 和简单交互 (Simple Interaction),但仍需人类辅助。这一阶段引入了多模态传感器 (Multimodal Sensors) 和行为决策框架 (Behavior Decision Frameworks)。

  • IR-L2IR-L3 (Human Assisted -> Conditional Autonomy): 是一个质的飞跃,机器人开始展现类人认知 (Humanoid Cognition) 和复杂协作能力。它们能在复杂动态环境 (Complex, Dynamic Environments) 中自主决策,理解人类意图 (Human Intentions) 和情感 (Emotions),并进行多任务处理 (Multitasking)。深度学习 (Deep Learning) 和强化学习 (Reinforcement Learning) 在此阶段发挥关键作用。

  • IR-L4 (Full Autonomy): 代表了具身智能的巅峰,机器人具备完全自主感知、决策和执行能力,能在任何环境下无需人工干预。它们拥有自我演进的伦理推理 (Self-evolving Ethical Reasoning)、高级认知 (Advanced Cognition) 和社会智能 (Social Intelligence)。这一级别是通用人工智能 (AGI) 在物理世界中的体现。

    这一分级模型不仅有助于评估当前机器人的技术水平,也为未来研究指明了方向,强调了从感知到推理、从控制到协作、从个体到社会的全面发展路径。

6.2. 物理模拟器对比分析

对主流物理模拟器 (Mainstream Physical Simulators) 的比较分析揭示了该领域的显著进展和当前的技术格局 (Table 2, Table 3, Table 4):

  • 物理真实感 (Physical Realism) 的提升: 早期模拟器如 WebotsGazebo 提供了基础的刚体动力学 (Rigid-body Dynamics) 仿真。而 MuJoCo 因其高精度的接触动力学 (Contact Dynamics) 建模而脱颖而出。最新的 Isaac 系列 (特别是 Isaac SimIsaac Lab) 和 Genesis 平台则通过 GPU 加速和先进的物理求解器,实现了对可变形物体 (Deformable Objects)、软体接触 (Soft-body Contacts) 和流体机制 (Fluid Mechanism) 更高保真度的模拟。这对于模拟机器人与复杂环境的交互(如抓取柔软物体、在液体中移动)至关重要。

  • 渲染能力 (Rendering Capabilities) 的飞跃: 从基于 OpenGL 的基础渲染 (e.g., MuJoCo, PyBullet) 到支持 PBR (基于物理的渲染)、光线追踪 (Ray Tracing) 的高保真渲染 (e.g., Isaac Sim, SAPIEN, Genesis),模拟器在生成视觉数据 (Visual Data) 方面取得了巨大进步。这对于训练依赖视觉的机器人系统 (Vision-based Robotic Systems) 至关重要,能够显著缩小 Sim2Real 差距。

  • 并行化 (Parallelization) 与训练效率 (Training Efficiency): Isaac Gym 的出现是一个分水岭,它实现了在单个 GPU 上并行训练数千个环境的能力,极大加速了强化学习 (Reinforcement Learning) 的样本效率 (Sample Efficiency)。随后的 Isaac Sim/LabGenesis 平台也继承并发展了这种可扩展并行渲染 (Scalable Parallel Rendering) 能力,成为大规模机器人学习的基石。

  • 可微分物理 (Differentiable Physics) 的兴起: MuJoCo XLAPyBulletTiny Differentiable SimulatorGenesis 对可微分物理的支持,使得模拟器能够与基于梯度的优化算法无缝集成,为端到端学习 (End-to-End Learning) 和基于模型的控制提供了新的可能性。

  • 传感器 (Sensors) 和关节类型 (Joint Types) 的全面支持: 大多数主流模拟器已能支持常见的传感器(RGB 相机、IMU、力接触)和关节类型。然而,对 LiDARGPS 和复杂关节(如螺旋关节)的全面、高保真支持仍是部分模拟器的挑战,而 Isaac SimGenesis 等平台在这方面表现更为出色。

    优势: 模拟器提供了成本效益高、安全、可控且可重复的训练和测试环境,是机器人开发不可或缺的工具。 局限性: 模拟器依然面临准确性、复杂性和数据依赖性的挑战,可能无法完全捕捉真实世界的复杂性,且存在过拟合特定场景的风险。这引出了对世界模型的需求。

6.3. 世界模型发展与应用分析

世界模型 (World Models) 的发展标志着具身智能 (Embodied Intelligence) 领域的一个范式转变,从硬编码的物理规则转向数据驱动的动态学习。

6.3.1. 世界模型架构演进 (Architectural Evolution)

  • 从潜在动态到生成式 (From Latent Dynamics to Generative): 早期世界模型如 RSSM (循环状态空间模型,e.g., Dreamer 系列 [267]-[271]) 专注于学习紧凑的潜在空间 (Latent Space) 动态,以实现高效规划和长期预测。
  • 注意力机制的引入 (Introduction of Attention Mechanisms): Transformer [276] 架构的引入,克服了 RNN 在建模长期依赖方面的局限性,提升了世界模型在处理复杂时序数据时的表现 (e.g., TransDreamer [276], Genie [278])。
  • 生成模型的大规模应用 (Large-scale Application of Generative Models):
    • 自回归模型 (Autoregressive Models): 逐帧预测未来的视频观测,擅长捕捉高层结构 (e.g., GAIA-1 [282], OccWorld [283])。但可能在长期一致性和计算效率上受限。
    • 扩散模型 (Diffusion Models): 成为视频生成 (Video Generation) 的新基石 (e.g., Sora [263], DriveDreamer [289], GAIA-2 [291])。它们通过迭代去噪 (Iterative Denoising) 过程,生成高质量、高保真且时空一致的视频,能够更好地建模 3D 结构和物理动态。这是世界模型作为神经模拟器的关键推动力。

6.3.2. 世界模型的核心作用 (Core Roles of World Models)

世界模型的三种核心作用(神经模拟器、动态模型、奖励模型)互为补充,共同增强了智能体 (Agents) 的能力:

  • 作为神经模拟器 (Neural Simulator): 通过生成可控、高保真的合成经验 (Synthetic Experiences),替代或补充传统物理模拟器 (Physical Simulators)。例如 NVIDIA Cosmos [294] 和 WayveGAIA 系列 [282], [291] 生成逼真的驾驶场景。这种能力在数据稀缺或成本高昂的领域(如自动驾驶、机器人操作)尤为重要。
  • 作为动态模型 (Dynamic Model): 在基于模型的强化学习 (MBRL) 中,世界模型学习环境的动态,使智能体能够在内部模拟 (Simulate) 交互并进行规划 (Planning),从而显著提高样本效率 (Sample Efficiency)。Dreamer 系列 [267]-[271] 是这一领域的代表,它通过在潜在空间中进行想象的展开 (Imagined Rollouts) 来学习策略。
  • 作为奖励模型 (Reward Model): 解决了强化学习中奖励函数设计困难的问题。世界模型通过评估智能体行为的预测可能性 (Prediction Likelihood) 来隐式推断奖励 (e.g., VIPER [305])。当智能体行为产生高度可预测的轨迹时,被赋予高奖励,从而无需人工设计奖励。

自动驾驶世界模型 (Autonomous Driving World Models) 正在重塑车辆仿真和测试方式:

  • 生成架构从自回归到扩散模型演进 (Generative Architecture Evolution):GAIA-1 的自回归 Transformer [282] 到 DriveDreamer 系列 [313] 和 GAIA-2 [312] 的扩散模型,再到 MagicDrive-V2 [318] 的扩散 Transformer,生成质量和可控性不断提高。
  • 多模态集成与可控场景生成 (Multi-Modal Integration and Controllable Scenario Generation): 整合相机图像、LiDAR 点云、文本、车辆轨迹等多种输入,实现特定、可控驾驶场景的生成 (e.g., GAIA-2 [312], DriveDreamer-2 [314])。这对于压力测试 (Stress-test) 自动驾驶系统至关重要。
  • 3D 时空理解与基于占用的表征 (3D Spatial-Temporal Understanding and Occupancy-Based Representations): 从单纯生成图像转向 3D 感知建模,如 OccSora [321], Drive-OccWorld [323] 使用 4D 占用网格表征驾驶场景。这提供了几何一致性 (Geometric Consistency) 和对物体深度、遮挡的理解。
  • 与自动驾驶管线的端到端集成 (End-to-End Integration with Autonomous Driving Pipelines): 世界模型正从独立工具向自动驾驶系统的预测组件发展。例如 MILE [350] 联合学习世界动态和驾驶策略。这种集成延伸到奖励建模 (e.g., Vista [376]),并最终目标是构建能够进行感知、预测和规划的统一神经架构 (e.g., Doe-1 [367], DrivingGPT [370])。

铰接机器人世界模型 (Articulated Robots World Models) 的发展具有以下潜力:

  • 触觉增强世界模型用于灵巧操作 (Tactile-Enhanced World Models for Dexterous Manipulation): 结合高分辨率接触建模 (High-resolution Contact Modeling) 和视触觉融合 (Visuotactile Fusion),预测滑动、变形和最佳抓取力。通过自监督触觉编码器 (Self-supervised Tactile Encoders) 和图/变换器架构处理时空触觉信号,使机器人能以类似人类的方式处理新物体,克服 Sim2Real 挑战。
  • 统一世界模型实现跨硬件和跨任务泛化 (Unified World Models for Cross-Hardware and Cross-Task Generalization): 关注硬件无关的动态编码 (Hardware-agnostic Dynamics Encoding) 和任务自适应潜在空间 (Task-adaptive Latent Spaces),以泛化到不同的具身形态 (Embodiments) 和任务。关键方向包括模块化架构 (Modular Architectures)、元强化学习 (Meta-reinforcement Learning)、以物体为中心 (Object-centric) 的表征和通过残差物理建模 (Residual Physics Modeling) 弥合 Sim2Real 差距。
  • 分层世界模型用于长期任务 (Hierarchical World Models for Long-Horizon Task): 关注分层规划 (Hierarchical Planning) 和时间抽象 (Temporal Abstraction) 来处理复杂的、多阶段任务。关键进展包括目标条件潜在空间 (Goal-conditioned Latent Spaces)、记忆增强变换器 (Memory-augmented Transformers)、自监督技能发现 (Self-supervised Skill Discovery) 和交互式人类反馈 (Interactive Human Feedback)。

6.4. Sim2Real挑战与世界模型的弥合作用

模拟器 (Simulators) 的局限性(准确性不足、复杂性高、数据依赖性强、易过拟合)促使了世界模型 (World Models) 的发展。世界模型通过以下方式弥合 Sim2Real 差距:

  • 克服数据稀缺 (Overcoming Data Scarcity): 世界模型作为神经模拟器,能够生成大规模、高保真的合成数据 (Synthetic Data),补充真实世界数据,降低数据收集成本和风险。

  • 提高样本效率 (Improving Sample Efficiency): 作为动态模型,世界模型允许智能体 (Agents) 在内部进行想象的展开 (Imagined Rollouts) 和规划 (Planning),从而在不与真实世界交互的情况下学习策略,大大减少了对真实世界样本的需求。

  • 增强泛化能力 (Enhancing Generalization): 世界模型学习环境的底层动态 (Underlying Dynamics) 和因果关系 (Causal Relationships),而不是仅仅依赖于表面相关性。这使得训练出的策略在面对真实世界中的新颖或未见情况时,具有更强的泛化能力。

  • 自适应决策 (Adaptive Decision-making): 世界模型赋予智能体预测未来状态 (Future States) 的能力,使其能够进行前瞻性规划 (Proactive Planning) 和自适应决策 (Adaptive Decision-making),从而更好地应对真实世界的不确定性 (Uncertainty)。

    总之,世界模型代表了对现实世界现象进行建模的更复杂、更灵活的方法,能够适应新数据,更有效地处理复杂系统,并减少对大量数据集的依赖。它们与先进物理模拟器 (Advanced Physical Simulators) 的结合,共同为构建鲁棒且具泛化能力的具身人工智能系统奠定了基础。

7. 总结与思考

7.1. 结论总结

本综述全面地探讨了物理模拟器 (Physical Simulators) 和世界模型 (World Models) 在推动具身人工智能 (Embodied AI) 发展中的关键和互补作用。论文提出了一个创新的五级智能机器人能力分级模型 (IR-L0至IR-L4),为评估机器人自主性 (Autonomy) 提供了统一框架。通过对主流模拟器在物理特性、渲染能力和传感器支持等方面的详细比较,揭示了该领域向 GPU 加速、可微分物理 (Differentiable Physics) 和高保真渲染 (High-fidelity Rendering) 发展的趋势。

同时,综述深入分析了世界模型的架构演进,从早期的潜在动态模型到基于变换器 (Transformer-based) 和扩散模型 (Diffusion Models) 的生成式方法。世界模型作为神经模拟器 (Neural Simulator)、动态模型 (Dynamic Model) 和奖励模型 (Reward Model) 的核心作用,在自动驾驶 (Autonomous Driving) 和铰接机器人 (Articulated Robots) 领域的应用中得到了充分体现,显著提升了样本效率 (Sample Efficiency)、长期规划 (Long-horizon Planning) 和跨环境泛化 (Generalization across Environments) 能力。

论文强调,物理模拟器和世界模型的整合不仅弥合了模拟到现实 (Sim2Real) 的差距,还为具身智能 (Embodied Intelligence) 的下一代发展开辟了新途径,有望将机器人技术从任务专用自动化 (Task-specific Automation) 提升到能够无缝融入人类社会的通用智能 (General-purpose Intelligence)。

7.2. 局限性与未来工作

本综述在指出当前具身人工智能 (Embodied AI) 领域取得巨大进展的同时,也坦诚地揭示了仍存在的重大挑战和未来的研究方向。

7.2.1. 挑战 (Challenges)

  • 高维度与部分可观测性 (High-Dimensionality and Partial Observability): 自动系统处理高维传感器输入,而这些观测本身就是不完整的。这引入了不确定性,需要鲁棒的状态估计 (State Estimation) 或信念状态 (Belief State) 维护来支持决策。
  • 因果推理与相关性学习 (Causal Reasoning versus Correlation Learning): 许多当前世界模型 (World Models) 擅长学习相关性而非因果关系 (Causal Relationships)。这阻碍了真正的泛化 (Generalization),因为它无法进行反事实推理 (Counterfactual Reasoning)(即评估“如果...会怎样”的场景)。实现鲁棒性能需要从相关性模式匹配转向对环境的真正因果理解。
  • 抽象和语义理解 (Abstract and Semantic Understanding): 有效的世界模型必须超越低级信号预测,在更高的语义和抽象层面运作。一个鲁棒的模型不应仅仅预测未来的像素或激光雷达点,还应推理抽象概念,如交通法规、行人意图和物体可供性 (Object Affordances)。将这些不同层次的抽象整合是实现智能和上下文感知行为的关键。
  • 系统评估和基准测试 (Systematic Evaluation and Benchmarking): 世界模型的客观评估和比较是一个重大挑战。传统的指标(如未来预测的均方误差 Mean Squared Error)通常不足,可能与下游任务的性能不相关。需要开发新的评估框架,其指标能评估模型在规划中的效用、在安全关键场景中的鲁棒性以及捕捉环境中因果相关方面的能力。
  • 记忆架构与长期依赖 (Memory Architecture and Long-Term Dependencies): 准确的长期预测 (Long-term Forecasting) 极具挑战性,因为预测误差会累积,且现实世界具有随机性。一个关键挑战是设计能够长期保留和检索相关信息的记忆架构。
  • 人机交互与可预测性 (Human Interaction and Predictability): 对于在以人为中心的环境中运行的智能体 (Agents),世界模型 (World Models) 的作用不仅限于环境预测。它还必须促进对人类而言可理解、可预测和符合社会规范的智能体行为。
  • 可解释性与可验证性 (Interpretability and Verifiability): 深度学习 (Deep Learning) 世界模型通常是不透明的“黑箱”,难以理解其预测背后的原理。对于自动驾驶等安全关键应用,审计和理解模型内部决策过程的能力是不可或缺的。
  • 组合泛化与抽象 (Compositional Generalization and Abstraction): 尽管 Sim2Real 差距是一个众所周知的泛化问题,但一个更深层的挑战是组合泛化。人类可以学习离散的概念并立即泛化到新颖的组合,而当前模型通常需要大量暴露于特定的组合示例。理想的世界模型应学习实体、它们的关系及其物理属性的解耦、抽象表征。
  • 数据整理与偏差 (Data Curation and Bias): 世界模型的性能根本上取决于训练数据的质量和组成。模型不可避免地会继承并可能放大数据集中存在的偏差。一个关键方面是处理“长尾”的稀有但安全关键的事件。

7.2.2. 未来工作 (Future Perspectives)

  • 更复杂的自适应建模框架 (More Sophisticated, Adaptable Modeling Frameworks): 世界模型代表了向更鲁棒、更通用工具发展的自然演进,以建模真实世界现象。
  • 触觉增强世界模型用于灵巧操作 (Tactile-Enhanced World Models for Dexterous Manipulation): 结合高分辨率接触建模 (High-resolution Contact Modeling) 和视触觉融合 (Visuotactile Fusion) 来提升机器人的灵巧性。
  • 统一世界模型实现跨硬件和跨任务泛化 (Unified World Models for Cross-Hardware and Cross-Task Generalization): 专注于硬件无关的动态编码 (Hardware-agnostic Dynamics Encoding) 和任务自适应潜在空间 (Task-adaptive Latent Spaces),以泛化到不同的具身形态和任务。
  • 分层世界模型用于长期任务 (Hierarchical World Models for Long-Horizon Task): 关注分层规划 (Hierarchical Planning) 和时间抽象 (Temporal Abstraction) 来处理复杂的、多阶段任务。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇综述为理解具身人工智能 (Embodied AI) 的当前格局及其未来发展方向提供了极其全面的视角。

  • 系统性思维的重要性: 论文通过对 IR-L0IR-L4 分级标准的提出,清晰地描绘了机器人智能的演进路径。这不仅是对现有技术的总结,更是对未来研究的指导,提醒研究者在追求先进技术的同时,不忘其在真实世界中的实际应用层级。这种分层框架对于评估具身智能的进展和设定研究目标具有重要的实践意义。
  • 模拟器与世界模型的共生关系: 综述成功地强调了物理模拟器 (Physical Simulators) 和世界模型 (World Models) 并非替代关系,而是互补共生。模拟器提供外部的“实验场”,而世界模型则构建智能体内部的“认知地图”。这种内外部结合的学习范式,是克服 Sim2Real 鸿沟、实现高效机器人学习的关键。这启发我们,在未来具身 AI 系统的设计中,应将二者视为统一整体来考量。
  • 生成模型的核心地位: 扩散模型 (Diffusion Models) 和 Transformer 在世界模型中的广泛应用,特别是其在自动驾驶和机器人操作中生成高保真、可控场景的能力,预示着生成模型将在具身 AI 领域扮演越来越核心的角色。它们不仅能生成训练数据,还能作为智能体的内部预测和规划机制。
  • 多模态和基础模型的未来: 综述中提及的 VLA 模型 (Visual-Language-Action Models) 和基础模型 (Foundation Models) 在机器人学习中的应用,指明了未来研究将更加注重多模态信息融合和利用大规模预训练模型来增强机器人的语义理解和泛化能力。这暗示着“通用”机器人智能的实现,可能需要从模仿人类的多模态感知和推理机制入手。

7.3.2. 批判

尽管本综述内容详尽且具启发性,仍存在一些可以批判和改进的地方:

  • 缺乏具体的量化分析: 综述在比较模拟器和世界模型时,虽然提供了详细的特性对比表,但在某些方面缺乏更深入的量化分析。例如,不同模拟器的计算效率 (Computational Efficiency) 和物理精度 (Physical Accuracy) 在不同任务下的具体表现、世界模型在不同泛化场景下的定量性能差异等。更具体的基准测试数据和性能曲线可能会增强其说服力。
  • “长尾问题”的深度不足: 综述提到了数据整理与偏差中的“长尾问题” (Long Tail Problem),这在自动驾驶和机器人操作中尤为关键。然而,关于世界模型如何有效解决罕见但高风险事件的学习和泛化,以及其在应对这些边缘情况时的鲁棒性限制,可以进行更深入的探讨和案例分析。
  • 伦理和社会影响的讨论有限: 尽管 IR-L3IR-L4 级别提及了社会认知能力 (Societal Cognition Ability) 和伦理治理系统 (Ethical Governance Systems),但综述对具身智能的伦理和社会影响的讨论相对较少。随着机器人越来越自主地融入人类社会,其决策的公平性、透明度、责任归属以及对就业、隐私等方面的长远影响,值得更深入的讨论。
  • 工业界和学术界实践的结合: 综述主要侧重于学术研究的进展。如果能更多地结合工业界在实际部署具身 AI 系统时遇到的挑战和解决方案(例如特斯拉在自动驾驶中的实际经验、亚马逊在仓储机器人中的应用),可能会使综述更具实践指导意义。
  • 对现有挑战解决方案的评估: 综述列举了许多挑战,但对于这些挑战目前有哪些主流的或有潜力的解决方案,以及这些方案各自的优缺点和适用场景,可以进行更系统的评估。例如,针对因果推理,除了提及挑战,可以深入分析当前基于因果发现、因果干预等方法在世界模型中的应用现状。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。