PhysHSI: Towards a Real-World Generalizable and Natural Humanoid-Scene Interaction System
TL;DR 精炼摘要
本文提出了物理世界仿人-场景交互系统PhysHSI,旨在让仿人机器人在真实环境中执行多样化的交互任务。该系统结合了对抗性运动先验的策略学习和粗到精的物体定位模块,能够实现自然逼真的动作和鲁棒的场景感知,在多个任务中展示了高效的成功率。
摘要
Deploying humanoid robots to interact with real-world environments--such as carrying objects or sitting on chairs--requires generalizable, lifelike motions and robust scene perception. Although prior approaches have advanced each capability individually, combining them in a unified system is still an ongoing challenge. In this work, we present a physical-world humanoid-scene interaction system, PhysHSI, that enables humanoids to autonomously perform diverse interaction tasks while maintaining natural and lifelike behaviors. PhysHSI comprises a simulation training pipeline and a real-world deployment system. In simulation, we adopt adversarial motion prior-based policy learning to imitate natural humanoid-scene interaction data across diverse scenarios, achieving both generalization and lifelike behaviors. For real-world deployment, we introduce a coarse-to-fine object localization module that combines LiDAR and camera inputs to provide continuous and robust scene perception. We validate PhysHSI on four representative interactive tasks--box carrying, sitting, lying, and standing up--in both simulation and real-world settings, demonstrating consistently high success rates, strong generalization across diverse task goals, and natural motion patterns.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
PhysHSI: Towards a Real-World Generalizable and Natural Humanoid-Scene Interaction System (PhysHSI:迈向真实世界中通用且自然的人形机器人-场景交互系统)
1.2. 作者
Huayi Wang*, Wentao Zhang*, Runyi Yu*, Tao Huang, Junli Ren, Feiyu Jia, Zirui Wang, Xiaojie Niu, Xiao Chen, Jiahe Chen, Qifeng Chen†, Jingbo Wang†, Jiangmiao Pang† *共同第一作者,†共同通讯作者。 主要隶属机构:1. 上海人工智能实验室 (Shanghai AI Lab),2. 香港科技大学 (The Hong Kong University of Science and Technology)。
1.3. 发表期刊/会议
该论文以预印本(preprint)形式发布于 arXiv。
1.4. 发表年份
2025年。
1.5. 摘要
将人形机器人部署到真实世界环境中进行交互——例如搬运物体或坐在椅子上——需要具备通用化、逼真的运动和鲁棒的场景感知能力。尽管现有方法在单独提升这些能力方面取得了进展,但如何将它们整合到一个统一的系统中仍然是一个持续的挑战。在这项工作中,我们提出了一个物理世界中的人形机器人-场景交互系统 PhysHSI,它使人形机器人能够自主执行多样化的交互任务,同时保持自然逼真的行为。PhysHSI 包含一个仿真训练流程和一个真实世界部署系统。在仿真中,我们采用基于对抗运动先验(Adversarial Motion Prior, AMP)的策略学习方法,模仿跨多样化场景的自然人形机器人-场景交互数据,从而实现通用化和逼真行为。针对真实世界部署,我们引入了一个粗到细(coarse-to-fine)的物体定位模块,该模块结合激光雷达(LiDAR)和相机输入,提供连续且鲁棒的场景感知。我们在四种代表性交互任务——搬运箱子、坐下、躺下和站起——上对 PhysHSI 进行了仿真和真实世界环境验证,结果表明其在不同任务目标上均展现出持续高成功率、强大的泛化能力和自然的运动模式。
1.6. 原文链接
https://arxiv.org/abs/2510.11072 PDF 链接: https://arxiv.org/pdf/2510.11072v1.pdf 发布状态: 预印本(preprint)。
2. 整体概括
2.1. 研究背景与动机
核心问题: 将人形机器人部署到日常真实世界环境中,使其能够执行复杂、多样且自然的交互任务,例如搬运箱子到不同位置或自然地坐在椅子上,是一个极具挑战性的研究方向。这种“人形机器人-场景交互”(Humanoid-Scene Interaction, HSI)系统被认为比简单的全身技能(如站立、跳舞或敏捷运动)更为复杂。
重要性与现有挑战: 构建一个实用的真实世界 HSI 系统,需克服以下三个主要挑战:
-
通用化能力(Generalization): 系统需要能够泛化到多样化的交互场景和任务目标,而非局限于特定预设的环境。
-
逼真运动(Lifelike Motions): 机器人生成的运动必须物理上合理,并且表现出自然、类人的行为,避免生硬或不自然的动作。
-
鲁棒感知(Robust Perception): 系统需要一个可靠的感知模块,能够持续、准确地获取周围物体和场景的信息,即使在视野受限或遮挡的情况下也能正常工作。
现有研究在这些方面存在局限:
-
传统基于模型的方法: 虽然通过运动规划或轨迹优化能生成稳定的动作,但计算成本高,且对模型假设依赖强,难以泛化到真实世界的多样化交互。
-
基于强化学习(
Reinforcement Learning,RL)的方法: 可以通过多样化仿真经验实现更广阔的泛化。然而,无论是单一整体策略还是多个专业化策略,从零开始学习通常需要大量手工设计的奖励函数和状态转换,尤其是在追求自然逼真运动时。 -
模仿运动捕捉(
Motion Capture,MoCap)先验的方法: 这类方法通过模仿MoCap数据,有效生成物理上合理、类人的运动,推动了基于物理的角色动画在动态交互方面的发展。但这些方法大多局限于仿真环境,依赖完美的场景观测,其“仿真到现实”(sim-to-real)的迁移仍然是一个未充分探索的障碍。本文的切入点与创新思路: 针对上述挑战,本文提出了
PhysHSI系统。其核心创新在于: -
统一系统: 首次将通用化、逼真运动和鲁棒感知整合到一个端到端的真实世界
HSI系统中。 -
仿真训练: 引入基于对抗运动先验(
AMP)的策略学习流程,从丰富的人形机器人交互数据中学习,实现动作的自然性和泛化性。 -
真实世界感知: 设计了一种结合激光雷达和相机的“粗到细”物体定位模块,以应对真实世界中传感器视野有限和遮挡的问题,提供连续鲁棒的场景感知。
2.2. 核心贡献/主要发现
本文的主要贡献体现在以下三个方面:
-
提出
PhysHSI系统: 这是一个真实世界中的人形机器人-场景交互系统,包含一个创新的仿真训练流程和一个鲁棒的真实世界部署模块。 -
AMP策略训练流程: 在仿真中,利用基于AMP的训练流程,从人形机器人交互数据中学习,实现了既自然又具有泛化能力的运动策略。这克服了传统RL方法在生成逼真动作上的困难,以及MoCap模仿方法在泛化性和sim-to-real迁移上的局限。 -
粗到细的真实世界物体定位模块: 设计了一种融合激光雷达和相机输入的粗到细感知模块,解决了真实世界中物体定位的挑战,为机器人提供持续且鲁棒的场景感知信息。
-
全面的评估协议: 对系统及其组件进行了全面的评估,包括在仿真和真实世界中的四种代表性
HSI任务(搬运箱子、坐下、躺下和站起),旨在为未来真实世界HSI任务的研究和开发提供指导。主要发现:
-
高成功率:
PhysHSI在所有长时序HSI任务上均取得了持续高成功率,包括复杂的“搬运箱子”任务。 -
强泛化能力: 系统能够有效泛化到多样化的场景和任务目标,包括不同的空间布局和物体属性(如箱子尺寸、高度和重量),远超传统基于跟踪的方法。
-
自然逼真运动: 相比于纯
RL奖励的方法,PhysHSI生成的运动模式更加自然和类人,甚至能展现出风格化的步态(如猫步、恐龙步态)。 -
零样本迁移与便携性: 系统实现了对真实世界的零样本迁移,并且仅依靠机器人板载传感器和计算能力即可在户外完成任务,展示了其高度的便携性。
-
感知模块的有效性: 粗到细的物体定位模块在远距离提供可靠的方向性引导,在近距离提供高精度定位。
下图(原文 Figure 1)展示了
PhysHSI系统在真实世界中的性能概览,包括搬运箱子、坐下、躺下和站起等任务,以及风格化运动的示例:
该图像是一个示意图,展示了 humanoid 机器人在执行四种交互任务(搬箱子、坐下、躺下和站起)的过程,以及一种风格化的移动方式。每个任务采用多帧图像展示机器人在不同动作阶段的表现。
3. 预备知识与相关工作
本部分旨在为读者铺垫理解论文所需的前置知识,并总结作者提及的关键先前研究。
3.1. 基础概念
- 人形机器人-场景交互(Humanoid-Scene Interaction, HSI): 指人形机器人在现实世界环境中与各种物体(如箱子、椅子、床)和场景进行物理上的感知、规划和操作,以完成特定任务的能力。这包括导航到物体、抓取、搬运、放置、以及自身与场景的交互(如坐下、躺下)。
- 强化学习(Reinforcement Learning, RL): 机器学习的一个分支,智能体(
agent)通过与环境的交互学习最优行为策略。智能体在每个时间步观察环境状态,执行一个动作,然后接收环境的奖励信号和新的状态。目标是最大化长期累积奖励。 - 运动捕捉(Motion Capture, MoCap): 一种记录物体(通常是人体)在空间中运动的技术。通过在关键点放置标记器并使用专门的相机系统,可以精确地捕捉运动轨迹,生成高精度的三维运动数据。这些数据常用于动画、游戏和机器人运动模仿。
- 对抗运动先验(Adversarial Motion Priors, AMP): 一种结合强化学习与对抗生成网络(
Generative Adversarial Networks,GAN)的运动模仿框架。它包含一个学习生成运动的策略(policy)和一个区分策略生成运动与真实参考运动的判别器(discriminator)。通过对抗训练,策略被鼓励生成既能完成任务又具有真实运动风格的动作,从而提高运动的自然性和泛化性。 - 仿真到现实迁移(Sim-to-Real Transfer): 指在仿真环境中训练得到的机器人控制策略或模型,能够成功地部署到真实的物理机器人上,并在真实世界中有效地执行任务。这是一个重要的挑战,因为仿真和真实世界之间通常存在“现实差距”(
reality gap),例如传感器噪声、物理参数不匹配、模型不准确等。 - 激光雷达(LiDAR): “光探测和测距”(Light Detection and Ranging)的缩写,是一种使用激光束测量距离的主动遥感技术。它通过发射激光脉冲并测量反射回来的时间,来计算传感器到目标物体的距离,从而生成高精度的三维点云数据。常用于环境感知、建图和定位。
- RGB和深度相机(RGB and Depth Cameras):
RGB相机捕获彩色图像,类似于人眼所见。深度相机(如Intel RealSense)则能提供场景中每个像素的深度信息,即相机到物体的距离。结合RGB和深度信息,可以获得彩色三维点云数据,用于物体识别、姿态估计和环境重建。 - 里程计(Odometry): 指通过车载传感器(如轮编码器、惯性测量单元
IMU、视觉或激光雷达)连续估计机器人自身位置和方向的过程。它计算相对于起始点或前一时刻的相对位移和旋转,从而推断机器人的当前姿态。 - AprilTag: 一种二维条形码或
fiducial marker(基准标记),类似于QR码。它被设计用于快速、鲁棒地检测和识别,并能够精确估计相机相对于标记的六自由度(6DoF)姿态(位置和方向)。常用于机器人定位、物体跟踪和增强现实。 - PD控制器(Proportional-Derivative Controller): 一种广泛用于机器人关节控制的反馈控制器。它根据当前误差(比例项 )和误差变化率(微分项 )来计算控制输出,以使关节位置或速度达到期望值。PD控制器能够提供快速响应和减震效果,但需要仔细调参。
- 端执行器(End-effector): 机器人手臂末端与环境交互的部件,例如夹持器(手)、工具或传感器。在人形机器人中,手和脚通常被视为重要的端执行器。
- 本体感受(Proprioception): 指机器人自身内部状态的感知,包括关节位置、关节速度、基座角速度、基座重力方向、以及上一个时间步执行的动作等。这些信息对于机器人维持平衡和执行精确动作至关重要。
- 领域随机化(Domain Randomization): 一种
sim-to-real迁移技术,通过在仿真环境中随机化各种参数(如物理属性、纹理、光照、传感器噪声等),使得训练出的策略对真实世界的各种变化更加鲁棒。目标是让仿真环境足够多样化,以至于真实世界环境成为其中一种可能的变化,从而减少“现实差距”。 - 非对称 Actor-Critic(Asymmetric Actor-Critic): 一种强化学习框架,其中策略网络(
actor)和价值网络(critic)使用不同的输入。actor仅使用真实世界部署时可用的局部或部分观测,而critic则可以访问更丰富、更特权的状态信息(例如,在仿真中可用的真实世界中不可观测的物理量),以帮助更有效地学习价值函数。这有助于在真实世界部署时保持策略的鲁棒性。
3.2. 前人工作
3.2.1. 人形机器人-场景交互(Humanoid-Scene Interactions)
- 仿真领域: 许多工作在基于物理的仿真中研究
HSI,实现了物体操纵(loco-manipulation)等自然、长时序的行为 [23, 26–28, 34]。然而,这些方法通常依赖理想化的任务观测,因此面临较大的仿真到现实差距。 - 真实世界机器人:
- 经典方法: 常采用基于模型的运动规划(
motion planning)来生成全身(whole-body)参考轨迹以供跟踪 [9–13]。这些方法在稳定性方面表现良好,但在真实世界场景中的泛化能力有限。 - 基于强化学习的方法: 通过精心设计奖励和状态转换,从头开始学习控制策略,展现出强大的泛化能力 [14, 16, 17]。
- 利用运动先验的
RL: 为了实现更自然的运动,一些工作利用预先设计的运动先验来指导策略学习,例如爬楼梯和坐椅子 [35, 36]。
- 经典方法: 常采用基于模型的运动规划(
- 本文定位:
PhysHSI在这方面有所发展,它从运动先验中学习,以实现包括搬运箱子和躺下等更复杂交互的通用且自然行为。
3.2.2. 人形机器人运动模仿(Humanoid Motion Imitation)
- 核心目标: 从人类演示中学习逼真行为,运动跟踪(
motion tracking)是核心方法。 - 仿真领域:
- 基于物理的方法: 通过模仿单个参考序列 [37–39] 或学习通用跟踪 [40],实现了富有表现力的全身运动。
- 近期工作: 将这些方法扩展到真实世界机器人 [35, 7],但仍依赖于参考动作,泛化能力有限,限制了与多样化场景的交互。
- 对抗运动先验(
AMP)[31]: 通过模仿运动风格来提高泛化能力,并在仿真中得到了广泛研究 [23, 27, 28]。
- 真实世界
AMP应用: 真实世界应用仍有限,大多数工作主要将AMP用于规范基础步态技能的跟踪策略 [36, 41–43]。 - 本文定位:
PhysHSI建立在AMP的基础上,克服了这些局限,实现了对多样化真实世界场景和物体交互的自然行为。
3.2.3. 场景感知(Scene Perception)
- 重要性: 感知是使人形机器人与真实世界场景和物体交互的基础组成部分。
- 现有方法:
- 运动捕捉(
MoCap)系统: 可以提供准确的全局信息,支持高动态交互任务 [44–46]。然而,MoCap仅限于实验室环境,工作空间有限。 - 板载
RGB和深度相机: 为实现更实际的部署,许多研究依赖板载RGB和深度相机进行场景和物体感知 [15, 47–52]。然而,这些方法通常将目标物体限制在局部工作空间内,并且在长时序的操纵任务中经常会失去对物体的视野。 LiDAR-Inertial Odometry(LIO): 其他研究采用LIO[53, 54] 来获取全局信息 [35, 55–58],尽管与物体的交互精度仍然有限。
- 运动捕捉(
- 本文定位:
PhysHSI提出了一个完全依靠板载传感器并提供连续、鲁棒场景感知的粗到细物体定位系统。
3.3. 技术演进
该领域的技术演进路径可以概括为:
-
从基于模型的精确控制到基于学习的泛化能力: 早期机器人控制依赖精确的物理模型和运动规划,虽然稳定但缺乏灵活性和泛化性。强化学习的兴起使得机器人能够从经验中学习适应复杂多变的环境。
-
从理想仿真到真实世界部署: 大多数先进的控制策略最初在仿真中开发,但仿真与现实的差距一直是部署到真实世界的巨大障碍。领域随机化、非对称
Actor-Critic等技术逐渐弥合这一差距。 -
从依赖外部感知到板载自主感知: 早期高精度机器人任务常依赖外部
MoCap系统。随着板载传感器(如LiDAR、相机)性能提升,研究转向利用这些传感器实现机器人的完全自主感知和定位。 -
从模仿轨迹到模仿风格: 传统的运动模仿多为轨迹跟踪,但泛化性差。
AMP框架的出现使得机器人能够学习运动的风格或流派,从而在面对未见过的场景时也能生成自然且适应性强的动作。 -
从单一能力到多模态融合: 无论是感知(
LiDAR+相机)还是控制(任务奖励+风格奖励),都趋向于融合多种信息来源和学习范式,以实现更全面、更鲁棒的机器人能力。本文的工作正处于这种技术演进的交汇点,通过融合
AMP的风格化学习能力、粗到细的板载多传感器感知以及领域随机化的sim-to-real策略,旨在克服现有方法的局限,推动人形机器人在真实世界复杂交互任务中的应用。
3.4. 差异化分析
PhysHSI 的方法与相关工作的主要区别和创新点在于:
- 统一性与系统性: 多数先前工作侧重于单个能力的提升(如仅关注运动自然性或仅关注感知鲁棒性),而
PhysHSI首次在一个统一的真实世界系统中成功整合了通用化、逼真运动和鲁棒场景感知这三大挑战。 AMP的真实世界扩展: 尽管AMP在仿真中被广泛用于生成自然运动,但将其成功迁移到真实世界复杂的 HSI 任务中,同时解决真实世界的感知局限,是本文的重要贡献。先前真实世界AMP应用多局限于基础步态技能的正则化。- 创新的粗到细感知: 针对板载传感器视野有限和易受遮挡的问题,本文提出的
LiDAR结合相机(AprilTag)的粗到细定位模块,实现了远距离粗略引导和近距离精确感知之间的无缝切换,提供了连续且鲁棒的物体定位,这是对现有感知方案(如纯相机或纯LIO)的有效改进。 - 长时序、复杂交互的泛化: 相比于专注于单一技能或特定场景的
RL或跟踪方法,PhysHSI能够处理如“搬运箱子”这样包含多阶段(行走、抓取、搬运、放置)的长时序复杂任务,并在多样化的场景和物体属性下展现出强大的泛化能力,这得益于AMP对运动风格的学习和Hybrid RSI策略。 - 高便携性: 仅依赖板载传感器和计算单元,无需外部
MoCap系统或基础设施即可在室内外环境部署,显著提升了系统的实用性和便携性。
4. 方法论
PhysHSI 系统由一个仿真训练流程和一个真实世界部署系统组成。本节将详细拆解其技术方案。
4.1. 仿真训练流程
为了让人形机器人以逼真的方式与物体交互,并能泛化到多样化场景,本文基于对抗运动先验(AMP)框架 [31] 构建了仿真训练流程。
4.1.1. 数据准备
在 PhysHSI 中,高质量的人形机器人运动数据是学习的基础。传统的运动数据通常只包含人体骨架信息,不涉及与物体的交互。为了解决这个问题,本文采用了一种后注释(post-annotation)策略来生成包含物体交互的人形机器人运动数据。
- 机器人运动数据生成: 首先,将
AMASS和SAMP数据集 [29, 30] 中的SMPL人体运动通过优化方法重定向(retarget)到人形机器人模型上。重定向后,应用平滑滤波器以消除可能出现的抖动,得到一个仅包含机器人运动的数据集 。 - 物体信息手动注释与推理: 针对 中的运动序列,人工标注关键的接触帧,即物体被拾取(
pickup)的起始帧 和物体被放置(placement)的结束帧 。 - 物体轨迹推理: 基于这些关键帧,采用简单的规则推断出对应的物体轨迹:
- 在拾取 () 和放置 () 之间,物体的三维位置 被设定为机器人双手的中点,其方向则与机器人的基座对齐。
- 在 之前和 之后,物体位置保持在相应的关键接触帧处固定不变。
这个过程产生了一个增强版的人形机器人运动数据集 ,其中包含了与机器人运动一致且物理连贯的物体位置信息。这些物体位置信息对于后续的阶段条件化(
stage conditioning)和参考状态初始化(reference state initialization)至关重要。
下图(原文 Figure 2)展示了 PhysHSI 系统的概览,其中包含了数据准备、AMP 策略训练以及真实世界部署中的感知模块:
该图像是示意图,展示了PhysHSI系统的三个主要组件:数据准备、AMP策略训练和真实世界部署。通过结合激光雷达和相机输入,系统实现了任务特定的物体定位,同时展示了仿真与现实中对人形机器人自然运动的调控。
4.1.2. 对抗运动先验策略训练
将人形机器人-场景交互(HSI)问题建模为一个强化学习(RL)任务。为使人形机器人能够以逼真的方式与物体交互,并泛化到多样化场景,本文基于对抗运动先验(AMP)框架 [31] 进行构建。该框架包含两个核心组件:
- 策略(
policy): 负责生成人形机器人的动作。 - 判别器(
discriminator): 负责区分策略生成的运动与参考运动数据集中的真实运动。
1) 观测空间与动作空间
-
策略观测(
Policy Observation, ): 在每个时间步 ,策略接收的观测 包含一个 5 步的历史本体感受(proprioception) 和任务特定的观测 。- 本体感受(): 定义如下,维度为 。
其中:
- :机器人基座(
base frame)在时间 的角速度。 - :机器人基座在时间 的重力方向向量。
- :机器人所有 29 个关节的位置。
- :机器人所有 29 个关节的速度。
- :五个末端执行器(左手、右手、左脚、右脚和头部)在机器人基座坐标系中的三维位置。
- :前一个时间步执行的动作。
- :机器人基座(
- 任务特定观测(): 这部分观测根据具体任务而异,通常包含以下三个组件:
- 物体形状(): 由物体的边界框尺寸表示。
- 物体姿态( 和 ): 分别是物体在机器人基座坐标系中的位置和方向(使用 6D 表示)。
- 目标位置(): 任务的目标位置,也在机器人基座坐标系中表示。
- 本体感受(): 定义如下,维度为 。
其中:
-
判别器观测(
Discriminator Observation, ): 在每个时间步,判别器接收的观测 包含特权信息(privileged information),维度为 ,定义如下: 其中:- :基座高度。
- :基座线性速度。
- :基座角速度。
- :基座重力方向。
- :关节位置。
- :末端执行器位置。
- :物体位置。
- 重要性: 判别器观测中包含物体位置 对于长时序任务至关重要。它允许判别器隐式地对任务阶段(
task phases)进行条件化,例如接近、拾取、搬运或放置阶段,从而增强对策略训练的指导。
-
动作空间(
Action Space): 策略 输出的动作 指定了目标关节位置。这些目标位置通过一个PD控制器在人形机器人的所有 29 个自由度(DoFs)上执行。
2) 奖励项与判别器学习
奖励函数被定义为三个组件的总和:,其中:
-
是任务奖励(
task reward),鼓励人形机器人实现高层次的任务目标。 -
是正则化奖励(
regularization reward),用于惩罚过度的关节力矩和关节速度,以确保运动的平稳性。 -
是风格奖励(
style reward),鼓励人形机器人模仿参考运动数据集中的行为。 -
表示对应的奖励系数。
判别器优化: 风格奖励通过对抗判别器 来建模。判别器被训练以区分策略生成的运动和数据集中的真实运动。判别器通过最小化以下目标函数进行优化 [31]: 其中:
-
表示从数据集 中采样的 帧运动片段的分布。
-
表示从策略 生成的 帧运动片段的分布。
-
是一个系数,用于正则化对抗训练中的梯度惩罚(
gradient penalty)[61],以提高训练稳定性。 -
代表用于梯度惩罚的插值样本。
策略风格奖励: 最终,策略的风格奖励定义为: 这个奖励项鼓励策略生成判别器难以区分(即判别器给出高置信度为“真实”运动)的运动片段。
策略优化: 为了优化策略,本文使用近端策略优化(Proximal Policy Optimization, PPO)[62] 算法来最大化累计折扣奖励 ,其中 是折扣因子。
3) 混合参考状态初始化(Hybrid Reference State Initialization, Hybrid RSI)
许多 HSI 任务是长时序的,如果所有 эпизод 都从默认的起始姿态开始初始化,探索会变得非常困难,因为人形机器人很少能体验到关键的转换阶段。
为了解决这个问题,本文采用了参考状态初始化(Reference State Initialization, RSI)策略 [37],它从随机采样的参考运动以及对应的标注物体状态中初始化 эпизод,从而提高了探索效率。
然而,这种朴素的 RSI 策略存在对演示中有限场景配置过拟合的风险。本文通过两种方式缓解了这一局限:
- 利用任务阶段的组合性: 尽管一个运动片段可能指定了箱子的拾取位置,但后续的目标放置位置不一定需要与数据完全匹配。因此,从运动数据中采样一个初始阶段 ,同时对 阶段的场景进行随机化。
- 默认起始姿态初始化: 一部分 эпизод 从默认的起始姿态开始初始化,并伴随完全随机化的场景参数(例如,物体大小、位置和目标位置)。
这种混合
RSI策略在促进高效探索的同时,确保了策略的泛化能力。
4) 非对称 Actor-Critic 训练
在真实世界中,由于噪声和感知限制,智能体只能获得部分观测。此外,系统约束还要求在训练期间掩蔽(masking)一些任务观测(参见第 IV-B 节)。
为了弥补这些不足,本文采用了非对称 Actor-Critic 框架 [63]。在该框架中:
Actor(策略网络)使用在部署时可用的输入 。Critic(价值网络)则观察一个更丰富的状态 (例如,基座速度和未被掩蔽的任务观测)。 这种设计允许critic从更完整的信息中学习价值函数,从而更好地指导actor的训练,同时确保actor在真实世界中仅依赖有限的、可获得的观测。
5) 运动约束
随着奖励在任务的不同阶段累积,智能体倾向于通过产生快速、抖动的动作来利用捷径,尤其是在训练后期,这对于真实部署是不合适的。 为了解决这个问题,本文采取了以下措施:
- 风格奖励权重调整: 在训练初期,分配一个较小的风格奖励权重 以鼓励探索。然后逐步增加 ,使策略生成的运动与运动数据更紧密地对齐。
- 平滑性正则化: 此外,本文还采用了
L2C2平滑性正则化 [64] 来增强运动的平滑性和稳定性,这对于硬件部署至关重要。
4.2. 真实世界部署系统
为了将训练好的 HSI 技能部署到真实世界中,需要获取两个关键观测:末端执行器位置 和物体姿态(位置 和方向 )。
- 准确获取 相对容易,可以通过正向运动学(
forward kinematics,FK)结合关节编码器信息获得。 - 然而,可靠的物体定位更具挑战性,因为板载传感器通常视野有限且频繁出现遮挡——例如,机器人启动时物体不可见,或在运动过程中物体移出视野。
为了克服这些挑战并获得鲁棒、连续的定位,本文设计了一个粗到细的感知系统,该系统整合了激光雷达(
LiDAR)和RGB相机输入。
4.2.1. 粗到细的物体定位
为了清晰起见,本文使用变换矩阵来表示位置和方向。具体来说, 表示物体 在时间 在机器人基座坐标系 中的姿态,其中 将位置 和方向 映射到变换矩阵: 其中 是三维空间中的特殊欧几里得群,代表了刚体变换。
初始化: 在任务初始化时,目标物体通常在相机视野之外。因此,系统分配一个粗略的初始姿态 :
-
位置 通过激光雷达点云可视化手动指定。
-
方向 也是初始方向。
粗定位(长距离): 在执行过程中,当机器人离物体较远时,系统使用
FAST-LIO[53] 来估计里程计 ——即当前基座坐标系 相对于初始基座坐标系 的姿态。然后,物体在当前基座坐标系中的位置和方向通过以下公式获得: 其中 从变换矩阵中提取位置和方向。这种方法提供了物体姿态的连续但粗略的估计,足以引导机器人从长距离接近目标。
细定位(近距离): 对于近距离的精细定位,系统采用 AprilTag 检测 [65] 来提供物体在相机坐标系 中的准确位置 和方向 。
- 过渡机制: 粗定位在
AprilTag首次被检测到时自动切换到细定位。 - 临时检测丢失处理: 如果
AprilTag临时丢失(例如,机器人转身去坐下时),系统会利用里程计 来传播上一次成功检测到的物体姿态 。物体在当前机器人基座坐标系 中的姿态由以下公式估计: 其中 是相机在机器人基座坐标系中的姿态,在已知相机外参的情况下可以得到。
静态与动态物体区分:
- 静态物体(例如椅子): 其姿态被假定为固定不变,并通过上述传播策略进行更新,例如当机器人准备转身坐下时。
- 动态物体(例如箱子): 这种姿态估计在抓取之前有效。抓取之后,如果物体离开相机视野,其位置和方向都会被掩蔽(
masked),此时策略将依赖本体感受来完成任务。 - 抓取阶段定义: 一个简单的距离阈值 定义了抓取阶段:如果估计的物体距离超过 ,则物体被视为静态;否则,假定它随机器人移动。
4.2.2. 仿真到现实迁移
为了更好地匹配真实世界的观测,本文应用了领域随机化(domain randomization) [66] 技术。使用了两个关键策略:
- 噪声和延迟: 对物体姿态和正向运动学(
FK)观测添加随机偏移、高斯噪声和延迟。 - 掩蔽机制: 复制了动态物体在抓取阶段的掩蔽机制,即当物体超出相机视野、目标距离超出范围或相机角度偏离垂直方向过大时,相关观测会被掩蔽。 此外,本文还采用了 [55] 中的标准领域随机化技术,以增强鲁棒性并促进仿真到现实的迁移。
4.2.3. 硬件设置
PhysHSI 系统基于 Unitree G1 人形机器人构建。
- 传感器: 机器人配备了内置的
Livox Mid-360 LiDAR和一个安装在头部的外部Intel RealSense D455深度相机,后者提供 的水平视野和 的垂直视野。 - 计算平台: 感知模块(包括点云可视化、
Fast-LIO、AprilTag检测和正向运动学)以及学习到的策略,均在机器人板载的Jetson Orin NX计算平台上运行。这使得系统能够完全便携地部署。
5. 实验设置
本节将详细描述 PhysHSI 论文的实验设置,包括使用的数据集、评估指标和对比基线,以及实验环境。
5.1. 数据集
实验中用于 AMP 策略训练的数据集是通过以下方式准备的:
- 原始数据来源:
AMASS和SAMP数据集 [29, 30]。AMASS(Archive of Motion Capture as Surface Shapes)是一个大规模的人类运动捕捉数据集,包含数小时的动作数据。SAMP(Self-Animating Motion Portraits)是用于生成逼真人脸和身体运动的数据集。 - 数据处理: 将这些数据集中
SMPL(Skinned Multi-Person Linear model,一种参数化人体模型)格式的人体运动重定向(retarget)到Unitree G1人形机器人模型上。 - 物体信息增强: 针对重定向后的机器人运动,手动标注关键的物体交互帧(如拾取和放置),并基于规则推断出物体在这些交互过程中的轨迹。这种后注释策略使得生成的运动数据包含与机器人运动物理连贯的物体位置信息。
- 规模: 每个任务大约包含 25 条完整的轨迹。
- 选择原因: 这些数据集提供了丰富、自然的人类运动先验,是学习逼真和通用化人形机器人交互行为的关键。通过对这些数据进行重定向和物体信息增强,能够生成高质量的、包含物体交互的机器人运动参考。
5.2. 评估指标
论文中使用了多种评估指标来衡量 PhysHSI 在仿真和真实世界中的性能。
5.2.1. 成功率 ( - Success Rate)
- 概念定义:
成功率衡量智能体成功完成预定义任务目标的百分比。在本文中,这表示物体是否被正确放置,或者人形机器人是否达到了期望的姿态(例如,坐下、躺下)。 - 数学公式:
- 符号解释:
- :智能体在给定场景或任务中成功完成的回合数。
- :进行的所有实验回合总数。
5.2.2. 人类相似度分数 ( - Humanlikeness Score)
- 概念定义:
人类相似度分数旨在量化机器人生成运动与真实人类运动的自然性和逼真程度。在本文中,这一指标由Gemini-2.5-Pro大语言模型进行评估,该模型根据任务描述和实验轨迹,为每个演示片段分配一个 0 到 5 的分数,分数越高表示越像人类。 - 数学公式: (论文未直接给出公式,但根据描述可表示为评估片段的平均得分)
- 符号解释:
- :用于评估的演示片段总数。
- :
Gemini-2.5-Pro为第 个演示片段分配的人类相似度分数,范围为 0 到 5。
5.2.3. 完成精度 ( - Finish Precision)
- 概念定义:
完成精度衡量任务完成后机器人或物体最终位置与目标位置之间的距离误差。此指标用于评估任务完成的准确性,通常以米()为单位。 - 数学公式: (论文未直接给出明确公式,但根据上下文可推断为多次试验中误差的平均值或标准差)
- 符号解释:
- :进行的试验次数。
- :第 次试验中任务完成时,机器人或物体的最终位置向量。
- :第 次试验中任务的目标位置向量。
- :表示欧几里得距离(L2 范数)。
5.2.4. 执行时间 ( - Execution Time)
- 概念定义:
执行时间指机器人从任务开始到成功完成任务所需的总时间。通常以秒()为单位。 - 数学公式: (论文未直接给出明确公式,但可理解为多次试验中执行时间的平均值或标准差)
- 符号解释:
- :进行的试验次数。
- :第 次试验中任务的执行时间。
5.2.5. 最大移动范围 ( - Maximum Movement Range)
- 概念定义:
最大移动范围衡量机器人在执行任务过程中,其基座(root)相对于起始位置的最大移动距离。此指标用于评估任务所需的运动空间范围。 - 数学公式: (论文未直接给出明确公式,但可理解为试验中根部位置与起始位置最大距离的统计)
- 符号解释:
- :第 次试验中,机器人在时间 的根部(基座)位置向量。
- :第 次试验中,机器人的起始根部位置向量。
- :表示在所有试验中取最大值。
- :表示在一个特定试验的所有时间步中取最大值。
- :表示欧几里得距离。
5.3. 对比基线
论文将 PhysHSI 与两种常用的基线方法进行了比较:
RL-Rewards: 这种基线模型让人形机器人从头开始学习HSI任务,不使用任何运动参考数据。它完全依赖于手调的RL奖励,包括步态奖励(gait reward)、任务奖励(task reward)和正则化奖励(regularization RL rewards)。这个基线代表了传统的、纯基于奖励的强化学习方法在处理复杂机器人任务时的表现。Tracking-Based: 这种基线模型通过逐帧跟踪人形机器人和物体在数据集中提供的轨迹来模仿运动参考。它使用了与PhysHSI相同的运动数据集,其中每个任务包含大约 25 条完整的轨迹。这个基线代表了基于轨迹模仿学习的方法,其特点是严格遵循参考动作,但可能缺乏泛化能力。
5.4. 实验环境与任务
- 仿真环境: 所有训练和评估环境均在
IsaacGym[67] 中实现。IsaacGym是NVIDIA开发的一个高性能GPU加速物理仿真平台,特别适用于机器人学习任务,能够支持大规模并行仿真。 - 代表性
HSI任务: 论文在四种代表性的HSI任务上对方法进行了基准测试:- 搬运箱子(
carry box): 任务包括走向箱子、拾取箱子、搬运箱子到目标位置并放置。 - 坐下(
sit down): 任务包括走向椅子并坐在椅子上。 - 躺下(
lie down): 任务包括走向床并躺在床上。 - 站起(
stand up): 任务包括从椅子上站起来。
- 搬运箱子(
5.5. 评估设置
- 场景分布:
- 分布内场景(
In-distribution scenes): 仅包含来自数据集的场景设置,用于评估方法在熟悉环境中的性能。 - 全分布场景(
Full-distribution scenes): 场景参数在任务空间内均匀采样,用于评估方法的泛化能力。具体随机化范围为:物体放置在距起始位置 范围内;箱子初始化高度在 之间,尺寸在 之间。
- 分布内场景(
- 评估方法:
- 统计方式: 每个设置的平均值和标准差均基于五个不同的随机种子计算。
- 评估次数: 每个随机种子在 1000 个 эпизод 和三个演示片段上进行评估。
6. 实验结果与分析
本节将详细解读 PhysHSI 的实验结果,包括与基线的比较、消融实验以及对真实世界物体定位模块的分析。
6.1. 核心结果分析
6.1.1. 整体性能
PhysHSI 在仿真中所有任务上均实现了高成功率和自然逼真的运动,并成功地零样本迁移到真实世界。
仿真结果(表 I): 以下是原文 Table I 的结果:
| Carry Box | Sit Down | Lie Down | Stand Up | |||||
|---|---|---|---|---|---|---|---|---|
| Rsucc(%, ↑) | Shuman(↑) | Rsucc(%, ↑) | Shuman(↑) | Rsucc(%, ↑) | Shuman(↑) | Rsucc(%, ↑) | Shuman(↑) | |
| In Distribution Scene | ||||||||
| RL-Rewards | 72.92 (±8.29) | 1.67(±0.47) | 83.60 (±5.98) | 1.50(±0.24) | 76.72 (±9.43) | 0.50 (±0.00) | 93.02 (±0.71) | 1.50 (±0.24) |
| Tracking-Based | 11.84(±3.16) | 4.83 (±0.24) | 31.46 (±2.96) | 3.80 (±0.08) | 19.58 (±1.02) | 2.23 (±0.21) | 99.00(±1.28) | 4.67(±0.12) |
| PhysHSI | 91.34(±1.63) | 4.00(±0.41) | 96.28 (±0.21) | 4.80(±0.08) | 97.86 (±0.60) | 4.80(±0.08) | 99.68(±0.21) | 3.77 (±0.21) |
| Full Distribution Scene | ||||||||
| RL-Rewards | 63.40 (±8.63) | 1.17(±0.24) | 73.14(±4.29) | 3.07 (±0.09) | 55.76 (±12.51) | 2.00 (±1.08) | 90.50 (±2.33) | 1.07(±0.09) |
| Tracking-Based | 0.02 (±0.01) | 0.50 (±0.00) | 1.12 (±0.51) | 0.50 (±0.00) | 0.94 (±0.45) | 1.00(±0.41) | 35.32 (±2.51) | 3.27±0.54) |
| PhysHSI | 84.60(±3.74) | 3.83(±0.24) | 91.32(±2.48) | 4.77±0.05) | 81.28 (±3.99) | 4.43 (±0.33) | 92.24(±0.75) | 3.77(±0.52) |
主要发现:
-
持续高成功率:
PhysHSI在所有四项长时序HSI任务上均表现出持续强大的性能。即使是包含四个子任务的复杂“搬运箱子”任务,在全分布场景下也能达到 84.60% 的成功率,与较简单的两步“坐下”任务成功率(91.32%)相媲美。 -
强大的泛化能力: 与逐帧模仿参考轨迹的
Tracking-Based方法不同,PhysHSI利用AMP框架学习运动风格的对齐,从而实现了灵活的运动组合。这使得它在全分布场景下也能保持可观的成功率,而Tracking-Based方法由于参考数据规模有限,几乎完全失败(成功率接近 0%)。下图(原文 Figure 3)展示了PhysHSI在不同场景下的空间泛化能力,即使是少数参考轨迹也能生成多样化的策略运动。
该图像是图表,展示了机器人在两项任务中的根轨迹:(a)搬运箱子和(b)躺下。红色轨迹表示参考数据,其他轨迹表示采样的策略运动。 -
逼真的运动模式:
PhysHSI的人类相似度分数() 显著高于RL-Rewards方法。通过策略和判别器之间的竞争训练,PhysHSI有效地辨别了数据集运动和策略生成运动,从而产生了自然的机器人行为。相比之下,RL-Rewards方法需要精心设计步态和正则化奖励项,这在长时序任务中设计难度大且效果不佳。
真实世界实验(表 III): 以下是原文 Table III 的结果:
| Tasks | Rsucc | Rprecision (m) | Texec (s) | Mrange e(m) |
|---|---|---|---|---|
| Carry Box | 8/10, 6/10 | 0.19(±0.10) | 10.5(±2.8) | 5.69 |
| Sit Down | 9/10 | 0.07(±0.03) | 6.2 (±1.3) | 4.14 |
| Lie Down | 8/10 | 0.16(±0.07) | 6.7(±1.0) | 3.76 |
| Stand Up | 8/10 | / | 2.3(±0.4) | 1.74 |
Carry Box任务的成功率分别报告了拾取阶段和完整序列。
主要发现:
-
零样本迁移与高精度:
PhysHSI实现了零样本迁移,并在所有四项HSI任务的真实世界部署中取得了有竞争力的成功率和高精度,尤其在“躺下”和“坐下”任务上表现强劲。对于更具挑战性的“搬运箱子”任务,系统在拾取阶段达到 8/10 的成功率,完整序列为 6/10,放置误差低于 20cm。 -
强大的泛化能力:
PhysHSI有效泛化到空间布局和物体属性的变化,能够在最远 5.7m 的距离上移动,并处理不同尺寸、高度和重量的箱子。下图(原文 Figure 4)展示了机器人在不同场景配置下的交互示例。
该图像是插图,展示了机器人在执行不同的交互任务,包括搬运箱子(a)、坐下(b)和躺下(c)。这些任务强调了机器人的自然动作与环境交互能力。 -
自然与风格化运动:
PhysHSI相比于纯奖励调优的RL策略,生成了更自然、类人的运动。策略继承了AMASS数据中猫步式步态的特点,并且该框架也支持学习风格化运动。例如,在 Figure 1(e) 中,系统可以生成多样化的步态风格,如恐龙步态或高抬腿步态。 -
便携式部署:
PhysHSI仅使用板载传感器和计算即可在户外部署(Figure 1(a)-(c)),这凸显了其相比于依赖外部基础设施的MoCap部署的便携性。
6.1.2. 物体定位模块分析
为了评估粗到细物体定位模块的有效性,研究人员进行了 17 次真实世界 HSI 试验,其中 15 次成功。每次试验都记录了模块估计的物体轨迹,并与从 MoCap 系统获得的地面真值(ground-truth)轨迹进行比较。同时测量了粗到细过渡点的机器人-物体距离。
-
定位误差分析(Figure 5a):
- 当机器人距离物体较远时,定位误差相对较大(约 0.35m)。
- 一旦进入 2.4m 范围内,
AprilTag检测被激活,切换到细定位阶段,平均误差降至 0.05m。 - 这结果表明了粗到细设计的有效性:粗定位阶段在远距离提供可靠的方向性引导,而细定位阶段在近距离提供准确的位置信息。
-
典型轨迹误差来源(Figure 5b):
- 粗定位阶段(i): 误差主要来源于
LiDAR点云可视化中手动指定的目标点,与精确位置偏差约 0.3m。尽管如此,估计轨迹与地面真值轨迹显示出一致的趋势,足以提供引导。 - 细定位阶段(ii): 误差主要来源于里程计漂移和
AprilTag噪声,但误差保持较小,轨迹紧密对齐。 - 抓取阶段(iii): 在近距离,误差主要由
AprilTag噪声主导,且由于快速的操纵运动,误差比平滑的移动阶段更明显。
- 粗定位阶段(i): 误差主要来源于
-
15/17 的总成功率进一步证实了该模块的鲁棒性。两次失败的原因分别是粗略引导偏差过大(导致
AprilTag未能进入视野)和系统崩溃。下图(原文 Figure 5)展示了真实世界定位系统的分析结果:
该图像是图表,展示了定位误差与机器人-物体距离的关系及转移分布(左图)和物体定位轨迹(右图)。左图中,粗定位与细定位的过渡统计分布显示了定位误差的变化。右图则展示了跟踪过程中计算的定位与真实值之间的对比,分为三个阶段(i、ii、iii)。
6.2. 消融实验/参数分析
本文对数据处理、RSI 策略和掩蔽策略进行了消融研究,以评估各模块的贡献。
以下是原文 Table II 的结果:
| Carry Box | Sit Down | |||
| Rsucc(%, ↑) | Shuman(↑) | Rsucc(%, ↑) | Shuman(↑) | |
| Ablation on Data Processing | ||||
| w/o Smoothness | 63.28(±11.72) | 2.33 (±1.03) | 87.24(±2.19) | 1.33 (±0.23) |
| w/o Object | 55.42(±8.17) | 2.60(±0.57) | 72.36(±6.71) | 3.50(±0.70) |
| PhysHSI | 79.34(±4.71) | 3.83(±0.24) | 91.32(±2.48) | 4.77(±0.05) |
| Ablation on RSI Strategy | ||||
| w/o RSI | 41.24(±6.92) | 2.50 (±1.63) | 78.24(±3.91) | 4.50(±0.00) |
| Naive RSI | 5.70(±2.38) | 0.50(±0.0) | 18.70(±5.33) | 1.83(±0.62) |
| Hybrid RSI | 79.34(±4.71) | 3.83(±0.24) | 91.32(±2.48) | 4.77(±0.05) |
| Ablation on Mask Strategy (for dynamic objects) | ||||
| w/o Obs Mask | 85.90(±2.90) | 4.30(±0.14) | I | I |
| PhysHSI | 79.34(±4.71) | 3.83(±0.24) | 91.32 (±2.48) | 4.77(±0.05) |
主要观察结果:
- 数据质量和物体标注是关键:
w/o Smoothness(无平滑处理):在没有平滑运动数据的情况下进行训练,会产生不自然的机器人行为。策略可能在判别器的引导下利用抖动的末端执行器或突然的运动转换等伪影。w/o Object(无物体标注):移除物体标注会增加任务失败率。在AMP观测中,物体状态对于学习阶段转换和运动风格至关重要。例如,当物体较远时,判别器会促使人形机器人走向物体;而在搬运过程中,则会保持箱子在双手之间居中。
- 混合
RSI对泛化和效率至关重要:w/o RSI(无参考状态初始化):性能相对较低。Naive RSI(朴素RSI):所有 эпизод 都从固定在数据集设置中的参考状态初始化。其性能比w/o RSI更差,表明由于观察场景多样性有限,泛化能力差且训练效率低。Hybrid RSI(混合RSI):显著提升了泛化能力和样本效率,证明了其在长时序任务中平衡探索和泛化的重要性。
- 掩蔽策略对整体性能影响有限:
w/o Obs Mask(无观测掩蔽):虽然与使用完整物体状态相比,掩蔽策略(PhysHSI)略微减慢了训练速度(w/o Obs Mask代表性能上限),但在两个消融案例中,它对最终策略的成功率影响极小。这表明训练出的策略对于真实世界感知中可能存在的观测缺失具有较好的鲁棒性。
6.3. 限制性测试
研究人员还对“搬运箱子”任务的系统局限性进行了分析,评估了不同搬运高度、箱子质量和形状对成功率的影响。 以下是原文 Table IV 的结果:
| Test Condition | Box Height | Box Weight | Maximum Box Size | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 cm | 20 cm | 40 cm | 60 cm | 0.6 kg | 1.2 kg | 2.3 kg | 3.6 kg | 4.5 kg | 20 cm | 30 cm | 40 cm | 45 cm | |
| Rsucc(↑) | 2/3 | 3/3 | 3/3 | 1/3 | 2/3 | 3/3 | 2/3 | 1/3 | 0/3 | 2/3 | 3/3 | 2/3 | 3/3 |
主要发现:
- 人形机器人能够稳定搬运高度在 范围内的箱子。搬运更高(例如超过 60cm)的箱子会超出机器人的垂直视野范围,即使在静止状态下也无法看到。
- 机器人能够处理重量在 范围内的箱子。
- 机器人能够处理最大尺寸在 范围内的箱子。
- 更重或更宽的箱子无法处理,这主要是由于
Unitree G1机器人橡胶手的抓取能力和手臂长度的限制。超过 3.6kg 或 45cm 尺寸的箱子,成功率显著下降甚至为 0。
7. 总结与思考
7.1. 结论总结
本文提出了 PhysHSI,一个旨在实现通用化和自然的人形机器人-场景交互的真实世界系统。PhysHSI 成功地将一个有效的仿真训练流程与一个鲁棒的真实世界部署模块相结合。
核心成就:
- **高成功率与泛
相似论文推荐
基于向量语义检索推荐的相关论文。