Physics-Based Dexterous Manipulations with Estimated Hand Poses and Residual Reinforcement Learning
TL;DR 精炼摘要
本文提出了一种新型的残差强化学习方法,使得智能体能在虚拟环境中进行灵巧操控,依据估计的手部姿态映射到目标姿态,克服了物理反馈缺失的问题。通过3D手部姿态估计奖励,该模型在处理复杂手-物体交互和运动重建时显著提高了准确性和灵活性。
摘要
Dexterous manipulation of objects in virtual environments with our bare hands, by using only a depth sensor and a state-of-the-art 3D hand pose estimator (HPE), is challenging. While virtual environments are ruled by physics, e.g. object weights and surface frictions, the absence of force feedback makes the task challenging, as even slight inaccuracies on finger tips or contact points from HPE may make the interactions fail. Prior arts simply generate contact forces in the direction of the fingers' closures, when finger joints penetrate virtual objects. Although useful for simple grasping scenarios, they cannot be applied to dexterous manipulations such as in-hand manipulation. Existing reinforcement learning (RL) and imitation learning (IL) approaches train agents that learn skills by using task-specific rewards, without considering any online user input. In this work, we propose to learn a model that maps noisy input hand poses to target virtual poses, which introduces the needed contacts to accomplish the tasks on a physics simulator. The agent is trained in a residual setting by using a model-free hybrid RL+IL approach. A 3D hand pose estimation reward is introduced leading to an improvement on HPE accuracy when the physics-guided corrected target poses are remapped to the input space. As the model corrects HPE errors by applying minor but crucial joint displacements for contacts, this helps to keep the generated motion visually close to the user input. Since HPE sequences performing successful virtual interactions do not exist, a data generation scheme to train and evaluate the system is proposed. We test our framework in two applications that use hand pose estimates for dexterous manipulations: hand-object interactions in VR and hand-object motion reconstruction in-the-wild.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Physics-Based Dexterous Manipulations with Estimated Hand Poses and Residual Reinforcement Learning (基于物理的灵巧操控,通过估计的手部姿态和残差强化学习实现)
1.2. 作者
Guillermo Garcia-Hernando, Edward Johns, Tae-Kyun Kim
1.3. 发表期刊/会议
该论文作为预印本发表于 ArXiv。
1.4. 发表年份
2020年
1.5. 摘要
在虚拟环境中使用裸手进行灵巧操控,仅依靠深度传感器和最先进的3D手部姿态估计器 (HPE),是一项具有挑战性的任务。虚拟环境受物理定律(如物体重量和表面摩擦)支配,而缺乏力反馈使得任务更具挑战性,因为即使HPE在指尖或接触点上出现轻微不准确,也可能导致交互失败。现有技术在手指关节穿透虚拟物体时,简单地沿手指闭合方向生成接触力。虽然这对于简单的抓取场景有用,但它们无法应用于手中操控 (in-hand manipulation) 等灵巧操控。现有的强化学习 (RL) 和模仿学习 (IL) 方法训练智能体 (agent) 通过任务特定奖励学习技能,而不考虑任何在线用户输入。
本文提出学习一个模型,将嘈杂的输入手部姿态映射到目标虚拟姿态,从而在物理模拟器上引入完成任务所需的接触。该智能体在一个残差 (residual) 设置中,使用无模型 (model-free) 混合RL+IL方法进行训练。引入了3D手部姿态估计奖励 (3D hand pose estimation reward),当物理引导的校正目标姿态重新映射回输入空间时,提高了HPE的准确性。由于该模型通过对关节应用细微但关键的位移来纠正HPE误差以实现接触,这有助于使生成的运动在视觉上接近用户输入。由于不存在执行成功虚拟交互的HPE序列,本文提出了一种数据生成方案来训练和评估系统。作者在两个利用手部姿态估计进行灵巧操控的应用中测试了该框架:VR中的手-物体交互,以及野外 (in-the-wild) 手-物体运动重建。
1.6. 原文链接
https://arxiv.org/abs/2008.03285 PDF链接: https://arxiv.org/pdf/2008.03285.pdf
2. 整体概括
2.1. 研究背景与动机
核心问题: 论文关注的核心问题是,在虚拟现实 (VR) /增强现实 (AR) 环境中,仅凭深度传感器和手部姿态估计器 (Hand Pose Estimator, HPE) 估计的人手姿态,实现灵巧操控 (Dexterous Manipulation) 虚拟物体。
重要性与现有挑战:
- 对真实交互的需求: 在VR/AR应用中,将人手运动捕捉并传输到嵌入物理特性的虚拟模型是实现真实交互的基石。
- 传统方法的局限: 大多数现有工作依赖昂贵且侵入性的运动捕捉 (mocap) 系统,如手套、外骨骼或控制器。论文旨在避免这些系统,寻求仅使用人手姿态估计的解决方案。
- HPE的挑战: 最先进的HPE通常能提供人手模型关键点的3D位置,但将这些估计映射到虚拟手模型的参数(如关节角度)面临诸多挑战:
- 领域鸿沟 (Domain Gap): 人手和虚拟手模型之间存在结构差异。
- 接触物理 (Contact Physics): 虚拟环境遵守物理定律(如重力、摩擦),需要精确地处理手与物体之间的接触。
- HPE误差与噪声: HPE输出的3D姿态本身带有噪声和不准确性。即使是轻微的指尖或接触点误差,也可能导致物理交互失败。
- 现有操控方法的不足:
- 简单接触力生成: 一些现有方法在手指关节穿透虚拟物体时,简单地沿手指闭合方向生成接触力。这对于简单的抓取可能有效,但无法实现像手中操控 (in-hand manipulation) 这样的复杂灵巧操控。
- 忽略物理定律: 商业解决方案(如Leap Motion)有时通过“吸引”物体到手部来规避物理定律,导致不自然的运动。
- RL/IL的限制: 现有的强化学习 (RL) 和模仿学习 (IL) 方法通常训练智能体 (agent) 学习特定技能,但通常不直接结合在线的用户输入进行修正或辅助。
论文的切入点/创新思路: 为了解决这些挑战,论文提出了一种创新方案:学习一个残差 (residual) 智能体,它不是从零开始生成动作,而是在用户提供的(有噪声的)手部姿态估计之上,施加微小但关键的修正 (minor but crucial joint displacements)。这种残差学习方式结合了无模型 (model-free) 的混合强化学习 (RL) 和模仿学习 (IL) 方法,旨在生成既能成功完成任务,又在视觉上接近用户自然输入,并符合物理定律的虚拟手部动作。此外,论文还提出了一种独特的数据生成方案,以应对缺乏成功交互的HPE序列这一训练挑战。
2.2. 核心贡献/主要发现
该论文的主要贡献可以概括为以下几点:
- 提出残差强化学习框架用于灵巧操控: 引入了一个新颖的残差学习框架,该框架能够观察用户有噪声的输入手部姿态,并在此基础上进行微小但关键的修正,以在物理模拟器中成功执行灵巧操控任务。这解决了HPE固有的不准确性问题。
- 结合混合RL+IL方法: 智能体采用无模型混合强化学习 (RL) 和模仿学习 (IL) 方法进行训练。强化学习确保任务的成功完成,而模仿学习(通过判别器)则鼓励生成的动作在视觉上更自然,更接近专家演示。
- 引入3D手部姿态估计奖励: 提出了一种新的3D手部姿态估计奖励 (),它鼓励虚拟手部姿态与输入图像中描绘的用户姿态保持视觉上的相似性。实验表明,这种奖励有助于提高HPE的准确性,因为经过物理引导校正的目标姿态可以重新映射回输入空间。
- 创新数据生成方案: 针对缺乏成功虚拟交互的HPE序列数据这一训练难题,提出了一种独特的数据生成方案。该方案利用运动捕捉 (mocap) 数据集中的成功序列和大规模3D手部姿态数据集 BigHand2.2M,合成带有真实结构化噪声的HPE输入序列。
- 在多应用场景中验证: 在两个具有挑战性的应用中验证了该框架的有效性:
- VR中的手-物体交互: 在空中进行裸手灵巧操控,例如开门、手中操控笔、使用工具和物体搬运。
- 野外手-物体运动重建: 从真实RGBD视频序列(如倒果汁、递硬币)中重建符合物理的交互动作。
- 优于基线: 实验结果表明,所提出的方法在任务成功率和手部姿态准确性方面,均优于各种RL/IL基线以及简单的强制手部闭合的现有技术。
3. 预备知识与相关工作
本章旨在为读者铺垫理解论文所需的前置知识。
3.1. 基础概念
- 手部姿态估计器 (Hand Pose Estimator, HPE): 这是一种计算机视觉技术,旨在从图像(通常是深度图像或RGB图像)中识别并定位人手关节的3D坐标。HPE的输出通常是手部骨架上预定义关键点(如指尖、指根、掌心等)的3D空间位置。
- 灵巧操控 (Dexterous Manipulation): 指的是人手或机器人手执行的复杂、精细的物体操作,通常涉及多个手指协调运动,以改变物体在手中的位置或姿态,例如转动笔、拿起硬币等,而非简单的抓取或释放。
- 物理模拟器 (Physics Simulator): 是一种软件系统,能够模拟真实世界中的物理定律,如重力、碰撞、摩擦、惯性等。在本文中,它用于模拟虚拟手部模型与虚拟物体之间的交互,确保运动的物理合理性。MuJoCo是文中使用的著名物理模拟器之一。
- 强化学习 (Reinforcement Learning, RL): 是一种机器学习范式,智能体 (agent) 通过与环境进行交互来学习最优行为策略。智能体在每个时间步观察环境状态,执行一个动作,然后接收一个奖励信号和新的环境状态。目标是学习一个策略,以最大化长期累积奖励。
- 模仿学习 (Imitation Learning, IL): 是一种机器学习方法,智能体通过观察专家(如人类)的演示轨迹来学习执行任务。与RL不同,IL通常直接从专家行为中学习一个映射,而不是通过试错来发现最优策略。
- 逆运动学 (Inverse Kinematics, IK): 在机器人学和计算机图形学中,IK是指从末端执行器(例如手部模型上的指尖或特定关节)的期望3D位置和姿态,反向计算出机器人或手部模型各个关节的相应角度(或操作器参数)。这是一个病态问题,因为可能存在多个解或无解。
- 残差学习 (Residual Learning): 这种学习范式不是直接学习一个完整的映射,而是学习一个“残差”或“修正量”。在本文中,智能体不是从零开始生成手部动作,而是学习一个小的修正量,叠加在由HPE输出并通过IK映射得到的初始动作之上,从而微调动作以适应物理环境和任务需求。
- 策略 (Policy, ): 在强化学习中,策略定义了智能体在给定状态下选择动作的规则。它可以是确定性的(选择一个特定动作)或随机性的(对每个动作选择一个概率分布)。
- 价值函数 (Value Function): 在强化学习中,价值函数估计了在给定状态下,遵循某个策略所能获得的预期累积奖励。它可以帮助智能体评估不同状态的好坏。
- 近端策略优化 (Proximal Policy Optimization, PPO): 是一种广泛使用的策略梯度 (Policy Gradient) 强化学习算法,旨在在每次迭代中限制策略更新的幅度,以确保学习过程的稳定性和效率。
- 生成对抗模仿学习 (Generative Adversarial Imitation Learning, GAIL): 是一种结合了模仿学习和生成对抗网络 (Generative Adversarial Networks, GAN) 思想的方法。它训练一个生成器(策略)来生成像专家一样的动作,同时训练一个判别器来区分生成器产生的动作和真正的专家动作。判别器提供奖励信号来指导生成器学习。
- 状态空间 (State Space): 在强化学习中,指环境中所有可能状态的集合。智能体在每个时间步观察到的信息构成了当前状态。
- 动作空间 (Action Space): 在强化学习中,指智能体在给定状态下可以执行的所有可能动作的集合。
- 折扣因子 (): 在强化学习中,用于衡量未来奖励相对于当前奖励的重要性。它的值介于0到1之间,值越小表示智能体越关注短期奖励。
3.2. 前人工作
论文在“相关工作”章节中回顾了多个与手部姿态估计、视觉遥操作、基于物理的姿态估计、运动重定向以及机器人灵巧操控相关的研究。
- 3D手部姿态估计: 大部分成功得益于深度传感器和深度学习。近年来也有基于单RGB图像的方法。作者指出当前HPE多输出3D关节位置而非角度,但未来有望通过3D手部网格估计来简化。
- 视觉遥操作 (Vision-based Teleoperation): 传统上依赖接触设备如跟踪传感器、外骨骼和手套。基于视觉的方法存在,但通常局限于简单抓取。
- [5] 提出深度图像到机器人手模型的重定向,但仅基于外观,忽略物体。
- [8] 结合IK与PSO函数,鼓励手与物体表面接触。论文指出,仅强制接触不足以实现灵巧动作。
- 商业解决方案 (如Leap Motion [4], Hololens [9]) 通常识别手势并触发预录输出,或“吸引”物体到手部,导致不自然的运动。论文强调其方法在轻微修正用户输入的同时,遵守物理定律。
- 其他工作 [40-44] 使用预定义数据库合成抓取,局限于特定物体和交互,且对环境不确定性敏感。
- 基于物理建模的方法 [10, 45-49] 尝试通过测量手部穿透等来推断接触力。但这些方法依赖高精度HPE,且计算出的力不一定能自然地转移到现实世界。
- 基于物理的姿态估计 (Physics-based Pose Estimation):
- [11] 利用物理模拟器在优化框架内细化手部姿态。
- [12] 提出端到端深度学习模型,利用接触损失和网格穿透惩罚进行手-物体网格重建。这些方法通常处理单帧图像,并受限于简单的物理约束。
- [14] 使用RL从自我中心视频中估计和预测物理有效的身体姿态,但目标是间接观察其角色视角的自我姿态。
- 运动重定向与强化学习 (Motion Retargeting and Reinforcement Learning): 论文的问题与全身运动重定向相似,特别是那些考虑目标空间精确物理并使用RL训练控制策略的方法。
- [13, 58-60] 提出RL方法从参考mocap运动中学习技能。 [13] 扩展到处理经过清洗和后处理的身体姿态估计作为参考运动。本文的区别在于执行在线预测以纠正有噪声的用户输入,而非离线模仿技能。
- 机器人灵巧操控与强化学习 (Robot Dexterous Manipulation and Reinforcement Learning):
- [1, 18, 21] 探讨了在没有用户输入的情况下,使用RL和IL学习机器人操控技能。本文与 [21] 共享相似的对抗性混合损失,但模型自由度更高。本文基于 [1] 的模拟框架,并扩展其环境以处理基于视觉的手部姿态估计。
- 残差策略学习 (Residual Policy Learning):
- [61, 62] 提出了类似的残差策略思想。这些工作与本文共享残差策略的性质以及“改进现有动作而非从头学习有助于RL探索并产生更鲁棒策略”的观点。主要区别在于,本文的残差动作作用于用户输入而非预训练策略,即策略观察用户动作和世界状态,然后相应地行动。其他差异包括问题性质、动作空间复杂性、与对抗性IL的结合以及类似于共享自治 (shared autonomy) 的问题设置。
3.3. 技术演进
该领域的技术演进可以概括为从侵入式硬件到非侵入式视觉方法,从简单抓取到复杂灵巧操控,以及从纯粹的几何匹配到结合物理模拟和智能学习。
-
手部运动捕捉: 最初依赖昂贵且侵入性的硬件(如数据手套、外骨骼),以获取高精度的手部关节数据。
-
视觉手部姿态估计: 随着深度传感器(如Kinect)的普及和深度学习的兴起,基于图像(深度图或RGB图)的3D手部姿态估计成为主流,实现了非侵入式的手部追踪。
-
运动重定向: 将捕捉到的人手运动映射到虚拟手部模型,最初关注视觉相似性,后来开始尝试考虑物理约束。
-
物理模拟与交互: 意识到在虚拟环境中实现真实交互需要遵守物理定律,研究开始将物理模拟引入手部姿态精修和交互设计中。
-
基于学习的操控: 强化学习和模仿学习为复杂操控任务提供了强大的学习范式,尤其在机器人灵巧操控中取得了显著进展。但这些方法通常侧重于自主学习,较少直接结合在线用户输入。
-
残差学习与共享自治: 针对HPE噪声和物理准确性的挑战,残差学习的思想被引入,允许智能体在现有(可能不完美)输入之上进行修正。这与共享自治的概念相契合,即系统辅助用户完成任务。
本文的工作处于这一技术演进的交汇点,它结合了最先进的视觉HPE、精确的物理模拟、RL和IL的优势,并引入了残差学习范式来弥补HPE的固有缺陷,以实现更自然、更物理准确的灵巧操控。
3.4. 差异化分析
本文的方法与相关工作的主要区别和创新点在于:
-
残差学习处理噪声用户输入:
- 不同于: 传统的RL/IL方法通常训练智能体从头开始学习技能,或者模仿一个干净的专家轨迹。商业解决方案(如Leap Motion)要么忽略物理,要么触发预录动作。一些物理建模方法直接依赖HPE的精度来计算接触力,对噪声敏感。
- 创新点: 本文提出一个残差智能体 (Residual Agent),它接收有噪声的HPE输入,并在此基础上学习一个微小的修正量 (residual action)。这个修正量能够纠正HPE误差和IK映射的不准确性,以在物理模拟器中完成任务。这种方法承认HPE的噪声性质,并旨在“协助”用户,而非完全取代用户或模仿完美行为,类似于共享自治 (shared autonomy)。
-
混合强化学习 (RL) + 模仿学习 (IL) 框架:
- 不同于: 纯RL可能导致非自然行为,而纯IL可能难以泛化或应对新环境。
- 创新点: 结合了无模型 (model-free) RL(通过PPO实现任务成功)和对抗性IL(通过判别器鼓励动作与专家演示相似,保持自然度)。这种混合方法旨在同时实现任务成功和动作的视觉自然性。
-
3D手部姿态估计奖励 ():
- 不同于: 多数RL/IL框架专注于任务成功或模仿专家动作,较少考虑动作与原始视觉输入的相似性,尤其是在存在物体遮挡时。
- 创新点: 引入了一个新的奖励项,鼓励虚拟手部姿态与输入图像中的真实标注手部姿态 (Ground Truth hand pose) 保持视觉上的相似性。这不仅使得生成的动作更接近用户意图,还可能通过将物理校正后的姿态重新映射到输入空间来间接提高HPE的准确性。
-
新颖的数据生成方案:
- 不同于: 收集大量带有噪声HPE输入和成功交互的真实序列非常困难,因为用户在失败时往往会停止。
- 创新点: 提出了一种独特的数据生成方案,利用现有的运动捕捉 (mocap) 数据集(包含成功动作)和大规模3D手部姿态数据集 BigHand2.2M。通过将mocap数据中的虚拟姿态与HPE数据集中的真实图像和估计姿态进行匹配,生成了用于训练的带有结构化HPE噪声的输入序列。这解决了训练数据稀缺的问题。
-
灵巧操控的关注:
-
不同于: 许多现有视觉遥操作工作局限于简单的抓取动作,难以处理手中操控 (in-hand manipulation) 等复杂灵巧任务。
-
创新点: 该框架明确针对并成功应用于开门、手中操控笔、使用工具和物体搬运等需要高度灵巧性的任务,展现了其在复杂交互场景中的能力。
这些创新点共同使得论文提出的方法能够更有效地在存在HPE噪声的条件下,实现与虚拟物理环境的真实、灵巧且视觉自然的交互。
-
4. 方法论
本部分将详细拆解论文提出的技术方案,严格按照原文的公式和算法流程进行讲解。
4.1. 方法原理
论文提出的方法核心思想在于,弥合有噪声的手部姿态估计器 (HPE) 输出与物理模拟器中精确、成功的灵巧操控 (dexterous manipulation) 之间的鸿沟。它通过学习一个残差 (residual) 控制器来实现这一点。这个控制器不是从头生成完整的动作,而是在接收到用户有噪声的输入手部姿态后,计算一个微小的修正量 (residual action)。这个修正量被应用到通过逆运动学 (IK) 映射得到的初始动作之上,从而在物理模拟中产生精确的接触和成功的任务完成。为了确保生成的动作既符合物理,又在视觉上接近用户输入,该方法结合了强化学习 (RL) 和模仿学习 (IL),并引入了一个独特的3D手部姿态估计奖励。此外,为了克服训练数据稀缺的问题,论文还设计了一种创新的数据生成方案。
4.2. 核心方法详解
4.2.1. 逆运动学:从人手姿态到虚拟姿态 (Inverse kinematics: from human hand pose to virtual pose)
给定用户通过视觉表示 估计得到的手部姿态 ,该姿态由人手的21个关节的3D位置组成。目标是获得一个在视觉上相似的虚拟模型手部姿态 。这需要估计虚拟手部模型的参数 ,这些参数定义了手部关节之间的目标角度,并由PID控制器 (PID controllers) 辅助驱动。
逆运动学 (Inverse Kinematics, IK) 的任务就是计算这些旋转 ,使得虚拟手部姿态 与用户的估计手部姿态 等效。需要注意的是, 属于与 不同的领域,但可以通过在虚拟手部模型中仔细放置传感器来测量。这种从姿态到旋转的映射关系 可以手动设计,也可以通过监督神经网络在有输入-输出对的情况下自动学习。其数学表达式为:
其中:
-
: 虚拟手部模型的操作器(或动作)参数,通常是关节角度,由PID控制器驱动。
-
: 从手部姿态到旋转的映射函数,即逆运动学函数。
-
: 在时间步 用户估计的手部姿态,表示为21个关节的3D位置。
-
: 在时间步 的视觉表示,可以是一个图像或提取的视觉特征。
-
: 表示手部姿态 是从视觉表示 估计得到的。
为简化起见,论文将动作空间中的 称为“用户输入”,以区别于姿态空间中的用户估计手部姿态 。
IK 本质上是一个病态问题,因为虚拟模型和人手模型之间的差异,目标姿态 可能通过多个 达到,或者根本不存在解。当输入 带有噪声时(这是手部姿态估计器的固有性质),这个问题会变得更加严重。本文的残差方法旨在解决这种不完美的输入。
4.2.2. 残差手部智能体 (Residual Hand Agent)
在上述IK函数输出的基础上,论文描述了如何训练残差控制器 (residual controller)。由于人手运动学与虚拟运动学之间不完美的映射,以及手部姿态估计器引入的噪声,论文假设用户输入 产生的动作接近最优,但不足以成功完成目标任务。此外,序列的瞬时性意味着一个小的早期错误可能会由于后续模拟阶段中误差的累积而导致灾难性后果。
残差控制器引入了一个残差动作 (residual action) ,它是 、当前模拟状态 和视觉表示 (可以是图像或提取的视觉特征)的函数。这些项的组合方式如下:
其中:
-
: 应用于虚拟环境的最终动作(关节角度)。
-
: 从用户估计手部姿态通过IK映射得到的初始动作(用户输入)。
-
: 由残差控制器在时间步 计算的残差动作。
-
: 当前模拟状态,包含与任务相关的环境信息,如目标物体与虚拟手模型之间的相对位置、模型速度等。
-
: 视觉表示,可以是图像或提取的视觉特征。
为了避免与用户输入显著偏离,残差动作 被限制在一个以零为中心的特定区间内。
论文将残差策略的学习过程形式化为一个强化学习 (Reinforcement Learning, RL) 问题。其中,一个智能体 (agent) 通过遵循由参数 (在本文中是神经网络)化的策略 与模拟环境进行交互。
在每个时间步 ,智能体观察当前状态 、用户输入 和视觉表示 ,然后从策略 中采样一个残差动作 。最终动作 会被施加到环境中。环境根据其动力学(假设未知)转移到下一个状态 。一个标量奖励 量化了这次转换的好坏。因此,目标是找到一个最优策略,以最大化预期回报 ,其定义为:
其中:
-
: 由策略 参数化的预期回报。
-
: 对遵循策略 的所有可能轨迹 的期望。轨迹 表示为 。
-
: 对于 个时间步的轨迹的总回报, 是折扣因子。
-
: 轨迹的持续时间,在本文中是可变的,取决于手部姿态输入序列的长度。
为了优化参数 ,论文采用了流行的策略梯度方法 近端策略优化 (Proximal Policy Optimization, PPO) [17],因为它在学习灵巧策略方面的成功经验。PPO 算法通过最大化 来优化策略网络和价值函数(估计遵循策略的预期回报)。
4.2.2.1. 奖励函数 (Reward function)
引导框架学习过程的总奖励函数 定义为:
其中:
-
: 在时间步 的总奖励。
-
, , : 分别是任务导向奖励、模仿学习奖励和3D手部姿态估计奖励的权重因子。
a) 任务导向奖励 (): 这是一个针对每个环境量身定制的奖励项,旨在引导策略实现任务目标。它包括短期奖励(如接近目标物体)和长期奖励(如打开门)。具体细节在附录中给出。
b) 模仿学习奖励 (): 纯粹通过RL学习的策略往往会产生不自然的动作。为了鼓励动作序列更接近专家数据,论文添加了以下类似于 [21] 的对抗性IL奖励函数:
其中:
-
: 在时间步 的模仿学习奖励。
-
: 一个权重参数。
-
: 一个评分,由判别器 (discriminator) (参数为 )给出,量化了在给定状态-动作对 下,该动作有多好(即有多像专家动作)。
为了将此目标纳入框架,论文使用了 [20] 中的最小-最大 (min-max) 目标函数:
其中:
-
: 策略网络参数 的最小化操作。
-
: 判别器参数 的最大化操作。
-
: 判别器希望最大化专家策略 生成的状态-动作对
(s, a)被识别为真实的对数概率。 -
: 判别器希望最大化由策略 生成的状态-动作对
(s, a)被识别为虚假的对数概率。同时,策略 希望最小化这一项,即让其生成的动作骗过判别器,使其看起来像专家动作。 -
: 专家策略,其演示轨迹数据集 来自 [1],该数据集使用数据手套和追踪系统 [32] 捕捉了无噪声序列。
c) 3D手部姿态估计奖励 (): 上述奖励项可能导致虚拟姿态 与用户输入图像中描绘的姿态发散,特别是当手部姿态估计器因物体遮挡而失败时。如果在训练期间可以访问带标注的真实标注手部姿态 (Ground Truth hand poses) ,就可以引入一个额外的奖励,鼓励策略网络生成在视觉上类似于用户姿态的动作。该奖励定义为:
其中:
- : 在时间步 的3D手部姿态估计奖励。
- : 对21个手部关节进行求和。
- : 虚拟模型中第 个关节的3D位置 与真实标注中第 个关节的3D位置 之间的欧氏距离(L2范数)。负号表示奖励随着距离减小而增大。
4.2.3. 数据生成方案 (Data generation scheme)
为了训练残差策略(见公式2),需要一个包含自然手部运动的估计手部姿态序列 数据集,这些运动在系统完美时能够产生成功的交互。直接在线记录这样的HPE序列很困难,因为用户在任务失败时往往会中断动作。
论文提出的数据生成方案的核心思想是,利用一个包含成功序列的运动捕捉 (mocap) 数据集来生成专家状态-动作对,然后通过查询一个3D手部姿态数据集来找到可能产生这些动作的手部图像。
具体步骤如下:
-
使用 Mocap 数据集生成专家轨迹: 从 Rajeswaran 等人 [1] 提供的 mocap 数据集中获取成功的状态-动作对序列。这些序列被认为是“完美”的专家演示。
-
测量虚拟姿态并生成虚拟图像: 将 mocap 数据中的动作应用到物理模拟器中的虚拟手部模型。通过在虚拟手部模型上放置虚拟传感器和虚拟摄像头,测量每个时间步生成的虚拟手部姿态 ,并记录虚拟摄像头视角。
-
标准化虚拟姿态: 对虚拟姿态 进行标准化处理:将所有关节链接归一化为单位向量,并将掌心旋转对齐到特定平面,得到 。这使得不同手部模型之间的姿态更容易进行比较。
-
查询3D手部姿态数据集: 使用大规模公开的3D手部姿态数据集 BigHand2.2M [3] 作为手部姿态数据集。该数据集以密集的关节运动和相机-手部视角著称。
- 视角匹配: 首先,根据虚拟姿态的相对视角 (即仰角和方位角,由虚拟手掌法向量与虚拟相机视角的相对关系计算),从 BigHand2.2M 中检索具有相似视角的真实标注手部姿态。
- 姿态匹配: 在视角相似的候选姿态中,计算 与这些归一化真实标注姿态之间的欧氏距离,找到最近邻的真实标注手部姿态。
-
获取估计手部姿态: 一旦找到匹配的真实标注手部姿态,就检索其关联的深度图像,并通过一个3D手部姿态估计器 (HPE) 来计算估计的手部姿态 。
-
增加数据多样性: 尽管在图像中不考虑手部的平移会限制候选姿态的数量,但通过在真实标注的平移上添加噪声来生成不同的手部位置,可以增加训练序列的多样性,使其更具真实感。
这个流程确保了生成的训练数据包含了HPE引入的结构化噪声 (structured noise),从而使训练出的残差智能体能够更好地处理实际的、不完美的HPE输入。
以下是数据生成方案的伪代码(Algorithm 2):
<div class="table-wrapper"><table>
<tr>
<td colspan="2"><b>Algorithm 2: Data generation scheme</b></td>
</tr>
<tr>
<td>Input: τ = {s<sub>t</sub>, a<sub>t</sub>} D sequence of expert demonstrations of length T</td>
<td></td>
</tr>
<tr>
<td>1: s<sub>0</sub> ← sample initial state from τ</td>
<td></td>
</tr>
<tr>
<td>2: while t < T do</td>
<td></td>
</tr>
<tr>
<td>3: Apply a<sub>t</sub> to the environment</td>
<td></td>
</tr>
<tr>
<td>4: z<sub>t</sub> ← read simulation sensors</td>
<td></td>
</tr>
<tr>
<td>5: v<sub>t</sub> ← compute relative viewpoint between z<sub>t</sub>'s palm and simulator camera</td>
<td></td>
</tr>
<tr>
<td>6: z<sub>t</sub> ← normalize and align z<sub>t</sub></td>
<td></td>
</tr>
<tr>
<td>7: x<sub>t</sub> ← query dataset with v<sub>t</sub> and z<sub>t</sub></td>
<td></td>
</tr>
</table></div>
伪代码解释:
-
输入: 专家演示序列 ,其长度为 。
-
行1: 从专家演示序列 中采样一个初始状态 。
-
行2: 循环遍历时间步 从0到
T-1。 -
行3: 将专家动作 应用到模拟环境中。
-
行4: 从模拟器传感器读取当前虚拟手部姿态 。
-
行5: 计算虚拟手部姿态 的掌心与模拟器摄像头之间的相对视角 。
-
行6: 对虚拟手部姿态 进行标准化和对齐操作,以进行匹配。
-
行7: 使用计算出的相对视角 和标准化后的姿态 作为查询条件,从大规模3D手部姿态数据集中检索匹配的估计手部姿态 。
这个算法生成了由模拟器专家轨迹驱动的,带有HPE噪声的输入手部姿态序列,用于训练残差智能体。
5. 实验设置
5.1. 数据集
论文的实验使用了多个数据集,具体取决于不同的实验场景。
-
Rajeswaran et al. [1] 的 MoCap 数据集:
- 来源与特点: 包含使用数据手套和追踪系统 [32] 捕捉的无噪声专家演示,用于实现复杂的灵巧操控任务。
- 用途:
- 在实验A.1中,通过向这些专家动作添加合成高斯噪声,模拟有噪声的用户输入,用于验证框架处理随机噪声的能力。
- 在实验A.2中,作为数据生成方案的运动捕捉 (mocap) 数据源,提供成功的专家轨迹,以便从中生成带有结构化HPE噪声的训练数据。
- 规模: 每个任务约有24条 mocap 轨迹,被平均分为训练集和测试集。
-
BigHand2.2M [3] 数据集:
- 来源与特点: 一个大规模的3D手部姿态数据集,旨在密集捕捉手部的关节运动空间和相机-手部的视角空间,通常是在无物体设置中。它提供了深度图像和对应的真实标注手部姿态。
- 用途: 在实验A.2中,作为数据生成方案的关键组成部分,用于查询与虚拟姿态匹配的真实图像,并通过HPE生成带有结构化噪声的输入手部姿态。实验中使用了其中一个用户的数据(20万样本),该用户未被用于HPE的训练。
-
First-Person Hand Action Benchmark (F-PHAB) [64]:
- 来源与特点: 提供了带有手部和物体姿态标注的真实第一人称RGBD手-物体交互序列。
- 用途: 在实验B中,作为评估框架在“野外”真实手-物体交互重建任务上的性能测试平台。
- 规模: 每个任务包含24个带标注的视频序列,来自6个不同用户。论文使用 [64] 的1:1训练-测试数据划分。
5.2. 评估指标
论文使用了多个评估指标来量化其方法的性能,这些指标旨在衡量任务完成度、手部姿态准确性和模拟稳定性。
-
任务成功率 (Task Success):
- 概念定义: 衡量智能体成功完成指定任务的百分比。不同的任务有不同的成功标准,例如,开门任务可能是在交互结束时门关节角度超过某个阈值,而手中操控任务则可能要求物体达到目标姿态。
- 数学公式:
- 符号解释:
Number of successful episodes: 成功完成任务的模拟回合数。Total number of episodes: 总共进行的模拟回合数。
-
3D手部姿态误差 ():
- 概念定义: 衡量虚拟手部模型的姿态与真实手部姿态之间的差异,单位为毫米。它通过将虚拟手部姿态重新投影到输入RGBD图像空间,并与图像中提供的真实标注手部姿态进行比较来计算。这个指标提供了虚拟姿态在视觉上与实际输入姿态相似程度的度量。
- 数学公式:
- 符号解释:
- : 序列中的总帧数或样本数。
- : 手部模型的总关节数(在本文中为21)。
- : 在第 帧中,虚拟手部模型中第 个关节重新投影到图像空间后的3D位置。
- : 在第 帧中,真实标注手部姿态中第 个关节的3D位置。
- : 欧氏距离(L2范数)。
-
平均序列长度 ():
- 概念定义: 衡量模拟序列在变得不稳定(例如,物体掉落过远)或任务未成功完成之前所持续的平均帧数或时间步长,表示为总长度的百分比。这个指标反映了策略在维持稳定交互方面的鲁棒性。
- 数学公式:
- 符号解释:
- : 总共评估的序列数。
Actual length of sequence k: 第 个序列在模拟不稳定或任务完成之前的实际持续长度。Total possible length of sequence k: 第 个序列的理论最大持续长度。
5.3. 对比基线
为了全面评估所提方法的性能,论文将其与多种基线模型进行了比较,这些基线代表了不同策略学习范式和现有技术。
-
逆运动学 (Inverse Kinematics, IK):
- 代表性: 这是最直接的将估计手部姿态映射到虚拟手部动作的方法。
- 描述: 动作完全基于用户输入的估计手部姿态通过IK函数 转换而来,没有额外的策略学习或物理修正。在实验B中,IK函数遵循 [8] 的方法。
- 目的: 作为纯粹的映射基线,展示仅依靠HPE和IK在有噪声输入和物理约束下的局限性。
-
强化学习 (Reinforcement Learning, RL):
- 代表性: 经典的无模型强化学习方法。
- 描述: 智能体以非残差方式观察用户输入和环境状态,但不使用专家演示。
- 变体:
RL - no user: 仅使用任务奖励进行训练,智能体独立行动,不尝试跟随用户输入。RL + user reward: 在任务奖励的基础上,增加一个额外奖励项,鼓励智能体跟随用户输入。
- 目的: 评估纯RL在面对噪声输入时的效果,以及是否结合用户输入奖励能改善性能。
-
模仿学习 (Imitation Learning, IL):
- 代表性: 基于专家演示学习行为的方法。
- 描述: 智能体以非残差方式观察用户输入和环境状态,并使用 生成对抗模仿学习 (GAIL) [20] 从专家演示中学习。
- 变体:
IL - no user: 没有用户输入增强,仅模仿专家演示。 - 目的: 评估纯IL在模仿专家行为方面的能力,及其在没有残差修正时的表现。
-
混合学习 (Hybrid Learning):
- 代表性: 结合RL和IL的方法。
- 描述: 结合了RL和IL的奖励,但与本文的残差方法不同,它不采用残差学习设置。
- 变体:
Hybrid - no res.: 结合RL和IL奖励,非残差。Hybrid + user rew.: 结合RL、IL奖励,并增加用户跟随奖励,非残差。
- 目的: 评估RL和IL的简单组合在非残差设置下的效果。
-
闭合手部 (Closing hand) 基线 (仅用于实验B):
-
代表性: 模拟现有商业产品或简单物理交互引擎中常见的“强制接触”策略。
-
描述: 在IK输出的基础上,该方法尝试通过移动操作器来收紧抓取或产生更多接触力,类似于 [10] 中通过测量手部穿透来推断接触力。
-
目的: 评估一种简单但常见的强制接触策略在灵巧操控任务中的有效性,特别是在需要精确接触的场景。
这些基线的选择旨在从不同维度(纯映射、纯学习、组合学习、简单物理启发式)与所提的残差混合RL+IL方法进行比较,以突出其在处理噪声输入、实现灵巧操控和保持动作自然性方面的优势。
-
6. 实验结果与分析
论文通过一系列实验,在不同场景下验证了所提出框架的有效性,包括处理合成噪声、结构化HPE误差以及在真实世界手-物体交互序列中进行物理重建。
6.1. 核心结果分析
6.1.1. 克服随机噪声对演示的影响 (Overcoming random noise on demonstrations)
实验设置: 在door opening任务中,对专家演示(mocao数据)的每个执行器(actuator)添加了均值为零、标准差为 的高斯噪声,以模拟噪声用户输入。训练和测试都在不同的噪声水平下进行。
核心结果与分析:
-
噪声容忍度 (Table I):
train 0.00 0.01 0.05 0.10 0.15 0.20 0.01 71.00 70.00 52.00 26.00 9.00 1.00 0.05 100.0 90.00 83.00 50.00 24.00 4.00 0.10 91.00 89.00 87.00 87.00 56.00 26.00 0.15 100.0 96.00 92.00 80.00 57.00 19.00 0.20 71.00 74.00 75.00 71.00 47.00 20.00 User input: 80.00 86.30 74.00 33.80 9.20 2.70 - 分析: 当训练噪声水平 () 与测试噪声水平 () 相似时,本文的残差智能体能够有效地恢复有意义的动作。例如,当 时,即使 达到0.10 rad,成功率仍能保持在87.00%。当 较大(如0.15 rad)时,对更高测试噪声(如0.15 rad)的鲁棒性也较好,成功率达到57.00%,远高于仅用户输入的9.20%。这表明残差智能体学习了对输入噪声进行有效校正的能力。
-
与基线比较 (Table II): 以下是原文 Table II 的结果:
Door opening Tool use In-hand man. Object rel. Method Train Test Train Test Train Test Train Test IK 64.00 74.00 50.00 56.00 67.67 69.92 77.00 83.00 RL-no user 75.00 59.00 51.00 44.00 43.61 38.34 0.00 0.00 IL-no user 0.00 0.00 0.00 0.00 4.00 6.77 0.00 0.00 Hybrid-no res. 0.00 0.00 0.00 0.00 4.00 0.00 0.00 0.00 RL+user reward 69.92 62.40 6.01 9.02 48.12 27.81 0.00 0.00 Hybrid+user rew. 0.00 0.00 56.39 33.08 9.02 7.51 0.00 0.00 Ours 81.33 83.00 61.00 58.00 90.97 87.21 49.62 16.54 -
分析: 在固定噪声 rad 的情况下,本文方法在
door opening、tool use和in-hand manipulation任务上均显著优于所有基线,尤其在in-hand manipulation(手中操控) 任务中,测试成功率达到了87.21%,远高于IK的69.92%。RL-no user在door opening任务上表现尚可,但它不跟随用户输入,更像是触发预录序列。 -
收敛速度 (Fig. 3(a)): 下图(原文 Figure 3(a))展示了不同方法在训练过程中的任务成功率曲线:
该图像是多个示意图,包括任务成功率曲线图(a)、手部操作演示(b)及3D手部运动重构(c)。图a展示了不同方法的任务成功率变化,图b则展示了手部与目标物体的接触情况,图c呈现了手部运动的3D重构过程。- 分析: 本文的残差策略比其他基线收敛速度快得多(例如,
door opening任务中分别为3.8M vs 7.9M 样本)。这归因于用户输入为学习过程带来了探索上的帮助。
- 分析: 本文的残差策略比其他基线收敛速度快得多(例如,
-
消融实验 (Fig. 3(b)): 结合RL和IL(即本文方法)比单独使用RL或IL能更好地完成任务,同时保持动作更接近人类专家。RL alone 成功率为75.9%,而IL alone 成功率为36.5%。
-
Object relocation任务: 所有基线和本文方法在该任务上表现不佳。作者推测这是由于PPO在该任务上的低表现传递到了算法中,可能需要其他优化方法。
-
6.1.2. 克服结构化手部姿态估计和映射误差 (Overcoming structured hand pose estimation and mapping errors)
实验设置: 使用论文提出的数据生成方案,生成带有结构化HPE噪声的训练数据。HPE采用 [63] 的方法,在BigHand2.2M数据集上进行训练和检索。
核心结果与分析 (Table III): 以下是原文 Table III 的结果:
| Method (Training set) | Door opening | In-hand man. | ||
| GT | Est. | GT. | Est. | |
| IK | 49.62 | 27.81 | 0.00 | 20.30 |
| RL - no user (GT) | 98.49 | 76.69 | 13.53 | 25.56 |
| RL - no user (Est.) | 66.16 | 71.42 | 13.53 | 0.00 |
| RL + user reward (GT) | 0.00 | 0.00 | 45.86 | 32.33 |
| RL + user reward (Est.) | 0.00 | 0.00 | 0.00 | 12.03 |
| Ours (Experiment A.1) | 57.14 | 38.34 | 10.52 | 0.00 |
| Ours (GT poses) | 83.45 | 42.10 | 10.52 | 32.33 |
| Ours (Est. poses) | 85.95 | 70.67 | 20.33 | 57.14 |
- 分析:
-
本文方法(
Ours (Est. poses))在door opening任务上表现出色,测试成功率达到70.67%,即使IK输出较差也能完成任务。在in-hand manipulation任务中,本文方法同样表现出坚实的性能,测试成功率达57.14%,远超其他基线。 -
RL + user reward在in-hand任务上比IK基线有所改进,但当HPE噪声增加时表现挣扎。 -
RL - no user在door opening任务上表现良好,但它不跟随用户输入,而是独立行动。 -
定性结果 (Fig. 4): 下图(原文 Figure 4)展示了
in-hand manipulation任务的定性结果:
该图像是一个插图,展示了在手中操作任务中的定性结果。图中显示了估计的手势(中)与逆向运动学结果(上)和我们的方法结果(下)。深度图像是通过数据生成方案获取的。- 分析: 定性结果显示,本文方法能够生成视觉上更接近用户输入的灵巧操控动作,同时纠正了IK映射的不足。
-
作者指出,将上一实验中(随机噪声)训练的模型直接应用于本实验(结构化噪声)表现不佳,进一步证实了数据生成方案的必要性。
-
6.1.3. 基于物理的手-物体序列重建 (Physics-based hand-object sequence reconstruction)
实验设置: 在F-PHAB数据集 [64] 上进行,任务是 pour juice (倒果汁) 和 give coin (递硬币)。HPE采用DeepPrior++ [65]。本实验无法获取专家演示,因此不使用模仿学习奖励 () 和数据生成方案。引入了姿态奖励 ()。
核心结果与分析 (Table IV): 以下是原文 Table IV 的结果:
| Training | Test | |||||
| Method (Pour Juice) | T↑ | Epose↓ | Success ↑ | T↑ | Epose↓ | Success ↑ |
| IK [8] | 18.0 | 26.95 | 16.0 | 24.8 | 33.22 | 5.0 |
| Closing hand | 85.4 | 24.78 | 55.0 | 47.0 | 35.46 | 38.0 |
| Ours w/o pose reward | 97.4 | 26.82 | 84.0 | 52.0 | 37.88 | 47.0 |
| Ours | 98.2 | 25.43 | 93.0 | 59.6 | 33.15 | 65.0 |
| Method (Give coin) | T↑ | Epose↓ | Success ↑ | T↑ | Epose↓ | Success ↑ |
| IK [8] | 9.2 | 24.90 | 0.0 | 11.5 | 25.93 | 0.0 |
| Closing hand | 55.4 | 28.44 | 25.0 | 70.2 | 33.70 | 28.57 |
| Ours | 95.5 | 24.3 | 80.0 | 92.1 | 25.30 | 83.3 |
- 分析:
-
pour juice(倒果汁): 本文方法 (Ours) 在训练和测试时均表现最佳,任务成功率分别达到93.0%和65.0%。平均序列长度 () 也最高,表明模拟更加稳定。姿态误差 () 较低,说明生成的姿态与视觉输入相似。Closing hand基线在训练时成功率55.0%,表现次之,但测试性能显著下降。IK [8]表现最差。 -
give coin(递硬币): 本文方法再次表现最佳,训练和测试成功率分别达到80.0%和83.3%。其平均序列长度和姿态误差也显著优于基线。Closing hand基线在该任务上表现平平。 -
姿态奖励 () 的作用: 对比
Ours和Ours w/o pose reward,引入姿态奖励有助于提高任务成功率(例如pour juice训练成功率从84.0%到93.0%),并降低姿态误差(例如 从26.82到25.43),这表明姿态奖励能鼓励虚拟姿态更接近视觉输入。 -
训练-测试差距:
pour juice任务在训练和测试结果之间存在显著差距,尤其在give coin任务中,所有基线在测试集上表现更差。作者推测原因包括:HPE误差比上一实验更严重且会传播;训练序列数量较少可能导致过拟合。这表明在真实野外场景中,HPE的鲁棒性和数据量仍然是挑战。 -
定性结果 (Fig. 5): 下图(原文 Figure 5)展示了在固定相机视角下,使用深度传感器和3D手势估计进行物体灵巧操作的定性结果:
该图像是一个示意图,展示了使用深度传感器和3D手势估计进行物体的灵巧操作。图中显示了不同阶段的手部动作,包括抓取和移动物体的过程,反映了物理模拟中的手-物相互作用和姿态估计的校正。- 分析: 定性结果进一步印证了本文方法能够生成更物理合理且视觉自然的交互动作,尤其是在处理复杂的接触和物体姿态变化时。
-
6.2. 数据呈现 (表格)
以下是原文所有表格的完整转录:
表格 I:不同训练/测试噪声水平下的方法表现
| train | σtest | |||||
| 0.00 | 0.01 | 0.05 | 0.10 | 0.15 | 0.20 | |
| 0.01 | 71.00 | 70.00 | 52.00 | 26.00 | 9.00 | 1.00 |
| 0.05 | 100.0 | 90.00 | 83.00 | 50.00 | 24.00 | 4.00 |
| 0.10 | 91.00 | 89.00 | 87.00 | 87.00 | 56.00 | 26.00 |
| 0.15 | 100.0 | 96.00 | 92.00 | 80.00 | 57.00 | 19.00 |
| 0.20 | 71.00 | 74.00 | 75.00 | 71.00 | 47.00 | 20.00 |
| User input: | 80.00 | 86.30 | 74.00 | 33.80 | 9.20 | 2.70 |
表格 II:固定用户输入噪声下基线方法表现
| Door opening | Tool use | In-hand man. | Object rel. | |||||
| Method | Train | Test | Train | Test | Train | Test | Train | Test |
| IK | 64.00 | 74.00 | 50.00 | 56.00 | 67.67 | 69.92 | 77.00 | 83.00 |
| RL-no user | 75.00 | 59.00 | 51.00 | 44.00 | 43.61 | 38.34 | 0.00 | 0.00 |
| IL-no user | 0.00 | 0.00 | 0.00 | 0.00 | 4.00 | 6.77 | 0.00 | 0.00 |
| Hybrid-no res. | 0.00 | 0.00 | 0.00 | 0.00 | 4.00 | 0.00 | 0.00 | 0.00 |
| RL+user reward | 69.92 | 62.40 | 6.01 | 9.02 | 48.12 | 27.81 | 0.00 | 0.00 |
| Hybrid+user rew. | 0.00 | 0.00 | 56.39 | 33.08 | 9.02 | 7.51 | 0.00 | 0.00 |
| Ours | 81.33 | 83.00 | 61.00 | 58.00 | 90.97 | 87.21 | 49.62 | 16.54 |
表格 III:基于真实标注 (GT) 和估计 (Est.) 手部姿态的结构化手部姿态误差基线方法
| Method (Training set) | Door opening | In-hand man. | ||
| GT | Est. | GT. | Est. | |
| IK | 49.62 | 27.81 | 0.00 | 20.30 |
| RL - no user (GT) | 98.49 | 76.69 | 13.53 | 25.56 |
| RL - no user (Est.) | 66.16 | 71.42 | 13.53 | 0.00 |
| RL + user reward (GT) | 0.00 | 0.00 | 45.86 | 32.33 |
| RL + user reward (Est.) | 0.00 | 0.00 | 0.00 | 12.03 |
| Ours (Experiment A.1) | 57.14 | 38.34 | 10.52 | 0.00 |
| Ours (GT poses) | 83.45 | 42.10 | 10.52 | 32.33 |
| Ours (Est. poses) | 85.95 | 70.67 | 20.33 | 57.14 |
表格 IV:野外序列的手-物体重建
| Training | Test | |||||
| Method (Pour Juice) | T↑ | Epose↓ | Success ↑ | T↑ | Epose↓ | Success ↑ |
| IK [8] | 18.0 | 26.95 | 16.0 | 24.8 | 33.22 | 5.0 |
| Closing hand | 85.4 | 24.78 | 55.0 | 47.0 | 35.46 | 38.0 |
| Ours w/o pose reward | 97.4 | 26.82 | 84.0 | 52.0 | 37.88 | 47.0 |
| Ours | 98.2 | 25.43 | 93.0 | 59.6 | 33.15 | 65.0 |
| Method (Give coin) | T↑ | Epose↓ | Success ↑ | T↑ | Epose↓ | Success ↑ |
| IK [8] | 9.2 | 24.90 | 0.0 | 11.5 | 25.93 | 0.0 |
| Closing hand | 55.4 | 28.44 | 25.0 | 70.2 | 33.70 | 28.57 |
| Ours | 95.5 | 24.3 | 80.0 | 92.1 | 25.30 | 83.3 |
表格 V:实验 A.2:所有基线和任务的基线比较 (扩展表格 III)
| Method (Training set) | Door opening | In-hand man. | Tool use (hammer) | Object relocation | ||||
| GT | Est. | GT | Est. | GT | Est. | GT. | Est. | |
| IK | 49.62 | 27.81 | 0.00 | 20.30 | 66.16 | 68.42 | 82.70 | 90.22 |
| RL - no user (GT) | 98.49 | 76.69 | 13.53 | 25.56 | 34.59 | 29.32 | 0.00 | 0.00 |
| IL - no user (GT) | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| Hybrid - no user (GT) | 0.00 | 0.00 | 20.30 | 9.02 | 39.84 | 37.59 | 0.00 | 0.00 |
| RL - no user (Est.) | 66.16 | 71.42 | 13.53 | 0.00 | 58.65 | 54.89 | 0.00 | 0.00 |
| IL - no user (Est.) | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| Hybrid - no user (Est.) | 0.00 | 0.00 | 12.03 | 10.52 | 53.38 | 47.37 | 0.00 | 0.00 |
| RL + user reward (GT) | 0.00 | 0.00 | 45.86 | 32.33 | 3.76 | 3.76 | 0.00 | 0.00 |
| Hybrid + user reward (GT) | 0.00 | 0.00 | 0.00 | 12.03 | 58.64 | 29.32 | 0.00 | 0.00 |
| RL + user reward (Est.) | 0.00 | 0.00 | 0.00 | 12.03 | 12.78 | 4.51 | 0.00 | 0.00 |
| Hybrid + user reward (Est. ) | 0.00 | 0.00 | 0.00 | 0.00 | 54.13 | 68.00 | 0.00 | 0.00 |
| Ours (Experiment A.1) | 57.14 | 38.34 | 10.52 | 0.00 | 60.15 | 30.82 | 21.80 | 29.32 |
| Ours (GT poses) | 83.45 | 42.10 | 10.52 | 32.33 | 78.00 | 25.56 | 34.00 | 12.78 |
| Ours (Est. poses) | 85.95 | 70.67 | 20.33 | 57.14 | 78.94 | 71.42 | 34.00 | 35.00 |
6.3. 消融实验/参数分析
论文在实验A.1中进行了关于RL和IL组件的消融研究,以评估它们对本文方法的独立贡献。
-
RL alone vs IL alone vs Hybrid (Ours):
-
结果: 纯RL (RL alone) 的任务成功率达到75.9%,而纯IL (IL alone) 只有36.5%。
-
分析: 论文指出,结合RL和IL(即本文的混合方法)能够同时实现任务成功,并保持动作更接近人类专家(如在 Figure 3(b) 和视频中所示)。这表明RL负责驱动任务完成,而IL则通过判别器引入专家行为的自然性,避免纯RL可能产生的非自然动作。
此外,在实验B中,论文通过比较
Ours和Ours w/o pose reward来评估 3D手部姿态估计奖励 () 的影响:
-
-
Ours vs Ours w/o pose reward:
- 结果: 在
pour juice任务中,引入姿态奖励后,训练成功率从84.0%提高到93.0%,测试成功率从47.0%提高到65.0%。同时,姿态误差 也从26.82mm下降到25.43mm(训练集)。 - 分析: 这清楚地表明,姿态奖励鼓励虚拟姿态更接近视觉输入,这不仅有助于保持动作的视觉真实性,也进一步提高了任务的成功率,因为更准确的姿态能够促进更有效的物理交互。
- 结果: 在
6.4. 泛化能力和鲁棒性分析
-
随机噪声泛化 (Table I): 结果表明,当训练时的噪声水平与测试时相似时,模型具有较好的泛化能力。然而,如果训练噪声过低或过高,对于某些测试噪声水平,性能会下降。
-
训练-测试差距: 在 实验B (野外场景) 中,训练和测试结果之间存在显著差距,尤其是在
give coin这种需要高精度操控的任务中。作者怀疑这可能源于HPE误差更严重、训练数据量较少导致过拟合,以及薄而轻的硬币对不准确性更敏感。这表明在复杂且数据有限的真实世界场景中,模型的泛化能力仍是挑战。 -
Object relocation任务的局限性: 在object relocation任务中,所有基线和本文方法均未能有效纠正用户输入并提升性能。这可能暗示该任务对策略的探索能力有更高要求,或者PPO在该特定环境中的表现受限。总的来说,论文通过一系列详尽的实验,不仅量化了本文方法在处理噪声输入和实现灵巧操控方面的优势,还通过消融研究揭示了其关键组件(RL、IL和姿态奖励)的重要性。尽管在某些复杂“野外”任务中仍存在泛化挑战,但其整体表现显著优于现有基线。
7. 总结与思考
7.1. 结论总结
该论文提出了一种创新的框架,旨在利用有噪声的手部姿态估计,无需昂贵的硬件,即可在虚拟环境中实现灵巧操控。核心贡献是一个残差智能体,它通过结合无模型强化学习 (RL) 和模仿学习 (IL) 来学习如何修正用户输入,以成功完成任务,同时确保生成的动作在视觉上与用户输入保持一致并符合物理定律。引入的3D手部姿态估计奖励进一步提升了HPE准确性。为了解决训练数据稀缺的问题,论文设计了一种独特的数据生成方案,利用现有的运动捕捉数据集和大规模3D手部姿态数据集来合成带有结构化噪声的训练序列。实验结果表明,该方法在处理合成随机噪声和真实结构化HPE误差方面均表现出色,并在VR手-物体交互和野外手-物体运动重建两个应用中显著优于各种RL/IL基线和简单接触强制方法。
7.2. 局限性与未来工作
论文作者指出了该研究的几个局限性并提出了未来可能的研究方向:
- 端到端框架: 目前框架中HPE是独立的预处理步骤。未来工作可以探索将整个框架端到端化,使梯度能从物理模拟器传播到手部姿态估计器,从而实现更强大的基于物理的姿态估计。
- 6D物体姿态估计: 在手-物体交互重建的应用中,目前的物体姿态是初始化为真实标注。未来可以考虑在循环中添加一个6D物体姿态估计器 [66],使其能处理更动态和未知的物体状态。
- 合成数据生成改进: 论文提出的数据生成方案有效,但仍可进一步改进,例如通过拟合一个真实的手部模型(类似于 [67])到运动捕捉数据或已训练的策略上。这有助于缩小训练与测试之间的差距,并使系统能部署到VR系统中接收实时姿态流,这可能带来额外的挑战。
- RL的泛化能力: RL模型在“野外”场景和新任务上的泛化能力仍是一个开放的研究问题。目前框架如何扩展以处理更多任务尚不明确。未来该领域的新进展将对本文工作产生积极影响。
7.3. 个人启发与批判
7.3.1. 个人启发
- 残差学习范式的力量: 本文最引人注目的启发是残差学习在处理不完美感知输入时的有效性。它没有试图取代人类意图或完全消除感知噪声,而是通过一个微小的、有针对性的“修正”来弥补不足。这种“辅助”而非“替代”的思路,在人机协作和共享自治领域具有广阔的应用前景,尤其是在传感器固有的不完美性难以克服的场景。
- 多模态学习的融合: 论文巧妙地结合了强化学习(用于任务成功)、模仿学习(用于动作自然性)和基于视觉的奖励(用于姿态一致性)。这种多目标、多模态奖励的混合设计,是构建复杂智能体以应对现实世界挑战的强大策略。它表明,纯粹的单目标优化往往不足以满足所有需求。
- 数据生成策略的创新: 面对高质量训练数据稀缺的难题,论文提出的结合运动捕捉数据和大规模手部姿态数据集生成结构化噪声输入的方法非常实用。这为其他领域在缺乏真实、带噪声、带成功标签的交互数据时,提供了一种富有洞察力的解决方案。
- 物理模拟的价值: 强调了在虚拟环境中进行物理模拟的重要性。只有当动作符合物理定律时,才能实现真正的、可信的交互。这对于VR/AR等需要高度沉浸感的应用至关重要。
7.3.2. 批判与潜在改进
-
训练-测试差距问题: 尽管在合成噪声环境下表现出色,但在“野外”手-物体重建任务中,训练和测试成功率之间存在显著差距(例如
pour juice的训练成功率93%对比测试成功率65%)。这可能表明:- HPE误差的累积性: 真实的HPE误差可能比合成噪声更复杂,且在长时间序列中累积效应更强,导致模型在测试时性能下降。
- 数据集规模与多样性: F-PHAB数据集相对较小,可能导致模型在训练集上过拟合,对未见过的真实场景泛化能力不足。增加更多多样化的训练数据或采用更强大的数据增强技术可能会有所帮助。
- 任务复杂性:
give coin任务(递硬币)尤其困难,因为硬币小而薄,对抓取和放置的精度要求极高。这种高敏感性放大了HPE误差和模拟不确定性的影响。
-
计算资源需求: 尽管论文提到其方法比纯RL收敛更快,但训练仍然需要相当长的计算时间(5M样本约12小时)。对于更复杂的场景和更大规模的任务,计算成本可能成为一个瓶颈。探索更高效的训练策略或模型结构是必要的。
-
HPE的通用性和鲁棒性: 论文使用了特定的HPE(例如 [63] 和 DeepPrior++ [65])。HPE本身的性能和对不同光照、遮挡、背景变化的鲁棒性直接影响整个框架的表现。未来的研究可以探索将更先进、更鲁棒的HPE集成进来,甚至通过端到端训练来优化HPE本身以适应下游任务。
-
物体姿态的假设: 在“野外”手-物体重建任务中,物体姿态是初始化为真实标注。在真实应用中,获取实时的6D物体姿态本身就是一个挑战。如作者所言,集成一个6D物体姿态估计器是未来的一个关键方向。
-
可解释性: 作为一个基于深度强化学习和模仿学习的黑盒模型,残差智能体的决策过程可能缺乏透明度。理解模型在特定情况下做出特定修正的原因,有助于诊断失败模式和进一步改进。
总体而言,这篇论文为在不完美感知输入下实现虚拟灵巧操控开辟了一条富有前景的道路,特别是其残差学习和混合奖励策略,为未来的人机交互和机器人控制研究提供了宝贵的见解。
相似论文推荐
基于向量语义检索推荐的相关论文。