论文状态：已完成

Design and Control of a Bipedal Robotic Character

发表：2025/01/09

强化学习机器人控制 (2)双足机器人控制 (1)动态步态生成 (1)娱乐机器人设计 (1)人机交互界面 (1)

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究提出了一种新型双足机器人，旨在结合富有表现力的艺术性运动与鲁棒动态移动能力，以满足娱乐应用的需求。通过强化学习控制架构，机器人能够根据指令信号执行复杂动作，同时配置了动画引擎和直观的操作界面，实现实时表演，从而增强人机互动体验。

摘要

Legged robots have achieved impressive feats in dynamic locomotion in challenging unstructured terrain. However, in entertainment applications, the design and control of these robots face additional challenges in appealing to human audiences. This work aims to unify expressive, artist-directed motions and robust dynamic mobility for legged robots. To this end, we introduce a new bipedal robot, designed with a focus on character-driven mechanical features. We present a reinforcement learning-based control architecture to robustly execute artistic motions conditioned on command signals. During runtime, these command signals are generated by an animation engine which composes and blends between multiple animation sources. Finally, an intuitive operator interface enables real-time show performances with the robot. The complete system results in a believable robotic character, and paves the way for enhanced human-robot engagement in various contexts, in entertainment robotics and beyond.

思维导图

论文精读

中文精读约 48 分钟读完 · 29,229 字

1. 论文基本信息

1.1. 标题

双足机器人角色的设计与控制 (Design and Control of a Bipedal Robotic Character)

1.2. 作者

Ruben Grandia*、Espen Knoop*、Michael A. Hopkins†、Georg Wiedebach†、Jared Bishop‡、Steven Pickles‡、David Müller*、Moritz Bächer* * 迪士尼研究院，瑞士 (Disney Research, Switzerland) † 迪士尼研究院，美国 (Disney Research, USA) ‡ 华特迪士尼幻想工程研发部，美国 (Walt Disney Imagineering R&D, USA)

1.3. 发表期刊/会议

本文作为预印本 (preprint) 发布于 arXiv。 Published at (UTC)：2025-01-09T12:55:21.000Z

1.4. 发表年份

2025年

1.5. 摘要

腿足机器人 (legged robots) 在复杂非结构化地形中的动态运动方面取得了令人瞩目的成就。然而，在娱乐应用中，这些机器人的设计和控制面临着吸引人类观众的额外挑战。本研究旨在统一腿足机器人的富有表现力、艺术家导向的运动与鲁棒的动态移动能力。为此，我们引入了一种新型双足机器人 (bipedal robot)，其设计重点在于角色驱动的机械特性。我们提出了一种基于强化学习 (reinforcement learning, RL) 的控制架构，以根据指令信号 (command signals) 鲁棒地执行艺术性运动。在运行时，这些指令信号由一个动画引擎 (animation engine) 生成，该引擎可以组合和融合多个动画源。最后，一个直观的操作员界面 (operator interface) 支持机器人进行实时表演。这一完整的系统造就了一个可信的机器人角色，为在娱乐机器人及其他各种情境中增强人机互动 (human-robot engagement) 铺平了道路。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2501.05204
PDF 链接: https://arxiv.org/pdf/2501.05204v1.pdf

2. 整体概括

2.1. 研究背景与动机

当前腿足机器人领域的研究主要集中在实用性 (utility) 和效率 (efficiency) 上，旨在使其能够在复杂和非结构化环境中进行动态移动，例如爬山或穿越障碍物。尽管这些成就令人印象深刻，但当机器人开始直接与人类互动，尤其是在协作机器人 (collaborative robots)、伴侣机器人 (companion robots)、艺术和娱乐等领域时，其成功与否不仅取决于功能，还越来越多地取决于人类对其的主观感知。传统的机器人设计和控制方法通常将物理功能置于首位，导致机器人虽然能有效完成任务，但在表达情感、吸引观众方面存在不足。

娱乐应用对机器人提出了额外的挑战：机器人不仅需要具备复杂的运动学 (kinematics) 和欠驱动动力学 (under-actuated dynamics) 平衡能力，还需要执行富有表现力的运动，以吸引并取悦人类观众。现有的动画技术已能使数字角色栩栩如生，但将这种表演从仿真 (simulation) 转移到物理机器人上仍需巨大努力。同时，一些研究探索了通过面部表情或肢体语言引发情感反应的机器人，但这些机器人往往移动能力有限。

本研究的动机在于弥合这一鸿沟，探索腿足机器人设计、控制与角色动画的交叉点，旨在创造一个既能进行动态鲁棒移动又具备高表现力的机器人角色，特别是在娱乐应用中。

2.2. 核心贡献/主要发现

本工作的主要贡献包括：

角色驱动的机械设计 (Character-driven Mechanical Design): 引入了一种新型双足机器人，其形态学 (morphology) 和运动学 (kinematics) 主要由创意意图而非功能需求驱动，追求简洁性，并利用现成硬件模块快速构建。这与传统的功能优先型机器人设计形成鲜明对比。
完整的强化学习控制流程 (Complete Reinforcement Learning Control Pipeline): 提出了一个完整的、以强化学习为核心的控制流程，能够将艺术家的动画内容（如行走、站立、短动画序列）高效地迁移到物理机器人上。该流程能够鲁棒地执行这些艺术性运动，同时对不确定性和外部扰动保持稳定。
多策略控制架构 (Multi-policy Control Architecture): 采用“分而治之”的策略，训练了多个独立的强化学习策略 (policies)，分别用于永续运动 (perpetual motions)、周期性运动 (periodic motions) 和情节性运动 (episodic motions)。这些策略通过精心选择的高级指令信号 (command signals) 进行条件化，并在运行时通过动画引擎进行平滑切换和融合。
动画引擎与实时操控界面 (Animation Engine & Real-time Puppeteering Interface): 开发了一个动画引擎，能够根据用户输入、预定义动画和不同动画源，组合并融合生成指令信号。结合直观的牵线木偶式 (puppeteering) 操作员界面，使得操作员能够实时地、富有表现力地控制机器人进行表演，实现指令驱动的姿态、凝视和运动控制。
增强人机互动 (Enhanced Human-Robot Engagement): 整个系统能够创造一个可信且引人入胜的机器人角色，显著增强了人类与机器人之间的互动体验，为娱乐机器人及其他需要情感表达的应用开辟了新途径。

3. 预备知识与相关工作

3.1. 基础概念

腿足机器人 (Legged Robots): 指利用腿部进行移动的机器人，通常能适应复杂地形，如不平坦地面、楼梯等。它们相比轮式机器人 (wheeled robots) 具有更高的地形通过能力。
双足机器人 (Bipedal Robot): 特指拥有两条腿的腿足机器人。其设计和控制面临巨大的平衡挑战，因为它们在大多数时间都处于动态不稳定状态。
自由度 (Degrees of Freedom, DoF): 描述机器人关节或身体部件独立运动的能力数量。例如，一个旋转关节有一个自由度。
运动学 (Kinematics): 描述机器人运动的几何特性，即机器人末端执行器 (end-effector) 的位置和姿态如何通过关节角度来确定，而不考虑产生这些运动的力。
动力学 (Dynamics): 描述机器人运动中力与加速度的关系，即机器人如何根据施加的力进行移动，包括惯性、重力、摩擦等因素。对于腿足机器人而言，复杂的动力学模型是平衡和运动控制的关键。
强化学习 (Reinforcement Learning, RL): 一种机器学习范式，其中一个智能体 (agent)通过与环境 (environment)互动来学习如何做出决策。智能体执行动作 (action)，环境根据动作返回状态 (state)和奖励 (reward)。智能体的目标是学习一个策略 (policy)，最大化累积奖励。
- 策略 (Policy): 智能体从状态到动作的映射，即在给定状态下应该做什么。
- 状态 (State): 对环境当前情况的描述，包含了智能体做决策所需的所有信息。
- **动作 (Action): 智能体在环境中可以执行的操作。
- 奖励 (Reward): 环境对智能体行为的即时反馈，可以是正的（好的行为）或负的（不好的行为）。
领域随机化 (Domain Randomization): 在强化学习中，特别是在模拟到现实 (sim-to-real) 迁移任务中，通过随机化模拟器中的各种参数（如摩擦系数、质量、传感器噪声、执行器特性等），使学习到的策略对真实世界中的不确定性更加鲁棒。
模型预测控制 (Model Predictive Control, MPC): 一种高级控制策略，它在每个时间步使用一个系统模型来预测未来的行为，并通过优化来计算当前最优的控制输入。它能够处理复杂的约束和多目标优化问题。
比例-微分控制器 (Proportional-Derivative, PD controllers): 一种反馈控制机制，根据误差的比例 (P) 和误差的变化率 (D) 来调整输出。常用于机器人关节的低级控制，以使关节达到期望的位置。
牵线木偶式操控 (Puppeteering): 一种通过操作员实时输入来控制机器人或数字角色运动的方式，通常涉及直观的界面（如操纵杆、动作捕捉设备），使操作员能像操控木偶一样赋予角色生命。

3.2. 前人工作

高动态腿足机器人: 波士顿动力 (Boston Dynamics) 的机器人（如Spot、Atlas）展示了在动态运动和复杂地形适应方面的卓越能力，例如登山 ([28]) 和通过障碍课程 ([13])。然而，这些机器人的设计和控制主要以实用性和效率为目标，而非表现力。一些研究尝试让这些机器人进行表现性运动，如跳舞 ([3], [1])，但这些通常是特定项目或不同组织进行的独立演示。
社交和人机交互机器人: 诸如 iCub ([27])、NAO ([9]) 和 Pepper ([31]) 等人形机器人被广泛用于人机交互 (Human-Robot Interaction, HRI) 研究。它们的设计旨在促进与人类的社交互动。然而，这些机器人通常被设计为通用平台，其表演和演示往往是特定研究的一部分，并且其人形形态自然地提供了丰富的参考运动，这与本文的非人形角色设计有所不同。
动画机器人方法:
- 动画原则应用: Van Breemen ([45]) 提出了将动画原理应用于机器人，以赋予其生命力，并展示了一个能够执行、组合和融合多动画的动画引擎 ([44])。
- 软件架构: Fujita 等人 ([8]) 为娱乐机器人（如四足机器人 AIBO ([7]) 和人形机器人 SDR-4X ([6])）概述了软件架构。
- 行为编程工具: NAO 平台引入了图形化工具 ([35])，使行为编程更易于访问。
- 本文借鉴了这些运动组合和融合的原则，但将高级决策留给了操作员，以平衡固定艺术创作运动的模仿与实时交互式表演创作。
强化学习在腿足机器人控制中的应用:
- 模仿学习 (Imitation Learning): RL 已成为从动画或动作捕捉输入中合成闭环控制策略的流行选择，例如 DeepMimic ([32]) 和 [33]。
- 模型-策略结合: RL 也用于模仿模型预测控制器 ([19]) 或步态库 ([25]) 的解决方案。
- 大规模数据集: 通过对抗性奖励 (adversarial reward) 模仿非结构化人类运动数据集的行为 ([34], [5])。然而，这些方法需要大量特定于角色的数据，对于本文独特的角色不适用。
- 本文通过训练多个独立策略来应对这一挑战，每个策略都针对特定的运动或运动类型，并通过高级控制指令进行条件化，这与许多追求单一通用控制策略的工作不同。

3.3. 技术演进

腿足机器人控制技术经历了从传统模型优化方法到现代强化学习的演变。早期的方法依赖于精确的机器人动力学模型和复杂的优化算法（如 MPC），将动画转化为可行的参考轨迹，但在线稳定性和实时规划复杂运动（尤其是接触计划）仍是挑战。

随着计算能力的提升和深度学习的发展，强化学习逐渐成为主流。RL可以直接从数据中学习闭环控制策略，使其对不确定性（如模型误差、外部扰动）更具鲁棒性，并能更好地模仿参考运动。然而，将仿真中学习到的策略迁移到真实世界（sim-to-real）以及处理大规模复杂运动仍需技巧，如领域随机化和多策略学习。

本文的工作位于这一技术演进的最新阶段，它结合了RL的鲁棒性、领域随机化的sim-to-real能力，并通过多策略架构和动画引擎，专门解决了娱乐机器人领域对表现力的高度需求，同时兼顾了物理可行性和实时交互性。

3.4. 差异化分析

本文的方法与现有研究的主要区别在于：

设计理念: 多数腿足机器人以功能和效率为主要设计目标，而本文的机器人设计优先考虑创意意图和角色表现力。
控制架构: 现有RL工作多倾向于学习一个单一的通用控制策略，或从大规模人类运动数据集中学习。本文采取了“分而治之”的策略，训练多个专门的策略来处理不同类型的运动（永续、周期、情节），并通过低维命令信号进行条件化，这在实现精确控制和复杂动画表现上更具优势。
运动生成与操控: 论文提出了一个完整的工作流程，将艺术家创建的运动与RL控制、动画引擎和直观的牵线木偶式操控界面结合起来，实现了从动画创作到物理机器人实时表演的无缝衔接，这在现有研究中相对较少见。尤其是在将艺术性运动（例如情感表达）与鲁棒动态移动相结合方面，提供了独特的解决方案。
应用场景: 专注于娱乐应用，这带来了对表现力、可信度和人机互动的更高要求，与传统工业或探险机器人应用的目标不同。

4. 方法论

4.1. 方法原理

本研究的核心在于整合一个全面的工作流程，将机器人机械设计、动画制作、强化学习控制和实时操作无缝结合，以实现具有高表现力和鲁棒动态移动能力的双足机器人角色。其基本原理是：首先，通过机械设计和动画的迭代，共同确定机器人的形态和运动风格，优先满足创意意图。接着，利用强化学习训练多个专门的控制策略，使机器人能够模仿艺术家创建的运动，同时保持动态平衡并适应外部干扰。这些策略通过低维度的命令信号进行条件化，允许在运行时对机器人行为进行高层控制。最后，通过一个动画引擎将操作员的实时输入与预设动画相结合，生成这些命令信号，并通过直观的操作界面实现机器人的实时表演。整个系统旨在将复杂的机器人控制技术封装起来，为操作员提供一个简单而富有表现力的操控体验，从而创造出可信的机器人角色。

4.2. 核心方法详解

本节将详细阐述论文提出的工作流程和关键技术，结合 Fig. 2 的系统概览图进行描述。

4.2.1. 工作流程概述

整个系统的工作流程分为设计阶段和运行时阶段，如下所示：

设计阶段 (Design Phase):
1. 机械设计与动画迭代 (Mechanical Design and Animation Iteration): 这是一个迭代过程，涉及机器人机械设计 (mechanical design)和动画 (animation)。
  - 动画工具 (Animation Tools): 艺术家使用传统的动画工具（如带有连杆和球形关节的骨骼系统 rig）来研究角色的姿态、比例和运动范围。
  - 步态生成 (Gait Generation): 利用基于系统刚体动力学 (rigid body dynamics) 的程序化步态生成工具，创建物理上可行的周期性行走循环。
  - 反馈回路 (Feedback Loop): 关节位置、速度和扭矩信息反馈给机械设计，用于优化几何结构、选择执行器 (actuators) 和进行结构分析。
  - 目标: 在可用硬件模块的物理限制与创意意图之间找到最佳平衡，快速探索运动、行走风格和机械设计。
2. 强化学习问题定义 (Reinforcement Learning Problem Definition): 一旦确定了初始的运动集合和机械设计，它们被用于定义强化学习问题。
  - 仿真模型 (Simulation Model): 机械设计转换为仿真模型，其中包含执行器模型和领域随机化 (domain randomization)。
  - 运动学参考 (Kinematic References): 从动画工具导出运动学参考 (kinematic motion references)，用于模仿奖励 (imitation rewards)，最大化模拟运动与参考运动之间的相似性。
  - 命令定义 (Command Definition): 定义一组高层控制机器人的命令 (commands)。
  - 策略训练 (Policy Training): 训练多个独立的策略 (policies)，每个策略对应一种运动或运动类型，并根据这些命令进行条件化。
  - 结果: 训练出能够鲁棒执行定义动画的策略，并通过策略切换和命令信号实现对角色的控制。
运行时阶段 (Runtime Phase):
1. 用户输入 (User Input): 动画引擎 (Animation Engine)接收来自远程控制界面 (remote control interface) 的用户输入。
2. 命令生成 (Command Generation): 动画引擎将用户输入与预定义动画融合，生成控制策略 (control policies)所需的命令。
3. 策略切换 (Policy Switching): 动画引擎还负责触发策略切换 (policy switches)。
4. 表演功能与音频 (Show Functions and Audio): 表演功能 (show functions) 和音频是机器人的受控元素，它们通过动画引擎的动画信号和状态反馈与机器人运动同步，以表达角色特征，但通常不影响系统动力学。
  
  下图（原文 Fig. 2）展示了上述工作流程的概览图。
  
  该图像是一个示意图，展示了双足机器人设计与控制的框架。图中分为四个主要部分：动画创作、强化学习、机械设计与运行时。动画创作部分展示了周期性和情节性运动的实现；强化学习部分说明了通过模仿奖励和仿真模型进行命令随机化训练；机械设计部分概述了机器人的硬件模块；运行时部分则演示了通过远程控制和动画引擎进行实时表演。整体系统旨在提升人机互动和娱乐机器人表现。

4.2.2. 机械设计 (Mechatronic Design)

本研究的双足机器人角色的机械设计旨在优先满足创意意图和简洁性，而非纯粹的功能优化。

形态与自由度 (Morphology and DoF):
- 腿部 (Legs): 每条腿有5个自由度 (DoF)。宽广的工作空间支持大范围的动态运动和下半身动作。
- 颈部与头部 (Neck and Head): 颈部和头部组件有4个自由度 (DoF)，允许头部独立于躯干摆姿。
结构与部件 (Structure and Components):
- 连接件 (Connectors): 采用3D打印的连接件来连接现成的执行器。
- 足部 (Feet): 脚踝执行器直接放置在脚部，没有踝关节侧倾执行器。为实现被动踝关节侧倾，脚底被设计成圆形，并用聚氨酯泡沫 (urethane foam) 模压，以缓冲地面冲击。
- 膝关节 (Knee Joints): 膝关节向后弯曲，符合创意设想。
重量与尺寸 (Mass and Dimensions):
- 总质量: $15.4 \mathrm { k g }$
- 躯干 (Torso): $5.8 \mathrm { k g }$
- 颈部与头部 (Neck and Head): $2.4 \mathrm { k g }$
- 每条腿 (Each Leg): $3.6 \mathrm { k g }$
- 身高: $0.66 \mathrm { m }$ (不含天线)
- 腿部标称长度: $0.28 \mathrm { m }$ ，伸展长度: $0.34 \mathrm { m }$
执行器 (Actuators):
- 主要执行器 (Main Actuators): 髋关节内收-外展 (hip-adduction-abduction)、髋关节屈曲-伸展 (hip-flexion-extension) 和膝关节执行器，峰值扭矩 $\mathrm { 34N m }$ ，最大速度 $20 \mathrm { rads } ^ { -1 }$ 。髋关节旋转 (hip-rotation)、踝关节 (ankle) 和下颈部执行器，峰值扭矩 $24 \mathrm { N m }$ ，最大速度 $30 \mathrm { rads } ^ { -1 }$ 。这些是准直驱 (quasi-direct drive) 执行器，支持高带宽开环扭矩控制，适用于动态运动。
- 头部执行器 (Head Actuators): 头部有3个执行器，齿轮比高，峰值扭矩 $4.8 \mathrm { N m }$ ，最大速度 $6.3 \mathrm { rads } ^ { -1 }$ 。
电子系统 (Electronics):
- 通信板 (Communications Board): 定制微控制器驱动的通信板，连接板载 PC、执行器和 IMU (惯性测量单元)，通信速率 $600 \mathrm { H z }$ 。
- 板载 PC (On-board PC): 通过 WiFi 和 LoRa 无线电冗余通信，与手持操作员控制器交互。
- 电池 (Battery): 可拆卸电池，支持至少 $1 \mathrm { h }$ 的连续运行。
表演功能 (Show Functions):
- 特色功能: 一对可动天线、发光的眼睛和头灯。这些功能为动画师提供了额外的表达情感的方式。
- 控制方式: 它们不影响系统动力学，采用开环控制 (open-loop fashion)，独立于主要执行器进行处理。
- 音频 (Audio): 机器人身体和头部各配备一对立体声扬声器。
  
  下图（原文 Fig. 3）展示了机器人的机械设计。
  
  该图像是图示，展示了我们的机器人角色的机械设计。机器人每条腿有5个自由度，脖子和头部组合有4个自由度，躯干内部包含自定义通信板、电池模块和IMU。头部装有主控计算机、无线接收器和表演功能板，还配备了发光的眼睛、头灯和扬声器。

4.2.3. 强化学习 (Reinforcement Learning)

强化学习是实现机器人鲁棒模仿艺术家运动的核心。

4.2.3.1. 策略与条件输入 (Policy and Conditional Inputs)

智能体 (agent) 在每个时间步 $t$ 根据策略 (policy) $\pi ( { \boldsymbol a } _ { t } | { \boldsymbol s } _ { t } , \phi _ { t } , { \boldsymbol g } _ { t } )$ 产生一个动作 (action) $\mathbf { } \mathbf { a } _ { t }$ 。

$\pmb { a } _ { t }$ : 智能体在当前时间步输出的动作，是PD控制器 (PD controllers)的关节位置设定点。
$\pmb { s } _ { t }$ : 可观测状态 (observable state)，包含机器人当前的运动学和动力学信息。
$\phi _ { t }$ : 相信号 (phase signal)，表示运动的当前阶段（例如，行走周期的进度）。
$\pmb { g } _ { t }$ : 条件输入 (conditional inputs) 或 命令信号 (command signals)，提供对机器人行为的高层控制（例如，行进速度、头部姿态）。

环境根据动作产生下一个状态 $s _ { t + 1 }$ ，更新相信号，并返回一个标量奖励 (scalar reward) $r _ { t } = r ( s _ { t } , \pmb { a } _ { t } , \pmb { s } _ { t + 1 } , \phi _ { t } , \pmb { g } _ { t } )$ 。奖励设计旨在鼓励机器人精确模仿艺术家指定的运动，并保持动态平衡。

4.2.3.2. 运动类型 (Motion Types)

为了结构化机器人的多样化表演，根据运动的时间特性定义了三类运动：

永续运动 (Perpetual motions): 没有明确的开始和结束，机器人持续保持平衡并响应连续的控制输入。例如，站立姿态的调整。这类运动的相信号 (phase signal) 周期性无限循环。
周期性运动 (Periodic motions): 具有周期性特征的运动，由一个周期性相信号驱动。例如，行走。相信号会无限循环。
情节性运动 (Episodic motions): 具有预定义持续时间的运动。策略接收一个单调递增的相信号。一旦运动结束，会强制转换为新的运动。例如，跳跃、打招呼等特定动画序列。

对于一个完整的行走角色，至少需要训练一个永续运动策略（如站立）和一个周期性运动策略（如行走）。情节性策略是可选的，但非常适合表达鲜明的情绪。每种运动类型的策略都作为一个独立的RL问题进行训练，并在训练期间随机化控制输入 $\mathbf { g } _ { t }$ 的全范围，以确保策略能够响应任意控制输入并能在运行时动态切换。

本项目中，训练了一个用于站立的永续策略（控制头部和躯干），一个用于行走的周期性策略（头部单独控制），以及多个模仿特定动画序列的情节性策略。在训练过程中，通过扰动仿真模型 (perturb the simulation model)和随机化模型参数 (randomized model parameters)，确保智能体 (agent) 能够鲁棒地执行预期运动。

4.2.3.3. 动画输入 (Animation Input)

机器人与动画内容交互的方式是通过提取运动学参考运动 (kinematic motion references)，这些参考定义了角色随时间变化的目标状态。

$\begin{array} { r } { \pmb { x } _ { t } = ( \pmb { p } _ { t } , \pmb { \theta } _ { t } , \pmb { v } _ { t } , \omega _ { t } , \pmb { q } _ { t } , \dot { \pmb { q } } _ { t } , c _ { t } ^ { L } , c _ { t } ^ { R } ) , } \end{array}$ 其中：

$\pmb { p } _ { t }$ : 躯干 (torso) 的全局位置。
$\pmb { \theta } _ { t }$ : 躯干的姿态，用四元数 (quaternion) 表示。
$\pmb { v } _ { t }$ : 躯干的线速度。
$\omega _ { t }$ : 躯干的角速度。
$\pmb { q } _ { t }$ : 关节位置。
$\dot { \pmb { q } } _ { t }$ : 关节速度。
$c _ { t } ^ { L }$ : 左脚的接触状态。
$c _ { t } ^ { R }$ : 右脚的接触状态。

对于每种运动类型，都有一个生成函数 (generator function) $f$ ，它将路径框架 (path frame) $\pmb { f } _ { t }$ 和可选的相信号 (phase signal)以及类型相关的控制输入 (type-dependent control input)映射到运动学目标状态： $\begin{array} { c } { x _ { t } = f ^ { \mathrm { perp } } ( { \pmb f } _ { t } , { \pmb g } _ { t } ^ { \mathrm { perp } } ) } \\ { ( { \pmb x } _ { t } , \dot { \phi } _ { t } ) = f ^ { \mathrm { peri } } ( { \pmb f } _ { t } , \phi _ { t } , { \pmb g } _ { t } ^ { \mathrm { peri } } ) } \\ { { { \pmb x } _ { t } = f ^ { \mathrm { epis } } ( { \pmb f } _ { t } , \phi _ { t } ) . } } \end{array}$
永续运动 ( $f^{\mathrm{perp}}$ ): 目标状态 $x_t$ 仅由路径框架 $\pmb{f}_t$ 和永续运动命令 $\pmb{g}_t^{\mathrm{perp}}$ 决定。
周期性运动 ( $f^{\mathrm{peri}}$ ): 除了目标状态 $x_t$ ，还输出相速率 (phase rate) $\dot{\phi}_t$ ，用于驱动相信号。这允许在行走时根据命令调整步频。
情节性运动 ( $f^{\mathrm{epis}}$ ): 目标状态 $x_t$ 由路径框架 $\pmb{f}_t$ 和相信号 $\phi_t$ 决定，相速率由运动持续时间确定。

永续运动命令 $\pmb { g } _ { t } ^ { \mathrm { perp } }$ : 对于站立的永续运动，控制输入包括头部和躯干的命令，提供了一个多功能的接口，如下所示： $g _ { t } ^ { \mathrm { perp } } = ( \Delta h _ { t } ^ { \mathrm { head } } , \Delta \theta _ { t } ^ { \mathrm { head } } , h _ { t } ^ { \mathrm { torso } } , \theta _ { t } ^ { \mathrm { torso } } ) .$ 其中：

$\Delta h _ { t } ^ { \mathrm { head } }$ : 头部相对于标称配置的高度偏移。
$\Delta \theta _ { t } ^ { \mathrm { head } }$ : 头部相对于标称配置的姿态偏移。
$h _ { t } ^ { \mathrm { torso } }$ : 躯干的高度（在路径框架坐标系中）。
$\theta _ { t } ^ { \mathrm { torso } }$ : 躯干的姿态（ZYX-欧拉角表示，在路径框架坐标系中）。下图（原文 Fig. 4）展示了头部和躯干命令的范围。

该图像是一个插图，展示了一种双足机器人在执行不同动作时的姿态变化。图中上部显示机器人在多个方向上的动态运动，下部则呈现了其运动轨迹，使用了 y = f(x) 的形式表示。整体表现出机器人灵活的运动能力和动态稳定性。

周期性运动命令 $\pmb { g } _ { t } ^ { \mathrm { peri } }$ : 对于周期性运动（如行走），控制输入包括头部姿态偏移和路径框架中的线速度和角速度： $\begin{array} { r } { \pmb { g } _ { t } ^ { \mathrm { peri } } = ( \Delta h _ { t } ^ { \mathrm { head } } , \Delta \theta _ { t } ^ { \mathrm { head } } , \pmb { v } _ { t } ^ { \mathcal { P } } , \omega _ { t } ^ { \mathcal { P } } ) . } \end{array}$ 其中：
$\Delta h _ { t } ^ { \mathrm { head } }$ : 头部相对于标称运动（动画师指定）的高度偏移。
$\Delta \theta _ { t } ^ { \mathrm { head } }$ : 头部相对于标称运动的姿态偏移。
$\pmb { v } _ { t } ^ { \mathcal { P } }$ : 路径框架中的线速度。
$\omega _ { t } ^ { \mathcal { P } }$ : 路径框架中的角速度。这使得艺术家能够控制与速度相关的下半身运动，同时调整头部朝向。

路径框架 (Path Frame): 路径框架在维持运动过渡的一致性中扮演关键角色。每个艺术家设计的运动都存储在路径坐标 (path coordinates)中，并根据路径框架状态 (path frame state)映射到世界坐标 (world coordinates)。

站立时: 路径框架缓慢收敛到两脚的中心。
行走时: 下一帧通过积分路径速度命令 (path velocity commands)计算。
情节性运动时: 路径框架轨迹相对于起始位置是艺术输入的一部分。
防止过度偏离: 为了防止路径过度偏离， $\pmb { f } _ { t }$ 被投影到距当前躯干状态的最大距离。

动画内容生成 (Animation Content Generation):

永续参考 (Perpetual References): 使用逆动力学 (inverse dynamics)寻找满足命令 $\pmb { g } _ { t } ^ { \mathrm { perp } }$ 的姿态，并优化剩余自由度，使压强中心 (center of pressure)位于支持多边形 (support polygon)的中间。
周期性行走运动 (Periodic Walking Motions): 艺术家提供不同行走速度下的参考步态，定义为躯干和末端执行器 (end-effectors) 的任务空间轨迹 (task space trajectories)。这些步态样本通过程序化方式组合 ([14])，基于命令 $\pmb { g } _ { t } ^ { \mathrm { peri } }$ 生成新的步态。然后，模型预测控制器 (model predictive controller) ([51]) 用于规划期望的质心 (center of mass)和压强中心 (center of pressure)。随后，逆动力学控制器 (inverse dynamics controller) ([21]) 跟踪这些参考，以获得全身轨迹。
情节性运动 (Episodic Motions): 在 Maya ([2]) 中生成。

为了避免参考运动生成速度减慢训练，会密集采样参考生成器，并在RL训练过程中通过插值实现参考查找。

4.2.3.4. 奖励函数 (Reward Function)

奖励函数 r _ { t } 结合了运动模仿奖励 (motion-imitation rewards)、正则化奖励 (regularization rewards)和生存奖励 (survival rewards)。 $r _ { t } = r _ { t } ^ { \mathrm { i m i t a t i o n } } + r _ { t } ^ { \mathrm { r e g u l a r i z a t i o n } } + r _ { t } ^ { \mathrm { s u r v i v a l } }$

模仿奖励 $r _ { t } ^ { \mathrm { imitation } }$ : 通过比较模拟机器人和目标姿态 (target pose) 的相似性来计算。机器人脚部接触状态与参考状态匹配时会获得额外奖励。
正则化奖励 $r _ { t } ^ { \mathrm { regularization } }$ : 惩罚关节扭矩 (joint torques) 和动作不平滑 (action smoothness)，以减少振动和不必要的动作。

生存奖励 $r _ { t } ^ { \mathrm { survival } }$ : 简单地鼓励角色保持存活。当头部或躯干接触地面，或检测到头部与躯干之间发生自碰撞时，训练会提前终止。

下表（原文 Table I）详细列出了各项加权奖励项：

Imitation
Name	Reward Term	Weight
Torso position xy	$exp (-200.0 \cdot \\|p_{x,y} - \hat{p}_{x,y}\\|^2)$	1.0
Torso orientation	$exp (-20.0 \cdot \\| \theta - \hat{\theta} \\|^2)$	1.0
Linear velocity xy	$exp (-8.0 \cdot \\|v_{x,y} - \hat{v}_{x,y}\\|^2)$	1.0
Linear velocity z	$exp (-8.0 \cdot (v_z - \hat{v}_z)^2)$	1.0
Angular velocity xy	$exp (-2.0 \cdot \\|\omega_{x,y} - \hat{\omega}_{x,y}\\|^2)$	0.5
Angular velocity z	$exp (-2.0 \cdot (\omega_z - \hat{\omega}_z)^2)$	0.5
Leg joint positions	$-\\|\textbf{q}_l - \hat{\textbf{q}}_l\\|^2$	15.0
Neck joint positions	$-\\|\textbf{q}_n - \hat{\textbf{q}}_n\\|^2$	100.0
Leg joint velocities	$-\\|\dot{\textbf{q}}_l - \hat{\dot{\textbf{q}}}_l\\|^2$	$1.0 \cdot 10^{-3}$
Neck joint velocities	$-\\|\dot{\textbf{q}}_n - \hat{\dot{\textbf{q}}}_n\\|^2$	1.0
Contact	$\sum_{i \in \{L,R\}} \mathbb{I} [c_i = \hat{c}_i]$	1.0
Regularization
Joint torques	$-\\|\tau\\|^2$	$1.0 \cdot 10^{-3}$
Joint accelerations	$-\\|\ddot{\textbf{q}}\\|^2$	$2.5 \cdot 10^{-6}$
Leg action rate	$-\\|\textbf{a}_l - \textbf{a}_{t-1,l}\\|^2$	1.5
Neck action rate	$-\\|\textbf{a}_n - \textbf{a}_{t-1,n}\\|^2$	5.0
Leg action acc.	$-\\|\textbf{a}_l - 2\textbf{a}_{t-1,l} + \textbf{a}_{t-2,l}\\|^2$	0.45
Neck action acc.	$-\\|\textbf{a}_n - 2\textbf{a}_{t-1,n} + \textbf{a}_{t-2,n}\\|^2$	5.0
Survival
Survival	1.0

符号解释:
- $\| \cdot \|$ : L2范数。
- $p_{x,y}$ : 躯干在 xy 平面的位置。
- $\hat{p}_{x,y}$ : 目标躯干在 xy 平面的位置。
- $\theta$ : 躯干姿态。
- $\hat{\theta}$ : 目标躯干姿态。
- $v_{x,y}$ : 躯干在 xy 平面的线速度。
- $\hat{v}_{x,y}$ : 目标躯干在 xy 平面的线速度。
- $v_z$ : 躯干在 z 轴的线速度。
- $\hat{v}_z$ : 目标躯干在 z 轴的线速度。
- $\omega_{x,y}$ : 躯干在 xy 平面的角速度。
- $\hat{\omega}_{x,y}$ : 目标躯干在 xy 平面的角速度。
- $\omega_z$ : 躯干在 z 轴的角速度。
- $\hat{\omega}_z$ : 目标躯干在 z 轴的角速度。
- $\textbf{q}_l$ : 腿部关节位置。
- $\hat{\textbf{q}}_l$ : 目标腿部关节位置。
- $\textbf{q}_n$ : 颈部关节位置。
- $\hat{\textbf{q}}_n$ : 目标颈部关节位置。
- $\dot{\textbf{q}}_l$ : 腿部关节速度。
- $\hat{\dot{\textbf{q}}}_l$ : 目标腿部关节速度。
- $\dot{\textbf{q}}_n$ : 颈部关节速度。
- $\hat{\dot{\textbf{q}}}_n$ : 目标颈部关节速度。
- $\mathbb{I}[\cdot]$ : 指示函数，当条件为真时为1，否则为0。
- $c_i$ : 机器人 $i$ 脚的接触状态。
- $\hat{c}_i$ : 目标 $i$ 脚的接触状态。
- $\tau$ : 关节扭矩。
- $\ddot{\textbf{q}}$ : 关节加速度。
- $\textbf{a}_l$ : 当前腿部动作。
- $\textbf{a}_{t-1,l}$ : 前一时间步的腿部动作。
- $\textbf{a}_{t-2,l}$ : 前两个时间步的腿部动作。
- $\textbf{a}_n$ : 当前颈部动作。
- $\textbf{a}_{t-1,n}$ : 前一时间步的颈部动作。
- $\textbf{a}_{t-2,n}$ : 前两个时间步的颈部动作。
- Weight: 各项奖励的权重，用于平衡不同奖励项的重要性。

4.2.3.5. 策略输入 (Policy Input)

策略的动作 (actions) $\mathbf { } \mathbf { a } _ { t }$ 是PD控制器 (PD controllers)的关节位置设定点。策略接收的状态 (state) $\pmb { s } _ { t }$ 作为输入，以及可选的运动特定相信号 (motion-specific phase signal)和控制命令 (control command)。 $\pmb { s } _ { t } = ( \pmb { p } _ { t } ^ { \mathcal { P } } , \pmb { \theta } _ { t } ^ { \mathcal { P } } , \pmb { v } _ { t } ^ { \mathcal { T } } , \omega _ { t } ^ { \mathcal { T } } , \pmb { q } _ { t } , \dot { \pmb { q } } _ { t } , \pmb { a } _ { t - 1 } , \pmb { a } _ { t - 2 } )$ 其中：

$\pmb { p } _ { t } ^ { \mathcal { P } }$ : 躯干在路径框架 (path frame)坐标系中的水平 (xy平面) 位置。
$\pmb { \theta } _ { t } ^ { \mathcal { P } }$ : 躯干在路径框架 (path frame)坐标系中的姿态。
$\pmb { v } _ { t } ^ { \mathcal { T } }$ : 躯干在身体坐标系 (body coordinates)中的线速度。
$\omega _ { t } ^ { \mathcal { T } }$ : 躯干在身体坐标系 (body coordinates)中的角速度。
$\pmb { q } _ { t }$ : 关节位置。
$\dot { \pmb { q } } _ { t }$ : 关节速度。
$\pmb { a } _ { t - 1 }$ : 前一时间步的动作。
$\pmb { a } _ { t - 2 }$ : 前两个时间步的动作。

为了使状态和策略对机器人的全局位置不变，躯干的水平位置和姿态在路径框架 (path frame)坐标系中表示，而线速度和角速度在身体坐标系 (body coordinates)中表示。所有策略都使用近端策略优化 (Proximal Policy Optimization, PPO) ([38]) 进行训练。策略架构和额外RL细节在附录A中描述。

4.2.3.6. 低级控制 (Low-level Control)

策略以 $50 \mathrm { H z }$ 的频率输出动作，而执行器通信频率为 $600 \mathrm { H z }$ 。为了弥合这一差距，采用了一阶保持 (first-order-hold)，即对前一个和当前策略动作进行线性插值，然后通过一个截止频率为 $37.5 \mathrm { H z }$ 的低通滤波器 (lowpass filter)。低级控制器还实现了在 Sec. V-A 中描述的路径框架动力学 (path frame dynamics)和相信号传播 (phase signal propagation)。这些低级控制方面在RL和运行时环境中实现了相同的逻辑。

4.2.3.7. 仿真 (Simulation)

通过CAD模型构建了精确描述机器人物理特性、执行器和机器人与环境交互的仿真模型。

刚体动力学 (Rigid Body Dynamics): 使用 Isaac Gym ([26]) 模拟。
执行器模型 (Actuator Models): 添加了自定义执行器模型 ([17], [42])，这些模型基于第一性原理推导，参数通过对单个执行器的系统辨识实验 (system identification experiments)获得（见附录 B）。
参数随机化 (Parameter Randomization): 执行器模型参数在其实验观察范围内进行随机化。
噪声与不确定性 (Noise and Uncertainty): 对策略接收到的状态添加噪声，并随机化质量属性和摩擦系数。
扰动 (Disturbances): 除了领域随机化 (domain randomization)，还在躯干、头部、髋部和脚部施加随机扰动力 (disturbance forces)和扭矩 (torques)。
地形随机化 (Terrain Randomization): 在训练行走策略时，还随机化地形。

4.2.4. 运行时 (Runtime)

在离线训练完成后，神经网络控制策略的权重被冻结，并部署到机器人的板载计算机上。部署后的策略和低级控制器与机器人硬件和标准状态估计器 (state estimator) ([11]) 交互，该估计器融合了IMU和执行器测量数据。

所提出的运行时系统（与 Fig. 2 对比）使得操作员能够使用直观的远程控制界面来操控机器人角色。动画引擎 (Animation Engine)将相关的操控命令（包括策略切换、触发动画事件和操纵杆输入）映射到策略控制命令、表演功能信号和音频信号。附录 C 提供了操控命令的完整列表。

区分了用于RL训练中模仿目标的艺术家指定运动，以及运行时操作员交互的动画库中的艺术家定义动画。动画引擎的输出是机器人的动画目标状态 (animation target state)，然后用于形成策略的控制输入 $\pmb { g } _ { t } ^ { \mathrm { perp } }$ 和 $\pmb { g } _ { t } ^ { \mathrm { peri } }$ 。

4.2.4.1. 永续与周期性运动 (Perpetual & Periodic Motions)

在站立和行走时，表演功能 (show function) 和策略命令通过结合事件驱动动画播放 (event-driven animation playback)和实时操控 (live puppeteering)来计算。为了程序化地生成动画状态，定义了机器人配置 $\begin{array} { r l } { c _ { t } } & { { } = } \end{array} \left( p _ { t } ^ { \mathcal { P } } , \theta _ { t } ^ { \mathcal { P } } , q _ { t } \right)$ ，从中提取控制输入。此外，还定义了一个扩展的动画命令 $\pmb { y } _ { t } = ( \pmb { \nu } _ { t } , \pmb { c } _ { t } )$ ，其中 $\nu _ { t }$ 表示所有表演功能命令（如 Table II 所示）。

下图（原文 Fig. 5）提供了一个高级的动画管线图，它通过组合三个功能动画层来计算目标输出 $\mathbf { \mathscr { y } } _ { t }$ ：

$Fig. 5. The animation engine procedurally generates the animation command, ${ \\mathbf { } } _ { \\mathbf { } } \\mathbf { \\cdot } \\mathbf { } \\mathbf { \\sigma } _ { \\mathbf { } }$ , based on three layers: background animation, triggered animations, and animations derived from joystick inputs. A triggered animation is blended in and out as illustrated by the green curve. In contrast, the background animation remains continuously active.$ 该图像是插图，展示了动画引擎的结构，以生成动画指令 $y_t$ 。图中分为三层：背景动画通过循环生成 $y_t^{bg}$ ，触发动画通过混合生成 $y_t^{trig}$ ，而操控杆动画则通过输入映射生成 $u_t$ 。触发动画的混合过程以绿色曲线表示，背景动画则持续活跃。

背景动画 (Background Animation): 这一层依赖于循环播放 (looped play) $\pmb { y } _ { t } ^ { \mathrm { bg } }$ ，它在没有额外输入时始终可见。背景动画传达了基本的活动水平，包括间歇性的眼睛眨动和天线运动。
触发动画 (Triggered Animations): 这一层在背景动画之上融合 (blends)操作员触发的动画片段。这些片段从艺术家指定的动画库中选择，并映射到远程控制器的按钮上。对于本项目中的角色，它们包括简单的“是-否”动画到复杂的“扫描”动画 $\pmb { y } _ { t } ^ { \mathrm { trig } }$ 。融合公式如下： $\begin{array} { r } { \pmb { \nu } _ { t } ^ { \mathrm { bld } } = ( 1 - \beta ) \pmb { \nu } _ { t } ^ { \mathrm { bg } } + \beta \pmb { \nu } _ { t } ^ { \mathrm { trig } } } \\ { \pmb { c } _ { t } ^ { \mathrm { bld } } = \mathrm { interp } ( \pmb { c } _ { t } ^ { \mathrm { bg } } , \pmb { c } _ { t } ^ { \mathrm { trig } } , \alpha ) , } \end{array}$ 其中：
- $\pmb { \nu } _ { t } ^ { \mathrm { bld } }$ : 融合后的表演功能命令。
- $\pmb { \nu } _ { t } ^ { \mathrm { bg } }$ : 背景动画的表演功能命令。
- $\pmb { \nu } _ { t } ^ { \mathrm { trig } }$ : 触发动画的表演功能命令。
- $\pmb { c } _ { t } ^ { \mathrm { bld } }$ : 融合后的机器人配置。
- $\pmb { c } _ { t } ^ { \mathrm { bg } }$ : 背景动画的机器人配置。
- $\pmb { c } _ { t } ^ { \mathrm { trig } }$ : 触发动画的机器人配置。
- $\mathrm { interp } (\cdot)$ (插值): 配置插值，对位置和关节角度是线性插值，对身体姿态使用slerp (球面线性插值)。
- $\beta$ 和 $\alpha$ : 融合比率，随播放时间变化。它们在线性持续时间内从0线性升高到1，并在动画结束前以相同持续时间线性降回到0。
- $T _ { \beta } = 0.1 \mathrm { s }$ 和 $T _ { \alpha } = 0.35 \mathrm { s }$ : 融合持续时间，使得与表演功能相关的面部表情比身体动画融合得更快。
摇杆动画 (Joystick Animation): 最后一层根据操作员的摇杆输入 $\textbf { \em u }$ 转换融合后的动画状态 $\pmb { y } _ { t } ^ { \mathrm { bld } }$ 。
- 站立时 (While standing): 目标机器人配置计算为： $\pmb { y } _ { t } = \mathcal { I } ^ { \mathrm { perp } } \left( \pmb { y } _ { t } ^ { \mathrm { bld } } , \pmb { u } _ { t } \right) ,$ 其中 $\mathcal { I } ^ { \mathrm { perp } }$ 是一个非线性映射，根据命令输入修改当前动画状态。摇杆轴映射为动画头部和躯干姿态的附加偏移量，以在空闲或执行触发动画时修改机器人的凝视和姿态。下图（原文 Fig. 6）展示了站立时的姿态控制和凝视控制。
  
  该图像是一个示意图，展示了机器人的姿势控制和视线控制功能。左侧的姿势控制通过移动躯干而不影响视线，右侧的视线控制主要通过移动头部来改变视线，同时也命令附加的躯干运动以扩展视线范围。
- 行走时 (While walking): 目标机器人配置计算为： $\begin{array} { r } { ( { \pmb y } _ { t } , { \pmb v } _ { t } ^ { \mathcal { P } } , \omega _ { t } ^ { \mathcal { P } } ) = \mathcal { I } ^ { \mathrm { peri } } \left( { \pmb y } _ { t } ^ { \mathrm { bld } } , { \pmb u } _ { t } \right) , } \end{array}$ 除了生成目标动画状态外，还生成周期性策略的路径速度命令 (path velocity commands)。为方便使用，凝视控制保持不变，但姿态控制的摇杆轴在行走时被重新映射为前进、侧向和转向速度命令。此外，表演功能会根据路径速度进行调制。当机器人达到最高速度时，天线会收回，眼睛半径会缩小，以表达快速行走时的劳累感。

一旦计算出动画输出 $\pmb { y } _ { t }$ ，表演功能直接由 $\nu _ { t }$ 控制，而策略命令信号则从 $\pmb { c } _ { t }$ 导出。对于头部，将 $\pmb { c } _ { t }$ 与机器人的标称配置进行比较，并从目标配置中直接导出 $\Delta h _ { t } ^ { \mathrm { head } }$ 和 $\Delta \theta _ { t } ^ { \mathrm { head } }$ 作为 $\pmb { g } _ { t } ^ { \mathrm { perp } }$ 。行走时，下半身运动完全由周期性策略和命令的路径速度决定。需要注意的是，两种情况下都忽略了腿部关节位置，它们不是策略输入的一部分。

4.2.4.2. 情节性运动 (Episodic Motions)

当触发情节性运动时，动画引擎会启动到相应策略的转换，并触发相关的动画片段，同步适当的表演功能动画，类似于永续和周期性运动期间的触发动画层。在此情节性运动结束之前，没有额外的用户输入。

4.2.4.3. 音频引擎 (Audio Engine)

板载音频引擎 (audio engine)处理并混合机器人上的所有音频。基于消息的接口使操作员能够在操控时随时触发短声音片段（例如，发声）。当动画或情节性运动有相关音频时，动画引擎会将同步播放命令转发给音频引擎。还支持通过机器人执行器速度调制的音效，用于创建人工齿轮声音。

5. 实验设置

5.1. 数据集

本研究没有使用传统意义上的公开数据集。相反，实验所用的“数据”主要来源于艺术家专门为该机器人角色创作的运动学参考运动 (kinematic motion references)。这些运动涵盖了站立、行走以及多种情节性动画（如“快乐舞蹈”、“兴奋运动”、“跳跃”和“发脾气”）。

永续参考 (Perpetual References): 通过逆动力学 (inverse dynamics)计算得到，以满足特定的命令并优化姿态，确保压强中心 (center of pressure)位于支持多边形 (support polygon)中心。
周期性行走运动 (Periodic Walking Motions): 艺术家提供多个行走速度下的参考步态 (reference gaits)，定义为躯干和末端执行器 (end-effectors) 的任务空间轨迹 (task space trajectories)。这些步态样本通过程序化方式组合 ([14])，并结合模型预测控制器 (model predictive controller) ([51]) 和逆动力学控制器 (inverse dynamics controller) ([21]) 生成全身轨迹。
情节性运动 (Episodic Motions): 在Maya ([2]) 等专业动画软件中生成。

这些艺术家创建的运动是RL训练中模仿奖励 (imitation rewards)的基础，它们定义了机器人期望的时间变量目标状态 (time-varying target state)。选择这些定制数据集是因为机器人形态独特，且需要高度艺术表现力，通用运动数据集无法满足需求。

5.2. 评估指标

本研究采用定性和定量相结合的方式评估机器人的性能和鲁棒性。

5.2.1. 平均绝对跟踪误差 (Mean Absolute Tracking Error, MAE)

概念定义: 平均绝对跟踪误差用于量化机器人的实际关节位置与艺术家设定的目标关节位置之间的平均偏差。它反映了RL策略在模仿参考运动方面的精确度。较低的 MAE 值表示机器人的运动更接近期望的动画效果。
数学公式: 假设在某个时间段内有 $N$ 个时间步，每个时间步 $t$ 的实际关节位置向量为 $\textbf{q}_t$ 且目标关节位置向量为 $\hat{\textbf{q}}_t$ ，则MAE可定义为： $\mathrm{MAE} = \frac{1}{N \cdot D} \sum_{t=1}^{N} \sum_{j=1}^{D} |q_{t,j} - \hat{q}_{t,j}|$
符号解释:
- $\mathrm{MAE}$ : 平均绝对跟踪误差。
- $N$ : 评估的时间步总数。
- $D$ : 关节的自由度总数。
- $q_{t,j}$ : 在时间步 $t$ 时第 $j$ 个关节的实际位置。
- $\hat{q}_{t,j}$ : 在时间步 $t$ 时第 $j$ 个关节的目标位置。
- $|\cdot|$ : 绝对值函数。

5.2.2. 鲁棒性 (Robustness)

概念定义: 鲁棒性衡量机器人控制策略 (control policy)在面临外部干扰、模型不确定性或复杂环境时，维持预期行为和平衡的能力。在娱乐应用中，机器人需要能够在非受控环境中稳定运行，即使受到轻微碰撞或地面不平的影响。
评估方式: 通过定性实验进行评估，例如：
- 外部推力 (External Pushes): 对机器人施加随机推力，观察其维持平衡和恢复姿态的能力。
- 跨越障碍物 (Walking Over Obstacles): 让机器人在小障碍物上行走，测试其适应不平坦地形的能力。
目标: 策略应能够偏离参考轨迹和接触计划来恢复和保持平衡，这体现了RL方法的优势。

5.2.3. 扭矩限制 (Torque Limits)

概念定义: 扭矩限制是指执行器在不同速度下能够产生的最大和最小扭矩。在动态运动中，机器人关节可能会达到甚至超过这些限制，从而导致运动失真或执行器损坏。评估扭矩限制有助于理解机器人在执行高强度动作时的硬件约束。
评估方式: 通过在执行特定高动态动作（如“跳跃”运动）时，测量实际关节扭矩，并与执行器模型 (actuator model)预测的速度相关扭矩限制进行对比。这有助于验证执行器模型是否准确，并确认机器人是否在安全且可行的操作范围内运行。

5.3. 对比基线

本研究在评估其强化学习公式 (formulation)时，与文献中几种相关的替代方法进行了比较，以突显其方法的优势。这些对比并非针对整个系统的端到端比较，而是针对RL策略学习效果的对比：

基线 1: 直接跟踪躯干速度的RL (RL Directly Tracking Torso Velocities):
- 方法: 策略直接以躯干速度为目标，将躯干相关奖励作为主要参考，而腿部关节位置、速度和接触奖励权重设为零。同时，策略输入中移除相信号 (phase signal)。
- 目的: 模拟那些主要关注机器人全局运动速度，而不细致考虑腿部步态细节的控制方法。
- 预期结果: 这种方法通常会导致机器人快速“搓脚” (rapidly shuffles the feet)，步态不自然。为了抑制这种行为，通常需要引入额外的足部离地间隙 (foot clearance)和滑移惩罚 (slip penalties)，但这些惩罚难以调优，且步态仍不自然。
基线 2: 带有相信号和接触参考的RL (RL with Phase Signal and Contact Reference):
- 方法: 在基线1的基础上，重新将相信号 (phase signal)添加到策略输入中，并激活接触奖励 (contact reward)。
- 目的: 模拟那些尝试通过相信号和预设接触计划来引导步态，但仍主要以速度跟踪为主的方法 ([39], [40])。
- 预期结果: 策略能够更好地遵循步态模式，但由于直接跟踪速度命令，躯干运动仍然显得僵硬和直立，缺乏自然感。
基线 3: 使用当前和未来运动学参考姿态作为策略输入的RL (RL Using Current and Future Kinematic Reference Poses):
- 方法: 将当前和未来的运动学参考姿态 (kinematic reference poses)作为策略输入，取代了本文中使用的相信号 (phase signal)。其他RL公式保持不变。
- 目的: 评估相信号作为策略输入的等效性和有效性。一些RL方法 ([33], [25]) 直接将未来的参考姿态作为输入。
- 预期结果: 这种方法在行走和情节性运动中能够收敛到相同的奖励，并产生视觉上相同的运动。这表明相信号和运动学参考包含了相同的信息。
- 本文方法的优势: 使用相信号的优点是不需要在机器人上存储和重现大量的参考运动数据，这对于资源有限的板载计算机是重要的考量。
  
  通过这些对比，本研究验证了其多策略、相信号条件化和模仿奖励驱动的RL方法，在实现鲁棒且富有表现力的机器人运动方面的优越性。

6. 实验结果与分析

6.1. 核心结果分析

本研究首先评估了控制堆栈基础的各个控制策略的性能和鲁棒性，然后展示了动画引擎如何将用户命令转化为策略控制信号，最终将系统的技术能力转化为一个引人注目的角色。

6.1.1. 独立控制策略评估

站立 (Standing):
- 每个策略输入对应一个可控维度的运动范围（例如，躯干偏航 torso yaw）。
- 这使得站立时能够实现富有表现力的运动，包括对躯干的直接控制。
- 随附视频展示了机器人在每个策略输入的全范围内的运动。
行走 (Walking):
- 评估了系统精确跟踪指令行走速度的能力。
- 最大纵向速度 $0.7 \mathrm { m s ^ { -1 } }$ ，横向速度 $0.4 \mathrm { m s ^ { -1 } }$ ，转向速率 $1.8 \mathrm { rads } ^ { -1 }$ 。
- 机器人响应迅速，紧密遵循所有指令。
- 下图（原文 Fig. 7）展示了指令路径速度与测量躯干速度的对比，可以看出两者高度一致。
  
  该图像是图表，展示了命令的路径速度（蓝色和橙色线条）与测量的躯干速度（绿色线条）在时间上的变化。上半部分显示了以米/秒为单位的速度，底部则表示以弧度/秒为单位的角速度。图中包含了时间轴和相应的速度单位标记。
情节性策略 (Episodic Policies):
- 随附视频展示了几个情节性运动示例，如“快乐舞蹈 (happy dance)”、“兴奋运动 (excited motion)”、“跳跃 (jump)”和“发脾气 (tantrum)”。
- 这些运动展示了多样化的动作，并且在关节之间具有高水平的协调性，这通过专门的策略能够最好地实现。
- 下图（原文 Fig. 8）展示了“跳跃”运动中颈部俯仰 (Neck Pitch, NP) 和左膝俯仰 (Knee Pitch, KP) 关节的扭矩，以及执行器模型预测的速度相关扭矩限制。
  - 在起跳时，机器人膝关节达到扭矩限制，且由于关节速度增加，扭矩迅速下降。
  - 跳跃过程中，机器人头部向上俯仰，导致头部执行器也达到其限制。
- 这些结果说明策略能够利用执行器的最大能力来执行动态动作。
  
  该图像是图表，展示了在 episodic "jump" 动作期间测得的关节扭矩（实线）和由驱动器模型计算的速度相关扭矩限制（虚线）。上部图显示了颈部俯仰（NP）驱动器，下部图显示了左膝关节（KP）驱动器的扭矩变化。
鲁棒性 (Robustness):
- 通过外部推力和小障碍物测试，展示了机器人即使在偏离参考轨迹和接触计划的情况下也能恢复和保持平衡。
- 这突出了RL方法在处理不确定性和外部扰动方面的优势，因为基于优化的方法通常难以实时规划运动和接触计划，且常受限于遵循参考接触。
策略转换 (Policy Transitions):
- 下图（原文 Fig. 9）展示了短运动序列中策略转换时的策略动作。
- 由于策略接收前两个动作作为输入，并且在训练中鼓励平滑性，动作保持连续性，外部观察者几乎无法察觉策略切换。
- 从行走过渡到站立时，策略切换会延迟到下一个双脚支撑阶段开始，确保行走策略完成摆动阶段，站立策略在双脚着地时启动，使过渡更自然。
  
  该图像是图表，展示了在短暂动作序列中政策动作的变化。上部分描绘了颈关节的动作，包含颈偏航（NY）、颈滚（NR）、颈俯仰（NP）和颈前倾（NF）；中部显示了左腿各关节的动作，包括髋偏航（HY）、髋滚（HR）、髋俯仰（HP）、膝关节（KP）和踝关节（AP）；下方则显示阶段信号及过渡时刻。此图提供了动作切换的详细信息。

6.1.2. 与替代RL公式的比较

直接跟踪躯干速度 (Directly Tracking Torso Velocities): 这种方法导致机器人“搓脚”，步态不自然，且需要额外的惩罚（如足部离地间隙和滑移惩罚）来抑制，但调优困难。
带有相信号和接触参考 (With Phase Signal and Contact Reference): 这种方法使策略能很好地遵循步态模式，但由于直接跟踪速度命令，躯干运动仍然显得僵硬和直立。
使用当前和未来运动学参考姿态 (Using Current and Future Kinematic Reference Poses): 这种方法在行走和情节性运动中都能达到相同的奖励，并产生视觉上相同的运动。这表明相信号 (phase signal)和运动学参考 (kinematic reference)包含相同的信息。本文选择相信号的优点是不需要在机器人上存储和重现大量参考运动。

6.1.3. 动画引擎 (Animation Engine)

随附视频展示了动画引擎各层的叠加效果：先是背景动画，然后是触发动画层，最后是摇杆命令。
触发动画 (triggered animation)内容和摇杆驱动 (joystick-driven)的结合实现了简单、直观和富有表现力的机器人角色操控。
操作员可以通过直接遥操作，根据机器人所处的环境提供各种表演。同时，操作员可以触发动画片段，实现仅靠摇杆控制难以达到的细致或复杂的表情和互动。例如，操作员可以引导机器人的凝视方向，然后触发风格化的“是”或“否”动画，同时保持眼神接触并调整身体姿态。
下图（原文 Fig. 10）展示了机器人与人类互动的场景。

该图像是一个插图，展示了一个双足机器人在与操作员互动时的不同动作场景。在画面中，机器人执行了多种指令，包括捡起和放置物品，体现了机器人在娱乐领域中与人类的互动能力。
凝视和姿态控制 (Gaze and Posture Control):
- 遥控器采用双摇杆设备，布局类似于视频游戏手柄。
- 左摇杆修改身体姿态（躯干偏航和俯仰），同时反向旋转头部以保持固定凝视。
- 右摇杆修改机器人凝视（头部偏航和俯仰），当颈部达到运动学限制时，会额外引入躯干旋转以扩展凝视范围。
- 当操作员将机器人的凝视引导到极端角度时，身体会自然地跟随头部。
- 这种功能分离降低了操作员的认知负荷，使其能够更轻松地引导机器人的视线，同时调整身体姿态以传达情感。

6.1.4. 系统部署 (System Deployment)

进行了多次公开部署，最多同时有三台机器人运行，累计运行时间达 $10 \mathrm { h }$ ，期间没有发生跌倒。
观众很快被机器人角色吸引，通常不会注意到操作员的存在。
但也有反馈指出操作员的存在可能会分散注意力或降低角色的可信度。
旁观者常假设机器人能感知环境，例如“机器人真的能看到我吗？”或“它是怎么知道我在说什么的？”。

6.2. 数据呈现 (表格)

以下是原文 Table I 的结果：

Imitation
Name	Reward Term	Weight
Torso position xy	$exp (-200.0 \cdot \\|p_{x,y} - \hat{p}_{x,y}\\|^2)$	1.0
Torso orientation	$exp (-20.0 \cdot \\| \theta - \hat{\theta} \\|^2)$	1.0
Linear velocity xy	$exp (-8.0 \cdot \\|v_{x,y} - \hat{v}_{x,y}\\|^2)$	1.0
Linear velocity z	$exp (-8.0 \cdot (v_z - \hat{v}_z)^2)$	1.0
Angular velocity xy	$exp (-2.0 \cdot \\|\omega_{x,y} - \hat{\omega}_{x,y}\\|^2)$	0.5
Angular velocity z	$exp (-2.0 \cdot (\omega_z - \hat{\omega}_z)^2)$	0.5
Leg joint positions	$-\\|\textbf{q}_l - \hat{\textbf{q}}_l\\|^2$	15.0
Neck joint positions	$-\\|\textbf{q}_n - \hat{\textbf{q}}_n\\|^2$	100.0
Leg joint velocities	$-\\|\dot{\textbf{q}}_l - \hat{\dot{\textbf{q}}}_l\\|^2$	$1.0 \cdot 10^{-3}$
Neck joint velocities	$-\\|\dot{\textbf{q}}_n - \hat{\dot{\textbf{q}}}_n\\|^2$	1.0
Contact	$\sum_{i \in \{L,R\}} \mathbb{I} [c_i = \hat{c}_i]$	1.0
Regularization
Joint torques	$-\\|\tau\\|^2$	$1.0 \cdot 10^{-3}$
Joint accelerations	$-\\|\ddot{\textbf{q}}\\|^2$	$2.5 \cdot 10^{-6}$
Leg action rate	$-\\|\textbf{a}_l - \textbf{a}_{t-1,l}\\|^2$	1.5
Neck action rate	$-\\|\textbf{a}_n - \textbf{a}_{t-1,n}\\|^2$	5.0
Leg action acc.	$-\\|\textbf{a}_l - 2\textbf{a}_{t-1,l} + \textbf{a}_{t-2,l}\\|^2$	0.45
Neck action acc.	$-\\|\textbf{a}_n - 2\textbf{a}_{t-1,n} + \textbf{a}_{t-2,n}\\|^2$	5.0
Survival
Survival	1.0

该表格详细列出了强化学习训练中使用的加权奖励项 (Weighted Reward Terms)，分为模仿 (Imitation)、正则化 (Regularization)和生存 (Survival)三大类。每个奖励项都有相应的奖励函数 (Reward Term)和权重 (Weight)，这些权重是在训练过程中经过调整以平衡各项奖励的重要性，从而引导策略学习期望行为。

以下是原文 Table II 的结果：

Function Parameters	Dimensionality	Units
Antenna positions	2× 1	[rad]
Eye colors	2× 3	[RGB]
Eye radii	2× 1	[%]
Head lamp brightness	1	[%]

该表格展示了机器人表演功能 (Show Function)的参数，包括天线位置、眼睛颜色、眼睛半径和头灯亮度。这些参数由动画引擎控制，用于增强机器人的表现力，但不直接影响其动力学。

以下是原文 Table III 的结果：

Type	Name	MAE [rad]
Perpetual	Standing	0.035
Periodic	Walking	0.123
Episodic	Excited Motion	0.029
	Happy Dance	0.027
	Jump	0.043
	Tantrum	0.032

该表格展示了不同运动类型下关节位置平均绝对跟踪误差 (Mean Absolute Tracking Error, MAE)。MAE越小表示策略对艺术家指定运动的模仿越精确。可以看出，站立和几种情节性运动的MAE相对较低，表明这些策略能很好地跟踪期望的姿态。行走的MAE略高，可能反映了动态行走中固有的挑战。

以下是原文 Table IV 的结果：

Param.	Value
Num. iterations	100 000
Batch size (envs. × steps)	8192 × 24
Num. mini-batches	4
Num. epochs	5
Clip range	0.2
Entropy coefficient	0.0
Discount factor	0.99
GAE discount factor	0.95
Desired KL-divergence	0.01
Max gradient norm	1.0

该表格列出了用于训练所有策略的PPO (Proximal Policy Optimization)``超参数 (Hyperparameters)。这些参数包括迭代次数、批次大小、mini-batch数量、epoch数量、剪辑范围、熵系数、折扣因子、GAE (Generalized Advantage Estimation)折扣因子、期望KL散度 (KL-divergence)和最大梯度范数。这些参数的设定对于强化学习算法的收敛性和性能至关重要。

以下是原文 Table V 的结果：

Param.		Short / small	Long / small	Short / large
Body		Hips, Feet	Pelvis, Head	Pelvis
Force [N]	XY	[0.0, 5.0]	[0.0, 5.0]	[90.0, 150.0]
Force [N]	Z	[0.0, 5.0]	[0.0, 5.0]	[0.0, 10.0]
Torque [N m]	XY	[0.0, 0.25]	[0.0, 0.25]	[0.0, 15.0]
Torque [N m]	Z	[0.0, 0.25]	[0.0, 0.25]	[0.0, 15.0]
Duration [s]	On	[0.25, 2.0]	[2.0, 10.0]	[0.1, 0.1]
Duration [s]	Off	[1.0, 3.0]	[1.0, 3.0]	[12.0, 15.0]

该表格详细说明了在仿真训练过程中施加的扰动参数 (Disturbance Parameters)。扰动分为三类：Short / small (短/小)、Long / small (长/小)和Short / large (短/大)。对于每个指定的身体部位（髋部、脚、骨盆、头部），都会施加一个在给定范围内的随机力和扭矩，持续随机的“开启”时间，随后是随机的“关闭”时间。这些扰动在训练的最初1500次迭代中通过线性课程学习 (curriculum)逐渐引入，以增强策略的鲁棒性。

以下是原文 Table VI 的结果：

Param.	Unitree A1	Unitree Go1	Dynamixel XH540-V150	Units
kp	15.0	10.0	5.0	[N m rad−1]
kD	0.6	0.3	0.2	[N m s rad−1]
Tmax	34.0	23.7	4.8	[N m]
qTmax	7.4	10.6	0.2	[rad s−1]
qmax	20.0	28.8	7.0	[rad s−1]
µs	0.45	0.15	0.05	[N m]
μd	0.023	0.016	0.009	[N m s rad−1]
bmin	0.005	0.002	0.002	[rad]
bmax	0.015	0.005	0.005	[rad]
q,max	0.02	0.02	0.02	[rad]
σq,0	$1.80 \cdot 10^{-4}$	$1.89 \cdot 10^{-4}$	$4.31 \cdot 10^{-4}$	[rad]
σq,1	$3.61 \cdot 10^{-5}$	$5.47 \cdot 10^{-5}$	$2.43 \cdot 10^{-5}$	[s]
Im	0.011	0.0043	0.0058	[kg m2]

该表格展示了机器人中使用的不同类型执行器 (Actuator)的增益 (Gains)和模型参数 (Model Parameters)。包括Unitree A1、Unitree Go1和Dynamixel XH540-V150。每个执行器的参数如 kp（比例增益）、kD（微分增益）、Tmax（最大扭矩）、qTmax（扭矩最大时速度）、qmax（最大速度）、µs（静态摩擦系数）、 $μd$ （动态摩擦系数）、bmin（最小反弹间隙）、bmax（最大反弹间隙）、q,max（最大编码器偏移）、 $σq,0$ （零速度下编码器噪声标准差）、 $σq,1$ （速度相关编码器噪声系数）和 Im（反映惯量）。这些参数用于构建仿真中的自定义执行器模型 (custom actuator models)，以提高sim-to-real迁移的准确性。

以下是原文 Table VII 的结果：

Button		Effect
Menu		Trigger a safety mode called motion stop. This forces a transition to standing and freezes the joint setpoints with high position gains after waiting 0.5 s.
View		Slowly move all joints to the default pose. Only available at startup or while
D-pad		in motion stop. Move the head up-down.
Left Joystick		Roll the head left-right. During walking: Longitudinal walking
		velocity. During standing: Up pitches the torso forward while the head remains stationary, and Down lowers the torso height.
	←	During walking: Turning rate. During standing: Torso yaw while the head re- mains stationary.
	L3	Pressing the left joystick triggers a scan- ning animation.
Right Joystick	↑	Pitches the head. During standing, this additionally commands torso pitch.
	←	Yaws the head left-right. During stand- ing, the end of the range additionally commands torso yaw.
	R3	Pressing the right joystick toggles the audio level.
ABXY	A	Transition to standing.
	B	Fully tuck the neck in, turn off the eyes, and retract the antennas. While standing,
		the torso height is also lowered. Cancel all active animations.
	Y	Turn on the background animation layer. Trigger an episodic motion. Each quad-
Left Trackpad		rant of the trackpad maps to a different motion.
Right Trackpad		Like the left trackpad. Reserved to trigger four additional episodic motions.
Backside	L1 R1	Turn the head lamp on and off. Single press: Start and stop walking, Hold: increase the walking velocity gain to 100 %. Without holding R1, all veloc-
		ity commands are scaled to 50 % of the maximum. During walking: Lateral walking velocity.
		During standing: Roll the torso while the head remains stationary. Short press: trigger a happy animation.
	L4	Long press: trigger an angry animation.
	L5	Short press: trigger an anxious animation. Long press: trigger a curious animation.
	R4	Short press: trigger a "yes" animation.
	R5	Long press: trigger a "no" animation. Trigger an expressive audio clip.

该表格详细列出了操控按钮映射 (Puppeteering Button Mapping)，说明了 Steam Deck 控制器上每个按钮和摇杆功能。它涵盖了安全模式、姿态调整、行走控制、动画触发、表演功能控制以及音频剪辑触发等多种功能。这张映射是经过持续迭代和优化，以降低操作员的认知负荷，实现直观和富有表现力的操控。

6.3. 消融实验/参数分析

论文通过与几种替代的RL公式进行比较，间接进行了消融实验，以验证其方法中关键组件的有效性。

相信号 (Phase Signal) 和接触奖励 (Contact Reward) 的重要性:
- 对照组: 当策略直接跟踪命令的行走速度，而不使用相信号和接触奖励时，机器人表现出“搓脚”的现象，步态不自然。这表明相信号和接触奖励对于学习可信的步态至关重要。
- 结果: 这种行为突出表明，仅凭速度跟踪不足以产生高质量的步态 (gait)，而足部离地间隙 (foot clearance)和滑移惩罚 (slip penalties)虽然能抑制这种行为，但通常难以调优，且学到的步态仍不自然。
相信号 (Phase Signal) 作为策略输入的有效性:
- 对照组: 当策略输入中包含相信号和接触奖励时，机器人能更好地遵循步态模式，但躯干运动仍可能显得僵硬。这表明相信号可以有效引导步态，但单纯的速度跟踪仍有局限。
- 与未来参考姿态的对比: 论文还比较了使用相信号作为输入与使用当前和未来运动学参考姿态 (kinematic reference poses)作为策略输入的情况。结果显示，两种方法在奖励收敛和视觉效果上是相同的。
- 结论: 这证实了相信号包含了与运动学参考相同的信息，并且在机器人上存储和重现参考运动数据方面具有计算优势。
  
  这些比较实验表明，本研究所采用的多策略、相信号条件化以及模仿奖励驱动的RL方法，对于实现鲁棒且富有表现力的机器人运动是有效和必要的。它强调了结合艺术家创作的运动学参考和强化学习以弥补传统控制方法不足的策略。

7. 总结与思考

7.1. 结论总结

本研究提出了一种针对娱乐应用中双足机器人设计和控制的全面工作流程。其核心在于将富有表现力的、艺术家导向的运动与鲁棒的动态移动能力相结合。论文引入了一种新型双足机器人，其机械设计以创意意图为驱动，而非功能性需求。通过基于强化学习的控制架构，机器人能够鲁棒地执行艺术家创作的动画，这些动画通过低维度的命令信号进行条件化。一个创新的动画引擎能够组合和融合多个动画源，并在运行时生成控制命令。最终，直观的操作员界面使得机器人能够进行实时的、具有吸引力的表演。这一整合系统成功地创建了一个可信的机器人角色，为在娱乐领域及其他需要高度人机互动的情境中增强人类与机器人之间的互动开辟了新途径。该工作还证明，即使机器人的运动学和机械设计主要由创意目标驱动，也能构建出动态腿足机器人。

7.2. 局限性与未来工作

训练开销 (Training Overhead): 作者指出，将运动分离成多个策略虽然提供了对机器人行为的精确控制，但也导致了训练开销的增加，尤其是在扩展情节性运动数量时。
操作员认知负荷 (Operator Cognitive Load): 操控员能够有效使用的按钮数量存在自然限制。随着角色表达能力的进一步扩展，操作员的认知负荷可能会成为瓶颈。
嵌入自主性 (Embedding Autonomy): 鉴于操作员界面的局限性，作者认为未来有机会在动画引擎中嵌入更多的自主性，以进一步扩展角色的表现能力。

7.3. 个人启发与批判

个人启发:
- 艺术与工程的完美融合: 这篇论文最令人兴奋的一点是它如何将高度艺术化的创意愿景与前沿的机器人工程和人工智能技术无缝结合。它打破了传统机器人设计中“功能优先”的思维定式，证明了以“角色驱动”进行设计不仅可行，还能创造出更高层次的人机互动体验。
- 情感化机器人的潜力: 通过精心设计的形态、表演功能和富有表现力的运动，机器人不再仅仅是工具，而成为了能够传达情感、引人入胜的“角色”。这为服务机器人、伴侣机器人以及教育等领域带来了巨大的启发，预示着未来机器人可能通过情感连接而非纯粹的功能来融入人类社会。
- 强化学习的灵活性和鲁棒性: 多策略RL架构的“分而治之”策略，以及领域随机化在sim-to-real迁移中的应用，展示了RL在处理复杂动态、模仿特定行为和应对现实世界不确定性方面的强大能力。它提供了一种将高层艺术意图转化为低层物理动作的有效途径。
- 直观操控界面的重要性: 强调操作员界面对于实现自然、实时表演的关键作用，以及如何通过精心设计的映射（如凝视和姿态分离控制）来降低操作员的认知负荷，这也是 HRI 领域的重要方向。
批判与可改进之处:
- 多策略的扩展性挑战: 尽管多策略方法在当前场景下效果良好，但随着需要模仿的动画和行为种类呈指数级增长，维护和训练大量独立策略的开销会变得非常巨大。未来的工作可以探索如何让一个单一的、更通用的RL策略通过更复杂的条件化输入（例如，基于自然语言或高级语义指令）来学习和泛化更多的技能，从而减少训练和管理多个策略的复杂性。
- 自主性与控制的平衡: 论文提到未来可能在动画引擎中嵌入自主性。这引出了一个关键问题：自主性应该有多高？完全自主可能会失去操作员的即时艺术控制，而完全手动又限制了复杂性和灵活性。如何找到最佳平衡点，让机器人能自主响应环境和观众，同时仍允许操作员进行高层干预和艺术指导，是一个值得深入研究的方向。
- 行为可解释性与安全性: 娱乐机器人需要与人类近距离互动。虽然论文展示了鲁棒性，但对于其学习到的行为在极端情况下的可解释性、可预测性和安全性，仍需更深入的探讨。例如，RL策略在未见过的复杂互动情境下是否会产生意想不到的行为？
- 长期学习与适应能力: 当前的RL策略是离线训练后固定的。如果机器人在部署后需要学习新的动作、适应新的环境或观众的偏好，它将如何进行在线学习或增量学习？这将是其在实际娱乐场景中长期应用的关键。
- 成本与可复制性: 论文的机器人具有定制机械设计和复杂的RL训练流程，这可能意味着较高的开发和部署成本。未来可以探索如何利用更通用、成本更低的硬件平台，或更高效的RL训练方法，来降低这种“角色驱动”机器人技术的门槛，使其更具可复制性。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。