论文状态:已完成

ToddlerBot: Open-Source ML-Compatible Humanoid Platform for Loco-Manipulation

发表:2025/02/03
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文介绍了ToddlerBot,一个低成本、开源且兼容机器学习的人形机器人平台,旨在推动可扩展策略学习和机器人研究。它通过零样本模拟迁移实现高质量数据采集,并配有用户友好的遥操作系统,适合进行全身运动操作。该平台的3D打印设计保证了其可复现性与易维护性。

摘要

Learning-based robotics research driven by data demands a new approach to robot hardware design-one that serves as both a platform for policy execution and a tool for embodied data collection to train policies. We introduce ToddlerBot, a low-cost, open-source humanoid robot platform designed for scalable policy learning and research in robotics and AI. ToddlerBot enables seamless acquisition of high-quality simulation and real-world data. The plug-and-play zero-point calibration and transferable motor system identification ensure a high-fidelity digital twin, enabling zero-shot policy transfer from simulation to the real world. A user-friendly teleoperation interface facilitates streamlined real-world data collection for learning motor skills from human demonstrations. Utilizing its data collection ability and anthropomorphic design, ToddlerBot is an ideal platform to perform whole-body loco-manipulation. Additionally, ToddlerBot's compact size (0.56m, 3.4kg) ensures safe operation in real-world environments. Reproducibility is achieved with an entirely 3D-printed, open-source design and commercially available components, keeping the total cost under 6,000 USD. Comprehensive documentation allows assembly and maintenance with basic technical expertise, as validated by a successful independent replication of the system. We demonstrate ToddlerBot's capabilities through arm span, payload, endurance tests, loco-manipulation tasks, and a collaborative long-horizon scenario where two robots tidy a toy session together. By advancing ML-compatibility, capability, and reproducibility, ToddlerBot provides a robust platform for scalable learning and dynamic policy execution in robotics research.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

ToddlerBot:用于运动操作的开源 ML 兼容人形机器人平台

1.2. 作者

Haochen Shi*、Weizhuo Wang*、Shuran Song†、C. Karen Liu†

*Equal contribution (共同第一作者) *Equal advising (共同指导)

隶属机构:斯坦福大学 (Stanford University)

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台。arXiv 是一个开放获取的预印本服务器,允许研究人员在同行评审之前分享其研究成果。虽然不是正式的期刊或会议发表,但 arXiv 在学术界具有重要影响力,常用于快速传播研究进展。

1.4. 发表年份

2025 年 (发表于 UTC:2025-02-02T20:05:32.000Z)

1.5. 摘要

这篇论文介绍了 ToddlerBot,一个低成本、开源、ML (机器学习) 兼容的人形机器人平台,专为学习型机器人研究 (Learning-based robotics research) 中的大规模策略学习和机器人与 AI (人工智能) 研究而设计。ToddlerBot 旨在通过提供高保真数字孪生 (Digital Twin) 和零点校准 (Zero-point calibration) 功能,实现零样本模拟到现实迁移 (Zero-shot sim-to-real transfer),从而无缝获取高质量的模拟和真实世界数据。它还配备了用户友好的遥操作系统 (Teleoperation interface),便于从人类演示中收集真实世界数据以学习运动技能。凭借其数据收集能力 (Data collection ability) 和拟人化设计 (Anthropomorphic design),ToddlerBot 是进行全身运动操作 (Whole-body loco-manipulation) 的理想平台。机器人尺寸紧凑(0.56 米高,3.4 千克重),确保了在现实环境中的安全操作。该平台通过完全 3D 打印的开源设计和市售组件实现了可复现性 (Reproducibility),总成本低于 6,000 美元。详尽的文档和成功的独立复现验证了其易于组装和维护的特点。论文通过臂展 (Arm span)、有效载荷 (Payload)、耐力测试 (Endurance tests)、运动操作任务 (Loco-manipulation tasks) 以及两个机器人协作整理玩具的长周期场景 (Long-horizon scenario) 展示了 ToddlerBot 的能力。ToddlerBot 通过提升 ML 兼容性、能力和可复现性,为机器人研究中的可扩展学习 (Scalable learning) 和动态策略执行 (Dynamic policy execution) 提供了一个强大的平台。

1.6. 原文链接

  • 原文链接: https://arxiv.org/abs/2502.00893v4
  • PDF 链接: https://arxiv.org/pdf/2502.00893v4.pdf

2. 整体概括

2.1. 研究背景与动机

传统的机器人设计通常优先考虑执行器强度、传感器精度和机械精确度。这些特性对于在真实世界中部署机器人至关重要,但在机器人研究中却存在局限性,尤其是在当今由数据驱动的学习型机器人 (Learning-based robotics) 研究范式下。现有研究面临的挑战和空白包括:

  • 成本高昂与可维修性差: 高性能机器人通常造价高昂,维护复杂,且往往是“黑箱”系统,难以进行快速修复、调试和全面理解。这阻碍了研究的快速迭代和创新。

  • 与现代 ML 范式不兼容: 许多传统平台并未充分考虑与机器学习 (Machine Learning, ML) 范式的兼容性,它们在模拟数据 (Simulation data) 和真实世界数据 (Real-world data) 的大规模、高质量收集方面存在不足。而这两种数据源对于可扩展的策略学习至关重要。

  • 缺乏开放性与可复现性: 商业化机器人平台通常不开源,限制了研究人员对其硬件和软件的深入控制和修改,从而阻碍了社区协作和研究成果的复现。

  • 现有微型人形机器人的局限性: 尽管有一些微型人形机器人,但它们往往在自由度 (Degrees of Freedom, DoFs) 上受限,无法支持复杂的全身运动操作 (Loco-manipulation) 任务。

    为了应对这些挑战,论文提出了 ToddlerBot,一个全新的机器人硬件设计方法,它既是策略执行 (Policy execution) 的平台,又是具身数据收集 (Embodied data collection) 的工具。其核心动机是降低研究门槛,加速学习型机器人和 AI 领域的研究进展,特别是在运动 (Locomotion) 和操作 (Manipulation) 技能方面。

2.2. 核心贡献/主要发现

ToddlerBot 的核心贡献和主要发现可以总结为:

  1. 创新性开源人形机器人平台: 提出了 ToddlerBot,这是第一个拥有 30自由度 (DoFs) 且具有超人运动范围的微型人形机器人(0.56 米,3.4 千克)。它集成了现有组件,提供了一个实用且功能强大的平台,用于大规模、高质量的模拟和真实世界数据收集。

  2. 高保真数字孪生 (Digital Twin) 的实现: 开发了一个全面的系统辨识 (System Identification, sysID) 管道 (Pipeline),包括即插即用零点校准 (Plug-and-play zero-point calibration) 和可迁移电机系统辨识 (Transferable motor system identification)。这确保了数字孪生的高度准确性,从而实现零样本模拟到现实策略迁移 (Zero-shot sim-to-real policy transfer)。

  3. 全身遥操作系统: 设计了一个用户友好的全身遥操作系统 (Whole-body teleoperation system),可以直观地控制机器人,从而有效地从人类演示中收集运动操作 (Loco-manipulation) 数据。

  4. 卓越的 ML 兼容性: ToddlerBot 能够执行基于强化学习 (Reinforcement Learning, RL) 的行走策略和基于扩散策略 (Diffusion Policy) 的视觉操作任务,并支持技能链 (Skill Chaining) 和多机器人协作 (Multi-robot collaboration),充分展示了其在 ML 任务中的强大能力。

  5. 高度可复现性和可访问性: 通过完全 3D 打印的开源设计和市售组件,将总成本控制在 6,000 美元以下。详尽的文档和成功的独立复现案例(包括非硬件背景的学生和全球团队)验证了其易于构建、维护和复现的特点,显著降低了研究门槛。

    这些发现共同证明 ToddlerBotML 兼容性、能力和可复现性方面取得了显著进步,为机器人研究中的可扩展学习和动态策略执行提供了一个强大的基础。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 ToddlerBot 这项工作,我们需要了解以下几个关键概念:

  • 人形机器人 (Humanoid Robot): 指具有类似人类身体结构和运动能力(如两足行走、双手操作)的机器人。其设计通常模仿人类的自由度 (Degrees of Freedom, DoFs) 和关节 (Joints) 排列,以便执行更具拟人化 (Anthropomorphic) 的任务。
  • 运动操作 (Loco-Manipulation): Locomotion (运动) 和 Manipulation (操作) 的结合。运动指机器人在环境中移动的能力(如行走、跑步),操作指机器人与物体交互的能力(如抓取、放置)。全身运动操作 (Whole-body loco-manipulation) 强调在执行操作任务时,利用整个身体(包括腿部和手臂)的协调运动来维持平衡和增大操作范围。
  • 机器学习 (Machine Learning, ML): 人工智能的一个分支,使计算机系统能够从数据中学习,而无需进行明确的编程。在机器人领域,ML 常用于学习控制策略、识别物体、规划路径等。
  • 强化学习 (Reinforcement Learning, RL): ML 的一种范式,智能体 (Agent) 通过与环境的交互来学习如何做出决策以最大化累积奖励 (Reward)。在机器人控制中,RL 可用于训练机器人执行复杂的运动技能,如行走、奔跑等。
  • 策略 (Policy):RL 中,策略 (Policy) 是智能体 (Agent) 的行为函数,它定义了在给定状态 (State) 下采取行动 (Action) 的概率或确定性规则。
  • 数字孪生 (Digital Twin): 物理系统(如机器人)的虚拟模型,它与物理系统保持实时同步,并能精确模拟其行为。高保真的数字孪生对于模拟到现实迁移 (Sim-to-Real Transfer) 至关重要,因为它允许在虚拟环境中安全、高效地开发和测试控制策略。
  • 零样本模拟到现实迁移 (Zero-shot Sim-to-Real Transfer): 指在模拟器 (Simulator) 中训练的控制策略 (Policy) 可以直接部署到真实世界的机器人上,而无需进行任何真实世界数据的微调 (Fine-tuning)。这通常要求模拟器具有极高的保真度 (Fidelity)。
  • 系统辨识 (System Identification, SysID): 通过实验数据来构建或改进数学模型,从而描述物理系统动态特性的过程。在机器人中,SysID 用于精确测量电机的阻尼 (Damping)、摩擦损耗 (Friction loss)、电枢 (Armature) 等参数,以确保数字孪生的准确性。
  • 自由度 (Degrees of Freedom, DoFs): 描述机器人运动能力的独立参数数量。例如,一个在三维空间中自由移动的物体有 6 个 DoFs(3 个平移,3 个旋转)。机器人关节的 DoFs 越多,其运动能力和灵活性就越强。
  • 遥操作系统 (Teleoperation System): 允许人类操作员远程控制机器人的系统。ToddlerBot 中设计的遥操作系统旨在方便人类演示者生成高质量的具身数据 (Embodied data),用于训练机器学习策略 (Machine learning policies)。
  • 3D 打印 (3D Printing): 一种增材制造 (Additive manufacturing) 技术,通过逐层打印材料来构建三维物体。它通常用于快速原型开发 (Prototyping) 和定制化生产,在开源硬件项目中具有成本低、可访问性高的优势。
  • Dynamixel 电机 (Dynamixel Motors): 一种流行的智能伺服电机 (Servo motor) 系列,由ROBOTIS 公司生产。它们集成了电机、减速器 (Gearbox)、控制器 (Controller) 和编码器 (Encoder),具有易于控制、可靠性高和反馈丰富等特点,常用于机器人研究和教育平台。
  • MuJoCo (Multi-Joint dynamics with Contact): 一个著名的物理引擎 (Physics engine),广泛应用于机器人学、生物力学和强化学习 (RL) 领域。它以其在处理复杂多关节系统和接触动力学 (Contact dynamics) 方面的高效性和准确性而闻名。MJXMuJoCoJAX 加速版本,Brax 是基于 MJX强化学习环境。
  • PPO (Proximal Policy Optimization): 一种广泛使用的强化学习算法 (Reinforcement learning algorithm),因其稳定性和良好的性能而受到青睐。它通过限制策略更新 (Policy updates) 的大小来防止策略 (Policy) 剧烈变化,从而提高训练的稳定性。
  • 扩散策略 (Diffusion Policy): 一种基于扩散模型 (Diffusion models) 的视觉运动策略学习 (Visuomotor policy learning) 方法。它通过学习动作序列 (Action sequences) 的条件分布 (Conditional distribution),生成多样化且高质量的机器人动作 (Actions),尤其适用于从人类演示中学习复杂的操作技能。
  • IMU (Inertial Measurement Unit): 惯性测量单元 (Inertial Measurement Unit)。一种传感器,通常包含加速度计 (Accelerometer)、陀螺仪 (Gyroscope) 和磁力计 (Magnetometer),用于测量物体的姿态、速度和方向。在机器人中,IMU 提供状态反馈 (State feedback),对平衡控制 (Balance control) 至关重要。

3.2. 前人工作

论文在 2. Related Works 部分回顾了当前人形机器人领域的主要发展,并与 ToddlerBot 进行了比较。主要涉及以下几类机器人:

  • 工业级全尺寸人形机器人:

    • Boston Dynamics Atlas [8]:以其高动态性和复杂动作闻名,但成本和维护难度极高。
    • Figure [9]、Tesla Optimus [10]、Unitree H1 [12]、Fourier GR1 [13]:这些是近期新兴或正在开发中的全尺寸人形机器人,通常由大型公司支持,具有强大的硬件性能,但普遍不开源,成本和维护对学术界挑战巨大。
    • Digit [11]:Agility Robotics 的产品,以两足行走和携带包裹为主要功能,部分代码开源,但硬件成本高昂。
  • 研究机构开发的人形机器人:

    • iCub [16]:由欧洲多个研究机构合作开发,是一个 1.04m 高的儿童大小人形机器人,拥有 32DoFs,是研究认知科学和人类机器人交互的平台,但成本极高 (300K USD)。
    • Berkeley Humanoid [17]、MIT Humanoid [18]、Duke Humanoid [19]、BRUCE [21]:这些机器人由大学研究团队开发,旨在探索人形机器人的不同设计空间和优化重点(如学习控制、杂技行为、节能运动)。它们通常在开源程度上有所不同,但大多数仍需要相当的资源来构建和维护。
  • 小型/微型人形机器人:

    • Booster T1 [14]、Berkeley Humanoid Lite [20]、Unitree G1 [15]:这些是半尺寸或小型人形机器人,相对全尺寸机器人更便宜、更安全,更易于操作。Berkeley Humanoid Lite [20] 尤其强调可访问性和 3D 打印设计,成本相对较低 (5K USD),拥有 22DoFs
    • NAO H25 [22]、Robotis OP3 [23]、K-Scale Zeroth [24]:这些是更小尺寸的微型人形机器人,通常用于教育或特定研究。例如 Zeroth [24] 成本极低 (1.4K USD),但 DoFs 较少 (16)。NAOOP3 较为成熟,但 DoFs 仍不如 ToddlerBot,且通常不完全开源硬件。

核心公式补充: 在相关工作中,特别是在强化学习 (RL) 领域,PPO (Proximal Policy Optimization) 算法是一种常用的策略优化算法 (Policy Optimization Algorithm)。虽然论文中没有直接给出 PPO 的核心公式,但理解其原理对于理解 RL 训练部分至关重要。PPO 的核心在于优化一个代理目标函数 (Clipped Surrogate Objective Function),以在每次更新时限制策略 (Policy) 的变化量。

PPO代理目标函数 LCLIP(θ)L^{CLIP}(\theta) 可以表示为: LCLIP(θ)=E^t[min(rt(θ)A^t,clip(rt(θ),1ϵ,1+ϵ)A^t)] L^{CLIP}(\theta) = \hat{\mathbb{E}}_t \left[ \min\left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right] 其中:

  • θ\theta:当前策略 (Policy) 的参数。
  • E^t\hat{\mathbb{E}}_t:表示在智能体 (Agent) 与环境交互过程中收集的样本 (Samples) 上的期望 (Expectation) (即在批次 (Batch) 数据上的平均值)。
  • rt(θ)=πθ(atst)πθold(atst)r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}重要性采样比率 (Importance sampling ratio),表示当前策略 πθ\pi_\theta 在给定状态 sts_t 下采取动作 ata_t概率 (Probability) 与旧策略 πθold\pi_{\theta_{old}} 相比的比率 (Ratio)。
  • A^t\hat{A}_t优势函数估计 (Advantage function estimate),表示在状态 sts_t 下采取动作 ata_t 相对于平均水平的“好坏”程度。
  • clip(rt(θ),1ϵ,1+ϵ)\text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)裁剪函数 (Clipping function),将重要性采样比率 rt(θ)r_t(\theta) 裁剪到 [1ϵ,1+ϵ][1-\epsilon, 1+\epsilon] 的范围内。ϵ\epsilon 是一个超参数 (Hyperparameter),通常取 0.10.2
  • min(,)\min(\cdot, \cdot):取两个表达式中的较小值。第一个表达式是未经裁剪的优势函数 (Advantage function) 乘以比率,第二个表达式是裁剪后的比率乘以优势函数。这个操作确保了策略更新 (Policy updates) 不会偏离旧策略太远,从而提高训练的稳定性。

3.3. 技术演进

机器人领域的技术演进经历了从传统基于模型控制 (Model-based control) 到数据驱动学习型控制 (Data-driven learning-based control) 的转变。早期机器人设计注重机械精度和高载荷能力,但这些机器人通常需要复杂的运动规划 (Motion planning) 和控制算法 (Control algorithms) 来实现任务,且在未知或动态环境中表现不佳。

随着机器学习 (ML) 和计算能力 (Computational power) 的发展,学习型机器人 (Learning-based robotics) 成为主流。强化学习 (RL) 和模仿学习 (Imitation Learning) 等方法使得机器人能够从大量数据中学习复杂的运动技能和操作策略 (Policies)。这要求机器人平台能够:

  1. 高效收集数据: 无论是在仿真 (Simulation) 还是现实世界 (Real-world) 中。

  2. 支持策略执行: 能够搭载强大的计算单元 (Compute units) 并具有足够的自由度 (DoFs) 来执行学习到的复杂策略

  3. 快速迭代和复现: 成本低、易于维护和开源,以加速研究循环。

    ToddlerBot 正是在这种技术演进背景下诞生的,它试图弥补传统机器人平台在 ML 兼容性、可访问性和可复现性方面的不足,特别针对人形机器人的运动操作 (Loco-manipulation) 任务。

3.4. 差异化分析

ToddlerBot 与相关工作中的主要方法和平台相比,其核心区别和创新点在于以下几个方面:

  1. ML 兼容性优先:

    • 高保真数字孪生 (Digital Twin): 通过零点校准 (Zero-point calibration) 和全面的电机系统辨识 (Motor system identification) 管道 (Pipeline),实现了精确的模拟器 (Simulator) 模型,这是零样本模拟到现实迁移 (Zero-shot sim-to-real transfer) 的关键。许多现有机器人平台虽然有模拟器,但其保真度 (Fidelity) 往往不足以支持零样本迁移
    • 具身数据收集工具: 专门设计了直观的全身遥操作系统 (Whole-body teleoperation system),便于从人类演示中高效收集真实世界数据,这是 ML 训练中获取高质量监督信号的重要手段。而其他平台通常缺乏这种集成度高且用户友好的数据收集 (Data collection) 机制。
    • 板载计算能力: 搭载了 Jetson Orin NX,支持实时运行复杂的 ML 模型(如 300M 参数的扩散策略 (Diffusion Policy)),使得 ToddlerBot 能够执行基于视觉的闭环控制,这是小型机器人中较为先进的配置。
  2. DoFs 和能力:

    • 微型人形机器人中的高自由度 (DoFs): 尽管尺寸紧凑(0.56 米,3.4 千克),ToddlerBot 却拥有 30主动自由度 (Active DoFs),超过了大多数现有微型人形机器人(如 NAO23 个,Robotis OP320 个,Zeroth16 个,甚至 Berkeley Humanoid Lite22 个)。这使得 ToddlerBot 能够实现更复杂、更拟人化 (Anthropomorphic) 的全身运动操作 (Whole-body loco-manipulation) 技能。
    • 超人运动范围: 通过优化机械设计,ToddlerBot 在大多数关节上实现了接近甚至超越人类的运动范围,增强了其执行复杂动作的能力(如俯卧撑 (Push-ups) 和引体向上 (Pull-ups))。
  3. 可复现性与成本:

    • 低成本和开源: ToddlerBot 的总成本低于 6,000 美元,且设计完全开源(包括 3D 打印文件、软件、数字孪生模型和教程),这使其成为最易于访问的人形机器人平台之一。与昂贵的全尺寸工业级机器人(如 Digit250K 美元,Unitree H170K 美元,甚至 iCub300K 美元)形成鲜明对比,也比许多研究机构的机器人更具成本效益。
    • 易于组装和维护: 通过广泛使用 3D 打印部件和市售电机(Dynamixel),并提供详细的文档,使得非硬件背景的学生也能在短时间内独立完成组装和维护,大大降低了操作和维修的专业门槛。
  4. 功率因子 (Power Factor) 优化: 论文引入了功率因子 p~\tilde{p} 这一指标,以量化机器人的功率重量比。ToddlerBot功率因子设计使其接近人类水平,旨在实现“人类级别”的运动操作能力,而非盲目追求超高功率,从而平衡了性能与能效、安全性等因素。

    总而言之,ToddlerBot 的创新在于将ML 兼容性作为核心设计目标,通过一套完整的软件 (Software) 和硬件 (Hardware) 解决方案,为研究人员提供了一个低成本、易于复现、且功能强大的人形机器人平台,以加速数据驱动的机器人运动操作研究。

4. 方法论

ToddlerBot 的设计哲学围绕可复现性 (Reproducibility) 这一硬约束,同时将能力 (Capability) 和 ML 兼容性作为关键设计目标。

4.1. 可复现性 - 硬约束

论文将可复现性 (Reproducibility) 视为一个硬约束,定义为一个人可以在家中无需专业设备即可复制机器人系统。

4.1.1. 3D 打印设计

ToddlerBot 广泛使用3D 打印技术制造大部分结构部件。这是一种有意为之的设计选择,原因如下:

  • 可访问性和快速周转: 3D 打印技术普及,成本低,可以快速迭代和制造零件。
  • 强度与精度考量: 尽管 3D 打印塑料部件的强度和精度可能不如金属,但通过欧拉-伯努利梁弯曲理论 (Euler-Bernoulli beam bending theory) 分析,对于微型尺寸的部件,其相对挠度 (δ/L \delta/L ) 远小于全尺寸部件。 δ=PL33EI\delta = \frac{PL^3}{3EI} 其中:
    • δ\delta挠度 (Deflection)。
    • PP载荷 (Load)。
    • LL特征长度 (Characteristic length)。
    • EE材料弹性模量 (Material elastic modulus)。
    • IL4I \propto L^4截面二次矩 (Second moment of area)。 对 δ\delta 进行归一化,得到相对挠度: δLPL5/23EL4=P3EL3/2 \frac{\delta}{L} \propto \frac{PL^{5/2}}{3EL^4} = \frac{P}{3EL^{3/2}} 论文估计,对于微型机器人(较小的 LL),即使使用3D 打印材料(较小的 EE),也能提供与全尺寸铝制部件相当的强度。因此,使用金属部件虽然能增加强度,但会牺牲可复现性 (Reproducibility)。
  • 定制化与优化: 3D 打印使得定制化齿轮 (Gears) 成为可能,可以精确调整以实现最小齿隙 (Backlash)、精确传动 (Transmission) 和直接电机集成 (Motor integration),这是市售部件难以实现的。

4.1.2. 市售组件与成本控制

ToddlerBot 限制使用市售的电机 (Motors) 和轴承 (Bearings) 等关键性能部件。

  • 总成本: BOM (Bill of Materials) 成本低于 6,000 美元,其中 90% 用于计算单元 (NVIDIA Jetson) 和电机 (Robotis Dynamixel)。
  • 易于组装和维护: 通过优化设计,减少螺钉 (Screw) 类型,确保工具可达性,并采用模块化设计 (Modular design),使得部件可独立更换,显著提高了可维护性和维修简易性。

4.2. 能力 - 设计目标

4.2.1. 机电设计

如图 Figure 2 所示,ToddlerBot 复制了成人人体的结构,以最大化主动自由度 (Active DoFs),从而实现拟人化运动 (Human-like motion) 和多功能的运动操作 (Loco-manipulation) 任务。

Figure 2: Mechatronic Design. Orange markers highlights ToddlerBot's 30 active DoFs: 7 per arm, 6 per leg, a 2 on neck, and a 2 on waist. Green markers indicate two end-effector designs—a compliant palm and a parallel-jaw gripper. Purple markers denote the electronics layout with exploded views, featuring 2 fisheye cameras, 1 speaker, 2 microphones, 1 IMU, and 1 Jetson Orin computer.
该图像是图示图,展示了ToddlerBot的机械设计。图中标注了ToddlerBot的30个主动关节自由度(DoFs),包括手臂、腿部、颈部和腰部的各个关节,并显示了两种末端执行器设计,以及电子元件的布局和详细配置。

Figure 2: Mechatronic Design. Orange markers highlights ToddlerBot's 30 active DoFs: 7 per arm, 6 per leg, a 2 on neck, and a 2 on waist. Green markers indicate two end-effector designs—a compliant palm and a parallel-jaw gripper. Purple markers denote the electronics layout with exploded views, featuring 2 fisheye cameras, 1 speaker, 2 microphones, 1 IMU, and 1 Jetson Orin computer.

  • 手臂: 每只手臂有 7DoFs,采用正齿轮 (Spur gears) 进行轴对齐传动 (Axis-aligned transmission),确保高功能性和可达性。
  • 腿部: 每条腿有 6DoFs3 个位于髋关节 (Hip joint),用于大范围运动和优化行走步态;膝关节 (Knee joint) 采用平行连杆 (Parallel linkage) 以减少惯性 (Inertia);踝关节 (Ankle joint) 有 2DoFs,用于稳定运动。
  • 颈部: 拥有 2DoFs俯仰关节 (Pitch joint) 采用平行连杆以实现紧凑设计,提供富有表现力的运动和头部全方位移动能力。
  • 腰部: 也有 2DoFs,采用耦合锥齿轮 (Coupled bevel gears) 来平衡空间预算,并有效地从两个电机 (Motors) 传输动力,以实现偏航 (Yaw) 和翻滚 (Roll) 驱动 (Actuation),支持全身控制 (Whole-body control)。
  • 末端执行器: 提供两种设计方案——平行爪式夹持器 (Parallel-jaw gripper) 用于抓取,柔性手掌 (Compliant palm) 用于需要手掌姿态的任务。两种设计可在两分钟内快速切换。
  • 运动范围: 每个主动自由度 (Active DoF) 的运动范围都通过优化几何形状以防止自碰撞而最大化,实现了接近甚至超越人类的运动范围(如 Figure 6 所示)。
  • 传动机制: 针对空间限制、轴对齐和惯性减少等问题,集成了正齿轮 (Spur gears)、耦合锥齿轮 (Coupled bevel gears) 和平行连杆 (Parallel linkages) 三种传动机制 (Transmission mechanisms)。
    • 正齿轮 (Spur Gears):
      • 轴重新定位: 1:1 正齿轮组可以将关节轴 (Joint axis) 重新定位到更方便的平面位置,广泛用于 ToddlerBot 的手臂。
      • 扭矩修改: 具有传动比 (Ratioed) 的正齿轮组可以调整最终扭矩输出 (Torque output)。
      • 载荷分配: 对于电机 (Motor) 输出轴存在较大自由间隙 (Free play) 的情况(如 Dynamixel XC330),1:1 正齿轮组可以通过加强型副轴 (Reinforced secondary axis) 分担载荷,保护电机免受横向力 (Transverse forces) 影响。
    • 耦合锥齿轮 (Coupled Bevel Gears):
      • 轴旋转: 实现平行腰部机制 (Parallel waist mechanism),两个电机 (Motors) 在相同方向上驱动两个垂直的自由度 (DoFs)。
      • 组合扭矩输出: 每个轴上两个电机都贡献驱动扭矩 (Driving torque),提高功率和效率。
      • 紧凑驱动: 在空间受限的腰部,耦合锥齿轮组可以紧凑地集成两个自由度 (DoFs)。
    • 平行连杆 (Parallel Linkages):
      • 紧凑设计: 允许将电机 (Motor) 放置在远离关节轴 (Joint axis) 的位置(如膝盖和颈部俯仰 (Pitch) 关节),实现更简洁的设计。

      • 减少惯性: 膝盖电机 (Knee motor) 被放置在较高位置以减少旋转惯性 (Rotational inertia)。

      • 结构效率: 膝盖电机固定在3D 打印结构上,实现更好的载荷分配 (Load distribution)、增加刚性 (Rigidity) 和减少重量。

        Figure 7: Transmission Mechanisms. We show three design primitives in ToddlerBot's mechanical design: spur gears, coupled bevel gears, and parallel linkages. 该图像是图示,展示了ToddlerBot机械设计中的三种传动机制:齿轮(spur gears)、耦合斜齿轮(coupled bevel gears)和并行连杆(parallel linkages)。

Figure 7: Transmission Mechanisms. We show three design primitives in ToddlerBot's mechanical design: spur gears, coupled bevel gears, and parallel linkages.

4.2.2. 传感器、计算和电源

  • 传感器:
    • 摄像头: 两个鱼眼摄像头 (Fisheye cameras) 以扩大视野 (Field of view)。
    • IMU (Inertial Measurement Unit): 放置在胸部,提供状态反馈 (State feedback)。
    • 音频: 扬声器 (Speaker) 和麦克风 (Microphones) 促进与人和其他机器人的通信。
  • 计算: 板载计算 (Compute) 由 Jetson Orin NX 16GB 提供,支持 ML 模型的实时推理 (Inference)。
  • 电源: 采用Dynamixel 电机 (Motors) 因其可靠性和可访问性。电源管理 (Power management) 由定制设计的配电板 (Power distribution board) 处理。
    • 电源分配板 (Power distribution board) 设计: 如图 Figure 9 所示,包括四个 XT30 电源插头 (Power plugs)、一个紧急停止端子块 (E-stop terminal block)、七个 JST EH TTL 通信插座 (Communication outlets) 和两个 12V 降压转换器 (Step-down convertors)。电池提供 14-19V 输入,通过降压转换器调节至 12V 供给电机Jetson Orin NX 直接由 14-19V 供电,以防止意外关机导致数据丢失。

      Figure 9: Power Distribution. We show the power distribution board design, including four XT30 power plugs, an Estop terminal block, seven JST EH TTL communication outlets, and two 12V step-down convertors. 该图像是示意图,展示了电源分配板的设计,包括四个XT30电源插头、一个紧急停止端子块、七个JST EH TTL通信接口和两个12V降压转换器。

Figure 9: Power Distribution. We show the power distribution board design, including four XT30 power plugs, an Estop terminal block, seven JST EH TTL communication outlets, and two 12V step-down convertors.

4.2.3. 功率因子

为了定量评估人形机器人的能力,论文提出了功率因子 p~\tilde{p} 作为衡量标准。 功率因子 p~\tilde{p} 表示机器人能够产生的总扭矩(以及机械功率)相对于其重量和高度的比例。直观上,p~\tilde{p} 越高意味着人形机器人可以更容易地执行高能量、动态的动作。 论文认为,为了实现拟人化运动 (Human-like motion),p~\tilde{p} 至少应超过人类的阈值 (Threshold) p~human\tilde{p}_{\mathrm{human}}。然而,过高地提高 p~\tilde{p} 可能会带来负面影响,如不自然运动、对电机功率过度依赖、为容纳大电机而减少自由度 (DoFs)、电池寿命缩短以及安全问题增加。因此,追求功率因子存在一个实际的权衡。

首先,论文通过标准化性能指标 (Performance metrics) 来比较不同尺寸和重量的人形机器人。例如,比较跳跃高度占身体高度的百分比,或奔跑速度是身体长度的倍数。 当两个人形机器人在相同时间跨度 TT 内执行相同的关节运动序列 (Sequence of joint motions),并且它们的总功率消耗是其电机最大功率的相同分数 (Fraction) 时,认为它们具有相同的性能: 0Tp(t)dti=0Nτimaxq˙iΔhmgi=0Nτimaxq˙ihmgi=0Nτimaxq˙i \frac { \int _ { 0 } ^ { T } p ( t ) d t } { \sum _ { i = 0 } ^ { N } \left| \tau _ { i } ^ { \operatorname* { m a x } } \dot { q } _ { i } \right| } \approx \frac { \Delta h \cdot m g } { \sum _ { i = 0 } ^ { N } \left| \tau _ { i } ^ { \operatorname* { m a x } } \dot { q } _ { i } \right| } \approx \frac { h \cdot m g } { \sum _ { i = 0 } ^ { N } \left| \tau _ { i } ^ { \operatorname* { m a x } } \dot { q } _ { i } \right| } 其中:

  • p(t):人形机器人在时间 tt功率输出 (Power output)。

  • τimax\tau_i^{\max}:第 ii电机的最大扭矩 (Torque)。

  • q˙i\dot{q}_i:第 ii关节速度 (Velocity)。

  • NN电机总数。

  • 0Tp(t)dt\int_0^T p(t) dt:在时间 TT 内的功率输出积分,等价于机器人所做的功。

  • Δhmg\Delta h \cdot mg重力势能增益 (Gravitational energy gained),其中 Δh\Delta h 是高度变化, mm 是质量, gg 是重力加速度。

  • hmgh \cdot mg:由于 Δh\Delta h 大致与人形机器人的高度 hh 成正比,因此将其替换为 hh

    基于此,功率因子 p~\tilde{p} 定义为: p~=i=0Nτimaxhmg \tilde{p} = \frac { \sum _ { i = 0 } ^ { N } | \tau _ { i } ^ { \operatorname* { m a x } } | } { h \cdot m g } 其中:

  • i=0Nτimax\sum_{i=0}^N |\tau_i^{\max}|:所有电机最大扭矩的绝对值之和。

  • hh:人形机器人高度。

  • mm:人形机器人质量。

  • gg重力加速度 (Gravitational acceleration)。

    需要注意的是,该分数与 Equation 3 相反,以使功率因子值随着所用扭矩比 (Torque ratio) 的减小而增加。同时,省略了 q˙\dot{q},因为当比较人形机器人的性能时,假设执行的是相同的关节运动序列 (Sequence of joint motion)。

4.3. ML 兼容性 - 设计目标

4.3.1. 数字孪生

高保真的数字孪生 (Digital Twin) 是高质量模拟数据收集 (Simulation data collection) 和零样本模拟到现实迁移 (Zero-shot sim-to-real transfer) 的基础。数字孪生的开发分为两个关键部分:零点校准 (Zero-point calibration) 用于纠正运动学 (Kinematics),以及电机系统辨识 (Motor system identification) 用于精确动力学 (Dynamics)。

  • 零点校准 (Zero-point calibration): 由于 Dynamixel 电机 (Motors) 缺乏绝对零点 (Absolute zero point),在重新组装后需要可靠的校准方法。论文设计了一套校准装置 (Calibration devices),可以在一分钟内将机器人对齐到期望的零点 (Zero point)——即机器人以双臂平行于身体的姿态站立。 Figure 10 展示了零点校准过程中的 3D 打印装置,包括用于手臂、颈部、髋部和踝部的橙色、黄色、红色和米色部件。箭头指示插入方向,一旦装置卡入到位,零点即被固定。

    Figure 10: Zero-point Calibration. We 3D-print devices for the plug-and-play zero-point calibration procedure: orange for the arm, yellow for the neck, red for the hip, and beige for the ankle. Arrows indicate the insertion direction, and the zero-point is fixed once the devices click into place. 该图像是图示,展示了ToddlerBot的人形机器人结构,包括上半身(a)和下半身(b)。上半身有黄色和绿色的组件,下半身则有红色和米色的部分,箭头指示了各部分的插入方向。

Figure 10: Zero-point Calibration. We 3D-print devices for the plug-and-play zero-point calibration procedure: orange for the arm, yellow for the neck, red for the hip, and beige for the ankle. Arrows indicate the insertion direction, and the zero-point is fixed once the devices click into place.

  • 电机系统辨识 (Motor system identification): 为了精确的系统辨识 (SysID),论文设计了一个电机测试台 (Motor test bed) 和自动化测试程序。
    • 测试台设计: 如图 Figure 11 所示,测试电机 (Motor) 通过蓝灰色快速连接轴 (Quick-connect shaft) 安装,直接连接到扭矩传感器 (Torque sensor)。侧面的辅助电机提供主动驱动扭矩 (Active driving torque),后部的粉末制动器 (Powder brake) 提供高达 5 N·m 的可控阻力。左侧的控制器 MCU 处理扭矩传感 (Torque sensing)、制动驱动 (Brake actuation) 和与驱动电机CAN 通信 (Communication)。

      Figure 11: Motor Test Stand. We show a photo of the assembled motor test stand. The test motor is mounted via the blue-grey quick-connect shaft, which is directly coupled to a torque sensor. A secondary motor on the side provides active driving torque, while a powder brake at the rear offers up to \(5 \\mathrm { N m }\) of controllable resistance. On the left, a controller MCU handles torque sensing, brake actuation, and CAN communication with the driving motor. 该图像是图11所示的电机测试台的照片。测试电机通过蓝灰色快速连接轴安装,直接与扭矩传感器相连。侧面的辅助电机提供主动驱动扭矩,后方的粉末刹车可提供最高 5 ext{ N m} 的可控阻力。左侧的控制器MCU负责扭矩感测、刹车驱动及与驱动电机的CAN通信。

Figure 11: Motor Test Stand. We show a photo of the assembled motor test stand. The test motor is mounted via the blue-grey quick-connect shaft, which is directly coupled to a torque sensor. A secondary motor on the side provides active driving torque, while a powder brake at the rear offers up to 5mathrmNm5 \\mathrm { N m } of controllable resistance. On the left, a controller MCU handles torque sensing, brake actuation, and CAN communication with the driving motor.

*   **参数测量:** `MuJoCo/MJX` 使用简化`执行器特性` (Actuator characteristics),主要包括三个值:`摩擦损耗` (Friction loss)、`阻尼` (Damping) 和`电枢` (Armature)。
    *   `摩擦损耗` τf\tau_f:`执行器` (Actuator) 开始运动所需的最小`扭矩` (Torque),单位为 `N·m`。
    *   `阻尼` dd:`回驱动阻力` (Backdrive resistance) 随速度增加的速率,单位为 Nms/radN·m·s/rad。
    *   `电枢` II:有效`转子惯性` (Rotor inertia),考虑了`减速器` (Gearbox),单位为 kgm2kg·m^2。
        `MuJoCo` 模型中`执行器阻力` (Actuator resistance) 公式为:
    τr=τf+dq˙
        \pmb{\tau}_r = \pmb{\tau}_f + \mathbf{d} \cdot \dot{\mathbf{q}}
        
    其中:
    *   τr\pmb{\tau}_r:`执行器阻力` (Actuator resistance)。
    *   τf\pmb{\tau}_f:`摩擦损耗` (Friction loss)。
    *   d\mathbf{d}:`阻尼` (Damping)。
    *   q˙\dot{\mathbf{q}}:`关节速度` (Joint velocity)。
        通过在恒定 `RPM` (每分钟转数) 下`反向驱动` (Backdriving) `电机`并记录`阻力扭矩` (Resisting torque) 来测量`阻尼`和`摩擦损耗`。`扭矩-速度`数据的`线性拟合` (Linear fit) 可以得出`摩擦损耗`(`0 RPM` 时的截距)和`阻尼`(斜率)。
    *   **电枢惯量估计:** 为估计`电枢惯量` (Armature inertia),让`执行器` (Actuator) 自由旋转,然后切断`电机`电源,观察`滑行` (Spin-down) 行为。使用已测量的`阻尼值` (Damping values),对`阻力功率` (Resistance power) 进行数值积分以估计初始存储能量 EE。`电枢惯量` II 则通过以下公式计算:
        E=12Iω2    I=2Eω2
        E = \frac{1}{2} I \cdot \omega^2 \quad \implies \quad I = \frac{2E}{\omega^2}
        
    其中:
    *   EE:初始存储能量。
    *   II:`电枢惯量` (Armature inertia)。
    *   ω\omega:初始`角速度` (Angular velocity)。
  • 执行器模型 (Actuation Model): PD (Proportional-Derivative) 位置控制方程 (Position control equation) 计算如下: τm=kp(q^q)(kdmin+kd)q˙ \pmb{\tau}_m = \mathbf{k}_p (\hat{\mathbf{q}} - \mathbf{q}) - (\mathbf{k}_d^{\min} + \mathbf{k}_d) \dot{\mathbf{q}} 其中:
    • τm\pmb{\tau}_m电机产生的扭矩 (Torque)。

    • kp\mathbf{k}_p比例增益 (Proportional gain)。

    • kd\mathbf{k}_d微分增益 (Derivative gain)。

    • q^\hat{\mathbf{q}}关节设定点 (Joint setpoint)。

    • q\mathbf{q}关节位置 (Joint position)。

    • q˙\dot{\mathbf{q}}关节速度 (Joint velocity)。

    • kdmin\mathbf{k}_d^{\min}:论文中观察到,即使 kd=0\mathbf{k}_d = 0电机 (Motor) 通电时也会有显著的额外阻尼 (Damping)。这个效应被建模为 kdmin\mathbf{k}_d^{\min},它在电机激活时存在,并应遵守扭矩限制 (Torque limits)。

      电机扭矩限制 (Motor torque limit) τlimit\tau_{\mathrm{limit}}速度 (Velocity) 变化: τlimit={τmax,q˙q˙τmaxq˙maxq˙q˙maxq˙τmaxτmax,q˙τmax<q˙q˙max0,q˙>q˙max \tau_{\mathrm{limit}} = \left\{ \begin{array}{ll} \tau_{\max}, & |\dot{\mathbf{q}}| \leq \dot{\mathbf{q}}_{\tau_{\max}} \\ \frac{\dot{\mathbf{q}}_{\max} - |\dot{\mathbf{q}}|}{\dot{\mathbf{q}}_{\max} - \dot{\mathbf{q}}_{\tau_{\max}}} \cdot \tau_{\max}, & \dot{\mathbf{q}}_{\tau_{\max}} < |\dot{\mathbf{q}}| \leq \dot{\mathbf{q}}_{\max} \\ 0, & |\dot{\mathbf{q}}| > \dot{\mathbf{q}}_{\max} \end{array} \right. 其中:

    • τlimit\tau_{\mathrm{limit}}扭矩限制 (Torque limit)。

    • τmax\tau_{\max}:最大扭矩 (Torque limit),对于低速度 (Velocity) 为常数。

    • q˙τmax\dot{\mathbf{q}}_{\tau_{\max}}扭矩开始线性减小的速度阈值 (Velocity threshold)。

    • q˙max\dot{\mathbf{q}}_{\max}:最大速度 (Max velocity),此时扭矩限制为零。 需要注意的是,τlimit\tau_{\mathrm{limit}} 是最大加速扭矩 (Acceleration torque),而最大减速扭矩 (Deceleration torque) 假定为常数 τbrake\tau_{\mathrm{brake}}。论文将制动扭矩限制 (Braking torque limit) 分开考虑,因为电机 (Motor) 通常由于被动阻力 (Passive resistance) 和减速器效率 (Gearbox inefficiencies) 而提供更高的制动扭矩MuJoCo关节被动力模型 (Joint passive force model) 的关节扭矩 (Joint torque) τ\tau 计算公式如下: τ={clamp[τmax,τbrakel](τm)τr,q˙0clamp[τbrake,τmax](τm)+τr,q˙<0 \tau = \left\{ \begin{array}{ll} \mathrm{clamp}_{[-\tau_{\max}, \tau_{\mathrm{brake}l}]}(\pmb{\tau}_m) - \tau_r, & \dot{\mathbf{q}} \geq 0 \\ \mathrm{clamp}_{[-\tau_{\mathrm{brake}}, \pmb{\tau}_{\max}]}(\pmb{\tau}_m) + \tau_r, & \dot{\mathbf{q}} < 0 \end{array} \right. 其中:

    • clamp[a,b](x)\mathrm{clamp}_{[a, b]}(x):将 xx 限制在 [a, b] 范围内。

    • τr\tau_r执行器阻力 (Actuator resistance),由阻尼 (Damping)、电枢 (Armature) 和摩擦损耗 (Friction loss) 参数表征。 Figure 12 展示了 Dynamixel XC330扭矩限制 τlimit\tau_{\mathrm{limit}}关节速度 q˙\dot{\mathbf{q}} 之间的关系。

      Figure 12: The relationship between torque limit \(\\tau _ { \\mathrm { l i m i t } }\) and joint velocity \(\\dot { \\mathrm { ~ \\textq ~ } }\) for Dynamixel XC330. 该图像是一个图表,展示了Dynamixel XC330电机的扭矩限制τlimit\tau_{\mathrm{limit}}与关节速度q˙\dot{q}之间的关系。图中蓝色曲线代表扭矩上限,黄色曲线代表扭矩下限,纵轴为扭矩(单位:N·m),横轴为关节速度(单位:rad/s)。图表中指出了扭矩的不同阈值,包括τbrake\tau_{\mathrm{brake}}τmin\tau_{\mathrm{min}}

Figure 12: The relationship between torque limit τlimit\tau_{\mathrm{limit}} and joint velocity q˙\dot{q} for Dynamixel XC330.

通过优化`执行器模型` (Actuator model) 中的所有参数(包括 τmax\tau_{\max}q˙τmax\dot{\mathbf{q}}_{\tau_{\max}}τq˙max\tau_{\dot{\mathbf{q}}_{\max}}q˙max\dot{\mathbf{q}}_{\max}kdmin\mathbf{k}_d^{\min}τbrake\tau_{\mathrm{brake}}),使`模拟` (Simulation) 与`现实` (Real) 之间的`跟踪误差` (Tracking error) 最小化。最终`模拟` (Simulation) 实现了 `1.3°` 的平均`跟踪误差`。

4.3.2. 遥操作系统

论文开发了一个第二套ToddlerBot上半身 (Second upper body of ToddlerBot) 作为主导臂 (Leader arms) 来收集高质量的真实世界数据。

  • 交互方式: 末端执行器 (End effectors) 的抓取区域 (Gripping area) 内嵌有两个力敏电阻 (Force-Sensitive Resistors, FSRs),用于检测操作员的压缩力 (Compression force),从而根据力输入 (Force input) 控制夹持器 (Gripper) 的移动。
  • 全身控制: 使用手持游戏电脑 (Handheld gaming computer)(如 Steam DeckROG Ally X)控制其他身体部位。
    • 摇杆 (Joysticks) 发送速度命令 (Velocity commands) 以进行行走、转向和下蹲。

    • 按钮 (Buttons) 触发预编程 (Programmed) 或训练好的策略 (Trained policies),并直接控制颈部和腰部的运动。 Figure 13 展示了 ROG Ally X 上的远程控制器布局 (Remote Controller Layout),Table 4 详细说明了按钮和轴的映射。

      Figure 13: Remote Controller Layout. We show the button and axis layout on ROG Ally X. 该图像是一个示意图,展示了ROG Ally X上的遥控器布局。图中标出了各个按钮及摇杆的位置,包括左摇杆、右摇杆、方向键及其他控制项。该布局设计旨在优化机器人观察和操作的用户体验。

Figure 13: Remote Controller Layout. We show the button and axis layout on ROG Ally X.

4.4. 系统控制

4.4.1. 关键帧动画

关键帧动画 (Keyframe animation) 广泛用于角色动画 (Character animation),但通常只提供运动学数据 (Kinematics data),缺乏动态可行性 (Dynamic feasibility) 保证。

  • 解决方案: 论文开发了一个工具,将 MuJoCo图形用户界面 (GUI) 集成,允许实时调整和验证关键帧运动轨迹 (Keyframe motion trajectories)。
  • 零样本模拟到现实迁移: 结合高保真的数字孪生 (Digital Twin),可以高效地生成开环轨迹 (Open-loop trajectories),例如拥抱、俯卧撑 (Push-ups) 和引体向上 (Pull-ups),这些轨迹可以在真实世界中零样本 (Zero-shot) 执行。

4.4.2. 强化学习

对于行走任务,训练了一个强化学习 (Reinforcement Learning, RL) 策略 (Policy) π(atst)\pi(\mathbf{a}_t | \mathbf{s}_t),该策略 (Policy) 输出 at\mathbf{a}_t 作为 PD 控制器关节位置设定点 (Joint position setpoints),基于可观测状态 (State) st\mathbf{s}_tst=(ϕt,ct,Δqt,q˙t,at1,θt,ωt) \mathbf{s}_t = (\phi_t, \mathbf{c}_t, \Delta\mathbf{q}_t, \dot{\mathbf{q}}_t, \mathbf{a}_{t-1}, \theta_t, \omega_t) 其中:

  • ϕt\phi_t相位信号 (Phase signal)。

  • ct\mathbf{c}_t速度命令 (Velocity commands)。

  • Δqt\Delta\mathbf{q}_t:相对于中立姿态 (Neutral pose) q0\mathbf{q}_0位置偏移 (Position offset)。

  • q˙t\dot{\mathbf{q}}_t关节速度 (Joint velocity)。

  • at1\mathbf{a}_{t-1}:前一个时间步 (Time step) 的动作 (Action)。

  • θt\theta_t躯干姿态 (Torso orientation)。

  • ωt\omega_t躯干角速度 (Torso's angular velocity)。

    PPO 策略训练 (Policy training) 期间,环境生成下一个状态 st+1\mathbf{s}_{t+1},更新相位信号 (Phase signal),并返回一个标量奖励 (Scalar reward) r_t = r(s_t, a_t, s_{t+1}, \phi_t, c_t)奖励 (Reward) 被分解为: rt=rtimitation+rtregularization+rtsurvival r_t = r_t^{\mathrm{imitation}} + r_t^{\mathrm{regularization}} + r_t^{\mathrm{survival}} 其中:

  • rtimitationr_t^{\mathrm{imitation}}:鼓励准确模仿参考行走运动 (Reference walking motion),该运动通过闭式 ZMP (Zero Moment Point) 生成。

  • rtregularizationr_t^{\mathrm{regularization}}:包含理想行走运动 (Walking motion) 的启发式规则 (Heuristics),惩罚关节扭矩 (Joint torques) 并促进平滑动作 (Actions) 以最小化不必要的运动。

  • rtsurvivalr_t^{\mathrm{survival}}:在训练期间防止早期回合终止 (Early episode termination)。

4.4.3. 模仿学习

真实世界数据收集 (Real-world data collection) 涉及人类操作员引导主导臂 (Leader's arms) 遥控 (Teleoperate) 跟随臂 (Follower's arms),同时使用手持游戏控制器 (Handheld game controller) 上的摇杆 (Joystick) 和按钮 (Buttons) 控制身体运动。

  • 数据收集过程:上半身 (Upper body) 跟踪主导臂 (Leader arms) 的位置命令 (Position commands) 时,ToddlerBot下半身 (Lower body) 采用两层 PD 控制器 (Two-layer PD controller) 主动维持平衡 (Balance)。
    • 第一层:质心 (CoM) PD 控制器 保持质心 (CoM) 靠近支撑多边形 (Support polygon) 的中心,解决手臂运动引起的质心 (CoM) 偏移。
    • 第二层:躯干俯仰 (Torso Pitch) PD 控制器 使用 IMU 读数 (Readings) 确保躯干 (Torso) 保持直立,补偿举起重物 (Lifting heavy objects) 时的影响。
  • 数据量和效率: 这种设置可以在 20 分钟内收集 60轨迹 (Trajectories),用于双手操作 (Bimanual) 和全身操作 (Full-body manipulation) 任务。
  • 数据记录: 主导臂 (Leader's arms) 的电机位置 (Motor positions) 被记录为动作 (Actions),而跟随机器人 (Follower robot) 的电机位置 (Motor positions) 及其摄像头 (Camera) 捕获的 RGB 图像 (Images) 被记录为观测 (Observations)。
  • 策略训练: 使用该数据集 (Dataset) 训练扩散策略 (Diffusion policy)。

5. 实验设置

5.1. 数据集

论文中提到了用于强化学习 (RL) 和模仿学习 (Imitation Learning) 的数据收集方法,但并未明确提及使用预存在的公共数据集 (Dataset)。相反,ToddlerBot 的核心设计目标之一就是作为数据收集平台 (Data collection platform)。

  • 强化学习数据:

    • 来源:MuJoCo/MJX 模拟环境中通过 PPO 算法训练获得。
    • 特点: 模拟数据 (Simulation data) 旨在通过系统辨识 (SysID) 实现高保真,以支持零样本模拟到现实迁移 (Zero-shot sim-to-real transfer)。奖励函数包含模仿项 (Imitation term)、正则化项 (Regularization term) 和生存项 (Survival term)。
    • 样本示例: 训练行走策略 (Walking policies) 以跟随预定义的速度曲线(如方形轨迹)。
  • 模仿学习数据:

    • 来源: 通过全身遥操作系统 (Whole-body teleoperation system) 从人类演示中在真实世界收集。
    • 特点: 高质量真实世界数据 (High-quality real-world data),用于训练视觉运动策略 (Visuomotor policies)。在数据收集过程中,ToddlerBot下半身 (Lower body) 使用两层 PD 控制器 (Two-layer PD controller) 维持平衡 (Balance),即使上半身 (Upper body) 在执行操作。
    • 样本示例: 双手操作 (Bimanual manipulation) 和全身操作 (Full-body manipulation) 任务,例如将章鱼玩具从桌子和地面转移到手推车。在 20 分钟内收集了 60轨迹 (Trajectories)。

5.2. 评估指标

论文使用了多种评估指标来衡量 ToddlerBot 的能力和 ML 兼容性。

5.2.1. 能力评估指标

  1. 臂展 (Arm Span):

    • 概念定义: 臂展 (Arm span) 衡量机器人手臂能够达到的最大范围,通常以其能够抓取或拥抱的最大物体尺寸来表示。这反映了机器人手臂的自由度 (DoFs)、连杆长度 (Link lengths) 和关节运动范围 (Joint range of motion) 的组合能力。
    • 数学公式: 该指标通常没有标准化的数学公式,而是通过测量机器人能够抓取的物体尺寸(例如,长、宽、高)来定性或定量描述。
    • 符号解释: 无特定符号。
    • 论文中的用法: 用能够抓取或拥抱的物体尺寸 (27×24×31cm327 × 24 × 31 cm^3) 来衡量。
  2. 有效载荷 (Payload):

    • 概念定义: 有效载荷 (Payload) 衡量机器人在不影响其稳定性和功能性的前提下,能够举起或携带的最大重量。这反映了机器人执行器 (Actuators) 的扭矩 (Torque) 能力、结构强度以及平衡控制 (Balance control) 的有效性。
    • 数学公式: 该指标通常没有标准化的数学公式,而是直接测量机器人能够举起的最大质量。
    • 符号解释: 无特定符号。
    • 论文中的用法: 用机器人能够举起的最大重量 (1484 g) 来衡量,并与机器人自身重量 (3484 g) 进行对比。
  3. 耐力 (Endurance):

    • 概念定义: 耐力 (Endurance) 衡量机器人在电池耗尽或部件失效前,能够持续执行任务的最长时间。这反映了机器人的能源效率 (Energy efficiency)、电池容量 (Battery capacity) 和机械可靠性 (Mechanical reliability)。
    • 数学公式: 该指标通常没有标准化的数学公式,而是测量连续运行的时间。
    • 符号解释: 无特定符号。
    • 论文中的用法: 用机器人不摔倒的最长持续行走时间 (19 分钟) 来衡量,并提及电池的总续航时间 (2 小时)。
  4. 维修时间 (Repair Time):

    • 概念定义: 维修时间 (Repair time) 衡量机器人部件损坏后,修复并使其恢复正常功能所需的时间。这反映了机器人的模块化设计 (Modular design)、可访问性 (Accessibility) 和易于维护 (Ease of maintenance) 的程度。
    • 数学公式: 该指标通常没有标准化的数学公式,而是测量修复所需的时间(包括3D 打印和组装时间)。
    • 符号解释: 无特定符号。
    • 论文中的用法:21 分钟 3D 打印和 14 分钟组装 (总计 35 分钟) 来衡量。
  5. 成功率 (Success Rate):

    • 概念定义: 成功率 (Success rate) 衡量机器人在多次尝试中成功完成特定任务的比例。这是评估策略 (Policy) 鲁棒性和任务执行可靠性的直接指标。
    • 数学公式: 成功率=成功尝试次数总尝试次数×100% \text{成功率} = \frac{\text{成功尝试次数}}{\text{总尝试次数}} \times 100\%
    • 符号解释:
      • 成功尝试次数:机器人成功完成任务的次数。
      • 总尝试次数:机器人尝试执行任务的总次数。
    • 论文中的用法:20 次测试中,双手操作 (Bimanual manipulation) 的成功率为 90%全身操作 (Full-body manipulation) 的成功率为 75%
  6. 功率因子 (Power Factor) p~\tilde{p}

    • 概念定义: 功率因子 (Power factor) 是论文提出的一种定量评估人形机器人功率-重量比 (Power-to-weight ratio) 的指标,表示机器人能够产生的总扭矩 (Torque) 相对于其重量和高度的比例。它旨在衡量机器人的动态运动能力。
    • 数学公式: p~=i=0Nτimaxhmg \tilde{p} = \frac { \sum _ { i = 0 } ^ { N } | \tau _ { i } ^ { \operatorname* { m a x } } | } { h \cdot m g }
    • 符号解释:
      • p~\tilde{p}功率因子 (Power factor)。
      • NN电机 (Motor) 总数。
      • τimax\tau_i^{\max}:第 ii电机 (Motor) 的最大扭矩 (Torque)。
      • hh:人形机器人高度。
      • mm:人形机器人质量。
      • gg重力加速度 (Gravitational acceleration)。
    • 论文中的用法: 用于比较 ToddlerBot 与其他人形机器人的潜在运动操作能力。

5.2.2. ML 兼容性评估指标

  1. 位置跟踪误差 (Position Tracking Error):

    • 概念定义: 位置跟踪误差 (Position tracking error) 衡量机器人在执行行走策略 (Walking policy) 时,其实际位置与期望轨迹位置之间的偏差。它反映了模拟到现实迁移 (Sim-to-Real transfer) 的保真度 (Fidelity) 和策略 (Policy) 的精确性。
    • 数学公式: 通常通过测量欧几里得距离 (Euclidean distance) 或均方误差 (Mean squared error) 来量化。论文中使用了误差方差 (Error variance)。 方差=1Mj=1M(preal,jpcommand,j)2 \text{方差} = \frac{1}{M} \sum_{j=1}^{M} (p_{real,j} - p_{command,j})^2
    • 符号解释:
      • MM:测量点数量。
      • preal,jp_{real,j}:第 jj 个时间步的实际位置。
      • pcommand,jp_{command,j}:第 jj 个时间步的命令位置。
    • 论文中的用法: 报告了 0.018 m位置跟踪误差方差 (Position tracking error variance),表示良好的可复现性。
  2. 线性速度跟踪误差 (Linear Velocity Tracking Error):

    • 概念定义: 线性速度跟踪误差 (Linear velocity tracking error) 衡量机器人在执行行走策略 (Walking policy) 时,其实际线性速度 (Linear velocity) 与期望线性速度之间的偏差。
    • 数学公式: 通常通过均方误差 (Mean squared error) 或平均绝对误差 (Mean absolute error) 来量化。
    • 符号解释: 无特定符号。
    • 论文中的用法: 报告了模拟 (0.016m/s0.016 m/s) 和真实世界 (0.032±0.002m/s0.032 ± 0.002 m/s) 的线性速度误差。
  3. 角速度跟踪误差 (Angular Velocity Tracking Error):

    • 概念定义: 角速度跟踪误差 (Angular velocity tracking error) 衡量机器人在执行行走策略 (Walking policy) 时,其实际角速度 (Angular velocity) 与期望角速度之间的偏差。
    • 数学公式: 通常通过均方误差 (Mean squared error) 或平均绝对误差 (Mean absolute error) 来量化。
    • 符号解释: 无特定符号。
    • 论文中的用法: 报告了模拟 (0.056rad/s0.056 rad/s) 和真实世界 (0.113±0.010rad/s0.113 ± 0.010 rad/s) 的角速度误差。
  4. 推理延迟 (Inference Latency):

    • 概念定义: 推理延迟 (Inference latency) 衡量机器学习模型 (Machine learning model) 从接收输入到生成输出所需的时间。在机器人控制中,低的推理延迟对于实时、响应式行为至关重要。
    • 数学公式: 通常以时间单位(如毫秒)直接测量。
    • 符号解释: 无特定符号。
    • 论文中的用法: 300M 参数的扩散策略 (Diffusion policy) 在 Jetson Orin NX 上的推理延迟低于 0.1 秒 (100 ms)。

5.3. 对比基线

实验 (Experiments) 部分,ToddlerBot 的性能主要通过与自身在不同任务中的表现进行对比,以及通过与其他人形机器人的定性 (Qualitative) 和定量 (Quantitative) 比较来突出其优势。

  1. 与自身能力极限的对比:

    • 臂展 (Arm span)、有效载荷 (Payload) 和耐力 (Endurance) 测试:这些测试通过量化ToddlerBot 能抓取多大物体、能举起多重物体以及能持续工作多久来评估其物理极限。
    • 俯卧撑 (Push-ups) 和引体向上 (Pull-ups):这些任务展示了ToddlerBot开环运动 (Open-loop motions) 和零样本模拟到现实迁移 (Zero-shot sim-to-real transfer) 下的表达性 (Expressive) 和动态动作 (Dynamic motions) 能力。
  2. 模拟 (Simulation) 与现实世界 (Real-World) 的对比:

    • 全向行走 (Omnidirectional Walking):通过比较强化学习 (RL) 行走策略 (Walking policies) 在模拟 (Simulation) 和真实世界 (Real-world) 中方形轨迹 (Square trajectory) 的跟踪误差 (Tracking error),验证数字孪生 (Digital Twin) 的保真度 (Fidelity) 和零样本模拟到现实迁移 (Zero-shot sim-to-real transfer) 的成功。
  3. 模仿学习 (Imitation Learning) 策略 (Policy) 性能:

    • 视觉操作 (Vision-based Manipulation) (例如,双手操作 (Bimanual manipulation) 和全身操作 (Full-body manipulation)):通过报告在 20 次测试中的成功率 (Success rate) 来评估基于扩散策略 (Diffusion policy) 的模仿学习 (Imitation learning) 效果。
  4. 硬件可复现性 (Reproducibility) 对比:

    • 独立复制 (Independent Replication):通过非硬件背景学生的成功组装和全球团队的复现结果,与通常需要专业工程师团队才能操作和维护的商业或研究平台形成对比,突出其易于构建和维护的特点。
    • 策略 (Policy) 可复现性:在两个独立的 ToddlerBot 实例之间迁移 (Transfer) 操作策略 (Manipulation policies) 和 RL 行走策略 (Walking policies),并实现相同的成功率,证明了硬件和数字孪生 (Digital Twin) 的高保真度 (High fidelity)。
  5. 长周期协作 (Long-Horizon Collaboration) 场景:

    • 两个 ToddlerBot 实例(AryaToddy)协作整理玩具,展示了平台在复杂、多步骤任务和多机器人协作 (Multi-robot collaboration) 中的潜力,这通常是更高级人形机器人的应用场景。

      虽然论文没有直接与特定基线模型 (Baseline models) 进行算法性能的数值比较,但它通过这些能力 (Capability)、ML 兼容性和可复现性 (Reproducibility) 实验,间接表明了 ToddlerBot 在提供可访问、功能强大且易于使用的学习型机器人 (Learning-based robotics) 平台方面的独特优势,尤其是在微型人形机器人领域,其 30自由度 (DoFs) 显著超越了许多同类产品(如 Table 1 所示)。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 能力:臂展、有效载荷和耐力

  • 臂展 (Arm Span): ToddlerBot 能够抓取或拥抱最大尺寸为 27×24×31cm327 × 24 × 31 cm^3 的物体,这大约是其躯干体积 (Torso volume) 的 14 倍。这表明它具有出色的抓取范围 (Grasping range),即使体积紧凑,也能与相对较大的物体进行交互。
  • 有效载荷 (Payload): ToddlerBot 成功举起了 1484 g 的重量,相当于其总重量 (3484 g) 的 40%。这展示了其上半身 (Upper body) 强大的提升能力 (Lifting capacity) 和下半身 (Lower body) 卓越的平衡维持能力 (Balance maintenance ability)。
  • 耐力 (Endurance):原地行走 (Stepping in place) 的强化学习 (RL) 策略 (Policy) 下,ToddlerBot 最长连续运行 19 分钟而未摔倒。随着时间推移,电机温度 (Motor temperatures) 升高导致其超出策略 (Policy) 的训练分布 (Training distribution),摔倒频率增加。
    • 韧性与可维修性: ToddlerBot 能够承受 7 次摔倒而未损坏。即使发生损坏,修复也很快:仅需 21 分钟的 3D 打印和 14 分钟的组装(包括拆卸、安装和零点校准 (Zero-point calibration)),总计 35 分钟,这凸显了其模块化 (Modularity) 和易于维修 (Ease of repair) 的设计优势。电池续航在实际研究环境中可达 3-5 小时,比许多现有微型人形机器人更长。

      以下是原文 Figure 3 的结果:

      Figure 3: Arm Span, Payload, and Trajectory Tracking. On the left, we show that with a torso dimension of \(1 3 \\times 9 \\times 1 2 \\mathrm { c m ^ { 3 } }\) , ToddlerBot can grasp objects up to \(2 7 \\times 2 4 \\times 3 1 \\mathrm { c m } ^ { 3 }\) , about 14 times the torso size. Additionally, ToddlerBot can lift weights up to \(\\mathrm { 1 4 8 4 ~ g }\) ,which is \(40 \\%\) of its body weight \(\\mathrm { ( 3 4 8 4 ~ g ) }\) . On the right, we present ten consecutive real-world rollouts of an RL walking policy tracking a square trajectory with a predefined velocity profile. Both raw and smoothed linear and angular velocity tracking are displayed, with real-world results averaged across trials. 该图像是图表,展示了ToddlerBot的抓取能力和轨迹跟踪性能。左侧显示ToddlerBot能够抓取的最大物体尺寸(27×24×31cm327 \times 24 \times 31 \, \text{cm}^3)与最大负载重量(1484g1484 \, \text{g}),该重量占其自身体重的40%。右侧为十次连续的实际环境中的强化学习行走策略的轨迹,该策略以预定义速度跟踪正方形轨迹,包括原始及平滑的线性和角速度追踪结果。

Figure 3: Arm Span, Payload, and Trajectory Tracking. On the left, we show that with a torso dimension of 13times9times12mathrmcm31 3 \\times 9 \\times 1 2 \\mathrm { c m ^ { 3 } } , ToddlerBot can grasp objects up to 27times24times31mathrmcm32 7 \\times 2 4 \\times 3 1 \\mathrm { c m } ^ { 3 } , about 14 times the torso size. Additionally, ToddlerBot can lift weights up to mathrm1484 g\\mathrm { 1484 ~ g } ,which is 4040 \\% of its body weight mathrm(3484 g)\\mathrm { ( 3484 ~ g ) } . On the right, we present ten consecutive real-world rollouts of an RL walking policy tracking a square trajectory with a predefined velocity profile. Both raw and smoothed linear and angular velocity tracking are displayed, with real-world results averaged across trials.

6.1.2. 能力:俯卧撑和引体向上

ToddlerBot 通过关键帧软件 (Keyframe software) 编程俯卧撑 (Push-ups) 和引体向上 (Pull-ups),并成功进行零样本模拟到现实迁移 (Zero-shot sim-to-real transfer)。

  • 复杂动作: 这两项任务都要求强大的四肢力量、上下身的平衡协调以及精确的配合,尤其是在俯卧撑后从平板姿势 (Planking pose) 站立起来,以及引体向上后释放单杠 (Horizontal bar) 落地时。

  • 数字孪生验证: 仅需在模拟 (Simulation) 中设计单个运动轨迹 (Motion trajectory) 即可实现开环迁移 (Open-loop transfers),这有力地证明了数字孪生 (Digital Twin) 的高保真度 (Fidelity)。

    以下是原文 Figure 4 的结果:

    Figure 4: Experiment Results. We present four different tasks: push-up, pull-up, bimanual, and full-body manipulation, showing ToddlerBot's capability in challenging loco-manipulation tasks. 该图像是实验结果展示图,展示了ToddlerBot在四个不同任务中的表现,包括俯卧撑、引体向上、双手操作和全身操作,展示了其在挑战性运动操作任务中的能力。

Figure 4: Experiment Results. We present four different tasks: push-up, pull-up, bimanual, and full-body manipulation, showing ToddlerBot's capability in challenging loco-manipulation tasks.

6.1.3. ML 兼容性:全向行走

  • 强化学习行走策略: 训练强化学习 (RL) 行走策略 (Walking policies) 以跟踪具有预定义速度曲线 (Velocity profile) 的方形轨迹 (Square trajectory)。
  • 零样本模拟到现实迁移: 模拟 (Simulation) 与真实世界 (Real-world) 之间的跟踪差距 (Tracking gap) 显著小于策略 (Policy) 与命令 (Command) 之间的跟踪差距 (Tracking gap),证实了零样本模拟到现实迁移 (Zero-shot sim-to-real transfer) 的成功。
  • 跟踪精度: 位置跟踪误差方差 (Position tracking error variance) 为 0.018 m,显示出良好的可重复性 (Repeatability)。

6.1.4. ML 兼容性:基于视觉的操作

  • 任务: 双手操作 (Bimanual manipulation) 和全身操作 (Full-body manipulation) 任务,例如将章鱼玩具从桌子和地面转移到手推车。
  • 策略: 使用基于 RGB 图像 (Images) 的扩散策略 (Diffusion policy) 训练,利用 60演示 (Demonstrations)。
  • 成功率: 双手操作 (Bimanual manipulation) 成功率为 90%全身操作 (Full-body manipulation) 成功率为 75% (在 20 次测试中)。
  • 计算性能: ToddlerBot 的板载计算单元 (Onboard computing) 运行一个 300M 参数的扩散策略 (Diffusion policy),延迟 (Latency) 约为 100 ms,实现了实时操作。
  • 效率提升: 通过结合开环运动 (Open-loop motions)(如躯干旋转 (Torso rotating)、释放动作 (Releasing motions)、跪下 (Kneeling down))和闭环策略 (Closed-loop policies) 来提高数据收集效率 (Data collection efficiency)。

6.1.5. ML 兼容性:技能链

  • 任务: 运动操作技能 (Loco-manipulation skills) 与推手推车 (Wagon pushing) 的结合。

  • 方法: ToddlerBot 首先执行一个基于扩散策略 (Diffusion policy) 的抓取 (Grasping) 技能以抓住手推车把手,在保持抓取姿态 (Grasping pose) 的同时,切换到强化学习 (RL) 策略 (Policy) 进行向前行走 (Walking forward)。

  • 训练技巧: 为了在保持抓握的同时进行行走,强化学习 (RL) 训练期间,机器人的末端姿态 (End pose) 从抓取策略 (Grasping policy) 的训练数据 (Training data) (60演示 (Demonstrations)) 中采样。这展示了不同学习范式 (Learning paradigms) 之间技能衔接 (Skill chaining) 的能力。

    以下是原文 Figure 14 的结果:

    Figure 14 shows the results of the skill chaining experiment. 该图像是一个示意图,展示了ToddlerBot在技能链实验中的性能。图中分为三个阶段:首先ToddlerBot使用DP方法开始抓取,接着在五秒时切换到RL训练的行走策略,并在十二秒时保持行走状态,同时抓着手推车。该实验验证了机器人的技能转移能力。

Figure 14 shows the results of the skill chaining experiment.

6.1.6. 可复现性:硬件和策略

  • 硬件可复现性: 一名无硬件经验 (Hardware experience) 的计算机科学 (CS) 专业学生使用开源组装手册 (Assembly manual) 和视频 (Videos),在三天内独立完成了第二个 ToddlerBot 实例的组装(包括 3D 打印时间)。全球范围内的社区也报告了成功的复现,大多数团队在一周内完成。

  • 策略可复现性: 在一个 ToddlerBot 实例上训练的操作策略 (Manipulation policy) 直接迁移 (Transferred) 到另一个实例上,20 次测试中仍达到 90% 的相同成功率 (Success rate)。强化学习 (RL) 行走策略 (Walking policy) 也成功在两个机器人之间迁移

  • 协作任务: 两个 ToddlerBot 实例(AryaToddy)协作完成长周期玩具整理任务 (Long-horizon toy tidy-up session),进一步展示了两个实例之间等效的性能和高保真度 (High fidelity)。

    以下是原文 Figure 5 的结果:

    Figure 5: Long-horizon Collaboration. In this task, two instances of ToddlerBot, Arya and Toddy, collaborate to clean up a toy session. (1) The task begins with a pink octopus on the table and a purple octopus on the ground. (2) Arya picks up the pink octopus from the table and places it in the wagon. (3) Arya walks to the wagon handle. (4) Arya grasps the handle while Toddy walks over. (5) Arya pushes the wagon toward the purple octopus. (6) Toddy reaches the pickup position. (7) Toddy kneels and picks up the purple octopus. (8) Finally, Arya and Toddy leave side by side. 该图像是插图,展示了两个 ToddlerBot 机器人艾莉(Arya)和托迪(Toddy)在合作整理玩具的过程,共分为八个步骤。图中依次表现了艾莉拾起粉色章鱼、将其放入小车、走向小车把手、托迪过来、艾莉推小车朝紫色章鱼方向移动、托迪到达拾取位置,最后两者一起离开。

Figure 5: Long-horizon Collaboration. In this task, two instances of ToddlerBot, Arya and Toddy, collaborate to clean up a toy session. (1) The task begins with a pink octopus on the table and a purple octopus on the ground. (2) Arya picks up the pink octopus from the table and places it in the wagon. (3) Arya walks to the wagon handle. (4) Arya grasps the handle while Toddy walks over. (5) Arya pushes the wagon toward the purple octopus. (6) Toddy reaches the pickup position. (7) Toddy kneels and picks up the purple octopus. (8) Finally, Arya and Toddy leave side by side.

6.2. 数据呈现 (表格)

以下是原文 Table 1 的结果:

HumanoidSize Weight (m)(kg)(TFLOPS)(a)Compute Active DoFs(b) Manipulation Locomotion Sim Data Real Data Open Source Price •--(\$)
BD Atlas [8]1.5089.0-28X-
Figure [9]1.6870.026X
Optimus [10]1.7357.0-28X
Digit [11]1.7565.0-16code250K
Unitree H1 [12]1.7647.01.9219code70K
Fourier GR1 [13]1.6555.02.2332X110K
Booster T1 [14]1.1830.03.3323code34K
Unitree G1 [15]1.3235.02.5029code57K
iCub [16]1.0424.01.9332code300K
Berkeley [17]0.8516.01.9212Xcode10K
MIT [18]1.0424.0-18XX-
Duke [19]1.0030.0Optional10design, code16K
Berkeley Lite [20]0.8016.00.2922design, code5K
BRUCE [21]0.704.80.116Xcode6.5K
NAO H25 [22]0.575.20.0223Xcode14K
Robotis OP3 [23]0.513.50.3020Xcode11K
Zeroth [24]0.483.60.0116Xdesign, code1.4K
Ours| 0.563.42.5030design, code6K
Average Adult [25]1.7370.9-32(c)--

() -po pens e en 3). DoFs per g, even DoFs pe , tee DoFs or he was, ndhree DoFs or e nec, excdg nd.

  • 分析:

    • 尺寸与重量: ToddlerBot 尺寸为 0.56m,重量 3.4kg,属于微型人形机器人范畴,与 NAO H25Robotis OP3Zeroth 相似。这使其在操作安全性、成本和易用性方面具有优势。

    • 计算能力 (Compute TFLOPS): ToddlerBot2.50 TFLOPS 计算能力在同类微型人形机器人中处于领先地位(如 NAO H250.02Zeroth 0.01Berkeley Lite 0.29),甚至超过了一些中型机器人(如 Unitree H1 1.92iCub 1.93)。这强大的板载计算能力是其 ML 兼容性的关键支撑。

    • 主动自由度 (Active DoFs): ToddlerBot 拥有 30主动自由度 (Active DoFs),远高于大多数小型人形机器人(如 Berkeley Lite 22NAO H25 23Robotis OP3 20Zeroth 16),甚至与一些全尺寸机器人(如 BD Atlas 28Figure 26)和人类 (32) 相媲美。这使其能够进行复杂的全身运动操作 (Whole-body loco-manipulation)。

    • 运动与操作能力: ToddlerBot 明确支持操作 (Manipulation) 和运动 (Locomotion) 功能,以及模拟数据 (Sim Data) 和真实数据 (Real Data) 收集,这符合其 ML 兼容性的设计目标。相比之下,许多其他机器人在这方面存在局限性(例如 BerkeleyMITBRUCERobotis OP3 不支持操作)。

    • 开源性: ToddlerBot 提供设计 (Design) 和代码 (Code) 的完全开源,这在商业化或一些研究机构的机器人中并不常见。许多机器人只提供部分代码,或完全不开源。

    • 价格: ToddlerBot 成本为 6K USD,在功能和 DoFs 方面远超同价位或更低价位的机器人,并在成本上远低于大多数高性能人形机器人。这大大降低了研究的门槛。

      以下是原文 Table 7 的结果:

      Tracking ErrorsSimulationReal-World
      Position [m]0.0820.133 ± 0.018
      Linear Velocity [m/s]0.0160.032 ± 0.002
      Angular Velocity [rad/s]0.0560.113 ± 0.010
  • 分析:

    • 位置跟踪误差: 模拟 (Simulation) 中的位置误差为 0.082 m真实世界 (Real-World) 为 0.133 ± 0.018 m。虽然真实世界误差略高于模拟,但差距不大,且方差较小,表明数字孪生 (Digital Twin) 的保真度 (Fidelity) 较高,且零样本模拟到现实迁移 (Zero-shot sim-to-real transfer) 是有效的。
    • 线性速度跟踪误差: 模拟 (Simulation) 中的误差为 0.016m/s0.016 m/s真实世界 (Real-World) 为 0.032±0.002m/s0.032 ± 0.002 m/s
    • 角速度跟踪误差: 模拟 (Simulation) 中的误差为 0.056rad/s0.056 rad/s真实世界 (Real-World) 为 0.113±0.010rad/s0.113 ± 0.010 rad/s
    • 总体趋势: 真实世界线性 (Linear) 和角速度 (Angular velocity) 跟踪误差均约为模拟的两倍。论文解释说,模拟到现实 (Sim-to-Real) 的差距显著小于策略 (Policy) 到命令 (Command) 的跟踪差距 (Tracking gap),这主要是因为学习到的行走策略 (Walking policy) 在原地旋转 (In-place rotation) 方面存在局限性,导致了平移偏移 (Translation offsets)。尽管如此,真实世界的误差仍处于可接受范围内,且具有良好的可重复性 (Repeatability),证明了 ToddlerBot 在动态任务中的稳健性。

6.3. 消融实验/参数分析

论文并未进行显式的消融实验 (Ablation study) 来拆解各个组件对最终性能的影响。然而,其设计和实验方法本身包含了对关键参数和设计选择的验证:

  • 系统辨识 (SysID) 管道 (Pipeline) 的有效性: 零样本模拟到现实迁移 (Zero-shot sim-to-real transfer) 的成功以及模拟 (Simulation) 与真实世界 (Real-world) 之间较小的跟踪差距 (Tracking gap) 证明了其零点校准 (Zero-point calibration) 和电机系统辨识 (Motor system identification) 管道 (Pipeline) 对构建高保真数字孪生 (Digital Twin) 的有效性。

  • 3D 打印设计的合理性: 臂展 (Arm span)、有效载荷 (Payload) 和耐力测试 (Endurance tests) 验证了 3D 打印部件在强度和可靠性方面的足够性能,并通过快速维修能力弥补了材料可能存在的脆弱性。

  • 电机 (Motor) 选择与功率因子 (Power Factor) 的平衡: 对不同 Dynamixel 电机 (Motors) 的选择和功率因子 (Power factor) 的分析,体现了在保证性能(特别是高扭矩 (High torque) 和速度 (Velocity))的同时,兼顾成本和尺寸的设计考量。Table 2 展示了不同 Dynamixel 电机 (Motors) 的失速扭矩 (Stall Torque) 和分配的自由度 (DoFs),确保了关键关节有足够的动力。

  • 传动机制 (Transmission mechanisms) 的集成: 正齿轮 (Spur gears)、耦合锥齿轮 (Coupled bevel gears) 和平行连杆 (Parallel linkages) 的组合使用,解决了空间限制 (Space constraints)、轴对齐 (Axis alignment) 和惯性减少 (Inertia reduction) 等问题,这些设计在俯卧撑 (Push-ups) 和引体向上 (Pull-ups) 等复杂动作中得到了验证。

  • 遥操作系统 (Teleoperation system) 的效率: 20 分钟内收集 60轨迹 (Trajectories) 的能力,证明了其数据收集 (Data collection) 的高效率。

    虽然没有直接的消融表 (Ablation table),但论文的系统设计 (System design) 和实验结果 (Experimental results) 共同验证了其在ML 兼容性、能力和可复现性 (Reproducibility) 方面的各项设计决策。

7. 总结与思考

7.1. 结论总结

这篇论文成功地推出了 ToddlerBot,一个低成本、开源且 ML 兼容的人形机器人平台,旨在推动学习型机器人 (Learning-based robotics) 和 AI 研究。通过一系列严格的测试和运动操作任务 (Loco-manipulation tasks),论文证明了 ToddlerBotML 兼容性、能力和可复现性方面的卓越表现。

核心结论包括:

  • ML 兼容性: ToddlerBot 能够实现零样本模拟到现实策略迁移 (Zero-shot sim-to-real policy transfer),这得益于其高保真的数字孪生 (Digital Twin) 和全面的系统辨识 (SysID) 管道 (Pipeline)。直观的全身遥操作系统 (Whole-body teleoperation system) 大幅提高了真实世界具身数据 (Embodied data) 的收集效率。

  • 强大的能力: 尽管尺寸紧凑,ToddlerBot 拥有 30主动自由度 (Active DoFs) 和超人运动范围,使其能够执行复杂的全身运动操作 (Whole-body loco-manipulation) 任务,如俯卧撑 (Push-ups)、引体向上 (Pull-ups)、全向行走 (Omnidirectional walking) 和视觉操作 (Vision-based manipulation),甚至支持技能链 (Skill chaining) 和多机器人协作 (Multi-robot collaboration)。

  • 卓越的可复现性: ToddlerBot 采用完全 3D 打印的开源设计和市售组件,总成本低于 6,000 美元。详尽的文档和成功的独立复现案例(包括非硬件背景的学生)证明了其易于构建、维护和广泛传播的潜力,显著降低了研究门槛。

    ToddlerBot 不仅仅是一个行走机器人,它扩展了应用范围,支持全身操作 (Full-body manipulation)、角色动画 (Character animation)、人机交互 (Human-robot interaction) 和一系列 ML 应用,使其成为一个多功能的研究平台 (Research platform)。

7.2. 局限性与未来工作

论文作者也坦诚地指出了 ToddlerBot 的局限性,并提出了未来的研究方向:

  • 性能限制:

    • 电机限制: ToddlerBot 在更敏捷的任务中的性能受限于市售电机 (Off-the-shelf motors) 的最大速度、最大扭矩 (Torque) 和通信速度 (Communication speed)。尽管如此,它仍能达到类似人类的运动操作性能,而非追求超人能力。
    • 执行器模型 (Actuation model) 精度: 当前的执行器模型 (Actuation model) 未考虑电机温度 (Motor temperature) 影响,在接近性能极限时精度会下降。
  • 交互限制: 微型尺寸限制了其与人类尺寸物体的交互能力。

  • 结构强度: 3D 打印部件在受到撞击后更容易损坏,尽管维修速度快,但仍需时间。

    未来的工作计划包括:

  • 提升控制性能: 开发定制化的通信板 (Communication boards) 以提高控制频率 (Control frequency),并改进执行器模型 (Actuation model) 以最大化可用性能,尤其是在电机发热时。

  • 增强结构强度: 优化 ToddlerBot 的设计以提高结构强度 (Structural strength),作者认为设计改进比材料选择影响更大。

  • 升级感知能力: 计划增加立体视觉 (Stereo vision) 以提供深度感知 (Depth perception),添加额外的 IMU 传感器 (Sensors) 以改进状态估计 (State estimation),以及触觉传感器 (Tactile sensors) 以提供更丰富的操作反馈 (Manipulation feedback)。

7.3. 个人启发与批判

7.3.1. 个人启发

ToddlerBot 这项工作给我带来了多方面的启发:

  • 降低研究门槛的重要性:机器人 (Robotics) 领域,高端硬件往往成本高昂且难以获取。ToddlerBot 证明了通过巧妙的设计、利用3D 打印和市售组件,完全可以构建一个功能强大、可复现且成本友好的研究平台 (Research platform)。这种开放性和可访问性对于全球范围内的研究人员(尤其是资源有限的团队)都具有巨大价值,能够加速创新。
  • ML 兼容性作为核心设计理念:机器学习 (ML) 兼容性置于传统机器人设计之前,是一种前瞻性的思维。数字孪生 (Digital Twin) 的高保真度和高效数据收集 (Data collection) 管道 (Pipeline) 是当前数据驱动机器人 (Data-driven robotics) 范式的基石,ToddlerBot 在这方面做到了极致。这提醒我们,未来的机器人平台设计必须紧密结合AI学习算法 (Learning algorithms) 的需求。
  • 模拟到现实迁移 (Sim-to-Real Transfer) 的关键在于数字孪生的精度: 论文通过详尽的系统辨识 (SysID) 和零点校准 (Zero-point calibration) 实现了高保真数字孪生 (Digital Twin) 和成功的零样本模拟到现实迁移 (Zero-shot sim-to-real transfer)。这强调了在模拟器 (Simulator) 中准确建模物理世界(特别是执行器动力学 (Actuator dynamics))的重要性,而非仅仅依赖领域随机化 (Domain randomization)。
  • 全身运动操作 (Whole-body Loco-Manipulation) 的潜力: 拥有 30自由度 (DoFs) 的微型人形机器人能够执行复杂的运动 (Locomotion) 和操作 (Manipulation) 任务,甚至多机器人协作 (Multi-robot collaboration),这为未来的具身智能 (Embodied AI) 研究提供了丰富的实验平台和可能性。
  • 开放科学的典范: 完全开源硬件设计、软件代码、数字孪生 (Digital Twin) 和详尽的教程,加上成功的社区复现,使得 ToddlerBot 成为开放科学 (Open science) 和开源硬件 (Open-source hardware) 运动的杰出范例。

7.3.2. 批判与改进

尽管 ToddlerBot 取得了显著成就,但仍有一些潜在问题、未经验证的假设或可以改进的地方:

  • 功率因子 (Power Factor) 指标的通用性: 论文提出的功率因子 p~\tilde{p} 旨在作为评估人形机器人能力的标准。虽然它考虑了扭矩 (Torque)、重量和高度的比例关系,但没有直接考虑速度 (Velocity) 或关节 (Joint) 的具体分布,以及效率 (Efficiency) 的因素。例如,所有电机 (Motors) 的最大扭矩之和不一定能完全转化为实际的运动性能,因为某些关节可能在特定任务中贡献较小。未来可以进一步细化此指标,例如,通过加权或考虑不同关节在典型任务中的实际功率贡献。

  • 3D 打印材料的长期可靠性: 尽管论文通过理论分析和实际测试验证了 3D 打印部件的短期强度和可维修性,但长期使用(例如数月或数年)在复杂、高动态任务中的磨损、疲劳和精度保持仍是需要关注的问题。3D 打印部件在潮湿、温度变化或紫外线照射等不同环境下的性能变化也值得研究。

  • 电机温度 (Motor Temperature) 对动力学 (Dynamics) 的影响: 论文承认当前的执行器模型 (Actuation model) 未考虑电机温度 (Motor temperature)。Dynamixel 电机 (Motors) 在高负载下容易发热,这会显著改变其扭矩输出 (Torque output) 和内部阻尼 (Internal damping) 特性。若不加以建模,可能导致模拟器 (Simulator) 与真实世界 (Real-world) 在长时间或高强度任务中的失配 (Mismatch)。未来工作应将热动力学模型 (Thermal dynamics model) 整合到数字孪生 (Digital Twin) 中。

  • 微型尺寸 (Miniature Scale) 的局限与迁移: 尽管ToddlerBot 能够进行运动操作 (Loco-manipulation),但其微型尺寸限制了与人类日常环境中常见物体的交互能力。虽然论文指出可以配对适当尺寸 (Appropriately scaled) 的物体,但从微型机器人上学到的策略 (Policies) 泛化 (Generalize) 到全尺寸人类环境的可迁移性 (Transferability) 仍需更深入的验证和研究。

  • 运动规划 (Motion Planning) 与高层任务 (High-level Task) 规划的集成: 论文主要关注低层控制 (Low-level control) 和策略学习 (Policy learning)。对于长周期协作任务 (Long-horizon collaborative tasks),如何将这些学习到的低层技能 (Low-level skills) 与高层任务规划 (High-level task planning) 和决策 (Decision-making) 有效集成,以应对更复杂的开放世界场景,将是未来的重要方向。

  • 感知能力的不足: 论文计划在未来增加立体视觉 (Stereo vision)、更多 IMU 传感器 (Sensors) 和触觉传感器 (Tactile sensors)。当前的感知能力可能不足以处理复杂、动态、不确定环境中的精细操作 (Fine manipulation) 或稳健导航 (Robust navigation)。

    总的来说,ToddlerBot 提供了一个非常有前景的开源平台。未来的改进应着重于弥补其在动力学建模 (Dynamic modeling) 精度、结构鲁棒性 (Structural robustness) 和感知丰富度 (Perceptual richness) 方面的不足,同时继续探索其在高层认知 (High-level cognition) 和多机器人协作 (Multi-robot collaboration) 中的潜力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。