论文状态:已完成

Riemannian Flow Matching Policy for Robot Motion Learning

发表:2024/03/16
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为黎曼流匹配策略(RFMP)的新型模型,用于学习机器人视觉-运动策略,兼具高效的训练与推理能力。RFMP能够处理高维、多模态分布,且因其内在的几何感知特性,能在真实机器人任务中有效应用。实验结果表明,RFMP在推理时间上显著优于现有方法,并能够生成更平滑的动作轨迹。

摘要

We introduce Riemannian Flow Matching Policies (RFMP), a novel model for learning and synthesizing robot visuomotor policies. RFMP leverages the efficient training and inference capabilities of flow matching methods. By design, RFMP inherits the strengths of flow matching: the ability to encode high-dimensional multimodal distributions, commonly encountered in robotic tasks, and a very simple and fast inference process. We demonstrate the applicability of RFMP to both state-based and vision-conditioned robot motion policies. Notably, as the robot state resides on a Riemannian manifold, RFMP inherently incorporates geometric awareness, which is crucial for realistic robotic tasks. To evaluate RFMP, we conduct two proof-of-concept experiments, comparing its performance against Diffusion Policies. Although both approaches successfully learn the considered tasks, our results show that RFMP provides smoother action trajectories with significantly lower inference times.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

黎曼流匹配策略用于机器人运动学习 (Riemannian Flow Matching Policy for Robot Motion Learning)

论文标题直接点明了其核心内容:提出了一种名为黎曼流匹配策略 (Riemannian Flow Matching Policy, RFMP) 的新方法,该方法专为机器人运动学习设计,并特别强调了其在黎曼流形 (Riemannian Manifold) 上的应用。

1.2. 作者

Max Braun¹, Noémie Jaquier¹, Leonel Rozo², and Tamim Asfour¹

  • ¹ 卡尔斯鲁厄理工学院 (Karlsruhe Institute of Technology, KIT), 机器人与人类学研究所。该研究所在机器人学,特别是人形机器人和人工智能领域享有盛誉。

  • ² 博世人工智能中心 (Bosch Center for Artificial Intelligence, BCAI)。该中心是工业界顶尖的人工智能研究机构。

    作者团队结合了学术界和工业界的研究力量,背景涵盖机器人学、机器学习和几何深度学习。

1.3. 发表期刊/会议

本文是一篇预印本 (preprint),发表于 arXiv。虽然 arXiv 不是一个经过同行评审的正式出版物,但它是机器学习和机器人学领域快速分享最新研究成果的重要平台。论文中提到,该工作将被提交到学习表征国际会议 (ICLR) 2024。ICLR 是深度学习领域的顶级会议之一,具有极高的影响力。

1.4. 发表年份

预印本首次发布于 2024 年 3 月 15 日。

1.5. 摘要

论文介绍了一种名为 黎曼流匹配策略 (Riemannian Flow Matching Policies, RFMP) 的新型模型,用于学习和生成机器人的视觉-运动策略。RFMP 利用了流匹配 (Flow Matching) 方法在训练和推理上的高效率。通过设计,RFMP 继承了流匹配的优点:能够编码机器人任务中常见的高维、多模态分布,并且拥有一个非常简单和快速的推理过程。论文展示了 RFMP 在基于状态和基于视觉条件的机器人运动策略中的适用性。值得注意的是,由于机器人状态(如姿态)天然存在于黎曼流形上,RFMP 内在地包含了几何感知 (geometric awareness),这对于真实的机器人任务至关重要。为了评估 RFMP,论文进行了两项概念验证实验,并将其性能与扩散策略 (Diffusion Policies) 进行了比较。尽管两种方法都成功地学习了所考虑的任务,但实验结果表明,RFMP 能够以显著更低的推理时间提供更平滑的动作轨迹

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

机器人学习的核心挑战之一是如何从演示中学习复杂、多样的运动技能。在许多现实世界的机器人任务中,一个给定的情况(例如,一个物体的抓取位置)可能对应多种有效的动作序列(例如,从不同角度接近物体)。这种现象被称为多模态 (multimodal) 动作分布。深度生成模型,特别是近年来兴起的扩散模型 (Diffusion Models),在学习这种复杂分布方面表现出色。

2.1.2. 现有研究的挑战 (Gap)

尽管扩散模型在机器人学习中取得了巨大成功,但它们存在两个主要问题:

  1. 推理成本高昂 (Expensive Inference): 扩散模型的生成过程需要通过求解一个随机微分方程 (SDE) 来逐步去噪,这个过程通常需要数百个评估步骤,导致推理速度慢。这对于需要快速反应的机器人应用(如实时避障)是一个巨大障碍。
  2. 在非欧空间中的复杂性 (Complexity on non-Euclidean spaces): 机器人的状态,尤其是姿态(方向),本质上并不存在于我们熟悉的欧几里得空间 (Rd\mathbb{R}^d) 中,而是存在于黎曼流形 (Riemannian Manifolds) 上,例如代表旋转的 SO(3)SO(3) 群或代表单位四元数的 S3S^3 球面。在这些弯曲空间上应用标准扩散模型,其核心的分数函数 (score function) 计算会变得非常复杂,推理过程的计算开销也会进一步增加。

2.1.3. 论文的切入点

为了解决上述问题,本文另辟蹊径,没有沿用扩散模型,而是将目光投向了一种更新的生成模型技术:流匹配 (Flow Matching, FM)。FM 的核心思想是直接学习一个向量场,该向量场定义了一个常微分方程 (ODE),能够将一个简单先验分布(如高斯分布)的样本平滑地“推动”到目标数据分布(如专家演示)中。

这种方法的优势在于:

  • 训练简单: FM 的训练过程是模拟无关 (simulation-free) 的,比许多其他生成模型更直接。

  • 推理快速: 其生成过程仅需用现成的 ODE 求解器求解一个常微分方程,通常比求解 SDE 的扩散模型快得多。

    因此,本文的创新思路是将流匹配方法引入机器人策略学习,并进一步将其扩展到黎曼流形上,以自然地处理机器人的几何状态。

2.2. 核心贡献/主要发现

本文的主要贡献可以总结为两点:

  1. 提出 RFMP 模型: 首次将流匹配 (Flow Matching) 方法应用于学习感觉运动机器人策略,并提出了黎曼流匹配策略 (Riemannian Flow Matching Policy, RFMP)。该模型能够有效地学习高维、多模态的动作分布。

  2. 实验验证与对比: 在 LASA 基准数据集上进行了实验,从轨迹复现精度轨迹平滑度推理速度三个方面,将 RFMP 与强大的基线模型扩散策略 (Diffusion Policies, DP) 进行了实证比较。

    论文的关键发现如下:

  • 性能相当: RFMP 在学习任务方面与 DP 表现相当,都能成功复现演示的运动模式。

  • 更平滑的轨迹: RFMP 生成的动作轨迹在视觉上和量化指标(Jerkiness)上都显著比 DP 更平滑

  • 更快的推理: RFMP 的推理速度显著快于 DP(在欧氏空间快约 30%,在视觉任务中快约 45%),这使其更适合实时机器人应用。

  • 内禀的几何一致性: RFMP 通过在黎曼流形上直接建模,确保生成的姿态等状态始终位于有效的流形空间内,而标准 DP 则不具备此保证。


3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 黎曼流形 (Riemannian Manifolds)

  • 直观理解: 想象一下地球表面。从宏观上看,它是一个弯曲的球面,但在一个很小的局部区域(比如一个足球场),它看起来几乎是平的,可以近似看作一个欧几里得平面。光滑流形 (Smooth Manifold) 就是这种在局部看起来像欧几里得空间 (Rd\mathbb{R}^d) 的数学对象。
  • 切空间 (Tangent Space) TxM\mathcal{T}_{\mathbf{x}}\mathcal{M}: 在流形上某一点 x\mathbf{x},所有可能穿过该点的曲线在该点的“瞬时速度向量”构成一个向量空间,称为切空间。这个空间是平坦的,同构于 Rd\mathbb{R}^d
  • 黎曼度量 (Riemannian Metric) gg: 它为流形上每个点的切空间定义了一个内积(即点积),使我们能够测量切向量的长度和它们之间的角度。一个配备了黎曼度量的光滑流形就称为黎曼流形
  • 关键操作:
    • 指数映射 (Exponential Map) expx(u)\exp_{\mathbf{x}}(\mathbf{u}): 将切空间中的一个向量 u\mathbf{u} 映射回流形上的一个点 y\mathbf{y}。直观上,就像从点 x\mathbf{x} 出发,沿着方向 u\mathbf{u} 在流形上“直走”一段距离。
    • 对数映射 (Logarithmic Map) Logx(y)\mathrm{Log}_{\mathbf{x}}(\mathbf{y}): 指数映射的逆操作,计算从流形上的点 x\mathbf{x} 到点 y\mathbf{y} 的最短路径在 x\mathbf{x} 点切空间中的表示。
    • 平行传输 (Parallel Transport) Γxy(u)\Gamma_{\mathbf{x} \to \mathbf{y}}(\mathbf{u}): 将一个在点 x\mathbf{x} 处切空间中的向量 u\mathbf{u} "平移"到点 y\mathbf{y} 处的切空间,同时保持其几何属性(如长度)不变。
  • 在机器人学中的重要性: 机器人的姿态(如末端执行器的朝向)不能用简单的向量加法来操作。例如,两个旋转相加的结果不是简单的向量和。这些姿态数据天然存在于 SO(3)SO(3)(三维旋转群)等黎曼流形上。在这些流形上直接进行计算,可以避免奇异性等问题,得到更自然、更准确的结果。

3.1.2. 流匹配 (Flow Matching, FM)

  • 核心思想: FM 是一种生成模型,旨在学习一个从简单先验分布 p0p_0(如标准正态分布)到复杂目标数据分布 p1p_1(如专家演示数据)的变换 (transformation)
  • 向量场与 ODE: 这个变换被定义为一个流 (flow) ϕt(x)\phi_t(\mathbf{x}),它由一个时变的向量场 (vector field) ut(x)u_t(\mathbf{x}) 通过一个常微分方程 (Ordinary Differential Equation, ODE) 来驱动: dϕt(x)dt=ut(ϕt(x)) \frac{d\phi_t(\mathbf{x})}{dt} = u_t(\phi_t(\mathbf{x})) 其中初始条件为 ϕ0(x)=x\phi_0(\mathbf{x}) = \mathbf{x}。直观地,向量场 utu_t 在每个时刻 tt 和每个位置 ϕt(x)\phi_t(\mathbf{x}) 都给出了一个“速度”方向,指引样本点如何移动。从 t=0t=0t=1t=1 积分这个 ODE,就能将一个从 p0p_0 采样的点 x0\mathbf{x}_0 变换成一个近似从 p1p_1 采样的点 x1\mathbf{x}_1
  • 条件流匹配 (Conditional Flow Matching, CFM): 直接学习 utu_t 是困难的,因为我们不知道真实的概率路径 ptp_t。CFM [8] 提出了一个巧妙的解决方案:不直接定义 ptp_t,而是定义一个条件概率路径 pt(xz)p_t(\mathbf{x}|\mathbf{z}) 和对应的条件向量场 ut(xz)u_t(\mathbf{x}|\mathbf{z})。通过巧妙地选择这些条件路径(例如,从一个噪声点到目标数据点 x1\mathbf{x}_1 的直线路径),可以得到一个易于计算的损失函数。 本文采用的 高斯 CFM (Gaussian CFM) 定义了如下的条件路径和向量场: pt(xz)=N(xtx1,(tσt+1)2)ut(xz)=x1(1σ)x1(1σ)t \begin{aligned} p_t(\mathbf{x}|\mathbf{z}) &= \mathcal{N}\left(\mathbf{x} | t\mathbf{x}_1, (t\sigma - t + 1)^2\right) \\ u_t(\mathbf{x}|\mathbf{z}) &= \frac{\mathbf{x}_1 - (1-\sigma)\mathbf{x}}{1 - (1-\sigma)t} \end{aligned} 其中 z=x1\mathbf{z}=\mathbf{x}_1 是从目标数据分布 p1p_1 中采样的一个点。这个公式定义了一个从一个以0为中心的高斯分布(当 t=0t=0)到一个以 x1\mathbf{x}_1 为中心的高斯分布(当 t=1t=1)的演化路径。这个向量场 utu_t 是可直接计算的,因此可以用作神经网络学习的目标。

3.2. 前人工作

  • 归一化流 (Normalizing Flows): 这是最早被用于策略学习的基于流的生成模型。它们通过一系列可逆的变换来构建复杂的分布。主要缺点是训练过程需要计算雅可比行列式的对数,对于复杂的变换,这可能非常慢。
  • 扩散模型 (Diffusion Models): 近年来主导了机器人学习领域。它们通过一个“加噪”过程破坏数据,然后学习一个“去噪”过程来恢复数据。这种方法训练稳定,能学习非常复杂的分布。本文的对比基线扩散策略 (Diffusion Policies, DP) [4] 就是一个代表性工作,它将扩散模型用于学习视觉-运动策略,取得了非常好的效果。然而,如前所述,其主要缺点是推理速度慢
  • 黎曼几何在机器人学习中的应用: 许多工作已经尝试将黎曼几何融入机器人学习,例如学习黎曼空间上的稳定动态系统 [18] 或将扩散模型扩展到黎曼流形上 [7]。这些工作为本文的 RFMP 提供了理论基础。

3.3. 技术演进

机器人策略学习的技术路线从早期的模仿学习(如行为克隆),发展到更强大的概率模型。

  1. 高斯混合模型 (GMM): 能够表示多模态分布,但表达能力有限。

  2. 归一化流: 提供了更强的分布建模能力,但训练成本高。

  3. 扩散模型: 成为当前最先进的方法,以其强大的表达能力和训练稳定性著称,但牺牲了推理速度。

  4. 流匹配: 作为一种新兴的生成模型,它试图在保持强大表达能力的同时,克服扩散模型的推理速度瓶颈。

    本文的工作正处在这个技术演进的最新阶段,即探索比扩散模型更高效的生成模型(流匹配)在机器人领域的应用潜力。

3.4. 差异化分析

RFMP 与相关工作的主要区别如下:

  • 与扩散策略 (DP) 的区别:
    • 生成过程: RFMP 使用常微分方程 (ODE) 进行确定性生成,而 DP 使用随机微分方程 (SDE) 进行随机生成。这使得 RFMP 的推理过程更快、生成的轨迹更平滑。
    • 几何处理: RFMP 内在地、原生支持黎曼流形,确保几何约束得到满足。而标准的 DP 在欧氏空间中操作,如果应用于姿态等流形数据,可能产生无效结果(如不在 SO(3)SO(3) 上的旋转矩阵),需要额外的投影步骤,这会引入误差。
  • 与归一化流的区别:
    • 训练效率: RFMP 的训练不依赖于可逆变换和雅可比行列式计算,因此训练过程比归一化流更简单、更高效


4. 方法论

本节将详细拆解论文提出的 黎曼流匹配策略 (RFMP) 的技术细节。

4.1. 方法原理

RFMP 的核心思想是利用条件流匹配 (CFM) 框架来学习一个策略 πθ(ao)\pi_{\boldsymbol{\theta}}(\mathbf{a}|\mathbf{o})。这个策略是一个神经网络,它被训练来预测一个向量场 vt(ao;θ)v_t(\mathbf{a}|\mathbf{o}; \boldsymbol{\theta})。在推理时,这个向量场通过求解一个 ODE,将一个从简单先验分布中采样的随机动作序列 a0\mathbf{a}_0 “演化”成一个符合专家演示风格的、有意义的动作序列 a1\mathbf{a}_1。整个过程都被设计为可以在黎曼流形上进行,从而自然地处理机器人姿态等几何数据。

4.2. 核心方法详解 (逐层深入)

4.2.1. RFMP 训练过程

训练的目标是让神经网络 vt(ao;θ)v_t(\mathbf{a}|\mathbf{o}; \boldsymbol{\theta}) 尽可能地接近一个“目标”向量场 ut(aa1)u_t(\mathbf{a}|\mathbf{a}_1)。以下是详细步骤:

步骤 1: 数据准备与表示

  • 动作序列 (Action Horizon): 为了让生成的动作在时间上更连贯平滑,模型不预测单个动作,而是预测一个动作序列,称为预测视界 (prediction horizon)。一个训练样本中的目标动作 a1\mathbf{a}_1 是一个包含 TaT_a 个未来动作的向量:a1=[aτ,aτ+1,,aτ+Ta]\mathbf{a}_1 = [\boldsymbol{a}_{\tau}, \boldsymbol{a}_{\tau+1}, \ldots, \boldsymbol{a}_{\tau+T_a}]
  • 观测向量 (Observation Vector): 简单的单帧观测信息量有限。为了提供关于运动方向的更多信息,观测向量 o\mathbf{o} 被构建为包含三个部分:
    1. 参考观测 (reference observation): oτ1\mathbf{o}_{\tau-1},即预测开始前一刻的观测。
    2. 上下文观测 (context observation): oc\mathbf{o}_c,从过去历史中随机采样的一个观测 (c<τ1c < \tau-1)。
    3. 时间差: τc\tau - c,即参考观测和上下文观测之间的时间间隔。 因此,完整的观测向量为 o=[oτ1,oc,τc]\mathbf{o} = [\mathbf{o}_{\tau-1}, \mathbf{o}_c, \tau-c]

步骤 2: 定义黎曼流形上的目标流 (Geodesic Flow) 为了让 CFM 的损失函数可以计算,需要先定义一个已知的、从噪声到目标数据的“理想路径”及其对应的向量场。在黎曼流形上,最自然的选择是测地线 (geodesic),即两点之间的最短路径。

  • 连接流形上两点 x0\mathbf{x}_0x1\mathbf{x}_1 的测地线路径 xt\mathbf{x}_t 由以下公式给出: xt=Expx0(tLogx0(x1)),t[0,1] \mathbf{x}_t = \mathrm{Exp}_{\mathbf{x}_0}(t \mathrm{Log}_{\mathbf{x}_0}(\mathbf{x}_1)), \quad t \in [0, 1]
    • Logx0(x1)\mathrm{Log}_{\mathbf{x}_0}(\mathbf{x}_1): 计算从 x0\mathbf{x}_0x1\mathbf{x}_1 的方向,结果是 x0\mathbf{x}_0 切空间中的一个向量。
    • tLogx0(x1)t \mathrm{Log}_{\mathbf{x}_0}(\mathbf{x}_1): 将该向量缩放 tt 倍。
    • Expx0()\mathrm{Exp}_{\mathbf{x}_0}(\cdot): 将缩放后的切向量映射回流形,得到路径上 tt 时刻的点 xt\mathbf{x}_t
  • 这个路径对应的目标向量场 ut(xtx1)u_t(\mathbf{x}_t|\mathbf{x}_1) 就是 xt\mathbf{x}_t 对时间 tt 的导数 dxtdt\frac{d\mathbf{x}_t}{dt}。对于许多常见的流形(如球面 SdS^d、旋转群 SO(3)SO(3)),这个导数有解析解,可以直接计算。

步骤 3: 构建损失函数 RFMP 的训练目标是最小化一个损失函数,该函数衡量了神经网络预测的向量场 vtv_t 与基于测地线定义的目标向量场 utu_t 之间的差距。

  • 在黎曼流形上,这个损失函数 RFMP Loss 定义为: LRFMP(θ)=Et,q(a1),pt(aa1)vt(ao;θ)ut(aa1)ga2 \mathcal{L}_{\mathrm{RFMP}}(\boldsymbol{\theta}) = \mathbb{E}_{t, q(\mathbf{a}_1), p_t(\mathbf{a}|\mathbf{a}_1)} \|v_t(\mathbf{a}|\mathbf{o}; \boldsymbol{\theta}) - u_t(\mathbf{a}|\mathbf{a}_1)\|_{g_{\mathbf{a}}}^2
    • θ\boldsymbol{\theta}: 神经网络 vtv_t 的可学习参数。
    • tU[0,1]t \sim \mathcal{U}[0, 1]: 从 0 到 1 之间均匀采样一个时间点。
    • a1q(a1)\mathbf{a}_1 \sim q(\mathbf{a}_1): 从专家演示数据集中采样一个目标动作序列。
    • apt(aa1)\mathbf{a} \sim p_t(\mathbf{a}|\mathbf{a}_1): 从一个噪声点 a0\mathbf{a}_0 到目标 a1\mathbf{a}_1 的路径上,在 tt 时刻采样一个点 a\mathbf{a}
    • vt(ao;θ)v_t(\mathbf{a}|\mathbf{o}; \boldsymbol{\theta}): 神经网络在 tt 时刻,对当前点 a\mathbf{a} 和观测 o\mathbf{o} 预测出的向量。
    • ut(aa1)u_t(\mathbf{a}|\mathbf{a}_1): 根据测地线路径计算出的“真实”目标向量。
    • ga2\|\cdot\|_{g_{\mathbf{a}}}^2: 在点 a\mathbf{a} 处的黎曼度量下计算的平方范数(即向量长度的平方)。这确保了损失是在流形的几何结构上正确计算的。

算法 1: RFMP 训练流程总结

以下是原文中 Algorithm 1 的流程解读:

while not converged do:
  1. 随机采样:
     - 采样一个时间步 t ~ U[0, 1]。
     - 从专家演示数据中采样一个目标动作序列 a1。
     - 从先验分布中采样一个噪声动作序列 a0 (论文实现中,目标向量场 u_t 的计算依赖于a1,a0隐式定义了路径起点)。
     - 采样一个观测向量 o。
  2. 计算目标向量场:
     - 根据公式 (7) 定义的测地线流,计算在当前采样点 a 处的目标向量场 u_t(a|a1)。
  3. 计算损失:
     - 将 a, t, o 输入神经网络,得到预测的向量场 v_t(a|o; θ)。
     - 根据公式 (8) 计算 L_RFMP(θ),即 v_t 和 u_t 之间的黎曼距离。
  4. 更新参数:
     - 使用梯度下降(如 Adam 优化器)更新网络参数 θ。
       end while

4.2.2. RFMP 推理过程

当模型训练完成后,生成一个动作序列的过程(即策略查询)如下:

  1. 采样初始噪声: 从先验(基底)分布 p0p_0 中采样一个初始动作序列 a0\mathbf{a}_0。例如,一个由零向量组成的序列。
  2. 求解 ODE: 使用一个现成的 ODE 求解器(如 DOPRIEuler),从 t=0t=0t=1t=1 积分由学习到的神经网络 vt(ao;θ)v_t(\mathbf{a}|\mathbf{o}; \boldsymbol{\theta}) 定义的常微分方程。这个过程将初始噪声 a0\mathbf{a}_0 确定性地变换成一个完整的预测动作序列 a1\mathbf{a}_1
  3. 执行与更新 (Receding Horizon): 从生成的长度为 TaT_a 的动作序列 a1\mathbf{a}_1 中,只取出并执行前 TeT_e 个动作 (Te<TaT_e < T_a)。然后,机器人获得新的观测,并重复步骤 1-3,生成下一段动作。这种“滚动预测”的方式使得策略能够根据环境的实时变化进行调整。

4.2.3. RFMP 实现细节

  • 网络架构: 向量场 vtv_t 由一个简单的 多层感知机 (Multilayer Perceptron, MLP) 参数化,包含 5 个隐藏层,每层 64 个单元,总参数量仅为 32K。这与 DP 使用的庞大的 CNN(256M 参数)形成鲜明对比。
  • 先验分布 p0p_0:
    • 在欧氏空间 R2\mathbb{R}^2 中,使用标准正态分布 N(0,σI)\mathcal{N}(\mathbf{0}, \sigma I)

    • 在球面 S2S^2 上,使用包裹高斯分布 (wrapped Gaussian distribution),这是一种定义在流形上的高斯分布的推广。


5. 实验设置

5.1. 数据集

  • LASA 数据集 [12]: 这是一个广泛用于评估模仿学习算法的基准数据集。它包含了人类在 2D 平面上书写不同形状(如字母'S', 'W', 'L'等)的轨迹数据。每个形状有多组演示。
  • 数据集的使用方式:
    1. 欧氏空间 (R2\mathbb{R}^2): 直接使用原始的 2D 坐标数据。
    2. 球面空间 (S2S^2): 将 2D 数据投影到三维球体的表面,以模拟机器人姿态等流形数据,从而测试模型的黎曼几何处理能力。
  • 任务类型:
    1. 基于轨迹的策略 (Trajectory-based policies): 观测值 oo 是过去的轨迹点位置。

    2. 视觉-运动策略 (Visuomotor policies): 观测值 oo 是从描绘任务进度的灰度图像中提取的特征向量。这模拟了机器人通过视觉感知来执行任务的场景。下图(原文 Figure 4)展示了在 'S' 形轨迹任务结束时的视觉观测示例。

      Fig. 4: Examples of visual observations at the end of a demonstration of the LASA dataset S. 该图像是插图,展示了两种不同的空间表示。左侧为平面空间 R2\mathbb{R}^2 中的曲线示例,右侧为球面空间 S2S^2 中的曲线示例。两者体现了不同几何结构下的曲线形状,强调了在机器人运动学习中考虑几何信息的重要性。

5.2. 评估指标

5.2.1. 动态时间规整距离 (Dynamic Time Warping Distance, DTWD)

  • 概念定义: DTWD 是一种衡量两条时间序列之间相似度的指标。与直接比较对应时间点上的值的欧氏距离不同,DTWD 能够找到一个“最优”的对齐方式,允许序列在时间轴上进行非线性的拉伸或压缩。因此,它对于比较两条形状相似但速度不同的轨迹非常有效。在本文中,DTWD 值越小,表示生成的轨迹与专家演示轨迹的形状越相似,复现精度越高
  • 数学公式: 给定两条序列 X=(x1,x2,,xn)X = (x_1, x_2, \ldots, x_n)Y=(y1,y2,,ym)Y = (y_1, y_2, \ldots, y_m),DTWD 的计算可以通过动态规划来解决。令 D(i, j) 为子序列 X[1:i]Y[1:j] 之间的 DTWD,则其递推关系为: D(i,j)=d(xi,yj)+min{D(i1,j)D(i,j1)D(i1,j1) D(i, j) = d(x_i, y_j) + \min \begin{cases} D(i-1, j) \\ D(i, j-1) \\ D(i-1, j-1) \end{cases}
  • 符号解释:
    • d(xi,yj)d(x_i, y_j): 序列中两个点 xix_iyjy_j 之间的距离,通常是欧氏距离。
    • D(n, m): 最终求得的完整的两条序列之间的 DTWD。

5.2.2. 颠簸度 (Jerkiness)

  • 概念定义: Jerkiness 是一个衡量运动平滑度的物理量。在运动学中,“Jerk” (加加速度) 是加速度对时间的导数,即位置对时间的三阶导数。一个平滑的运动其加加速度应该很小。该指标通过计算整个轨迹上 Jerk 的平方的积分来量化轨迹的“颠簸”程度。在本文中,Jerkiness 值越小,表示生成的轨迹越平滑
  • 数学公式: 对于一条位置轨迹 p(t)\mathbf{p}(t),其颠簸度计算公式为: Jerkiness=0Td3p(t)dt32dt \text{Jerkiness} = \int_{0}^{T} \left\| \frac{d^3\mathbf{p}(t)}{dt^3} \right\|^2 dt
  • 符号解释:
    • p(t)\mathbf{p}(t): 随时间变化的位置向量。
    • d3p(t)dt3\frac{d^3\mathbf{p}(t)}{dt^3}: 位置对时间的三阶导数 (Jerk)。
    • TT: 轨迹的总时长。
    • 2\|\cdot\|^2: 向量的欧氏范数平方。

5.3. 对比基线

  • 扩散策略 (Diffusion Policies, DP) [4]: 这是当前最先进的模仿学习方法之一,也是本文最主要的对比模型。论文使用了 DP 作者提供的官方实现,其核心是一个拥有 2.56 亿参数的 CNN 网络,并采用 iDDPM 算法进行 100 步的去噪推理。选择 DP 作为基线是因为它在相似任务上表现优异,能够有力地证明 RFMP 的竞争力。


6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 基于轨迹的策略 (Trajectory-based Policies)

定性分析 (Qualitative Analysis):

  • 轨迹复现: 从下图 (原文 Figure 2) 可以看出,RFMP (左侧) 和 DP (右侧) 都能成功学习并复现 LASA 数据集中的 'S' 形和多模态 'L' 形轨迹。蓝色曲线代表从与演示相同的初始点开始,两种方法都能很好地贴合演示。

  • 泛化能力: 橙色曲线代表从演示附近随机采样的初始点开始。RFMP 生成的轨迹保持了演示的整体模式,但显示出一定的多样性。而 DP 的轨迹则倾向于迅速“拉回”到演示数据的主干上,方差较小。作者推测这可能是由于 DP 对训练数据的高度记忆。

  • 平滑度: 观察 DP 生成的轨迹(尤其是橙色曲线),可以发现它们比 RFMP 的轨迹更加“曲折”和“抖动”,即不够平滑。

  • 几何一致性:S2S^2 球面上的实验中 (下图中部和右部),DP 生成的轨迹有时会“穿入”球面内部,这表明它没有考虑流形约束。而 RFMP 作为黎曼模型,其轨迹始终保持在球面上。

    Fig. 2: Demonstrations \(( - )\) and learned trajectories on the LASA datasets S in \(\\mathbb { R } ^ { 2 }\) (left), on the LASA datasets S, W projected on \(S ^ { 2 }\) (mile-lemidle-right), andon a multioaldataset made mirredatasets of the letter proje \(S ^ { 2 }\) (right). Reproductions start at the same initial observations as the demonstrations \(( - )\) , or from randomly-sampled observations in the demonstration dataset neighborhood (—). Trajectory starts are depicted by dots in the multimodal case.

    定量分析 (Quantitative Analysis): 以下是原文 Table I 的结果,比较了 RFMP 和 DP 在轨迹复现精度 (DTWD) 和平滑度 (Jerkiness) 上的表现。

Dataset DTWD Jerkiness
S, R² S, S² W, S² multi-L, S² S, R² S, S² W, S² multi-L, S²
RFMP 1.87 ± 0.94 0.95 ± 0.32 1.64 ± 0.84 6.14 ± 6.56 2120 ± 273 4077 ± 900 4198 ± 560 2161 ± 640
DP 0.98 ± 0.22 0.80 ± 0.21 0.90 ± 0.35 7.06 ± 7.73 8172 ± 747 7612 ± 543 2944 ± 1399 2201 ± 744
  • DTWD (精度): 在单模态任务 (S, W) 中,DP 的 DTWD 更低,这与定性观察到的“拉回”到演示轨迹的行为一致。但在更复杂的多模态任务 (multi-L) 中,RFMP 的精度更高。
  • Jerkiness (平滑度): RFMP 在几乎所有任务上的 Jerkiness 值都显著低于 DP,这有力地证明了 RFMP 生成的轨迹更平滑。

推理时间分析 (Inference Time Analysis): 以下是原文 Table III 中关于基于轨迹策略的推理时间结果。

Trajectory-based
Dataset S, R² S, S²
RFMP 803 ± 55 ms 1539 ± 23 ms
DP 1142 ± 17 ms 1147 ± 26 ms
  • 在欧氏空间 R2\mathbb{R}^2 上,RFMP 的推理时间比 DP 快了约 30%
  • 在球面 S2S^2 上,RFMP 反而更慢。论文解释这是因为 RFMP 使用了为黎曼流形特制的、计算更复杂的 ODE 求解器,而 DP 则直接使用了不考虑几何的、更快的欧氏空间 SDE 求解器。因此,这个比较是不公平的。如果 DP 也采用严格的黎曼 SDE 求解器,其时间会更长。

6.1.2. 视觉-运动策略 (Visuomotor Policies)

结果分析:

  • 性能: 如下表 (原文 Table IV) 所示,在更具挑战性的视觉-运动任务中,RFMP 在 DTWD 精度上与 DP 相当,而在 S2S^2 上的平滑度 (Jerkiness) 再次表现出优势。这表明即使使用非常简单的 MLP 架构,RFMP 也能与使用大型 CNN 的 DP 相媲美。

    Dataset DTWD Jerkiness
    S, R² J, R² S, S² W, S² S, R² J, R² S, S² W, S²
    RFMP 1.22 ± 0.44 1.82 ± 0.93 0.76 ± 0.27 0.84 ± 0.48 10543 ± 612 7655 ± 537 3590 ± 353 4455 ± 306
    DP 1.29 ± 0.49 2.35 ± 1.66 0.67 ± 0.24 0.93 ± 0.48 6198 ± 755 5588 ± 801 5903 ± 170 5042 ± 136
  • 推理时间: 如下表 (原文 Table III) 所示,在视觉-运动任务中,RFMP 的速度优势更加明显。在 R2\mathbb{R}^2 上,RFMP 比 DP 快了约 45%。在 S2S^2 上,尽管 RFMP 使用了更复杂的黎曼求解器,其推理时间也与 DP 相当。

    Visuomotor
    Dataset S, R² S, S²
    RFMP 1355 ± 110 ms 2351 ± 88 ms
    DP 2462 ± 141 ms 2662 ± 541 ms

6.2. 消融实验/参数分析

预测视界 TaT_a 的影响: 论文研究了预测视界长度 TaT_a 对性能的影响。

  • 定性分析 (Figure 3):TaT_a 从 8 减小到 2 时,RFMP 生成的轨迹依然保持平滑。相比之下,DP 的轨迹在 TaT_a 较小时变得极其颠簸 (jerky),尤其是在泛化到新初始点时。

  • 定量分析 (Table II): 数据同样证实了这一点。随着 TaT_a 减小,DP 的 Jerkiness 值急剧增加,而 RFMP 的增加幅度要小得多。这表明 RFMP 对预测视界长度的鲁棒性更好。

    这进一步凸显了 RFMP 架构的优势:由于其确定性的 ODE 生成过程,即使在较短的预测视界下,也能保持动作的连贯性和平滑性。而 DP 的随机性在短视界下可能被放大,导致步与步之间的动作不连贯。


7. 总结与思考

7.1. 结论总结

本文成功地将流匹配 (Flow Matching) 这一新颖的生成模型框架引入了机器人策略学习领域,提出了黎曼流匹配策略 (RFMP)。通过在 LASA 基准数据集上与强大的扩散策略 (DP) 进行对比,论文得出以下结论:

  1. 有效性: RFMP 能够有效学习复杂的、多模态的机器人运动策略,在轨迹复现精度上与 DP 相当。

  2. 效率优势: RFMP 的推理速度显著快于 DP,这得益于其基于 ODE 的高效生成过程。

  3. 平滑度优势: RFMP 生成的动作轨迹比 DP 更加平滑,且对预测视界长度等超参数变化的鲁棒性更强。

  4. 几何优势: RFMP 原生支持在黎曼流形上建模,确保了机器人姿态等几何数据的有效性和一致性。

    这些特性使 RFMP 成为一个非常有前景的、适用于实时机器人应用的策略学习模型。

7.2. 局限性与未来工作

论文作者也指出了当前工作的局限性并展望了未来研究方向:

  • 真实世界应用: 当前实验是在模拟和基准数据集上进行的“概念验证”,未来需要在真实的机器人硬件上评估 RFMP 的性能。
  • 模型表征能力: 论文中使用了非常简单的 MLP 作为向量场网络。未来可以探索更强大的网络架构(如 Transformer)来提升 RFMP 的表征能力,以应对更复杂的任务。
  • 先验模型: 可以研究使用更具信息量的先验分布(而非简单的高斯分布),这可能进一步提高学习效率和生成质量。

7.3. 个人启发与批判

这篇论文给我带来了以下几点启发和思考:

  • 模型选择的权衡: 论文清晰地展示了在生成模型选择上的权衡。扩散模型虽然强大,但其高昂的推理成本在机器人等需要实时响应的领域是一个硬伤。RFMP 的成功表明,寻找在表达能力训练稳定性推理效率之间取得更优平衡的新模型范式,是机器学习应用落地的重要方向。
  • 几何深度学习的重要性: 机器人学是几何深度学习的“天然”应用场景。这篇论文再次强调,直接在数据所在的非欧空间(流形)上进行建模,而不是强行将其拉平到欧氏空间处理,能够带来更自然、更准确且具有理论保证的结果。
  • 小模型、大作用: RFMP 使用仅 32K 参数的 MLP 就能在多个方面媲美甚至超越拥有 256M 参数的 CNN-based DP,这非常令人印象深刻。它启发我们,一个设计精良、与问题本质高度契合的模型架构(如利用 ODE 和黎曼几何),其效率可能远超一个仅靠堆砌参数和算力的“庞然大物”。
  • 潜在的批判性思考:
    • 任务复杂度: LASA 数据集相对简单,轨迹主要在 2D/3D 空间。RFMP 在更高维度的任务(如 7 自由度机械臂的关节空间控制,或人形机器人的全身控制)上的扩展性和性能仍有待验证。

    • 对 DP 行为的解读: 论文将 DP 的“拉回”行为归因于“记忆”,并视其为一种潜在的不足。然而,在某些任务中,这种强烈的模式寻求(mode-seeking)行为、低方差的输出可能是一种优点,因为它意味着策略更具确定性和可预测性。RFMP 产生的更多样化的轨迹是否总是理想的,可能取决于具体的任务需求。

    • 公平比较的挑战: 尽管论文指出了在 S2S^2 上推理时间比较的不公平性,但模型架构的巨大差异(MLP vs CNN)也带来了比较上的复杂性。如果给 RFMP 换上一个同等规模的 CNN,它的性能和速度会如何变化?这是一个值得探究的开放问题。

      总而言之,这篇论文提出了一个简洁、高效且理论坚实的机器人策略学习新方法,为解决现有方法的瓶颈提供了清晰的思路,并为流匹配模型在机器人领域的应用开辟了新的道路。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。