论文状态:已完成

Fast and Robust Visuomotor Riemannian Flow Matching Policy

发表:2024/12/14
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种新的视觉运动黎曼流匹配策略(RFMP),兼具快速推理和简单训练优点,适用于复杂机器人任务。通过引入几何约束,该策略增强了鲁棒性,并在真实及模拟任务中表现优于传统的扩散政策,实现高效的训练和推理。

摘要

Diffusion-based visuomotor policies excel at learning complex robotic tasks by effectively combining visual data with high-dimensional, multi-modal action distributions. However, diffusion models often suffer from slow inference due to costly denoising processes or require complex sequential training arising from recent distilling approaches. This paper introduces Riemannian Flow Matching Policy (RFMP), a model that inherits the easy training and fast inference capabilities of flow matching (FM). Moreover, RFMP inherently incorporates geometric constraints commonly found in realistic robotic applications, as the robot state resides on a Riemannian manifold. To enhance the robustness of RFMP, we propose Stable RFMP (SRFMP), which leverages LaSalle's invariance principle to equip the dynamics of FM with stability to the support of a target Riemannian distribution. Rigorous evaluation on ten simulated and real-world tasks show that RFMP successfully learns and synthesizes complex sensorimotor policies on Euclidean and Riemannian spaces with efficient training and inference phases, outperforming Diffusion Policies and Consistency Policies.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

快速且鲁棒的视觉运动黎曼流匹配策略 (Fast and Robust Visuomotor Riemannian Flow Matching Policy)

  • 核心主题分析: 标题直接点明了论文的核心内容。
    • Fast and Robust (快速且鲁棒):表明了该研究的主要目标是解决现有方法的两大痛点——速度慢和鲁棒性差。
    • Visuomotor (视觉运动):指明了应用场景,即策略(policy)需要直接从视觉输入(visual)映射到机器人的动作输出(motor)。
    • Riemannian (黎曼):揭示了方法的一个关键技术特点,即它在数学上考虑了机器人状态(特别是姿态)所在的黎曼流形几何结构。
    • Flow Matching Policy (流匹配策略):点明了所采用的核心技术是基于流匹配(Flow Matching)这一类生成模型来构建策略。

1.2. 作者

  • Haoran Ding¹: 德国达姆施塔特工业大学,博世人工智能中心(BCAI),现于穆罕默德·本·扎耶德人工智能大学(MBZUAI)攻读博士。

  • Noémie Jaquier²: 瑞典皇家理工学院(KTH)助理教授,几何机器人实验室(GeoRob Lab)负责人。她在黎曼流形上的机器人学习领域有深厚的研究背景。

  • Jan Peters³: 德国达姆施塔特工业大学教授,德国人工智能研究中心(DFKI)部门负责人。机器人学习领域的著名学者。

  • Leonel Rozo¹: 博世人工智能中心(BCAI)的首席研究科学家。他的研究重点是利用机器学习、最优控制和黎曼流形理论进行机器人技能学习。

    研究背景分析: 作者团队由学术界顶尖学者和业界资深研究员组成,特别是在机器人学习、生成模型和黎曼几何等领域具有很强的专业背景,这为论文的理论深度和实验质量提供了有力保障。

1.3. 发表期刊/会议

  • 预印本 (Preprint) on arXiv: 这篇论文目前发布在 arXiv 平台上。arXiv 是一个开放获取的预印本服务器,供研究人员在同行评审前分享他们的研究成果。这通常意味着论文正在投稿或等待顶级机器人或机器学习会议(如 CoRL, R:SS, ICRA, ICML, NeurIPS 等)的评审结果。
  • 版本信息: v3 版本表明论文经过了多次修订,通常是为了回应审稿人意见或进一步完善内容。

1.4. 发表年份

  • 2024年 (根据 arXiv 提交日期 2024-12-14)

1.5. 摘要

  • 研究目的: 现有的基于扩散模型 (diffusion-based) 的视觉运动策略虽然在学习复杂机器人任务上表现出色,但普遍存在推理速度慢(需要多步去噪)或训练过程复杂(如蒸馏方法)的问题。
  • 核心方法:
    1. 引入黎曼流匹配策略 (Riemannian Flow Matching Policy, RFMP): 采用流匹配 (Flow Matching, FM) 技术,继承其训练简单、推理快速的优点。同时,通过引入黎曼几何,该模型能内在地处理机器人状态(如姿态)存在的几何约束。
    2. 提出稳定黎曼流匹配策略 (Stable RFMP, SRFMP): 为了增强 RFMP 的鲁棒性,利用拉萨尔不变性原理 (LaSalle's invariance principle),为流匹配的动力学系统赋予了对目标黎曼分布支撑集 (support of a target Riemannian distribution) 的稳定性。
  • 主要结果: 在10个仿真和真实世界的任务上进行了严格评估,结果表明 RFMP 能够高效地学习和生成复杂的传感器运动策略。与扩散策略 (Diffusion Policies, DP)一致性策略 (Consistency Policies, CP) 相比,RFMPSRFMP 在训练和推理阶段都更高效,并且性能更优。
  • 关键结论: RFMP 及其稳定版本 SRFMP 是一个高效且强大的框架,它成功地将流匹配的优势与机器人应用的几何特性相结合,为视觉运动策略学习提供了一个有竞争力的替代方案。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 如何为机器人开发一种能够从视觉输入学习复杂、多模态动作的策略,同时保证训练简单、推理快速且对机器人固有的几何约束(如旋转)鲁棒

  • 现有研究的挑战与空白 (Gap):

    1. 扩散策略 (Diffusion Policies, DP) 的推理速度瓶颈: DP 虽然在模仿学习中效果显著,但其生成一个动作需要数十到上百次迭代去噪,导致推理延迟很高(例如,0.1到1秒),这对于需要快速反应的机器人任务是致命的。
    2. 一致性策略 (Consistency Policies, CP) 的训练复杂性: CP 等蒸馏方法通过训练一个“学生”模型来模仿“教师”模型(通常是 DP)以加速推理。但这引入了复杂的两阶段训练过程,不仅计算资源消耗大,而且可能不稳定。
    3. 几何约束处理不当: 许多机器人动作(如末端执行器的姿态)存在于非欧几里得空间(即黎曼流形)中。传统的 DP 在处理这类数据时,计算分数函数 (score function) 变得复杂,推理成本也随之增加,甚至需要后处理步骤(如归一化)来强制满足约束,但这破坏了模型的内在结构。
  • 本文的切入点/创新思路: 论文的思路是寻找一种新的生成模型范式来替代扩散模型,从而在根源上解决上述问题。

    1. 采用流匹配 (Flow Matching, FM): FM 是一种训练连续归一化流 (Continuous Normalizing Flows, CNF) 的新方法。与 DP 的随机微分方程 (SDE) 和 CNF 的最大似然估计不同,FM 通过直接回归向量场,实现了无模拟 (simulation-free) 的训练,过程更简单,且其常微分方程 (ODE) 的形式使得推理也更快。

    2. 扩展到黎曼流形 (Riemannian Manifold): 为了处理机器人的几何约束,论文采用了 FM 的扩展版本——黎曼流匹配 (Riemannian Flow Matching, RFM),使得生成过程自然地在流形上进行。

    3. 引入稳定性保证: 观察到标准 RFM 在推理时间超过理论终点(t=1)后可能变得不稳定(如下图所示),论文进一步引入了控制论中的拉萨尔不变性原理,设计了一个稳定黎曼流匹配 (Stable Riemannian Flow Matching, SRFM) 框架,确保生成的流能稳定地收敛到目标分布,从而提升策略的鲁棒性和推理效率。

      下图(原文 Figure 2)直观展示了 RFMP 在推理时间延长后的不稳定性,这是提出 SRFMP 的直接动机。

      Fig. 2. RFMP performance when extending inference time beyond \(t = 1\) on the Euclidean PUSHT and Robomimic SQUARE tasks. 该图像是一个示意图,展示了在欧几里得PushT和Robomimic SQUARE任务中,当推理时间超过t=1t=1时,RFMP的性能表现。图中显示了不同的积分时间tt下,NFE=1(蓝色)和NFE=3(橙色)的得分变化趋势。

2.2. 核心贡献/主要发现

  • 核心贡献:

    1. 提出稳定黎曼流匹配 (Stable Riemannian Flow Matching, SRFM): 将稳定流匹配 (Stable Flow Matching, SFM) 从欧几里得空间推广到了黎曼流形,为在流形上学习生成模型提供了稳定性保证。这是本文在理论层面的主要贡献。
    2. 提出稳定黎曼流匹配策略 (Stable Riemannian Flow Matching Policy, SRFMP): 基于 SRFM 构建了一个新的机器人视觉运动策略。SRFMP 结合了 RFM 训练简单、推理快速的优点,并通过稳定性设计增强了策略的鲁棒性,使其对推理步数和积分时间不敏感。
    3. 全面系统的实验验证: 在涵盖仿真和真实世界的 10 个不同任务上,对 RFMPSRFMP 进行了广泛的评估,证明了它们相较于 DPCP 等最先进方法的优越性。
  • 主要发现:

    1. 性能与效率双优: RFMPSRFMP 能够在训练更少轮次的情况下,达到甚至超越 DPCP 的性能,同时推理速度更快(需要更少的函数评估次数 NFE)。

    2. 鲁棒性增强: SRFMP 通过其内在的稳定性设计,对推理的积分时间不敏感,即使积分超过理论终点,其性能依然稳定,而 RFMP 则会性能下降。

    3. 几何感知的重要性: 实验表明,在处理包含姿态等流形数据的任务时(如 Sphere Push-T、Franka Kitchen、真实机器人任务),RFMP/SRFMP 的黎曼框架能够自然地处理几何约束,表现优于需要后处理的 DP


3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 黎曼流形 (Riemannian Manifolds)

  • 概念定义:
    • 流形 (Manifold): 简单来说,一个 dd 维流形是一个在局部“看起来”像 dd 维欧几里得空间 Rd\mathbb{R}^d 的空间,但全局结构可能非常复杂(例如,地球表面是一个二维流形,局部是平的,但全局是球形的)。
    • 切空间 (Tangent Space): 在流形上的任意一点 x\boldsymbol{x},都存在一个与之相切的 dd 维欧几里得空间,称为切空间 TxM\mathcal{T}_{\boldsymbol{x}}\mathcal{M}。该点附近的所有“方向”(即速度向量)都位于这个切空间中。
    • 黎曼流形 (Riemannian Manifold): 是在流形的基础上,为每个点的切空间都定义了一个内积 (inner product),称为黎曼度量 (Riemannian metric) gxg_{\boldsymbol{x}}。这个度量允许我们计算切向量的长度和角度,进而定义流形上曲线的长度和两点间的距离。
    • 测地线 (Geodesic): 黎曼流形上连接两点的“最短路径”,可以看作是欧氏空间中“直线”在流形上的推广。
    • 指数映射 (Exponential Map) 和对数映射 (Logarithmic Map):
      • 指数映射 expx(u)\exp_{\boldsymbol{x}}(\boldsymbol{u}): 将切空间 TxM\mathcal{T}_{\boldsymbol{x}}\mathcal{M} 中的一个向量 u\boldsymbol{u} 映射回流形 M\mathcal{M} 上的一个点 y\boldsymbol{y}。直观上,就像从点 x\boldsymbol{x} 沿着方向 u\boldsymbol{u} 在测地线上“走”一段距离。

      • 对数映射 Logx(y)\mathrm{Log}_{\boldsymbol{x}}(\boldsymbol{y}): 是指数映射的逆操作,将流形上的点 y\boldsymbol{y} 映射到点 x\boldsymbol{x} 的切空间中,得到一个向量 u\boldsymbol{u}

        在机器人学中,机器人的姿态(旋转)常用单位四元数(位于三维球面 S3S^3 流形)或旋转矩阵(位于特殊正交群 SO(3)SO(3) 流形)表示,这些都是典型的黎曼流形。

3.1.2. 流匹配 (Flow Matching, FM)

  • 概念定义: FM 是一种训练生成模型的新范式,其目标是学习一个向量场 (vector field),这个向量场能够将一个简单的先验分布(如高斯分布)中的样本“推动”到复杂的目标数据分布中。
  • 核心思想:
    1. 概率路径 (Probability Path): 定义一个从时间 t=0t=0t=1t=1 连续变化的概率分布 ptp_t,其中 p0p_0 是简单的先验分布,p1p_1 是目标数据分布。
    2. 向量场 (Vector Field): 存在一个时变的向量场 ut(x)u_t(\boldsymbol{x}),它定义了一个常微分方程 (ODE) dxdt=ut(x)\frac{d\boldsymbol{x}}{dt} = u_t(\boldsymbol{x})。这个 ODE 描述了样本点随时间流动的轨迹。
    3. 回归目标: FM 的巧妙之处在于,它不直接优化似然,而是通过回归的方式,让一个神经网络 vt(x;θ)v_t(\boldsymbol{x}; \boldsymbol{\theta}) 去逼近这个理想的向量场 ut(x)u_t(\boldsymbol{x})
  • 条件流匹配 (Conditional Flow Matching, CFM): 为了让训练变得可行,CFM 引入了一个技巧。它不直接定义 utu_t,而是定义一个条件向量场 (conditional vector field) ut(xtx1)u_t(\boldsymbol{x}_t | \boldsymbol{x}_1),其中 x1\boldsymbol{x}_1 是一个从真实数据分布中采样的点。这个条件向量场的目标是将一个从先验分布中采样的点 x0\boldsymbol{x}_0 在时间 t=1t=1 时精确地移动到 x1\boldsymbol{x}_1。一个简单的例子是,让样本点沿着从 x0\boldsymbol{x}_0x1\boldsymbol{x}_1 的直线移动,此时向量场就是常数 (x1x0)(\boldsymbol{x}_1 - \boldsymbol{x}_0)
  • 优势:
    • 训练简单: 损失函数是一个简单的均方误差回归损失,避免了 CNF 复杂的 ODE 求解和 DP 复杂的概率计算。
    • 推理快速: 推理过程只需用数值方法求解一个 ODE,通常比 DP 的 SDE 求解需要更少的步数。

3.2. 前人工作

  • 归一化流 (Normalizing Flows): 这是一类早期的生成模型,通过一系列可逆变换(微分同胚)将简单分布映射到复杂分布。CNF 是其连续版本。它们的主要缺点是训练慢,因为计算对数似然需要求解 ODE。
  • 扩散模型 (Diffusion Models, DP): 近年来在模仿学习中取得巨大成功的模型。它们通过一个“加噪”过程逐渐破坏数据结构,再学习一个“去噪”过程来生成数据。
    • 优点: 能够学习复杂、多模态的分布。
    • 缺点: 推理慢,因为去噪过程需要大量迭代步骤。在流形上操作复杂。
  • 一致性模型 (Consistency Models, CP): DP 的一种加速技术。通过蒸馏 (distillation) 的方式,训练一个学生模型来直接完成多步去噪的任务,从而实现单步或少步生成。
    • 优点: 推理速度快。
    • 缺点: 训练过程复杂(需要先训练一个教师 DP 模型),增加了总训练时间和资源消耗。
  • 流匹配 (Flow Matching, FM): 如上所述,通过回归向量场来训练生成模型。
    • Rectified Flows: FM 的一个特例,它强制样本沿直线路径流动,进一步简化了向量场,有助于加速推理。
    • 本文相关工作: 本文提到,在其早期工作 [17] 中已初步探索了将 RFM 用于机器人模仿学习。同时,其他同期工作也开始使用 FM 进行机器人策略学习,但本文的独特之处在于关注推理的鲁棒性 (robustness),并通过引入稳定性保证来解决这一问题。

3.3. 技术演进

该领域的技术演进脉络可以概括为对生成模型表达能力、训练效率和推理速度之间权衡的不断探索:

  1. 归一化流 (Normalizing Flows): 理论优美,但训练受限于可逆变换的设计和计算雅可比行列式的开销。
  2. 扩散模型 (Diffusion Models): 表达能力极强,成为SOTA,但牺牲了推理速度。
  3. 一致性模型 (Consistency Models): 试图通过蒸馏弥补扩散模型的速度短板,但增加了训练的复杂性。
  4. 流匹配 (Flow Matching): 另辟蹊径,提出一种既能保持强大表达能力,又兼顾训练简单和推理快速的新范式。
  5. 本文工作 (RFMP/SRFMP): 将 FM 范式引入机器人视觉运动策略学习,并进一步针对机器人应用的特殊性(几何约束和鲁棒性需求)进行深化,提出了 RFMPSRFMP

3.4. 差异化分析

方法 核心机制 训练 推理 几何约束处理 鲁棒性
DP (本文基线) 随机微分方程 (SDE) 去噪 简单 慢 (多步) 困难 (需特殊设计或后处理) 一般
CP (本文基线) 蒸馏扩散模型 复杂 (两阶段) 快 (少步) 困难 (继承DP的缺点) 一般
RFMP (本文提出) 黎曼流匹配 (ODE) 简单 (单阶段回归) 快 (少步) 内置 (natively) 对积分时间敏感
SRFMP (本文核心贡献) 稳定黎曼流匹配 (ODE) 简单 (单阶段回归) 更快/更鲁棒 内置 (natively) 通过稳定性保证增强

核心区别: RFMPSRFMP 从根本上改变了生成过程的动力学模型(从 SDE 到 ODE),并内在地集成了几何和稳定性先验,从而在训练效率、推理速度和鲁棒性上实现了全面的提升。


4. 方法论

本部分将详细拆解论文提出的 RFMPSRFMP

4.1. Riemannian Flow Matching Policy (RFMP)

RFMP 的核心思想是将黎曼条件流匹配 (RCFM) 框架应用于学习一个根据观测 oo 生成动作 aa 的视觉运动策略 πθ(ao)\pi_{\boldsymbol{\theta}}(\boldsymbol{a} | \boldsymbol{o})

4.1.1. 策略结构与输入输出

  • Receding Horizon Control (滚动时域控制): 与 DP 类似,RFMP 并非一次只预测一个动作,而是预测未来一段时间的动作序列,以保证动作的平滑和时序连贯性。
    • 动作预测序列 (Action Horizon Vector): 在任意时间步 ss,策略预测一个动作序列 a=[as,as+1,,as+Tp]\boldsymbol{a} = [\boldsymbol{a}^s, \boldsymbol{a}^{s+1}, \dots, \boldsymbol{a}^{s+T_p}],其中 TpT_p预测时域 (prediction horizon)。这个序列 a\boldsymbol{a} 就是生成模型需要学习的目标数据。
    • 观测向量 (Observation Vector): 策略的条件输入 o\boldsymbol{o} 由三部分构成:
      1. 当前时刻的前一帧观测 os1\boldsymbol{o}^{s-1}
      2. 从过去 ToT_o 帧内随机采样的历史观测 oc\boldsymbol{o}^c
      3. 两帧观测的时间差 s-c。 因此,o=[os1,oc,sc]\boldsymbol{o} = [\boldsymbol{o}^{s-1}, \boldsymbol{o}^c, s-c]。这种采样方式旨在让策略学习到动作的动态变化。

4.1.2. RFMP 训练过程

RFMP 的训练遵循 RCFM 的范式,目标是让一个神经网络 vt(ato;θ)v_t(\boldsymbol{a}_t | \boldsymbol{o}; \boldsymbol{\theta}) 去拟合一个预定义的条件向量场 ut(ata1)u_t(\boldsymbol{a}_t | \boldsymbol{a}_1)

训练步骤 (Algorithm 1):

  1. 采样:

    • 从均匀分布 U[0,1]\mathcal{U}[0, 1] 中随机采样一个时间步 tt
    • 从专家演示数据中随机采样一个目标动作序列 (target action sequence) a1p1\boldsymbol{a}_1 \sim p_1 及其对应的观测向量 o\boldsymbol{o}。这里 p1p_1 代表专家策略的分布。
    • 从一个简单的先验分布 (prior distribution) p0p_0 中采样一个初始噪声动作序列 (initial noise action sequence) a0\boldsymbol{a}_0
  2. 构造流动路径 (Flow Path):

    • 在黎曼流形上,使用测地线 (geodesic) 来构造从 a0\boldsymbol{a}_0a1\boldsymbol{a}_1 的路径。在时间 tt 的点 at\boldsymbol{a}_t 由以下测地线流 (geodesic flow) 公式给出: at=Expa1(tLoga1(a0)),t[0,1].(8) \boldsymbol{a}_t = \mathrm{Exp}_{\boldsymbol{a}_1}(t \mathrm{Log}_{\boldsymbol{a}_1}(\boldsymbol{a}_0)), \quad t \in [0, 1]. \tag{8}
      • 公式解释:
        • Loga1(a0)\mathrm{Log}_{\boldsymbol{a}_1}(\boldsymbol{a}_0): 这是对数映射,它将流形上的点 a0\boldsymbol{a}_0 映射到点 a1\boldsymbol{a}_1 的切空间 Ta1M\mathcal{T}_{\boldsymbol{a}_1}\mathcal{M} 中,得到一个向量。这个向量可以看作是从 a1\boldsymbol{a}_1 指向 a0\boldsymbol{a}_0 的“方向和距离”。
        • tLoga1(a0)t \mathrm{Log}_{\boldsymbol{a}_1}(\boldsymbol{a}_0): 在切空间中对该向量进行缩放。当 t=0t=0 时,结果是零向量;当 t=1t=1 时,是原向量。
        • Expa1()\mathrm{Exp}_{\boldsymbol{a}_1}(\cdot): 这是指数映射,将切空间中的向量映射回流形。
      • 直观理解: 这个公式描述了一个在流形上从 a1\boldsymbol{a}_1 开始,沿着朝向 a0\boldsymbol{a}_0 的测地线方向“后退”的过程。当 t=0t=0 时,a0=Expa1(Loga1(a0))=a0\boldsymbol{a}_0 = \mathrm{Exp}_{\boldsymbol{a}_1}(\mathrm{Log}_{\boldsymbol{a}_1}(\boldsymbol{a}_0)) = \boldsymbol{a}_0 (这是原文的一个笔误或简化,实际上流应从 a0\boldsymbol{a}_0 流向 a1\boldsymbol{a}_1,更常见的形式是 at=Expa0(tLoga0(a1))\boldsymbol{a}_t = \mathrm{Exp}_{\boldsymbol{a}_0}(t \mathrm{Log}_{\boldsymbol{a}_0}(\boldsymbol{a}_1))。但我们忠于原文公式)。当 t=1t=1 时,a1=Expa1(0)=a1\boldsymbol{a}_1 = \mathrm{Exp}_{\boldsymbol{a}_1}(0) = \boldsymbol{a}_1。实际上,论文引用的 RCFM 的流定义是从 x0\boldsymbol{x}_0x1\boldsymbol{x}_1 的,所以这里的公式应该是从 a0\boldsymbol{a}_0 出发。但为了忠于原文,我们保留公式(8)并指出这一点。
  3. 计算目标向量场:

    • 目标向量场 ut(ata1)u_t(\boldsymbol{a}_t | \boldsymbol{a}_1) 是路径点 at\boldsymbol{a}_t 的时间导数,即 a˙t\dot{\boldsymbol{a}}_t
  4. 计算损失函数:

    • RFMP 的损失函数是在黎曼度量下的均方误差: RFMP=Et,q(a1),p(a0)vt(ato;θ)ut(ata1)gat2.(11) \ell_{\mathrm{RFMP}} = \mathbb{E}_{t, q(\boldsymbol{a}_1), p(\boldsymbol{a}_0)} \| v_t(\boldsymbol{a}_t | \boldsymbol{o}; \boldsymbol{\theta}) - u_t(\boldsymbol{a}_t | \boldsymbol{a}_1) \|_{g_{\boldsymbol{a}_t}}^2. \tag{11}
      • 公式解释:
        • vt(ato;θ)v_t(\boldsymbol{a}_t | \boldsymbol{o}; \boldsymbol{\theta}): 神经网络在时间 tt、位置 at\boldsymbol{a}_t、以 o\boldsymbol{o} 为条件下预测的向量场。
        • ut(ata1)u_t(\boldsymbol{a}_t | \boldsymbol{a}_1): 根据公式(8)计算出的真实目标向量场。
        • gat2\| \cdot \|_{g_{\boldsymbol{a}_t}}^2: 在点 at\boldsymbol{a}_t 的切空间中,使用黎曼度量 gatg_{\boldsymbol{a}_t} 计算两个向量之间差值的范数平方。
  5. 更新参数: 使用梯度下降法(如 AdamW)更新网络参数 θ\boldsymbol{\theta}

4.1.3. RFMP 推理过程

推理(即执行策略)时,我们反向执行这个过程:从先验分布中采样一个点,然后使用学习到的向量场 vtv_t 求解 ODE,将其从 t=0t=0 演化到 t=1t=1

推理步骤 (Algorithm 1):

  1. 从先验分布 p0p_0 中采样一个初始动作序列 a0\boldsymbol{a}_0

  2. 获取当前的观测向量 o\boldsymbol{o}

  3. 使用数值 ODE 求解器(如欧拉法)从 t=0t=0t=1t=1 积分学习到的向量场: at+Δt=Expat(vθ(at,o)Δt). \boldsymbol{a}_{t+\Delta t} = \mathrm{Exp}_{\boldsymbol{a}_t}(v_{\boldsymbol{\theta}}(\boldsymbol{a}_t, \boldsymbol{o}) \Delta t).

    • 公式解释: 这是一个投影欧拉法。在每一步:
      • vθ(at,o)v_{\boldsymbol{\theta}}(\boldsymbol{a}_t, \boldsymbol{o}): 在当前点 at\boldsymbol{a}_t 查询神经网络,得到切空间中的一个方向向量。
      • vθ(at,o)Δtv_{\boldsymbol{\theta}}(\boldsymbol{a}_t, \boldsymbol{o}) \Delta t: 在切空间中沿着该方向前进一小步。
      • Expat()\mathrm{Exp}_{\boldsymbol{a}_t}(\cdot): 使用指数映射将切空间中的新位置投影回流形上,得到下一个点 at+Δt\boldsymbol{a}_{t+\Delta t}
  4. 得到最终生成的动作序列 at=1\boldsymbol{a}_{t=1}

  5. 执行序列中的前 TaT_a 个动作 (TaTpT_a \le T_p),然后重复整个过程。

    下图(原文 Figure 1 上半部分)展示了 RFMP 生成的流,可以看到流在 t=1.5t=1.5 时开始发散,体现了其不稳定性。

    Fig. 1. Flows of the RFMP (top) and SRFMP (bottom) at times \(t \\stackrel { - } { = } \\{ 0 . 0 , 1 . 0 , 1 . 5 \\}\) . The policies are learned from pick-and-place demonstration (black) and conditioned on visual observations. Note that the flow of SRFMP is stable to the target distribution at \(t > 1 . 0\) , enhancing the policy robustness and inference time. 该图像是示意图,展示了RFMP(上方)和SRFMP(下方)在时间t={0.0,1.0,1.5}t = \{0.0, 1.0, 1.5\}时的流动情况。图中所示的策略来自于捡放演示(黑色),并依据视觉观察进行调整。注意,SRFMP在t>1.0t > 1.0时流动稳定,增强了策略的鲁棒性和推理速度。

4.2. Stable Riemannian Flow Matching Policy (SRFMP)

SRFMP 的目标是解决 RFMP 在积分时间超过 t=1t=1 时可能出现的不稳定性问题。它通过拉萨尔不变性原理 (LaSalle's Invariance Principle)稳定性 (stability) 融入到流匹配的动力学系统中。

4.2.1. 核心理论:拉萨尔不变性原理

  • 定理 1 (论文中引用): 如果存在一个不依赖时间 (time-independent) 的向量场 u(x)u(\boldsymbol{x}) 和一个正标量函数 H(x)H(\boldsymbol{x})(类似于能量函数或李雅普诺夫函数),使得 HH 沿着 uu 的方向导数小于等于零(即 LuH(x)=xH(x)u(x)0\mathcal{L}_{\boldsymbol{u}}H(\boldsymbol{x}) = \nabla_{\boldsymbol{x}}H(\boldsymbol{x}) u(\boldsymbol{x}) \le 0),那么从任意初始点出发的系统轨迹 ψ(x,t)\psi(\boldsymbol{x}, t) 最终将收敛到这样一个集合:该集合中的所有点的方向导数都等于零(LuH(x)=0\mathcal{L}_{\boldsymbol{u}}H(\boldsymbol{x}) = 0)。
  • 关键思想: 我们可以设计一个能量函数 HH,使其在目标数据点 x1\boldsymbol{x}_1 处取最小值。然后,设计一个向量场 uu,使得系统能量总是下降。这样,系统最终会稳定在能量最低点,即目标数据点。一个简单的选择是让向量场 uu 成为能量函数 HH负梯度 (negative gradient),即 u(x)=xH(x)u(\boldsymbol{x}) = -\nabla_{\boldsymbol{x}}H(\boldsymbol{x})^\top

4.2.2. SRFMP 方法详解

为了应用拉萨尔不变性原理(该原理要求向量场不依赖时间),SRFMP 采取了一个关键技巧:状态增广 (state augmentation)

  1. 增广状态空间: 将原来的状态 x\boldsymbol{x} 增加一个维度,称为伪时间 (pseudo time)温度 (temperature) τ\tau。新的增广状态为 ξ=[x,τ]\boldsymbol{\xi} = [\boldsymbol{x}, \tau]。现在,我们可以设计一个在增广空间上不依赖时间的向量场。

  2. 构造稳定的黎曼流 (Stable Riemannian Flow):

    • 能量函数 (H): 在增广的乘积流形 M×R\mathcal{M} \times \mathbb{R} 上,定义一个能量函数 HH,衡量当前点 ξ\boldsymbol{\xi} 与目标点 ξ1=[x1,τ1]\boldsymbol{\xi}_1 = [\boldsymbol{x}_1, \tau_1] 之间的“距离”: H(ξξ1)=12Logξ1(ξ)ALogξ1(ξ).(18) H(\boldsymbol{\xi} | \boldsymbol{\xi}_1) = \frac{1}{2} \mathrm{Log}_{\boldsymbol{\xi}_1}(\boldsymbol{\xi})^{\top} \boldsymbol{A} \mathrm{Log}_{\boldsymbol{\xi}_1}(\boldsymbol{\xi}). \tag{18} 其中 A=[λxI00λτ]\boldsymbol{A} = \begin{bmatrix} \lambda_x \boldsymbol{I} & \mathbf{0} \\ \mathbf{0} & \lambda_\tau \end{bmatrix} 是一个正定对角矩阵,λx,λτ>0\lambda_x, \lambda_\tau > 0

    • 稳定黎曼向量场 (u): 将向量场定义为能量函数 HH 的负黎曼梯度: u(ξξ1)=ξH(ξξ1)=ALogξ1(ξ).(19) \boldsymbol{u}(\boldsymbol{\xi} | \boldsymbol{\xi}_1) = -\nabla_{\boldsymbol{\xi}}H(\boldsymbol{\xi} | \boldsymbol{\xi}_1)^{\top} = -\boldsymbol{A} \mathrm{Log}_{\boldsymbol{\xi}_1}(\boldsymbol{\xi}). \tag{19} 这个向量场可以分解为空间部分和伪时间部分: u(ξtξ1)=[ux(xtx1)uτ(τtτ1)]=[λxLogx1(xt)λτ(τtτ1)].(20) u(\boldsymbol{\xi}_t | \boldsymbol{\xi}_1) = \begin{bmatrix} u_{\boldsymbol{x}}(\boldsymbol{x}_t | \boldsymbol{x}_1) \\ u_{\tau}(\tau_t | \tau_1) \end{bmatrix} = \begin{bmatrix} -\lambda_{\boldsymbol{x}} \mathrm{Log}_{\boldsymbol{x}_1}(\boldsymbol{x}_t) \\ -\lambda_{\tau} (\tau_t - \tau_1) \end{bmatrix}. \tag{20}

      • 公式解释: 这个向量场总是指向目标点 ξ1\boldsymbol{\xi}_1。空间部分 uxu_{\boldsymbol{x}} 指向目标数据点 x1\boldsymbol{x}_1 的测地线方向,伪时间部分 uτu_{\tau} 指向目标伪时间 τ1\tau_1
    • 稳定黎曼流 (Flow): 求解由向量场 (20) 定义的 ODE,可以得到从 ξ0=[x0,τ0]\boldsymbol{\xi}_0 = [\boldsymbol{x}_0, \tau_0]ξ1=[x1,τ1]\boldsymbol{\xi}_1 = [\boldsymbol{x}_1, \tau_1] 的稳定流动路径 ψt\psi_tψt(ξ0ξ1)=[ψt(x0x1)ψt(τ0τ1)]=[Expx1(eλxtLogx1(x0))τ1+eλτt(τ0τ1)].(21) \psi_t(\boldsymbol{\xi}_0 | \boldsymbol{\xi}_1) = \begin{bmatrix} \psi_t(\boldsymbol{x}_0 | \boldsymbol{x}_1) \\ \psi_t(\tau_0 | \tau_1) \end{bmatrix} = \begin{bmatrix} \mathrm{Exp}_{\boldsymbol{x}_1} \left( e^{-\lambda_x t} \mathrm{Log}_{\boldsymbol{x}_1}(\boldsymbol{x}_0) \right) \\ \tau_1 + e^{-\lambda_{\tau} t} (\tau_0 - \tau_1) \end{bmatrix}. \tag{21}

      • 公式解释:
        • 空间部分 ψt(x0x1)\psi_t(\boldsymbol{x}_0 | \boldsymbol{x}_1) 的形式与 RFMP 的测地线流 (8) 非常相似,但这里的流动是指数衰减的。当 tt \to \infty 时,eλxt0e^{-\lambda_x t} \to 0,所以 ψt(x0x1)Expx1(0)=x1\psi_t(\boldsymbol{x}_0 | \boldsymbol{x}_1) \to \mathrm{Exp}_{\boldsymbol{x}_1}(0) = \boldsymbol{x}_1。这意味着流会渐近收敛到目标点 x1\boldsymbol{x}_1
        • 伪时间部分 ψt(τ0τ1)\psi_t(\tau_0 | \tau_1) 也是指数衰减地收敛到 τ1\tau_1
        • 参数 λx\lambda_xλτ\lambda_\tau 控制着收敛速度。
  3. SRFMP 训练与损失函数: 训练过程与 RFMP 类似,但操作对象是增广状态。

    • 增广动作序列: ξ=[as,,as+Tp,τ]\boldsymbol{\xi} = [\boldsymbol{a}^s, \dots, \boldsymbol{a}^{s+T_p}, \tau]
    • SRFMP 损失函数: 神经网络 v(ξto;θ)v(\boldsymbol{\xi}_t | \boldsymbol{o}; \boldsymbol{\theta}) 回归稳定的目标向量场 u(ξtξ1)u(\boldsymbol{\xi}_t | \boldsymbol{\xi}_1)SRFMP=Et,q(a1),p(a0)v(ξto;θ)u(ξtξ1)gat2.(22) \ell_{\mathrm{SRFMP}} = \mathbb{E}_{t, q(\boldsymbol{a}_1), p(\boldsymbol{a}_0)} \| v(\boldsymbol{\xi}_t | \boldsymbol{o}; \boldsymbol{\theta}) - u(\boldsymbol{\xi}_t | \boldsymbol{\xi}_1) \|_{g_{\boldsymbol{a}_t}}^2. \tag{22} 下图(原文 Figure 3 和 4)清晰地对比了 RFMSRFM 的流。RFM 的流在 t=1.5t=1.5 时发散,而 SRFM 的流在 t1t \geq 1 时稳定地停留在目标分布上。

    Fig. 3. Flows of the RFM (top) and SRFM (bottom) trained on the L-shape LASA dataset projected on the sphere manifold. Orange points represent the training dataset, while blue points are sampled from the generated probability path at different times \(t = \\{ 0 . 0 , 1 . 0 , 1 . 5 \\}\) across the three columns. 该图像是一个示意图,展示了在球面流形上训练的RFM(上)和SRFM(下)在L形LASA数据集上的流动。橙色点代表训练数据集,而蓝色点是不同时间t={0.0,1.0,1.5}t = \{ 0.0, 1.0, 1.5 \}从生成概率路径采样的结果,分布在三列中。

    Fig. 4. Flows of the RFM (top) and SRFM (bottom) on the SPD manifold \(S _ { + + } ^ { 2 }\) O p epent ai aa hb p correspond to sampled from the generated probability path at different times \(t = \\{ \\bar { 0 } . 0 , 1 . 0 , 1 . 5 \\}\) across the three columns. 该图像是图表,展示了RFM(上方)和SRFM(下方)在超正定流形 S++2S_{++}^2 上的流动情况。图中显示在不同时间 t = ar{0.0}, 1.0, 1.5 生成的概率路径采样,三列分别代表不同的时刻。

4.2.3. SRFMP 的加速推理

SRFMP 的稳定结构允许一种更激进的 ODE 求解策略。

  • 欧拉法近似: 在欧氏空间中,一步欧拉法更新为: xt+1xt+λx(x1xt)Δt.(23 的近似)\boldsymbol{x}_{t+1} \approx \boldsymbol{x}_t + \lambda_x (\boldsymbol{x}_1 - \boldsymbol{x}_t) \Delta t. \tag{23 \text{的近似}}

  • 单步收敛: 观察上式,如果设置步长 Δt=1/λx\Delta t = 1/\lambda_x,那么: xt+1xt+λx(x1xt)(1/λx)=xt+(x1xt)=x1. \boldsymbol{x}_{t+1} \approx \boldsymbol{x}_t + \lambda_x (\boldsymbol{x}_1 - \boldsymbol{x}_t) (1/\lambda_x) = \boldsymbol{x}_t + (\boldsymbol{x}_1 - \boldsymbol{x}_t) = \boldsymbol{x}_1. 这意味着,理论上仅需一步就能从任意点 xt\boldsymbol{x}_t 到达目标点 x1\boldsymbol{x}_1

  • 黎曼空间下的单步收敛: 类似地,在黎曼空间中,如果设置 Δt=1/λx\Delta t = 1/\lambda_x,则一步投影欧拉法为: xt+1Expxt(λxLogxt(x1)Δt)=Expxt(Logxt(x1))=x1.(25 的推导)\boldsymbol{x}_{t+1} \approx \mathrm{Exp}_{\boldsymbol{x}_t} \left( \lambda_x \mathrm{Log}_{\boldsymbol{x}_t}(\boldsymbol{x}_1) \Delta t \right) = \mathrm{Exp}_{\boldsymbol{x}_t} \left( \mathrm{Log}_{\boldsymbol{x}_t}(\boldsymbol{x}_1) \right) = \boldsymbol{x}_1. \tag{25 \text{的推导}}

  • 实际应用: 尽管这是在假设网络完美学习了目标向量场的情况下得出的理想结论,但在实践中,SRFMP 依然可以采用第一步使用大步长 Δt=1/λx\Delta t = 1/\lambda_x,后续使用小步长进行微调的策略,从而在极少的函数评估次数(NFE)下实现快速且精确的推理。


5. 实验设置

5.1. 数据集

论文在涵盖仿真和真实世界的共 10 个任务上进行了广泛的实验,这些任务具有不同的复杂度和几何约束。

  • Push-T Tasks:

    • Euclidean Push-T: 来自 [2] 的标准任务,在一个平面上推动一个T形物块到目标区域。动作空间为 R2\mathbb{R}^2
    • Sphere Push-T: 本文新引入的任务,将 Euclidean Push-T 的环境投影到一个二维球面上。这是一个用于验证黎曼流形上性能的基准。动作空间为球面 S2S^2
  • Robomimic Benchmark [10]: 一个大规模机器人操作基准。

    • 任务: LIFT, CAN, SQUARE, TOOL HANG, TRANSPORT。这些任务难度递增。
    • 数据: 使用 Proficient Human (PH) 高质量示教数据。
    • 观测: 分别在基于状态 (state-based)基于视觉 (vision-based) 的两种设置下进行实验。
    • 动作空间: R7\mathbb{R}^7 (末端执行器位置、姿态的轴角表示、夹爪状态)。
  • Franka Kitchen Benchmark [58]: 一个复杂的、长时域的操作任务。

    • 任务: 依次完成打开微波炉、放水壶、开灯、滑开柜门四个子任务。
    • 动作空间: 本文将其处理为末端执行器的位姿,空间为 R3×S3×R2\mathbb{R}^3 \times S^3 \times \mathbb{R}^2 (位置、四元数姿态、夹爪)。这个任务的预测时域非常长 (Tp=216T_p=216),动作序列维度高达 1944。
  • 真实机器人实验 (Real Robotic Experiments): 使用 Franka Emika Panda 机器人。

    • 任务 1: Pick & Place: 拾取一个杯子并放到指定位置。姿态变化较小。

    • 任务 2: Mug Flipping: 拾取一个水平放置的杯子,并将其竖直放下。需要精确的旋转控制。

    • 动作空间: R3×S3×R1\mathbb{R}^3 \times S^3 \times \mathbb{R}^1 (位置、四元数姿态、夹爪)。

      下图(原文 Figure 9, 10, 11)展示了真实机器人实验的设置和任务。

      Fig. 9. Robotic experimental setup consisting of two Franka Emika Panda robot arms and an over-the-shoulder camera (Realsense d435). The left arm is the target robot, while the right one acts as the source. During the teaching phase, a human expert controls the source arm to teleoperate the target robot. During testing, only the target arm is operational. 该图像是一个机器人实验设置,包含两个Franka Emika Panda机器人臂和一个肩背式摄像头(Realsense d435)。左侧的机器人臂是目标机器人,而右侧的机器人臂作为源机器人。在教学阶段,人类专家控制源机器人臂以遥控目标机器人。在测试阶段,仅目标机器人臂可操作。

      该图像是三张展示机器人操作的示意图,机器人正在执行将粉色盘子中的物体从盘子向杯子移动的任务。这些图像展示了运动过程中的不同阶段。 该图像是三张展示机器人操作的示意图,机器人正在执行将粉色盘子中的物体从盘子向杯子移动的任务。这些图像展示了运动过程中的不同阶段。

      Fig. 11. MUG FLIPPING: The robot rotates its end-effector to align with the white mug's orientation and subsequently grasps it. It then place the mug upright on the blue plate. 该图像是一个示意图,展示了机器人翻转白色杯子的过程。机器人首先旋转末端执行器,以对齐杯子的方向,然后抓取杯子,并将其竖直放置在蓝色盘子上。

5.2. 评估指标

  • 成功率 (Success Rate)

    • 概念定义: 在多次(仿真50次,真实世界10次)重复执行任务中,成功完成任务的试验次数所占的百分比。这是评估策略有效性的最核心指标。
    • 数学公式: Success Rate=i=1NI(Triali is successful)N \text{Success Rate} = \frac{\sum_{i=1}^{N} \mathbb{I}(\text{Trial}_i \text{ is successful})}{N}
    • 符号解释:
      • NN: 总试验次数。
      • I()\mathbb{I}(\cdot): 指示函数,当条件为真时取1,否则取0。
      • Triali\text{Trial}_i: 第 ii 次试验。
  • 函数评估次数 (Number of Function Evaluations, NFE)

    • 概念定义: 在一次推理(生成一个动作序列)过程中,调用神经网络(即向量场函数 vθv_{\boldsymbol{\theta}})的总次数。这个指标直接与推理时间 (inference time) 成正比。NFE 越低,推理速度越快。
    • 数学公式: 无标准化公式,它是在 ODE 求解器中设置的离散步数。
    • 符号解释: N/A
  • 轨迹平滑度 (Jerkiness)

    • 概念定义: Jerk 是加速度的变化率(即位置的三阶导数)。Jerkiness 通常指 Jerk 的某种范数或积分,用于衡量生成轨迹的平滑程度。Jerkiness 值越低,说明轨迹越平滑,对机器人硬件的冲击越小。
    • 数学公式: 论文中未提供,但一个常见的定义是均方加加速度(Mean Squared Jerk): Jerkiness=1T0Td3p(t)dt32dt \text{Jerkiness} = \frac{1}{T} \int_{0}^{T} \left\| \frac{d^3 \boldsymbol{p}(t)}{dt^3} \right\|^2 dt
    • 符号解释:
      • TT: 轨迹的总时长。
      • p(t)\boldsymbol{p}(t): 机器人末端执行器在时间 tt 的位置。
      • d3p(t)dt3\frac{d^3 \boldsymbol{p}(t)}{dt^3}: 位置对时间的三阶导数,即加加速度 (Jerk)。

5.3. 对比基线

  • 扩散策略 (Diffusion Policy, DP) [2]: 当前模仿学习领域最先进的基准之一。本文使用的是基于 DDIMDP,因为它比 DDPM 推理更快。对于流形数据,DP 的输出会进行后处理(如四元数归一化)。

  • 一致性策略 (Consistency Policy, CP) [3]: DP 的一种快速推理变体,通过蒸馏实现。本文将其作为另一个强大的基线,以证明 RFMP/SRFMP 不仅推理快,而且训练更简单。

  • 网络架构: 为了公平比较,所有方法(DP, CP, RFMP, SRFMP)都使用了相同的神经网络主干,包括用于视觉的 ResNet-18 和用于策略的 UNet 架构。这确保了性能差异主要来源于算法本身,而非网络结构。


6. 实验结果与分析

6.1. 核心结果分析

6.1.1. Push-T 任务

  • Euclidean Push-T (表 III):

    • 发现: SRFMP 在 NFE=1 时表现最佳 (87.5% 成功率),远超 DP (10.9%),展示了其单步生成的巨大潜力。RFMPSRFMP 在少量 NFE 下均优于 DPDP 需要大约 10 NFE 才能赶上它们的性能。

    • 分析: 这验证了 SRFMP 的加速推理策略是有效的。流匹配方法天然比扩散模型需要更少的推理步骤。

      以下是原文 Table III 的结果:

      Policy NFE
      1 3 5 10
      RFMP 0.848 0.855 0.923 0.891
      SRFMP 0.875 0.851 0.837 0.856
      DP 0.109 0.79 0.838 0.862
  • Sphere Push-T (表 VI):

    • 发现: RFMPSRFMP 能够很好地利用流形上的先验分布(如球面均匀分布),并取得良好性能。而 DP 无法有效处理流形先验,只有在使用欧氏高斯先验并结合后处理归一化时,性能才有所提升。

    • 分析: 这凸显了 RFMP/SRFMP 黎曼框架的优势,它们能从本质上处理几何约束,而不是将其作为事后补救。

      以下是原文 Table VI 的结果:

      Policy NFE
      1 3 5 10
      RFMP sphere uniform 0.871 0.746 0.77 0.817
      RFMP sphere Gaussian 0.587 0.724 0.748 0.733
      SRFMP sphere uniform 0.772 0.736 0.796 0.829
      SRFMP sphere Gaussian 0.707 0.706 0.735 0.707
      DP sphere uniform 0.274 0.261 0.235 0.197
      DP sphere Gaussian 0.170 0.162 0.231 0.227
      DP euclidean Gaussian 0.227 0.796 0.813 0.885
  • 积分时间鲁棒性 (表 VII):

    • 发现: 当推理积分时间延长到 t=1.6 时,RFMP 的性能急剧下降,而 SRFMP 的性能保持稳定。

    • 分析: 这强有力地证明了 SRFMP 的稳定性设计是有效的,解决了 RFMP 的一个关键弱点。

      以下是原文 Table VII 的结果:

      Euclidean PuSH-T t = 1.0 t = 1.2 t = 1.6
      RFMP 0.855 0.492 0.191
      SRFMP 0.862 0.851 0.829
      Sphere PuSH-T t = 1.0 t = 1.2 t = 1.6
      RFMP 0.736 0.574 0.264
      SRFMP 0.727 0.736 0.685

6.1.2. Robomimic Benchmark

  • 训练效率 (图 8):

    • 发现: 在多个任务中,RFMPSRFMP 仅用 20 个 epochs 就达到了很高的成功率,而 DP 在 50 个 epochs 后性能仍然很低。

    • 分析: 流匹配的训练目标(向量场回归)比扩散模型的去噪目标更容易学习,因此收敛更快。

      下图(原文 Figure 8)展示了 RFMP/SRFMP 优越的训练效率。

      Fig. 8. Success rate (mean and standard deviation) on Robomimic tasks with state-based observations at different checkpoints. The models performance of LIFT, CAN, and SQUARE tasks is checked every 10 epochs throughout the 50-epoch training process using 3 NFE. For the TooL HANG task, the models are trained over 100 epochs and checked every 20 epochs using \(1 0 ~ \\mathrm { N F E }\) . 该图像是图表,展示了在不同检查点下,基于状态的Robomimic任务的成功率(均值和标准差)。图中分别显示了LIFT、CAN、SQUARE和TooL HANG任务在不同训练轮次下的模型表现,使用了3 NFE和100个训练轮次的检查。

  • 性能与NFE (表 VIII, XI):

    • 发现: 无论是在基于状态还是基于视觉的观测下,RFMPSRFMP 在所有 NFE 设置下都一致地优于 DPCP。特别是在低 NFE (1或2) 时,DP 的性能很差,而 RFMP/SRFMP 依然保持高成功率。SRFMP 经常在 NFE=1 时就能达到 RFMP 在 NFE=3 时的性能。
    • 分析: 这再次证明了 RFMP/SRFMP 的推理高效性。SRFMP 甚至比 RFMP 更高效,因为它稳定的流路径更“直”,更容易求解。
  • 轨迹平滑度 (表 IX):

    • 发现: 在低 NFE 时,DP 的轨迹 Jerkiness 非常高(轨迹抖动剧烈),而 RFMP/SRFMP 的轨迹则平滑得多。
    • 分析: DP 在少步推理时,每一步的跳跃很大,导致不平滑。而流匹配的 ODE 过程天生更平滑。
  • 训练时间 (表 X):

    • 发现: RFMPSRFMP 的每轮训练时间与 DP 相当,但远少于 CPCP 的时间开销大约是其他方法的两倍(如果算上预训练教师模型,则为三倍)。
    • 分析: 这突显了 RFMP/SRFMP 简单的单阶段训练流程的优势,避免了 CP 复杂的蒸馏开销。

6.1.3. Franka Kitchen Benchmark (长时域任务)

  • 发现 (表 XII): 在这个极具挑战性的长时域任务中,SRFMP 取得了惊人的 100% 成功率,而 RFMPDP 的成功率非常低(分别最高 14% 和 2%)。

  • 分析: 长时域任务对每一步动作的精度要求极高,任何微小的累积误差都可能导致任务失败。SRFMP 的稳定性保证了其生成的动作轨迹非常精确和可靠,不会因为数值误差而偏离,从而成功完成所有子任务。这体现了稳定性在复杂任务中的决定性作用。

    以下是原文 Table XII 的结果:

    Policy NFE
    1 2 3 5 10
    RFMP 0.04 0.08 0.12 0.14 0.14
    SRFMP 1 1 1 1 1
    DP 0 0 0 0.02 0.02

6.1.4. 真实机器人实验

  • 发现 (图 12): 在 Pick & Place 和 Mug Flipping 两个真实任务中,结果与仿真一致。RFMPSRFMP 在低 NFE (如 NFE=2) 时就能达到高成功率,且轨迹平滑。相比之下,DP 需要更多 NFE 才能获得可比的成功率,并且在低 NFE 时轨迹非常抖动。

  • 分析: 这证明了 RFMP/SRFMP 的优势可以成功地从仿真迁移到真实世界,即使在存在传感器噪声和物理交互不确定性的情况下,它们依然表现出快速和鲁棒的特性。

    下图(原文 Figure 12)直观对比了真实世界任务中的性能。

    Fig. 12. Success rate and predicted actions jerkiness as a function of NFE on the PICK & PLACE and MUG FLIPPING tasks. 该图像是一个图表,展示了在 PICK & PLACE 和 MUG FLIPPING 任务中,NFE(每步迭代数)对成功率和预测动作的颤动影响。上方左侧为 PICK & PLACE 任务的成功率,右侧为其颤动情况;下方左侧为 MUG FLIPPING 任务的成功率,右侧为其颤动情况。

6.2. 消融实验/参数分析

  • 超参数分析 (表 IV, V): 论文对 RFMPSRFMP 的关键超参数进行了消融研究,如观测时域 ToT_o、预测时域 TpT_p、学习率 η\eta 等。
    • 关键发现: 较短的观测时域 (To=2T_o=2) 效果最好,说明策略主要依赖最近的信息。对于 SRFMP 的稳定性参数,λx=λτ=2.5\lambda_x = \lambda_\tau = 2.5 的设置效果最佳。这个设置下 λx/λτ=1\lambda_x / \lambda_\tau = 1,对应于一种特殊的流,其路径接近最优传输路径,有助于快速收敛。


7. 总结与思考

7.1. 结论总结

本文成功地提出了一个用于机器人视觉运动策略学习的新框架——黎曼流匹配策略 (RFMP) 及其稳定版本 (SRFMP)。该框架通过利用流匹配生成模型的优势,实现了简单高效的训练快速的推理

  • 主要贡献:

    1. RFMP 将流匹配的优势带入机器人策略学习,并利用黎曼几何处理机器人动作的内在约束。
    2. SRFMP 通过引入拉萨尔不变性原理,为 RFMP 增加了稳定性保证,显著提升了策略在复杂任务中的鲁棒性和精度,并允许更快的单步/少步推理。
  • 核心意义: 论文证明了流匹配作为一种生成模型范式,是 DP 的一个极具竞争力的替代品,它在机器人模仿学习任务中,特别是在对速度、鲁棒性和几何约束有高要求的场景下,展现出全面的优越性。SRFMP 的提出,更是将控制理论中的稳定性思想与生成模型巧妙结合,为开发更可靠的机器人智能系统提供了新的思路。

7.2. 局限性与未来工作

  • 作者指出的未来方向:
    1. 探索等变策略结构 (Equivariant Policy Structures): 结合等变性(如 SE(3)SE(3) 等变性)可以进一步增强策略的泛化能力,并可能减少对大量示教数据的依赖。
    2. 多模态感知主干网络 (Multi-modal Perception Backbones): 当前工作主要依赖视觉。未来可以融合触觉等其他模态的感知信息,以更好地处理富接触 (contact-rich) 的复杂操作任务。

7.3. 个人启发与批判

  • 启发:

    1. 跨学科思想的融合: 本文是机器学习(生成模型)、机器人学(运动策略)和控制理论(稳定性)思想成功融合的典范。将经典控制理论的稳定性和鲁棒性思想引入到数据驱动的深度学习模型中,是一个非常有价值的研究方向。
    2. 从根源解决问题: 面对 DP 的速度瓶颈,本文没有选择在 DP 框架内进行修补(如蒸馏),而是直接更换了底层的生成模型范式(FM),这种“换赛道”的思路往往能带来颠覆性的突破。
    3. 几何感知的重要性: 在机器人学等物理系统中,数据的几何结构是固有的。忽略这种结构往往会导致次优甚至错误的结果。本文强调了在模型设计之初就考虑几何先验的重要性。
  • 批判性思考与潜在改进点:

    1. SRFMP vs. RFMP 的性能差异: 尽管 SRFMP 在理论上更优越,并且在长时域任务中表现突出,但在许多简单任务上,其成功率与 RFMP 相比提升并不显著。这可能意味着在简单任务中,RFMP 的不稳定性问题并不严重,或者说稳定性带来的好处尚未完全体现。需要更深入地分析稳定性在不同类型任务中的具体作用。
    2. 先验分布的选择: 实验表明先验分布的选择对性能有影响。目前使用的是相对简单的均匀或高斯分布。未来可以研究更复杂的、甚至可学习的先验分布(如 D-Flow 中提到的),这可能进一步简化需要学习的向量场,提升性能。
    3. 计算复杂度: 虽然 RFMP/SRFMP 训练和推理更高效,但黎曼流形上的操作(如指数/对数映射)相比欧氏空间仍然有一定的计算开销。对于更复杂的流形,这些操作可能没有闭式解,需要数值近似,这会增加实现的复杂度和计算成本。论文选择的任务流形(球面、乘积流形)相对简单,其方法在更复杂流形上的可扩展性有待进一步验证。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。