论文状态:已完成

Real-Time Execution of Action Chunking Flow Policies

发表:2025/06/09
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为实时分块(RTC)的新算法,解决了现代大型视觉–语言–行动模型在物理世界实时控制中面临的推理延迟问题。该方法在执行当前动作分块时异步生成下一个分块,通过“冻结”即将执行的动作并修复剩余部分,确保跨分块的连续性。通过在Kinetix模拟器中的12个动态任务和6个真实双臂操控任务的验证,RTC显著提升了任务吞吐率及高精度任务的成功率,表现出色。

摘要

Modern AI systems, especially those interacting with the physical world, increasingly require real-time performance. However, the high latency of state-of-the-art generalist models, including recent vision-language action models (VLAs), poses a significant challenge. While action chunking has enabled temporal consistency in high-frequency control tasks, it does not fully address the latency problem, leading to pauses or out-of-distribution jerky movements at chunk boundaries. This paper presents a novel inference-time algorithm that enables smooth asynchronous execution of action chunking policies. Our method, real-time chunking (RTC), is applicable to any diffusion- or flow-based VLA out of the box with no re-training. It generates the next action chunk while executing the current one, "freezing" actions guaranteed to execute and "inpainting" the rest. To test RTC, we introduce a new benchmark of 12 highly dynamic tasks in the Kinetix simulator, as well as evaluate 6 challenging real-world bimanual manipulation tasks. Results demonstrate that RTC is fast, performant, and uniquely robust to inference delay, significantly improving task throughput and enabling high success rates in precise tasks \unicodex2013\unicode{x2013} such as lighting a match \unicodex2013\unicode{x2013} even in the presence of significant latency. See https://pi.website/research/real_time_chunking for videos.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Real-Time Execution of Action Chunking Flow Policies(实时执行动作分块的流匹配策略)

1.2. 作者

  • Kevin Black(Physical Intelligence;UC Berkeley)

  • Manuel Y. Galliker(Physical Intelligence)

  • Sergey Levine(Physical Intelligence;UC Berkeley)

    背景与机构:Physical Intelligence 是从事通用机器人学习与控制的研究机构;Sergey Levine 为强化学习与机器人学习领域的知名学者,长期从事模型学习、离线强化学习与模仿学习等研究。

1.3. 发表期刊/会议

  • arXiv 预印本(原文链接显示为 arXiv:2506.07339)

    在机器人学习与机器学习领域,arXiv 是前沿研究的主要发布渠道之一,通常后续会提交至顶级会议(如 NeurIPS、ICLR、ICRA、RSS 等)。

1.4. 发表年份

  • 2025 年

1.5. 摘要(精要)

论文针对大规模视觉–语言–行动模型(VLA, Vision-Language-Action Models)在物理世界实时控制中的推理延迟问题,提出一种仅在推理阶段使用、无需重新训练的新算法:实时分块(RTC, Real-Time Chunking)。该方法在执行当前动作分块的同时异步生成下一个分块,并将不可避免会执行的前缀动作“冻结”、对其余部分进行“修复补全(inpainting)”,以保持跨分块的连续性与一致性。方法在 Kinetix 模拟器的 12 个动态任务和 6 个真实双臂操控任务上验证,显示在显著推理延迟下仍能保持平滑与稳定,并显著提升吞吐效率与高精度任务(如点燃火柴)的成功率。

下图(原文 Figure 1)是方法在真实点燃火柴任务中的示意与效果比较:

Figure 1: Top: Real-time chunking (RTC) enables the robot to perform highly dexterous and dynamic tasks, such as lighting a atch—even in the presenceof inference delays in excess of 300 milliseconds, correspondin to more than \(30 \\%\) of the model's prediction horizon. Bottom: RTC performs the same robot motion \(20 \\%\) faster than synchronous inference \[5, 30, 8, 24, 31, 59\], and smoother than al competing methods, including temporal ensembling \[68\]. The shown positions, velocites, and accelerations correspond to the shoulder joint of on arm, and are taken from the first 10 seconds of a real autonomous match-lighting rollout. 该图像是示意图,展示了实时分块(RTC)在点燃火柴任务中的应用。在右侧,机器人在超过300毫秒的推理延迟下成功点燃火柴。下方的图表显示了肩关节在此过程中的位置、速度和加速度变化情况。实时分块显著提升了任务的流畅性和速度。

1.6. 原文与 PDF 链接

2. 整体概括

2.1. 研究背景与动机

  • 背景:随着通用大模型向物理世界扩展(如 VLA 控制真实机器人),实时性成为关键要求。与纯对话生成不同,实体机器人在“思考”期间世界仍在演化,延迟将导致性能下降甚至危险。
  • 动机:当前的“动作分块(Action Chunking)”策略(模型一次输出未来多个动作,执行其前几步)虽能提升时间一致性,但不能根治延迟问题:当推理耗时超过控制周期,默认“同步推理”会造成停顿;而异步切换分块又会产生“跨分块不连续(mode jump)”与“离分布(out-of-distribution)”的激烈加速度与抖动。
  • 空白(Gap):既要在异步推理中保持连续平滑,又要及时融入新观测,是现有方法的难点。已有平滑策略(如时间集成 Temporal Ensembling)对多模态控制分布并不适配,平均动作可能无效(如越障路径被平均后失效)。

2.2. 核心贡献/主要发现

  • 方法贡献:提出 RTC,将异步动作分块生成形式化为“修复补全(inpainting)”问题。通过在推理阶段对“重叠时间步”施加软掩膜引导(soft masking guidance),冻结必然执行的前缀,逐步修复后续动作,确保跨分块策略连续与兼容。
  • 适用范围:适用于任意扩散(Diffusion)或流匹配(Flow Matching)类策略,无需训练改动,开箱可用。
  • 实验结论:
    • 在 Kinetix 动态任务基准中,RTC 在不同延迟与执行地平线(Execution Horizon)设定下均优于强基线,包括 Bidirectional Decoding(BID)与 Temporal Ensembling(TE)。
    • 在 6 个真实双臂任务(含移动操控)中,RTC 显著提升平均吞吐率;在高精度任务如点燃火柴中,成功率与完成速度明显优于同步推理。
    • 在注入额外延迟(+100ms/+200ms)下,RTC 保持鲁棒性,而同步与 TE 出现退化或无法运行(触发机器人保护停机)。

3. 预备知识与相关工作

3.1. 基础概念

  • 动作分块(Action Chunking):策略(policy)每次输出一段未来动作序列(预测地平线 H),实际只执行前 s 步(执行地平线 s)。优点是时序一致性;缺点是对外界新信息反应迟缓,且分块衔接处易产生不连续。
  • 视觉–语言–行动模型(VLA, Vision-Language-Action):以视觉、语言输入为条件输出机器人动作的通用大模型。通常参数规模大、推理开销高,易出现延迟。
  • 流匹配(Flow Matching):一种生成建模方法,学习一个速度场(velocity field)以迭代地从噪声移动到样本。与扩散模型同宗同源(两者可相互转换)。
  • 修复补全(Inpainting):在生成任务中,给定部分已知或“冻结”的内容,对剩余区域进行一致性补全。本文将其类比到时间序列的动作生成。
  • 推理延迟(Inference Delay):模型生成下一分块所需时间以控制周期步数计的延迟 d;当 d > 0 时,异步执行与连续性保障成为核心挑战。

3.2. 前人工作(关键脉络)

  • 动作分块的多种实现:变分推断、扩散/流匹配、向量量化、字节对编码等。VLA 扩展到大规模模型后,在开放世界操控中展现强泛化。
  • 降低延迟的方向:一致性蒸馏、流直化、并行解码、渐进蒸馏等,但均无法将单次前向开销降到低于控制周期,只要前向推理超时,仍需异步执行策略。
  • 图像修复补全与引导(Guidance):训练外的引导(如伪逆引导 IGDM)已用于图像逆问题与修复补全。本文将类似思想引入动作时序生成,并针对低步数控制场景进行必要的稳定化改动(如引导权重裁剪)。
  • 闭环重采样(BID):通过拒绝采样保持跨分块连续,计算开销较大,且在本文动态基准上不如 RTC。
  • 实时控制与 MPC:在手工模型与代价函数驱动的场景中,MPC 可并行计算与执行,并用上个计划热启动。本文关注的则是模型自由(model-free)的模仿学习策略与开放世界操控。

3.3. 技术演进与差异化分析

  • 传统“同步推理”在 d > 0 时产生停顿,破坏动力学一致性;“天真异步”在分块切换处产生不连续与离分布动作。
  • 本文 RTC 的关键差异:
    • 以“时间修复补全”为核心范式:冻结必将执行的重叠前缀,用软掩膜在整个重叠区施加递减引导,兼顾新观测融入与跨分块策略一致性。

    • 引导权重裁剪与低步数稳定:针对控制场景常用的少量迭代步(如 n=5),通过裁剪引导强度,避免生成发散与剧烈加速度。

      下图(原文 Figure 2)展示了异步切换时的“策略分叉”问题:

      Figure 2: An illustration of a typical bifurcation between consecutive chunks. Inference is started between timesteps 3 and 4. The original chunk that was executing, \(\\left\\{ a _ { t } \\right\\}\) (black), had planned to go above the obstacle while the newly generated chunk \(\\left\\{ a _ { t } ^ { \\prime } \\right\\}\) (red) goes below the obstacle. However, \(\\left\\{ a _ { t } ^ { \\prime } \\right\\}\) is not available until \(d = 7\) steps later. A naive asynchronous algorithm might jump from `a _ { 1 0 }` to \(a _ { 1 1 } ^ { \\prime }\) , inducing a very high, outof-distribution acceleration. Temporal ensembling \[68\], i.e., interpolating between chunks, reduces the acceleration but produces poor actions. 该图像是示意图,展示了在连续动作块之间的典型分叉情况。图中描绘了两个动作序列:执行中的动作块 {at}\left\{ a_t \right\}(黑色)计划通过障碍物,而新生成的动作块 {at}\left\{ a_t' \right\}(红色)则选择绕过障碍物。推理在时间步 34 之间开始,但新动作块的执行需要延迟 d=7d=7 步。图中还提到,简单的异步算法可能会导致高加速度,而时间集成方法虽然减小了加速度,但效果不佳。

4. 方法论

4.1. 方法原理与直觉

核心思想:在异步推理中,下一分块生成时,上一个分块的前若干步已不可更改(它们会在新分块可用前被执行),因此将这些“重叠的、必然执行的动作”作为约束前缀冻结,并对后续动作进行“修复补全(inpainting)”。为了增强跨分块连续性,不仅对最前 d 步施加硬约束,还对全部重叠区(长度为 H - s)施加软权重引导,权重从前缀到分块末端指数衰减,体现“越未来越不确定”的理性。

4.2. 流匹配生成与引导修复补全(融合讲解)

4.2.1. 流匹配的基本生成更新

生成一个动作分块(长度 H)时,从高斯噪声出发,迭代应用速度场积分(n 步): Atτ+1n=Atτ+1nvπ(Atτ,ot,τ). \mathbf{A}_{t}^{\tau + \frac{1}{n}} = \mathbf{A}_{t}^{\tau} + \frac{1}{n}\,\mathbf{v}_{\pi}(\mathbf{A}_{t}^{\tau}, \mathbf{o}_{t}, \tau).

  • 符号解释:
    • At\mathbf{A}_{t}:在控制时刻 tt 的动作分块(包含未来 HH 个动作)。

    • τ[0,1)\tau \in [0,1):流匹配的“时间”参数(不是物理时间),递进表示去噪进度。

    • nn:迭代去噪步数。

    • vπ\mathbf{v}_{\pi}:策略的速度场(可由神经网络实现),输入当前估计的动作分块、观测 ot\mathbf{o}_{t}、以及进度 τ\tau

      直觉:这是“从噪声到样本”的迭代路径,速度场将当前估计推向符合数据分布的动作分块。

4.2.2. 训练外修复补全引导(IGDM 伪逆引导)的适配

为使最终生成与“冻结前缀 + 软引导重叠区”一致,在每步迭代中对速度场加入引导修正。原文给出训练外(training-free)修复补全算法(基于伪逆引导 IGDM),其在本文场景的专用表达为: vIIGDM(Atτ,ot,τ)=v(Atτ,ot,τ)+min ⁣(β,1ττrτ2)(YAt1^)diag(W)At1^Atτ,At1^=Atτ+(1τ)v(Atτ,ot,τ),rτ2=(1τ)2τ2+(1τ)2. \begin{aligned} \mathbf{v}_{\mathrm{IIGDM}}(\mathbf{A}_{t}^{\tau}, \mathbf{o}_{t}, \tau) &= \mathbf{v}(\mathbf{A}_{t}^{\tau}, \mathbf{o}_{t}, \tau) + \min\!\left(\beta, \frac{1-\tau}{\tau \cdot r_{\tau}^{2}}\right) \left(\mathbf{Y} - \widehat{\mathbf{A}_{t}^{1}}\right)^{\top}\mathrm{diag}(\mathbf{W}) \cdot \frac{\partial \widehat{\mathbf{A}_{t}^{1}}}{\partial \mathbf{A}_{t}^{\tau}},\\ \widehat{\mathbf{A}_{t}^{1}} &= \mathbf{A}_{t}^{\tau} + (1-\tau)\,\mathbf{v}(\mathbf{A}_{t}^{\tau}, \mathbf{o}_{t}, \tau),\\ r_{\tau}^{2} &= \frac{(1-\tau)^{2}}{\tau^{2} + (1-\tau)^{2}}. \end{aligned}

  • 符号解释与步骤融合:
    • v\mathbf{v}:基础速度场(不含引导)。

    • β\beta:引导权重的裁剪上限,用于稳定低步数去噪时的引导强度(防止 τ0\tau\to 0 时发散)。

    • Y\mathbf{Y}:目标向量(相当于“被遮蔽/冻结约束后的目标分块”)。

    • W\mathbf{W}:软掩膜权重(见 4.2.3),通过对角矩阵 diag(W)\mathrm{diag}(\mathbf{W}) 作用到误差项上。

    • At1^\widehat{\mathbf{A}_{t}^{1}}:从当前估计 Atτ\mathbf{A}_{t}^{\tau} 出发的一步前瞻估计(“最终去噪态”的线性近似)。

    • At1^Atτ\frac{\partial \widehat{\mathbf{A}_{t}^{1}}}{\partial \mathbf{A}_{t}^{\tau}}:该近似对当前估计的雅可比,用于构建向量–雅可比积(VJP),可通过反向自动微分获得。

    • min ⁣(β,1ττrτ2)\min\!\left(\beta, \frac{1-\tau}{\tau \cdot r_{\tau}^{2}}\right):引导强度,加入 β\beta 裁剪以避免首步过强引导导致不稳定。

      实现要点:

  • 在每个迭代步,将速度场替换为 vIIGDM\mathbf{v}_{\mathrm{IIGDM}},其中包含误差引导项(冻结与重叠区的“匹配”误差)与其对当前生成的敏感度(雅可比)。
  • 误差项采用软权重加权,增强跨分块策略的延续性。

4.2.3. 软掩膜权重(Soft Masking)的设计

为增强跨分块连续性,本文不只对不可更改的前 dd 步使用硬掩膜(权重=1),而是对整个重叠区(长度 H-s)使用随时间指数衰减的软权重: Wi={1,若 i<d,cieci1e1,若 di<Hs,0,若 iHs,ci=HsiHsd+1,i{0,,H1}. \mathbf{W}_{i} = \begin{cases} 1, & \text{若 } i<d,\\[4pt] c_{i}\,\dfrac{e^{c_{i}} - 1}{e - 1}, & \text{若 } d \le i < H - s,\\[6pt] 0, & \text{若 } i \ge H - s, \end{cases} \quad c_{i} = \dfrac{H - s - i}{H - s - d + 1},\quad i \in \{0,\ldots,H-1\}.

  • 符号解释:
    • ii:分块中的时间步索引。

    • dd:推理延迟对应的冻结前缀长度(新分块可用前将被执行的步数)。

    • ss:执行地平线(本分块计划执行的步数)。

    • HH:预测地平线(分块长度)。

    • cic_i:从重叠区末端向前归一化的位置系数,确保指数衰减从 1 平滑降至 0。

      直觉:软权重让“越近的重叠动作”被更强关注,从而新分块更可能延续前分块的策略模式;而“越远的重叠动作”权重更低,允许更多地融合新的观测与自适应修正。

下图(原文 Figure 3)说明了冻结区、软掩膜重叠区与新生成区的分布与引导权重:

该图像是示意图,展示了实时行动分块流策略的推理过程。在图中,横轴表示推理的开始与执行的时间段,包含多个动作 \(a_{-5}\) 到 \(a_{15}\)。纵轴展示了引导权重的变化,从1降到0,表示不同区域的动作执行状态:执行的动作、冻结的动作以及需要新生成的动作区域。图中还标注了执行地平线、推理延迟等重要参数,说明了实时分块算法的执行机制。 该图像是示意图,展示了实时行动分块流策略的推理过程。在图中,横轴表示推理的开始与执行的时间段,包含多个动作 a5a_{-5}a15a_{15}。纵轴展示了引导权重的变化,从1降到0,表示不同区域的动作执行状态:执行的动作、冻结的动作以及需要新生成的动作区域。图中还标注了执行地平线、推理延迟等重要参数,说明了实时分块算法的执行机制。

下图(原文 Figure 4)比较硬掩膜与软掩膜:硬掩膜导致对冻结区匹配较差,方向变化更猛;软掩膜更平滑、更一致。

Figure 4: A comparison of naive inpainting (hard masking) and our proposed soft masking method: note that hard masking does not match the frozen region very well and produces faster changes in direction. 该图像是一个图表,展示了硬掩膜和软掩膜方法的性能比较。图中蓝色曲线代表硬掩膜,绿色曲线代表软掩膜,黑色曲线表示之前的动作块。通过对比可以观察到,硬掩膜在与冻结区域匹配上表现不佳,并且在方向变化上速度较快。

4.3. 实时分块系统(Algorithm 1)

算法由两个协作线程构成:

  • 控制线程:周期性(每 Δt\Delta t)取动作并提供新观测(GETACTION)。

  • 后台推理线程:异步生成新分块(INFERENCELOOP),估计并保守设置下一次延迟 d,计算执行地平线 s,并调用带引导的去噪函数(GUIDEDINFERENCE)。

    以下是原文 Algorithm 1 的完整结构化伪代码(含合并单元格,使用 HTML 以保真转录):

    Algorithm 1 Real-Time Chunking
    Require: flow policy π with prediction horizon H, minimum execution horizon smin, mutex ℳ, condition variable ℂ associated with ℳ, initial chunk Ainit, initial delay estimate dinit, delay buffer size b, number of denoising steps n, maximum guidance weight β
    1: procedure INITIALIZESHAREDSTATE Initialize mutex-protected shared variables
    2: t = 0; Acur = Ainit, ocur = null
    3: function GETACTION(onext) Called at an interval of Δt by controller
    4: with ℳ acquired do
    5: t = t + 1
    6: ocur = onext
    7: notify ℂ
    8: return Acur[t − 1]
    9: procedure INFERENCELOOP Run inference in a looping background thread
    10: acquire ℳ
    11: Q = new Queue([dinit], maxlen=b) Holds a limited buffer of past inference delays
    12: loop
    13: wait on ℂ until t ≥ smin
    14: s = t   (s is the number of actions executed since last inference started)
    15: Aprev = Acur[s, s + 1, ..., H − 1]   (Remove the s actions that have already been executed)
    16: o = ocur
    17: d = max(Q)   (Estimate the next inference delay conservatively)
    18: with ℳ released do
    19: Anew = GUIDEDINFERENCE(π, o, Aprev, d, s)
    20: Acur = Anew   (Swap to the new chunk as soon as it is available)
    21: t = t − s   (Reset t so that it indexes into Anew)
    22: enqueue d onto Q   (Record the observed delay)
    23: function GUIDEDINFERENCE(π, o, Aprev, d, s)
    24: compute W using Eq. 5; right-pad Aprev to length H; initialize A0 ~ 𝒩(0, I)
    25: for τ = 0 to 1 with step size 1/n do
    26: fA1(A′) = A′ + (1 − τ) vπ(A′, o, τ)   (Define denoising function)
    27: e = (Aprev − fA1(Aτ)) · diag(W)   (Weighted error term)
    28: g = e · ∂fA1/∂A′ |A′=Aτ   (Vector–Jacobian product via autodiff)
    29: Aτ + 1/n = Aτ + (1/n) [ vπ(Aτ, o, τ) + min(β, (1−τ)/(τ rτ2)) g ]   (Integration step)
    30: return A1

注意:上述表格对原文中的对齐/合并单元进行了忠实还原;具体实现中,GUIDEDINFERENCE 的核心即将 4.2.2 的引导项作为速度场修正,并在每步迭代计算向量–雅可比积。

5. 实验设置

5.1. 数据集与任务

  • 模拟基准(Kinetix 动态任务):
    • 12 个高度动态、随机性强的操控/运动任务(含抛掷、接触、平衡等),其中 10 个来源于 Kinetix,2 个为新增环境。
    • 使用 RPO(Robust Policy Optimization)训练专家策略(每环境 6 个不同种子),再生成 100 万转换的数据集用于模仿学习。
    • 模仿策略采用流匹配,预测地平线 H=8H=8,4 层 MLP-Mixer 结构,训练 32 epoch。
    • 为模拟不完美执行,向动作注入高斯噪声;每个数据点报告二元成功率,2048 次推演(rollout)统计;延迟从 0 到 4(由 H=8H=8 限制)。
  • 真实世界任务(双臂系统,位置控制):
    • 基础策略:π0.5\pi_{0.5}(VLA),H=50H=50Δt=20ms\Delta t=20\mathrm{ms}n=5n=5 去噪步,模型延迟 76ms(基线)与 97ms(RTC)。
    • 局域网远程推理增加 10–20ms 网络延迟,初始 d6d\approx 6;同时注入 +100ms 与 +200ms 以测试更严重延迟(对应 d11d\approx 11d16d\approx 16)。
    • 6 个任务:点燃蜡烛(5 步,40s);插网线(6 步,120s);移动操控床铺整理(3 步,200s);折叠 T 恤(1 步,300s);批量折衣(4 步,300s);移动操控“把餐具送入水槽”(8 步,300s)。
    • 各任务 10 次试验,共 480 次推演,总计约 28 小时机器人运行;记录每步完成时间与最终评分(完成步数)。

5.2. 评估指标(定义–公式–符号)

  • 二元成功率(Binary Success Rate):
    • 概念:衡量任务是否成功完成(成功=1,失败=0),取平均。
    • 公式: SuccessRate=1Ni=1N1{episode i success}. \mathrm{SuccessRate} = \frac{1}{N}\sum_{i=1}^{N}\mathbb{1}\{\text{episode } i \text{ success}\}.
    • 符号解释:NN 为试验次数;1{}\mathbb{1}\{\cdot\} 为指示函数(成功为 1,失败为 0)。
  • 累积进展(Cumulative Progress):
    • 概念:按任务分步结构统计随时间完成的步数累计曲线。
    • 形式:不需公式化,依据记录的“完成第 k 步”时间戳累积可视化。
  • 平均吞吐率(Average Throughput):
    • 概念:同时衡量速度与性能,定义为“任务完成比例 / 试验时长”的平均值。
    • 公式(按 episode ii): Throughputi=ProgressiDurationi,Throughput=1Ni=1NThroughputi. \mathrm{Throughput}_{i} = \frac{\text{Progress}_{i}}{\text{Duration}_{i}},\quad \overline{\mathrm{Throughput}} = \frac{1}{N}\sum_{i=1}^{N}\mathrm{Throughput}_{i}.
    • 符号解释:Progressi\text{Progress}_{i} 为 episode ii 完成的任务比例(已完成步数/总步数);Durationi\text{Duration}_{i} 为该 episode 的总时长;NN 为试验总数。误差棒为均值的标准误(SEM)。

5.3. 对比基线

  • 模拟基准:
    • 天真异步(Naive Async):不利用上一分块,直接在新分块可用时切换。
    • BID(Bidirectional Decoding):闭环拒绝采样保持连续性,本文设批量 N=32N=32、模式大小 K=3K=3,弱策略用 8 epoch 检查点。
    • TE(Temporal Ensembling):对重叠分块预测的同一步动作进行平均。
  • 真实世界:
    • 同步(Synchronous):执行 s=25s=25 步后暂停等待下一分块(默认策略)。
    • TE, sparse:执行 s=25s=25 步,同时并行生成下一个分块;对有限重叠步进行集成平均。
    • TE, dense:尽可能频繁推理,令 s=ds=d,确保至少两段重叠可用于集成。

6. 实验结果与分析

6.1. 核心结果分析(模拟)

下图(原文 Figure 5)展示了在 Kinetix 动态任务上的表现对比(左:执行地平线与成功率;右:延迟与成功率):

该图像是一个示意图,展示了在不同执行时间和推理延迟下的解决率表现。左上方为动态任务的环境示例,右侧展示了不同环境下的解决率曲线。结果显示RTC(红色线)在各种推理延迟下均优于其他比较方法。 该图像是一个示意图,展示了在不同执行时间和推理延迟下的解决率表现。左上方为动态任务的环境示例,右侧展示了不同环境下的解决率曲线。结果显示RTC(红色线)在各种推理延迟下均优于其他比较方法。

关键结论:

  • TE 在多模态控制分布上表现不佳,即便 d=0d=0,平均动作并不必然有效。
  • RTC 在不同延迟下最稳健,优于 BID;随着延迟增大,该优势进一步扩大。需强调 BID 计算代价更高(批采样 64 个分块),而 RTC 通过引导修复实现连续。
  • 软掩膜优于硬掩膜,尤其在延迟较小时更明显,证明软权重能增强策略延续性。
  • RTC 随执行地平线减小(更频繁闭环修正)表现更好,能充分利用新观测及时纠错,体现跨分块连续性带来的自适应优势。

6.2. 核心结果分析(真实世界)

下图(原文 Figure 6)总结了各任务的累积进展(上)与跨延迟的平均吞吐率(下):

Figure 6: Top: Controller steps (equivalent to elapsed time with inference pauses removed multiplied by \(5 0 \\mathrm { H z }\) s. cumulative progress for each task, aggregated across all delays. Progress is measured in discrete steps corresponding to the subsections of each task. Left: Time (including inference pauses) vs. cumulative progres aggregated across all tasks. The \(\\mathbf { X }\) -axis is log scale to better show progress during both short and long-horizon tasks. Right: Inference delay vs. average throughput, defined as the proportion of task completed divided by duration of episode averaged over episodes. Error bars are \(\\pm 1\) SEM. Average throughput gives a balanced view of both speed and performance for each method. Neither TE variant can run at \(+ 1 0 0\) or \(+ 2 0 0 \\mathrm { m s }\) of injected latency, causing such high oscillations that the robot's protective stop is triggered. 该图像是一个图表,展示了不同方法在多个任务中的累积进展和平均吞吐量。上部显示了每个任务在控制步骤与时间的关系,下部则比较了在不同延迟情况下各方法的表现,包含 +0extms+0 ext{ms}+100extms+100 ext{ms}+200extms+200 ext{ms}

关键结论:

  • RTC 在所有延迟下的平均吞吐率均最高;在 +100ms 与 +200ms 延迟下优势具有统计显著性。
  • RTC 对注入延迟完全鲁棒:吞吐不降;同步策略线性退化;两种 TE 在高延迟下因引发强烈振荡而无法运行(触发保护停机)。
  • 逐任务分析:RTC 不仅提升速度,还减少错误与重试。在去除推理暂停的时间尺度上,RTC完成更多步骤(更少犯错、更早完成)。在高精度任务(点燃蜡烛)上,RTC 的最终得分明显更高,反映了成功率提升。

6.3. 消融与参数分析

下图(原文 Figure 7)分析引导裁剪参数 β\beta 与迭代步数对稳定性的影响:

该图像是图表,展示了与实时动作分块策略相关的多个关键性能指标。上方左图显示了值与参数 \(\\tau\) 的关系,表明其在一定范围内的变化。右侧图表描绘了解决率与参数 \(\\beta\) 的关系,并根据延迟的不同进行了分组。下方左图反映了步骤与辐角的变化,强调了先前分块与不同步数的比较。右侧则展示了最大加速度相对于 \(\\beta\) 的变化趋势,说明了加速度的增长。 该图像是图表,展示了与实时动作分块策略相关的多个关键性能指标。上方左图显示了值与参数 τ\tau 的关系,表明其在一定范围内的变化。右侧图表描绘了解决率与参数 β\beta 的关系,并根据延迟的不同进行了分组。下方左图反映了步骤与辐角的变化,强调了先前分块与不同步数的比较。右侧则展示了最大加速度相对于 β\beta 的变化趋势,说明了加速度的增长。

  • 结论:在控制常用的少步数(如 n=5n=5)下,过高的引导权重会导致生成发散与高加速度;设置 β=5\beta=5 的保守裁剪即可获得稳定与良好效果。

    下图(原文 Figure 8 左)对软掩膜指数/线性/无衰减进行消融:

    Figur 8: Let: Simulated ablation over different schedules for sot masking weights (Eq 5). Exponential decay performs the best overal although linear decay is very close behind. Right:Comparison with the inpainting algorithm from Diffuser \[26\], which overwrites a portion of the action chunk with the desired actions at each deWhihi nheapepeo l oi bee d by our guidance-based approach. 该图像是一个比较不同调度策略对解决率影响的图表,其中展示了在不同推理延迟下使用指数衰减、线性衰减和无衰减策略的解决率变化。图中显示了各个任务(如 car_launch 和 cartpole_thrust)的解决率,平均解决率位于底部,突显了不同策略在效率上的差异。

  • 结论:指数衰减整体最优,线性次之;无衰减明显不如前两者。指数衰减能更好体现“越近越确定、越远越不确定”的时间结构。

    此外,原文还将 Diffuser 的修复补全(右图)与本文引导法比较,发现简单“覆盖部分动作”的方法在本文场景下不如引导驱动的软掩膜修复。

6.4. 表格数据(完整转录)

以下是原文 Table 1 的结果(不同方法在 π0.5\pi_{0.5} 上的模型推理延迟;仅包含神经网络推理、bfloat16 精度,RTX 4090,n=5,每 10 次试验均值,5 次热身后统计):

Method Latency
RTC (ours) 97ms
BID with N = 16 (no forward model) 115ms
BID with N = 16 (shared backbone) 169ms
BID with N = 16 (full) 223ms
Vanilla π0.5 76ms

以下是原文 Table 2 的结果(RTC 总延迟分解;“图像缩放”在机器人侧 CPU;移动操控为 Intel i7-1260P;非移动为 AMD Ryzen 9 7950X;模型推理在 RTX 4090;LAN 有线;WebSocket):

Component Time (mobile) Time (non-mobile)
Model 96.89 ± 0.16ms 97.43 ± 0.28ms
Network 21.20 ± 3.12ms 6.89 ± 2.39ms
Image resize 11.22 ± 5.00ms 1.44 ± 0.27ms
Other 9.67 ± 3.20ms 3.00 ± 0.68ms
Total 138.98 ± 6.71ms 108.76 ± 2.34ms

以下是原文 Table 3 的结果(模型推理延迟分解;RTX 4090;RTC 每步去噪开销约为原始的 2.5 倍):

Component Time (no RTC) Time (with RTC)
Image encoders (SigLIP) 18ms 18ms
LLM prefill (Gemma 2B) 44ms 44ms
Denoising step (x5) 14ms 35ms
Total 76ms 97ms

以下是原文 Table 4 的结果(RTC 超参数):

Hyperparameter Description Simulation Real-world
n Denoising steps 5 5
H Prediction horizon 8 50
smin Minimum execution horizon - 25
β Guidance weight clipping 5 5
b Delay buffer size - 10

7. 总结与思考

7.1. 结论总结

  • 本文提出了实时分块(RTC)这一推理期算法,将异步动作分块生成转化为修复补全问题,通过对重叠区的软掩膜引导与冻结前缀一致性约束,实现跨分块的平滑连续。
  • RTC 无需重训练,适用于扩散/流匹配类策略,且在模拟与真实场景均验证了显著优势:在延迟存在时保持稳定与高效,提升平均吞吐,减少振荡与停顿,特别适合精细操控任务。
  • 软掩膜与引导权重裁剪是控制场景少步数去噪时的关键设计,确保生成稳定与连续。

7.2. 局限性与未来工作

  • 局限性:
    • 计算开销高于直接采样(需每步计算引导与向量–雅可比积),相较于 Vanilla 策略有额外 20ms 左右的模型推理时延。
    • 仅适用于扩散/流匹配类策略。
    • 真实实验主要为操控任务,尚未覆盖如腿式运动等更高动态实物任务。
  • 未来工作:
    • 将 RTC 拓展到更为动态的真实平台(如腿式机器人),进一步检验高频闭环控制中的优势。
    • 探索与层级 VLA(System 2/1)结构的协同(高层低频规划、低层高频动作),减少低层模型规模限制与训练成本。
    • 结合加速推理方法(如一致性蒸馏、并行解码)进一步降低 RTC 的算力与时延负担。

7.3. 个人启发与批判

  • 启发:
    • 将图像修复补全类“局部一致性”思想迁移到时间序列控制,使用软权重随时间递减,是将“空间–时间一致性”统一到生成引导中的优雅手法。
    • 在少步数控制场景引入权重裁剪的稳定化改动,体现了方法对实际工程约束的敏感与实用性。
  • 可迁移性:
    • 该修复补全引导范式可推广到其他序列生成场景(如语音动作合成、视觉预测),尤其在需要“部分冻结 + 局部一致性”的在线生成场景。
  • 批判与改进:
    • 计算开销仍是 RTC 的主要痛点;如何进一步减少引导计算(如近似雅可比、低秩/块结构利用)值得深入。

    • 在多模态极强的策略分布下,软掩膜可能仍不足以阻止策略“改弦更张”;未来可结合不确定性估计、目标价值引导(value-guided)等进一步增强稳健性。

    • 对真实系统安全性的系统化分析(如在不同延迟、不同干扰下的保护策略)可更全面地支撑大规模部署。

      (完)

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。