论文状态：已完成

Real-Time Execution of Action Chunking Flow Policies

发表：2025/06/09

视觉语言动作模型 (30)实时动作分块策略执行 (1)高频控制任务 (1)Kinetix模拟器 (1)动作分块算法 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为实时分块（RTC）的新算法，解决了现代大型视觉–语言–行动模型在物理世界实时控制中面临的推理延迟问题。该方法在执行当前动作分块时异步生成下一个分块，通过“冻结”即将执行的动作并修复剩余部分，确保跨分块的连续性。通过在Kinetix模拟器中的12个动态任务和6个真实双臂操控任务的验证，RTC显著提升了任务吞吐率及高精度任务的成功率，表现出色。

摘要

Modern AI systems, especially those interacting with the physical world, increasingly require real-time performance. However, the high latency of state-of-the-art generalist models, including recent vision-language action models (VLAs), poses a significant challenge. While action chunking has enabled temporal consistency in high-frequency control tasks, it does not fully address the latency problem, leading to pauses or out-of-distribution jerky movements at chunk boundaries. This paper presents a novel inference-time algorithm that enables smooth asynchronous execution of action chunking policies. Our method, real-time chunking (RTC), is applicable to any diffusion- or flow-based VLA out of the box with no re-training. It generates the next action chunk while executing the current one, "freezing" actions guaranteed to execute and "inpainting" the rest. To test RTC, we introduce a new benchmark of 12 highly dynamic tasks in the Kinetix simulator, as well as evaluate 6 challenging real-world bimanual manipulation tasks. Results demonstrate that RTC is fast, performant, and uniquely robust to inference delay, significantly improving task throughput and enabling high success rates in precise tasks $\unicode{x2013}$ such as lighting a match $\unicode{x2013}$ even in the presence of significant latency. See https://pi.website/research/real_time_chunking for videos.

思维导图

论文精读

中文精读约 19 分钟读完 · 12,606 字

1. 论文基本信息

1.1. 标题

Real-Time Execution of Action Chunking Flow Policies（实时执行动作分块的流匹配策略）

1.2. 作者

Kevin Black（Physical Intelligence；UC Berkeley）
Manuel Y. Galliker（Physical Intelligence）
Sergey Levine（Physical Intelligence；UC Berkeley）

背景与机构：Physical Intelligence 是从事通用机器人学习与控制的研究机构；Sergey Levine 为强化学习与机器人学习领域的知名学者，长期从事模型学习、离线强化学习与模仿学习等研究。

1.3. 发表期刊/会议

arXiv 预印本（原文链接显示为 arXiv:2506.07339）

在机器人学习与机器学习领域，arXiv 是前沿研究的主要发布渠道之一，通常后续会提交至顶级会议（如 NeurIPS、ICLR、ICRA、RSS 等）。

1.4. 发表年份

2025 年

1.5. 摘要（精要）

论文针对大规模视觉–语言–行动模型（VLA, Vision-Language-Action Models）在物理世界实时控制中的推理延迟问题，提出一种仅在推理阶段使用、无需重新训练的新算法：实时分块（RTC, Real-Time Chunking）。该方法在执行当前动作分块的同时异步生成下一个分块，并将不可避免会执行的前缀动作“冻结”、对其余部分进行“修复补全（inpainting）”，以保持跨分块的连续性与一致性。方法在 Kinetix 模拟器的 12 个动态任务和 6 个真实双臂操控任务上验证，显示在显著推理延迟下仍能保持平滑与稳定，并显著提升吞吐效率与高精度任务（如点燃火柴）的成功率。

下图（原文 Figure 1）是方法在真实点燃火柴任务中的示意与效果比较：

$Figure 1: Top: Real-time chunking (RTC) enables the robot to perform highly dexterous and dynamic tasks, such as lighting a atch—even in the presenceof inference delays in excess of 300 milliseconds, correspondin to more than $30 \\%$ of the model's prediction horizon. Bottom: RTC performs the same robot motion $20 \\%$ faster than synchronous inference \[5, 30, 8, 24, 31, 59\], and smoother than al competing methods, including temporal ensembling \[68\]. The shown positions, velocites, and accelerations correspond to the shoulder joint of on arm, and are taken from the first 10 seconds of a real autonomous match-lighting rollout.$ 该图像是示意图，展示了实时分块（RTC）在点燃火柴任务中的应用。在右侧，机器人在超过300毫秒的推理延迟下成功点燃火柴。下方的图表显示了肩关节在此过程中的位置、速度和加速度变化情况。实时分块显著提升了任务的流畅性和速度。

1.6. 原文与 PDF 链接

原文链接: https://arxiv.org/abs/2506.07339
PDF 链接: https://arxiv.org/pdf/2506.07339v2.pdf

状态：arXiv 预印本。

2. 整体概括

2.1. 研究背景与动机

背景：随着通用大模型向物理世界扩展（如 VLA 控制真实机器人），实时性成为关键要求。与纯对话生成不同，实体机器人在“思考”期间世界仍在演化，延迟将导致性能下降甚至危险。
动机：当前的“动作分块（Action Chunking）”策略（模型一次输出未来多个动作，执行其前几步）虽能提升时间一致性，但不能根治延迟问题：当推理耗时超过控制周期，默认“同步推理”会造成停顿；而异步切换分块又会产生“跨分块不连续（mode jump）”与“离分布（out-of-distribution）”的激烈加速度与抖动。
空白（Gap）：既要在异步推理中保持连续平滑，又要及时融入新观测，是现有方法的难点。已有平滑策略（如时间集成 Temporal Ensembling）对多模态控制分布并不适配，平均动作可能无效（如越障路径被平均后失效）。

2.2. 核心贡献/主要发现

方法贡献：提出 RTC，将异步动作分块生成形式化为“修复补全（inpainting）”问题。通过在推理阶段对“重叠时间步”施加软掩膜引导（soft masking guidance），冻结必然执行的前缀，逐步修复后续动作，确保跨分块策略连续与兼容。
适用范围：适用于任意扩散（Diffusion）或流匹配（Flow Matching）类策略，无需训练改动，开箱可用。
实验结论：
- 在 Kinetix 动态任务基准中，RTC 在不同延迟与执行地平线（Execution Horizon）设定下均优于强基线，包括 Bidirectional Decoding（BID）与 Temporal Ensembling（TE）。
- 在 6 个真实双臂任务（含移动操控）中，RTC 显著提升平均吞吐率；在高精度任务如点燃火柴中，成功率与完成速度明显优于同步推理。
- 在注入额外延迟（+100ms/+200ms）下，RTC 保持鲁棒性，而同步与 TE 出现退化或无法运行（触发机器人保护停机）。

3. 预备知识与相关工作

3.1. 基础概念

动作分块（Action Chunking）：策略（policy）每次输出一段未来动作序列（预测地平线 H），实际只执行前 s 步（执行地平线 s）。优点是时序一致性；缺点是对外界新信息反应迟缓，且分块衔接处易产生不连续。
视觉–语言–行动模型（VLA, Vision-Language-Action）：以视觉、语言输入为条件输出机器人动作的通用大模型。通常参数规模大、推理开销高，易出现延迟。
流匹配（Flow Matching）：一种生成建模方法，学习一个速度场（velocity field）以迭代地从噪声移动到样本。与扩散模型同宗同源（两者可相互转换）。
修复补全（Inpainting）：在生成任务中，给定部分已知或“冻结”的内容，对剩余区域进行一致性补全。本文将其类比到时间序列的动作生成。
推理延迟（Inference Delay）：模型生成下一分块所需时间以控制周期步数计的延迟 d；当 d > 0 时，异步执行与连续性保障成为核心挑战。

3.2. 前人工作（关键脉络）

动作分块的多种实现：变分推断、扩散/流匹配、向量量化、字节对编码等。VLA 扩展到大规模模型后，在开放世界操控中展现强泛化。
降低延迟的方向：一致性蒸馏、流直化、并行解码、渐进蒸馏等，但均无法将单次前向开销降到低于控制周期，只要前向推理超时，仍需异步执行策略。
图像修复补全与引导（Guidance）：训练外的引导（如伪逆引导 IGDM）已用于图像逆问题与修复补全。本文将类似思想引入动作时序生成，并针对低步数控制场景进行必要的稳定化改动（如引导权重裁剪）。
闭环重采样（BID）：通过拒绝采样保持跨分块连续，计算开销较大，且在本文动态基准上不如 RTC。
实时控制与 MPC：在手工模型与代价函数驱动的场景中，MPC 可并行计算与执行，并用上个计划热启动。本文关注的则是模型自由（model-free）的模仿学习策略与开放世界操控。

3.3. 技术演进与差异化分析

传统“同步推理”在 d > 0 时产生停顿，破坏动力学一致性；“天真异步”在分块切换处产生不连续与离分布动作。
本文 RTC 的关键差异：
- 以“时间修复补全”为核心范式：冻结必将执行的重叠前缀，用软掩膜在整个重叠区施加递减引导，兼顾新观测融入与跨分块策略一致性。
- 引导权重裁剪与低步数稳定：针对控制场景常用的少量迭代步（如 n=5），通过裁剪引导强度，避免生成发散与剧烈加速度。
  
  下图（原文 Figure 2）展示了异步切换时的“策略分叉”问题：
  
  $Figure 2: An illustration of a typical bifurcation between consecutive chunks. Inference is started between timesteps 3 and 4. The original chunk that was executing, $\\left\\{ a _ { t } \\right\\}$ (black), had planned to go above the obstacle while the newly generated chunk $\\left\\{ a _ { t } ^ { \\prime } \\right\\}$ (red) goes below the obstacle. However, $\\left\\{ a _ { t } ^ { \\prime } \\right\\}$ is not available until $d = 7$ steps later. A naive asynchronous algorithm might jump from `a _ { 1 0 }` to $a _ { 1 1 } ^ { \\prime }$ , inducing a very high, outof-distribution acceleration. Temporal ensembling \[68\], i.e., interpolating between chunks, reduces the acceleration but produces poor actions.$ 该图像是示意图，展示了在连续动作块之间的典型分叉情况。图中描绘了两个动作序列：执行中的动作块 $\left\{ a_t \right\}$ （黑色）计划通过障碍物，而新生成的动作块 $\left\{ a_t' \right\}$ （红色）则选择绕过障碍物。推理在时间步 3 和 4 之间开始，但新动作块的执行需要延迟 $d=7$ 步。图中还提到，简单的异步算法可能会导致高加速度，而时间集成方法虽然减小了加速度，但效果不佳。

4. 方法论

4.1. 方法原理与直觉

核心思想：在异步推理中，下一分块生成时，上一个分块的前若干步已不可更改（它们会在新分块可用前被执行），因此将这些“重叠的、必然执行的动作”作为约束前缀冻结，并对后续动作进行“修复补全（inpainting）”。为了增强跨分块连续性，不仅对最前 d 步施加硬约束，还对全部重叠区（长度为 H - s）施加软权重引导，权重从前缀到分块末端指数衰减，体现“越未来越不确定”的理性。

4.2. 流匹配生成与引导修复补全（融合讲解）

4.2.1. 流匹配的基本生成更新

生成一个动作分块（长度 H）时，从高斯噪声出发，迭代应用速度场积分（n 步）： $\mathbf{A}_{t}^{\tau + \frac{1}{n}} = \mathbf{A}_{t}^{\tau} + \frac{1}{n}\,\mathbf{v}_{\pi}(\mathbf{A}_{t}^{\tau}, \mathbf{o}_{t}, \tau).$

符号解释：
- $\mathbf{A}_{t}$ ：在控制时刻 $t$ 的动作分块（包含未来 $H$ 个动作）。
- $\tau \in [0,1)$ ：流匹配的“时间”参数（不是物理时间），递进表示去噪进度。
- $n$ ：迭代去噪步数。
- $\mathbf{v}_{\pi}$ ：策略的速度场（可由神经网络实现），输入当前估计的动作分块、观测 $\mathbf{o}_{t}$ 、以及进度 $\tau$ 。
  
  直觉：这是“从噪声到样本”的迭代路径，速度场将当前估计推向符合数据分布的动作分块。

4.2.2. 训练外修复补全引导（IGDM 伪逆引导）的适配

为使最终生成与“冻结前缀 + 软引导重叠区”一致，在每步迭代中对速度场加入引导修正。原文给出训练外（training-free）修复补全算法（基于伪逆引导 IGDM），其在本文场景的专用表达为： $\begin{aligned} \mathbf{v}_{\mathrm{IIGDM}}(\mathbf{A}_{t}^{\tau}, \mathbf{o}_{t}, \tau) &= \mathbf{v}(\mathbf{A}_{t}^{\tau}, \mathbf{o}_{t}, \tau) + \min\!\left(\beta, \frac{1-\tau}{\tau \cdot r_{\tau}^{2}}\right) \left(\mathbf{Y} - \widehat{\mathbf{A}_{t}^{1}}\right)^{\top}\mathrm{diag}(\mathbf{W}) \cdot \frac{\partial \widehat{\mathbf{A}_{t}^{1}}}{\partial \mathbf{A}_{t}^{\tau}},\\ \widehat{\mathbf{A}_{t}^{1}} &= \mathbf{A}_{t}^{\tau} + (1-\tau)\,\mathbf{v}(\mathbf{A}_{t}^{\tau}, \mathbf{o}_{t}, \tau),\\ r_{\tau}^{2} &= \frac{(1-\tau)^{2}}{\tau^{2} + (1-\tau)^{2}}. \end{aligned}$

符号解释与步骤融合：
- $\mathbf{v}$ ：基础速度场（不含引导）。
- $\beta$ ：引导权重的裁剪上限，用于稳定低步数去噪时的引导强度（防止 $\tau\to 0$ 时发散）。
- $\mathbf{Y}$ ：目标向量（相当于“被遮蔽/冻结约束后的目标分块”）。
- $\mathbf{W}$ ：软掩膜权重（见 4.2.3），通过对角矩阵 $\mathrm{diag}(\mathbf{W})$ 作用到误差项上。
- $\widehat{\mathbf{A}_{t}^{1}}$ ：从当前估计 $\mathbf{A}_{t}^{\tau}$ 出发的一步前瞻估计（“最终去噪态”的线性近似）。
- $\frac{\partial \widehat{\mathbf{A}_{t}^{1}}}{\partial \mathbf{A}_{t}^{\tau}}$ ：该近似对当前估计的雅可比，用于构建向量–雅可比积（VJP），可通过反向自动微分获得。
- $\min\!\left(\beta, \frac{1-\tau}{\tau \cdot r_{\tau}^{2}}\right)$ ：引导强度，加入 $\beta$ 裁剪以避免首步过强引导导致不稳定。
  
  实现要点：
在每个迭代步，将速度场替换为 $\mathbf{v}_{\mathrm{IIGDM}}$ ，其中包含误差引导项（冻结与重叠区的“匹配”误差）与其对当前生成的敏感度（雅可比）。
误差项采用软权重加权，增强跨分块策略的延续性。

4.2.3. 软掩膜权重（Soft Masking）的设计

为增强跨分块连续性，本文不只对不可更改的前 $d$ 步使用硬掩膜（权重=1），而是对整个重叠区（长度 H-s）使用随时间指数衰减的软权重： $\mathbf{W}_{i} = \begin{cases} 1, & \text{若 } i<d,\\[4pt] c_{i}\,\dfrac{e^{c_{i}} - 1}{e - 1}, & \text{若 } d \le i < H - s,\\[6pt] 0, & \text{若 } i \ge H - s, \end{cases} \quad c_{i} = \dfrac{H - s - i}{H - s - d + 1},\quad i \in \{0,\ldots,H-1\}.$

符号解释：
- $i$ ：分块中的时间步索引。
- $d$ ：推理延迟对应的冻结前缀长度（新分块可用前将被执行的步数）。
- $s$ ：执行地平线（本分块计划执行的步数）。
- $H$ ：预测地平线（分块长度）。
- $c_i$ ：从重叠区末端向前归一化的位置系数，确保指数衰减从 1 平滑降至 0。
  
  直觉：软权重让“越近的重叠动作”被更强关注，从而新分块更可能延续前分块的策略模式；而“越远的重叠动作”权重更低，允许更多地融合新的观测与自适应修正。

下图（原文 Figure 3）说明了冻结区、软掩膜重叠区与新生成区的分布与引导权重：

$该图像是示意图，展示了实时行动分块流策略的推理过程。在图中，横轴表示推理的开始与执行的时间段，包含多个动作 $a_{-5}$ 到 $a_{15}$。纵轴展示了引导权重的变化，从1降到0，表示不同区域的动作执行状态：执行的动作、冻结的动作以及需要新生成的动作区域。图中还标注了执行地平线、推理延迟等重要参数，说明了实时分块算法的执行机制。$ 该图像是示意图，展示了实时行动分块流策略的推理过程。在图中，横轴表示推理的开始与执行的时间段，包含多个动作 $a_{-5}$ 到 $a_{15}$ 。纵轴展示了引导权重的变化，从1降到0，表示不同区域的动作执行状态：执行的动作、冻结的动作以及需要新生成的动作区域。图中还标注了执行地平线、推理延迟等重要参数，说明了实时分块算法的执行机制。

下图（原文 Figure 4）比较硬掩膜与软掩膜：硬掩膜导致对冻结区匹配较差，方向变化更猛；软掩膜更平滑、更一致。

Figure 4: A comparison of naive inpainting (hard masking) and our proposed soft masking method: note that hard masking does not match the frozen region very well and produces faster changes in direction. 该图像是一个图表，展示了硬掩膜和软掩膜方法的性能比较。图中蓝色曲线代表硬掩膜，绿色曲线代表软掩膜，黑色曲线表示之前的动作块。通过对比可以观察到，硬掩膜在与冻结区域匹配上表现不佳，并且在方向变化上速度较快。

4.3. 实时分块系统（Algorithm 1）

算法由两个协作线程构成：

控制线程：周期性（每 $\Delta t$ ）取动作并提供新观测（GETACTION）。

后台推理线程：异步生成新分块（INFERENCELOOP），估计并保守设置下一次延迟 d，计算执行地平线 s，并调用带引导的去噪函数（GUIDEDINFERENCE）。

以下是原文 Algorithm 1 的完整结构化伪代码（含合并单元格，使用 HTML 以保真转录）：

Algorithm 1 Real-Time Chunking
Require: flow policy π with prediction horizon H, minimum execution horizon s_min, mutex ℳ, condition variable ℂ associated with ℳ, initial chunk A_init, initial delay estimate d_init, delay buffer size b, number of denoising steps n, maximum guidance weight β
1: procedure INITIALIZESHAREDSTATE Initialize mutex-protected shared variables
2: t = 0; A_cur = A_init, o_cur = null
3: function GETACTION(o_next) Called at an interval of Δt by controller
4:	with ℳ acquired do
5:	t = t + 1
6:	o_cur = o_next
7:	notify ℂ
8:	return A_cur[t − 1]
9: procedure INFERENCELOOP		Run inference in a looping background thread
10:	acquire ℳ
11:	Q = new Queue([d_init], maxlen=b)	Holds a limited buffer of past inference delays
12:	loop
13:	wait on ℂ until t ≥ s_min
14:	s = t (s is the number of actions executed since last inference started)
15:	A_prev = A_cur[s, s + 1, ..., H − 1] (Remove the s actions that have already been executed)
16:		o = o_cur
17:	d = max(Q) (Estimate the next inference delay conservatively)
18:	with ℳ released do
19:	A_new = GUIDEDINFERENCE(π, o, A_prev, d, s)
20:	A_cur = A_new (Swap to the new chunk as soon as it is available)
21:	t = t − s (Reset t so that it indexes into A_new)
22:	enqueue d onto Q (Record the observed delay)
23:	function GUIDEDINFERENCE(π, o, A_prev, d, s)
24:	compute W using Eq. 5; right-pad A_prev to length H; initialize A⁰ ~ 𝒩(0, I)
25:	for τ = 0 to 1 with step size 1/n do
26:	fA¹(A′) = A′ + (1 − τ) v_π(A′, o, τ) (Define denoising function)
27:	e = (A_prev − fA¹(A^τ)) · diag(W) (Weighted error term)
28:	g = e · ∂fA¹/∂A′ \|_A′=A^τ (Vector–Jacobian product via autodiff)
29:	A^{τ + 1/n} = A^τ + (1/n) [ v_π(A^τ, o, τ) + min(β, (1−τ)/(τ r_τ²)) g ] (Integration step)
30:	return A¹

注意：上述表格对原文中的对齐/合并单元进行了忠实还原；具体实现中，GUIDEDINFERENCE 的核心即将 4.2.2 的引导项作为速度场修正，并在每步迭代计算向量–雅可比积。

5. 实验设置

5.1. 数据集与任务

模拟基准（Kinetix 动态任务）：
- 12 个高度动态、随机性强的操控/运动任务（含抛掷、接触、平衡等），其中 10 个来源于 Kinetix，2 个为新增环境。
- 使用 RPO（Robust Policy Optimization）训练专家策略（每环境 6 个不同种子），再生成 100 万转换的数据集用于模仿学习。
- 模仿策略采用流匹配，预测地平线 $H=8$ ，4 层 MLP-Mixer 结构，训练 32 epoch。
- 为模拟不完美执行，向动作注入高斯噪声；每个数据点报告二元成功率，2048 次推演（rollout）统计；延迟从 0 到 4（由 $H=8$ 限制）。
真实世界任务（双臂系统，位置控制）：
- 基础策略： $\pi_{0.5}$ （VLA）， $H=50$ ， $\Delta t=20\mathrm{ms}$ ， $n=5$ 去噪步，模型延迟 76ms（基线）与 97ms（RTC）。
- 局域网远程推理增加 10–20ms 网络延迟，初始 $d\approx 6$ ；同时注入 +100ms 与 +200ms 以测试更严重延迟（对应 $d\approx 11$ 与 $d\approx 16$ ）。
- 6 个任务：点燃蜡烛（5 步，40s）；插网线（6 步，120s）；移动操控床铺整理（3 步，200s）；折叠 T 恤（1 步，300s）；批量折衣（4 步，300s）；移动操控“把餐具送入水槽”（8 步，300s）。
- 各任务 10 次试验，共 480 次推演，总计约 28 小时机器人运行；记录每步完成时间与最终评分（完成步数）。

5.2. 评估指标（定义–公式–符号）

二元成功率（Binary Success Rate）：
- 概念：衡量任务是否成功完成（成功=1，失败=0），取平均。
- 公式： $\mathrm{SuccessRate} = \frac{1}{N}\sum_{i=1}^{N}\mathbb{1}\{\text{episode } i \text{ success}\}.$
- 符号解释： $N$ 为试验次数； $\mathbb{1}\{\cdot\}$ 为指示函数（成功为 1，失败为 0）。
累积进展（Cumulative Progress）：
- 概念：按任务分步结构统计随时间完成的步数累计曲线。
- 形式：不需公式化，依据记录的“完成第 k 步”时间戳累积可视化。
平均吞吐率（Average Throughput）：
- 概念：同时衡量速度与性能，定义为“任务完成比例 / 试验时长”的平均值。
- 公式（按 episode $i$ ）： $\mathrm{Throughput}_{i} = \frac{\text{Progress}_{i}}{\text{Duration}_{i}},\quad \overline{\mathrm{Throughput}} = \frac{1}{N}\sum_{i=1}^{N}\mathrm{Throughput}_{i}.$
- 符号解释： $\text{Progress}_{i}$ 为 episode $i$ 完成的任务比例（已完成步数/总步数）； $\text{Duration}_{i}$ 为该 episode 的总时长； $N$ 为试验总数。误差棒为均值的标准误（SEM）。

5.3. 对比基线

模拟基准：
- 天真异步（Naive Async）：不利用上一分块，直接在新分块可用时切换。
- BID（Bidirectional Decoding）：闭环拒绝采样保持连续性，本文设批量 $N=32$ 、模式大小 $K=3$ ，弱策略用 8 epoch 检查点。
- TE（Temporal Ensembling）：对重叠分块预测的同一步动作进行平均。
真实世界：
- 同步（Synchronous）：执行 $s=25$ 步后暂停等待下一分块（默认策略）。
- TE, sparse：执行 $s=25$ 步，同时并行生成下一个分块；对有限重叠步进行集成平均。
- TE, dense：尽可能频繁推理，令 $s=d$ ，确保至少两段重叠可用于集成。

6. 实验结果与分析

6.1. 核心结果分析（模拟）

下图（原文 Figure 5）展示了在 Kinetix 动态任务上的表现对比（左：执行地平线与成功率；右：延迟与成功率）：

该图像是一个示意图，展示了在不同执行时间和推理延迟下的解决率表现。左上方为动态任务的环境示例，右侧展示了不同环境下的解决率曲线。结果显示RTC（红色线）在各种推理延迟下均优于其他比较方法。

关键结论：

TE 在多模态控制分布上表现不佳，即便 $d=0$ ，平均动作并不必然有效。
RTC 在不同延迟下最稳健，优于 BID；随着延迟增大，该优势进一步扩大。需强调 BID 计算代价更高（批采样 64 个分块），而 RTC 通过引导修复实现连续。
软掩膜优于硬掩膜，尤其在延迟较小时更明显，证明软权重能增强策略延续性。
RTC 随执行地平线减小（更频繁闭环修正）表现更好，能充分利用新观测及时纠错，体现跨分块连续性带来的自适应优势。

6.2. 核心结果分析（真实世界）

下图（原文 Figure 6）总结了各任务的累积进展（上）与跨延迟的平均吞吐率（下）：

$Figure 6: Top: Controller steps (equivalent to elapsed time with inference pauses removed multiplied by $5 0 \\mathrm { H z }$ s. cumulative progress for each task, aggregated across all delays. Progress is measured in discrete steps corresponding to the subsections of each task. Left: Time (including inference pauses) vs. cumulative progres aggregated across all tasks. The $\\mathbf { X }$ -axis is log scale to better show progress during both short and long-horizon tasks. Right: Inference delay vs. average throughput, defined as the proportion of task completed divided by duration of episode averaged over episodes. Error bars are $\\pm 1$ SEM. Average throughput gives a balanced view of both speed and performance for each method. Neither TE variant can run at $+ 1 0 0$ or $+ 2 0 0 \\mathrm { m s }$ of injected latency, causing such high oscillations that the robot's protective stop is triggered.$ 该图像是一个图表，展示了不同方法在多个任务中的累积进展和平均吞吐量。上部显示了每个任务在控制步骤与时间的关系，下部则比较了在不同延迟情况下各方法的表现，包含 $+0 ext{ms}$ 、 $+100 ext{ms}$ 和 $+200 ext{ms}$ 。

关键结论：

RTC 在所有延迟下的平均吞吐率均最高；在 +100ms 与 +200ms 延迟下优势具有统计显著性。
RTC 对注入延迟完全鲁棒：吞吐不降；同步策略线性退化；两种 TE 在高延迟下因引发强烈振荡而无法运行（触发保护停机）。
逐任务分析：RTC 不仅提升速度，还减少错误与重试。在去除推理暂停的时间尺度上，RTC完成更多步骤（更少犯错、更早完成）。在高精度任务（点燃蜡烛）上，RTC 的最终得分明显更高，反映了成功率提升。

6.3. 消融与参数分析

下图（原文 Figure 7）分析引导裁剪参数 $\beta$ 与迭代步数对稳定性的影响：

$该图像是图表，展示了与实时动作分块策略相关的多个关键性能指标。上方左图显示了值与参数 $\\tau$ 的关系，表明其在一定范围内的变化。右侧图表描绘了解决率与参数 $\\beta$ 的关系，并根据延迟的不同进行了分组。下方左图反映了步骤与辐角的变化，强调了先前分块与不同步数的比较。右侧则展示了最大加速度相对于 $\\beta$ 的变化趋势，说明了加速度的增长。$ 该图像是图表，展示了与实时动作分块策略相关的多个关键性能指标。上方左图显示了值与参数 $\tau$ 的关系，表明其在一定范围内的变化。右侧图表描绘了解决率与参数 $\beta$ 的关系，并根据延迟的不同进行了分组。下方左图反映了步骤与辐角的变化，强调了先前分块与不同步数的比较。右侧则展示了最大加速度相对于 $\beta$ 的变化趋势，说明了加速度的增长。

结论：在控制常用的少步数（如 $n=5$ ）下，过高的引导权重会导致生成发散与高加速度；设置 $\beta=5$ 的保守裁剪即可获得稳定与良好效果。

下图（原文 Figure 8 左）对软掩膜指数/线性/无衰减进行消融：

$Figur 8: Let: Simulated ablation over different schedules for sot masking weights (Eq 5). Exponential decay performs the best overal although linear decay is very close behind. Right:Comparison with the inpainting algorithm from Diffuser \[26\], which overwrites a portion of the action chunk with the desired actions at each deWhihi nheapepeo l oi bee d by our guidance-based approach.$ 该图像是一个比较不同调度策略对解决率影响的图表，其中展示了在不同推理延迟下使用指数衰减、线性衰减和无衰减策略的解决率变化。图中显示了各个任务（如 car_launch 和 cartpole_thrust）的解决率，平均解决率位于底部，突显了不同策略在效率上的差异。
结论：指数衰减整体最优，线性次之；无衰减明显不如前两者。指数衰减能更好体现“越近越确定、越远越不确定”的时间结构。

此外，原文还将 Diffuser 的修复补全（右图）与本文引导法比较，发现简单“覆盖部分动作”的方法在本文场景下不如引导驱动的软掩膜修复。

6.4. 表格数据（完整转录）

以下是原文 Table 1 的结果（不同方法在 $\pi_{0.5}$ 上的模型推理延迟；仅包含神经网络推理、bfloat16 精度，RTX 4090，n=5，每 10 次试验均值，5 次热身后统计）：

Method	Latency
RTC (ours)	97ms
BID with N = 16 (no forward model)	115ms
BID with N = 16 (shared backbone)	169ms
BID with N = 16 (full)	223ms
Vanilla π0.5	76ms

以下是原文 Table 2 的结果（RTC 总延迟分解；“图像缩放”在机器人侧 CPU；移动操控为 Intel i7-1260P；非移动为 AMD Ryzen 9 7950X；模型推理在 RTX 4090；LAN 有线；WebSocket）：

Component	Time (mobile)	Time (non-mobile)
Model	96.89 ± 0.16ms	97.43 ± 0.28ms
Network	21.20 ± 3.12ms	6.89 ± 2.39ms
Image resize	11.22 ± 5.00ms	1.44 ± 0.27ms
Other	9.67 ± 3.20ms	3.00 ± 0.68ms
Total	138.98 ± 6.71ms	108.76 ± 2.34ms

以下是原文 Table 3 的结果（模型推理延迟分解；RTX 4090；RTC 每步去噪开销约为原始的 2.5 倍）：

Component	Time (no RTC)	Time (with RTC)
Image encoders (SigLIP)	18ms	18ms
LLM prefill (Gemma 2B)	44ms	44ms
Denoising step (x5)	14ms	35ms
Total	76ms	97ms

以下是原文 Table 4 的结果（RTC 超参数）：

Hyperparameter	Description	Simulation	Real-world
n	Denoising steps	5	5
H	Prediction horizon	8	50
s_min	Minimum execution horizon	-	25
β	Guidance weight clipping	5	5
b	Delay buffer size	-	10

7. 总结与思考

7.1. 结论总结

本文提出了实时分块（RTC）这一推理期算法，将异步动作分块生成转化为修复补全问题，通过对重叠区的软掩膜引导与冻结前缀一致性约束，实现跨分块的平滑连续。
RTC 无需重训练，适用于扩散/流匹配类策略，且在模拟与真实场景均验证了显著优势：在延迟存在时保持稳定与高效，提升平均吞吐，减少振荡与停顿，特别适合精细操控任务。
软掩膜与引导权重裁剪是控制场景少步数去噪时的关键设计，确保生成稳定与连续。

7.2. 局限性与未来工作

局限性：
- 计算开销高于直接采样（需每步计算引导与向量–雅可比积），相较于 Vanilla 策略有额外 20ms 左右的模型推理时延。
- 仅适用于扩散/流匹配类策略。
- 真实实验主要为操控任务，尚未覆盖如腿式运动等更高动态实物任务。
未来工作：
- 将 RTC 拓展到更为动态的真实平台（如腿式机器人），进一步检验高频闭环控制中的优势。
- 探索与层级 VLA（System 2/1）结构的协同（高层低频规划、低层高频动作），减少低层模型规模限制与训练成本。
- 结合加速推理方法（如一致性蒸馏、并行解码）进一步降低 RTC 的算力与时延负担。

7.3. 个人启发与批判

启发：
- 将图像修复补全类“局部一致性”思想迁移到时间序列控制，使用软权重随时间递减，是将“空间–时间一致性”统一到生成引导中的优雅手法。
- 在少步数控制场景引入权重裁剪的稳定化改动，体现了方法对实际工程约束的敏感与实用性。
可迁移性：
- 该修复补全引导范式可推广到其他序列生成场景（如语音动作合成、视觉预测），尤其在需要“部分冻结 + 局部一致性”的在线生成场景。
批判与改进：
- 计算开销仍是 RTC 的主要痛点；如何进一步减少引导计算（如近似雅可比、低秩/块结构利用）值得深入。
- 在多模态极强的策略分布下，软掩膜可能仍不足以阻止策略“改弦更张”；未来可结合不确定性估计、目标价值引导（value-guided）等进一步增强稳健性。
- 对真实系统安全性的系统化分析（如在不同延迟、不同干扰下的保护策略）可更全面地支撑大规模部署。
  
  （完）

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。