论文状态：已完成

SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation

发表：2025/11/13

机器人操作 (3)空间表征解耦模型 (1)语义引导几何模块 (1)多任务评估 (1)空间Transformer (1)

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本论文提出了一种新颖的“SpatialActor”模型，旨在提高机器人操作任务的鲁棒性。该方法通过解耦语义与几何信息，采用语义引导的几何模块和空间变换器，来提升对复杂环境的空间理解能力。经多项模拟与实景测试，该模型在不同噪声条件下显著提高性能，展示出卓越的应用潜力。

摘要

Robotic manipulation requires precise spatial understanding to interact with objects in the real world. Point-based methods suffer from sparse sampling, leading to the loss of fine-grained semantics. Image-based methods typically feed RGB and depth into 2D backbones pre-trained on 3D auxiliary tasks, but their entangled semantics and geometry are sensitive to inherent depth noise in real-world that disrupts semantic understanding. Moreover, these methods focus on high-level geometry while overlooking low-level spatial cues essential for precise interaction. We propose SpatialActor, a disentangled framework for robust robotic manipulation that explicitly decouples semantics and geometry. The Semantic-guided Geometric Module adaptively fuses two complementary geometry from noisy depth and semantic-guided expert priors. Also, a Spatial Transformer leverages low-level spatial cues for accurate 2D-3D mapping and enables interaction among spatial features. We evaluate SpatialActor on multiple simulation and real-world scenarios across 50+ tasks. It achieves state-of-the-art performance with 87.4% on RLBench and improves by 13.9% to 19.4% under varying noisy conditions, showing strong robustness. Moreover, it significantly enhances few-shot generalization to new tasks and maintains robustness under various spatial perturbations. Project Page: https://shihao1895.github.io/SpatialActor

思维导图

论文精读

中文精读约 25 分钟读完 · 15,177 字

1. 论文基本信息

1.1. 标题

SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation

中文翻译：SpatialActor: 探索用于鲁棒机器人操作的解耦空间表征

论文的核心主题是为机器人操作任务构建一种鲁棒的空间表征 (Spatial Representation)。具体而言，它探索了一种将场景的语义 (Semantics) 信息（物体是什么）与几何 (Geometry) 信息（物体在哪里、形状如何）解耦 (Disentangled) 的方法，以提高机器人在真实世界中（尤其是在传感器数据有噪声的情况下）执行操作任务的准确性和稳定性。

1.2. 作者

作者列表: Hao Shi, Bin Xie, Yingfei Liu, Yang Vue, Tiancai Wang, Haoqiang Fan, Xiangyu Zhang, Gao Huang
隶属机构:
- 1: Department of Automation, BNRist, Tsinghua University (清华大学自动化系，北京信息科学与技术国家研究中心)
- 2: Dexmal (一家专注于机器人灵巧操作的公司)
- 3: MEGVII Technology (旷视科技)
- 4: StepFun
研究背景: 作者团队来自顶尖学术机构（清华大学）和多家业界公司，表明这项研究兼具学术前沿性和产业应用价值。其中，Gao Huang（黄高）是著名神经网络架构 DenseNet 的提出者，在深度学习领域享有盛誉。这种产学研结合的背景使得研究工作能够很好地解决真实世界机器人应用中的痛点问题。

1.3. 发表期刊/会议

论文正文中提供的发表日期为 2025-11-12T18:59:08.000Z，这是一个未来的时间戳，结合其在 arXiv 上的发布形式，表明这是一篇预印本 (Pre-print) 论文。这类论文通常是作者为了抢占首发权或在同行评审结果出来前分享研究成果而发布的，其目标投递会议通常是机器人或机器学习领域的顶级会议，如：

CoRL (Conference on Robot Learning)
ICRA (International Conference on Robotics and Automation)
NeurIPS (Conference on Neural Information Processing Systems)
ICLR (International Conference on Learning Representations) 这些会议在学术界具有极高的声誉和影响力。

1.4. 发表年份

根据原文提供的元数据，发表年份为 2025。

1.5. 摘要

机器人操作需要精确的空间理解。现有的方法存在缺陷：基于点云的方法因稀疏采样会丢失细粒度语义；基于图像的方法将 RGB 和深度图输入到为 3D 辅助任务预训练的 2D 主干网络中，但其纠缠的语义和几何信息对真实世界中固有的深度噪声很敏感，这种噪声会破坏语义理解。此外，这些方法关注高层几何而忽略了对精确交互至关重要的低层空间线索。

为此，论文提出了 SpatialActor，一个用于鲁棒机器人操作的解耦框架，它明确地将语义和几何解耦。其核心组件包括：

语义引导的几何模块 (Semantic-guided Geometric Module, SGM): 自适应地融合来自带噪声的深度图和由语义引导的专家先验（Expert Priors）这两种互补的几何信息。
空间变换器 (Spatial Transformer, SPT): 利用低层空间线索进行精确的 2D-3D 映射，并促使空间特征之间的交互。

SpatialActor 在 50 多个仿真和真实世界任务中进行了评估，在 RLBench 上取得了 87.4% 的最先进性能，并在不同噪声条件下将性能提升了 13.9% 至 19.4%，展现出强大的鲁棒性。此外，它显著增强了对新任务的少样本泛化能力，并在各种空间扰动下保持了鲁棒性。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2511.09555
PDF 链接: https://arxiv.org/pdf/2511.09555v1.pdf
发布状态: 预印本 (Pre-print)。

2. 整体概括

2.1. 研究背景与动机

核心问题: 如何让机器人在复杂的、充满不确定性的真实世界环境中，实现鲁棒且精确的物理操作？真实世界中的传感器（尤其是深度相机）极易受到光照、物体表面材质反光等因素干扰，产生噪声 (noise)，这对机器人感知系统的稳定性构成了巨大挑战。
现有研究的空白 (Gap):
1. 点云方法 (Point-based methods): 直接处理 3D 点云，能很好地表达几何结构。但缺点是点云通常是稀疏的 (sparse)，并且在从 2D 图像转换的过程中容易丢失丰富的语义信息（比如物体的颜色、纹理）。同时，大规模的 3D 数据标注成本高昂，限制了预训练模型的能力。
2. 图像融合方法 (Image-based methods): 将 RGB 图像和深度图（RGB-D）作为输入，通过一个共享的神经网络进行处理。这类方法可以利用强大的 2D 预训练模型来提取丰富的语义。但其核心问题是特征纠缠 (entangled features)，即将语义和几何信息混合在同一个特征空间里。这导致模型非常脆弱：一旦深度图出现噪声，不仅几何理解会出错，噪声还会“污染”语义特征，导致模型对整个场景的理解崩塌。
3. 忽略低层空间线索 (low-level spatial cues): 现有方法大多关注物体级别的高层几何 (high-level geometry)（如物体的整体形状），而忽略了像素级别的低层空间线索（如每个点精确的 3D 坐标）。这些低层线索对于需要精确定位的任务（如将钉子插入孔中）至关重要。
本文的切入点: 针对上述问题，SpatialActor 提出了一个核心思想：解耦 (Disentanglement)。它不再将所有信息混在一起，而是：
1. 解耦语义与几何： 将语义信息的提取（主要来自高质量的 RGB 图像）和几何信息的构建分离开，避免交叉污染。
2. 解耦高层与低层几何： 进一步将几何信息分解为两个互补的部分：
  - 鲁棒的高层几何先验： 利用一个强大的、在海量数据上预训练的深度估计专家模型 (depth estimation expert)，从干净的 RGB 图像中生成一个虽然粗糙但非常鲁棒的几何结构。
  - 精细的低层几何细节： 直接从原始的、带噪声的深度图中提取细节信息。通过一个自适应门控机制 (gating mechanism) 智能地融合这两者，既保留了细节，又增强了对噪声的鲁棒性。同时，通过专门设计的 Spatial Transformer，将精确的 3D 坐标作为位置编码，强化了对低层空间线索的利用。

下图（原文 Figure 1）直观展示了不同方法的优劣以及 SpatialActor 的核心思想。

该图像是示意图，展示了在不同方法下的机器人操作框架，包括点基和图像基方法的缺陷，以及SpatialActor的优势。图中描述了分离的视觉语义、高层几何和低层几何的融合，强调了在噪声条件下的鲁棒性表现。3D PE表示3D位置编码。

2.2. 核心贡献/主要发现

核心贡献:
1. 提出了 SpatialActor，一个新颖的、基于解耦思想的机器人操作框架。该框架通过分离语义和几何表征，显著提升了机器人在噪声环境下的鲁棒性。
2. 设计了 语义引导的几何模块 (SGM)，它创新性地融合了来自深度估计专家的鲁棒几何先验和来自原始深度图的精细几何细节，有效克服了传感器噪声问题。
3. 引入了 空间变换器 (SPT)，它利用基于精确 3D 坐标的旋转位置编码 (Rotary Positional Encoding) 来增强模型对低层空间线索的理解，实现了更精确的 2D-3D 空间推理和特征交互。
主要发现:
1. SpatialActor 在主流机器人操作基准 RLBench 上取得了 87.4% 的平均成功率，超越了此前的最先进方法。
2. 在模拟的深度噪声环境下，SpatialActor 的性能远超现有方法，表现出极强的鲁棒性。
3. 该方法具有出色的少样本泛化 (few-shot generalization) 能力，仅用少量示范数据就能快速适应新任务。
4. 在面对物体尺寸、相机位姿变化等空间扰动 (spatial perturbations) 时，SpatialActor 同样表现稳定，证明了其空间表征的泛化能力。

3. 预备知识与相关工作

3.1. 基础概念

机器人操作 (Robotic Manipulation): 指机器人通过其末端执行器（如机械手）与环境中的物体进行物理交互，以完成特定任务，例如抓取、放置、推、拉、拧等。
RGB-D 数据: 这是机器人感知中常用的数据格式。它包含两部分：
- RGB 图像: 标准的彩色图像，提供丰富的颜色、纹理等语义信息。
- 深度图 (Depth Map): 一种灰度图像，其中每个像素的亮度值代表该点在现实世界中离相机的距离。它提供了场景的几何信息。
点云 (Point Cloud): 由一系列 3D 空间中的点构成的数据结构。可以利用深度图和相机参数（内参和外参）将每个像素转换为一个 3D 空间坐标点，从而生成点云。点云直接描述了物体的 3D 几何形状，但通常是稀疏且无序的。
解耦表征 (Disentangled Representation): 在机器学习中，这是一种学习目标，旨在让模型将数据中潜在的、有意义的变异因子（factors of variation）分离到不同的、独立的神经元或特征维度上。在本文中，即把“物体类别”和“物体位置/形状”这两个因子分离开来处理。
视觉基础模型 (Vision Foundation Models): 指在超大规模、多样化的数据集上预训练的视觉模型，例如 CLIP (连接图像和文本) 或 DINO。这些模型学习到了通用的视觉先验知识，可以作为强大的特征提取器用于下游任务。本文利用这类模型来提取高质量的语义信息和几何先验。
Transformer 与自注意力机制 (Self-Attention): Transformer 是一种基于自注意力机制 (Self-Attention) 的神经网络架构。自注意力机制允许模型在处理一个序列（如一句话或一组图像块）时，计算序列中每个元素与其他所有元素之间的相关性权重，从而动态地聚合信息。其核心计算公式为： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
- 符号解释:
  - $Q$ (Query): 当前元素（token）的查询向量。
  - $K$ (Key): 序列中所有元素（包括自身）的键向量。
  - $V$ (Value): 序列中所有元素的值向量。
  - $d_k$ : 键向量的维度。自注意力机制通过计算 $Q$ 和 $K$ 的点积来衡量不同元素间的相关性，并用这些相关性作为权重来加权求和 $V$ ，从而得到一个考虑了全局上下文的新表征。

3.2. 前人工作

纯 2D 视觉方法: 早期的工作仅使用 RGB 图像作为输入，虽然可以利用强大的 2D 视觉预训练模型，但由于缺乏直接的 3D 信息，难以处理需要精确空间推理的任务。
点云/体素方法:
- 点云方法 (PolarNet, AnyGrasp): 直接在 3D 点云上操作。优点是几何信息明确，但缺点是点云稀疏、处理成本高，且容易丢失语义信息。
- 体素方法 (PerAct, C2F-ARM): 将 3D 空间离散化为体素 (voxels)（即 3D 像素）。这种方法将无序的点云转换为规整的 3D 网格，便于使用 3D 卷积网络进行处理。但计算和内存开销巨大。
多视角 RGB-D 融合方法 (RVT, RVT-2): 这是当前的主流方法，也是 SpatialActor 的主要对比对象。它们通常采用早期融合 (early fusion) 策略，即在网络的浅层就将 RGB 和 Depth 信息拼接在一起，然后送入一个共享的主干网络 (backbone) 进行特征提取。
- 优点: 结合了 2D 语义的丰富性和 3D 几何的直接性。
- 缺点 (本文主要攻击点): 语义和几何特征的纠缠。深度图上的噪声会污染整个特征表示，导致模型在真实世界中非常脆弱。RVT-2 在噪声下的性能急剧下降（原文 Figure 1(d) 所示）就是这一问题的力证。

3.3. 技术演进

机器人操作的感知技术经历了从依赖本体感觉（机器人关节状态）到依赖外部视觉的演变。视觉方法从单张 2D 图像，发展到使用 RGB-D 数据，再到融合多视角信息。近年来，随着视觉基础模型 (Vision Foundation Models) 的兴起，如何有效地将这些强大的预训练先验知识迁移到机器人任务中成为研究热点。RVT 系列工作是这一趋势的代表，而 SpatialActor 则是在此基础上，针对其核心缺陷（噪声敏感性）提出的进一步演进。

3.4. 差异化分析

相较于以 RVT-2 为代表的 RGB-D 融合方法，SpatialActor 的核心创新与区别在于：

处理范式不同：从“纠缠融合”到“解耦融合”
- RVT-2: 早期融合，将 RGB 和 Depth 通道拼接后送入一个共享编码器，特征在内部纠缠在一起。
- SpatialActor: 解耦处理，为语义（来自 RGB）和几何（来自 Depth 和 RGB-Expert）设计了独立的处理流，在特征提取完成后再进行有策略的融合，有效隔离了噪声。
几何信息处理方式不同：从“单一来源”到“双源互补”
- RVT-2: 几何信息完全依赖于原始的、可能带噪声的深度图。
- SpatialActor: 几何信息有两个来源：一是原始深度图（细节丰富但有噪声），二是通过深度估计专家模型从高质量 RGB 图像中推断出的几何先验（鲁棒但可能粗糙）。通过 SGM 模块自适应地结合两者的优点。
空间线索利用方式不同：从“隐式”到“显式”
- RVT-2: 空间位置信息是隐式地编码在卷积或 Transformer 的特征中的。
- SpatialActor: 通过 SPT 模块，显式地计算每个图像块对应的精确 3D 坐标，并将其作为旋转位置编码 (RoPE) 注入到 Transformer 中，使模型能更直接地进行空间推理。

4. 方法论

SpatialActor 的整体框架如下图（原文 Figure 2）所示，其核心在于通过解耦的思路构建一个对噪声鲁棒且空间信息丰富的表征。

该图像是一个示意图，展示了SpatialActor框架中的多个模块。左侧部分包含处理噪声深度信息的几何编码器和处理RGB图像的语义编码器，通过多尺度门控融合（SGM）来提取和结合不同的信息。中间部分展示了空间转换模块（SPT），用于实现视图级和场景级的交互。右侧为执行模块，显示了机械臂的动作。这一框架旨在增强机器人在复杂环境中的操作能力和稳定性。

4.1. 方法原理

SpatialActor 的核心思想是分而治之 (Divide and Conquer)。它认识到 RGB 图像和深度图各自的优缺点：RGB 图像信噪比高，富含语义；而深度图直接提供几何信息，但容易受噪声影响。因此，与其将它们草率地混合，不如让它们各司其职，并通过精心设计的模块取长补短。

方法的整体流程可以概括为：

输入: 机器人接收多视角 RGB 图像 $I^v$ 、深度图 $D^v$ 、自身状态（如关节角度） $P$ 和语言指令 $L$ 。
特征解耦提取:
- 语义流: 使用 CLIP 等视觉语言模型处理 $I^v$ 和 $L$ ，提取高质量的语义特征 $F_{sem}^v$ 。
- 几何流: 并行地处理几何信息，这是方法的核心创新所在，通过 SGM 模块实现。
多模态融合与交互: 将提取出的语义和几何特征，连同机器人状态和语言指令，送入 SPT 模块。该模块利用显式的 3D 空间位置信息，在视图内和视图间进行特征的深度交互。
动作解码: 最终的特征被送入一个动作头，预测出末端执行器的 3D 位姿和夹爪状态。

4.2. 核心方法详解 (逐层深入)

4.2.1. 语义引导的几何模块 (Semantic-guided Geometric Module, SGM)

SGM 模块的目标是构建一个鲁棒且精细的几何表征。它巧妙地结合了两种互补的几何信息来源，其结构如下图（原文 Figure 3(a)）所示。

该图像是示意图，展示了语义引导几何模块（SGM）和空间变换器（SPT）的结构。SGM通过多尺度门融合方法对噪声深度信息进行处理，而SPT则利用空间位置编码模块进行视图和场景级别的交互。

获取专家几何先验 (Expert Geometric Prior): 利用一个在海量数据上预训练好的、冻结的 (frozen) 深度估计专家模型（如 Depth Anything），将高质量的 RGB 图像 $I^v$ 作为输入，生成一个鲁棒但可能比较粗糙的几何特征 $\hat{F}_{geo}^v$ 。 $\hat{F}_{\mathrm{geo}}^v = \mathcal{E}_{\mathrm{expert}}(I^v) \in \mathbb{R}^{H \times W \times C}$
- 符号解释:
  - $\mathcal{E}_{\mathrm{expert}}$ : 冻结的深度估计专家模型。
  - $I^v$ : 第 $v$ 个视角的 RGB 图像。
  - $\hat{F}_{\mathrm{geo}}^v$ : 从 RGB 推断出的专家几何特征，具有高鲁棒性。
获取原始几何特征 (Raw Geometric Features): 同时，将原始的、可能带噪声的深度图 $D^v$ 输入一个可训练的深度编码器（如 ResNet-50），得到一个包含丰富细节但对噪声敏感的几何特征 $F_{geo}^v$ 。 $F_{\mathrm{geo}}^v = \mathcal{E}_{\mathrm{raw}}(D^v) \in \mathbb{R}^{H \times W \times C}$
- 符号解释:
  - $\mathcal{E}_{\mathrm{raw}}$ : 用于处理原始深度图的可训练编码器。
  - $D^v$ : 第 $v$ 个视角的原始深度图。
  - $F_{\mathrm{geo}}^v$ : 从原始深度图提取的几何特征，细节丰富但可能含噪声。
自适应门控融合 (Adaptive Gating Fusion): 为了结合 $\hat{F}_{geo}^v$ 的鲁棒性和 $F_{geo}^v$ 的细节，SGM 设计了一个门控机制。首先，将两个特征拼接后通过一个小型多层感知机 (MLP) 生成一个门控信号 $G^v$ 。 $G^v = \sigma\big(\mathrm{MLP}\big(\mathrm{Concat}(\hat{F}_{\mathrm{geo}}^v, F_{\mathrm{geo}}^v)\big)\big)$
- 符号解释:
  - $\mathrm{Concat}$ : 沿通道维度拼接特征。
  - $\sigma$ : Sigmoid 激活函数，将输出值缩放到 (0, 1) 区间，作为权重。
    
    然后，利用这个门控信号 $G^v$ 对两个特征进行加权融合，得到最终的几何特征 $F_{fuse-geo}^v$ 。 $F_{\mathrm{fuse-geo}}^v = G^v \odot F_{\mathrm{geo}}^v + (1 - G^v) \odot \hat{F}_{\mathrm{geo}}^v$
- 符号解释:
  - $\odot$ : 逐元素相乘。
- 直觉: 门控网络 $G^v$ 学习判断在每个特征位置上，哪个信息源更可靠。如果原始深度图 $D^v$ 在某个区域噪声较小、质量较高，则 $G^v$ 对应位置的值会趋近于 1，使得融合结果更多地采纳来自 $F_{geo}^v$ 的精细细节。反之，如果某个区域噪声严重，则 $G^v$ 的值会趋近于 0，使得融合结果更多地依赖于来自专家模型 $\hat{F}_{geo}^v$ 的鲁棒先验。
  
  最后，将解耦的语义特征 $F_{sem}^v$ 和融合后的几何特征 $F_{fuse-geo}^v$ 拼接起来，形成该视图的初始多模态特征 $H^v$ 。

4.2.2. 空间变换器 (Spatial Transformer, SPT)

SPT 模块（如原文 Figure 3(b) 所示）的目标是深度融合多视角、多模态信息，并利用精确的低层空间线索进行空间推理。

融合本体感觉信息: 将机器人的本体感觉状态 $P$ （如关节角度、末端速度等）通过一个 MLP 投影后，与每个视图的特征 $H^v$ 相加。 $\widetilde{H}^v = H^v + \mathsf{MLP}(P)$
构建低层空间线索 (3D 坐标): 这是 SPT 的关键。对于特征图上的每个像素 (x', y')，利用其深度值 d = D^v(x', y') 以及相机的内参矩阵 (intrinsic matrix) $K^v$ 和外参矩阵 (extrinsic matrix) $E^v$ ，通过透视投影公式将其反向投影到以机器人基座为原点的 3D 坐标系中，得到其精确的 3D 坐标 $[x, y, z]^\top$ 。 $[ \boldsymbol{x}, \boldsymbol{y}, \boldsymbol{z}, 1 ]^\top = E^v \left( d \cdot (K^v)^{-1} [ \boldsymbol{x}', \boldsymbol{y}', 1 ]^\top \parallel 1 \right)$
- 符号解释:
  - $K^v$ : $3 \times 3$ 的相机内参矩阵，描述相机内部光学特性。
  - $E^v$ : $4 \times 4$ 的相机外参矩阵，描述相机坐标系到机器人基座坐标系的转换。
  - $\parallel$ : 向量拼接操作。这一步为每个 2D 特征（token）赋予了一个精确的 3D 空间“身份证”。
旋转位置编码 (Rotary Positional Encoding, RoPE): SPT 没有使用标准的 1D 位置编码，而是利用上一步得到的 3D 坐标 (x, y, z) 来生成位置编码。它将特征维度 $D$ 分成三份，分别对应 x, y, z 轴。对于每个轴的坐标 $u \in \{x, y, z\}$ ，使用一组不同频率的三角函数来编码位置信息。
- 频率定义: $\omega_k = \lambda^{-2k/d}, \quad k = 0, 1, \ldots, \frac{d}{2} - 1, \quad d = D/3$ 其中 $\lambda = 10000$ 是一个超参数。
- 正余弦嵌入: $\cos_{\mathrm{pos}} = [\cos(\omega_k u)]_{u \in \{x, y, z\}, k=0, \ldots, d/2-1}$ $\sin_{\mathrm{pos}} = [\sin(\omega_k u)]_{u \in \{x, y, z\}, k=0, \ldots, d/2-1}$
- 特征与位置编码融合: $T^v = \tilde{H}^v \odot \cos_{\mathrm{pos}} + \mathrm{rot}(\tilde{H}^v) \odot \sin_{\mathrm{pos}}$
- 符号解释:
  - $\mathrm{rot}(\cdot)$ : 将特征向量中相邻的两个元素 $(f_{2i}, f_{2i+1})$ 旋转为 $(-f_{2i+1}, f_{2i})$ 。这种编码方式的好处在于，它将绝对位置信息（通过三角函数）和相对位置信息（通过旋转操作的性质）结合起来，非常适合需要进行空间几何推理的任务。
分层交互:
- 视图级交互 (View-level interaction): 对每个视图的位置编码后特征 $T^v$ 内部应用一次自注意力机制，以整合该视图内的上下文信息。
- 场景级交互 (Scene-level interaction): 将所有视图的特征以及语言指令特征 $F_{text}$ 拼接在一起，再应用一次自注意力机制。这一步实现了跨视角、跨模态的全局信息融合，让模型能够形成对整个场景的统一理解。

4.2.3. 动作头 (Action Head)

经过 SPT 处理后的最终特征被送入一个轻量级解码器，生成一个代表末端执行器目标位置的 2D 热图 (heatmap)。通过 argmax 操作找到热图上响应最强的点，并利用相机模型将其“提升”回 3D 空间，得到平移目标 (x, y, z)。然后，一个 MLP 基于该位置周围的局部特征回归出旋转 $\theta = (\theta_x, \theta_y, \theta_z)$ 和夹爪状态 $g$ ，共同构成最终的机器人动作。

5. 实验设置

5.1. 数据集

RLBench: 一个广泛使用的机器人操作仿真基准，基于 CoppeliaSim 物理引擎。
- 环境: Franka 机械臂，带平行夹爪，在桌面场景中操作。
- 观测: 4 个固定视角的 RGB-D 相机（前、左肩、右肩、手腕），分辨率为 $128 \times 128$ 。
- 任务: 实验覆盖了 18 个任务，包含 249 种不同的场景变化（如物体颜色、位置、数量等），每个任务提供 100 个专家演示用于训练。下图（原文 Figure 10）展示了部分任务。
  
  该图像是一个示意图，展示了机器人在多个任务中的操作，包括关闭罐子、拖动棒子和放置杯子等。图中包含了一系列从抓取到放置的动作，体现了对动态图像处理的应用和对空间理解的需求。
ColosseumBench: 一个专门用于评估机器人在环境变化下的泛化能力的基准。
- 特点: 包含 20 个任务，并引入了三种空间扰动：操作对象尺寸变化 (MO-Size)、接收对象尺寸变化 (RO-Size) 和 相机位姿扰动 (Cam Pose)。
真实世界数据集:
- 硬件: WidowX-250 机械臂和 Intel RealSense D435i RGB-D 相机。
- 任务: 涵盖 8 个真实世界任务，共 15 种变体，如“堆叠杯子”、“将环套在锥上”等。每个任务收集 25 个专家演示。下图（原文 Figure 4 和 Figure 11）展示了这些真实世界任务。
  
  该图像是一个示意图，展示了8个不同的机器人操作任务，每个任务有多达15个变体，用于真实世界的实验。

5.2. 评估指标

成功率 (Success Rate, %):
1. 概念定义: 这是评估机器人操作任务最核心和最直观的指标。它衡量了在所有测试尝试中，机器人能够完全成功完成任务的比例。成功率越高，代表策略的有效性和可靠性越强。
2. 数学公式: $\text{Success Rate} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100\%$
3. 符号解释:
  - Number of Successful Trials: 成功完成任务的次数。
  - Total Number of Trials: 总的测试次数。
平均排名 (Average Rank, ↓):
1. 概念定义: 当在多个任务上比较多种方法时，该指标用于衡量一个方法的综合性能。在每个任务上，根据性能（如成功率）对所有方法进行排名（第一名记为 1，第二名记为 2，以此类推）。然后计算一个方法在所有任务上的平均排名。这个指标的值越低，表示该方法的综合表现越好。
2. 数学公式: $\text{Average Rank} = \frac{1}{N_{\text{tasks}}} \sum_{i=1}^{N_{\text{tasks}}} \text{Rank}_i$
3. 符号解释:
  - $N_{\text{tasks}}$ : 任务的总数。
  - $\text{Rank}_i$ : 模型在第 $i$ 个任务上的排名。

5.3. 对比基线

论文将 SpatialActor 与一系列先进的机器人操作方法进行了比较，主要包括：

PerAct: 一种基于体素 (Voxel) 的方法，使用 Perceiver Transformer 架构。
RVT / RVT-2: 基于多视角 RGB-D 融合的 Transformer 方法，是当前最主流的基线之一，也是 SpatialActor 主要的对标和改进对象。
PolarNet: 一种基于点云的方法，使用极坐标表示。
Act3D, 3D Diffuser Actor: 其他先进的 3D 机器人操作模型。
SAM-E: 利用 SAM (Segment Anything Model) 作为视觉基础模型的机器人操作方法。

这些基线覆盖了点云、体素、RGB-D 融合等多种技术路线，具有很强的代表性。

6. 实验结果与分析

6.1. 核心结果分析

实验核心结果展示在原文 Table 1 中。SpatialActor 在 RLBench 18 个任务上的综合表现优于所有对比方法。

以下是原文 Table 1 的结果：

Models	Avg. Success ↑	Avg. Rank ↓	Close Jar	Drag Stick	Insert Peg	Meat off Grill	Open Drawer	Place Cups	Place Wine	Push Buttons
C2F-ARM-BC (James et a. 2022)	20.1	9.5	24.0	24.0	4.0	20.0	20.0	0.0	8.0	72.0
HiveFormer (Guhur et al. 2023)	45.3	7.8	52.0	76.0	0.0	100.0	52.0	0.0	80.0	84.0
PolarNet (Chen et al. 2023)	46.4	7.3	36.0	92.0	4.0	100.0	84.0	0.0	40.0	96.0
PerAct (Shridhar, Manuell, and Fox 2023)	49.4	7.1	55.2±4.7	89.6±4.1	5.6±4.1	70.4±2.0	88.0±5.7	2.4±3.2	44.8±7.8	92.8±3.0
RVT (Goyal et al. 2023)	62.9	5.3	52.0±2.5	99.2±1.6	11.2±3.0	88.0±2.5	71.2±6.9	4.0±2.5	91.0±5.2	100±0.0
Act3D (Gervet et al.2023)	65.0	5.3	92.0	92.0	27.0	94.0	93.0	3.0	80.00	99.0
SAM-E (Zhang et al. 2024)	70.6	2.9	82.4±3.6	100.0±0.0	18.4±4.6	95.2±3.3	95.2±5.2	0.0±0.0	94.4±4.6	100±0.0
3D Differ Actor (Ke t a.)	81.3	2.8	96.0±2.5	0±0.0	66±4.1	96.8±1.6	89.6±4.1	24.0±7.6	93.6±4.8	98.4±2.0
RVT-2 (Goyal et al. 2024)	81.4	2.8	100.0±0.0	99.0±1.7	40.0±0.0	99±1.7	74.0±11.8	38.0±4.5	95.0±3.3	100±0.0
SpatialActor (Ours)	87.4±0.8	2.3	94.0±4.2	100.0±0.0	93.3±4.8	98.7±2.1	82.0±3.3	56.7±8.5	94.7±4.8	100.0±0.0
Models	Put in Cupboard	Put in Drawer	Put in Safe	Screw Bulb	Slide Block	Sort Shape	Stack Blocks	Stack Cups	Sweep to Dustpan	Turn Tap
C2F-ARM-BC (James et a. 2022)	0.0	4.0	12.0	8.0	16.0	8.0	0.0	0.0	0.0	68.0
HiveFormer (Guhur et al. 2023)	32.0	68.0	76.0	8.0	64.0	8.0	8.0	0.0	28.0	80.0
PolarNet (Chen et al. 2023)	12.0	32.0	84.0	44.0	56.0	12.0	4.0	8.0	52.0	80.0
PerAct (Shridar, Manelli, and Fox 203)	28.0±4.4	51.2±4.7	84.0±3.6	17.6±2.0	74.0±13.0	16.8±4.7	26.4±3.2	2.4±2.0	52.0±0.0	88.0±4.4
RVT (Goyal et al. 2023)	49.6±3.2	88.0±5.7	91.2±3.0	48.0±5.7	81.6±5.4	36.0±2.5	28.8±3.9	26.4±8.2	72.0±0.0	93.6±4.1
Act3D (Gervet et al. 2023)	51.0	90.0	95.0	47.0	93.0	8.0	12.0	9.0	92.0	94.0
SAM-E (Zhang et al. 2024)	64.0±2.8	92.0±5.7	95.2±3.3	78.4±3.6	95.2±1.8	34.4±6.1	26.4±4.6	0.0±0.0	100.0±0.0	100.0±0.0
3D Diffuser Actor (Ke et al. 2024)	85.6±4.1	96.0±3.6	97.6±2.0	82.4±2.0	97.6±3.2	44.0±4.4 35.0±7.1	68.3±3.3	47.2±8.5	84.0±4.4	99.2±1.6
RVT-2 (Goyal t al. 2024)	66.0±4.5	96.0±0.0	96.0±2.8	88.0±4.9	92.0±2.8	44.0±4.4 35.0±7.1	80.0±2.8	69.0±5.9	100±0.0	99.0±1.7
SpatialActor (Ours)	72.0±3.6	98.7±3.3	96.7±3.9	88.7±3.9	91.3±6.9	73.3±6.5	56±7.6	81.3±4.1	100.0±0.0	95.3±3.0

总体性能: SpatialActor 取得了 87.4% 的平均成功率，显著高于最先进的基线 RVT-2 (81.4%)，提升了 6.0%。
高精度任务: SpatialActor 在需要精确空间理解的任务上优势尤为明显。
- Insert Peg (插入钉子): 成功率达到 93.3%，而 RVT-2 仅为 40.0%，提升了 53.3%。
- Sort Shape (形状分类): 成功率达到 73.3%，而 RVT-2 仅为 35.0%，提升了 38.3%。
分析: 这些结果强有力地证明了 SpatialActor 通过解耦和显式空间建模，获得了更强的空间推理能力。纠缠的表征在面对需要亚毫米级精度的任务时会力不从心，而 SpatialActor 的设计恰好弥补了这一短板。

6.2. 消融实验/参数分析

消融实验旨在验证模型中每个组件的必要性。作者通过逐一移除 SPT、SGM 和解耦设计来评估其影响。

以下是原文 Table 5 的结果：

Decouple	SGM	SPT	Avg. success on 18 tasks ↑
			No noise	Heavy noise
			81.4	57.0
✓			85.1	68.7
✓	✓		86.4	73.9
v	✓	✓	87.4	76.4

基线 (第一行): 这是一个类似于 RVT-2 的纠缠模型，在无噪声环境下成功率为 81.4%，但在重度噪声下骤降至 57.0%。
+ Decouple (第二行): 仅仅将语义和几何流解耦，不使用 SGM 和 SPT。性能在无噪声时提升至 85.1% (+3.7%)，在重度噪声下大幅提升至 68.7% (+11.7%)。这证明了解耦是抵抗噪声的关键。
+ SGM (第三行): 在解耦的基础上加入 SGM 模块。在重度噪声下性能进一步提升至 73.9% (+5.2%)。这表明 SGM 通过融合专家先验，能有效修复噪声带来的几何信息损失。
+ SPT (第四行，完整模型): 最后加入 SPT 模块。在无噪声和重度噪声下性能分别达到 87.4% 和 76.4%。这说明 SPT 提供的精确低层空间线索对最终的定位精度至关重要。

结论: 消融实验清晰地表明，SpatialActor 的三个核心设计——解耦 (Decouple)、语义引导的几何模块 (SGM) 和 空间变换器 (SPT)——都对模型的最终性能和鲁棒性做出了不可或缺的贡献。

6.3. 真实世界评估

SpatialActor 不仅在仿真中表现出色，在真实世界的实验中也展现了其优越性。

以下是原文 Table 6 的真实世界实验结果：

Task	#vari.	RVT-2	SpatialActor (Ours)
(1) Pick Glue to Box	1	50%	85%
2) Stack Cup	2	30%	30%
(3) Push Button	3	67%	90%
(4) Slide Block	3	60%	67%
(5) Place Carrot to Box	1	30%	65%
(6) Stack Block	2	40%	35%
(7) Insert Ring Onto Cone	2	20%	50%
(8) Wipe Table	1	50%	80%
All tasks	15	43%	63%

总体性能: 在 8 个真实世界任务的 15 个变体上，SpatialActor 的平均成功率达到了 63%，远高于 RVT-2 的 43%，平均提升了约 20%。
分析: 真实世界的传感器噪声、光照变化和物理交互的复杂性远超仿真环境。SpatialActor 在真实世界中的显著优势，再次验证了其解耦表征对于应对现实挑战的有效性。如下图（原文 Figure 6 和 Figure 7）所示，在抓取胶棒和套环等任务中，SpatialActor 的抓取姿态明显比 RVT-2 更稳定、更精确。

该图像是一个示意图，展示了RVT-2和本研究提出的方法在进行物体抓取任务时的表现。上方是RVT-2的操作示例，其精确度不足，标注为'imprecise'。下方是我们的模型在相同任务中的表现，显示出更好的抓取成功率和精准度。

7. 总结与思考

7.1. 结论总结

SpatialActor 提出了一种新颖而有效的机器人操作感知框架，其核心思想是解耦空间表征。通过将语义信息与几何信息分离，并进一步将几何信息分解为鲁棒的专家先验和精细的原始数据进行自适应融合，该方法成功地解决了现有模型对传感器噪声敏感的核心痛点。同时，通过引入利用精确 3D 坐标的 Spatial Transformer，模型对空间位置的理解和推理能力得到了显著增强。全面的实验证明，SpatialActor 不仅在标准基准上达到了最先进的性能，更在噪声、少样本泛化、空间扰动和真实世界等多种挑战性场景下展现出卓越的鲁棒性和泛化能力。

7.2. 局限性与未来工作

论文在附录中坦诚地分析了模型的失败案例，并指出了未来的改进方向。

局限性 (原文 Figure 8):
- 指令理解错误: 在“打开抽屉”任务中，模型可能会误解指令，打开错误的抽屉。
- 长时程任务失败: 在需要多步操作的“放置杯子”任务中，模型可能在完成几步后就停滞不前。
- 语义混淆: 在面对外观相似的物体时（如不同颜色的杯子），模型可能会抓取错误的目标。
- 姿态精度限制: 在真实世界中，微小的标定误差或执行器抖动可能导致任务失败。
- 易受干扰: 背景中的杂物可能会分散模型的注意力。
  
  该图像是图示，展示了在仿真和真实世界中的失败案例。左侧(a)部分包括了指令理解错误、长时间操作及语义理解的问题，而右侧(b)部分展示了姿态精度、指令理解失误及视觉干扰的影响。
未来工作:
- 集成大型语言模型 (LLMs): 利用 LLMs 强大的语言理解和推理能力来更准确地解析复杂指令。
- 引入记忆机制: 为模型增加情景记忆或信念追踪模块，以支持更可靠的长时程规划。
- 不确定性感知: 引入能够感知和估计姿态不确定性的模块，以提高对标定误差和物理扰动的容忍度。

7.3. 个人启发与批判

个人启发:
1. “专家+数据”融合范式: SGM 模块的设计极具启发性。它提出了一种通用范式：当面临高质量但可能粗糙的“专家知识”（来自大模型）和低质量但细节丰富的“实时数据”（来自传感器）时，可以设计一个门控网络来动态地、智能地融合二者。这个思想可以广泛应用于其他领域，如金融（融合专家分析报告与实时交易数据）、医疗（融合医学教科书知识与病人的实时生理信号）等。
2. 解耦思想的重要性: 在复杂的系统中，将不同的功能模块或信息流解耦，可以有效提升系统的鲁棒性和可解释性。SpatialActor 的成功再次印证了这一经典工程思想在深度学习架构设计中的价值。
3. 显式空间编码: SPT 模块强调了在处理 3D 空间任务时，将物理世界中的几何约束（如精确的 3D 坐标）显式地编码到模型中的重要性。这比让模型从数据中隐式学习要高效和可靠得多。
批判性思考:
1. 对“专家”的依赖: 模型的鲁棒性在很大程度上建立在“深度估计专家”的鲁棒性之上。虽然 Depth Anything 等模型表现强大，但它们并非完美无缺。如果专家模型在某些特定场景（如极端光照、未见过的材质）下出错，SpatialActor 的性能可能会受到严重影响。该框架的性能上限被专家模型的性能所限制。
2. 计算开销问题: SpatialActor 的框架比 RVT-2 更复杂，它需要额外运行一个大型的深度估计专家模型，并进行多次特征融合。这无疑会增加计算成本和推理延迟。论文没有讨论这方面的开销，对于需要实时响应的机器人应用而言，这是一个需要考虑的实际问题。
3. 泛化性的边界: 虽然模型在物体尺寸和相机位姿变化上表现出良好泛化性，但对于更根本的环境变化，如拓扑结构变化（如从桌面变为货架）、或需要截然不同操作技能的任务，其泛化能力仍有待验证。解耦的表征是否足以支持这种更高层次的泛化，是一个值得进一步探索的问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。