论文状态：已完成

NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration

发表：2023/10/12

目标驱动导航与探索 (1)扩散政策模型 (1)大规模 Transformer 策略 (1)机器人导航 (1)任务无关探索 (1)

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本论文提出了一种名为NoMaD的统一扩散策略，能够同时处理机器人在未知环境中的任务导向导航和任务无关探索。与传统方法分开处理两种任务不同，NoMaD通过大规模变换器和扩散模型解码器，灵活应对目标条件和无目标导航，实现了在达到视觉目标时的优越性能。

摘要

Robotic learning for navigation in unfamiliar environments needs to provide policies for both task-oriented navigation (i.e., reaching a goal that the robot has located), and task-agnostic exploration (i.e., searching for a goal in a novel setting). Typically, these roles are handled by separate models, for example by using subgoal proposals, planning, or separate navigation strategies. In this paper, we describe how we can train a single unified diffusion policy to handle both goal-directed navigation and goal-agnostic exploration, with the latter providing the ability to search novel environments, and the former providing the ability to reach a user-specified goal once it has been located. We show that this unified policy results in better overall performance when navigating to visually indicated goals in novel environments, as compared to approaches that use subgoal proposals from generative models, or prior methods based on latent variable models. We instantiate our method by using a large-scale Transformer-based policy trained on data from multiple ground robots, with a diffusion model decoder to flexibly handle both goal-conditioned and goal-agnostic navigation. Our experiments, conducted on a real-world mobile robot platform, show effective navigation in unseen environments in comparison with five alternative methods, and demonstrate significant improvements in performance and lower collision rates, despite utilizing smaller models than state-of-the-art approaches. For more videos, code, and pre-trained model checkpoints, see https://general-navigation-models.github.io/nomad/

思维导图

论文精读

中文精读约 22 分钟读完 · 11,942 字

1. 论文基本信息

1.1. 标题

NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration

中文翻译： NoMaD：用于导航和探索的目标掩码扩散策略

标题解析： 标题直接点明了论文的核心。"NoMaD" 是 "Navigation with Goal Masked Diffusion" 的缩写，清晰地概括了其技术方案：

Navigation and Exploration (导航与探索): 这是论文要解决的核心任务领域。
Diffusion Policies (扩散策略): 指明了模型的核心技术是扩散模型 (Diffusion Model)，用它来生成机器人的动作策略。
Goal Masked (目标掩码): 这是本文最关键的创新点，通过一种“掩码”机制，让同一个模型能够灵活地在“有目标”（导航）和“无目标”（探索）两种模式间切换。

1.2. 作者

Ajay Sridhar, Dhruv Shah, Catherine Glossop, Sergey Levine

隶属机构： 加州大学伯克利分校 (UC Berkeley)

背景简介： 本文的作者团队来自机器人和深度学习领域的顶尖学府。特别是 Sergey Levine 教授，是机器人学习领域的权威学者，他的研究对模仿学习、强化学习以及它们在真实机器人上的应用产生了深远影响。这为本研究的可靠性和前沿性提供了有力的背书。

1.3. 发表期刊/会议

本论文最初作为预印本 (preprint) 发布于 arXiv。

arXiv: 是一个广受认可的学术论文预印本平台，允许研究者在同行评审前快速分享他们的最新成果。在计算机科学等快节奏领域，arXiv 上的论文往往代表了最新的研究进展。

1.4. 发表年份

2023年10月

1.5. 摘要

在陌生环境中，机器人学习需要同时解决两种任务：任务导向的导航（到达已知位置的目标）和任务无关的探索（在未知环境中寻找目标）。通常，这两种任务由不同的模型处理。本文提出了一种方法，可以训练一个单一、统一的扩散策略 (diffusion policy) 来同时处理这两种任务。其中，任务无关的探索能力用于搜索新环境，而任务导向的导航能力则用于在目标被定位后精确到达。

研究表明，与那些使用生成模型提出子目标或使用其他潜在变量模型的方法相比，这种统一的策略在视觉导航任务中取得了更好的整体性能。具体实现上，作者使用了一个基于 Transformer 的大规模策略，并在一个包含多种地面机器人数据的多样化数据集上进行了训练。解码器部分采用了扩散模型，以灵活处理目标条件和非目标条件的导航。在真实世界移动机器人上的实验表明，与五种替代方法相比，NoMaD 在未见过的环境中表现出高效的导航能力，性能显著提升，碰撞率更低，并且模型尺寸比当前最先进的方法更小。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2310.07896
PDF 链接: https://arxiv.org/pdf/2310.07896v1.pdf
发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

机器人要在未知环境中自主导航，面临一个根本性的双重挑战：

探索 (Exploration): 当机器人没有明确目标，或者目标位置未知时（例如，被告知“去找到红色的杯子”，但不知道杯子在哪），它必须智能地、安全地探索环境，以寻找这个目标。这是一种任务无关 (task-agnostic) 的行为，因为其核心是高效地覆盖新区域，而不是前往某个特定点。
导航 (Navigation): 一旦目标被定位（例如，机器人看到了那个红色的杯子），它就需要规划并执行一条路径来到达目标。这是一种任务导向 (task-oriented) 或目标条件 (goal-conditioned) 的行为。

现有研究的空白 (Gap): 传统方法通常将这两个问题分开处理，使用两个或多个独立的模型：一个模型负责探索（例如，提出探索性的子目标），另一个模型负责执行点到点的导航。这种分离式设计的弊端显而易见：

系统复杂: 多个模型增加了系统的复杂性、训练和部署的难度。
效率低下: 探索模型和导航模型可能无法有效共享知识。例如，导航中学到的避障、穿越门廊等通用技能，也完全适用于探索，但分离的模型可能需要重复学习。
资源消耗大: 某些先进的探索方法（如使用大型生成模型来提议子目标）计算成本极高，难以部署在资源受限的机器人机载计算机上。

本文的切入点: 作者提出了一个大胆而优雅的设想：我们能否训练一个单一的、高表达能力的策略模型，使其本身就具备这两种能力？ 这个模型应该能够根据是否提供目标，在探索和导航两种行为模式之间无缝切换。

2.2. 核心贡献/主要发现

本文最核心的贡献是提出了 NoMaD (Navigation with Goal Masked Diffusion)，一个统一的机器人导航与探索框架。其主要贡献和发现可以总结为以下几点：

提出统一模型架构: NoMaD 是第一个成功地将目标导向的导航和任务无关的探索融合到单一策略模型中的方法。它通过巧妙的 目标掩码 (Goal Masking) 机制实现这一点，无需训练两个独立模型。
创新的扩散模型应用: 论文创新地将扩散模型用于直接生成机器人的连续动作序列，而不是像先前工作那样生成子目标图像。这使得模型能够学习复杂、多模态的动作分布（例如，在十字路口，左转和右转都是合理的选择），从而产生更平滑、更智能的行为。
卓越的性能与效率: 在真实的机器人实验中，NoMaD 的性能全面超越了之前的最先进方法。
- 在探索任务中，其成功率比基于子目标扩散的 SOTA 方法高出 25%。
- 在导航任务中，其成功率与 SOTA 方法持平。
- 最重要的是，NoMaD 的模型参数量比 SOTA 方法小 15 倍，计算效率更高，可以直接部署在机器人的机载计算机上。
真实世界验证: 本文不仅提出了理论模型，还在真实的移动机器人平台上进行了广泛的实验验证，证明了其在复杂室内外环境中的有效性和鲁棒性。这是对一个机器人学习方法最有力的证明。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 扩散模型 (Diffusion Models)

扩散模型是一类强大的深度生成模型，近年来在图像生成、音频合成等领域取得了巨大成功。其核心思想源于热力学，分为两个过程：

前向过程 (Forward Process): 这是一个固定的、无需学习的过程。它从一个真实的数（例如一张图片或一个动作序列）开始，在多个步骤中逐步、微量地向数据中添加高斯噪声，直到数据最终变成纯粹的随机噪声。
反向过程 (Reverse Process): 这是模型需要学习的核心部分。模型（通常是一个神经网络，如 U-Net）的任务是逆转上述过程。它从纯粹的噪声开始，在同样多的步骤中，逐步地、迭代地去除噪声，最终恢复出原始的、干净的数据。通过学习这个“去噪”过程，模型就学会了数据的内在分布。

在 NoMaD 中，扩散模型学习的不是图像分布，而是给定机器人当前观测（和可选目标）的条件下，未来一系列有效动作的分布。这使得它能够捕捉到复杂场景下的多模态行为（如十字路口可以左转也可以右转），而传统的回归模型通常只能预测这些行为的平均值（比如直行撞墙）。

3.1.2. Transformer

Transformer 是一种最初为自然语言处理设计的神经网络架构，其核心是自注意力机制 (Self-Attention Mechanism)。

工作原理: 自注意力机制允许模型在处理一个序列（如一句话或一系列图像）时，为序列中的每个元素计算一个“注意力分数”，这个分数表示了该元素与其他所有元素的相关性。通过这种方式，模型可以动态地关注序列中最相关的部分，从而捕捉长距离依赖关系。
在本文中的应用: NoMaD 使用 Transformer 来处理机器人过去一段时间的视觉观测序列 ( $o_{t-P}, ..., o_t$ )。这使得模型能够理解场景的动态变化和上下文信息（例如，机器人刚刚从哪个方向过来），从而做出更明智的决策。

3.1.3. 拓扑地图 (Topological Maps)

对于需要长距离导航的大型环境，仅靠当前的视觉输入是不够的。拓扑地图是一种高级、抽象的环境表示方法。

结构: 它是一个图 (Graph)，其中节点 (Nodes) 代表机器人曾经访问过的关键位置（通常用当时的视觉观测来表示），边 (Edges) 代表两个节点之间存在可通行的路径。
作用: 当机器人需要去一个很远的目标时，它可以在这个拓扑地图上进行高层路径规划（如使用 A* 算法），找到一系列中间子目标。然后，底层的导航策略（如 NoMaD）负责完成从一个子目标到下一个子目标的短距离导航。这种分层方法有效地解决了长距离导航问题。

3.2. 前人工作

本文建立在视觉导航和探索的丰富研究之上。

ViNT (Visual Navigation Transformer): 这是 NoMaD 的直接基础和主干网络 (backbone)。ViNT 是一个基于 Transformer 的目标条件导航策略。它将机器人当前的视觉观测和目标图像作为输入，通过 Transformer 处理后，直接回归（预测）出未来的一系列动作。ViNT 在点到点导航任务上表现出色，但它本身不具备探索能力。
ViKiNG: 这是一个将学习到的导航策略与拓扑地图相结合的框架，用于解决长距离导航任务。NoMaD 采纳了这种分层规划的思路，将自己的统一策略嵌入到类似 ViKiNG 的框架中，以实现大规模环境下的探索和导航。
Subgoal Diffusion (ViNT 论文中提出的 SOTA 方法): 这是 NoMaD 在实验中主要对标的最先进的 (state-of-the-art) 方法。该系统由两部分组成：
1. 一个巨大的图像扩散模型 (300M+ 参数)，负责在探索时生成“看起来有趣”的子目标图像。
2. 一个 ViNT 导航策略，负责导航到上述模型生成的子目标。这个系统性能虽好，但模型巨大、计算昂贵，并且是分离式的。

3.3. 技术演进

机器人导航技术从传统的基于几何地图（如 SLAM）的方法，逐渐向端到端的学习方法演进。

早期: 依赖精确的激光雷达和几何地图构建 (SLAM)，然后使用经典路径规划算法 (A*, D*)。这种方法在结构化环境中很可靠，但在动态、复杂或视觉纹理丰富的环境中容易失效。
中期: 强化学习 (RL) 和模仿学习 (IL) 开始被用于训练导航策略，但通常需要大量模拟训练或在真实世界中进行成本高昂的试错。
近期: 大规模真实世界数据驱动的模仿学习成为主流。像 ViNT 这样的模型，通过在包含数百万真实机器人轨迹的大型数据集上进行监督学习，学会了强大的视觉导航能力。
本文 (NoMaD): 处在技术脉络的最前沿，它不仅继承了大规模数据驱动学习的范式，还通过引入扩散模型和目标掩码技术，首次实现了探索与导航能力的统一，并大幅提升了模型的效率和性能。

3.4. 差异化分析

NoMaD 与其最相关的竞品 Subgoal Diffusion 的核心区别在于对扩散模型的使用方式和系统架构：

特性	Subgoal Diffusion (先前 SOTA)	NoMaD (本文方法)
系统架构	分离式 (两模型): 一个图像扩散模型提议子目标 + 一个 ViNT 模型执行导航。	统一式 (单模型): 一个模型内置两种能力，通过目标掩码切换。
扩散模型用途	生成高维子目标图像 (what to do)。	直接生成低维动作序列 (how to do it)。
模型大小	巨大 (335M 参数)。	紧凑 (19M 参数)，小 15 倍。
计算效率	低，难以在机载设备上实时运行。	高，可直接在机器人上高效运行。
核心思想	解耦“去哪里”和“如何去”。	联合学习“去哪里”（探索）和“如何去”（导航）。

这个差异是 NoMaD 取得成功的关键。通过直接在动作空间进行扩散，NoMaD 避免了生成高维图像的巨大计算开销，并使得端到端的联合训练成为可能，从而获得了更高效、更强大的统一策略。

4. 方法论

NoMaD 的核心思想是训练一个单一的、能够根据任务需求灵活切换行为模式的策略网络。它通过两个关键组件实现这一目标：注意力基础的目标掩码 (Attention-based Goal-Masking) 和 扩散策略 (Diffusion Policy)。

下图是 NoMaD 的整体模型架构图（原文 Figure 2），它清晰地展示了数据流和各个组件的协同工作方式。

$Fig. 2: Model Architecture. NoMaD uses two EfficientNet encoders $\\psi , \\phi$ to generate input tokens to a Transformer decoder. We use goal masking to jointly reason about task-agnostic and task-oriented behaviors through the observation context `c _ { t }` . We use action diffusion conditioned on the context `c _ { t }` to obtain a highly expressive policy that can be used in both a goal-conditioned and undirected manner.$ 该图像是示意图，展示了NoMaD模型的架构。模型使用两个EfficientNet编码器（ $\psi$ 和 $\phi$ ）生成输入令牌，接着通过Transformer进行处理。通过目标掩码（Goal Masking），模型能够同时推理任务无关和任务导向的行为。上下文 $c_t$ 为平均池化，结合时间距离 $d(o_t, o_g)$ 进行动作扩散，最终生成8个未来动作 $a_t$ ，具有高度表达能力。

4.1. 方法原理

传统的目标条件策略网络可以表示为 $p(\mathbf{a}_t | \mathbf{o}_t, o_g)$ ，即在给定历史观测 $\mathbf{o}_t$ 和目标 $o_g$ 的条件下，预测未来动作 $\mathbf{a}_t$ 的概率分布。而任务无关的探索策略可以表示为 $p(\mathbf{a}_t | \mathbf{o}_t)$ 。

NoMaD 的巧妙之处在于，它设计了一个单一模型，该模型可以同时学习这两种条件分布。它通过引入一个二进制掩码 $m$ 来控制目标信息 $o_g$ 是否对模型的最终输出产生影响。

4.2. 核心方法详解 (逐层深入)

4.2.1. 视觉编码与 Transformer 主干网络

与 ViNT 类似，NoMaD 首先需要将输入的图像信息转化为模型可以处理的向量表示 (tokens)。

观测编码: 使用一个 EfficientNet-B0 编码器 $\psi$ 独立地处理历史观测序列中的每一张图像 $o_i$ (其中 $i \in \{t-P, ..., t\}$ )，生成一系列观测词元 (observation tokens)。
目标编码: 使用另一个 EfficientNet-B0 编码器 $\phi$ 来处理当前观测 $o_t$ 和目标图像 $o_g$ 的组合，生成一个目标词元 (goal token)。这个词元编码了当前状态与目标之间的关系。
Transformer 处理: 将上述两种词元序列输入到一个标准的 Transformer 解码器 $f$ 中。Transformer 的自注意力机制会处理这些词元，捕捉观测序列的时序依赖关系以及观测与目标之间的关联，最终输出一个融合了所有信息的上下文向量 $c_t$ 。

4.2.2. 目标掩码 (Goal Masking)

这是 NoMaD 的核心创新。目标掩码机制在 Transformer 的注意力计算层面实现，通过一个二进制掩码 $m$ 来控制信息流。

实现方式: 在 Transformer 的多头注意力层中，掩码 $m$ $m$ 用于决定是否让观测词元“关注到”目标词元。
- 当需要探索时 (无目标模式): 设置 $m=1$ 。这个掩码会阻止目标词元 $\phi(o_t, o_g)$ 的信息流向后续层。即使输入了目标图像，模型在计算上下文向量 $c_t$ 时也会完全忽略它。此时，模型等价于一个无条件策略 $p(\mathbf{a}_t | \mathbf{o}_t)$ 。
- 当需要导航时 (有目标模式): 设置 $m=0$ 。此时目标词元正常参与注意力计算，模型可以利用目标信息来生成导向目标的动作。此时，模型等价于一个目标条件策略 $p(\mathbf{a}_t | \mathbf{o}_t, o_g)$ 。
训练: 在训练过程中，掩码 $m$ 从一个伯努利分布中随机采样，概率为 $p_m=0.5$ 。这意味着训练数据中有一半的样本被用于训练导航能力，另一半用于训练探索能力。这种联合训练使得模型能够学习到两种行为共享的底层技能（如避障），同时在同一个网络中保留两种专门化的能力。

4.2.3. 扩散策略 (Diffusion Policy)

得到上下文向量 $c_t$ 后，NoMaD 使用它来条件化 (condition) 一个扩散模型，以生成未来 $H$ 步的动作序列 $\mathbf{a}_t = a_{t:t+H}$ 。

去噪过程: 扩散策略的核心是一个学习到的噪声预测网络 $\epsilon_\theta$ $ϵ_{θ}$ 。在推理时，模型从一个标准高斯分布中采样一个纯噪声动作序列 $\mathbf{a}_t^K$ $a_{t}^{K}$ ，然后通过 $K$ $K$ 次迭代去噪来逐步生成最终的动作序列 $\mathbf{a}_t^0$ $a_{t}^{0}$ 。每一步的去噪过程都遵循以下公式： $\mathbf{a}_t^{k-1} = \boldsymbol{\alpha} \cdot \left( a_t^k - \gamma \epsilon_\theta(c_t, \mathbf{a}_t^k, k) + \mathcal{N}(0, \sigma^2 I) \right)$ 符号解释:
- $\mathbf{a}_t^k$ : 在第 $k$ 个去噪步骤时的（带噪声的）动作序列。
- $k$ : 当前的去噪步骤索引，从 $K$ 递减到 1。
- $c_t$ : 从 Transformer 主干网络得到的上下文向量。这是条件信息，它指导着整个去噪过程的方向。
- $\epsilon_\theta(c_t, \mathbf{a}_t^k, k)$ : 噪声预测网络。它的输入是当前的上下文 $c_t$ 、带噪声的动作 $\mathbf{a}_t^k$ 和当前的时间步 $k$ ，输出是对噪声的预测。
- $\alpha, \gamma, \sigma$ : 这些是与噪声调度表 (noise schedule) 相关的超参数，控制着每一步去噪的幅度和随机性。
  
  下图（原文 Figure 3）直观地展示了扩散策略的效果。在没有目标时（黄色），模型预测出一个双峰分布，代表机器人可以在路口左转或右转。当给定不同目标时（绿色和蓝色），分布会“坍缩”成一个指向特定方向的单峰分布。
  
  该图像是示意图，展示了NoMaD在未知环境中进行导航时的任务无关（黄色）和目标导向（绿色、蓝色）路径。NoMaD在未给定目标时预测双模的无碰撞动作分布，并在对不同目标图像进行条件处理后收敛到更窄的分布。

4.2.4. 训练目标

NoMaD 模型是端到端训练的，其损失函数由两部分组成：

$\mathcal{L}_{\mathrm{NoMaD}}(\phi, \psi, f, \theta, f_d) = \mathrm{MSE}(\varepsilon^k, \varepsilon_\theta(c_t, \mathbf{a}_t^0 + \varepsilon^k, k)) + \lambda \cdot \mathrm{MSE}(d(\mathbf{o}_t, o_g), f_d(c_t))$

符号解释:

第一项 (扩散损失): 这是训练扩散模型的主要损失。
- $\mathbf{a}_t^0$ : 数据集中的真实动作序列 (Ground Truth)。
- $\varepsilon^k$ : 在训练时随机采样的一个高斯噪声。
- $\mathbf{a}_t^0 + \varepsilon^k$ : 将真实动作加上噪声，模拟前向过程中的某一步。
- $\mathrm{MSE}(\varepsilon^k, \varepsilon_\theta(...))$ : 损失函数计算的是真实添加的噪声 $\varepsilon^k$ 与网络预测的噪声 $\varepsilon_\theta(...)$ 之间的均方误差 (Mean Squared Error, MSE)。通过最小化这个误差，网络 $\epsilon_\theta$ 就学会了如何从带噪数据中精确地预测噪声。
第二项 (距离预测损失): 这是一个辅助损失，用于预测当前观测 $\mathbf{o}_t$ $o_{t}$ 和目标 $o_g$ $o_{g}$ 之间的时间距离（即需要多少步才能到达）。
- $f_d(c_t)$ : 一个小型全连接网络，根据上下文向量 $c_t$ 预测时间距离。
- $d(\mathbf{o}_t, o_g)$ : 数据集中的真实时间距离。
- $\lambda$ : 一个超参数，用于平衡两个损失项的权重（论文中设为 $10^{-4}$ ）。这个距离预测对于在高层拓扑地图上进行规划至关重要。

5. 实验设置

5.1. 数据集

来源: 实验使用了 GNM 和 SACSoN 两个大型、异构的数据集。
特点: 这些数据集包含了在多种不同环境（室内、室外、人流密集区域等）和多种机器人平台上收集的总计超过 100 小时的真实世界机器人导航轨迹。数据的多样性是训练出泛化能力强的通用导航模型的关键。

5.2. 评估指标

实验主要使用两个指标来评估模型的性能：

5.2.1. 成功率 (Success Rate)

概念定义: 成功率衡量的是在所有测试任务中，机器人成功完成任务的比例。对于导航任务，成功意味着机器人在没有碰撞的情况下到达了指定的目标区域。对于探索任务，成功意味着机器人在规定时间内找到了预设的目标。这是一个核心的有效性指标，越高越好。
数学公式: $\text{Success Rate} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}}$
符号解释: 无。

5.2.2. 碰撞次数 (Collisions, Coll.)

概念定义: 该指标记录了在所有实验中，机器人每次任务平均发生的碰撞次数。这是一个关键的安全性指标，越低越好。理想情况下，该值应接近于 0。
数学公式: $\text{Average Collisions} = \frac{\text{Total Number of Collisions}}{\text{Total Number of Trials}}$
符号解释: 无。

5.3. 对比基线

为了全面评估 NoMaD 的性能，作者将其与一系列具有代表性的基线模型进行了比较：

VIB [17]: 一种基于变分信息瓶颈 (Variational Information Bottleneck) 的潜在目标模型，用于探索。
Masked ViNT: 这是作者实现的一个重要消融实验基线。它使用了 NoMaD 的 Transformer 主干网络和目标掩码机制，但动作解码器是一个简单的全连接层（回归预测），而不是扩散模型。这个基线用于验证扩散策略的必要性。
Autoregressive: 另一个强大的生成模型基线。它将连续的动作空间离散化，然后使用自回归的方式（像 GPT 一样逐个生成动作）来预测动作序列。
Random Subgoals [3]: 一个 ViNT 导航策略，其探索行为通过随机从训练数据中采样一个子目标图像来驱动。
Subgoal Diffusion [3]: 这是最强的对比基线，代表了当时的 SOTA 水平。它使用一个大型图像扩散模型来生成探索的子目标，然后由 ViNT 策略导航至该子目标。该模型参数量巨大 (335M)。

6. 实验结果与分析

实验围绕三个核心问题展开：(Q1) NoMaD 与先前工作的性能对比；(Q2) 统一策略与专用策略的性能对比；(Q3) 不同模型架构选择对性能的影响。

6.1. 核心结果分析

以下是原文 Table 1 的结果，它回答了第一个核心问题 (Q1)，即 NoMaD 与各基线在探索和导航任务上的性能对比。

Method	Params	Exploration		Navigation Success
Method	Params	Success	Coll.	Navigation Success
Masked ViNT^m	15M	50%	1.0	30%
VIB [17]	6M	30%	4.0	15%
Autoregressive^m	19M	90%	2.0	60%
Random Subgoals [3]	30M	70%	2.7	90%
Subgoal Diffusion [3]	335M	77%	1.7	90%
NoMaD	19M	98%	0.2	90%

分析:

探索性能: NoMaD 取得了 98% 的惊人成功率，显著优于所有基线。特别是与 SOTA 基线 Subgoal Diffusion (77%) 相比，提升了超过 25%。同时，其碰撞率仅为 0.2，远低于其他所有方法，证明了其策略的安全性和鲁棒性。
导航性能: 在已知目标的导航任务中，NoMaD 的成功率达到 90%，与 Subgoal Diffusion 和 Random Subgoals 这两个最强的导航基线持平。
模型效率: NoMaD (19M 参数) 在取得全面领先或持平性能的同时，模型大小仅为 Subgoal Diffusion (335M 参数) 的约 1/17。这体现了其架构的巨大优越性，使其非常适合实际部署。
消融分析: Masked ViNT 的表现不佳 (探索成功率 50%)，这表明仅仅使用目标掩码是不够的。扩散模型对于学习复杂、多模态的探索行为至关重要。Autoregressive 模型虽然性能不错 (90%)，但碰撞率较高 (2.0)，且作者在文中提到其生成的动作较为卡顿。

下图（原文 Figure 4）展示了 NoMaD 策略在未知室内外环境中进行探索的实际轨迹。

该图像是多幅导航图像的组合，展示了机器人在不同环境中的路径选择与导航策略，图像中黄色的线条表示机器人预估的行进方向。

6.2. 消融实验/参数分析

6.2.1. 统一策略 vs. 专用策略 (Q2)

为了验证统一模型是否会因为“一心二用”而导致性能下降，作者将 NoMaD 与只为单一任务训练的专用模型进行了比较。

以下是原文 Table 2 的结果：

Method	Params	Undirected (Exploration)	Goal-Conditioned (Navigation)
Diffusion Policy [31] (只探索)	15M	98%	X
ViNT Policy [3] (只导航)	16M	X	92%
NoMaD (统一模型)	19M	98%	92%

分析: 这个结果非常有力。NoMaD (19M) 在探索任务上的性能 (98%) 与专门用于探索的 Diffusion Policy (15M) 完全相同。在导航任务上，其性能 (92%) 与专门用于导航的 ViNT Policy (16M) 也完全相同。这表明，在模型容量相近的情况下，使用目标掩码训练的统一模型，其在各个子任务上的性能并未受到任何损害。这证明了联合训练的有效性，模型能够成功地学习共享表征，而不会在不同任务间产生负面干扰。

6.2.2. 视觉编码器与目标掩码策略 (Q3)

为了验证 NoMaD 的架构选择（基于 Transformer 的 ViNT 编码器 + 注意力掩码）是否最优，作者测试了其他几种可能的架构。

以下是原文 Table 3 的结果：

Visual Encoder	Success	# Collisions
Late Fusion CNN	52%	3.2
Early Fusion CNN	68%	1.5
ViT	32%	2.5
NoMaD (ViNT Encoder)	98%	0.2

分析: 实验结果清晰地表明，NoMaD 所采用的 ViNT 主干网络和注意力掩码机制是性能的关键。

基于 CNN 的架构（无论是早期融合还是晚期融合）性能远不及 NoMaD，且碰撞率很高。
令人意外的是，标准的 Vision Transformer (ViT) 表现最差，成功率仅 32%。作者推测这可能是由于将 ViT 与扩散模型进行端到端训练时存在优化困难。
这个实验证明了 NoMaD 并非简单地堆砌流行组件，其具体的架构设计是经过验证且至关重要的。

7. 总结与思考

7.1. 结论总结

本文成功地提出并验证了一个名为 NoMaD 的新型机器人学习框架。其核心贡献和结论如下：

实现了统一的导航与探索策略: 通过创新的目标掩码机制，NoMaD 成为首个能够在一个单一模型中高效处理目标导向导航和任务无关探索的策略。
验证了动作空间扩散的有效性: 与生成高维图像子目标相比，直接在动作空间使用扩散模型生成策略，不仅能够更好地捕捉多模态行为，还极大地提升了计算效率（模型大小减小 15 倍）。
取得了 SOTA 性能: 在真实的机器人平台上，NoMaD 在探索任务上性能超越 SOTA 超过 25%，在导航任务上与 SOTA 持平，同时显著降低了碰撞率，展示了卓越的有效性和安全性。

总而言之，NoMaD 为构建更通用、高效、强大的机器人自主导航系统提供了一个优雅且极具前景的解决方案。

7.2. 局限性与未来工作

作者在论文中也坦诚地指出了当前工作的局限性，并展望了未来的研究方向：

目标模态的扩展: 当前系统仅支持通过图像来指定目标。一个更实用的系统应该能够接受更多样的指令模态，例如自然语言（“去厨房的水槽”）、空间坐标（GPS 点）或在地图上点击。
更智能的探索策略: NoMaD 的高层规划依赖于经典的前沿探索 (frontier-based exploration) 策略，即优先探索已知区域与未知区域的边界。未来的工作可以结合语义信息或先验知识，实现更智能的探索，例如优先探索“看起来像办公室的区域”以寻找办公桌。

7.3. 个人启发与批判

这篇论文给我带来了深刻的启发，也引发了一些思考：

启发点:

“统一”的力量: NoMaD 最优雅的地方在于其“统一”的思想。在很多领域，我们习惯于为不同的子任务设计专门的模块。NoMaD 表明，通过巧妙的设计（如目标掩码），一个强大的模型有潜力同时掌握多种看似不同的技能，并可能因为知识共享而做得更好。这个思想可以迁移到许多其他机器人任务中，如操纵中的“抓取”与“探索性推动”。
生成模型的正确应用场景: 这篇论文是“杀鸡要用牛刀，但要用对地方”的绝佳范例。Subgoal Diffusion 使用一个巨大的模型去生成图像，这是一个高维、困难的任务。NoMaD 则将扩散模型的威力用在了更“接地气”的低维动作空间上，结果事半功倍。这提醒我们在应用强大的生成模型时，需要仔细思考生成的目标空间是否是最高效的选择。
效率即是能力: 在机器人学领域，模型的计算效率不仅仅是锦上添花，而是决定其能否落地的核心能力。NoMaD 相比 SOTA 15 倍的效率提升，是其最重要的贡献之一，这使得先进的导航能力可以真正部署在资源有限的机器人上。

批判性思考:

对数据依赖性的探讨: NoMaD 的成功高度依赖于大规模、多样化的真实世界数据集 (GNM, SACSoN)。如果换到一个数据分布截然不同的新环境中（例如，从室内办公楼到野外森林），模型的泛化能力如何？论文对此没有深入探讨。
掩码概率的敏感性: 训练时，目标掩码的概率被固定为 $p_m=0.5$ 。这个超参数是否敏感？不同的概率（例如，70% 的时间用于导航，30% 的时间用于探索）是否会影响两种能力的平衡？
探索的本质: 尽管 NoMaD 的探索策略非常有效，但其高层逻辑仍是几何驱动的“前沿探索”。这是一种“哪里没去过就去哪里”的策略。真正智能的探索或许应该由好奇心、信息增益或语义理解来驱动，而这部分在 NoMaD 中仍由传统规划器负责，学习策略只负责执行。未来的工作或许可以将高层探索逻辑也纳入学习框架中。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。