AiPaper
论文状态:已完成

TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking

发表:2025/10/08
原文链接PDF 下载
价格:0.10
价格:0.10
已有 5 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

TrackVLA++ 是一种新颖的视觉-语言-动作模型,旨在提升具身视觉追踪的能力。通过引入空间推理机制和目标识别记忆模块,该模型解决了严重遮挡和相似干扰物导致的追踪失败。实验表明,TrackVLA++ 在准确性和稳定性方面表现优越,达到了最新的技术水平。

摘要

Embodied Visual Tracking (EVT) is a fundamental ability that underpins practical applications, such as companion robots, guidance robots and service assistants, where continuously following moving targets is essential. Recent advances have enabled language-guided tracking in complex and unstructured scenes. However, existing approaches lack explicit spatial reasoning and effective temporal memory, causing failures under severe occlusions or in the presence of similar-looking distractors. To address these challenges, we present TrackVLA++, a novel Vision-Language-Action (VLA) model that enhances embodied visual tracking with two key modules, a spatial reasoning mechanism and a Target Identification Memory (TIM). The reasoning module introduces a Chain-of-Thought paradigm, termed Polar-CoT, which infers the target's relative position and encodes it as a compact polar-coordinate token for action prediction. Guided by these spatial priors, the TIM employs a gated update strategy to preserve long-horizon target memory, ensuring spatiotemporal consistency and mitigating target loss during extended occlusions. Extensive experiments show that TrackVLA++ achieves state-of-the-art performance on public benchmarks across both egocentric and multi-camera settings. On the challenging EVT-Bench DT split, TrackVLA++ surpasses the previous leading approach by 5.1 and 12, respectively. Furthermore, TrackVLA++ exhibits strong zero-shot generalization, enabling robust real-world tracking in dynamic and occluded scenarios.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking

中文翻译: TrackVLA++:在 VLA 模型中释放推理与记忆能力以用于具身视觉追踪

分析: 标题清晰地揭示了论文的核心内容。

  • TrackVLA++TrackVLA++ 表明这是对先前工作 TrackVLA 的一个重要改进和增强版本。
  • Unleashing Reasoning and Memory Capabilities 直接点明了论文的两大核心技术贡献:推理能力记忆能力
  • VLA Models 指明了研究的技术范式,即视觉-语言-动作 (Vision-Language-Action) 模型。
  • Embodied Visual Tracking (EVT) 则明确了论文所针对的具体任务:具身视觉追踪 (Embodied Visual Tracking),即需要智能体(如机器人)在物理环境中移动以持续追踪目标。

1.2. 作者

Jiahang Liu, Yunpeng Qi, Jiazhao Zhang, Minghan Li, Shaoan Wang, Kui Wu, Hanjing Ye, Hong Zhang, Zhibo Chen, Fangwei Zhong, Zhizheng Zhang, He Wang.

隶属机构: 论文作者来自多个顶尖学术和研究机构,包括北京大学 (Peking University)、Galbot、中国科学技术大学 (USTC)、北京智源人工智能研究院 (BAAI)、北京航空航天大学 (Beihang University)、南方科技大学 (SUSTech) 和北京师范大学 (Beijing Normal University)。这种多机构的合作,特别是学术界与产业界的结合,通常意味着研究兼具理论深度和应用潜力。

1.3. 发表期刊/会议

论文提供了一个 arXiv 链接,并标注了未来的发布时间 (2025-10-08),这表明它目前是一篇预印本 (preprint)。arXiv 是一个发布未经同行评审的学术论文的平台,通常用于在正式会议或期刊发表前,快速分享研究成果。根据其主题,该论文很可能会被投递到计算机视觉(CVPR)、机器人学(RSS, CoRL)或人工智能(NeurIPS, ICML)等领域的顶级会议。

1.4. 发表年份

预印本于 2025 年提交(根据 arXiv ID 2510.07134 推断,实际发布日期应早于此,可能是笔误,但仍可视为2024-2025年的工作)。

1.5. 摘要

具身视觉追踪 (EVT) 是一项基础能力,对于伴侣机器人、引导机器人等应用至关重要。尽管最近的研究已能实现语言引导的追踪,但现有方法缺乏显式的空间推理有效的时序记忆,导致在严重遮挡或存在相似干扰物时追踪失败。为了解决这些挑战,我们提出了 TrackVLA++TrackVLA++,一个新颖的视觉-语言-动作 (VLA) 模型。该模型通过两个关键模块增强了 EVT 能力:一个空间推理机制和一个目标识别记忆 (Target Identification Memory, TIM) 模块。推理模块引入了一种名为 Polar-CoT思维链 (Chain-of-Thought) 范式,它能推断目标的相对位置并将其编码为一个紧凑的极坐标词元 (polar-coordinate token),用于指导动作预测。在这些空间先验的引导下,TIM 模块采用门控更新策略来保持长期的目标记忆,确保时空一致性,并在长时间遮挡期间减轻目标丢失问题。大量实验表明,TrackVLA++TrackVLA++ 在公开基准测试的单目 (egocentric)多摄像头 (multi-camera) 设置中均达到了最先进的性能。在极具挑战性的 EVT-Bench DT 数据集上,TrackVLA++TrackVLA++ 的成功率分别比之前最好的方法高出 5.1%12%。此外,TrackVLA++TrackVLA++ 展现出强大的零样本泛化 (zero-shot generalization) 能力,能够在动态和遮挡的真实世界场景中进行稳健追踪。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 论文聚焦于具身视觉追踪 (Embodied Visual Tracking, EVT) 任务。在这个任务中,一个机器人或智能体需要根据视觉输入(和语言指令)在物理环境中主动移动,以持续跟随一个动态的目标。

  • 问题重要性: EVT 是许多现实世界机器人应用(如个人助理、安保机器人、服务机器人)的基础。一个能够可靠跟随指定目标的机器人,才能执行更高级的交互任务。

  • 现有研究的挑战与空白 (Gap):

    1. 缺乏显式空间推理: 现有的 VLA 模型(如 TrackVLA)虽然强大,但它们的推理过程是“黑箱”的,依赖于大型模型自身的隐式能力来理解目标位置。这种方式在简单场景下可行,但在复杂场景中(例如,目标在多个障碍物后穿梭),模型很难进行准确的空间位置推断,容易跟丢。
    2. 缺乏有效的长期记忆: 当目标被长时间遮挡或暂时离开视野时,现有模型很难维持对目标“身份”的记忆。当目标重新出现时,如果周围有外观相似的干扰物 (distractors),模型很容易混淆,导致追踪失败。现有模型的记忆机制通常是基于一个滑动窗口内的短期视觉信息,无法应对长期遮挡。
  • 论文的切入点与创新思路: TrackVLA++TrackVLA++ 的核心思路是“缺什么补什么”。它没有试图设计一个更大、更通用的模型,而是针对上述两个具体痛点,设计了两个专门的、高效的模块:

    1. 为了解决推理问题,引入了 Polar-CoT 机制。它强制模型在行动前先“思考”一步:目标现在在我定义的极坐标系的哪个区域?这个显式的推理步骤为后续的决策提供了强有力的空间先验。
    2. 为了解决记忆问题,引入了 TIM 模块。这个模块并非被动地接收所有视觉信息,而是由 Polar-CoT 的推理结果来智能地指导。只有当模型对目标位置有高置信度时,才更新记忆,从而有效防止了在目标丢失期间被无关信息“污染”记忆。

2.2. 核心贡献/主要发现

  • 提出了新颖高效的 Polar-CoT 推理机制: 本文为 EVT 任务设计了一种专门的思维链 (Chain-of-Thought) 方法,名为 Polar-CoT。与传统 CoT 方法生成冗长文本或复杂中间表征(如边界框)不同,Polar-CoT 仅预测一个紧凑的词元来表示目标在智能体中心极坐标系下的方位和距离。这既实现了显式的空间推理,又保持了高计算效率,非常适合 EVT 这种需要快速响应的动态任务。

  • 提出了推理引导的目标识别记忆 (TIM) 模块: 本文设计了 TIM 模块来解决长期目标识别问题。其核心创新在于门控更新机制,该机制利用 Polar-CoT 推理结果的置信度 (confidence score) 来决定是否以及在多大程度上更新记忆。这种设计使得模型在目标被遮挡或不存在时能够“冻结”记忆,保留最后一次可靠的目标特征,从而极大地增强了对严重遮挡和相似干扰物的鲁棒性。

  • 在多个基准上取得了最先进的性能: 实验结果表明,TrackVLA++TrackVLA++EVT-BenchGym-UnrealCV 等多个模拟基准测试中,无论是在单摄像头还是多摄像头设置下,都取得了当前最先进的性能,尤其是在包含大量干扰物的 DT (Distracted Tracking) 任务上提升显著。

  • 展示了强大的真实世界泛化能力: TrackVLA++TrackVLA++ 能够零样本迁移到真实的四足机器人上,在包含障碍物、曲折路径和干扰物的复杂真实场景中,展现出比先前模型更强的追踪鲁棒性。

3. 预备知识与相关工作

3.1. 基础概念

  • 具身视觉追踪 (Embodied Visual Tracking, EVT): 这是一项机器人任务,要求智能体(如移动机器人)不仅仅是在视频中框出目标,而是要在三维物理空间中主动导航,以使其摄像头持续地、从合适的距离和角度观察一个指定的移动目标。这融合了计算机视觉中的目标识别与机器人学中的运动规划与控制

  • 视觉-语言-动作 (Vision-Language-Action, VLA) 模型: 这是一种多模态人工智能模型,旨在模仿人类通过“看、听、做”来与世界互动的方式。它的工作流程是:

    1. 视觉 (Vision): 接收图像或视频流作为输入。
    2. 语言 (Language): 接收自然语言指令作为输入(例如,“跟着那个穿红衣服的人”)。
    3. 动作 (Action): 输出一系列控制智能体物理行为的指令(例如,轮式机器人的线速度和角速度,或一系列导航路径点)。 VLA 模型通常基于强大的预训练视觉语言模型 (Vision-Language Models, VLMs) 构建,通过在其上增加一个动作解码模块来实现端到端的学习。
  • 思维链 (Chain-of-Thought, CoT) 推理: CoT 最初是为大型语言模型 (Large Language Models, LLMs) 提出的一种提示技术。其核心思想是,在要求模型给出最终答案之前,先引导它生成一系列中间的、逻辑连贯的推理步骤。例如,在解决一个数学应用题时,CoT 会让模型先列出解题步骤,再计算出最终答案。实践证明,这种“三思而后行”的方式能够显著提升模型在复杂推理任务上的准确性。在机器人领域,CoT 被引申为在生成最终动作前,先生成一些中间表征,如高层规划、目标坐标等。

3.2. 前人工作

  • 传统分离式 (Decoupled) EVT 方法:

    • 工作模式: 这类方法将 EVT 任务拆分为两个独立的模块:一个感知模块和一个规划模块。感知模块通常使用现成的视觉基础模型 (Visual Foundation Models, VFMs),如 Segment Anything Model (SAM)GroundingDINO,来识别和定位图像中的目标。规划模块则基于感知结果,使用强化学习 (Reinforcement Learning, RL) 或其他传统规划算法来生成机器人的动作。
    • 代表工作: EVT [6], AD-VAT [3]
    • 局限性: 这种分离式设计存在信息损失误差累积的问题。感知模块的任何微小错误(如定位不准)都会被传递并放大到规划模块,导致规划决策的失败。此外,两个模块分开训练,无法进行端到端的优化。
  • 端到端 (End-to-End) VLA 方法:

    • 工作模式: 为了克服分离式方法的弊端,研究者开始采用 VLA 范式,将感知和规划统一到一个单一的神经网络中进行端到端训练。
    • 代表工作:
      • TrackVLA [12]: 本文的直接前身。它是一个统一的 VLA 框架,使用 VLM 处理视觉和语言输入,并通过一个扩散策略 (diffusion policy) 直接解码出连续的追踪轨迹。它展示了强大的模拟到真实 (sim-to-real) 泛化能力和实时性能。但如前所述,它缺乏显式的推理和长期记忆。
      • LOVON [13]: 采用分层策略,使用 LLM 作为高层规划器,将复杂的指令分解为简单的子任务,再由底层运动模型执行具体的追踪动作。
    • 局限性: 尽管性能优越,但这些模型仍然难以应对长时间遮挡和相似干扰物,因为它们缺少专门为此设计的结构。

3.3. 技术演进

EVT 领域的技术演进脉络可以概括为:

  1. 分离式时代: 感知模型 + 规划算法 (如 RL)。系统模块化,但存在信息瓶颈和误差累积。
  2. 端到端 VLA 时代: 将感知和规划融合到一个大型神经网络中。模型更简洁,性能更强,能够处理语言指令。代表作是 TrackVLA
  3. VLA + 显式推理与记忆时代: 在端到端 VLA 模型的基础上,引入专门的、结构化的模块来增强其在特定挑战(如推理、记忆)上的能力。TrackVLA++TrackVLA++ 正是这一阶段的代表作。它不再仅仅依赖 VLM 的“大力出奇迹”,而是通过引入 Polar-CoTTIM 这样的“巧设计”来解决特定难题。

3.4. 差异化分析

TrackVLA++TrackVLA++ 与相关工作的核心区别如下:

  • 相较于 TrackVLALOVON:

    • TrackVLA++TrackVLA++ 增加了显式的、结构化的推理和记忆模块。而 TrackVLA 等模型依赖 VLM 自身的隐式能力。这种显式设计使得模型在面对遮挡和干扰物时更加鲁棒和可解释。
  • 相较于机器人领域的其他 CoT 方法:

    • 高效性与任务特异性: 传统的机器人 CoT 方法通常生成高维或复杂的中间表征,如自然语言规划文本、像素级的边界框或子目标图像。这些方法虽然有效,但计算开销大,不适用于需要实时响应的 EVT 任务。
    • Polar-CoT 是一种轻量级的 CoT。它将推理过程简化为预测一个单一的、紧凑的词元 (token),这个词元代表了目标在智能体极坐标系下的离散位置。这种设计既达到了显式推理的目的,又最大限度地降低了额外的计算开销,完美契合了 EVT 任务的动态需求。此外,极坐标系天然地以智能体为中心,并且能够无缝地融合多摄像头信息,避免了在多视图下预测和融合多个边界框的复杂性。

4. 方法论

4.1. 方法原理

TrackVLA++TrackVLA++ 的核心思想是在一个标准的 VLA 模型 (NavFoM 作为基础) 中,嵌入一个推理-记忆-行动的闭环。在每个时间步,模型不直接从视觉信息生成动作,而是遵循以下步骤:

  1. 推理 (Reasoning): 利用 Polar-CoT 模块,显式地推断出目标当前相对于智能体的空间位置(角度和距离)。

  2. 记忆更新 (Memory Update): 根据上一步推理的置信度,使用 TIM 模块智能地更新一个长期维持的目标外观表征。高置信度的推理结果会增强记忆,低置信度(如目标被遮挡)则会保护记忆不被破坏。

  3. 行动 (Action): 将原始的视觉信息、语言指令、更新后的长期记忆以及显式的推理结果全部作为输入,送入 LLM 进行决策,最终生成追踪轨迹。

    这个流程将隐式的、难以捉摸的决策过程分解为更清晰、更鲁棒的步骤,从而提升了模型的整体性能。

4.2. 核心方法详解 (逐层深入)

TrackVLA++TrackVLA++ 的整体架构如下图所示,我们将按数据流动的顺序逐步解析。

Fig. 2: The pipeline of TrackVLA \(^ { + + }\) Given a video stream and a language instruction, Track \(\\mathrm { { V L A + + } }\) predicts a tracking trajectory by predictions for long-horizon tracking. 该图像是TrackVLA++的示意图,展示了视觉语言动作模型的工作流程。左侧部分显示输入视频流和语言指令如何通过文本编码器、视觉编码器和网格池化技术生成不同类型的token。右侧部分则介绍了推理token和目标识别token的计算过程,特别是Polar-CoT推理机制及其输出的信心、距离和角度logits。整体图解说明了模型如何实现长时间的跟踪预测。

4.2.1. 任务定义 (Task Formulation)

在任意时间步 TT,智能体的任务是:

  • 输入:
    • 目标的自然语言描述 L\mathcal{L} (例如,“穿蓝色T恤的男人”)。
    • NN 个摄像头捕获的至今为止的 RGB 观测序列 {Otnt=1,,T,n=1,,N}\{ \mathcal { O } _ { t } ^ { n } \mid t = 1 , \dots , T , n = 1 , \dots , N \}
  • 输出:
    • 一个连续的追踪轨迹 WT={w1,w2,}\mathcal{W}_T = \{ w_1, w_2, \dots \}。其中每个路径点 wi=(x,y,θ)R3w_i = (x, y, \theta) \in \mathbb{R}^3 定义了在智能体自身坐标系下的一个目标位移 (x, y) 和朝向变化 θ\theta
  • 成功条件: 智能体与目标的距离始终保持在一个预设范围 DD 内。

4.2.2. 架构详解

1. 观测编码 (Observation Encoding)

  • 特征提取: 首先,模型使用一个双编码器架构处理视频流。具体来说,每个图像帧会同时通过 SigLIPDINOv2 这两个强大的预训练视觉编码器,然后将提取出的特征拼接起来,得到融合后的视觉特征 {Vtn}\{ V_t^n \}
  • 时序特征压缩: 为了在处理长视频序列时平衡上下文长度和计算效率,模型采用了 grid pooling 策略。该策略将最近的观测(当前帧)编码为高分辨率的精细特征 VfineR64×CV^{\mathrm{fine}} \in \mathbb{R}^{64 \times C},而将较远的历史观测编码为低分辨率的粗糙特征 VcoarseR4×CV^{\mathrm{coarse}} \in \mathbb{R}^{4 \times C}(其中 CC 是特征维度)。
  • 短期记忆构建: 模型采用滑动窗口的方式保留最近 k=32k=32 帧的视觉特征,构成短期视觉序列 VTtrack={VTkcoarse,,VT1coarse,VTfine}V_T^{\mathrm{track}} = \{ V_{T-k}^{\mathrm{coarse}}, \dots, V_{T-1}^{\mathrm{coarse}}, V_T^{\mathrm{fine}} \}
  • 特征投影: 短期视觉特征 VTtrackV_T^{\mathrm{track}} 和后文将介绍的长期记忆特征 MTTIMM_T^{\mathrm{TIM}} 会被一个 2 层的 MLP 投影器 P()\mathcal{P}(\cdot) 映射到 LLM 的隐空间中,得到视觉嵌入 ETVE_T^V 和记忆嵌入 ETME_T^METV=P(VTtrack),ETM=P(MTTIM) E _ { T } ^ { V } = \mathcal { P } ( V _ { T } ^ { t r a c k } ) , \quad E _ { T } ^ { M } = \mathcal { P } ( M _ { T } ^ { T I M } )

2. Polar-CoT 空间推理 (Polar-CoT Reasoning)

这是模型的第一个核心创新。

  • 设计思想: Polar-CoT 是一种为具身任务设计的轻量级思维链。它将智能体周围可感知的环形区域(例如,距离 0.6 米到 5.0 米)离散化为一个极坐标网格。每个网格单元由一个唯一的角度 (θ)(\theta)距离 (d) 区间组合定义。这个组合被映射成一个特殊的词汇表词元 (token)。例如,“方向3点钟,距离2-3米”可能对应词元 <loc_3_2>

  • 推理过程:

    1. 将记忆嵌入 ETME_T^M、视觉嵌入 ETVE_T^V 和语言嵌入 ELE^L 拼接起来,作为 LLM 的输入。
    2. LLM 的任务是预测一个推理词元 (reasoning token) ETCoTE_T^{\mathrm{CoT}},这个词元就代表了模型推断出的目标所在极坐标网格的位置。
    3. 词汇表中还包含一个特殊的 <invalid><invalid> 词元,用于表示模型认为目标当前被遮挡或不在视野范围内。
  • 数学表示: ETCoT=LLM(Concat[ETM,ETV,EL]) E _ { T } ^ { \mathrm { CoT } } = \mathrm { L L M } ( \mathrm { C o n c a t } [ E _ { T } ^ { M } , E _ { T } ^ { V } , E ^ { L } ] ) 这里的 LLM()\mathrm{LLM}(\cdot) 表示 LLM 的一次前向传播,用于预测下一个词元。

3. 推理引导的记忆更新 (Reasoning Feedback Memory Update)

这是模型的第二个核心创新,即 目标识别记忆 (Target Identification Memory, TIM) 模块。

  • 设计思想: TIM 模块的目标是维持一个关于目标外观的稳定、长期的表征 MTTIMM_T^{\mathrm{TIM}}。为了防止在目标丢失时记忆被错误信息(如来自干扰物或背景的特征)污染,TIM 的更新过程由 Polar-CoT 的推理结果严格控制。

  • 门控更新机制: 在每个时间步 TTTIM 的状态 MTTIMM_T^{\mathrm{TIM}} 是通过前一时刻的状态 MT1TIMM_{T-1}^{\mathrm{TIM}} 和一个新的候选特征 fT1f_{T-1} 的加权平均来更新的。 MTTIM=(1wT)MT1TIM+wTfT1 M _ { T } ^ { \mathrm { T I M } } = ( 1 - w _ { T } ) \cdot M _ { T - 1 } ^ { \mathrm { T I M } } + w _ { T } \cdot f _ { T - 1 }

    • MT1TIMM_{T-1}^{\mathrm{TIM}}: 上一时刻的记忆状态。
    • fT1f_{T-1}: 候选特征。它是从上一时刻的精细视觉特征 VT1fineV_{T-1}^{\mathrm{fine}} 中,根据上一时刻的推理结果 ET1CoTE_{T-1}^{\mathrm{CoT}} 所指示的空间区域提取的视觉嵌入。
    • wTw_T: 更新权重,其大小由推理的置信度决定。
  • 权重与置信度计算: 权重 wTw_T 的计算方式如下,它将当前置信度与历史平均置信度进行比较: wT=CT1CT2+CT1,withCT2=1T2i=1T2Ci w _ { T } = \frac { C _ { T - 1 } } { \overline { { C _ { T - 2 } } } + C _ { T - 1 } } , \quad \mathrm { with } \quad \overline { { C _ { T - 2 } } } = \frac { 1 } { T - 2 } \sum _ { i = 1 } ^ { T - 2 } C _ { i }

    • CT1C_{T-1}: 上一时刻推理结果 ET1CoTE_{T-1}^{\mathrm{CoT}} 的置信度分数。

    • CT2\overline{C_{T-2}}: 截至 T-2 时刻的历史平均置信度。

      置信度分数 CT1C_{T-1} 本身是通过计算推理词元预测概率分布的归一化熵 (normalized entropy) 来得到的: CT1=1H(softmax(P))logK C _ { T - 1 } = 1 - \frac { H ( \mathrm { s o f t m a x } ( \mathbf { P } ) ) } { \log K }

    • P\mathbf{P}: LLM 输出的用于预测推理词元的 logits (未经 softmax 的原始得分)。

    • H(p)=pilogpiH(p) = -\sum p_i \log p_i: 标准的香农熵 (Shannon entropy) 计算。

    • KK: 推理词元词汇表的大小。

    • 直观解释:

      • 如果模型对目标位置非常确定,其 logits 经过 softmax 后会接近一个 one-hot 分布(即某个词元的概率接近1,其余接近0)。这种分布的熵非常低(接近0),因此置信度 CT1C_{T-1} 接近 1,导致更新权重 wTw_T 较大,新信息 fT1f_{T-1} 被更多地融入记忆。
      • 如果模型不确定目标位置(例如,目标被遮挡或有多个相似干扰物),其概率分布会比较平坦(接近均匀分布)。这种分布的熵很高(接近 logK\log K),因此置信度 CT1C_{T-1} 接近 0,导致更新权重 wTw_T 极小,记忆 MT1TIMM_{T-1}^{\mathrm{TIM}} 基本保持不变,从而实现了对记忆的保护。
    • 特殊规则: 如果推理词元是 <invalid><invalid>,其置信度 CtC_t 被强制设为 0,从而在下一个时间步完全“冻结”记忆更新。

4. 动作生成 (Action Forwarding)

  • 综合决策: 在生成了推理词元 ETCoTE_T^{\mathrm{CoT}} 并更新了记忆 MTTIMM_T^{\mathrm{TIM}} 后,模型将所有可用信息整合起来进行最终的动作预测。
  • 输入序列: LLM 的输入是一个更长的序列,包含了记忆、视觉、语言和刚刚生成的推理结果ETpred=LLM(Concat[ETM,ETV,EL,ETCoT]) E _ { T } ^ { \mathrm { p r e d } } = \mathrm { L L M } ( \mathrm { C o n c a t } [ E _ { T } ^ { M } , E _ { T } ^ { V } , E ^ { L } , E _ { T } ^ { \mathrm { CoT } } ] )
  • 动作解码: LLM 输出一个动作词元 ETpredE_T^{\mathrm{pred}},该词元随后被一个 MLP 组成的动作头 (Action Head) 解码为具体的轨迹路径点 WT\mathcal{W}_TWT=ActionHead(ETpred) { \mathcal { W } } _ { T } = { \mathrm { A ctionH ead } } ( E _ { T } ^ { \mathrm { p r e d } } )

4.2.3. 训练目标 (Training Objective)

模型的总损失函数是一个加权和,包含了三个部分,旨在同时优化轨迹规划、空间推理和通用语言能力: L=Ltraj+αLreason+βLtext \mathcal { L } = \mathcal { L } _ { \mathrm { t r a j } } + \alpha \mathcal { L } _ { \mathrm { r e a s o n } } + \beta \mathcal { L } _ { \mathrm { t e x t } }

  • α,β\alpha, \beta: 平衡各项损失的超参数,经验性地设置为 0.2 和 0.5。

    各项损失定义如下:

  1. 轨迹规划损失 Ltraj\mathcal{L}_{\mathrm{traj}}: 这是预测轨迹与专家演示轨迹(真实标注数据)之间的均方误差 (Mean Squared Error, MSE)Ltraj=i=1MMSE(w^i,wigt) \mathcal { L } _ { \mathrm { t r a j } } = \sum _ { i = 1 } ^ { M } \mathrm { M S E } ( \hat { w } _ { i } , w _ { i } ^ { \mathrm { g t } } )

    • MM: 预测轨迹的路径点数量。
    • w^i\hat{w}_i: 模型预测的第 ii 个路径点。
    • wigtw_i^{\mathrm{gt}}: 真实标注的第 ii 个路径点。
  2. 推理损失 Lreason\mathcal{L}_{\mathrm{reason}}: 这是一个交叉熵损失 (cross-entropy loss),用于监督 Polar-CoT 推理词元的预测。它鼓励模型根据视觉、记忆和语言输入,准确地预测出目标所在的真实空间位置对应的词元。 Lreason=logP(ETCoTConcat[ETM,ETV,EL]) \mathcal { L } _ { \mathrm { r e a s o n } } = - \log \mathbf { P } ( E _ { T } ^ { \mathrm { CoT } } \mid \mathbf { C o n c a t } [ E _ { T } ^ { M } , E _ { T } ^ { V } , E ^ { L } ] )

    • ETCoTE_T^{\mathrm{CoT}}: 此处指代真实的、标注的推理词元。
    • P()\mathbf{P}(\cdot | \cdot): 模型在给定输入条件下,预测出正确推理词元的概率。
  3. 文本预测损失 Ltext\mathcal{L}_{\mathrm{text}}: 这是标准的自回归语言模型损失,用于在 QA 数据集上训练时保持和增强模型的通用语言理解与生成能力。

5. 实验设置

5.1. 数据集

  • 训练数据集:

    • Polar-CoT 追踪数据: 这是一个大规模的自建数据集,包含 100 万个多视角具身追踪样本。这些样本是在 Habitat 3.0 模拟器中,基于 EVT-Bench 的训练场景生成的。每个样本都包含了多视角 RGB 视频、目标描述、专家轨迹以及为 Polar-CoT 精心生成的标注(即目标在每个时刻相对于智能体的真实角度和距离)。如果目标的像素数量过少(小于 2500 像素),则标注为 <invalid><invalid>,以模拟遮挡或距离过远的情况。
    • 问答 (QA) 数据: 为了增强模型的开放世界识别能力和通用语言理解能力,作者混合了 100 万个问答样本进行共同训练,与追踪数据比例为 1:1。这些数据来自多个公开数据集,涵盖了人物识别、图像问答和视频问答。
  • 评估基准 (Benchmarks):

    • EVT-Bench: 一个为具身追踪设计的综合性基准,包含大量干扰物、视觉上相似的目标和有歧义的指令,非常考验模型的鲁棒性。它分为三个子任务:
      • STT (Single-Target Tracking): 单目标追踪。
      • DT (Distracted Tracking): 存在干扰物的追踪,这是最具挑战性的部分。
      • AT (Ambiguity Tracking): 存在歧义指令的追踪。
    • Gym-UnrealCV: 一个使用高保真度虚幻引擎构建的模拟环境,用于测试模型在未曾见过 (unseen) 的环境中的泛化能力。

5.2. 评估指标

  • 成功率 (Success Rate, SR):

    1. 概念定义: 衡量任务最终是否成功的指标。它计算的是在所有测试回合 (episodes) 中,智能体成功完成追踪任务(即从头到尾没有跟丢)的回合所占的百分比。SR 越高,表明模型的整体任务完成能力越强。
    2. 数学公式: SR=Number of Successful EpisodesTotal Number of Episodes \text{SR} = \frac{\text{Number of Successful Episodes}}{\text{Total Number of Episodes}}
    3. 符号解释:
      • Number of Successful Episodes: 成功完成任务的回合总数。
      • Total Number of Episodes: 进行测试的总回合数。
  • 追踪率 (Tracking Rate, TR):

    1. 概念定义: 衡量在任务执行过程中追踪质量的指标。它计算的是在所有时间步 (timesteps) 中,智能体处于“成功追踪”状态(即与目标的距离在预设范围内)的时间步所占的比例。TR 越高,表明模型的追踪过程越稳定、越精确。
    2. 数学公式: TR=e=1Nt=1TeI(is_tracking_successfule,t)e=1NTe\text{TR} = \frac{\sum_{e=1}^{N} \sum_{t=1}^{T_e} I(\text{is\_tracking\_successful}_{e,t})}{\sum_{e=1}^{N} T_e}
    3. 符号解释:
      • NN: 总回合数。
      • TeT_e: 第 ee 个回合的总步数。
      • I()I(\cdot): 指示函数,当条件为真时为 1,否则为 0。
      • is_tracking_successfule,t\text{is\_tracking\_successful}_{e,t}: 一个布尔值,表示在第 ee 个回合的第 tt 步,追踪是否成功。
  • 碰撞率 (Collision Rate, CR):

    1. 概念定义: 衡量智能体导航安全性的指标。它计算的是因与环境发生碰撞而导致任务失败的回合所占的百分比。CR 越低,表明模型的避障能力和路径规划能力越好。
    2. 数学公式: CR=Number of Episodes Failed due to CollisionTotal Number of Episodes \text{CR} = \frac{\text{Number of Episodes Failed due to Collision}}{\text{Total Number of Episodes}}
    3. 符号解释:
      • Number of Episodes Failed due to Collision: 因碰撞而失败的回合总数。
  • 平均回合长度 (Average Episode Length, EL):

    1. 概念定义: 智能体在任务失败或完成前,平均能够持续执行的步数。在有最大步数限制的评估中(如 Gym-UnrealCV 中为 500),EL 越高通常意味着追踪维持的时间越长,性能越好。

5.3. 对比基线

论文将 TrackVLA++TrackVLA++ 与一系列代表性的方法进行了比较,涵盖了从传统方法到最新的 VLA 模型的多个类别:

  • 传统与 RL 方法: IBVS, PoliFormer, EVT, SARL, AD-VAT, TS, DiMP。这些方法大多采用分离式设计。
  • 大型 VLA/VLM 方法:
    • Uni-NaVid: 一个基于大规模模仿学习的 VLA 模型。
    • TrackVLA: 本文的直接前身,一个强大的端到端追踪 VLA 模型。
    • NavFoM: 本文使用的基础模型,一个为具身导航设计的强大的基础模型。
    • SoM + GPT-4o: 一个强大的视觉语言模型组合,代表了通用 VLM 在该任务上的能力。
    • 其他 VLM: RexSeek, LISA++LISA++

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 在 EVT-Bench 上的性能

以下是原文 Table I 的结果,展示了 TrackVLA++TrackVLA++ 与其他 SOTA 方法在 EVT-Bench 上的性能对比。

Methods Single-Target Tracking (STT) Distracted Tracking (DT) Ambiguity Tracking (AT)
SR↑ TR↑ CR↓ SR↑ TR↑ CR↓ SR↑ TR↑ CR↓
IBVS† [51] 42.9 56.2 3.75 10.6 28.4 6.14 15.2 39.5 4.90
PoliFormer† [35] 4.67 15.5 40.1 2.62 13.2 44.5 3.04 15.4 41.5
EVT [6] 24.4 39.1 42.5 3.23 11.2 47.9 17.4 21.1 45.6
EVT[6] (原文为重复,应为增强版) 32.5 49.9 40.5 15.7 35.7 53.3 18.3 21.0 44.9
Uni-NaVid [10] 25.7 39.5 41.9 11.3 27.4 43.5 8.26 28.6 43.7
TrackVLA [12] 85.1 78.6 1.65 57.6 63.2 5.80 50.2 63.7 17.1
NavFoM [44] (Single view) 85.0 80.5 - 61.4 68.2 - - - -
Ours (single view) 86.0 81.0 2.10 66.5 68.8 4.71 51.2 63.4 15.9
NavFoM [44] (Four views) 88.4 80.7 - 62.0 67.9 - - - -
Ours(Four views) 90.9 82.7 1.50 74.0 73.7 3.51 55.9 63.8 15.1

分析:

  • 全面超越: TrackVLA++TrackVLA++ 在所有三个子任务和两种视图设置(单视角和四视角)中,均取得了 SOTA 性能。

  • 在最具挑战性的任务上提升显著: 最引人注目的结果是在 DT (Distracted Tracking) 任务上。在四视角设置下,TrackVLA++TrackVLA++ 的成功率 (SR) 达到了 74.0%,相比强大的基线 NavFoM (62.0%) 提升了整整 12%。这强有力地证明了 Polar-CoT 的精确推理能力和 TIM 的鲁棒记忆能力在区分目标与干扰物方面起到了决定性作用。

  • 数据效率: 论文提到,NavFoM 是在一个包含 1000 万轨迹的大规模数据集上训练的,而 TrackVLA++TrackVLA++ 仅用了 200 万(100万追踪+100万QA)数据就实现了超越。这凸显了 TrackVLA++TrackVLA++ 模块化设计的先进性和数据效率。

  • 多视角优势: 从单视角到四视角的性能提升表明,TrackVLA++TrackVLA++ 的架构能够有效利用多摄像头提供的更丰富的环境信息。

    下图是 TrackVLA++TrackVLA++ 在模拟环境中的一些可视化效果,展示了其在遮挡和干扰情况下的优异表现。左上角的小图显示了 Polar-CoT 的预测,红色区域表示模型推断出的目标位置。

    Fig. 4: Visualizations of the Simulation Experiments. Track\(\\mathrm { { V L A + + } }\) performs well under occlusion and interference conditions. The upper-left inset displays the Polar-CoT prediction, with the red area indicating the predicted target position, and the visualization on EVT-Bench is cropped to a front sector for conciseness. Zoom in for a better view. 该图像是示意图,展示了不同环境中的EVT-Bench实验。每个子图呈现了不同指令下的跟踪过程,展示TrackVLA++在复杂场景中的表现。例如,顶部第二行的指令为"跟随前面第一个人",下方的图像展示了相应的跟踪策略和可能的干扰情况。

6.1.2. 在 Gym-UnrealCV 上的零样本泛化性能

以下是原文 Table II 的结果,测试模型在从未见过的环境中的表现。

Methods Single Target Distractor Unseen Objects
EL↑ SR↑ EL↑ SR↑ EL↑ SR↑
DiMP [55] 367 0.58 309 0.27 - -
SARL [33] 394 0.57 240 0.14 - -
AD-VAT [3] 416 0.62 220 0.12 - -
AD-VAT+ [56] 454 0.76 224 0.12 - -
TS [36] 474 0.86 371 0.48 - -
EVT [6] 490 0.95 459 0.81 480 0.96
TrackVLA [12] 500 1.00 474 0.91 500 1.00
Ours† 500 1.00 484 0.92 500 1.00

分析:

  • 完美的泛化能力: 在单目标和追踪未见过的物体这两个任务上,TrackVLA++TrackVLA++ 取得了满分(SR=1.00, EL=500),表明其能够完美地将从模拟训练数据中学到的能力泛化到全新的高保真环境中。
  • 干扰物下的优越性: 在更困难的 Distractor 任务中,TrackVLA++TrackVLA++ 再次超越了所有先前方法,包括 TrackVLA,取得了更高的成功率和更长的平均追踪时长。这进一步验证了其在面对相似干扰物时的鲁棒识别能力。

6.1.3. 真实世界实验结果

TrackVLA++TrackVLA++ 被部署在真实的 Unitree GO2 四足机器人上,并在三个具有挑战性的场景中进行了测试。

Fig. 5: Visualizations of the Real World Experiments. We evaluate \({ \\mathrm { T r a c k V L A } } + +\) on three different tasks: Obstacle, Winding Path, coparisonucs ratbetweeTackLAanTrackLA+,hlihtinhrove perancure 该图像是实验结果的可视化,包括三个不同任务的跟踪表现:障碍物、曲折路径和干扰物。在右侧的柱状图中,展示了 TrackVLA++ 相较于之前模型在这些任务上的成功率,分别为 86%(Obstacle)、72%(Winding Path)和 94%(Distractor)。

  • 场景描述:
    1. 障碍物 (Obstacle): 目标被大型障碍物短暂遮挡,考验模型的重识别能力。
    2. 曲折路径 (Winding Path): 目标沿复杂路径移动,考验模型的追踪精度和响应速度。
    3. 干扰物 (Distractor): 一个外观相似的干扰者出现,考验模型的辨别能力。
  • 结果分析: 右侧的柱状图显示了 TrackVLA++TrackVLA++ 在这三个任务上的成功率,分别达到了 86%,72%,和 94%。论文指出,相较于 TrackVLA,成功率分别提升了 14%,7% 和 17%。这表明 TrackVLA++TrackVLA++ 的设计不仅在模拟中有效,也成功转化为了在复杂、不可预测的真实世界中的卓越性能。

6.2. 消融实验/参数分析

为了验证 Polar-CoTTIM 两个核心模块的独立贡献,作者在 EVT-BenchDT 分割上进行了消融实验。

以下是原文 Table IV 的结果:

Methods Distracted Tracking (DT)
SR ↑ TR ↑ CR ↓
TrackVLA [12] 57.6 63.2 5.80
NaVFoM (Four views) 62.0 67.9 -
TrackVLA++ (Ours) 74.0 73.7 3.51
w/o Polar-CoT & TIM 65.2 64.8 8.17
w/o TIM 71.2 69.8 4.74
w TIM (16 tokens) 74.2 (+0.2) 73.4 (-0.3) 3.27 (-0.24)

分析:

  • 两个模块都至关重要:
    • w/o Polar-CoT & TIM (即在 NavFoM 基础上使用本文的数据集和训练流程) 的 SR 为 65.2%,比完整的 TrackVLA++TrackVLA++ (74.0%) 低了 8.8%。这证明了性能的巨大提升确实来自于新提出的两个模块。
    • w/o TIM (只使用 Polar-CoT 推理) 的 SR 为 71.2%。与 65.2% 相比,这表明Polar-CoT 模块就带来了 6.0% 的 SR 提升
    • 完整的 TrackVLA++TrackVLA++ (74.0%) 相较于 w/o TIM (71.2%),SR 又提升了 2.8%。这证明了 TIM 模块在 Polar-CoT 的基础上提供了进一步的、互补的性能增益
  • TIM 模块的效率:
    • 实验比较了使用 4 个 token 和 16 个 token 来表示 TIM 记忆。结果显示,将 token 数量增加到 16 个并没有带来明显的性能提升 (SR 从 74.0% 变为 74.2%)。这说明 TIM 模块的设计非常高效,仅用一个非常紧凑的表征(4个 token)就能有效地存储目标的长期身份信息,而无需巨大的计算开销。

7. 总结与思考

7.1. 结论总结

本文提出了 TrackVLA++TrackVLA++,一个为具身视觉追踪 (EVT) 设计的新颖 VLA 模型。它通过引入两个关键模块——轻量级的空间推理机制 Polar-CoT 和推理引导的长期记忆模块 TIM——成功地解决了现有方法在面对严重遮挡和相似干扰物时的失败问题。Polar-CoT 通过显式的思维链推理,为模型提供了精确的目标空间先验;而 TIM 则利用推理的置信度进行门控更新,维持了稳定鲁棒的目标身份记忆。大量的模拟和真实世界实验证明,TrackVLA++TrackVLA++ 不仅在多个基准上刷新了最先进的性能记录,而且展现出卓越的零样本泛化能力和现实应用价值。

7.2. 局限性与未来工作

尽管论文未在结论中明确指出局限性,但我们可以从其设计和实验中进行一些推断:

  • 对高质量标注的依赖: Polar-CoT 的训练依赖于在模拟器中生成的精确的目标相对位置标注。在真实世界中大规模获取这类标注是困难的,这可能会限制模型在全新场景下的进一步学习和适应。
  • 离散空间表示的局限: Polar-CoT 将空间离散化为网格,虽然高效,但可能在需要极高精度定位的场景下成为瓶颈。探索连续或混合式的空间表示可能是未来的一个方向。
  • 对 VLM 主干的依赖: 模型的整体性能高度依赖于其强大的 VLM 主干 (Qwen2-7B)。VLM 自身的偏见或知识局限可能会传递到追踪任务中。
  • 计算资源需求: 尽管 Polar-CoT 设计得非常高效,但整个 TrackVLA++TrackVLA++ 模型仍然需要强大的 GPU (如 RTX 4090) 在服务器上运行,对于完全在机器人上进行板载部署仍然是一个挑战。

未来工作方向可能包括:

  1. 研究如何减少对精确标注的依赖,例如通过自监督或弱监督的方式学习空间推理。
  2. 将该框架应用于更复杂的具身任务,如多目标追踪、具身导航问答等。
  3. 进行模型压缩和优化,以实现在资源受限的机器人平台上的高效部署。

7.3. 个人启发与批判

  • 启发:

    1. “显式”设计的回归: 在端到端模型大行其道的今天,TrackVLA++TrackVLA++ 的成功提醒我们,为模型的特定弱点设计显式的、结构化的模块是一种非常有效的研究思路。它不是盲目地堆叠更大的模型,而是像外科手术一样精确地解决问题。
    2. 任务特异性 CoT 的价值: Polar-CoT 是一个绝佳的例子,展示了如何将通用的 CoT 思想适配到一个具体的、对效率要求极高的机器人任务中。它告诉我们,最好的推理机制不一定是通用和复杂的,而应是与任务需求完美契合的。
    3. 推理与记忆的协同: TIMPolar-CoT 的置信度来引导,这种推理结果反哺记忆模块的设计非常优雅。它形成了一个智能的闭环,让模型的记忆不再是被动记录,而是主动管理。
  • 批判性思考:

    • 论文强调其数据效率(用 2M 数据超越了 NavFoM 的 10M 数据)。然而,NavFoM 的训练数据可能覆盖了更广泛的导航任务,而不仅仅是追踪。因此,虽然在追踪任务上 TrackVLA++TrackVLA++ 的数据效率更高,但这种比较的公平性需要考虑训练数据的任务多样性。
    • 真实世界的实验令人印象深刻,但它们本质上是演示 (demonstrations)。若能提供更系统、更量化的真实世界评估(例如,在标准化的真实世界测试场景下与基线模型进行多次重复实验并报告统计数据),将使其结论更具说服力。
    • 模型在 AT (Ambiguity Tracking) 任务上的性能提升不如在 DT 任务上显著。这可能意味着当前框架在处理语言歧义方面的能力仍有提升空间,其主要优势还是体现在处理视觉上的挑战(遮挡和干扰物)。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。