论文状态：已完成

TrackVLA: Embodied Visual Tracking in the Wild

发表：2025/05/29

视觉语言动作模型 (34)Embodied视觉追踪 (1)轨迹规划扩散模型 (1)大语言模型骨干 (1)Embodied Visual Tracking Benchmark (EVT-Bench) (1)

原文链接 PDF 下载

价格：0.100000

已有 5 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

TrackVLA提出了一种融合视觉、语言与动作的具身视觉跟踪模型，通过共享大语言模型实现目标识别与轨迹规划协同，结合扩散模型提升路径生成能力。构建了包含170万样本的EVT-Bench，实验表明其在复杂野外环境下具备领先性能和强泛化能力。

摘要

Embodied visual tracking is a fundamental skill in Embodied AI, enabling an agent to follow a specific target in dynamic environments using only egocentric vision. This task is inherently challenging as it requires both accurate target recognition and effective trajectory planning under conditions of severe occlusion and high scene dynamics. Existing approaches typically address this challenge through a modular separation of recognition and planning. In this work, we propose TrackVLA, a Vision-Language-Action (VLA) model that learns the synergy between object recognition and trajectory planning. Leveraging a shared LLM backbone, we employ a language modeling head for recognition and an anchor-based diffusion model for trajectory planning. To train TrackVLA, we construct an Embodied Visual Tracking Benchmark (EVT-Bench) and collect diverse difficulty levels of recognition samples, resulting in a dataset of 1.7 million samples. Through extensive experiments in both synthetic and real-world environments, TrackVLA demonstrates SOTA performance and strong generalizability. It significantly outperforms existing methods on public benchmarks in a zero-shot manner while remaining robust to high dynamics and occlusion in real-world scenarios at 10 FPS inference speed. Our project page is: https://pku-epic.github.io/TrackVLA-web.

思维导图

论文精读

中文精读约 25 分钟读完 · 14,045 字

1. 论文基本信息

1.1. 标题

TrackVLA: Embodied Visual Tracking in the Wild 中文翻译：TrackVLA：野外环境下的具身视觉跟踪

核心主题分析： 论文标题直接点明了研究的核心——TrackVLA，这是一个为“野外环境”（in the Wild）设计的模型，专门用于解决“具身视觉跟踪”（Embodied Visual Tracking）任务。这表明该研究不仅提出了一个新模型 (TrackVLA)，还强调了其在复杂、无约束的真实世界环境中的鲁棒性和泛化能力。

1.2. 作者

Shaoan Wang, Jiazhao Zhang, Minghan Li, Jiahang Liu, Anqi Li, Kui Wu, Fangwei Zhong, Junzhi Yu, Zhizheng Zhang, He Wang.

隶属机构分析：

主要研究力量来自北京大学 (Peking University)，特别是其 EPIC Lab (Embodied Perception, Interaction & Cognition Lab)，He Wang, Zhizheng Zhang, Shaoan Wang, Jiazhao Zhang 等多位作者均与此相关。
其他合作机构包括华为诺亚方舟实验室 (Huawei Noah's Ark Lab) (Kui Wu) 和另一位来自 Fangwei Zhong 的机构 (未在摘要中明确，但其先前工作与该领域相关)。
这种产学研结合的作者团队通常意味着研究不仅具有学术前沿性，也兼顾了实际应用落地的可能性。

1.3. 发表期刊/会议

论文目前作为预印本 (Pre-print) 发布在 arXiv 上，尚未经过同行评审。arXiv 是一个开放获取的电子预印本平台，研究者可以在论文正式发表前在此分享他们的成果。考虑到论文的质量和主题，其目标会议很可能是计算机视觉或机器人领域的顶级会议，如 CVPR (Conference on Computer Vision and Pattern Recognition)、ICCV (International Conference on Computer Vision) 或 ICRA (International Conference on Robotics and Automation)。

1.4. 发表年份

2025年5月（根据 arXiv ID 2505.23189v1 和论文中提供的发布日期）。

1.5. 摘要

具身视觉跟踪 (Embodied Visual Tracking) 是一项具身AI中的基础技能，它要求智能体仅使用第一人称视角（egocentric vision）在动态环境中跟随一个特定目标。这项任务极具挑战性，因为它需要在严重遮挡和高动态场景下同时具备精确的目标识别和有效的轨迹规划能力。现有方法通常将识别和规划模块化分离，导致性能瓶颈。本文提出了 TrackVLA，一个视觉-语言-动作 (Vision-Language-Action, VLA) 模型，旨在学习目标识别与轨迹规划之间的协同作用 (synergy)。TrackVLA 利用一个共享的大语言模型 (LLM) 主干网络，并为其配备了一个用于识别的语言建模头和一个用于轨迹规划的基于锚点的扩散模型头。为了训练 TrackVLA，作者构建了一个名为 EVT-Bench 的具身视觉跟踪基准，并收集了包含不同难度等级的170万个识别和跟踪样本。在合成与真实环境中的大量实验表明，TrackVLA 达到了最先进的 (SOTA) 性能和强大的泛化能力。它以零样本 (zero-shot) 的方式在公开基准上显著超越了现有方法，并在真实世界的高动态和遮挡场景中保持了10 FPS的推理速度和鲁棒性。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2505.23189v1
PDF 链接: https://arxiv.org/pdf/2505.23189v1.pdf
发布状态: 预印本 (Pre-print)

2. 整体概括

2.1. 研究背景与动机

核心问题: 如何让一个机器人或智能体在复杂的动态环境中，仅通过自身的摄像头，持续地跟踪一个由自然语言描述指定的移动目标。
问题重要性: 这是具身AI (Embodied AI) 的一项关键能力，是实现更高级人机交互、服务机器人、自动驾驶辅助等应用的基础。例如，让一个家庭服务机器人“跟着穿红色T恤的客人”，或者让无人机“持续追踪那辆蓝色的卡车”。
现有挑战 (Gap):
1. 识别与规划的解耦 (Decoupling): 传统方法通常将任务分解为两个独立的模块：一个视觉模型负责“看”（识别目标在哪），一个规划模型负责“走”（如何移动去跟随）。这种分离设计会导致错误累积：识别错了，规划必然是错的；规划不当导致丢失目标，识别也就无从谈起。
2. 动态与遮挡: 真实世界充满了移动的人群和障碍物，目标随时可能被遮挡或与其他相似物体混淆，这对模型的鲁棒性提出了极高要求。
3. 泛化能力: 现有模型往往在特定场景或针对特定类别的目标（如“人”）训练，难以泛化到未见过的新环境和新类型的目标。
创新切入点: 本文认为，识别和规划是紧密耦合、相辅相成的。因此，作者没有将它们分开，而是提出了一个统一的 (unified) TrackVLA 模型。该模型使用一个共享的智能“大脑”（一个大语言模型），让它同时学习“如何识别目标”和“如何规划轨迹”，从而实现二者之间的协同作用。

2.2. 核心贡献/主要发现

提出了 TrackVLA 模型: 这是一个创新的视觉-语言-动作 (VLA) 架构。其核心特点是双头并行设计：利用共享的 LLM 提取的特征，一个头通过语言建模来回答关于目标的识别问题，另一个头则通过高效的基于锚点的扩散模型 (anchor-based diffusion model) 来生成平滑的跟踪轨迹。这种设计使得模型可以同时进行识别和规划的联合训练。
构建了 EVT-Bench 基准: 这是一个大规模、高质量的具身视觉跟踪数据集和仿真平台。它包含 170万 个样本，涵盖了从简单到复杂的多种跟踪场景（如单目标、有干扰物、目标模糊等），为训练和评估该领域的模型提供了坚实的基础。
实现了最先进的性能和强大的泛化能力:
- 在公开基准 Gym-UnrealCV 上，TrackVLA 以零样本 (zero-shot) 的方式（即没有在该数据集上进行任何训练）取得了全面领先的成绩。
- 在更具挑战性的自建基准 EVT-Bench 上，TrackVLA 的性能远超所有对比方法。
- 在真实世界的机器人上部署时，模型展现出强大的从仿真到现实 (sim-to-real) 的迁移能力，在复杂场景中实现了鲁棒跟踪，且推理速度达到 10 FPS，具备实际应用潜力。

3. 预备知识与相关工作

3.1. 基础概念

具身AI (Embodied AI): 指的是能够通过“身体”（如机器人、虚拟形象）在物理或虚拟环境中进行感知、交互和行动的人工智能系统。与传统的互联网AI（如下棋、聊天）不同，具身AI必须处理现实世界中的不确定性、动态变化和物理约束。
第一人称视角 (Egocentric Vision): 指智能体通过其自身携带的传感器（通常是摄像头）获得的观察视角。这种视角是移动的、局部的，并且会因为智能体的运动而不断变化。
视觉-语言-动作模型 (Vision-Language-Action Model, VLA): 这是一类多模态模型，它将视觉输入 (Vision) 和自然语言指令 (Language) 作为输入，并输出动作 (Action) 来控制一个智能体。VLA模型是连接大语言模型和机器人控制的桥梁，旨在让机器人能听懂人话并执行物理世界的任务。
扩散模型 (Diffusion Models): 一类强大的生成模型。其基本思想分为两个过程：
1. 前向过程（加噪）: 从一个真实数据（如一张图片或一条轨迹）开始，逐步地、迭代地向其添加高斯噪声，直到它完全变成纯噪声。
2. 反向过程（去噪）: 训练一个神经网络，学习如何从纯噪声开始，逐步地、迭代地去除噪声，最终恢复出与原始数据分布相似的新数据。在本文中，扩散模型被用来从噪声中生成智能体的未来运动轨迹。
主干网络 (Backbone): 在深度学习模型中，通常指负责从原始输入（如图像）中提取通用特征的核心网络部分。这些特征随后被送入不同的“任务头”以完成特定任务。本文中，大语言模型 (LLM) 扮演了处理多模态特征的主干角色。

3.2. 前人工作

模块化方法 (Modular Approaches): 这是解决EVT任务的传统范式。
- 感知模块: 通常使用一个现成的目标检测器或跟踪器（如 GroundingDINO, DiMP）来定位每一帧图像中的目标。
- 规划模块: 基于感知模块的输出（如目标的位置、边界框），使用强化学习 (Reinforcement Learning, RL) (SARL, AD-VAT, EVT) 或传统控制算法 (IBVS) 来决策下一步的移动。
- 局限: 如前所述，这种分离设计会因感知错误或规划不当而导致错误累积。
具身导航 (Embodied Navigation): 这是EVT所属的更广泛的研究领域。相关任务包括：
- 视觉-语言导航 (Vision-Language Navigation, VLN): 智能体根据一个语言指令（如“去厨房的水槽”）在静态环境中导航。
- 物体导航 (Object Navigation): 智能体去寻找一个特定类别的物体（如“椅子”）。
- 区别: 这些任务大多发生在静态环境中，而EVT的核心挑战在于目标和环境都是动态的。
统一的VLA模型: 近年来，随着大模型的发展，研究者开始探索用一个端到端的VLA模型来解决具身任务。
- Uni-NaVid [14]: 一个用于统一多种导航任务的VLA模型。它通过在大规模仿真数据上进行模仿学习，学会了根据指令执行导航任务，包括跟随人类。
- 与TrackVLA的区别: Uni-NaVid 主要使用离散动作空间（如“前进”、“左转”、“右转”），这在需要精细控制的真实环境中适应性较差。而 TrackVLA 采用连续动作空间（通过预测未来路点），并特别设计了高效的扩散模型来生成平滑轨迹，更适合高动态跟踪。

3.3. 技术演进

EVT任务的技术路线大致经历了以下演变：

传统视觉 + 控制: 早期的工作使用经典的计算机视觉算法（如相关滤波）进行跟踪，并结合PID等控制器进行跟随。
深度学习 + 强化学习: 随着深度学习的兴起，研究者开始使用深度网络作为感知模块，并用RL训练端到端的规划策略，这提升了模型的适应性，但训练效率低且泛化能力有限。
视觉基础模型 + 离线RL: 为了提升泛化能力，近期工作（如 EVT [6]）开始利用强大的视觉基础模型 (Visual Foundation Models, e.g., SAM) 来增强感知，并结合离线RL (Offline RL) 提高训练效率。
VLA大模型范式: TrackVLA 代表了最新的趋势，即利用VLA大模型的强大推理和泛化能力，将感知、规划和语言理解统一到一个框架中进行端到端学习，寻求任务间的协同效应。

3.4. 差异化分析

与相关工作相比，TrackVLA的核心差异和创新点在于：

统一与协同: 它是第一个真正为EVT任务设计、旨在学习识别与规划协同作用的VLA模型。其双头并行架构是实现这一目标的关键。
高效的连续动作生成: 它没有采用传统的回归（MLP）或自回归方式生成动作，而是引入了基于锚点的扩散模型。这种设计既能生成高质量的平滑轨迹，又通过“锚点”这一先验信息大大提升了推理速度，解决了标准扩散模型推理慢的问题。
数据驱动: 为了支撑其统一模型的训练，作者构建了迄今为止该领域最大、最多样化的数据集 EVT-Bench，并巧妙地结合了额外的VQA数据来增强模型的开放世界识别能力。

4. 方法论

4.1. 方法原理

TrackVLA 的核心思想是任务分发与特征共享。它接收视频和语言指令后，首先用一个共享的编码器和LLM主干网络来处理和理解这些多模态信息，生成一个富含情境感知的特征表示。然后，模型根据指令中是否存在一个特殊的 [Track] 标志，来决定将这个特征表示分发给两个专门的任务头之一：

如果有 [Track] 标志，意味着当前是跟踪任务，则调用基于锚点的扩散动作模型头，生成未来的运动轨迹。
如果没有 [Track] 标志，意味着当前是识别问答任务，则调用标准的语言模型头，自回归地生成文本答案。

通过在包含跟踪和问答的混合数据上联合训练这两个头，模型被迫学习一个能够同时支持两种任务的通用特征表示，从而促进识别能力和规划能力的协同发展。

4.2. 核心方法详解 (逐层深入)

TrackVLA 的整体流程如下图（原文 Figure 2）所示，我们可以将其分解为三个主要步骤：

Figure 6: Comparison of different data scales and ratios. 该图像是图表，展示了不同数据规模和比例条件下的成功率对比。横轴表示跟踪数据与识别数据比值 $|\mathcal{N}_{track}| : |\mathcal{N}_{recog}|$ ，纵轴为成功率（百分比），图中以三类数据量（全量、2/3及1/3数据）用不同颜色和大小的圆点表示。

4.2.1. 观测与指令编码

这是模型的数据输入和预处理阶段。

视觉特征提取:
- 输入是一段第一人称视角的RGB视频帧序列 $\mathcal{O}_T = \{\mathbf{x}_1, \cdots, \mathbf{x}_T\}$ 。
- 模型使用一个预训练好的视觉编码器 (EVA-CLIP) 将每一帧 $\mathbf{x}_t$ 编码成图像块 (patch) 特征 $\mathbf{V}_t \in \mathbb{R}^{N \times C}$ ，其中 $N=256$ 是图像块的数量， $C$ 是特征维度。
特征压缩与组织:
- 为了在保留信息的同时降低输入序列的长度，模型采用了网格池化 (Grid Pooling) 策略，生成两种不同分辨率的特征：
  - 精细特征 (fine-grained): $\mathbf{V}^{\mathrm{fine}} \in \mathbb{R}^{64 \times C}$ ，保留更多细节。
  - 粗糙特征 (coarse-grained): $\mathbf{V}^{\mathrm{coarse}} \in \mathbb{R}^{4 \times C}$ ，提供概括性信息。其计算方式为： $\mathbf{V}^{\mathrm{fine/coarse}} = \mathrm{GridPool}(\mathbf{V}, \frac{64}{N} \text{ or } \frac{4}{N})$ 这里 GridPool 是一种池化操作，将 $N$ 个图像块的特征聚合成更少的数量（64或4个）。
- 模型采用滑动窗口 (sliding window) 机制，只保留最近的 $k=32$ 帧历史信息。根据任务类型的不同，这些特征被组织成不同的序列：
  - 跟踪任务 (track): $\mathcal{V}_T^{\mathrm{track}} = \{ \mathbf{V}_{T-k}^{\mathrm{coarse}}, ..., \mathbf{V}_{T-1}^{\mathrm{coarse}}, \mathbf{V}_{T}^{\mathrm{fine}} \}$ 。即历史帧用粗糙特征，当前帧用精细特征，以聚焦于当前细节。
  - 问答任务 (QA): $\mathcal{V}_T^{\mathrm{QA}} = \{ \mathbf{V}_{1}^{\mathrm{coarse}}, ..., \mathbf{V}_{T}^{\mathrm{coarse}} \}$ 。所有帧都用粗糙特征，以理解整个视频的概况。
多模态投影:
- 将组织好的视觉特征序列 $\mathcal{V}_T$ 通过一个2层MLP构成的投影器 (projector) $\mathcal{P}(\cdot)$ ，映射到大语言模型 (LLM) 的词嵌入空间中，得到视觉词元 (token) $\mathbf{E}_T^V = \mathcal{P}(\mathcal{V}_T)$ 。

4.2.2. 大语言模型 (LLM) 转发

这是模型的核心推理阶段。

输入构建: 将投影后的视觉词元 $\mathbf{E}_T^V$ 与经过编码的语言指令词元 $\mathbf{E}^I$ 拼接起来。对于跟踪任务，还会在指令前插入一个特殊的 [Track] 词元。
LLM处理: 将拼接好的多模态词元序列输入到LLM主干网络（Vicuna-7B）中进行处理。LLM通过其自注意力机制，深度融合视觉和语言信息，生成一个包含了对场景、目标和任务的综合理解的最终隐藏状态 $\mathbf{E}_T^{\mathrm{pred}}$ 。

4.2.3. 双头并行解码

这是模型的任务输出阶段。

识别问答解码:
- 当任务不包含 [Track] 词元时，模型使用标准的语言建模头 (language modeling head)。
- 它将LLM的输出 $\mathbf{E}_T^{\mathrm{pred}}$ 逐词元地自回归解码，生成文本答案。其训练目标是最大化生成真实答案文本的概率，损失函数为标准的交叉熵损失 $\mathcal{L}_{\mathrm{text}}$ 。
基于锚点的扩散动作模型解码:
- 当任务包含 [Track] 词元时，模型使用基于锚点的扩散动作模型 (Anchor-based Diffusion Action Model)。其工作流程如下图（原文 Figure 3）所示：
  
  该图像是论文中展示的定制人形虚拟角色的插图，包含八个人物模型，每个模型下方有对应的穿着描述文字，用于体现不同服装和体型变体。
- 锚点 (Anchors): 在训练前，模型首先从训练数据的所有专家轨迹中，使用K-means聚类算法提取出 $M=40$ 个具有代表性的锚点轨迹 (anchor trajectories) $\{\tau_i\}_{i=1}^M$ 。每个锚点轨迹 $\tau_i$ 是一系列路点，代表了一种典型的运动模式（如左转、直行等）。
- 扩散与去噪:
  - 在训练时，模型对这些锚点轨迹加入少量噪声，得到带噪锚点 $\tilde{\tau}_i$ 。
  - 在推理时，动作模型 $\mathcal{A}_{\theta}(\cdot)$ 将带噪锚点 $\{\tilde{\tau}_i\}_{i=1}^M$ 和LLM输出的条件信息 $\mathbf{E}_T^{\mathrm{pred}}$ 作为输入，通过一个扩散变换器 (Diffusion Transformer, DiT) 进行去噪。这个过程非常高效，只需2步去噪迭代。
  - 模型的输出包括两部分：一组去噪后的候选轨迹 $\{\hat{\tau}_i\}_{i=1}^M$ 和它们各自的置信度得分 $\{\hat{s}_i\}_{i=1}^M$ 。该过程可表示为： $\left\{ \hat{s}_i, \hat{\tau}_i \right\}_{i=1}^M = \mathcal{A}_{\theta} \left( \left\{ \tilde{\tau}_i \right\}_{i=1}^M, \mathbf{E}_T^{\mathrm{pred}} \right)$
- 损失函数: 跟踪任务的训练目标是让模型选出并优化最接近真实专家轨迹 $\tau_{gt}$ 的锚点。
  - 首先，对于每个训练样本，找到离 $\tau_{gt}$ 最近的锚点，将其标签设为正样本 ( $s_{\mathrm{nearest}} = 1$ )，其余锚点设为负样本 ( $s_{\mathrm{else}} = 0$ )。
  - 跟踪损失 $\mathcal{L}_{\mathrm{track}}$ 由两部分组成：
    1. 轨迹回归损失: 只对正样本对应的预测轨迹 $\hat{\tau}_i$ 计算均方误差 (MSE)，促使模型生成的轨迹逼近专家轨迹。
    2. 得分预测损失: 对所有样本计算二元交叉熵 (BCE) 损失，促使模型为正样本锚点打高分，为负样本锚点打低分。
  - 完整的跟踪损失函数如下，其中 $\lambda=100$ 是一个平衡参数： $\mathcal{L}_{\mathrm{track}} = \sum_{i=1}^M [ s_i \mathrm{MSE}(\hat{\tau}_i, \tau_{gt}) + \lambda \mathrm{BCE}(\hat{s}_i, s_i) ]$
- 最终选择: 推理时，模型选择置信度得分 $\hat{s}_k$ 最高的那个候选轨迹 $\hat{\tau}_k$ 作为最终输出，并将其转换为机器人的线速度和角速度指令。

4.2.4. 联合训练

模型的总损失函数是跟踪损失和文本损失的加权和，其中 $\alpha=1$ 是平衡参数： $\mathcal{L} = \mathcal{L}_{\mathrm{track}} + \alpha \mathcal{L}_{\mathrm{text}}$ 通过优化这个总损失，TrackVLA 得以联合学习识别和规划两种能力。

5. 实验设置

5.1. 数据集

TrackVLA 的训练依赖于一个大规模的混合数据集，分为跟踪和识别两部分，总量为170万（各85.5万）。

Figure 8: Examples of humanoid avatars used in Gym-UnrealCV. 该图像是多个人形虚拟角色的插图，展示了Gym-UnrealCV环境中使用的多样化人形化身样例。图中共五个不同风格的角色并排展示于街道场景中。

具身视觉跟踪数据 (EVT-Bench):
- 来源: 作者基于 Habitat 3.0 仿真器自建。主要增强包括：
  1. 多样化人形化身: 使用 SMPL-X 模型和 ATLAS 纹理数据集自动生成了100个外观各异的虚拟人，并用 Qwen-VL 模型为他们生成了详细的文本描述。下图（原文 Figure 7）展示了部分化身及其描述。
    
    该图像是图表，展示了EVT-Bench训练集中三种视觉跟踪任务（单目标跟踪、注意力分散跟踪和歧义跟踪）的场景序列与指令示例，体现了机器人视角下的连续跟踪效果。
  2. 自然行为: 赋予虚拟人随机行走的目标点，行走速度符合人类正常范围（1.0-1.5 m/s），并使用 ORCA 算法实现动态避障，使行为更真实。
- 规模与划分: 共包含 25,986 个跟踪片段（episodes），分布在 804 个不同的3D场景中。训练集和测试集在场景和虚拟人上完全不重叠，保证了评估的公正性。
- 任务类型: EVT-Bench 被划分为三个难度递增的子任务，以全面评估模型能力：
  1. 单目标跟踪 (Single-Target Tracking, STT): 基础跟踪能力测试，指令简单。
    - 样本指令: "Follow the person/man/woman" (跟随那个人/那个男人/那个女人)。
  2. 干扰跟踪 (Distracted Tracking, DT): 考验在有其他无关虚拟人干扰时，通过细粒度描述识别并跟踪正确目标的能力。
    - 样本指令: "Follow the light-skinned man in a black suit with a white belt" (跟那个穿着黑西装、系着白腰带的浅肤色男人)。
  3. 歧义跟踪 (Ambiguity Tracking, AT): 考验在有外观完全相同的干扰物存在时，根据模糊指令（如时序）识别目标的能力。
    - 样本指令: "Follow the first person you see" (跟随你看到的第一个人)。
视频问答数据 (Video Question Answering, VQA):
- 目的: 弥补仿真跟踪数据在场景和物体多样性上的不足，赋予模型开放世界的识别能力。
- 构成:
  1. 人体识别VQA (36.2万): 基于 SYNTH-PEDES 数据集构建。通过将多个人物图像随机合成到不同背景中，生成需要模型描述人物属性、相对位置或判断是否为同一人的问答样本。
  2. 开放世界VQA (49.3万): 整合了多个公开的视频问答数据集（如 MovieChat, Panda-70M, ActivityNet-QA），这些数据包含对各种物体和活动的描述，极大地增强了 TrackVLA 的通用识别能力。
公开基准 (Public Benchmark):
- Gym-UnrealCV: 一个用于主动视觉任务的公开基准，包含多个虚拟环境。本文用它来评估模型的零样本泛化能力。

5.2. 评估指标

论文使用了两套评估体系，分别对应 EVT-Bench 和 Gym-UnrealCV。

5.2.1. EVT-Bench 指标

成功率 (Success Rate, SR):
- 概念定义: 衡量智能体最终完成跟踪任务的能力。一个片段被认为是成功的，条件是：在片段结束时，智能体与目标的距离在1到3米的安全范围内，并且朝向目标。
- 数学公式: $\mathrm{SR} = \frac{\text{Number of Successful Episodes}}{\text{Total Number of Episodes}}$
- 符号解释: 无。
跟踪率 (Tracking Rate, TR):
- 概念定义: 衡量智能体在整个跟踪过程中的跟踪质量。它计算的是智能体成功跟踪目标的步数占总步数的比例。
- 数学公式: $\mathrm{TR} = \frac{S}{L}$
- 符号解释:
  - $S$ : 智能体成功跟踪目标的总步数。
  - $L$ : 片段的总步数。
碰撞率 (Collision Rate, CR):
- 概念定义: 衡量智能体的安全性。它计算的是因智能体与目标发生碰撞而导致任务提前终止的片段所占的比例。
- 数学公式: $\mathrm{CR} = \frac{\text{Number of Episodes Ended by Collision}}{\text{Total Number of Episodes}}$
- 符号解释: 无。

5.2.2. Gym-UnrealCV 指标

平均片段长度 (Episode Length, EL):
- 概念定义: 智能体在任务失败或达到最大步数之前，能够持续跟踪的平均步数。这个值越高，说明长期跟踪能力越强。
- 数学公式: $\mathrm{EL} = \frac{\sum_{i=1}^{N} \text{Length of Episode}_i}{N}$
- 符号解释:
  - $N$ : 总测试片段数（这里是100）。
成功率 (Success Rate, SR):
- 概念定义: 与 EVT-Bench 中的定义类似，但成功条件不同。在这里，如果智能体在整个片段（最大500步）中都将目标保持在预定义的视野和距离范围内，则视为成功。
- 数学公式: $\mathrm{SR} = \frac{\text{Number of Successful Episodes}}{\text{Total Number of Episodes}}$
- 符号解释: 无。

5.3. 对比基线

论文将 TrackVLA 与三类主流方法进行了比较：

基于模型的方法 (Model-based):
- IBVS [71]: 一种经典的视觉伺服方法，使用卡尔曼滤波进行目标跟踪。
基于强化学习的方法 (RL-based):
- DiMP [72], SARL [24], AD-VAT [3], AD-VAT+ [4], TS [27], PoliFormer [26]: 这些方法使用不同版本的RL来训练一个端到端的跟踪策略。
- EVT [6]: 目前最先进的RL方法之一，它结合了视觉基础模型和离线RL。
基于模仿学习的方法 (IL-based):
- Uni-NaVid [14]: 一个统一的VLA导航模型，是与 TrackVLA 在模型范式上最接近的对比方法。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 在公开基准上的零样本泛化能力

实验首先在 Gym-UnrealCV 基准上评估了 TrackVLA 的零样本性能，结果如下表（原文 Table 1）所示。

以下是原文 Table 1 的结果：

Methods	Single Target EL↑/SR↑	Distractor EL↑/SR↑	Unseen Objects EL↑/SR↑
DiMP [72]	367/0.58	309/0.27	-/-
SARL [24]	394/0.57	240/0.14	-/-
AD-VAT [3]	416/0.62	220/0.12	-/-
AD-VAT+ [4]	454/0.76	224/0.12	-/-
TS [27]	474/0.86	371/0.48	-/-
EVT [6]	490/0.95	459/0.81	480/0.96
Ours	500/1.00	474/0.91	500/1.00

分析:

压倒性优势: TrackVLA 在所有任务上都显著超越了包括先前SOTA模型 EVT 在内的所有基线。
完美表现: 在“单目标”和“未见过的物体”任务中，TrackVLA 达到了 500/1.00 的满分成绩，意味着它在100个测试片段中无一失败，并全程完成了跟踪。这证明了其强大的基础跟踪能力和对新物体类型的泛化能力。
抗干扰能力: 在最具挑战性的“干扰物”任务中（需要从外观相同的物体中持续跟踪初始目标），TrackVLA 依然以 12.3% 的成功率优势超越了 EVT，体现了其对时序和上下文的强大推理能力。
结论: 零样本测试的成功强有力地证明了 TrackVLA 通过在大规模多样化数据上训练所获得的强大泛化能力，它无需在特定测试环境上微调就能表现出色。

6.1.2. 在自建基准上的综合性能

为了更全面地评估模型，作者在更复杂的 EVT-Bench 上进行了测试。

以下是原文 Table 2 的结果：

Methods	STT SR↑/TR↑/CR↓	DT SR↑/TR↑/CR↓	AT SR↑/TR↑/CR↓
IBVS† [71]	42.9/56.2/3.75	10.6/28.4/6.14	15.2/39.5/4.90
PoliFormer† [26]	4.67/15.5/40.1	2.62/13.2/44.5	3.04/15.4/41.5
EVT [6]	24.4/39.1/42.5	3.23/11.2/47.9	17.4/21.1/45.6
EVT‡ [6]	32.5/49.9/40.5	15.7/35.7/53.3	18.3/21.0/44.9
Uni-NaVid [14]	25.7/39.5/41.9	11.3/27.4/43.5	8.26/28.6/43.7
Ours	85.1/78.6/1.65	57.6/63.2/5.80	50.2/63.7/17.1

分析:

巨大性能鸿沟: 在所有三个任务上，TrackVLA 的性能都远超其他所有方法。例如，在基础的 STT 任务中，其成功率 (85.1%) 是次优方法 IBVS (42.9%) 的近两倍。在更难的 DT 和 AT 任务中，优势更加明显。
VLA 对比: 与同为VLA模型的 Uni-NaVid 相比，TrackVLA 的优势是碾压性的，证明了其架构设计（特别是连续动作空间和高效规划模型）的优越性。
基准挑战性: 尽管 TrackVLA 性能强大，但从 STT (SR 85.1%) 到 DT (SR 57.6%) 和 AT (SR 50.2%) 的性能下降也清晰地表明了 EVT-Bench 中干扰和歧义任务的巨大挑战性。这验证了该基准作为未来研究目标的价值。

6.1.3. 视觉识别能力与效率

为了验证联合训练确实提升了识别能力，作者单独评估了模型的识别性能。

以下是原文 Table 3 的结果：

Methods	ACC↑	FPS↑
RexSeek [75]	54.3	1.1
LISA++ [76]	78.2	0.6
SoM [73]+GPT-4o [74]	82.4	0.1
Ours w/o VQA	62.3	10
Ours	80.7	10

分析:

高精度与高效率的平衡: TrackVLA 的识别准确率 (80.7%) 与当前非常强大的基线 SoM+GPT-4o (82.4%) 相当，但其推理速度 (10 FPS) 是后者的 100倍。这展示了 TrackVLA 在保持高性能的同时，实现了实时应用所需的效率。
联合训练的有效性: 与没有经过VQA数据联合训练的版本 (Ours w/o VQA) 相比，TrackVLA 的准确率提升了 29.53% (从62.3%到80.7%)。这决定性地证明了引入开放世界VQA数据进行联合训练对于提升模型识别和泛化能力至关重要。

6.1.4. 真实世界定性结果

论文在 Figure 5 和 Figure 10 中展示了将 TrackVLA 部署在四足机器人上，并在真实世界中进行测试的结果。

Figure 9: Real-world system architecture. TrackVLA is deployed on a remote server, and the robot communicates with it via the Internet.

分析:

强大的Sim-to-Real迁移能力: 模型无需在真实世界数据上进行任何训练，就能直接从仿真环境迁移到现实中，并成功执行跟踪任务。
鲁棒性: 即使在杂乱的室内、光线昏暗的室外、目标快速移动或存在多个行人的复杂情况下，TrackVLA 依然能保持稳定跟踪，表现优于顶尖的商用无人机（DJI Flip）。这充分说明了其架构设计和训练策略的成功。

6.2. 消融实验/参数分析

6.2.1. 数据规模与比例的影响

作者探究了训练数据量和不同类型数据（跟踪 vs. 识别）的比例对性能的影响。

Figure 10: Visualization of the real-world experiments. TrackVLA demonstrates robust tracking performance under challenging conditions such as occlusions and fast target motion, outperforming existin…

分析 (原文 Figure 6):

数据规模定律: 如图所示，无论比例如何，随着训练数据总量的增加（从1/3到全量），模型的成功率都在稳步提升。这符合深度学习中“数据越多，模型越强”的普遍规律。
最佳数据比例: 在所有数据规模下，1:1 的跟踪与识别数据比例都取得了最好的性能。作者推测这可能是因为平衡的数据比例带来了更均衡的梯度更新，使得两个任务的学习过程能够相互促进而不是相互干扰。

6.2.2. 动作模型架构的选择

作者比较了不同的动作模型对最终性能的影响。

以下是原文 Table 4 的结果：

Model	Params.	SR↑	TR↑	CR↓	time(ms)↓
Autoregressive	131M	42.6	56.9	11.7	460
MLP (3-Layers)	7M	45.8	59.9	10.1	0.5
MLP (6-Layers)	89M	52.7	61.9	9.42	0.8
DP-Base	89M	17.9	33.8	27.7	65
Ours-Small	13M	49.8	60.2	6.67	8
Ours-Base	89M	57.6	63.2	5.80	13

分析:

Ours (基于锚点的扩散模型) 的优越性: 该模型在所有性能指标（SR, TR, CR）上均优于其他架构，包括自回归模型、简单的MLP以及标准的扩散策略(DP)。
效率与性能的权衡: 简单的MLP虽然速度极快（<1ms），但性能较差。标准的扩散策略 (DP) 性能最差且速度较慢。自回归模型速度最慢。Ours 的方法在推理时间 (13ms) 和性能之间取得了最佳的平衡。
可扩展性: 比较 Ours-Small 和 Ours-Base 可以发现，增大扩散变换器（DiT）的尺寸可以持续提升性能，这表明该动作模型具有良好的扩展潜力 (scaling behavior)。

7. 总结与思考

7.1. 结论总结

本论文成功地解决具身视觉跟踪中的核心挑战，其主要结论和贡献可以总结为：

提出了 TrackVLA，一个创新的统一VLA模型，它通过共享的LLM主干和并行的识别/规划双头设计，有效地学习了目标识别和轨迹规划之间的协同作用。
引入了基于锚点的扩散模型作为动作生成器，在保证高质量轨迹生成的同时，极大地提升了推理效率，使其能够达到10 FPS的实时性能。
构建并开源了大规模、高质量的 EVT-Bench 基准，为具身视觉跟踪领域的研究提供了宝贵的资源，其多样化的任务设置能有效评估模型的综合能力。
通过大量的实验证明了 TrackVLA 的卓越性能，它不仅在合成与真实环境中均达到SOTA水平，更展现了强大的零样本泛化和Sim-to-Real迁移能力，为具身AI在动态世界中的应用迈出了坚实的一步。

7.2. 局限性与未来工作

作者坦诚地指出了当前工作存在的局限性，并展望了未来的研究方向：

有限的视场 (Field of View, FOV): 当前模型仅依赖于标准的、约90度的第一人称视角。当目标移动到视野之外时，跟踪很容易失败。未来可以集成全景相机 (panoramic) 或多视角输入 (multi-view)，为智能体提供更广阔的感知范围。
简单的运动控制: 模型目前只输出路点，并由一个简单的路点跟随控制器执行。这限制了机器人的移动灵活性和速度。未来计划集成更高级的局部运动控制器 (local motion controller)，以实现更敏捷、更高效的运动，并最终整合全身运动能力 (locomotion capabilities)。

7.3. 个人启发与批判

这篇论文逻辑清晰、实验扎实、贡献显著，给人留下深刻印象。

启发点:
1. 协同学习的思想: “识别”与“规划”不再是孤立的任务，而是可以相互促进的。这种将看似不同的任务统一到一个框架下进行联合学习的思想，很可能适用于其他复杂的具身AI任务，如具身操作、人机协作等。
2. 先验知识与生成模型的结合: 基于锚点的扩散模型是一个非常巧妙的设计。它将“锚点”作为一种强先验知识融入到扩散过程中，既利用了扩散模型生成高质量样本的能力，又克服了其速度慢的缺点。这种思想可以被借鉴到其他需要快速、高质量生成的连续控制任务中。
3. 数据工程的重要性: 论文的成功离不开大规模、高质量的 EVT-Bench 和精心设计的VQA混合数据。这再次凸显了在AI 2.0时代，高质量的数据和有效的训练策略与模型架构设计同等重要。
批判性思考与潜在问题:
1. 长期记忆问题: 模型采用32帧的滑动窗口来处理历史信息。这对于解决短时遮挡或歧义可能有效，但如果目标被长时间遮挡（超过32帧，约3.2秒），模型是否会“忘记”目标？对于需要更长记忆的复杂场景（例如，“跟踪10分钟前从你左边经过的那个穿蓝衣服的人”），当前架构可能难以胜任。
2. 对“协同作用”的量化分析不足: 论文声称模型学习了识别和规划的“协同作用”，并用最终的优异性能来佐证。但如果能提供更深入的量化分析，例如，通过可视化注意力图或分析模型内部表征，来展示识别能力的提升如何直接影响规划决策的质量，将会更有说服力。
3. 真实世界的复杂性: 尽管真实世界实验令人印象深刻，但测试场景仍然相对结构化。在更极端的天气条件（雨、雪、雾）、光照变化（强烈炫光、逆光）或极度拥挤的人群中，模型的鲁棒性仍有待进一步验证。此外，当前模型没有显式处理障碍物躲避，而是依赖机器人底层的控制器，这在复杂环境中可能是一个潜在的风险点。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。