PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability
TL;DR 精炼摘要
本文提出PhysVLM模型,结合空间-物理可达性图(S-P Map)统一表示多种机器人物理可达性,突破视觉语言模型缺乏物理约束的瓶颈。该方法通过额外编码器融合可达性特征,实现具身视觉推理能力提升,且验证于大规模多机器人数据集Phys100K。
摘要
Understanding the environment and a robot's physical reachability is crucial for task execution. While state-of-the-art vision-language models (VLMs) excel in environmental perception, they often generate inaccurate or impractical responses in embodied visual reasoning tasks due to a lack of understanding of robotic physical reachability. To address this issue, we propose a unified representation of physical reachability across diverse robots, i.e., Space-Physical Reachability Map (S-P Map), and PhysVLM, a vision-language model that integrates this reachability information into visual reasoning. Specifically, the S-P Map abstracts a robot's physical reachability into a generalized spatial representation, independent of specific robot configurations, allowing the model to focus on reachability features rather than robot-specific parameters. Subsequently, PhysVLM extends traditional VLM architectures by incorporating an additional feature encoder to process the S-P Map, enabling the model to reason about physical reachability without compromising its general vision-language capabilities. To train and evaluate PhysVLM, we constructed a large-scale multi-robot dataset, Phys100K, and a challenging benchmark, EQA-phys, which includes tasks for six different robots in both simulated and real-world environments. Experimental results demonstrate that PhysVLM outperforms existing models, achieving a 14% improvement over GPT-4o on EQA-phys and surpassing advanced embodied VLMs such as RoboMamba and SpatialVLM on the RoboVQA-val and OpenEQA benchmarks. Additionally, the S-P Map shows strong compatibility with various VLMs, and its integration into GPT-4o-mini yields a 7.1% performance improvement.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability (PhysVLM:使视觉语言模型理解机器人物理可达性)
1.2. 作者
Weijie Zhou, Manli Tao, Chaoyang Zhao, Haiyun Guo, Honghui Dong, Ming Tang, Jinqiao Wang。 主要隶属机构包括:北京交通大学交通运输学院 (School of Traffic and Transportation, Beijing Jiaotong University)、中国科学院自动化研究所模式识别国家重点实验室基础模型研究中心 (Foundation Model Research Center, Institute of Automation, Chinese Academy of Sciences)、ObjectEye Inc. 和广东工业大学(Guangdong Polytechnic Normal University)广东省知识产权与大数据重点实验室。
1.3. 发表期刊/会议
该论文目前作为预印本 (preprint) 发布在 arXiv 上,具体发布状态为:Published at (UTC):2025-03-11T14:34:41.000Z。考虑到其发布时间在2025年,这通常意味着它可能已被某个顶会或期刊接收,或处于审稿阶段。在计算机视觉和机器人领域,这种级别的研究通常会发表在如 CVPR、ICCV、ECCV、ICRA、IROS 或 TPAMI、IJCV 等顶级会议或期刊上。
1.4. 发表年份
2025年
1.5. 摘要
具身机器人 (embodied robot) 执行任务时,理解环境和机器人的物理可达性 (physical reachability) 至关重要。尽管最先进的视觉语言模型 (state-of-the-art vision-language models, VLMs) 在环境感知方面表现出色,但由于缺乏对机器人物理可达性的理解,它们在具身视觉推理任务中常生成不准确或不切实际的响应。为解决此问题,本文提出了一种统一的、跨不同机器人的物理可达性表示方法——空间-物理可达性图 (Space-Physical Reachability Map, S-P Map),以及一个名为 PhysVLM 的视觉语言模型,它将这种可达性信息整合到视觉推理中。
具体而言, 将机器人的物理可达性抽象为一种广义空间表示 (generalized spatial representation),该表示独立于具体的机器人配置,使模型能够专注于可达性特征而非机器人特定参数。随后,PhysVLM 通过整合一个额外的特征编码器 (feature encoder) 来处理 ,从而扩展了传统的 VLM 架构,使模型能够在不损害其通用视觉-语言能力的前提下,推理物理可达性。为了训练和评估 PhysVLM,研究团队构建了一个大规模的多机器人数据集 (multi-robot dataset) Phys100K,以及一个具有挑战性的基准 (benchmark) EQA-phys,该基准包含了在模拟和真实世界环境中针对六种不同机器人的任务。
实验结果表明,PhysVLM 优于现有模型,在 EQA-phys 上比 GPT-4o 提高了 14%,并在 RoboVQA-val 和 OpenEQA 基准上超越了 RoboMamba 和 SpatialVLM 等先进的具身 VLM。此外, 与各种 VLM 表现出强大的兼容性,将其集成到 GPT-4o-mini 中也带来了 7.1% 的性能提升。
1.6. 原文链接
https://arxiv.org/abs/2503.08481 PDF 链接: https://arxiv.org/pdf/2503.08481v2.pdf
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题
论文试图解决的核心问题是:当前的视觉语言模型 (VLMs) 在具身视觉推理任务中,由于缺乏对机器人物理可达性 (physical reachability) 的理解,常常生成不准确或不切实际的响应。
2.1.2. 问题的重要性与现有挑战
- 重要性: 对于机器人而言,准确感知物理可达性 (physical reachability) 是其有效执行任务的关键。就像人类会根据身体状况和环境因素调整行动一样,机器人也必须考虑其在环境中的可达性,以确保高效可靠的任务执行。例如,在抓取任务中,如果机器人未能评估其可达性,可能会尝试从无法触及的位置抓取物体,导致任务失败甚至设备损坏。因此,增强机器人对物理可达性的理解对于在复杂环境中成功进行任务规划和执行至关重要。
- 现有挑战:
- 统一高效的物理可达性表示: 机器人之间在尺寸、关节类型等特性上差异显著,这使得
VLM难以直接学习这些差异。如何开发一种能够跨越不同机器人进行泛化的统一且高效的物理可达性表示是一个难题。 - 在不牺牲通用能力的前提下集成可达性理解: 现有的
VLM通常结合了预训练的视觉编码器 (vision encoder) 和语言编码器 (language encoder)。引入像物理可达性这样的新模态,需要精心设计架构 (architectural) 和训练 (training) 调整,以确保模型既能推理可达性,又能保持其通用视觉-语言能力 (general vision-language capabilities)。
- 统一高效的物理可达性表示: 机器人之间在尺寸、关节类型等特性上差异显著,这使得
2.1.3. 论文的切入点与创新思路
论文的切入点在于,通过引入一种抽象 (abstraction) 的方式来表示机器人的物理可达性,使其与具体的机器人参数解耦,从而实现跨机器人的泛化。在此基础上,设计一个专门的架构来整合这种抽象信息。
2.2. 核心贡献/主要发现
论文的主要贡献包括:
- 提出了统一且机器人无关的 : 引入了空间-物理可达性图 (Space-Physical Reachability Map, S-P Map),这是一种统一且机器人无关 (robot-agnostic) 的公式化方法。它将机器人的物理可达性抽象为广义空间表示 (generalized spatial representation),独立于具体的机器人配置,从而促进了通用特征 (generalized features) 的学习。
- 开发了
PhysVLM模型: 提出了PhysVLM,一个通过额外的特征编码器 (feature encoder) 将物理可达性与通用视觉-语言能力相结合的视觉语言模型 (VLM),从而提高了任务执行的可靠性。 - 构建了
EQA-phys基准: 发布了EQA-phys基准,它包含六种机器人和 1.3K 个问答对,旨在测试模型在模拟和真实世界环境中对物理可达性的理解。 - 卓越的实验性能:
PhysVLM在EQA-phys基准测试中比GPT-4o提高了 14%。- 在
RoboVQA-val和OpenEQA基准的具身视觉推理 (embodied visual reasoning) 任务中,它超越了RoboMamba和SpatialVLM等先进的具身VLM。 - 表现出与各种
VLM强大的兼容性,将其集成到GPT-4o-mini中可带来 7.1% 的性能提升。
3. 预备知识与相关工作
3.1. 基础概念
为了理解 PhysVLM,需要了解以下核心概念:
3.1.1. 视觉语言模型 (Vision-Language Models, VLMs)
VLM 是能够理解和处理视觉信息(如图像、视频)和文本信息(如自然语言)的多模态模型。它们通过学习视觉和语言之间的关联,实现如视觉问答 (Visual Question Answering, VQA)、图像描述 (Image Captioning)、具身导航 (Embodied Navigation) 等任务。近年来,随着Transformer 架构 (Transformer architecture) 和大规模预训练的兴起,VLM 在环境感知方面取得了显著进展,例如 GPT-4o 等模型。
3.1.2. 具身人工智能 (Embodied AI)
具身人工智能 (Embodied AI) 旨在让 AI 智能体(如机器人)在物理或模拟环境中感知、行动和学习。这类系统需要与环境进行交互,而不仅仅是处理数据。具身视觉推理 (embodied visual reasoning) 是 Embodied AI 的一个子领域,它要求智能体结合视觉感知和推理能力来理解环境并作出决策,通常涉及具身问答 (Embodied Question Answering, EQA) 或任务规划 (Task Planning)。
3.1.3. 机器人物理可达性 (Robotic Physical Reachability)
物理可达性 (physical reachability) 指的是机器人(特别是机械臂)在不违反其运动学约束(如关节限位、连杆长度、避障等)的情况下,其末端执行器 (end-effector) 能够到达的空间区域。理解物理可达性对于机器人的任务规划 (task planning) 和安全操作 (safe operation) 至关重要,因为它决定了机器人能够抓取、放置或操作哪些物体。
3.1.4. 机器人运动学 (Robotics Kinematics)
机器人运动学 (Robotics Kinematics) 是研究机器人各个关节运动与末端执行器 (end-effector) 位置和姿态之间关系的学科。
- 正向运动学 (Forward Kinematics): 根据机器人各关节的已知角度(或位移)计算末端执行器在基坐标系 (base frame) 中的位置和姿态。
- 逆向运动学 (Inverse Kinematics): 根据末端执行器所需的目标位置和姿态,反推出机器人各关节应有的角度(或位移)。通常比正向运动学更复杂,可能存在多解、无解或奇异解。
- Denavit-Hartenberg (DH) 参数: 一种广泛用于描述机器人连杆和关节之间几何关系的标准化方法,通过四个参数 () 来定义两个相邻连杆坐标系之间的变换。
3.2. 前人工作
论文将相关工作分为两类:机器人中的 VLM (VLMs in Robotics) 和 理解物理可达性 (Understanding Physical Reachability)。
3.2.1. 机器人中的 VLM
- 具身问答 (Embodied Question Answering, EQA):
EQA任务要求智能体与环境交互以回答问题。RoboVQA提供了大型多样化的机器人视觉问答 (Visual Question Answering) 数据集。3D-VLA结合3D感知和生成式世界模型进行具身推理。SpatialVLM通过大量3D数据增强了VLM的空间理解能力。 - 机器人任务规划 (Robot Task Planning): 涉及将子任务排序以实现目标。
Code as Policies (CaP)利用OpenAI Codex生成规划代码。SayCan结合Pathways Language Model (PaLM)和机器人示能 (affordances) 来创建可行的行动计划。 - 本文的差异化分析: 这些现有方法通常假设所有物体都在机器人的操作区域内,忽略了物理可达性,可能导致次优或不可行的计划。
PhysVLM旨在弥补这一空白。
3.2.2. 理解物理可达性
- 基于体素网格的方法: 近期研究使用体素网格 (voxel grids) 结合开放词汇检测模型 (open-vocabulary detection models) 来分配任务特定属性,从而理解环境约束。例如,
ReKep使用体素网格和VLM生成关键点提议 (keypoint proposals) 和约束,而VoxPoser将OWL-ViT和VLM与基于体素的环境表示集成以合成机器人轨迹。 - 显式工作空间表示:
Reachability maps模型空间能力,占用网格 (occupancy grids) 考虑障碍物以确保安全导航。其他方法如带有离线工作空间分析 (offline workspace analysis) 的在线模型预测控制 (online model predictive control) 和基于可达性表达式的运动规划 (Reachability Expression-based Motion Planning, REMP) 也解决了工作空间约束。 - 本文的差异化分析: 尽管有这些进展,将物理可达性整合到复杂具身任务的视觉推理中仍然有限。这主要是因为缺乏将机器人物理参数纳入
VLM预训练的大规模数据集。PhysVLM通过 和Phys100K数据集解决了这一限制。
3.3. 技术演进与本文定位
- 技术演进: 从早期的符号
AI规划、基于几何模型的机器人运动学,到近年来以深度学习为核心的VLM在环境感知上的突破,机器人领域一直在探索如何让机器更智能地理解和操作物理世界。VLM带来了强大的通用感知能力,但其“物理常识”或“具身智能”不足是一个公认的挑战。 - 本文定位:
PhysVLM正是位于VLM的强大感知能力与机器人实际操作所需的物理约束理解之间的交叉点。它通过引入一种统一的、可泛化的物理可达性表示()和专门的模型架构,试图弥合VLM在“看得懂”和“能做到”之间的鸿沟,使VLM能够更好地服务于具身机器人任务。
4. 方法论
PhysVLM 是一个大规模的视觉语言模型 (VLM),旨在进行视觉推理,同时考虑到具身任务中的物理约束 (physical constraints)。该模型将指令文本 (instruction text)、视觉输入 (RGB 图像) 以及抽象了机器人物理可达性的 整合为一个统一的空间表示。通过结合这些输入,PhysVLM 能够生成与视觉上下文和机器人物理可达性一致的响应,而无需绑定到特定的机器人配置。 是通过一种统一的物理可达性编码方法构建的,该方法将各种机器人的物理参数及其自我中心深度图 (egocentric depth maps) 抽象为一种广义形式。这种抽象使得模型能够跨越不同机器人进行泛化,解决了以机器人无关 (robot-agnostic) 方式学习和推理物理可达性的挑战。
本节将详细介绍 PhysVLM 的核心组件: 编码方法、模型架构和训练过程。
4.1. S-P Map 编码
如图2所示,PhysVLM 通过一种统一的方法对各种机器人的物理可达性进行建模,该方法将机器人特定参数抽象为一种广义空间表示 (generalized spatial representation)。这种抽象使得模型能够专注于物理可达的空间区域,而无需依赖具体的机器人配置。
的生成函数定义如下: 其中:
-
:表示从机器人
RGB-D相机捕获的原始点云数据 (raw point cloud data)。 -
:表示机器人第 个关节的运动范围 (range of motion),即最小和最大关节角度。
-
:指Denavit-Hartenberg (DH) 参数,用于描述机器人每个关节的几何结构。
-
:是外参矩阵 (extrinsic calibration matrix),用于将相机坐标系中的坐标转换为机器人坐标系中的坐标。
-
:是一个映射函数,它将这些输入映射生成 ,该图将机器人的物理可达性抽象为独立于具体机器人配置的空间形式。
接下来,我们详细阐述 的构建过程:
4.1.1. 计算机器人末端执行器工作空间
考虑一个具有 个自由度 (degrees of freedom) 的机械臂。每个关节 都有其 DH 参数 。
-
:关节角度。
-
d _ { i }:沿 轴的偏移量。 -
a _ { i }:连杆长度。 -
:扭转角。
每个关节的齐次变换矩阵 (homogeneous transformation matrix) 定义为: 其中 是标准的
Denavit-Hartenberg变换函数。
通过将所有关节的变换矩阵相乘,可以得到从基坐标系 (base frame) 到末端执行器坐标系 (end-effector frame) 的总变换矩阵:
为了生成关节配置,我们从每个关节各自的运动范围 中采样关节角度 ,从而得到一系列关节配置 。将这些关节配置代入正向运动学方程 (forward kinematics equations),即可计算出相应的末端执行器位置 (end-effector positions): 其中:
- :表示计算出的末端执行器在机器人基坐标系 (robot base frame) 中的位置。
- :是根据当前关节配置计算出的从基坐标系到末端执行器坐标系的齐次变换矩阵。
- :是末端执行器坐标系中的原点 (origin point),通常表示为 。
- :表示离散化后的机器人可达工作空间 (reachable workspace),以体素网格 (voxel grid) 的形式存储。这些关节配置和对应的工作空间是离线预计算 (precomputed offline) 的,以提高后续步骤的计算效率。
4.1.2. 转换点云数据
如图2所示,机器人的原始点云 是从其自我中心 RGB-D 相机 (egocentric RGB-D camera) 在相机坐标系 (camera coordinate system) 中捕获的。为了与机器人工作空间匹配,需要使用外参矩阵 将其转换为机器人坐标系 (robot coordinate system),得到转换后的点云 :
4.1.3. 筛选物理可达点
为了确保物理可行性,我们对点云 中的每个点执行体素网格查找 (voxel grid lookup),以确定该点是否位于预计算的可达工作空间 内: 此步骤过滤点云,仅保留机器人在物理上可达区域内的点,从而将机器人的物理可达性抽象为一种广义空间形式。
4.1.4. 生成 S-P Map
最后,将有效点云 转换回相机坐标系,并使用相机的内参 (intrinsic parameters) 将这些点投影到图像平面 (image plane) 上。然后在原始深度图上标记出符合物理可达性的区域。对于不可达的区域,应用一个灰色蒙版 (gray mask) 并勾勒出其边界。生成的 清晰地突出了机器人物理不可达的区域,提供了一种统一且抽象的可达性表示,该表示独立于具体的机器人配置。这使得模型能够专注于任务的空间约束,而无需考虑每个机器人的详细物理参数。
该图像是PhysVLM方法的示意图,展示了如何融合视觉编码器、约束编码器和大型语言模型,通过S-P Map对机器人物理可达性进行编码,实现对机器人可达空间的推理。
图2. PhysVLM 的模型架构。该模型通过融合视觉编码器、约束编码器和大型语言模型,利用 S-P Map 对机器人物理可达性进行编码,实现了机器人可达空间的推理。
4.2. 模型架构
为了将机器人物理可达性无缝整合到 PhysVLM 中,同时保留其视觉推理能力,模型设计了一个双分支架构 (dual-branch architecture):一个分支专门用于视觉处理 (vision processing),另一个分支用于物理可达性 (physical reachability) 处理(如图2所示)。这两个分支独立运行,从各自的输入中提取特征,然后将这些特征融合并传递给一个统一的解码器 (decoder),用于最终的推理和响应生成。
4.2.1. 视觉分支 (Vision Branch)
视觉分支利用预训练的 Vision Transformer (ViT) 模型 SigLip-400M 来从自我中心图像 (egocentric images) 中提取高级视觉特征 (high-level visual features)。为了减少计算开销,ViT 的输出会经过一个最大池化层 (Max Pooling layer),随后是一个两层多层感知机 (Multi-Layer Perceptron, MLP),将视觉特征转换为适合多模态融合 (multimodal fusion) 的词元表示 (token representations)。
4.2.2. 物理可达性分支 (Physical Reachability Branch)
物理可达性分支处理 ,该图将机器人的物理可达性抽象为广义空间形式 (generalized spatial form)。这个分支也使用 SigLip-400M 模型进行特征提取,然后是最大池化 (Max Pooling) 和一个特征融合层 (feature fusion layer)。融合层结合了视觉和可达性特征,然后一个两层 MLP 进一步细化这些融合后的特征,生成可达性特定词元 (reachability-specific tokens)。
4.2.3. 语言解码器 (Language Decoder)
对于语言解码,PhysVLM 采用 Qwen-2.5-Instruct-3B 模型作为其大语言模型 (Large Language Model, LLM) 解码器,并使用 Qwen-2.5 词元生成器 (tokenizer) 处理自然语言指令。解码器整合了来自视觉分支、 和语言输入的多模态词元,生成既连贯又符合上下文的文本响应,这些响应同时考虑了视觉和物理可达性信息。
4.3. 训练流程
PhysVLM 采用两阶段训练过程 (two-stage training process),以充分利用 并确保 PhysVLM 在不同机器人之间具有泛化能力。
4.3.1. 训练数据构建
PhysVLM 的训练数据包括 Phys100K 数据集和通用的 VQA 数据集,例如 LLaVA-Pretrain、ShareGPT4V 和 RoboVQA。
- Phys100K 数据集: 专注于与物理可达性相关的问答,聚合了来自
RoboVQA(2万样本)、ScanNet(1万样本)、OpenX-Embodiment(6万样本)的数据,以及从PyBullet额外收集的1万样本。 - 深度图生成: 由于某些数据集中缺少深度图,作者使用
DepthAnything-v2生成它们。 - 物体检测与分割: 使用
Grounding DINO和SAM2获取图像中物体的2D边界框 (bounding boxes) 和分割结果 (segmentation results)。 - PyBullet 数据: 在
PyBullet中,模拟了使用四种机械臂(UR5、FR5、CR5和FRANKA)的工作场景,收集RGB图像、深度图和分割结果。由于PyBullet数据提供了精确的机器人配置,可以直接使用4.1节描述的方法生成 ,并通过模拟运动获取物体是否可达的标签 (labels)。 - 伪标签生成: 的优势在于它将物理可达性抽象为基于区域的表示 (region-based representation),从而将学习过程与具体的机器人配置解耦。这使得作者能够为缺少精确机器人参数的数据集生成伪标签 (pseudo-labels)。通过使用分割结果,根据深度值 (depth values),将区域及其中的物体标记为“可达”或“不可达”。
- 问答对生成: 生成了两种主要类别的问答对:
-
具身问答 (Embodied QA):
GPT-4为ScanNet和RoboVQA生成问答对,涵盖功能推理 (Function Reasoning)、世界知识 (World Knowledge)、物体识别 (Object Recognition)、物体定位 (Object Localization)、属性识别 (Attribute Recognition)、空间推理 (Spatial Reasoning)、物体状态识别 (Object State Recognition) 和幻觉 (Hallucination) 等类别。 -
涉及物理可达性的任务 (Tasks Involving Physical Reachability): 使用“可达”标签和五个固定的任务模板 (task templates) 生成问答对,例如:“用户: 机器人是否能触及
[Object]?助手:是的,它能。”其中[Object]代表相关物体类别,而 和<sp_map>分别作为图像块词元和 块词元的占位符。
该图像是图3,展示了Phys100K数据集和EQA-Phys基准的具体细节,包括多机器人环境下的物理可达性任务、数据来源构成及模型问答示例,体现了机器人物理可达性推理的应用。
-
图3. Phys100K 数据集和 EQA-Phys 基准的细节。
4.3.2. 训练管道 (Training Pipeline)
- 第一阶段:多模态特征对齐 (Multimodal Feature Alignment)
- 使用来自
Phys100K的LLaVA-Pretrain和OpenX-Embodiment数据集。 - 此阶段仅训练投影层 (projection layers),允许模型建立对视觉输入和物理可达性的基础理解,独立于具体的机器人配置。
- 使用来自
- 第二阶段:全面微调 (Full Fine-tuning)
- 解冻 (unfreeze) 所有参数。
- 使用来自
Phys100K、ShareGPT4V和RoboVQA的数据训练整个模型。 - 此阶段增强
PhysVLM处理具有物理可达性约束的复杂视觉推理任务的能力,确保模型能够在多样化的环境和机器人之间泛化。
4.3.3. 实现细节
PhysVLM使用八块A800 GPU训练了 48 小时。- 训练过程包括两个阶段,每个阶段持续一个
epoch。 - 第一阶段的批大小 (batch size) 和学习率 (learning rate) 分别设置为 128 和 。
- 第二阶段的批大小和学习率分别设置为 64 和 。
- 最终模型命名为
PhysVLM-3B。
4.4. EQA-phys 基准
如图3所示,本文引入了一个名为 EQA-phys 的具身问答 (embodied QA) 任务,该任务专注于受物理限制的问答。这个基准包括:
-
模拟器数据集: 包含来自
PyBullet验证集的 200 个样本和 1,000 个问题。 -
零样本评估集 (Zero-shot Evaluation Set): 基于真实世界数据,来自
UR3和XArm6机器人在两种不同场景下的数据。该评估集包含 60 个样本和 300 个问题,全部由领域专家 (domain experts) 手动标注。这个基准旨在严格测试模型对机器人物理可达性的理解能力。
5. 实验设置
5.1. 数据集
实验使用了以下数据集:
- Phys100K: 作者构建的大规模多机器人数据集,用于物理可达性相关的问答。它聚合了来自
RoboVQA(20K 样本)、ScanNet(10K 样本)、OpenX-Embodiment(60K 样本) 的数据,并从PyBullet额外收集了 10K 样本。PyBullet模拟数据用于生成精确的 和可达性标签,而其他数据集则通过生成深度图和伪标签来扩充。 - LLaVA-Pretrain, ShareGPT4V, RoboVQA: 用于
PhysVLM训练的通用VQA数据集,其中RoboVQA专注于机器人视觉问答。 - ScanNet: 提供具有丰富标注的
3D室内场景重建,用于生成具身问答对。 - OpenX-Embodiment: 专注于机器人学习的数据集和
RT-X模型。 - PyBullet: 物理仿真环境,用于模拟机器人工作场景并收集数据。
- EQA-phys: 作者提出的具身
QA基准,包含模拟器数据集(来自PyBullet验证集)和零样本真实世界数据集(UR3和XArm6机器人)。
5.2. 评估指标
论文使用了多种评估指标来衡量模型性能:
5.2.1. LLM 评分 (LLM Scoring)
- 概念定义:
LLM评分是一种基于大语言模型对模型生成的答案进行评估的方法,旨在衡量答案的正确性、准确性和实用性。它通过设定一个评分标准,由一个LLM来判断模型响应的质量。在本研究中,对于涉及物理可达性的任务,评分标准是:完全正确的回答得 5 分,不正确的回答得 1 分。最终结果以平均分百分比形式呈现。 - 数学公式: 设 为总问题数, 为第 个问题的得分(5 分或 1 分)。 然后,该平均分通常表示为百分比。
- 符号解释:
- : 评估中的问题总数。
- : 第 个问题的得分,根据其正确性,。
- : 计算出的平均
LLM评分。
5.2.2. BLEU (Bilingual Evaluation Understudy)
- 概念定义:
BLEU是一种衡量机器翻译或文本生成质量的指标,通过比较生成的文本与一个或多个参考文本的 n-gram 重叠度来评估。其核心思想是,生成的文本与参考文本越相似,质量越高。 - 数学公式:
BLEU的计算涉及对不同长度的 n-gram(通常从 1-gram 到 4-gram)的精确率加权平均,并乘以一个简洁惩罚因子 (brevity penalty),以避免生成过短的句子。 其中,简洁惩罚因子 (Brevity Penalty, BP) 为: n-gram 精确率 () 为: - 符号解释:
- : 考虑的最大 n-gram 长度(通常为 4)。
- : n-gram 精确率的权重(通常均匀分布,即 )。
- : n-gram 精确率。
- : 生成文本的总词数(candidate length)。
- : 参考文本中与生成文本最接近的参考长度(effective reference length)。
- : n-gram 在给定文本中出现的次数。
- : 剪辑计数,确保每个 n-gram 在参考文本中的最大出现次数。
5.2.3. EM-EQA (Exact Match - Embodied Question Answering)
- 概念定义:
EM-EQA(在本论文中可能指代OpenEQA上的评估方式)通常指的是精确匹配 (Exact Match) 评分,即生成的答案必须与参考答案完全一致才算正确。这种指标在问答任务中常用于评估答案的准确性。在OpenEQA基准中,它衡量模型是否能给出与标准答案完全匹配的响应。 - 数学公式:
- 符号解释:
Number of Exactly Matched Answers: 生成答案与参考答案完全一致的问题数量。Total Number of Questions: 评估中的问题总数。
5.2.4. 成功率 (Success Rate)
- 概念定义: 对于任务规划等涉及实际操作的任务,成功率 (success rate) 是最直观的评估指标,它衡量模型生成的计划或指令被机器人执行后,任务能够成功完成的百分比。本研究中,每个任务类型执行 10 次,取平均成功率。
- 数学公式:
- 符号解释:
Number of Successful Trials: 成功完成任务的尝试次数。Total Number of Trials: 进行的总尝试次数。
5.3. 对比基线
论文将 PhysVLM 与以下几类基线模型进行了比较:
- API 可访问的
VLM:Claude 3.5GPT-4o-miniGPT-4o- 这些模型作为通用
VLM的代表,测试其在没有显式物理可达性信息情况下的性能,以及在整合 后的性能。
- 具身
VLM:SpatialVLM(3B 版本): 专注于增强空间理解的VLM。SpatialBot(3B 版本): 与SpatialVLM类似,也关注空间推理。3D-VLA: 整合3D感知的具身推理模型(仅比较报告结果)。RoboMamba: 面向机器人推理和操作的多模态状态空间模型 (Multimodal State Space Model)(仅比较报告结果)。- 选择这些模型是因为它们与
PhysVLM在参数量(3B 版本)或具身AI领域相关。
6. 实验结果与分析
6.1. 核心结果分析
本节分析 PhysVLM 在三个任务类别上的表现:EQA-phys、具身 QA 和机器人任务规划。
6.1.1. EQA-phys 上的结果
以下是原文 Table 1 的结果:
| REAL-WORLD (真实世界) | SimuLaToR (模拟器) | ALL (总计) | ||||||
| UR3 | XARM6 | UR5 | FR5 | CR5 | FRANKA | |||
| API-BASED VLMs | GPT-4O-MINI | 54.3 | 56.0 | 49.4 | 55.4 | 54.6 | 47.1 | 52.8 |
| CLAUDE-3.5 | 56.2 | 60.5 | 54.0 | 58.1 | 55.7 | 54.3 | 56.4 | |
| GPT-4O | 56.7 | 61.5 | 55.7 | 58.3 | 57.5 | 52.6 | 57.0 | |
| GPT-4O-MINI + S-P MAP | 60.0↑5.7 | 60.5↑4.5 | 57.0↑7.6 | 59.1↑3.7 | 59.2↑4.6 | 53.3↑6.2 | 59.8↑7.0 | |
| CLAUDE-3.5 + S-P MaP | 65.3↑9.1 | 67.3↑6.8 | 54.9↑0.9 | 58.3↑0.2 | 58.2↑2.5 | 58.1↑3.8 | 60.3↑3.4 | |
| GPT-4O + S-P MAP | 66.6↑9.9 | 68.1↑6.6 | 55.8↑0.1 | 60.7↑1.4 | 59.4↑1.9 | 57.6↑5.0 | 61.3↑4.1 | |
| Embodied VLMs | SPATIALVLM | 56.3 | 55.1 | 54.6 | 59.1 | 52.0 | 47.5 | 54.1 |
| SPATIALBOT | 51.1 | 50.2 | 50.0 | 48.1 | 53.3 | 54.4 | 51.1 | |
| PHysVLM-3B | 64.1 | 63.0 | 71.4 | 75.7 | 74.0 | 78.1 | 71.0 | |
分析:
- 基线模型的不足: 无论是
API驱动的VLM还是具身VLM,在没有明确物理可达性概念的情况下,它们的性能普遍较低(得分在 55% 左右),表明它们难以处理机器人参数约束,导致次优输出。 - S-P Map 的显著效果: 将 提示给
API驱动的VLM(如GPT-4o),其性能显著提升。例如,GPT-4o + S-P Map在总分上比纯GPT-4o提高了 4.1% (57.0% -> 61.3%)。这验证了 能够将物理可达性抽象为机器人无关的表示,帮助VLM推理物理约束。GPT-4o-mini + S-P Map更是获得了 7.0% 的提升。 - PhysVLM 的卓越性能:
PhysVLM-3B在EQA-phys上取得了 71.0% 的平均分,显著优于所有基线模型,包括GPT-4o + S-P Map。这比GPT-4o纯模型提高了 14%。这表明PhysVLM能够有效地整合视觉推理与物理可达性理解。 - 零样本泛化能力:
PhysVLM-3B在针对UR3和XArm6机器人的真实世界零样本评估中,取得了超过 63% 的分数。尽管这些是新的环境和不同的机器人,模型仍表现良好。这归因于 将机器人参数抽象为统一的可迁移表示,以及模型独立的视觉和约束编码分支学习到了可泛化的视觉特征。
6.1.2. 具身 QA 上的结果
以下是原文 Table 2 和 Table 3 的结果:
以下是原文 Table 2 的结果:
| BLEU1 | BLEU2 | BLEU3 | BLEU4 | |
| SPATIALVLM* | 5.1 | 3.0 | 1.9 | 1.2 |
| SPATIALBOT* | 12.4 | 9.3 | 8.0 | 7.2 |
| 3D-VLA | 48.3 | 38.5 | 31.7 | 26.8 |
| ROBOMAMBA | 54.9 | 44.2 | 39.5 | 36.3 |
| PHYsVLM-3B | 65.3 | 62.4 | 50.9 | 43.5 |
以下是原文 Table 3 的结果:
| EM-EQA (ScANNET) | EM-EQA (HM3D) | ALL | |
| SPATIALVLM | 42.9 | 44.3 | 43.8 |
| SPATIALBoT | 45.3 | 51.0 | 49.1 |
| GPT4V | 57.4 | 51.3 | 55.3 |
| GPT-40* | 68.2 | 65.2 | 66.7 |
| PHYSVLM-3B | 60.7 | 51.2 | 57.4 |
分析:
- RoboVQA-val 上的领先:
PhysVLM-3B在RoboVQA-val基准上表现最佳,BLEU-4得分达到 43.5%,比其他模型高出 7.2%。这表明PhysVLM在处理通用具身视觉推理任务方面也非常有效,其对物理约束的理解并未损害其通用视觉-语言能力。 - OpenEQA 上的竞争力: 在
OpenEQA基准上,PhysVLM-3B的总得分为 57.4%,优于现有的具身VLM和GPT-4V,仅次于GPT-4o。这进一步证明了模型的通用视觉推理能力。
6.1.3. 机器人任务规划上的结果
以下是原文 Table 4 的结果:
| ALL OBJECTS IN RANGE (所有物体都在范围内) | PART OBJECTS IN RANGE (部分物体在范围内) | |
| GPT-4O-MINI | 70.5 | 23.2 |
| CLAUDE-3.5 | 73.6 | 32.1 |
| GPT-4O | 75.9 | 35.8 |
| SPATIALVLM | 64.4 | 21.5 |
| SPATIALBOT | 65.6 | 25.3 |
| PHYSVLM-3B | 69.2 | 48.4 |
分析:
- 所有物体都在范围内: 当所有物体都在机器人的物理可达范围内时,
PhysVLM与其他模型表现相似,因为机器人可以直接抓取或放置物体。GPT-4o表现最好,达到 75.9%。 - 部分物体在范围内 (关键场景): 当部分物体超出物理可达范围时,模型必须建议机器人靠近物体再进行操作。在这个更具挑战性的场景中,
PhysVLM-3B的成功率达到 48.4%,显著高于所有其他模型。这突出表明,PhysVLM能够理解机器人的物理可达性,并将其融入任务规划,从而生成更合理、更可行的行动方案。其他模型在此场景下性能急剧下降,说明它们缺乏这种关键的物理理解。
6.2. 消融实验
本节通过消融研究评估 PhysVLM 各组件的贡献。
6.2.1. S-P Map 的有效性
以下是原文 Table 5 的结果:
| ID | S-P MAP | DePTH MAP | EQA-PHYS REAL | EQA-PHYS SIM |
| 1 | √ | 63.5 | 74.8 | |
| 2 | ✓ | 58.1 | 62.4 | |
| 3 | 54.2 | 58.8 |
分析:
- S-P Map 的关键作用: 对比实验 1 和 3,省略 导致性能显著下降:模拟器评估下降 16% (74.8% -> 58.8%),真实世界机器人评估下降 9.3% (63.5% -> 54.2%)。这表明,没有 输入,模型难以处理机器人的物理可达性。
- S-P Map 优于深度图: 对比实验 1 和 2,用深度图 (Depth Map) 替换 导致零样本任务的性能显著下降。这是因为深度图不能准确表示机器人物理可达性,模型不能仅仅依靠深度信息来理解可达性。 的抽象表示是其成功的关键。
6.2.2. 额外特征编码器的有效性
以下是原文 Table 6 的结果:
| EQA-PHYS | OPENEQA | |
| INdEPENDENT (独立) | 71.0 | 57.4 |
| SHARE (共享) | 68.2 | 56.5 |
分析:
- 独立编码器更优: 实验比较了 的特征编码器是否与视觉特征编码器共享权重 (share weights)。结果显示,独立编码器(
INDEPENDENT)在EQA-phys上得分 71.0%,在OpenEQA上得分 57.4%,均优于共享编码器(SHARE)。 - 原因: 共享编码器不仅降低了
EQA-phys的性能,也损害了通用视觉推理能力。这可能是因为 特征与图像特征不同,且训练数据中图像-文本对的数量远多于 数据。独立的编码器能够更好地学习和处理 独特的物理可达性特征,而不会与视觉特征的学习产生冲突。
6.2.3. 训练数据的有效性
以下是原文 Table 7 的结果:
| Part of Phys100k | EQA-PHYS REAL | EQA-PHYS SIM |
| ALL (全部) | 63.5 | 74.8 |
| w/o PybuLLeT (不含 PyBullet) | 62.1 | 65.4 |
| w/o Other Datasets (不含其他数据集) | 58.6 | 71.5 |
分析:
- PyBullet 数据的重要性: 移除
PyBullet数据后,模拟器性能下降明显 (74.8% -> 65.4%),真实世界性能也有小幅下降 (63.5% -> 62.1%)。这表明PyBullet提供的精确机器人配置和可达性标签对于模型学习物理可达性至关重要。 - 其他具身数据集的重要性: 移除其他具身数据集后,真实世界性能下降更显著 (63.5% -> 58.6%),模拟器性能也有所下降 (74.8% -> 71.5%)。这说明
Phys100K中来自RoboVQA,ScanNet,OpenX-Embodiment等多样化的具身数据,对于提高模型在真实世界场景中的泛化能力和鲁棒性是不可或缺的。 - 结论:
Phys100K中每个数据组件对于模型性能都至关重要,特别是PyBullet数据用于物理可达性学习,而其他具身数据集则增强了模型的泛化能力。
6.3. 定性结果
该图像是图表,展示了PhysVLM、GPT-4o和SpatialBot三种模型在机器人物理可达性任务中的视觉输入和回答对比,每组包含图像、S-P Map、深度图和点云,突出PhysVLM对物理可达性推理的准确性。
图4. PhysVLM(本文模型)、GPT-4o 和 SpatialBot 的视觉比较。
分析:
图4展示了 PhysVLM、SpatialBot 和 GPT-4o 在处理需要物理可达性理解的任务时的定性比较。
- 基线模型的缺陷:
SpatialBot使用深度图和图像,而GPT-4o使用标准图像。两者在需要物理可达性理解的任务中都表现不佳,常常导致视觉推理错误。例如,它们可能建议抓取一个明显超出机器人范围的物体,或者在规划路径时未能考虑机器人无法通过的区域。 - PhysVLM 的准确性: 相比之下,
PhysVLM能够提供准确的结果。这得益于其 输入,它明确地指示了机器人的可达空间。 - S-P Map 对 GPT-4o 的增强: 将 整合到
GPT-4o中也显著改善了其对物理可达性的处理和响应准确性,这与定量结果(Table 1)相符。这进一步证明了 作为一种通用可插拔组件的有效性。
7. 总结与思考
7.1. 结论总结
本文引入了 PhysVLM,一个将物理可达性 (physical reachability) 整合到视觉推理 (visual reasoning) 中的视觉语言模型 (VLM),专为机器人任务设计。其核心创新在于提出了 空间-物理可达性图 (Space-Physical Reachability Map, S-P Map),这是一种统一的机器人可达性表示,能够促进可泛化特征 (generalizable features) 的学习。PhysVLM 通过添加一个物理可达性编码器来扩展传统 VLM,使其能够同时处理视觉、可达性和文本信息。此外,本文还推出了 EQA-phys,一个评估具身 QA 任务中物理可达性理解的基准。实验结果表明,PhysVLM 显著优于现有模型,在 EQA-phys 上比 GPT-4o 高出 14%。PhysVLM 的可达性感知能力支持更安全可靠的机器人决策,其统一表示确保了跨平台适应性,弥合了环境感知和可操作机器人智能之间的关键差距。
7.2. 局限性与未来工作
- 局限性:
PhysVLM在真实机器人上的零样本性能相比模拟环境有所降低,这可能是由于领域鸿沟 (domain gap) 造成的。真实世界的复杂性和传感器噪声等因素,使得模型从模拟到真实的迁移仍面临挑战。 - 未来工作:
- 扩展数据集: 将来的工作将专注于扩大数据集的规模和多样性。
- 增强真实世界性能: 努力弥合领域鸿沟,提升模型在真实世界环境中的鲁棒性和准确性。
- 改进物理可访问性理解: 进一步增强视觉-语言-行动模型 (vision-language-action models) 对物理可访问性的理解。
7.3. 个人启发与批判
7.3.1. 个人启发
- 具身智能的关键一步:
PhysVLM提供了一个将高级认知(VLM的视觉语言理解)与低级物理约束(机器人可达性)相结合的有效框架。这对于实现真正的具身智能至关重要,因为机器人不仅要“看懂”,更要“知道自己能否做到”。 - 抽象表示的强大之处: 的设计理念——将复杂的机器人运动学参数抽象为与机器人配置无关的统一空间表示——非常巧妙。这种抽象不仅简化了模型学习,也极大地提升了模型的泛化能力。这提示我们,在处理多样性强、参数复杂的物理实体时,寻求高层次的抽象表示可能是一条通用且高效的路径。
- 可插拔式设计潜力: 被证明与现有
VLM具有良好的兼容性,可以作为一种“插件”来增强其物理常识。这种模块化设计思路,对于在不从头训练的情况下快速迭代和提升现有大型模型的能力具有很强的指导意义。 - 数据构建的重要性:
Phys100K数据集的构建,特别是结合了模拟数据(提供精确物理信息)和真实世界数据(提供多样性和复杂性),以及深度图和伪标签的生成策略,是此类研究成功的基石。高质量、多模态、包含物理约束的数据集对于训练具身AI模型至关重要。
7.3.2. 批判性思考
-
S-P Map 的实时性与计算成本: 虽然 的生成可以离线预计算工作空间,但每次环境变化或机器人位置变化,都需要更新点云投影和筛选,这可能对实时性要求高的任务构成挑战。尽管论文提及离线预计算工作空间以提高效率,但实际操作中,特别是对于动态环境或移动平台, 的实时更新速度及其计算资源消耗可能需要进一步优化。
-
深度图依赖性与鲁棒性: 的生成依赖于精确的深度图。尽管使用了
DepthAnything-v2进行缺失深度图的生成,但深度估计的误差、噪声、环境光照变化等都可能影响 的准确性,进而影响PhysVLM的性能。尤其是在真实世界中,深度传感器的局限性是普遍存在的。 -
“灰色蒙版”的粒度与精细操作: 通过“灰色蒙版”突出不可达区域。这种表示在宏观上是有效的,但在需要极其精细操作的场景中,例如在狭小空间内精确避障或操作微小物体,这种“区域可达”的表示是否足够精细,还需要进一步探讨。
-
领域鸿沟的根本性解决: 论文指出了真实机器人零样本性能下降的领域鸿沟问题。虽然 有助于泛化,但
VLM在真实物理世界中的具身感知和行动仍面临挑战。未来工作需要更深入地探索如何从根本上解决模拟到真实世界的迁移问题,例如通过更真实的模拟器、强化学习中的领域随机化 (domain randomization) 或真实世界数据的持续学习。 -
安全与伦理考量: 机器人对物理可达性的理解增强了其在工业和辅助环境中的安全性和可靠性。然而,随着机器人能力的提升,如何确保其决策始终符合人类意图和伦理标准,避免意外或滥用,将是未来研究中不可忽视的方面。
总而言之,
PhysVLM在将物理可达性引入VLM领域迈出了重要一步,为机器人更智能、更安全地执行任务开辟了新的道路,其抽象表示和模块化设计具有广阔的应用前景。
相似论文推荐
基于向量语义检索推荐的相关论文。