论文状态：已完成

Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding

发表：2023/11/27

零样本开放词汇3D视觉定位 (1)基于大语言模型的3D视觉推理 (1)视觉编程框架 (1)语言-对象关联模块 (1)开放词汇3D目标检测 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出基于视觉编程的零样本开放词汇三维视觉定位方法，结合对话式大语言模型构建理解框架，设计视角无关、相关及功能性模块协同推理，并创新语言-物体关联模块扩展检测器词汇，实现无监督场景下优于部分监督基线的定位性能。

摘要

3D Visual Grounding (3DVG) aims at localizing 3D object based on textual descriptions. Conventional supervised methods for 3DVG often necessitate extensive annotations and a predefined vocabulary, which can be restrictive. To address this issue, we propose a novel visual programming approach for zero-shot open-vocabulary 3DVG, leveraging the capabilities of large language models (LLMs). Our approach begins with a unique dialog-based method, engaging with LLMs to establish a foundational understanding of zero-shot 3DVG. Building on this, we design a visual program that consists of three types of modules, i.e., view-independent, view-dependent, and functional modules. These modules, specifically tailored for 3D scenarios, work collaboratively to perform complex reasoning and inference. Furthermore, we develop an innovative language-object correlation module to extend the scope of existing 3D object detectors into open-vocabulary scenarios. Extensive experiments demonstrate that our zero-shot approach can outperform some supervised baselines, marking a significant stride towards effective 3DVG.

思维导图

论文精读

中文精读约 36 分钟读完 · 19,609 字

1. 论文基本信息

1.1. 标题

Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding (零样本开放词汇三维视觉定位的视觉编程)

1.2. 作者

ZhioYuan, Jinke Ren, Chun-MeiFen, Heghuan Zhao, Shuang Cui, Li

所属机构:

香港中文大学（深圳）未来网络智能研究院 (The Future Network of Intelligence Institute, The Chinese University of Hong Kong (Shenzhen))
香港中文大学（深圳）理工学院 (School of Science and Engineering, The Chinese University of Hong Kong (Shenzhen))
新加坡科技研究局高性能计算研究所 (IHPC, A*STAR, Singapore)
香港大学 (The University of Hong Kong)

1.3. 发表期刊/会议

该论文发表于 ArXiv 预印本平台，其发布时间为 UTC 时间 2023-11-26T19:01:14.000Z。由于是预印本，尚未正式在同行评审期刊或会议上发表，但 ArXiv 在学术界，特别是计算机科学领域，是研究者们分享最新研究成果的重要平台，影响力广泛。

1.4. 发表年份

2023年

1.5. 摘要

三维视觉定位 (3D Visual Grounding, 3DVG) 的目标是根据文本描述在三维场景中定位目标物体。传统的监督式 3DVG 方法通常需要大量的标注和预定义的词汇，这限制了其应用范围。为了解决这个问题，本文提出了一种新颖的基于视觉编程 (visual programming) 的零样本 (zero-shot) 开放词汇 (open-vocabulary) 3DVG 方法，该方法利用了大语言模型 (Large Language Models, LLMs) 的能力。

该方法首先采用一种独特的基于对话 (dialog-based) 的方法，通过与 LLMs 交互，建立对零样本 3DVG 的基础理解。在此基础上，作者设计了一个由三种类型模块组成的视觉程序：即视角无关 (view-independent)、视角相关 (view-dependent) 和功能性 (functional) 模块。这些模块专为三维场景量身定制，协同工作以执行复杂的推理和推断。此外，本文还开发了一个创新的语言-物体关联 (language-object correlation, LOC) 模块，以将现有三维物体检测器 (3D object detectors) 的范围扩展到开放词汇场景。

大量的实验表明，本文提出的零样本方法可以超越一些监督式基线 (supervised baselines)，标志着 3DVG 领域迈向有效解决方案的重要一步。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2311.15383
PDF 链接: https://arxiv.org/pdf/2311.15383v2.pdf
发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

三维视觉定位 (3D Visual Grounding, 3DVG) 是一项关键任务，旨在根据自然语言描述在三维场景中精确定位特定物体。这项技术在诸如自动机器人、虚拟现实和元宇宙等新兴应用中具有重要的价值。例如，给定一个三维扫描场景和描述“它是离门最近的键盘”，3DVG 的目标就是准确识别出这个键盘。

然而，传统的监督式 3DVG 方法存在以下核心挑战和空白：

高昂的标注成本: 现有的方法（如 ScanRefer 和 Referit3D）依赖于大量经过人工标注的对象-文本对数据。获取这些高质量的三维场景标注数据需要耗费巨大的资源和时间，这严重限制了其在真实世界应用中的可扩展性。
词汇限制: 大多数监督方法受限于训练过程中预定义的词汇集。这意味着它们无法识别或定位在训练集中未曾出现过的新类别物体，这在开放词汇 (open-vocabulary) 场景中是一个巨大的局限。
缺乏通用推理能力: 传统的模型在理解复杂空间关系（如“在...的右边”、“在...的前面”）和进行多步骤推理方面表现不足，尤其是在视角相关 (view-dependent) 的情境下。

为了解决这些问题，本文的切入点是探索零样本学习 (zero-shot learning) 和大语言模型 (LLMs) 的强大能力。零样本学习能够通过利用预训练模型（如 CLIP）的泛化能力处理新类别，而 LLMs 则因其强大的规划和推理能力为复杂指令的理解提供了可能。论文旨在结合这两者的优势，构建一个无需大量标注且能处理开放词汇的 3DVG 解决方案。

2.2. 核心贡献/主要发现

本文通过提出一种新颖的视觉编程方法，为零样本开放词汇 3DVG 领域做出了以下核心贡献：

提出创新的三维视觉编程方法: 本文首次提出了一种零样本的视觉编程方法来解决 3DVG 问题。这种方法通过生成可执行的程序代码来指导物体定位，从而消除了传统监督方法对大量对象-文本对标注的依赖。
引入基于对话的 LLM 初始理解: 提出了一种基于对话的 LLM 方法，作为零样本 3DVG 的初步探索。尽管存在局限性，但它为后续更完善的视觉编程方法奠定了基础。
设计针对三维场景的模块化视觉程序: 将 3DVG 的推理过程转化为结构化的视觉程序，该程序由三类模块组成：
- 视角无关 (view-independent) 模块: 处理与观察者位置无关的空间关系（如 CLOSEST、ABOVE）。
- 视角相关 (view-dependent) 模块: 创新性地将三维空间中的视角相关关系（如 RIGHT、FRONT）转换为二维自我中心视角 (2D egocentric view) 来处理，有效克服了 LLMs 在此方面的局限性。
- 功能性 (functional) 模块: 包含 MIN、MAX 等操作，用于基于极端标准选择物体。这些模块协同工作，实现了复杂的推理和推断。
开发语言-物体关联 (LOC) 模块: 提出了一种创新的 LOC 模块，它通过结合三维点云的几何分辨能力和二维图像的细粒度外观洞察力，将现有三维物体检测器扩展到开放词汇场景，从而克服了传统检测器预定义词汇的限制。
实验验证零样本方法的优越性: 在 ScanRefer 和 Nr3D 等流行数据集上进行了广泛实验，首次在整个验证集上进行评估。实验结果表明，本文提出的零样本方法在某些情况下甚至优于现有的监督式基线，证明了其在实现有效 3DVG 方面的显著进步。

这些贡献共同推动了 3DVG 领域向更少标注依赖、更强大泛化能力和更开放词汇处理能力的方向发展。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解本文，我们需要了解以下几个核心概念：

3.1.1. 三维视觉定位 (3D Visual Grounding, `3DVG`)

3DVG 是一项计算机视觉和自然语言处理的交叉任务，其目标是根据自然语言描述，在三维场景中识别并定位（通常通过边界框或实例掩码）一个特定的三维物体。例如，在一个包含多个椅子的房间三维模型中，如果用户说“离窗户最近的红色椅子”，3DVG 系统就应该能够准确指出这个特定椅子。

3.1.2. 零样本学习 (Zero-shot Learning, `ZSL`)

零样本学习是一种机器学习范式，旨在使模型能够识别或处理在训练阶段从未见过的新类别。传统的监督学习模型只能识别在训练数据中出现过的类别。ZSL 通过利用辅助信息（如类别属性、文本描述或预训练的嵌入空间）来建立已知类别与未知类别之间的联系，从而实现对新类别的泛化能力。在本文中，CLIP 预训练模型在三维领域的应用是实现零样本能力的关键。

3.1.3. 开放词汇 (Open-Vocabulary)

在计算机视觉任务中，开放词汇能力指的是模型能够识别、理解和处理任何文本描述中提及的类别，而不仅仅是其训练数据中预定义或“封闭”的类别集合。传统的物体检测或分割模型通常受限于一个固定的类别列表（例如，COCO 数据集中的80个类别）。具备开放词汇能力的模型则能够处理任意文本查询，极大地增强了其在真实世界场景中的灵活性和实用性。

3.1.4. 大语言模型 (Large Language Models, `LLMs`)

LLMs 是基于深度学习，特别是 Transformer 架构的语言模型，拥有数亿甚至数万亿的参数。它们通过在海量文本数据上进行预训练，学习了丰富的语言知识、世界知识和强大的推理能力。LLMs 能够理解、生成自然语言，并执行诸如问答、翻译、摘要、代码生成以及复杂的规划和推理等任务。在本文中，LLMs 被用于生成和解释视觉程序，从而实现对复杂文本指令的理解和多步骤推理。

3.1.5. 视觉编程 (Visual Programming)

视觉编程在这里指的是使用语言模型生成一系列可执行的、模块化的指令（类似于程序代码），这些指令调用特定的视觉感知模块或功能模块来完成复杂的视觉任务。它将自然语言指令分解为一系列更小的、可管理的步骤，每个步骤都由一个专门的“视觉函数”来处理，并通过组合这些函数来解决复杂的视觉推理问题。这与传统的端到端 (end-to-end) 模型不同，更强调可解释性和模块化。

3.2. 前人工作

论文在相关工作部分回顾了 3DVG、室内三维场景理解和 LLMs 在视觉-语言任务中的应用。

3.2.1. 监督式 `3DVG`

早期的 3DVG 方法主要依赖于大规模标注数据集，如 ScanRefer [4] 和 Referit3D [1]。这些方法通常将 3DVG 视为一个匹配问题，即首先使用三维检测器（如 [21, 37]）生成候选物体，然后通过融合视觉和文本特征来找到最佳匹配。

代表性工作: ScanRefer [4] 和 ReferIt3DNet [1] 分别编码三维点云和语言，然后融合以对物体进行排名。TGNN [17] 和 InstanceRefer [60] 通过学习实例级别的特征进一步提升性能。3DVG-Transformer [65] 和 BUTD-DETR [20] 分别利用 Transformer [47] 和 DETR [3] 架构，代表了该领域的最新技术。
局限性: 这些方法虽然能取得精确结果，但需要昂贵的标注，且受限于预定义词汇集，无法泛化到开放词汇场景。NS3D [16] 尝试使用 CodeX [5] 生成分层程序，但仍需大量数据训练神经符号网络，缺乏零样本和开放词汇能力。

3.2.2. 室内三维场景理解

随着 RBG-D 扫描数据集（如 ScanNet [9]）的出现，室内三维场景理解任务得到了广泛研究，包括三维物体分类 [35, 36]、三维物体检测 [30, 37]、三维语义分割 [8, 63] 和三维实例分割 [21, 42, 50] 等。

局限性: 这些方法通常受限于封闭的语义类别标签集。
开放词汇进展: 近年来，开放词汇图像分割 [13, 28] 的进展也启发了三维场景理解。例如，LERF [23] 在 NeRF [31] 中学习语言场，通过体渲染 CLIP [40] 特征实现任意语言查询的三维相关性图。OpenScene [34] 使用二维开放词汇分割模型 [13, 26] 提取图像特征，然后训练三维网络生成与多视图融合像素特征对齐的点特征。OpenMask3D [45] 利用闭集词汇网络生成实例掩码并丢弃分类头。
本文的差异: 尽管有这些进展，但这些方法仍然缺乏空间和常识推理能力，这正是本文通过视觉编程和 LLMs 弥补的空白。

3.2.3. `LLMs` 用于视觉-语言任务

LLMs 在零样本规划和推理方面取得了显著进展 [33, 46, 48]。先进的提示技术如 Least-to-Most [66]、Think-Step-by-Step [25] 和 Chain-of-Thought [53] 激发了 LLMs 的能力。

与视觉模型结合: 当与专门的视觉模型结合时，LLMs 可以显著增强视觉-语言任务的性能。例如，Visual ChatGPT [55] 使用 ChatGPT 作为中央协调器，与各种视觉基础模型交互以解决复杂问题。VISPROG [15] 利用上下文学习能力生成高级模块化程序来解决复杂的组合自然语言推理和图像编辑任务。ViperGPT [44] 直接将可用模块的 API 提供给 LLM，然后生成可执行的 Python 代码用于图像定位。
本文的差异: 尽管 LLMs 在二维视觉-语言任务中表现出色，但将这些能力应用于零样本三维语言定位仍是一个未被充分探索的领域。本文正是填补了这一空白，将 LLMs 的推理能力与三维场景理解相结合。

3.3. 差异化分析

本文提出的方法与上述前人工作的核心区别和创新点在于：

零样本与开放词汇: 传统 3DVG 方法受限于预定义词汇和大量标注，本文方法通过结合 LLMs 和 CLIP 的零样本能力，实现了开放词汇的 3DVG，无需在特定目标上进行大规模标注。
视觉编程范式: 与直接融合视觉和文本特征的端到端模型不同，本文利用 LLMs 生成模块化的视觉程序。这种编程范式将复杂的语言指令分解为一系列可解释、可组合的操作，提高了推理的透明度和准确性。
三维空间关系推理: 针对 LLMs 在处理三维空间关系（尤其是视角相关关系）上的局限性，本文创新性地提出了将三维关系投影到二维自我中心视角进行处理的方法，并设计了相应的视角相关模块，有效解决了这一难题。
语言-物体关联 (LOC) 模块: 提出 LOC 模块，将三维几何信息与二维图像的细粒度外观信息相结合，扩展了现有三维物体检测器的开放词汇能力，这是传统 3DVG 和三维场景理解方法所缺乏的。

4. 方法论

本文提出了一种新颖的视觉编程方法，用于零样本开放词汇三维视觉定位 (3DVG)。该方法通过结合大语言模型 (LLMs) 的推理能力和专门设计的视觉感知模块，实现了对复杂文本描述中三维物体的精确定位，同时克服了传统方法对大量标注和预定义词汇的依赖。

4.1. 方法原理

本文方法的核心思想是将三维视觉定位任务转化为一个由 LLMs 生成并执行的“视觉程序”。这个程序包含一系列模块化的操作，每个操作都由一个特定的视觉或功能模块来处理，从而实现多步骤的推理和信息融合。

该方法从一个初步的对话式 LLM 方法开始，以建立对零样本 3DVG 的基础理解，但随后针对其在视角相关性和数学计算方面的局限性，发展出更强大的视觉编程方法。

4.2. 核心方法详解

4.2.1. 与 `LLM` 对话 (Dialog with LLM)

为了解决 3DVG 的标注问题，本文首先提出了一个初步的对话式方法。

输入: 真实世界的 RGB-D 扫描数据和自由格式的文本描述 $\tau$ 。RGB-D 扫描被表示为点云 $\mathbf { P } \in \mathbb { R } ^ { N \times 6 }$ ，其中 $\mathbf { P }$ 是一个包含颜色信息的 $N$ 个三维点的集合。
场景叙述生成: 为了弥合 LLM 对文本理解能力与 3DVG 空间性质之间的鸿沟，首先将场景转换为文本叙述。这种叙述提供了场景中所有物体 $\mathcal { O }$ 的综合描述，包括它们的位置和尺寸，格式如下：
```
Object <id> is a <category> located at (x, Y, z) with sizes (width, length, height).
```
对话过程: 给定场景描述和查询，LLM 作为一个位于扫描房间内的智能体，旨在根据文本描述识别指定的物体。LLM 能够模拟人类的推理步骤。如图2(a)所示，如果 LLM 获得物体信息，它可以提取查询句子中相关的物体（例如，目标 keyboard 和锚点 door），并通过计算它们之间的距离来成功识别正确的 keyboard。

该图像是一本论文中的示意图，展示了基于大语言模型（LLM）的零样本开放词汇3D视觉定位的视觉编程流程。图中包括对话示例和由视觉程序驱动的推理过程，描述如何结合3D扫描和语言信息实现目标预测。

Figure 2. 论文中 Figure 2 的一部分，展示了 LLMs 的视角相关模块，用于建立相对定位。这里展示的是整个系统架构图的一部分，Figure 2 并非原文中的 Figure 2，而是 Figure 1(b) 的扩展。为了避免混淆，我将使用 Figure 2(a) 和 Figure 2(b) 对应论文中的 Figure 1(a) 和 Figure 1(b) 来指代。

局限性: 尽管 LLMs 展示了强大的类人推理能力，但它们仍有局限：

视角相关问题: LLMs 难以处理视角相关 (view-dependent) 的问题，例如“右边的窗户”。这是因为三维场景可以自由旋转到不同视角，而 LLMs 通常通过比较三维坐标的 x-y 值做出决策，即使对话中有所提示。
数学计算弱点: 数学计算是 LLMs 的常见弱点，但在 3DVG 中却是必需的 [11]。例如，在 Figure 2(a) 中，距离计算对于解决“最近的”关系至关重要，但 LLMs 无法总是提供准确结果。

这些问题源于 LLM 的训练限制，影响了对话式方法的可靠性。

4.2.2. 三维视觉编程 (3D Visual Programming)

为了解决上述对话式 LLM 方法的局限性，本文引入了一种新的视觉编程方法。

程序构建: 首先构建了一组示例程序，封装了 3DVG 中类人解决问题的方法。每个程序包含一系列操作，每个操作包括模块名称、输入参数和分配的输出变量。一个步骤的输出可以被后续步骤重用，从而创建了一个反映视觉语境下逻辑推理的互联序列。
LLM 生成程序: 将 3DVG 的推理过程转化为脚本化的视觉程序。具体来说，收集了一组上下文示例 (in-context examples) 和相应的定位描述，然后使用 LLMs 外推 (extrapolate) 出针对特定任务的新视觉程序。
- 示例: 对于描述“在房间角落里有蓝色和黄色海报的圆形鸡尾酒桌 (The round cocktail table in the corner of the room with the blue and yellow poster)”，目标是识别圆形鸡尾酒桌。这可以转化为操作： $BOX0 = LOC('round cocktail table')$ 。LOC 算子处理文本查询并输出目标物体的边界框。
- 如果存在多个相似物体，则通过辅助参考点进一步定位： $BOX1 = LOC('blue and yellow poster')$ 。然后，CLOSEST 模块计算 BOX0（潜在的桌子）和 BOX1（海报）之间的接近度，并选择最接近海报的桌子作为结果。

模块化设计: 视觉程序由三类专为三维语境设计的模块组成：

视角无关 (View-independent) 模块: 这些模块操作于物体之间的三维空间关系，不依赖于观察者的位置。
- 示例: CLOSEST 模块可以识别物体间的接近度，与观察者位置无关。
- 常见关系: near, close, next to, far, above, below, under, top, on, opposite, middle。
视角相关 (View-dependent) 模块: 这些模块依赖于观察者的有利位置 (vantage point)。
- 示例: RIGHT 模块在从所有窗户 (BOX0) 看向柜子 (BOX1) 时，确定右边的窗户 (TARGET)。
- 常见关系: front, behind, back, right, left, facing, leftmost, rightmost, looking, across, between。

功能性 (Functional) 模块: 这些模块包含 MIN 和 MAX 等多种操作，根据极端标准选择物体。

示例: MIN (最小) 和 MAX (最大) 用于基于尺寸、长度、宽度等属性进行选择。

以下是原文 Table 1 总结的 3DVG 中的常见关系：

类型	关系
View-independent	`near`, `close`, `next to`, `far`, `above`, `below`, `under`, `top`, `on`, `opposite`, `middle`
View-dependent	`front`, `behind`, `back`, `right`, `left`, `facing`, `leftmost`, `rightmost`, `looking`, `across`, `between`
Functional	`min`, `max`, `size`, `length`, `width`

这些模块的输出可以作为另一个操作的输入，从而提供灵活的可组合性。它们不仅促进了结构化和准确的推理序列，还整合了三维和二维数据，为 3DVG 提供了鲁棒且可解释的结果。

4.2.3. 处理视角相关关系 (Addressing View-Dependent Relations)

视角相关 (view-dependent) 关系在解释三维空间中的空间关系至关重要，其主要挑战是这些关系的动态性质会随观察者的视角而变化。为了解决这个问题，本文采用了一种二维自我中心视角 (2D egocentric view) 方法，以确保空间关系具有一致的参考框架。

核心思想: 在二维平面上，“左”和“右”等关系定义明确（例如，右通常对应于 $X$ 轴的正方向）。受此启发，本文假设房间中心有一个虚拟相机 $P _ { \mathrm { c e n t e r } }$ ，它可以旋转以与锚点物体 $P _ { \mathbf { o } _ a }$ 的位置对齐。三维物体从这个有利位置投射到二维平面上。
相机投影: 假设正交相机具有内参矩阵 $I$ ，则二维投影可以通过以下公式获得： $\begin{array} { r l } & { R , T = \mathrm { L o o k a t } ( P _ { \mathrm { c e n t e r } } , P _ { \mathbf { o } _ a } , u p ) , } \\ & { ( u , v , w ) ^ { \mathrm { T } } = I \cdot ( R | t ) \cdot P , } \end{array}$
- 符号解释:
  - $R$ : 旋转矩阵 (Rotation Matrix)。
  - $T$ : 平移矩阵 (Translation Matrix)。
  - $\mathrm { L o o k a t } ( P _ { \mathrm { c e n t e r } } , P _ { \mathbf { o } _ a } , u p )$ : 一个视图变换函数，它计算将相机从 $P _ { \mathrm { c e n t e r } }$ 移动到 $P _ { \mathbf { o } _ a }$ 并保持 up 向量指定的向上方向所需的旋转矩阵 $R$ 和平移矩阵 $T$ 。 $P _ { \mathrm { c e n t e r } }$ 代表虚拟相机的位置（房间中心）， $P _ { \mathbf { o } _ a }$ 代表锚点物体的位置，up 是相机的向上方向向量。
  - $( u , v , w ) ^ { \mathrm { T } }$ : 表示三维点 $P$ 投影到二维平面后的坐标。 $u$ 和 $v$ 分别表示二维平面上的 $X$ 轴和 $y$ 轴坐标， $w$ 是深度值。
  - $I$ : 相机的内参矩阵 (Intrinsic Matrix)，描述了相机从三维世界点到二维图像点的投影方式。
  - $( R | t )$ : 外部参数矩阵 (Extrinsic Matrix)，由旋转矩阵 $R$ 和平移向量 $t$ 组成（这里的 $t$ 可能与前面的 $T$ 有关，通常 $t$ 是一个平移向量，而 $T$ 是一个平移矩阵或变换矩阵的一部分）。它描述了相机在三维世界中的位置和方向。
  - $P$ : $( x , y , z , 1 ) ^ { \mathrm { T } }$ 表示三维坐标向量，其中 (x, y, z) 是三维空间中的一个点，1 用于齐次坐标表示。
关系确定:
- 通过物体中心 $u$ 值的大小，可以确定其“左”或“右”位置（较低的 $u$ 值表示左）。
- 通过深度值 $w$ ，可以区分“前”和“后”。
- 通过综合这些概念，可以定义“之间”的关系。
  
  这种从三维到二维自我中心视角的转换，为解释三维空间中的视角相关关系提供了一个清晰且一致的解决方案，从而增强了模型的空间推理能力。
  
  该图像是论文中的示意图，展示了通过2D第一视角（自我视角）视图处理3D场景中视角相关关系的过程。左图为三维环境俯视图，右图展示了从虚拟摄像机捕获的二维视角切片及其对应的不同窗口视野。

Figure 3. Addressing view-dependent relations: A shift to 2D egocentric view.

4.2.4. 语言-物体关联模块 (Language-Object Correlation Module, `LOC`)

尽管本文的零样本 3DVG 方法不需要大量的定位标注，但仍需要一个基本的视觉模型来进行物体定位。传统的做法是使用预训练的三维检测器 [21, 37] 生成物体提案 (object proposals) 及其在固定词汇内的对应标签。然而，这种方法受限于预定义的物体类别集。为了实现开放词汇分割，本文开发了一个 LOC 模块，它结合了三维和二维网络的优势，扩展了标签能力超越了闭集。

工作流程:
1. 初始筛选 (3D Instance Segmentation): 假设有操作： $BOX0 = LOC('round cocktail table')$ 。首先使用一个三维实例分割网络 [42] 过滤出预测标签为“桌子”的物体子集。
2. 细粒度识别 (2D Imagery): 然后，只需要从这个子集中识别出“圆形鸡尾酒桌”。通过将每个三维提案映射到其对应的二维图像，可以提取与查询相关的颜色和纹理细节。
3. 多模态2D模型辅助: 为了进一步精确定位，本文考虑了三种类型的二维多模态模型：
  - 图像分类模型 (Image classification models): 构建一个动态词汇表，包括查询词“round cocktail table”和类别词“table”，使用 CLIP [40] 等流行工具。然后评估这些词与图像之间的余弦相似度，以找到与查询的最佳关联。
  - 视觉问答模型 (Visual question answering models): 向 ViLT [24] 等模型提出问题：“这里有一个 [查询词] 吗？”（例如：“Is there a [round cocktail table]?”）。模型会通过其字典筛选，建议最可能的答案（“是”或“否”）。
  - 通用大模型 (General large models): 提交相同的查询，并根据生成的文本预期响应。这个过程对于验证检测到的桌子与查询之间的对齐至关重要。
模型兼容性: 本文的方法不限于特定的三维或二维模型，允许灵活地整合各种模型。实验中将通过与仅使用三维或仅使用二维信息的对照组进行比较，来展示 LOC 模块的优势。这种设计代表了三维开放词汇实例分割的飞跃，并能提高 3DVG 中的物体识别准确性。

该图像是图4，展示了语言-物体相关模块的示意图。流程包括闭集词汇实例分割、基于筛选词的多模态2D模型识别以及图像分类、问答和大型通用模型对文本描述的综合判定，辅助实现开放词汇的3D物体定位。

Figure 4. Illustration of the language-object correlation module.

5. 实验设置

5.1. 数据集

本文使用了两个流行的 3DVG 数据集进行实验，即 ScanRefer [4] 和 Nr3D [1]。

5.1.1. ScanRefer [4]

特点: 专为 3DVG 设计，包含来自 ScanNet [9] 的800个场景的51,500个句子描述。这些描述提供了丰富的对象-文本对标注。
评估方式: 在此数据集上，评估通常涉及物体提案的生成，更贴近真实世界的应用场景。

5.1.2. Nr3D [1]

特点: 这是一个人工编写的自由格式 3DVG 数据集，通过两人参考游戏在三维场景中收集。
子集划分:
- 难度: 句子被划分为“简单 (easy)”和“困难 (hard)”子集。在“简单”子集中，目标物体只有一个同类干扰项；而在“困难”子集中，则有多个同类干扰项。
- 视角依赖性: 根据句子是否需要特定视角来定位参照物体，数据集还可划分为“视角相关 (view-dependent)”和“视角无关 (view-independent)”子集。
评估方式: 在此数据集上，通常提供真实标注的物体掩码，只要求进行分类，目的是消除定位误差，实现高定位准确性。

共同点: 对于这两个数据集，本文均在验证集 (validation split) 上评估零样本方法的性能。

5.2. 评估指标

本文考虑了两种不同的评估设置，对应于不同的任务需求。

5.2.1. ScanRefer 数据集评估设置

这种设置强制要求生成物体提案 (object proposals)，更符合真实世界应用的场景。评估指标是基于 IoU (Intersection over Union) 的准确率。

Acc@0.25 (Accuracy at 0.25 IoU)
1. 概念定义: Acc@0.25 表示预测的边界框与真实标注的边界框之间的 IoU 值大于或等于0.25时，被认为是正确预测的物体所占的百分比。这个指标衡量了模型在允许一定误差范围内的定位准确性。
2. 数学公式: $\mathrm{Acc@0.25} = \frac{\sum_{i=1}^N \mathbb{I}(\mathrm{IoU}(B_p^i, B_{gt}^i) \ge 0.25)}{N} \times 100\%$
3. 符号解释:
  - $N$ : 样本总数（即要评估的查询-物体对数量）。
  - $B_p^i$ : 第 $i$ 个查询的预测边界框。
  - $B_{gt}^i$ : 第 $i$ 个查询的真实标注边界框。
  - $\mathrm{IoU}(B_1, B_2)$ : 两个边界框 $B_1$ 和 $B_2$ 之间的 Intersection over Union 值。
  - $\mathbb{I}(\cdot)$ : 指示函数，当括号内的条件为真时返回1，否则返回0。
Acc@0.5 (Accuracy at 0.5 IoU)
1. 概念定义: Acc@0.5 表示预测的边界框与真实标注的边界框之间的 IoU 值大于或等于0.5时，被认为是正确预测的物体所占的百分比。相较于 Acc@0.25，这是一个更严格的定位准确性指标。
2. 数学公式: $\mathrm{Acc@0.5} = \frac{\sum_{i=1}^N \mathbb{I}(\mathrm{IoU}(B_p^i, B_{gt}^i) \ge 0.5)}{N} \times 100\%$
3. 符号解释:
  - $N$ : 样本总数。
  - $B_p^i$ : 第 $i$ 个查询的预测边界框。
  - $B_{gt}^i$ : 第 $i$ 个查询的真实标注边界框。
  - $\mathrm{IoU}(B_1, B_2)$ : 两个边界框 $B_1$ 和 $B_2$ 之间的 Intersection over Union 值。
  - $\mathbb{I}(\cdot)$ : 指示函数。

Intersection over Union (IoU)

概念定义: IoU 是衡量两个边界框重叠程度的指标。它被定义为两个边界框的交集面积（或体积）除以它们的并集面积（或体积）。IoU 值的范围在0到1之间，值越高表示重叠程度越大，预测越准确。
数学公式: $\mathrm{IoU}(B_p, B_{gt}) = \frac{\mathrm{Area}(B_p \cap B_{gt})}{\mathrm{Area}(B_p \cup B_{gt})}$
符号解释:
- $B_p$ : 预测的边界框。
- $B_{gt}$ : 真实标注的边界框。
- $\mathrm{Area}(B_p \cap B_{gt})$ : 预测边界框与真实标注边界框的交集面积（对于二维）或体积（对于三维）。
- $\mathrm{Area}(B_p \cup B_{gt})$ : 预测边界框与真实标注边界框的并集面积（或体积）。

5.2.2. Nr3D 数据集评估设置

这种设置提供真实标注的物体掩码，只要求进行分类，目标是消除定位误差，实现高定位准确性。

Top-1 Accuracy (Top-1 准确率)
1. 概念定义: Top-1 Accuracy 表示模型预测的最有可能的类别（即置信度最高的类别）与真实标注类别一致的样本所占的百分比。在 Nr3D 数据集的上下文中，这意味着模型是否正确识别了根据文本描述所指的目标物体。
2. 数学公式: $\mathrm{Top-1 \ Accuracy} = \frac{\sum_{i=1}^N \mathbb{I}(\text{predicted\_object}_i = \text{ground\_truth\_object}_i)}{N} \times 100\%$
3. 符号解释:
  - $N$ : 样本总数。
  - $\text{predicted\_object}_i$ : 模型对第 $i$ 个查询预测的目标物体。
  - $\text{ground\_truth\_object}_i$ : 第 $i$ 个查询对应的真实标注目标物体。
  - $\mathbb{I}(\cdot)$ : 指示函数，当括号内的条件为真时返回1，否则返回0。

5.3. 对比基线

本文将自己的方法与两类基线模型进行了比较：

5.3.1. 监督式 `3DVG` 方法

这些方法需要大量标注数据进行训练。

ScanRefer [4]: 编码三维点云和语言，然后融合以对物体进行排名。
ReferIt3DNet [1]: 与 ScanRefer 类似，分别编码三维点云和语言，然后融合以对物体进行排名。
TGNN [17]: 通过学习实例级别的特征，在融合视觉和文本信息的基础上进行推理。
InstanceRefer [60]: 进一步探索实例级别的多层次上下文信息来增强视觉定位。
3DVG-Transformer [65]: 利用 Transformer 架构进行三维视觉定位，通过自注意力机制捕捉点云和文本之间的复杂关系。
BUTD-DETR [20]: 采用 DETR (Detection Transformer) 架构，结合自底向上和自顶向下的注意力机制，实现对图像和点云中语言的定位。

5.3.2. 开放词汇三维场景理解方法

这些方法旨在实现开放词汇能力，但可能不具备强大的空间推理能力。

LERF [23]: 在 NeRF (Neural Radiance Fields) 中学习语言场，通过体渲染 CLIP [40] 特征，实现任意语言查询的三维相关性图。
OpenScene [34]: 使用二维开放词汇分割模型 [13, 26] 提取图像特征，然后训练三维网络生成与多视图融合像素特征对齐的点特征。
共同限制: LERF 和 OpenScene 通过 CLIP 文本编码器处理查询 $\tau$ ，并计算其与提取的点特征的相似度。最后，它们通过对得分最高的点进行聚类来确定目标物体。然而，这些方法在推理和定位精度方面存在局限性。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. ScanRefer 数据集结果

以下是原文 Table 2 的结果：

Methods	Supervision	Unique		Multiple		Overall
Methods	Supervision	Acc@0.25	Acc@0.5	Acc@0.25	Acc@0.5	Acc@0.25	Acc@0.5
ScanRefer [4]	fully	65.0	43.3	30.6	19.8	37.3	24.3
TGNN [17]	fully	64.5	53.0	27.0	21.9	34.3	29.7
InstanceRefer [60]	fully	77.5	66.8	31.3	24.8	40.2	32.9
3DVG-Transformer [65]	fully	81.9	60.6	39.3	28.4	47.6	34.7
BUTD-DETR [20]	fully	84.2	66.3	46.6	35.1	52.2	39.8
LERF [23]	-	-	-	-	-	4.8	0.9
OpenScene [34]	-	20.1	13.1	11.1	4.4	13.2	6.5
Ours (2D only)		32.5	27.8	16.1	14.6	20.0	17.6
Ours (3D only)		57.1	49.4	25.9	23.3	33.1	29.3
Ours	-	63.8	58.4	27.7	24.6	36.4	32.7

以下是原文 Table 2 的结果：ScanRefer 数据集上的性能评估（IoU 阈值下的准确率）。

从 ScanRefer 数据集的定量评估结果来看，本文的零样本方法展现了强大的性能：

超越部分监督式基线: 本文的零样本方法在 Acc@0.5 指标上达到了 32.7 分，这超越了部分完全监督式方法，如 ScanRefer (24.3) 和 TGNN (29.7)。这非常显著，因为它表明即使不依赖大量标注，零样本方法也能取得具有竞争力的结果。
显著优于其他开放词汇方法: 开放词汇方法 LERF 和 OpenScene 在 0.25 IoU 阈值下，总体准确率仅分别为 4.8 和 13.2，甚至在 0.5 IoU 下表现更差 (0.9 和 6.5)。这主要归因于它们在推理和定位精度上的局限性。本文方法则显著优于它们。
LOC 模块的有效性: 对比 Ours (2D only) (Acc@0.5: 17.6) 和 Ours (3D only) (Acc@0.5: 29.3)，本文的完整方法 Ours (Acc@0.5: 32.7) 取得了最佳性能。这证明了 LOC 模块中整合三维和二维信息的有效性，表明结合几何分辨能力和外观洞察力是关键。

6.1.2. Nr3D 数据集结果

以下是原文 Table 3 的结果：

Method	Easy	Hard	Dep.	Indep.	Overall
ReferIt3DNet [1]	43.6	27.9	32.5	37.1	35.6
InstanceRefer [60]	46.0	31.8	34.5	41.9	38.8
3DVG-Transformer [65]	48.5	34.8	34.8	43.7	40.8
BUTD-DETR [20]	60.7	48.4	46.0	58.0	54.6
Ours (2D only)	29.4	18.4	23.0	23.9	23.6
Ours (3D only)	45.9	27.9	34.9	38.4	36.7
Ours	46.5	31.7	36.8	40.0	39.0

以下是原文 Table 3 的结果：Nr3D 数据集上语言定位的性能分析（Top-1 准确率，使用真实标注边界框）。

在 Nr3D 数据集上，由于提供了真实标注的实例掩码，评估侧重于分类准确率。

优于 InstanceRefer: 本文的零样本方法 (Overall: 39.0) 进一步超越了监督式方法 InstanceRefer (38.8)。
视角相关性表现优异: 在“视角相关 (view-dependent)”子集上，本文的零样本方法达到了 36.8 的准确率，比 3DVG-Transformer (34.8) 高出 2%。这一性能提升主要归因于关系模块（尤其是视角相关模块）的有效性，强调了零样本方法在处理复杂三维关系方面的潜力。
LOC 模块的再次验证: 同样，Ours 优于 Ours (2D only) (23.6) 和 Ours (3D only) (36.7)，再次印证了 LOC 模块结合多模态信息的有效性。

6.2. 定性结果

Figure 5 展示了 ScanRefer 验证集上一些选定样本的可视化结果。四列分别代表真实标注结果、监督式方法 BUTD-DETR、LLM 对话方法和视觉编程方法。

该图像是论文中的示意图，展示了不同方法在3D视觉定位任务中的效果对比。图中以带有彩色边框的3D框标注了物体位置，并附有相应的文本描述，体现了算法在物体识别与定位上的差异。

Figure 5. 可视化示例，展示了错误识别（红色）和正确识别（绿色）的物体。

视角无关关系: 从 Figure 5(a) 和 Figure 5(b) 可以看出，LLM 对话方法和视觉编程方法都能在无需大量训练的情况下，对视角无关关系（如“上方 (above)”、”下方 (under)”）实现准确预测。
视角相关关系: 相反，BUTD-DETR 和 LLM 对话方法都无法处理视角相关关系（如“左边 (left)”、”前面 (front)”），如 Figure 5(c) 和 Figure 5(d) 所示。这些关系固有的不确定性反映了现有方法的局限性。然而，本文的视觉编程方法能够利用二维自我中心视角，从而在三维场景中实现准确预测。
失败案例分析: Figure 5(e) 展示了一个失败案例。LLM 对话方法无法识别“椅子有轮子”，因为它缺乏开放词汇检测能力。此外，视觉编程方法也做出了错误的预测，因为 LLM 未能正确识别“被推 (pushed)”这一关系。幸运的是，当通过 CLOSEST 模块修正程序后，视觉编程方法能够做出正确预测，这表明程序的灵活性和可调试性。

6.3. 消融实验

6.3.1. 与 `LLM` 对话 vs. 视觉编程

以下是原文 Table 4 的结果：

Method	LLM	Acc@0.5	Tokens	Cost
Dialog	GPT3.5	25.4	1959k	\$3.05
Dialog	GPT4	27.5	1916k	\$62.6
Program	GPT3.5	32.1	121k	\$0.19
Program	GPT4	35.4	115k	\$4.24

以下是原文 Table 4 的结果：与 `LLM` 对话和视觉编程方法的性能比较。

在 ScanRefer 验证集上对两种零样本 3DVG 方法（与 LLM 对话和视觉编程）进行了比较：

GPT-4 优于 GPT-3.5: 无论哪种方法，基于 GPT-4 的方法都比基于 GPT-3.5 的方法取得更高的准确率，尽管 GPT-4 的成本更高。
视觉编程的优越性: 视觉编程方法在准确率和成本方面始终优于 LLM 对话方法。例如，使用 GPT3.5 时，视觉编程的 Acc@0.5 为 32.1，而对话方法为 25.4；成本分别为 0.19` 和 3.05。这证明了所提出的视觉编程方法的有效性。为了节约成本，其他实验均使用 GPT-3.5`。

6.3.2. 关系模块 (Relation Modules)

为了分析不同关系模块对系统性能的影响，本文对最重要的视角相关和视角无关模块进行了消融研究。

视角相关模块: 以下是原文 Table 5 的结果：

LEFT	RIGHT	FRONT	BEHIND	BETWEEN	Accuracy
					26.5
✓					32.4
	✓				35.9
✓		✓			36.8
✓	✓	✓	✓		38.4
✓	✓	✓	✓	✓	39.0

以下是原文 Table 5 的结果：不同视角相关模块的消融研究。

从 Table 5 可以看出：

LEFT 和 RIGHT 是最重要的视角相关关系，单独引入它们就能带来显著的准确率提升 (32.4 和 35.9)。
随着更多视角相关模块的引入（如 FRONT, BEHIND, BETWEEN），准确率持续提升，最终所有模块都启用时达到最高 (39.0)。

视角无关模块: 以下是原文 Table 6 的结果：

CLOSEST	FARTHEST	LOWER	HIGHER	Accuracy
				18.8
✓				30.7
	✓			34.0
✓	✓	✓		36.8
✓	✓	✓	✓	39.0

以下是原文 Table 6 的结果：不同视角无关模块的消融研究。

从 Table 6 可以看出：

CLOSEST 是最重要的视角无关关系，单独引入它能将准确率从 18.8 提升到 30.7。
FARTHEST 也能带来显著提升，表明距离关系在 3DVG 中至关重要。
随着 LOWER 和 HIGHER 等模块的加入，性能进一步提高，最终所有模块启用时达到最佳 (39.0)。

这些结果与论文的动机和设计一致，强调了这些关系模块在增强模型空间推理能力方面的关键作用。

6.3.3. `LOC` 模块

通过比较 Ours (2D only)、Ours (3D only) 和 Ours（完整模型）在 Table 2 和 Table 3 中的性能，可以验证 LOC 模块的有效性。

Mask3D 实例分割: 所有模型都使用 Mask3D [42] 进行实例掩码预测。
2D-only 模型: 仅使用配对的二维图像进行分类。在室内场景图像复杂且与训练样本存在领域差距时，其表现最差（例如 ScanRefer Acc@0.5: 17.6，Nr3D Overall: 23.6）。
3D-only 模型: 仅使用三维结果。由于能够利用几何信息并在闭集标签上训练，其表现优于 2D-only 模型（例如 ScanRefer Acc@0.5: 29.3，Nr3D Overall: 36.7）。
完整模型 (Ours): 始终能达到最佳性能（例如 ScanRefer Acc@0.5: 32.7，Nr3D Overall: 39.0）。这表明 LOC 模块通过整合点云的几何独特性和图像模型的开放词汇能力，有效地提升了性能。

6.3.4. 泛化能力 (Generalization)

本文框架对于不同的三维和二维感知模型具有很强的适应性。

不同二维模型: 以下是原文 Table 7 的结果：

2D Assistance	Unique	Multiple	Acc@0.25
CLIP	62.5	27.1	35.7
ViLT	60.3	27.1	35.1
BLIP-2	63.8	27.7	36.4

以下是原文 Table 7 的结果：不同二维模型上的消融研究。

对于二维感知，测试了 CLIP [40] (图像分类模型)、ViLT [24] (视觉问答模型) 和 BLIP-2 [27] (通用大模型)。结果表明，框架与这些不同的二维模型兼容，并且 BLIP-2 取得了最佳性能 (Acc@0.25: 36.4)，这表明它能够利用二维基础模型的进步来提升性能。

不同三维主干网络: 以下是原文 Table 8 的结果：

3D Backbone	View-dep.	View-indep.	Overall
PointNet++	35.8	39.4	38.2
PointBert	36.0	39.8	38.6
PointNeXt	36.8	40.0	39.0

以下是原文 Table 8 的结果：不同三维主干网络上的消融研究。

对于三维感知，测试了 $PointNet++$ [36]、PointBert [59] 和 PointNeXt [38] 三种主干网络。结果显示，PointNeXt 取得了最佳性能 (Overall: 39.0)。这再次证明了框架的鲁棒性和对不同三维模型的兼容性，能够利用三维基础模型的最新进展。

6.3.5. 提示大小 (`Prompt Size`) 的影响

论文研究了在程序生成时提示中上下文示例 (in-context examples) 数量的影响。

$Figure 6. Ablation study on the number of in-context examples. The performance on $\\mathrm { N r } 3 \\mathrm { D }$ and ScanRefer improves with the number of in-context examples.$ 该图像是一张柱状图，展示了不同数量上下文示例下，在ScanRefer和Nr3d数据集上带投票和不带投票的准确率对比。结果显示，准确率随着上下文示例数量增加而提升，且带投票效果略优。

Figure 6. Ablation study on the number of in-context examples. The performance on $\mathrm { N r } 3 \mathrm { D }$ and ScanRefer improves with the number of in-context examples.

Figure 6 显示，在 Nr3D 和 ScanRefer 数据集上，性能随着上下文示例数量的增加而提高。这是因为更多的示例可以更好地指导 LLMs 在视觉程序生成过程中处理更多情况。然而，这种提升遵循边际效用递减规律。此外，通过投票技术 [15] 聚合多次运行的结果，也能带来一定的性能增益。

6.3.6. 错误分析 (Error Analysis)

为了更好地理解框架的局限性，论文进行了错误分析。对每个数据集，手动检查了大约100个样本的视觉程序所提供的原理。

Figure 7. Breakdown of error sources. 该图像是图表，展示了论文中ScanRefer和Nr3D数据集的错误来源分布对比，包括Prog、Exec、Rel、Cls、Loc及Correct各项占比情况，体现了不同错误类型在两数据集中的比例差异。

Figure 7. Breakdown of error sources.

Figure 7 的结果揭示：

程序生成是主要错误源: 生成准确的视觉程序是主要的错误来源。这表明可以通过使用更多上下文示例和更强大的 LLMs 来改进性能。
物体定位和分类: 第二大错误来源是物体定位和分类，这表明三维空间中的物体检测和分类仍然是关键组件。
关系模块的不足: 结果还指出，需要开发额外的模块来处理更广泛的空间关系，例如“相对 (opposite)”。这些问题在当前框架中尚未得到很好解决。

6.4. 定性可视化示例

补充材料提供了三个可视化示例，展示了对话式 LLM 方法和视觉编程方法的有效性。

示例 (a): LLMs 的有效性

该图像是代码示例的截图，展示了用于零样本开放词汇3D视觉定位的视觉程序片段，包含定位“horizontal blinds”和“monitor”及相对位置关系的指令代码。

Figure 8. Visualization example (a) for zero-shot 3DVG. 这个例子（Query: "The horizontal blinds. The blinds are above the monitor on the right."）证实了 LLMs 可以有效执行零样本 3DVG 并取得令人满意的结果。
示例 (b): 视觉编程解决空间推理限制

该图像是论文中的一段代码示例，展示了用于生成视觉程序的提示（Prompt），包括函数定义和描述到程序的转换示例，用于解析文本以定位目标对象。

Figure 9. Visualization example (b) for zero-shot 3DVG. 这个例子（Query: "There is a rectangular window. It is behind a desk with mc"）展示了 LLMs 在需要空间推理的任务中可能会遇到局限性。然而，这个问题可以通过视觉编程方法有效解决。
示例 (c): 多步推理能力

该图像是论文中展示的一个视觉程序示例，展示了以模块化代码形式表达的零样本三维视觉定位操作，包含对象定位及空间关系描述。

Figure 10. Visualization example (c) for zero-shot 3DVG. 这个例子（Query: "This is a storage shelf. It is white in color and is above a desk with a chair in front of it."）进一步说明了视觉编程方法能够执行多步推理。它首先识别位于显示器上方的百叶窗，然后在其中选择所需的百叶窗。

7. 总结与思考

7.1. 结论总结

本文提出了一种新颖的零样本方法，用于三维视觉定位 (3DVG)，旨在消除对大量标注和预定义词汇的依赖。首先，作者提出了一种初步的基于对话的 LLM 方法来与 LLMs 进行交互。在此基础上，进一步开发了一种视觉编程方法，该方法利用三种类型的模块（视角无关、视角相关和功能性）来处理复杂的三维关系。为了适应开放词汇场景，还开发了一个语言-物体关联 (LOC) 模块，无缝集成了三维和二维特征。

实验结果表明，本文提出的方法具有优越性，并在某些情况下甚至超越了监督式基线，展示了其在推动 3DVG 领域发展方面的巨大潜力。特别是，通过将三维视角相关问题转化为二维自我中心视角处理，以及 LOC 模块融合多模态信息，显著提升了模型的推理和泛化能力。

7.2. 局限性与未来工作

论文作者在错误分析部分指出了当前框架的局限性，并暗示了未来的研究方向：

程序生成精度: 视觉程序的生成是主要的错误来源。未来的工作可以聚焦于通过使用更强大的 LLMs（如 GPT-4 的更高级版本）和提供更丰富、更具指导性的上下文示例来提高程序的准确性和鲁棒性。
物体定位和分类: 三维空间中的物体检测和分类仍然是关键的挑战。这意味着底层三维感知模型的改进（例如，更精确的实例分割和开放词汇检测）将直接影响 3DVG 的整体性能。
拓展关系模块: 当前的关系模块虽然有效，但仍有局限性。例如，需要开发额外的模块来处理更广泛和更复杂的三维空间关系，如“相对 (opposite)”等，这些在现有框架中尚未得到很好解决。
计算成本: 虽然视觉编程方法相比 LLM 对话方法在成本上有所降低，但依赖 LLM 进行程序生成仍会产生计算成本。未来的工作可能会探索更高效的程序生成或优化 LLM 使用的策略。

7.3. 个人启发与批判

7.3.1. 个人启发

LLMs 的“编译”能力: 这篇论文最吸引人的地方在于它将 LLMs 从一个“对话者”提升到了一个“编译器”或“规划器”的角色。LLMs 不仅仅是理解自然语言，而是将其“编译”成一系列可执行的模块化指令（视觉程序），这使得复杂的多步骤推理在视觉任务中变得可能。这种范式对于其他需要复杂推理和模块化执行的领域（如机器人操作、智能体行为规划）具有巨大的启发意义。
模块化与可解释性: 视觉编程方法通过将任务分解为视角无关、视角相关和功能性模块，大大增强了模型的可解释性。当出现错误时，可以更容易地定位是哪个模块或哪一步推理出了问题，这对于调试和改进模型至关重要，也符合当前人工智能领域对“可解释AI (Explainable AI)”的需求。
弥合 LLMs 和物理世界 Gap 的新思路: LLMs 在文本世界中表现卓越，但在与真实物理世界（尤其是三维空间）交互时常受限。本文通过将三维场景投影到二维自我中心视角来处理视角相关关系，为 LLMs 弥合这一 gap 提供了一个优雅且有效的解决方案。这种“降维”处理思想可以推广到其他需要 LLMs 理解物理世界复杂性的场景。
开放词汇的实际潜力: 传统的视觉任务受限于闭集词汇，这在快速变化的真实世界应用中是一个巨大的瓶颈。本文的 LOC 模块结合 CLIP 等多模态模型，有效扩展了三维定位的开放词汇能力，极大地提升了 3DVG 在实际场景（如机器人识别新的物体、虚拟现实中用户自定义查询）中的应用价值。

7.3.2. 批判性思考

LLM 生成程序的鲁棒性与泛化性: 尽管论文展示了积极的结果，但 LLM 生成程序的质量高度依赖于提示工程 (prompt engineering) 和上下文示例。在面对高度复杂、模糊或新颖的指令时，LLM 是否总能生成正确且高效的程序仍是一个问号。错误分析也指出“程序生成”是主要错误来源，这可能意味着在更广阔、更多样化的真实场景中，其鲁棒性可能面临挑战。
模块粒度的平衡: 视觉程序依赖于预定义的模块。模块的粒度（granularity）设计是一个关键问题。如果模块过于粗糙，LLM 可能难以实现精细控制；如果模块过于细致，程序可能会变得冗长复杂，增加 LLM 生成的难度和计算成本。如何找到最佳的模块粒度，以及如何让系统自动学习或发现新的、更合适的模块，是值得探讨的方向。
计算成本和延迟: 尽管视觉编程方法相比对话式方法降低了成本，但每次推理仍涉及 LLM 调用（生成程序）和多个视觉模块的执行。这可能在实时应用（如自动驾驶机器人）中引入不可接受的延迟。优化 LLM 推理速度和视觉模块执行效率，或探索离线程序生成和在线执行的混合模式，将是实用化的关键。
“零样本”的真实程度: 论文宣称“零样本”，但其底层仍依赖于预训练的三维检测器（闭集）和二维多模态模型（如 CLIP、BLIP-2），这些模型本身是在大量数据上训练的。因此，这里的“零样本”更多指的是在 3DVG 任务本身无需额外的标注，而非完全从零开始。理解这种零样本的边界和成本是重要的。例如，如果 LOC 模块中的 2D Assistance 表现不佳，整体性能也会受限。

总的来说，这篇论文为 3DVG 领域提供了一个充满前景的新范式，通过巧妙地结合 LLMs 和模块化视觉感知，有效地解决了传统方法的诸多痛点。其贡献不仅限于 3DVG，也为 LLMs 在更广泛的具身智能 (embodied AI) 和视觉推理任务中的应用开辟了新思路。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。