Grounding Image Matching in 3D with MASt3R
TL;DR 精炼摘要
本文提出了MASt3R,通过在DUSt3R框架中增强密集局部特征的回归和匹配损失,提高3D图像匹配精度,同时引入快速互匹配方案以降低计算复杂度。实验结果显示,MASt3R在多个基准测试中达到了最先进性能,特别是在地图无关定位任务中VCR AUC指标提高了30%。
摘要
Image Matching is a core component of all best-performing algorithms and pipelines in 3D vision. Yet despite matching being fundamentally a 3D problem, intrinsically linked to camera pose and scene geometry, it is typically treated as a 2D problem. This makes sense as the goal of matching is to establish correspondences between 2D pixel fields, but also seems like a potentially hazardous choice. In this work, we take a different stance and propose to cast matching as a 3D task with DUSt3R, a recent and powerful 3D reconstruction framework based on Transformers. Based on pointmaps regression, this method displayed impressive robustness in matching views with extreme viewpoint changes, yet with limited accuracy. We aim here to improve the matching capabilities of such an approach while preserving its robustness. We thus propose to augment the DUSt3R network with a new head that outputs dense local features, trained with an additional matching loss. We further address the issue of quadratic complexity of dense matching, which becomes prohibitively slow for downstream applications if not carefully treated. We introduce a fast reciprocal matching scheme that not only accelerates matching by orders of magnitude, but also comes with theoretical guarantees and, lastly, yields improved results. Extensive experiments show that our approach, coined MASt3R, significantly outperforms the state of the art on multiple matching tasks. In particular, it beats the best published methods by 30% (absolute improvement) in VCRE AUC on the extremely challenging Map-free localization dataset.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Grounding Image Matching in 3D with MASt3R (通过 MASt3R 将图像匹配植根于 3D 空间)
1.2. 作者
Vincent Leroy, Yohann Cabon, Jerome Revaud。作者均隶属于 NAVER LABS Europe,该机构在计算机视觉和视觉定位领域享有极高的声誉。
1.3. 发表期刊/会议
发表于 CVPR 2024 (IEEE/CVF Conference on Computer Vision and Pattern Recognition)。CVPR 是计算机视觉领域的顶级学术会议,被广泛认为是该领域最具影响力的发布平台。
1.4. 发表年份
2024年(具体提交至 arXiv 时间为 2024年6月14日)。
1.5. 摘要
图像匹配是 3D 视觉算法的核心,尽管它本质上是一个 3D 问题(与相机位姿和场景几何紧密相关),但传统上却被视为 2D 像素对应问题。本文提出了 MASt3R,这是一个基于 DUSt3R(一个强大的基于 Transformer 的 3D 重建框架)的匹配方法。作者通过在 DUSt3R 中增加一个输出密集局部特征的匹配头,并引入额外的匹配损失进行训练,显著提升了匹配的精度。此外,针对密集匹配中常见的计算复杂度过高问题,本文提出了一种具有理论保证的快速互匹配 (Fast Reciprocal Matching) 方案。实验表明,MASt3R 在多个极具挑战性的基准测试中达到了最先进的 (state-of-the-art) 性能,尤其在 Map-free 定位任务上,相比之前最好的方法,在 VCRE AUC 指标上实现了 30% 的绝对提升。
1.6. 原文链接
-
arXiv 链接: https://arxiv.org/abs/2406.09756
-
代码仓库: https://github.com/naver/mast3r
2. 整体概括
2.1. 研究背景与动机
图像匹配 (Image Matching) 的目标是在观察同一场景的不同图像之间寻找相同的像素点。它是导航、测绘、机器人定位等技术的基础。
- 现有挑战: 传统的匹配方法(如 SIFT 或基于深度学习的 SuperGlue)通常将匹配视为 2D 图像平面上的任务。然而,在视角变化剧烈(如旋转 )或环境光照变化剧烈的情况下,仅靠 2D 特征极易失效。
- 研究空白: 虽然最近的 DUSt3R 框架展示了通过直接回归 3D 点图进行匹配的强大鲁棒性,但由于其本质是回归任务,匹配的像素精度 (Pixel-level Accuracy) 较低。
- 创新思路: 本文认为匹配应该在 3D 空间的引导下进行。MASt3R 的核心思想是:保留 DUSt3R 处理极端视角变化的鲁棒性,同时通过引入局部特征描述符 (Local Features) 和专用的匹配损失 (Matching Loss) 来找回丢失的精度。
2.2. 核心贡献/主要发现
-
提出 MASt3R 模型: 在 3D 重建框架的基础上,联合学习 3D 几何与判别性局部特征,使模型既能理解“像素在哪里”,也能理解“像素长什么样”。
-
快速互匹配 (Fast Reciprocal Matching, FRM): 提出了一种启发式的迭代算法,将密集匹配的复杂度从 降低到接近线性,且在实验中发现这种采样方式能过滤离群点,提升精度。
-
粗到精 (Coarse-to-fine) 策略: 解决了高分辨率图像在 Transformer 架构中处理缓慢的问题,允许在 512 分辨率训练的模型处理百万像素级的匹配。
-
性能突破: 在 Map-free 这种极难的定位任务(仅给定一张参考图,无地图)上,刷新了所有记录,证明了 3D 引导匹配的优越性。
3. 预备知识与相关工作
3.1. 基础概念
- 点图 (Pointmap): 一种特殊的图像表示形式,图像中每个像素位置
(u, v)存储的不是颜色 (RGB),而是对应的 3D 坐标(x, y, z)。 - 互匹配 (Reciprocal Matching): 只有当图像 A 中的像素 的最近邻是图像 B 中的像素 ,且像素 在图像 A 中的最近邻也是像素 时,才认为它们是一对有效的匹配。这能有效过滤误匹配。
- Transformer 与 Cross-attention: Transformer 擅长捕获长距离依赖。在图像匹配中,交叉注意力 (Cross-attention) 机制允许模型在处理第一张图时“参考”第二张图的信息,从而理解两图间的空间关系。
3.2. 前人工作:DUSt3R
DUSt3R 是 MASt3R 的直接基石。它通过一个双目 Transformer (Binocular Transformer) 架构,给定两张图像 和 ,直接输出它们在同一坐标系下的 3D 点图 和 以及置信度图 。 其核心公式为 3D 回归损失: 这里 是尺度归一化因子。DUSt3R 的问题在于它只学习了 3D 坐标,没有显式学习用于区分像素点的“指纹”(特征描述符)。
3.3. 技术演进与差异化
传统路线是从稀疏点 (Sparse) 到半密集 (Semi-dense) 再到密集 (Dense)。MASt3R 属于密集匹配流派,但与以往的 2D 密集匹配(如 LoFTR)不同,它通过 3D 几何来约束搜索空间,从根本上解决了 2D 匹配在宽基线视角下的几何歧义问题。
4. 方法论
MASt3R 的核心目标是结合 3D 几何的鲁棒性和局部特征的精确性。
4.1. 模型架构与任务头
MASt3R 沿用了 DUSt3R 的 主干网络 (backbone)(ViT-Large 编码器和 ViT-Base 解码器)。在解码器之后,除了原有的 3D 预测头,作者新增了一个特征描述符头 (Matching Head)。
下图(原文 Figure 2)展示了 MASt3R 的整体流程:
该图像是示意图,展示了DUSt3R网络与MASt3R框架的结构及其快速匹配机制。左侧为两个ViT编码器的输入图像,经过Transformer解码器后生成点图和局部特征,右侧展示了几何匹配和基于特征的匹配方法。快速邻近搜索(Fast NN)用于加速匹配过程。
- 编码与解码: 图像 经过编码器得到 ,再通过交叉注意力解码器得到融合后的表示 。
- 3D 预测: 输出点图 和置信度 。
- 特征回归: 任务头 (head) 输出维度为 的密集特征图 : 该头由简单的两层多层感知机 (MLP) 组成,并对特征进行单位向量归一化。
4.2. 训练损失函数
为了让描述符具有判别性,作者引入了 InfoNCE 损失 (InfoNCE Loss),这是一种对比学习损失。
匹配目标 (Matching Objective):
对于每一对真实存在对应的像素 (i, j),模型应最大化它们的相似度,同时最小化与其它非匹配点的相似度。相似度定义为特征向量的内积:
其中 是温度超参数。
匹配损失函数: 这里 是基于 3D 真实标注计算出的对应点集合。这种损失强迫模型在像素级别进行分类,从而实现远高于 3D 坐标回归的匹配精度。
总损失: 是带置信度的 3D 回归损失, 是平衡权重。
4.3. 快速互匹配 (Fast Reciprocal Matching, FRM)
在测试时,如果直接对 个像素点进行两两比对,复杂度是 ,对于 的图像来说极其缓慢。
作者提出了 FRM 算法:
-
从第一张图中随机采样 个初始点 。
-
迭代过程:
- 在图像 2 中寻找 的最近邻,得到 。
- 在图像 1 中寻找 的最近邻,得到 。
- 检查回环 (Cycle):如果 ,说明找到了一对稳定的互匹配,将其保存。
- 剔除已找到的点,对剩余点继续迭代。
-
性能: 下图(原文 Figure 3)显示,该方法在迭代 5-6 次后即可收敛,且速度提升了 64 倍。
该图像是示意图,展示了MASt3R方法的快速互匹配策略及其性能评估。左侧展示了图像1与图像2的特征匹配过程,右侧则显示了在Mapfree数据集上,3D点与局部特征的匹配时间与性能的比较,仅靠计算时间就提升了64倍。
4.4. 粗到精匹配方案 (Coarse-to-fine)
由于 Transformer 内存消耗随分辨率平方增长,MASt3R 默认处理 512 分辨率。为了处理高清图:
-
粗匹配: 在低分辨率下提取初始匹配。
-
分块匹配: 在高分辨率图中,围绕粗匹配点切出 的局部窗口对。
-
精化: 对每个窗口对再次运行 MASt3R,获取像素级精度的匹配,最后映射回原图坐标。
5. 实验设置
5.1. 数据集
作者在一个包含 14 个数据集的混合库上进行训练,涵盖了:
- 室内: Habitat, ARKitScenes, ScanNet++。
- 室外: MegaDepth, Waymo。
- 物体: CO3D-v2。
- 合成: TartanAir, VirtualKitti。 这些数据集提供了丰富的 真实标注数据 (Ground Truth) 3D 坐标。
5.2. 评估指标
- VCRE (Virtual Correspondence Reprojection Error):
- 定义: 量化预测匹配点在虚拟视角下的对齐程度。
- 公式: ,其中 是投影函数, 是位姿变换。
- AUC (Area Under the Curve): 在一定像素误差阈值(如 90px)下的准确率曲线下面积。
- RRA/RTA (Relative Rotation/Translation Accuracy):
- 公式: 测量预测旋转 与真实旋转 的角度差 是否小于阈值(如 )。
5.3. 对比基线
-
SIFT: 传统的局部特征匹配。
-
SuperGlue / LightGlue: 当前主流的基于深度学习的稀疏匹配方法。
-
LoFTR: 最先进的 2D 密集特征匹配模型。
-
DUSt3R: MASt3R 的前身(纯 3D 匹配)。
6. 实验结果与分析
6.1. Map-free 定位挑战赛结果
这是本文最惊人的结果。在没有任何地图、仅有一张参考图的情况下,MASt3R 展现了统治级的性能。
以下是原文 Table 2 的测试集结果:
| 方法 | 深度来源 | VCRE (<90px) | 位姿误差 (Pose Error) | |||||
|---|---|---|---|---|---|---|---|---|
| 重投影误差 ↓ | 精确度 ↑ | AUC ↑ | 中值平移误差 (m) ↓ | 中值旋转误差 ↓ | 精确度 ↑ | AUC ↑ | ||
| SP+SG [72] | DPT | 160.3 px | 36.1% | 0.602 | 1.88m | 25.4° | 16.8% | 0.346 |
| LoFTR [82] | KBR | 165.0 px | 34.3% | 0.634 | 2.23m | 37.8° | 11.0% | 0.295 |
| DUSt3R [102] | DPT | 116.0 px | 50.3% | 0.697 | 0.97m | 7.1° | 21.6% | 0.394 |
| MASt3R | DPT | 104.0 px | 54.2% | 0.726 | 0.80m | 2.2° | 27.0% | 0.456 |
| MASt3R | (自动回归) | 48.7 px | 79.3% | 0.933 | 0.36m | 2.2° | 54.7% | 0.740 |
分析:
- MASt3R 在 VCRE AUC 上达到了 0.933,而此前最好的匹配模型 LoFTR 仅为 0.634。
- 即使不依赖外部深度图(使用“自动回归”深度),MASt3R 的中值旋转误差仅为 2.2°,平移误差仅为 0.36米,远超传统方法。
6.2. 定性匹配分析
下图(原文 Figure 4)展示了 MASt3R 在极端视角变换下的表现:
该图像是一个示意图,展示了使用MASt3R方法进行3D图像匹配的过程。不同颜色的线条展示了在各种场景中提取的特征点之间的对应关系,显示出该方法在处理极端视角变化时的效果。
可以看到,即使相机旋转了近 ,MASt3R 依然能准确找到对应点(如咖啡馆的招牌、室内桌角)。这些区域在 2D 视图下看起来完全不同,但 MASt3R 凭借其对 3D 几何的理解成功实现了匹配。
6.3. 多视图重建 (MVS)
MASt3R 还可以直接用于密集重建。在 DTU 数据集上,MASt3R 在没有预先给定相机参数的情况下,实现了比许多专门的 MVS 模型更好的重建效果。
该图像是插图,展示了基于 MASt3R 方法在 DTU 数据集上的定性多视图立体视觉(MVS)结果。图中包含多种物体和场景的三维重建效果,表现出 MASt3R 在密集匹配中的有效性及其对复杂视角变化的适应性。
7. 总结与思考
7.1. 结论总结
MASt3R 成功地证明了将图像匹配植根于 3D 几何的必要性。通过在 DUSt3R 的 3D 重建能力之上增加判别性特征学习,模型克服了回归精度不足的短板。同时,FRM 算法和粗到精策略解决了实用化过程中的计算效率和分辨率限制问题。
7.2. 局限性与未来工作
- 计算开销: 虽然 FRM 降低了复杂度,但基于 Transformer 的架构相比稀疏匹配(如 LightGlue)仍然需要消耗大量的 GPU 显存和计算时间。
- 场景依赖: 尽管泛化能力极强,但在完全无纹理(如白墙)或极端重复纹理(如围栏)的极端情况下,仍可能存在挑战。
- 未来方向: 可能会探索更轻量化的骨干网络,或者将该框架扩展到视频流的实时 SLAM 任务中。
7.3. 个人启发与批判
- 启发: MASt3R 给我们的最大启示是:任务耦合往往能带来 1+1>2 的效果。匹配需要几何,重建也需要匹配,将两者放在同一个 Transformer 框架下联合优化,能让模型学到更深层的空间关联。
- 批判: 论文中提到的“快速互匹配”虽然有效,但本质上是一种启发式采样。在极高密度的场景下,这种采样是否会丢失一些关键的边缘特征,值得进一步探讨。此外,对于完全未标定的图像,模型对相机焦距的敏感度如何,也是实际应用中需要关注的。
相似论文推荐
基于向量语义检索推荐的相关论文。