DUSt3R: Geometric 3D Vision Made Easy
TL;DR 精炼摘要
DUSt3R是一种新型的多视角立体3D重建方法,无需相机校准信息。通过将成对图像重建转化为点图回归问题,该方法简化了几何视觉流程,并引入全局对齐策略,实现了单目和双目映射的统一。实验表明,DUSt3R在深度和姿态估计任务上取得了最先进的性能。
摘要
Multi-view stereo reconstruction (MVS) in the wild requires to first estimate the camera parameters e.g. intrinsic and extrinsic parameters. These are usually tedious and cumbersome to obtain, yet they are mandatory to triangulate corresponding pixels in 3D space, which is the core of all best performing MVS algorithms. In this work, we take an opposite stance and introduce DUSt3R, a radically novel paradigm for Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections, i.e. operating without prior information about camera calibration nor viewpoint poses. We cast the pairwise reconstruction problem as a regression of pointmaps, relaxing the hard constraints of usual projective camera models. We show that this formulation smoothly unifies the monocular and binocular reconstruction cases. In the case where more than two images are provided, we further propose a simple yet effective global alignment strategy that expresses all pairwise pointmaps in a common reference frame. We base our network architecture on standard Transformer encoders and decoders, allowing us to leverage powerful pretrained models. Our formulation directly provides a 3D model of the scene as well as depth information, but interestingly, we can seamlessly recover from it, pixel matches, relative and absolute camera. Exhaustive experiments on all these tasks showcase that the proposed DUSt3R can unify various 3D vision tasks and set new SoTAs on monocular/multi-view depth estimation as well as relative pose estimation. In summary, DUSt3R makes many geometric 3D vision tasks easy.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
DUSt3R: Geometric 3D Vision Made Easy (DUSt3R:让几何三维视觉变得简单)
1.2. 作者
Shuzhe Wang (阿尔托大学), Vincent Leroy, Yohann Cabon, Boris Chidlovskii, Jerome Revaud (Naver Labs Europe)。
1.3. 发表期刊/会议
该论文发表于 CVPR 2024 (IEEE/CVF Conference on Computer Vision and Pattern Recognition)。CVPR 是计算机视觉领域的顶级国际会议,具有极高的影响力和学术声望。
1.4. 发表年份
2024年(预印本最早发布于2023年12月)。
1.5. 摘要
传统的多视角立体重建 (Multi-View Stereo, MVS) 算法依赖于预先估计相机的内参和外参,这一过程通常繁琐且容易出错。本文提出了 DUSt3R,一种全新的三维重建范式。它不需要任何关于相机校准或视角姿态的先验信息,而是将成对重建问题表述为点图 (Pointmaps) 的回归问题。该方法通过简单的全局对齐策略,可以无缝统一单目和双目重建,并扩展到多图场景。实验表明,DUSt3R 在深度估计和姿态估计等多项任务上达到了最先进的水平 (state-of-the-art)。
1.6. 原文链接
-
代码仓库 (GitHub): https://github.com/naver/dust3r
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 传统的三维重建(如 SfM 和 MVS)是一个复杂的流水线:特征检测 -> 特征匹配 -> 稀疏重建 -> 相机姿态估计 -> 稠密重建。在这个链条中,任何一步的错误都会累积到下一步。特别是相机姿态估计(SfM 阶段),在视角较少、物体表面缺乏纹理或相机运动不足时极易失败。
- 重要性: 三维重建是自动驾驶、机器人导航、考古和文化遗产保护的基础。目前的算法虽然强大,但“门槛”很高,需要精确的相机参数。
- 创新思路: 作者反其道而行之,提出:为什么不直接从图像预测三维形状呢? 如果我们能直接回归出图像每个像素对应的三维坐标,相机的参数(位置、焦距等)就可以作为副产品顺带计算出来。
2.2. 核心贡献/主要发现
-
端到端新范式: 提出了首个从未经校准、未经定位的图像中进行端到端三维重建的流水线。
-
点图 (Pointmap) 表示: 引入了点图作为场景表示,它打破了传统透视相机模型的硬约束,将几何信息隐式地包含在回归结果中。
-
全局对齐优化: 提出了一种简单快速的 3D 空间对齐算法,能将多对图像生成的点图统一到一个全局坐标系中,取代了复杂的捆绑调整 (Bundle Adjustment, BA)。
-
性能卓越: 仅用一个通用的模型,就在单目深度估计、多视角姿态估计等多个任务上打破了纪录。
3. 预备知识与相关工作
3.1. 基础概念
- 多视角立体重建 (Multi-View Stereo, MVS): 利用多张从不同角度拍摄的图像来恢复场景三维结构的技术。
- 运动恢复结构 (Structure-from-Motion, SfM): 从一系列二维图像中同时恢复相机姿态和稀疏三维点云的过程。
- 主干网络 (backbone): 模型中负责提取特征的基础网络结构,本文使用的是 视觉变换器 (Vision Transformer, ViT)。
- 词元 (token): 在 Transformer 架构中,图像被切分成小方块,每个方块被转化为一个向量,称为词元。
3.2. 前人工作与技术演进
传统的三维视觉依赖于几何几何约束(如对极几何)。
-
第一阶段(手工设计): 依赖 SIFT 等特征点匹配,通过求解基本矩阵来恢复几何。
-
第二阶段(深度学习组件): 使用神经网络替换特征提取(如 SuperPoint)或匹配(如 SuperGlue),但整体框架仍是传统的 SfM/MVS。
-
第三阶段(神经渲染/隐式表示): 如 NeRF,虽然效果惊人,但通常需要已知的相机姿态作为输入。
DUSt3R 的差异化: 相比于上述方法,DUSt3R 彻底抛弃了“先估计相机,再重建三维”的逻辑,改为“直接预测三维,再推导相机”。
3.3. 关键前置技术:CroCo
DUSt3R 的架构深受 CroCo (Cross-view Completion) 的影响。CroCo 是一种预训练任务:给模型两张有重叠的图像,掩盖其中一张的部分区域,让模型参考另一张图来补全。这种训练让模型学会了不同视角间的几何对应关系。
4. 方法论
4.1. 方法原理
DUSt3R 的核心思想是将两张输入图像 和 映射到两个对应的三维点图 和 。这两个点图都在第一个相机的坐标系中。这样,两张图的相对位置关系就被隐式地编码在了三维点的坐标中。
4.2. 核心方法详解
4.2.1. 点图 (Pointmap) 的定义
点图 是一个与图像像素一一对应的矩阵,每个像素 (i, j) 存储其在三维空间中的坐标 (x, y, z)。
如果已知相机内参 和深度图 ,点图可以通过下式获得:
其中:
-
: 相机内参的逆矩阵,用于将图像平面坐标投影回空间。
-
i, j: 像素的横纵坐标。 -
: 该像素对应的深度值。
在 DUSt3R 中,我们不预先知道 和 ,而是让模型直接输出 。
4.2.2. 网络架构
下图(原文 Figure 2)展示了网络 的架构:
该图像是示意图,展示了网络 的架构。两幅场景视图 首先通过共享的 ViT 编码器进行编码,得到的标记表示分别为 和 。这两个表示随后被送入两个变换解码器,利用点图在相同坐标系中不断交换信息。整个网络通过简单的回归损失进行训练,以实现高效的 3D 重建及相机参数估计。
- 共享编码器 (Siamese ViT Encoder): 两张图像 通过相同的 ViT 主干网络提取词元表示 。
- 交互解码器 (Transformer Decoder): 这是核心部分。解码器包含 个块,每个块内两组词元会通过自注意力 (Self-attention) 关注自身视角,再通过交叉注意力 (Cross-attention) 关注另一视角。 这里信息在两个分支间不断交换,使模型能通过“三角测量”的直觉来对齐三维空间。
- 任务头 (Regression Heads): 解码后的词元被送入回归头,输出点图 和置信图 (Confidence map) 。
4.2.3. 训练目标 (Loss Function)
模型使用置信度加权的回归损失进行训练。 首先定义单点回归损失(欧氏距离): 其中 是预测点云的平均尺度因子, 是真实标注数据 (Ground Truth) 的平均尺度。这样做是为了处理尺度不确定性。
最终的损失函数 为: 符号解释:
- : 模型预测的该像素的置信度。
- : 三维坐标误差。
- : 正则化超参数,防止模型给所有点都分配极低的置信度。
- : 惩罚低置信度,迫使模型在容易重建的区域提高精度。
4.2.4. 全局对齐 (Global Alignment)
当有 张图时,模型会预测多对点图。为了将它们统一,作者提出了全局优化: 符号解释:
-
: 最终在全球坐标系中的三维点。
-
: 图像对 中模型预测的局部三维点。
-
: 图像对 对应的旋转平移矩阵和尺度缩放。
-
: 预测的置信度,用于过滤噪点。
该优化直接在 3D 空间进行,比传统的重投影误差优化快得多。
5. 实验设置
5.1. 数据集
实验使用了极其丰富的数据混合体:
- 静态场景: MegaDepth (户外), ARKitScenes (室内), ScanNet++ (室内), Habitat (合成室内)。
- 物体中心: CO3D-v2 (各种常见物体)。
- 自动驾驶: Waymo (户外道路)。
- 合成数据: BlendedMVS。 总计抽取了约 850万个图像对 进行训练。
5.2. 评估指标
- AbsRel (Absolute Relative Error): 绝对相对误差。 其中 是真值深度, 是预测深度。值越小越好。
- (Threshold Accuracy): 阈值精度。 量化预测值与真实值之比在 范围内的比例。 值越大越好。
- mAA (mean Average Accuracy): 平均准确度,常用于评价相机姿态估计的旋转和平移误差。
5.3. 对比基线
-
视觉定位: HLoc (基于匹配的经典 SOTA), DSAC* (基于坐标回归的 SOTA)。
-
深度估计: DPT (强单目模型), Monodepth2 (自监督模型)。
-
多视角姿态: PoseDiffusion, COLMAP+SPSG。
6. 实验结果与分析
6.1. 核心结果分析
DUSt3R 在几乎所有下游任务中都表现惊人,尤其是在不给定相机内参的情况下。
6.1.1. 多视角姿态估计
在 CO3Dv2 和 RealEstate10K 数据集上,DUSt3R 显著超过了此前的最强模型 PoseDiffusion。
以下是原文 Table 2 的部分结果对比:
| Methods (方法) | Co3Dv2 | RealEstate10K | ||
|---|---|---|---|---|
| RRA@15 ↑ | RTA@15 ↑ | mAA(30) ↑ | mAA(30) ↑ | |
| COLMAP+SPSG (经典 SfM) | 36.1 | 27.3 | 25.3 | 45.2 |
| PoseDiffusion (此前 SOTA) | 80.5 | 79.8 | 66.5 | 48.0 |
| DUSt3R 512 (本文) | 96.2 | 86.8 | 76.7 | 67.7 |
分析: RRA@15 代表旋转误差小于15度的比例。DUSt3R 达到了 96.2%,远超经典方法。这证明了模型学习到了极强的三维形状先验,能应对大基线、少视角的极端情况。
6.1.2. 单目深度估计
即使只输入一张图(输入两次相同图),DUSt3R 的表现依然强劲。
以下是原文 Table 2 (Monocular Depth 部分) 的结果:
| Methods | NYUD-v2 (室内) | KITTI (户外) | ||
|---|---|---|---|---|
| AbsRel ↓ | δ1.25 ↑ | AbsRel ↓ | δ1.25 ↑ | |
| DPT-BEiT (有监督) | 0.054 | 0.965 | 0.094 | 0.892 |
| SlowTv (零样本) | 0.115 | 0.872 | 0.068 | 0.561 |
| DUSt3R 512 (零样本) | 0.065 | 0.940 | 0.107 | 0.866 |
分析: 作为一个通用模型,DUSt3R 在未见过的测试集(零样本)上展现了接近专门训练的有监督模型 (DPT) 的水平。
7. 总结与思考
7.1. 结论总结
DUSt3R 证明了直接回归 3D 坐标比传统的“内参-外参-三角测量”链条更加鲁棒。它通过 Transformer 的交叉注意力机制,让网络在内部完成了三维对齐。这种“让几何视觉变简单”的承诺确实得到了履行:它统一了单目、双目和多目重建,且无需复杂的相机标定。
7.2. 局限性与未来工作
- 计算开销: 尽管全局对齐很快,但成对推理的次数随图像数量 呈平方增长(),处理超大规模场景(如整个城市)仍具挑战。
- 精度瓶颈: 回归模型生成的点云虽然“看起来很对”,但在微小的几何精度上(如毫米级测量),可能仍逊色于传统的基于亚像素匹配和三角测量的算法。
- 未来方向: 将 DUSt3R 与隐式表示(如 3D Gaussian Splatting 或 NeRF)结合,利用 DUSt3R 提供的初始姿态和点云进行快速建模。
7.3. 个人启发与批判
- 启发: 这篇论文体现了“暴力美学”和“第一性原理”的结合。它不再纠结于如何优化复杂的几何公式,而是利用大数据和 Transformer 强大的表达能力直接去模拟几何逻辑。
- 批判: 尽管论文声称“不需要参数”,但实际上模型是在有参数的数据集上训练出来的,它通过大量数据“背”下了不同焦距和视角的几何规律。此外,对于完全透明或镜面反射的物体(违反了“每个射线对应一个点”的假设),其性能可能会显著下降。
相似论文推荐
基于向量语义检索推荐的相关论文。