SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM
TL;DR 精炼摘要
SplaTAM开创性地将3D高斯显式体积表示引入稠密RGB-D SLAM,克服了传统方法场景表示的局限,实现了高保真三维重建。它采用一套为3D高斯定制的在线“泼溅”、跟踪与建图系统,巧妙利用剪影蒙版区分已建图区域,以优化场景密度并结构化扩展地图。实验表明,SplaTAM在相机位姿估计、地图构建和新视角合成方面,性能较现有方法提升高达2倍。
摘要
Dense simultaneous localization and mapping (SLAM) is crucial for robotics and augmented reality applications. However, current methods are often hampered by the non-volumetric or implicit way they represent a scene. This work introduces SplaTAM, an approach that, for the first time, leverages explicit volumetric representations, i.e., 3D Gaussians, to enable high-fidelity reconstruction from a single unposed RGB-D camera, surpassing the capabilities of existing methods. SplaTAM employs a simple online tracking and mapping system tailored to the underlying Gaussian representation. It utilizes a silhouette mask to elegantly capture the presence of scene density. This combination enables several benefits over prior representations, including fast rendering and dense optimization, quickly determining if areas have been previously mapped, and structured map expansion by adding more Gaussians. Extensive experiments show that SplaTAM achieves up to 2x superior performance in camera pose estimation, map construction, and novel-view synthesis over existing methods, paving the way for more immersive high-fidelity SLAM applications.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
-
标题 (Title): SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM (SplaTAM: 为稠密RGB-D SLAM 进行3D高斯“泼溅”、跟踪与建图)
-
作者 (Authors): Nikhil Keetha, Jay Karhade, Krishna Murthy Jatavallabhula, Gengshan Yang, Sebastian Scherer, Deva Ramanan, and Jonathon Luiten.
-
隶属机构 (Affiliations): 卡内基梅隆大学 (Carnegie Mellon University, CMU) 和麻省理工学院 (Massachusetts Institute of Technology, MIT)。
-
发表期刊/会议 (Journal/Conference): 论文格式和内容质量表明其目标是顶级的计算机视觉或机器人学会议 (如 CVPR, ICCV, ECCV, IROS)。根据论文内容判断,此为一篇预印本 (Preprint)。
-
发表年份 (Publication Year): 2023年 (根据参考文献和技术背景推断)。
-
摘要 (Abstract): 论文摘要指出,稠密同步定位与建图 (SLAM) 对机器人和增强现实至关重要,但现有方法常因其场景表示方式(非体积或隐式)而受限。本文首次引入了一种利用显式体积表示,即3D高斯,来实现高保真三维重建的稠密RGB-D SLAM方法,名为
SplaTAM。该方法通过一个为高斯表示量身定制的在线跟踪与建图系统,并利用剪影蒙版 (silhouette mask) 优雅地捕捉场景密度。这种组合带来了多项优势,包括快速渲染、稠密优化、快速判断区域是否已建图,以及通过添加新高斯进行结构化地图扩展。实验证明,SplaTAM在相机位姿估计、地图构建和新视角合成方面,性能比现有方法高出2倍。 -
原文链接 (Source Link):
https://spla-tam.github.io(项目主页)
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 如何在未知环境中,仅使用单个RGB-D相机,就能同时实时、准确地估计相机自身的运动轨迹,并构建一个高保真、可用于真实感渲染的三维环境地图。这就是稠密视觉SLAM (Dense Visual SLAM) 的核心目标。
- 现有挑战 (Gap):
- 传统显式方法: 如基于点、面元 (surfels) 或符号距离场 (SDF) 的SLAM系统,虽然成熟稳定,但在几何细节和纹理上依赖密集的视角覆盖,且难以生成高质量的未观测视角图像(即新视角合成),这限制了其在混合现实等应用中的价值。
- 神经隐式方法: 近期兴起的基于神经辐射场 (NeRF) 的SLAM方法,通过神经网络隐式地表示场景,可以实现高质量的渲染。但其缺点也十分突出:计算效率低下(依赖大量的射线采样)、模型难以编辑和更新、并且存在“灾难性遗忘”问题(在学习新场景时会忘记旧场景)。
- 创新思路: 论文作者思考:“一个显式的体积表示能否为SLAM系统带来好处?”。他们找到了一个完美的候选者:
3D高斯泼溅(3D Gaussian Splatting)。这种表示方法既是显式的(由一堆具有明确位置、颜色、大小的3D高斯体构成),又是体积的,并且可以通过一种称为“泼溅”(Splatting) 的技术进行极速的可微分渲染。这使得它兼具传统方法的直接性和神经渲染方法的高保真度,同时规避了两者的主要缺点。
-
核心贡献/主要发现 (Main Contribution/Findings - What):
- 首创性: 首次将
3D高斯泼溅这一强大的场景表示方法引入并成功应用于稠密RGB-D SLAM领域,解决了传统SLAM需要预先知道相机位姿才能建图的问题。 - 高性能SLAM系统 (
SplaTAM): 提出了一个完整的SLAM框架,包含三个核心步骤:Splat (渲染), Track (跟踪), 和 Map (建图)。该系统在相机位姿估计的准确性、三维地图重建的质量以及新视角合成的真实感方面,均达到了业界顶尖水平 (State-of-the-Art, SOTA)。 - 关键技术优势:
-
极速渲染与稠密优化: 渲染速度高达400 FPS,允许系统在实时SLAM中对整个图像进行稠密的光度误差优化,而非像以往方法那样只能稀疏采样像素。
-
清晰的地图边界: 通过渲染一个
剪影蒙版(silhouette mask),可以瞬间知道地图的已知范围,从而高效地区分已建图区域和新区域,这对于相机跟踪的鲁棒性和地图的增量式扩展至关重要。 -
直接的参数优化: 由于场景参数(高斯的位置、颜色等)与渲染结果之间是直接的投影关系,梯度可以高效地反向传播,从而实现对相机位姿和地图参数的快速优化,避免了隐式方法中梯度穿过多层神经网络的低效。
-
- 首创性: 首次将
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- SLAM (Simultaneous Localization and Mapping): 同步定位与建图。想象一个机器人在一个陌生的房子里醒来,它需要一边探索一边画出房子的地图,同时还要在地图上随时标出自己的位置。这个“边画图边定位”的过程就是SLAM。
- RGB-D相机: 一种特殊的相机,除了能拍出彩色照片 (RGB),还能测量每个像素点到相机的距离,生成一张深度图 (Depth map)。这为三维重建提供了直接的几何信息。
- 稠密SLAM (Dense SLAM): 相对于只重建环境中一些稀疏特征点(如墙角、窗框)的
稀疏SLAM,稠密SLAM的目标是重建场景中每一个可见表面的完整三维模型。 - 场景表示 (Scene Representation): 在计算机中描述三维世界的方式。
- 显式表示 (Explicit Representation): 直接用几何图元(如点云、网格、体素、面元)来描述场景。
3D高斯就是一种新型的显式表示。它的优点是直观、易于编辑。 - 隐式表示 (Implicit Representation): 用一个函数来表示场景,例如一个神经网络。输入一个三维空间点坐标 ,网络会输出该点的颜色和密度。
NeRF(神经辐射场) 是最著名的代表。它的优点是能表示连续、复杂的场景,并实现高质量渲染。
- 显式表示 (Explicit Representation): 直接用几何图元(如点云、网格、体素、面元)来描述场景。
- 3D高斯泼溅 (3D Gaussian Splatting, 3DGS): 一种革命性的三维场景表示和渲染技术。它将场景建模为成千上万个三维高斯分布(像一团团彩色的、半透明的棉花)。每个高斯都有中心位置、颜色、不透明度和形状(大小和方向)。渲染时,这些三维高斯被投影到二维图像平面上(变成二维高斯“斑点”),然后从前到后依次“泼溅”或混合在一起,形成最终的图像。
- 可微分渲染 (Differentiable Rendering): 一种特殊的渲染过程。它不仅能从三维模型生成二维图像,还能计算出图像像素值相对于三维模型参数(如高斯的位置、颜色)和相机参数(如位姿)的梯度。这是利用深度学习优化三维场景和相机位姿的关键技术。
-
前人工作 (Previous Works):
- 传统稠密SLAM: 如
KinectFusion使用SDF(符号距离函数),ElasticFusion使用surfels(面元)。这些方法在实时性和几何精度上做得很好,但渲染质量不高,无法合成逼真的新视角。 - 神经隐式SLAM: 如
iMAP、NICE-SLAM和Point-SLAM。它们使用神经网络作为地图,实现了高保真重建。但它们的共同缺点是速度慢,因为需要沿每条光线采样很多点并通过神经网络进行推理。为了实时性,它们不得不只对图像中的一小部分像素进行优化,牺牲了信息的完整性。 - 3D高斯泼溅 (3DGS): 原始的3DGS论文展示了其惊人的渲染质量和速度,但它有一个前提条件:所有输入图像的相机位姿必须是精确已知的。它是一个纯粹的重建和渲染技术,不具备SLAM的功能。
- 传统稠密SLAM: 如
-
差异化分析 (Differentiation):
SplaTAM的核心创新在于打破了3DGS需要已知相机位姿的限制。它将3DGS从一个离线的“重建工具”改造为了一个在线的“SLAM引擎”的核心部件。与神经隐式SLAM相比,SplaTAM使用显式的高斯表示,通过快速的泼溅渲染代替了缓慢的光线采样,从而可以对整张图片进行稠密优化,不仅速度更快,而且相机跟踪更鲁棒、精度更高。
4. 方法论 (Methodology - Core Technology & Implementation Details)
SplaTAM 的核心是一个循环迭代的系统,主要包含三大模块:相机跟踪、高斯稠密化和地图更新。
上图(图像1)展示了SplaTAM系统的完整工作流程。给定一个已有的高斯地图 G_t-1 和一个新的RGB-D图像帧 :
-
(1) 相机跟踪 (Camera Tracking): 首先,系统利用现有地图
G_t-1渲染出当前估计位姿下的图像,并与输入图像 进行比较,通过优化渲染误差来精确估计当前帧的相机位姿 。这一步只在地图的已知区域(由剪影蒙版Sil决定)进行。 -
(2) 高斯稠密化 (Gaussian Densification): 然后,系统分析当前帧中哪些区域是地图未覆盖或重建不准确的(由
Densify Mask标识),并在这些区域添加新的高斯点,生成一个临时的稠密化地图 。 -
(3) 地图更新 (Map Update): 最后,系统固定所有已估计的相机位姿,对整个高斯地图 (包括新添加的)进行一次全局优化,使其能更好地解释所有观测到的图像帧,从而得到更新后的地图。这个过程循环进行。
-
方法原理 (Methodology Principles):
- 核心思想: 将整个SLAM问题构建为一个基于可微分渲染的优化问题。相机位姿和三维地图(3D高斯集合)都是待优化的变量。通过最小化渲染图像与真实观测图像之间的差异(包括颜色和深度),来同时求解这两个变量。
- 简化的高斯表示: 为了提升SLAM场景下的效率,作者对原始的3DGS进行了简化。每个高斯被强制为各向同性 (isotropic),即一个完美的球体,而非椭球体。并且颜色是视角无关的。这样每个高斯仅由8个参数定义:3个用于颜色 c,3个用于中心位置 ,1个用于半径 r,1个用于不透明度 o。
-
方法步骤与流程 (Steps & Procedures):
- 初始化 (Initialization): 对于第一帧图像,假设相机位姿为单位矩阵。然后,利用深度图将每个像素反投影到三维空间,在这些三维点的位置创建初始的3D高斯。
- 相机跟踪 (Camera Tracking):
- 位姿预测: 使用恒定速度模型来初步预测当前帧 的相机位姿,即假设其运动与前一帧 到
(t-1)的运动相同。 - 优化: 固定地图中的所有高斯参数不变,只优化相机位姿。系统从预测的位姿开始,通过可微分渲染器生成彩色图、深度图和
剪影图。 - 带蒙版的损失函数: 损失函数只计算那些被
剪影图标记为“已建图且可信”的像素。这可以防止相机跟踪时被场景中的新物体或未建图区域干扰,极大提升了鲁棒性。
- 位姿预测: 使用恒定速度模型来初步预测当前帧 的相机位姿,即假设其运动与前一帧 到
- 高斯稠密化 (Gaussian Densification):
- 确定 densify_mask: 在获得当前帧的精确位姿后,系统需要判断在哪些地方添加新的高斯。满足以下任一条件的像素点将被加入
densify_mask: a. 该区域在当前地图中非常稀疏(渲染出的剪影值< 0.5)。 b. 观测到的真实深度比渲染出的深度更近,且误差较大。这通常意味着有新的物体挡在了原先已建图的表面前面。 - 添加高斯: 对于
densify_mask中的每个像素,都按照初始化的方式添加一个新的高斯。
- 确定 densify_mask: 在获得当前帧的精确位姿后,系统需要判断在哪些地方添加新的高斯。满足以下任一条件的像素点将被加入
- 地图更新 (Map Updating):
- 固定位姿,优化高斯: 这一步与跟踪相反,固定所有已知的相机位姿,转而优化地图中所有高斯的参数(位置、颜色、半径、不透明度)。
- 关键帧选择 (Keyframe Selection): 为了控制计算量,系统不会使用历史上的所有帧进行优化。而是选择一个小的子集,通常包括当前帧、最近的关键帧以及与当前帧视角重叠度最高的几个历史关键帧。
- 优化与剪枝: 在优化过程中,系统还会移除那些几乎透明(
opacity接近0)或过大的无效高斯,以保持地图的紧凑和高效。
-
数学公式与关键细节 (Mathematical Formulas & Key Details):
- 渲染公式:
- 渲染颜色:
- : 图像中的一个像素点。
- : 第 i 个高斯的颜色。
- : 第 i 个高斯投影到图像上后,对像素 的贡献值(透明度alpha值)。
- : 累积透射率,表示光线在到达第 i 个高斯之前穿过了多少前景物体。
- 解释: 这个公式模拟了光线穿过一系列半透明物体的过程(alpha-blending)。像素的最终颜色是所有高斯颜色根据其透明度和遮挡关系的加权和。
- 渲染深度:
- : 第 i 个高斯中心点在相机坐标系下的深度。
- 解释: 深度图的渲染方式与颜色图完全相同,只是把颜色 c 换成了深度 d。
- 渲染剪影:
- 解释: 剪影图的值是该像素上所有高斯贡献的累积不透明度,其值域为 [0, 1]。值接近1表示该像素被地图中的高斯完全覆盖,值接近0表示该像素是空旷区域。
- 渲染颜色:
- 相机跟踪损失函数:
-
: 这是一个指示函数,表示只在剪影值非常高(即地图非常确定)的像素上计算损失。
-
: 渲染深度与真实深度之间的L1损失(绝对值误差)。
-
: 渲染颜色与真实颜色之间的L1损失。
-
解释: 该损失函数的目标是最小化在可信区域内渲染结果与真实观测之间的颜色和深度差异,从而驱动相机位姿向正确的位置优化。
-
- 渲染公式:
5. 实验设置 (Experimental Setup)
-
数据集 (Datasets):
Replica: 一个高质量的合成数据集,包含逼真的室内场景。其深度图完整且精确,相机运动平滑,是验证算法理想性能的基准。TUM-RGBD: 一个经典的真实世界数据集,使用早期的Kinect相机采集。挑战在于图像质量较差,有大量运动模糊,且深度图稀疏、充满噪声。ScanNet(原始版): 另一个大规模的真实世界室内场景数据集,同样存在与TUM-RGBD类似的图像质量问题。- :
ScanNet的升级版,使用现代DSLR相机和激光雷达采集,图像和深度质量极高。其关键特点是相邻相机帧之间的位移非常大,对SLAM的跟踪能力构成了巨大挑战。此外,它还提供了独立的测试轨迹,可用于评估新视角合成性能。
-
评估指标 (Evaluation Metrics):
- 相机跟踪精度:
ATE RMSE(Absolute Trajectory Error, Root Mean Square Error)。该指标计算估计相机轨迹与真实轨迹之间的均方根误差。值越小,表示定位越准。 - 渲染质量 (RGB):
PSNR(Peak Signal-to-Noise Ratio): 峰值信噪比。衡量图像失真的常用指标,值越高,表示渲染图像与真实图像越接近。SSIM(Structural Similarity Index Measure): 结构相似性。衡量图像在亮度、对比度和结构上的相似性,比PSNR更符合人眼感知。值越接近1越好。LPIPS(Learned Perceptual Image Patch Similarity): 基于深度学习的图像感知相似度。衡量两张图片在人类看起来有多相似,值越低越好。
- 重建几何精度 (Depth):
Depth L1(cm): 渲染深度图与真实深度图之间的平均绝对误差,单位为厘米。值越小,表示三维重建的几何形状越准确。
- 相机跟踪精度:
-
对比基线 (Baselines):
-
神经隐式SLAM:
Point-SLAM(当时最新的SOTA),NICE-SLAM,Vox-Fusion。 -
传统稠密SLAM:
Kintinuous,ElasticFusion。 -
特征点法SLAM:
ORB-SLAM2,ORB-SLAM3(稀疏或半稠密方法)。 -
深度学习SLAM:
DROID-SLAM。
-
6. 实验结果与分析
上图(图像2)直观展示了SplaTAM的卓越性能。左侧显示了在数据集上的相机轨迹(绿色视锥体)与重建场景的俯视图,ATE RMSE仅为0.6cm,表明跟踪精度极高,而渲染速度达到400 FPS。右侧对比了训练视角和新视角下的渲染结果,可以看到SplaTAM的渲染质量(PSNR)和深度精度(Depth L1)都非常高,与真实情况(Ground Truth)极为接近。
-
核心结果分析 (Core Results Analysis):
- 相机位姿估计 (见论文Table 1):
- 在上,
SplaTAM取得了压倒性胜利 (ATE 1.2cm),而Point-SLAM(343.8cm) 和ORB-SLAM3(158.2cm) 完全失败。原因: 相机移动幅度巨大且场景中存在大量无纹理区域,依赖特征点的ORB-SLAM3容易跟丢,而Point-SLAM的稀疏像素采样策略不足以应对剧烈运动。SplaTAM的稠密光度损失则表现出强大的鲁棒性。 - 在理想的
Replica数据集上,SplaTAM(ATE 0.36cm) 比之前的SOTA (Point-SLAM0.52cm) 提升了超过30%,展示了其算法的优越性。 - 在充满挑战的**
TUM-RGBD上,尽管所有稠密方法都因数据质量差而表现不佳,SplaTAM(ATE 5.48cm) 仍然显著优于Point-SLAM(8.92cm),降幅近40%。
- 在上,
- 渲染质量 (见论文Table 2, 3):
-
公正的评估 (新视角):**
SplaTAM实现了高质量的新视角合成 (PSNR 24.41dB),几何重建也极其精确 (深度误差仅约2cm)。相比之下,Point-SLAM由于跟踪失败,无法建立正确的地图,因此渲染结果完全错误。 -
下图(图像3)生动地展示了这一对比:
SplaTAM(Ours) 的渲染结果无论在颜色还是深度上都与真实情况 (GT) 高度一致,而PS [30](Point-SLAM) 的结果则混乱不堪。
-
- 相机位姿估计 (见论文Table 1):
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
-
颜色与深度损失的作用 (见论文Table 4):
- 仅深度: 跟踪完全失败。因为深度损失在图像的x-y平面上提供的约束很弱。
- 仅颜色: 跟踪勉强成功,但误差是完整模型的5倍以上。
- 结论: 颜色和深度损失协同工作,缺一不可。颜色提供了丰富的梯度信息用于跟踪,而深度则保证了重建的几何准确性。
-
相机跟踪模块的关键性 (见论文Table 5):
- 速度传播模型: 如果没有这个简单的初始位姿预测,跟踪误差会增加10倍。
- 剪影蒙版: 至关重要! 如果没有它,在损失计算中引入了未建图区域的噪声,导致跟踪完全失败。
- 剪影阈值: 将跟踪时的阈值设为苛刻的0.99(而非稠密化时的0.5)能带来5倍的精度提升,因为它确保了只使用地图中最可靠的部分来定位。
-
运行时分析 (见论文Table 6):
SplaTAM的速度非常快。尽管它在每次迭代中处理的像素数量是Point-SLAM的上千倍,但总耗时却与之相当甚至更优。这完全得益于3D高斯泼溅的超高渲染效率。此外,SplaTAM-S(快速版)通过减少迭代次数,实现了5倍的速度提升,性能仅有轻微下降,证明了其在资源受限设备上的潜力。
-
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary):
SplaTAM是一项开创性的工作,它成功地将3D高斯泼溅这一前沿的神经渲染技术整合到SLAM框架中,创建了一个高精度、高保真、高效率的稠密RGB-D SLAM系统。它通过一个显式的体积表示,巧妙地结合了传统SLAM的直接性和神经渲染方法的真实感,同时克服了两者各自的局限性。实验结果雄辩地证明了SplaTAM在相机跟踪、场景重建和新视角合成任务上的全面领先地位,为SLAM领域设定了新的性能标杆。 -
局限性与未来工作 (Limitations & Future Work):
- 对输入数据质量敏感: 作者坦承,该方法对严重的运动模糊、大的深度噪声和剧烈的相机旋转较为敏感。
- 依赖项: 当前系统需要已知的相机内参和稠密的深度图作为输入。
- 未来方向:
- 通过时序建模来解决运动模糊等问题。
- 扩展到大规模场景(例如使用
OpenVDB等数据结构)。 - 移除对稠密深度图的依赖,甚至实现纯RGB的SLAM。
-
个人启发与批判 (Personal Insights & Critique):
- 范式转移的潜力:
SplaTAM的成功表明,选择正确的场景表示是SLAM系统设计的重中之重。它证明了显式体积表示(特别是3DGS)在实时高保真建图任务中的巨大潜力,可能会引领一波从隐式神经表示向更高效的显式表示回归的浪潮。 - “优雅而简单”的设计: 系统的许多设计都体现了这一点。例如,用
剪影蒙版来区分已知和未知区域,是一个非常直观且高效的解决方案,完美地解决了在线建图中的一个核心难题。 - 对机器人和AR/VR的价值:
SplaTAM输出的高质量、可实时渲染的地图,对于需要与环境进行真实感交互的应用(如AR游戏、机器人导航与操作)具有极高的价值。它不仅能“定位”,还能“理解和复现”环境的外观。 - 潜在的改进空间:
- 动态场景处理: 当前模型针对静态场景。将其扩展以实时捕捉和重建动态物体将是一个重要的下一步。
- 内存管理: 随着场景变大,高斯的数量会持续增长。需要更智能的内存管理和地图压缩策略来支持长时间、大范围的运行。
- 与IMU融合: 结合惯性测量单元 (IMU) 的数据,可以极大地增强系统对快速旋转和运动模糊的鲁棒性,弥补当前方法的短板。
- 范式转移的潜力:
相似论文推荐
基于向量语义检索推荐的相关论文。