LoopSplat: Loop Closure by Registering 3D Gaussian Splats
TL;DR 精炼摘要
`LoopSplat`系统解决了现有3DGS SLAM中缺乏全局一致性的问题,创新性地提出通过直接配准3D高斯斑点子地图来在线计算闭环约束。这种方法相比传统点云配准更高效且精确。该系统以RGB-D图像为输入,结合帧到模型跟踪及鲁棒的位姿图优化,实现子地图的刚性对齐以确保全局一致性。实验结果表明,`LoopSplat`在跟踪、建图和渲染质量方面均达到或超越了现有稠密RGB-D SLAM方法。
摘要
Simultaneous Localization and Mapping (SLAM) based on 3D Gaussian Splats (3DGS) has recently shown promise towards more accurate, dense 3D scene maps. However, existing 3DGS-based methods fail to address the global consistency of the scene via loop closure and/or global bundle adjustment. To this end, we propose LoopSplat, which takes RGB-D images as input and performs dense mapping with 3DGS submaps and frame-to-model tracking. LoopSplat triggers loop closure online and computes relative loop edge constraints between submaps directly via 3DGS registration, leading to improvements in efficiency and accuracy over traditional global-to-local point cloud registration. It uses a robust pose graph optimization formulation and rigidly aligns the submaps to achieve global consistency. Evaluation on the synthetic Replica and real-world TUM-RGBD, ScanNet, and ScanNet++ datasets demonstrates competitive or superior tracking, mapping, and rendering compared to existing methods for dense RGB-D SLAM. Code is available at loopsplat.github.io.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
-
标题 (Title): LoopSplat: Loop Closure by Registering 3D Gaussian Splats (LoopSplat:通过配准3D高斯斑点实现闭环检测)
-
作者 (Authors): Liyuan Zhu (斯坦福大学), Yue Li (阿姆斯特丹大学), Erik Sandström (苏黎世联邦理工学院), Shengyu Huang (苏黎世联邦理工学院), Konrad Schindler (苏黎世联邦理工学院), Iro Armeni (斯坦福大学)。
-
发表期刊/会议 (Journal/Conference): 论文中未明确提及,但从其引用和内容质量来看,该论文的目标是计算机视觉或机器人领域的顶级会议,如 CVPR, ECCV, ICCV 或 IROS, ICRA。
-
发表年份 (Publication Year): 2024年 (基于其最新的参考文献)。
-
摘要 (Abstract): 基于三维高斯斑点 (3DGS) 的同时定位与建图 (SLAM) 在构建精确、稠密的场景地图方面展现了巨大潜力。然而,现有方法未能通过闭环检测或全局光束法平差 (Global Bundle Adjustment) 解决场景的全局一致性问题。为此,本文提出了
LoopSplat,一个以 RGB-D 图像为输入的系统,它使用 3DGS 子地图进行稠密建图,并通过“帧到模型”的方式进行跟踪。LoopSplat能够在线触发闭环检测,并直接通过 3DGS 配准来计算子地图间的相对位姿约束。与传统的点云配准相比,这种方法在效率和精度上都有所提升。该系统利用鲁棒的位姿图优化框架,对子地图进行刚性对齐以实现全局一致性。在合成数据集 Replica 和真实世界数据集 TUM-RGBD、ScanNet 及 ScanNet++ 上的评估表明,LoopSplat在跟踪、建图和渲染方面均达到或超越了现有的稠密 RGB-D SLAM 方法。 -
原文链接 (Source Link):
/files/papers/68e0a7be89df04cda4fa281a/paper.pdf(此为提供的本地文件路径)。
2. 整体概括 (Executive Summary)
研究背景与动机 (Background & Motivation - Why)
-
核心问题: 近年来,使用 三维高斯斑点 (3D Gaussian Splatting, 3DGS) 作为场景表示的 SLAM 系统因其高渲染质量和实时性而备受关注。然而,这些系统存在一个致命缺陷:它们通常只关注局部精度,缺乏闭环检测 (Loop Closure) 机制。这导致在长时间、大范围的运行时,相机位姿的微小误差会不断累积,最终造成地图扭曲、变形,即缺乏全局一致性 (Global Consistency)。
-
现有研究的空白 (Gap):
- 无闭环的 3DGS SLAM 系统 (
Gaussian-SLAM,SplaTAM): 它们会产生漂移,无法修正累积误差。 - 需要昂贵重优化的系统 (
GO-SLAM,Photo-SLAM): 在检测到闭环后,它们需要重新训练或优化大部分地图参数,这非常耗时且消耗大量内存,可扩展性差。 - 依赖传统配准方法的系统 (
Loopy-SLAM): 这类系统虽然引入了闭环,但其方法不统一。例如,它们需要将自己的地图表示(如神经点云)转换为传统点云或网格,再使用如FPFH+ICP这类传统算法进行配准。这个过程不仅效率低下,而且未能充分利用其原生三维表示的优势。
- 无闭环的 3DGS SLAM 系统 (
-
本文的切入点: 作者提出了一个核心问题:“我们能否直接使用 3DGS 这种地图表示本身来进行闭环检测和约束计算?”
LoopSplat的核心思想是统一场景表示,将 3DGS 不仅用于跟踪和建图,还创新性地用于高效、精确的子地图配准,从而实现一个端到端的、全局一致的 3DGS SLAM 系统。
核心贡献/主要发现 (Main Contribution/Findings - What)
-
1. 提出了
LoopSplat系统: 这是首批将在线闭环检测和位姿图优化集成到基于 3DGS 的稠密 RGB-D SLAM 系统中的工作之一。该系统能够有效地修正累积误差,生成全局一致的精确地图。 -
2. 创新的 3DGS 配准方法: 论文提出了一种新颖、高效的 3DGS 子地图配准方法。该方法巧妙地将配准问题转化为一个关键帧重定位 (Keyframe Localization) 问题,通过最小化渲染损失来优化相对位姿,充分利用了 3DGS 快速可微分渲染的特性。这比传统的点云配准方法更快、更准。
-
3. 卓越的性能表现:
LoopSplat在多个公开数据集上进行了广泛评估,结果显示其在相机跟踪精度、三维重建质量和新视角渲染效果上均达到或超过了当前最先进的稠密 SLAM 方法,显著提升了 3DGS SLAM 的鲁棒性和准确性。
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
基础概念 (Foundational Concepts)
- SLAM (Simultaneous Localization and Mapping): 即时定位与地图构建。指机器人在未知环境中,一边估计自己的运动轨迹,一边构建环境地图的过程。这是实现机器人自主导航的核心技术。
- RGB-D 相机: 一种能同时提供彩色图像 (RGB) 和深度信息 (Depth) 的相机。深度信息记录了场景中每个点到相机的距离,是进行三维重建的关键。
- 3D 高斯斑点 (3D Gaussian Splatting, 3DGS): 一种新颖的场景表示方法。它将三维场景建模为大量三维高斯分布的集合。每个高斯体都具有位置(均值)、形状(协方差)、颜色和不透明度等属性。3DGS 的最大优点是能够实现照片级质量的实时渲染。
- 闭环检测 (Loop Closure): SLAM 系统中的一个关键环节。当机器人回到一个曾经访问过的地方时,系统能够识别出这个“闭环”,并利用这个信息来修正整个运动轨迹和地图中累积的误差,确保全局一致性。
- 位姿图优化 (Pose Graph Optimization, PGO): SLAM 后端优化的常用技术。它将相机的各个位姿作为图的节点,位姿间的相对运动(如里程计)或闭环约束作为边。通过优化整个图,找到一个能最好地满足所有约束的全局最优位姿解。
- 子地图 (Submap): 为了提高效率和可扩展性,SLAM 系统通常会将大地图分割成多个小的、局部一致的子地图进行管理。全局优化时,可以将子地图视为刚体进行调整。
前人工作 (Previous Works)
- 传统稠密 SLAM: 如
KinectFusion使用TSDF(截断符号距离函数) 表示,BundleFusion实现了全局一致性,但这些方法通常计算和内存开销大。 - 基于神经隐式表示的 SLAM: 如
NICE-SLAM,Point-SLAM等,使用神经网络来表示三维场景。这些方法重建质量高,但通常训练和推理速度较慢。Loopy-SLAM在此类方法中加入了闭环,但其配准方式效率不高。 - 基于 3DGS 的 SLAM: 如
SplaTAM,Gaussian-SLAM等,是最新的一类方法。它们利用 3DGS 实现了高质量的建图和渲染,但普遍缺乏闭环检测,导致存在漂移 (drift) 问题。
差异化分析 (Differentiation)
-
与无闭环的 3DGS SLAM 相比:
LoopSplat的最大优势是引入了闭环模块,解决了它们无法修正累积误差的根本问题。 -
与
Loopy-SLAM相比:Loopy-SLAM需要将神经点云转换为网格,再用传统点云配准算法 (FPFH+ICP) 计算闭环约束。LoopSplat则直接在原生的 3DGS 表示上进行配准,方法更统一、高效。消融实验证明,LoopSplat的配准方法比FPFH+ICP快8倍以上,且精度更高。 -
与需要重优化的 SLAM 系统 (
GO-SLAM等) 相比:LoopSplat采用子地图策略,在闭环后只需对子地图进行刚性变换,无需重新优化所有高斯参数或存储所有历史图像帧,因此可扩展性更好,内存占用更低。
4. 方法论 (Methodology - Core Technology & Implementation Details)
LoopSplat 的整体框架如下图所示,主要包含三个核心模块:子地图跟踪与建图、闭环检测,以及创新的 3DGS 配准。

方法原理与步骤 (Methodology Principles, Steps & Procedures)
4.1. 高斯斑点 SLAM (前端与建图)
这部分继承了 Gaussian-SLAM [95] 的思想,负责处理输入的 RGB-D 视频流,进行实时的相机跟踪和局部地图构建。
-
子地图管理: 系统将整个场景划分为多个子地图 (
Submap)。当相机移动到新区域(超过位移或旋转阈值)时,系统会初始化一个新的子地图。 -
帧到模型跟踪 (Frame-to-model Tracking): 对于新输入的每一帧图像,系统通过优化相机位姿 ,来最小化从当前子地图渲染出的图像与输入图像之间的差异。其损失函数为:
- 分别是从当前子地图 s 渲染出的彩色图和深度图。
- 是输入的真实彩色图和深度图。
- 和 是掩码,用于剔除外点和未建图区域的像素,增强跟踪的鲁棒性。
- 是平衡颜色和深度损失的权重。
-
子地图扩展与更新: 系统会选择一些关键帧来扩充和优化子地图。在场景中未被充分观察的区域,系统会根据输入深度图添加新的高斯斑点。随后,通过最小化渲染损失来优化当前子地图中所有高斯参数(位置、形状、颜色、不透明度),使其能更精确地重建所有关键帧的视图。
4.2. 高斯斑点的配准 (核心创新)
这是 LoopSplat 实现闭环的核心技术,用于计算两个可能重叠的子地图 和 之间的相对位姿变换 。
-
重叠区域估计 (Overlap Estimation): 传统的几何特征(如
FPFH)在稀疏的高斯中心点上效果不佳。因此,作者采用基于外观的方法。- 使用预训练的
NetVLAD模型为每个子地图中的所有关键帧提取全局外观描述子。 - 通过计算描述子之间的余弦相似度,找到两个子地图间视觉上最相似的
top-k对关键帧。这些关键帧对很可能观察到了重叠的场景区域。
- 使用预训练的
-
配准即重定位 (Registration as Keyframe Localization): 这是该方法最巧妙的地方。作者没有直接匹配三维点,而是将子地图配准问题重新定义为:将一个子地图的关键帧,在另一个子地图中进行相机位姿估计。
- 对于从子地图 中选出的一对关键帧视图 (包含图像和位姿),系统以子地图 为目标地图,优化一个新的相机位姿 ,使得从 的位姿 渲染出的图像与 的真实图像最匹配。
- 优化完成后,两个子地图间的相对变换就可以通过位姿关系计算出来:。
-
多视角位姿优化 (Multi-view Pose Refinement):
- 系统会并行地为 k 个关键帧对计算
2k个相对变换估计(k 个从 ,k 个从 )。 - 每个估计都伴随着一个最终的渲染残差 ,残差越小,说明这个估计越可靠。
- 最终,系统使用加权旋转平均 (weighted rotation averaging) 来融合这
2k个估计,其中权重为残差的倒数 。这样,更可靠的估计在最终结果中占有更大的比重,从而得到一个鲁棒的全局变换 。 - 是最终的平均旋转矩阵, 是第 i 个估计的旋转。平移部分则通过加权平均得到。
- 系统会并行地为 k 个关键帧对计算
4.3. 基于 3DGS 的闭环 (系统集成)
-
闭环检测 (Loop Closure Detection):
- 候选检测: 系统使用
NetVLAD快速找到当前子地图与历史子地图之间在外观上相似的候选闭环。 - 几何验证: 为了剔除纯外观相似但实际不重叠的“假闭环”,系统会进一步计算候选子地图对之间的几何重叠率。只有重叠率超过一定阈值(如 0.2)的候选才被确认为一个有效的闭环。
- 候选检测: 系统使用
-
位姿图优化 (PGO):
- 当检测到新的闭环时,系统构建或更新一个全局的位姿图。
- 图的节点是每个子地图的位姿修正量 。
- 图的边包括:
- 里程计边 (Odometry Edges): 连接连续的子地图,代表前端跟踪的相对运动。
- 闭环边 (Loop Edges): 连接存在闭环的子地图,其约束值 正是通过上述 3DGS 配准方法计算得到的。
- 系统求解该位姿图,得到所有子地图的最优位姿修正量。
-
全局地图调整:
- PGO 计算出的修正量 会被应用到对应的每个子地图上。
- 子地图内的所有元素,包括相机位姿、高斯中心点 和协方差矩阵 ,都会进行相应的刚性变换,从而实现全局地图的一致性校正。
5. 实验设置 (Experimental Setup)
-
数据集 (Datasets):
- Replica: 一个高质量的合成室内场景数据集,提供完美的地面真值。
- TUM-RGBD: 经典的真实世界 RGB-D SLAM 基准数据集,使用动捕系统提供高精度位姿真值。
- ScanNet: 大规模的真实世界室内场景数据集,场景复杂且包含大量闭环。
- ScanNet++: ScanNet 的一个更高质量版本,使用数码单反相机拍摄,数据质量更高。
-
评估指标 (Evaluation Metrics):
- 跟踪精度 (Tracking): 绝对轨迹误差 (Absolute Trajectory Error, ATE) 的均方根误差 (RMSE),单位为厘米 (cm)。该指标衡量估计轨迹与真实轨迹之间的整体偏差。值越小越好。
- 重建质量 (Reconstruction):
- 深度 L1 损失 (Depth L1 Loss): 在新视角下渲染的深度图与真实深度图的平均绝对误差。值越小越好。
- F1 分数 (F1-Score): 衡量重建网格与真实网格之间重合度的指标,是精确率 (Precision) 和召回率 (Recall) 的调和平均数。值越大越好。
- 渲染质量 (Rendering):
- PSNR (Peak Signal-to-Noise Ratio): 峰值信噪比,衡量渲染图像与真实图像的保真度。值越大越好。
- SSIM (Structural Similarity Index): 结构相似性指数,从亮度、对比度和结构三方面衡量图像相似度。值越大越好(范围0-1)。
- LPIPS (Learned Perceptual Image Patch Similarity): 基于深度学习的感知损失,更符合人类视觉感知。值越小越好。
-
对比基线 (Baselines):
-
基于神经隐式表示的方法:
NICE-SLAM,Point-SLAM,GO-SLAM,Loopy-SLAM等。 -
基于 3DGS 的方法:
SplaTAM,MonoGS,Gaussian-SLAM,Photo-SLAM。 -
还包括一些经典的 SLAM 系统,如
ORB-SLAM2。
-
6. 实验结果与分析 (Results & Analysis)
核心结果分析 (Core Results Analysis)
-
跟踪精度 (Tracking Accuracy):
-
在所有四个数据集上,
LoopSplat的跟踪精度均名列前茅。在 Replica, TUM-RGBD 和 ScanNet++ 数据集上,它取得了第一名的成绩(见原文 Tables 1, 2, 4)。 -
这充分证明了其闭环模块的有效性。在长序列、大场景中,其他没有闭环的 3DGS 方法 (
SplaTAM,Gaussian-SLAM) 误差会显著累积,而LoopSplat能够通过闭环校正来抑制漂移,保持高精度。 -
下图展示了
LoopSplat与Gaussian-SLAM在子地图对齐上的定性对比,LoopSplat的对齐效果明显更优,更接近地面真值。
-
-
重建与渲染质量 (Reconstruction & Rendering Quality):
-
更精确的相机位姿带来了更高质量的三维重建。在 Replica 数据集的重建 F1-score 评估中,
LoopSplat优于所有其他 3DGS 基线,仅次于Loopy-SLAM(但后者在渲染时利用了真值深度,有一定优势)。 -
在渲染质量上,
LoopSplat在 PSNR, SSIM, LPIPS 等指标上也表现出色,证明其生成的 3DGS 地图不仅几何结构准确,而且外观保真度高。 -
下图的定性比较直观地展示了
LoopSplat在重建细节和渲染效果上的优势,其结果比其他方法更完整、更清晰,更接近真实场景。

-
-
运行效率与内存 (Runtime & Memory):
- 最关键的发现是
LoopSplat的 3DGS 配准模块非常高效。平均每个闭环边的计算时间仅为 1.36秒,而Loopy-SLAM使用的传统方法需要 12.0秒,速度提升了近 9倍。 - 此外,
LoopSplat的峰值 GPU 显存占用(7.0 GiB)在所有对比方法中是最低的,显示了其良好的可扩展性和在资源受限平台上的应用潜力。
- 最关键的发现是
消融实验/参数分析 (Ablation Studies / Parameter Analysis)
作者通过详尽的消融实验(见原文 Table 8)验证了其方法设计的合理性:
-
3DGS 配准 vs. 传统点云配准: 这是最重要的对比。当把
LoopSplat中的 3DGS 配准模块替换为在 高斯中心点上运行的FPFH+ICP时,跟踪误差(ATE)从 0.26 cm 恶化到 0.40 cm。这有力地证明了:- 简单地将高斯中心点视为普通点云进行处理是次优的。
LoopSplat提出的基于渲染优化的配准方法,能够更好地利用 3DGS 丰富的表示信息(包括几何和外观),从而获得更高的精度。
-
配准模块各组件的有效性:
-
多视角优化 (Mul. Opt.) 和 旋转平均 (Rot. Ave.) 能够有效融合多个视角的信息,显著提升了配准精度。
-
重叠区域估计 (Ove. Est.) 即关键帧筛选,能够剔除无效的计算,极大地提升了效率(没有它,配准耗时从 1.36秒 飙升至 11.02秒),同时还能避免错误匹配,对精度也有正面影响。
-
7. 总结与思考 (Conclusion & Personal Thoughts)
结论总结 (Conclusion Summary)
LoopSplat 是一款新颖的、全局一致的稠密 RGB-D SLAM 系统。它首次将 3DGS 统一用于跟踪、建图和闭环检测三大核心任务。其关键创新在于提出了一种直接在 3DGS 表示上进行高效配准的方法,该方法将配准问题转化为渲染优化问题,速度和精度均优于传统方法。实验结果表明,LoopSplat 显著改善了 3DGS SLAM 的全局一致性问题,在多个基准测试中取得了顶尖的性能,为构建大规模、高保真的三维环境地图提供了一个强大而高效的解决方案。
局限性与未来工作 (Limitations & Future Work)
-
局限性:
- 可扩展性问题: 当子地图数量非常多(例如超过100个)时,两两配准的计算开销会变得很大。
- 效率瓶颈: 整个系统依赖迭代优化,整体运行速度仍有提升空间。
- 初始化依赖: 位姿初始化依赖简单的匀速运动假设,在剧烈运动时可能失效。
- 超参数调整: 系统中的一些关键超参数需要针对不同数据集进行调整,泛化能力有待提高。
-
未来工作:
- 高质量网格提取: 采用更先进的直接从 3DGS 提取网格的方法(如
SuGAR),以提升重建质量。 - 不确定性建模: 在配准过程中引入位姿的不确定性估计,以提高鲁棒性。
- 子地图间融合: 探索在子地图重叠区域进行更精细的 3DGS 融合和优化。
- 高质量网格提取: 采用更先进的直接从 3DGS 提取网格的方法(如
个人启发与批判 (Personal Insights & Critique)
-
启发:
- “表示即一切”的统一思想:
LoopSplat最成功的地方在于其设计哲学——最大化地利用原生场景表示(3DGS)的优势,避免了不同模块间表示转换的开销和信息损失。将配准巧妙地转化为“重定位”问题,是一个非常优雅且高效的思路,值得在其他三维表示的研究中借鉴。 - 3DGS 的新应用范式: 该工作证明了 3DGS 不仅是一个强大的“渲染”工具,同样可以在“几何理解”(如配准)任务中发挥巨大作用。它提醒我们,不应将高斯斑点简单地退化为点云来处理,而应充分挖掘其可微分渲染等独特属性。
- 实用价值:
LoopSplat真正意义上解决了现有 3DGS SLAM 的一个核心痛点,使其向着能够处理大规模真实环境的实用化系统迈出了坚实的一步。
- “表示即一切”的统一思想:
-
批判性思考:
- 闭环检测的效率: 尽管配准速度很快,但闭环的“检测”环节仍然依赖于遍历历史子地图。对于超大规模场景(如城市级别),这种策略会成为瓶颈。未来可能需要结合更高效的场景检索技术(如基于词袋模型的改进版)来快速定位候选闭环。
- 动态场景处理: 和目前大多数 SLAM 系统一样,
LoopSplat假设场景是静态的。在存在动态物体的环境中,其性能会受到严重影响。如何将动态物体检测与分割融入 3DGS SLAM 框架是一个重要的开放问题。 - 内存增长: 虽然内存效率较高,但随着场景增大,3DGS 地图的体积仍会线性增长。如何对 3DGS 地图进行有效的压缩或抽象,以支持长期、终身学习的 SLAM,是另一个值得探索的方向。
相似论文推荐
基于向量语义检索推荐的相关论文。