AiPaper
论文状态:已完成

ReSplat: Learning Recurrent Gaussian Splats

发表:2025/10/10
原文链接PDF 下载
价格:0.10
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

ReSplat创新性地提出了一个前馈循环高斯溅射模型,旨在克服传统前馈模型单次推理的性能瓶颈。其核心方法是利用高斯溅射的渲染误差作为反馈信号,指导循环网络无需显式梯度计算即可迭代优化3D高斯表示。模型通过一个在16倍下采样空间运行的紧凑初始化器,将高斯数量大幅减少16倍,显著降低了计算开销。实验表明,ReSplat在大幅提升渲染速度、减少高斯数量的同时,在多个数据集和条件下取得了最先进的3D重建与渲染性能。

摘要

While feed-forward Gaussian splatting models provide computational efficiency and effectively handle sparse input settings, their performance is fundamentally limited by the reliance on a single forward pass during inference. We propose ReSplat, a feed-forward recurrent Gaussian splatting model that iteratively refines 3D Gaussians without explicitly computing gradients. Our key insight is that the Gaussian splatting rendering error serves as a rich feedback signal, guiding the recurrent network to learn effective Gaussian updates. This feedback signal naturally adapts to unseen data distributions at test time, enabling robust generalization. To initialize the recurrent process, we introduce a compact reconstruction model that operates in a 16×16 \times subsampled space, producing 16×16 \times fewer Gaussians than previous per-pixel Gaussian models. This substantially reduces computational overhead and allows for efficient Gaussian updates. Extensive experiments across varying of input views (2, 8, 16), resolutions (256×256256 \times 256 to 540×960540 \times 960), and datasets (DL3DV and RealEstate10K) demonstrate that our method achieves state-of-the-art performance while significantly reducing the number of Gaussians and improving the rendering speed. Our project page is at https://haofeixu.github.io/resplat/.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): ReSplat: Learning Recurrent Gaussian Splats (ReSplat: 学习循环高斯溅射)
  • 作者 (Authors): Haofei Xu, Daniel Barath, Andreas Geiger, Marc Pollefeys。作者分别来自苏黎世联邦理工学院 (ETH Zurich)、图宾根大学 (University of Tübingen) 的图宾根人工智能中心 (Tübingen AI Center) 以及微软 (Microsoft)。这些机构和学者在计算机视觉和3D重建领域享有盛誉。
  • 发表期刊/会议 (Journal/Conference): 本文目前为预印本 (Preprint) 形式,发布于 arXiv。通常,这类高质量的工作会投递至计算机视觉领域的顶级会议,如 CVPR, ICCV, ECCV 或 NeurIPS。
  • 发表年份 (Publication Year): 2025 (根据 arXiv 提交版本号中的年份推断)。
  • 摘要 (Abstract): 传统的前馈高斯溅射模型 (feed-forward Gaussian splatting models) 虽然计算效率高且能处理稀疏输入,但其性能受限于推理时仅有一次前向传播。本文提出了 ReSplat,一个前馈循环高斯溅射模型 (feed-forward recurrent Gaussian splatting model),它能迭代地优化 (iteratively refines) 3D高斯,而无需显式计算梯度。核心思想是利用高斯溅射的渲染误差 (Gaussian splatting rendering error) 作为一种丰富的反馈信号,指导循环网络学习有效的高斯更新策略。这种反馈机制能在测试时自适应于未见过的数据分布,从而实现强大的泛化能力。为了初始化这个循环过程,作者引入了一个紧凑的重建模型,该模型在 16倍下采样的空间 (16x subsampled space) 中运行,生成的高斯数量比以往的逐像素高斯模型 (per-pixel Gaussian models) 少16倍。这极大地降低了计算开销,并使得高效的高斯更新成为可能。在多种输入视图数量(2、8、16)、分辨率(256x256 到 540x960)和数据集(DL3DV 和 RealEstate10K)上的大量实验表明,该方法在显著减少高斯数量和提升渲染速度的同时,取得了当前最优的性能。
  • 原文链接 (Source Link):

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 当前从少量图像重建三维场景的方法主要分为两类,各有弊端。第一类是基于优化的方法,如经典的 3DGS,它为每个新场景从头进行数千次迭代优化,效果好但速度极慢(通常需要几分钟到几十分钟),不适用于实时或大规模应用。第二类是前馈(或称“学习到的”)方法,如 MVSplat,它通过深度学习网络一次性从输入图像直接预测出3D高斯,速度快,但性能受限于网络的单次推理能力,尤其是在面对复杂或与训练数据分布差异较大的场景时,泛化能力和重建质量往往不足。
    • 重要性与挑战: 实现从稀疏视图(例如仅几张照片)快速、高质量地重建三维场景是计算机视觉和图形学领域的关键目标。现有方法在效率、质量和泛化能力这三个维度上难以兼得,存在明显的空白(Gap)。
    • 创新思路: 本文的切入点是融合两类方法的优点——既要前馈模型的高效率,又要优化方法的迭代精调能力。作者提出,能否设计一个前馈网络,让它“学会”如何像优化算法一样,一步步地迭代改进自己的输出?其核心洞见是:在测试时,输入图像本身就是“答案”,因此可以通过比较当前预测的3D高斯渲染出的图像与真实输入图像之间的渲染误差,来为下一步的改进提供指导。这个过程是无梯度的 (gradient-free),完全由网络学习,从而实现了快速的、自适应的迭代优化。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 提出了 ReSplat 模型: 这是一个创新的前馈循环网络,它可以在推理阶段对3D高斯进行多次迭代优化,而无需计算梯度。这巧妙地结合了前馈模型的速度和优化方法的迭代改进特性。
    • 利用渲染误差作为反馈信号: 首次证明了高斯溅射的渲染误差可以作为一个强大而丰富的反馈信号,指导网络在测试时自适应地调整高斯参数,从而显著提升了模型对未见数据集和场景的泛化能力
    • 提出紧凑的初始重建模型: 为了使循环更新过程在计算上可行,作者设计了一个在 16倍下采样空间 中生成初始高斯的模型。这使得高斯数量减少了16倍,极大地降低了内存和计算成本,为后续高效的迭代优化奠定了基础。
    • 实现了SOTA性能与高效率的统一: 实验结果表明,ReSplat 在多个基准测试中均取得了当前最优(SOTA)的性能,同时比基于优化的方法快100倍,比之前的逐像素前馈模型使用的高斯数量少16倍,渲染速度快4倍。

3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 3D高斯溅射 (3D Gaussian Splatting, 3DGS): 这是一种新颖的、用于实时渲染三维场景的技术。它不像传统网格(meshes)或体素(voxels)那样用离散的几何单元表示场景,而是使用大量微小的、半透明的三维高斯函数 (3D Gaussians) 来表达。每个3D高斯基元都由一组参数定义:
      • 位置 (Position, μ\mu): 高斯在三维空间中的中心点。
      • 协方差 (Covariance, Σ\Sigma): 描述了高斯的形状和方向,可以理解为一个三维椭球。它通常由一个缩放因子 (scale) 和一个旋转四元数 (rotation quaternion) 表示。
      • 不透明度 (Opacity, α\alpha): 控制高斯的透明程度。
      • 球谐函数 (Spherical Harmonics, SH): 用于表示高斯在不同视角下呈现出的颜色,能够捕捉视图相关的光照效果。
      • 通过一个高效的、可微分的光栅化渲染器 (rasterizer),可以将成千上万个这样的3D高斯“溅射”到二维图像平面上,从而合成新视角的图像。
    • 前馈模型 (Feed-Forward Models) vs. 基于优化的模型 (Optimization-Based Models):
      • 基于优化的模型(如原始 3DGS)是逐场景 (per-scene) 的。对于每个新场景,它都从随机或启发式初始化的点云开始,通过成千上万次梯度下降迭代来优化高斯参数,以最小化渲染图像与真实图像的差异。优点是精度高,缺点是极其耗时。
      • 前馈模型(如 MVSplat, DepthSplat)是泛化 (generalizable) 的。它通过在大量场景上训练一个深度神经网络,使其学会从输入图像直接“猜出”3D高斯的参数。推理时只需一次网络前向传播,速度极快。缺点是精度和泛化能力可能受限于网络容量。
    • 学习去优化 (Learning to Optimize): 这是一个研究领域,旨在用神经网络来模仿或替代传统的迭代优化算法(如梯度下降)。网络被训练成在每一步预测一个更新量,以逐步逼近最优解。ReSplat 正是这一思想在3D高斯重建领域的成功应用。
  • 前人工作 (Previous Works):

    • 3DGS (Kerbl et al., 2023): 奠基性工作,提出了基于优化的3D高斯溅射方法,实现了高质量的实时渲染,但需要漫长的逐场景优化。
    • 逐像素前馈模型 (e.g., MVSplat, DepthSplat): 这些工作将 3DGS 推广到前馈设置,通过预测每个像素的深度信息来生成3D点,并为每个点预测高斯参数。它们速度快,但生成的高斯数量巨大(与像素数和视图数成正比),导致计算和存储开销大,且单次预测限制了其性能上限。
    • 基于梯度的学习优化方法 (e.g., G3R): G3R 也尝试迭代地优化高斯,但它依赖于显式计算的梯度来指导网络。这使得其流程更复杂,且对初始化的3D点云质量要求高。ReSplat 的方法是无梯度的,更加简洁高效。
    • 单步优化模型 (e.g., SplatFormer): SplatFormer 提出了一个单步的优化网络,但它主要用于优化已经经过传统 3DGS 优化的参数,且主要在以物体为中心的数据集上进行评估,难以直接应用于复杂的场景级重建。
  • 技术演进 (Technological Evolution): 该领域的技术演进路线清晰可见:

    1. 逐场景优化时代:NeRF3DGS 为代表,追求极致的单场景重建质量,牺牲了速度。
    2. 单次前馈预测时代:MVSplat 等为代表,追求极快的重建速度,但牺牲了一定的质量和泛化能力,并带来了高斯数量冗余的问题。
    3. 迭代前馈优化时代(本文所处): ReSplat 试图在二者之间找到一个最佳平衡点。它通过学习到的循环更新机制,实现了接近优化方法的质量和自适应性,同时保持了前馈模型的高效率。
  • 差异化分析 (Differentiation): 与相关工作相比,ReSplat 的核心创新点在于:

    1. 循环 vs. 单步:MVSplat, DepthSplat 等单步前馈模型不同,ReSplat 是一个多步循环模型,能在推理时迭代改进结果。
    2. 无梯度 vs. 有梯度:G3R 等依赖显式梯度进行优化的模型不同,ReSplat 完全通过网络学习更新策略,无需计算梯度,流程更简单。
    3. 紧凑 vs. 冗余: 与逐像素生成高斯的模型不同,ReSplat 在一个下采样空间中进行初始重建,生成的高斯数量大大减少,为高效的循环更新创造了条件。
    4. 反馈信号: ReSplat 明确提出并验证了渲染误差是指导高斯更新的有效反馈信号,这是实现测试时自适应的关键。

4. 方法论 (Methodology - Core Technology & Implementation Details)

ReSplat 的方法分为两个核心阶段:1. 初始高斯重建 (Initial Gaussian Reconstruction)2. 循环高斯更新 (Recurrent Gaussian Update)

Figure 2: Learning to recurrently update 3D Gaussians. Given \(N\) posed input images, we first predict per-view depth maps at \(1 / 4\) resolution and then unproject and transform them to a point cloud… 该图像是论文中的示意图,展示了ReSplat方法中3D高斯的初始重建及其递归更新流程。输入多视角图像先经深度预测,转换为点云及特征,经kNN和全局注意力机制回归初始高斯,然后通过循环步骤计算渲染误差,用全局注意力传播误差,并结合当前高斯参数和隐藏状态经kNN注意力模块预测高斯和隐藏状态的增量更新,迭代优化三维高斯。公式为高斯递归更新:gjt+1=gjt+Δgjt,zjt+1=zjt+Δzjt.g_j^{t+1} = g_j^{t} + \Delta g_j^{t}, \quad z_j^{t+1} = z_j^{t} + \Delta z_j^{t}.

上图(图像1)清晰地展示了 ReSplat 的整体流程。左半部分是初始重建,右半部分是循环更新。

4.1 初始高斯重建 (Initial Gaussian Reconstruction)

这一阶段的目标是快速生成一个紧凑但质量合理的初始3D高斯集合,为后续的迭代优化打下基础。

  • 方法原理与步骤:
    1. 下采样深度预测 (Subsampled Depth Prediction): 输入 NN 张带有相机内外参的图像 {Ii,Ki,Ri,ti}i=1N\{I_i, K_i, R_i, t_i\}_{i=1}^N。模型首先使用一个深度预测网络(基于 DepthSplat 架构)来预测每张输入图像的深度图。关键在于,深度图是在 1/4 分辨率 下预测的,即图像的宽和高都缩小为原来的1/4。
    2. 生成稀疏点云 (Generate Sparse Point Cloud): 将这些低分辨率的深度图反投影 (unproject) 到三维空间,形成一个点云。由于深度图分辨率降低了,点云中的点的数量也相应减少。对于 NNH×WH \times W 的图像,生成的点云数量为 M=N×H4×W4=N×HW16M = N \times \frac{H}{4} \times \frac{W}{4} = N \times \frac{HW}{16}。这实现了16倍的空间压缩。同时,从图像特征提取网络中为每个点关联一个特征向量 fjf_j
    3. 3D上下文聚合 (3D Context Aggregation): 直接从这些稀疏的点云特征 fjf_j 预测高斯会导致性能下降。为了弥补稀疏性带来的信息损失,模型引入了注意力机制来让3D点之间进行信息交互。具体地,它交替使用六个 kNN Attention(关注局部邻域信息)和 Global Attention(关注全局场景结构)模块来处理点云和其特征,从而得到聚合了丰富3D上下文信息的新特征 fjf_j^*
    4. 解码为初始高斯 (Decoding to Initial Gaussians): 最后,使用一个解码器(通常是简单的多层感知机 MLP)将聚合后的特征 fjf_j^* 解码为初始高斯参数。点云的位置 pjp_j 直接作为高斯中心 μj\mu_j。特征 fjf_j^* 则用于预测不透明度 αj\alpha_j、协方差 Σj\Sigma_j 和球谐函数系数 shj\mathbf{sh}_j
    • 初始的高斯参数集合被记为 gj0g_j^0
    • 同时,特征 fjf_j^* 也被用作循环过程的初始隐藏状态 (initial hidden state) zj0z_j^0。这个隐藏状态会携带和传递迭代过程中的信息。

4.2 循环高斯更新 (Recurrent Gaussian Update)

这是 ReSplat 的核心创新。它通过一个共享权重的循环网络,在测试时迭代地改进初始高斯。

  • 方法原理与步骤: 在每次迭代 tt (从 t=0t=0 开始),网络的目标是预测一个更新量 Δgjt\Delta g_j^tΔzjt\Delta z_j^t,然后更新高斯参数和隐藏状态: gjt+1=gjt+Δgjt,zjt+1=zjt+Δzjt \mathbf{g}_j^{t+1} = \mathbf{g}_j^t + \Delta \mathbf{g}_j^t, \quad \mathbf{z}_j^{t+1} = \mathbf{z}_j^t + \Delta \mathbf{z}_j^t

    预测这些更新量的过程如下:

    1. 计算渲染误差 (Computing the Rendering Error):

      • 使用当前迭代步的高斯参数 Gt={gjt}j=1M\mathcal{G}^t = \{g_j^t\}_{j=1}^M 渲染出 NN 张输入视角对应的图像 {I^it}i=1N\{\hat{I}_i^t\}_{i=1}^N
      • 将渲染图像 {I^it}\{\hat{I}_i^t\} 和真实的输入图像 {Ii}\{I_i\} 同时送入一个预训练的 ResNet-18 网络,提取它们在第1、2、3阶段的多尺度特征图。
      • 将这些特征图双线性插值到统一的 1/4 分辨率,得到渲染特征 {F^it}\{\hat{F}_i^t\} 和真实特征 {Fi}\{F_i\}
      • 通过做差 {F^itFi}\{\hat{F}_i^t - F_i\} 计算出特征空间中的渲染误差 E^t\hat{\mathcal{E}}^t。作者发现,在特征空间计算误差比在原始RGB空间效果更好。
    2. 将误差传播给高斯 (Propagating the Rendering Error to Gaussians):

      • 此时的渲染误差 E^t\hat{\mathcal{E}}^t 是一个在二维图像空间(N×H4×W4N \times \frac{H}{4} \times \frac{W}{4})的特征图集合。为了让每个三维高斯都能感知到全局的渲染情况(而不仅仅是其投影位置的误差),作者对所有误差特征应用了一个全局注意力 (global attention) 机制。
      • 经过全局注意力处理后,每个三维高斯 jj 都会得到一个聚合了全局误差信息的误差特征 ejte_j^t
    3. 预测更新量 (Predicting the Updates):

      • 将当前高斯参数 gjtg_j^t、当前隐藏状态 zjtz_j^t 和聚合后的误差特征 ejte_j^t 拼接 (concatenate) 在一起,形成一个丰富的输入向量。
      • 将这个向量送入一个更新模块 (Update Module),该模块由四个 kNN attention 块构成,用于建模局部的3D结构关系。
      • 更新模块的输出即为预测的增量 Δgjt\Delta g_j^tΔzjt\Delta z_j^t
      • 这个过程会重复进行 TT 次(实验中发现 T=3T=3 次基本收敛)。

4.3 训练损失 (Training Loss)

训练分为两个阶段:

  • 第一阶段(训练初始重建模型): L1st=v=1Vrender(I^v,Iv)+αi=1Ndepth_smooth(Ii,D^i) \mathcal{L}_{\mathrm{1st}} = \sum_{v=1}^{V} \ell_{\mathrm{render}}(\hat{I}_v, I_v) + \alpha \cdot \sum_{i=1}^{N} \ell_{\mathrm{depth\_smooth}}(I_i, \hat{D}_i)

    • 渲染损失 (render\ell_{\mathrm{render}}): 监督渲染出的目标视角图像与真实图像的差异。它由 L1 损失和 VGG 感知损失 (perceptual loss) 组成。
    • 深度平滑损失 (depth_smooth\ell_{\mathrm{depth\_smooth}}): 一个正则化项,鼓励预测的深度图在图像边缘不平滑的区域也保持不平滑,在平滑区域保持平滑,这有助于生成更合理的几何结构。
  • 第二阶段(训练循环更新模型): 在这一阶段,初始重建模型被冻结,只训练循环更新网络。 L2nd=t=0T1γT1tv=1Vrender(I^vt,Iv) L_{\mathrm{2nd}} = \sum_{t=0}^{T-1} \gamma^{T-1-t} \sum_{v=1}^{V} \ell_{\mathrm{render}}(\hat{I}_v^t, I_v)

    • 损失函数是所有迭代步的渲染损失的加权和。权重 γT1t\gamma^{T-1-t} (其中 γ=0.9\gamma=0.9) 呈指数增长,意味着越靠后的迭代步,其监督信号越强,这鼓励模型在后期做出更精细的修正。

5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):

    • DL3DV-10K: 一个大规模、多样化的室内外场景数据集,专为基于深度学习的3D视觉任务设计。场景复杂,挑战性大。
    • RealEstate10K: 一个广泛使用的、包含大量房地产视频片段的数据集,常用于双视图或多视图的视图合成任务。
  • 评估指标 (Evaluation Metrics):

    • 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR):
      1. 概念定义: PSNR 是衡量图像质量的常用指标,通过计算原始图像与失真(如渲染或压缩)图像之间像素值的均方误差 (MSE) 得出。PSNR 值越高,表示渲染图像与真实图像越接近。它是一个对数指标,单位是分贝 (dB)。
      2. 数学公式: PSNR=10log10(MAXI2MSE) \mathrm{PSNR} = 10 \cdot \log_{10}\left(\frac{\mathrm{MAX}_I^2}{\mathrm{MSE}}\right) 其中,均方误差 (MSE) 定义为: MSE=1H×Wi=1Hj=1W[I(i,j)I^(i,j)]2 \mathrm{MSE} = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} [I(i,j) - \hat{I}(i,j)]^2
      3. 符号解释:
        • MAXI\mathrm{MAX}_I: 图像像素值的最大可能值(例如,对于8位灰度图像,它是255)。
        • I(i,j)I(i,j): 真实图像在像素点 (i,j)(i,j) 处的值。
        • I^(i,j)\hat{I}(i,j): 渲染图像在像素点 (i,j)(i,j) 处的值。
        • H, W: 图像的高度和宽度。
    • 结构相似性指数 (Structural Similarity Index Measure, SSIM):
      1. 概念定义: SSIM 是一种衡量两幅图像结构相似性的指标。与 PSNR 只关注像素误差不同,SSIM 更符合人类视觉感知,它综合考虑了亮度、对比度和结构三个方面。其取值范围在 -1 到 1 之间,值越接近 1,表示两幅图像越相似。
      2. 数学公式: SSIM(x,y)=(2μxμy+c1)(2σxy+c2)(μx2+μy2+c1)(σx2+σy2+c2) \mathrm{SSIM}(x, y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)}
      3. 符号解释:
        • x, y: 分别代表真实图像和渲染图像的窗口。
        • μx,μy\mu_x, \mu_y: 图像窗口 xxyy 的平均值。
        • σx2,σy2\sigma_x^2, \sigma_y^2: 图像窗口 xxyy 的方差。
        • σxy\sigma_{xy}: 图像窗口 xxyy 的协方差。
        • c1,c2c_1, c_2: 用于维持稳定性的两个常数。
    • 学习到的感知图像块相似度 (Learned Perceptual Image Patch Similarity, LPIPS):
      1. 概念定义: LPIPS 是一种更先进的图像质量评估指标,它通过计算两张图像在深度神经网络(如 VGG, AlexNet)的特征空间中的距离来衡量它们的感知相似度。LPIPS 分数越低,表示两张图像在人类看来长得越像。它被认为比 PSNR 和 SSIM 更能捕捉人类对图像质量的感知。
      2. 数学公式: d(x,x0)=l1HlWlh,wwl(y^hwly^0hwl)22 d(x, x_0) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \| w_l \odot (\hat{y}_{hw}^l - \hat{y}_{0hw}^l) \|_2^2
      3. 符号解释:
        • d(x,x0)d(x, x_0): 图像 xxx0x_0 之间的 LPIPS 距离。
        • ll: 神经网络的第 ll 个卷积层。
        • y^l,y^0l\hat{y}^l, \hat{y}_0^l: 分别是从图像 xxx0x_0 在第 ll 层提取的特征图。
        • Hl,WlH_l, W_l: 第 ll 层特征图的高度和宽度。
        • wlw_l: 用于缩放不同通道激活值的权重向量。
        • \odot: 逐元素相乘。
  • 对比基线 (Baselines):

    • 3DGS: 基于优化的代表性方法。
    • MVSplat, DepthSplat: 领先的逐像素前馈高斯溅射方法。
    • Long-LRM, GS-LRM: 其他强大的学习型(前馈)重建模型。
    • LVSM: 一个性能优异但不使用 (3DGS-free) 3D高斯表示的视图合成模型。

6. 实验结果与分析

6.1 核心结果分析

  • 8视图 DL3DV 实验 (Table 1): 这是转录的 Table 1 数据:

    Method Category #Iterations PSNR ↑ SSIM ↑ LPIPS ↓ #Gaussians Recon. Time (s) Render Time (s)
    3DGS Optimization 1000 20.36 0.667 0.448 9K 15 0.0001
    2000 23.18 0.763 0.269 137K 31 0.0005
    3000 23.42 0.770 0.232 283K 50 0.0008
    4000 23.46 0.770 0.224 359K 70 0.0009
    MVSplat Feed-Forward 0 22.49 0.764 0.261 3932K 0.129 0.0030
    DepthSplat Feed-Forward 0 24.17 0.815 0.208 3932K 0.190 0.0030
    ReSplat Feed-Forward 0 (Init) 26.21 0.842 0.185 246K 0.311 0.0007
    1 26.69 0.849 0.176 246K 0.440 0.0007
    2 26.80 0.850 0.174 246K 0.569 0.0007
    3 26.82 0.850 0.174 246K 0.693 0.0007
    • 分析: ReSplat 的性能全面超越所有基线。

      • 质量: 即使是 ReSplat 的初始预测(0次迭代),PSNR (26.21) 就已经远高于优化4000次的 3DGS (23.46) 和之前的SOTA前馈模型 DepthSplat (24.17)。经过3次循环更新后,PSNR 提升到 26.82,优势巨大。
      • 效率: ReSplat 的重建时间(0.693秒)比 3DGS(70秒)快了约100倍。
      • 紧凑性: ReSplat 只用了 246K 个高斯,而 MVSplatDepthSplat 用了近 4000K(16倍之多)。更少的高斯带来了更快的渲染速度(0.0007秒 vs 0.0030秒)。
    • 视觉对比 (Figure 1, 3):

      Figure 1: Learning recurrent Gaussian splats in a feed-forward manner. We propose ReSplat, a feed-forward recurrent network that iteratively refines 3D Gaussian splats to improve sparse view settings… 该图像是一个图表与多张建筑渲染效果的对比示意图。左侧图表展示了不同方法(ReSplat、DepthSplat、MVSplat、3DGS)随迭代次数变化的PSNR指标,ReSplat在少量迭代后PSNR最高且稳定。右侧多张图按3DGS、MVSplat、DepthSplat、ReSplat第0次迭代、第3次迭代及真实图(GT)排列,体现ReSplat迭代更新显著提升渲染质量,图像细节更接近真实。

      Figure 3: Visual comparisons on DL3DV. Our ReSplat renders higher quality images than both optimization and feed-forward methods. 该图像是比较不同方法在DL3DV数据集上的渲染结果的插图,展示了四个场景(教室、建筑、花店和户外景观)在真实图像(GT)与3DGS、MVSplat、DepthSplat及ReSplat渲染图之间的视觉对比。ReSplat在细节还原和图像质量上明显优于其他对比方法。

      图像2和图像3直观地展示了 ReSplat 的渲染质量。图像2的左图显示了 ReSplat 的PSNR在几次迭代后就迅速收敛到高水平,远超其他方法。右侧的渲染结果对比显示,ReSplat 的第3次迭代结果在细节、清晰度和伪影抑制方面都最接近真实图像 (GT)。图像3在更多场景中验证了这一点。

  • 16视图 DL3DV 实验 (Table 2): 这是转录的 Table 2 数据:

    Method #Iterations PSNR ↑ SSIM ↑ LPIPS ↓ Recon. Time #Gaussians
    3DGS 30000 21.20 0.708 0.264 13min -
    Mip-Splatting 30000 20.88 0.712 0.274 13min -
    Scaffold-GS 30000 22.13 0.738 0.250 16min -
    Long-LRM 0 22.66 0.740 0.292 0.4sec 2073K
    ReSplat (Ours) 0 22.69 0.742 0.307 0.7sec 518K
    1 23.12 0.752 0.296 1.2sec 518K
    2 23.23 0.755 0.293 1.7sec 518K
    • 分析: 在更具挑战性的16视图全场景重建任务中,ReSplat 依然表现出色。它不仅超越了所有基于优化的方法,也超过了强大的前馈基线 Long-LRM。值得注意的是,ReSplat 使用的高斯数量 (518K) 仅为 Long-LRM (2073K) 的1/4,再次证明了其模型的紧凑性和高效性。
  • 2视图 RealEstate10K 实验 (Table 3): 这是转录的 Table 3 数据:

    Method w/ 3DGS PSNR ↑ SSIM↑ LPIPS ↓
    pixelSplat 25.89 0.858 0.142
    MVSplat 26.39 0.869 0.128
    DepthSplat 27.47 0.889 0.114
    GS-LRM 28.10 0.892 0.114
    Long-LRM 28.54 0.895 0.109
    LVSM (enc-dec) X 28.58 0.893 0.114
    LVSM (dec-only) X 29.67 0.906 0.098
    ReSplat (Ours) 29.72 0.911 0.100
    • 分析: 在经典的双视图设置下,ReSplat 的 PSNR (29.72) 达到了新的SOTA水平,超过了所有基于3DGS的前馈模型。与性能极强的非3DGS模型 LVSM (decoder-only) 相比,ReSplat 的结果与之相当,但 ReSplat 拥有显式3D表示的优势,渲染速度比 LVSM 快20倍。

    • 视觉对比 (Figure 5):

      Figure 5: Visual comparisons on RealEstate10K. ReSplat produces sharper structures than MVSplat and DepthSplat. 该图像是多组室内场景的对比视觉示例,展示了RealEstate10K数据集中GT(真实图像)、MVSplat、DepthSplat与ReSplat的渲染效果。结果表明,ReSplat生成的图像结构更清晰,细节更锐利,优于MVSplat和DepthSplat。

      图像6的视觉对比显示,ReSplat 生成的图像在结构上更清晰、锐利,伪影更少,优于 MVSplatDepthSplat

6.2 泛化能力与消融实验分析

  • 跨数据集与跨分辨率泛化 (Figure 4a, 4b):

    该图像是折线图,展示了不同迭代次数(#Iterations)下,两个数据集DL3DV和RealEstate10K的PSNR值变化趋势。图中PSNR随迭代次数增加而提升,表明模型的重建质量通过递归迭代得到显著改善。 该图像是折线图,展示了不同迭代次数(#Iterations)下,两个数据集DL3DV和RealEstate10K的PSNR值变化趋势。图中PSNR随迭代次数增加而提升,表明模型的重建质量通过递归迭代得到显著改善。

    该图像是一个折线图,显示了在不同分辨率(512×960、416×768、320×640)和迭代次数(0到3次)条件下,模型的PSNR性能随迭代次数变化的趋势。从图中可见,随着迭代次数增加,PSNR值整体提升,且高分辨率对应更高的PSNR水平。 该图像是一个折线图,显示了在不同分辨率(512×960、416×768、320×640)和迭代次数(0到3次)条件下,模型的PSNR性能随迭代次数变化的趋势。从图中可见,随着迭代次数增加,PSNR值整体提升,且高分辨率对应更高的PSNR水平。

    • 分析: 图像4和图像5是本文最有说服力的结果之一。当将在 DL3DV 上训练的模型直接用于测试未见过的 RealEstate10K 数据集时(图像4),循环更新带来的性能提升(从26.3到27.5 PSNR)比在域内测试时(DL3DV上的提升)更为显著。同样,当测试分辨率与训练分辨率不同时(图像5),初始预测的性能会大幅下降,但经过几次循环更新后,性能得到显著回升。这强有力地证明了渲染误差反馈机制的自适应能力:它使模型能够在测试时根据当前输入的数据分布进行“在线”调整,从而大大增强了泛化能力。
  • 压缩因子分析 (Table 4, Figure 6): 这是转录的 Table 4 数据:

    Compression PSNR ↑ SSIM ↑ LPIPS ↓ Time (s)
    64× 24.77 0.797 0.226 0.096
    16× 26.77 0.865 0.142 0.104
    28.36 0.900 0.103 0.206

    Figure 6: Different compression factors. 该图像是多张实景图的组合对比示意图,展示了不同压缩因子(原始GT、4倍、16倍和64倍压缩)下的图像渲染效果。随着压缩倍数增加,图像细节和清晰度逐渐下降,但整体场景结构基本保持一致。

    • 分析: 结果显示,压缩率越低(即使用的高斯越多),重建质量越高,但计算时间也越长。16x 压缩在质量和速度之间提供了一个很好的平衡点,因此被选为默认配置。图像7也直观展示了不同压缩率下的视觉效果差异。
  • 消融实验 (Table 5): 这是转录的 Table 5 数据: (a) Ablation of the initial reconstruction model.

    Method PSNR ↑ SSIM ↑ LPIPS ↓ #Gaussians
    DepthSplat 25.79 0.861 0.134 918K
    Full 26.77 0.865 0.142 57K
    w/o kNN attn 25.30 0.833 0.178 57K
    w/o global attn 26.33 0.856 0.150 57K
    w/o kNN, w/o global 24.50 0.814 0.200 57K

    (b) Ablation of the recurrent reconstruction model.

    Method PSNR ↑ SSIM ↑ LPIPS ↓
    Initialization 26.77 0.865 0.142
    Full 27.83 0.880 0.122
    w/o render error 26.77 0.865 0.142
    w/o ResNet feature 27.78 0.879 0.128
    w/o kNN attn 27.64 0.877 0.124
    w/o global attn 27.77 0.879 0.122
    • 分析 (a) 初始模型: 去掉 kNN attention 后性能大幅下降 (26.77 -> 25.30 PSNR),证明了在稀疏点云上聚合局部信息至关重要。去掉 global attention 也有明显影响。这说明了上下文聚合模块的必要性。
    • 分析 (b) 循环模型: 最关键的消融实验是 w/o render error。去掉渲染误差作为输入后,模型的性能完全没有提升(PSNR 停留在 26.77),这直接证明了渲染误差是驱动循环优化的根本动力。其他组件,如使用 ResNet 特征计算误差、kNNglobal attention,都对最终性能有积极贡献。
  • 重建高斯质量对比 (Figure 7, 8):

    Figure 7: Comparison of reconstructed Gaussians and view synthesis results. 该图像是多视角室内场景的渲染比较示意图,展示了使用传统DepthSplat方法与本文ReSplat方法生成的高斯点云以及对应的视图合成效果。上半部分对比了两种方法的重建高斯点云密度与细节表现,下半部分通过多张渲染图展示ReSplat在细节还原和视图连续性上的优势。

    Figure 8: Comparison of reconstructed Gaussians and view synthesis results. 该图像是论文中的对比插图,展示了DepthSplat与ReSplat两种方法生成和渲染的高斯点云效果。上部两张图为重建的高斯点云,ReSplat在细节和颜色还原上更为清晰。下部四张图为不同视角的渲染结果,ReSplat渲染图细节更丰富、光影效果更自然,整体视觉质量优于DepthSplat。

    图像8和图像9展示了 ReSplatDepthSplat 重建出的高斯点云和渲染结果。可以清晰地看到,ReSplat 生成的高斯点云更干净、结构更清晰,没有 DepthSplat 中常见的漂浮杂点和模糊区域。这直接转化为更高质量的渲染图像。

7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary): 本文成功地提出了一种名为 ReSplat前馈循环高斯溅射模型,它以一种无梯度的方式,巧妙地利用渲染误差作为反馈信号,在推理时对3D高斯进行迭代优化。通过结合一个紧凑的初始重建策略和高效的循环更新机制,ReSplat 在保持极高运行效率的同时,在多个基准上实现了最先进的视图合成质量,并展现出卓越的泛化能力。这项工作为解决快速、高质量、可泛化的三维重建问题提供了一个全新的、富有成效的范式。

  • 局限性与未来工作 (Limitations & Future Work):

    • 计算瓶颈: 当前模型依赖于 kNN 注意力,当高斯数量非常大(例如超过500K)时,其计算成本会很高。未来可以探索更高效的基于点的注意力机制或稀疏结构来提升可扩展性。
    • 收敛瓶颈: 模型的效果在3次迭代后趋于饱和。作者推测这可能与迭代过程中高斯数量固定有关。未来的研究可以探索更自适应的更新策略,例如动态地增加或删减高斯,以及如何进一步扩展测试时的计算以换取更高质量。
  • 个人启发与批判 (Personal Insights & Critique):

    • 核心启发: ReSplat 最具启发性的一点是其“测试时自适应” (test-time adaptation) 的思想。传统的前馈模型一旦训练完成,在推理时就是“一锤子买卖”。而 ReSplat 通过构建一个内部反馈循环,让模型在面对新数据时拥有了“反思和修正”的能力。这种“学习去优化”的框架,尤其是利用任务本身的监督信号(渲染误差)而非外部梯度,是一种非常优雅和高效的设计,极具推广价值。它可以被看作是将深度学习从单纯的“模式识别器”向“问题解决器”推进的一步。
    • 迁移潜力: 这种基于误差反馈的循环优化思想可以被广泛应用到其他生成式或逆问题任务中,例如图像去噪、超分辨率、inpainting等。在这些任务中,我们通常有部分或全部的真实信号(如低分辨率图像),可以构建类似的反馈循环来迭代地精炼生成结果。
    • 潜在问题与改进: 虽然模型在3次迭代后饱和,但这可能也暗示了当前更新网络的能力上限。也许更深、更复杂的更新网络,或者引入某种形式的“记忆”机制,能够支持更长时间的有效优化。此外,模型对初始重建的质量可能仍有一定依赖,探索如何让循环过程对更差的初始化更加鲁棒,也是一个值得研究的方向。总的来说,ReSplat 是一项构思巧妙、实验扎实、影响深远的工作,为三维重建领域开辟了一条激动人心的新路径。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。