AiPaper
论文状态:已完成

Mip-Splatting: Alias-free 3D Gaussian SRecently, 3D Gaussian Splatting has demonstrated impressive novel view synthesis results, reaching high fidelity and efficiency. However, strong artifacts can be observed when changing the sampling rate, e.g., by changing focal length or camera distance. We find that the source for this phenomenon can be attributed to the lack of 3D frequency constraints and the usage of a 2D dilation filter. To address this problem, we introduce a 3D smoothing filter which

原文链接
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为3D平滑滤波器的创新方法,通过约束3D高斯基元的大小来消除在新颖视角合成中因焦距或相机距离变化而产生的高频伪影。同时,替代2D膨胀滤波器的2D Mip滤波器有效缓解了混叠和伪影问题,提升了合成效果。

摘要

Mip-Splatting: Alias-free 3D Gaussian Splatting Zehao Yu 1 , 2 Anpei Chen 1 , 2 Binbin Huang 3 Torsten Sattler 4 Andreas Geiger 1 , 2 1 University of T¨ ubingen 2 T¨ ubingen AI Center 3 ShanghaiTech University 4 Czech Technical University in Prague https://niujinshuchong.github.io/mip-splatting (c) Zoom-out of (a) Erosion (Brake cable too thin) 3D Object 3D Gaussian Camera Center Image Plane (Screen Space) Decreased Focal length Increased Focal length 2D Gaussian Dilated 2D Gaussian 5 Pixels Brightening High frequency artifacts due to degenerate (thin) 3D Gaussians Dilation (Spokes too thick due to screen space dilation) Faithful Rendering Faithful Rendering (a) Faithful Representation (b) Degenerate Representation (d) Zoom-in of (b) Figure 1. 3D Gaussi…

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Mip-Splatting: Alias-free 3D Gaussian Splatting

1.2. 作者

Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger

1.3. 作者单位

  1. University of Tübingen
  2. Tübingen AI Center
  3. ShanghaiTech University
  4. Czech Technical University in Prague

1.4. 发表期刊/会议

论文未明确指出具体的发表期刊或会议,但从引用格式和内容来看,通常是计算机视觉领域的顶级会议(如 ICCV, CVPR, NeurIPS, SIGGRAPH 等)或期刊。这些会议和期刊在相关领域具有极高的声誉和影响力。

1.5. 发表年份

论文内容未明确指出发表年份,但从引用文献的时间线(如提及 2023 年的 Zip-NeRF)推断,该研究很可能是在 2023 年或以后完成并发表的。

1.6. 摘要

最近,3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 展示了令人印象深刻的新颖视角合成结果,达到了高保真度和高效率。然而,当改变采样率时(例如,通过改变焦距或相机距离),可能会观察到明显的伪影。本文发现这种现象的根源在于缺乏 3D 频率约束 (3D frequency constraints) 和使用了 2D 膨胀滤波器 (2D dilation filter)。为了解决这个问题,本文引入了一个 3D 平滑滤波器 (3D smoothing filter),它根据输入视图引起的最大采样频率来约束 3D 高斯基元的大小,从而在放大 (zoom-in) 时消除高频伪影。此外,用 2D Mip 滤波器 (2D Mip filter)(类似于 mipmap)替代 2D 膨胀滤波器,模拟了 2D 盒式滤波器 (2D box filter),有效地缓解了混叠和膨胀问题。本文的评估,包括在单尺度图像上训练并在多尺度上测试的场景,验证了该方法的有效性。

1.7. 原文链接

https://niujinshuchong.github.io/mip-splatting 原文 PDF 链接: /files/papers/691356a8430ad52d5a9ef401/paper.pdf (此链接为本地路径,若要访问,需替换为实际可访问的公共 URL)

2. 整体概括

2.1. 研究背景与动机

新颖视角合成 (Novel View Synthesis, NVS) 在计算机图形学和计算机视觉领域扮演着关键角色,在虚拟现实、电影摄影、机器人等领域有广泛应用。神经辐射场 (Neural Radiance Field, NeRF) [28] 及其后续改进 [4, 11, 24, 32, 46] 在 NVS 领域取得了显著进展。近期,3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) [18] 作为一种有吸引力的替代方案脱颖而出,它通过一组 3D 高斯函数来表示复杂场景,并通过基于泼溅 (splatting-based) 的光栅化 (rasterization) 进行渲染,实现了高保真度和实时渲染。

然而,尽管 3DGS 取得了令人瞩目的效果,但当相机视角与训练时所见的视角(例如,放大或缩小)发生偏差时,它会产生明显的伪影。论文指出,这种现象的根本原因在于:

  1. 缺乏 3D 频率约束 (lack of 3D frequency constraints):在优化过程中,3D 高斯基元的大小没有得到适当的限制,导致模型在不同采样率下出现问题。

  2. 使用了 2D 膨胀滤波器 (usage of a 2D dilation filter):3DGS 在屏幕空间应用一个 2D 膨胀操作进行低通滤波,这在不同采样率下会导致问题。具体来说,缩小 (zoom-out) 会导致投影的 2D 高斯在屏幕空间变小,而固定的膨胀量会导致膨胀伪影 (dilation artifacts)。相反,放大 (zoom-in) 会导致侵蚀伪影 (erosion artifacts),因为投影的 2D 高斯会变大,而膨胀量不变,从而在 2D 投影中产生不正确的间隙。

    这些问题使得 3DGS 在 分布外泛化 (out-of-distribution generalization) 方面表现不佳,即在与训练时不同采样率的条件下渲染时,会出现明显的质量下降。

2.2. 核心贡献/主要发现

本文提出了 Mip-Splatting 方法来解决 3DGS 在不同采样率下的伪影问题,其核心贡献包括:

  1. 引入 3D 平滑滤波器 (3D smoothing filter):该滤波器根据输入视图的最大采样频率来约束 3D 高斯基元的最大频率。通过在优化过程中对 3D 高斯基元应用一个低通滤波器,它有效地将 3D 表示的最大频率限制在 Nyquist 极限 (Nyquist limit) 之下,从而解决了放大时的高频伪影。

  2. 用 2D Mip 滤波器 (2D Mip filter) 替代 2D 膨胀滤波器 (2D dilation filter):本文提出的 2D Mip 滤波器模拟了物理成像过程中固有的 2D 盒式滤波器 (2D box filter),有效地缓解了缩小时的混叠 (aliasing) 和膨胀伪影。

  3. 在单尺度训练和多尺度测试场景下验证了有效性:与需要多尺度图像进行监督的现有方法不同,Mip-Splatting 即使在单尺度图像上训练,也能在多种采样率下忠实地渲染图像,展现了出色的分布外泛化能力。

  4. 简单且原则性的修改:本文对 3DGS 的修改是基于原理的,并且只需要对原始 3DGS 代码进行少量改动。

    通过这些改进,Mip-Splatting 实现了跨不同采样率的无混叠渲染,显著提升了 3DGS 的泛化能力和图像质量。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 采样定理 (Sampling Theorem)

采样定理 (Sampling Theorem),也称为 Nyquist-Shannon 采样定理 (Nyquist-Shannon Sampling Theorem) [33, 45],是信号处理和数字通信中的一个基本概念。它描述了在何种条件下,连续信号可以从其离散样本中被准确地表示或重建。 要从离散样本中准确无信息损失地重建连续信号,必须满足以下条件:

  • 条件 1:连续信号必须是带限的 (band-limited),即它不能包含任何高于某个最大频率 ν\nu 的频率分量。

  • 条件 2:采样率 ν^\hat{\nu} 必须至少是连续信号中最高频率的两倍:ν^2ν\hat{\nu} \geq 2\nu

    在实际应用中,为了满足从离散样本重建信号的约束,通常在采样之前对信号应用低通滤波器 (low-pass filter)抗混叠滤波器 (anti-aliasing filter)。该滤波器消除高于 ν^2\frac{\hat{\nu}}{2} 的任何频率分量,并衰减可能导致混叠的高频内容。

3.1.2. 3D 高斯泼溅 (3D Gaussian Splatting)

3D 高斯泼溅 (3DGS) [18] 是一种用于新颖视角合成的方法,它将 3D 场景表示为一组带尺度的 3D 高斯基元 (scaled 3D Gaussian primitives) {Gkk=1,,K}\{ \mathcal{G}_k | k = 1, \ldots, K \}。每个 3D 高斯 Gk\mathcal{G}_k 的几何形状由其不透明度 (opacity) αk[0,1]\alpha_k \in [0, 1]中心 (center) pkR3×1\mathbf{p}_k \in \mathbb{R}^{3 \times 1}协方差矩阵 (covariance matrix) ΣkR3×3\boldsymbol{\Sigma}_k \in \mathbb{R}^{3 \times 3} 在世界空间中定义。其数学表达式为:

Gk(x)=e12(xpk)TΣk1(xpk) \mathcal{G}_k ( { \mathbf x } ) = e ^ { - \frac { 1 } { 2 } ( { \mathbf x } - { \mathbf p } _ { k } ) ^ { T } { \mathbf { \Sigma } } _ { k } ^ { - 1 } ( { \mathbf x } - { \mathbf p } _ { k } ) }

其中, x\mathbf{x} 是 3D 空间中的一个点。为了确保 Σk\boldsymbol{\Sigma}_k 是一个有效的协方差矩阵,它通常被参数化为 Σk=OkskskTOkT\boldsymbol{\Sigma}_k = \mathbf{O}_k \mathbf{s}_k \mathbf{s}_k^T \mathbf{O}_k^T,其中 sk\mathbf{s}_k 是一个尺度向量 (scaling vector),OkR3×3\mathbf{O}_k \in \mathbb{R}^{3 \times 3} 是一个由四元数参数化的旋转矩阵。

渲染过程: 为了渲染给定视点的图像,首先将 3D 高斯基元从世界坐标系转换为相机坐标系: pk=Rpk+t,Σk=RΣkRT \mathbf { p } _ { k } ^ { \prime } = \mathbf { R } \mathbf { p } _ { k } + \mathbf { t } , \quad \Sigma _ { k } ^ { \prime } = \mathbf { R } \Sigma _ { k } \mathbf { R } ^ { T } 其中 RR3×3\mathbf{R} \in \mathbb{R}^{3 \times 3} 是旋转矩阵,tR3\mathbf{t} \in \mathbb{R}^{3} 是平移向量。 然后,通过局部仿射变换将其投影到射线空间 (ray space),得到 2D 协方差矩阵 Σk2D\boldsymbol{\Sigma}_k^{2D}Σk=Jk :Σk :JkT \boldsymbol { \Sigma } _ { k } ^ { \prime \prime } = \mathbf { J } _ { k } \ : \boldsymbol { \Sigma } _ { k } ^ { \prime } \ : \mathbf { J } _ { k } ^ { T } 这里,Jk\mathbf{J}_k 是对由 3D 高斯中心 pk\mathbf{p}_k' 定义的投影变换的仿射近似。论文中用 Σk2D\boldsymbol{\Sigma}_k^{2D} 表示射线空间中的 Σk\boldsymbol{\Sigma}_k'',用 Gk2D\mathcal{G}_k^{2D} 表示相应的 2D 高斯。 最后,3DGS 利用球谐函数 (spherical harmonics) 来建模与视角相关的颜色 ck\mathbf{c}_k,并通过Alpha 混合 (alpha blending) 按照基元的深度顺序 1,,K1, \ldots, K 渲染图像: c(x)=k=1KckαkGk2D(x)j=1k1(1αjGj2D(x)) \mathbf { c } ( \mathbf { x } ) = \sum _ { k = 1 } ^ { K } \mathbf { c } _ { k } \alpha _ { k } \mathcal { G } _ { k } ^ { 2 D } ( \mathbf { x } ) \prod _ { j = 1 } ^ { k - 1 } ( 1 - \alpha _ { j } \mathcal { G } _ { j } ^ { 2 D } ( \mathbf { x } ) )

2D 屏幕空间膨胀 (2D Screen Space Dilation): 为了避免投影的 2D 高斯在屏幕空间中过小(小于一个像素)的退化情况,3DGS 对投影的 2D 高斯进行膨胀处理: Gk2D(x)=e12(xpk)T(Σk2D+sI)1(xpk) \mathcal { G } _ { k } ^ { 2 D } ( \mathbf { x } ) = e ^ { - \frac { 1 } { 2 } ( \mathbf { x } - \mathbf { p } _ { k } ) ^ { T } ( \Sigma _ { k } ^ { 2 D } + s \mathbf { I } ) ^ { - 1 } ( \mathbf { x } - \mathbf { p } _ { k } ) } 其中 I\mathbf{I} 是一个 2D 单位矩阵,ss 是一个标量膨胀超参数。这个操作调整了 2D 高斯的尺度,但保持其最大值不变。由于其效果类似于形态学中的膨胀算子,所以被称为 2D 屏幕空间膨胀操作。

重建 (Reconstruction): 由于渲染过程快速且可微分,3D 高斯参数可以通过多视图光度损失 (multi-view photometric loss) 进行高效优化。在优化过程中,3D 高斯会被自适应地添加和删除,以更好地表示场景。

3.2. 前人工作

本文的 相关工作 部分主要回顾了 新颖视角合成 (Novel View Synthesis, NVS)基于基元的可微分渲染 (Primitive-based Differentiable Rendering)渲染中的抗混叠 (Anti-aliasing in Rendering)

3.2.1. 新颖视角合成 (NVS)

  • NeRF [28]: Mildenhall 等人于 2020 年提出的 神经辐射场 (NeRF),利用多层感知机 (MLP) 有效地表示几何和依赖于视图的外观,展示了卓越的新颖视图渲染质量。但其渲染速度受限于昂贵的 MLP 评估。
  • NeRF 优化: 后续方法 [16, 40, 41, 52, 54] 将预训练的 NeRF 提取成稀疏表示,实现实时渲染。其他方法 [4, 6, 11, 18, 19, 24, 32, 46, 51] 则通过先进的场景表示进一步改进了 NeRF 的训练和渲染。
  • 3DGS [18]: 3D 高斯泼溅 (3DGS) 通过显式地将场景表示为 3D 高斯集合,并使用光栅化而非射线追踪,实现了令人印象深刻的 NVS 结果和高清实时渲染。然而,3DGS 主要关注分布内评估 (in-distribution evaluation),即训练和测试在相似的采样率下进行。本文则研究 3DGS 的分布外泛化 (out-of-distribution generalization)

3.2.2. 基于基元的可微分渲染 (Primitive-based Differentiable Rendering)

  • 效率: 基于基元的渲染技术,将几何基元光栅化到图像平面上,因其高效性而得到广泛探索 [13, 14, 38, 44, 59, 60]。
  • 点基渲染 [20, 36, 39, 43, 49, 53, 57]: 提供极大的灵活性,适用于 NVS。特别是 Pulsar [20] 在高效球体光栅化方面表现突出。
  • 3DGS [18]: 采用了各向异性高斯 (anisotropic Gaussians) [59] 并引入了基于瓦片 (tile-based) 的排序进行渲染,实现了卓越的帧率。但 3DGS 在不同采样率下渲染时表现出明显的伪影。
  • 本文的改进: 针对 3DGS 的问题,本文引入了 3D 平滑滤波器 (3D smoothing filter) 来约束 3D 高斯基元表示的最大频率,以及 2D Mip 滤波器 (2D Mip filter) 来近似物理成像过程中的盒式滤波器,实现无混叠渲染。

3.2.3. 渲染中的抗混叠 (Anti-aliasing in Rendering)

  • 两种策略:
    1. 超采样 (super-sampling) [7]: 增加样本数量。
    2. 预滤波 (prefiltering) [8, 15, 31, 47, 50, 59]: 对信号应用低通滤波以满足 Nyquist 极限。
  • EWA 泼溅 (EWA splatting) [59]: 对投影的 2D 高斯在屏幕空间应用高斯低通滤波器,以产生符合图像 Nyquist 频率的带限输出。
  • 本文与 EWA 的区别:
    • 滤波器应用空间: EWA 在 2D 屏幕空间应用滤波器;本文的带限滤波器则在 3D 空间应用,且滤波器大小由训练图像决定,而非待渲染图像。
    • 2D Mip 滤波器: 本文的 2D Mip 滤波器也是屏幕空间的高斯低通滤波器,但它旨在近似物理成像过程中的盒式滤波器 (box filter),精确地近似一个像素。而 EWA 滤波器旨在限制频率信号的带宽,其大小凭经验选择。
    • 目标: 本文解决的是重建问题 (reconstruction problem),通过逆向渲染优化 3D 高斯表示;而 EWA 泼溅仅考虑渲染问题 (rendering problem)
  • 神经渲染中的预滤波: 近期神经渲染方法 [13, 17, 58] 整合了预滤波来缓解混叠。
    • Mip-NeRF [1]: 引入了集成位置编码 (integrated position encoding, IPE) 来衰减高频细节。
    • 特征网格方法 [3, 17, 58]: 类似思想也适用于特征网格表示。
    • 限制: 这些方法通常需要多尺度图像 (multi-scale images) 进行监督。
  • 本文的优势: 本文的方法基于 3DGS,并根据像素大小确定必要的低通滤波器大小,从而在训练时未观察到的尺度下实现无混叠渲染。

3.3. 差异化分析

本文 Mip-Splatting 的方法与现有工作的主要区别和创新点在于:

  1. 从 3D 频率约束入手解决 3DGS 固有的尺度模糊性: 传统的 3DGS 在优化过程中会低估 3D 高斯的尺度参数,导致在放大时出现高频伪影(侵蚀),缩小出现膨胀伪影。Mip-Splatting 通过引入 3D 平滑滤波器,根据训练视图的最大采样率对 3D 高斯基元的频率进行限制,解决了这一根本性问题,使得 3D 表示本身就具有抗混叠能力。

  2. 改进 2D 屏幕空间滤波以模拟物理成像过程: 3DGS 使用的 2D 膨胀滤波器在不同采样率下效果不佳。Mip-Splatting 用 2D Mip 滤波器替代它,该滤波器通过近似 2D 盒式滤波器来模拟物理成像过程中像素积分的行为,从而在缩小视图时提供更忠实、无混叠的渲染效果。这与 EWA 泼溅 [59] 有本质区别,后者主要目的是限制渲染图像的频率带宽,而非精确模拟像素响应。

  3. 出色的分布外泛化能力,即使在单尺度训练下: 许多神经渲染的抗混叠方法(如 Mip-NeRF [1]、Tri-MipRF [17])需要多尺度图像进行训练监督。Mip-Splatting 则证明了即使在单尺度图像上训练,也能在多种不同的采样率(放大和缩小)下实现高质量、无伪影的渲染,这大大提高了方法的实用性和泛化性。

  4. 对 3DGS 的简单且原则性的修改: Mip-Splatting 的核心改进是两个滤波器,这些修改直接作用于 3D 高斯表示和 2D 渲染过程,且易于集成到现有 3DGS 框架中,代码改动小,但效果显著。

    总的来说,Mip-Splatting 不仅仅是修复 3DGS 的表面渲染问题,更是从 3D 场景表示的频率特性和 2D 物理成像过程的模拟两个层面,对 3DGS 进行了更深层次和原则性的改进。

4. 方法论

本文针对 3DGS 在改变采样率时出现的伪影问题,提出了两项关键修改:引入 3D 平滑滤波器 (3D smoothing filter) 和用 2D Mip 滤波器 (2D Mip filter) 替代原有的 2D 屏幕空间膨胀滤波器。这些修改协同工作,旨在实现跨不同采样率的无混叠渲染。

4.1. 方法原理

3DGS [18] 在优化所有参数时会受到歧义的影响,如图 1 所示,优化过程倾向于系统性地低估 3D 高斯的尺度参数,导致其具有隐式收缩偏置 (implicit shrinkage bias)

  • 当放大(相机靠近)时,2D 高斯在屏幕空间中变得更小,如果 3D 高斯尺度被低估,会导致高频伪影,使物体结构比实际看起来更薄,出现侵蚀伪影 (erosion artifacts)

  • 当缩小(相机远离)时,屏幕空间膨胀操作会将辐射以物理不正确的方式扩散到像素上,导致亮度增加和膨胀伪影 (dilation artifacts),使物体看起来过厚。

    为解决这些问题,本文的核心思想是:

  1. 在 3D 空间中正则化 3D 表示:根据 Nyquist-Shannon 采样定理 (Nyquist-Shannon Sampling Theorem) [33, 45],任何可重建的 3D 场景的最高频率受限于输入图像的采样率。通过应用 3D 平滑滤波器,将 3D 高斯基元的最大频率限制在 Nyquist 极限之下。
  2. 改进 2D 屏幕空间滤波:用 2D Mip 滤波器替代 3DGS 的 2D 膨胀滤波器。2D Mip 滤波器模拟了物理成像过程中像素对光子的积分行为(类似于 2D 盒式滤波器),从而在降低采样率时有效缓解混叠和膨胀问题。

4.2. 核心方法详解

4.2.1. 3D 高斯基元 (3D Gaussian Primitive)

每个 3D 高斯 Gk\mathcal{G}_k 的几何形状由其不透明度 αk[0,1]\alpha_k \in [0, 1]、中心 pkR3×1\mathbf{p}_k \in \mathbb{R}^{3 \times 1} 和协方差矩阵 ΣkR3×3\boldsymbol{\Sigma}_k \in \mathbb{R}^{3 \times 3} 在世界空间中定义:

Gk(x)=e12(xpk)TΣk1(xpk) \mathcal{G}_k ( { \mathbf x } ) = e ^ { - \frac { 1 } { 2 } ( { \mathbf x } - { \mathbf p } _ { k } ) ^ { T } { \mathbf { \Sigma } } _ { k } ^ { - 1 } ( { \mathbf x } - { \mathbf p } _ { k } ) } 其中:

  • Gk(x)\mathcal{G}_k(\mathbf{x}):第 kk 个 3D 高斯在 3D 空间点 x\mathbf{x} 处的值。

  • x\mathbf{x}:3D 空间中的一个点。

  • pk\mathbf{p}_k:第 kk 个 3D 高斯的中心(平均值)。

  • Σk\boldsymbol{\Sigma}_k:第 kk 个 3D 高斯的协方差矩阵,定义其形状和方向。

  • TT:矩阵或向量的转置操作。

  • -1:矩阵求逆操作。

    为约束 Σk\boldsymbol{\Sigma}_k 为有效协方差矩阵,采用半正定分解 Σk=OkskskTOkT\boldsymbol{\Sigma}_k = \mathbf{O}_k \mathbf{s}_k \mathbf{s}_k^T \mathbf{O}_k^T,其中 sk\mathbf{s}_k 是尺度向量,OkR3×3\mathbf{O}_k \in \mathbb{R}^{3 \times 3} 是由四元数参数化的旋转矩阵。

4.2.2. 3D 平滑滤波器 (3D Smoothing Filter)

多视图频率界限 (Multiview Frequency Bounds): 多视图图像是连续 3D 场景的 2D 投影。离散图像网格决定了我们从连续 3D 信号中采样的点。这个采样率与图像分辨率、相机焦距以及场景与相机的距离密切相关。 对于焦距为 ff (以像素为单位) 的图像,屏幕空间的采样间隔为 1。当这个像素间隔反向投影到 3D 世界空间时,在给定深度 dd 处会产生一个世界空间采样间隔 T^\hat{T},其采样频率 ν^\hat{\nu} 是其倒数: T^=1ν^=df \hat { T } = \frac { 1 } { \hat { \nu } } = \frac { d } { f } 其中:

  • T^\hat{T}:世界空间中的采样间隔。

  • ν^\hat{\nu}:世界空间中的采样频率。

  • dd:3D 场景点的深度。

  • ff:相机的焦距,以像素为单位。

    根据 Nyquist 定理(第 3.1 节),给定以频率 ν^\hat{\nu} 采样的样本,重建算法能够重建频率高达 ν^2\frac{\hat{\nu}}{2}f2d\frac{f}{2d} 的信号分量。因此,小于 2T^2\hat{T} 的基元在泼溅过程中可能导致混叠伪影,因为其大小低于采样间隔的两倍。

为简化,深度 dd 使用基元中心 pk\mathbf{p}_k 来近似,并忽略遮挡对采样间隔估计的影响。由于基元的采样率是深度依赖的,并且在不同相机之间有所不同,本文将基元 kk 的最大采样率确定为: ν^k=max({1n(pk)fndn}n=1N) \hat { \nu } _ { k } = \operatorname* { m a x } \left( \left\{ \mathbb { 1 } _ { n } ( \mathbf { p } _ { k } ) \cdot \frac { f _ { n } } { d _ { n } } \right\} _ { n = 1 } ^ { N } \right) 其中:

  • ν^k\hat{\nu}_k:基元 kk 的最大采样率。

  • NN:图像总数。

  • 1n(pk)\mathbb{1}_n(\mathbf{p}_k):指示函数,评估基元 kk 的可见性。如果高斯中心 pk\mathbf{p}_k 落在第 nn 个相机的视锥体 (view frustum) 内,则为真。

  • fnf_n:第 nn 个相机的焦距。

  • dnd_n:第 nn 个相机到基元 kk 中心 pk\mathbf{p}_k 的深度。

    本文每 mm 次迭代重新计算每个高斯基元的最大采样率,因为 3D 高斯中心在训练过程中保持相对稳定。

3D 平滑 (3D Smoothing): 给定基元 kk 的最大采样率 ν^k\hat{\nu}_k,本文旨在约束 3D 表示的最大频率。这通过在将每个 3D 高斯基元 Gk\mathcal{G}_k 投影到屏幕空间之前,对其应用一个高斯低通滤波器 Glow\mathcal{G}_{\mathrm{low}} 来实现: Gk(x)reg=(GkGlow)(x) \mathcal { G } _ { k } ( \mathbf { x } ) _ { \mathrm { r e g } } = ( \mathcal { G } _ { k } \otimes \mathcal { G } _ { \mathrm { l o w } } ) ( \mathbf { x } ) 其中:

  • Gk(x)reg\mathcal{G}_k(\mathbf{x})_{\mathrm{reg}}:经过正则化后的 3D 高斯。

  • \otimes:卷积操作。

  • Glow\mathcal{G}_{\mathrm{low}}:用于平滑的 3D 高斯低通滤波器。

    此操作效率很高,因为两个协方差矩阵为 Σ1\boldsymbol{\Sigma}_1Σ2\boldsymbol{\Sigma}_2 的高斯进行卷积会产生另一个协方差矩阵为 Σ1+Σ2\boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 的高斯。因此,正则化后的高斯表达式为: Gk(x)reg=ΣkΣk+sν^kI e12(xpk)T(Σk+sν^kI)1(xpk) \mathcal { G } _ { k } ( \mathbf { x } ) _ { \mathrm { r e g } } = \sqrt { \frac { \left| \boldsymbol { \Sigma } _ { k } \right| } { \left| \boldsymbol { \Sigma } _ { k } + \frac { s } { \hat { \nu } _ { k } } \cdot \mathbf { I } \right| } } \ e ^ { - \frac { 1 } { 2 } \left( \mathbf { x } - \mathbf { p } _ { k } \right) ^ { T } ( \boldsymbol { \Sigma } _ { k } + \frac { s } { \hat { \nu } _ { k } } \cdot \mathbf { I } ) ^ { - 1 } ( \mathbf { x } - \mathbf { p } _ { k } ) } 其中:

  • ss:一个标量超参数,用于控制滤波器的大小。

  • I\mathbf{I}:3D 单位矩阵。

  • \left| \cdot \right|:矩阵的行列式。

    需要注意的是,每个基元的 3D 滤波器尺度 sν^k\frac{s}{\hat{\nu}_k} 是不同的,因为它们取决于基元可见的训练视图。通过采用 3D 高斯平滑,本文确保任何高斯的最高频率分量不会超过其最大采样率的一半(对于至少一个相机)。Glow\mathcal{G}_{\mathrm{low}} 成为 3D 表示的内在部分,训练后保持不变。

4.2.3. 2D Mip 滤波器 (2D Mip Filter)

尽管 3D 平滑滤波器有效缓解了高频伪影,但在较低采样率(例如缩小或相机进一步远离)下渲染重建场景仍可能导致混叠。为解决此问题,本文用 2D Mip 滤波器替代了 3DGS 的屏幕空间膨胀滤波器。

3DGS 中的 2D 屏幕空间膨胀 (2D Screen Space Dilation in 3DGS): 3DGS 中为避免投影的 2D 高斯在屏幕空间中过小(小于一个像素)的退化情况,对投影的 2D 高斯进行膨胀处理。其公式为: Gk2D(x)=e12(xpk)T(Σk2D+sI)1(xpk) \mathcal { G } _ { k } ^ { 2 D } ( \mathbf { x } ) = e ^ { - \frac { 1 } { 2 } ( \mathbf { x } - \mathbf { p } _ { k } ) ^ { T } ( \Sigma _ { k } ^ { 2 D } + s \mathbf { I } ) ^ { - 1 } ( \mathbf { x } - \mathbf { p } _ { k } ) } 其中:

  • Gk2D(x)\mathcal{G}_k^{2D}(\mathbf{x}):第 kk 个投影到 2D 屏幕空间的高斯,经过膨胀处理。

  • x\mathbf{x}:2D 屏幕空间中的一个点。

  • pk\mathbf{p}_k:高斯在 2D 屏幕空间中的中心。

  • Σk2D\boldsymbol{\Sigma}_k^{2D}:高斯在 2D 屏幕空间中的协方差矩阵。

  • ss:一个标量膨胀超参数。

  • I\mathbf{I}:2D 单位矩阵。

    本文提出的 2D Mip 滤波器: 本文复制了物理成像过程 [29, 37, 48],其中击中相机传感器像素的光子会在像素区域上积分。虽然理想模型会使用图像空间中的 2D 盒式滤波器,但为了效率,本文用 2D 高斯滤波器近似它: Gk2D(x)mip=Σk2DΣk2D+sIe12(xpk)T(Σk2D+sI)1(xpk) \mathcal { G } _ { k } ^ { 2 D } ( \mathbf { x } ) _ { \mathrm { m i p } } = \sqrt { \frac { \left| \boldsymbol { \Sigma } _ { k } ^ { 2 D } \right| } { \left| \boldsymbol { \Sigma } _ { k } ^ { 2 D } + s \mathbf { I } \right| } } e ^ { - \frac { 1 } { 2 } ( \mathbf { x } - \mathbf { p } _ { k } ) ^ { T } ( \boldsymbol { \Sigma } _ { k } ^ { 2 D } + s \mathbf { I } ) ^ { - 1 } ( \mathbf { x } - \mathbf { p } _ { k } ) } 其中:

  • Gk2D(x)mip\mathcal{G}_k^{2D}(\mathbf{x})_{\mathrm{mip}}:第 kk 个投影到 2D 屏幕空间的高斯,经过 Mip 滤波器处理。

  • ss:标量,其大小被选择为覆盖屏幕空间中的单个像素。

    本文的 Mip 滤波器与 EWA 滤波器 [59] 有相似之处,但其基本原理不同。本文的 Mip 滤波器旨在复制成像过程中的盒式滤波器,目标是精确近似单个像素。而 EWA 滤波器的作用是限制频率信号的带宽,其滤波器大小凭经验选择。本文的 Mip 滤波器通过将 ss 选择为覆盖单个像素,避免了 EWA 滤波器在缩小视图时可能导致图像过度平滑的问题。

5. 实验设置

5.1. 数据集

实验使用了两个流行的基准数据集:

  1. Blender 数据集 [28]: 这是一个合成数据集,常用于评估新颖视角合成算法的性能。它包含不同物体在受控环境下的多视角图像。该数据集的特点是场景具有清晰的边界和物体。
  2. Mip-NeRF 360 数据集 [2]: 这是一个更具挑战性的数据集,包含 360 度场景,通常在无界或复杂环境中捕获。它对模型的泛化能力和处理复杂场景的能力提出了更高要求。

5.2. 评估指标

论文使用了图像质量评估领域常用的三个指标:

  1. 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)

    • 概念定义: PSNR 是一种衡量图像质量的客观标准,通常用于评估重建图像与原始图像之间的失真程度。它的值越高,表示图像失真越小,即重建质量越好。PSNR 衡量的是像素级别的差异,对噪声和误差比较敏感。
    • 数学公式: PSNR=10log10(MAXI2MSE) \text{PSNR} = 10 \cdot \log_{10} \left( \frac{MAX_I^2}{\text{MSE}} \right) 其中,MSE (Mean Squared Error) 的计算公式为: MSE=1mni=0m1j=0n1[I(i,j)K(i,j)]2 \text{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2
    • 符号解释:
      • MAXIMAX_I: 图像中可能的最大像素值,例如,对于 8 位灰度图像,其值为 255。
      • MSE\text{MSE}: 均方误差,衡量原始图像 II 和重建图像 KK 之间像素值的平方差的平均值。
      • I(i,j): 原始图像在坐标 (i,j) 处的像素值。
      • K(i,j): 重建图像在坐标 (i,j) 处的像素值。
      • m, n: 图像的宽度和高度。
  2. 结构相似性指数 (Structural Similarity Index Measure, SSIM)

    • 概念定义: SSIM 是一种感知指标,旨在衡量两幅图像之间的相似性,更符合人类视觉系统的感知。它从亮度、对比度和结构三个方面来评估图像质量,通常取值范围在 0 到 1 之间,值越高表示图像相似性越高,重建质量越好。
    • 数学公式: SSIM(x,y)=(2μxμy+C1)(2σxy+C2)(μx2+μy2+C1)(σx2+σy2+C2) \text{SSIM}(x, y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}
    • 符号解释:
      • x, y: 分别表示原始图像和重建图像的局部区域(例如 8x8 像素窗口)。
      • μx,μy\mu_x, \mu_y: 图像 xxyy 的平均像素值。
      • σx,σy\sigma_x, \sigma_y: 图像 xxyy 的标准差(衡量对比度)。
      • σxy\sigma_{xy}: 图像 xxyy 的协方差(衡量结构相似性)。
      • C1=(K1L)2,C2=(K2L)2C_1 = (K_1 L)^2, C_2 = (K_2 L)^2: 两个常数,用于避免分母为零的情况,LL 是像素值的动态范围(例如 255),K1=0.01,K2=0.03K_1 = 0.01, K_2 = 0.03 是默认值。
  3. 感知图像块相似度 (Learned Perceptual Image Patch Similarity, LPIPS)

    • 概念定义: LPIPS 是一种基于深度学习的感知图像质量指标。它通过比较两幅图像在预训练深度网络(如 VGG 或 AlexNet)特征空间中的距离来评估相似性。LPIPS 值越低,表示两幅图像在感知上越相似,通常认为重建质量越好。它能更好地捕获人类对图像“外观”的判断。
    • 数学公式: LPIPS(x,y)=l1HlWlh,wwl(ϕl(x)h,wϕl(y)h,w)22 \text{LPIPS}(x, y) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \|w_l \odot (\phi_l(x)_{h,w} - \phi_l(y)_{h,w})\|_2^2
    • 符号解释:
      • x, y: 分别表示原始图像和重建图像。
      • ϕl\phi_l: 深度网络中第 ll 层激活特征。
      • wlw_l: 第 ll 层特征图的权重,通常通过学习得到。
      • \odot: 元素级乘法。
      • Hl,WlH_l, W_l: 第 ll 层特征图的高度和宽度。
      • 22\|\cdot\|_2^2: L2 范数平方。

5.3. 对比基线

论文将 Mip-Splatting 与以下 最先进的 (state-of-the-art) 方法进行了比较:

  • NeRF [28]: 神经辐射场的开山之作。
  • NeRF w/o Larea [1, 28]: 未使用区域学习的 NeRF 变体。
  • MipNeRF [1]: 针对 NeRF 的多尺度抗混叠改进,引入了集成位置编码。
  • Plenoxels [11]: 一种基于体素网格的辐射场方法,无需神经网络即可实现快速重建和渲染。
  • TensoRF [4]: 另一种基于张量分解的辐射场表示,旨在提高效率。
  • Instant-NGP [32]: 采用多分辨率哈希编码的神经图形基元,以实现极快的训练和渲染速度。
  • Tri-MipRF [17]: 结合了三平面表示和 Mip 思想的抗混叠神经辐射场。
  • 3DGS [18]: 本文改进的基础模型,用于实时辐射场渲染的 3D 高斯泼溅。
  • 3DGS [18] + EWA [59]: 在 3DGS 基础上,将 2D 膨胀滤波器替换为 EWA 泼溅中使用的抗混叠滤波器。
  • Zip-NeRF [3]: 基于网格的抗混叠神经辐射场。

5.4. 实现细节

  • 代码库: Mip-Splatting 基于流行的开源 3DGS 代码库 [18] 实现。
  • 训练参数: 遵循 [18],所有场景训练 30,000 次迭代,并使用相同的损失函数、高斯密度控制策略、调度和超参数。
  • 采样率重新计算: 为了效率,每 m=100m=100 次迭代重新计算每个 3D 高斯的采样率。
  • 滤波器方差: 2D Mip 滤波器的方差选择为 0.1,以近似单个像素。3D 平滑滤波器的方差选择为 0.2。这两个方差之和为 0.3,以便与 3DGS [18] 和 3DGS+EWA3 \mathrm{DGS} + \mathrm{EWA} [59] 进行公平比较,后者用 EWA 滤波器替代了 3DGS 的膨胀操作。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. Blender 数据集 (Blender Dataset)

多尺度训练与多尺度测试 (Multi-scale Training and Multi-scale Testing)

遵循现有工作 [1, 17],模型使用多尺度数据进行训练,并在多尺度数据上进行评估。与 [1, 17] 类似,全分辨率图像的采样频率高于低分辨率图像。具体而言,本文采样 40% 的全分辨率图像,以及其他每个分辨率图像的 20%。

以下是原文 Table 1 的结果:

PSNR ↑ SSIM↑ LPIPS ↓
Full Res. 1/2 Res. 1/4 Res. 1/8 Res. Avg. Full Res. 1/2 Res. 1/4 Res. 1/8 Res. Avg. Full Res. 1/2 Res. 1/4 Res. 1/8 Res Avg.
NeRF w/o Larea [1, 28] 31.20 30.65 26.25 22.53 27.66 0.950 0.956 0.930 0.871 0.927 0.055 0.034 0.043 0.075 0.052
NeRF [28] 29.90 32.13 33.40 29.47 31.23 0.938 0.959 0.973 0.962 0.958 0.074 0.040 0.024 0.039 0.044
MipNeRF [1] 32.63 34.34 35.47 35.60 34.51 0.958 0.970 0.979 0.983 0.973 0.047 0.026 0.017 0.012 0.026
Plenoxels [11] 31.60 32.85 30.26 26.63 30.34 0.956 0.967 0.961 0.936 0.955 0.052 0.032 0.045 0.077 0.051
TensoRF [4] 32.11 33.03 30.45 26.80 30.60 0.956 0.966 0.962 0.939 0.956 0.056 0.038 0.047 0.076 0.054
Instant-NGP [32] 30.00 32.15 33.31 29.35 31.20 0.939 0.961 0.974 0.963 0.959 0.079 0.043 0.026 0.040 0.047
Tri-MipRF [17]* 32.65 34.24 35.02 35.53 34.36 0.958 0.971 0.980 0.987 0.974 0.047 0.027 0.018 0.012 0.026
3DGS [18] 28.79 30.66 31.64 27.98 29.77 0.943 0.962 0.972 0.960 0.960 0.065 0.038 0.025 0.031 0.040
3DGS [18] + EWA [59] 31.54 33.26 33.78 33.48 33.01 0.961 0.973 0.979 0.983 0.974 0.043 0.026 0.021 0.019 0.027
Mip-Splatting (ours) 32.81 34.49 35.45 35.50 34.56 0.967 0.977 0.983 0.988 0.979 0.035 0.019 0.013 0.010 0.019

分析:

  • 在多尺度训练和多尺度测试设置下,Mip-Splatting 在 PSNR、SSIM 和 LPIPS 所有指标上均取得了可比或优于现有最先进方法(如 MipNeRF [1] 和 Tri-MipRF [17])的性能。
  • 相较于 3DGS [18] 和 3DGS + EWA [59],Mip-Splatting 在所有指标上均以显著优势超越。这表明 2D Mip 滤波器的有效性。
  • 尤其是在 LPIPS(感知相似度)指标上,Mip-Splatting 达到了最低值 (0.019),表明其渲染结果在视觉上与真实图像最为接近。

单尺度训练与多尺度测试 (Single-scale Training and Multi-scale Testing)

与以往在相同尺度下评估模型的工作不同,本文考虑了一种重要的新设置:在全分辨率图像上训练模型,然后在不同分辨率(1×,1/2×,1/4×,1/8×1\times, 1/2\times, 1/4\times, 1/8\times)下渲染以模拟缩小效果。

以下是原文 Table 2 的结果:

PSNR ↑ SSIM ↑ LPIPS ↓
Full Res. 1/2 Res. 1/4 Res. 1/8 Res. Avg. Full Res. 1/2 Res. 1/4 Res. 1/8 Res. Avg. Full Res. 1/2 Res. 1/4 Res. 1/8 Res Avg.
NeRF [28] 31.48 32.43 30.29 26.70 30.23 0.949 0.962 0.964 0.951 0.956 0.061 0.041 0.044 0.067 0.053
MipNeRF [1] 33.08 33.31 30.91 27.97 31.31 0.961 0.970 0.969 0.961 0.965 0.045 0.031 0.036 0.052 0.041
TensoRF [4] 32.53 32.91 30.01 26.45 30.48 0.960 0.969 0.965 0.948 0.961 0.044 0.031 0.044 0.073 0.048
Instant-NGP [32] 33.09 33.00 29.84 26.33 30.57 0.962 0.969 0.964 0.947 0.961 0.044 0.033 0.046 0.075 0.049
Tri-MipRF [17] 32.89 32.84 28.29 23.87 29.47 0.958 0.967 0.951 0.913 0.947 0.046 0.033 0.046 0.075 0.050
3DGS [18] 33.33 26.95 21.38 17.69 24.84 0.969 0.949 0.875 0.766 0.890 0.030 0.032 0.066 0.121 0.063
3DGS [18] + EWA [59] 33.51 31.66 27.82 24.63 29.40 0.969 0.971 0.959 0.940 0.960 0.032 0.024 0.033 0.047 0.034
Mip-Splatting (ours) 33.36 34.00 31.85 28.67 31.97 0.969 0.977 0.978 0.973 0.974 0.031 0.019 0.019 0.026 0.024

分析:

  • 在该单尺度训练、多尺度测试(模拟缩小)场景下,Mip-Splatting 显著优于所有现有最先进方法。

  • 尽管 3DGS [18] 在全分辨率下表现良好 (PSNR 33.33),但在分辨率降低时性能急剧下降 (1/8 Res. PSNR 17.69),且 SSIM 和 LPIPS 也恶化,这证实了其膨胀伪影问题。

  • 3DGS + EWA [59] 表现优于纯 3DGS,但其在低分辨率下的性能仍不如 Mip-Splatting,且 LPIPS 值(0.034)高于 Mip-Splatting(0.024)。论文指出 EWA 泼溅使用大低通滤波器限制频率,导致图像过度平滑 (oversmoothed),尤其在低分辨率下。

  • Mip-Splatting 在所有分辨率下都保持了高质量的渲染,特别是在低分辨率下,其 PSNR、SSIM 和 LPIPS 均显著优于其他方法,表明其在处理缩小效果时具有卓越的抗混叠能力。

    下图是原文 Figure 4 的内容,展示了不同方法在不同采样率下的视觉效果:

    该图像是一个示意图,展示了不同的3D Gaussian Splatting方法在不同采样率下的效果比较。第一行展示了Mip-NeRF的输出,第二行为Tri-MipRF的结果,第三行展示了3DGS + EWA的生成,最后一行为本研究的Mip-Splatting方法与GT对比。 该图像是一个示意图,展示了不同的3D Gaussian Splatting方法在不同采样率下的效果比较。第一行展示了Mip-NeRF的输出,第二行为Tri-MipRF的结果,第三行展示了3DGS + EWA的生成,最后一行为本研究的Mip-Splatting方法与GT对比。 分析: 该图直观地展示了 Mip-Splatting 在不同采样率下渲染的忠实性。在训练分辨率下(全分辨率),所有方法性能相似。然而,在较低分辨率(模拟缩小)下,3DGS [18] 出现明显的膨胀伪影 (dilation artifacts) 和模糊。3DGS + EWA [59] 则出现过度平滑 (oversmoothing)。相比之下,Mip-Splatting 在所有分辨率下都保持了高质量和细节。

6.1.2. Mip-NeRF 360 数据集 (Mip-NeRF 360 Dataset)

单尺度训练与多尺度测试 (模拟放大) (Single-scale Training and Multi-scale Testing (simulating zoom-in))

为了模拟放大 (zoom-in) 效果,模型在下采样 8 倍的数据上进行训练,然后以逐渐更高的分辨率 (1×,2×,4×,8×1\times, 2\times, 4\times, 8\times) 进行渲染。

以下是原文 Table 3 的结果:

PSNR ↑ SSIM↑ LPIPS ↓
1× Res. 2× Res. 4× Res. 8× Res. Avg. 1× Res. 2× Res. 4× Res. 8× Res. Avg. 1× Res. 2× Res. 4× Res. 8× Res. Avg.
Instant-NGP [32] 26.79 24.76 24.27 24.27 25.02 0.746 0.639 0.626 0.698 0.677 0.239 0.367 0.445 0.475 0.382
mip-NeRF 360 [2] 29.26 25.18 24.16 24.10 25.67 0.860 0.727 0.670 0.706 0.741 0.122 0.260 0.370 0.428 0.295
zip-NeRF [3] 29.66 23.27 20.87 20.27 23.52 0.875 0.696 0.565 0.559 0.674 0.097 0.257 0.421 0.494 0.318
3DGS [18] 29.19 23.50 20.71 19.59 23.25 0.880 0.740 0.619 0.619 0.715 0.107 0.243 0.394 0.476 0.305
3DGS [18] + EWA [59] 29.30 25.90 23.70 22.81 25.43 0.880 0.775 0.667 0.643 0.741 0.114 0.236 0.369 0.449 0.292
Mip-Splatting (ours) 29.39 27.39 26.47 26.22 27.37 0.884 0.808 0.754 0.765 0.803 0.108 0.205 0.305 0.392 0.252

分析:

  • 在训练尺度 (1×1\times) 下,Mip-Splatting 的表现与其他方法相当。

  • 但在更高分辨率(模拟放大)下,Mip-Splatting 显著优于所有现有最先进方法。例如,在 8×8\times 分辨率下,Mip-Splatting 的 PSNR 达到 26.22,远高于其他方法,且 LPIPS 值最低 (0.252),表明其视觉质量最佳。

  • Mip-NeRF 360 [2] 和 Zip-NeRF [3] 在分辨率增加时表现不佳,这可能是由于它们的 MLP (Multilayer Perceptron) 难以推断分布外频率。

  • 3DGS [18] 出现明显的侵蚀伪影 (erosion artifacts)

  • 3DGS + EWA [59] 表现较好,但仍然产生了明显的高频伪影。

  • Mip-Splatting 成功避免了这些伪影,生成了更接近 真实标注数据 (Ground Truth, GT) 的高质量图像。

    下图是原文 Figure 5 的内容,展示了不同方法在 Mip-NeRF 360 数据集上模拟放大效果时的视觉效果:

    该图像是插图,展示了不同方法在3D高斯渲染中的表现,包括Mip-NeRF 360, Zip-NeRF, 3DGS, 3DGS与EWA组合以及Mip-Splatting(我们的方法)和GT(Ground Truth)。可以观察到各方法在细节保留和表现上的差异。 该图像是插图,展示了不同方法在3D高斯渲染中的表现,包括Mip-NeRF 360, Zip-NeRF, 3DGS, 3DGS与EWA组合以及Mip-Splatting(我们的方法)和GT(Ground Truth)。可以观察到各方法在细节保留和表现上的差异。 分析: 该图展示了 Mip-Splatting 在模拟放大 (zoom-in) 场景下具有生成高保真图像的能力,且没有高频伪影。与其他方法相比,Mip-Splatting 的结果更接近 真实标注数据 (Ground Truth, GT),尤其是在细节的清晰度和伪影的抑制方面表现出色。

单尺度训练与同尺度测试 (Single-scale Training and Same-scale Testing)

在 Mip-NeRF 360 数据集 [2] 上,遵循标准设置(训练和测试在同一尺度),室内场景下采样两倍,室外场景下采样四倍。

以下是原文 Table 4 的结果:

PSNR ↑ SSIM↑ LPIPS ↓
NeRF [9, 28] 23.85 0.605 0.451
mip-NeRF [1] 24.04 0.616 0.441
NeRF++ [56] 25.11 0.676 0.375
Plenoxels [11] 23.08 0.626 0.463
Instant NGP [32, 52] 25.68 0.705 0.302
mip-NeRF 360 [2, 30] 27.57 0.793 0.234
Zip-NeRF [3] 28.54 0.828 0.189
3DGS [18] 27.21 0.815 0.214
3DGS [18]* 27.70 0.826 0.202
3DGS [18] + EWA [59] 27.77 0.826 0.206
Mip-Splatting (ours) 27.79 0.827 0.203

分析:

  • 在标准的分布内 (in-distribution) 设置下,Mip-Splatting 在 PSNR、SSIM 和 LPIPS 指标上与 3DGS [18]、3DGS + EWA [59] 以及其他最先进的 (state-of-the-art) 方法表现相当 (on par)
  • 这表明 Mip-Splatting 在解决分布外泛化问题的同时,并没有牺牲在标准场景下的性能。

6.2. 消融实验 (Ablation Study)

6.2.1. 3D 平滑滤波器 (3D Smoothing Filter) 的有效性

为了评估 3D 平滑滤波器的有效性,在 Mip-NeRF 360 数据集上进行了单尺度训练和多尺度测试,模拟放大 (zoom-in) 效果。

以下是原文 Table 5 的结果:

PSNR ↑ SSIM ↑ LPIPS ↓
1× Res. 2× Res. 4× Res. 8× Res. Avg. 1× Res. 2× Res. 4× Res. 8× Res. Avg. 1× Res. 2× Res. 4× Res. 8× Res. Avg.
3DGS [18] 29.19 23.50 20.71 19.59 23.25 0.880 0.740 0.619 0.619 0.715 0.107 0.243 0.394 0.476 0.305
3DGS [18] + EWA [59] 29.30 25.90 23.70 22.81 25.43 0.880 0.775 0.667 0.643 0.741 0.114 0.236 0.369 0.449 0.292
Mip-Splatting (ours) 29.39 27.39 26.47 26.22 27.37 0.884 0.808 0.754 0.765 0.803 0.108 0.205 0.305 0.392 0.252
Mip-Splatting (ours) w/o 3D smoothing filter 29.41 27.09 25.83 25.38 26.93 0.881 0.795 0.722 0.713 0.778 0.107 0.214 0.342 0.424 0.272
Mip-Splatting (ours) w/o 2D Mip filter 29.29 27.22 26.31 26.08 27.23 0.882 0.798 0.742 0.759 0.795 0.107 0.214 0.319 0.407 0.262

分析:

  • 移除 3D 平滑滤波器 (w/o 3D smoothing filter):导致在渲染更高分辨率图像时出现高频伪影 (high-frequency artifacts),PSNR、SSIM 和 LPIPS 值均有所下降(例如,平均 PSNR 从 27.37 下降到 26.93)。这表明 3D 平滑滤波器在处理放大时的伪影方面至关重要。

  • 移除 2D Mip 滤波器 (w/o 2D Mip filter):性能略有下降(例如,平均 PSNR 从 27.37 下降到 27.23),但这主要是因为 2D Mip 滤波器主要用于缓解缩小时的伪影,而非放大。

  • 同时移除两者:由于密度控制机制会生成大量小高斯,导致 GPU 内存不足 (out of memory, OOM),因此无法报告结果。这强调了两个滤波器对于模型稳定性(尤其是内存使用)的重要性。

    下图是原文 Figure 6 的内容,展示了移除 3D 平滑滤波器后的视觉效果:

    该图像是系列示意图,展示了不同方法(如3DGS、3DGS与EWA结合、缺少3D平滑滤波、缺少2D Mip滤波和Mip-Splatting(我们的方法))在合成图像中的效果对比。图中最后一列为真实图像(GT)。 该图像是系列示意图,展示了不同方法(如3DGS、3DGS与EWA结合、缺少3D平滑滤波、缺少2D Mip滤波和Mip-Splatting(我们的方法))在合成图像中的效果对比。图中最后一列为真实图像(GT)。 分析: 该图进一步证实了 3D 平滑滤波器在抑制高频伪影方面的关键作用。移除该滤波器后,图像在细节处(例如物体边缘)出现明显的锯齿和不规则性,验证了 3D 平滑滤波器对于生成高保真、无伪影渲染的重要性。

6.2.2. 2D Mip 滤波器 (2D Mip Filter) 的有效性

为了评估 2D Mip 滤波器的有效性,在 Blender 数据集上进行了单尺度训练和多尺度测试,模拟缩小 (zoom-out) 效果。

以下是原文 Table 6 的结果:

PSNR ↑ SSIM ↑ LPIPS ↓
Full Res. 1/2 Res. 1/4 Res. 1/8 Res. Avg. Full Res. 1/2 Res. 1/4 Res. 1/8 Res. Avg. Full Res. 1/2 Res. 1/4 Res. 1/8 Res Avg.
3DGS [18] 33.33 26.95 21.38 17.69 24.84 0.969 0.949 0.875 0.766 0.890 0.030 0.032 0.066 0.121 0.063
3DGS [18] + EWA [59] 33.51 31.66 27.82 24.63 29.40 0.969 0.971 0.959 0.940 0.960 0.032 0.024 0.033 0.047 0.034
3DGS [18] - Dilation 33.38 33.06 29.68 26.19 30.58 0.969 0.973 0.964 0.945 0.963 0.030 0.024 0.041 0.075 0.042
Mip-Splatting (ours) 33.36 34.00 31.85 28.67 31.97 0.969 0.977 0.978 0.973 0.974 0.031 0.019 0.019 0.026 0.024
Mip-Splatting (ours) w/ 3D smoothing filter 33.67 34.16 31.56 28.20 31.90 0.970 0.977 0.978 0.971 0.974 0.030 0.018 0.019 0.027 0.024
Mip-Splatting (ours) w/o 2D Mip filter 33.51 33.38 29.87 26.28 30.76 0.970 0.975 0.966 0.946 0.964 0.031 0.022 0.039 0.073 0.041

分析:

  • 3DGS - Dilation (移除膨胀操作):消除了膨胀效果,性能优于原始 3DGS,但由于缺乏抗混叠,仍会导致混叠伪影 (aliasing artifacts)
  • 移除 2D Mip 滤波器 (w/o 2D Mip filter):导致性能显著下降(例如,平均 PSNR 从 31.97 下降到 30.76),这验证了 2D Mip 滤波器在抗混叠方面的关键作用。
  • Mip-Splatting (ours) w/ 3D smoothing filter (仅使用 3D 平滑滤波器):由于 3D 滤波器主要针对放大时的高频伪影,所以移除 2D Mip 滤波器后,在缩小场景下的性能下降。当 2D Mip filter 被保留时 (Mip-Splatting (ours) 自身),性能最佳。

6.2.3. 单尺度训练与多尺度测试 (同时模拟放大和缩小)

在 Mip-NeRF 360 数据集上进行一项附加实验,同时评估放大 (zoom-in) 和缩小 (zoom-out) 效果。模型在下采样 4 倍的图像上进行训练,然后在多个分辨率 (1/4×,1/2×,1×,2×,4×1/4\times, 1/2\times, 1\times, 2\times, 4\times) 下进行评估。

以下是原文 Table 7 的结果:

PSNR ↑ SSIM↑ LPIPS ↓
1/4 Res. 1/2 Res. 1× Res. 2× Res. 4× Res. Avg. 1/4 Res. 1/2 Res. 1× Res. 2× Res. 4× Res. Avg. 1/4 Res. 1/2 Res. 1× Res. 2× Res. 4× Res. Avg.
3DGS [18] 20.85 24.66 28.01 25.08 23.37 24.39 0.681 0.812 0.834 0.766 0.735 0.765 0.203 0.158 0.275 0.383 0.370 0.277
3DGS [18] + EWA [59] 27.40 28.39 28.09 26.43 25.30 27.12 0.888 0.871 0.833 0.774 0.738 0.821 0.103 0.126 0.166 0.171 0.237 0.166
Mip-Splatting (ours) 28.98 29.02 28.09 27.25 26.95 28.06 0.908 0.880 0.835 0.798 0.800 0.844 0.086 0.114 0.168 0.248 0.331 0.189
Mip-Splatting (ours) w/o 3D smoothing filter 28.69 28.94 28.05 27.06 26.61 27.87 0.905 0.879 0.833 0.790 0.780 0.837 0.088 0.115 0.168 0.261 0.359 0.198
Mip-Splatting (ours) w/o 2D Mip filter 26.09 28.04 28.05 27.27 27.00 27.29 0.815 0.856 0.834 0.798 0.802 0.821 0.167 0.132 0.167 0.249 0.335 0.210

分析:

  • Mip-Splatting 在放大和缩小渲染质量上均显著优于 3DGS [18] 和 3DGS + EWA [59],这与主要结果一致。

  • 移除 3D 平滑滤波器导致高频伪影(例如,平均 LPIPS 从 0.189 增加到 0.198)。

  • 移除 2D Mip 滤波器导致混叠伪影(例如,平均 LPIPS 从 0.189 增加到 0.210)。

    下图是原文 Figure 7 的内容,展示了移除 3D 平滑滤波器和 2D Mip 滤波器后的视觉效果:

    该图像是示意图,展示了不同方法在3D高斯样本生成中的表现,包括传统方法和Mip-Splatting方法的比较。可见在不同缩放因子下,效果差异显著,尤其是在细节方面。图中包含关于缩放倍数的标注以及各个方法的名称信息。 该图像是示意图,展示了不同方法在3D高斯样本生成中的表现,包括传统方法和Mip-Splatting方法的比较。可见在不同缩放因子下,效果差异显著,尤其是在细节方面。图中包含关于缩放倍数的标注以及各个方法的名称信息。 分析: 该图直观地展示了两个滤波器在同时处理放大和缩小场景时的协同作用。移除 3D 平滑滤波器导致放大时出现高频细节的失真,而移除 2D Mip 滤波器则导致缩小时的混叠伪影。这进一步强调了 Mip-Splatting 中两个滤波器对于实现全面无混叠渲染的不可或缺性。

6.3. 附加结果 (Additional Results)

本节提供了 Blender 数据集 [28] 和 Mip-NeRF 360 数据集 [2] 的更多定性和定量结果。

6.3.1. Blender 数据集 (Blender Dataset)

多尺度训练与多尺度测试 (Multi-scale Training and Multi-scale Testing)

以下是原文 Table 8 的结果,展示了每个指标在数据集使用的 4 个尺度上的平均值:

PSNR SSIM LPIPS
chair drums ficus hotdog lego materials mic ship Average chair drums ficus hotdog lego materials mic ship Average chair drums ficus hotdog lego materials mic ship Average
NeRF w/o Larea [1, 28] 29.92 23.27 27.15 32.00 35.64 27.75 26.30 28.40 27.66 0.944 0.891 0.942 0.959 0.926 0.934 0.958 0.861 0.927 0.035 0.069 0.032 0.028 0.041 0.045 0.031 0.095 0.052
NeRF [28] 33.39 25.87 30.37 31.65 30.18 32.60 30.09 31.23 31.23 0.971 0.932 0.971 0.979 0.965 0.967 0.980 0.900 0.958 0.011 0.026 0.024 0.035 0.033 0.044 0.012 0.085 0.044
MipNeRF [1] 37.14 27.02 33.19 39.31 35.74 32.56 38.04 33.08 34.51 0.988 0.945 0.984 0.988 0.984 0.977 0.993 0.922 0.973 0.044 0.044 0.014 0.012 0.013 0.019 0.007 0.062 0.026
Plenoxels [11] 32.79 25.25 30.28 34.65 31.26 28.33 31.53 28.59 30.34 0.968 0.929 0.972 0.976 0.964 0.959 0.979 0.892 0.955 0.040 0.070 0.032 0.037 0.038 0.055 0.036 0.104 0.051
TensoRF [4] 32.47 25.37 31.16 34.96 31.73 28.53 31.48 29.08 30.60 0.967 0.930 0.974 0.977 0.967 0.957 0.978 0.895 0.956 0.042 0.075 0.032 0.035 0.036 0.063 0.040 0.112 0.054
Instant-ngp [32] 32.95 26.43 30.41 35.87 31.83 29.31 32.58 30.23 31.20 0.971 0.940 0.973 0.979 0.966 0.959 0.981 0.904 0.959 0.035 0.066 0.029 0.028 0.040 0.051 0.032 0.095 0.047
Tri-MipRF [17]* 37.67 27.35 33.57 38.78 35.72 31.42 37.63 32.74 34.36 0.990 0.951 0.985 0.988 0.986 0.969 0.992 0.929 0.974 0.011 0.046 0.016 0.014 0.013 0.033 0.008 0.069 0.026
3DGS [18] 32.73 25.30 29.00 35.03 29.44 27.13 31.17 28.33 29.77 0.976 0.941 0.968 0.982 0.964 0.956 0.979 0.910 0.960 0.025 0.056 0.030 0.022 0.038 0.040 0.023 0.086 0.040
3DGS [18] + EWA [59] 35.77 27.14 33.65 37.74 32.75 30.21 35.21 31.63 33.01 0.986 0.958 0.988 0.988 0.979 0.972 0.990 0.929 0.974 0.017 0.039 0.013 0.016 0.024 0.026 0.011 0.070 0.027
Mip-Splatting (ours) 37.48 27.74 34.71 39.15 35.07 31.88 37.68 32.80 34.56 0.991 0.963 0.990 0.990 0.987 0.978 0.994 0.936 0.979 0.010 0.031 0.009 0.011 0.012 0.018 0.005 0.059 0.019

分析:

  • Mip-Splatting 在多尺度训练和测试下,在 Blender 数据集上实现了最先进的 (state-of-the-art) 性能,平均 PSNR、SSIM 均最高,LPIPS 最低。
  • 在各个场景(如 ficus, hotdog, mic 等)中,Mip-Splatting 均取得了优异的性能。

单尺度训练与多尺度测试 (Single-scale Training and Multi-scale Testing)

以下是原文 Table 9 的结果,展示了每个指标在数据集使用的 4 个尺度上的平均值:

chair drums ficus hotdog PSNR lego materials mic ship Average
NeRF [28] 31.99 25.31 30.74 34.45 30.69 28.86 31.41 28.36 30.23
MipNeRF [1] 32.89 25.58 31.80 35.40 32.24 29.46 33.26 29.88 31.31
TensoRF [4] 32.17 25.51 31.19 34.69 31.46 28.60 31.50 28.71 30.48
Instant-ngp [32] 32.18 25.05 31.32 34.85 31.53 28.59 32.15 28.84 30.57
Tri-MipRF [17] 32.48 24.01 28.41 34.45 30.41 27.82 31.19 27.02 29.47
3DGS [18] 26.81 21.17 26.02 28.80 25.36 23.10 24.39 23.05 24.84
3DGS [18] + EWA [59] 32.85 24.91 31.94 33.33 29.76 27.36 27.68 27.41 29.40
Mip-Splatting (ours) 35.69 26.50 32.99 36.18 32.76 30.01 31.66 29.98 31.97
SSIM
NeRF [28] chair 0.968 drums 0.936 ficus 0.976 hotdog 0.977 lego 0.963 materials 0.964 mic 0.980 ship 0.887 Average 0.956
MipNeRF [1] 0.974 0.939 0.981 0.982 0.973 0.969 0.987 0.915 0.965
TensoRF [4] 0.970 0.938 0.978 0.979 0.970 0.963 0.981 0.906 0.961
Instant-ngp [32] 0.970 0.935 0.977 0.980 0.969 0.962 0.982 0.909 0.961
Tri-MipRF [17] 0.971 0.908 0.957 0.975 0.957 0.953 0.975 0.883 0.947
3DGS [18] 0.915 0.851 0.921 0.930 0.882 0.882 0.909 0.827 0.890
3DGS [18] + EWA [59] 0.978 0.942 0.983 0.977 0.964 0.958 0.963 0.912 0.960
Mip-Splatting (ours) 0.988 0.958 0.988 0.987 0.982 0.974 0.986 0.930 0.974
LPIPS
NeRF [28] chair 0.040 drums 0.067 ficus 0.027 hotdog 0.034 lego 0.043 materials 0.049 mic 0.035 ship 0.132 Average 0.053
MipNeRF [1] 0.033 0.062 0.022 0.025 0.030 0.041 0.023 0.092 0.041
TensoRF [4] 0.036 0.066 0.027 0.030 0.035 0.052 0.034 0.102 0.048
Instant-ngp [32] 0.036 0.074 0.035 0.030 0.035 0.054 0.034 0.096 0.049
Tri-MipRF [17] 0.026 0.086 0.041 0.023 0.036 0.048 0.023 0.117 0.050
3DGS [18] 0.047 0.087 0.055 0.034 0.064 0.055 0.046 0.113 0.063
3DGS [18] + EWA [59] 0.023 0.051 0.017 0.018 0.033 0.027 0.024 0.077 0.034
Mip-Splatting (ours) 0.014 0.035 0.012 0.014 0.016 0.019 0.015 0.066 0.024

分析:

  • 在单尺度训练和多尺度测试中,Mip-Splatting 在 Blender 数据集上的平均性能(所有场景的平均)在 PSNR、SSIM 和 LPIPS 上均显著优于所有基线方法。

  • 尤其是在 chairficus 等场景中,Mip-Splatting 取得了非常低的 LPIPS 值(0.014 和 0.012),表明其在这些场景中具有出色的感知质量。

  • 这进一步验证了 Mip-Splatting 在单尺度训练下,也能很好地泛化到不同输出尺度,从而在模拟缩小场景中表现优异。

    下图是原文 Figure 8 的内容,展示了不同方法在不同采样率下的视觉效果:

    该图像是一个示意图,展示了不同采样率下的3D高斯渲染效果,包含多种不同分辨率的图像对比。图中显示了不同算法的渲染效果,包括Mip-NeRF、Tri-MipRF、3DGS,以及本研究提出的Mip-Splatting。通过比较,可以观察到在不同焦距和相机距离下产生的伪影。 该图像是一个示意图,展示了不同采样率下的3D高斯渲染效果,包含多种不同分辨率的图像对比。图中显示了不同算法的渲染效果,包括Mip-NeRF、Tri-MipRF、3DGS,以及本研究提出的Mip-Splatting。通过比较,可以观察到在不同焦距和相机距离下产生的伪影。 分析: 该图再次强调了 Mip-Splatting 在模拟缩小 (zoom-out) 场景下相对于其他方法的视觉优势。在较低分辨率下,3DGS 和 3DGS + EWA 仍显示出模糊或过度平滑,而 Mip-Splatting 则能保持更清晰的细节和更忠实的场景表示。

6.3.2. Mip-NeRF 360 数据集 (Mip-NeRF 360 Dataset)

单尺度训练与同尺度测试 (Single-scale Training and Same-scale Testing)

以下是原文 Table 10 的结果,展示了每个指标在数据集使用的 4 个尺度上的平均值:

PSNR
bicycle flowers garden stump treehill room counter kitchen bonsai
NeRF [9, 28] 21.76 19.40 23.11 21.73 21.28 28.56 25.67 26.31
mip-NeRF [1] 21.69 19.31 23.16 23.10 21.21 28.73 25.59 26.47
NeRF++ [56] 22.64 20.31 24.32 24.34 22.20 28.87 26.38 27.80
Plenoxels [11] 21.91 20.10 23.49 20.661 22.25 27.59 23.62 23.42
Instant NGP [32, 52] 22.79 19.19 25.26 24.80 22.46 30.31 26.21 29.00
mip-NeRF 360 [2, 30] 24.40 21.64 26.94 26.36 22.81 31.40 29.44 32.02
Zip-NeRF [3] 25.80 22.40 28.20 27.55 23.89 32.65 29.38 32.50
3DGS [18] 25.25 21.52 27.41 26.55 22.49 30.63 28.70 30.32
3DGS [18]* 25.63 21.77 27.70 26.87 22.75 31.69 29.08 31.56
3DGS [18] + EWA [59] 25.64 21.86 27.65 26.87 22.91 31.68 29.21 31.59
Mip-Splatting (ours) 25.72 21.93 27.76 26.94 22.98 31.74 29.16 31.55
SSIM
NeRF [9, 28] mip-NeRF [1] bicycle 0.455 flowers 0.376 garden 0.546 stump 0.453 treehill 0.459 room counter 0.843 kitchen 0.775 bonsai 0.749 0.792
NeRF++ [56] 0.526 0.373 0.543 0.517 0.466 0.851 0.779 0.745 0.818
Plenoxels [11] 0.496 0.453 0.635 0.594 0.530 0.852 0.802 0.816 0.876
Instant NGP [32, 52] 0.540 0.378 0.709 0.654 0.547 0.893 0.845 0.857 0.924
mip-NeRF 360 [2, 30] 0.693 0.583 0.816 0.746 0.632 0.913 0.895 0.920 0.939
Zip-NeRF [3] 0.769 0.642 0.860 0.800 0.681 0.925 0.902 0.928 0.949
3DGS [18] 0.771 0.605 0.868 0.775 0.638 0.914 0.905 0.922 0.938
3DGS [18]* 0.777 0.622 0.873 0.783 0.652 0.928 0.916 0.933 0.948
3DGS [18] + EWA [59] 0.777 0.620 0.871 0.784 0.655 0.927 0.916 0.933 0.948
Mip-Splatting (ours) 0.780 0.623 0.875 0.786 0.655 0.928 0.916 0.933 0.948
LPIPS
NeRF [9, 28] bicycle 0.536 flowers 0.529 garden 0.415 stump 0.551 treehill 0.546 room counter 0.353 kitchen 0.394 bonsai 0.335 0.398
mip-NeRF [1] 0.541 0.535 0.422 0.490 0.538 0.346 0.390 0.336 0.370
NeRF++ [56] 0.455 0.466 0.331 0.416 0.466 0.335 0.351 0.260 0.291
Plenoxels [11] 0.506 0.521 0.3864 0.503 0.540 0.419 0.441 0.447 0.398
Instant NGP [32, 52] 0.398 0.441 0.255 0.339 0.420 0.242 0.255 0.170 0.198
mip-NeRF 360 [2, 30] 0.289 0.345 0.164 0.254 0.338 0.211 0.203 0.126 0.177
Zip-NeRF [3] 0.208 0.273 0.118 0.193 0.242 0.196 0.185 0.116 0.173
3DGS [18] 0.205 0.336 0.103 0.210 0.317 0.220 0.204 0.129 0.205
3DGS [18]* 0.205 0.329 0.103 0.208 0.318 0.192 0.178 0.113 0.174
3DGS [18] + EWA [59] 0.213 0.335 0.111 0.210 0.325 0.192 0.179 0.113 0.173
Mip-Splatting (ours) 0.206 0.331 0.103 0.209 0.320 0.192 0.179 0.113 0.173

分析:

  • 在标准的分布内 (in-distribution) 设置下(Mip-NeRF 360 数据集,室内场景下采样两倍,室外场景下采样四倍),Mip-Splatting 与 3DGS [18] 和 3DGS + EWA [59] 表现相当 (on par)
  • 在多个场景中,如 gardenkitchenbonsai 等,Mip-Splatting 均取得了竞争力甚至略优的 LPIPS 分数。这表明即使在未专门针对多尺度泛化进行设计的标准设置中,Mip-Splatting 也能保持其性能。

单尺度训练与多尺度测试 (模拟放大) (Single-scale Training and Multi-scale Testing (simulating zoom-in))

模型在下采样 8 倍的数据上进行训练,然后以逐渐更高的分辨率 (1×,2×,4×,8×1\times, 2\times, 4\times, 8\times) 进行渲染,以模拟放大效果。

以下是原文 Table 11 的结果:

PSNR
bicycle flowers garden stump treehill room counter kitchen bonsai
Instant-NGP [32] 22.51 20.25 24.65 23.15 22.24 29.48 26.18 27.10
mip-NeRF 360 [2] 24.21 21.60 25.82 25.59 22.78 29.95 27.72 28.78
zip-NeRF [3] 23.05 20.05 18.07 23.94 22.53 26.08 27.37 30.05
3DGS [18] 21.34 19.43 21.94 22.63 20.91 28.10 25.33 23.68
3DGS [18] + EWA [59] 23.74 20.94 24.69 24.81 21.93 29.80 27.23 27.07
Mip-Splatting (ours) 25.26 22.02 26.78 26.65 22.92 31.56 28.87 30.73
SSIM
Instant-NGP [32] bicycle 0.538 flowers 0.473 garden 0.647 stump 0.590 treehill 0.544 room 0.868 counter 0.795 kitchen 0.764 bonsai 0.877
mip-NeRF 360 [2] 0.662 0.567 0.716 0.715 0.628 0.895 0.845 0.828 0.910
zip-NeRF [3] 0.640 0.521 0.548 0.661 0.590 0.784 0.800 0.865 0.865
3DGS [18] 0.638 0.536 0.675 0.662 0.591 0.878 0.826 0.789 0.838
3DGS [18] + EWA [59] 0.671 0.563 0.718 0.693 0.608 0.889 0.843 0.813 0.874
Mip-Splatting (ours) 0.738 0.786 0.776 0.659 0.921 0.897 0.903 0.933 0.933
LPIPS
Instant-NGP [32] bicycle 0.500 flowers 0.486 garden 0.372 stump 0.469 treehill 0.511 room 0.270 counter 0.310 kitchen 0.286 bonsai 0.229
mip-NeRF 360 [2] 0.358 0.400 0.296 0.333 0.391 0.256 0.228 0.210 0.182
zip-NeRF [3] 0.353 0.397 0.346 0.349 0.353 0.302 0.277 0.232 0.236
3DGS [18] 0.336 0.406 0.295 0.406 0.405 0.223 0.239 0.245 0.242
3DGS [18] + EWA [59] 0.322 0.395 0.281 0.334 0.217 0.231 0.216 0.227 0.227
Mip-Splatting (ours) 0.281 0.373 0.233 0.281 0.369 0.193 0.199 0.165 0.176

分析:

  • 在 Mip-NeRF 360 数据集上模拟放大 (zoom-in) 效果时,Mip-Splatting 在几乎所有场景中的 PSNR、SSIM 和 LPIPS 均优于其他方法。

  • 例如,在 room 场景中,Mip-Splatting 的 LPIPS 达到 0.193,显著低于其他方法,表明其在此类复杂场景的放大渲染中表现出卓越的感知质量。

  • 这进一步证实了 Mip-Splatting 即使在训练数据分辨率较低的情况下,也能通过其 3D 平滑滤波器有效地生成高质量的放大图像,避免了高频伪影。

    下图是原文 Figure 9 的内容,展示了 Mip-NeRF 360 数据集上模拟放大效果时的视觉对比:

    该图像是多个视角的对比图,展示了不同算法(如Mip-NeRF 360、Zip-NeRF、3DGS等)在3D高斯渲染中的表现。每列展示了改进方法在视觉细节和真实感上的差异,旨在强调Mip-Splatting的优越性。 该图像是多个视角的对比图,展示了不同算法(如Mip-NeRF 360、Zip-NeRF、3DGS等)在3D高斯渲染中的表现。每列展示了改进方法在视觉细节和真实感上的差异,旨在强调Mip-Splatting的优越性。 分析: 该图展示了 Mip-Splatting 在 Mip-NeRF 360 数据集上渲染的图像在视觉上如何优于其他最先进的 (state-of-the-art) 方法。在放大场景中,Mip-Splatting 能够消除高频伪影,提供更清晰、更真实的图像细节,使其渲染结果更接近真实标注数据 (Ground Truth, GT)

6.4. 局限性与未来工作

  • 高斯滤波器对盒式滤波器的近似误差: 本文的方法使用高斯滤波器来近似盒式滤波器以提高效率。然而,这种近似会引入误差,尤其是在高斯在屏幕空间中较小的情况下。这与实验结果中,放大 (zoom-out) 程度增加会导致误差增大的发现相符(如 Table 2 所示)。
  • 训练开销略有增加: 由于每 m=100m=100 次迭代需要重新计算每个 3D 高斯的采样率,训练开销略有增加。目前这个计算是通过 PyTorch [35] 完成的,如果使用更高效的 CUDA 实现,可能会减少这部分开销。
  • 采样率预计算数据结构: 采样率的计算仅依赖于相机姿态和内参,因此设计更好的数据结构来预计算和存储采样率是未来的研究方向。
  • 渲染开销: 值得注意的是,在渲染阶段,3D 平滑滤波器可以与高斯基元融合(如公式 9 所示),因此不会产生额外的渲染开销。

7. 总结与思考

7.1. 结论总结

本文提出了 Mip-Splatting,对 3D 高斯泼溅 (3DGS) 进行了改进,引入了两个新颖的滤波器:3D 平滑滤波器 (3D smoothing filter)2D Mip 滤波器 (2D Mip filter),以实现在任意尺度下的无混叠渲染 (alias-free rendering)

  • 3D 平滑滤波器:有效地将高斯基元的最大频率限制在训练图像施加的采样约束范围内,解决了放大时的伪影问题。

  • 2D Mip 滤波器:通过近似盒式滤波器来模拟物理成像过程,从而在缩小视图时提供更忠实、无混叠的渲染效果。

    实验结果表明,Mip-Splatting 在训练和测试尺度/采样率相同时,性能与现有最先进的 (state-of-the-art) 方法具有竞争力。更重要的是,在测试采样率与训练不同(即分布外场景 (out-of-distribution scenarios))时,Mip-Splatting 显著优于现有方法,从而更好地泛化到分布外的相机姿态和缩放因子。

7.2. 局限性与未来工作

论文明确指出了以下局限性:

  1. 高斯近似误差:使用高斯滤波器近似盒式滤波器会引入误差,尤其当高斯在屏幕空间中很小时,这在放大 (zoom-out) 程度增加时表现更为明显。

  2. 训练开销:每 100 次迭代重新计算 3D 高斯的采样率会略微增加训练开销。作者建议通过 CUDA 实现来优化,并提出设计更好的数据结构来预计算和存储采样率作为未来的工作。

    未来的工作方向集中在优化计算效率和更精确的滤波器设计。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 理论与实践的结合:这篇论文很好地展示了如何将信号处理的基本理论(Nyquist-Shannon 采样定理)应用到计算机图形学的实际问题中。通过从根本上理解采样不足导致的混叠问题,并从 3D 场景表示层面进行频率约束,这种方法比单纯在 2D 渲染阶段进行后处理更具原则性。
  2. “分布外”泛化能力的强调:在许多机器学习任务中,模型在训练数据分布内表现良好,但在分布外数据上性能下降是常见问题。本文明确提出并解决了 3DGS 在“分布外”采样率下的泛化问题,这对于 NVS 技术的实际应用至关重要,因为用户通常希望在任意缩放和视角下都能获得高质量渲染。
  3. 对现有方法的深刻洞察:作者不仅指出了 3DGS 膨胀操作的局限性,还分析了其“隐式收缩偏置”导致的问题,这表明对现有方法机制的深入理解是提出有效改进的关键。
  4. 工程与效率的考量:虽然引入了新的计算,但作者也强调了这些修改的效率(如 3D 滤波器与高斯基元的融合不会增加渲染开销),并在局限性中讨论了如何进一步优化,这体现了工程实践中的务实精神。

7.3.2. 批判性思考

  1. 高斯滤波器近似盒式滤波器的影响:虽然高斯滤波器效率高,但其对理想盒式滤波器的近似必然带来信息损失或模糊。论文中也承认这是其局限性之一,尤其是在高斯较小(即极端放大或缩小)时。未来是否有更精确且高效的近似方法,或者通过可学习的方式来适应不同尺度下的最佳滤波器参数,值得探索。
  2. 采样率计算的鲁棒性:最大采样率 ν^k\hat{\nu}_k 的计算依赖于高斯中心 pk\mathbf{p}_k 的深度 dnd_n 和相机的焦距 fnf_n。尽管论文称高斯中心在训练中相对稳定,但对于动态场景或深度估计不准确的场景,这种计算的鲁棒性可能受到影响。此外,忽略遮挡对采样间隔估计的影响,在复杂遮挡场景中可能会引入误差。
  3. 超参数 ss 的敏感性:3D 平滑滤波器和 2D Mip 滤波器中都有一个标量超参数 ss 来控制滤波器大小。虽然论文给出了实验中使用的值,但这些值是如何确定的,以及它们对性能的敏感性如何,值得进一步分析。不同场景可能需要不同的 ss 值,这会增加调优的复杂性。
  4. 对 3DGS 依赖性:Mip-Splatting 是 3DGS 的扩展,因此继承了 3DGS 的一些特性和潜在局限性。例如,3DGS 在处理拓扑复杂或薄结构(如头发、线缆)时仍可能存在挑战,Mip-Splatting 的改进主要集中在抗混叠上,可能并未完全解决这些深层几何表示问题。
  5. 内存消耗:论文在消融实验中提到,同时移除两个滤波器会导致 GPU 内存不足 (OOM),这表明 3DGS 的密度控制机制在没有适当正则化时会生成大量小高斯。Mip-Splatting 虽然解决了这个问题,但 3D 高斯数量的增长仍可能对内存和计算资源提出要求,尤其是在更大规模或更精细的场景中。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。