AiPaper
论文状态:已完成

Mip-Splatting: Alias-free 3D Gaussian Slatting

原文链接
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出的3D平滑滤波器有效解决了3D高斯泼溅中的伪影问题,通过根据最大采样频率约束3D高斯基元的尺寸,消除放大时的高频伪影。同时,采用的2D Mip滤波器替代了传统的2D膨胀滤波器,显著缓解了混叠和膨胀问题。

摘要

Recently, 3D Gaussian Splatting has demonstrated impressive novel view synthesis results, reaching high fidelity and efficiency. However, strong artifacts can be observed when changing the sampling rate, e.g., by changing focal length or camera distance. We find that the source for this phenomenon can be attributed to the lack of 3D frequency constraints and the usage of a 2D dilation filter. To address this problem, we introduce a 3D smoothing filter which constrains the size of the 3D Gaussian primitives based on the maximal sampling frequency induced by the input views, eliminating high-frequency artifacts when zooming in. Moreover, replacing 2D dilation with a 2D Mip filter, which simulates a 2D box filter, effectively mitigates aliasing and dilation issues. Our evaluation, including scenarios such a training on single-scale images and testing on multiple scales, validates the effectiveness of our approach.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Mip-Splatting: Alias-free 3D Gaussian Splatting

1.2. 作者

Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger

1.3. 所属机构

  1. University of Tübingen
  2. Tübingen AI Center
  3. ShanghaiTech University
  4. Czech Technical University in Prague

1.4. 发表期刊/会议

论文未直接指明发表期刊或会议,但从内容和引用格式来看,通常属于计算机图形学或计算机视觉领域的顶级会议(如 ICCV, CVPR, SIGGRAPH)或期刊。根据公开信息,该工作通常被归类为 2023 年末或 2024 年初的研究。

1.5. 发表年份

2024 (根据论文内容和引用推断)

1.6. 摘要

近期,3D Gaussian Splatting (3DGS) (三维高斯泼溅) 在新视图合成 (Novel View Synthesis, NVS) 领域取得了令人印象深刻的成果,实现了高保真度和高效率。然而,当采样率 (sampling rate) 发生变化时(例如,通过改变焦距或相机距离),3DGS 会出现明显的伪影 (artifacts)。本文研究发现,这种现象的根源在于缺乏 3D 频率约束 (3D frequency constraints) 和使用了 2D 膨胀滤波器 (2D dilation filter)。为解决此问题,本文引入了一个 3D 平滑滤波器 (3D smoothing filter),它根据输入视图所产生的最大采样频率 (sampling frequency) 来约束 3D Gaussian 基元的尺寸,从而消除了放大(zooming in)时的高频伪影。此外,通过用模拟 2D 盒式滤波器 (2D box filter)2D Mip 滤波器 (2D Mip filter) 取代 2D 膨胀滤波器,有效地缓解了混叠 (aliasing)膨胀 (dilation) 问题。本文在包括单尺度图像训练和多尺度测试在内的多种场景中进行了评估,验证了该方法的有效性。

1.7. 原文链接

/files/papers/691356dc430ad52d5a9ef405/paper.pdf (此链接为用户提供的本地文件路径,状态未知。)

2. 整体概括

2.1. 研究背景与动机

新视图合成 (Novel View Synthesis, NVS) 是计算机图形学和计算机视觉中的一个关键任务,在虚拟现实、电影制作和机器人等领域有广泛应用。近年来,神经辐射场 (Neural Radiance Field, NeRF) [28] 及其变体在该领域取得了显著进展。最近,3D Gaussian Splatting (3DGS) [18] 作为 NeRF 的一种有吸引力的替代方案脱颖而出,它通过一组可优化的 3D Gaussian 基元来表示场景,并利用泼溅式 (splatting-based) 光栅化实现实时渲染 (real-time rendering) 和高保真度。

然而,3DGS 存在一个显著的局限性:当渲染视图的采样率 (sampling rate) 与训练视图的采样率发生显著变化时,会产生严重的伪影 (artifacts)。例如,当相机拉近(zooming in)时,会出现“侵蚀伪影 (erosion artifacts)”,因为2D 投影高斯 (2D projected Gaussians) 显得过小,导致缝隙;当相机拉远(zooming out)时,则出现“膨胀伪影 (dilation artifacts)”和混叠 (aliasing),因为原始 3DGS 中的 2D 膨胀操作 (2D dilation operation) 会不适当地传播辐射。这些问题严重影响了 3DGS分布外 (out-of-distribution) 场景(如变焦或相机距离变化)下的泛化能力 (generalization capability)

论文认为,这些伪影的根本原因在于:

  1. 缺乏 3D 频率约束 (3D frequency constraints) 3DGS 在优化过程中没有明确限制 3D Gaussian 基元的最大频率 (maximal frequency),导致高频信息 (high-frequency information)低采样率 (low sampling rate) 下无法被忠实地表示,从而在放大时产生侵蚀伪影

  2. 不当使用 2D 膨胀滤波器 (2D dilation filter) 3DGS 为了避免2D 投影高斯过小而引入的屏幕空间 (screen space) 2D 膨胀操作,在采样率变化时会产生膨胀伪影混叠

    因此,迫切需要一种方法来解决 3DGS多尺度 (multi-scale) 渲染中的伪影问题,以提高其在各种应用场景下的鲁棒性和实用性。

2.2. 核心贡献/主要发现

本文提出了 Mip-Splatting,对 3DGS 进行了两项核心修改,以实现任意尺度 (arbitrary scales) 下的无混叠 (alias-free) 渲染:

  1. 引入 3D 平滑滤波器 (3D smoothing filter)

    • 该滤波器根据训练视图决定的最大采样频率 (maximal sampling frequency),约束 3D Gaussian 基元的尺寸。
    • 通过将 3D 低通滤波器 (3D low-pass filter) 融合到 3D Gaussian 的协方差中,确保 3D 表示频率内容 (frequency content) 符合奈奎斯特采样定理 (Nyquist sampling theorem)
    • 有效消除了放大 (zooming in) 时出现的高频侵蚀伪影 (erosion artifacts)
  2. 引入 2D Mip 滤波器 (2D Mip filter)

    • 取代了 3DGS 中原有的 2D 屏幕空间膨胀操作 (2D screen space dilation operation)
    • 该滤波器模拟了物理成像过程 (physical imaging process)像素 (pixel)积分效应 (integration effect)(类似于 2D 盒式滤波器 (2D box filter),但用 2D Gaussian 滤波器 (2D Gaussian filter) 近似)。
    • 显著缓解了缩小 (zooming out) 时的混叠 (aliasing)膨胀伪影 (dilation artifacts)

主要发现:

  • Mip-Splatting单尺度训练 (single-scale training)多尺度测试 (multi-scale testing)分布外 (out-of-distribution) 场景下,显著优于现有的最先进方法 (state-of-the-art methods),实现了卓越的泛化能力 (generalization ability)
  • 标准分布内 (standard in-distribution) 设置下,Mip-Splatting 的性能与最先进方法相当,证明了其通用性和无性能损失。
  • 所提出的修改是原理性 (principled)简单 (simple) 的,仅需对原始 3DGS 代码进行少量更改。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解本文的贡献,我们首先介绍一些必要的新视图合成 (Novel View Synthesis, NVS)信号处理 (signal processing) 相关的概念。

3.1.1. 新视图合成 (Novel View Synthesis, NVS)

新视图合成是指从有限数量的输入图像生成同一场景在不同视角下的图像的任务。它在计算机图形学 (computer graphics)计算机视觉 (computer vision) 领域有广泛应用。

3.1.2. 神经辐射场 (Neural Radiance Field, NeRF)

NeRF [28] 是一种使用多层感知机 (Multi-Layer Perceptron, MLP) 来表示复杂 3D 场景辐射场 (radiance field)。它将3D 位置 (3D position) (x,y,z)2D 观看方向 (2D viewing direction) (θ,ϕ)(\theta, \phi) 作为输入,输出该位置的颜色 (color) (r,g,b)体密度 (volume density) σ\sigma。通过体积渲染 (volume rendering) 技术,可以从任意视角合成高质量的图像。NeRF 在合成逼真视图方面表现出色,但其渲染速度较慢。

3.1.3. 3D Gaussian Splatting (3DGS)

3DGS [18] 是一种近期提出的场景表示 (scene representation)渲染方法 (rendering method),它将场景建模为一组可优化的 3D Gaussian 基元。每个 3D Gaussian 都带有位置、尺度、旋转、不透明度和视点相关颜色 (view-dependent color) 等属性。通过可微分光栅化 (differentiable rasterization)泼溅 (splatting) 技术,3DGS 能够实现实时 (real-time)高分辨率 (high-resolution)新视图合成

3.1.4. 采样定理 (Sampling Theorem)

采样定理,也称为奈奎斯特-香农采样定理 (Nyquist-Shannon Sampling Theorem) [33, 45],是信号处理中的一个基本概念。它指出,要从其离散样本 (discrete samples) 中精确地重构 (reconstruct) 一个连续信号 (continuous signal),必须满足以下两个条件:

  1. 带限信号 (Band-limited signal): 连续信号必须是带限的,即不能包含任何频率高于某个最大频率 (maximum frequency) ν\nu 的分量。
  2. 采样率要求 (Sampling rate requirement): 采样率 (sampling rate) ν^\hat { \nu } 必须至少是连续信号中最高频率的两倍:ν^2ν\hat { \nu } \geq 2 \nu。 在实践中,为了满足这些约束并在采样 (sampling) 之前防止混叠 (aliasing),通常会对信号应用低通滤波器 (low-pass filter)抗混叠滤波器 (anti-aliasing filter),以消除或衰减高于 ν^2\frac { \hat { \nu } } { 2 }频率分量 (frequency components)

3.1.5. 混叠 (Aliasing)

混叠是指当采样率不足时,高频信号 (high-frequency signals)重构 (reconstruction) 后被错误地解释为低频信号 (low-frequency signals) 的现象。在图像渲染中,这通常表现为锯齿状边缘(jagged edges)、莫尔纹(moire patterns) 或纹理闪烁(texture shimmering)

3.1.6. 膨胀 (Dilation)

3DGS 的背景下,膨胀特指一种在屏幕空间 (screen space) 中放大2D 投影高斯尺寸的操作。其目的是为了避免投影高斯过小而导致退化 (degenerate) 并在渲染中消失。然而,这种操作在采样率变化时,若参数固定,则可能导致膨胀伪影

3.1.7. Mip 映射 (Mipmap)

Mip 映射计算机图形学 (computer graphics) 中用于纹理过滤 (texture filtering) 的一种技术。它通过预计算 (pre-calculating) 纹理在不同分辨率下的多个版本(即mipmap level),来在渲染时选择最合适的分辨率 (resolution) 纹理,从而有效减少缩小 (minification) 时的混叠现象,提高渲染质量和效率。

3.2. 前人工作

  • NeRF 及其变体 [4, 11, 24, 28, 32, 46, 51]: NeRF 开启了神经辐射场的研究浪潮。后续工作致力于提高其训练和渲染效率,如Instant-NGP [32] 使用多分辨率哈希编码 (multi-resolution hash encoding)TensoRF [4] 使用张量分解 (tensor decomposition)Plenoxels [11] 采用体素网格 (voxel grid) 等。这些方法虽然高效,但通常面临混叠多尺度泛化 (multi-scale generalization) 的挑战。
  • 3D Gaussian Splatting (3DGS) [18]: 如前所述,3DGS 以其实时渲染能力和高保真度脱颖而出。它将场景表示为一组各向异性高斯 (anisotropic Gaussians),并使用瓦片式排序 (tile-based sorting) 进行渲染。然而,它在分布外 (out-of-distribution) 采样率下的伪影是本文关注的重点。
  • 点基渲染 (Primitive-based Differentiable Rendering) [13, 14, 38, 44, 59, 60]: 这一类别的方法通过光栅化 (rasterizing) 几何基元(如点、球体、高斯)到图像平面来渲染场景。Pulsar [20] 是一种高效的球体光栅化器 (sphere rasterizer)。本文的 3DGS 属于这一范畴。
  • 抗混叠 (Anti-aliasing) 技术:
    • 超采样 (Super-sampling) [7]: 通过增加采样点 (sampling points) 的数量来减少混叠,但计算成本高昂。
    • 预过滤 (Prefiltering) [8, 15, 31, 47, 50, 59]:采样之前对信号应用低通滤波 (low-pass filtering),使其满足奈奎斯特限制 (Nyquist limit)
    • EWA splatting [59]:屏幕空间对投影的 2D Gaussian 应用高斯低通滤波器,以生成带限输出 (band-limited output)。然而,EWA 滤波器的尺寸通常是经验性 (empirically) 选择的,且主要关注渲染问题 (rendering problem) 而非三维重建 (3D reconstruction) 问题,可能导致过度平滑 (oversmoothing)
    • Mip-NeRF [1] 和 Tri-MipRF [17]: 这些神经渲染 (neural rendering) 方法通过集成位置编码 (Integrated Positional Encoding, IPE) 等方式引入预过滤。然而,它们通常依赖于MLP 在训练过程中插值 (interpolate) 多尺度信号 (multi-scale signals),并且需要多尺度图像 (multi-scale images) 进行监督。这限制了它们在单尺度训练 (single-scale training) 下对分布外频率 (out-of-distribution frequencies)泛化能力

3.3. 技术演进

新视图合成领域的技术演进经历了从基于图像 (image-based) 的方法、基于几何 (geometry-based) 的方法到基于辐射场 (radiance field-based) 的方法。NeRF 开创了使用隐式神经网络 (implicit neural network) 表示场景的范式,实现了前所未有的渲染质量,但计算成本高。3DGS 则通过显式表示 (explicit representation)光栅化 (rasterization) 实现了实时性能 (real-time performance),使其更接近实际应用。

然而,从NeRF3DGS,尽管效率大幅提升,但多尺度渲染 (multi-scale rendering) 中的混叠伪影问题依然存在。早期的抗混叠技术如Mip-NeRFTri-MipRF 主要针对隐式表示 (implicit representations),且通常依赖多尺度训练数据 (multi-scale training data)3DGS 虽然引入了2D 膨胀操作作为一种简单的低通滤波 (low-pass filtering) 形式,但其固定参数导致了在分布外采样率下的伪影

本文的工作 Mip-Splatting 正是为了弥补 3DGS多尺度泛化方面的不足,通过将信号处理带限 (band-limiting) 原理与物理成像过程 (physical imaging process) 相结合,提出了针对 3D Gaussian3D 频率约束2D 屏幕空间抗混叠方案,从而在单尺度训练下实现了多尺度无混叠渲染 (multi-scale alias-free rendering)

3.4. 差异化分析

Mip-Splatting 与现有工作的核心区别和创新点在于:

  • 3DGS [18] 的区别: 3DGS分布外采样率下存在侵蚀伪影 (erosion artifacts)(放大时)和膨胀伪影 (dilation artifacts)/混叠 (aliasing)(缩小时)。Mip-Splatting 通过引入3D 平滑滤波器2D Mip 滤波器从根本上解决了这些问题,实现了无混叠多尺度渲染
  • Mip-NeRF [1] 和 Tri-MipRF [17] 的区别: 这些方法主要依赖于MLP插值能力 (interpolation capabilities)多尺度图像监督 (multi-scale image supervision)。它们在分布外频率 (out-of-distribution frequencies) 上的外推能力 (extrapolation capability) 有限。相比之下,Mip-Splatting 基于对3D Gaussian闭式修改 (closed-form modifications),其低通滤波 (low-pass filtering) 机制是基于奈奎斯特定理 (Nyquist theorem),允许在单尺度训练 (single-scale training) 下对未观测尺度 (unobserved scales) 进行忠实渲染 (faithful rendering)
  • EWA splatting [59] 的区别: EWA splatting 也在屏幕空间应用Gaussian 低通滤波器。然而,其滤波器尺寸 (filter size)经验性 (empirically) 选择的,并且主要关注渲染问题 (rendering problem)Mip-Splatting3D 滤波器 (3D filter)3D 空间 (3D space) 工作,其尺寸由训练图像 (training images)像素尺寸 (pixel size) 决定,解决了重建问题 (reconstruction problem)Mip-Splatting2D Mip 滤波器则明确旨在模拟物理成像过程 (physical imaging process) 中的盒式滤波器 (box filter),旨在精确近似单个像素,而非简单地限制带宽 (limit bandwidth),避免了EWA 可能导致的过度平滑 (oversmoothing)

4. 方法论

4.1. 方法原理

Mip-Splatting 的核心原理在于,它将信号处理 (signal processing) 中的奈奎斯特-香农采样定理 (Nyquist-Shannon Sampling Theorem) 应用于 3D 场景表示 (3D scene representation) 的构建,并结合物理成像过程 (physical imaging process) 的特点来设计抗混叠 (anti-aliasing) 的渲染机制。

其直觉是:一个3D 场景 (3D scene)频率内容 (frequency content) 能够被重构 (reconstructed) 的上限,是由用于观察该场景的多视图图像 (multi-view images)采样率 (sampling rate) 决定的。如果 3D 表示中包含了高于这个上限的频率信息 (frequency information),那么在渲染时,尤其是在不同的采样率 (sampling rate) 下,就会产生混叠 (aliasing)伪影 (artifacts)

为此,Mip-Splatting 提出了两项主要修改:

  1. 3D 空间 (3D space) 中的频率约束 (frequency constraint) 通过一个3D 平滑滤波器 (3D smoothing filter),在优化过程中主动限制每个 3D Gaussian 基元的最大频率 (maximal frequency),使其不超过训练视图所能支持的奈奎斯特频率 (Nyquist frequency)。这解决了3DGS放大 (zooming in) 时因3D Gaussian 尺寸过小而导致的侵蚀伪影 (erosion artifacts)

  2. 2D 屏幕空间 (2D screen space) 中的物理成像模拟 (physical imaging simulation) 用一个 2D Mip 滤波器 (2D Mip filter) 取代 3DGS 中原有的2D 膨胀操作 (2D dilation operation)。这个 Mip 滤波器被设计成近似物理相机 (physical camera) 传感器上像素 (pixel)积分效应 (integration effect)(即盒式滤波器 (box filter)),从而在缩小 (zooming out) 时提供抗混叠效果,并消除不自然的膨胀伪影

    通过这两项改进,Mip-Splatting 旨在确保 3D 场景表示在所有尺度 (scales) 下都能保持带限 (band-limited)忠实 (faithful),从而实现无混叠多尺度渲染

4.2. 核心方法详解

4.2.1. 3D Gaussian Splatting (3DGS) 回顾

3DGS [18] 将一个 3D 场景表示为一组 KK 个缩放后的 3D Gaussian 基元 {Gkk=1,,K}\{ \mathcal { G } _ { k } | k = 1 , \cdots , K \}。每个 3D Gaussian Gk\mathcal { G } _ { k } 的几何形状由其不透明度 (opacity) αk[0,1]\alpha _ { k } \in [ 0 , 1 ]中心 (center) pkR3×1\mathbf { p } _ { k } \in \mathbb { R } ^ { 3 \times 1 }世界空间 (world space) 中的协方差矩阵 (covariance matrix) ΣkR3×3\pmb { \Sigma } _ { k } \in \mathbb { R } ^ { 3 \times 3 } 来参数化。

3D Gaussian 函数定义为: Gk(x)=e12(xpk)TΣk1(xpk) \mathcal { G } _ { k } ( { \mathbf x } ) = e ^ { - \frac { 1 } { 2 } ( { \mathbf x } - { \mathbf p } _ { k } ) ^ { T } { \mathbf { \Sigma } } _ { k } ^ { - 1 } ( { \mathbf x } - { \mathbf p } _ { k } ) } 其中:

  • x\mathbf { x } 是三维空间中的一个点。
  • pk\mathbf { p } _ { k } 是第 kkGaussian 的中心三维坐标。
  • Σk\boldsymbol { \Sigma } _ { k } 是第 kkGaussian3x3 协方差矩阵,它描述了 Gaussian 的形状(尺度和方向)。 为了确保 Σk\boldsymbol { \Sigma } _ { k } 是一个有效的半正定 (semi-definite) 协方差矩阵,它通过半正定参数化 (semi-definite parameterization) Σk=OkskskTOkT\pmb { \Sigma } _ { k } = \mathbf { O } _ { k } \mathbf { s } _ { k } \mathbf { s } _ { k } ^ { T } \mathbf { O } _ { k } ^ { T } 来约束。这里,sk\mathbf { s } _ { k } 是一个尺度向量 (scaling vector)(通过三个尺度参数 sx,sy,szs_{x}, s_{y}, s_{z} 的对数来优化), OkR3×3\mathbf { O } _ { k } \in \mathbb { R } ^ { 3 \times 3 } 是一个旋转矩阵 (rotation matrix),通常通过四元数 (quaternion) 参数化来优化。

渲染过程: 为了从给定的视点(由旋转矩阵 RR3×3\mathbf { R } \in \mathbb { R } ^ { 3 \times 3 }平移向量 tR3\mathbf { t } \in \mathbb { R } ^ { 3 } 定义)渲染图像,3D Gaussian 基元经历以下步骤:

  1. 变换到相机坐标系: 3D Gaussian 的中心和协方差矩阵首先从世界坐标系 (world coordinate system) 变换到相机坐标系 (camera coordinate system)pk=Rpk+tΣk=RΣkRT \mathbf { p } _ { k } ^ { \prime } = \mathbf { R } \mathbf { p } _ { k } + \mathbf { t } \\ \Sigma _ { k } ^ { \prime } = \mathbf { R } \Sigma _ { k } \mathbf { R } ^ { T } 其中:

    • pk\mathbf { p } _ { k } ^ { \prime } 是在相机坐标系中的 Gaussian 中心。
    • Σk\Sigma _ { k } ^ { \prime } 是在相机坐标系中的 Gaussian 协方差矩阵
  2. 投影到射线空间(屏幕空间): 随后,3D Gaussian 通过一个局部仿射变换 (local affine transformation) 投影到射线空间 (ray space),这实际上是将其投影到屏幕空间 (screen space) 成为 2D Gaussian。这个投影过程的协方差矩阵计算为: Σk=Jk :Σk :JkT \boldsymbol { \Sigma } _ { k } ^ { \prime \prime } = \mathbf { J } _ { k } \ : \boldsymbol { \Sigma } _ { k } ^ { \prime } \ : \mathbf { J } _ { k } ^ { T } 其中:

    • Jk\mathbf { J } _ { k } 是一个雅可比矩阵 (Jacobian matrix),它是一个仿射近似 (affine approximation),代表由 3D Gaussian 中心 pk\mathbf { p } _ { k } ^ { \prime } 定义的投影变换 (projective transformation)
    • Σk\boldsymbol { \Sigma } _ { k } ^ { \prime \prime } 实际上是投影到屏幕空间2D Gaussian协方差矩阵,通常在渲染过程中简写为 Σk2D\boldsymbol { \Sigma } _ { k } ^ { 2D }
  3. 颜色建模与 Alpha 混合渲染: 3DGS 使用球谐函数 (spherical harmonics) 来建模 3D Gaussian视点相关颜色 (view-dependent color) ck\mathbf { c } _ { k }。最终图像通过Alpha 混合 (Alpha Blending) 机制渲染,混合 (blending) 顺序基于 Gaussian 基元的深度排序。渲染公式如下: c(x)=k=1KckαkGk2D(x)j=1k1(1αjGj2D(x)) \mathbf { c } ( \mathbf { x } ) = \sum _ { k = 1 } ^ { K } \mathbf { c } _ { k } \alpha _ { k } \mathcal { G } _ { k } ^ { 2 D } ( \mathbf { x } ) \prod _ { j = 1 } ^ { k - 1 } ( 1 - \alpha _ { j } \mathcal { G } _ { j } ^ { 2 D } ( \mathbf { x } ) ) 其中:

    • c(x)\mathbf { c } ( \mathbf { x } )屏幕空间中像素位置 x\mathbf { x } 处的最终渲染颜色。
    • ck\mathbf { c } _ { k } 是第 kkGaussian 在当前视角下的颜色。
    • αk\alpha _ { k } 是第 kkGaussian不透明度
    • Gk2D(x)\mathcal { G } _ { k } ^ { 2 D } ( \mathbf { x } ) 是第 kkGaussian屏幕空间2D 投影函数值。
    • j=1k1(1αjGj2D(x))\prod _ { j = 1 } ^ { k - 1 } ( 1 - \alpha _ { j } \mathcal { G } _ { j } ^ { 2 D } ( \mathbf { x } ) ) 表示从相机到第 kkGaussian 之间所有前序 Gaussian透射率 (transmittance),即光线穿过前面基元的累积概率。

膨胀操作 (Dilation): 为了防止投影到屏幕空间2D Gaussian 过小(小于一个像素),3DGS 引入了一个膨胀操作。这个操作通过修改 2D Gaussian协方差矩阵来实现: Gk2D(x)=e12(xpk)T(Σk2D+sI)1(xpk) \mathcal { G } _ { k } ^ { 2 D } ( \mathbf { x } ) = e ^ { - \frac { 1 } { 2 } ( \mathbf { x } - \mathbf { p } _ { k } ) ^ { T } ( \Sigma _ { k } ^ { 2 D } + s \mathbf { I } ) ^ { - 1 } ( \mathbf { x } - \mathbf { p } _ { k } ) } 其中:

  • I\mathbf { I } 是一个 2D 单位矩阵 (2D identity matrix)
  • ss 是一个标量膨胀超参数 (scalar dilation hyperparameter),用于控制膨胀的程度。 这个操作增加了 2D Gaussian尺度 (scale),但保持其最大值不变。作者将此效应类比于形态学 (morphology) 中的膨胀算子 (dilation operator)

4.2.2. Mip-Splatting 的修改

Mip-Splatting 的核心在于对上述 3DGS 框架引入了两项关键的滤波器 (filter) 修改:3D 平滑滤波器 (3D smoothing filter)2D Mip 滤波器 (2D Mip filter)

4.2.2.1. 3D 平滑滤波器 (3D Smoothing Filter)

多视图频率边界 (Multiview Frequency Bounds): 3D 辐射场重建 (3D radiance field reconstruction)多视图观测 (multi-view observations) 中是一个不适定问题 (ill-posed problem)离散图像网格 (discrete image grid) 决定了我们从连续 3D 信号 (continuous 3D signal)采样 (sample) 点的位置。采样率 (sampling rate) 本身与图像分辨率 (resolution)、相机焦距 (focal length) 以及场景到相机的距离密切相关。

对于一个焦距 (focal length)ff (以像素为单位) 的图像,屏幕空间 (screen space) 中的采样间隔 (sampling interval) 为 1。当这个像素间隔反投影 (back-projected)3D 世界空间 (3D world space) 时,在给定深度 dd 处,它对应着一个世界空间采样间隔 T^\hat { T },其采样频率 (sampling frequency) ν^\hat { \nu } 为其倒数: T^=1ν^=df \hat { T } = \frac { 1 } { \hat { \nu } } = \frac { d } { f } 这个公式表明,采样间隔 T^\hat { T } 随着深度 dd 的增加而增大,随着焦距 ff 的增加而减小。根据奈奎斯特定理 (Nyquist's theorem)重建算法 (reconstruction algorithms) 能够重构 (reconstruct) 的最高频率分量 (frequency components) 仅为采样频率的一半,即 ν^2\frac { \hat { \nu } } { 2 }f2d\frac { f } { 2d }。因此,一个小于 2T^2 \hat { T }基元 (primitive)泼溅 (splatting) 过程中就可能导致混叠伪影 (aliasing artifacts),因为它包含了高于奈奎斯特频率高频信息 (high-frequency information)

为了简化深度 (depth) dd 的计算,作者使用 Gaussian 基元中心 pk\mathbf { p } _ { k } 的深度,并忽略遮挡 (occlusion)采样间隔估计 (sampling interval estimation) 的影响。由于每个基元 (primitive)采样率深度相关 (depth-dependent) 的,并且在不同相机之间会有所不同,对于基元 kk,其最大采样率 (maximal sampling rate) ν^k\hat { \nu } _ { k } 被定义为所有可见训练视图中能够以最高频率采样该基元的采样率ν^k=max({1n(pk)fndn}n=1N) \hat { \nu } _ { k } = \operatorname* { m a x } \left( \left\{ \mathbb { 1 } _ { n } ( \mathbf { p } _ { k } ) \cdot \frac { f _ { n } } { d _ { n } } \right\} _ { n = 1 } ^ { N } \right) 其中:

  • NN 是训练图像的总数。
  • 1n(pk)\mathbb { 1 } _ { n } ( \mathbf { p } _ { k } ) 是一个指示函数 (indicator function)。如果 Gaussian 中心 pk\mathbf { p } _ { k } 落在第 nn 个相机的视锥体 (view frustum) 内,该函数为真(值为 1),否则为假(值为 0)。
  • f _ { n } 是第 nn 个相机的焦距
  • d _ { n } 是第 nn 个相机到Gaussian 中心 pk\mathbf { p } _ { k } 的深度。 这个公式的含义是,对于每个 3D Gaussian,我们找到所有能看到它的相机中,使得 fn/dnf_n / d_n 最大的那个相机。这个最大的值就代表了该 3D Gaussian 在训练时能够被采样 (sampled) 到的最高频率 (frequency)。这种选择确保了我们以一个足够高的频率 (frequency) 来约束 3D Gaussian,以便至少有一个相机能忠实 (faithfully)重构 (reconstruct) 它。在实现中,为了效率,作者每 m=100m=100 迭代重新计算一次每个 Gaussian 基元的最大采样率,因为 3D Gaussian 的中心在训练过程中相对稳定。

下图(原文 Figure 3)展示了采样限制的概念:

Figure 3. Sampling limits. A pixel corresponds to sampling interval \(\\hat { T }\) We band-limit the 3D Gaussians by the maximal sampling rate (i.e., minimal sampling interval) among all observations.… 该图像是示意图,展示了5个相机在不同深度 dd 和焦距 ff 下的采样限制。图中显示每个相机的视场及其对应的采样间隔 ildeT=racdf ilde{T} = rac{d}{f},相机3决定了最小的采样间隔,从而确定了最大的采样频率。

图 3. 采样限制 (Sampling limits)。一个像素对应采样间隔 T^\hat { T }。我们通过所有观测中最大的采样率(即最小采样间隔)来对 3D Gaussian 进行带限 (band-limit)。这个例子展示了 5 个不同深度 dd 和不同焦距 ff 的相机。其中,相机 3 决定了最小的 T^\hat { T },从而决定了最大的采样率 ν^\hat { \nu }

3D 平滑 (3D Smoothing): 获得了基元 (primitive) kk最大采样率 ν^k\hat { \nu } _ { k } 后,目标是约束 3D 表示 (3D representation)最大频率。这通过在将每个 3D Gaussian 基元 Gk\mathcal { G } _ { k } 投影到屏幕空间 (screen space) 之前,对其应用一个 Gaussian 低通滤波器 (Gaussian low-pass filter) Glow\mathcal { G } _ { \mathrm { l o w } } 来实现: Gk(x)reg=(GkGlow)(x) \mathcal { G } _ { k } ( \mathbf { x } ) _ { \mathrm { r e g } } = ( \mathcal { G } _ { k } \otimes \mathcal { G } _ { \mathrm { l o w } } ) ( \mathbf { x } ) 其中:

  • \otimes 表示卷积运算 (convolution operation)
  • Gk(x)reg\mathcal { G } _ { k } ( \mathbf { x } ) _ { \mathrm { r e g } } 是经过正则化后的 3D Gaussian。 这个卷积操作是高效的,因为两个高斯 (Gaussian) 分布的卷积结果仍然是高斯分布,且其协方差矩阵 (covariance matrix) 是两者协方差矩阵之和。具体来说,如果两个 Gaussian协方差矩阵分别为 Σ1\Sigma _ { 1 }Σ2\Sigma _ { 2 },则它们的卷积结果是协方差矩阵为 Σ1+Σ2\Sigma _ { 1 } + \Sigma _ { 2 }Gaussian。 因此,应用 3D 平滑滤波器后,原始 3D Gaussian Gk\mathcal { G } _ { k } 被修改为新的 3D Gaussian,其数学表达式为: Gk(x)reg=ΣkΣk+sν^kI e12(xpk)T(Σk+sν^kI)1(xpk) \mathcal { G } _ { k } ( \mathbf { x } ) _ { \mathrm { r e g } } = \sqrt { \frac { \left| \boldsymbol { \Sigma } _ { k } \right| } { \left| \boldsymbol { \Sigma } _ { k } + \frac { s } { \hat { \nu } _ { k } } \cdot \mathbf { I } \right| } } \ e ^ { - \frac { 1 } { 2 } \left( \mathbf { x } - \mathbf { p } _ { k } \right) ^ { T } ( \boldsymbol { \Sigma } _ { k } + \frac { s } { \hat { \nu } _ { k } } \cdot \mathbf { I } ) ^ { - 1 } ( \mathbf { x } - \mathbf { p } _ { k } ) } 其中:
  • I\mathbf { I } 是一个 3D 单位矩阵 (3D identity matrix)
  • ss 是一个标量超参数 (scalar hyperparameter),用于控制低通滤波器强度 (strength)尺寸 (size)
  • sν^kI\frac { s } { \hat { \nu } _ { k } } \cdot \mathbf { I } 代表3D 平滑滤波器 Glow\mathcal { G } _ { \mathrm { l o w } }协方差矩阵滤波器尺度 (scale) sν^k\frac { s } { \hat { \nu } _ { k } } 对于每个基元 (primitive) 都是不同的,因为它取决于该基元最大采样率 ν^k\hat { \nu } _ { k }。 通过这种方式,3D Gaussian Gk\mathcal { G } _ { k } 的有效协方差变为 Σk+sν^kI\boldsymbol { \Sigma } _ { k } + \frac { s } { \hat { \nu } _ { k } } \cdot \mathbf { I },从而增大了其尺度,有效地在3D 空间中对其进行平滑 (smoothing),限制了其最大频率 (maximal frequency)。这个3D 平滑滤波器 Glow\mathcal { G } _ { \mathrm { l o w } } 在训练完成后成为3D 场景表示的固有部分,并且在渲染时保持不变。

4.2.2.2. 2D Mip 滤波器 (2D Mip Filter)

尽管3D 平滑滤波器有效缓解了高频伪影 (high-frequency artifacts),但在渲染较低采样率 (lower sampling rates) 的场景(例如,缩小 (zooming out) 或相机移动更远)时,仍然可能导致混叠 (aliasing)。为了解决这个问题,Mip-Splatting2D Mip 滤波器 替换了 3DGS屏幕空间膨胀滤波器 (screen space dilation filter)

2D Mip 滤波器旨在模拟物理成像过程 (physical imaging process) [29, 37, 48],其中击中相机传感器上一个像素 (pixel)光子 (photons) 会在该像素区域内被积分 (integrated)。虽然理想情况下,这应该用 2D 图像空间 (2D image space) 中的2D 盒式滤波器 (2D box filter) 来实现,但出于效率考虑,作者用一个 2D Gaussian 滤波器 (2D Gaussian filter) 来近似它。 具体来说,在 3DGS屏幕空间投影 (screen space projection) 步骤之后,2D Mip 滤波器通过修改投影的 2D Gaussian协方差矩阵来实现: Gk2D(x)mip=Σk2DΣk2D+sIe12(xpk)T(Σk2D+sI)1(xpk) \mathcal { G } _ { k } ^ { 2 D } ( \mathbf { x } ) _ { \mathrm { m i p } } = \sqrt { \frac { \left| \boldsymbol { \Sigma } _ { k } ^ { 2 D } \right| } { \left| \boldsymbol { \Sigma } _ { k } ^ { 2 D } + s \mathbf { I } \right| } } e ^ { - \frac { 1 } { 2 } ( \mathbf { x } - \mathbf { p } _ { k } ) ^ { T } ( \boldsymbol { \Sigma } _ { k } ^ { 2 D } + s \mathbf { I } ) ^ { - 1 } ( \mathbf { x } - \mathbf { p } _ { k } ) } 其中:

  • Σk2D\boldsymbol { \Sigma } _ { k } ^ { 2 D } 是投影到屏幕空间2D Gaussian 的原始协方差矩阵
  • ss 是一个标量超参数,被选择为覆盖屏幕空间中的单个像素,通常取一个较小的值(例如 0.1)。
  • I\mathbf { I }2D 单位矩阵 (2D identity matrix)。 这个公式表示,投影后的 2D Gaussian协方差被增加了 sIs \mathbf { I },从而使其在屏幕空间中被平滑 (smoothed),有效地模拟了像素积分低通滤波 (low-pass filtering) 效果。

EWA 滤波器 (EWA filter) 的区别: Mip 滤波器EWA 滤波器 [59] 有相似之处(都是在屏幕空间应用Gaussian 滤波器),但其设计原理 (underlying principles) 不同。Mip 滤波器旨在精确复制成像过程 (imaging process)盒式滤波器的效果,目标是准确近似单个像素 (pixel)。而EWA 滤波器的主要作用是限制频率信号的带宽 (limit the frequency signal's bandwidth),其滤波器尺寸 (filter size)经验性 (empirically) 选择的。EWA 论文 [15, 59] 甚至建议使用单位协方差矩阵 (identity covariance matrix),这实际上会在屏幕上占据一个 3x3 像素区域,可能导致在缩小 (zooming out) 时出现过度平滑 (oversmoothing) 的结果。Mip-Splatting2D Mip 滤波器旨在更精确 (precisely) 地模拟像素积分,从而避免过度平滑混叠

4.2.3. 实现细节

  • 基础代码库: Mip-Splatting 是基于流行的开源 3DGS 代码库实现的。
  • 训练迭代次数: 所有场景的训练迭代次数为 30K。
  • 优化设置: 沿用了 3DGS 的相同损失函数、Gaussian 密度控制策略、调度和超参数。
  • 采样率 (sampling rate) 重新计算频率: 为了提高效率,每个 3D Gaussian采样率m=100m = 100 迭代重新计算一次,因为 3D Gaussian 的中心在训练过程中相对稳定。
  • 滤波器超参数:
    • 2D Mip 滤波器的方差 ss 选择为 0.1,以近似单个像素。
    • 3D 平滑滤波器的方差 ss 选择为 0.2。
    • 这两个值总和为 0.3,用于与 3DGS [18] 和 3DGS+EWA3DGS + EWA [59] 进行公平比较。

5. 实验设置

5.1. 数据集

本文主要在两个广泛使用的新视图合成 (Novel View Synthesis, NVS) 数据集上进行实验评估:

5.1.1. Blender 数据集 [28] (Blender dataset)

  • 来源与特点: Blender 数据集是一个合成场景数据集,包含 8 个不同的场景(如 chair, drums, ficus, hotdog, lego, materials, mic, ship)。这些场景通常具有明确的物体边界、均匀的背景和精确的相机参数。它广泛用于 NeRF 及其变体的基准测试。
  • 选择原因: Blender 数据集为控制变量实验提供了良好的环境,可以方便地评估模型在不同分辨率 (resolution)视角 (viewpoints) 下的渲染质量,尤其适用于测试放大 (zooming in)缩小 (zooming out) 效果。

5.1.2. Mip-NeRF 360 数据集 [2] (Mip-NeRF 360 dataset)

  • 来源与特点: Mip-NeRF 360 数据集是一个更具挑战性的真实世界场景数据集,包含 360 度 (360-degree)室内 (indoor)室外 (outdoor) 场景。这些场景通常具有复杂的几何形状、非均匀的背景、多变的光照以及无界 (unbounded) 的环境。它被设计用于评估模型在大尺度 (large-scale)无界场景下的抗混叠 (anti-aliasing)泛化能力 (generalization ability)
  • 选择原因: Mip-NeRF 360 数据集代表了更真实的挑战,对分布外泛化 (out-of-distribution generalization) 能力要求更高。在这些场景上进行测试,可以更全面地评估 Mip-Splatting 在复杂条件下的鲁棒性和性能。

5.2. 评估指标

本文使用了三种标准的图像质量评估 (image quality assessment) 指标来量化渲染图像与真实标注 (Ground Truth) 图像之间的差异:峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)结构相似性指数 (Structural Similarity Index Measure, SSIM)感知距离 (Learned Perceptual Image Patch Similarity, LPIPS)

5.2.1. 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)

  • 概念定义 (Conceptual Definition): PSNR 是一个客观且广泛使用的图像质量评估指标,主要通过比较两幅图像的像素强度 (pixel intensity) 差异来衡量图像的重建质量 (reconstruction quality)。它以分贝 (decibels, dB) 为单位,PSNR 值越高,表示失真 (distortion) 越小,重建图像越接近原始图像,质量越好。PSNR 对像素级的误差敏感。
  • 数学公式 (Mathematical Formula): PSNR=10log10(MAXI2MSE) \mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right) 其中,均方误差 (Mean Squared Error, MSE) 的计算公式为: MSE=1MNi=0M1j=0N1[I(i,j)K(i,j)]2 \mathrm{MSE} = \frac{1}{MN} \sum_{i=0}^{M-1} \sum_{j=0}^{N-1} [I(i,j) - K(i,j)]^2
  • 符号解释 (Symbol Explanation):
    • PSNR\mathrm{PSNR}: 峰值信噪比。
    • MAXI\mathrm{MAX}_I: 图像中像素的最大可能值。对于 8 位 (8-bit) 图像,其值为 255;如果像素值被归一化到 [0,1] 范围,则为 1。
    • MSE\mathrm{MSE}: 均方误差,衡量两幅图像对应像素之间误差平方和 (sum of squared errors) 的平均值。
    • M, N: 图像的宽度和高度,以像素为单位。
    • I(i,j): 真实标注 (Ground Truth) 图像在坐标 (i,j) 处的像素值。
    • K(i,j): 渲染 (rendered)处理 (processed) 后图像在坐标 (i,j) 处的像素值。

5.2.2. 结构相似性指数 (Structural Similarity Index Measure, SSIM)

  • 概念定义 (Conceptual Definition): SSIM 是一种感知度量 (perceptual metric),旨在更符合人类视觉系统对图像质量的判断。它不仅仅关注像素差异,还考虑了图像的亮度 (luminance)对比度 (contrast)结构 (structure) 这三个关键组成部分。SSIM 的值介于 -1 和 1 之间,通常为正值。值越接近 1,表示两幅图像越相似。
  • 数学公式 (Mathematical Formula): SSIM 的一般形式为: SSIM(x,y)=[l(x,y)]α[c(x,y)]β[s(x,y)]γ \mathrm{SSIM}(x,y) = [l(x,y)]^{\alpha} \cdot [c(x,y)]^{\beta} \cdot [s(x,y)]^{\gamma} 在实际应用中,通常取 α=β=γ=1\alpha = \beta = \gamma = 1,简化后的公式为: SSIM(x,y)=(2μxμy+C1)(2σxy+C2)(μx2+μy2+C1)(σx2+σy2+C2) \mathrm{SSIM}(x,y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}
  • 符号解释 (Symbol Explanation):
    • SSIM(x,y)\mathrm{SSIM}(x,y): 图像 xx(例如,真实标注图像)和图像 yy(例如,渲染图像)之间的结构相似性指数
    • μx\mu_x: 图像 xx 的像素平均值(亮度)。
    • μy\mu_y: 图像 yy 的像素平均值(亮度)。
    • σx2\sigma_x^2: 图像 xx方差 (variance)对比度)。
    • σy2\sigma_y^2: 图像 yy方差对比度)。
    • σxy\sigma_{xy}: 图像 xxyy协方差 (covariance)结构相似性)。
    • C1=(K1L)2,C2=(K2L)2C_1 = (K_1 L)^2, C_2 = (K_2 L)^2: 两个小常数,用于避免分母为零或过小,从而增加稳定性。LL 是像素值的动态范围(例如,对于 8 位图像 L=255L=255)。通常选择 K1=0.01,K2=0.03K_1 = 0.01, K_2 = 0.03

5.2.3. 感知距离 (Learned Perceptual Image Patch Similarity, LPIPS)

  • 概念定义 (Conceptual Definition): LPIPS 是一种基于深度学习 (deep learning)图像相似性度量 (image similarity metric)。它被训练来更好地匹配人类对图像感知的相似性判断,而非仅仅是像素级的误差。LPIPS 通过提取两幅图像在预训练 (pre-trained) 深度卷积神经网络 (Deep Convolutional Neural Network, DCNN)(如 AlexNetVGG)不同层中的特征,然后计算这些特征之间的加权 L2 距离 (weighted L2 distance) 来衡量感知上的差异。LPIPS 值越低,表示两幅图像在感知上越相似。
  • 数学公式 (Mathematical Formula): LPIPS(x,y)=l1HlWlh,wwl(ϕl(x)h,wϕl(y)h,w)22 \mathrm{LPIPS}(x, y) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \| w_l \odot (\phi_l(x)_{h,w} - \phi_l(y)_{h,w}) \|_2^2
  • 符号解释 (Symbol Explanation):
    • LPIPS(x,y)\mathrm{LPIPS}(x, y): 图像 xxyy 之间的感知距离
    • ll: DCNN 的不同层索引。LPIPS 通常在多个层提取特征。
    • ϕl\phi_l: DCNNll 层的特征提取器,它将输入图像映射到该层的特征空间。
    • Hl,WlH_l, W_l: 第 ll 层特征图的高度和宽度。
    • wlw_l: 第 ll 层特征的权重,这些权重是经过学习得到的,用于调整不同层特征的重要性。
    • \odot: 逐元素乘法 (element-wise multiplication)
    • 22\| \cdot \|_2^2: L2 范数 (L2 norm) 的平方,用于计算特征图上每个空间位置的欧几里得距离 (Euclidean distance)

5.3. 对比基线

为了全面评估 Mip-Splatting 的性能,本文将其与多个最先进 (state-of-the-art)新视图合成方法进行了比较:

  • NeRF [28]: 原始的神经辐射场模型,作为隐式场景表示 (implicit scene representation)的开创性工作。

  • NeRF w/o Larea [1, 28]: NeRF 的一个变体,可能指没有使用区域损失(L_area)的版本,用于在 Mip-NeRF 论文中进行消融。

  • MipNeRF [1]: NeRF 的一个重要改进,引入集成位置编码 (Integrated Positional Encoding, IPE) 以实现多尺度抗混叠 (multi-scale anti-aliasing)

  • Plenoxels [11]: 一种基于稀疏体素网格 (sparse voxel grid)辐射场 (radiance field) 表示,以其快速的训练和渲染速度而闻名,无需MLP

  • TensoRF [4]: 使用张量分解 (tensor decomposition) 来表示辐射场,在保持质量的同时显著提高了训练和渲染效率。

  • Instant-NGP [32]: 利用多分辨率哈希编码 (multi-resolution hash encoding) 来加速辐射场的训练和渲染,达到了极高的效率。

  • Tri-MipRF [17]: 针对特征网格 (feature grid) 辐射场抗混叠方法,结合了Mip-NeRF 的思想。

  • 3DGS [18]: 本文改进的基线方法,使用3D Gaussian 基元进行实时渲染 (real-time rendering)

  • 3DGS [18] + EWA [59]: 3DGS 的一个变体,将 3DGS2D 膨胀操作替换为EWA 泼溅 (EWA splatting)EWA 是一种屏幕空间抗混叠技术。

  • Mip-NeRF 360 [2]: Mip-NeRF 的扩展版本,专为无界 (unbounded) 360 度 (360-degree) 场景设计。

  • Zip-NeRF [3]: Mip-NeRF 家族的最新改进,旨在进一步优化基于网格 (grid-based) 神经辐射场 (neural radiance fields)抗混叠效果和效率。

    这些基线方法涵盖了隐式 (implicit)显式 (explicit) 场景表示 (scene representations),以及各种抗混叠策略,为全面评估 Mip-Splatting 的优势和局限性提供了坚实的基础。

6. 实验结果与分析

论文通过在BlenderMip-NeRF 360数据集上进行多项实验来验证Mip-Splatting的有效性,尤其关注其在分布外 (out-of-distribution) 采样率 (sampling rate) 场景下的泛化能力 (generalization ability)

6.1. Blender 数据集上的评估

6.1.1. 多尺度训练与多尺度测试

在此设置下,模型使用多尺度数据 (multi-scale data) 进行训练,并在多尺度数据 (multi-scale data) 上进行评估。这与Mip-NeRF [1] 和 Tri-MipRF [17] 等工作的设置类似。

以下是原文 Table 1 的结果,评估了在 Blender 数据集上多尺度训练多尺度测试的性能(指标:PSNR \uparrow, SSIM \uparrow, LPIPS \downarrow):

PSNR ↑ Full Res. 1/2 Res. 1/4 Res. 1/8 Res. Avg.SSIM↑ Full Res. 1/2 Res. 1/4 Res. 1/8 Res. Avg.LPIPS ↓ Full Res. 1/2 Res. 1/4 Res. 1/8 Res Avg.
NeRF w/o Larea [1, 28]31.2030.6526.2522.5327.660.9500.9560.9300.8710.9270.0550.0340.0430.075 0.052
NeRF [28]29.9032.1333.4029.4731.230.9380.9590.9730.9620.9580.0740.0400.0240.039 0.044
MipNeRF [1]32.6334.3435.4735.6034.510.9580.9700.9790.9830.9730.0470.0260.0170.0120.026
Plenoxels [11]31.6032.8530.2626.6330.340.9560.9670.9610.9360.9550.0520.0320.0450.0770.051
TensoRF [4]32.1133.0330.4526.8030.600.9560.9660.9620.9390.9560.0560.0380.0470.076 0.054
Instant-NGP [32]30.0032.1533.3129.3531.200.9390.9610.9740.9630.9590.0790.0430.0260.040 0.047
Tri-MipRF [17]*32.6534.2435.0235.5334.360.9580.9710.9800.9870.9740.0470.0270.0180.012 0.026
3DGS [18]28.7930.6631.6427.9829.770.9430.9620.9720.9600.9600.0650.0380.0250.0310.040
3DGS [18] + EWA [59]31.5433.2633.7833.48 33.010.9610.9730.9790.9830.9740.0430.0260.0210.019 0.027
Mip-Splatting (ours)32.8134.4935.4535.5034.560.9670.9770.9830.988 0.9790.0350.0190.013 0.010 0.019

分析:

  • 多尺度训练多尺度测试的传统设置下,Mip-Splatting (ours) 在所有三个指标上都取得了最先进 (state-of-the-art)可比 (comparable)的性能。
  • Mip-Splatting 的平均 PSNR (34.56)、平均 SSIM (0.979) 和平均 LPIPS (0.019) 均略优于 MipNeRF [1] (34.51 PSNR, 0.973 SSIM, 0.026 LPIPS) 和 Tri-MipRF [17] (34.36 PSNR, 0.974 SSIM, 0.026 LPIPS)。
  • 3DGS [18] (29.77 PSNR, 0.960 SSIM, 0.040 LPIPS) 和 3DGS [18] + EWA [59] (33.01 PSNR, 0.974 SSIM, 0.027 LPIPS) 相比,Mip-Splatting 的性能提升显著,这主要归功于其 2D Mip 滤波器混叠 (aliasing)膨胀问题 (dilation issues)的有效解决。

6.1.2. 单尺度训练与多尺度测试(模拟缩小)

这是一个重要的分布外 (out-of-distribution) 场景,模型使用全分辨率图像 (full-resolution images) 进行训练,但在各种分辨率1×,1/2×,1/4×,1/8×1\times, 1/2\times, 1/4\times, 1/8\times)下进行渲染,以模拟缩小 (zoom-out) 效果。

以下是原文 Table 2 的结果,评估了在 Blender 数据集上单尺度训练多尺度测试(模拟缩小)的性能:

PSNR ↑ Full Res. 1/2 Res. 1/4 Res. 1/8 Res. Avg.SSIM ↑LPIPS ↓ Full Res. 1/2 Res. 1/4 Res. 1/8 Res Avg.
Full Res. 1/2 Res. 1/4 Res. 1/8 Res. Avg.
NeRF [28]31.4832.4330.2926.7030.230.9490.9620.9640.9510.9560.0610.0410.0440.067 0.053
MipNeRF [1]33.0833.3130.9127.9731.310.9610.9700.9690.9610.9650.0450.0310.0360.052 0.041
TensoRF [4]32.5332.9130.0126.4530.480.9600.9690.9650.9480.9610.0440.0310.0440.0730.048
Instant-NGP [32]33.0933.0029.8426.3330.570.9620.9690.9640.9470.9610.0440.0330.0460.0750.049
Tri-MipRF [17]32.8932.8428.2923.8729.470.9580.9670.9510.9130.9470.0460.0330.0460.075 0.050
3DGS [18]33.3326.9521.3817.6924.840.9690.9490.8750.7660.8900.0300.0320.0660.121 0.063
3DGS [18] + EWA [59]33.5131.6627.8224.6329.400.9690.9710.9590.9400.9600.0320.0240.0330.0470.034
Mip-Splatting (ours)33.3634.0031.8528.67 31.970.9690.9770.9780.9730.9740.0310.0190.019 0.026 0.024

分析:

  • 在此更具挑战性的单尺度训练多尺度测试场景下,Mip-Splatting 的优势更加突出,显著优于所有现有最先进方法

  • Mip-Splatting 的平均 PSNR (31.97)、平均 SSIM (0.974) 和平均 LPIPS (0.024) 均表现最佳。

  • 值得注意的是,当采样率降低到 1/81/8 分辨率时,3DGS [18] 的性能急剧下降,PSNR 仅为 17.69SSIM0.766,表明严重的膨胀伪影 (dilation artifacts)。而 Mip-Splatting 在此极端条件下仍能保持较好的质量 (28.67 PSNR, 0.973 SSIM)。

  • 3DGS [18] + EWA [59] 相比纯 3DGS 有所改善 (29.40 PSNR, 0.960 SSIM),但仍不及 Mip-SplattingEWA 方法可能因为使用大的低通滤波器 (low-pass filter) 导致了过度平滑 (oversmoothed)

  • 下图(原文 Figure 4)的定性结果也印证了这一点,Mip-Splatting 在不同缩放 (scaling) 因子下都能渲染出更忠实 (faithful) 的图像。

    下图(原文 Figure 4)展示了在 Blender 数据集上单尺度训练多尺度测试(模拟缩小)的定性结果:

    该图像是示意图,展示了不同缩放因子下的三维高斯样本结果对比。上方为不同缩放变化下的三维目标质量,显示了Mip-Splatting方法的效果。各行分别对比了Mip-NeRF、Tri-MipRF、3DGS及其对应的真实图像(GT)。 该图像是示意图,展示了不同缩放因子下的三维高斯样本结果对比。上方为不同缩放变化下的三维目标质量,显示了Mip-Splatting方法的效果。各行分别对比了Mip-NeRF、Tri-MipRF、3DGS及其对应的真实图像(GT)。

图 4. 我们在训练分辨率下比较了 Mip-SplattingMip-NeRF [1]、Tri-MipRF [17] 等模型,并在不同分辨率下进行了渲染,模拟了缩放效果。Mip-Splatting 在训练分辨率下与这些方法性能相当,但在其他所有尺度上都显著超越了它们。Mip-Splatting 优于 3DGS [18] 和 3DGS+EWA3DGS + EWA [59]。

6.2. Mip-NeRF 360 数据集上的评估

6.2.1. 单尺度训练与多尺度测试(模拟放大)

在此设置下,模型使用8 倍下采样数据 (data downsampled by a factor of 8) 进行训练,并在更高分辨率1×,2×,4×,8×1\times, 2\times, 4\times, 8\times)下进行渲染,以模拟放大 (zoom-in) 效果。

以下是原文 Table 3 的结果,评估了在 Mip-NeRF 360 数据集上单尺度训练多尺度测试(模拟放大)的性能:

PSNR ↑ 1× Res. 2× Res. 4× Res. 8× Res. Avg.SSIM↑ 1× Res. 2× Res. 4× Res. 8× Res. Avg.LPIPS ↓ 1× Res. 2× Res.4× Res. 8× Res. Avg.
Instant-NGP [32]26.7924.7624.2724.2725.020.7460.6390.6260.698 0.6770.2390.3670.4450.475 0.382
mip-NeRF 360 [2]29.2625.1824.1624.1025.670.8600.7270.6700.706 0.7410.1220.2600.3700.4280.295
zip-NeRF [3]29.6623.2720.8720.2723.520.8750.6960.5650.559 0.6740.0970.2570.4210.4940.318
3DG S [18]29.1923.5020.7119.59 23.250.8800.7400.6190.619 0.7150.1070.2430.3940.476 0.305
3DGS [18] + EWA [59]29.3025.9023.7022.8125.430.8800.7750.6670.643 0.7410.1140.2360.3690.4490.292
Mip-Splatting (ours)29.3927.3926.4726.22 27.370.8840.8080.7540.765 0.8030.1080.2050.3050.392 0.252

分析:

  • 模拟放大的场景下,Mip-Splatting 在训练尺度 (1×1\times) 与其他方法性能相当,但在更高的分辨率2×,4×,8×2\times, 4\times, 8\times)下,其性能显著优于所有最先进方法

  • 例如,在 8×8\times 分辨率下,Mip-Splatting 取得了 26.22 PSNR,而 3DGS [18] 仅为 19.59mip-NeRF 36024.10zip-NeRF20.27

  • 这表明 Mip-Splatting3D 平滑滤波器 有效地避免了高频伪影 (high-frequency artifacts)基于 MLP (MLP-based) 的方法(如 mip-NeRF 360, zip-NeRF)在分布外频率 (out-of-distribution frequencies) 上难以外推 (extrapolate)

  • 3DGS [18]放大 (zoom-in) 时出现了明显的侵蚀伪影 (erosion artifacts)3DGS [18] + EWA [59] 虽有所改善,但仍存在显著高频伪影

  • 下图(原文 Figure 5)的定性结果也支持了这一结论,Mip-Splatting 能够生成高保真 (high fidelity) 图像,且没有高频伪影

    下图(原文 Figure 5)展示了在 Mip-NeRF 360 数据集上单尺度训练多尺度测试(模拟放大)的定性结果:

    该图像是一个示意图,展示了Mip-Splatting方法与其他视图合成方法(如Mip-NeRF 360、Zip-NeRF、3DGS等)的效果对比。通过引入3D平滑滤波器和2D Mip滤波器,Mip-Splatting在消除高频伪影方面表现出色,提升了图像质量。 该图像是一个示意图,展示了Mip-Splatting方法与其他视图合成方法(如Mip-NeRF 360、Zip-NeRF、3DGS等)的效果对比。通过引入3D平滑滤波器和2D Mip滤波器,Mip-Splatting在消除高频伪影方面表现出色,提升了图像质量。

图 5. 我们训练的模型在 1×1\times 分辨率下,并评估了四种尺度(1×,2×,4×,8×1\times, 2\times, 4\times, 8\times),其中高采样率的评估模拟了放大 (zoom-in) 效果。Mip-Splatting 在消除高频伪影 (high-frequency artifacts) 方面表现出色。

6.2.2. 单尺度训练与同尺度测试

为了验证Mip-Splatting在标准分布内 (in-distribution)设置下的表现,模型在Mip-NeRF 360数据集上使用同尺度数据 (same-scale data)进行训练和测试。

以下是原文 Table 4 的结果,评估了在 Mip-NeRF 360 数据集上单尺度训练同尺度测试的性能:

PSNR ↑SSIM↑LPIPS ↓
NeRF [9, 28]23.85 0.605 0.451
mip-NeRF [1]NeRF++ [56]Plenoxels [11]Instant NGP [32, 52]mip-NeRF 360 [2, 30]Zip-NeRF [3]3DGS [18]3DGS [18]*24.04 0.616 0.441
25.11 0.676 0.375
23.08 0.626 0.463
25.68 0.7050.302
0.79328.540.189
0.8153DGS [18] + EWA [59]Mip-Splatting (ours)27.77 0.8260.203

分析:

  • 标准分布内设置下,Mip-Splatting 的性能与 3DGS [18]3DGS [18] + EWA [59] 持平 (on par)
  • 例如,Mip-SplattingPSNR27.79SSIM0.827LPIPS0.203,与 3DGS [18] + EWA [59] (27.77 PSNR, 0.826 SSIM, 0.206 LPIPS) 非常接近。
  • 这表明 Mip-Splatting 在解决分布外问题时,并没有以牺牲分布内性能为代价。

6.3. 消融实验 (Ablation Study)

6.3.1. 3D 平滑滤波器的有效性

该消融实验旨在评估3D 平滑滤波器的有效性,尤其是在放大 (zoom-in) 场景下的表现。实验在 Mip-NeRF 360 数据集上,采用单尺度训练 (single-scale training)多尺度测试 (multi-scale testing)(模拟放大)的设置。

以下是原文 Table 5 的结果,评估了3D 平滑滤波器的有效性:

PSNR ↑ 1× Res. 2× Res. 4× Res. 8× Res. Avg.SSIM ↑ 1× Res. 2× Res. 4× Res. 8× Res. Avg.LPIPS ↓ 1× Res. 2× Res. 4× Res. 8× Res. Avg.
3DGS [18]29.1923.5020.7119.59 23.250.8800.7400.6190.6190.7150.1070.2430.3940.476 0.305
3DGS [18] + EWA [59]29.3025.9023.7022.8125.430.8800.7750.6670.6430.7410.1140.2360.3690.4490.292
Mip-Splatting (ours)29.3927.3926.4726.22 27.370.8840.8080.7540.765 0.8030.1080.2050.3050.392 0.252
Mip-Splatting (ours) w/o 3D smoothing filter29.4127.0925.8325.38 26.930.8810.7950.7220.713 0.7780.1070.2140.3420.4240.272
Mip-Splatting (ours) w/o 2D Mip filter29.2927.2226.3126.08 27.230.8820.7980.7420.759 0.7950.1070.2140.3190.4070.262

分析:

  • 移除3D 平滑滤波器 (Mip-Splatting (ours) w/o 3D smoothing filter) 导致在渲染更高分辨率图像 (higher resolution images) 时性能下降。例如,在 8×8\times 分辨率下,PSNRMip-Splatting26.22 降至 25.38SSIM0.765 降至 0.713LPIPS0.252 升至 0.272。这表明3D 平滑滤波器对于抑制放大 (zoom-in) 场景下的高频伪影 (high-frequency artifacts) 至关重要。

  • 移除2D Mip 滤波器 (Mip-Splatting (ours) w/o 2D Mip filter)放大 (zoom-in) 场景的影响相对较小,因为其主要作用是解决缩小 (zoom-out) 时的混叠 (aliasing) 问题。

    下图(原文 Figure 6)展示了3D 平滑滤波器放大 (zoom-in) 效果的消融实验定性结果:

    该图像是图表,展示了不同方法在多个场景下的3D高斯点云渲染效果。第一行展示的是3DGS和3DGS结合EWA的结果,接下来的几行则对比了不使用3D平滑滤波器、使用或不使用2D Mip滤波器的效果,最后一行是基准图(GT)。 该图像是图表,展示了不同方法在多个场景下的3D高斯点云渲染效果。第一行展示的是3DGS和3DGS结合EWA的结果,接下来的几行则对比了不使用3D平滑滤波器、使用或不使用2D Mip滤波器的效果,最后一行是基准图(GT)。

图 6. 在 Mip-NeRF 360 数据集上单尺度训练 (single-scale training)多尺度测试 (multi-scale testing),高采样率的评估模拟放大 (zoom-in) 效果。

6.3.2. 2D Mip 滤波器的有效性

此消融实验旨在评估2D Mip 滤波器的有效性,特别是在缩小 (zoom-out) 场景下的表现。实验在 Blender 数据集上,采用单尺度训练 (single-scale training)多尺度测试 (multi-scale testing)(模拟缩小)的设置。

以下是原文 Table 6 的结果,评估了2D Mip 滤波器的有效性:

PSNR ↑ Full Res. 1/Res. 1Rs. Re.SSIM ↑ Full Res. 1/2 Res. 1/4 Res. 1/8 Res. Avg.LPIPS ↓ Full Res. 1/2 Res. 1/4 Res. 1/8 Res Avg.
3DGS [18]33.3326.9521.3817.69 24.840.9690.9490.8750.7660.8900.030 0.0320.0660.121 0.063
3DGS [18] + EWA [59]33.5131.6627.8224.6329.400.9690.9710.9590.9400.9600.0320.0240.033 0.047 0.034
3DGS [18] - Dilation33.3833.0629.6826.1930.5800.9690.9730.9640.9450.9630.0300.0240.0410.075 0.042
Mip-Splatting (ours)33.3634.0031.8528.6731.970.9690.9770.9780.9730.9740.031 0.0190.0190.026 0.024
Mip-Splatting (ours) w/ 3D smoothing filter33.6734.1631.5628.2031.900.9700.9770.9780.9710.9740.0300.0180.019 0.0270.024
Mip-Splatting (ours) w/o 2D Mip filter33.5133.3829.8726.28 30.760.9700.9750.9660.9460.9640.0310.0220.0390.073 0.041

分析:

  • 移除3DGS膨胀操作 (3DGS [18] - Dilation) 确实消除了膨胀伪影 (dilation effects),使其性能优于原始 3DGS,但由于缺乏抗混叠 (anti-aliasing),仍会导致混叠伪影 (aliasing artifacts)
  • 移除2D Mip 滤波器 (Mip-Splatting (ours) w/o 2D Mip filter) 导致性能显著下降,尤其是在低分辨率 (resolution) 下。例如,在 1/81/8 分辨率下,PSNRMip-Splatting28.67 降至 26.28SSIM0.973 降至 0.946LPIPS0.026 升至 0.041。这有力地验证了2D Mip 滤波器在缓解缩小 (zoom-out) 场景下的混叠膨胀问题 (dilation issues) 中的关键作用。
  • Mip-Splatting 在所有基线方法中表现最佳。
  • Mip-Splatting (ours) w/ 3D smoothing filter 这一行可能代表只保留了2D Mip 滤波器而移除了3D 平滑滤波器的变体。其性能与完整的Mip-Splatting 相似,这与论文中3D 平滑滤波器主要解决放大 (zoom-in) 问题,而2D Mip 滤波器主要解决缩小 (zoom-out) 问题的描述相符。这进一步证实了2D Mip 滤波器缩小场景下的独立贡献。

6.3.3. 单尺度训练与多尺度测试(同时放大和缩小)

此实验旨在评估Mip-Splatting在同时包含放大 (zoom-in)缩小 (zoom-out) 效应的场景下的性能。模型在 Mip-NeRF 360 数据集上使用4 倍下采样数据 (data downsampled by a factor of 4) 进行训练,并在多个分辨率1/4×,1/2×,1×,2×,4×1/4\times, 1/2\times, 1\times, 2\times, 4\times)下进行评估。

以下是原文 Table 7 的结果,评估了在 Mip-NeRF 360 数据集上单尺度训练多尺度测试(同时放大和缩小)的性能:

PSNR ↑SSIM↑LPIPS ↓
/4 Res. 1/2 Res. 1× Res. 2× Res. 4× Res. Avg.1/4 Res. 1/2 Res. 1× Res. 2× Res. 4× Res. Avg.1/4 Res. 1/2 Res. 1× Res. 2× Res. 4× Res. Avg.
3DGS [18]20.85 24.6628.0125.0823.37 24.390.6810.812 0.8340.766 0.7350.7650.203 0.1580.2750.383
3DGS [18] + EWA [59]27.4028.3928.0926.4325.30 27.120.8880.871 0.8330.774 0.7380.8210.103 0.1260.166 0.1710.2760.237 0.385 0.212
Mip-Splatting (ours)28.9829.0228.0927.2526.95 28.060.9080.880 0.8350.7980.800 0.8440.086 0.1140.1680.2480.331
Mip-Splatting (ours) w/o 3D smoothing filter28.6928.9428.0527.0626.61 27.870.9050.879 0.8330.790 0.7800.8370.088 0.1150.1680.2610.189 0.359 0.198
Mip-Splatting (ours) w/o 2D Mip filter26.0928.0428.0527.2727.00 27.290.8150.856 0.8340.798 0.8020.8210.167 0.1320.1670.2490.335 0.210

分析:

  • 在同时包含放大 (zoom-in)缩小 (zoom-out) 效应的综合场景下,Mip-Splatting 的平均 PSNR (28.06)、平均 SSIM (0.844) 和平均 LPIPS (0.168) 均显著优于 3DGS [18]3DGS [18] + EWA [59]

  • 移除3D 平滑滤波器 导致高频伪影 (high-frequency artifacts),性能略有下降 (平均 PSNR 27.87, 平均 SSIM 0.837, 平均 LPIPS 0.198)。

  • 移除2D Mip 滤波器 导致混叠伪影 (aliasing artifacts),性能显著下降 (平均 PSNR 27.29, 平均 SSIM 0.821, 平均 LPIPS 0.210)。这再次验证了两个组件在处理不同采样率变化时的互补性 (complementarity)有效性 (effectiveness)

    下图(原文 Figure 7)展示了在 Mip-NeRF 360 数据集上同时放大 (zoom-in)缩小 (zoom-out) 的消融实验定性结果:

    该图像是一个比较不同3D高斯处理效果的示意图,展示了不同方法在不同缩放率下的图像质量,包含3DGS、3DGS + EWA、我们的无2D Mip过滤器、Mip-Splatting以及GT。图像在多个尺度下进行比较,验证了新方法改善高频伪影的有效性。 该图像是一个比较不同3D高斯处理效果的示意图,展示了不同方法在不同缩放率下的图像质量,包含3DGS、3DGS + EWA、我们的无2D Mip过滤器、Mip-Splatting以及GT。图像在多个尺度下进行比较,验证了新方法改善高频伪影的有效性。

图 7. 在 Mip-NeRF 360 数据集上单尺度训练 (single-scale training)多尺度测试 (multi-scale testing)。图像以 1×1\times 分辨率 (resolution) 训练,并在四种尺度(1/4×,1/2×,1×,2×,4×1/4\times, 1/2\times, 1\times, 2\times, 4\times)下评估,模拟缩小 (zoom-out)放大 (zoom-in) 效果。Mip-Splatting 优于 3DGS [18] 和 3DGS+EWA3DGS + EWA [59]。省略 2D Mip 滤波器会导致缩小 (zoom-out) 时出现混叠伪影 (aliasing artifacts)

6.4. 局限性

论文也讨论了Mip-Splatting的一些局限性:

  • Gaussian 滤波器 (Gaussian filter) 近似盒式滤波器 (box filter) 2D Mip 滤波器使用Gaussian 滤波器来近似盒式滤波器,这会引入误差,尤其当Gaussian屏幕空间 (screen space) 中很小时。实验结果也显示,缩小 (zooming out) 程度越大,误差可能越大。
  • 训练开销略有增加: 每个 3D Gaussian采样率 (sampling rate) 必须每 m=100m=100 迭代重新计算。虽然这是一个相对较小的开销,但对于极端性能优化的应用,仍可能构成一个考量。目前实现基于 PyTorch,未来可考虑更高效的 CUDA 实现。
  • 数据结构优化潜力: 采样率的计算仅依赖于相机姿态和内参,这表明可以通过设计更优化的数据结构来预计算 (precomputing) 和存储这些信息,以进一步减少训练开销。

7. 总结与思考

7.1. 结论总结

本文提出了 Mip-Splatting,对 3D Gaussian Splatting (3DGS) 框架进行了两项关键的修改,旨在实现任意尺度 (arbitrary scales) 下的无混叠 (alias-free) 渲染。其核心贡献在于引入了:

  1. 3D 平滑滤波器 (3D smoothing filter) 该滤波器利用奈奎斯特-香农采样定理 (Nyquist-Shannon Sampling Theorem),根据训练图像所产生的最大采样频率 (maximal sampling frequency) 来约束 3D Gaussian 基元的尺寸。通过在3D 空间 (3D space) 中对 Gaussian 进行低通滤波 (low-pass filtering),有效避免了放大 (zooming in) 时出现的高频侵蚀伪影 (erosion artifacts)

  2. 2D Mip 滤波器 (2D Mip filter) 该滤波器取代了 3DGS 中原有的2D 膨胀操作 (2D dilation operation)。它通过一个 2D Gaussian 滤波器来近似物理成像过程 (physical imaging process)像素 (pixel)积分效应 (integration effect)(即2D 盒式滤波器 (2D box filter))。这显著缓解了缩小 (zooming out) 时的混叠 (aliasing) 和不自然的膨胀伪影 (dilation artifacts)

    实验结果表明,Mip-Splatting 在训练和测试采样率 (sampling rate) 相同的标准分布内 (in-distribution) 设置下,能够达到与最先进方法 (state-of-the-art methods) 相当的性能。更重要的是,在分布外 (out-of-distribution) 场景下(即测试采样率与训练采样率不同,包括放大 (zoom-in)缩小 (zoom-out) 效应),Mip-Splatting 显著优于所有现有方法,展现出卓越的泛化能力 (generalization ability)。这些改进是原理性 (principled)简单 (simple) 的,仅需对原始 3DGS 代码进行少量修改。

7.2. 局限性与未来工作

论文作者指出了以下局限性:

  • Gaussian 滤波器近似误差: 2D Mip 滤波器使用Gaussian 滤波器近似盒式滤波器,这会引入误差,尤其当Gaussian屏幕空间 (screen space) 中非常小时,误差会更明显,导致缩小 (zooming out) 程度越大,误差越大。
  • 训练开销: 3D Gaussian采样率 (sampling rate) 每 100 迭代需要重新计算一次,这虽然增加了轻微的训练开销。 针对这些局限性,作者提出了未来的研究方向:
  • 优化采样率计算: 考虑到采样率仅依赖于相机姿态和内参,未来可以设计更好的数据结构来预计算 (precomputing) 和存储这些信息,或者通过更高效的 CUDA 实现来减少当前的计算开销。

7.3. 个人启发与批判

个人启发:

  • 信号处理 (Signal Processing) 理论的实践价值: 这篇论文是信号处理理论在神经渲染 (neural rendering) 领域成功应用的又一个范例。通过深入理解奈奎斯特-香农采样定理频率约束 (frequency constraints),作者能够从根本上解决3DGS多尺度渲染 (multi-scale rendering) 中的伪影 (artifacts)问题,而非仅仅是基于经验的修补。这强调了扎实的理论基础对于解决实际工程问题的指导作用。
  • 物理建模 (Physical Modeling)深度学习 (Deep Learning) 的结合: 2D Mip 滤波器通过模拟物理成像过程 (physical imaging process)中的像素积分 (pixel integration)盒式滤波器),实现了更忠实 (faithful)无混叠 (alias-free) 的渲染。这表明,将物理原理 (physical principles) 融入数据驱动 (data-driven)深度学习模型中,往往能带来更好的泛化能力 (generalization ability)真实感 (realism),超越纯粹的数据拟合 (data fitting)
  • 即插即用 (Plug-and-play) 式改进的优雅性: Mip-Splatting 的解决方案是对 3DGS 框架的模块化、非侵入式修改。它在保留 3DGS 实时渲染 (real-time rendering) 优势的同时,显著提升了其多尺度泛化能力。这种优雅的设计思路,对于现有高效系统的改进具有很好的参考价值。
  • 关注分布外泛化 (Out-of-distribution generalization) 论文明确将多尺度渲染视为一个分布外泛化问题,并通过实验有力地验证了其方法在这方面的优越性。这提醒神经渲染领域的研究者,在模型评估时,不应仅仅关注分布内 (in-distribution) 性能,模型鲁棒性 (model robustness)泛化能力在实际应用中同样重要。

批判与可以改进的地方:

  • Gaussian盒式滤波器的近似限制: 尽管Gaussian 滤波器在数学上具有良好的性质(如卷积 (convolution) 结果仍为Gaussian),但其对理想盒式滤波器的近似在屏幕空间 (screen space) Gaussian 极小的情况下可能确实引入不可忽略的误差。未来的工作可以探索:
    • 更精确的可学习滤波器 (learnable filter) 是否能通过神经网络 (neural network) 学习一个更接近盒式滤波器响应的抗混叠滤波器
    • 傅里叶域 (Fourier domain) 方法: 直接在傅里叶域进行带限滤波 (band-limiting) 可能更精确,但需要解决3D Gaussian 渲染的傅里叶变换 (Fourier transform) 及其在屏幕空间的高效计算。
  • 超参数 (Hyperparameter) ss自适应性 (adaptivity) 论文中3D 平滑滤波器2D Mip 滤波器中的超参数 ss 是固定值。虽然这些值是经验性选择的,但在不同场景或不同采样率变化范围下,最优的 ss 值可能不同。探索自适应场景感知 (scene-aware)ss 值选择策略,例如,通过可学习 (learnable) 的方式根据场景内容或当前渲染尺度 (scale) 动态调整 ss,可能会进一步提升性能和鲁棒性。
  • 训练效率的瓶颈: 即使可以通过 CUDA 优化采样率的重新计算,每 100 迭代 (every 100 iterations) 进行一次的频率对于极其大规模的场景或对训练时间有严格要求的应用来说,可能仍然是一个瓶颈。未来可以研究更稀疏 (sparser)条件性 (conditional)近似性 (approximate)采样率更新策略,例如,只对那些尺度 (scale) 变化较大或对混叠敏感的 Gaussian 进行更新,以在效率和质量之间取得更好的平衡。
  • 与其他显式表示 (explicit representations) 的融合: Mip-Splatting 主要针对 3DGS。随着新视图合成领域不断涌现新的显式表示形式(如基于点云 (point clouds)体素 (voxels)网格 (meshes) 的高效渲染方法),将Mip-Splatting抗混叠思想推广并适配 (adapt) 到这些不同的显式渲染框架中,将是一个有前景的研究方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。