论文状态：已完成

Real-time Photorealistic Dynamic Scene Representation and Rendering with 4D Gaussian Splatting

发表：2023/10/17

动态场景重建 (3)4D高斯Splatting表示 (2)实时渲染 (2)时空建模 (1)多视角场景合成 (1)

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种基于4D高斯泼溅的动态场景重建与渲染方法，解决了从2D图像生成高质量动态3D场景的挑战。通过将时空视为整体，作者引入了4D高斯基元，模型能够高效捕捉几何形状与动态外观变化，实验结果显示其在实时渲染效率和视觉质量上均超越现有方法。

摘要

Reconstructing dynamic 3D scenes from 2D images and generating diverse views over time is challenging due to scene complexity and temporal dynamics. Despite advancements in neural implicit models, limitations persist: (i) Inadequate Scene Structure: Existing methods struggle to reveal the spatial and temporal structure of dynamic scenes from directly learning the complex 6D plenoptic function. (ii) Scaling Deformation Modeling: Explicitly modeling scene element deformation becomes impractical for complex dynamics. To address these issues, we consider the spacetime as an entirety and propose to approximate the underlying spatio-temporal 4D volume of a dynamic scene by optimizing a collection of 4D primitives, with explicit geometry and appearance modeling. Learning to optimize the 4D primitives enables us to synthesize novel views at any desired time with our tailored rendering routine. Our model is conceptually simple, consisting of a 4D Gaussian parameterized by anisotropic ellipses that can rotate arbitrarily in space and time, as well as view-dependent and time-evolved appearance represented by the coefficient of 4D spherindrical harmonics. This approach offers simplicity, flexibility for variable-length video and end-to-end training, and efficient real-time rendering, making it suitable for capturing complex dynamic scene motions. Experiments across various benchmarks, including monocular and multi-view scenarios, demonstrate our 4DGS model's superior visual quality and efficiency.

思维导图

论文精读

中文精读约 13 分钟读完 · 7,404 字

1. 论文基本信息

1.1. 标题

Real-time Photorealistic Dynamic Scene Representation and Rendering with 4D Gaussian Splatting （基于4D高斯泼溅的实时照片级真实感动态场景表示与渲染）

1.2. 作者

Zeyu Yang, Hongye Yang, Zijie Pan, Li Zhang*

隶属机构： 复旦大学 (Fudan University)
对应作者： Li Zhang

1.3. 发表期刊/会议

发表状态： 论文通过 arXiv 发布（v3 版本发布于 2023年10月），属于计算机视觉（Computer Vision）和图形学（Graphics）领域的顶级水平工作。

1.4. 发表年份

发布时间 (UTC): 2023-10-16

1.5. 摘要

本文旨在解决从2D图像重建动态3D场景并生成任意时刻新视图的难题。现有的神经隐式模型在捕捉场景的时空结构或处理复杂形变时存在局限性。为此，作者提出了一种全新的视角：将时空视为一个整体，利用优化的 4D高斯基元 (4D Primitives) 来近似动态场景的底层4D体积。该模型由各项异性的 4D椭球 (4D Ellipses) 组成，这些椭球可以在时空中任意旋转。外观方面，引入了 4D球柱谐波 (4D Spherindrical Harmonics) 来表示视点依赖和时间演变的颜色。实验表明，该方法在单目和多视角场景下均实现了优于现有方法的视觉质量，并达到了极高的实时渲染效率（远超实时帧率）。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2310.10642v3
PDF 链接: https://arxiv.org/pdf/2310.10642v3.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题: 如何从2D视频中高质量、实时地重建动态3D场景？
现有挑战:
1. 场景结构不足: 现有的基于 MLP 或网格（Grid）的方法试图直接学习复杂的 6D 全光函数（位置+方向+时间），难以捕捉时空相关性。
2. 形变建模扩展性差: 显式建模物体形变（如基于粒子的方法）在面对复杂动力学时计算量大且难以优化。
3. 时间一致性: 简单的逐帧重建无法利用时间上的信息共享，容易导致闪烁。
创新思路: 作者不再将动态场景看作是“随时间变形的3D物体”，而是将其看作一个 4D时空整体 (Spacetime Volume)。在这个4D空间中，物体是一个静态的4D形状，通过“切片”操作获得特定时刻的3D状态。

2.2. 核心贡献/主要发现

4D高斯表示 (4D Gaussian Representation): 首次提出了完整的4D高斯泼溅模型，将空间和时间维度统一建模，通过4D旋转自然地捕捉场景的运动。
4D球柱谐波 (4D Spherindrical Harmonics): 提出了一种新的外观表示方法，结合了傅里叶级数（时间维度）和球谐函数（空间维度），能够同时建模光照随视角和时间的复杂变化。
实时渲染性能: 实现了端到端训练和高分辨率实时渲染。在 Plenoptic Video 数据集上，该方法不仅质量最优，渲染速度更是高达 114 FPS，远超之前的 SOTA 方法（通常不到 1 FPS）。

下图（原文 Figure 1）展示了该方法的核心直觉：将动态场景视为4D高斯，通过投影变为2D图像。

该图像是示意图，展示了动态场景到静态图像的转换过程。上部分显示动态场景通过采样和投影转化为静态场景和图像，下部分则展示了4D高斯到3D高斯，再到2D高斯的混合和分层过程。通过条件和混合，动态信息得以有效保存与展示。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文，初学者需要掌握以下概念：

3D高斯泼溅 (3D Gaussian Splatting, 3DGS): 2023年提出的一种革命性技术。它不用神经网络隐式存储场景，而是用数百万个显式的3D椭球（高斯分布）来表示场景。渲染时，将这些3D椭球投影（Splatting）到2D屏幕上进行融合。
全光函数 (Plenoptic Function): 描述空间中任意一点在任意方向、任意时间的光线强度的函数。对于动态场景，它通常是6D的： $(x, y, z, \theta, \phi, t)$ 。
四元数 (Quaternion): 一种用于表示旋转的数学工具。在3D中，一个四元数可以表示旋转；在4D空间中，旋转更为复杂，通常需要两个四元数来表示（详见方法论）。
球谐函数 (Spherical Harmonics, SH): 一组定义在球体表面的正交基函数，常用于计算机图形学中模拟随观察角度变化的颜色（如金属光泽）。

3.2. 前人工作

NeRF (Neural Radiance Fields): 使用 MLP 隐式表示静态场景。后续的 DyNeRF, HyperReel, HexPlane, K-Planes 尝试引入时间维度，通常通过添加时间输入或使用4D特征网格。这些方法往往训练慢或渲染慢。
Dynamic 3D Gaussians: 与本文同期或稍早的工作（如 Luiten et al.），通常假设场景由一组固定的3D高斯组成，这些高斯随时间移动或变形。这种方法在拓扑结构发生剧烈变化（如倒水、火焰）时容易失效。

3.3. 差异化分析

本文的 4DGS 与其他“动态高斯”方法的根本区别在于：

其他方法: 追踪粒子的运动（Lagrangian 视角）。例如，学习一个 deformation field（形变场）来移动高斯。
本文方法: 欧拉视角（Eulerian-like）。不显式追踪粒子，而是定义一个跨越时空的4D椭球。当我们在时间轴上移动时，这个4D椭球的“横截面”在3D空间中表现出运动和形变。这种方法更灵活，能处理复杂的拓扑变化。

4. 方法论

4.1. 方法原理

核心思想是将 3D Gaussian Splatting 扩展到 4D。给定一个查询时间 $t$ 和视点 $\mathcal{T}$ ，算法首先将 4D 高斯分布分解为 边缘分布 (Marginal) p(t) 和 条件分布 (Conditional) $p(x,y,z|t)$ 。

p(t) 决定了该高斯在时间 $t$ 是否存在（透明度）。
$p(x,y,z|t)$ 是一个标准的 3D 高斯，决定了该高斯在时间 $t$ 的空间位置和形状。

下图（原文 Figure 2）展示了渲染管线：4D高斯 -> 切片为3D高斯 -> 投影为2D平面高斯 -> 渲染。

$Figure 2: Rendering pipeline of our 4DGS. Given a time $t$ and view $\\mathcal { T }$ , each 4D Gaussian is first decomposed into a conditional 3D Gaussian and a marginal 1D Gaussian. Subsequently, the conditional 3D Gaussian is projected to a 2D splat. Finally, we integrate the planar conditional Gaussian, 1D marginal Gaussian, and time-evolving view-dependent color to render the view $\\mathcal { T }$ .$ 该图像是一个示意图，展示了4D高斯渲染管道。图中展示了如何将4D高斯 p(x,y,z,t) 进行分解，最后结合平面高斯和时间变化的视角色彩来生成图像 ext{I}(u,v,t)。

4.2. 核心方法详解 (逐层深入)

4.2.1. 3D 高斯基础回顾

在标准 3DGS 中，一个高斯由均值 $\mu \in \mathbb{R}^3$ 和协方差矩阵 $\Sigma \in \mathbb{R}^{3 \times 3}$ 定义。其非归一化概率密度函数为： $p(x|\mu, \Sigma) = e^{-\frac{1}{2}(x-\mu)^T \Sigma^{-1} (x-\mu)}$ 为了保证 $\Sigma$ 半正定，通常将其分解为旋转 $R$ 和缩放 $S$ ： $\Sigma = RSS^TR^T$ 。

4.2.2. 4D 高斯的构建与参数化

作者提出构建一个统一的 4D 高斯。

均值 (Mean): $\mu = (\mu_x, \mu_y, \mu_z, \mu_t)$ ，增加了时间维度的中心。
协方差 (Covariance): $\Sigma$ $Σ$ 是一个 $4 \times 4$ $4 \times 4$ 矩阵，同样分解为缩放 $S$ $S$ 和旋转 $R$ $R$ ： $\Sigma = R S S^T R^T$ $Σ = RS S^{T} R^{T}$
- 缩放 $S$ : 对角矩阵 $\boldsymbol{S} = \mathrm{diag}(s_x, s_y, s_z, s_t)$ ，表示高斯在时空四个维度上的大小。
- 旋转 $R$ (关键创新): 4D 欧几里得空间中的旋转比 3D 复杂。它可以分解为一对 各向同性旋转 (Isotropic Rotations)，分别由左旋转四元数 $q_l = (a,b,c,d)$ 和右旋转四元数 $q_r = (p,q,r,s)$ 表示。
  
  原文公式 (Eq. 8) 展示了如何通过两个四元数构建 $4 \times 4$ 的旋转矩阵 $R$ ： $R = L(q_l)R(q_r) = \left( \begin{array}{cccc} a & -b & -c & -d \\ b & a & -d & c \\ c & d & a & -b \\ d & -c & b & a \end{array} \right) \left( \begin{array}{cccc} p & -q & -r & -s \\ q & p & s & -r \\ r & -s & p & q \\ s & r & -q & p \end{array} \right)$ 解析: 这种参数化允许高斯在时空中任意“倾斜”。正是这种 4D 旋转，使得高斯能够模拟运动。例如，一个在 (x, t) 平面上倾斜的长条形 4D 高斯，当我们沿 $t$ 轴切片时，其 $x$ 截面会随时间移动，从而产生速度。

4.2.3. 时空切片：从 4D 到 3D

为了渲染特定时间 $t$ 的图像，我们需要求出 4D 高斯在时间 $t$ 的条件分布。根据多元高斯分布的性质，条件分布 $p(x,y,z|t)$ 依然是一个高斯分布（即 3D 高斯）。

其均值 $\mu_{xyz|t}$ 和协方差 $\Sigma_{xyz|t}$ 计算如下（原文 Eq. 9）： $\begin{aligned} \mu_{xyz|t} &= \mu_{1:3} + \Sigma_{1:3, 4} \Sigma_{4, 4}^{-1} (t - \mu_t) \\ \Sigma_{xyz|t} &= \Sigma_{1:3, 1:3} - \Sigma_{1:3, 4} \Sigma_{4, 4}^{-1} \Sigma_{4, 1:3} \end{aligned}$ 符号解释:

$\mu_{1:3}$ : 4D 均值的前三个分量 (x,y,z)。
$\Sigma_{1:3, 4}$ : 协方差矩阵的空间-时间相关性部分（前3行，第4列）。
$\Sigma_{4, 4}$ : 协方差矩阵的时间方差部分。
$\mu_t$ : 4D 均值的时间分量。

同时，我们还需要计算时间维度上的 边缘分布 (Marginal Distribution) p(t)，用于调整高斯的不透明度（原文 Eq. 10）： $p(t) = \mathcal{N}(t; \mu_4, \Sigma_{4,4})$ 如果当前渲染时间 $t$ 距离高斯的时间中心 $\mu_t$ 太远，且 $\Sigma_{4,4}$ 很小（持续时间短），则 p(t) 接近 0，该高斯在当前帧不可见。

4.2.4. 4D 球柱谐波 (4D Spherindrical Harmonics)

动态场景中，物体的颜色不仅随视角变化（View-dependent），还随时间变化（Time-evolved，如光影变化）。作者提出了 4DSH，将颜色 c(d, t) 表示为傅里叶级数（时间基函数）与球谐函数（空间基函数）的乘积。

原文公式 (Eq. 11): $Z_{nl}^m(t, \theta, \phi) = \cos \left( \frac{2\pi n}{T} t \right) Y_l^m(\theta, \phi)$ 符号解释:

$Y_l^m(\theta, \phi)$ : 标准的 3D 球谐函数，处理空间方向性。
$\cos(\dots)$ : 傅里叶级数项，处理时间周期性或变化。
$n$ : 傅里叶级数的阶数。
l, m: 球谐函数的阶数和次数。

4.2.5. 训练与密度控制

端到端训练: 使用渲染损失直接优化所有参数（位置、旋转、缩放、不透明度、SH系数）。
时空致密化 (Densification in Spacetime): 传统的 3DGS 仅在空间梯度大时分裂高斯。本文引入了 $\mu_t$ 的梯度，并在时空域中进行采样和分裂，以处理时间上的欠拟合或过拟合。

5. 实验设置

5.1. 数据集

Plenoptic Video Dataset (Li et al., 2022b):
- 类型: 真实世界、多视角视频。
- 内容: 包含6个场景（如 Flame Salmon, Coffee Martini），时长10秒。
- 特点: 包含复杂的体积效应（火焰、烟雾）和非朗伯表面（反光）。
D-NeRF Dataset (Pumarola et al., 2020):
- 类型: 合成数据、单目视频。
- 内容: 8个合成场景（如 Lego, T-Rex）。
- 特点: 只有单视角训练数据，对几何一致性要求高。
Waymo Open Dataset (Appendix): 用于验证城市场景（自动驾驶视角）的适用性。

5.2. 评估指标

PSNR (Peak Signal-to-Noise Ratio):
- 定义: 峰值信噪比，衡量生成图像与真实图像在像素层面的误差，数值越高越好。
- 公式: PSNR = 10 \cdot \log_{10} \left( \frac{MAX_I^2}{MSE} \right)
- 解释: $MAX_I$ 是像素最大值（如255），MSE 是均方误差。
SSIM (Structural Similarity Index):
- 定义: 结构相似性，衡量图像在亮度、对比度和结构上的相似度，更符合人眼感知，数值越接近1越好。
- 公式: $SSIM(x,y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)}$
- 解释: $\mu, \sigma$ 分别为均值和方差， $c_1, c_2$ 为常数。
LPIPS (Learned Perceptual Image Patch Similarity):
- 定义: 学习感知图像块相似度，使用深度神经网络提取特征计算距离，数值越低越好。
FPS (Frames Per Second):
- 定义: 每秒渲染帧数，衡量算法的实时性能。

5.3. 对比基线

显式/混合网格方法: HexPlane, K-Planes, MixVoxels, Tensor4D。
隐式 MLP 方法: DyNeRF, HyperReel, NeRFPlayer。
其他 4DGS 变体: 同期的其他 4D Gaussian Splatting 工作（如 Wu et al.）。

6. 实验结果与分析

6.1. 核心结果分析 (多视角真实场景)

在 Plenoptic Video 数据集上，本文方法在渲染质量和速度上均取得了压倒性优势。

质量: PSNR 达到 32.01，显著高于 HexPlane (31.70) 和其他 NeRF 类方法。

速度: 渲染速度高达 114 FPS，是 HexPlane (0.56 FPS) 的 200倍 以上，是唯一真正实现实时的各种高质量方法。

下图（原文 Table 1）展示了详细的定量对比结果：

Method	PSNR ↑	DSSIM ↓	LPIPS ↓	FPS ↑
- Plenoptic Video (real, multi-view)
Neural Volumes	22.80	0.062	0.295	-
LLFF	23.24	0.076	0.235	-
DyNeRF	29.58	0.020	0.099	0.015
HexPlane	31.70	0.014	0.075	0.563
K-Planes-explicit	30.88	0.020	-	0.233
MixVoxels-L	30.80	0.020	0.126	16.7
NeRFPlayer	30.69	0.0352	0.111	0.045
HyperReel	31.10	0.0372	0.096	2.00
4DGS (Wu et al.)	31.02	0.030	0.150	36
4DGS (Ours)	32.01	0.014	0.055	114

6.2. 视觉质量与运动捕捉

下图（原文 Figure 3）展示了定性结果。可以看到，Ours 在火焰的细节、手部的运动模糊处理上都比 DyNeRF 和 HexPlane 更清晰。

Figure 3: Qualitative result on the flame salmon. It can be clearly seen that the visual quality is higher than other methods in the region from the moving hands and flame gun to the static salmon. 该图像是表格，展示了不同方法在合成单视场景中的性能对比，包括 PSNR、SSIM 和 LPIPS 指标。比较中，4DGS 方法在 PSNR 和 SSIM 上均表现最佳，分别为 34.09 和 0.98。

此外，作者还展示了模型“涌现”出的运动捕捉能力（原文 Figure 4）。尽管没有使用光流（Optical Flow）作为监督信号，仅通过渲染损失训练，4D高斯的旋转依然能够隐式地学习到正确的物体运动轨迹（Optical Flow）。

Figure 4: Visualization of the emerged dynamics of our 4D Gaussian The displayed views are selected from the test view of the Plenoptic Video dataset. The ground truth optical flows are extracted by VideoFlow (Shi et al., 2023) for reference. 该图像是一个示意图，展示了不同场景下的渲染流和真实光流对比。上半部分显示了渲染流，下半部分则是对应的真实光流，包含了多个烹饪场景，如制作咖啡马提尼和煎牛排。

6.3. 消融实验 (Ablation Studies)

作者通过消融实验验证了几个关键设计的有效性（见 Table 3）：

No-4DRot: 禁用 4D 旋转（即假设空间和时间独立， $\Sigma$ 为块对角矩阵）。结果 PSNR 显著下降（31.62 -> 30.79）。这证明了 4D 旋转对于捕捉运动至关重要。
No-4DSH: 禁用 4D 球柱谐波。PSNR 下降，证明了建模时间演变的外观是必要的。
No-Time split: 禁用时间维度的分裂策略。质量下降，说明在时间轴上增加高斯密度对于快速运动区域很重要。

下图（原文 Figure 11）直观地展示了 4D 旋转的作用。上排（Full）的切片显示高斯在时间轴上是倾斜的（捕捉了运动），而下排（No-4D Rot）的高斯只能原地生灭，导致渲染模糊。

该图像是图表，展示了在不同设置下的4D高斯拟合的时间切片。上半部分为完整设置的结果，下半部分为没有4D旋转的结果，展示了在不同条件下渲染的图像。

7. 总结与思考

7.1. 结论总结

本文提出了一种基于 4D高斯泼溅 (4D Gaussian Splatting) 的动态场景表示方法。通过构建包含 4D 旋转和 4D 球柱谐波的统一时空基元，该方法成功地将 3DGS 的高效率和高质量扩展到了动态场景。

核心优势: 极高的渲染速度（100+ FPS）、SOTA 级别的图像质量、无需显式形变场的简洁架构。
方法论价值: 证明了将动态场景建模为静态的 4D 体积并通过切片进行渲染，是一种比传统的“3D几何+时间变形”更有效且数学上更优雅的方案。

7.2. 局限性与未来工作

背景初始化依赖: 附录中提到，该方法依赖于初始点云（如 COLMAP 生成）。如果初始点云缺失（如远处的背景），模型很难凭空重建出正确的几何，可能需要特殊的球体初始化技巧。
存储消耗: 虽然文中未详细列出存储大小，但高斯泼溅方法通常比隐式 MLP 需要更多的显存和磁盘空间，尤其是在长时间视频中，高斯数量可能会随时间增加（尽管作者展示了增长是受控的，见 Figure 10）。
极长视频: 对于分钟级甚至更长的视频，单纯增加 4D 高斯可能导致内存溢出，未来可能需要结合流式加载（Streaming）技术。

7.3. 个人启发与批判

思维范式的转变: 这篇论文最精彩的地方在于它处理时间的视角。它没有把时间看作一个“自变量”去驱动空间的变化，而是把时间看作与 x, y, z 平等的第四个维度。这种 时空一体化 (Spacetime as an entirety) 的思维在处理连续变化信号时非常强大。
4D 旋转的直觉: 理解 4D 旋转如何产生 3D 速度是非常有趣的几何直觉。一个在 (x, t) 平面上旋转了 45 度的椭圆，意味着 $x$ 和 $t$ 高度相关——随着 $t$ 增加， $x$ 必须增加以保持在椭圆内，这直接对应了物理上的“速度”。这种显式的几何建模比黑盒子的 MLP 更具可解释性。
应用前景: 这种技术对于 VR/AR 视频、全息通信和体育赛事的自由视角回放具有巨大的商业价值，因为它解决了这类应用中最痛的两个点：画质和帧率。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。