论文状态:已完成

Instant Gaussian Stream: Fast and Generalizable Streaming of Dynamic Scene Reconstruction via Gaussian Splatting

发表:2025/03/21
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为即时高斯流(IGS)的流式框架,旨在解决动态场景自由视角视频重建中的高重建时间和误差累积问题。IGS引入了一种广义的锚点驱动高斯运动网络,通过将多视角2D运动特征投影到3D空间中实现快速生成高斯运动,并采用关键帧引导策略提高重建精度,评估结果显示重建时间大幅缩短至2秒以上,同时增强视图合成质量。

摘要

Building Free-Viewpoint Videos in a streaming manner offers the advantage of rapid responsiveness compared to offline training methods, greatly enhancing user experience. However, current streaming approaches face challenges of high per-frame reconstruction time (10s+) and error accumulation, limiting their broader application. In this paper, we propose Instant Gaussian Stream (IGS), a fast and generalizable streaming framework, to address these issues. First, we introduce a generalized Anchor-driven Gaussian Motion Network, which projects multi-view 2D motion features into 3D space, using anchor points to drive the motion of all Gaussians. This generalized Network generates the motion of Gaussians for each target frame in the time required for a single inference. Second, we propose a Key-frame-guided Streaming Strategy that refines each key frame, enabling accurate reconstruction of temporally complex scenes while mitigating error accumulation. We conducted extensive in-domain and cross-domain evaluations, demonstrating that our approach can achieve streaming with a average per-frame reconstruction time of 2s+, alongside a enhancement in view synthesis quality.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Instant Gaussian Stream: Fast and Generalizable Streaming of Dynamic Scene Reconstruction via Gaussian Splatting

1.2. 作者

Jinbo Yan, Rui Peng, Zhiyan Wang, Luyang Tang, Jiayu Yang, Jie Liang, Jiahao Wu, Ronggang Wang。 作者团队主要来自北京大学深圳研究生院广东省超高清沉浸式媒体技术重点实验室以及鹏城实验室。

1.3. 发表期刊/会议

该论文目前作为预印本(preprint)发布于 arXiv 平台。

1.4. 发表年份

2025年。

1.5. 摘要

构建 Free-Viewpoint Videos (FVV)(自由视角视频)的流式方法相较于离线训练方法,具有更快的响应速度,显著提升了用户体验。然而,当前的流式方法面临每帧重建时间长(通常超过 10 秒)和误差累积的挑战,这限制了它们的广泛应用。为了解决这些问题,本文提出了一种快速且可泛化的流式框架——Instant Gaussian Stream (IGS)(即时高斯流)。

首先,IGS 引入了一个广义的 Anchor-driven Gaussian Motion Network (AGM-Net)(锚点驱动高斯运动网络)。该网络将多视角 2D 运动特征投影到 3D 空间中,利用锚点驱动所有高斯基元的运动。这个广义网络能够以单次推理所需的时间,为每个目标帧生成高斯基元的运动,从而消除了对逐帧优化的需求。

其次,本文提出了一个 Key-frame-guided Streaming Strategy(关键帧引导流式策略),通过对每个关键帧进行细化,能够准确重建时序复杂的场景,并有效缓解误差累积问题。

通过广泛的域内(in-domain)和跨域(cross-domain)评估,结果表明 IGS 能够实现平均每帧 2 秒以上的重建时间,同时显著提升了视图合成(view synthesis)的质量。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

论文旨在解决动态场景 Free-Viewpoint Videos (FVV)(自由视角视频)重建领域中现有流式方法面临的两个主要挑战:

  1. 高每帧重建时间(high per-frame reconstruction time:传统流式方法通常需要对每一帧进行独立的优化,导致每帧重建时间高达 10 秒以上,这严重限制了其在实时交互应用中的可用性。
  2. 误差累积(error accumulation:在长视频序列的流式重建中,前一帧的重建误差会累积并传播到后续帧,导致后期帧的重建质量显著下降。

2.1.2. 为什么这个问题在当前领域是重要的

动态场景的 FVV 重建在 VR(虚拟现实)、AR(增强现实)以及体育赛事直播等沉浸式媒体领域具有巨大的应用潜力。它能够提供交互式、照片级的视觉体验,有望成为超越传统视频格式的下一代视觉媒介。为了增强用户体验,流式 FVV 构建(即动态场景逐帧重建)相比传统的离线训练方法,能够提供低延迟响应,更适用于直播和虚拟会议等对实时性要求高的应用场景。因此,解决上述挑战对于推动 FVV 技术在实际应用中的普及至关重要。

2.1.3. 现有研究存在哪些具体的挑战或空白(Gap)

  • 离线训练方法的局限性: 尽管基于 3D Gaussian Splatting (3DGS)(3D高斯辐射场)的离线训练方法(如 23, 31, 66, 70, 73, 75)可以实现高质量的视图合成,但它们要求在训练开始前收集所有帧数据,这使其不适用于需要快速响应的场景。
  • 现有流式方法的不足: 一些流式方法(如 StreamRF [29], 3DGStream [53])通过建模帧间差异来逐帧重建动态场景。然而,这些方法仍然依赖于逐帧优化,导致高延迟(10s+10s+)。此外,误差累积问题也未得到有效解决,使得它们难以扩展到更长的视频序列。
  • 泛化能力的缺失: 当前的流式方法通常针对特定场景进行优化,缺乏跨场景的泛化能力。

2.1.4. 这篇论文的切入点或创新思路

本文的创新点在于提出了一个快速且可泛化的流式框架 Instant Gaussian Stream (IGS),其核心思路是:

  1. 引入可泛化的网络: 摆脱逐帧优化,通过训练一个可泛化的网络来预测高斯基元的运动,从而大幅降低每帧重建时间。
  2. 关键帧策略: 通过引入关键帧细化和最大点数限制,有效缓解误差累积,并更好地处理场景中的非刚性变化。

2.2. 核心贡献/主要发现

2.2.1. 论文最主要的贡献

  • 提出了广义的 Anchor-driven Gaussian Motion Network (AGM-Net) 该网络能够通过单次推理预测相邻帧之间高斯基元的运动,从而消除了逐帧优化的需要,显著降低了每帧重建时间。
  • 设计了 Key-frame-guided Streaming Strategy 这一策略通过对关键帧进行细化并引入最大点数限制,有效提升了在时序复杂场景中的视图合成质量,并缓解了误差累积问题。
  • 实现了优越的性能: 在域内和跨域评估中,IGS 展现了强大的泛化能力和最先进的性能,将平均每帧重建时间降低到 2.7 秒左右,同时提高了渲染质量,并能以 204 FPS 进行实时渲染,存储开销也保持在较低水平。
  • 首次应用可泛化方法: 据作者所知,这是首次将可泛化方法应用于动态场景的流式重建。

2.2.2. 论文得出了哪些关键的结论或发现

  • 通过将 2D 多视角运动特征投影到 3D 锚点上,可以有效地驱动 3D 高斯基元的运动,实现高效的帧间形变预测。
  • 关键帧的周期性细化对于维持重建质量、处理场景变化和防止误差累积至关重要。
  • 可泛化的模型结合关键帧策略,可以在保持高渲染质量的同时,大幅度降低动态场景流式重建的计算成本,使其在实时应用中更具可行性。
  • 在未见过的新场景(跨域)中,该方法也能保持良好的性能和泛化能力。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. Novel View Synthesis (NVS) (新视角合成)

NVS 是计算机视觉领域的一个热门研究方向,旨在从一组给定图像中生成同一场景在任意新视角下的图像。它在 VR/AR、电影制作和 3D 重建等领域有广泛应用。

3.1.2. Neural Radiance Fields (NeRF) (神经辐射场)

NeRF [39] 是一种利用多层感知机(MLP)隐式表示场景的方法,通过优化一个连续的场景函数来生成高质量的新视角图像。它能够学习场景的几何形状和外观,实现照片级真实感的渲染。然而,NeRF 模型的训练和推理速度通常较慢,且需要大量的图像作为输入。后续工作致力于提高 NeRF 的渲染质量、减少所需训练视图、降低对相机姿态的依赖以及提升训练和推理速度。

3.1.3. 3D Gaussian Splatting (3DGS) (3D高斯辐射场)

3DGS [26] 是一种新兴的场景表示和渲染技术,它使用一组各向异性的 3D 高斯基元来表示场景。每个高斯基元由其中心位置、3D 协方差矩阵、不透明度和颜色(通常由球谐函数系数表示)参数化。3DGS 引入了一种基于光栅化(rasterization)的 splatting 渲染算法,将这些 3D 高斯基元直接投影到 2D 图像平面上进行渲染,从而实现了高质量的实时新视角合成,其渲染速度远超 NeRF

3.1.4. Streaming-based FVV construction (流式自由视角视频构建)

流式 FVV 构建是指对动态场景进行逐帧重建和渲染的过程,目标是在数据(如多视角视频流)到达后能够立即进行处理并输出,而不是等待所有数据收集完毕后再进行离线处理。这种方法强调低延迟和快速响应,适用于直播、实时交互等场景。

3.2. 前人工作

3.2.1. 3D Reconstruction and View Synthesis (3D重建和视图合成)

  • NeRF 及其加速与改进: NeRF 领域的研究包括提升渲染质量(如 Mip-NeRF [1], Mip-NeRF 360 [2], Zip-NeRF [3])、减少训练视图(如 RegNeRF [41])、降低相机姿态依赖(如 BARF [32])以及加速训练和推理(如 Plenoxels [16], Instant-NGP [40], TensoRF [8])。
  • 3DGS 及其改进: 随着 3DGS 的出现,研究人员开始关注其渲染质量(如 28, 37, 48, 74, 78, 83)、几何精度(如 22, 79, 80)、压缩效率(如 LightGaussian [13])以及相机姿态和高斯场的联合优化。

3.2.2. Generalizable 3D Reconstruction for Acceleration (可泛化的3D重建加速)

为了加速 3DGS 的耗时优化过程,一些工作借鉴了可泛化 NeRF(如 MVSNeRF [7])的思想,提出了可泛化的高斯模型,通过在大规模数据集上训练,实现快速重建。例如,PixelSplat [6] 使用 Transformer 编码特征并解码为高斯属性。其他方法(如 MVSplat [12], MVSGaussian [35])利用 Transformer 或多视角立体匹配(Multi-View Stereo, MVS)技术构建代价体(cost volumes),从而实现实时渲染和出色的泛化能力。本文的工作首次将可泛化模型应用于动态流式场景,利用其快速推理能力来加速动态场景重建。

3.2.3. Dynamic Scene Reconstruction and View Synthesis (动态场景重建和视图合成)

  • 基于 NeRF 的动态场景重建: 许多工作尝试将 NeRF 扩展到动态场景,如 D-NeRF [44], HyperNeRF [42], HexPlane [5] 等。
  • 基于 3DGS 的动态场景重建: 随着 3DGS 的兴起,研究人员也探索将其实时渲染能力应用于动态场景重建,如 4DGS [66], Spacetime-GS [31], Saro-GS [70]。然而,这些方法通常需要离线训练整个视频序列。
  • 流式动态场景重建: 为了解决离线训练不适用于实时交互的问题,StreamRF [29], NeRFPlayer [51], ReRF [62]3DGStream [53] 等方法提出了流式框架。特别是 3DGStream 基于 3DGS,通过优化 Neural Transformation Cache 来建模高斯运动,进一步提升了性能。尽管这些方法取得了一定进展,但它们仍然依赖于逐帧优化,导致显著的延迟(10 秒以上)。

3.3. 技术演进

该领域的技术演进经历了从传统基于几何的 3D 重建,到基于 MLP 隐式表示的 NeRF,再到基于显式基元 3DGS 的发展。在动态场景方面,从最初的离线训练整个视频序列,逐渐发展到能够逐帧处理的流式方法。本文的工作进一步推动了流式方法的效率和泛化能力,通过引入可泛化的网络结构,突破了传统流式方法逐帧优化的性能瓶颈,并结合关键帧策略解决了误差累积问题,使得动态场景的实时、流式、高质量重建成为可能。

3.4. 差异化分析

本文 IGS 与相关工作中的主要方法相比,核心区别和创新点在于:

  • 与离线训练方法的区别: IGS 能够以流式方式处理动态场景,提供低延迟响应,而离线方法需要收集所有帧后才能开始训练,不适用于实时应用。
  • 与现有流式方法的区别:
    • 核心加速机制: 现有流式方法(如 StreamRF, 3DGStream)通过逐帧优化来建模帧间差异,导致每帧重建时间较长(10s+10s+)。IGS 则通过训练一个可泛化的 Anchor-driven Gaussian Motion Network (AGM-Net) 来预测高斯运动,从而实现了单次推理即可完成高斯运动的生成,完全避免了耗时的逐帧优化,将每帧重建时间大幅缩短至 2s+2s+。这是 IGS 最根本的创新和性能优势来源。
    • 误差累积缓解: 现有流式方法在长序列中容易出现误差累积。IGS 引入了 Key-frame-guided Streaming Strategy,通过周期性地对关键帧进行细化,并结合 Max points bounded refinement 策略,有效阻止了误差的传播和累积,提高了长视频序列的重建质量和稳定性。
    • 泛化能力: IGS 提出的 AGM-Net 具有泛化能力,可以在不同场景(甚至跨域)中直接应用,而无需为每个新场景重新训练或大幅优化,这提升了方法的实用性。
  • 与可泛化 3D 重建方法的区别: 现有可泛化 3D 重建方法(如 PixelSplat, MVSplat)主要关注静态场景的快速重建。IGS 是第一个将可泛化模型应用于动态场景流式重建的工作,充分利用了可泛化模型的快速推理能力来加速动态过程。

4. 方法论

本节将详细阐述 Instant Gaussian Stream (IGS) 的方法论,包括其核心组件和工作流程。IGS 的目标是以最小的每帧重建时间对动态场景进行流式建模。为此,它采用了一个可泛化的 Anchor-driven Gaussian Motion Network (AGM-Net) 来提取场景的 3D 运动特征,并以单次推理的方式驱动高斯基元在帧间的运动。此外,还提出了一个 Key-frame-guided Streaming Strategy(关键帧引导流式策略)来提高视图合成质量,处理时序复杂的场景,并解决流式重建中的误差累积问题。

下图(原文 Figure 2)展示了 IGS 的整体流程图,包括 AGM-Net 的运动特征提取与高斯形变、以及关键帧引导的流式策略。

该图像是示意图,展示了即时高斯流的关键帧引导流媒体策略。图中描述了从关键帧提取运动特征、锚点采样、运动特征提升以及解码器的过程,旨在有效重建复杂场景。通过细化每个关键帧,降低误差积累,实现快速响应。 该图像是示意图,展示了即时高斯流的关键帧引导流媒体策略。图中描述了从关键帧提取运动特征、锚点采样、运动特征提升以及解码器的过程,旨在有效重建复杂场景。通过细化每个关键帧,降低误差积累,实现快速响应。

图示:Instant Gaussian Stream 的关键帧引导流式策略概览。左侧展示了从多视角图像到运动特征图的提取,再通过锚点采样、投影感知 3D 运动特征提升和 Transformer 处理得到 3D 运动特征,最终解码为高斯基元的运动。右侧则描绘了关键帧引导的流式策略,其中关键帧会进行最大点数限制的细化。

4.1. 方法原理

IGS 的核心原理在于结合了快速运动预测周期性质量维护

  1. 快速运动预测: 通过训练一个可泛化的 Anchor-driven Gaussian Motion Network (AGM-Net),该网络能够从多视角 2D 图像中提取运动信息,并将其提升到 3D 空间,然后利用这些 3D 运动特征预测场景中所有 3D 高斯基元从上一帧到当前帧的形变(位置和旋转)。由于这是一个基于神经网络的单次前向推理过程,因此相比传统的优化方法,其速度极快。
  2. 周期性质量维护: AGM-Net 虽然快速,但主要处理刚性或接近刚性的运动。对于场景中出现的非刚性形变、物体的出现/消失以及 AGM-Net 自身积累的微小误差,IGS 引入了 Key-frame-guided Streaming Strategy。该策略周期性地选择关键帧,并对这些关键帧进行更全面的优化(包括高斯参数的所有属性),同时采用 Max points bounded refinement(最大点数限制细化)来控制高斯数量,避免过拟合和资源膨胀。这种策略有效地阻止了误差的累积,并允许模型适应场景的复杂动态变化。

4.2. 核心方法详解

4.2.1. Preliminary (预备知识)

Gaussian Splatting [26] (高斯辐射场) 通过一组各向异性的 3D 高斯基元来表示静态场景。每个高斯基元 Gi\mathcal { G } _ { i } 由其中心 μR3\mu \in \mathbb { R } ^ { 3 }3D 协方差矩阵 ΣR3×3\Sigma \in \mathbb { R } ^ { 3 \times 3 }、不透明度 αR\alpha \in \mathbb { R } 和颜色 cR3(n+1)2c \in \mathbb { R } ^ { 3(n+1)^2 } (通常由球谐函数系数表示) 参数化。

具体地,一个 3D 高斯基元在空间点 xx 处的密度定义为: G(x)=e12(xμ)TΣ1(xμ) { \mathcal { G } } ( x ) = e ^ { - { \frac { 1 } { 2 } } ( x - \mu ) ^ { T } \Sigma ^ { - 1 } ( x - \mu ) } 其中:

  • xx: 三维空间中的一个点。

  • μ\mu: 高斯基元的中心位置,是一个 3D 向量。

  • Σ\Sigma: 高斯基元的 3D 协方差矩阵,它决定了高斯基元的形状、大小和方向。

  • Σ1\Sigma^{-1}: 协方差矩阵的逆。

  • G(x)\mathcal { G } ( x ): 点 xx 在高斯基元中的密度值。

    在渲染过程中,3D 高斯基元首先被投影到 2D 图像平面上。然后,根据深度值对覆盖同一像素的高斯基元进行排序。像素的颜色 c\mathbf { c } 通过基于点的 alpha blending rendering(Alpha 混合渲染)计算得到: c=i=1nciαij=1i1(1αj) \mathbf { c } = \sum _ { i = 1 } ^ { n } c _ { i } \alpha _ { i } ^ { \prime } \prod _ { j = 1 } ^ { i - 1 } ( 1 - \alpha _ { j } ^ { \prime } ) 其中:

  • c\mathbf { c }: 渲染得到的像素的最终颜色。

  • nn: 覆盖该像素的高斯基元总数。

  • c _ { i }: 第 ii 个高斯基元的颜色。

  • αi\alpha _ { i } ^ { \prime }: 第 ii 个高斯基元投影到 2D 空间后的不透明度。

  • j=1i1(1αj)\prod _ { j = 1 } ^ { i - 1 } ( 1 - \alpha _ { j } ^ { \prime } ): 表示从相机到第 ii 个高斯基元之间,所有前 i-1 个高斯基元对光线的累积透射率(即光线未被阻挡的比例)。 这个过程能够实现高质量的实时新视角合成。

4.2.2. Anchor-driven Gaussian Motion Network (AGM-Net)

为了解决高每帧重建时间的问题,AGM-Net 旨在以单次推理的方式计算高斯基元在帧间的运动。

4.2.2.1. Motion Feature Maps (运动特征图)

给定当前帧的多视角图像 I=(I1,...,IV)\mathbf { I } ^ { ' } = ( I _ { 1 } ^ { ' \phantom { ' } } , . . . , I _ { V } ^ { ' \phantom { ' } } ) 及其对应的相机参数。 首先,构建包含当前帧和前一帧 I\mathbf { I } 的多视角图像对(从对应视角)。 然后,使用一个 optical flow model(光流模型,例如 GM-Flow [68])来获取 intermediate flow embeddings(中间流嵌入)。 接下来,应用一个 modulation layer(调制层,参考 9, 43)将视角(viewpoint)和深度(depth)信息注入到这些嵌入中。 最终,得到 2D motion feature maps(2D 运动特征图)FRV×C×H×WF \in \mathbb { R } ^ { V \times C \times H \times W } ,其中 VV 是视角数量,CC 是特征通道数,H, W 是特征图的高度和宽度。

4.2.2.2. Anchor Sampling (锚点采样)

为了变形从前一帧继承的高斯基元 G\mathcal { G },需要计算每个高斯的运动。直接为每个高斯计算运动会带来巨大的计算和内存开销,因为高斯点的数量庞大。为了解决这个问题,IGS 采用了一种基于锚点(anchor-point-based)的方法来表示 3D 场景中的运动特征。锚点驱动方法支持训练过程中的批量处理,从而在保持高斯基元几何信息的同时降低了计算开销。具体来说,使用 Farthest Point Sampling (FPS)(最远点采样)从 NN 个高斯基元中采样 MM 个锚点: C=FPS({μi}iN) \mathcal { C } = \mathbf { F } \mathbf { P } \mathbf { S } ( \{ \mu _ { i } \} _ { i \in N } ) 其中:

  • CRM×3\mathcal { C } \in \mathbb { R } ^ { M \times 3 }: 表示采样得到的 MM 个锚点,每个锚点是一个 3D 坐标。
  • MM: 锚点数量,在实验中设置为 8192
  • {μi}iN\{ \mu _ { i } \} _ { i \in N }: 表示 NN 个高斯基元的中心位置的集合。
  • FPS()\mathbf { F } \mathbf { P } \mathbf { S } (\cdot): 最远点采样函数,它选择一系列点,使得它们之间的最小距离最大化,从而均匀地覆盖空间。

4.2.2.3. Projection-aware 3D Motion Feature Lift (投影感知3D运动特征提升)

IGS 采用一种投影感知(projection-aware)的方法将多视角 2D 运动特征提升到 3D 空间。具体地,将采样的锚点投影到每个运动特征图上,并基于相机姿态获取高分辨率的运动特征: fi=1VjVΨ(Πj(Ci),Fj) f _ { i } = \frac { 1 } { V } \sum _ { j \in V } \Psi ( \Pi _ { j } ( \mathcal { C } _ { i } ) , F _ { j } ) 其中:

  • fiRCf _ { i } \in \mathbb { R } ^ { C }: 第 ii 个锚点 Ci\mathcal { C } _ { i } 获得的 CC 维特征。
  • VV: 输入的视角数量。
  • Πj(Ci)\Pi _ { j } ( \mathcal { C } _ { i } ): 表示锚点 Ci\mathcal { C } _ { i } 使用第 jj 个视角的相机参数投影到该视角的图像平面上的 2D 坐标。
  • F _ { j }: 第 jj 个视角的 2D 运动特征图。
  • Ψ(,)\Psi(\cdot, \cdot): 双线性插值(bilinear interpolation)函数,用于从 2D 运动特征图 F _ { j } 中在投影点 Πj(Ci)\Pi _ { j } ( \mathcal { C } _ { i } ) 处采样特征。 通过这种投影方式,每个锚点都能从多视角特征图中准确获取其特征,从而有效地将 2D 运动图提升到 3D 空间。

随后,将这些存储在每个锚点上的特征 {fi}iM\{ f _ { i } \} _ { i \in M } 作为输入,送入一个 Transformer block(Transformer 块)进行自注意力(self-attention)处理,以进一步捕获 3D 场景内的运动信息: {zi:ziRC}iM=Transformer({fi}iM) \{ z _ { i } : z _ { i } \in \mathbb { R } ^ { C } \} _ { i \in M } = \mathbf { T r a n s f o r m e r } ( \{ f _ { i } \} _ { i \in M } ) 其中:

  • ziRCz _ { i } \in \mathbb { R } ^ { C }: 经过 Transformer 块处理后,第 ii 个锚点获得的最终 3D 运动特征。
  • Transformer()\mathbf { T r a n s f o r m e r } (\cdot): Transformer 块,它通过自注意力机制捕捉锚点之间的关系,从而生成更丰富的 3D 运动特征。 这些 3D 运动特征 {zi}iM\{ z _ { i } \} _ { i \in M } 代表了锚点及其邻域的运动信息。

4.2.2.4. Interpolate and Motion Decode (插值与运动解码)

利用存储在锚点上的 3D 运动特征,为每个高斯点分配一个运动特征,方法是通过对其 KK 个最近邻锚点进行插值: zi=kN(i)edkzkkN(i)edk z _ { i } = \frac { \sum _ { k \in \mathcal { N } ( i ) } e ^ { - d _ { k } } z _ { k } } { \sum _ { k \in \mathcal { N } ( i ) } e ^ { - d _ { k } } } 其中:

  • z _ { i }: 第 ii 个高斯点获得的运动特征。
  • N(i)\mathcal { N } ( i ): 表示高斯点 Gi\mathcal { G } _ { i } 的邻域中 KK 个最近邻锚点的集合。
  • d _ { k }: 表示高斯点 Gi\mathcal { G } _ { i } 到锚点 Ck\mathcal { C } _ { k } 的欧氏距离。
  • z _ { k }: 锚点 Ck\mathcal { C } _ { k }3D 运动特征。 这个公式本质上是一个带权重的平均,权重由距离的指数衰减决定,使得近处的锚点对高斯点的影响更大。

随后,使用一个 Linear head(线性头)将运动特征解码为高斯基元的运动量: dμi,droti=Linear(zi) d \mu _ { i } , d r o t _ { i } = \mathbf { L i n e a r } ( z _ { i } ) 其中:

  • dμid \mu _ { i }: 第 ii 个高斯基元的位置形变(deformation)。

  • d r o t _ { i }: 第 ii 个高斯基元的旋转形变,以四元数(quaternion)表示。

  • Linear()\mathbf { L i n e a r } (\cdot): 一个线性层,将输入的特征 z _ { i } 映射到位置和旋转的形变。

    高斯基元的新位置和旋转计算如下: μi=μi+dμi \mu _ { i } ^ { ' } = \mu _ { i } + d \mu _ { i } roti=norm(roti)×norm(droti) r o t _ { i } ^ { ' } = n o r m ( r o t _ { i } ) \times n o r m ( d r o t _ { i } ) 其中:

  • μi\mu _ { i } ^ { ' }: 第 ii 个高斯基元在当前帧的新位置。

  • rotir o t _ { i } ^ { ' }: 第 ii 个高斯基元在当前帧的新旋转。

  • μi\mu _ { i }: 第 ii 个高斯基元在上一帧的原始位置。

  • r o t _ { i }: 第 ii 个高斯基元在上一帧的原始旋转(四元数)。

  • norm()norm(\cdot): 表示四元数归一化操作。

  • ×\times: 表示四元数乘法,用于组合原始旋转和形变旋转。

4.2.3. Key-frame-guided Streaming (关键帧引导流式策略)

仅仅使用 AGM-Net 预测高斯基元的位置和旋转形变,虽然对于捕捉刚性运动有效,但对于表示非刚性运动、以及场景中物体出现或消失的动态变化能力不足。此外,高斯点数量保持不变也限制了其对动态场景的建模能力,并可能导致误差累积。 为更好地建模物体变化和减少误差累积,IGS 提出了 Key-frame-guided Streaming Strategy(关键帧引导流式策略),它使用关键帧作为后续帧高斯形变的初始状态,并引入了 Max points bounded refinement(最大点数限制的细化)策略,以高效地重建关键帧,避免冗余点,并防止点数量随帧数增长。

4.2.3.1. Key-frame-guided strategy (关键帧引导策略)

从第 0 帧开始,每隔 ww 帧指定一个关键帧,形成一个关键帧序列 {K0,Kw,...,Knw}\{ K _ { 0 } , K _ { w } , . . . , K _ { n w } \}。其余帧则作为候选帧。 在流式重建过程中,例如从关键帧 K _ { i w } 开始,使用 AGM-Net 连续地向后变形高斯基元,直到达到下一个关键帧 K(i+1)wK _ { ( i + 1 ) w }。当到达 K(i+1)wK _ { ( i + 1 ) w } 时,对该关键帧的变形高斯基元进行细化。之后,从细化后的关键帧 K(i+1)wK _ { ( i + 1 ) w } 继续向后变形,处理后续帧。

这个关键帧引导策略带来了几个优点:

  • 误差累积缓解:AGM-Net 应用于候选帧时,它总是从最近的关键帧开始,这防止了误差在关键帧之间的候选帧中传播,从而消除了累积误差。
  • 低每帧重建时间: 候选帧不需要基于优化的细化,因为它们的高斯基元是通过 AGM-Net 的单次模型推理生成的,确保了较低的每帧重建时间。
  • 并行处理: 可以批量处理每个关键帧后的最多 ww 帧,进一步加速了整个流水线。

4.2.3.2. Max points bounded Key-frame Refinement (最大点数限制的关键帧细化)

在每个关键帧的细化过程中,会优化高斯基元的所有参数,并支持克隆(cloning)、分裂(splitting)和过滤(filtering)操作,这与 3DGS [26] 的处理方式相同。这种优化策略使得模型能够处理物体形变以及在时序复杂场景中物体的出现和消失,有效防止误差从关键帧传播到后续帧。 然而,这种优化策略可能导致每个关键帧的高斯基元数量逐渐增加,这不仅增加了计算复杂性和存储需求,而且在稀疏视角场景(特别是相机视角受限的动态场景)中,还可能导致过拟合(overfitting)的风险。

为了解决这个问题,IGS 采用了 Max Points Bounded Refine(最大点数限制细化)方法。在对高斯点进行增密(densifying)时,通过调整每个点的梯度来控制允许增密的高斯数量,确保总点数不超过预设的最大值。

4.2.4. Loss Function (损失函数)

训练过程分为两部分:离线训练可泛化的 AGM-Net,以及在线训练关键帧。可泛化的 AGM-Net 只需训练一次,即可泛化到多个场景。AGM-Net 使用梯度下降进行跨场景训练,主要依靠预测视图与真实视图之间的视图合成损失,该损失包含一个 L1\mathcal { L } _ { 1 } 项和一个 LDSSIM\mathcal { L } _ { D - S S I M } 项: L=(1λ)L1+λLDSSIM \mathcal { L } = ( 1 - \lambda ) \mathcal { L } _ { 1 } + \lambda \mathcal { L } _ { D - S S I M } 其中:

  • L\mathcal { L }: 总的损失函数。

  • L1\mathcal { L } _ { 1 }: L1 损失,通常用于衡量像素值的绝对误差。 L1=1Np=1NIpred(p)Igt(p) \mathcal{L}_1 = \frac{1}{N} \sum_{p=1}^{N} |I_{pred}(p) - I_{gt}(p)|

    • Ipred(p)I_{pred}(p): 预测图像在像素 pp 处的颜色值。
    • Igt(p)I_{gt}(p): 真实图像在像素 pp 处的颜色值。
    • NN: 图像中的像素总数。
  • LDSSIM\mathcal { L } _ { D - S S I M }: D-SSIM 损失,其中 D-SSIM 通常指 1SSIM1 - \mathrm{SSIM},用于衡量结构相似性,以更好地捕捉人类感知到的图像质量。 LDSSIM=1SSIM(Ipred,Igt) \mathcal{L}_{D-SSIM} = 1 - \mathrm{SSIM}(I_{pred}, I_{gt}) 其中 SSIM\mathrm{SSIM} 的计算公式在 5.2 评估指标 中有详细说明。

  • λ\lambda: 权重参数,用于平衡 L1 损失和 D-SSIM 损失的贡献,实验中设置为 0.2

    在对关键帧中的高斯基元进行在线训练时,使用与公式 (10)(10) 相同的损失函数。但此时优化的不是神经网络的参数,而是高斯基元的属性(如位置、旋转、缩放、不透明度和颜色)。

5. 实验设置

本节将详细介绍 IGS 在实验中使用的各项设置,包括数据集、评估指标、对比基线以及网络和流式推理的具体配置。

5.1. 数据集

实验主要使用了两个公开的动态场景数据集:

5.1.1. Neural 3D Video Datasets (N3DV) [30]

  • 特点: 包含 6 个动态场景,采用多视角设置,有 21 个相机拍摄。分辨率为 2704 × 2028。每个多视角视频包含 300 帧。
  • 数据集划分:N3DV 数据集中选取 4 个序列作为训练集,用于训练 AGM-Net。剩余的 2 个序列,{cut roasted beef, sear steak},作为测试集。
  • 训练数据准备:4 个训练序列中的所有帧(共 1200 帧)构建了 3D Gaussians,这花费了 192 GPU 小时。为了训练 AGM-Net,为每帧 3D Gaussian 生成了向前和向后各 5 帧的运动,共创建了 12,000 对训练样本。

5.1.2. Meeting Room Datasets [29]

  • 特点: 包含 3 个动态场景,采用 13 个相机拍摄。分辨率为 1280 × 720。每个多视角视频包含 300 帧。
  • 测试数据: 该数据集主要用于跨域评估,测试模型在未训练过的场景上的泛化能力。
  • 统一评估: 两个数据集都选择一个视角进行评估,与之前的研究方法保持一致。

5.1.3. 第零帧高斯模型重建结果

下表(原文 Table C1)总结了每个场景第一帧高斯模型(未经过 AGM-Net 或关键帧细化处理)的重建质量。 以下是原文 Table C1 的结果:

Scene PSNR↑ (dB) Train ↓ (s) Storage↓ (MB) Points Num
N3DV[30]
cur roasted beef 33.96 287 36 149188
sear steak 34.03 287 35 143996
Meeting room[29]
trimming 30.36 540 3.9 37432
vrheadset 30.68 540 4 38610
  • N3DV 场景: 球谐函数阶数(SH degree)设置为 3
  • Meeting Room 场景: 球谐函数阶数(SH degree)设置为 1,以缓解稀疏视角(sparse viewpoints)导致的过拟合。

5.2. 评估指标

所有指标均对 300 帧序列(包括第 0 帧)进行平均,与之前的方法 [29, 53] 保持一致。

5.2.1. PSNR (Peak Signal-to-Noise Ratio) (峰值信噪比)

  • 概念定义: PSNR 是一种衡量图像重建质量的客观标准。它表示图像中信号的最大可能功率与噪声功率之间的比率,通常以分贝(dB)表示。PSNR 值越高,表示重建图像与原始图像的失真越小,质量越好。
  • 数学公式: PSNR=10log10(MAXI2MSE) \mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right) 其中,MSE(均方误差)的计算公式为: MSE=1mni=0m1j=0n1[I(i,j)K(i,j)]2 \mathrm{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2
  • 符号解释:
    • MAXI\mathrm{MAX}_I: 图像中像素的最大可能值。对于 8 位灰度图像或彩色图像的每个颜色通道,该值为 255
    • MSE\mathrm{MSE}: Mean Squared Error(均方误差),表示原始图像 II 和重建图像 KK 之间像素值差异的平方的平均值。
    • m, n: 图像的行数和列数(高度和宽度)。
    • I(i,j): 原始图像在坐标 (i,j) 处的像素值。
    • K(i,j): 重建图像在坐标 (i,j) 处的像素值。

5.2.2. DSSIM (Structural Similarity Index Measure) (结构相似性指数测量的倒数)

  • 概念定义: DSSIM 通常表示为 1SSIM1 - \mathrm{SSIM},其中 SSIM 是一种用于衡量两幅数字图像相似度的指标。它更符合人类视觉系统的感知特性,从亮度(luminance)、对比度(contrast)和结构(structure)三个方面来评估图像的相似性。DSSIM 值越低,表示两幅图像越相似,重建质量越好。
  • 数学公式: SSIM 的计算公式为: SSIM(x,y)=(2μxμy+C1)(2σxy+C2)(μx2+μy2+C1)(σx2+σy2+C2) \mathrm{SSIM}(x,y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)} 其中:
    • C1=(K1L)2C_1 = (K_1 L)^2
    • C2=(K2L)2C_2 = (K_2 L)^2 通常 K1=0.01K_1 = 0.01, K2=0.03K_2 = 0.03, L=255L=255 (对于 8 位图像)。
  • 符号解释:
    • x, y: 表示两幅待比较的图像块。
    • μx,μy\mu_x, \mu_y: 图像块 xxyy 的像素均值。
    • σx2,σy2\sigma_x^2, \sigma_y^2: 图像块 xxyy 的像素方差。
    • σxy\sigma_{xy}: 图像块 xxyy 的协方差。
    • C1,C2C_1, C_2: 用于避免分母为零或过小而引入的常数。
    • LL: 像素值的动态范围(如 255)。

5.2.3. LPIPS (Learned Perceptual Image Patch Similarity) (学习感知图像块相似度)

  • 概念定义: LPIPS 是一种基于深度学习的图像相似性度量,它旨在更好地捕捉人类对图像差异的感知。LPIPS 通过比较两幅图像在预训练深度神经网络(如 AlexNetVGG)中不同层的特征表示来计算它们之间的距离。LPIPS 值越低,表示两幅图像在感知上越相似,重建质量越好。
  • 数学公式: LPIPS 的计算通常没有一个简单的闭式数学公式,因为它依赖于一个预训练的神经网络。其核心思想是计算特征空间中的距离: LPIPS(x,y)=l1HlWlwl(ϕl(x)ϕl(y))22 \mathrm{LPIPS}(x, y) = \sum_l \frac{1}{H_l W_l} \|w_l \odot (\phi_l(x) - \phi_l(y))\|_2^2
  • 符号解释:
    • x, y: 两幅输入图像。
    • ϕl()\phi_l(\cdot): 一个预训练的深度神经网络(通常是 AlexNetVGG)在第 ll 层提取的特征图。
    • wlw_l: 第 ll 层的特征图所对应的权重向量,这些权重通常也是通过学习得到的。
    • Hl,WlH_l, W_l: 第 ll 层特征图的高度和宽度。
    • \odot: 逐元素乘法(element-wise multiplication)。
    • 22\|\cdot\|_2^2: L2 范数的平方,表示特征向量之间的欧氏距离。

5.2.4. Storage Usage (存储占用)

  • 概念定义: 指模型在运行时和存储时所需的磁盘空间,通常以兆字节(MB)为单位。对于 IGS,这包括第 0 帧和每个关键帧的高斯基元,以及每个候选帧的运动残差(displacementrotation)。
  • 计算: 报告的是 300 帧序列的平均存储需求。

5.2.5. Train Time (训练时间)

  • 概念定义: 在本文中,Train Time 指的是平均每帧重建时间,即构建一个 Free-Viewpoint Video 从多视角视频序列所需的平均时间。这包括构建第 0 帧的高斯基元、使用 AGM-Net 生成候选帧以及细化关键帧所需的时间。
  • 计算: 总时间除以 300 帧得到平均每帧重建时间。

5.2.6. Render Speed (渲染速度)

  • 概念定义: 指模型能够每秒渲染的帧数(Frames Per Second, FPS),表示实时渲染能力。FPS 值越高,表示渲染速度越快,实时性能越好。

5.3. 对比基线

论文将 IGS 与以下 state-of-the-art(最先进的)方法进行了比较:

5.3.1. 离线训练方法

这些方法需要完整的视频序列才能进行训练和重建。

  • Kplanes [17]
  • Realtime-4DGS [75]
  • 4DGS [66]
  • Spacetime-GS [31]
  • Saro-GS [70]

5.3.2. 在线训练(流式)方法

这些方法支持逐帧重建的流式框架。

  • StreamRF [29]
  • 3DGStream [53]:这是一个基于 Gaussian Splatting 的方法,通过优化 Neural Transformation Cache 来建模高斯运动,是当前流式 3DGS 领域的 state-of-the-art。论文中特别提到了对其的复现结果 (3DGStream[53]†),以便在相同的实验环境下进行公平比较。

5.4. AGM 网络配置

  • 光流模型 (Optical Flow Model): 使用 GM-Flow [68] 提取光流嵌入(flow embeddings)。为了进一步微调,额外加入了一个 Swin-Transformer [36] 块,而 GM-Flow 的其他参数保持固定。
  • 输入视图数量: 为了平衡计算复杂度和性能,输入视图数量 VV 设置为 4
  • 运动特征图: 每个视图生成一个运动图,其通道数 CC128,分辨率为 128 x 128
  • 锚点采样: 从高斯点中采样 M=8192M = 8192 个锚点,认为这个数量足以捕捉动态细节。
  • Transformer 块: 3D motion feature lift 模块中的 Transformer 块包含 4 层,输出的 3D 运动特征通道数 CC128
  • 渲染器: 采用 Rade-GS [80]Gaussian Splatting Rasterization 变体,以获得更准确的深度图和几何信息。
  • 训练细节:
    • 4 个配备 40GB 内存的 A100 GPU 上进行训练。
    • 总共训练 15epochs
    • Batch size 设为 16
    • 损失函数中的权重参数 λ\lambda(公式 (10)(10) 中)设置为 0.2
    • 优化器:Adam 优化器,weight decay0.05β\beta 值为 (0.9,0.95)(0.9, 0.95)
    • 学习率:在 N3DV 数据集上训练时,学习率设置为 4×1044 \times 10^{-4}

5.5. 流式推理设置

  • 关键帧间隔 ww 设置为 5,这意味着每 5 帧选择一个关键帧。对于一个 300 帧的视频,这将产生 60 个关键帧。
  • 关键帧优化版本:
    • IGS-s (Ours-s)small 版本,关键帧细化迭代次数为 50 次,提供较低的每帧延迟。
    • IGS-l (Ours-l)large 版本,关键帧细化迭代次数为 100 次,旨在实现更高的重建质量。
  • 增密和剪枝: 在两个版本中,每 20 次迭代进行一次增密(densification)和剪枝(pruning)操作。
  • 0 帧高斯构建:
    • 使用 Lightgaussian [13] 提供的压缩方法构建第 0 帧的高斯基元,这有助于减少存储使用和缓解稀疏视角下的过拟合。
    • N3DV 数据集:对第 0 帧进行 6000 次迭代训练,并在 5000 次迭代时压缩高斯数量。
    • Meeting Room 数据集:对第 0 帧进行 15000 次迭代训练,并在 7000 次迭代时压缩高斯数量。
  • 关键帧优化学习率:Max Points Bounded Refinement 过程中,位置(position)和旋转(rotation)的学习率设置为 3DGS 中对应学习率的 10 倍,而其他参数的学习率与 3DGS 保持一致。
  • 最大点数限制 NmaxN_{\mathrm {max}} 根据每个场景初始帧的高斯数量确定。
    • N3DV: NmaxN_{\mathrm {max}} 设为 150,000
    • Meeting Room 数据集: NmaxN_{\mathrm {max}} 设为 40,000

6. 实验结果与分析

本节详细分析了 IGS 在域内和跨域评估中的实验结果,并对关键组件进行了消融研究。

6.1. 核心结果分析

6.1.1. 域内评估 (N3DV 数据集)

下表(原文 Table 1)展示了 IGSN3DV 数据集上的域内评估结果。 以下是原文 Table 1 的结果:

Method PSNR↑ (dB) Train ↓ (s) Render↑ (FPS) Storage↓ (MB)
Offline training
Kplanes[17] 32.17 48 0.15 1.0
Realtime-4DGS[75] 33.68 - 114 -
4DGS[66] 32.70 7.8 30 0.3
Spacetime-GS[31] 33.71 48 140 0.7
Saro-GS[70] 33.90 - 40 1.0
Online training
StreamRF[29] 32.09 15 8.3 31.4
3DGStream[53] 33.11 12 215 7.8
3DGStream[53]† 32.75 16.93 204 7.69
Ours-s 33.89 2.67 204 7.90
Ours-l 34.15 3.35 204 7.90
  • 训练时间(Train Time): IGS 实现了训练时间上的显著降低。Ours-s 版本平均每帧重建时间为 2.67s,而 Ours-l3.35s。这比当前 state-of-the-art3DGStream†16.93s)快了近 6 倍,也远低于其他离线或在线方法。

  • 渲染速度(Render Speed): IGS 的两个版本都能达到 204 FPS 的渲染速度,与 3DGStream† 保持一致,表明其能够支持实时渲染。

  • 存储占用(Storage Usage): IGS 的存储占用(7.90MB)与 3DGStream†7.69MB)相当,保持了较低的存储开销。

  • 视图合成质量(PSNR): IGS 在视图合成质量方面表现出色。Ours-s 达到了 33.89dBPSNROurs-l 更是达到 34.15dB,均优于 3DGStream†32.75dB。这表明 IGS 在提高效率的同时,也提升了渲染质量。

    下图(原文 Figure 5)展示了 N3DV 数据集上的定性比较。

    Figure 5. Qualitative comparison from the N3DV dataset. 该图像是一个定性比较图,展示了来自N3DV数据集的不同动态场景重建方法,包括SaRo-GS、4DGS、3DStream、IGS和GT。每种方法在不同帧中的重建效果被标注,并以红框和绿框形式展示,以便比较各自的性能与准确性。

图示:N3DV 数据集上的定性比较。从上到下依次展示了 SaRo-GS4DGS3DGStreamIGS-sIGS-lGround Truth 的渲染结果。IGS 方法在渲染细节上优于其他方法,例如刀叉之间的过渡以及移动的手和墙上反射的复杂动态场景建模。

下图(原文 Figure 3)展示了 PSNR 随帧索引变化的趋势比较,以验证 IGS 在缓解误差累积方面的有效性。

该图像是一个曲线图,展示了不同方法下PSNR(峰值信噪比)随帧索引变化的情况。红色曲线表示IGS-I方法,绿色曲线表示3DGStream方法。IGS-I的PSNR呈现出上升趋势,均值约为34,而3DGStream则呈下降趋势,其斜率为\(-3.6 imes 10^{-3}\)。 该图像是一个曲线图,展示了不同方法下PSNR(峰值信噪比)随帧索引变化的情况。红色曲线表示IGS-I方法,绿色曲线表示3DGStream方法。IGS-I的PSNR呈现出上升趋势,均值约为34,而3DGStream则呈下降趋势,其斜率为3.6imes103-3.6 imes 10^{-3}

图示:sear steak 场景的 PSNR 趋势比较。红色曲线表示 IGS-l,绿色曲线表示 3DGStream

  • 误差累积: IGS 的渲染质量不会随着帧数的增加而下降,甚至显示出轻微的上升趋势。相比之下,3DGStream 受误差累积的影响,其质量随着帧数的增加而明显下降。这证实了 IGS 在解决误差累积方面的有效性。
  • 波动性: IGS 的每帧 PSNR 波动性较大。这可能是因为 3DGStream 假设帧间运动较小,进行较小的调整,从而得到更平滑的帧间差异。

6.1.2. 跨域评估 (Meeting Room 数据集)

下表(原文 Table 2)展示了 IGSMeeting Room 数据集上的跨域评估结果。该模型在 N3DV 上训练,并在 Meeting Room 上进行测试。 以下是原文 Table 2 的结果:

Method PSNR↑ (dB) Train ↓ (s) Render↑ (FPS) Storage↓ (MB)
3DGStream[53]† 28.36 11.51 252 7.59
Ours-s 29.24 2.77 252 1.26
Ours-l 30.13 3.20 252 1.26
  • 性能优势: IGS 在渲染质量(PSNR)、训练时间(Train Time)和存储效率(Storage Efficiency)方面均优于 3DGStream†Ours-l 达到了 30.13dBPSNR,远高于 3DGStream†28.36dB

  • 重建时间: IGS 实现了每帧 2.77s 的重建时间,比 3DGStream†11.51s 有显著提升。

  • 泛化能力: 这些结果证明了 IGS 的有效性和泛化能力,它能够在新的环境中进行高效的动态场景建模,且无需逐帧优化。

    下图(原文 Figure 4)展示了 Meeting Room 数据集上的定性比较。

    Figure 4. Qualitative comparison from the Meeting Room dataset. Cross-domain evaluation: We performed a cross-domain evaluation on the Meeting Room Dataset using a model trained on N3DV. The evaluation results are presented in Tab. 2. Our method outperforms 3DGStream in rendering quality, train time, and storage efficiency, achieving streaming with just 2.77s of per-frame reconstruction time, a significant improvement over 3DGStream. This demonstrates the effectiveness and generalizability of our approach, as it enables efficient dynamic scene modeling with streaming capabilities in new environments, without requiring perframe optimization. A qualitative comparison of rendering quality can be seen in Fig. 4. Compared to 3DGStream, which produces artifacts near moving objects, our method yields more accurate motion during large displacements, resulting in improved performance in temporally complex scenes. 该图像是一个比较示意图,展示了在会议室数据集上,3DGStream、IGS和GT三种动态场景重建方法的渲染质量。IGS方法在大的位移下比3DGStream更准确,减少了运动伪影,提升了在复杂场景中的表现。

图示:Meeting Room 数据集上的定性比较。从上到下依次展示了 3DGStreamIGS-sIGS-lGround Truth 的渲染结果。与 3DGStream 在移动物体附近产生伪影(artifacts)相比,IGS 在大位移(large displacements)下生成了更准确的运动,从而在时序复杂场景中实现了更好的性能。

6.1.3. 独立每帧重建时间 (Independent per-frame reconstruction time)

下图(原文 Figure 6 (b))展示了 IGS 独立每帧重建时间的性能分析。

Figure 6. (a)Ablation Study on Key-frame Refinement. (b)Perframe reconstruction time. 该图像是图表,展示了两部分内容:(a) 针对关键帧精炼的消融研究,显示了含有关键帧精炼的IGS-s与不含关键帧精炼的结果在PSNR上的对比;(b) 各方法的每帧重建时间,包括IGS-S、3DGStream和IGS-I的表现。左侧图表中,随着帧索引增加,PSNR的变化趋势明显,右侧图表则展示了不同方法在特定帧的重建时间。

图示:IGS 的独立每帧重建时间图(Figure 6 (b))。

  • 周期性模式: 每个关键帧的重建时间较高,而其后的候选帧重建时间较低,呈现周期性。
  • 具体时间: 候选帧的重建时间为 0.8s,而关键帧的重建时间 IGS-s 版本为 4sIGS-l 版本为 7.5s。这些时间都远小于 3DGStream 所需的 16s

6.2. 数据呈现 (表格)

6.2.1. N3DV 数据集对比结果

以下是原文 Table 1 的结果:

Method PSNR↑ (dB) Train ↓ (s) Render↑ (FPS) Storage↓ (MB)
Offline training
Kplanes[17] 32.17 48 0.15 1.0
Realtime-4DGS[75] 33.68 - 114 -
4DGS[66] 32.70 7.8 30 0.3
Spacetime-GS[31] 33.71 48 140 0.7
Saro-GS[70] 33.90 - 40 1.0
Online training
StreamRF[29] 32.09 15 8.3 31.4
3DGStream[53] 33.11 12 215 7.8
3DGStream[53]† 32.75 16.93 204 7.69
Ours-s 33.89 2.67 204 7.90
Ours-l 34.15 3.35 204 7.90

6.2.2. Meeting Room 数据集对比结果

以下是原文 Table 2 的结果:

Method PSNR↑ (dB) Train ↓ (s) Render↑ (FPS) Storage↓ (MB)
3DGStream[53]† 28.36 11.51 252 7.59
Ours-s 29.24 2.77 252 1.26
Ours-l 30.13 3.20 252 1.26

6.2.3. N3DV 数据集逐场景结果

以下是原文 Table G3 的结果:

Method cut roasted beef sear steak
PSNR(dB)↑ DSSIM↓ LPIPS↓ PSNR(dB)↑ DSSIM↓ LPIPS↓
Offine training
Kplanes[17] 31.82 0.017 32.52 0.013 -
Realtime-4DGS[75] 33.85 - - 33.51 - -
4DGS[66] 32.90 0.022 - 32.49 0.022 -
Spacetime-GS[31] 33.52 0.011 0.036 33.89 0.009 0.030
Saro-GS[70] 33.91 0.021 0.038 33.89 0.010 0.036
Online training
StreamRF[29] 31.81 - - 32.36 -
3DGStream[53] 33.21 - - 33.01 - -
3DGStream[53]† 32.39 0.015 0.042 33.12 0.014 0.036
Ours-s 33.62 0.012 0.048 34.16 0.010 0.038
Ours-l 33.93 0.011 0.043 34.35 0.010 0.035

6.3. 消融实验/参数分析

6.3.1. 预训练光流模型 (The use of the pretrained optical flow model)

下表(原文 Table 3)展示了消融研究结果。 以下是原文 Table 3 的结果:

Method PSNR↑ (dB) Train↓ (s) Storage↓ (MB)
No-pretrained optical flow model 31.07 2.65 7.90
No-projection-aware feature lift 32.95 2.38 7.90
No-points bounded refinement 33.23 3.02 110.26
Ours-s(full) 33.62 2.67 7.90
  • 分析: 当用一个 4UNet(未预训练参数)替换预训练的光流模型,并与整体模型联合训练时,PSNR33.62dB 下降到 31.07dB。这表明使用 2D prior(2D先验知识)的预训练光流模型对于 AGM-Net 的性能至关重要。

6.3.2. 投影感知 3D 运动特征提升 (Projection-aware 3D Motion Feature Lift)

  • 分析: 将投影感知方法替换为基于 Transformer 的交叉注意力(cross-attention)方法(结合图像特征和锚点,并使用位置嵌入),PSNR33.62dB 下降到 32.95dB(见 Table 3)。这说明投影感知特征提升对于 IGS 的性能至关重要,尽管其训练时间略有增加。

6.3.3. 关键帧引导流式策略 (Key-frame guided Streaming)

下图(原文 Figure 6 (a))展示了关键帧细化对 PSNR 的影响。

Figure 6. (a)Ablation Study on Key-frame Refinement. (b)Perframe reconstruction time. 该图像是图表,展示了两部分内容:(a) 针对关键帧精炼的消融研究,显示了含有关键帧精炼的IGS-s与不含关键帧精炼的结果在PSNR上的对比;(b) 各方法的每帧重建时间,包括IGS-S、3DGStream和IGS-I的表现。左侧图表中,随着帧索引增加,PSNR的变化趋势明显,右侧图表则展示了不同方法在特定帧的重建时间。

图示:关键帧细化消融研究图(Figure 6 (a))。

  • 分析: 如果没有关键帧细化,AGM-Net 将完全依赖于从上一关键帧传播的高斯基元,导致累积误差显著影响性能(PSNR33.62dB 下降到 30.14dB,具体数据在 Table 4w=10w=10 中有体现,间接反映了细化频率)。

6.3.4. 最大点数限制 (Max points bounded refinement)

  • 分析: 如果在细化过程中不设置最大点数限制,存储需求会大幅增加(从 7.90MB 增加到 110.26MB),并且由于稀疏视角下的过拟合,视图质量会下降(PSNR33.62dB 下降到 33.23dB,见 Table 3)。这验证了最大点数限制策略的有效性。

6.3.5. 关键帧间隔 ww 的影响 (Key-frame selection)

下表(原文 Table 4)展示了不同关键帧间隔 ww 对性能的影响。 以下是原文 Table 4 的结果:

Method PSNR(dB)↑ Train(s)↓ Storage(MB)↓
W=1 33.55 6.38 36.0
w=5 33.62 2.67 7.90
w=10 30.14 2.75 1.26
  • 分析:
    • w=1w=1 每帧都是关键帧,导致过度的优化,使高斯基元过拟合训练视图,从而降低了测试视图的质量(PSNR33.55dB,低于 w=5w=5),同时训练时间(6.38s)和存储(36.0MB)也显著增加。
    • w=10w=10 每个关键帧驱动后续 10 帧,但较长的间隔削弱了模型性能,因为它依赖于相邻帧相似性的假设(PSNR 大幅下降到 30.14dB)。
    • w=5w=5 在视图合成质量(PSNR=33.62dB)、训练时间(2.67s)和存储占用(7.90MB)之间达到了最佳平衡,因此被选为最终设置。

6.3.6. 更多消融实验 (More ablation study)

下表(原文 Table D2)展示了其他消融实验结果。 以下是原文 Table D2 的结果:

Method PSNR(dB)↑
Add-Attention-based view fusion 33.58
Add-Occulusion aware projection 33.50
Ours-s 33.62
  • 基于注意力的视图融合 (Attention-Based View Fusion): 尝试为不同视角的特征分配不同权重,而不是简单平均。结果显示并未带来性能提升。这可能是因为 N3DV 数据集中的场景是前向(forward-facing)场景,相机视角差异不显著。对于 360° 场景,这可能是一个有前景的方向。
  • 遮挡感知投影 (Occlusion-Aware Projection): 尝试在投影感知运动特征提升过程中考虑遮挡效应,使用点光栅化(point rasterization)确保每个像素只对应一个可见锚点。结果显示并未改善性能。由于锚点相对于高斯点稀疏得多,显著的遮挡效应较少,且使用光栅化可能降低特征提取的精度。

6.3.7. 锚点数量的影响 (The impact of the number of anchor points)

下图(原文 Figure E2)展示了锚点数量对 PSNR 和训练时间的影响。

Figure E2. The impact of the number of anchor points 该图像是一个图表,展示了锚点数量对PSNR和每帧训练时间的影响。从图中可以看出,随着锚点数量增加,PSNR值稳步上升,而每帧训练时间呈现波动并最终明显增加。

图示:锚点数量对性能的影响(Figure E2)。

  • 分析: 锚点数量对性能(PSNR)的影响较小,但会显著增加训练时间。

7. 总结与思考

7.1. 结论总结

本文提出了 Instant Gaussian Stream (IGS),一种用于动态场景流式建模的新方法。IGS 的核心创新在于其可泛化的 Anchor-driven Gaussian Motion Network (AGM-Net),该网络能够将多视角 2D 运动特征提升到 3D 锚点,并通过单次推理驱动高斯基元的运动,从而消除了逐帧优化的需求,实现了平均每帧 2 秒以上的快速重建时间。此外,IGS 还引入了**Key-frame-guided Streaming Strategy**,通过周期性地细化关键帧,有效缓解了误差累积问题,并提升了在时序复杂场景中的渲染质量。广泛的域内和跨域实验证明了 IGS 模型的强大泛化能力,在显著降低流式平均成本的同时,实现了 state-of-the-art 的渲染质量、渲染速度和存储效率。

7.2. 局限性与未来工作

7.2.1. 局限性

  • 帧间抖动 (Frame Jittering): IGS 的结果在相邻帧之间存在抖动,尤其是在静态背景区域(见 Figure E1)。这主要是由于当前框架缺乏时间依赖性,使得模型对噪声更为敏感。关键帧优化也可能导致背景高斯基元的变形,特别是当场景中存在 floaters(漂浮物)时(见 Figure F3)。
  • 第一帧重建质量的依赖性: streaming-based 动态场景重建的性能在很大程度上受制于第一帧静态重建的质量。如果第一帧重建不佳,例如移动物体周围存在过多的 floaters,会降低 AGM-Net 的性能。
  • 训练数据规模的限制: AGM-Net 仅在 N3DV 室内数据集的 4 个序列上进行训练。有限的训练数据规模限制了其泛化能力。
  • 对光流模型(optical flow model)的依赖: 目前的方法依赖于 optical flow model 提取 2D 运动嵌入,并将其注入深度和视角信息。更准确的长距离光流(long-range optical flow [65])或场景流(scene flow [38, 58])方法可能会进一步提升结果。

7.2.2. 未来工作

  • 引入时间依赖性: 为了减少帧间抖动,未来计划将时间依赖性融入 IGS 框架中,将运动建模为一个时间序列,以实现更鲁棒的性能。
  • 场景分割与优化: 探索将场景分割为前景和背景,并在关键帧优化时应用分割掩码,以防止背景抖动并改善 floaters 问题。
  • 更鲁棒的第一帧重建: 尽管超出本文范围,但采用更鲁棒的静态重建方法将有助于提升动态场景重建的整体结果。
  • 大规模数据集训练: 在更大规模的多视角视频序列上进行训练,以提升模型的泛化能力。由于 IGS 仅依赖视图合成损失进行监督,这使得其更容易集成大规模未标注数据集。
  • 利用更先进的流场方法: 探索将更准确的 long-range optical flowscene flow 方法集成到 AGM-Net 中,以进一步提升运动特征提取和高斯形变预测的精度。

7.3. 个人启发与批判

7.3.1. 个人启发

  • 可泛化网络的巨大潜力: 本文最令人兴奋的一点是证明了可泛化网络在流式动态场景重建中的巨大潜力。通过将耗时的逐帧优化替换为一次快速的神经网络推理,IGS 实现了数量级的速度提升,这对于实时 FVV 应用是颠覆性的。这启发我们,在更多需要快速响应和动态适应的 3D 任务中,可泛化模型可能是一个重要的发展方向。
  • 关键帧策略的有效性: AGM-Net 提供了速度,而 Key-frame-guided Streaming Strategy 提供了稳定性。这种“快速预测 + 周期性修正”的策略组合非常优雅,它在效率和质量之间找到了一个很好的平衡点。对于需要处理长序列且可能存在误差累积的 AI 系统,这种混合策略值得借鉴。
  • 2D 信息向 3D 提升的巧妙性: 利用 optical flow2D 运动特征,并通过锚点和投影感知机制将其提升到 3D 空间以驱动 3D 高斯运动,是一个非常巧妙且高效的设计。它避免了直接在复杂 3D 空间中进行耗时的特征提取和匹配。

7.3.2. 批判与潜在改进

  • 帧间抖动的根本原因: 论文提到帧间抖动是由于缺乏时间依赖性,但其根本原因可能在于 AGM-Net 每次推理都是相对独立的,主要关注当前帧和上一帧的差异,而没有一个长期的时间记忆或全局一致性约束。
    • 改进方向: 可以考虑在 AGM-Net 的设计中引入循环神经网络(RNN)、Transformer 或状态记忆机制,使其能够更好地学习和利用长期时间依赖性,从而在预测运动时保持更强的时序连贯性和平滑性。例如,可以预测残差运动,并在时间轴上进行累积和平滑。
  • 对第一帧重建质量的敏感性: 尽管 IGS 缓解了误差累积,但对第一帧质量的敏感性仍是一个潜在瓶颈。如果初始帧存在严重的 floaters 或几何不准确,即使后续帧处理得再好,也可能无法完全弥补。
    • 改进方向: 可以在 3DGS 初始化阶段集成更鲁棒的 3D 重建算法(如结合 MVS 深度图或 SfM 点云的更精细初始化),或者在 0 帧训练时引入更强的正则化或 2D/3D2D/3D 一致性约束来减少 floaters
  • 泛化能力的边界: 虽然声称是可泛化的,但目前主要在室内数据集上进行了验证。在更复杂的真实世界场景(如室外、大规模、剧烈运动、复杂遮挡、多样化的材质和光照变化)中,其泛化能力可能面临更大挑战。
    • 改进方向: 需要在更多样化的数据集上进行训练和评估。同时,可以考虑引入更多的 3D 几何先验或物理约束来增强模型的泛化鲁棒性。
  • optical flow 误差传播: AGM-Net 依赖于 optical flow model 提供的 2D 运动特征。如果 optical flow 本身存在误差(特别是在运动模糊、遮挡或光照变化剧烈的场景),这些误差可能会传播并影响 3D 高斯运动的预测。
    • 改进方向: 可以探索使用集成多个 optical flow 估计器、或使用 unsupervised(无监督)或 self-supervised(自监督)方法对 optical flow 进行微调,使其更适应当前场景。此外,引入对 optical flow 估计不确定性的建模,并将其融入 AGM-Net 的决策中。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。