摘要

Spatia, a spatial memory-aware video generation framework, maintains long-term spatial and temporal consistency by preserving and updating a 3D scene point cloud, enabling realistic video generation and interactive editing.

1. 论文基本信息

1.1. 标题

Spatia: Video Generation with Updatable Spatial Memory （Spatia：具有可更新空间记忆的视频生成）

1.2. 作者

Jinjing Zhao (悉尼大学), Fangyun Wei (微软亚洲研究院), Zhening Liu (香港科技大学), Hongyang Zhang (滑铁卢大学), Chang Xu (悉尼大学), Yan Lu (微软亚洲研究院)。

1.3. 发表期刊/会议

该论文发布于 Hugging Face Papers (2025年12月)，反映了当前视频生成领域最前沿的研究方向。

1.4. 发表年份

2021-12-16T16:00:00.000Z（注：根据提供的元数据，此处显示为 2001 年，但内容涉及 Wan2.2 等 2024-2025 年的技术，推测元数据时间戳存在偏差，实际应为 2024/2025 年前沿研究）。

1.5. 摘要

现有的视频生成模型在维持长期空间和时间一致性方面面临巨大挑战，这主要是因为视频信号具有高维且密集的特性。为了克服这一限制，本文提出了 Spatia，这是一个感知空间记忆的视频生成框架。它通过维护和更新一个 3D 场景点云 (point cloud)作为持久的空间记忆。Spatia 迭代地生成以该空间记忆为条件的视频片段，并通过视觉 SLAM (Visual SLAM)算法持续更新记忆。这种动态-静态解耦 (dynamic-static disentanglement)的设计增强了生成过程中的空间一致性，同时保留了模型生成逼真动态实体的能力。此外，Spatia 还支持显式相机控制和 3D 感知交互式编辑。

1.6. 原文链接

Hugging Face Papers: https://huggingface.co/papers/2512.15716
PDF 链接: https://arxiv.org/pdf/2512.15716.pdf
发布状态: 预印本 (Preprint)。

2. 整体概括

2.1. 研究背景与动机

当前视频生成的基础模型（如 Sora、HunyuanVideo、Wan2.1）在短视频合成上表现优异，但在生成长视频时极难保持时空一致性。

核心问题： 视频信号维度极高。例如，一段 5 秒、24 FPS、480P 的视频经过编码后约产生 36,000 个词元 (token)。相比之下，36,000 个词元在大型语言模型 (LLM) 中足以代表 27,000 个单词。这意味着视频模型在处理极短时间内的上下文时，计算量就已经达到了 LLM 处理长文本的水平。
现有挑战： 直接将历史视频帧作为上下文输入会导致计算量呈平方级爆炸，使得模型难以“记住”分钟级甚至小时级的场景布局。
创新思路： 借用人类记忆机制，不强行记住所有像素，而是维护一个显式的 3D 空间结构（点云）作为“记忆”。当镜头回到曾经去过的地方时，通过查阅点云记忆来确保场景的一致性。

2.2. 核心贡献/主要发现

提出 Spatia 框架： 引入了显式的、可更新的空间记忆机制，使视频生成模型能够具备持久的 3D 场景感知能力。
动态-静态解耦： 创新性地将静态场景布局（存储在点云中）与动态物体（由生成模型实时合成）分开处理，解决了传统方法难以生成动态实体的痛点。
显式相机控制： 相比于将相机参数隐式注入模型的方法，Spatia 通过渲染点云生成 2D 投影视频作为引导，实现了更精确、几何上更合理的相机控制。
支持 3D 编辑： 用户可以直接编辑记忆中的 3D 点云（如删除某个沙发），生成的视频会自动反映这些修改。

3. 预备知识与相关工作

3.1. 基础概念

点云 (Point Cloud): 在 3D 空间中点的集合，每个点包含坐标 (x, y, z)，有时还包含颜色信息。它是 3D 场景的一种离散表示。
视觉 SLAM (Visual SLAM): 即“即时定位与地图构建”，指通过摄像机输入的图像，在确定自身位置的同时，构建周围环境地图的技术。
词元 (Token): 在生成模型中，图像或视频被切分成小块并转换为向量，这些向量被称为词元。
扩散模型 (Diffusion Model) 与流匹配 (Flow Matching): 当前最先进的生成技术，通过学习如何将噪声逐步转化为清晰的图像/视频。

3.2. 前人工作

视频基础模型: 如 Wan2.2、CogVideoX 等，使用扩散变换器 (Diffusion Transformer, DiT) 架构。虽然质量高，但缺乏长期记忆。
相机控制方法: 早期如 AnimateDiff 使用 LoRA 学习运动轨迹，或 CameraCtrl 注入参数，但容易出现几何扭曲。
3D 场景生成: 如 WonderJourney 能够生成可探索的世界，但通常只能生成静态场景，无法处理会动的物体。

3.3. 差异化分析

Spatia 与 Voyager 或 VMem 等现有记忆机制的最大区别在于：它不仅关注静态一致性，还允许动态实体 (Dynamic Entities) 与静态背景共存，并且其记忆（点云）是可以在生成过程中根据新发现的内容不断扩充和修正的。

4. 方法论

4.1. 方法原理

Spatia 的核心逻辑是一个循环：基于记忆生成视频 -> 利用新视频更新记忆。

下图（原文 Figure 1）展示了该框架的四个核心应用场景：

该图像是一个示意图，展示了Spatia视频生成框架与可更新空间记忆的工作原理。图中包括初始图像、估计的场景点云以及更新迭代过程，结合动态静态解耦、空间一致生成、明确相机控制和3D感知交互编辑等功能，用于实现逼真的视频生成和交互式编辑。

4.2. 核心方法详解 (逐层深入)

4.2.1. 数据预处理与点云估计

在训练阶段，模型需要学习如何利用点云。

场景点云估计: 给定一段训练视频，首先使用 MapAnything 估计初始场景点云 $s$ 。为了实现动态-静态解耦，必须移除视频中的动态物体。
动态物体分割: 使用 Kwai-VL-1.5 识别动态实体，并利用 ReferDINO 生成掩码，将其从点云估计中剔除，确保点云只代表静态背景。
视图特定场景点云 (View-Specific Scene Point Clouds): 给定每一帧的相机位姿 $\theta_i$ ，将全局点云 $s$ 投影到该视角，得到 2D 投影图序列 $\{ \mathcal{S} \}^N$ 。

4.2.2. 参考帧检索 (Reference Frame Retrieval)

为了增强一致性，系统会从已生成的历史帧中检索与当前视角重叠度最高的 $K$ 个帧作为参考。

算法逻辑： 通过计算当前视角点云与历史帧点云的 3D 交并比 (3D IoU) 来筛选。

4.2.3. 网络架构设计

Spatia 采用了多模态条件生成框架。

下图（原文 Figure 3）详细展示了单个网络块的结构：

$Figure 3. Illustration of a single network block composed of one ControlNet \[115\] block operating in parallel with four main blocks. Detailed definitions of all token types are provided in Figure 2.$ 该图像是示意图，展示了一个网络块的结构，包含一个 ControlNet 块与四个主块并行操作。图中详细描述了各自的功能，包括 FFN、Cross-Attention 和 Self-Attention 模块，展示了信息流动的方向。相关的标记和连接也在图中清晰体现。

主干网络 (Backbone): 基于 5B 参数的 Wan2.2 模型。
词元化过程:
- 视频帧通过视频编码器转为词元 $X_T$ (目标) 和 $X_P$ (前序)。
- 参考帧转为词元 $X_R$ 。
- 场景投影视频通过相同编码器转为词元 $X_{\mathcal{S}_T}$ 。
ControlNet 辅助控制: 引入了并行的 ControlNet 块来注入空间记忆信息。
- ControlNet 接收场景投影词元，其输出通过逐元素相加的方式融合到主干网络的特征中。
训练目标 (流匹配): 模型采用流匹配 (Flow Matching) 进行训练。设定目标词元为 $X_T$ $X_{T}$ ，采样时间步 $t \in [0, 1]$ $t \in [0, 1]$ 。通过线性插值得到带噪样本： $\mathbf{x}_t = (1 - t) \mathbf{x}_0 + t X_T$ 其中 $\mathbf{x}_0$ $x_{0}$ 是高斯噪声。模型需要预测速度 $\mathbf{v}_t$ $v_{t}$ ，训练损失函数为： $\mathcal{L} = \mathbb{E}_{t, \mathbf{x}_0, \boldsymbol{X}_T} \left\| \mathbf{v}_t - \mathbf{u}_t \right\|^2$
- 符号解释：
  - $t$ : 训练步长，控制加噪程度。
  - $\mathbf{x}_0$ : 纯高斯噪声。
  - $X_T$ : 真实标注数据 (Ground Truth) 视频词元。
  - $\mathbf{u}_t$ : 真实的概率流向量场（即从噪声走向目标的理想路径）。
  - $\mathbf{v}_t$ : 模型预测的速度向量。

4.2.4. 推理过程 (Inference)

推理过程是迭代进行的。

下图（原文 Figure 4）展示了推理的具体流程：

$Figure 4. Illustration of the Spatia inference process. At the first iteration, the user provides an initial image, from which Spatia estimates the initial 3D scene point cloud. The user then specifies a text instruction and a camera path based on the estimated scene, producing a projection video along the desired trajectory that conditions the generation of clip-1. In subsequent iterations, two steps are performed: (1) Spatia updates the spatial memory (3D scene point cloud) using all previously generated frames via MapAnything \[42\]; and (2) the user specifies a new text instruction and camera path based on the updated scene. Spatia then takes the reference frames (generated as described in Section 3.1.2), the previously generated clip, and the new projection video as input to produce the next video clip. Text instructions are omitted.$ 该图像是示意图，展示了Spatia推理过程的两个迭代。在第一次迭代中，用户提供初始图像，系统生成初始3D场景点云，并依据用户指定的相机路径生成投影视频，生成剪辑1。在第二次迭代中，系统更新空间记忆，并根据新的相机路径和投影视频生成剪辑2。

第一步： 输入初始图，估计初始 3D 点云。
第二步： 用户指定相机轨迹，系统渲染投影视频，生成第一段剪辑。
第三步： 利用生成的剪辑更新点云记忆，并基于更新后的记忆生成下一段剪辑。

5. 实验设置

5.1. 数据集

RealEstate: 包含 4 万个房地产展示视频，相机运动丰富，是评估几何一致性的金标准。
SpatialVID: 包含 1 万个带有空间标注的高清视频。

5.2. 评估指标

PSNR (峰值信噪比): 用于测量图像失真程度。 $\mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{MAX^2}{MSE} \right)$
- MAX: 像素最大值（通常为 255）。
- MSE: 均方误差。
SSIM (结构相似性指数): 衡量两张图的亮度、对比度和结构的相似度。值越接近 1 表示越相似。
LPIPS (学习感知图像 patch 相似度): 利用深度神经网络评估人类感知层面的相似度。值越低表示越真实。
Match Accuracy (匹配准确度): 作者利用 RoMa 算法计算闭环测试中起始帧与返回帧的特征匹配点数量。值越高表示空间记忆越准确。

5.3. 对比基线

静态场景模型: WonderJourney, WonderWorld, Voyager。
基础视频模型: VideoCrafter2, CogVideoX, LTX-Video, Wan2.1。

6. 实验结果与分析

6.1. 核心结果分析

在 WorldScore 基准测试中，Spatia 在平均得分上显著超过了所有基础视频模型和静态场景生成模型。

以下是原文 Table 1 的完整转录，展示了多维度的对比结果：

Method	Average Scores						3D Const	Photo Quality	Style Const	Subject Quality
Method	Avg	Static	Dynamic	Camera Ctrl	Object Ctrl	Content Align	3D Const	Photo Quality	Style Const	Subject Quality
Static scene generation models
WonderJourney	54.19	63.75	44.63	84.60	37.10	35.54	80.60	79.03	62.82	66.56
Voyager	66.08	77.62	54.53	85.95	66.92	68.92	81.56	85.99	84.89	71.09
Foundation video generation models
CogVideoX-I2V	60.64	62.15	59.12	38.27	40.07	36.73	86.21	88.12	83.22	62.44
Wan2.1	55.21	57.56	52.85	23.53	40.32	45.44	78.74	78.36	77.18	59.38
Spatia (Ours)	69.73	72.63	66.82	75.66	52.32	69.95	86.40	89.10	80.09	54.86

关键发现： Spatia 在“Camera Ctrl”（相机控制）和“Content Align”（内容对齐）上大幅领先基础模型，证明了显式空间记忆在维持结构一致性方面的巨大优势。

6.2. 记忆机制评估 (闭环测试)

在闭环测试中（相机转一圈回到原点），Spatia 能够重建极其接近起始帧的图像。

以下是原文 Table 3 的结果：

Method	PSNRC ↑	SSIMC ↑	LPIPSC ↓	Match Acc ↑
ViewCrafter	14.79	0.481	0.365	0.447
Voyager	17.66	0.540	0.380	0.507
Spatia (Ours)	19.38	0.579	0.213	0.698

6.3. 消融实验

实验证明，参考帧检索和场景投影视频两者缺一不可。如果不使用参考帧，PSNR 会从 19.38 降至 17.18；如果不使用场景投影，模型几乎失去了相机控制能力。

7. 总结与思考

7.1. 结论总结

Spatia 成功地将 3D 视觉几何（点云与 SLAM）引入了生成式视频大模型。通过构建一个可动态更新的空间记忆库，它解决了长视频生成中“转头就忘”的顽疾。实验结果表明，该方法在保持高质量动态生成的同时，极大地提升了场景的几何稳健性。

7.2. 局限性与未来工作

计算开销: 虽然相比全注意力机制节省了计算量，但实时维护点云和进行 SLAM 估计仍有一定的延迟。
动态交互: 目前模型虽然能生成动态物体，但物体对环境的永久性改变（如打碎杯子）还无法完美地反映在持久记忆中。
未来方向: 探索更高效的记忆表示方式（如 3D Gaussian Splatting），以及增强模型处理复杂动态场景的能力。

7.3. 个人启发与批判

启发: 这篇论文展示了“显式几何约束”对于生成模型的重要性。仅仅依靠扩大上下文窗口（Scaling Context Window）并不是解决长视频一致性的唯一路径，引入类似人类“认知地图”的结构化记忆可能更为高效。
批判: 论文中提到的动态物体移除依赖于现有的分割模型（如 SAM2、ReferDINO），如果分割不干净，动态物体的残影可能会“污染”静态点云记忆，导致背景中出现伪影。此外，对于非常开阔的室外场景，点云的密度和存储将是一个巨大的挑战。

Spatia: Video Generation with Updatable Spatial Memory

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 10 分钟读完 · 6,231 字