论文状态：已完成

Animate3D: Animating Any 3D Model with Multi-view Video Diffusion

发表：2024/11/06

多视角视频数据集 (1)多视角视频扩散模型 (1)3D模型动画生成 (1)4D Score Distillation Sampling (1)时空注意力机制 (1)

原文链接 PDF 下载

价格：0.100000

已有 8 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

提出Animate3D框架，利用多视角视频扩散模型（MV-VDM）和大规模多视角视频数据集，结合重建与四维得分蒸馏采样，实现对任意静态三维模型的高一致性动画生成。设计新型时空注意力模块，强化时空连续性并保持模型身份特征。

摘要

Animate3D: Animating Any 3D Model with Multi-view Video Diffusion Yanqin Jiang 1 , 2 ∗ Chaohui Yu 3 , 4 ∗ Chenjie Cao 3 , 4 Fan Wang 3 , 4 Weiming Hu 1 , 2 , 5 Jin Gao 1 , 2 † 1 State Key Laboratory of Multimodal Artificial Intelligence Systems (MAIS), CASIA 2 School of Artificial Intelligence, University of Chinese Academy of Sciences 3 DAMO Academy, Alibaba Group 4 Hupan Lab 5 School of Information Science and Technology, ShanghaiTech University jiangyanqin2021@ia.ac.cn {huakun.ych,caochenjie.ccj,fan.w}@alibaba-inc.com {jin.gao,wmhu}@nlpr.ia.ac.cn https://animate3d.github.io/ 3D object MV - VDM (Ours) Front Back Video Diffusion (T2V) Video+3D Diffusion (SVD + Zero123) Front Back Time View Figure 1: Different supervision for 4D generation. MV-VDM shows superior spatiotemporal consis- tency than previous models. Based on MV-VDM, we propose Animate3D to animate any 3D model. Abstract Recent advances in 4D generation mainly focus on generating 4D content by distill- ing pre-trained text or single-view image-conditioned models. It is inconvenient for them to take advantage of various off-the-shelf 3D assets with multi-view attributes, and their results

思维导图

论文精读

中文精读约 41 分钟读完 · 25,352 字

1. 论文基本信息

1.1. 标题

Animate3D: Animating Any 3D Model with Multi-view Video Diffusion

1.2. 作者

Yanqin Jiang ${ }^{1,2 *}$ Chaohui Yu ${ }^{3,4 *}$ Chenjie Cao ${ }^{3,4}$ Fan Wang ${ }^{3,4}$ Weiming Hu ${ }^{1,2,5}$ Jin Gao ${ }^{1,2 \dagger}$

${ }^{1}$ 中国科学院自动化研究所 (State Key Laboratory of Multimodal Artificial Intelligence Systems (MAIS), CASIA)
${ }^{2}$ 中国科学院大学人工智能学院 (School of Artificial Intelligence, University of Chinese Academy of Sciences)
${ }^{3}$ 阿里巴巴达摩院 (DAMO Academy, Alibaba Group)
${ }^{4}$ 湖畔实验室 (Hupan Lab)
${ }^{5}$ 上海科技大学信息科学与技术学院 (School of Information Science and Technology, ShanghaiTech University)
*共同一作 (Equal contribution)
$^{\dagger}$ 通讯作者 (Corresponding author)

1.3. 发表期刊/会议

该论文已提交至 OpenReview，并在 NeurIPS Paper Checklist 中自述遵循 NeurIPS 道德准则，表明其目标是顶级的机器学习会议 NeurIPS。

1.4. 发表年份

2024年 (Published at (UTC): 2024-11-06T00:00:00.000Z)

1.5. 摘要

当前四维内容生成 (4D generation) 的进展主要集中于通过蒸馏预训练的文本或单视角图像条件模型来生成四维内容。这种方法不便于利用具有多视角属性的各种现成三维资产 (off-the-shelf 3D assets)，且由于监督信号固有的模糊性，其结果存在时空不一致性 (spatiotemporal inconsistency)。本研究提出了 Animate3D，一个用于动画化 (animating) 任何静态三维模型 (static 3D model) 的新颖框架。其核心思想分为两方面：1) 提出了一个新颖的多视角视频扩散模型 (Multi-view Video Diffusion Model, MV-VDM)，该模型以静态三维对象的多视角渲染图为条件，并在本文提出的规模庞大的多视角视频数据集 (MV-Video) 上进行训练。2) 基于 MV-VDM，引入了一个结合了重建 (reconstruction) 和四维得分蒸馏采样 (4D Score Distillation Sampling, 4D-SDS) 的框架，以利用多视角视频扩散先验 (multi-view video diffusion priors) 来动画化三维对象。具体来说，对于 MV-VDM，设计了一种新的时空注意力模块 (spatiotemporal attention module)，通过整合三维和视频扩散模型来增强空间和时间一致性。此外，利用静态三维模型的多视角渲染图作为条件，以保留其身份 (identity)。对于动画化三维模型，提出了一个有效的两阶段管道 (pipeline)：首先直接从生成的多视角视频中重建粗略的运动 (coarse motions)，然后引入的 4D-SDS 用于建模精细运动 (fine-level motions)。得益于精确的运动学习，可以实现直接的网格动画 (mesh animation)。定性和定量实验表明 Animate3D 显著优于以前的方法。数据、代码和模型将开源发布。

1.6. 原文链接

https://openreview.net/forum?id=HB6KaCFiMN PDF 链接: https://openreview.net/pdf?id=HB6KaCFiMN

2. 整体概括

2.1. 研究背景与动机

三维内容创建在增强现实/虚拟现实 (AR/VR)、游戏和电影产业中具有广泛应用，受到了极大关注。随着扩散模型 (diffusion models) 和大规模三维对象数据集的发展，静态三维内容的生成取得了显著进展。然而，这种势头尚未在动态三维内容生成，即四维生成 (4D generation) 领域中得到体现。

四维生成更具挑战性，因为它需要同时保持视觉外观和动态运动中的时空一致性 (spatiotemporal consistency)。当前研究存在以下核心问题和挑战：

缺乏统一的基础四维生成模型 (foundational 4D generation models)： 现有的四维生成工作通常通过分别蒸馏预训练的文本到图像 (Text-to-Image, T2I) 或三维扩散模型 (3D diffusion models) 和视频扩散模型 (video diffusion models) 来建模多视角空间外观和时间运动。这种分离的学习方式会导致错误累积，例如外观会随着运动的变化而出现退化，导致时空不一致性，如 Figure 1 所示。
无法有效利用现有三维资产的多视角条件 (multi-view conditions)： 随着三维生成技术的发展，动画化现有高质量三维内容成为普遍需求。然而，现有关于从视频进行四维建模 (4D modeling from video) 或基于生成的三维资产的工作，都依赖于文本或单视角条件模型，难以忠实地保留三维资产的多视角属性，例如 Figure 1 中的蝴蝶背面细节被 Zero123 忽略。

为了解决这些问题，本文提出了一种更适合四维生成的方法，即通过统一的时空一致监督来动画化任何现成的三维模型 (off-the-shelf 3D models)。这样可以直接利用各种快速发展的三维生成和重建方法，并消除建模外观和运动中的错误累积。

2.2. 核心贡献/主要发现

本文的主要贡献总结如下：

首个四维生成框架 Animate3D： 提出了 Animate3D，是第一个能够利用详细多视角条件动画化任何三维对象的四维生成框架。该框架进一步扩展，实现了无需骨骼绑定 (skeleton rigging) 的网格动画 (mesh animation)。
基础四维生成模型 MV-VDM： 提出了基础四维生成模型 MV-VDM，它能够联合建模时空一致性。MV-VDM 是一个多视角图像条件的多视角视频扩散模型，建立在预训练的三维和视频扩散模型之上，可以同步合成具有各种时间运动的多视角图像。
大规模四维数据集 MV-Video： 首次构建并提出了最大规模的多视角视频 (4D) 数据集 MV-Video，包含约 8.4 万个动画和超过 130 万个多视角视频，为四维基础模型的训练提供了关键数据。
有效的优化管道 (optimization pipeline)： 基于 MV-VDM，提出了一个结合重建和 4D-SDS 的优化管道，用于动画化三维对象，能够学习精确的运动，并实现高质量的网格动画。
显著的性能提升： 定性和定量实验结果表明，Animate3D 在生成时空一致的四维对象方面显著优于现有方法。

2.3. Published at (UTC)

2024-11-06T00:00:00.000Z

3. 预备知识与相关工作

3.1. 基础概念

扩散模型 (Diffusion Models, DMs)： 扩散模型是一种生成模型，通过模拟数据从复杂分布逐渐退化为简单噪声分布的正向过程，并学习逆向过程（去噪），从而从噪声中生成数据。它在图像生成 (image generation)、视频生成 (video generation) 等领域取得了显著成功。
文本到图像扩散模型 (Text-to-Image, T2I DMs)： 这类模型可以根据文本描述生成高质量的图像，如 Stable Diffusion、Imagen 等。它们通常通过交叉注意力机制 (cross-attention mechanism) 将文本特征注入到图像生成过程中。
视频扩散模型 (Video Diffusion Models)： 扩展自 T2I DMs，通过引入时间注意力模块 (temporal attention module) 来处理视频序列，从而实现文本到视频 (Text-to-Video, T2V) 或图像到视频 (Image-to-Video, I2V) 的生成。
多视角渲染 (Multi-view Rendering)： 从不同相机角度生成同一三维对象的二维图像。这对于理解三维对象的完整几何和外观至关重要。
三维高斯泼溅 (3D Gaussian Splatting, 3DGS)： 一种新颖的三维表示方法，将三维场景表示为大量可微分的三维高斯球。每个高斯球具有位置、颜色、不透明度、旋转和尺度等属性，可以直接高效地渲染出高质量的图像。相比于神经辐射场 (Neural Radiance Fields, NeRF)，3DGS 具有更快的渲染速度和训练效率。
四维高斯泼溅 (4D Gaussian Splatting, 4DGS)： 3DGS 的扩展，用于表示动态三维场景。通过为每个高斯球添加运动场 (motion fields)，使其能够在时间维度上变化位置、旋转和尺度，从而动画化三维场景。本文中，运动场通过 Hex-planes 表示。
得分蒸馏采样 (Score Distillation Sampling, SDS)： 一种通过预训练的扩散模型指导三维内容生成的技术。它利用扩散模型预测的噪声来计算一个损失函数，该损失函数能够引导优化的三维表示（如 NeRF 或 3DGS）生成与扩散模型输出一致的视图。
四维得分蒸馏采样 (4D Score Distillation Sampling, 4D-SDS)： SDS 在四维生成任务中的应用，通过扩散模型指导动态三维表示（如 4DGS）的优化，以实现外观和运动的一致性。
注意力机制 (Attention Mechanism)： 深度学习中的一种机制，允许模型在处理序列数据时，根据输入的不同部分动态地分配不同的权重。
- 自注意力 (Self-attention)： 关注输入序列内部的不同位置，捕捉序列内部的依赖关系。
- 交叉注意力 (Cross-attention)： 关注不同输入序列之间的关系，常用于将条件信息（如文本提示、图像特征）整合到生成过程中。
时空注意力模块 (Spatiotemporal Attention Module)： 结合了空间维度和时间维度的注意力机制，旨在同时捕捉图像内部的空间依赖和视频帧之间的时间依赖，以提高生成内容的时空一致性。

3.2. 前人工作

3.2.1. 三维生成 (3D Generation)

早期三维生成工作通过 CLIP 损失 (CLIP loss) 或得分蒸馏采样 (SDS) 从二维文本到图像 (T2I) 扩散模型优化单个三维对象。然而，由于这些监督模型缺乏三维先验 (3D prior)，常常导致空间不一致性，如多面詹姆斯问题 (multi-face Janus problem)。为了解决这个问题：

多视角图像扩散模型 (Multi-view Image Diffusion Models)： 一些工作（如 Zero123 [31], MVDream [41], SyncDreamer [32]）通过注入新的空间注意力层并在大规模三维合成数据集上微调，将 T2I 扩散模型提升为多视角图像扩散。尽管三维一致性得到改善，但这些基于优化的方法仍需要相对较长的时间来优化三维对象。
前馈三维生成基础模型 (Feed-forward 3D Generation Foundation Models)： 另一些工作（如 LRM [22], GRM [61]）也在大规模三维数据集上进行训练，能够以推理方式在几秒钟内生成高质量的三维对象。

本文受数据驱动方法在三维生成领域成功启发，旨在构建大规模四维生成数据集，并朝着开发四维生成基础模型迈出开创性一步。

3.2.2. 视频生成 (Video Generation)

视频生成工作始于文本到视频 (T2V) 生成（如 Imagen Video [19], Video Diffusion Models [20], CogVideo [21]），随后是图像到视频 (I2V) 方法（如 I2V-Adapter [17], Dynamicrafter [58]）。

T2V 模型： 通常建立在 T2I 扩散模型之上，通过保留空间块不变并插入新的时间块 (temporal blocks) 来建模时间上的相机或对象运动。
I2V 模型： 建立在 T2V 方法之上，通过在噪声帧和条件图像之间使用交叉注意力机制 (cross-attention mechanisms) 将图像语义整合到视频模型中，同时保持 T2V 模型中的运动模块设计不变。

本文从视频生成的发展范式中汲取灵感，设计了四维生成基础模型，即一个建立在预训练多视角三维和视频扩散模型之上的多视角图像条件的多视角视频扩散模型。

3.2.3. 四维生成 (4D Generation)

四维生成的开创性工作是 MAV3D [43]，一个文本和图像条件的四维生成框架。它首次提出了一个多阶段管道，通过 T2I 模型优化静态三维对象生成，随后从 T2V 模型学习运动。

多阶段管道： 后续工作（如 4Dfy [5], Align Your Gaussians [29]）也采用了类似的管道，并发现使用 T2I 和 3D-SDS 对于对象生成和运动学习阶段都至关重要。
视频到四维生成： Consistent4D [24] 提出了视频到四维生成任务，利用单视角视频重建和 Zero123 的 SDS 进行运动和外观学习。这种范式被后续工作（如 DreamGaussian4D [38], SC4D [57]）采用，并扩展到文本/图像到视频，再到视频到四维生成。

所有上述工作都严重依赖于 SDS 的基础模型来保留对象的外观 (appearance)和属性 (attributes)。然而，现有的三维扩散模型难以有效利用多视角条件 (multi-view conditions)，限制了它们在动画化各种现成三维资产时保留其多视角属性的广泛应用。

此外，现有四维生成方法还面临另一个问题，即空间和时间不一致性 (spatial and temporal inconsistency)。这是因为用于 SDS 的扩散模型从未在多视角视频 (4D) 数据集上进行训练，缺乏同时形成空间和时间一致性的关键能力。因此，以前的方法未能很好地平衡外观和运动学习。

3.3. 差异化分析

本文通过以下方式与现有工作区分开来：

统一监督信号 (Unified Supervision Signal)： 现有方法通常使用分离的监督信号：来自 3D/图像扩散模型的外观 (appearance)监督和来自视频扩散模型/单视角视频的运动 (motion)监督。这种分离导致外观 (appearance)和运动 (motion)之间可能产生冲突和累积误差。而 Animate3D 提出 MV-VDM 作为统一的四维生成基础模型，它能同时学习时空一致性，提供一体化的监督信号，避免了这种冲突。
多视角条件利用 (Multi-view Condition Utilization)： 现有三维扩散模型难以有效利用多视角条件来保留现有三维资产的细节。Animate3D 的 MV-VDM 明确以静态三维模型的多视角渲染图为条件，并通过 MV2V-Adapter 机制充分利用这些多视角信息，从而更好地保留原始三维模型的身份 (identity)和细节 (details)。
动画化现有三维资产 (Animating Existing 3D Assets)： Animate3D 的目标是动画化任何现成的静态三维模型，这对于利用现有高质量三维内容的需求至关重要。而许多现有方法更侧重于从头生成四维内容，或在动画化现有资产时无法充分保留其多视角属性。
大规模数据集 (Large-scale Dataset)： 首次构建并提出了大规模多视角视频数据集 MV-Video，解决了四维生成领域缺乏大规模数据的问题，为训练本文提出的基础模型提供了数据支撑。

4. 方法论

本文提出了 Animate3D 框架，旨在动画化任何静态三维模型。该任务被分解为两个主要部分：学习一个多视角视频扩散模型 (MV-VDM)，以及利用 MV-VDM 生成的多视角视频来动画化三维对象。

4.1. 多视角视频扩散模型 (MV-VDM)

本文提出了一个新颖的多视角图像条件多视角视频扩散模型，命名为 MV-VDM。为了继承在空间一致三维模型和时间一致视频模型上学习到的先验知识，本文将它们集成起来，并利用其预训练权重。具体而言，本文以 MVDream [41] 作为三维扩散模型，以 AnimateDiff [18] 作为视频扩散模型。为了增强时空一致性，并确保与提示词和对象多视角图像的兼容性，本文提出了一个高效的即插即用时空注意力模块 (plug-and-play spatiotemporal attention module)，并结合了图像条件化方法。

MV-VDM 在本文提出的 MV-Video 大规模多视角视频数据集上进行训练。

4.1.1. 时空注意力模块 (Spatiotemporal Attention Module)

如 Figure 2 所示，本文在交叉注意力层 (cross-attention layers) 之后插入了一个新颖的时空注意力模块。该模块包含两个并行分支：左分支用于空间注意力 (spatial attention)，右分支用于时间注意力 (temporal attention)。

空间注意力 (Spatial Attention)： 采用与 MVDream [41] 中的多视角三维注意力相同的架构。具体来说，原始的二维自注意力层通过连接 $n$ 个不同视角被转换为三维注意力。此外，将二维空间编码（特别是正弦编码）整合到潜在特征中，以增强空间一致性。
时间注意力 (Temporal Attention)： 保持视频扩散模型 AnimateDiff [18] 中的时间运动模块的所有设计不变，以重用其预训练权重。

基于这两个分支的特征，本文使用一个带有可学习权重 (learnable weight) 的 alpha 混合层 (alpha blender layer) 来实现具有增强时空一致性的特征。值得注意的是，由于 GPU 内存要求过高导致训练不可行，本文未在所有视角和所有帧之间应用时空注意力。相反，这种并行分支设计提供了一种高效实用的替代方案。

具体而言，首先将时空注意力模块的输入特征 $X \in \mathbb{R}^{(b \times n \times f) \times c \times h \times w}$ 重塑为两种形式：

$X_{l} \in \mathbb{R}^{(b \times f) \times(n \times h \times w) \times c}$ 用于空间分支
$X_{r} \in \mathbb{R}^{(b \times n \times h \times w) \times f \times c}$ 用于时间分支

时空注意力 (Spatiotemporal Attention) 的计算公式如下： $X_{\text {out }}=\mu \cdot \operatorname{Attention}_{\text {spatial}}\left(X_{l} W_{Q}^{s}, X_{l} W_{K}^{s}, X_{l} W_{V}^{s}\right) W_{O}^{s}+ (1-\mu) \cdot \operatorname{Attention}_{\text {temporal}}\left(X_{r} W_{Q}^{t}, X_{r} W_{K}^{t}, X_{r} W_{V}^{t}\right) W_{O}^{t}$ 符号解释：
$X_{\text {out}}$ ：时空注意力模块的输出特征。
$\mu$ ：一个可学习的权重 (learnable weight)，用于平衡空间注意力和时间注意力。
$\operatorname{Attention}_{\text {spatial}}(\cdot)$ ：空间注意力操作。
$\operatorname{Attention}_{\text {temporal}}(\cdot)$ ：时间注意力操作。
$X_{l}$ ：重塑后用于空间分支的输入特征。
$X_{r}$ ：重塑后用于时间分支的输入特征。
$W_{Q}^{s}, W_{K}^{s}, W_{V}^{s}, W_{O}^{s}$ ：空间分支中查询 (Query)、键 (Key)、值 (Value) 和输出 (Output) 的投影矩阵。
$W_{Q}^{t}, W_{K}^{t}, W_{V}^{t}, W_{O}^{t}$ ：时间分支中查询 (Query)、键 (Key)、值 (Value) 和输出 (Output) 的投影矩阵。
$b$ ：批次大小 (batch size)。
$n$ ：视角数量 (number of views)。
$f$ ：帧数 (number of frames)。
$h$ ：图像特征的高度 (height)。
$w$ ：图像特征的宽度 (width)。
$c$ ：图像特征的通道数 (channels)。

以下是论文中展示多视角视频扩散模型(MV-VDM)与其他方法对比的示意图，包含蝴蝶和机器人机械臂的前后视图随时间的动画效果，展示了MV-VDM在时空一致性及细节保留方面的优势。

该图像是论文中展示多视角视频扩散模型(MV-VDM)与其他方法对比的示意图，包含蝴蝶和机器人机械臂的前后视图随时间的动画效果，展示了MV-VDM在时空一致性及细节保留方面的优势。

Figure 1: Different supervision for 4D generation. MV-VDM shows superior spatiotemporal consistency than previous models. Based on MV-VDM, we propose Animate3D to animate any 3D model.

以下是论文中的示意图，展示了Animate3D框架的结构。MV-VDM能够生成时空一致的多视角视频，而Animate3D则基于MV-VDM，结合重建和4D-SDS优化，实现任何静态3D模型的动画。

该图像是Animate3D框架结构的示意图，展示了多视角视频扩散模型（MV-VDM）的组成及其在生成多视角视频、运动重建和细化运动4D-SDS中的流程，体现了时空注意力模块和MV2V-Adapter的设计细节。

Figure 2: Illustration of our proposed multi-view video diffusion model—MV-VDM (upper part) and our Animate3D framework (lower part). MV-VDM, trained on our presented large-scale 4D dataset MV-Video, can generate spatiotemporal consistent multi-view videos. Animate3D, based on MV-VDM, combines reconstruction and 4D-SDS optimization to animate any static 3D models.

4.1.2. 多视角图像条件化 (Multi-view Images Conditioning)

受 I2V-Adapter [17] 启发，本文添加了一个新的注意力层，命名为 MV2V-Adapter，它与所提出的时空块中现有的冻结多视角三维自注意力层并行，如 Figure 2 所示。

具体来说，首先沿着空间维度拼接噪声帧 (noisy frames)。然后，这些拼接帧被用于查询从多视角条件帧中提取的丰富上下文信息，这些条件帧是使用冻结的三维扩散模型 (frozen 3D diffusion model) 提取的。接着，将 MV2V-Adapter 层的输出添加到原始 MVDream 的多视角三维注意力层的输出中。

因此，对于每一帧 $i \in\{1, \ldots, f\}$ ，表示多视角输入、输出和条件帧的特征分别为 $X^{1: n, i}$ , $X^{1: n, i}_{\text {out}}$ 和 $X^{1: n, 1}$ ，其计算公式如下： $X_{\text {out}}^{1: n, i}= \operatorname{Attention}\left(X^{1: n, i} W_{Q}, X^{1: n, i} W_{K}, X^{1: n, i} W_{V}\right) W_{O}+ \operatorname{Attention}\left(X^{1: n, i} W_{Q}^{\prime}, X^{1: n, 1} W_{K}, X^{1: n, 1} W_{V}\right) W_{O}^{\prime}$ 符号解释：

$X_{\text {out}}^{1: n, i}$ ：第 $i$ 帧、所有 $n$ 个视角的输出特征。
$\operatorname{Attention}(\cdot)$ ：注意力操作。
$X^{1: n, i}$ ：第 $i$ 帧、所有 $n$ 个视角的输入特征。
$X^{1: n, 1}$ ：作为条件的第一个帧、所有 $n$ 个视角的特征。
$W_{Q}, W_{K}, W_{V}, W_{O}$ ：原始自注意力层中的投影矩阵 (Query, Key, Value, Output)。
$W_{Q}^{\prime}, W_{O}^{\prime}$ ：新添加的 MV2V-Adapter 层中的投影矩阵 (Query, Output)。

本文发现这个简单的交叉注意力操作可以有效地改善生成视频中对象的外观一致性 (appearance consistency)。之后，如 Figure 2 中时空块所示，使用两个交叉注意力层，分别用于对齐文本提示词 (text prompt) 和保留对象的身份 (identity)。左侧的一个继承自 MVDream，右侧的一个在 IP-Adapter [62] 中预训练。

4.1.3. 训练目标 (Training Objectives)

多视角视频扩散模型 (MV-VDM) 的训练过程类似于潜在扩散模型 (Latent Diffusion Model) [39]。具体而言：

采样的多视角视频数据 $q_{0}^{1: n, 1: f}$ 首先通过编码器 $\mathcal{E}$ 逐帧逐视角编码为潜在特征 $z_{0}^{1: n, 1: f}$ 。
然后使用前向扩散调度器 (forward diffusion scheduler) 添加噪声： $z_{t}^{1: n, 2: f}=\sqrt{\bar{\alpha}_{t}} z_{0}^{1: n, 2: f}+\sqrt{1-\bar{\alpha}_{t}} \epsilon$ ，其中 $\bar{\alpha}_{t}$ 是加权参数， $\epsilon$ 是高斯噪声。
遵循 I2V-Adapter 的做法，保持第一帧（即条件多视角帧）无噪声，仅对其余帧添加噪声。
在训练过程中，所提出的 MV-VDM 接收干净的潜在代码 $z_{0}^{1: n, 1}$ 、含噪声的潜在代码 $z_{t}^{1: n, 2: f}$ 、文本提示词嵌入 $y$ 和相机参数 $\Sigma^{1: n}$ 作为输入，并输出噪声强度，通过 $\mathcal{L}_{2}$ 损失进行监督。

MV-VDM 的训练目标函数如下： $\mathcal{L}_{\mathrm{MV}-\mathrm{VDM}}=\mathbb{E}_{\mathcal{E}\left(q_{0}\right), y, s \in \mathcal{N}(0, I), t,}\left[\left\|\epsilon-\epsilon_{\theta}\left(z_{0}^{1: n, 1}, z_{t}^{1: n, 2: f}, t, y, \Sigma^{1: n}\right)\right\|_{2}^{2}\right]$ 符号解释：

$\mathcal{L}_{\mathrm{MV}-\mathrm{VDM}}$ ：MV-VDM 的训练损失。
$\mathbb{E}[\cdot]$ ：期望 (expectation) 运算符。
$\mathcal{E}(q_{0})$ ：通过编码器 $\mathcal{E}$ 编码的原始多视角视频数据 $q_{0}$ 。
$y$ ：文本提示词嵌入 (text prompt embedding)。
$s \in \mathcal{N}(0, I)$ ：从标准正态分布中采样的随机噪声。
$t$ ：时间步 (timestep)，表示扩散过程中的噪声级别。
$\epsilon$ ：真实添加的高斯噪声。
$\epsilon_{\theta}(\cdot)$ ：由扩散模型 $\theta$ 预测的噪声。
$z_{0}^{1: n, 1}$ ：无噪声的第一个帧的多视角潜在代码 (clean latent code of the first frame)。
$z_{t}^{1: n, 2: f}$ ：含噪声的后续帧的多视角潜在代码 (noisy latent code of subsequent frames)。
$\Sigma^{1: n}$ ：相机参数 (camera parameters) 集合，对应于 $n$ 个视角。

重要的是，本文保持整个多视角三维注意力模块冻结 (frozen)，只训练 MV2V-Adapter 层和时空注意力模块，以节省 GPU 内存并加速训练。此外，由于第一帧的多视角图像 $z_{0}^{1: n, 1}$ 作为条件图像，本文仅计算后面 f-1 帧（即 $z_{0}^{1: n, 2: f}$ ）的损失。

4.2. 四维高斯泼溅 (4DGS) 的重建与蒸馏

基于四维生成基础模型 MV-VDM，本文提出了动画化任何现成三维对象的方法。为了效率，本文采用 3D Gaussian Splatting (3DGS) [25] 作为静态三维对象的表示，并通过学习由 Hex-planes [15, 8] 表示的运动场 (motion fields) 来动画化它，如同在 [55] 中一样。

4.2.1. 四维运动场 (4D Motion Fields)

如 4D Gaussian Splatting (4DGS) [55] 中所述，本文使用 Hex-planes 来表示运动场。

静态 3DGS 表示： 静态 3DGS 被表示为 $\mathcal{G}=\{\mathcal{X}, \mathcal{C}, \alpha, r, s\}$ ，其中：
- $\mathcal{X}$ ：高斯球的位置 (position)。
- $\mathcal{C}$ ：高斯球的颜色 (color)。
- $\alpha$ ：高斯球的不透明度 (opacity)。
- $r$ ：高斯球的旋转 (rotation)。
- $s$ ：高斯球的尺度 (scale)。
运动模块 $\mathcal{D}$ ： 运动模块 $\mathcal{D}$ 通过插值 Hex-planes $R$ 来预测每个高斯点在帧 $i$ 的位置、旋转和尺度的变化。

运动场 (motion fields) 的计算公式如下： $\mathcal{F}=\bigcup_{i} \prod_{\zeta} \operatorname{interp}\left(R^{\zeta},(\mathcal{X}, i)\right) \\ \Delta \mathcal{X}=\phi_{\mathcal{X}}(\mathcal{F}), \Delta r=\phi_{r}(\mathcal{F}), \Delta s=\phi_{s}(\mathcal{F})$ 符号解释：
$\mathcal{F}$ ：运动特征 (motion features)。
$\bigcup_{i}$ ：表示对所有帧进行操作的联合操作。
$\prod_{\zeta}$ ：表示对 Hex-plane 的六个平面进行操作的乘积或组合操作。
$\operatorname{interp}(\cdot)$ ：插值函数，用于在特定平面 $\zeta$ 上插值高斯点以获取相应的运动特征。
$R^{\zeta}$ ：Hex-planes 中的平面之一，其中 $\zeta \in \{(x, y),(x, z),(y, z),(x, t),(y, t),(z, t)\}$ ，表示在不同空间维度和时间维度上的平面。
$(\mathcal{X}, i)$ ：高斯点的位置 $\mathcal{X}$ 和时间帧 $i$ 。
$\Delta \mathcal{X}$ ：高斯球位置的变化量。
$\Delta r$ ：高斯球旋转的变化量。
$\Delta s$ ：高斯球尺度的变化量。
$\phi_{\mathcal{X}}(\cdot), \phi_{r}(\cdot), \phi_{s}(\cdot)$ ：将运动特征 $\mathcal{F}$ 映射到位置、旋转和尺度变化的函数。

因此，在时间 $t$ 时的高斯球 $\mathcal{G}^{\prime}$ 更新如下： $\mathcal{G}^{\prime}=\{\mathcal{X}+\Delta \mathcal{X}, \mathcal{C}, \alpha, r+\Delta r, s+\Delta s\}$ 符号解释：
$\mathcal{G}^{\prime}$ ：更新后的高斯球表示。
$\mathcal{X}+\Delta \mathcal{X}$ ：更新后的高斯球位置。
$\mathcal{C}$ ：保持不变的颜色。
$\alpha$ ：保持不变的不透明度。
$r+\Delta r$ ：更新后的高斯球旋转。
$s+\Delta s$ ：更新后的高斯球尺度。

为了更好地保留静态三维对象的外观 (appearance)，本文保持某些属性不变，特别是不透明度 (opacity) $\alpha$ 和颜色 (color) $\mathcal{C}$ 。

4.2.2. 粗略运动重建 (Coarse Motion Reconstruction)

基于 MV-VDM 生成的时空一致多视角视频，本文首先利用四维高斯泼溅 (4DGS) 重建阶段直接重建粗略的运动 (coarse motions)。

具体来说，使用一个简单但有效的 $\mathcal{L}_{2}$ 损失作为重建损失 $\mathcal{L}_{\text {rec}}$ 。

重建损失 $\mathcal{L}_{\text {rec}}$ 的计算公式如下： $\mathcal{L}_{\mathrm{rec}}=\sum_{i=1}^{n} \sum_{j=1}^{f}\|\mathcal{C}-\widehat{\mathcal{C}}\|^{2}$ 符号解释：
$\mathcal{L}_{\mathrm{rec}}$ ：重建损失。
$n$ ：视角数量。
$f$ ：帧数。
$\mathcal{C}$ ：多视角和多帧渲染图的颜色。
$\widehat{\mathcal{C}}$ ：对应的真实颜色 (ground truth)。

如 Figure 3 所验证，这个重建阶段已经能够通过利用 MV-VDM 生成的多视角视频来学习高质量的粗略运动。

4.2.3. 四维得分蒸馏采样 (4D-SDS Optimization)

为了更好地建模精细运动 (fine-level motions)，本文引入了一个 4D-SDS 优化阶段来蒸馏 MV-VDM 的知识。

4D-SDS 损失 $\mathcal{L}_{\mathrm{4D}-\mathrm{SDS}}$ 是 $\mathbf{z}_{0}$ -重建 SDS 损失的一个变体。

4D-SDS 损失 $\mathcal{L}_{\mathrm{4D}-\mathrm{SDS}}$ 的公式如下： $\mathcal{L}_{\mathrm{4D}-\mathrm{SDS}}(\mathcal{G}, \mathcal{D}, z=\mathcal{E}(g(\mathcal{D}(\mathcal{G}))))=\mathbb{E}_{t, \Sigma, \epsilon}\left[\left\|z-\hat{z_{0}}\right\|_{2}^{2}\right], \quad \hat{z_{0}}=\frac{z_{t}-\sigma_{t} \epsilon_{\theta}}{\alpha_{t}}$ 符号解释：
$\mathcal{L}_{\mathrm{4D}-\mathrm{SDS}}$ ：四维得分蒸馏采样损失。
$\mathcal{G}$ ：静态三维高斯泼溅表示。
$\mathcal{D}$ ：运动模块。
$z=\mathcal{E}(g(\mathcal{D}(\mathcal{G})))$ ：渲染图像的潜在特征，其中 $g$ 表示渲染函数， $\mathcal{E}$ 是编码器。
$\mathbb{E}[\cdot]$ ：期望运算符。
$t$ ：时间步。
$\Sigma$ ：相机参数。
$\epsilon$ ：高斯噪声。
$\hat{z_{0}}$ ：从当前噪声预测 $\epsilon_{\theta}$ 估计的干净潜在特征 (estimation of clean latent feature)。
$z_{t}$ ：在时间步 $t$ 的含噪声潜在特征。
$\sigma_{t}$ ：噪声调度器控制的噪声尺度 (noise scale)。
$\alpha_{t}$ ：噪声调度器控制的信号尺度 (signal scale)。
$\epsilon_{\theta}$ ：扩散模型预测的噪声。

4.2.4. 训练目标 (Training Objectives)

除了 $\mathcal{L}_{\text {rec}}$ 和 $\mathcal{L}_{\mathrm{4D}-\mathrm{SDS}}$ 之外，本文引入了一种“尽可能刚性” (As-Rigid-As-Possible, ARAP) 损失 [46] 的变体，以促进刚性运动学习 (rigid movement learning) 并保持静态对象的高质量外观。

ARAP 损失 $\mathcal{L}_{\text {arap}}$ ： 在本文工作中，ARAP 损失的定义如下： $\mathcal{L}_{\text {arap }}\left(p_{j}\right)=\sum_{i=2}^{f} \sum_{k \in \mathcal{N}_{c_{i}}} w_{j, k}\left\|\left(p_{j}^{i}-p_{k}^{i}\right)-R_{j}\left(\left(p_{j}^{1}-p_{k}^{1}\right)\right)\right\|^{2}$ 其中， $\hat{R}_{j}$ 根据 [46] 通过使用奇异值分解 (Singular Value Decomposition, SVD) 从刚性变换中估计得出： $\hat{R}_{j}=\operatorname{argmin}_{R \in \mathbf{S O}(3)} \sum_{k \in \mathcal{N}_{c_{i}}} w_{j, k}\left\|\left(p_{j}^{i}-p_{k}^{i}\right)-\hat{R}_{j}\left(\left(p_{j}^{1}-p_{k}^{1}\right)\right)\right\|^{2}$ 符号解释：
$\mathcal{L}_{\text {arap}}\left(p_{j}\right)$ ：针对点 $p_j$ 的 ARAP 损失。
$p_{j}^{i}$ ：点 $p_j$ 在第 $i$ 帧的位置。
$p_{k}^{i}$ ：点 $p_k$ 在第 $i$ 帧的位置。
$\mathcal{N}_{c_{i}}$ ：在点 $p_j$ 固定半径内的点集合。
$w_{j, k}=\exp \left(-\frac{d_{j k}}{d}\right)$ ：点 $p_k$ 对点 $p_j$ 影响的权重，其中 $d_{j k}$ 是 $p_j$ 和 $p_k$ 中心之间的距离， $d$ 是一个常数。
$R_{j}$ ：点 $p_j$ 的旋转矩阵。
$\hat{R}_{j}$ ：估计的刚性旋转矩阵，属于三维特殊正交群 $\mathbf{S O}(3)$ 。

此损失鼓励生成的动态对象在局部保持刚性，并增强刚性运动的学习。
总训练目标 (Overall Training Objective)： 综上所述，动画化现成 3DGS 对象的训练目标函数为： $\mathcal{L}=\lambda_{1} \mathcal{L}_{\mathrm{rec}}+\lambda_{2} \mathcal{L}_{\mathrm{4D}-\mathrm{SDS}}+\lambda_{3} \mathcal{L}_{\text {arap }}$ 符号解释：
$\mathcal{L}$ ：总训练损失。
$\lambda_{1}, \lambda_{2}, \lambda_{3}$ ：权重参数，用于平衡各项损失。

4.3. 扩展到网格动画 (Extension to Mesh Animation)

为了直接利用商业三维生成工具或人类专家制作的高质量网格 (mesh)，本文将框架扩展到网格动画，生成与标准三维渲染管道兼容的动画网格。

初始化 3DGS： 通过静态网格的顶点 (vertices) 和三角形 (triangles) 初始化给定对象的 3DGS 表示。
属性设置： 颜色由顶点颜色决定，尺度通过连接边的平均值确定。不透明度设置为完全可见，旋转设置为零旋转四元数。
粗略动画： 粗略的 3DGS 按照上述章节中描述的运动重建步骤进行动画化。
变形网格： 利用每个顶点的高斯轨迹 (per-vertex Gaussian trajectory) 以直接的方式变形静态网格，无需骨骼绑定 (skeleton rigging)、控制点选择或复杂的变形算法。

5. 实验设置

5.1. 数据集

为了训练 MV-VDM，本文构建了一个大规模多视角视频数据集 MV-Video。

来源与规模： 从 Sketchfab [1] 收集了 37,857 个动画三维模型的多视角视频。每个模型平均有 2.2 个动画，总计 83,716 个动画。每个动画时长 2 秒，帧率为 24 fps。
过滤： 过滤掉了不允许用于生成 AI 程序的动画模型。
渲染： 将动画渲染成超过 130 万个多视角视频，并使用 minigpt4-video [3] 生成提示词 (prompts) 作为训练数据集。

以下是原文 Table 1 的结果：

Model ID Animations Avg. Animations per ID Max Animations per ID Multi-view Videos

37,857 83,716 2.2 6.0 1,339,456

Model ID	Animations	Avg. Animations per ID	Max Animations per ID	Multi-view Videos
37,857	83,716	2.2	6.0	1,339,456

Table 1: Statistical information for our multi-view video (MV-Video) dataset.

以下是论文中的示意图，展示了多种静态3D模型（触手、浣熊、小狗）在不同视角下的动画序列，体现了Animate3D框架对多视角视频扩散动画的效果。

该图像是论文中的示意图，展示了多种静态3D模型（触手、浣熊、小狗）在不同视角下的动画序列，体现了Animate3D框架对多视角视频扩散动画的效果。

Figure 12: More examples of our MV-Video dataset.

以下是论文中的示意图，展示了多种静态3D模型（触手、浣熊、小狗）在不同视角下的动画序列，体现了Animate3D框架对多视角视频扩散动画的效果。

该图像是不同三维模型动画的示意图，展示了熊猫、小植物和人物模型在多个视角下的连续运动帧，体现了多视角视频扩散模型在三维动画生成中的应用效果。

Figure 13: More examples of our MV-Video dataset.

以下是词云图，展示了与Animate3D及相关动画、3D模型、动作和场景等关键词的频率和关联度，突出“character”、“woman”、“man”等词汇，反映了研究内容的核心主题。

该图像是词云图，展示了与Animate3D及相关动画、3D模型、动作和场景等关键词的频率和关联度，突出“character”、“woman”、“man”等词汇，反映了研究内容的核心主题。

Figure 9: Illustration of the word cloud of the top 1000 nouns extracted from the text captions of our MV-Video dataset.

本文将发布此数据集，以进一步推动四维生成研究领域的发展。

5.2. 评估指标

本文采用 VBench [23] 提出的评估协议，这是一个流行的视频生成基准测试工具。VBench 的 I2V 评估协议包含 9 个评估指标，本文选择了其中 4 个进行评估：I2V Subject (I2V)、Motion Smoothness (M. Sm.)、Dynamic Degree (Dy. Deg.) 和 Aesthetic Quality (Aest. Q.)。

I2V Subject (I2V) - 对象一致性：
1. 概念定义： 评估生成视频中对象的外观 (appearance)是否与输入图像保持一致。
2. 数学公式： 该指标的计算通常基于特征嵌入的相似度。常用的方法是计算 DINO [9] 特征在不同帧之间或与参考图像之间的余弦相似度。假设 $F_{input}$ 为输入图像的 DINO 特征， $F_{gen,j}$ 为生成视频中第 $j$ 帧的 DINO 特征，则 I2V Subject 的相似度可以计算为平均余弦相似度： $\text{I2V Subject} = \frac{1}{N_{frames}} \sum_{j=1}^{N_{frames}} \frac{F_{input} \cdot F_{gen,j}}{\|F_{input}\| \|F_{gen,j}\|}$
3. 符号解释：
  - $N_{frames}$ ：生成视频的总帧数。
  - $F_{input}$ ：输入图像的 DINO 特征向量。
  - $F_{gen,j}$ ：生成视频中第 $j$ 帧的 DINO 特征向量。
  - $\cdot$ ：向量点积。
  - $\|\cdot\|$ ：向量的 L2 范数（模）。
  - 该指标值越高，表示生成视频中的对象与输入图像越一致。
Motion Smoothness (M. Sm.) - 运动平滑度：
1. 概念定义： 评估生成视频中的运动是否平滑，并遵循现实世界的物理定律。
2. 数学公式： VBench 使用视频帧插值模型 [27] 中的运动先验来评估。具体公式未在论文中直接给出，但通常涉及分析连续帧之间的光流或特征变化，并评估这些变化的平稳性。一个常见的思路是计算光流矢量场的平滑度，例如通过光流的梯度或二阶导数。假设 $O_{t \to t+1}$ 是从帧 $t$ 到帧 $t+1$ 的光流，运动平滑度可以与光流的局部变化相关： $\text{Motion Smoothness} \propto - \frac{1}{N_{frames}-1} \sum_{t=1}^{N_{frames}-1} \|\nabla O_{t \to t+1}\|_2^2$ 或者，通过评估帧插值模型的性能，如果模型能更好地插值，则说明运动更平滑。
3. 符号解释：
  - $N_{frames}$ ：生成视频的总帧数。
  - $O_{t \to t+1}$ ：从帧 $t$ 到帧 $t+1$ 的光流 (optical flow) 场。
  - $\nabla O_{t \to t+1}$ ：光流场的梯度，衡量光流的局部变化。
  - $\|\cdot\|_2^2$ ：L2 范数的平方。
  - 该指标值越高，表示运动越平滑。
Dynamic Degree (Dy. Deg.) - 动态程度：
1. 概念定义： 评估合成视频中运动的程度。
2. 数学公式： VBench 利用 RAFT [48] 来估计合成视频的动态程度。动态程度通常通过计算连续帧之间光流矢量的幅度 (magnitude) 的平均值来量化。假设 $O_{t \to t+1}(x,y)$ 是从帧 $t$ 到帧 $t+1$ 在像素 (x,y) 处的光流向量，则动态程度可以计算为： $\text{Dynamic Degree} = \frac{1}{(N_{frames}-1) \cdot H \cdot W} \sum_{t=1}^{N_{frames}-1} \sum_{x,y} \|O_{t \to t+1}(x,y)\|_2$
3. 符号解释：
  - $N_{frames}$ ：生成视频的总帧数。
  - H, W：视频帧的高度和宽度。
  - $O_{t \to t+1}(x,y)$ ：从帧 $t$ 到帧 $t+1$ 在像素 (x,y) 处的光流向量。
  - $\|\cdot\|_2$ ：向量的 L2 范数（模），表示光流的强度。
  - 该指标值越高，表示视频中的运动越剧烈或动态程度越高。然而，本文指出有时完全失败的结果也会呈现极高的动态程度，因此需要结合其他指标综合判断。
Aesthetic Quality (Aest. Q.) - 美学质量：
1. 概念定义： 通过 LAION 美学预测器 (aesthetic predictor) 计算，反映人类对每一帧感知到的艺术和美学价值。
2. 数学公式： LAION 美学预测器是一个预训练的神经网络模型，它接收图像作为输入，并输出一个美学评分。这个评分通常是 1 到 10 之间的浮点数。对于一个视频，美学质量通常是所有帧美学评分的平均值。假设 $A(I_j)$ 是 LAION 预测器对第 $j$ 帧图像 $I_j$ 的美学评分： $\text{Aesthetic Quality} = \frac{1}{N_{frames}} \sum_{j=1}^{N_{frames}} A(I_j)$
3. 符号解释：
  - $N_{frames}$ ：生成视频的总帧数。
  - $I_j$ ：生成视频中的第 $j$ 帧图像。
  - $A(\cdot)$ ：LAION 美学预测器函数。
  - 该指标值越高，表示视频的整体美学质量越好。
    
    所有指标的值都是越高越好，除了 Dynamic Degree，因为有时完全失败的结果也会呈现极高的动态程度。

由于生成结果没有背景，并且评估相机是固定的，因此与背景和相机运动相关的指标（如 I2V Background, Camera Motion, Background Consistency）未被使用。Imaging Quality（受环境光影响）也未被使用。Subject Consistency 也被省略，因为它与 I2V Subject 的计算过程相似，只是参考帧的选择不同。

5.3. 对比基线

本文将 Animate3D 与 4Dfy [5] 和 $DreamGaussian4D (DG4D)$ [38] 进行了比较，这两个方法代表了四维生成方法中的最先进的 (state-of-the-art)水平。它们都通过先使用 3D-SDS 生成静态三维对象，然后在后期通过视频 SDS 和单视角视频重建进行动画化。

4Dfy [5]： 原始 4Dfy 使用动态 NeRF [34, 26] 作为四维表示。为了公平比较，本文将其动态 NeRF 替换为 4DGS，并应用了 ARAP 损失进行运动正则化。
$DreamGaussian4D (DG4D)$ [38]： 本文保持其 4DGS 表示和运动正则化不变。

5.4. 实现细节

5.4.1. `MV-VDM` 训练

帧采样： 每段动画均匀采样 8 帧来训练 MV-VDM。
优化器： 使用 Adawm 优化器。
学习率： 学习率为 4e-4。
权重衰减： 权重衰减为 0.01。
训练轮次： 训练模型 20 个 epoch。
批次大小： 批次大小为 2048。
推理： 推理时，采样步长设置为 25，并采用 FreeInit [56] 来获得稳定的动画三维对象结果。
硬件： 在 32 个 80G A800 GPU 上训练 MV-VDM 耗时 3 天。

5.4.2. 四维生成 (4D Generation) 优化

Hex-planes 设置： Hex-planes 的分辨率和特征维度分别设置为 [100, 100, 8] 和 16。
两阶段优化：
1. 粗略运动重建： 前 1000 次迭代进行粗略运动重建，批次大小为 32（4 个视角，8 帧）。
2. 4D-SDS 优化： 随后进行 400 次迭代的 4D-SDS 优化，以建模精细运动。
学习率： 初始学习率为 0.0015，在重建阶段结束时线性衰减到 0.0005。
损失权重： 公式 (11) 中的 $\lambda_{1}, \lambda_{2}, \lambda_{3}$ 分别设置为 10.0, 0.01, 0.5。
硬件： 每个对象的四维生成优化在单个 A800 GPU 上大约需要 30 分钟。

5.4.3. 评估数据集

MV-VDM 评估： 从 128 个静态三维对象渲染多视角图像，然后生成以这些图像为条件的多视角视频。每个对象使用四个不同的随机种子，并报告平均结果。
四维生成评估： 使用大型 3DGS 重建模型 GRM [61] 生成 25 个不同类别的对象。输入图像和动画提示词在 Appendix E.1 中提供。

5.5. 评估数据集示例

以下是论文中的示意图，展示了多种卡通风格的3D动物和物体，每个形象配有简短的英文描述，表现其动作和特征，如跳跃、行走、挥动等动态效果。

该图像是一张插图，展示了多种卡通风格的3D动物和物体，每个形象配有简短的英文描述，表现其动作和特征，如跳跃、行走、挥动等动态效果。

Figure 10: Illustration of the input images for image-to-3D generation and corresponding prompts for 4 D animation.

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定量比较

以下是原文 Table 2a 的结果：

(a) Comparison on video generation metrics.
	I2V ↑	M. Sm. ↑	Dy. Deg.	Aest. Q. ↑
4Dfy (Gau.) [5]	0.783	0.996	0.0	0.497
DG4D [38]	0.898	0.986	0.477	0.529
Ours	0.982	0.991	0.597	0.581

Table 2: Quantitative comparisons with state-of-the-art methods.

Table 2a 显示，在 I2V Subject (I2V)、Dynamic Degree (Dy. Deg.) 和 Aesthetic Quality (Aest. Q.) 指标上，本文方法显著优于 4Dfy 和 DG4D。这表明本文的生成结果与给定静态三维对象具有良好的一致性 (I2V Subject)，具有动态运动 (Dynamic Degree)，并呈现出卓越的外观 (appearance) (Aesthetic Quality)。在运动平滑度 (Motion Smoothness)方面，本文方法略低于 4Dfy，因为 4Dfy 总是生成几乎静态的结果，如 Table 2a 第一行 Dynamic Degree 为 0.0 所示。总体而言，本文方法能够在不牺牲高质量外观 (appearance)的情况下，生成平滑且动态的三维对象动画。

6.1.2. 定性比较

以下是实验结果的图表，展示了不同方法对三个卡通3D模型（熊、青蛙、企鹅）从静态输入动画化的效果对比，时间点包括 $t=0, t=t_1, t=t_2$ 。其中“Ours”方法在动作连贯性和细节还原上表现更优。

该图像是实验结果的图表，展示了不同方法对三个卡通3D模型（熊、青蛙、企鹅）从静态输入动画化的效果对比，时间点包括 $t=0, t=t_1, t=t_2$ 。其中“Ours”方法在动作连贯性和细节还原上表现更优。

Figure 3: Qualitative comparison with state-of-the-art methods.

如 Figure 3 所示：

4Dfy 的结果： 模糊不清，与给定的三维对象差异较大，这归因于使用文本条件扩散模型来优化运动和外观 (appearance)。此外，其生成的对象几乎是静态的。这是因为在训练初期，输入 T2V 模型的带噪声渲染图像序列没有时间变化，误导了视频扩散模型生成几乎静态的监督信号。
DG4D 的结果： 在正面视角（用于生成引导视频的视角）与给定三维对象对齐良好。然而，在新的视角下却未能与对象对齐，例如熊的尾巴和企鹅的尾巴出现扭曲，熊的护目镜模糊，Figure 3 中背面和侧面视角模糊。这是因为它采用 Zero123 优化新视角，而 Zero123 仅以正面视角为条件，导致新视角优化倾向于预训练数据分布，可能导致潜在的外观退化 (appearance degradation)。更重要的是，当引导视频中的对象向相机移动时，DG4D 会失败。例如，青蛙在引导视频中前后移动，但 DG4D 将其解释为对象的放大和缩小。同样的情况也发生在企鹅身上，它向相机点头并前倾。这种误解通常会导致模糊效果和奇怪的外观 (appearance)。
本文方法 (Ours)： 凭借时空一致的多视角先验 (spatiotemporal consistent multi-view prior)，本文方法能够处理向相机移动的运动，如熊抬起的前爪所示（本文模型以正面视角及其正交视角作为条件视角，未在图中描绘）。此外，在生成自然运动的同时，成功地保持了给定三维对象的高质量外观 (appearance)。

6.1.3. 用户研究

以下是原文 Table 2b 的结果：

(b) Comparison via user study.
	Align. Text	Align. 3D.	Mot. Appr.	Appr.
4Dfy(Gau.) [5]	2.028	1.608	1.534	1.84
DG4D [38]	2.824	3.52	2.284	3.108
Ours	4.386	4.734	4.288	4.528

Table 2: Quantitative comparisons with state-of-the-art methods.

在 20 名用户对 25 个动态对象进行的用户研究中，本文方法在 Align. Text (与文本对齐)、Align. 3D (与三维对象对齐)、Mot. Appr. (运动质量) 和 Appr. (外观质量) 所有指标上均获得显著更高的分数 (Table 2b)。这进一步证明了本文方法的优越性。

6.1.4. 针对重建三维对象的比较

以下是对比图，展示了三种方法在不同时间点对三维模型动画效果的表现。图中包含三组3D模型（蜘蛛侠、怪兽犬、超人），分别比较了4Dfy(Gau.)、DreamGaussian4D与本文方法的动画质量差异。

该图像是对比图，展示了三种方法在不同时间点对三维模型动画效果的表现。图中包含三组3D模型（蜘蛛侠、怪兽犬、超人），分别比较了4Dfy(Gau.)、DreamGaussian4D与本文方法的动画质量差异。

Figure 7: Qualitative comparison with state-of-the-art methods on reconstructed 3D objects.

Figure 7 展示了在重建三维对象上的定性比较。4Dfy 产生的结果与给定的三维对象不一致，且几乎是静态的。DreamGaussian4D 生成的结果出现失真和模糊效果，并且有时在新视角下偏离给定对象。相比之下，本文方法能够生成既空间又时间连贯，并与输入对象一致的结果。

6.1.5. 综合对比

以下是原文 Table 4 的结果：

	I2V ↑	M. Sm. ↑	Dy. Deg.	Aest. Q. ↑	CLIP-I ↑
4Dfy [5] (4DGS)	0.783	0.996	0.0	0.497	0.786
4Dfy [5] (NeRF)	0.817	0.990	0.010	0.549	0.834
Animate124 [68]	0.845	0.986	0.313	0.563	0.845
4DGen [63]	0.833	0.994	0.187	0.453	0.776
TC4D [4]	0.856	0.992	0.830	0.565	0.859
Dream-in-4D [69]	0.938	0.994	0.0	0.551	0.895
DG4D [38]	0.898	0.986	0.477	0.529	0.860
Ours (8-frame)	0.982	0.991	0.597	0.581	0.946
Ours (16-frame)	0.983	0.991	0.750	0.572	0.937

Table 4: Comparison on 4D Generation. Note that TC4D [4] takes pre-defined object trajectory as the input.

Table 4 提供了更全面的四维生成方法比较。本文方法（8 帧和 16 帧版本）在 I2V Subject 和 CLIP-I (图像一致性) 上表现出领先的性能，表明其在保留原始三维对象外观 (appearance)方面的卓越能力。在美学质量 (Aesthetic Quality)方面，本文方法也达到最先进的 (state-of-the-art)水平。虽然在运动平滑度 (Motion Smoothness)上不如一些方法，但在动态程度 (Dynamic Degree)上（尤其是 16 帧版本）也取得了非常好的结果，优于大多数基线。这进一步支持了本文方法在生成具有高一致性、高质量外观 (appearance)和自然运动的动态三维对象方面的优越性。

6.2. 消融实验

6.2.1. 多视角视频扩散模型 (MV-VDM) 消融

以下是原文 Table 3a 的结果：

(a) Ablation of Multi-View Diffusion
	I2V ↑	M. Sm. ↑	Dy. Deg.	Aest. Q. ↑
w/o S.T. Att.	0.915	0.980	0.958	0.531
w/o Pre-train	0.910	0.981	0.944	0.531
Ours	0.935	0.988	0.710	0.532

Table 3: Ablation Studies

Table 3a 验证了所提出的时空注意力 (Spatiotemporal Attention)模块 (S.T. Att.) 和来自视频扩散模型的预训练权重 (Pre-train) 的有效性。

当移除时空注意力 (w/o S.T. Att.)时，I2V Subject、运动平滑度 (Motion Smoothness) 和美学质量 (Aesthetic Quality) 均下降。
当移除预训练权重 (w/o Pre-train)时，也观察到类似的性能下降。
Dynamic Degree 似乎有所增强，但这主要是由于不稳定失败案例的增加所致。

这表明，时空注意力模块和利用预训练视频扩散模型权重对于生成与给定多视角图像一致、并具有高质量外观 (appearance)和运动的多视角视频是必要的。

以下是论文中的实验结果的对比图，展示了不同模型设置下篮球运动员动画效果对比的示意图。左侧为输入静态模型，后续三组分别显示去除时空注意力、去除预训练和完整模型在不同时间点的动画结果，红色虚线框标出关键动作区域，以体现模型在动作细节和一致性上的改进。

该图像是论文中用于展示不同模型设置下篮球运动员动画效果对比的示意图。左侧为输入静态模型，后续三组分别显示去除时空注意力、去除预训练和完整模型在不同时间点的动画结果，红色虚线框标出关键动作区域，以体现模型在动作细节和一致性上的改进。

Figure 4: Ablation for multi-view video diffusion.

Figure 4 的定性消融进一步支持了这一点。

6.2.2. 四维对象优化消融

以下是原文 Table 3b 的结果：

(b) Ablation of 4D Generation
	I2V ↑	M. Sm. ↑	Dy. Deg.	Aest. Q. ↑
w/o SDS loss	0.978	0.990	0.657	0.572
w/o ARAP loss	0.970	0.990	0.573	0.557
Ours	0.983	0.997	0.597	0.581

Table 3: Ablation Studies

Table 3b 和 Figure 5 展示了四维对象优化的消融实验。

定量结果： Table 3b 中的定量结果表明，SDS 损失和 ARAP 损失都改善了与三维对象的对齐 (I2V Subject)、运动平滑度 (Motion Smoothness) 和美学质量 (Aesthetic Quality)。然而，Dynamic Degree 却有所下降。这可能是由于移除了漂浮物 (floaters) 和模糊效果 (blurry effects)，这些也曾被计入动态程度 (Dynamic Degree)中，如 Figure 5 所示。尽管这两个损失可能略微降低了运动幅度，但总的来说，本文认为应用它们后整体性能得到了提升。

以下是论文中的实验结果对比图，展示了在不同损失函数（SDS loss和ARAP loss）约束下，Animate3D对卡通风格小牛模型动作（抬前蹄）的动画生成效果。图中对比了输入帧与不同方法在时间点t1和t2的表现，红框突出存在的运动畸变。

该图像是一个实验结果对比的图表，展示了在不同损失函数（SDS loss和ARAP loss）约束下，Animate3D对卡通风格小牛模型动作（抬前蹄）的动画生成效果。图中对比了输入帧与不同方法在时间点t1和t2的表现，红框突出存在的运动畸变。

Figure 5: Ablation for 3D object animation.

以下是论文中的对比示意图（图7），展示了不同模型配置下多视角视频扩散模型（MV-VDM）对动态3D模型的动画效果。包含粉色恐龙、蓝色宝箱和穿巫师帽的熊猫三种动画，分别对比无时空注意力、无预训练、无ARAP损失和完整模型的表现差异。

该图像是论文中的对比示意图（图7），展示了不同模型配置下多视角视频扩散模型（MV-VDM）对动态3D模型的动画效果。包含粉色恐龙、蓝色宝箱和穿巫师帽的熊猫三种动画，分别对比无时空注意力、无预训练、无ARAP损失和完整模型的表现差异。

Figure 8: Ablations of MV-VDM and 4D optimization.

Figure 8 提供了 MV-VDM 和四维优化更详细的定性消融结果。

6.3. 网格动画 (Mesh Animation)

以下是论文中用于展示动画生成效果的示意图，包含一组木制龙头和一组可爱狗狗的多视角动画序列，分别对应“木制龙头左右摇头”和“可爱狗狗跑跳”两段描述，体现了动画3D模型的动态呈现。

该图像是论文中用于展示动画生成效果的示意图，包含一组木制龙头和一组可爱狗狗的多视角动画序列，分别对应“木制龙头左右摇头”和“可爱狗狗跑跳”两段描述，体现了动画3D模型的动态呈现。

Figure 6: Visualizations of mesh animation. We present RGB and textureless renderings of two mesh animation results. Best viewed by zooming in.

Figure 6 展示了网格动画的结果。静态网格由商业三维生成工具生成。尽管方法简单，但结果表现出令人惊讶的良好效果。

7. 总结与思考

7.1. 结论总结

本文提出了 Animate3D，一个新颖的框架，用于动画化任何现成的三维对象。Animate3D 将四维对象生成解耦为两部分：一个基础四维生成模型 MV-VDM，以及一个基于 MV-VDM 的联合 4DGS 优化管道。MV-VDM 是第一个四维基础模型，能够根据静态三维对象的多视角渲染图生成时空一致的多视角视频。为了训练 MV-VDM，本文提出了最大规模的多视角视频 (4D) 数据集 MV-Video，包含约 8.4 万个动画和超过 130 万个多视角视频。基于 MV-VDM，本文提出了一个有效的管道，通过重建和 4D-SDS 联合优化 4DGS 来动画化任何静态三维对象。Animate3D 是一个高度实用的解决方案，适用于下游四维应用，因为它能够动画化任何生成或重建的三维对象。数据、代码和预训练权重将开源发布，以促进四维生成领域的研究。

7.2. 局限性与未来工作

尽管在生成时空一致的四维对象方面表现出色，本文方法仍存在一些局限性：

动画时间较长： 动画化现有三维对象需要相对较长的时间（约 30 分钟）。
时间连贯性与运动幅度的权衡： 所提出的 MV-VDM 生成的多视角视频中，时间连贯性与运动幅度之间存在权衡。具体来说，运动幅度越大，时间不连贯的风险越高。
对真实场景的适用性： 由于合成训练数据与真实世界测试数据之间的领域差距 (domain gap)，模型有时无法动画化真实的场景。
评估指标不足： 当前四维生成领域的评估指标不够充分，主要依赖于视频生成指标和用户研究。设计更适合四维生成的指标将是重要的未来工作。

7.3. 个人启发与批判

7.3.1. 个人启发

统一监督的重要性： 本文强调了在四维生成任务中，统一的时空一致监督信号对于避免错误累积和生成高质量结果的关键作用。这对于理解复杂多模态生成任务的挑战和解决方案具有普遍指导意义。
多视角信息利用： 通过 MV2V-Adapter 机制有效利用多视角渲染图作为条件，是保留三维对象身份 (identity)和细节 (details)的有效方法。这启发了在其他需要保留多视角属性的生成任务中，可以设计类似的条件化机制。
数据驱动的基础模型： 本文通过构建大规模 MV-Video 数据集来训练 MV-VDM，体现了数据在推动复杂生成任务中基础模型发展的重要性。这表明，对于新兴的、数据稀缺的领域，高质量、大规模数据集的构建本身就是一项重要的贡献。
可扩展性与实用性： 框架能够动画化任何现成的三维模型并支持网格动画，极大地提高了其在游戏、影视、AR/VR 等工业应用中的实用价值。这种从抽象表示（如 4DGS）到具象表示（如网格）的无缝转换，是实现广泛应用的关键。

7.3.2. 批判性思考

效率问题： 尽管相比某些优化方法有所提升，但单对象 30 分钟的动画时间对于交互式或大规模应用仍可能是一个瓶颈。未来工作可能需要探索更快的优化策略，例如单步推理 (one-shot inference)或更快的蒸馏 (faster distillation)方法。
泛化能力与领域差距： 模型在合成数据上表现出色，但在真实世界场景中的表现受限于领域差距。这意味着在实际应用中，可能需要进一步的领域适应 (domain adaptation)或在更真实的四维数据集上进行训练。解决这一问题可能需要引入更多样化的训练数据或更鲁棒的跨域 (cross-domain)学习策略。
运动幅度与时间一致性的权衡： 论文指出的运动幅度与时间一致性之间的权衡是一个需要深入研究的根本性问题。这可能暗示了当前模型在捕捉高度动态且依然保持完美连贯性方面的内在挑战。未来可以探索更复杂的时空建模 (spatiotemporal modeling)技术，例如分层运动控制 (hierarchical motion control)或预测校正机制 (predictive-corrective mechanisms)，以在保持大幅运动的同时提高时间连贯性。
评估指标的完善： 论文自身也承认当前四维生成的评估指标不足。现有的视频生成指标可能无法完全捕捉四维内容的三维几何 (3D geometry)、物理真实感 (physical realism)以及用户感知 (user perception)等关键方面。设计更全面、更具鉴别力的四维专用评估指标将是该领域发展的重要推动力。
多视角视频数据集的复杂性： 虽然构建了大规模 MV-Video 数据集，但其数据来源主要来自 Sketchfab，这意味着数据可能偏向卡通或艺术风格，真实感可能不足。数据集的组成和多样性可能影响模型对不同风格和真实感对象的泛化能力。
物理模拟与交互： 目前的动画侧重于外观 (appearance)和运动风格 (motion style)，但对于复杂的物理交互（如碰撞、变形的物理规律）可能没有明确建模。在需要高真实感物理行为的应用中，这可能是一个限制。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Animate3D: Animating Any 3D Model with Multi-view Video Diffusion

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 41 分钟读完 · 25,352 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

2.3. Published at (UTC)

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.2.1. 三维生成 (3D Generation)

3.2.2. 视频生成 (Video Generation)

3.2.3. 四维生成 (4D Generation)

3.3. 差异化分析

4. 方法论

4.1. 多视角视频扩散模型 (MV-VDM)

4.1.1. 时空注意力模块 (Spatiotemporal Attention Module)

4.1.2. 多视角图像条件化 (Multi-view Images Conditioning)

4.1.3. 训练目标 (Training Objectives)

4.2. 四维高斯泼溅 (4DGS) 的重建与蒸馏

4.2.1. 四维运动场 (4D Motion Fields)

4.2.2. 粗略运动重建 (Coarse Motion Reconstruction)

4.2.3. 四维得分蒸馏采样 (4D-SDS Optimization)

4.2.4. 训练目标 (Training Objectives)

4.3. 扩展到网格动画 (Extension to Mesh Animation)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.3. 对比基线

5.4. 实现细节

5.4.1. MV-VDM 训练

5.4.2. 四维生成 (4D Generation) 优化

5.4.3. 评估数据集

5.5. 评估数据集示例

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定量比较

6.1.2. 定性比较

6.1.3. 用户研究

6.1.4. 针对重建三维对象的比较

6.1.5. 综合对比

6.2. 消融实验

6.2.1. 多视角视频扩散模型 (MV-VDM) 消融

6.2.2. 四维对象优化消融

6.3. 网格动画 (Mesh Animation)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判性思考

相似论文推荐

5.4.1. `MV-VDM` 训练