论文状态:已完成

REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder

发表:2025/03/12
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 0 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种新的视频嵌入学习方法,强调合成视觉上合理的重建而非精确复现,从而显著提升了压缩比。采用编码器-生成器架构与扩散变换器,实验显示该方法在压缩比增加时仍能保持优越的编码-解码性能,达到32倍的时间压缩比,增强了文本到视频生成的效率。

摘要

We present a novel perspective on learning video embedders for generative modeling: rather than requiring an exact reproduction of an input video, an effective embedder should focus on synthesizing visually plausible reconstructions. This relaxed criterion enables substantial improvements in compression ratios without compromising the quality of downstream generative models. Specifically, we propose replacing the conventional encoder-decoder video embedder with an encoder-generator framework that employs a diffusion transformer (DiT) to synthesize missing details from a compact latent space. Therein, we develop a dedicated latent conditioning module to condition the DiT decoder on the encoded video latent embedding. Our experiments demonstrate that our approach enables superior encoding-decoding performance compared to state-of-the-art methods, particularly as the compression ratio increases. To demonstrate the efficacy of our approach, we report results from our video embedders achieving a temporal compression ratio of up to 32x (8x higher than leading video embedders) and validate the robustness of this ultra-compact latent space for text-to-video generation, providing a significant efficiency boost in latent diffusion model training and inference.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder (REGEN:学习紧凑型视频嵌入与(重)生成解码器)

1.2. 作者

Yitian Zhang (1,2^{1,2\ddagger}), Long Mai1, Aniruddha Mahapatra1, David Bourgin1, Yicong Hong1, Jonah Casebeer1, Feng Liu1, Yun Fu2^{2}

隶属机构: 1^{1} Adobe Research 2^{2} Northeastern University

1.3. 发表期刊/会议

预印本 (arXiv)

1.4. 发表年份

2025年

1.5. 摘要

本研究提出了一种学习用于生成建模的视频嵌入器 (video embedder) 的新视角:一个有效的嵌入器不应仅仅追求对输入视频的精确复现,而应专注于合成视觉上合理 (visually plausible) 的重建。这种放宽的判据在不损害下游生成模型质量的前提下,显著提高了压缩比 (compression ratio)。具体而言,本文提出用编码器-生成器 (encoder-generator) 框架取代传统的编码器-解码器 (encoder-decoder) 视频嵌入器,该框架利用扩散 Transformer (Diffusion Transformer, DiT) 从紧凑的潜在空间 (compact latent space) 合成缺失的细节。为此,文中开发了一个专门的潜在条件模块 (latent conditioning module),用于以编码后的视频潜在嵌入 (latent embedding) 为条件来控制 DiT 解码器。实验结果表明,该方法在编码-解码性能方面优于最先进 (state-of-the-art) 的方法,尤其是在压缩比增加时。为了证明该方法的有效性,本文报告了视频嵌入器实现了高达 32 倍的时间压缩比(比领先的视频嵌入器高 8 倍),并验证了这种超紧凑潜在空间在文本到视频 (text-to-video, T2V) 生成中的鲁棒性,从而显著提高了潜在扩散模型 (latent diffusion model, LDM) 训练和推理的效率。

1.6. 原文链接

https://arxiv.org/abs/2503.08665 PDF 链接: https://arxiv.org/pdf/2503.08665v1.pdf 发布状态: 预印本

2. 整体概括

2.1. 研究背景与动机

核心问题: 现有视频生成模型中的视频嵌入器在实现高压缩比时面临挑战,尤其是在时间维度上。传统的编码器-解码器 (encoder-decoder) 架构设计目标是尽可能精确地重建输入视频,这导致在追求高压缩比时,重建质量会显著下降,因为潜在空间 (latent space) 难以保留所有细节信息。最先进 (state-of-the-art) 的视频嵌入器(如 MAGVIT-v2)通常只能实现 8×8 \times 的空间压缩和 4×4 \times 的时间压缩。

重要性与现有挑战:

  1. 效率瓶颈: 视频数据庞大,高效的潜在表示 (latent representation) 对于训练和推理大规模视频生成模型至关重要。
  2. 重建-压缩权衡 (Reconstruction-Compression Trade-off): 传统方法在提高压缩比时,重建保真度 (reconstruction fidelity) 会大幅下降,导致生成质量受损。
  3. 细节丢失: 在高压缩率下,潜在空间难以捕捉所有高频细节,导致重建视频出现伪影 (artifacts) 或不真实。

切入点或创新思路: 本文提出了一种“生成导向”的潜在表示学习新视角,认为对于潜在扩散模型 (latent diffusion model, LDM) 而言,潜在空间的关键属性是能够生成视觉上合理 (visually plausible) 的内容,而不是完全忠实地复现输入视频。这意味着解码器可以具有一定的生成能力,合成缺失的细节,从而允许编码器在潜在空间中仅保留语义和结构信息,实现更高的压缩比。

2.2. 核心贡献/主要发现

  1. 提出了编码器-生成器框架: REGEN 用一个扩散 Transformer (Diffusion Transformer, DiT) 作为解码器,取代了传统的基于变分自编码器 (Variational Autoencoder, VAE) 的编码器-解码器架构。这种设计允许视频编码目标从“精确重建”转变为“视觉上合理生成”,从而绕过了固有的压缩-重建权衡 (compression-reconstruction trade-off)。
  2. 引入了内容感知位置编码 (Content-Aware Positional Encoding) 的潜在条件模块 (Latent Conditioning Module): 该模块能够将编码后的潜在特征转化为时空控制信号,有效地指导 DiT 解码器。这不仅使得 DiT 能够编码和解码任意纵横比和分辨率的视频,而且支持少步甚至一步采样 (one-step sampling) 而无需额外的蒸馏 (distillation)。
  3. 实现了超高时间压缩比下的卓越性能: REGEN 在高压缩比下(例如,高达 32×32 \times 时间压缩)表现出优于现有视频嵌入器(包括最先进的 MAGVIT-v2)的重建性能,且性能优势随压缩比的增加而扩大。
  4. 验证了紧凑潜在空间对文本到视频 (Text-to-Video, T2V) 生成的友好性: 实验证明,REGEN 生成的超紧凑潜在空间(例如,32×32 \times 时间压缩)对 T2V 生成任务非常友好,显著降低了潜在扩散模型训练和推理的计算成本,实现了潜在帧数量约 5×5 \times 的减少。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 扩散模型 (Diffusion Models, DMs)

概念定义: 扩散模型是一类生成模型,其灵感来源于非平衡热力学。它们通过一个正向扩散过程 (forward diffusion process) 逐步向数据添加噪声,然后学习一个逆向去噪过程 (reverse denoising process) 来从纯噪声中恢复原始数据。在生成阶段,模型从随机噪声开始,通过学习到的逆向过程逐步去噪,最终生成高质量的数据样本。

目的与工作方式: 扩散模型旨在学习复杂数据分布的表示,并能够生成与训练数据相似的新样本。正向过程将数据 x0x_0 逐渐转化为高斯噪声 xTx_T,通过一系列小步长添加高斯噪声。逆向过程则学习如何从 xtx_t 预测噪声并还原到 xt1x_{t-1},最终得到去噪后的 x0x_0

3.1.2. 潜在扩散模型 (Latent Diffusion Models, LDMs)

概念定义: 潜在扩散模型是为了提高扩散模型在处理高分辨率数据时的计算效率而提出的。与直接在像素空间 (pixel space) 中进行扩散不同,LDMs 首先使用一个编码器将高维数据(如图像或视频)压缩到一个更低维的、语义丰富的潜在空间 (latent space)。扩散过程和逆向去噪过程都在这个潜在空间中进行。最后,使用一个解码器将潜在空间的去噪结果转换回原始的像素空间。

作用: 潜在扩散模型显著降低了扩散过程的计算复杂性,使得训练和推理大规模高分辨率生成模型成为可能,同时仍能保持生成内容的质量。

3.1.3. 编码器-解码器 (Encoder-Decoder) 架构

概念定义: 编码器-解码器架构是一种常见的神经网络结构,广泛应用于序列到序列 (sequence-to-sequence) 任务和数据压缩等领域。

  • 编码器 (Encoder): 负责将输入数据(例如,图像、视频帧序列)转换或压缩成一个紧凑的中间表示,通常称为潜在表示 (latent representation) 或嵌入 (embedding)。这个表示旨在捕捉输入的核心信息和语义特征。

  • 解码器 (Decoder): 负责接收编码器生成的潜在表示,并将其恢复或转换为目标输出(例如,原始数据重建、新的序列或图像)。

    传统用途: 在传统的自编码器 (Autoencoder) 中,解码器的目标是尽可能精确地重建编码器的输入。

3.1.4. 扩散 Transformer (Diffusion Transformer, DiT)

概念定义: 扩散 Transformer 是一种将 Transformer 架构应用于扩散模型去噪骨干网络 (denoiser backbone) 的方法。传统的扩散模型通常使用 U-Net 结构作为去噪器,而 DiT 则将输入(带噪声的潜在表示、时间步嵌入、条件信息)转化为序列化的 patch (图像块) 嵌入,然后通过 Transformer 模块处理这些序列,最后再将输出转换回空间维度以预测噪声。

优势: Transformer 结构具有强大的序列建模能力和可扩展性,使得 DiT 在处理高维数据和捕捉长距离依赖方面表现出色,并被证明在视频生成等任务中优于基于 U-Net 的扩散模型。

3.1.5. 时空压缩 (Spatiotemporal Compression)

概念定义: 时空压缩是指在两个维度上同时减少数据量:

  • 空间压缩 (Spatial Compression): 减少单帧图像的像素数量或信息量,例如通过下采样 (downsampling) 或特征提取。

  • 时间压缩 (Temporal Compression): 减少视频帧的采样率或帧数,例如通过只保留关键帧或对帧序列进行抽象表示。

    目标: 在视频处理中,时空压缩的目标是在保持视觉质量的前提下,最小化存储和处理视频所需的计算资源。

3.1.6. 内容感知位置编码 (Content-Aware Positional Encoding)

概念定义: 传统的 Transformer 模型使用固定的位置编码 (positional encoding) 来注入序列中元素的位置信息,这有助于模型理解元素的顺序和相对距离。然而,固定的位置编码难以泛化到训练时未见过的输入尺寸。内容感知位置编码则是一种动态生成位置编码的方法,它根据输入内容或潜在特征来调制位置信息。

本文中的实现: 在 REGEN 中,它利用视频的潜在内容和运动信息来生成位置嵌入,从而使解码器能够处理任意分辨率和纵横比的视频,并更好地捕获时空结构。

3.1.7. 隐式神经表示 (Implicit Neural Representation, INR)

概念定义: 隐式神经表示使用神经网络来表示连续的信号(如图像、3D 形状、视频等)。与传统的离散表示(如像素网格)不同,INR 将坐标作为输入,输出该坐标处对应的信号值(如像素颜色、密度)。这意味着数据不再以显式网格存储,而是通过一个连续函数(神经网络)来表示。

优势: INR 能够表示任意分辨率的信号,并且在插值、外推和处理连续域数据方面具有优势。SIREN (Sinusoidal Representation Networks) 是一种特殊的 INR,使用正弦激活函数来更好地捕捉高频细节。

3.2. 前人工作

3.2.1. MAGVIT-v2 (Masked Generative Video Transformer v2)

MAGVIT-v2 [46] 是一种用于视频标记化 (video tokenization) 的最先进方法,它利用因果 3D 卷积 (causal 3D convolutions) 在空间和时间维度上进行压缩。它最初是为离散标记化 (discrete tokenization) 设计的,但后来也被用于连续标记化 (continuous tokenization),并集成到许多著名的视频扩散模型中。MAGVIT-v2 在视频嵌入器领域具有代表性,但其时间压缩比通常有限(例如,4×4 \times)。本文将 MAGVIT-v2 作为重要的基线进行比较。

3.2.2. 扩散自编码器 (Diffusion Autoencoders)

本文的工作受到一些图像扩散模型研究的启发 [3, 17, 32],这些研究表明图像扩散模型可以根据从条件图像中提取的抽象特征向量生成内容。例如,[32] 表明图像扩散模型可以进行语义引导,类似于 StyleGAN 中的风格代码操作;[3] 验证了生成式解码器带来的改进;[17] 强调了从条件特征向量重建图像的能力。REGEN 将这种潜在条件扩散 (latent-conditioning diffusion) 概念扩展到视频嵌入器学习的背景下,并首次探索了扩散 Transformer 自编码器在学习高度紧凑视频潜在空间中的应用。

3.3. 技术演进

早期视频扩散模型通常直接适配图像潜在扩散模型 (LDMs),使用相同的图像嵌入器对帧进行潜在特征提取 [2, 9, 12, 26, 35, 44]。这种逐帧 (frame-wise) 方法忽略了时间关系,导致视频内部不一致,并限制了视频潜在空间的紧凑性。为了解决这个问题,研究人员开始开发时空嵌入器 (spatiotemporal embedders),如 MAGVIT-v2 [46],它们能够联合处理空间和时间维度,提供更高效的压缩。然而,这些方法在时间压缩方面仍然存在局限。

REGEN 的工作正处于这个技术演进的浪潮中,旨在通过引入一个生成式解码器来打破传统嵌入器在重建保真度与压缩比之间的权衡,从而进一步提高视频潜在空间的紧凑性,特别是时间压缩比。通过利用 DiT 的强大生成能力和内容感知位置编码,REGEN 克服了现有方法的限制,并为更高效的视频生成模型铺平了道路。

3.4. 差异化分析

REGEN 与现有视频嵌入器的核心区别在于其解码器的性质和目标:

  • 传统编码器-解码器: 以 MAGVIT-v2 为代表,其解码器主要关注精确重建输入视频。这使得在追求高压缩比时,潜在空间需要保留大量细节信息,从而导致重建质量下降。
  • REGEN 的编码器-生成器: REGEN 将解码器替换为扩散 Transformer (DiT),并将其目标调整为“合成视觉上合理而非精确复现的重建”。这意味着编码器可以更积极地压缩数据,只保留视频的语义和结构信息,而将细节的恢复和合成交给强大的生成式 DiT 解码器。
  • 高压缩比下的性能: 这种差异使得 REGEN 在高时间压缩比(例如 32×32 \times)下,能够显著超越传统方法,而传统方法在此情况下会产生明显的伪影 (artifacts) 和质量下降。
  • 泛化能力: REGEN 引入的内容感知位置编码解决了 DiT 在传统固定位置编码下难以泛化到训练时未见分辨率和纵横比的问题,使其在实际应用中更具灵活性。

4. 方法论

4.1. 方法原理

REGEN 的核心思想是,对于潜在扩散模型 (LDM) 中的视频嵌入器 (video embedder),其解码器的目标不应是像素级别的精确重建 (exact reproduction),而是生成视觉上合理 (visually plausible) 的高质量视频。通过放宽这个重建目标,编码器可以实现更高的压缩比,只负责捕捉视频的本质语义和结构信息。解码器则利用其生成能力,基于这些紧凑的潜在表示来合成高质量的细节。为此,REGEN 将传统的编码器-解码器 (encoder-decoder) 架构替换为一个编码器-生成器 (encoder-generator) 框架,其中生成器是一个强大的扩散 Transformer (DiT)。

4.1.1. 整体框架

REGEN 的整体框架如图 Figure 2 所示。

fig 15 该图像是一个示意图,展示了基于扩散变换器的编码器-生成器框架的结构。在该框架中,输入视频经过编码器E进行处理,并生成潜在向量zcz_czmz_m,然后传入扩散变换器模块进行细节合成,输出目标视频xtargetx_{target}。整体结构体现了如何通过压缩潜在空间来提升编码-解码性能。

Figure 2. Overall framework. Our spatiotemporal video encoder E()E(\cdot) encodes the input video xinputx_{input} into two latent frames, content and motion (zc,zm)(z_c,z_m). They are processed by the latent expansion module CeC_e and serve as conditioning for the generative decoder.

  • 时空视频编码器 (EE): 将输入视频 xinputx_{input} 编码为两个紧凑的潜在帧:内容潜在帧 (zcz_c) 和运动潜在帧 (zmz_m)。

  • 潜在扩展模块 (CeC_e): 处理 zcz_czmz_m,并将其转换为生成解码器所需的条件信号。这个模块是本文提出的内容感知位置编码的核心。

  • 生成解码器 (GdG_d): 一个基于 DiT 的模型,以潜在扩展模块的输出作为条件,从噪声序列中生成目标视频 xtargetx_{target}。在重建任务中,xtargetx_{target}xinputx_{input} 相同。

    整个模型在扩散目标下进行端到端的训练。

4.2. 核心方法详解

4.2.1. 时空视频编码器 (Spatiotemporal Video Encoder)

编码器的目标是将输入视频编码到一个紧凑的潜在空间。本文采用类似于 MAGVIT-v2 [46] 的连续版本编码器设计,因为它能够以一致的潜在空间编码图像和视频。

  • 架构: 编码器由多个 3D 卷积块组成,这些卷积块在时间维度上具有因果性 (causal)。
  • 压缩机制: 对于一个长度为 T+1T+1 帧、尺寸为 H×WH \times W 的视频,在空间下采样因子为 mm 和时间下采样率 kk 的作用下,编码器会生成一个包含 1+Tk1 + \frac{T}{k} 个潜在特征图的序列,每个特征图的尺寸为 Hm×Wm\frac{H}{m} \times \frac{W}{m}
  • 分块编码 (Chunk-wise Encoding): 为了灵活且避免内存溢出地编码长视频,REGEN 采用分块编码方案。对于每个固定长度的输入视频块 (chunk) xinputx_{input}(长度为 k+1k+1 帧),编码器将其编码为两个潜在帧: zc,zm=E(xinput)(1) z_{c}, z_{m} = E(x_{input}) \quad (1)
    • zcz_c:内容潜在帧 (content latent frame)。由于编码器的因果性质,zcz_c 仅包含第一帧的信息。
    • zmz_m:运动潜在帧 (motion latent frame)。包含其余帧的压缩运动信息。
  • 潜在通道数: 在所有实验中,zcz_czmz_m 都使用 8 个潜在通道 (latent channels),以隔离时间压缩比增加对重建质量的影响。

4.2.2. 扩散 Transformer 解码器 (Diffusion Transformer Decoder)

与传统的基于卷积的解码器不同,REGEN 使用 Transformer [41] 模型将解码任务视为一个条件扩散过程 (conditional diffusion process)。

  • 条件扩散过程: 给定输入视频序列 xinputx_{input} 及其对应的内容和运动潜在表示 (zc,zmz_c, z_m),生成解码器 GdG_d 被训练来从噪声图序列 NN 中生成目标视频 xtargetx_{target},条件为 [zc,zm][z_c, z_m]。对于重建任务,xtargetx_{target} 被选择为与 xinputx_{input} 相同。
  • 灵活性: 这种公式化允许更灵活地定义 xtargetx_{target},以处理纯重建以外的不同任务。例如,将 xtargetx_{target} 设置为 xinputx_{input} 的时间上采样版本对应于建模时间插值 (temporal interpolation),而设置为 xinputx_{input} 的时间偏移版本则导致时间外推 (temporal extrapolation)。
  • 正向扩散过程: 在训练期间,通过正向扩散过程对干净数据 xtargetx_{target}(在扩散噪声时间步 t=0t=0 时表示为 xtarget0x_{target}^{0})添加噪声: q(xtargettxtarget0)=N(xtargett;αˉtxtarget0,(1αˉt)I)(2) q(x_{target}^{t}|x_{target}^{0}) = \mathcal{N}(x_{target}^{t};\sqrt{\bar{\alpha}_t}x_{target}^{0},(1 - \bar{\alpha}_t)I) \quad (2) 其中 tt 是扩散时间步,αˉt\bar{\alpha}_t 由噪声调度过程 [24] 确定。在时间步 tt 的样本通过重参数化技巧获得: xtargett=αˉtxtarget0+1αˉtϵ(3) x_{target}^{t} = \sqrt{\bar{\alpha}_t}x_{target}^{0} + \sqrt{1 - \bar{\alpha}_t}\epsilon \quad (3) 其中 ϵN(0,I)\epsilon \sim \mathcal{N}(0,I) 是标准正态分布的噪声。
  • 逆向去噪过程与学习目标: 在逆向去噪过程中,生成解码器学习在条件 [zc,zm][z_c, z_m] 下反转正向损坏。具体而言,训练一个参数为 θ\theta 的去噪模型 ϵθ\epsilon_{\theta} 来预测在每个时间步 tt 的噪声 ϵ\epsilon,给定对应的带噪声版本 xtargettx_{target}^{t},并以 [zc,zm][z_c, z_m] 为条件。其简化的学习目标为: L(θ)=ϵϵθ(xtargett,[zc,zm])2(4) \mathcal{L}(\theta) = \left|\left|\epsilon -\epsilon_{\theta}(x_{target}^{t},[z_{c},z_{m}])\right|\right|^{2} \quad (4) 在此公式下,视频编码器与生成解码器以端到端 (end-to-end) 的方式进行训练。
  • DiT 骨干网络: 解码器利用 DiT 架构作为去噪器骨干网络,因为它相比 U-Net 具有卓越的建模和扩展能力 [21, 28, 30, 50]。解码器在像素空间 (pixel space) 中操作,patch (图像块) 大小为 pp。patch 大小 pp 根据编码器中的空间下采样率确定,在实验中设置为 p=8p=8

4.2.3. 通过内容感知位置编码进行潜在条件化 (Latent Conditioning via Content-Aware Positional Encoding)

传统 Transformer 模型通常使用固定的时空位置编码 (spatiotemporal positional encoding, PE) 作为额外输入。这种固定 PE 方案难以泛化到训练时未见过的输入尺寸 [45],这对于作为解码器的 DiT 来说尤其成问题,因为它需要解码从不同分辨率和纵横比输入中提取的潜在表示。

核心思想: REGEN 引入了一种新的条件机制来解决这个问题:从条件潜在表示 [zc,zm][z_c, z_m] 生成位置嵌入,而不是使用固定的空间 PE。

  • 潜在扩展模块 (CeC_e): 该模块接收条件 [zc,zm][z_c, z_m] 作为输入,并将其扩展为与目标输出 xtargetx_{target} 具有相同空时维度 (spatiotemporal dimension) 的扩展潜在表示 zez_ezez_e 随后被添加到 token 嵌入和时间步嵌入中,作为 DiT 的输入。通过这种方式,CeC_e 作为一个迷你解码器,将潜在表示解码为完整的时空形式,而 zez_e 则作为内容感知位置嵌入,参与控制合成视频的时空方面。

    Figure 3 展示了潜在条件模块 CeC_e 的详细结构:

    fig 22 该图像是示意图,展示了视频嵌入过程中不同模块的关系及其功能。左侧显示了两个输入特征图zc(x,y)z_c(x,y)zm(x,y)z_m(x,y),通过调制后与四ier特征结合,生成中间特征MtM_t。最终,通过通道级连接(Channel-wise Concatenation),生成压缩嵌入ze(x,y,tf)z_e(x,y,t_f),并与结构MsM_s进行关联,显示出视频嵌入的处理流程。

    Figure 3. Latent conditioning module CeC_{e}. The SIREN network MtM_{t} maps the time coordinate tft_{f} to a feature vector modulated by the motion latent zmz_{m}. The resulting feature is concatenated with the feature value of zcz_{c} at the corresponding spatial coordinate (x,y). The concatenated feature is mapped into the DiT hidden dimension by the projector MsM_{s}. We utilize the first frame prediction from SIREN to replace the first frame of expanded zcz_{c} to ensure consistent representation for both image and video inputs.

  • 映射定义: CeC_e 的设计目的是将 DiT 输入空间中 token 位置的坐标 (x,y,tf)(x,y,t_f)(经过 patch 化后)映射到一个嵌入向量,其中该映射以 [zc,zm][z_c, z_m] 为条件: Ce(x,y,tf[zc,zm])=Ms(zc(x,y)Mt(tfzm(x,y)))(5) C_e(x,y,t_f|[z_c,z_m]) = M_s(z_c(x,y) \otimes M_t(t_f|z_m(x,y))) \quad (5)

    • \otimes:表示通道级联 (channel-wise concatenation) 操作。
    • (x,y) 坐标:在 DiT 输入空间中的 (x,y) 坐标与特征图 [zc,zm][z_c, z_m] 中的坐标匹配,因为 patch 大小与空间下采样因子相匹配。
    • MsM_s:一个投影器 (projector),用于对齐通道维度。它由一个线性层和一个 RMSNorm [47] 组成。
    • MtM_t:一个神经网络子模块,将时间坐标 tft_f 映射到一个特征向量。
  • SIREN 实现 MtM_t 受到隐式神经表示 (Implicit Neural Representation, INR) 在建模视频数据 [6, 27] 方面成功的启发,MtM_t 使用 SIREN [36] 实现。

  • 运动特征调制: MtM_t 中的映射以运动特征 zmz_m 为条件,通过在查询的 (x,y) 位置调制 SIREN 网络。

  • 去除固定 PE: 通过这种方式,位置信息被集成到扩展的潜在表示中,从而可以完全移除 DiT 中原始的空间和时间位置编码,使生成解码器能够泛化到任意分辨率和纵横比。

  • 图像/视频一致性: 为了确保图像和视频输入的一致表示,REGEN 利用 SIREN 的第一帧预测来替换扩展 zcz_c 的第一帧。

5. 实验设置

5.1. 数据集

  • 视频嵌入器训练: 包含 1500 万个视频和 3 亿张图片。
  • 文本到视频 (Text-to-Video, T2V) 生成: 图像资源保持不变,并利用 100 万个视频构建数据集。
  • 分辨率: 图像分辨率为 256×256256 \times 256,具有各种纵横比;所有视频分辨率均为 192×320192 \times 320
  • 评估基准:
    • MCL-JCV [42]: 视频质量评估数据集。
    • DAVIS 2019 (full resolution) [5]: 视频数据集。 在评估时,视频被重新缩放和中心裁剪为 256×256256 \times 256512×512512 \times 512 分辨率。

5.2. 评估指标

本文采用标准定量指标 PSNR (Peak Signal-to-Noise Ratio)、SSIM (Structural Similarity Index Measure) 和 rFVD (Fréchet Video Distance) 来评估重建质量,涵盖了基于像素和感知质量的指标。

5.2.1. 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)

概念定义: PSNR 是一种衡量图像或视频重建质量的指标,通过比较原始图像与重建图像之间的像素差异来量化。它通常以分贝 (dB) 为单位表示,值越高表示重建质量越好(失真越小)。PSNR 敏感于像素级的误差,因此主要衡量图像的绝对误差。

数学公式: PSNR=10log10(MAXI2MSE) \text{PSNR} = 10 \cdot \log_{10} \left( \frac{\text{MAX}_I^2}{\text{MSE}} \right) 其中,MSE (Mean Squared Error) 为均方误差,定义为: MSE=1mni=0m1j=0n1[I(i,j)K(i,j)]2 \text{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2

符号解释:

  • PSNR\text{PSNR}:峰值信噪比。
  • MAXI\text{MAX}_I:图像中像素的最大可能值。对于 8 位灰度图像,MAXI=255\text{MAX}_I = 255
  • m, n:图像的行数和列数(或视频帧的行数和列数)。
  • I(i,j):原始图像在坐标 (i,j) 处的像素值。
  • K(i,j):重建图像在坐标 (i,j) 处的像素值。
  • MSE\text{MSE}:均方误差。

5.2.2. 结构相似性指数 (Structural Similarity Index Measure, SSIM)

概念定义: SSIM 是一种感知指标,旨在更好地模拟人类视觉系统对图像质量的感知。它不仅考虑像素级的差异,还考虑图像的亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面的相似性。SSIM 值介于 -1 和 1 之间,通常为正值,越接近 1 表示两幅图像越相似。

数学公式: SSIM(x,y)=[l(x,y)]α[c(x,y)]β[s(x,y)]γ \text{SSIM}(x,y) = [l(x,y)]^{\alpha} \cdot [c(x,y)]^{\beta} \cdot [s(x,y)]^{\gamma} 通常情况下,α=β=γ=1\alpha = \beta = \gamma = 1,则简化为: SSIM(x,y)=(2μxμy+C1)(2σxy+C2)(μx2+μy2+C1)(σx2+σy2+C2) \text{SSIM}(x,y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}

符号解释:

  • SSIM(x,y)\text{SSIM}(x,y):图像 xxyy 之间的结构相似性指数。
  • μx,μy\mu_x, \mu_y:图像 xxyy 的平均像素值。
  • σx2,σy2\sigma_x^2, \sigma_y^2:图像 xxyy 的方差。
  • σxy\sigma_{xy}:图像 xxyy 的协方差。
  • C1=(K1L)2,C2=(K2L)2C_1 = (K_1 L)^2, C_2 = (K_2 L)^2:用于避免分母为零的常数。LL 是像素值的动态范围(例如,8 位图像为 255)。K1,K2K_1, K_2 是通常取小值(如 0.01, 0.03)的常数。

5.2.3. Fréchet 视频距离 (Fréchet Video Distance, rFVD)

概念定义: rFVD 是一种衡量生成视频质量的指标,它评估生成视频分布与真实视频分布之间的相似性。rFVD 通过比较两个视频集合在特征空间中的 Fréchet 距离来量化它们的相似性,通常使用预训练的深度神经网络(如 Inception 网络)提取特征。rFVD 值越低,表示生成视频的质量越接近真实视频。

数学公式: 对于两个多变量高斯分布 XN(μX,ΣX)X \sim \mathcal{N}(\mu_X, \Sigma_X)GN(μG,ΣG)G \sim \mathcal{N}(\mu_G, \Sigma_G),Fréchet 距离定义为: d2(X,G)=μXμG22+Tr(ΣX+ΣG2(ΣXΣG)1/2) d^2(X,G) = ||\mu_X - \mu_G||_2^2 + \text{Tr}(\Sigma_X + \Sigma_G - 2(\Sigma_X \Sigma_G)^{1/2}) rFVD [10, 40] 扩展了 FID (Fréchet Inception Distance) 到视频领域,通常使用预训练的视频特征提取器(如 I3D)提取视频特征,然后计算这些特征分布之间的 Fréchet 距离。

符号解释:

  • 22||\cdot||_2^2:L2 范数的平方。
  • μX,μG\mu_X, \mu_G:真实视频和生成视频特征分布的均值向量。
  • ΣX,ΣG\Sigma_X, \Sigma_G:真实视频和生成视频特征分布的协方差矩阵。
  • Tr()\text{Tr}(\cdot):矩阵的迹 (trace)。

5.3. 对比基线

  • MAGVIT-v2 [46] (重新实现版): 作为最先进的视频嵌入器,本文重新实现并训练了 MAGVIT-v2,以确保公平比较。对于高压缩比实验,MAGVIT-v2 的设计也进行了调整以处理不同的时间压缩率。
  • OmniTokenizer [43]: 联合图像-视频标记器。
  • WF-VAE [22]: 增强视频 VAE 的方法。
  • VidTok [38]: 通用开源视频标记器。
  • 其他比较(在附录中): Cosmos-Tokenizer [1], LTX-Video [11], Open-SORA (OS) [50], Open-SORA-Plan (OSP) [21], CV-VAE [49]。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. REGEN 在高时间压缩比下的有效性

本文的主要目标是验证基于扩散的编码器-生成器框架能否在极高时间压缩比下学习到紧凑的潜在空间,并有效重建输入视频,超越传统视频嵌入器。

以下是原文 Table 1 的结果:

MCL-JCVDAVIS 2019
256×256512×512256×256512×512
PSNRSSIIMrFVD↓PSNRSSIIMrFVD↓PSNRSSIIMrFVD↓PSNRSSIIMrFVD↓
● MAGVIT-v2
● REGEN
8×8×826.61
28.82
0.718
0.785
105.72
85.37
29.14
32.74
0.771
0.846
72.07
29.88
22.82
26.00
0.602
0.711
183.52
152.46
24.75
29.34
0.660
0.778
125.03
89.98
- MAGVIT-v2
● REGEN
8×8×1625.06
27.27
0.672
0.736
205.75
174.29
26.62
30.41
0.717
0.798
185.69
92.48
20.62
23.85
0.527
0.635
441.24
328.83
21.21
26.27
0.572
0.699
417.43
235.13
● MAGVIT-v2
● REGEN
8×8×3222.97
26.05
0.573
0.695
536.01
265.96
<fcel↑
28.71
0.758<fcel↑
224.56
18.23
22.20
0.419
0.575
1080.15
488.89
<fcel↑
23.49
<fcel↑
0.625

Table 1. Reconstruction comparison at high temporal compression. We compare our method, REGEN, with MAG-VT-2 at different compression rates on MCL-JCV and DAVIS 209 datasets. The best resuts are bold-faced. , MAGVIT-v2 (32x) faces out of memory issue at 512×512\mathbf {512}\times \mathbf {512}, due to the 3D convolution layers in decoder.

分析:

  • REGEN 性能优势显著: 在所有时间压缩比 (temporal compression rates) 下(8×8×88 \times 8 \times 8, 8×8×168 \times 8 \times 16, 8×8×328 \times 8 \times 32),REGEN 在 MCL-JCV 和 DAVIS 2019 数据集上的所有指标 (PSNR, SSIM, rFVD) 上均优于 MAGVIT-v2。

  • 优势随压缩比增加而扩大: 随着时间压缩比的增加,REGEN 相对于 MAGVIT-v2 的优势更加明显。例如,在 32×32 \times 时间压缩比下,MAGVIT-v2 在 512×512512 \times 512 分辨率时甚至会出现内存不足 (out of memory) 的问题,无法提供完整数据,而 REGEN 仍能稳定运行并提供高质量重建。rFVD 指标的巨大差距(例如,在 MCL-JCV 256×256256 \times 256 下,MAGVIT-v2 为 536.01,REGEN 为 265.96)尤其表明 REGEN 生成的视频在感知质量上更接近真实。

  • 传统方法的局限性: 这表明简单地将传统视频嵌入器扩展到高压缩率无法获得令人满意的结果,突出了 REGEN 解码器生成能力的重要性。

    以下是原文 Figure 4 的结果,直观展示了在高时间压缩比下 MAGVIT-v2 的缺陷:

    fig 21 该图像是一个对比示意图,展示了在16倍和32倍压缩下的视频嵌入效果。左侧为参考图,右侧为两种方法的结果,MAGVIT-v2 和我们的方案,其中我们的方案在细节合成上表现出明显优势。

    Figure 4. Effectiveness of REGEN at high temporal compression. MAGVIT-v2 suffers from strong temporal artifacts in regions of high motion, such as the dog's face (left) and the toy (right). Areas enclosed in boxes show regions of maximum difference.

    视觉分析:

  • Figure 4 定性地展示了在高时间压缩比下,MAGVIT-v2 在高运动区域(如狗的脸和玩具)出现明显的时空伪影 (temporal artifacts)。相比之下,REGEN 仍然能够很好地保持重建能力。这证实了 REGEN 的生成解码器能够更好地合成缺失的细节,即使在潜在空间高度紧凑的情况下。

6.1.2. 与基准 4×4 \times 时间压缩比下最先进方法的比较

尽管 REGEN 的主要目标是实现更高的时间压缩,但论文也在 8×8×48 \times 8 \times 4 的基本压缩比下与现有的 8 通道视频嵌入器进行了比较。

以下是原文 Table 2 的结果:

MethodMCL-JCVDAVIS 2019
PSNRSSIMrFVD↓PSNRSSIMrFVD↓
●Omni24.630.71093.3523.390.628152.01
●WF-VAE31.000.80455.0127.950.737107.67
●VidTok32.060.83638.8528.670.76067.24
●MAGVIT-v231.490.82928.6328.160.75856.46
●REGEN32.940.85722.4030.250.80148.38

Table 2. Reconstruction comparison at base 4×4 \times temporal compression. We compare REGEN with various SOTA 8-channel video embeddlers at 4×4 \times temporal compression on MCL-JCV and DAVIS 2019 datasets under 512×512512 \times 512 inputs. The best results are bold-faded and the second best results are underlined.

分析:

  • REGEN 仍保持领先:4×4 \times 时间压缩比下,REGEN 在 MCL-JCV 和 DAVIS 2019 数据集的所有指标上仍然优于所有其他最先进方法 (OmniTokenizer, WF-VAE, VidTok, MAGVIT-v2)。这表明 REGEN 的方法不仅适用于高压缩场景,在常规压缩比下也能提供卓越的性能。

  • 验证实验设置的合理性: 论文中重新实现的 MAGVIT-v2 性能与最新的最先进方法相当,证明了实验设置的合理性。

    以下是原文 Figure 5 的结果,直观展示了在基准 4×4 \times 时间压缩比下不同方法的重建质量:

    fig 14 该图像是一个比较不同视频嵌入方法的示意图,包括 Reference、OmniTokenizer、WF-VAE、VidTok、MAGVIT-v2 和本研究的 Ours 方法。在每一行中,给出了不同方法对同一帧视频的重建效果,以比较其在视频压缩和重建质量上的表现。

    Figure 5. Effectiveness of REGEN at base 4×4 \times temporal compression. Current video embedders suffer from ghosting artifacts for videos with large motion, especially in faces (last row). REGEN performs well and retains plausible spatiotemporal structures from the input.

    视觉分析:

  • Figure 5 展示了定性比较,尤其是在人脸等大运动区域。其他基于卷积的嵌入器在 4×4 \times 压缩比下难以准确重建,表现出重影伪影 (ghosting artifacts)。而 REGEN 能够更好地保留输入视频的时空结构,特别是人脸细节。

6.1.3. 文本到视频生成 (Text-to-Video Generation)

论文验证了 REGEN 产生的紧凑潜在空间是否有利于文本到视频 (T2V) 生成,这是学习紧凑潜在空间的最终目标。

  • 实验设置: 训练了一个 5B 参数的 DiT-based 潜在扩散模型,在 32×32 \times 时间压缩的超紧凑潜在空间上进行 T2V 生成。模型设计基于 MMIDiT [8]。首先用图像输入训练 260K 迭代,然后用混合图像和视频输入额外训练 80K 迭代。

  • 结果: 即使是小规模训练,该扩散模型也能在更紧凑的潜在空间上生成合理的视频内容。

  • 效率提升: 潜在扩散模型在 REGEN 的超紧凑潜在空间上,仅使用 8 个潜在帧就能生成 132 帧的视频(32×32 \times 时间压缩),这比使用 4×4 \times 时间压缩的当前视频嵌入器减少了约 5 倍的潜在帧数量,显著降低了训练和推理成本。

    以下是原文 Figure 6 的结果,展示了 T2V 生成的示例:

    fig 13 该图像是图6,展示了在超紧凑潜在空间中使用32倍时间压缩的文本到视频生成结果。左侧图(a)显示了在不同采样步骤下的示例重建结果,而右侧图(b)(c)则提供了在MCL-JCV和DAVIS 2019上的定量结果,强调了潜在空间对视频嵌入性能的提升。

    Figure 6. Text-to-video generation results on our ultra-compact latent space with 32×32 \times temporal compression. The latent diffusion model generates 132-frame videos with only 8 latent frames on our ultra-compact latent space, offering 5×\sim 5 \times reduction in the number of latent frames compared to current video embedders at 4×4 \times temporal compression.

6.1.4. 讨论:效率、泛化与分块问题

a. 少步采样和一步采样 (Few-step and One-step Sampling) 扩散模型通常需要多个去噪步骤,导致推理成本高。

以下是原文 Figure 7 的结果,展示了不同采样步数下的重建性能:

fig 12 该图像是图表,展示了基于不同提示生成的视频内容,包括1980年代厨房中的鸵鸟和优胜美地国家公园日落时的El Capitan。这些示例说明了新方法在合成内容方面的有效性和多样性。

Figure 7. Reconstruction results at different sampling steps. Dash lines in (b) and (c) denote the PSNR and rFVD of MAGVIT-v2. Our method exhibits strong performance across varying sampling steps and supports few-step and even single-step sampling.

分析:

  • REGEN 在不同采样步数下都表现出强大的性能,支持少步采样甚至一步采样。
  • 定性结果(a)显示,即使在低采样步数下,REGEN 也能产生高质量的重建。
  • 定量结果(b, c)表明,更多的采样步数略微降低 PSNR,但改善 rFVD 分数,这可能归因于重建视频的锐度 (sharpness) 增加。
  • REGEN 的扩散解码器提供了灵活的解码方案,即使不使用外部蒸馏 (distillation),也能像前馈模型一样运行,具有实际应用潜力。

b. 条件机制的消融实验 (Ablation of Conditioning Mechanism) 传统 Transformer 难以泛化到训练时未见的分辨率和纵横比。

以下是原文 Table 3 的结果:

Method192×320384×640
PSNRSSIMrFVD↓PSNRSSIMrFVD↓
In-context25.710.709135.8923.390.587441.98
Ours26.040.720128.8029.410.78557.01

Table 3. Ablation of conditioning mechanism on DAVIS 2019 dataset. In-context conditioning exhibits inferior performance compared to ours at the training resolution and cannot generalize well to unseen resolutions. The best results are bold-faced.

分析:

  • 内容感知位置编码的优势: 通过将 REGEN 的条件模块替换为 DiT [31] 中使用的上下文条件设计(保持固定 PE 方案),发现在训练分辨率下,“上下文条件”性能较差。

  • 泛化能力对比: 在评估训练时未见过的高分辨率 (384×640384 \times 640) 时,“上下文条件”方法出现了严重的网格伪影 (gridding artifacts),功能严重受损。而 REGEN 的方法则表现出强大的泛化能力。这证实了内容感知位置编码使得 REGEN 固有的灵活地适应不同的纵横比和分辨率。

    以下是原文 Figure 8 的结果,展示了不同空间分辨率下的视频帧重建:

    fig 16 该图像是展示了两种视频插值条件的方法对比:左侧为使用固定位置编码的上下文条件,右侧为采用内容感知位置编码的潜在条件方法(我们的方法)。画面中有两只小狗,左侧的小狗的细节较少,而右侧的小狗则展现了更丰富的细节。

    Figure 8. Video frame reconstruction at different spatial resolutions. The models are trained under 192×320192 \times 320 input and evaluated at the resolution of 192×320192 \times 320 (pink bounding boxes) and 384×640384 \times 640 (blue bounding boxes). In-context conditioning results in gridding artifacts at a larger resolution, while our method exhibits strong generalization due to the proposed content-aware PE.

    视觉分析:

  • Figure 8 清晰地展示了“上下文条件”在更高分辨率下产生明显的网格伪影,而 REGEN 具有强大的泛化能力,没有这类问题。

c. 缓解分块问题 (Alleviating the Chunking Issue) REGEN 像其他传统视频嵌入器一样,有时会在两个视频块 (chunk) 的交界处出现轻微的跳跃 (jumps),这是由于分块编码方案造成的。

  • 解决方案: 论文利用解码器的外推能力来缓解这个问题。根据 SDEdit [29] 的思想,使用前一个视频块的预测最后一帧来指导下一个视频块的生成,从而更好地对齐连续的视频块,并以自回归 (autoregressive) 方式减少跳跃。

  • 效果: 潜在扩展策略减轻了跳跃现象,并在视频块边界提供了更平滑的过渡。

    以下是原文 Figure 9 的结果:

    fig 17 该图像是一个示意图,展示了不同编码方式下的视频重建效果。最上方是真实视频帧(Ground Truth),中间部分是传统编码方法(Vanilla)的结果,底部展示了扩展方法(Extend)在时间轴上的切片变化,进一步展示了在高压缩率下可视化能力的提升。

    Figure 9. Alleviating the chunking issue with latent extension. The xt\mathbf{x} - \mathbf{t} slice is obtained by extracting a short segment (shown as the red line in the video frame) from 2 chunk frames and latent extension offers a smoother transition across the chunk boundary.

    视觉分析:

  • Figure 9 展示了一个 x-t 切片的可视化。在普通解码 (Vanilla decoding) 中,中间时间切片可视化中可见的水平线表示跳跃。而当应用潜在扩展 (latent extension) 时,这条线变得更加平滑,表明分块之间的过渡得到了改善。

6.1.5. 补充比较与效率分析

a. 与 SOTA 视频嵌入器的额外比较 由于许多现有视频嵌入器具有不同的潜在通道维度,为了公平比较,论文使用 LTX-Video [11] 定义的压缩因子 r = \frac{C \times H \times W \times (T-1)}{c \times h \times w \times t} 进行比较。

以下是原文 Figure 18、Figure 19、Figure 20 的结果:

fig 18

Figure 18. (a) Comparisons with state-of-the-art video embedders on MCL-JCV dataset under 256×256256\times 256 inputs.

fig 19

Figure 19. (b) Comparisons with state-of-the-art video embedders on DAVIS 2019 dataset under 256×256256\times 256 inputs.

fig 20 该图像是图表,其中展示了与当前最先进视频编码器的全面比较。图中包含公式 r = \frac{C \times H \times W \times (T-1)}{c \times h \times w \times t},表明在不同数据集上,REGEN获得了更好的PSNR值。

Figure 20. (c) Comprehensive comparison with other SOTA video embedders. One can observe that our method exhibits better performance at various compression factors on both datasets, demonstrating the effectiveness of our generative decoder and the soundness of our experimental setup.

分析:

  • Figure 18 和 Figure 19 展示了 REGEN 在 MCL-JCV 和 DAVIS 2019 数据集上,在各种压缩因子下,性能均优于 Cosmos-Tokenizer, LTX-Video, OmniTokenizer, Open-SORA (OS), Open-SORA-Plan (OSP), WF-VAE, VidTok 和 CV-VAE 等最先进的视频嵌入器。这进一步证明了 REGEN 生成解码器的有效性。

b. REGEN 的效率分析

  • 训练效率: 对于潜在生成模型的训练效率,REGEN 与 MAGVIT-v2 [46] 具有相同的效率,因为它们使用相同的编码器,且解码器不影响潜在生成模型的训练。

  • 推理延迟 (Latency): REGEN 采用大的 patch (图像块) 大小来平衡成本和效率。由于支持一步采样,论文在 A100 GPU 上测量了 REGEN 在一步解码下的运行时间(毫秒),并与 MAGVIT-v2 在 256×256256 \times 256 输入、不同压缩率下进行了比较。

    以下是原文 Table 4 的结果:

    MethodLatency (ms)
    8×8×48×8×88×8×168×8×32
    MAGVIT-v288317343153*
    REGEN89159295548

Table 4. Comparison of decoder latency at various compression rates on one A100 GPU under 256×256256\times 256 inputs. *MAGVIT-v2 32×32 \times has small latency because we have a different decoder design where we move all upsampling blocks toward the end layers. This is not optimal from the perspective of reconstruction quality for the decoder, but this design is unavoidable otherwise the model gives Out Of GPU Memory on 80GB A100 GPUs.

分析:

  • 通常更高效: 在大多数压缩率下,REGEN 的运行时间与 MAGVIT-v2 相似或更少。
  • 高压缩比下的例外:8×8×328 \times 8 \times 32 压缩率下,REGEN 的延迟更高。这是因为 MAGVIT-v2 在此压缩率下为了避免 80GB A100 GPU 内存溢出,不得不调整解码器中上采样层的位置,将所有上采样层移到末尾,这并非最优设计,但却是无奈之举。即使如此,这种 32×32 \times 的 MAGVIT-v2 版本也无法解码 512×512512 \times 512 的视频,突显了 REGEN 基于 Transformer 解码器的可扩展性 (scalability)。

c. 扩展基于卷积的视频嵌入器的有效性 论文探讨了简单地扩大 MAGVIT-v2 解码器是否能弥补性能差距。

以下是原文 Table 5 的结果:

Method8×8×168×8×32
PSNRSSIMrFVD↓PSNRSSIMrFVD↓
MAGVIT-v220.620.527441.2418.230.4191080.15
MAGVIT-v220.830.508486.4818.980.4371020.80
REGEN23.850.635328.8322.200.575488.89

Table 5. Comparisons of expanded MAGVIT- V2\mathrm{V2} with REGEN on DAVIS 2019 dataset under 256×256256\times 256 inputs. We expand the MAGVIT-v2 decoder by scaling up the width dimension and ÷\div denotes the expanded version. The best results are bold-faced.

分析:

  • 扩大模型尺寸并非万能: 简单地扩大 MAGVIT-v2 的模型尺寸(通过增加宽度)在高压缩率下并不总能带来更好的结果。例如,在 16×16 \times 压缩下,扩展后的 MAGVIT-v2 的 SSIM 和 rFVD 甚至比原始版本更差。
  • REGEN 理念的有效性: 尽管在 32×32 \times 压缩下,扩大模型尺寸略有改善,但其性能仍然明显落后于 REGEN。这再次证明了利用生成式解码器来打破压缩-重建权衡的理念是有效的。

6.1.6. 潜在插值与外推 (Latent Interpolation and Extrapolation)

REGEN 的基于 INR (Implicit Neural Representation) 的潜在条件模块不仅支持重建,还能以统一的设计实现插值和外推。

a. 潜在插值 (Latent Interpolation)

  • 基线:

    • 帧平均 (Frame Averaging): 对真实数据进行平均以获得插值帧。
    • REGEN + 外部插值: 在 REGEN 重建的帧上应用现成的插值模型 [48]。
  • 结果: 简单的帧平均会导致插值帧出现明显伪影。REGEN 的模型和外部插值方法都能显示出更平滑的过渡,并与真实标注数据 (Ground Truth) 保持良好的一致性。

    以下是原文 Figure 13 的结果:

    fig 2 该图像是插图,展示了视频重建的不同方法对比。最上方为真实图像,其下分别为帧平均、结合外部插值的方法及我们提出的方法。每种方法展示了两段视频的重建效果,明显可见我们的方法在细节重建上的优势。

    Figure 13. 2×2 \times interpolation results. Given input frames with purple bounding boxes, the model is asked to conduct interpolation to predict the frame with blue bounding box and we compare our method with frame averaging and external interpolation model.

    b. 潜在外推 (Latent Extrapolation) REGEN 的设计还支持外推,即模型根据给定输入预测过去或未来的帧。

以下是原文 Figure 14 和 Figure 15 的结果:

fig 1 该图像是一个包含两组视频帧的示意图,其中展示了真实帧(Ground Truth)、1帧外推和2帧外推的结果。上部分展示了一名舞者的运动,而下部分则展示了击鼓的情景,直观比较了不同外推条件下的效果。

Figure 14. Forward latent extrapolation results. Given input frames with purple bounding boxes, the model is asked to conduct extrapolation to predict the future frame with blue bounding box.

fig 3 该图像是一个图表,展示了不同框架数(1帧和2帧)下从真实视频内容到视频外推的效果对比。上方的部分是关于舞者的真实图像和外推结果,下方展示的是鼓手的真实图像和外推结果,展现了生成模型在视频重建中的应用效果。

Figure 15. Backward latent extrapolation results. Given input frames with purple bounding boxes, the model is asked to conduct extrapolation to predict the past frame with blue bounding box.

分析:

  • 强预测能力: REGEN 能够基于先前的帧序列预测未来的运动,结果与真实标注数据高度一致。
  • 双向外推: 该方法不仅能预测未来帧,还能预测过去帧,这为解决分块 (chunk) 问题中的跳跃 (jumping) 提供了潜在的无分块生成 (chunk-free generation) 应用。这突出了解码器的生成能力。

7. 总结与思考

7.1. 结论总结

本文提出了构建视频生成潜在空间的新视角:一个好的潜在空间应该能够生成视觉上合理的内容,而无需在像素级别上精确匹配输入视频。为此,REGEN 引入了一个编码器-生成器框架,取代了传统的基于 VAE 的编码器-解码器框架。该框架利用扩散 Transformer (DiT) 作为解码器,确保潜在空间只捕获输入视频的基本语义和结构特征,而细节则由生成解码器在解码过程中合成。实验证明,该方法可以实现高达 32×32 \times 的时间压缩比,且重建质量远超现有最先进的传统视频嵌入器,尤其是在如此激进的紧凑水平下。此外,REGEN 的超紧凑潜在空间被验证对文本到视频生成任务友好,显著提高了潜在扩散模型的训练和推理效率。

7.2. 局限性与未来工作

论文作者指出了以下局限性:

  1. 训练成本: 尽管一步(或少步)采样效率高,但基于扩散的解码器训练仍然计算成本高昂。由于资源限制,未能对架构配置和超参数进行广泛的消融研究。这是未来的一个研究方向。
  2. 分块问题: 尽管潜在扩展方法在很大程度上缓解了视频块之间的过渡问题,但仍无法以这种无训练 (training-free) 的方式完全消除跳跃问题。
  3. 解码器操作空间: 解码器在像素空间操作,为了效率需要较大的 patch (图像块) 大小(本文为 8)。这可能相比常用的 1 或 2 的 patch 大小会降低生成质量。

7.3. 个人启发与批判

个人启发:

  1. “视觉合理性”而非“像素精确性”的范式转变: 本文最核心的启发在于重新定义了生成模型中嵌入器解码器的目标。传统上我们追求高保真度,但在生成任务中,人类视觉更关注整体的合理性和细节的自然度,而非像素级的完全一致。这种思维转变是具有突破性的,它允许在压缩与生成质量之间找到一个新的平衡点,为更高压缩率的潜在表示铺平了道路。
  2. 扩散模型作为强大的生成式解码器: 充分利用了 DiT 作为解码器的生成能力,这与传统 VAE 解码器仅限于重建的特性形成鲜明对比。这表明在未来的自编码器设计中,生成模型(如扩散模型、GANs)可以作为更强大的解码器,将编码器从“存储所有细节”的负担中解放出来。
  3. 内容感知位置编码的巧妙设计: 解决了 Transformer 在处理可变尺寸输入时的泛化难题,这对于视频数据尤其重要。这种将位置信息与内容信息深度融合的设计,提供了一种通用的解决方案,超越了传统的固定位置编码。
  4. 对效率的显著提升: 实现了 32×32 \times 的时间压缩比,并将潜在帧数量减少 5 倍,这对于大规模视频模型的训练和部署具有重大意义。在计算资源日益成为瓶颈的背景下,这种效率提升是至关重要的。

批判:

  1. 训练成本问题: 论文承认训练扩散解码器计算成本高昂,且未能进行广泛的消融研究。这使得模型的鲁棒性和最优配置仍然有待进一步探索。高昂的训练成本可能会限制其在学术界或资源有限机构中的应用。
  2. 大 patch 大小的潜在影响: 论文提到为了效率使用 8 的 patch 大小,可能降低生成质量。虽然实验结果表明效果良好,但这一潜在的质量折衷值得关注。在需要极致细节的任务中,这可能是一个限制。
  3. 分块问题仍未完全解决: 尽管提出了缓解分块跳跃的策略,但承认未能完全消除。这对于需要高度时间一致性的长视频生成而言,可能仍是一个挑战。未来的工作可以探索更深层次的端到端学习方法,从根本上解决分块的边界效应。
  4. 通用性与特定任务的平衡: 论文主要关注视频重建和文本到视频生成。虽然其理念具有通用性,但其潜在空间在其他下游任务(如视频编辑、视频补全等)中的表现如何,仍需进一步验证。
  5. 定性结果的可解释性: 虽然 Figure 4 和 Figure 5 等定性结果直观展示了优势,但更多样化、更具挑战性的场景下的定性分析,以及不同运动强度、纹理复杂度的视频对比,将有助于更全面地理解模型表现。
  6. 未来研究方向的建议: 论文可以探讨将这种生成式解码器的理念扩展到其他模态(如 3D 数据、音频序列)的潜在表示学习中,或者探索如何将 DiT 解码器与更高效的扩散采样器(如一致性模型)结合,以进一步减少推理步骤和成本。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。