论文状态：已完成

MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model

发表：2024/05/01

运动生成模型 (1)可控运动生成 (1)动作潜在一致性模型 (1)实时运动生成 (1)运动生成的文本条件控制 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了`MotionLCM`框架，致力于解决现有文本条件运动生成方法的低效率问题。通过引入运动潜在一致性模型，采用一步推理方式，`MotionLCM`大幅提升运动生成效率。同时集成运动ControlNet以实现显式控制信号，支持实时生成高质量可控的三维人体动作。

摘要

This work introduces MotionLCM, extending controllable motion generation to a real-time level. Existing methods for spatial-temporal control in text-conditioned motion generation suffer from significant runtime inefficiency. To address this issue, we first propose the motion latent consistency model (MotionLCM) for motion generation, building on the motion latent diffusion model. By adopting one-step (or few-step) inference, we further improve the runtime efficiency of the motion latent diffusion model for motion generation. To ensure effective controllability, we incorporate a motion ControlNet within the latent space of MotionLCM and enable explicit control signals (i.e., initial motions) in the vanilla motion space to further provide supervision for the training process. By employing these techniques, our approach can generate human motions with text and control signals in real-time. Experimental results demonstrate the remarkable generation and controlling capabilities of MotionLCM while maintaining real-time runtime efficiency.

思维导图

论文精读

中文精读约 28 分钟读完 · 18,885 字

1. 論文基本情報

1.1. 标题

MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model 中文标题：MotionLCM：通过潜在一致性模型实现实时可控的运动生成

论文的核心主题是提出一个名为 MotionLCM 的新框架，旨在解决现有文本到运动（Text-to-Motion, T2M）生成方法，尤其是带有控制信号的方法，推理速度慢、无法满足实时应用需求的问题。它通过将潜在一致性模型 (Latent Consistency Model, LCM) 的思想引入运动生成领域，实现了高质量、可控且实时的三维人体运动合成。

1.2. 作者

作者列表: Wenxun Dai, Ling-Hao Chen, Jingbo Wang, Jinpeng Liu, Bo Dai, Yansong Tang
隶属机构:
- 清华大学深圳国际研究生院 (Tsinghua Shenzhen International Graduate School)
- 清华大学 (Tsinghua University)
- 上海人工智能实验室 (Shanghai AI Laboratory)
  
  这些作者和机构在计算机视觉、图形学和人工智能领域，特别是在人体运动生成和分析方面，有着深入的研究背景。

1.3. 发表期刊/会议

发表状态: 本文目前是作为预印本 (preprint) 发布在 arXiv 上。
arXiv 简介: arXiv 是一个开放获取的学术论文预印本平台，允许研究人员在同行评审前分享他们的研究成果。虽然 arXiv 上的论文尚未经过正式的同行评审，但它已成为快速传播最新研究进展的重要渠道，尤其是在计算机科学等快节奏领域。

1.4. 发表年份

首次发布: 2024年4月30日 (v1版本)
本文版本: v3版本，更新于2024年4月30日（根据原文链接信息，v3版本的时间戳与v1相同，可能是微小修正）。

1.5. 摘要

本文介绍了一种名为 MotionLCM 的新方法，旨在将可控的运动生成任务提升至实时水平。现有的基于文本条件并结合时空控制的运动生成方法普遍存在推理效率低下的问题。为了解决这一瓶颈，论文首先基于运动潜在扩散模型 (motion latent diffusion model)，提出了运动潜在一致性模型 (MotionLCM)。通过采用一步或极少步的推理方式，MotionLCM 极大地提升了运动生成模型的运行效率。为了确保有效的可控性，论文在 MotionLCM 的潜在空间中集成了一个运动 ControlNet (motion ControlNet)，并允许在原始运动空间中输入显式的控制信号（如初始动作）来进一步监督训练过程。综合运用这些技术，MotionLCM 能够根据文本和控制信号实时生成人体运动。实验结果表明，该方法在保持实时效率的同时，展现了出色的生成质量和控制能力。

1.6. 原文链接

arXiv 链接: https://arxiv.org/abs/2404.19759v3
PDF 链接: https://arxiv.org/pdf/2404.19759v3.pdf
发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

本文旨在解决文本到三维人体运动生成 (Text-to-Motion, T2M) 任务中的一个核心瓶颈：推理效率。特别是对于需要额外空间或时间控制信号（例如，指定起始姿态或运动轨迹）的可控运动生成任务，现有的先进方法虽然生成质量高，但计算成本巨大，推理耗时极长，严重阻碍了其在游戏、虚拟现实、人机交互等需要实时响应场景中的应用。

2.1.2. 现有挑战与空白 (Gap)

扩散模型的效率瓶颈: 近年来，扩散模型 (Diffusion Models) 在T2M任务中取得了巨大成功，如 MDM 和 MLD 等模型，它们能够生成多样且高质量的运动。然而，扩散模型的本质是一个迭代去噪过程，需要数十甚至上百个采样步骤才能合成一个运动序列，导致推理时间非常长。例如，MDM 生成一个序列需要约24秒，即使是基于潜在空间、速度更快的 MLD 也需要约0.2秒。
可控生成任务的更高延迟: 当引入额外的控制信号时，问题变得更加严峻。例如，OmniControl 模型虽然实现了灵活的时空控制，但其推理时间长达约81秒，这对于实时应用是完全不可接受的。
质量与效率的权衡: 现有方法在生成质量和推理效率之间难以取得平衡。高质量的生成往往伴随着高昂的时间成本，而加速采样通常会牺牲生成质量。

2.1.3. 创新切入点

为了打破这种“高质量-高延迟”的困局，本文的创新切入点是引入了在图像生成领域被证明极为高效的一致性模型 (Consistency Models)。作者假设，通过一致性蒸馏 (consistency distillation) 技术，可以将在多个步骤中缓慢去噪的扩散模型“压缩”成一个能够一步或极少步就完成高质量生成的模型。这一思路完美契合了T2M任务对实时性的迫切需求。

具体而言，本文：

首次将一致性模型引入运动生成领域: 提出了 MotionLCM，将 MLD（一个运动潜在扩散模型）蒸馏为一个潜在一致性模型，旨在实现数量级的速度提升。
为潜在空间设计控制机制: 传统的控制方法通常在原始运动数据空间进行，但在潜在空间中直接控制是困难的，因为潜在向量缺乏明确的物理意义。为此，本文引入了一个运动 ControlNet (motion ControlNet)，并设计了一种双重监督机制：不仅在潜在空间进行监督，还通过解码器将预测结果映射回原始运动空间，施加显式的控制损失。这种设计巧妙地解决了在抽象的潜在空间中实现精确控制的难题。

2.2. 核心贡献/主要发现

本文的核心贡献可以概括为以下三点：

提出 MotionLCM 框架，实现实时运动生成: 论文成功地将一致性蒸馏技术应用于运动潜在扩散模型，提出了 MotionLCM。该模型在仅需一步推理的情况下，就能生成与需要数十步采样的原始扩散模型质量相媲美的运动序列，将推理时间从秒级或亚秒级降低到毫秒级（约30ms），达到了实时水平。
设计了潜在空间中的高效可控生成方案: 通过引入运动 ControlNet 和创新的“潜在空间+运动空间”双重监督机制，MotionLCM 实现了对运动的精确控制（例如，根据给定的初始几帧姿态继续生成后续动作）。实验证明，这种控制机制不仅有效，而且同样保持了极高的推理效率。
在质量、效率和可控性三者间取得卓越平衡: 实验结果有力地证明，MotionLCM 在生成质量（如 FID、R-Precision 指标）和控制精度（如轨迹误差）上均达到了与最先进方法相当甚至更优的水平，同时其推理速度快了几个数量级。这表明该方法成功地在运动生成的三个关键维度上取得了突破性的平衡。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 文本到运动生成 (Text-to-Motion, T2M)

T2M 是一项多模态生成任务，其目标是根据输入的自然语言文本描述（如 “a person walks forward and then waves hello”），自动生成一段与之匹配的、自然且逼真的三维人体运动序列。运动数据通常表示为一系列骨骼姿态，每个姿态包含所有关节点的旋转和位置信息。

3.1.2. 扩散模型 (Diffusion Models)

扩散模型是一类强大的生成模型，其核心思想源于非平衡热力学。它包含两个过程：

前向过程 (Forward Process): 这是一个固定的过程，在多个时间步（steps）中，逐渐向原始数据（如一张图片或一段运动）中添加高斯噪声，直到数据完全变成纯粹的噪声。
反向过程 (Reverse Process): 这是模型需要学习的过程。模型（通常是一个神经网络，如 U-Net）学习如何在每个时间步中，从加噪的数据中预测并去除噪声。通过从纯噪声开始，迭代地执行这个去噪步骤，模型最终可以生成一个全新的、干净的数据样本。扩散模型因其生成质量高、多样性好且训练稳定而备受青睐，但也因其迭代采样的特性导致推理速度较慢。

3.1.3. 潜在扩散模型 (Latent Diffusion Models, LDM)

为了降低扩散模型在高维数据（如高清图像）上的计算成本，潜在扩散模型被提了出来。其核心思想是：不在原始数据空间进行扩散，而是在一个低维的潜在空间 (latent space) 进行。

首先，训练一个变分自编码器 (Variational Autoencoder, VAE)。VAE 包含一个编码器 ( $\mathcal{E}$ ) 和一个解码器 ( $\mathcal{D}$ )。编码器可以将高维的原始数据（如运动序列 $\mathbf{x}$ ）压缩成一个低维的潜在表示 ( $\mathbf{z} = \mathcal{E}(\mathbf{x})$ )，而解码器可以将潜在表示重构回原始数据 ( $\hat{\mathbf{x}} = \mathcal{D}(\mathbf{z})$ )。
然后，扩散模型的训练和采样过程完全在这个紧凑的潜在空间中进行。这极大地减少了计算量，加快了训练和推理速度。MLD [9] 就是一个将 LDM 应用于运动生成的典型工作。

3.1.4. 一致性模型 (Consistency Models, CM)

一致性模型是一种新型的生成模型，旨在实现一步或极少步生成，从而克服扩散模型的速度瓶颈。其核心思想是学习一个一致性函数 (consistency function) $f(\mathbf{x}_t, t)$ 。

概率流常微分方程 (Probability Flow ODE, PF-ODE): 扩散过程可以被描述为一个连续时间的常微分方程，它定义了数据点如何随着时间从真实数据分布平滑地演变为噪声分布。这条演变路径被称为 ODE 轨迹。
一致性函数的性质: 这个函数可以将 ODE 轨迹上的任意一个点 $(\mathbf{x}_t, t)$ 直接映射回轨迹的起点，也就是原始的干净数据 $\mathbf{x}_0$ 。这意味着，无论你处在加噪过程的哪个阶段，一致性函数都能“一步”帮你回到最初的无噪声状态。
自洽性 (Self-Consistency): 对于同一条 ODE 轨迹上的任意两个点 $(\mathbf{x}_t, t)$ 和 $(\mathbf{x}_{t'}, t')$ ，一致性函数的输出应该是相同的，即 $f(\mathbf{x}_t, t) = f(\mathbf{x}_{t'}, t') = \mathbf{x}_0$ 。
一致性蒸馏 (Consistency Distillation): 这是一种训练一致性模型的高效方法。它利用一个预训练好的扩散模型（作为“老师”），通过最小化轨迹上相邻点的函数输出差异，将多步去噪的知识“蒸馏”到一个一致性模型（“学生”）中，使其学会一步生成的能力。

本文提出的 MotionLCM 正是基于潜在一致性模型 (Latent Consistency Model, LCM)，即在 VAE 构成的潜在空间中应用一致性蒸馏。

3.1.5. ControlNet

ControlNet 是一种为预训练的大型文本到图像扩散模型添加额外空间条件控制的神经网络架构。

工作原理: 它通过创建一个预训练模型中可训练块（如 U-Net 的编码器部分）的可训练副本 (trainable copy) 来工作。这个副本接收额外的条件输入（如边缘图、人体姿态骨架图）。
零卷积 (Zero Convolution): ControlNet 的输出通过一个权重初始化为零的卷积层（即“零卷积”）添加到原始模型的对应层中。这种设计确保在训练初期，ControlNet 不会对原始模型的性能产生任何负面影响，使得训练过程非常稳定，并能保留原始大模型的强大生成能力。

本文将 ControlNet 的思想迁移到了运动生成领域，提出了运动 ControlNet (motion ControlNet)，以在潜在空间中实现对运动的精确控制。

3.2. 前人工作

早期的 T2M 方法: 主要基于 生成对抗网络 (GANs) [1, 38] 和 变分自编码器 (VAEs) [3, 49]。这些方法在生成质量和多样性上存在一定局限。
基于扩散模型的 T2M 方法: 近期，扩散模型成为主流，显著提升了生成质量。
- MDM (Human Motion Diffusion Model) [65]: 第一个直接在原始运动数据空间上操作的扩散模型，效果出色，但速度很慢（约24秒）。
- MotionDiffuse [83]: 提出了一个基于 Transformer 的扩散模型，支持时变文本提示和任意长度生成，但速度同样较慢（约14秒）。
- MLD (Motion Diffusion in Latent space) [9]: 本文工作的基础模型。它通过在 VAE 压缩的潜在空间中进行扩散，显著提升了效率（约0.2秒），并降低了计算资源需求。
可控的 T2M 方法:
- OmniControl [73]: 实现了对不同关节点的灵活时空控制，但其在扩散过程中引入了额外的引导项，导致推理时间极长（约81秒）。

3.3. 技术演进

T2M 领域的技术演进路线清晰地体现了对生成质量和效率的不断追求：

探索阶段 (GANs/VAEs): 实现了从无到有的基本 T2M 功能。
质量提升阶段 (Diffusion Models): 以 MDM、MotionDiffuse 为代表，通过强大的扩散模型显著提高了生成运动的自然度和多样性，但牺牲了效率。
效率优化阶段 (Latent Diffusion): 以 MLD 为代表，通过引入潜在空间来加速计算，在质量和效率之间取得了更好的平衡。
实时化阶段 (Consistency Models): 本文提出的 MotionLCM 正是这一阶段的代表。它不再满足于亚秒级的优化，而是通过一致性蒸馏，将推理速度推向了实时水平，为交互式应用打开了大门。

3.4. 差异化分析

MotionLCM 与先前工作的主要区别和创新点在于：

根本性的加速范式: 与依赖加速采样算法（如 DDIM）对扩散模型进行小幅优化的方法不同，MotionLCM 采用了一致性蒸馏这一根本不同的范式，旨在将多步迭代过程直接压缩为一步映射，从而实现数量级的速度提升。
在潜在空间实现可控性: 先前的可控方法如 OmniControl 直接在运动空间操作，易于施加物理约束。而 MotionLCM 面临的挑战是在抽象、无明确物理意义的潜在空间中实现控制。为此，它创新地设计了运动 ControlNet 结合双重监督损失（潜在空间重构损失 + 运动空间控制损失），为在潜在空间中进行精确控制提供了一条有效路径。
目标定位: MotionLCM 的核心目标是实时可控运动生成，它并非单纯追求某单一指标的极致，而是在生成质量、控制精度和推理效率这三个关键维度上实现了前所未有的平衡。

4. 方法论

本章节将详细拆解 MotionLCM 的技术方案，严格遵循论文的逻辑结构，并融合公式进行讲解。

4.1. 方法原理

MotionLCM 的核心思想是，利用一致性蒸馏 (Consistency Distillation) 技术，将一个预训练好的运动潜在扩散模型 (Motion Latent Diffusion Model)（即 MLD [9]）转化为一个高效的运动潜在一致性模型 (Motion Latent Consistency Model)。这个新模型能够在一步或极少步内生成高质量的运动，从而实现实时推理。在此基础上，通过引入一个运动 ControlNet (motion ControlNet) 架构，赋予模型接受额外控制信号（如初始姿态）的能力。

4.2. 核心方法详解

4.2.1. 预备知识：潜在一致性模型 (Latent Consistency Model, LCM)

在深入 MotionLCM 之前，我们首先回顾其理论基础 LCM。LCM 的目标是学习一个一致性函数 $f$ ，该函数能将扩散过程（由 PF-ODE 描述）轨迹上的任意一个加噪点 $(\mathbf{z}_t, t)$ 直接映射回其轨迹起点，即干净的数据 $\mathbf{z}_0$ 。

该函数 $f$ 通过一个参数化的神经网络 $f_\Theta$ 来近似，其形式如下： $f _ { \Theta } ( \mathbf z , t ) = c _ { \mathrm { s k i p } } ( t ) \mathbf z + c _ { \mathrm { o u t } } ( t ) F _ { \Theta } ( \mathbf z , t )$

符号解释:
- $\mathbf{z}$ : 输入的潜在向量。
- $t$ : 对应的时间步。
- $F_\Theta(\cdot, \cdot)$ : 一个深度神经网络，是模型的核心部分，用于学习自洽性。
- $c_{\text{skip}}(t)$ 和 $c_{\text{out}}(t)$ : 两个可微的缩放函数，用于在不同时间步平衡输入 $\mathbf{z}$ 和网络输出 $F_\Theta$ 的贡献。
  
  训练 $f_\Theta$ 的过程被称为一致性蒸馏。它使用一个预训练好的扩散模型（作为教师模型）来指导训练。其损失函数定义如下： $\mathcal { L } ( \boldsymbol { \Theta } , \boldsymbol { \Theta } ^ { - } ; \boldsymbol { \Phi } ) = \mathbb { E } \left[ d \left( \boldsymbol { f } _ { \boldsymbol { \Theta } } ( \mathbf { x } _ { t _ { n + 1 } } , t _ { n + 1 } ) , \boldsymbol { f } _ { \boldsymbol { \Theta } ^ { - } } ( \hat { \mathbf { x } } _ { t _ { n } } ^ { \boldsymbol { \Phi } } , t _ { n } ) \right) \right]$
符号解释:
- $\Theta$ : 在线网络 (online network) 的参数，是模型训练的主体。
- $\Theta^-$ : 目标网络 (target network) 的参数，通过在线网络参数 $\Theta$ 的指数移动平均 (Exponential Moving Average, EMA) 进行更新，提供一个更稳定的学习目标。
- $\mathbf{x}_{t_{n+1}}$ : 在时间步 $t_{n+1}$ 的加噪数据。
- $\hat{\mathbf{x}}_{t_n}^{\Phi}$ : 使用教师扩散模型（由 $\Phi$ 代表）的一步 ODE 求解器从 $\mathbf{x}_{t_{n+1}}$ 估计出的在时间步 $t_n$ 的数据。
- $d(\cdot, \cdot)$ : 距离度量函数，如 L2 损失或 Huber 损失。
  
  这个损失函数的核心思想是：在线网络对 $t_{n+1}$ 时刻数据的直接预测结果，应该与目标网络对用教师模型“稍微去噪”后的 $t_n$ 时刻数据的预测结果保持一致。通过这种方式，模型学会了“跳步”预测的能力。

4.2.2. MotionLCM：运动潜在一致性蒸馏

MotionLCM 将上述 LCM 思想应用于运动生成。整个流程如下图（原文 Figure 4(a)）所示。

$Fig. 4: The overview of MotionLCM. (a) Motion Latent Consistency Distillation (Sec. 3.2). Given a raw motion sequence $\\mathbf { x } _ { 0 } ^ { 1 : N }$ , a pre-trained VAE \[30\] encoder first compresses it into the latent space, then a forward diffusion operation is performed to add $n { \\mathrel { + { k } } }$ steps of noise. Then, the noisy ${ \\mathbf z } _ { n + k }$ is fed into the online network and teacher network to predict the clean latent. The target network takes the $k$ -step estimation results of the teacher output to predict the clean latent. To learn self-consistency, a loss is applied to enforce the output of the online network and target network to be consistent. (b) Motion Control in Latent Space (Sec. 3.3). With the powerful MotionLCM trained in the first stage, we incorporate a motion ControlNet into the MotionLCM to achieve controllable motion generation. Furthermore, we leverage the decoded motion to explicitly supervise the spatial-temporal control signals (i.e., initial poses $\\mathbf { g } ^ { 1 : \\tau }$ ).$

步骤 1: 运动压缩到潜在空间 与 MLD 一样，MotionLCM 首先使用一个预训练好的 VAE 将高维的运动序列 $\mathbf{x}_0$ 压缩到一个低维的潜在空间，得到潜在表示 $\mathbf{z}_0 = \mathcal{E}(\mathbf{x}_0)$ 。后续的所有操作都在这个潜在空间中进行。

步骤 2: 运动潜在一致性蒸馏 这是 MotionLCM 的核心训练阶段。

数据准备:
- 从数据集中采样一个真实的运动序列 $\mathbf{x}_0$ 和对应的文本条件 $\mathbf{c}$ 。
- 将其编码为 $\mathbf{z}_0$ 。
- 进行 $n+k$ 步前向扩散过程，得到加噪的潜在向量 $\mathbf{z}_{n+k}$ 。其中 $k$ 是跳跃间隔 (skipping interval)，是 LCM 中加速收敛的关键超参数。
网络预测:
- 教师网络 (Teacher Network) $\Theta^*$ : 这是一个冻结的、预训练好的 MLD 模型。它被用来计算“稍微去噪”后的潜在向量 $\hat{\mathbf{z}}_n$ $\hat{z}_{n}$ 。由于生成需要与文本条件对齐，并且高质量生成通常需要无分类器引导 (Classifier-Free Guidance, CFG)，因此 $\hat{\mathbf{z}}_n$ $\hat{z}_{n}$ 的计算如下： $\hat { \mathbf { z } } _ { n } \gets \mathbf { z } _ { n + k } + ( 1 + w ) \Phi ( \mathbf { z } _ { n + k } , t _ { n + k } , t _ { n } , \mathbf { c } ) - w \Phi ( \mathbf { z } _ { n + k } , t _ { n + k } , t _ { n } , \emptyset )$
  - 符号解释:
    - $w$ : CFG 的引导尺度，用于控制生成结果与文本条件的匹配程度。
    - $\mathbf{c}$ : 文本条件。
    - $\emptyset$ : 空条件，用于 CFG 计算。
    - $\Phi(\cdot)$ : 教师模型 MLD 的一步 ODE 求解器（如 DDIM），用于从 $t_{n+k}$ 步预测 $t_n$ 步的噪声。
- 在线网络 (Online Network) $\Theta$ : 这是我们需要训练的 MotionLCM 模型。它直接接收 $\mathbf{z}_{n+k}$ 作为输入，并预测最终的干净潜在向量 $\mathbf{z}_0$ 。
- 目标网络 (Target Network) $\Theta^-$ : 它的结构与在线网络相同，参数通过在线网络参数的 EMA 更新。它接收教师网络生成的 $\hat{\mathbf{z}}_n$ 作为输入，并预测干净的 $\mathbf{z}_0$ 。
损失计算: MotionLCM 的潜在一致性蒸馏损失 (Latent Consistency Distillation Loss) $\mathcal{L}_{\text{LCD}}$ 定义为在线网络和目标网络预测结果之间的距离： $\mathcal { L } _ { \mathrm { L C D } } ( \boldsymbol { \Theta } , \boldsymbol { \Theta } ^ { - } ) = \mathbb { E } \left[ d \left( f _ { \boldsymbol { \Theta } } ( \mathbf { z } _ { n + k } , t _ { n + k } , w , \mathbf { c } ) , \boldsymbol { f } _ { \boldsymbol { \Theta } ^ { - } } ( \hat { \mathbf { z } } _ { n } , t _ { n } , w , \mathbf { c } ) \right) \right]$ 通过最小化这个损失，在线网络 $\Theta$ 逐渐学会了教师模型 MLD 的多步去噪能力，并将其“蒸馏”到一步预测中。训练完成后，我们只需要使用在线网络 $\Theta$ 进行推理，即可实现从纯噪声一步生成高质量的运动潜在向量 $\mathbf{z}_0$ ，再通过 VAE 解码器得到最终的运动序列 $\mathbf{x}_0$ 。

4.2.3. 在潜在空间中实现可控运动生成

在实现了实时的文本到运动生成后，下一步是引入控制能力。MotionLCM 通过一个运动 ControlNet 来实现，其流程如上图（原文 Figure 4(b)）所示。

控制任务定义: 任务是根据文本描述和一段初始姿态序列（例如，一个动作的前几帧）来生成后续的动作。初始姿态序列由 $\tau$ 帧的 $K$ 个关键关节点的全局位置轨迹 $\mathbf{g}^{1:\tau}$ 定义。

模型架构:

MotionLCM 主干网络 $\Theta$ : 这是上一步训练好的、冻结的 MotionLCM 模型。
运动 ControlNet $\Theta^a$ : 这是一个可训练的 MotionLCM 副本。它的网络块（如 Transformer 层）的权重是可训练的。
轨迹编码器 (Trajectory Encoder) $\Theta^b$ : 这是一个由 Transformer 构成的编码器，负责将输入的控制信号（初始姿态轨迹 $\mathbf{g}^{1:\tau}$ ）编码为一个特征向量。

训练过程:

前向传播:
- 输入的初始姿态轨迹 $\mathbf{g}^{1:\tau}$ 经过轨迹编码器 $\Theta^b$ 得到控制特征。
- 在去噪的每一步中，加噪的潜在向量 $\mathbf{z}_n$ 和时间步 $t_n$ 同时输入到冻结的 MotionLCM 主干 $\Theta$ 和可训练的运动 ControlNet $\Theta^a$ 中。
- 运动 ControlNet $\Theta^a$ 的输出会逐层地添加到 MotionLCM 主干 $\Theta$ 对应层的输出上。轨迹编码器 $\Theta^b$ 提取的控制特征也会被加入到模型中。
- 最终，模型输出预测的干净潜在向量 $\hat{\mathbf{z}}_0$ 。
双重监督损失 (Dual Supervision Loss): 这是实现精确控制的关键创新。仅仅在潜在空间进行监督是不够的，因为潜在向量的每个维度并没有明确的物理意义。因此，论文设计了两种损失：
- 潜在空间重构损失 ( $\mathcal{L}_{\text{recon}}$ ): 确保模型在加入控制后，仍然能生成高质量、符合文本描述的潜在向量。 $\mathcal { L } _ { \mathrm { r e con } } ( \Theta ^ { a } , \Theta ^ { b } ) = \mathbb { E } \left[ d \left( f _ { \Theta ^ { s } } \left( \mathbf { z } _ { n } , t _ { n } , w , \mathbf { c } ^ { * } \right) , \mathbf { z } _ { 0 } \right) \right]$
  - 符号解释:
    - $\Theta^s$ : 包含主干网络、ControlNet 和轨迹编码器的整个模型参数集合。
    - $\mathbf{c}^*$ : 包含了文本条件和控制信号的组合条件。
    - $\mathbf{z}_0$ : 真实的干净潜在向量。
- 运动空间控制损失 ( $\mathcal{L}_{\text{control}}$ ): 为了对控制信号进行显式监督，模型将预测的潜在向量 $\hat{\mathbf{z}}_0$ $\hat{z}_{0}$ 通过冻结的 VAE 解码器 $\mathcal{D}$ 解码回原始运动空间，得到预测的运动序列 $\hat{\mathbf{x}}_0$ $\hat{x}_{0}$ 。然后，计算预测的初始姿态与真实的初始姿态之间的误差。 $\mathcal { L } _ { \mathrm { c o n t r o l } } ( \Theta ^ { a } , \Theta ^ { b } ) = \mathbb { E } \left[ \frac { \sum _ { i } \sum _ { j } m _ { i j } | | R ( \hat { \mathbf { x } } _ { 0 } ) _ { i j } - R ( \mathbf { x } _ { 0 } ) _ { i j } | | _ { 2 } ^ { 2 } } { \sum _ { i } \sum _ { j } m _ { i j } } \right]$
  - 符号解释:
    - $R(\cdot)$ : 将关节点的局部坐标转换为全局坐标的函数。
    - $m_{ij}$ : 一个二进制掩码 (mask)，当关节点 $j$ 在第 $i$ 帧是受控关节点时为1，否则为0。
    - 这个损失直接惩罚了生成运动在受控部分与真实控制信号之间的欧氏距离差异。
总目标函数: 最终，通过加权组合这两种损失来联合优化运动 ControlNet $\Theta^a$ 和轨迹编码器 $\Theta^b$ ： $\Theta ^ { a } , \Theta ^ { b } = \underset { \Theta ^ { a } , \Theta ^ { b } } { \arg \min } ( \mathcal { L } _ { \mathrm { r e con } } + \lambda \mathcal { L } _ { \mathrm { c o n t r o l } } )$
- 符号解释:
  - $\lambda$ : 一个权重超参数，用于平衡重构质量和控制精度。
    
    通过这种方式，MotionLCM 成功地在保持实时推理速度的同时，实现了高质量和高精度的可控运动生成。

5. 实验设置

5.1. 数据集

数据集名称: HumanML3D [17]
来源与规模: 这是一个广泛用于 T2M 研究的大型数据集，包含 14,616 个独特的人体运动序列和 44,970 条对应的文本描述。
数据特点: 数据集提供了丰富的运动类型和详细的文本标注。
运动表示: 为了与先前工作公平比较，论文采用了冗余的运动表示方法，包括：
- 根节点的速度 (root velocity) 和高度 (root height)
- 关节点的局部位置 (local joint positions)、速度 (velocities) 和旋转 (rotations)
- 足部接触地面的二进制标签 (foot contact binary labels)
选择原因: HumanML3D 是 T2M 领域的标准基准 (benchmark)，使用它可以直接与 MDM, MLD 等最先进的方法进行公平的量化比较。

5.2. 评估指标

论文使用了多组指标来从不同维度全面评估模型的性能。

5.2.1. 推理效率 (Time cost)

指标: 平均每句推理时间 (Average Inference Time per Sentence, AITS)
概念定义: 该指标衡量模型为单个文本描述生成一个完整运动序列所需的平均时间（单位：秒）。它直接反映了模型的推理效率，值越低越好。

5.2.2. 运动质量 (Motion quality)

指标: 弗雷歇初始距离 (Frechet Inception Distance, FID)
概念定义: FID 用于衡量生成数据分布与真实数据分布之间的相似度。它通过一个预训练的特征提取器（本文使用 [17] 提供的提取器）将生成运动和真实运动都映射到特征空间，然后计算这两个特征分布的均值和协方差矩阵之间的弗雷歇距离。FID 值越低，表示生成运动的分布与真实运动的分布越接近，即生成质量越高。
数学公式: $\text{FID}(\mathbf{x}, \mathbf{g}) = ||\mu_{\mathbf{x}} - \mu_{\mathbf{g}}||^2 + \text{Tr}(\Sigma_{\mathbf{x}} + \Sigma_{\mathbf{g}} - 2(\Sigma_{\mathbf{x}}\Sigma_{\mathbf{g}})^{1/2})$
符号解释:
- $\mu_{\mathbf{x}}$ 和 $\mu_{\mathbf{g}}$ : 分别是真实数据和生成数据的特征向量的均值。
- $\Sigma_{\mathbf{x}}$ 和 $\Sigma_{\mathbf{g}}$ : 分别是真实数据和生成数据的特征向量的协方差矩阵。
- $\text{Tr}(\cdot)$ : 矩阵的迹（主对角线元素之和）。

5.2.3. 运动多样性 (Motion diversity)

指标 1: 多样性 (Diversity)
- 概念定义: 衡量在整个测试集上，模型生成的所有运动之间的差异性。它反映了模型生成不同类型运动的能力。值越高，表明生成结果整体上更多样。
- 数学公式: $\mathrm { Diversity } = \frac { 1 } { S _ { d } } \sum _ { i = 1 } ^ { S _ { d } } | | \mathbf { v } _ { i } - \mathbf { v } _ { i } ^ { ' } | | _ { 2 }$
- 符号解释:
  - $S_d$ : 随机采样的大小。
  - $\{\mathbf{v}_i\}$ 和 $\{\mathbf{v}_i'\}$ : 从所有生成运动的特征向量中随机抽样的两个不相交子集。
指标 2: 多模态性 (MultiModality, MModality)
- 概念定义: 衡量对于同一个文本描述，模型能够生成多少种不同的运动。这对于避免“模式崩溃”（即对同一输入只生成单一或少数几种输出）非常重要。值越高，表示对于同一指令，模型的输出越丰富。
- 数学公式: $\mathrm { MModality } = \frac { 1 } { C \times I } \sum _ { c = 1 } ^ { C } \sum _ { i = 1 } ^ { I } | | \mathbf { v } _ { c , i } - \mathbf { v } _ { c , i } ^ { ' } | | _ { 2 }$
- 符号解释:
  - $C$ : 随机抽样的文本描述数量。
  - $I$ : 对每个文本描述生成运动的次数。
  - $\{\mathbf{v}_{c,i}\}$ 和 $\{\mathbf{v}_{c,i}'\}$ : 针对第 $c$ 个文本描述生成的两组不同运动的特征向量。

5.2.4. 条件匹配度 (Condition matching)

指标 1: R-精度 (R-Precision)
- 概念定义: 这是一个基于检索的指标，用于衡量生成的运动与输入文本的匹配程度。评估时，将一个生成的运动与31个不匹配的运动混合，然后计算模型能否根据文本描述正确地将匹配的运动排在检索结果的前 Top-1/2/3。R-精度越高，说明文本-运动匹配度越好。
指标 2: 多模态距离 (Multimodal Distance, MM Dist)
- 概念定义: 在一个联合的文本-运动特征空间中，计算生成的运动特征与对应文本特征之间的平均距离。距离越小，说明两者在语义上越接近，匹配度越高。

5.2.5. 控制误差 (Control error)

指标 1: 轨迹误差 (Trajectory error, Traj. err.)
- 概念定义: 计算生成失败的轨迹所占的比例。如果一个生成运动中，任何一个受控关节点在任何一帧的位置与给定的控制轨迹的对应位置误差超过一个阈值（本文为50cm），则认为该轨迹生成失败。值越低，控制越精确。
指标 2: 位置误差 (Location error, Loc. err.)
- 概念定义: 计算所有受控关节点中，生成失败的关节点所占的比例。值越低，表示关节点级别的控制越好。
指标 3: 平均误差 (Average error, Avg. err.)
- 概念定义: 计算所有受控关节点在所有受控帧上的平均位置误差（欧氏距离）。这是最直接的控制精度度量，值越低越好。

5.3. 对比基线

论文将 MotionLCM 与一系列具有代表性的 T2M 模型进行了比较，涵盖了不同技术路线和发展阶段的模型：

非扩散模型: TEMOS [49], T2M [17] (基于 VAE 和 Transformer 的方法)
基于扩散模型:
- MDM [65]: 在原始运动空间扩散的代表作。
- MotionDiffuse [83]: 另一个重要的扩散模型基线。
- MLD [9]: 在潜在空间扩散的代表作，也是 MotionLCM 的教师模型。
可控生成模型:
- OmniControl [73]: 最先进的可控运动生成方法之一。
  
  这些基线的选择覆盖了从早期方法到最先进的扩散模型，能够全面地评估 MotionLCM 在质量、效率和可控性上的相对优势。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 文本到运动生成 (Text-to-motion) 任务

该实验旨在验证 MotionLCM 在无额外控制信号时，作为基础 T2M 生成器的性能。

数据呈现 (表格): 以下是原文 Table 1 的结果，比较了 MotionLCM 与其他 SOTA 方法在 HumanML3D 数据集上的性能。

Methods	AITS ↓	R-Precision ↑			FID ↓	MM Dist ↓	Diversity →	MModality ↑
Methods	AITS ↓	Top 1	Top 2	Top 3	FID ↓	MM Dist ↓	Diversity →	MModality ↑
Real	-	0.511±.003	0.703±.003	0.797±.002	0.002±.000	2.974±.008	9.503±.065	-
Seq2Seq [37]	-	0.180±.002	0.300±.002	0.396±.002	11.75±.035	5.529±.007	6.223±.061	-
JL2P [2]	-	0.246±.002	0.387±.002	0.486±.002	11.02±.046	5.296±.008	7.676±.058	-
T2G [5]	-	0.165±.001	0.267±.002	0.345±.002	7.664±.030	6.030±.008	6.409±.071	-
Hier [14]	-	0.301±.002	0.425±.002	0.552±.004	6.532±.024	5.012±.018	8.332±.042	-
TEMOS [49]	0.017	0.424±.002	0.612±.002	0.722±.002	3.734±.028	3.703±.008	8.973±.071	0.368±.018
T2M [17]	0.038	0.457±.002	0.639±.003	0.740±.003	1.067±.002	3.340±.008	9.188±.002	2.090±.083
MDM [65]	24.74	0.320±.005	0.498±.004	0.611±.007	0.544±.044	5.566±.027	9.559±.086	2.799±.072
MotionDiffuse [83]	14.74	0.491±.001	0.681±.001	0.782±.001	0.630±.001	3.113±.001	9.410±.049	1.553±.042
MLD [9]	0.217	0.481±.003	0.673±.003	0.772±.002	0.473±.013	3.196±.010	9.724±.082	2.413±.079
MLD* [9]	0.225	0.504±.002	0.698±.003	0.796±.002	0.450±.011	3.052±.009	9.634±.064	2.267±.082
MotionLCM (1-step)	0.030	0.502±.003	0.701±.002	0.803±.002	0.467±.012	3.022±.009	9.631±.066	2.172±.082
MotionLCM (2-step)	0.035	0.505±.003	0.705±.002	0.805±.002	0.368±.011	2.986±.008	9.640±.052	2.187±.094
MotionLCM (4-step)	0.043	0.502±.003	0.698±.002	0.798±.002	0.304±.012	3.012±.007	9.607±.066	2.259±.092

分析:

压倒性的速度优势: MotionLCM (1-step) 的 AITS 仅为 0.030秒 (30ms)，达到了实时水平。相比之下，它的教师模型 $MLD*$ 需要 0.225秒（快7.5倍），而 MDM 需要 24.74秒（快约825倍）。这是一个数量级的提升，有力地证明了一致性蒸馏的有效性。下图（原文 Figure 2）直观地展示了这一点。

$Fig.2: Comparison of the inference time costs on HumanML3D \[17\]. We compare the AITS and FID metrics with five SOTA methods. The closer the model is to the origin the better. Diffusion-based models are indicated by the blue dashed box. Our MotionLCM achieves real-time inference speed while ensuring high-quality motion generation.$ 该图像是对 HumanML3D 上推断时间成本的比较图。通过 AITS 和 FID 两个指标，我们与五个 SOTA 方法进行了比较，目标越接近原点效果越好。图中蓝色虚线框内为扩散模型。我们的 MotionLCM 在确保高质量运动生成的同时，也实现了实时推断速度。
高质量的生成: 尽管速度极快，MotionLCM (1-step) 在各项质量指标上并没有妥协。它的 R-Precision 和 MM Dist 等指标与需要50步采样的 $MLD*$ 相当甚至略优，表明其生成的运动与文本描述高度匹配。
少量步数进一步提升质量: 当采样步数增加到2步或4步时，MotionLCM 的性能得到进一步提升。特别是 FID 指标，从1步的 0.467 降低到4步的 0.304，超过了所有对比的扩散模型，达到了最先进的水平。这表明 MotionLCM 提供了极佳的质量-效率权衡：用户可以根据应用需求，选择1步实现极致速度，或选择2-4步获取更高质量。

6.1.2. 可控运动生成任务

该实验评估 MotionLCM 在给定初始姿态条件下生成后续运动的能力。

数据呈现 (表格): 以下是原文 Table 2 的结果，比较了 MotionLCM 与 OmniControl 和 MLD 的可控生成性能。

Methods	AITS↓	FID ↓	R-Precision ↑ Top 3	Diversity →	Traj. err. ↓ (50cm)	Loc. err. ↓ (50cm)	Avg. err. ↓
Real	-	0.002	0.797	9.503	0.0000	0.0000	0.0000
OmniControl [73]	81.00	2.328	0.557	8.867	0.3362	0.0322	0.0977
MLD [9] (LC)	0.552	0.469	0.723	9.476	0.4230	0.0653	0.1690
MotionLCM (1-step, LC)	0.042	0.319	0.752	9.424	0.2986	0.0344	0.1410
MLD [9] (LC&MC)	0.552	0.555	0.754	9.373	0.2722	0.0215	0.1265
MotionLCM (1-step, LC&MC)	0.042	0.419	0.756	9.390	0.1988	0.0147	0.1127
MotionLCM (2-step, LC&MC)	0.047	0.397	0.759	9.469	0.1960	0.0143	0.1092

注：LC (Latent Control) 指仅在潜在空间施加重构损失，LC&MC (Latent & Motion Control) 指同时使用潜在空间重构损失和运动空间控制损失。