论文状态：已完成

DartControl: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control

发表：2024/10/08

扩散模型自回归动作生成 (1)基于文本的人类动作生成 (1)实时动作控制 (1)空间约束下的动作生成 (1)强化学习运动决策 (1)

价格：0.100000

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为DartControl（DART）的基于扩散的自回归运动模型，以实现实时文本驱动的运动控制。该模型克服了现有方法生成短小运动的限制，通过学习紧凑的运动基元空间，结合运动历史与文本输入，实现了对复杂长时序运动的生成，满足空间控制需求，展现了优越的效率与真实感。

摘要

Text-conditioned human motion generation, which allows for user interaction through natural language, has become increasingly popular. Existing methods typically generate short, isolated motions based on a single input sentence. However, human motions are continuous and can extend over long periods, carrying rich semantics. Creating long, complex motions that precisely respond to streams of text descriptions, particularly in an online and real-time setting, remains a significant challenge. Furthermore, incorporating spatial constraints into text-conditioned motion generation presents additional challenges, as it requires aligning the motion semantics specified by text descriptions with geometric information, such as goal locations and 3D scene geometry. To address these limitations, we propose DartControl, in short DART, a Diffusion-based Autoregressive motion primitive model for Real-time Text-driven motion control. Our model effectively learns a compact motion primitive space jointly conditioned on motion history and text inputs using latent diffusion models. By autoregressively generating motion primitives based on the preceding history and current text input, DART enables real-time, sequential motion generation driven by natural language descriptions. Additionally, the learned motion primitive space allows for precise spatial motion control, which we formulate either as a latent noise optimization problem or as a Markov decision process addressed through reinforcement learning. We present effective algorithms for both approaches, demonstrating our model's versatility and superior performance in various motion synthesis tasks. Experiments show our method outperforms existing baselines in motion realism, efficiency, and controllability. Video results are available on the project page: https://zkf1997.github.io/DART/.

思维导图

论文精读

中文精读约 46 分钟读完 · 32,830 字

1. 论文基本信息

1.1. 标题

DARTCONTROL: A DIFFUSION-BASED AUTORegREssive Motion Model for Real-Time Text-Driven Motion Control (DartControl：一种基于扩散的自回归运动基元模型，用于实时文本驱动运动控制)

1.2. 作者

Kaifeng Zhao (赵凯峰), Gen Li (李根), Siyu Tang (汤思宇) 隶属机构：ETH Zürich (苏黎世联邦理工学院)

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台，其正式发表的期刊或会议未在原文中明确提及，但通常此级别的研究会提交至顶级的计算机视觉或图形学会议（如 CVPR, ICCV, SIGGRAPH, NeurIPS, ICLR）。

1.4. 发表年份

2024年

1.5. 摘要

本文提出了一种名为 DartControl（简称 DART）的基于扩散的自回归运动基元模型，用于实时文本驱动运动控制。该模型有效学习了一个紧凑的运动基元空间，并结合运动历史和文本输入进行条件化，利用了潜在扩散模型 (latent diffusion models)。通过基于先前的运动历史和当前文本输入自回归地生成运动基元，DART 实现了由自然语言描述驱动的实时、序列运动生成。此外，所学习的运动基元空间还允许精确的空间运动控制 (spatial motion control)，这被公式化为潜在噪声优化问题 (latent noise optimization problem) 或通过强化学习 (reinforcement learning, RL) 解决的马尔可夫决策过程 (Markov decision process)。作者提出了针对这两种方法的有效算法，展示了模型的通用性和在各种运动合成任务中的卓越性能。实验表明，该方法在运动真实感、效率和可控性方面优于现有基线。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2410.05260
PDF 链接: https://arxiv.org/pdf/2410.05260v3.pdf
发布状态: 预印本 (Preprint)，发布时间为 UTC 2024-10-07T17:58:22.000Z。

2. 整体概括

2.1. 研究背景与动机

核心问题： 现有的人类运动生成方法在处理长、复杂、连续且需要实时响应文本描述以及精确空间约束的场景时面临显著挑战。

重要性与现有挑战：

文本条件人类运动生成 (Text-conditioned human motion generation) 日益流行，因为它允许用户通过自然语言进行交互。然而，现有方法通常生成基于单个输入句子的短小、独立的运动，无法处理人类运动的连续性、长期性和语义丰富性。
长而复杂的运动生成： 创建能够精确响应文本描述流的长期复杂运动，特别是在在线 (online) 和实时 (real-time) 环境中，仍然是一个重大挑战。FlowMDM 等最先进的时间运动合成 (temporal motion composition) 方法是离线 (offline) 的，需要预先知道整个动作时间线，并且生成速度慢，不适用于实时应用。
空间约束整合： 将空间约束 (spatial constraints) 整合到文本条件运动生成中带来了额外的挑战。这要求将文本描述指定的运动语义与几何信息（如目标位置和 3D 场景几何）对齐，而现有方法往往难以有效平衡空间控制、运动质量和文本语义对齐。
交互式角色控制 (Interactive character control) 在计算机图形学中长期受到关注，但大多数工作缺乏对文本条件语义控制的支持，并且受限于小规模、精心策划的数据集。结合文本条件运动生成可以为动画师和日常用户提供直观的语言界面，减少指定详细空间控制信号的繁琐工作。

论文的切入点/创新思路： 为了解决上述限制，本文提出 DART 模型。其核心思路是：

将长运动分解为可重叠的短运动基元 (motion primitives)，实现自回归生成。
利用潜在扩散模型 (latent diffusion model) 学习文本条件化的运动基元空间，并能高效生成。
在学习到的紧凑运动基元空间中，通过潜在噪声优化 (latent noise optimization) 或强化学习 (reinforcement learning) 实现精确的空间控制 (spatial control)。

2.2. 核心贡献/主要发现

DART 的核心贡献体现在以下三个关键组件和发现：

自回归运动基元表示 (Autoregressive Motion Primitive Representation)：
- DART 将人类运动表示为一系列运动基元 (motion primitives) 的集合，这些基元是包含重叠的短运动片段的自回归表示 (autoregressive representations)，特别适用于在线生成和控制。
- 专注于较短的基元，避免了建模整个运动序列的复杂性，只需少量扩散步骤即可实现高质量运动生成。
基于潜在扩散的自回归运动生成模型 (Latent Diffusion-Based Autoregressive Motion Generation Model)：
- DART 使用潜在扩散架构 (latent diffusion architecture) 从大规模数据中学习文本条件化的自回归运动生成模型 (text-conditioned autoregressive motion generation model)。
- 该架构包含一个变分自编码器 (variational autoencoder, VAE)，用于学习紧凑的潜在运动基元空间 (compact latent motion primitive space)，以及一个去噪网络 (denoiser network)，用于根据文本和历史生成运动基元。
- 通过自回归展开，DART 能够根据实时文本输入合成任意长度的运动序列，实现高效的实时响应（生成速度超过 300 帧/秒，延迟 0.02 秒），比离线方法 FlowMDM 快约 10 倍。
空间可控运动合成框架 (Spatially Controllable Motion Synthesis Framework)：
- DART 引入了一个基于其学习到的真实人类运动空间的潜在空间控制框架 (latent space control framework)，以实现精确的空间运动控制 (spatial motion control)。
- 提出了两种有效算法来探索潜在扩散噪声空间 (latent diffusion noise space)，以合成精确遵循文本和空间约束的运动序列：
  - 潜在噪声优化 (Latent Noise Optimization)： 直接使用梯度下降优化潜在噪声。
  - 强化学习 (Reinforcement Learning, RL)： 将控制任务建模为马尔可夫决策过程 (Markov decision process)，并通过 RL 学习控制策略。
- 实验结果表明，DART 在运动真实感、效率和可控性方面优于现有基线，并在各种运动合成任务（包括长连续序列生成、中间运动生成、场景条件运动和目标到达合成）中表现出卓越或匹配的性能。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 变分自编码器 (Variational Autoencoder, VAE)

VAE 是一种生成模型，属于深度学习中的自编码器 (Autoencoder) 家族。它的核心思想是学习数据的一个低维潜在表示 (low-dimensional latent representation)，同时能够从这个潜在空间中生成新的数据。

编码器 (Encoder)：将输入数据（如图像、运动序列）映射到一个潜在空间 (latent space) 中的概率分布（通常是高斯分布）的参数（均值和方差）。
重参数化技巧 (Reparameterization Trick)：为了使 VAE 能够通过梯度下降 (gradient descent) 进行训练，需要从潜在分布中采样。重参数化技巧 允许在采样过程中保持梯度的可回溯性，即 $z = \mu + \sigma \cdot \epsilon$ ，其中 $\epsilon \sim \mathcal{N}(0, I)$ 是标准高斯噪声。
解码器 (Decoder)：将潜在空间中的样本映射回原始数据空间，试图重建原始输入。
损失函数 (Loss Function)：VAE 的训练目标包括两部分：
1. 重建损失 (Reconstruction Loss)：衡量解码器重建的数据与原始输入数据之间的相似度。
2. KL 散度损失 (KL Divergence Loss)：约束编码器输出的潜在分布接近一个先验分布（通常是标准高斯分布），这有助于潜在空间的良好结构化和新样本的生成。 DART 使用 VAE 将运动基元压缩到紧凑的潜在空间，以减少数据中的噪声和提高计算效率。

3.1.2. 扩散模型 (Diffusion Models)

扩散模型 是一类新兴的生成模型 (Generative Models)，在图像、音频和运动生成等领域取得了卓越的性能。其核心思想是通过前向扩散过程 (forward diffusion process) 逐步向数据添加噪声，然后学习一个逆向去噪过程 (reverse denoising process) 来从噪声中恢复原始数据。

前向扩散过程：这个过程是固定的，通过预设的噪声调度 (noise schedule) $\beta_t$ 逐步向原始数据 $\mathbf{x}_0$ 添加高斯噪声，生成一系列逐渐嘈杂的样本 $\mathbf{x}_1, \ldots, \mathbf{x}_T$ 。当 $T$ 足够大时， $\mathbf{x}_T$ 将近似于一个纯高斯噪声。 $q(\mathbf{x}_t | \mathbf{x}_{t-1}) = \mathcal{N}(\sqrt{1 - \beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I})$
逆向去噪过程：这是一个学习过程，通过神经网络（通常是 U-Net 架构）学习从 $\mathbf{x}_t$ 预测出 $\mathbf{x}_{t-1}$ 。这个网络通常被训练来预测在每个时间步添加的噪声 $\epsilon_t$ ，然后从 $\mathbf{x}_t$ 中减去这个预测的噪声来得到更清晰的样本。通过迭代地从纯噪声 $\mathbf{x}_T$ 中去除噪声，最终可以生成出高质量的原始数据样本。
潜在扩散模型 (Latent Diffusion Models, LDM)：为了提高效率和处理高分辨率数据，LDM 首先使用 VAE 将高维数据（如图像或运动）压缩到一个低维的潜在空间 (latent space)。然后，扩散模型在这个潜在空间中进行扩散和去噪操作。DART 正是采用了这种 LDM 架构，在 VAE 学习到的运动基元潜在空间中进行扩散。

3.1.3. 自回归模型 (Autoregressive Models)

自回归模型 是一类序列模型，其核心思想是根据序列中先前的元素 (previous elements) 来预测当前或未来的元素 (current or future elements)。这种模型广泛应用于自然语言处理、时间序列分析和运动生成。

原理：在每个时间步，模型接收到之前生成的所有元素作为输入，并生成下一个元素。这个过程是顺序的，并且依赖于历史信息。
优点：能够捕捉序列中的长期依赖关系和时间动态。
缺点：生成过程是顺序的，可能导致生成速度较慢，并且在长序列中容易出现误差累积 (error accumulation)。 DART 通过自回归地生成运动基元（而非单个帧），在保证实时性的同时，有效处理了长序列运动的生成。

3.1.4. 运动基元 (Motion Primitives)

运动基元 是一种将复杂、连续运动分解为更小、更简单、可重用的基本运动单元的方法。

定义：每个运动基元通常是一个短的运动片段，包含一部分历史运动（用于连接）和一部分未来运动（用于生成）。
优势：
1. 简化建模：将全局复杂的长序列分解为局部简单且更易于建模的基元。
2. 在线生成：通过顺序连接基元，实现实时的、连续的运动生成。
3. 语义对齐：短基元比长序列更能传达可解释的原子动作语义，有助于模型学习文本条件化的运动空间。
4. 效率：训练和推理所需的计算资源更少。 DART 将人类运动表示为一系列包含重叠帧的运动基元，从而实现了高效的自回归生成。

3.1.5. SMPL-X 模型

SMPL-X (Skinned Multi-Person Linear Model with eXpressions) 是一种参数化人体模型 (parametric human body model)，能够以低维参数表示复杂的人体姿态、形状、面部表情和手部姿态。

参数：
- 姿态参数 (Pose parameters)：通常包括全局身体根部姿态（平移和旋转）以及各个关节的局部旋转。
- 形状参数 (Shape parameters)：控制人体的身高、体重等静态特征。
- 表情参数 (Expression parameters)：控制面部表情。
- 手部姿态参数 (Hand pose parameters)：控制手部姿态。
输出：给定这些参数，SMPL-X 可以生成 3D 网格（包含顶点和面），以及关键关节的位置。 DART 使用基于 SMPL-X 的过度参数化表示 (overparameterized representation) 来描述每个运动帧，其中包括身体根部平移、根部方向、局部关节旋转、关节位置以及位置和旋转的时间差特征，维度为 $D=276$ 。

3.1.6. 强化学习 (Reinforcement Learning, RL)

强化学习 是一种机器学习范式，智能体 (agent) 通过与环境 (environment) 交互来学习如何做出决策以最大化累积奖励 (cumulative reward)。

智能体 (Agent)：执行动作的实体。
环境 (Environment)：智能体所处的系统，接收智能体的动作并返回新的状态和奖励。
状态 (State)：环境在某个时间点的描述。
动作 (Action)：智能体在给定状态下可以执行的操作。
奖励 (Reward)：环境对智能体动作的反馈信号，可以是正的（鼓励）或负的（惩罚）。
策略 (Policy)：智能体从状态到动作的映射，决定了智能体在特定状态下应该采取什么动作。
价值函数 (Value Function)：评估在特定状态下或执行特定动作后，未来能获得的累积奖励。 DART 将运动控制任务建模为马尔可夫决策过程 (Markov Decision Process, MDP)，并使用 RL 来学习控制策略，从而实现精确的空间运动控制。

3.1.7. 马尔可夫决策过程 (Markov Decision Process, MDP)

MDP 是用于建模序贯决策 (sequential decision making) 的数学框架，是 强化学习 的理论基础。

核心属性：马尔可夫性 (Markov Property)，即未来状态只依赖于当前状态和当前动作，而与过去的状态和动作无关。
主要元素：
- 状态集合 $S$ ：所有可能的状态。
- 动作集合 $A$ ：所有可能的动作。
- 状态转移概率 $P(s' | s, a)$ ：在状态 $s$ 执行动作 $a$ 后转移到状态 $s'$ 的概率。
- 奖励函数 R(s, a, s')：在状态 $s$ 执行动作 $a$ 转移到状态 $s'$ 后获得的奖励。
- 折扣因子 $\gamma \in [0, 1)$ ：衡量未来奖励的重要性。 DART 将其运动控制问题抽象为 MDP，其中潜在噪声是动作，运动历史、目标和场景信息是状态，而控制目标（如到达目的地、避免碰撞）则通过奖励函数体现。

3.1.8. 分类器自由引导 (Classifier-Free Guidance)

分类器自由引导 是一种在条件生成模型（特别是扩散模型）中提高条件对齐 (conditional alignment) 的技术，而无需额外的分类器。

原理：在去噪过程中，同时计算带有条件输入（如文本提示 $c$ ）和无条件输入（空文本 $\emptyset$ ）的噪声预测。然后，通过一个引导尺度 (guidance scale) $w$ 来放大条件预测与无条件预测之间的差异。 $\mathcal{G}_w(\mathbf{z}_t, t, \mathbf{H}, c) = \mathcal{G}(\mathbf{z}_t, t, \mathbf{H}, \emptyset) + w \cdot (\mathcal{G}(\mathbf{z}_t, t, \mathbf{H}, c) - \mathcal{G}(\mathbf{z}_t, t, \mathbf{H}, \emptyset))$ 其中， $\mathcal{G}$ 是去噪网络， $\mathbf{z}_t$ 是带噪声的潜在样本， $t$ 是时间步， $\mathbf{H}$ 是历史运动。
作用：增加引导尺度 $w$ 可以使生成结果更严格地遵循条件，但过大的 $w$ 可能导致生成质量下降或模式崩溃。 DART 在采样过程中使用了 分类器自由引导 来增强文本条件对运动生成的控制。

3.2. 前人工作

3.2.1. 文本条件运动生成 (Text-Conditioned Motion Generation)

早期工作：如 TEACH (Athanasiou et al., 2022)、T2M-GPT (Zhang et al., 2023a)、MotionDiffuse (Zhang et al., 2022a)、TEMOS (Petrovich et al., 2022) 等，主要关注从单个描述性句子生成独立的短运动。这些方法在生成长而复杂的运动序列时存在局限性，特别是在需要精确控制多个动作片段时。
时间运动合成 (Temporal Motion Composition)：FlowMDM (Barquero et al., 2024) 是该领域的最先进 (state-of-the-art) 方法之一，能够通过组合期望动作生成复杂、连续的运动。然而，FlowMDM 是一个离线方法 (offline method)，需要预先知道完整的动作时间线，并且生成速度较慢，不适用于在线和实时应用。
DART 的差异：DART 专注于在线 (online) 和实时 (real-time) 的长序列生成，通过自回归的运动基元克服了离线方法的限制。

3.2.2. 空间控制运动生成 (Spatially Controlled Motion Generation)

近期尝试：DoubleTake (Shafir et al., 2024)、DNO (Karunratanakul et al., 2024b)、OmniControl (Xie et al., 2024) 等工作试图将文本条件运动模型与空间控制能力相结合。
挑战：这些方法在有效平衡空间控制、运动质量和文本语义对齐方面仍面临挑战，并且通常仅限于离线生成独立的短运动。
DART 的差异：DART 在其学习到的运动基元潜在空间中提供了统一的优化 (optimization) 和强化学习 (RL) 框架，以实现精确的空间控制，同时保持高质量运动和文本语义对齐。

3.2.3. 交互式角色控制 (Interactive Character Control)

传统方法：Kovar et al., 2008、Holden et al., 2015、Ling et al., 2020、Peng et al., 2022 等，主要关注运动真实感和对交互控制信号的响应。
局限：大多数这些工作缺乏对文本条件语义控制的支持，并且受限于小型、精心策划的数据集。
DART 的差异：DART 通过引入文本条件生成，为角色控制提供了直观的语言界面，减少了手动指定详细空间控制信号的繁琐工作。

3.2.4. 扩散生成模型 (Diffusion Generative Models)

基础：Ho et al., 2020、Song et al., 2021a、Song et al., 2021b 等工作奠定了扩散模型的基础。它们在图像、视频和 3D 人类运动 (如 Tevet et al., 2023) 等生成任务中取得了前所未有的性能。
条件生成：扩散模型可以接受灵活的条件（如文本提示、图像、音频、3D 对象）来调制生成 (Rombach et al., 2022)。
现有扩散运动模型：大多数现有方法 (Tevet et al., 2023、Barquero et al., 2024) 侧重于短的、独立的运动序列的离线生成 (offline generation)，而忽略了人类运动的自回归 (autoregressive) 特性。
相关工作 DNO：DNO (Karunratanakul et al., 2024b) 与 DART 的优化方法相关，都使用扩散噪声作为潜在空间进行编辑和控制。但 DNO 的扩散模型是在显式运动表示 (explicit motion representations) 的完整运动序列上训练的。
DART 的差异：DART 采用基于潜在运动基元 (latent motion primitive-based) 的扩散模型，通过学习更简单的基元分布和自回归机制，实现了卓越的性能，特别是在协调空间控制与文本语义对齐方面。此外，DART 通过调度训练 (scheduled training) 处理历史条件，并能实现实时在线生成。
同期工作 CloSD：CloSD (Tevet et al., 2025) 训练自回归运动扩散模型，以目标关节位置为条件来引导人体运动。但它依赖于成对的训练数据 (paired training data)。
DART 的差异：DART 从仅运动数据 (motion-only data) 中学习潜在运动空间，并通过潜在空间控制方法实现灵活的控制目标，而无需成对的训练数据。

3.3. 技术演进

人类运动生成领域的技术演进经历了从基于规则和运动图谱 (motion graphs) 的传统方法，到基于深度学习的生成模型（如 GAN、VAE），再到近期扩散模型的兴起。

早期：主要依赖运动捕捉 (motion capture, MoCap) 数据库，通过拼接或插值 (interpolation) 来生成新运动。运动图谱 允许生成更长的、多样化的运动，但缺乏高层语义控制。
深度学习初期：引入 RNN、LSTM 等序列模型进行运动预测和生成，但往往受限于固定长度序列或难以生成复杂、长期的运动。VAE 等模型开始探索学习潜在运动空间。
文本条件生成兴起：随着自然语言处理 (NLP) 技术的发展，研究者开始尝试将文本描述作为条件来生成运动，使得用户能够更直观地控制生成内容。早期的 GAN 和 Transformer 模型（如 T2M-GPT）在此方向上做出了贡献，但通常仅限于生成短序列。
扩散模型崛起：扩散模型在图像和视频生成领域的巨大成功促使其被引入运动生成。它们能够生成高质量、多样化的运动，但多数为离线生成 (offline generation)，难以满足实时交互需求。
DART 的位置：DART 代表了这一演进中的一个重要步骤，它结合了扩散模型的生成能力、自回归建模的序列生成能力和运动基元的效率。更重要的是，它将文本条件控制与空间约束相结合，并通过潜在空间优化和强化学习两种范式实现了实时在线控制，填补了现有方法在长序列、实时、多模态控制方面的空白。

3.4. 差异化分析

DART 与现有主要方法的区别和创新点体现在以下几个方面：

实时性与在线生成 (Real-time & Online Generation)：
- 现有挑战：大多数先进的文本条件运动生成方法（如 FlowMDM、Tevet et al., 2023）是离线 (offline) 的，需要预先知道完整的动作时间线，或者生成速度慢。
- DART 的创新：DART 通过其自回归运动基元模型 (autoregressive motion primitive model) 和高效的潜在扩散架构 (latent diffusion architecture)，实现了实时 (real-time)、在线 (online) 的运动生成。生成速度超过 300 帧/秒，延迟仅 0.02 秒，远超现有基线。
运动基元表示 (Motion Primitive Representation)：
- 现有挑战：直接建模整个长运动序列非常复杂，数据分布难以学习。
- DART 的创新：将长运动分解为重叠的短运动基元 (motion primitives)，简化了学习任务，使得扩散模型可以在更简单、更紧凑的潜在空间中高效工作，并且只需少量扩散步骤（10步）即可生成高质量运动。这比 Shi et al., 2024 的单帧预测更有效。
统一的空间控制框架 (Unified Spatial Control Framework)：
- 现有挑战：文本条件运动模型往往难以整合精确的空间约束，或在平衡空间控制、运动质量和文本语义对齐方面表现不佳。CloSD (Tevet et al., 2025) 需要成对的控制信号训练数据。
- DART 的创新：在学习到的高质量潜在运动基元空间 (latent motion primitive space) 上，DART 提供了两种通用的、无需成对控制信号训练数据的空间控制机制：
  - 潜在噪声优化 (Latent Noise Optimization)：通过梯度下降直接优化潜在噪声，适用于各种目标。
  - 强化学习 (Reinforcement Learning, RL)：将控制任务建模为 MDP，学习灵活的控制策略，实现实时的目标到达。
- DART 能够更好地协调空间控制与文本语义对齐 (harmonize spatial control with text semantic alignment)，在 in-between 任务中优于 DNO (Karunratanakul et al., 2024b)，后者偶尔会忽略文本提示。
高效的潜在空间学习 (Efficient Latent Space Learning)：
- 现有挑战：直接在原始运动数据空间训练扩散模型容易继承数据中的伪影（如抖动）。DNO 在显式运动表示上训练扩散模型。
- DART 的创新：通过变分自编码器 (VAE) 学习一个紧凑 (compact) 且去噪 (denoised) 的潜在运动基元空间 (latent motion primitive space)。这显著减轻了原始运动数据中伪影的影响，生成运动的抖动更少，真实感更高。
调度训练 (Scheduled Training)：
- 现有挑战：自回归生成在长期预测中容易出现分布漂移 (distribution shift) 和误差累积 (error accumulation)，导致生成不稳定或对条件响应能力下降。
- DART 的创新：采用调度训练 (scheduled training) 策略，在训练过程中逐步引入测试时（test-time）的历史运动分布（即使用模型自身生成的结果作为历史输入），显著提高了长期生成稳定性及文本提示的可控性。
  
  这些创新点共同使得 DART 成为一个通用、高效且强大的运动模型，能够支持文本驱动的实时在线运动合成以及多种空间控制任务。

4. 方法论

4.1. 方法原理

DART 的核心思想是，将复杂的、连续的人类运动分解为一系列重叠的运动基元 (motion primitives)，并通过一个潜在扩散模型 (latent diffusion model) 来学习这些基元的生成。这个生成过程是自回归 (autoregressive) 的，即每个基元的生成都依赖于先前的历史运动和当前的文本描述。为了实现精确的空间控制 (spatial control)，DART 进一步将控制问题转化为在学习到的潜在空间中的优化或强化学习任务。

整个方法可以概括为以下三个主要步骤：

运动基元表示 (Motion Primitive Representation)：将长运动序列分割成带有重叠的历史和未来帧的短片段，即运动基元。
DART 模型 (DART Model)：
- 学习潜在运动基元空间 (Learning Latent Motion Primitive Space)：使用变分自编码器 (VAE) 将原始运动基元压缩成一个紧凑、去噪的潜在表示。
- 潜在运动基元扩散模型 (Latent Motion Primitive Diffusion Model)：在这个潜在空间中训练一个扩散模型，以根据运动历史和文本提示自回归地生成新的潜在运动基元。
空间可控运动合成 (Spatially Controllable Motion Synthesis)：利用学习到的潜在运动空间，通过潜在噪声优化 (latent noise optimization) 或强化学习 (reinforcement learning) 来实现对运动的精确空间控制。

4.2. 核心方法详解 (逐层深入)

4.2.1. 问题定义 (Problem Definition)

本文关注的是文本条件化的在线运动生成 (text-conditioned online motion generation) 及其空间控制 (spatial control) 任务。给定：

一个 $H$ 帧的起始运动 (seed motion) $\mathbf{H}_{seed} = [\mathbf{h}^1, ..., \mathbf{h}^H]$ 。
一个包含 $N$ 个文本提示的序列 $\boldsymbol{C} = [c^1, ..., c^N]$ 。
空间目标 (spatial goals) $g$ 。目标是自回归 (autoregressively) 地生成连续且真实的人类运动序列 $\mathbf{M} = [\bar{\mathbf{H}}_{seed}, \mathbf{X}^1, ..., \mathbf{X}^N]$ ，其中每个运动片段 $\mathbf{X}^i$ 响应 $c^i$ 和 $g$ 。

4.2.2. 自回归运动基元表示 (Autoregressive Motion Primitive Representation)

为了实现高效的生成学习和在线推理，DART 将长期人类运动建模为运动基元 (motion primitives) 的序列组合，并引入了重叠。

运动基元定义：每个运动基元 $\mathbf{P}^i = [\mathbf{H}^i, \mathbf{X}^i]$ $P^{i} = [H^{i}, X^{i}]$ 是一个短运动剪辑。
- 它包含 $H$ 帧的历史运动 (history motion) $\mathbf{H}^i = [\mathbf{h}^{i,1}, ..., \mathbf{h}^{i,H}]$ 。
- 以及 $F$ 帧的未来运动 (future motion) $\mathbf{X}^i = [\mathbf{x}^{i,1}, ..., \mathbf{x}^{i,F}]$ 。
重叠机制：第 $i$ 个运动基元的历史运动 $\mathbf{H}^i$ 由前一个运动基元 $\mathbf{X}^{i-1}$ 的最后 $H$ 帧组成，具体为 $\mathbf{X}^{i-1, F-H+1:F}$ 。
长运动序列表示：通过这种重叠机制，无限长的运动可以表示为运动基元的展开序列： $\mathbf{M} = [\bar{\mathbf{H}}_{seed}, \mathbf{X}^1, ..., \mathbf{X}^N]$ 。
具体参数：在实验中，DART 使用历史长度 $H=2$ 帧和未来长度 $F=8$ 帧。
人体表示：每个运动帧使用基于 SMPL-X (Pavlakos et al., 2019) 参数化人体模型的过度参数化表示 (overparameterized representation)。
- 每个帧被表示为一个 $D = 276$ $D = 276$ 维的向量，包括：
  - 身体根部平移 (body root translation) $\mathbf{t} \in \mathbb{R}^3$ 。
  - 根部方向 (root orientation) $\mathbf{R} \in \mathbb{R}^6$ （使用 6D 旋转表示）。
  - 21 个局部关节旋转 (local joint rotations) $\pmb{\theta} \in \mathbb{R}^{21 \times 6}$ （使用 6D 表示）。
  - 22 个关节位置 (joint locations) $\mathbf{J} \in \mathbb{R}^{22 \times 3}$ 。
  - 位置和旋转的时间差特征 (temporal difference features)： $\mathbf{dt} \in \mathbb{R}^3$ （与前一帧平移的差值）， $\mathrm{d}\mathbf{R} \in \mathbb{R}^6$ （与前一帧旋转的差值）， $\mathrm{d}\mathbf{J} \in \mathbb{R}^{22 \times 3}$ （与前一帧关节位置的差值）。
- 这种表示是过度参数化的，但具有多个优点：与动画管道兼容，无需耗时的骨骼到身体转换；包含关节位置有助于解决物理约束（如减少脚部滑动）；时间差特征可以提高运动的自然性。
规范化 (Canonicalization)：每个运动基元都在一个以第一帧身体骨盆为中心的局部坐标系中进行规范化。
- 原点位于第一帧骨盆关节。
- X 轴是左髋关节到右髋关节向量的水平投影。
- Z 轴指向与重力相反的方向。
- 通过算法 3（Motion primitive rotation canonicalization）计算局部轴系统。

4.2.3. DART：基于扩散的自回归运动基元模型 (DART: A Diffusion-Based Autoregressive Motion Primitive Model)

DART 提出了一个潜在扩散模型 (latent diffusion model)，用于无缝的自回归运动生成 (autoregressive motion generation)，并以文本提示和运动历史为条件。模型包含一个变分自编码器 (VAE) 和一个潜在去噪扩散模型 (latent denoising diffusion model)。

4.2.3.1. 学习潜在运动基元空间 (Learning the Latent Motion Primitive Space)

DART 首先使用运动基元 VAE (motion primitive VAE) 将运动基元压缩到一个紧凑的潜在空间。这一设计灵感来源于观察到原始运动数据通常包含伪影（如故障和抖动），在原始空间训练扩散模型会导致生成结果继承这些伪影。VAE 的压缩显著缓解了这些离群伪影 (outlier artifacts) 的影响。

架构：运动基元 VAE 采用基于 Transformer 的架构（基于 MLD (Chen et al., 2023b)），包含一个编码器 (encoder) $\mathcal{E}$ $E$ 和一个解码器 (decoder) $\mathcal{D}$ $D$ (如图 1 所示)。
- 编码器 $\mathcal{E}$ ：输入历史运动帧 $\mathbf{H}$ 和未来运动帧 $\mathbf{X}$ 。输出潜在分布的均值 $\mathbf{T}_\mu$ 和方差 $\mathbf{T}_\sigma$ 。潜在样本 $\mathbf{z}$ 通过重参数化技巧 (reparameterization trick) 从预测分布中获得。潜在空间维度为 256。
- 解码器 $\mathcal{D}$ ：从零标记 (zero tokens) 预测未来帧 $\hat{\mathbf{X}}$ ，以潜在样本 $\mathbf{z}$ 和历史帧 $\mathbf{H}$ 为条件。
训练损失 (Losses)：运动基元 VAE 使用以下损失进行训练 (详见附录 C)： $\mathcal{L}_{VAE} = \mathcal{L}_{rec} + w_{KL} \times \mathcal{L}_{KL} + w_{aux} \times \mathcal{L}_{aux} + w_{SMPL} \times \mathcal{L}_{SMPL}$
- 重建损失 (Reconstruction loss) $\mathcal{L}_{rec}$ ：最小化重建未来帧 $\hat{\mathbf{X}}$ 与真实未来帧 $\mathbf{X}$ 之间的距离。使用 smoothed L1 loss。 $\mathcal{L}_{rec} = \mathcal{F}(\hat{\mathbf{X}}, \mathbf{X})$ 其中 $\mathcal{F}(\cdot, \cdot)$ 是距离函数。
- KL 散度正则化项 (Kullback-Leibler (KL) regularization term) $\mathcal{L}_{KL}$ ：惩罚预测分布与标准高斯分布之间的差异。使用小的 KL 项 $1e^{-6}$ 以保持潜在空间的表达能力。 $\mathcal{L}_{KL} = KL(q(\mathbf{z} | \mathbf{H}) \parallel \mathcal{N}(0, \mathbf{I}))$ 其中 $KL(\cdot, \cdot)$ 表示 KL 散度， $q(\mathbf{z} | \mathbf{H})$ 是编码器 $\mathcal{E}$ 预测的分布。
- 辅助损失 (Auxiliary losses) $\mathcal{L}_{aux}$ ：规范化预测的时间差特征（平移、全局方向、关节）与从预测运动特征计算出的实际时间差保持一致。这有助于减少重建中的抖动并提高运动质量。权重 $w_{aux}=100$ 。 $\mathcal{L}_{aux} = \mathcal{F}(\bar{\mathrm{d}\mathbf{t}}, \hat{\mathrm{d}\mathbf{t}}) + \mathcal{F}(\bar{\mathrm{d}\mathbf{J}}, \hat{\mathrm{d}\mathbf{J}}) + \mathcal{F}(\mathrm{d}\bar{\mathbf{R}}, \hat{\mathrm{d}\mathbf{R}})$ 例如，预测的根平移前两帧的差异 $(\bar{\mathrm{d}\mathbf{t}}^0 := \hat{\mathbf{t}}^1 - \hat{\mathbf{t}}^0)$ 应该与预测的第一帧根平移差异特征 $\hat{\mathrm{d}\mathbf{t}}^0$ 一致。
- SMPL 损失 (SMPL losses) $\mathcal{L}_{SMPL}$ $L_{SMP L}$ ：包含两部分，SMPL 基于的关节重建损失 $\mathcal{L}_{joint\_rec}$ $L_{j o in t_rec}$ 和关节一致性损失 $\mathcal{L}_{consistency}$ $L_{co n s i s t e n cy}$ 。权重 $w_{SMPL}=100$ $w_{SMP L} = 100$ 。 $\mathcal{L}_{SMPL} = \mathcal{L}_{joint\_rec} + \mathcal{L}_{consistency}$
  - SMPL 关节重建损失 $\mathcal{L}_{joint\_rec}$ ：惩罚从预测身体参数回归的关节与从真实身体参数回归的关节之间的差异。 $\mathcal{L}_{joint\_rec} = \mathcal{F}(\mathcal{I}(\hat{\mathbf{t}}, \hat{\mathbf{R}}, \hat{\pmb{\theta}}), \mathcal{I}(\mathbf{t}, \mathbf{R}, \pmb{\theta}))$ 其中 $\mathcal{I}$ 表示 SMPL 身体关节回归器，给定身体参数预测关节位置。
  - 关节一致性损失 $\mathcal{L}_{consistency}$ ：规范化预测的关节位置 $\hat{\mathbf{J}}$ 和预测的 SMPL 身体参数 $\hat{\mathbf{t}}, \hat{\mathbf{R}}, \hat{\pmb{\theta}}$ 始终一致地表示相同的身体关节。 $\mathcal{L}_{consistency} = \mathcal{F}(\hat{\mathbf{J}}, \mathcal{I}(\hat{\mathbf{t}}, \hat{\mathbf{R}}, \hat{\pmb{\theta}}))$

4.2.3.2. 潜在运动基元扩散模型 (Latent Motion Primitive Diffusion Model)

在紧凑的潜在运动基元空间之上，DART 通过概率分布 (probabilistic distribution) $q(\mathbf{z} | \mathbf{H}, c)$ 来进行文本条件化的自回归运动生成，并训练一个潜在扩散模型 (latent diffusion model) $\mathcal{G}$ 来近似它。

前向扩散过程 (Forward Diffusion Process)：从数据集中采样的运动基元及其通过编码器 $\mathcal{E}$ 获得的潜在表示 $\mathbf{z}_0$ 开始，前向扩散过程通过迭代地添加高斯噪声来产生一系列越来越嘈杂的样本 $\mathbf{z}_1, \ldots, \mathbf{z}_T$ ： $q(\mathbf{z}_t \bar{\vert} z_{t-1}) = \mathcal{N}(\sqrt{1 - \beta_t} \mathbf{z}_{t-1}, \beta_t \mathbf{I})$ 其中 $\beta_t$ 是噪声调度 (noise schedule) 超参数。
逆向去噪过程 (Reverse Denoising Process)：去噪模型 $\mathcal{G}$ $G$ 学习逆向过程 $p_\theta(\mathbf{z}_{t-1} \vert \mathbf{z}_t, t, \mathbf{H}, c) = \mathcal{N}(\mu_t, \Sigma_t)$ $p_{θ} (z_{t - 1} ∣ z_{t}, t, H, c) = N (μ_{t}, Σ_{t})$ ，用于生成运动基元，以运动历史 $\mathbf{H}$ $H$ 和文本标签 $c$ $c$ 为条件。
- 逆向过程的方差 $\Sigma_t$ 使用超参数进行调度。
- 均值 $\pmb{\mu}_t$ 使用去噪神经网络进行建模。
- 去噪模型 $\mathcal{G}$ 预测干净的潜在变量 $\hat{\mathbf{z}}_0 = \mathcal{G}(\mathbf{z}_t, t, \mathbf{H}, c)$ 。
- 均值 $\pmb{\mu}_t$ 可以从 $\hat{\mathbf{z}}_0$ 导出如下： $\pmb { \mu } _ { t } = \frac { \sqrt { \bar { \alpha } _ { t - 1 } } \beta _ { t } } { 1 - \bar { \alpha } _ { t } } \mathscr { G } ( \mathbf { z } _ { t } , t , \mathbf { H } , c ) + \frac { \sqrt { \alpha _ { t } } ( 1 - \bar { \alpha } _ { t - 1 } ) } { 1 - \bar { \alpha } _ { t } } \mathbf { z } _ { t }$ 其中 $\alpha_t = 1 - \beta_t$ 且 $\bar{\alpha}_t = \prod_{i=1}^t \alpha_i$ 。
去噪过程：通过从标准高斯噪声 $\mathbf{z}_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ 开始，使用去噪模型预测干净变量 $\hat{\mathbf{z}}_0$ ，然后将其扩散到较低噪声水平 $\mathbf{z}_{T-1}$ 。这个去噪过程迭代进行，直到获得干净的样本 $\mathbf{z}_0$ 。
去噪模型架构 (Denoiser Model Architecture)：如图 1 所示。
- 扩散步骤 $t$ 使用一个小的 MLP 进行嵌入。
- 文本提示 $c$ 使用 CLIP (Radford et al., 2021) 文本编码器进行编码。
- 训练期间，文本提示以 0.1 的概率随机遮蔽，以便在生成时启用分类器自由引导 (classifier-free guidance)。
解码回运动帧：干净的潜在变量 $\hat{\mathbf{z}}_0$ 可以使用冻结的解码器 $\mathcal{D}$ 转换回未来帧： $\hat{\mathbf{X}} = \mathcal{D}(\mathbf{H}, \hat{\mathbf{z}}_0)$ 。
去噪模型训练 (Denoiser Training)：去噪模型 $\mathcal{G}$ $G$ 使用简单目标 (simple objective) (Ho et al., 2020) 进行训练 (详见附录 D.1)。 $\mathcal{L}_{denoiser} = \mathcal{L}_{simple} + w_{rec} \times \mathcal{L}_{rec} + w_{aux} \times \mathcal{L}_{aux}$ $\mathcal{L}_{simple} = \mathbb{E}_{(\mathbf{z}_0, c) \sim q(\mathbf{z}_0, c), t \sim [1, T], \epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I})} \mathcal{F}(\mathcal{G}(\mathbf{z}_t, t, \mathbf{H}, c), \mathbf{z}_0)$ 其中 $\mathcal{F}(\cdot, \cdot)$ $F (\cdot, \cdot)$ 是距离函数（使用 smooth L1 loss）， $\mathcal{L}_{rec}$ $L_{rec}$ 和 $\mathcal{L}_{aux}$ $L_{a ux}$ 是在解码后的未来帧 $\hat{\mathbf{X}}$ $\hat{X}$ 上应用的重建损失和辅助损失，以确保解码出的运动基元是有效的。
- 扩散步数：训练和推理都只使用 10 个扩散步骤。由于运动基元表示的简单性，少量步骤足以生成真实的样本，从而实现高效的在线生成。
调度训练 (Scheduled Training)：为了提高长序列在线生成的稳定性以及对未见姿态的文本提示可控性，DART 采用调度训练 (scheduled training) (Ling et al., 2020; Bengio et al., 2015; Rempe et al., 2021) 来逐步引入测试时的历史运动分布 (详见附录 D.2)。
- 三个阶段：
  1. 全监督阶段 (Fully supervised stage)：训练期间只使用真实的历史运动。
  2. 调度学习阶段 (Scheduled learning stage)：随机替换真实历史运动为推演历史 (rollout history) 运动的概率从 0 线性增加到 1。推演历史 是从前一个运动基元的预测结果中提取的历史运动。
  3. 推演训练阶段 (Rollout training stage)：始终使用推演历史而非真实历史。
- 目的：使模型适应在自回归生成过程中可能遇到的分布外 (out-of-distribution) 组合，提高长期稳定性和文本可控性。
自回归推演生成 (Autoregressive Rollout Generation)：通过训练好的运动基元解码器 $\mathcal{D}$ 、潜在去噪器 $\mathcal{G}$ 和扩散采样器 $S$ (如 DDPM、DDIM)，DART 可以根据历史运动种子 $\mathbf{H}_{seed}$ 和在线文本提示序列 $C$ 自回归地生成运动序列。

算法 1：使用潜在运动基元模型进行自回归推演生成

Input: 
  primitive decoder D, 
  latent variable denoiser G, 
  history motion seed Hseed, 
  text prompts C = [c1, ..., cN], 
  total diffusion steps T, 
  classifier-free guidance scale w, 
  diffusion sampler S. 
Optional Input: Latent noises ZT = [z1, ..., ZN] 
Output: motion sequence M

H ← Hseed
M ← Hseed

for i ← 1 to N do  // number of rollouts
  sample noise zT from N(0, 1) if not inputted

  z0 ← S(G, ZiT, T, H, ci, ω)  // diffusion sample loop with classifier-free guidance

  X ← D(H, z0)

  M ← CONCAT(M, X)  // concatenate future frames to generated sequence

  H ← CANONICALIZE(XF−H+1:F)  // update the rollout history with last H generated frames
end for 
return M

分类器自由引导 (Classifier-Free Guidance)：在采样过程中，使用分类器自由引导来增强文本条件的影响，其公式为： $\mathcal{G}_w(\mathbf{z}_t, t, \mathbf{H}, c) = \mathcal{G}(\mathbf{z}_t, t, \mathbf{H}, \emptyset) + w \cdot (\mathcal{G}(\mathbf{z}_t, t, \mathbf{H}, c) - \mathcal{G}(\mathbf{z}_t, t, \mathbf{H}, \emptyset))$ 其中 $w$ 是引导尺度 (guidance scale)。
效率：DART 在单个 RTX 4090 GPU 上每秒生成超过 300 帧，支持实时应用和在线强化学习控制。

4.2.4. 基于 DART 的空间可控运动合成 (Spatially Controllable Motion Synthesis via DART)

文本条件运动生成为通过自然语言控制运动提供了用户友好的界面。然而，仅依靠文本会限制精确的空间控制。因此，需要整合运动控制机制以实现精确的空间目标。

运动控制任务公式化：将运动控制任务公式化为生成运动序列 $\mathbf{M}$ ，使其在准则函数 (criterion function) $\mathcal{F}(\cdot, \cdot)$ 下最小化与给定空间目标 $g$ 的距离，并受到场景和物理约束 $cons(\cdot)$ 的正则化： $\mathbf{M}^* = \mathrm{argmin}_{\mathbf{M}} \mathcal{F}(\Pi(\mathbf{M}), g) + cons(\mathbf{M})$ 其中 $g$ 是任务相关的空间目标（例如，用于运动 in-between 任务的关键帧身体姿态，或用于导航任务的目标位置）， $\Pi(\cdot)$ 是从运动序列中提取目标相关特征并将其映射到任务对齐的观测空间（observation space）的投影函数 (projection function)，而 $cons(\cdot)$ 表示物理和场景约束（例如，防止场景碰撞和身体浮空）。
潜在空间控制 (Latent Space Control)：直接在原始运动空间中解决运动控制任务通常会导致不真实的运动。DART 提供了强大的文本条件潜在运动空间。通过使用确定性 DDIM (deterministic DDIM) 采样器，DART 采样可以作为从潜在噪声 $\mathbf{Z}_T$ $Z_{T}$ 到合理运动的确定性映射。
- ROLLOUT 函数 (算法 1) 可以确定性地将运动基元潜在噪声列表 $\mathbf{Z}_T = [\mathbf{z}_T^1, ..., \mathbf{z}_T^N]$ 映射到以历史运动种子和文本提示为条件的运动序列： $\mathbf{M} = \mathrm{ROLLOUT}(\mathbf{Z}_T, \mathbf{H}_{seed}, C)$ 。
- 最小化目标转换为： ${\mathbf{Z}_T}^* = \operatorname*{argmin}_{\mathbf{Z}_T} \mathcal{F}(\Pi(\mathrm{ROLLOUT}(\mathbf{Z}_T, \mathbf{H}_{seed}, C)), g) + cons(\mathrm{ROLLOUT}(\mathbf{Z}_T, \mathbf{H}_{seed}, C))$ 其中 $\mathbf{Z}_T$ 是一个潜在噪声序列。

DART 提出了两种解决此潜在空间运动控制问题的方法：直接优化潜在噪声，或使用强化学习学习控制策略。

4.2.4.1. 通过潜在扩散噪声优化进行运动控制 (Motion Control via Latent Diffusion Noise Optimization)

这是解决最小化问题（公式 3）的一种直接方法，即使用梯度下降 (gradient descent) 方法直接优化潜在噪声 $\mathbf{Z}_T$ 。

算法 2：潜在噪声优化

Input: 
  Latent noises ZT = [z1, ..., ZN], 
  Optimizer O, learning rate η, and goal g. 
  (For brevity, we do not reiterate the inputs of the rollout function defined in Alg. 1 and criterion terms in Eq. 2)
Output: a motion sequence M.

for i ← 1 to optimization steps do
  M ← ROLLOUT(ZT, Hseed, C)

  ∇ZT ← ∇ZT (F(Π(M), g) + cons(M))

  ZT ← O(ZT, ∇ZT, η) // update using normalized gradient
end for 
return M ← ROLLOUT(ZT, Hseed, C)

应用场景：
1. 文本条件运动 in-between (Text-conditioned motion in-between)：旨在生成给定历史关键帧和目标关键帧 $g$ 之间平滑过渡的运动帧，同时以文本提示 $c$ 指定动作语义。优化目标是生成运动的第 $f$ 帧与目标关键帧之间的距离。
2. 人-场景交互 (Human-scene interaction)：整合物理和场景约束 $cons(\cdot)$ $co n s (\cdot)$ 来合成在上下文环境中（如 3D 场景）的人体运动。给定 3D 场景、文本提示 $C$ $C$ 和交互锚点关节位置的空间目标 $g$ $g$ （例如，坐下时骨盆的位置），目标是生成既执行所需交互又达到目标关节位置并遵守场景约束的运动。
  - 场景表示：3D 场景表示为有符号距离场 (Signed Distance Fields, SDF)，用于计算身体-场景距离，从而推导人-场景接触和碰撞指标，鼓励脚部与地面接触并避免场景碰撞 (详见附录 F)。

4.2.4.2. 通过强化学习进行运动控制 (Motion Control via Reinforcement Learning)

尽管潜在噪声优化是有效的，但计算成本可能较高。DART 的自回归基元运动表示允许另一种高效控制机制：强化学习 (RL)。

马尔可夫决策过程 (Markov decision process, MDP)：将潜在运动控制建模为 MDP，具有潜在动作空间。
- 智能体 (Agent)：数字人类。
- 环境 (Environment)：根据策略 (policy) 与环境交互，以最大化预期折扣回报。
- 时间步 $i$ ：智能体观察系统状态 $\mathbf{s}^i$ ，从学习策略中采样动作 $\mathbf{a}^i$ ，系统过渡到下一个状态 $\mathbf{\tilde{s}}^{i+1}$ ，并接收奖励 $r^i = \dot{r}(\mathbf{s}^i, \mathbf{a}^i, \mathbf{s}^{i+1})$ 。
潜在动作空间 (Latent Action Space)：使用潜在噪声 $\mathbf{z}_T$ 作为潜在动作空间 (latent action space)，训练目标条件策略模型 (goal-conditioned policy models) 作为控制器。
策略架构 (Policy Architecture)：如图 2 所示，采用演员-评论家 (actor-critic) 架构，使用 PPO (Schulman et al., 2017) 算法训练。
- 状态 $\mathbf{s}^i$ ：包括历史运动观察 $\mathbf{H}^i$ 、目标观察 $g^i$ 、场景观察 $s^i$ 和文本提示 $c^i$ 的 CLIP 嵌入。
- 动作：策略模型输入 $[\bar{\mathbf{H}}^i, g^i, s^i, c^i]$ 来预测潜在噪声 $\mathbf{z}_T^i$ 作为动作。
- 运动生成：潜在噪声 $\mathbf{z}_T^i$ 通过冻结的潜在去噪器 $\mathcal{G}$ 和运动基元解码器 $\mathcal{D}$ 映射到未来运动帧 $\mathbf{X}^i$ 。
- 历史更新：新的历史运动从最后 $H$ 帧预测帧中提取，并在下一步输入给策略网络。
奖励最大化：将公式 3 中的最小化问题重新表述为奖励最大化 (reward maximization) 来训练策略。
应用场景：文本条件目标到达任务 (text-conditioned goal-reaching task)。
- 给定文本提示 $c$ 和 2D 目标位置 $g$ ，目标是控制人类使用文本指定的技能（如行走、跑步、单腿跳）到达目标位置。
- 观察：目标位置转换为局部观察（与骨盆的距离和在人中心坐标系中的局部方向）。场景观察是相对地面高度。
- 奖励 (详见附录 G)：
  - 距离奖励 $r_{dist} = d^{i-1} - d^i$ ：鼓励人类靠近目标位置， $d^i$ 是骨盆到目标的 2D 距离。
  - 成功奖励 $r_{succ}$ ：当人类到达目标（距离小于 0.3m）时给出稀疏但强大的奖励。 $r_{succ} = \left\{ \begin{array}{ll} 1 & \mathrm{if~} d^i < 0.3 \\ 0 & \mathrm{otherwise} \end{array} \right.$
  - 方向奖励 $r_{ori}$ ：鼓励移动方向与目标方向对齐。 $r_{ori} = \frac{\langle \mathbf{p}^i - \mathbf{p}^{i-1}, g - \mathbf{p}^{i-1} \rangle + 1}{2}$ 其中 $\mathbf{p}^i$ 是人类骨盆在步骤 $i$ 的位置， $g$ 是目标位置。
  - 滑动惩罚 $r_{skate}$ ：惩罚脚部在与地面接触时发生位移。 $r_{skate} = - disp \cdot (2 - 2^{h/0.03})$ 其中 disp 是连续两帧的脚部位移， $h$ 是连续两帧中较高的脚部高度， $0.03\mathrm{m}$ 是接触的阈值。
  - 地面接触奖励 $r_{floor}$ ：当较低脚部到地面的距离超过 0.03m 阈值时进行惩罚。 $r_{floor} = - (|lf| - 0.03)_+$ 其中 lf 表示较低脚部的高度。

图像与公式文本摘要

图像 1: 描述: 该图像是DART架构的示意图。图中展示了包括编码器、解码器和去噪网络的三部分结构。编码器将未来帧 $\mathbf{X} \bar{\mathbf{\eta}} = [\mathbf{x}^1, \ldots, \mathbf{x}^F]$ 压缩为潜变量，基于历史帧 $\mathbf{H} = [\mathbf{h}^1, \ldots, \mathbf{h}^H]$ 。解码器则根据历史帧和潜样本重建未来帧。去噪网络预测干净的潜样本 $\hat{\mathbf{z}}_0$ ，条件是噪声步骤、文本提示、历史帧和有噪声的潜样本 $\mathbf{z}_t$ 。替代文本: Figure 1: Architecture illustration of DART. The encoder network compresses the future frames $\\mathbf { X } \\bar { \\mathbf { \\eta } } = \[ \\mathbf { x } ^ { 1 } , . . . , \\mathbf { x } ^ { F } \]$ into a latent variable, conditioned on the history frames $\\mathbf { H } = \[ \\mathbf { h } ^ { 1 } , . . . , \\mathbf { h } ^ { H } \]$ . The decoder network reconstructs the future frames conditioned on the history frames and the latent sample. The denoiser network predicts the clean latent sample $\\hat { \\mathbf { z } } _ { 0 }$ conditioned on the noising step, text prompt, history frames, and noised latent sample $\\mathbf { z } _ { t }$ . During the denoiser training, the encoder and decoder network weights remain fixed. 来源: images/1.jpg
图像 2: 描述: 该图像是DartControl模型的控制政策示意图，展示了如何通过演员-评论家结构和线性层处理潜在动作以生成未来运动。模型接受文本提示、历史运动、目标和场景信息，最终输出规范化的新历史运动。替代文本: Figure 2: Architecture of the reinforcement learning-based control policy. The pretrained DART diffusion denoiser and decoder models transform the latent actions into motion frames. The last predicted frames are canonicalized and provided to the policy model as the next step history condition. 来源: images/2.jpg
图像 3: 描述: 该图像是示意图，展示了人类与场景交互的生成效果，分别描述了三种行为：（a）走路，左转，坐在椅子上；（b）走楼梯；（c）下楼。图中目标的盆骨关节位置用红色球体可视化，最佳视图请参见补充视频。替代文本: Figure 3: Illustrations of human-scene interaction generation given text prompts and goal pelvis joint location (visualized as a red sphere). Best viewed in the supplementary video. 来源: images/3.jpg

5. 实验设置

5.1. 数据集

DART 模型在两个不同的运动-文本数据集上进行了训练：BABEL 和 HML3D。这两个数据集都使用了 AMASS 作为运动源。

BABEL (Punnakkal et al., 2021)
- 来源与特点：BABEL 数据集包含带有帧级对齐文本标签 (frame-aligned text labels) 的运动捕捉序列，这些标签注释了动作的细粒度语义。这种细粒度标签使得模型能够学习精确的人体动作控制和动作之间的自然过渡。
- 帧率：运动数据以 30 帧/秒的帧率进行处理，与先前工作一致。
- 训练细节：
  - 训练期间，运动基元从数据序列中随机采样。
  - 文本标签从与基元重叠的所有动作段中随机采样。
  - 为缓解 BABEL 数据集中动作不平衡的问题，使用了重要性采样 (importance sampling)，使得每个动作类别的数据采样机会大致相等。
  - 为与先前工作保持兼容，将人体性别固定为男性，身体形状参数设置为零。
- 样本示例：原文中未直接给出具体的文本-运动样本示例，但可以想象为“举起右臂”、“向前迈一步”等与特定运动帧精确对应的描述。
HML3D (Guo et al., 2022)
- 来源与特点：HML3D 数据集包含带有粗略序列级句子描述 (coarse sequence-level sentence descriptions) 的短运动。
- 子集限制：仅使用 HML3D 的一个子集进行训练，因为 HumanAct12 和左右镜像运动序列仅提供关节位置而非 SMPL 身体序列，而 DART 的运动表示需要后者。
- 帧率：运动数据以 20 帧/秒的帧率进行处理。
- 训练细节：
  - 训练期间，以均匀概率随机采样基元。
  - 文本标签从重叠序列的多个句子标题中随机选择一个。
  - 为与先前工作保持兼容，将人体性别固定为男性，身体形状参数设置为零。
- 样本示例：原文未直接给出具体样本，但可以想象为“一个男人在行走”等描述整个序列的概括性文本。
选择原因：BABEL 提供了精确的帧级文本标签，有助于模型学习细粒度的动作控制和自然过渡，适用于时间运动合成 (temporal motion composition) 任务。HML3D 虽标签粗糙，但也是文本到运动生成领域的常用数据集，用于公平对比。

5.2. 评估指标

论文使用了多维度指标来评估 DART 在运动真实感、效率、可控性及语义对齐方面的性能。

FID (Fréchet Inception Distance) $\downarrow$
- 概念定义：FID 是一种衡量生成样本分布与真实数据分布之间相似度的指标。它计算生成运动特征与真实运动特征在潜空间中的 Fréchet 距离。值越低，表示生成运动的真实感和多样性越接近真实数据。
- 数学公式： $\mathrm{FID}(X, G) = ||\mu_X - \mu_G||_2^2 + \mathrm{Tr}(\Sigma_X + \Sigma_G - 2(\Sigma_X \Sigma_G)^{1/2})$
- 符号解释：
  - $X$ ：真实数据特征。
  - $G$ ：生成数据特征。
  - $\mu_X$ ：真实数据特征的均值向量。
  - $\mu_G$ ：生成数据特征的均值向量。
  - $\Sigma_X$ ：真实数据特征的协方差矩阵。
  - $\Sigma_G$ ：生成数据特征的协方差矩阵。
  - $||\cdot||_2^2$ ：L2 范数的平方。
  - $\mathrm{Tr}(\cdot)$ ：矩阵的迹。
R-prec (Recall Precision) $\uparrow$
- 概念定义：R-prec 衡量生成运动与文本描述之间的语义对齐 (semantic alignment)。它通过检索相关运动来评估文本描述的准确性。通常，对于给定的文本提示，模型会生成一个运动，然后评估该运动与文本提示的匹配程度。值越高表示语义对齐越好。
MM-Dist (Motion-Motion Distance) $\downarrow$
- 概念定义：MM-Dist 衡量生成运动与真实运动之间的相似性，特别是在运动特征空间中。通常是计算生成运动的特征嵌入与真实运动的特征嵌入之间的平均距离。值越低表示生成运动与真实运动的特征越接近。
DIV (Diversity) $\rightarrow$
- 概念定义：DIV 衡量生成运动的多样性。它评估在给定相同文本条件或起始条件时，模型能够生成多少种不同的、但都符合条件的运动。通常通过计算不同生成样本之间特征距离的平均值来衡量。理想的 DIV 值应接近数据集本身的 DIV 值，过低表示模式崩溃，过高可能表示不真实的多样性。
PJ (Peak Jerk) $\rightarrow$
- 概念定义：Jerk 是加速度的时间导数，衡量运动的平滑度。Peak Jerk 是运动过程中 Jerk 值的最大绝对值。在运动过渡片段中，PJ 值越低，表示过渡越平滑，运动越自然。符号 $\rightarrow$ 表示靠近数据集的参考值更好。
AUJ (Area Under the Jerk) $\downarrow$
- 概念定义：AUJ 是 Jerk 曲线下的面积，可以理解为 Jerk 的累积量。它也用于衡量运动的平滑度。在运动过渡片段中，AUJ 值越低，表示过渡越平滑，运动越自然。
Skate (cm/s) $\downarrow$
- 概念定义：Skate 衡量当脚部应与地面接触时发生的滑动。它是一种物理真实感指标，值越低表示脚部滑动越少，运动越真实。
- 数学公式 (根据附录 F)： $\bar{s} = disp \cdot (2 - 2^{\bar{h}/0.03})$
- 符号解释：
  - $\bar{s}$ ：滑动量 (Skate metric)。
  - disp：连续两帧之间的脚部位移 (foot displacement)。
  - $\bar{h}$ ：连续两帧中较高脚的高度 (higher foot height)。
  - $0.03\mathrm{m}$ ：接触的阈值。
  - 当脚部不接触平面（如爬行或下楼梯）时不计算该指标。
Jerk $\downarrow$
- 概念定义：与 PJ 和 AUJ 类似，Jerk 作为衡量运动平滑度的整体指标。在运动 in-between 任务中，值越低表示运动越平滑。
Profiling Metrics
- Speed (frame/s) $\uparrow$ ：每秒生成的帧数，衡量生成效率。
- Latency (s) $\downarrow$ ：从接收到请求到生成第一帧的延迟时间，衡量实时响应能力。
- Mem. (MiB) $\downarrow$ ：模型运行所需的内存量，衡量资源消耗。
Human Preference Studies (人类偏好研究)
- Realism (%)：人类参与者对生成运动真实感的偏好百分比。
- Semantic (%)：人类参与者对生成运动与文本语义对齐程度的偏好百分比。
L2 norm errors (L2 范数误差) $\downarrow$
- History error (cm)：生成运动与历史运动关键帧之间的 L2 距离误差。
- Goal error (cm)：生成运动与目标关键帧之间的 L2 距离误差。
Goal-reaching metrics (目标到达指标)
- Time (s) $\downarrow$ ：到达目标所需的时间。
- Success rate $\uparrow$ ：成功到达最终目标点的比率。
- Floor distance (cm) $\downarrow$ ：脚部与地面之间的距离，衡量是否出现浮空。

5.3. 对比基线

DART 的性能与多个现有基线模型进行了比较，这些基线代表了文本条件运动生成和运动控制领域的不同方法。

TEACH (Athanasiou et al., 2022)
- 特点：一个早期的时间动作合成 (Temporal Action Composition) 方法，能够组合 3D 人类动作。
- 代表性：是评估运动合成和过渡质量的常用基线。
DoubleTake (Shafir et al., 2024)
- 特点：一个将文本条件运动模型与空间控制能力相结合的工作。
- 代表性：代表了整合空间控制的文本条件运动生成方法。
T2M-GPT* (Zhang et al., 2023a) (历史条件修改版)
- 特点：T2M-GPT 是一个通过离散表示 (discrete representations) 从文本描述生成人类运动的模型。T2M-GPT* 是其历史条件修改版 (history-conditioned modification)，重新训练在 BABEL 数据集上，以便将前一个动作段的最后几帧编码为标记，作为生成下一个动作段时的历史条件。
- 代表性：代表了基于 Transformer 和离散化方法进行文本到运动生成的技术，并加入了历史条件以适应序列生成。
FlowMDM (Barquero et al., 2024)
- 特点：最先进 (state-of-the-art) 的离线 (offline) 时间运动合成 (temporal motion composition) 方法，能够通过组合期望动作生成复杂、连续的运动。需要预先知道整个动作时间线。
- 代表性：是评估长序列运动合成和高质量过渡的强劲基线，尤其是在离线设置下。
DNO (Karunratanakul et al., 2024b)
- 特点：一个通过引导扩散模型 (guided diffusion models) 实现可控人体运动合成的方法。它使用扩散噪声作为潜在空间进行运动编辑和控制。
- 代表性：与 DART 的潜在噪声优化 (latent noise optimization) 控制方法非常相似，都是在扩散模型的潜在空间中进行控制，是评估空间控制能力的直接竞争者。
OmniControl (Xie et al., 2024)
- 特点：一个能够随时控制任何关节进行人类运动生成的方法。
- 代表性：代表了多关节、细粒度空间控制的先进方法。
GAMMA (Zhang & Tang, 2022)
- 特点：一个通过学习运动动作空间来训练目标到达策略的模型。
- 代表性：是基于学习运动空间进行强化学习 (RL) 控制的基线，但缺乏文本条件。
  
  这些基线涵盖了从纯文本到运动生成、文本与空间控制结合、离线合成以及基于 RL 的控制等多个方面，使得 DART 的评估结果具有较强的说服力。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 文本条件时间运动合成 (Text-Conditioned Temporal Motion Composition)

该任务评估 DART 根据一系列文本提示和持续时间在线生成连续、逼真运动序列的能力。

定量评估 (Table 1)： 以下是原文 Table 1 的结果：

	FID↓	R-prec↑	DIV →	MM-Dist↓	FID↓	DIV →	PJ→	AUJ↓	Speed(frame/s)↑	Latency(s)↓	Mem.(MiB)↓
	Segment				Transition				Profiling
Dataset	0.00±0.00	0.72±0.00	8.42±0.15	3.36±0.00	0.00±0.00	6.20±0.06	0.02±0.00	0.00±0.00
TEACH	17.58±0.04	0.66±0.00	10.02±0.06	5.86±0.00	3.89±0.05	5.44±0.07	1.39±0.01	5.86±0.02	3880±144	0.05±0.00	2251
DoubleTake	7.92±0.13	0.60±0.01	8.29±0.16	5.59±0.01	3.56±0.05	6.08±0.06	0.32±0.00	1.23±0.01	85±1	59.11±0.76	1474
T2M-GPT*	7.71±0.55	0.49±0.01	8.89±0.21	6.69±0.08	2.53±0.04	6.61±0.02	1.44±0.03	4.10±0.09	885±12	0.23 ±0.00	2172
FlowMDM	5.81±0.10	0.67±0.00	8.90±0.06	5.08±0.02	2.39±0.01	6.63±0.08	0.04±0.00	0.11±0.00	31±0	161.29±0.24	11892
Ours	3.79±0.06	0.62±0.01	8.05±0.10	5.27±0.01	1.86±0.05	6.70±0.03	0.06±0.00	0.21±0.00	334 ±2	0.02±0.00	2394

分析：

运动真实感 (FID)：DART 在 Segment FID (3.79) 和 Transition FID (1.86) 上均取得了最佳结果，这表明 DART 生成的运动在整体真实感和过渡平滑性方面与数据集的相似度最高，运动质量最优。
动作过渡 (PJ, AUJ)：DART 的 PJ (0.06) 和 AUJ (0.21) 表现良好，仅次于 FlowMDM，表明其动作过渡非常平滑。
语义对齐 (R-prec, MM-Dist)：FlowMDM 在 R-prec (0.67) 和 MM-Dist (5.08) 上略优于 DART (R-prec 0.62, MM-Dist 5.27)。论文解释这是由于 DART 的在线生成 (online generation) 特性：自然动作过渡需要时间来响应新的动作提示，导致新动作语义的出现会有延迟。而 FlowMDM 作为离线方法 (offline method)，可以利用完整动作时间线的预知信息来优化过渡兼容性。
效率 (Speed, Latency, Mem.)：DART 在效率方面表现出色。生成速度高达 334 帧/秒，比 FlowMDM (31 帧/秒) 快约 10 倍。延迟仅为 0.02 秒，远低于 FlowMDM (161.29 秒) 和其他基线，使其非常适合实时应用 (real-time applications)。内存使用量 (2394 MiB) 也远低于 FlowMDM (11892 MiB)。

人类偏好研究 (Table 2)： 以下是原文 Table 2 的结果：

	Realism (%)	Semantic (%)
Ours vs. TEACH	66.7 vs. 33.3	66.0 vs. 34.0
Ours vs. DoubleTake	66.4 vs. 33.6	66.1 vs. 33.9
Ours vs. T2M-GPT*	61.3 vs. 38.7	66.7 vs. 33.3
Ours vs. FlowMDM	53.3 vs. 46.7	51.3 vs. 48.7

分析：

DART 在运动真实感 (motion realism) 和运动-文本语义对齐 (motion-text semantic alignment) 方面均优于所有基线，包括 FlowMDM。
尽管在定量指标 R-prec 和 MM-Dist 上 DART 略逊于 FlowMDM，但在人类评估中，DART 仍被认为在语义对齐上更好。这可能证实了论文的解释：DART 造成的轻微但自然的动作过渡延迟，在人类感知中被认为是更自然的。

6.1.2. 基于潜在扩散噪声优化的控制 (Latent Diffusion Noise Optimization-Based Control)

6.1.2.1. 文本条件运动 `in-between` (Text-Conditioned Motion In-Between)

该任务旨在生成在给定历史关键帧和目标关键帧之间平滑过渡的运动，并由文本提示指定动作语义。

定量评估 (Table 3)： 以下是原文 Table 3 的结果：

	History error (cm)↓	Goal error (cm)↓	Skate (cm/s)↓	Jerk↓
Dataset	0.00 ± 0.00	0.00 ± 0.00	2.27 ± 0.00	0.74 ± 0.00
OmniControl	21.22 ± 2.86	7.79 ± 1.91	4.97 ± 1.31	1.41 ± 0.08
DNO	1.20 ± 0.20	4.24 ± 1.34	5.38 ± 0.70	0.65 ± 0.06
Ours	0.00 ± 0.00	0.59 ± 0.01	2.98 ± 0.32	0.61 ± 0.01

分析：

DART 在所有指标上均表现最佳。History error 达到 0.00，Goal error 仅为 0.59 cm，表明它能够非常精确地连接历史和目标关键帧。
Skate (2.98 cm/s) 和 Jerk (0.61) 也优于基线，表明生成的运动更真实、更平滑，物理伪影更少。
与基线 DNO 相比，DART 能够更有效地保持文本提示指定的语义，而 DNO 有时会为了达到目标关键帧而忽略文本提示。这强调了 DART 在协调空间控制和文本语义对齐 (harmonizing spatial control and text semantic alignment) 方面的卓越能力。

6.1.2.2. 人-场景交互 (Human-Scene Interaction)

该任务定性展示了 DART 在给定 3D 场景和文本提示的情况下，通过潜在噪声优化控制人类与环境自然交互的能力。

结果：论文展示了爬楼梯和走到椅子上坐下的交互示例（如图 3 和补充视频）。这些结果表明 DART 能够控制人类到达目标关节位置，同时遵守场景接触和碰撞约束。

6.1.3. 基于强化学习的控制 (Reinforcement Learning-Based Control)

该任务通过将 DART 与强化学习 (RL) 相结合，训练了文本条件的目标到达策略模型，支持“行走”、“跑步”和“单腿跳”三种不同的运动风格。

定量评估 (Table 4)： 以下是原文 Table 4 的结果：

	Time (s)↓	Success rate↑	Skate (cm/s) ↓	Floor distance (cm)↓
GAMMA walk	31.44 ± 2.58	0.95 ± 0.03	5.14 ± 1.58	5.55 ± 0.84
Ours 'walk'	17.08 ± 0.05	1.0 ± 0.0	2.67 ± 0.12	2.24 ± 0.02
Ours 'run'	10.55 ± 0.06	1.0 ± 0.0	3.23 ± 0.24	3.86 ± 0.05
Ours 'hop on left leg'	20.50 ± 0.24	1.0 ± 0.0	2.22 ± 0.12	4.11 ± 0.07

分析：

DART 的 RL 策略在所有评估的运动风格中均表现出色。
目标到达：成功率达到 1.0，表明模型能够稳定地到达所有目标。到达时间也远低于基线 GAMMA。
运动质量：Skate 和 Floor distance 指标均显著优于 GAMMA，表明生成的运动更少滑动，更少浮空，物理真实感更强。
效率：文本条件目标到达策略实现了 240 帧/秒的生成速度，进一步证明了 DART 作为基础人体运动模型的潜力，可以在其之上学习各种任务的通用控制模型。

6.2. 消融实验/参数分析

论文对架构设计、扩散步数、基元表示和调度训练进行了消融研究。

定量评估 (Table 5)： 以下是原文 Table 5 的结果：

	FID↓	R-prec↑	DIV →	MM-Dist↓	FID↓	DIV →	PJ→	AUJ↓
	Segment				Transition
Dataset	0.00±0.00	0.72±0.00	8.42±0.15	3.36±0.00	0.00±0.00	6.20±0.06	0.02±0.00	0.00±0.00
Ours	3.79±0.06	0.62±0.01	8.05±0.10	5.27±0.01	1.86±0.05	6.70±0.03	0.06±0.00	0.21±0.00
DART-VAE	4.23±0.02	0.62±0.01	8.33±0.12	5.29±0.01	1.79±0.02	6.73±0.23	0.20±0.00	0.96±0.00
DART-schedule	8.08±0.09	0.39±0.01	8.05±0.12	6.96±0.03	7.41±0.10	6.58±0.06	0.03±0.00	0.18±0.00
per frame(H=1,F=1)	10.31±0.09	0.29±0.01	6.82±0.13	7.41±0.01	7.82±0.09	6.03±0.08	0.02±0.00	0.08±0.00
H=2,F=16	4.04±0.10	0.66±0.00	8.20±0.06	4.96±0.01	2.22±0.10	6.60±0.20	0.06±0.00	0.18±0.00
steps 2	4.44±0.04	0.60±0.00	8.20±0.15	5.38±0.01	2.24±0.02	6.77±0.07	0.05±0.00	0.20±0.00
steps 5	3.49±0.09	0.63±0.00	8.25±0.15	5.18±0.01	2.11±0.07	6.74±0.11	0.05±0.00	0.20±0.00
steps 8	3.70±0.03	0.62±0.01	8.04±0.13	5.25±0.03	2.15±0.08	6.72±0.15	0.06±0.00	0.20±0.00
steps 10 (Ours)	3.79±0.06	0.62±0.01	8.05±0.10	5.27±0.01	1.86±0.05	6.70±0.03	0.06±0.00	0.21±0.00
steps 50	3.82±0.05	0.60±0.00	7.74±0.07	5.30±0.01	2.11±0.10	6.58±0.10	0.06±0.00	0.22±0.00
steps 100	4.16±0.06	0.61±0.00	7.82±0.15	5.32±0.02	2.20±0.05	6.43±0.10	0.06±0.00	0.21±0.00

分析：

移除 VAE (DART-VAE)：在原始运动空间训练扩散模型会导致显著更高的抖动 (PJ 0.20 vs 0.06, AUJ 0.96 vs 0.21)，验证了 VAE 压缩高频噪声和提高运动生成质量的有效性。
无调度训练 (DART-schedule)：模型无法有效响应文本控制，导致 R-Prec (0.39 vs 0.62) 和 FID (8.08 vs 3.79) 显著恶化。这表明调度训练对于处理自回归生成中的分布外 (out-of-distribution) 组合至关重要。
逐帧预测 (per frame, H=1, F=1)：类似于 Shi et al., 2024 的单帧预测模型，其 R-Prec (0.29) 和 FID (10.31) 显著更差，且无法响应文本提示。这表明使用具有合理预测范围（如 DART 的 $H=2, F=8$ ）的运动基元比逐帧预测更有效地学习文本条件运动空间。
基元长度 (H=2, F=16)：将未来帧长度 $F$ 从 8 增加到 16，FID 略有下降 (4.04 vs 3.79)，R-prec 略有提升 (0.66 vs 0.62)。这表明更长的基元可能捕获更丰富的语义，但代价是计算成本增加。
扩散步数 (Diffusion Steps)：
- DART 使用 10 个扩散步骤（steps 10 (Ours)）取得了最佳的综合性能。
- 将扩散步数从 100 减少到 10 以下，性能没有显著下降。例如，steps 5 甚至在 Segment FID 上略优于 10 步 (3.49 vs 3.79)。
- 但极低的扩散步数（steps 2）导致 FID (4.44) 明显更高，表明运动质量较差。
- 这证明了 DART 得益于运动基元表示的简单性，可以在极少的扩散步骤下实现高质量的生成，从而极大地提高了效率。

图像与公式文本摘要

图像 4: 描述: 该图像是人类偏好研究界面示意图，分为上下两部分。上半部分评估动作与文本描述的语义对齐，参与者需选择哪个动画与指令表述更相关；下半部分评估哪个动画更自然且真实。替代文本: Figure 4: Illustration of the human preference study interface for evaluating motion-text semantic alignment (top) and perceptual realism(bottom). Participants are requested to select the generation that is perceptually more realistic or better aligns with the action descriptions in subtitles (only visible in semantic preference study). 来源: images/4.jpg
图像 5: 描述: 该图像是图5，展示了DART与基于物理的运动跟踪方法PHC的整合示例。左侧是通过DART生成的爬行序列，存在手部与地面穿透等伪影；右侧展示了应用于原始生成序列的物理跟踪结果，增强了关节与地面的接触，解决了手部穿透问题。替代文本: Figure 5: We demonstrate an example of integrating DART with the physics-based motion tracking method PHC (Luo et al., 2023) to achieve more physically plausible motions. The left image illustrates a crawling sequence generated by DART, exhibiting artifacts such as hand-floor penetration. The right image displays the physics-based motion tracking outcome applied to the raw generated sequence, which enhances joint-floor contact and resolves the hand-floor penetration issue. 来源: images/5.jpg

7. 总结与思考

7.1. 结论总结

DARTControl（简称 DART）是一种新颖的基于扩散的自回归运动基元模型 (Diffusion-based Autoregressive Motion Primitive Model)，旨在解决实时文本驱动运动控制的挑战。该模型的核心贡献在于：

运动基元表示：通过将复杂运动分解为重叠的短运动基元 (motion primitives)，DART 简化了建模任务，使得扩散模型能够高效学习。
实时在线生成：利用潜在扩散架构 (latent diffusion architecture) 学习文本条件化的运动基元空间，并结合调度训练 (scheduled training)，DART 实现了每秒超过 300 帧的生成速度和极低的延迟（0.02秒），远超现有离线 (offline) 方法，支持实时 (real-time) 在线运动合成 (online motion synthesis)。
精确空间控制：DART 在其学习到的高质量潜在运动空间中，提供了两种通用的空间控制机制：潜在噪声优化 (latent noise optimization) 和基于强化学习 (reinforcement learning) 的马尔可夫决策过程 (Markov decision process) 策略。这使得模型能够精确响应文本语义和几何约束，如目标位置或 3D 场景交互。实验结果一致表明，DART 在运动真实感、效率和可控性方面优于现有基线，并能更好地协调空间控制与文本语义对齐。作为一个统一且高效的模型，DART 为未来的文本驱动人类运动生成 (text-driven human motion generation) 和交互式角色控制 (interactive character control) 奠定了坚实基础。

7.2. 局限性与未来工作

论文作者指出了 DART 的主要局限性：

对帧级对齐文本标注的依赖：DART 依赖于具有帧级对齐文本标注 (frame-level aligned text annotations) 的运动序列（如 BABEL 数据集），以实现精确的文本-运动对齐和动作间的自然过渡。当使用粗糙的序列级标签 (coarse sentence-level labels)（如 HML3D）进行训练时，文本-运动对齐效果会退化。这是因为每个短运动基元仅匹配序列语义的一部分，而粗糙的序列级描述作为基元的文本标签会导致语义错位和模糊。
开放词汇运动生成的挑战：与现有大多数文本条件运动生成方法一样，DART 难以推广到开放词汇文本提示 (open-vocabulary text prompts)。这主要是由于 3D 人体运动数据与文本标注的稀缺性，其规模远小于图像或视频数据。

基于这些局限性，作者提出了未来的研究方向：
探索层次化潜在空间：旨在有效地处理细粒度语义和全局序列级语义。
扩展数据集和开放词汇生成：
- 从野外互联网视频 (in-the-wild internet videos) 和生成式图像/视频模型 (generative image/video models) 中提取人类运动数据。
- 利用视觉-语言模型 (vision-language models, VLMs) 自动提供详细的、帧级对齐的运动文本标签，以促进文本到运动生成。

7.3. 个人启发与批判

个人启发：

运动基元与自回归的协同效应：DART 巧妙地结合了运动基元 (motion primitives) 和自回归模型 (autoregressive models) 的优势。运动基元将复杂的长期运动分解为易于学习的短片段，并通过重叠确保平滑过渡，这本身就是一个优雅的设计。在此基础上，自回归机制实现了在线、实时生成，解决了现有离线方法的痛点。这种分解与组合的策略对于处理其他复杂序列生成任务也具有借鉴意义。
潜在空间控制的强大潜力：在 VAE 创建的高质量潜在空间 (high-quality latent space) 中进行控制，是确保生成运动真实感和可控性的关键。无论是通过潜在噪声优化 (latent noise optimization) 还是强化学习 (reinforcement learning)，DART 都提供了一个通用的框架，能够将多种多样的空间控制目标（如关键帧、轨迹、场景交互）融入到生成过程中，而无需为每种控制任务重新训练整个生成模型。这极大地提高了模型的通用性和灵活性。
效率与质量的平衡：DART 证明了通过简化数据表示（运动基元）和采用调度训练 (scheduled training) 等策略，扩散模型可以在极少的扩散步数（例如 10 步）下实现高质量生成。这对于实时应用至关重要，也为其他计算密集型生成任务提供了优化思路。
物理真实感的集成：论文在附录 H 中展示了 DART 可以与物理模拟运动跟踪方法 (physics-based motion tracking methods)（如 PHC）集成，以修正运动中的物理不准确性。这种模块化的设计，将生成模型的创造力与物理引擎的真实感相结合，是未来构建更鲁棒、更具交互性的人体运动系统的有前景方向。

批判与可以改进的地方：

对帧级标注的深层依赖：尽管论文指出了这一局限性，但其对帧级对齐文本标注 (frame-level aligned text annotations) 的高度依赖仍是一个显著的挑战。BABEL 数据集虽然有细粒度标注，但其规模远不能满足开放词汇 (open-vocabulary) 和更复杂场景的需求。未来的工作需要开发更智能的方法，例如通过弱监督或多模态自监督学习，从大规模未标注或粗标注数据中提取更丰富的运动语义。
潜在噪声优化的计算成本：虽然潜在噪声优化是通用的，但其计算成本（例如 60 帧运动和 100 步优化需要 74 秒）在某些实时交互 (real-time interaction) 场景下可能仍然过高。虽然强化学习提供了一个更快的回应，但对于更复杂的、不常见的空间约束，优化可能仍是唯一的选择。如何在保证精度和灵活性的前提下，进一步加速潜在噪声优化是一个值得探索的问题。
更复杂的场景交互：目前的人-场景交互示例（爬楼梯、坐椅子）相对简单。对于更复杂、需要精细手部或全身交互的场景（如打开抽屉、操作工具、与多个动态对象互动），DART 的表现如何？当前的 SMPL-X 表示和场景约束可能不足以处理所有这些细节。可能需要更丰富的表示（如接触图谱、力反馈）和更复杂的奖励设计或多模态感知。
泛化能力：DART 在特定数据集（如 BABEL）上表现出色，但其在不同运动风格、不同人群（如不同体型、年龄、文化背景）以及更广阔的文本描述空间上的泛化能力仍需深入评估。目前的模型固定了性别和身体形状参数，这限制了其多样性。
RL 奖励函数的精细化：强化学习部分的奖励函数相对基础。对于生成更具表现力、更自然的运动（例如，不同文化背景下的“鞠躬”，不同情绪下的“行走”），奖励函数需要更精细、更具语义驱动力。这可能需要结合人类反馈或更先进的运动质量评估指标。

总的来说，DART 在实时、文本驱动、空间可控的人类运动生成方面取得了显著进展，其创新性方法为该领域未来的发展提供了宝贵的思路。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

DartControl: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 46 分钟读完 · 32,830 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 变分自编码器 (Variational Autoencoder, VAE)

3.1.2. 扩散模型 (Diffusion Models)

3.1.3. 自回归模型 (Autoregressive Models)

3.1.4. 运动基元 (Motion Primitives)

3.1.5. SMPL-X 模型

3.1.6. 强化学习 (Reinforcement Learning, RL)

3.1.7. 马尔可夫决策过程 (Markov Decision Process, MDP)

3.1.8. 分类器自由引导 (Classifier-Free Guidance)

3.2. 前人工作

3.2.1. 文本条件运动生成 (Text-Conditioned Motion Generation)

3.2.2. 空间控制运动生成 (Spatially Controlled Motion Generation)

3.2.3. 交互式角色控制 (Interactive Character Control)

3.2.4. 扩散生成模型 (Diffusion Generative Models)

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解 (逐层深入)

4.2.1. 问题定义 (Problem Definition)

4.2.2. 自回归运动基元表示 (Autoregressive Motion Primitive Representation)

4.2.3. DART：基于扩散的自回归运动基元模型 (DART: A Diffusion-Based Autoregressive Motion Primitive Model)

4.2.3.1. 学习潜在运动基元空间 (Learning the Latent Motion Primitive Space)

4.2.3.2. 潜在运动基元扩散模型 (Latent Motion Primitive Diffusion Model)

4.2.4. 基于 DART 的空间可控运动合成 (Spatially Controllable Motion Synthesis via DART)

4.2.4.1. 通过潜在扩散噪声优化进行运动控制 (Motion Control via Latent Diffusion Noise Optimization)

4.2.4.2. 通过强化学习进行运动控制 (Motion Control via Reinforcement Learning)

图像与公式文本摘要

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.3. 对比基线

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 文本条件时间运动合成 (Text-Conditioned Temporal Motion Composition)

6.1.2. 基于潜在扩散噪声优化的控制 (Latent Diffusion Noise Optimization-Based Control)

6.1.2.1. 文本条件运动 in-between (Text-Conditioned Motion In-Between)

6.1.2.2. 人-场景交互 (Human-Scene Interaction)

6.1.3. 基于强化学习的控制 (Reinforcement Learning-Based Control)

6.2. 消融实验/参数分析

图像与公式文本摘要

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐

6.1.2.1. 文本条件运动 `in-between` (Text-Conditioned Motion In-Between)