论文状态：已完成

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

发表：2025/11/27

音视频生成同步 (1)交叉任务协同训练 (1)全局-局部解耦交互模块 (1)同步增强无分类器引导 (1)联合扩散过程优化 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了Harmony框架，针对生成音视频内容时的同步挑战，尤其是对应漂移、全局注意力机制低效和模态内偏置等问题。通过跨任务协同训练、全局-局部解耦模块及同步增强型CFG，Harmony实现了精确的时序同步，显著提升了生成保真度和音视频对齐效果。

摘要

The synthesis of synchronized audio-visual content is a key challenge in generative AI, with open-source models facing challenges in robust audio-video alignment. Our analysis reveals that this issue is rooted in three fundamental challenges of the joint diffusion process: (1) Correspondence Drift, where concurrently evolving noisy latents impede stable learning of alignment; (2) inefficient global attention mechanisms that fail to capture fine-grained temporal cues; and (3) the intra-modal bias of conventional Classifier-Free Guidance (CFG), which enhances conditionality but not cross-modal synchronization. To overcome these challenges, we introduce Harmony, a novel framework that mechanistically enforces audio-visual synchronization. We first propose a Cross-Task Synergy training paradigm to mitigate drift by leveraging strong supervisory signals from audio-driven video and video-driven audio generation tasks. Then, we design a Global-Local Decoupled Interaction Module for efficient and precise temporal-style alignment. Finally, we present a novel Synchronization-Enhanced CFG (SyncCFG) that explicitly isolates and amplifies the alignment signal during inference. Extensive experiments demonstrate that Harmony establishes a new state-of-the-art, significantly outperforming existing methods in both generation fidelity and, critically, in achieving fine-grained audio-visual synchronization.

思维导图

论文精读

中文精读约 45 分钟读完 · 28,381 字

1. 论文基本信息

1.1. 标题

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy (Harmony：通过跨任务协同协调音视频生成)

1.2. 作者

Teng Hu, Zhentao Yu, Guozhen Zhang, Zihan Su, Zhengguang Zhou, Youliang Zhang, Yuan Zhou, Qinglin Lu, Ran Yi。主要作者隶属于 上海交通大学 (Shanghai Jiao Tong University) 和 腾讯混元项目 (Tencent Hunyuan Project)。

1.3. 发表期刊/会议

本文作为预印本发表于 arXiv。

1.4. 发表年份

2025年11月26日（UTC）。

1.5. 摘要

同步音视频内容的合成是生成式人工智能 (generative AI) 中的一个关键挑战，尤其是在鲁棒的音视频对齐方面，开源模型面临诸多困难。作者的分析揭示，这一问题根源于联合扩散过程 (joint diffusion process) 中的三个基本挑战：(1) 对应漂移 (Correspondence Drift)，即同时演变的噪声潜在变量 (noisy latents) 阻碍了对齐的稳定学习；(2) 低效的全局注意力机制 (inefficient global attention mechanisms) 未能捕捉到细粒度的时序线索；以及 (3) 传统 无分类器引导 (Classifier-Free Guidance, CFG) 的 模态内偏置 (intra-modal bias)，它增强了条件性 (conditionality) 但未增强跨模态同步 (cross-modal synchronization)。

为了克服这些挑战，本文引入了 Harmony，一个通过机制性地强制音视频同步的新颖框架。首先，作者提出了 跨任务协同训练范式 (Cross-Task Synergy training paradigm)，通过利用音频驱动的视频生成任务和视频驱动的音频生成任务中强大的监督信号来缓解漂移。其次，作者设计了一个 全局-局部解耦交互模块 (Global-Local Decoupled Interaction Module)，用于实现高效精确的时序-风格对齐。最后，作者提出了一种新颖的 同步增强型 CFG (Synchronization-Enhanced CFG, SyncCFG)，它在推理 (inference) 过程中明确隔离和放大对齐信号。广泛的实验表明，Harmony 建立了新的最先进水平，在生成保真度 (generation fidelity) 和关键的细粒度音视频同步方面均显著优于现有方法。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2511.21579
PDF 链接: https://arxiv.org/pdf/2511.21579v1.pdf
发布状态：预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

音视频内容的统一合成是当前生成式人工智能 (generative AI) 领域的一个重要前沿，对于内容创作、数字虚拟形象 (digital avatars) 和沉浸式虚拟世界具有深远影响。尽管像 Veo 3 和 Sora 2 这样的行业领先专有模型已经设定了很高的基准，提供了卓越保真度 (fidelity) 的输出并展示了巨大的实用价值，但这些闭源系统与现有开源方法之间仍存在显著差距。尤其是在开源社区中，一个根本性的挑战——实现精确和谐的音视频对齐 (audio-visual alignment)——在很大程度上尚未解决。

当前开源模型虽然在生成质量上取得了进步，但在鲁棒的音视频同步方面仍面临困难。现有的端到端联合音视频生成方法 (end-to-end joint audio-video generation) 往往存在专业化限制：许多模型仅限于生成环境音，无法合成自然的人类语音；有些则只专注于语音生成，缺乏生成环境音的能力。即使是更通用的模型，也常常在鲁棒对齐或音视频同步方面表现不足。这些缺陷表明，当前研究缺乏从方法论层面深入探讨音视频失准根本原因的工作。因此，该领域仍然缺乏高度通用且对齐良好的音视频联合生成方法，这在开源领域留下了一个空白，即需要一个统一的框架，能够生成从环境音到人类语音的全面音频频谱，同时保持精确的音视频和谐。

论文作者认为，实现鲁棒同步的困难源于联合扩散过程固有的三个基本挑战：

对应漂移 (Correspondence Drift)：在联合生成过程中，音频和视频两种模态都从纯噪声逐步去噪。在早期高度随机的阶段，尝试对齐两个同时演变且高度噪声化的潜在变量 (noisy latents) 会导致一种现象，作者称之为对应漂移。在这种情况下，最优映射会持续变化，阻碍了稳定的学习。
全局注意力机制的局限性 (Limitations of Global Attention Mechanisms)：音视频同步存在一个根本性的架构张力 (architectural tension)，即在两个相互竞争的目标之间：精确的帧级时序对齐（例如，唇部动作）和整体的全局风格一致性（例如，情感基调）。现有设计通常依赖单一的、整体机制（如全局交叉注意力），将这些不同目标混为一谈，迫使模型在次优的权衡中，导致两个目标都未能充分实现。
传统无分类器引导 (CFG) 的模态内偏置 (Intra-modal Bias of Conventional CFG)：传统的 CFG 通过孤立地放大每种模态的条件信号来操作。因此，它并不能内在促进或增强生成音频和视频之间至关重要的跨模态对应关系。

2.2. 核心贡献/主要发现

为了克服上述挑战，本文提出了 Harmony，一个新颖的联合音视频生成框架，其核心设计围绕三个主要创新点，每个点都针对一个特定的挑战。

Harmony 的主要贡献总结如下：

提出了 Harmony 框架：这是一个基于 跨任务协同 (Cross-Task Synergy) 原理的新型联合音视频生成框架，旨在解决联合扩散模型中基本的 对应漂移 (Correspondence Drift) 问题。
设计了全局-局部解耦交互模块 (Global-Local Decoupled Interaction Module)：该模块实现了在整体风格和细粒度时序细节上的全面对齐，解决了全局和局部同步目标之间的冲突。
提出了新型同步增强型 CFG (Synchronization-Enhanced CFG, SyncCFG)：该技术通过将静音音频和静态视频条件作为负引导 (negative guidance)，在推理过程中引导模型更好地实现音视频对应关系。
建立了音视频生成的新最先进水平 (State-of-the-Art)：通过广泛实验验证了 Harmony 在跨模态同步方面的卓越性能，显著优于现有方法。

3. 预备知识与相关工作

3.1. 基础概念

理解 Harmony 框架需要掌握以下基础概念：

生成式人工智能 (Generative AI)：指能够生成全新数据（如图像、文本、音频、视频等）的人工智能系统。这些系统学习现有数据的模式和结构，然后利用这些知识创造出与真实数据相似的新样本。
扩散模型 (Diffusion Models)：一类强大的生成模型，近年来在图像、视频和音频生成方面取得了显著成功。其核心思想是通过一个前向扩散过程 (forward diffusion process) 逐步向数据添加噪声，直到数据完全变成随机噪声；然后，训练一个神经网络来学习逆向去噪过程 (reverse denoising process)，从而从噪声中恢复出原始数据。
潜在扩散模型 (Latent Diffusion Models, LDM)：扩散模型的一种变体，它在低维的潜在空间 (latent space) 而非原始像素空间中进行扩散和去噪操作。这样做可以显著降低计算成本，同时保持高质量的生成效果。音视频通常先通过变分自编码器 (Variational AutoEncoder, VAE) 编码成潜在表示，再在潜在空间进行扩散。
交叉注意力 (Cross-Attention)：注意力机制 (Attention Mechanism) 的一种，允许模型在处理一种模态 (如视频) 时，关注并整合来自另一种模态 (如音频) 的信息。它通过计算查询 (Query)、键 (Key) 和值 (Value) 之间的相似度来确定不同模态之间的关联强度。 $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中， $Q$ (Query)、 $K$ (Key)、 $V$ (Value) 分别是来自不同模态的特征向量矩阵。 $d_k$ 是键向量的维度，用于缩放点积以防止梯度过大。softmax 函数将注意力权重归一化。
旋转位置嵌入 (Rotary Positional Embeddings, RoPE)：一种在 Transformer 模型中编码位置信息的方法，它通过在注意力计算中将旋转矩阵应用于查询和键向量，从而为不同的相对位置引入旋转变换。相比于绝对位置嵌入，RoPE 能够更好地捕捉相对位置关系，并且可以扩展到更长的序列长度。
无分类器引导 (Classifier-Free Guidance, CFG)：扩散模型中的一种技术，用于在推理阶段增强生成内容的条件性。它通过结合有条件模型输出（受特定输入引导）和无条件模型输出（不受任何输入引导）的去噪预测，来引导生成过程向条件更强的方向发展。 $\tilde{\epsilon} = \hat{\epsilon}_{\theta}(z_t, c) + s \cdot (\hat{\epsilon}_{\theta}(z_t, c) - \hat{\epsilon}_{\theta}(z_t, \emptyset))$ 其中， $\tilde{\epsilon}$ 是引导后的噪声预测， $\hat{\epsilon}_{\theta}(z_t, c)$ 是有条件预测， $z_t$ 是带噪声的潜在变量， $c$ 是条件（如文本）， $\hat{\epsilon}_{\theta}(z_t, \emptyset)$ 是无条件预测， $\emptyset$ 代表空条件， $s$ 是引导尺度 (guidance scale)，控制引导的强度。
主干网络 (Backbone Network)：深度学习模型中用于提取特征的核心网络结构，通常是一个预训练的卷积神经网络 (CNN) 或 Transformer。在多模态任务中，不同模态可能拥有各自的主干网络。

3.2. 前人工作

3.2.1. 视频生成 (Video Generation)

视频生成领域发展迅速，从早期的 生成对抗网络 (Generative Adversarial Networks, GANs) [11] 演变为现在主导的 扩散模型 (Diffusion Models) [17]。基于图像合成的成功，像 AnimateDiff [13] 和 SVD [1] 等模型将扩散模型扩展到时序领域。架构也从 U-Net 发展到更强大的 扩散 Transformer (Diffusion Transformers, DiT) [33, 56]。近期开源模型如 HunyuanVideo [29] 和 Wan [49] 在视觉质量方面达到了最先进水平。然而，这些工作普遍存在一个关键限制：它们都专注于单一的视觉模态，生成的是无声视频，缺乏沉浸式体验。

3.2.2. 联合音视频生成 (Joint Audio-Video Generation)

近期研究开始探索在统一框架下同时生成音频和视频 [34, 35, 42, 50, 51, 54]。

早期开源方法：MM-Diffusion [42]、JavisDiT [34] 等主要局限于合成粗粒度的环境音，无法生成有意义的人类语音 [26, 34, 42]。
近期进展：UniVerse-1 [50] 和 Ovi [35] 整合了更强大的音频合成组件，实现了环境音和人类语音的联合生成。但这些模型在整体声景的精细对齐方面仍面临挑战，难以将人类语音与其周围环境音以声学和语义一致的方式融合，尤其是在创建真正沉浸式音视频体验方面存在差距。
特定任务模型：JAMFlow [30] 专注于语音生成，但缺乏环境音生成能力。

3.3. 技术演进

音视频生成的技术演进大致可以分为以下几个阶段：

独立模态生成：早期研究主要集中在单独生成视频或音频，各自领域的技术（如 GANs、VAE、后来的扩散模型）不断发展。视频生成注重视觉保真度和时序连贯性，音频生成则关注音质和语义内容。
单一模态条件下的另一模态生成：随着技术成熟，开始出现音频驱动的视频生成（如唇形同步）或视频驱动的音频生成（如环境音合成）。这类任务通常将一种模态作为条件，生成另一种模态，在一定程度上探索了跨模态对齐。
端到端联合音视频生成：最新的前沿是尝试在一个统一框架下，从零开始同时生成音视频内容。这要求模型不仅能生成高质量的单模态内容，还要确保两种模态之间在语义、时序和风格上高度协调一致。本文的 Harmony 正是处于这一阶段，并致力于解决其核心挑战——鲁棒的跨模态对齐。

3.4. 差异化分析

本文的 Harmony 方法与现有相关工作相比，其核心区别和创新点在于：

根源问题诊断：Harmony 明确指出了联合扩散过程中音视频失准的三个根本原因（Correspondence Drift、全局注意力机制的局限性、CFG的模态内偏置），而现有方法往往未能从方法论层面深入探讨这些问题。
跨任务协同训练：通过将联合生成任务与音频驱动视频生成、视频驱动音频生成这两个辅助任务协同训练，Harmony 提供了一个稳定的对齐信号，有效缓解了 Correspondence Drift，这是现有联合生成模型所缺乏的。
解耦交互模块： Harmony 的 Global-Local Decoupled Interaction Module 将精确的帧级时序对齐（通过 RoPE-Aligned Frame-wise Attention）和整体全局风格一致性（通过 Global Style Alignment）解耦处理，解决了传统单一机制（如全局交叉注意力）在这两个目标上进行权衡的局限性。
同步增强型 CFG： Harmony 提出了 SyncCFG，通过设计更具意义的负锚点（静音音频和静态视频），在推理过程中明确地隔离和放大了音视频对齐信号，这比传统 CFG 仅仅增强文本条件性的方式更具针对性。

简而言之，Harmony 不仅改进了生成质量，更重要的是从训练策略、网络架构和推理引导机制三个层面，系统性地解决了音视频联合生成中的核心同步挑战。

4. 方法论

本节将详细介绍 Harmony 框架，该框架旨在通过解决扩散模型中跨模态对齐的基本挑战，实现联合音视频合成。Harmony 的设计围绕三个核心创新点：跨任务协同训练策略、全局-局部解耦交互模块以及同步增强型 CFG。

4.1. 方法原理

Harmony 的核心思想是机制性地强制音视频同步，以克服联合扩散过程中固有的三大挑战：

解决对应漂移 (Correspondence Drift)：通过引入 跨任务协同训练范式 (Cross-Task Synergy training paradigm)，利用单向驱动任务（音频驱动视频、视频驱动音频）的强监督信号，为模型提供稳定的对齐先验 (alignment priors)，从而加速并稳定音视频对齐的学习。
解决局部与全局同步冲突：通过设计 全局-局部解耦交互模块 (Global-Local Decoupled Interaction Module)，将细粒度的时序对齐和整体风格一致性分开处理，避免了单一机制的次优权衡。
增强跨模态同步信号：通过提出 同步增强型 CFG (Synchronization-Enhanced CFG, SyncCFG)，在推理阶段明确隔离并放大音视频之间的对齐信号，弥补了传统 CFG 在跨模态同步方面的不足。

4.2. 核心方法详解

4.2.1. 预备知识：联合音视频扩散 (Preliminary: Joint Audio-Video Diffusion)

联合音视频合成通常采用双流潜在扩散模型 (dual-stream Latent Diffusion Model)。首先，将视频 $V$ 和音频 $A$ 编码为潜在变量 $(z_v, z_a)$ 。然后，训练一个去噪网络 $\epsilon_{\theta}$ 来反转标准的 Gaussian 噪声过程。该网络由并行的视频和音频主干网络组成，分别处理其对应的带噪声的潜在变量 $z_{v,t}$ 和 $z_{a,t}$ 。同步通过一个交互模块（例如，交叉注意力）学习，该模块耦合两个流。模型的优化目标是最小化两种模态的噪声预测误差：

$\mathcal{L} = ||\epsilon_v - \hat{\epsilon}_v(z_{v,t}, z_{a,t}, t)||^2 + ||\epsilon_a - \hat{\epsilon}_a(z_{a,t}, z_{v,t}, t)||^2$

其中，

$\mathcal{L}$ 表示总损失函数。
$\epsilon_v$ 和 $\epsilon_a$ 分别是视频和音频的真实噪声。
$\hat{\epsilon}_v(\cdot)$ 和 $\hat{\epsilon}_a(\cdot)$ 分别是去噪网络预测的视频和音频噪声。
$z_{v,t}$ 和 $z_{a,t}$ 分别是在时间步 $t$ 下，带有噪声的视频和音频潜在变量。
$t$ 表示当前扩散时间步。这种标准方法在从两个同时带噪声的信号中学习鲁棒对齐方面存在困难，这是本文工作要解决的核心挑战。

4.2.2. 跨任务协同以增强对齐 (Cross-Task Synergy for Enhanced Alignment)

4.2.2.1. 对应漂移的挑战 (The Challenge of Correspondence Drift)

问题阐述：在联合生成任务的早期阶段，音频和视频信号都受到大量噪声的扩散。试图在两个同时演变、高度随机的潜在变量之间学习对应关系，会导致学习目标不稳定且效率低下，使得对齐过程发生漂移并收敛缓慢。作者将此现象称为 对应漂移 (Correspondence Drift)。 经验验证：如图 3 所示，通过比较音频驱动的视频生成任务与联合音视频生成任务的唇形同步对齐得分，作者发现音频驱动模型（以干净音频信号为条件）能够迅速收敛到高对齐分数，而联合生成模型则收敛显著缓慢。这表明，以确定性的无噪声信号锚定其中一种模态，能为跨模态交互模块提供稳定的学习梯度，从而高效捕获对齐线索。

Figure 3. Comparison of the audio-video alignment score among different training strategies. 该图像是一个图表，展示了不同训练策略下音频视频对齐得分的比较。在训练迭代过程中，‘音频驱动（Conf）’和‘跨任务协同（Conf）’展现出较高且稳定的同步置信度，而‘联合生成（Conf）’逐渐下降，‘跨任务协同（Dis）’的同步距离则较大，显示出不同策略的有效性差异。

Figure 3. Comparison of the audio-video alignment score among different training strategies.

4.2.2.2. 跨任务协同 (Cross-Task Synergy)

概述：基于上述洞察，作者提出了 跨任务协同 (Cross-Task Synergy) 训练框架。该框架将标准的联合音视频生成任务（主要任务）与辅助的音频驱动视频生成和视频驱动音频生成任务协同组合。通过利用这些单向监督任务提供的高质量、无噪声学习信号，模型能够高效学习复杂的音视频对应关系。这些预先学习的对齐知识随后作为强大的催化剂，加速主要联合生成任务的收敛并提升最终的对齐质量。

双分支模型架构 (Dual-Branch Model Architecture)：模型采用视频和音频生成的双分支架构。

视频分支：适应预训练的 Wan2.2-5B 模型 [49]。
音频分支：设计为对称结构，用于合成音频剪辑 $A$ $A$ ，其条件包括语音文本 $T_s$ $T_{s}$ （语音内容）、描述性字幕 $T_a$ $T_{a}$ （描述声学场景，如人声情感或环境音）以及参考音频 $A_r$ $A_{r}$ （音色）。
- 输入处理：使用多编码器设置。audio VAE [5] 将 $A$ 和 $A_r$ 编码为潜在变量 $z_a$ 和 $z_r$ 。与先前工作不同，作者使用独立的文本编码器来保持语音精度：一个专用的 speech-encoder [3] 处理文本 $T_s$ 得到 $\mathbf{e}_{\mathrm{speech}}$ ，一个 T5 encoder [6] 处理描述性提示 $T_a$ 得到 $\mathbf{e}_{\mathrm{prompt}}$ 。
- 去噪过程：在去噪过程中，参考潜在变量 $z_r$ $z_{r}$ 被预加到带噪声的目标潜在变量 $z_{a,t}$ $z_{a, t}$ 之前，形成一个复合输入潜在变量 $z_{a,t}'$ $z_{a, t}^{'}$ 。这个复合潜在变量与语音和提示嵌入一起，由 多模态扩散 Transformer (Multi-Modal Diffusion Transformer, MMDiT) 进行处理以预测噪声： $\hat{\epsilon}_a = \mathbf{MM}\mathbf{-DiT}(\mathrm{concat}(z_{a,t}', \mathbf{e}_{\mathrm{speech}}, \mathbf{e}_{\mathrm{prompt}}), t_a)$ 其中，
  - $\hat{\epsilon}_a$ 是 MMDiT 预测的音频噪声。
  - $\mathbf{MM}\mathbf{-DiT}$ 是多模态扩散 Transformer 网络。
  - $\mathrm{concat}(\cdot)$ 表示连接操作。
  - $z_{a,t}'$ 是包含参考音频潜在变量的复合音频潜在变量。
  - $\mathbf{e}_{\mathrm{speech}}$ 是语音文本的嵌入。
  - $\mathbf{e}_{\mathrm{prompt}}$ 是描述性提示的嵌入。
  - $t_a$ 是音频扩散时间步。为了促进两个分支之间有效的跨模态交互，在每个层实例化了一个双向全局-局部解耦交互模块。

跨任务协同训练 (Cross-Task Synergy Training)：作者设计了一种混合训练策略，实现了跨任务协同的原则。通过同时训练联合生成任务和两个确定性的、单模态驱动的任务（音频驱动视频生成和视频驱动音频生成），为模型提供稳定的对齐信号以对抗对应漂移。

音频驱动任务：通过将音频时间步 $t_a$ 设置为 0，将视频生成以干净的音频潜在变量为条件。
视频驱动任务：对称地，通过将视频时间步 $t_v$ 设置为 0，将音频生成以干净的视频潜在变量为条件。总训练目标是三个相应损失的加权和： $\begin{array}{r} \mathcal{L} = \mathcal{L}_{\mathrm{joint}} + \lambda_v \mathcal{L}_{\mathrm{driven}}^{\mathrm{audio}} + \lambda_a \mathcal{L}_{\mathrm{driven}}^{\mathrm{video}}, \end{array}$ 其中，
$\mathcal{L}$ 是总损失。
$\mathcal{L}_{\mathrm{joint}}$ 是联合生成任务的损失。
$\mathcal{L}_{\mathrm{driven}}^{\mathrm{audio}}$ 是音频驱动视频生成任务的损失。
$\mathcal{L}_{\mathrm{driven}}^{\mathrm{video}}$ 是视频驱动音频生成任务的损失。
$\lambda_v$ 和 $\lambda_a$ 是平衡这些损失的超参数。
$\mathbf{c}$ 代表辅助条件集（例如，文本提示和语音嵌入）。损失分量定义如下： $\begin{array}{r l} & \mathcal{L}_{\mathrm{joint}} = ||\epsilon_v - \hat{\epsilon}_v(z_{v,t}, z_{a,t}, \mathbf{c}, t)||^2 \\ & \qquad + ||\epsilon_a - \hat{\epsilon}_a(z_{a,t}, z_{v,t} \mathbf{c}, t)||^2, \\ & \mathcal{L}_{\mathrm{driven}}^{\mathrm{audio}} = ||\epsilon_v - \hat{\epsilon}_v(z_{v,t}, z_{a,0}, \mathbf{c}, t)||^2, \\ & \mathcal{L}_{\mathrm{driven}}^{\mathrm{video}} = ||\epsilon_a - \hat{\epsilon}_a(z_{a,t}, z_{v,0}, \mathbf{c}, t)||^2. \end{array}$ 其中，
$z_{a,0}$ 表示干净的（无噪声的）音频潜在变量。
$z_{v,0}$ 表示干净的（无噪声的）视频潜在变量。这种双向、协同的训练方法使得模型能够实现更快的收敛和更高程度的音视频对齐。

4.2.3. 全局-局部解耦交互模块 (Global-Local Decoupled Interaction Module)

鲁棒的音视频同步需要在两个目标之间取得平衡：(1) 精确的、细粒度的时序对齐（如唇部动作）和 (2) 整体的、全局风格一致性（如情感基调、环境特征）。传统方法常使用单一的全局交叉注意力机制来处理两者，导致次优权衡。为解决此问题，作者提出了一个具有两个专门组件的新型 Global-Local Decoupled Interaction Module：(1) 用于精确局部同步的 RoPE-Aligned Frame-wise Attention 模块，和 (2) 用于整体一致性的 Global Style Alignment 模块。

4.2.3.1. RoPE 对齐的帧级注意力 (RoPE-Aligned Frame-wise Attention)

为实现精确的时序同步，模型采用局部帧级注意力策略，它比全局交叉注意力计算效率更高，更适合细粒度对齐。然而，视频和音频潜在变量的采样率不匹配 ( $T_v \neq T_a$ ) 会导致时序错位。为解决这一问题，作者在注意力操作之前引入了一个对齐步骤。

通过 RoPE 缩放进行时序对齐 (Temporal Alignment via RoPE Scaling)：核心思想是通过动态缩放两种模态的 旋转位置嵌入 (Rotary Positional Embeddings, RoPE) [45] 来统一它们的时序坐标空间。在注意力操作之前，将源模态的位置索引按比例缩放以匹配目标模态的时间线。例如，在音频到视频 (A2V) 注意力中，音频帧 $j$ 的索引被映射到一个虚拟位置 $j' = j \cdot (T_v / T_a)$ 进行其 RoPE 计算。这确保了它们的位置编码直接可比，为正确的时序对应建立了强大的归纳偏置 (inductive bias)。

帧级交叉注意力机制 (Frame-wise Cross-Attention Mechanism)：在 RoPE 空间中潜在变量的时序对齐后，应用对称的双向交叉注意力机制。每个帧的注意力被限制在另一模态的一个小的、相关的时序窗口内。以 A2V 为例，给定视频潜在变量 $z_v$ 和音频潜在变量 $z_a$ ，首先将 $z_v$ 重塑以暴露其时序维度 ( $z_v'$ )。对于每个视频帧 $i$ ，从相邻的音频帧中构建一个局部上下文窗口 $C_{a,i}$ 。然后，对每个视频帧独立应用交叉注意力，关注其对应的音频上下文窗口： $\begin{array}{r l} & \Delta z_v'[:,i,:,:] = \mathrm{Cross-Attn}(Q_{v,i}, K_{a,i}, V_{a,i}), \forall i \in [0, T_v - 1], \\ & Q_{v,i} = z_v'[:,i,:,:] W_{v,i}^Q, K_{a,i} = C_{a,i} W_{a,i}^K, V_{a,i} = C_{a,i} W_{a,i}^V. \end{array}$ 其中，

$\Delta z_v'[:,i,:,:]$ 是第 $i$ 个视频帧的更新量。
$\mathrm{Cross-Attn}$ 表示交叉注意力函数。
$Q_{v,i}$ 是第 $i$ 个视频帧的查询向量。
$K_{a,i}$ 和 $V_{a,i}$ 分别是对应音频上下文窗口的键和值向量。
$W_{v,i}^Q, W_{a,i}^K, W_{a,i}^V$ 是可学习的权重矩阵。视频到音频 (V2A) 的帧级对齐以类似方式操作。更新通过残差连接整合： $z_v^{\mathrm{updated}} = z_v + \Delta z_v', \quad z_a^{\mathrm{updated}} = z_a + \Delta z_a.$ 这种 RoPE-aligned frame-wise mechanism 有效地强制了相互的时序同步，同时处理了不同的时间尺度。

4.2.3.2. 全局风格对齐 (Global Style Alignment)

帧级注意力在建立细粒度时序对应方面表现出色，但其局部性限制了整体风格属性（如情感基调或环境特征）的传播。为解决这一问题，模型采用解耦设计：RoPE-Aligned Frame-wise Attention 专门负责精确时序对应，而一个专用的 Global Style Alignment 模块处理整体一致性。 核心洞察：利用参考音频潜在变量 $z_r$ （提供说话者身份和音色）作为风格信息的紧凑载体。通过将 $z_r$ 作为查询 (Query)，将整个视频潜在变量 $z_v$ 作为键 (Key) 和值 (Value)，在一个残差交叉注意力块中调制 $z_r$ ： $\begin{array}{r l} & z_r^{\mathrm{updated}} = z_r + \mathrm{Cross-Attn}(Q_r, K_v, V_v), \\ & Q_r = z_r W_r^Q, K_v = z_v W_v^K, V_v = z_v W_v^V. \end{array}$ 其中，

$z_r^{\mathrm{updated}}$ 是更新后的参考音频潜在变量。
$\mathrm{Cross-Attn}$ 是交叉注意力函数。
$Q_r, K_v, V_v$ 分别是参考音频查询、视频键和视频值。
$W_r^Q, W_v^K, W_v^V$ 是可学习的权重矩阵。产生的视觉信息感知的参考音频潜在变量 $z_r^{\mathrm{updated}}$ 随后被预加到带噪声的音频潜在变量 $z_{a,t}$ 之前，使得音频生成能够以视觉为基础的全局风格为条件。这种解耦设计将全局风格注入限制在参考潜在变量中，防止了整体风格一致性与精确帧级时序对齐之间的干扰。

4.2.4. 同步增强型 CFG (Synchronization-Enhanced CFG)

标准 无分类器引导 (Classifier-Free Guidance, CFG) [16] 在音视频合成中未能显式放大模态之间至关重要的对应关系。为解决此问题，作者引入了 同步增强型 CFG (Synchronization-Enhanced CFG, SyncCFG)，这是一种重新利用引导机制以专门针对并强制音视频同步的新型方案。该方法利用模型在跨任务训练阶段获得的双重能力——联合生成和音频&视频驱动合成——来增强对齐信号。

4.2.4.1. 标准引导局限性分析 (Analysis of Standard Guidance Limitations)

标准 CFG 公式在先前工作中 [35] 用于增强文本提示 $c$ 上的条件性： $\tilde{\epsilon} = \hat{\epsilon}_{\theta}(z_{v,t}, z_{a,t}, \emptyset_c) + s \Big( \hat{\epsilon}_{\theta}(z_{v,t}, z_{a,t}, c) - \hat{\epsilon}_{\theta}(z_{v,t}, z_{a,t}, \emptyset_c) \Big).$ 其中，

$\tilde{\epsilon}$ 是引导后的噪声预测。
$\hat{\epsilon}_{\theta}(z_{v,t}, z_{a,t}, c)$ 是以文本提示 $c$ 为条件的噪声预测。
$\hat{\epsilon}_{\theta}(z_{v,t}, z_{a,t}, \emptyset_c)$ 是无条件的（空文本 $\emptyset_c$ ）噪声预测。
$s$ 是引导尺度。标准 CFG 的关键局限在于其引导方向仅针对文本依从性。它提供的引导向量，通过对比文本条件输出与无文本条件输出计算，仅增强了输出与提示的匹配程度。然而，这个过程对音频和视频之间的内部一致性是不可知的。它没有提供任何机制来隔离或放大两个流之间至关重要的同步信号。

4.2.4.2. SyncCFG 视频引导公式 (SyncCFG Formulation for Video Guidance)

为了显式计算一个增强对齐的方向，作者旨在隔离由音频引起的视觉动态。核心洞察是设计一个更有意义的 负锚点 (Negative Anchor)，它代表一个静态基线——在没有声音的情况下视频应该是什么样子。例如，对于一个说话的人，静音音轨对应的正确视频应该是一个闭着嘴的静止面部。通过创建一个“静音音频”负锚点实现这一点。作者利用模型的音频驱动路径来预测视频潜在变量 $z_{v,t}$ 的噪声，条件是“静音”音频输入 $z_{a,0}^{\mathrm{null}}$ 。这个预测 $\hat{\epsilon}_{\theta}^{\mathrm{driven}}(z_{v,t}, z_{a,0}^{\mathrm{null}})$ 代表了在没有音频动态时的视频噪声。引导后的视频噪声 $\tilde{\epsilon}_v$ 的公式如下： $\begin{array}{r l} & \tilde{\epsilon}_v = \hat{\epsilon}_{\theta}^{\mathrm{driven}}(z_{v,t}, z_{a,0}^{\mathrm{null}}) + \\ & \qquad s_v \left( \hat{\epsilon}_{\theta}^{\mathrm{joint}}(z_{v,t}, z_{a,t}) - \hat{\epsilon}_{\theta}^{\mathrm{driven}}(z_{v,t}, z_{a,0}^{\mathrm{null}}) \right). \end{array}$ 其中，

$\tilde{\epsilon}_v$ 是引导后的视频噪声预测。
$\hat{\epsilon}_{\theta}^{\mathrm{driven}}(z_{v,t}, z_{a,0}^{\mathrm{null}})$ 是音频驱动分支在静音音频条件下的视频噪声预测。
$z_{a,0}^{\mathrm{null}}$ 是静音音频输入。
$s_v$ 是视频引导尺度。
$\hat{\epsilon}_{\theta}^{\mathrm{joint}}(z_{v,t}, z_{a,t})$ 是联合生成分支的噪声预测。减法项隔离了与音频直接相关的精确视觉修改，例如嘴部动作或物体撞击。通过放大这种差异，SyncCFG 专门增强了声音和运动之间的同步。

4.2.4.3. SyncCFG 音频引导公式 (SyncCFG Formulation for Audio Guidance)

类似地，对于音频引导，作者设计了一个基于空视频的负锚点来隔离运动驱动的声音。使用“静态视频”潜在变量 $z_{v,0}^{\mathrm{null}}$ 预测 $\hat{\epsilon}_{\theta}^{\mathrm{driven}}(z_{v,0}^{\mathrm{null}}, z_{a,t})$ 代表了在视频内容静止时的音频噪声，即一个无声场景的音频。引导后的音频噪声 $\tilde{\epsilon}_a$ 的公式如下： $\begin{array}{r l} & \tilde{\epsilon}_a = \hat{\epsilon}_{\theta}^{\mathrm{driven}}(z_{v,0}^{\mathrm{null}}, z_{a,t}) + \\ & \qquad s_a \Big( \hat{\epsilon}_{\theta}^{\mathrm{joint}}(z_{v,t}, z_{a,t}) - \hat{\epsilon}_{\theta}^{\mathrm{driven}}(z_{v,0}^{\mathrm{null}}, z_{a,t}) \Big). \end{array}$ 其中，

$\tilde{\epsilon}_a$ 是引导后的音频噪声预测。
$\hat{\epsilon}_{\theta}^{\mathrm{driven}}(z_{v,0}^{\mathrm{null}}, z_{a,t})$ 是视频驱动分支在静态视频条件下的音频噪声预测。
$z_{v,0}^{\mathrm{null}}$ 是静态视频输入。
$s_a$ 是音频引导尺度。
$\hat{\epsilon}_{\theta}^{\mathrm{joint}}(z_{v,t}, z_{a,t})$ 是联合生成分支的噪声预测。这种方法将 CFG 从一个通用的条件放大器转变为一个有针对性的机制，有效地强制了细粒度的音视频对应关系。

该图像是示意图，展示了SyncCFG如何利用静音音频和静态视频作为负锚点来增强音视频对齐特性，进而有效提升音视频同步。图中显示了音频驱动和视频驱动的生成过程，以及在Harmony框架下的联合生成机制。通过结合不同的生成任务，SyncCFG实现了更精确的时间样式对齐。

Figure 4. SyncCFG employs the mute audio and static video as the negative anchors to capture the synchronization feature, which can effectively enhance the audio-video alignment.

5. 实验设置

5.1. 数据集

训练数据集 (Training Datasets)：模型在一个包含超过 400 万个音视频剪辑的多样化语料库上进行训练，涵盖人类语音和环境音。数据来源于公共资源，如 OpenHumanVid [31]、AudioCaps [28] 和 WavCaps [36]，并辅以作者自己整理的高质量集合。所有数据都使用 Gemini [12] 统一标注。
- 人类语音数据 (Human Speech Data)：聚合自 TTS 专用数据集 Emilia [15]，以及音视频语料库 OpenHumanVid [31] 和 SpeakerVid [57]。通过音视频一致性评分模型过滤，得到 200 万个高质量、时长 3-10 秒的视频片段。使用 Gemini [12] 进行自动标注，生成 ASR 文本、描述性视频字幕和背景声音字幕。
- 环境音数据 (Environmental Sound Data)：利用 AudioCaps [28] ( $\sim 128$ 小时，手动标注)、Clotho [9] ( $\sim 31$ 小时，手动标注) 和 WavCaps [36] ( $\sim 7,600$ 小时，自动标注)。此外，补充收集了 200 万个富含环境音的音视频片段，并使用 Gemini [12] 标注相应的音频和视频字幕。
Harmony-Bench (评估数据集)：为了进行严格的评估，作者引入了 Harmony-Bench，一个包含 150 个测试用例的新基准，旨在评估核心音视频生成能力。它分为三个难度递增的 50 项子集：
1. 环境音视频 (Ambient Sound-Video)：评估非语音声音的时序对齐，使用 AI 生成的场景，以音频和视频字幕为条件。
2. 语音视频 (Speech-Video)：评估唇形同步和语音质量，包含真实世界和合成的多语言数据，主要以文本为条件。
3. 复杂场景 (Complex Scene: Ambient + Speech)：测试模型在复杂场景中同时生成和同步语音和环境音的能力，使用全套多模态提示。

5.2. 评估指标

为了全面评估 Harmony-Bench 上的模型性能，作者采用了一套自动化指标，旨在评估音视频质量的三个核心方面：

5.2.1. 视频质量与连贯性 (Video Quality and Coherence)

美学质量 (Aesthetic Quality, AQ)：使用预训练的 aesthetic-predictor-v2-5 [48] 模型评估。
- 概念定义：衡量生成视频的视觉吸引力、艺术性和整体美感。
- 数学公式：通常通过一个分类器预测得分，没有标准化的单一公式。在 aesthetic-predictor-v2-5 中，它是一个神经网络的输出分数，反映了图像被人类认为具有美感的概率或强度。
- 符号解释：
  - AQ: 美学质量得分，通常为 0 到 1 之间的浮点数，越高越好。
成像质量 (Imaging Quality, IQ)：使用 MUSIQ [27] 模型评估。
- 概念定义：评估生成视频的清晰度、细节、色彩准确性和噪声水平等技术图像质量。
- 数学公式：MUSIQ 是一种基于 Transformer 的多尺度图像质量评估模型，其输出是一个质量分数。 $IQ = f_{\text{MUSIQ}}(V)$
- 符号解释：
  - IQ: 成像质量得分，越高越好。
  - $f_{\text{MUSIQ}}(\cdot)$ : MUSIQ 模型，输入视频 $V$ 并输出质量分数。
  - $V$ : 待评估的视频。
动态程度 (Dynamic Degree, DD)：使用 RAFT [46] 量化运动幅度。
- 概念定义：衡量视频中物体或场景的运动强度和活跃程度。
- 数学公式：RAFT 模型预测光流 (optical flow)，DD 可以通过光流矢量的大小来计算。 $DD = \frac{1}{T} \sum_{t=1}^{T-1} \frac{1}{N} \sum_{x,y} ||\mathbf{F}_{t \to t+1}(x,y)||_2$
- 符号解释：
  - DD: 动态程度，越高越好。
  - $T$ : 视频帧数。
  - $N$ : 单帧的像素数量。
  - $\mathbf{F}_{t \to t+1}(x,y)$ : 在时间 $t$ 到 $t+1$ 之间，像素 (x,y) 处的光流矢量。
  - $||\cdot||_2$ : L2 范数，表示光流矢量的大小。
运动平滑度 (Motion Smoothness, MS)：通过预训练的视频帧插值模型评估 [24]。
- 概念定义：评估视频中运动的连续性和流畅性，避免卡顿、跳帧或不自然的过渡。
- 数学公式：通常通过插值帧与真实帧之间的误差或感知质量来衡量。一个常见的代理指标是计算连续帧之间光流的平滑度。 $MS = \frac{1}{T-2} \sum_{t=1}^{T-2} \frac{1}{N} \sum_{x,y} \exp\left(-\alpha ||\mathbf{F}_{t \to t+1}(x,y) - \mathbf{F}_{t+1 \to t+2}(x,y)||_2\right)$
- 符号解释：
  - MS: 运动平滑度，越高越好。
  - $\alpha$ : 缩放因子。
  - $\mathbf{F}_{t \to t+1}(x,y)$ : 在时间 $t$ 到 $t+1$ 之间，像素 (x,y) 处的光流矢量。
身份一致性 (Identity Consistency, ID)：对于特定主题的生成，通过计算参考图像与所有生成帧之间的平均 DINOv3 [44] 特征相似度来衡量。
- 概念定义：评估在视频生成过程中，特定主体（如人脸）的身份特征能否保持一致，不发生变形或身份漂移。
- 数学公式： $ID = \frac{1}{T} \sum_{t=1}^T \text{cosine\_similarity}(f_{\text{DINOv3}}(I_{ref}), f_{\text{DINOv3}}(I_t))$
- 符号解释：
  - ID: 身份一致性得分，越高越好。
  - $T$ : 生成视频的帧数。
  - $I_{ref}$ : 参考图像。
  - $I_t$ : 生成视频的第 $t$ 帧。
  - $f_{\text{DINOv3}}(\cdot)$ : DINOv3 模型，提取图像特征。
  - $\text{cosine\_similarity}(\cdot, \cdot)$ : 余弦相似度。

5.2.2. 音频保真度与质量 (Audio Fidelity and Quality)

AudioBox-Aesthetics [47]：评估感知质量 (perceptual quality) 的四个维度：
- 生产质量 (Production Quality, PQ)：
  - 概念定义：衡量音频的录制、混音和制作水平，包括清晰度、平衡度、动态范围等。
  - 数学公式：AudioBox-Aesthetics 模型的输出分数之一。
  - 符号解释：PQ: 生产质量得分，越高越好。
- 生产复杂度 (Production Complexity, PC)：
  - 概念定义：衡量音频内容在制作和结构上的复杂程度，如音轨数量、音效层次、编排复杂性等。
  - 数学公式：AudioBox-Aesthetics 模型的输出分数之一。
  - 符号解释：PC: 生产复杂度得分，越低越好（表示越简洁）。
- 内容享受度 (Content Enjoyment, CE)：
  - 概念定义：衡量听众对音频内容的享受程度，包括趣味性、吸引力、愉悦感等。
  - 数学公式：AudioBox-Aesthetics 模型的输出分数之一。
  - 符号解释：CE: 内容享受度得分，越高越好。
- 内容实用性 (Content Usefulness, CU)：
  - 概念定义：衡量音频内容在特定场景或任务中的实用价值或信息量。
  - 数学公式：AudioBox-Aesthetics 模型的输出分数之一。
  - 符号解释：CU: 内容实用性得分，越高越好。
词错误率 (Word Error Rate, WER)：用于语音合成，衡量准确性。使用 Whisper-large-v3 [40] 转录生成音频，并与真值文本进行比较。
- 概念定义：衡量语音识别系统输出的词序列与参考（真值）词序列之间的差异。是衡量语音识别准确性的标准指标。
- 数学公式： $WER = \frac{S + D + I}{N}$
- 符号解释：
  - $S$ : 替换错误 (Substitutions) 的数量。
  - $D$ : 删除错误 (Deletions) 的数量。
  - $I$ : 插入错误 (Insertions) 的数量。
  - $N$ : 参考词序列中的总词数。
  - WER: 词错误率，越低越好。
IB-A Score (ImageBind-Audio Score)：使用 ImageBind [10] 量化生成音频与文本提示之间的语义对齐。
- 概念定义：衡量生成音频在语义上与给定文本提示的匹配程度。ImageBind 能够将不同模态的数据映射到同一个嵌入空间，从而通过嵌入向量的相似度来评估跨模态一致性。
- 数学公式： $IB\text{-}A = \text{cosine\_similarity}(f_{\text{ImageBind}}(A), f_{\text{ImageBind}}(T))$
- 符号解释：
  - $IB\text{-}A$ : ImageBind 音频得分，越高越好。
  - $f_{\text{ImageBind}}(\cdot)$ : ImageBind 模型，提取音频 $A$ 和文本 $T$ 的嵌入特征。
  - $A$ : 生成的音频。
  - $T$ : 文本提示。

5.2.3. 音视频同步与一致性 (Audio-Visual Synchronization and Consistency)

Sync-C & Sync-D：使用 Sync-C 和 Sync-D [7] 这两个已建立的指标明确衡量唇形同步准确性。
- 概念定义：Sync-C（同步置信度）衡量唇部运动与语音之间的同步程度，通常是模型判断为同步的置信分数；Sync-D（同步距离）衡量唇部运动与语音之间的时序偏移量。
- 数学公式：这些指标通常由专门的唇形同步模型输出，没有统一的标准化公式。Sync-C 越高越好，Sync-D 越低越好。
- 符号解释：
  - $Sync\text{-}C$ : 同步置信度，越高越好。
  - $Sync\text{-}D$ : 同步距离，越低越好。
DeSync Score (不同步得分)：由 Synchformer [25] 预测，量化音视频流之间的时序错位（以秒为单位）。
- 概念定义：衡量音频和视频之间实际的时间偏移量。
- 数学公式：由 Synchformer 模型输出的时序偏移量。 $\text{DeSync} = \text{Synchformer}(A, V)$
- 符号解释：
  - $\text{DeSync}$ : 不同步得分，越低越好。
  - $\text{Synchformer}(\cdot, \cdot)$ : Synchformer 模型，输入音频 $A$ 和视频 $V$ 并输出时序偏移量。
ImageBind (IB) Score：遵循 [10]，通过计算音视频各自特征嵌入之间的余弦相似度来评估整体音视频一致性。
- 概念定义：衡量生成音视频内容在语义上是否一致。ImageBind 能将音视频映射到统一的嵌入空间，通过其嵌入向量的相似度来反映跨模态一致性。
- 数学公式： $IB = \text{cosine\_similarity}(f_{\text{ImageBind}}(A), f_{\text{ImageBind}}(V))$
- 符号解释：
  - IB: ImageBind 得分，越高越好。
  - $f_{\text{ImageBind}}(\cdot)$ : ImageBind 模型，提取音频 $A$ 和视频 $V$ 的嵌入特征。
  - $A$ : 生成的音频。
  - $V$ : 生成的视频。

5.3. 对比基线

论文将 Harmony 方法与以下最先进的音视频生成方法进行了比较：

MM-Diffusion [42]：多模态扩散模型，用于联合音视频生成。
JavisDiT [34]：基于 Diffusion Transformer 的联合音视频模型，具有分层时空先验同步。
UniVerse-1 [50]：通过专家拼接实现统一音视频生成。
Ovi [35]：采用双主干交叉模态融合的音视频生成模型。

6. 实验结果与分析

6.1. 核心结果分析

为了评估模型性能，作者将 Harmony 与最先进的音视频生成方法在三种类型的数据集（环境音视频、语音视频和复杂场景）上进行了比较。

以下是原文 Table 1 呈现的现有联合音视频生成模型的功能比较：

Model	Capability
Model	Human Speech	Environmental Sound	Speech-Video Alignment	Sound-Video Alignment
MM-Diffusion [42]	X	O	X	O
JavisDiT [34]	X	O	X	O
AnimateSI [52]	X	O	X	O
JAM-Flow [30]	✓	X	✓	X
UniVerse-1 [50]	√	✓	X	O
Ovi [35]	L	✓	O	O
Harmony (Ours)	✓	✓	✓	✓

符号说明： $\checkmark$ : 好, O: 一般/有限, X: 差/不支持, L: 有缺陷

从 Table 1 可以看出，Harmony 是唯一一个在人类语音、环境音、语音-视频对齐和声音-视频对齐所有方面都达到“好”水平的模型，这表明了其在功能上的全面性和卓越性。

以下是原文 Table 2 呈现的音视频生成能力定量比较（完整 Harmony-Bench）：

Method	Video Quality & Coherence					Audio Fidelity & Quality					Audio-Visual Synchronization
Method	AQ↑	IQ↑	DD ↑	MS ↑	ID ↑	PQ↑	PC ↓	CE↑	CU ↑	WER ↓	IB-A↑	Sync-C ↑	Sync-D ↓	DeSync ↓	IB ↑
MM-Diffusion [42]	0.32	0.43	0.13	0.99	-	5.37	4.07	4.27	5.89	-	-	-	-	-	0.12
JavisDiT [34]	0.34	0.53	0.38	0.99	0.38	5.46	2.24	3.19	4.54	1.00	0.14	0.89	11.62	1.13	0.18
UniVerse-1 [50]	0.52	0.67	0.24	0.99	0.89	5.52	2.13	3.63	4.84	0.24	0.07	0.97	10.71	1.10	0.12
Ovi [35]	0.57	0.65	0.34	0.99	0.90	6.19	2.13	4.44	5.84	0.49	0.12	4.04	9.62	1.14	0.18
Harmony (Ours)	0.59	0.65	0.36	0.99	0.91	6.39	2.05	4.73	5.67	0.15	0.12	5.61	7.53	0.92	0.19

Harmony 在音视频同步的关键指标上显著优于所有基线：Sync-C 达到最高的 5.61，Sync-D 达到最低（最佳）的 7.53，DeSync 也是最低的 0.92。这表明 Harmony 在时序对齐方面有实质性改进，直接验证了其跨任务协同机制在增强跨模态连贯性方面的有效性。在视频质量与连贯性方面，Harmony 也在 AQ、DD、ID 等指标上表现出极强的竞争力，MS 保持高水平。音频保真度方面，PQ、CE 达到最高，PC 达到最低（最佳），WER 仅次于 UniVerse-1，总体表现优异。

以下是原文 Table 4 呈现的环境音视频生成能力定量比较：

Method	Video Quality & Coherence					Audio Fidelity & Quality						Audio-Visual Synchronization
Method	AQ↑	IQ ↑	DD ↑	MS ↑	ID ↑	PQ↑	PC ↓	CE↑	CU ↑	WER ↓	IB-A↑	Sync-C ↑	Sync-D ↓	DeSync ↓	IB↑
MM-Diffusion [42]	0.32	0.43	0.13	0.99	-	5.37	4.07	4.27	5.89	-	-	-	-	-	0.12
JavisDiT [34]	0.30	0.54	0.28	0.99	0.35	5.34	2.16	3.61	3.92	1.00	0.14	1.20	12.73		0.22
UniVerse-1 [50]	0.47	0.67	0.15	0.99	0.89	4.28	1.86	3.84	3.91	0.23	0.16	1.22	13.10		0.16
Ovi [35]	0.48	0.65	0.17	0.99	0.88	6.19	1.59	5.41	6.21	0.19	0.10	5.13	10.38		0.17
Harmony (Ours)	0.48	0.63	0.20	1.00	0.93	6.20	1.57	5.30	5.93	0.15	0.15	6.51	8.63		0.18

在环境音视频生成方面（Table 4），Harmony 在 Sync-C (6.51) 和 Sync-D (8.63) 上同样表现最佳。其 ID (0.93) 最高，MS (1.00) 达到完美，表明生成视频主体身份一致性高且运动平滑。在音频质量方面，PQ (6.20) 和 PC (1.57) 均表现优异。

以下是原文 Table 5 呈现的语音视频生成能力定量比较：

Method	Video Quality & Coherence					Audio Fidelity & Quality					Audio-Visual Synchronization
Method	AQ ↑	IQ ↑	DD ↑		MS ↑ ID ↑	PQ ↑	PC ↓	CE↑	CU ↑	WER ↓	IB-A↑	Sync-C ↑	Sync-D ↓	DeSync ↓	IB ↑
MM-Diffusion [42]	0.32	0.43	0.13	0.99	-	5.37	4.07	4.27	5.89	-	-	-	-	-	0.12
JavisDiT [34]	0.37	0.55	0.33	0.99	0.45	5.64	2.29	3.06	5.14		0.18	-		0.94	0.16
UniVerse-1 [50]	0.57	0.68	0.16	1.00	0.92	6.14	2.30	3.20	5.46		0.04			1.10	0.07
Ovi [35]	0.62	0.66	0.44	0.99	0.93	6.45	2.46	3.78	5.98	-	0.20			1.06	0.20
Harmony (Ours)	0.64	0.65	0.56	0.98	0.90	6.53	2.68	4.12	6.22	-	0.14			0.70	0.21

在语音视频生成方面（Table 5），Harmony 在 AQ (0.64)、DD (0.56)、PQ (6.53)、CE (4.12)、CU (6.22) 和 IB (0.21) 上表现最佳，DeSync 也是最佳的 0.70。这表明 Harmony 能够生成高质量的语音视频，并且具有出色的唇形同步和整体音视频一致性。

以下是原文 Table 6 呈现的复杂场景（环境音 + 语音）生成能力定量比较：

Method	Video Quality & Coherence					Audio Fidelity & Quality					Audio-Visual Synchronization
Method	AQ↑	IQ ↑	DD ↑	MS ↑	ID ↑	PQ ↑	PC ↓	CE↑	CU ↑	WER ↓	IB-A↑	Sync-C ↑	Sync-D ↓	DeSync ↓	IB↑
MM-Diffusion [42]	0.32	0.43	0.13	0.99	-	5.37	4.07	4.27	5.89	-	-	-	-	-	0.12
JavisDit [34]	0.34	0.50	0.54	0.98	0.33	5.40	2.26	2.91	4.56	1.00	0.09	0.58	10.50	1.32	0.17
UniVerse-1 [50]	0.52	0.65	0.42	0.99	0.85	6.14	2.23	3.85	5.15	0.25	0.00	0.72	8.32	1.09	0.14
Ovi [35]	0.60	0.63	0.41	0.99	0.88	5.94	2.33	4.14	5.33	0.79	0.06	2.94	8.86	1.21	0.18
Harmony (Ours)	0.64	0.66	0.32	1.00	0.91	6.43	1.90	4.76	4.86	0.15	0.06	4.70	6.43	1.13	0.18

在最复杂的场景下（Table 6），Harmony 在 AQ (0.64)、IQ (0.66)、PQ (6.43)、CE (4.76) 上表现最佳，并且 Sync-C (4.70) 最高，Sync-D (6.43) 最低，WER (0.15) 表现出色。这进一步验证了 Harmony 在复杂多模态场景下生成高质量、强同步内容的鲁棒性。

总体而言，Harmony 在视频质量、音频保真度以及最重要的音视频同步方面均达到了最先进水平或可比水平。尤其是在 Sync-C 和 Sync-D 等同步指标上的显著提升，直接验证了其所提出的跨任务协同机制在增强跨模态连贯性方面的有效性。

以下是原文 Figure 5 呈现的 UniVerse-1、Ovi 和 Harmony 的定性比较：

该图像是示意图，展示了三种生成模型在音频与视频合成任务中的表现。上方分别为UniVerse-1和Ovi模型生成的内容，下方为本文提出的Harmony模型。每个模型的生成视频上方均附有对应的音频波形图，以展示其音频与视频的同步性。左侧是一个正在说话的男性，右侧是一位坐在木质阳台上演奏曼陀林的音乐家，Harmony模型表现出更好的音视频同步效果。

Figure 5. Visualization of the audio-to-video frame-wise crossattention map, where the audio can accurately capture the sound source from the videos.

在定性比较中（Figure 5），对于说话人物（左侧），UniVerse-1 和 Ovi 都未能生成同步的唇部动作。对于音乐驱动的案例（右侧），UniVerse-1 产生不相关的噪音，Ovi 生成的音频虽然音乐上正确但动态性较差。视觉上，两者生成的视频运动极小。相比之下，Harmony 生成了人物演奏曼陀林的流畅视频，其动作与丰富、相应的音乐动态同步，且音频波形更为复杂，表明其更强的表达能力和同步性。

以下是原文 Figure 6 呈现的跨模态注意力可视化：

Figure 6. Visualization of the audio-to-video frame-wise crossattention map, where the audio can accurately capture the sound source from the videos. 该图像是一个示意图，展示了人声和动物音频对视频帧的影响，分别展示在上方和下方。上方为人类发声的视觉表征，下方则为动物音频的表现，与声音源进行对应的视觉展示。

Figure 6. Visualization of the audio-to-video frame-wise crossattention map, where the audio can accurately capture the sound source from the videos.

Figure 6 可视化了音频到视频模块的注意力图，验证了帧级交叉注意力机制的有效性。在合成人类语音时，模型能精确地将注意力集中在说话者的口部区域。在有多个人的场景中，模型能够区分并仅关注活跃的说话者。对于自然声音，模型能准确识别主要声源（如动物），同时关注环境背景音（如猫的例子中的雨声，鳄鱼例子中的鸟鸣）。这些可视化结果共同强调了模型在实现细粒度、上下文感知的音视频对齐方面的卓越能力。

以下是原文 Table 7 呈现的中文语音与最先进模型的比较：

Method	WER ↓\|	Sync-C ↑	Sync-D ↓	IB ↑
JavisDiT [34]	4.84	1.27	12.63	0.20
UniVerse-1 [50]	2.32	0.91	11.02	0.22
Ovi [35]	9.10	4.45	10.79	0.20
Harmony (Ours)	0.92	5.05	9.38	0.22

在中文语音生成能力方面（Table 7），Harmony 取得了显著更低的 WER (0.92) 和明显更好的同步分数 (Sync-C 5.05，Sync-D 9.38)。尽管 WER 指标对中文分词优化不完全，但模型间的相对性能差距仍能有效说明问题。这强烈验证了 Harmony 在跨语言音视频语音生成方面的有效性和优越性。

6.2. 消融实验/参数分析

以下是原文 Table 3 呈现的 Harmony 核心组件的消融研究：

Model Structure		Methodology		Synchronization Metrics
GLDI	RoPE	CTS	SyncCFG	Sync-C ↑	Sync-D ↓	IB ↑
				4.20	10.93	0.13
✓				4.29	10.67	0.14
	✓			4.80	10.30	0.14
✓	✓	√		5.09	10.16	0.15
✓	✓	√	✓	6.51	8.63	0.18

消融研究在人类语音数据集上进行，结果如 Table 3 所示。基线模型将 Global-Local Decoupled Interaction (GLDI) 模块替换为标准全局交叉注意力机制（类似于 Ovi [35]），且未采用 Cross-Task Synergy (CTS) 训练。

引入 GLDI 模块：从基线的 Sync-C 4.20 提升到 4.29，Sync-D 从 10.93 降低到 10.67，表明解耦局部和全局交互带来了收益。
引入 RoPE Alignment：在 GLDI 的基础上进一步引入 RoPE，Sync-C 从 4.29 显著提升至 4.80，Sync-D 降低至 10.30。这验证了 RoPE 有效解决了时间尺度不匹配问题，增强了细粒度同步。
引入 Cross-Task Synergy (CTS) 训练策略：在 GLDI 和 RoPE 的基础上，CTS 进一步将 Sync-C 提升到 5.09，Sync-D 降低到 10.16，证实了其在细化模型对齐能力方面的作用。
引入 Synchronization-Enhanced CFG (SyncCFG)：在推理阶段应用 SyncCFG 带来了最实质性的性能提升，Sync-C 从 5.09 跃升至 6.51，Sync-D 降低至 8.63。这表明 SyncCFG 在推理时能够有效地放大对齐信号，显著改善音视频同步性能。

这项系统性改进验证了 Harmony 的每个组件对于实现最先进的音视频同步性能都至关重要。

6.3. 更多定性结果

以下是原文 Figure 7 呈现的更多人类语音视频生成比较：

Figure 7. More comparison on human-speech video generation. 该图像是一个图表，展示了人声视频生成的比较，分别展示了四种方法：JavisDiT、UniVerse-1、Ovi 和我们的 Harmony。每种生成方法的音频波形与对应的视频帧并列显示，具体文本说明也标注在图下方，反映了每个生成结果的语音内容。

Figure 7. More comparison on human-speech video generation.

图 7 展示了更多人类语音生成的定性比较。Harmony 在音视频语音生成方面表现出色。与 Ovi 和 UniVerse-1 等竞争方法倾向于生成静态或运动极小的视频帧不同，Harmony 生成的视频具有流畅自然的动作。伴随的音频清晰，并且最重要的是，与唇部动作精确同步，从而产生更连贯和可信的输出。

以下是原文 Figure 8 呈现的更多环境音视频生成比较：

Figure 8. More comparison on environment-sound video generation. 该图像是示意图，比较了不同模型在环境声音视频生成中的表现。上方为JavisDiT和UniVerse-1，展示了海浪与沙滩的声音同步，进一步展示了Ovi及我们提出的Harmony方法，显示了更精准的声音和视频的匹配效果，令人印象深刻的音画同步特性。

Figure 8. More comparison on environment-sound video generation.

图 8 展示了环境音视频生成。JavisDiT 在该领域表现不佳，生成低质量视频和不稳定音频。例如，在“枪声”示例中，其生成的音频波形极不规则，未能令人信服地表现出声学事件。UniVerse-1 和 Ovi 经常生成静态或部分静态的场景。一个明显的例子是“海浪”案例，其中主要海浪保持静止，只有水面显示出最小的运动。这种缺乏动态性加上糟糕的音视频同步，导致海浪声与视觉内容不符。相比之下，Harmony 在所有方面都表现出色：生成高质量、动态的视频和逼真的动作，合成的音频保真度高，并与视觉事件精确同步，提供连贯沉浸的音视频体验。

以下是原文 Figure 9 呈现的语音克隆结果可视化：

Figure 9. Visualization of the voice-clone results of our model. 该图像是一个展示语音克隆结果的示意图。图中上方为参考语音，下面展示了不同生成的语音波形图和对应的视频帧，显示了音频与视频之间的同步效果。

Figure 9. Visualization of the voice-clone results of our model.

图 9 展示了 Harmony 的语音克隆能力，通过参考音频 $A_r$ 实现。模型能够成功地将各种独特的音色克隆到新生成的语音内容上，并且在不降低生成视频视觉质量的前提下实现。唇部动作与克隆音频精确同步，整体面部表情和视频连贯性保持高水平。

以下是原文 Figure 10 呈现的音频驱动结果可视化：

Figure 10. Visualization of the audio-driven results of our model. 该图像是图表，展示了我们模型在音频驱动下生成的视频结果。顶端为驱动音频波形，下方则依次展示出对应的多组生成图像，表现出模型在不同场景和动作下的音频-视觉同步能力。

Figure 10. Visualization of the audio-driven results of our model.

图 10 展示了音频驱动视频生成的结果。模型仅从目标语音音频片段生成视频。结果显示出高视觉质量、自然的表情和连贯的头部运动。更重要的是，唇部动作与输入语音的细微之处精确且准确地同步，验证了训练方法所灌输的强大音视频对齐能力。这证实了跨任务协同策略不仅增强了联合生成，还直接支持了高保真、单模态驱动的应用。

以下是原文 Figure 11 呈现的更多人类语音视频生成结果：

Figure 11. More results on human-speech video generation. 该图像是图11，展示了人类语音视频生成的更多结果。每行展示了不同场景中的视频帧与对应的音频波形，显示了生成模型在视频视觉内容与音频信号之间的同步效果。

Figure 11. More results on human-speech video generation.

图 11 展示了更多人类语音视频生成结果，强调了模型生成高度逼真的说话人物，具有自然的表情和连贯的动作的能力。合成语音清晰且语调自然，捕捉了多种音色。关键是，所有示例都保持了精确的唇形同步。

以下是原文 Figure 12 呈现的不同风格语音视频生成可视化：

Figure 12. Visualization of speech-video generation in diverse style. 该图像是一个插图，展示了不同风格的语音视频生成的可视化效果。每一行展示了视频帧和对应的音频波形，用于展现音频与视频的同步生成及其风格差异。

Figure 12. Visualization of speech-video generation in diverse style.

图 12 展示了模型生成不同艺术风格视频内容的能力，如迪士尼风格动画和传统水墨画。这些风格化生成保持了高视觉质量，具有清晰的细节、鲜艳的色彩和与目标美学一致的时序连贯运动。

以下是原文 Figure 13 呈现的更多环境音视频生成结果：

Figure 13. More results on ambient-sound video generation. 该图像是图表，展示了不同环境音视频生成的结果，每行包括视频帧及其对应的音频波形。图中展示了如烟火、龙卷风、坦克、摩托车、鼓、提琴、钢琴和烹饪等场景的音视频同步效果。

Figure 13. More results on ambient-sound video generation.

图 13 展示了模型生成广泛环境音的能力，包括烟花、龙卷风、坦克、摩托车、鼓、提琴、钢琴和烹饪等复杂声学事件。每个声音都以高保真度呈现，并与相应的视觉源精确同步。

7. 总结与思考

7.1. 结论总结

本文提出了 Harmony 框架，旨在解决生成模型中音视频同步的差距。作者发现这一差距源于几个关键方法论缺陷：对应漂移 (Correspondence Drift)、全局风格与局部时序之间的架构冲突，以及标准 CFG 在跨模态对齐方面的局限性。为解决这些问题，Harmony 引入了三个核心组件：

跨任务协同训练 (Cross-Task Synergy training)：通过利用音频驱动的视频生成和视频驱动的音频生成任务中的强监督信号，建立了鲁棒的对齐先验，有效对抗了对应漂移。
全局-局部解耦模块 (Global-Local Decoupled Module)：通过将风格和时序处理分开，解决了架构冲突，实现了全面对齐。
新型同步增强型 CFG (Synchronization-Enhanced CFG, SyncCFG)：提供了一种明确机制，在推理过程中放大对齐信号。

实验验证表明，Harmony 在音视频同步方面建立了新的最先进水平，证明其比简单地扩大模型规模更为有效。这项工作为新一代可访问且对齐良好的音视频模型奠定了坚实基础。

7.2. 局限性与未来工作

论文明确指出了 Harmony 在音视频同步方面取得了显著进展，但并未详细阐述其具体的局限性。然而，从其提出的解决方案和目标，我们可以推断出一些潜在的局限性以及未来可能的研究方向：

潜在局限性：

训练数据依赖性：尽管构建了大型多样化数据集，但音视频数据的高质量标注和对齐仍是一个挑战。模型性能可能仍然受限于训练数据的多样性和细粒度对齐质量。
复杂场景泛化：尽管 Harmony 在“复杂场景”数据集上表现出色，但在极端复杂、多声源、多运动目标的真实世界场景中，其鲁棒性仍可能面临挑战。例如，在快速剪辑和多角度切换的场景中，保持一致的音视频同步可能更难。
计算资源需求：虽然 RoPE-Aligned Frame-wise Attention 提升了效率，但联合训练双模态扩散模型、尤其包含多任务协同策略，仍然可能需要大量的计算资源和训练时间。
实时性：扩散模型通常推理速度较慢，对于需要实时或接近实时生成（如虚拟互动、直播内容）的应用，可能仍需进一步优化推理效率。
长视频生成：论文主要关注剪辑 (clips) 的生成。对于生成长视频，如何保持全局时序连贯性和风格一致性，以及如何有效处理长时序依赖，仍然是一个开放问题。
细粒度情感/语义控制：虽然模型能捕捉音色和情感基调，但实现更精细的情感表达或语义情节的音视频生成，仍有提升空间。

未来工作方向：

提升泛化能力：进一步探索在更广泛、更复杂的真实世界场景中，模型的泛化能力和鲁棒性。
效率优化：研究更高效的模型架构和推理策略，以降低计算成本并缩短生成时间，使其更适用于实际应用。
长时序建模：开发新的机制来处理长视频的生成，确保音视频在长时间跨度内的连贯性和一致性。
用户控制粒度：增强用户对生成内容更细粒度的控制，例如通过更精细的文本提示、草图或多模态条件来引导音视频的风格、情感和特定事件。
多语言和文化适应性：进一步提升模型在不同语言和文化背景下的表现，确保语音合成的自然度和视觉表达的文化适宜性。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了几个重要的启发点：

问题分解的重要性：作者没有直接“硬磕”联合生成，而是深入分析了问题根源，将其分解为“对应漂移”、“架构冲突”和“CFG局限性”三个子问题。这种从根源出发的思维方式，是解决复杂系统性问题的关键。
跨任务协同的巧妙：Correspondence Drift 是一个非常直观且深刻的洞察。通过引入单向驱动任务来提供“干净”的监督信号，从而稳定和加速学习，这是一个非常巧妙且普适性强的训练范式。它告诉我们，在多任务学习中，引入辅助任务来解决核心任务的“噪音”或“不稳定性”问题，是提高性能的有效途径。
解耦设计的力量：将局部时序对齐和全局风格一致性解耦处理，是解决多目标冲突的优雅方案。它避免了单一机制的“鱼与熊掌不可兼得”的困境，使得每个子模块都能更专注于自身任务。这种模块化、解耦的设计思想在构建复杂系统时具有重要指导意义。
CFG的创新应用：SyncCFG 是一种非常具有创新性的引导策略。它将 CFG 从一个通用的条件放大器，转变为了一个针对性的跨模态对齐增强器。通过精心设计负锚点来隔离和放大目标信号，这种思路可以推广到其他需要强调特定属性的生成任务中。它启发我们，现有的技术工具并非一成不变，可以通过对其核心原理的深刻理解，进行创新性改造以适应新的任务需求。
强大的多模态潜力：Harmony 能够同时处理人类语音和环境音，并支持多样化的视觉风格和语音克隆，这展示了多模态生成模型在未来内容创作领域的巨大潜力。

7.3.2. 批判

尽管 Harmony 取得了显著的进步，但仍有一些方面值得批判性思考：

“黑盒”机制的解释性：虽然论文在方法论上给出了详细的模块设计和动机，但对于深层神经网络内部如何精准捕捉“同步”这个复杂概念，以及 SyncCFG 如何在潜在空间中精确隔离和放大同步信号，其内部机制的解释性仍有提升空间。例如，除了注意力图可视化，是否能有更深层次的分析来解释潜在变量层面的对齐机制？
训练成本与复杂性：多阶段训练策略（基础音频预训练、音色解耦微调、跨任务音视频训练）以及双分支架构，意味着 Harmony 的训练过程可能相当复杂且计算成本高昂。虽然论文强调其比“简单地扩大模型规模”更有效，但其自身的工程复杂性和资源消耗仍是实际应用中的一个考量因素。
负锚点的选择：SyncCFG 中“静音音频”和“静态视频”的负锚点设计是核心。这些负锚点是否总是能完美地代表“缺乏同步”的基线？在某些复杂场景下，例如一个持续运动但无声的物体，或者一个静态背景下突然发出的声音，如何定义完美的“无同步”负锚点可能会更加微妙。如果负锚点不够精确，可能会引入新的偏差。
主观评估的挑战：音视频生成质量和同步效果在很大程度上是主观的。尽管论文使用了全面的自动化指标，但这些指标是否能完全捕捉人类对“和谐”、“自然”和““逼真”的感知，仍是一个开放问题。未来可以通过更大规模的用户研究来补充自动化评估。
伦理考量：高质量的音视频生成和语音克隆技术，虽然有巨大的应用潜力，但也伴随着潜在的伦理风险，例如深度伪造 (deepfake) 和虚假信息传播。论文未提及这些伦理考量，但作为一个重要的研究领域，其产出应始终审慎对待。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。