论文状态：已完成

Disentangling Style and Content in Anime Illustrations

发表：2019/05/26

动漫插画风格与内容解耦 (1)生成对抗网络解耦模型 (1)双条件生成器 (1)动漫风格迁移 (1)多艺术家风格建模 (1)

原文链接 PDF 下载

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出生成对抗解耦网络，通过双条件生成器实现动漫插画中风格与内容的有效分离。该方法支持千余艺术家风格的高保真动漫肖像生成及风格迁移，优于现有技术，突破了风格与内容协同训练的难题。

摘要

Existing methods for AI-generated artworks still struggle with generating high-quality stylized content, where high-level semantics are preserved, or separating fine-grained styles from various artists. We propose a novel Generative Adversarial Disentanglement Network which can disentangle two complementary factors of variations when only one of them is labelled in general, and fully decompose complex anime illustrations into style and content in particular. Training such model is challenging, since given a style, various content data may exist but not the other way round. Our approach is divided into two stages, one that encodes an input image into a style independent content, and one based on a dual-conditional generator. We demonstrate the ability to generate high-fidelity anime portraits with a fixed content and a large variety of styles from over a thousand artists, and vice versa, using a single end-to-end network and with applications in style transfer. We show this unique capability as well as superior output to the current state-of-the-art.

思维导图

论文精读

中文精读约 50 分钟读完 · 28,932 字

1. 论文基本信息

1.1. 标题

解耦动漫插画中的风格与内容 (Disentangling Style and Content in Anime Illustrations)

1.2. 作者

论文作者包括 Sitao Xiang 和 Hao Li。

Sitao Xiang 隶属于南加州大学 (University of Southern California)。
Hao Li 隶属于南加州大学 (University of Southern California)、Pinscreen 公司和南加州大学创意技术学院 (USC Institute for Creative Technologies)。

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台 (arXiv preprint)，并在 2019 年 IEEE 冬季计算机视觉应用会议 (2019 IEEE Winter Conference on Applications of Computer Vision, WACV) 上发表了相关工作 [13]。

1.4. 发表年份

2019 年 5 月 26 日（UTC 时间）。

1.5. 摘要

现有的 AI 生成艺术作品方法在生成高质量风格化内容方面仍然面临挑战，主要体现在难以在保留高级语义的同时，分离不同艺术家之间细粒度的风格。本文提出了一种新颖的生成对抗解耦网络 (Generative Adversarial Disentanglement Network)，该网络能够解耦两种互补的变异因子，即便其中只有一种因子被标记。具体而言，它能将复杂的动漫插画完全分解为风格 (style) 和内容 (content)。训练这类模型具有挑战性，因为给定一种风格，可能存在各种内容数据，反之则不然。本文的方法分为两个阶段：第一阶段将输入图像编码为风格独立的内容 (style-independent content)；第二阶段基于一个双条件生成器 (dual-conditional generator)。实验证明，该方法能够使用一个单一的端到端网络，生成高保真度的动漫人物肖像，既能保持固定内容并应用来自一千多位艺术家的各种风格，也能保持固定风格并改变内容，并在风格迁移 (style transfer) 应用中展现出强大的能力。研究结果表明，本文的方法具备独特的能力，并且在输出质量上优于当前最先进的 (state-of-the-art) 方法。

1.6. 原文链接

原文链接 (arXiv): https://arxiv.org/abs/1905.10742
PDF 链接: https://arxiv.org/pdf/1905.10742v3.pdf
发布状态: 预印本 (preprint)，并已在 WACV 2019 会议上发表。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题 论文旨在解决 AI 生成艺术作品中的一个核心挑战：如何有效地解耦 (disentangle) 图像的风格 (style) 和内容 (content)，特别是对于复杂的、高语义的风格化内容（如动漫插画）。现有方法在以下几个方面存在不足：

难以生成高质量的风格化内容并保留高级语义： 传统的神经风格迁移 (Neural Style Transfer) 方法主要关注纹理统计信息的迁移，难以捕捉到高级语义层面的风格概念，例如面部特征的形状、比例、线条笔触等。
难以分离细粒度的艺术家风格： 基于图像到图像翻译 (Image-to-Image Translation) 的方法虽然能学习特定领域的风格定义，但通常需要为每对领域训练一个单独的网络，难以扩展到大量细粒度的风格（如上千位艺术家的风格）。
数据集挑战： 在实际应用中，很难找到具有相同内容但不同风格，或相同风格但不同内容的大规模标注数据来训练模型，尤其是在艺术领域。通常，我们只能获得带有风格标签（如艺术家身份）但内容未明确标记的数据。

2.1.2. 问题的重要性 在人工智能艺术创作领域，能够精确控制图像的风格和内容是实现更灵活、更具表现力生成的核心。例如，用户可能希望将特定艺术家的风格应用到自己的照片上，或者在保持角色形象不变的情况下，生成该角色在不同艺术家笔下的多种风格呈现。现有方法的局限性阻碍了这些高级应用的实现。

2.1.3. 创新思路 本文将风格迁移问题抽象为一个更通用的解耦表示 (disentangled representation) 问题，即数据集中存在两种互补的变异因子（风格和内容），其中一个因子（风格）已标记，而另一个（内容）未标记，目标是训练一个生成网络，使这两个因子能够完全解耦并独立控制。论文的切入点在于：

认识到“风格”是一个领域依赖的 (domain-dependent) 概念，不仅仅是纹理统计，还包括语义层面的特征（如面部结构、表情、线条等）。
提出了一种两阶段 (two-stage) 的训练框架，逐步实现风格与内容的解耦。
利用生成对抗网络 (Generative Adversarial Networks, GANs) 的强大生成能力，结合特定的损失函数设计（如对抗分类器、KL 散度损失、内容损失和负对数非似然损失），来克服训练挑战。

2.2. 核心贡献/主要发现

2.2.1. 提出了新颖的生成对抗解耦网络 (Generative Adversarial Disentanglement Network) 该网络能够将复杂的动漫插画完全分解为风格和内容，并且在只有风格被标记的情况下也能有效工作。

2.2.2. 设计了两阶段的训练框架

第一阶段：风格独立内容编码 (Style Independent Content Encoding)。 训练一个内容编码器 (content encoder)，使其尽可能多地编码图像的内容信息，同时不包含任何风格信息。通过引入一个特殊的对抗分类器 (adversarial classifier) 和 KL 散度损失 (KL-divergence loss) 来实现这一目标。
第二阶段：双条件生成器 (Dual-Conditional Generator)。 在第一阶段编码器的基础上，训练一个风格和内容双条件的生成器，利用对抗损失 (adversarial loss)、辅助分类器损失 (auxiliary classifier loss) 和内容损失 (content loss) 来生成高质量、风格一致且内容可控的图像。

2.2.3. 在动漫插画上实现了高保真度生成与风格迁移

能够生成具有固定内容但风格多样（来自上千位艺术家）的动漫肖像，反之亦然。
在风格迁移任务中，相比于现有最先进的方法 (state-of-the-art methods)，本文方法能更忠实地捕捉高层次的艺术语义，包括面部形状、特征外观、色彩饱和度、对比度、线条等，并展现出卓越的视觉质量。

2.2.4. 证明了方法的通用性 不仅在动漫插画数据集上验证了其有效性，还在 NIST 手写数字数据集上展示了其在解耦书写者身份和数字类别方面的能力，即使在训练时只有一个因素被标记。

2.2.5. 进行了详尽的消融研究 (Ablation Study) 和定量分析 通过实验证明了所提出方法的各个组件（如第一阶段分类器的输入选择、对抗分类器的使用、内容损失的显式条件）的有效性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 生成对抗网络 (Generative Adversarial Networks, GANs)

概念定义: GANs 是一种深度学习模型，由两个神经网络（一个生成器 (Generator) 和一个判别器 (Discriminator)）通过对抗过程进行训练。生成器的目标是生成看起来真实的假数据，以骗过判别器；判别器的目标是准确地区分真实数据和生成器产生的假数据。两者在一个零和博弈中相互竞争，最终达到纳什均衡，使得生成器能够生成高质量的、与真实数据分布相似的新样本。 公式（简述）: GAN 的目标函数通常表示为： $\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{\text{data}}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))]$ 其中， $G$ 是生成器， $D$ 是判别器， $x$ 是真实数据， $p_{\text{data}}(x)$ 是真实数据分布， $z$ 是噪声输入， $p_z(z)$ 是噪声分布，G(z) 是生成器生成的假数据。D(x) 表示判别器判断 $x$ 为真实数据的概率。

3.1.2. 变分自编码器 (Variational Autoencoders, VAEs)

概念定义: VAE 是一种生成模型，属于自编码器 (Autoencoder) 的一种变体。它通过学习数据在潜在空间 (latent space) 中的概率分布来生成新数据。VAEs 旨在将输入数据编码成潜在变量的分布（通常是高斯分布），然后从这个分布中采样，并通过解码器重构数据。VAEs 的优势在于其潜在空间通常是连续且结构化的，有利于数据生成和插值。 核心组成: 编码器 (Encoder) 将输入映射到潜在分布的参数（均值和方差），解码器 (Decoder) 从潜在分布采样并重构输入。 主要损失项: 重构损失 (Reconstruction Loss) 和 KL 散度损失 (KL-Divergence Loss)。KL 散度损失用于约束潜在分布接近标准正态分布，从而避免过拟合，并使潜在空间更规整。

3.1.3. 神经风格迁移 (Neural Style Transfer)

概念定义: Neural Style Transfer 是一种图像处理技术，它能够将一张图片（内容图片）的内容与另一张图片（风格图片）的艺术风格相结合，生成一张新的图片。该方法的核心思想是利用预训练的卷积神经网络 (Convolutional Neural Network, CNN) 提取图像的深层特征，并将图像分解为内容特征和风格特征。 核心思想: 通过最小化一个损失函数来优化目标图片，该损失函数包含内容损失（使目标图片的内容特征接近内容图片）和风格损失（使目标图片的风格特征接近风格图片）。风格特征通常通过特征图的 Gram 矩阵 (Gram matrix) 来表示，以捕捉纹理统计信息。 作者提及的 Gatys 等人 [5] 的工作是此领域的开创性研究。

3.1.4. 图像到图像翻译 (Image-to-Image Translation)

概念定义: Image-to-Image Translation 是指将一张图像从一个领域（源领域）转换到另一个领域（目标领域），同时保留图像的核心结构和语义信息。常见的应用包括图像去噪、超分辨率、语义分割到真实图像、照片到梵高风格画等。 核心思想: 许多图像到图像翻译方法利用条件 GANs (Conditional GANs, cGANs) 或循环一致性 GANs (Cycle-Consistent GANs, CycleGAN [27]) 来学习源领域和目标领域之间的映射关系，无需成对的训练数据。

3.1.5. 解耦表示 (Disentangled Representation)

概念定义: Disentangled Representation 旨在将数据的潜在变异因子（如人脸的姿态、表情、身份；或手写数字的形状、笔迹）分解到不同的、独立的潜在维度上。理想的解耦表示中，改变一个潜在维度只会影响数据的一个特定方面，而不会影响其他方面。 核心挑战: 往往难以在缺乏强监督信号（即每个变异因子都有明确标签）的情况下实现有效的解耦。

3.1.6. 辅助分类器 GANs (Auxiliary Classifier GANs, AC-GANs)

概念定义: AC-GANs [22] 是条件 GANs 的一种扩展，它在判别器中增加了一个辅助分类器，不仅要判断输入是真还是假，还要将真实图像分类到正确的类别，并将生成图像分类到其条件对应的类别。这使得生成器能够生成特定类别的图像。 核心作用: 通过在判别器中引入分类任务，增强了生成器对生成图像类别或属性的控制能力。

3.2. 前人工作

Gatys et al. [5] (神经风格迁移): 开创性地提出使用预训练 CNN 的特征和 Gram 矩阵来分离和组合图像的内容与风格。本文认为其局限于纹理统计，未能捕捉高层次语义风格。
Isola et al. [11] (Pix2Pix): 提出了使用 cGAN 进行图像到图像翻译，但需要大量的成对训练数据。
CycleGAN [27] 和 DualGAN [26]: 扩展了 Pix2Pix，通过引入循环一致性损失 (cycle-consistency loss) 消除了对成对训练数据的需求，显著提高了适用性。然而，这些方法通常需要为每对领域训练一个独立网络，扩展性差。
Liu et al. [17]: 提出为每个领域训练编码器和生成器，将它们映射到共享的编码空间，以实现多领域翻译。
StarGAN [2]: 提出使用单一网络实现多领域图像到图像翻译，通过向生成器提供领域标签来实现不同领域图像的生成。但本文指出其没有明确的内容空间，未能完全解耦风格和内容。
DC-IGN [15]: 通过严格结构化的数据（相同内容不同风格，或相同风格不同内容）实现了干净的变异因子解耦。本文认为这种数据在风格迁移场景中难以获得。
Chen et al. [1] (InfoGAN): 提出无监督地发现解耦的变异因子，但无法强制指定特定因子（如风格和内容）的分离。
Chou et al. [3] (语音转换): 语音转换领域的工作，与本文的设置相似，即在一个因素被标记（说话人身份）而另一个因素（语音内容）未标记的情况下进行解耦。本文的方法在第一阶段借鉴了其思想。
Huang et al. [9] (AdaIN): 通过自适应实例归一化 (Adaptive Instance Normalization) 实现实时任意风格迁移，但仍主要在纹理级别操作。
Huang et al. [10] 和 StyleGAN [12]: 这些工作在真实照片集上探讨了风格概念。本文认为在缺乏明确定义的情况下，对于这些数据集，风格和内容之间的区分可能是武断的，因为“照片真实”可能就是唯一的风格。

3.3. 技术演进与差异化分析

3.3.1. 技术演进 从早期基于像素或低级特征的图像处理，到 Gatys 等人利用深度特征进行风格迁移，再到 cGANs 和 CycleGANs 实现的图像到图像翻译，以及 StarGANs 等多领域翻译模型，AI 艺术生成领域一直在努力提升生成的质量、多样性和控制力。解耦表示是实现精细控制的关键一步，VAEs 和 InfoGAN 等模型在这方面做出了探索。本文的工作正是在此基础上，结合了 GANs 的生成能力和 VAEs 的解耦思想，专注于解决动漫艺术领域中风格与内容解耦的特定挑战。

3.3.2. 差异化分析 本文的方法与相关工作的主要区别和创新点在于：

对“风格”的重新定义与处理： 与仅关注纹理统计或仅在预定义领域间进行翻译的方法不同，本文认为“风格”是领域依赖的，包含高层次的语义（如面部特征的形状、比例、线条、色彩饱和度等）。通过使用艺术家身份作为风格的代理标签，并设计特定的对抗性损失，迫使模型学习这些细粒度的语义风格特征。
两阶段解耦策略： 针对只有风格标签、内容未标记的现实情况，提出了先训练风格独立的内容编码器，再利用双条件生成器合成图像的两阶段方法，而非直接端到端训练。这使得内容编码器能够专注于内容，而不受风格干扰。
改进的第一阶段对抗训练： 针对 [3] 等方法在第一阶段中编码器可能通过“欺骗”分类器来保留风格信息的问题，本文提出让分类器对生成器输出的图像而非编码器输出的潜在向量进行分类，并且让生成图像的风格来自不同于原始图像的艺术家，结合 KL 散度损失，更有效地强制内容编码器的风格独立性。
第二阶段的独特对抗分类器设计： 引入了“负对数非似然 (Negative Log-Unlikelihood, NLU)”作为分类器在生成样本上的损失函数，迫使分类器更全面地学习艺术家的风格特征，而不仅仅是区分真实样本。
显式内容条件： 在第二阶段生成器中，通过引入额外的内容损失 (content loss) 来显式地确保生成图像的内容与输入内容编码一致，防止内容信息在生成过程中丢失或退化，这被消融实验证明是必要的。
大规模艺术家风格处理： 能够在一个单一网络中处理超过一千位艺术家的风格，展现了其在多风格场景下的可扩展性和鲁棒性。

4. 方法论

本文提出了一种新颖的生成对抗解耦网络 (Generative Adversarial Disentanglement Network, GADN)，旨在将动漫插画完全分解为风格和内容。该方法分为两个主要阶段。

4.1. 方法原理

核心思想是逐步解耦：

第一阶段：风格独立内容编码。 目标是训练一个编码器 $E(\cdot)$ ，它能够从输入图像 $x$ 中提取出纯粹的内容编码 (content code) E(x)，该编码不包含任何风格信息。同时，训练一个生成器 $G(\cdot, \cdot)$ 能够利用这个内容编码和风格代码 (style code) S(a) （对应于艺术家 $a$ 的风格）重构原始图像。
第二阶段：双条件生成。 在第一阶段训练好的内容编码器 $E$ 和风格函数 $S$ 的基础上，训练一个强大的双条件生成器 (dual-conditional generator) $G$ ，它能够根据给定的内容编码和风格代码生成高质量、逼真的图像。这一阶段通过对抗训练、结合辅助分类器和内容循环一致性损失来确保生成图像的风格和内容忠实度。

4.2. 核心方法详解 (逐层深入)

4.2.1. 训练数据组织

训练数据需要按风格进行组织。由于细粒度的风格标签难以获取，论文使用艺术家身份 (identity of artists) 作为风格的代理 (proxy)。虽然艺术家可能拥有多种风格或风格随时间演变，但将艺术家身份作为风格代理是一个有效且高效的选择，因为艺术家的标签通常易于获得。

4.2.2. 阶段 1: 风格独立内容编码 (Style Independent Content Encoding)

目标： 训练一个编码器 $E(\cdot)$ ，使其尽可能多地编码图像的内容信息，同时不包含任何风格信息。

重建损失 (Reconstruction Loss): 首先，定义像素级的 L2 距离（不是 L2 范数的平方）作为重建损失。对于两个 (3 通道) 图像 $X, Y \in \mathbb{R}^{\hat{h} \times w \times 3}$ ，距离定义为： $||X - Y|| = \frac{1}{hw} \sum_{i=1}^{h} \sum_{j=1}^{w} ||X_{ij} - Y_{ij}||_2$ 其中， $h$ 和 $w$ 分别是图像的高度和宽度， $X_{ij}$ 和 $Y_{ij}$ 是图像在像素位置 (i, j) 处的 3 通道颜色向量， $||\cdot||_2$ 是 L2 范数。

最初的尝试 (未成功)： 考虑一个简单的编码器-解码器网络，编码器为 $E(\cdot)$ ，解码器为 $G(\cdot)$ ，其唯一目的是最小化重建损失： $\mathcal{L}_{\mathrm{rec}} = \underset{x \sim p(x)}{\mathbb{E}} [ ||x - G(E(x))|| ] \qquad \underset{E,G}{\operatorname*{min}} \ \mathcal{L}_{\mathrm{rec}}$ 其中 p(x) 是训练样本的分布。为了阻止编码器编码风格信息，加入一个对抗分类器 (adversarial classifier) $C(\cdot)$ ，它试图根据编码器的输出 E(x) 来分类艺术家的身份，而编码器 $E(\cdot)$ 则试图最大化分类器的损失，以避免被成功分类： $\begin{array}{rl} \mathcal{L}_C = \underset{x, a \sim p(x, a)}{\mathbb{E}} [ \mathrm{NLL}(C(E(x)), a) ] \quad & \underset{C}{\mathrm{min}} \ \mathcal{L}_C \\ \underset{E,G}{\mathrm{min}} \ \mathcal{L}_{\mathrm{rec}} - \lambda \mathcal{L}_C \end{array}$ 其中 $a$ 是代表图像 $x$ 作者的整数真实标注标签 (ground truth label)，p(x, a) 是图像及其作者的联合分布， $\lambda$ 是一个权重因子。 $\mathrm{NLL}$ 表示负对数似然损失 (Negative Log-Likelihood Loss)，通常用于分类任务。为了解决生成器需要风格信息来重构输入，但编码器又不能包含风格信息以避免被分类器成功分类的矛盾，引入了一个针对每个艺术家的风格向量 (style vector) S(a)，并将其提供给生成器 $G(\cdot, \cdot)$ 。此时的目标函数变为： $\begin{array}{rl} & \mathcal{L}_{\mathrm{rec}} = \underset{x, a \sim p(x, a)}{\mathbb{E}} [ ||x - G(E(x), S(a))|| ] \\ & \qquad \underset{E, G, S}{\operatorname*{min}} \ \mathcal{L}_{\mathrm{rec}} - \lambda \mathcal{L}_C \end{array}$ 其中， $S(\cdot)$ 是一个将艺术家标签映射到其风格向量的函数，它不直接查看输入图像，只接收其艺术家标签。论文指出，这个方法在实验中未能充分阻止编码器编码风格信息 (详见附录 C.1)。

提出的改进方法： 为了解决上述问题，论文提出了以下修改：

分类器输入： 分类器 $C_1(\cdot)$ （为区分第二阶段分类器，此处称为 $C_1(\cdot)$ ）不再尝试分类编码器的输出 E(x)，而是尝试分类生成器输出的图像 G(E(x), S(a'))。这个图像是内容来自 $x$ ，但风格来自另一个不同的艺术家 $a'$ 的组合。这样，如果生成器成功地将 $x$ 的内容与 $a'$ 的风格结合，那么图像 G(E(x), S(a')) 的风格应该是 $a'$ ，分类器就应该能够将其识别为 $a'$ 。而 E(x) 必须不包含原始风格 $a$ 的信息，否则 G(E(x), S(a')) 可能仍然带有 $a$ 的风格痕迹。
KL 散度损失 (KL-Divergence Loss): 类似于变分自编码器 (VAEs)，编码器 $E(\cdot)$ 和风格函数 $S(\cdot)$ 的输出被视为多元正态分布的参数。引入 KL 散度损失来约束这些分布接近标准正态分布 $N(0, I)$ 。这可以防止编码器编码未被生成器使用的信息，从而进一步促使解耦。综合以上改进，优化目标变为： $\begin{array}{rl} & \mathcal{L}_C = \underset{x, a \sim p(x, a)}{\mathbb{E}} [ \mathrm{NLL}(C(G(E(x), S(a'))), a) ] \quad \underset{c}{\mathrm{min}} \ \mathcal{L}_C \\ & \quad \quad \quad \quad \quad \quad \quad \quad \mathcal{L}_{\mathrm{rec}}' = \underset{x, a \sim p(x, a)}{\mathbb{E}} [ ||x - G(E(x), S(a))|| ] \\ & \mathcal{L}_{E\mathrm{-KL}} = \underset{x \sim p(x)}{\mathbb{E}} [ D_{\mathrm{KL}}(E(x) || N(0, I)) ] \quad \quad \quad \mathcal{L}_{S\mathrm{-KL}} = \underset{a \sim p(a)}{\mathbb{E}} [ D_{\mathrm{KL}}(S(a) || \mathcal{N}(0, I)) ] \\ & \quad \quad \quad \quad \underset{E, G, S}{\mathrm{min}} \ \mathcal{L}_{\mathrm{rec}} - \lambda_C \mathcal{L_C} + \lambda_{E\mathrm{-KL}} \mathcal{L}_{E\mathrm{-KL}} + \lambda_{S\mathrm{-KL}} \mathcal{L}_{S\mathrm{-KL}} \end{array}$ 符号解释：

$x$ : 输入图像。
$a$ : 图像 $x$ 的真实艺术家标签。
$a'$ : 从艺术家分布 p(a) 中独立采样的一个不同于 $a$ 的艺术家标签。
$E(\cdot)$ : 内容编码器，将图像编码为内容潜在向量。其输出是多元正态分布的参数（均值和方差）。
$S(\cdot)$ : 风格函数，将艺术家标签映射为风格潜在向量。其输出是多元正态分布的参数。
$G(\cdot, \cdot)$ : 生成器，接收内容潜在向量和风格潜在向量，生成图像。
$C(\cdot)$ : 第一阶段的对抗分类器，尝试预测输入图像的艺术家标签。
$\mathrm{NLL}(\cdot, \cdot)$ : 负对数似然损失，用于分类器的优化。
$\mathcal{L}_{\mathrm{rec}}'$ : 重建损失，确保生成器能用正确的内容和风格重构原始图像。
$D_{\mathrm{KL}}(\cdot || \cdot)$ : KL 散度，衡量两个概率分布之间的差异。
$N(0, I)$ : 标准正态分布，即均值为 0、协方差矩阵为单位矩阵的正态分布。
$\mathcal{L}_{E\mathrm{-KL}}$ : 对编码器输出的 KL 散度损失，约束内容潜在分布接近标准正态分布。
$\mathcal{L}_{S\mathrm{-KL}}$ : 对风格函数输出的 KL 散度损失，约束风格潜在分布接近标准正态分布。
$\lambda_C, \lambda_{E\mathrm{-KL}}, \lambda_{S\mathrm{-KL}}$ : 各损失项的权重因子。
$\underset{c}{\mathrm{min}} \ \mathcal{L}_C$ : 分类器 $C$ 最小化其损失。
$\underset{E, G, S}{\mathrm{min}} \ \mathcal{L}_{\mathrm{rec}} - \lambda_C \mathcal{L_C} + \lambda_{E\mathrm{-KL}} \mathcal{L}_{E\mathrm{-KL}} + \lambda_{S\mathrm{-KL}} \mathcal{L}_{S\mathrm{-KL}}$ : 编码器 $E$ 、生成器 $G$ 和风格函数 $S$ 最小化重构损失和 KL 散度损失，同时对抗分类器（即最大化分类器损失的负数项）。

4.2.3. 阶段 2: 双条件生成器 (Dual-Conditional Generator)

目标： 在阶段 1 学习到的 $E(\cdot)$ 、 $G(\cdot, \cdot)$ 和 $S(\cdot)$ 的基础上，进一步训练生成器 $G$ 产生高质量、具有特定风格和内容的图像。此阶段固定编码器 $E(\cdot)$ 。

对抗损失 (Adversarial Loss): 该阶段基于辅助分类器 GANs (AC-GANs) [22]。首先，一个判别器 $D(\cdot)$ 尝试区分真实样本和生成样本。与传统的二元交叉熵损失不同，本文采用最小二乘损失 (Least Squares Loss) [19]。判别器 $D$ 的损失函数为： $\mathcal{L}_{D\mathrm{-real}} = \underset{x \sim p(x)}{\mathbb{E}} [ (D(x) - 1)^2 ] \qquad \mathcal{L}_{D\mathrm{-fake}} = \underset{x' \sim p(x)}{\mathbb{E}} [ (D(G(E(x), S(a')))+1)^2 ]$ 其中：

D(x): 判别器对真实图像 $x$ 的输出。
D(G(E(x), S(a'))): 判别器对生成图像的输出。生成图像的内容来自 $x$ ，风格来自随机采样的艺术家 $a'$ 。
p(x): 真实图像的分布。
p(a): 艺术家标签的分布。生成器 $G$ 对抗判别器 $D$ 的损失函数为： $\mathcal{L}_{D\mathrm{-adv}} = \underset{x \sim p(x)}{\mathbb{E}} [ D(G(E(x), S(a')))^2 ]$ 其中 $E(\cdot)$ 、 $G(\cdot, \cdot)$ 和 $S(\cdot)$ 继承自阶段 1。注意，在所有公式中， $a$ 与 $x$ 联合采样，而 $a'$ 是独立采样的。

辅助分类器损失 (Auxiliary Classifier Loss): 引入一个新的分类器 $C_2(\cdot)$ （与阶段 1 的 $C_1(\cdot)$ 不同），它被训练来将真实图像分类到其正确的艺术家标签。对于真实样本的分类损失： $\mathcal{L}_{C_2\mathrm{-real}} = \underset{x, a \sim p(x, a)}{\mathbb{E}} [ \mathrm{NLL}(C_2(x), a) ]$ 生成器 $G$ 试图生成能被 $C_2(\cdot)$ 分类为条件艺术家 $a'$ 的样本。这部分损失被加到生成器的损失函数中： $\mathcal{L}_{C_2\mathrm{-adv}} = \underset{x \sim p(x)}{\mathbb{E}} [ \mathrm{NLL}(C_2(G(E(x), S(a'))), a') ]$ 本文与以往条件 GANs 的不同之处在于对生成样本的处理：分类器被训练来明确地将条件为 $a'$ 风格的生成图像分类为“非 $a'$ ”。为此，定义负对数非似然 (Negative Log-Unlikelihood, NLU) 损失： $\mathrm{NLU}(\mathbf{y}, i) = - \log(1 - y_i)$ 其中 $\mathbf{y}$ 是分类器的输出概率向量， $y_i$ 是预测为类别 $i$ 的概率。分类器 $C_2$ 在生成样本上的损失函数为： $\mathcal{L}_{C_2\mathrm{-fake}} = \underset{x \sim p(x)}{\mathbb{E}} [ \mathrm{NLU}(C_2(G(E(x), S(a'))), a') ]$ 判别器 $D(\cdot)$ 和分类器 $C_2(\cdot)$ 使用独立的网络。

内容损失 (Content Loss): 为了强制生成器保留内容，要求生成的样本在经过编码器 $E(\cdot)$ 编码后，其内容编码应接近原始图像的内容编码。 $\mathcal{L}_{\mathrm{cont}} = \underset{x \sim p(x)}{\mathbb{E}} \left[ ||E(G(E(x), S(a')))) - E(x)||_2^2 \right]$ 其中， $||\cdot||_2^2$ 表示 L2 范数的平方。 $E(\cdot)$ 在阶段 2 中是固定不变的。

阶段 2 的训练目标： $\begin{array}{rl} & \underset{D}{\mathrm{min}} \ \mathcal{L}_{D\mathrm{-real}} + \mathcal{L}_{D\mathrm{-fake}} \qquad \underset{C_2}{\mathrm{min}} \ \mathcal{L}_{C_2\mathrm{-real}} + \mathcal{L}_{C_2\mathrm{-fake}} \\ & \underset{G, S}{\mathrm{min}} \ \lambda_D \mathcal{L}_{D\mathrm{-adv}} + \lambda_{C_2} \mathcal{L}_{C_2\mathrm{-adv}} + \lambda_{\mathrm{cont}} \mathcal{L}_{\mathrm{cont}} + \lambda_{S\mathrm{-KL}} \mathcal{L}_{S\mathrm{-KL}} \end{array}$ 符号解释：

$\mathcal{L}_{D\mathrm{-real}}$ : 判别器将真实图像判别为真实图片的损失。
$\mathcal{L}_{D\mathrm{-fake}}$ : 判别器将生成图像判别为假图片的损失。
$\mathcal{L}_{D\mathrm{-adv}}$ : 生成器试图欺骗判别器，使生成图像被判别为真实图片的损失。
$\mathcal{L}_{C_2\mathrm{-real}}$ : 分类器 $C_2$ 将真实图像分类到正确艺术家标签的损失。
$\mathcal{L}_{C_2\mathrm{-fake}}$ : 分类器 $C_2$ 将生成图像分类为“非条件艺术家”的损失（使用 NLU）。
$\mathcal{L}_{C_2\mathrm{-adv}}$ : 生成器试图欺骗分类器 $C_2$ ，使生成图像被分类到条件艺术家标签的损失。
$\mathcal{L}_{\mathrm{cont}}$ : 内容损失，确保生成图像的内容与原始输入内容编码一致。
$\lambda_D, \lambda_{C_2}, \lambda_{\mathrm{cont}}, \lambda_{S\mathrm{-KL}}$ : 各损失项的权重因子。
$\underset{D}{\mathrm{min}}$ : 判别器 $D$ 最小化其总损失。
$\underset{C_2}{\mathrm{min}}$ : 分类器 $C_2$ 最小化其总损失。
$\underset{G, S}{\mathrm{min}}$ : 生成器 $G$ 和风格函数 $S$ 最小化其总损失。需要注意的是， $E(\cdot)$ 在阶段 2 是固定的。为了确保 $C_2(\cdot)$ 能有效分类真实样本，通常会在阶段 2 之前对 $C_2(\cdot)$ 进行预训练 (pre-train)。

以下是原文 Figure 1 的训练流程图：

$Figure 1: Training procedure. Squares are networks and rounded rectangles are loss terms. Blue parts are for $E$ , $S$ and $G$ , red parts are for $D$ and $C$ . Black parts are common to both.$ 该图像是论文中的示意图，展示了提出的方法的训练流程，分为两个阶段。图中用方框表示网络，用圆角矩形表示损失项，蓝色部分对应 $E$ 、 $S$ 和 $G$ ，红色部分对应 $D$ 和 $C$ ，黑色部分为二者共有。图中包含的公式有损失函数 $L_{rec}$ 、 $L_{C1}$ 、 $L_{D-real}$ 、 $L_{C2-real}$ 、 $L_{D-fake}$ 、 $L_{D-adv}$ 、 $L_{C2-fake}$ 、 $L_{C2-adv}$ 和 $L_{cont}$ 。 图 1: 训练流程。方框代表网络，圆角矩形代表损失项。蓝色部分对应 $E$ 、 $S$ 和 $G$ ，红色部分对应 $D$ 和 $C$ ，黑色部分为二者共有。KL 散度损失为清晰起见省略。

4.2.4. 网络架构

所有网络都基于残差块 (Residue Blocks) [7] 构建。论文中使用一个卷积层而不是通常的两个卷积层作为每个残差块的残差分支，并通过增加块的数量来弥补。ReLU 激活函数在残差分支被加到快捷连接 (shortcut branch) 之前应用。为了简化，所有网络结构大致相同，只在输入/输出层有细微差异。

以下是原文 Table 1 的网络架构通用部分：

Layer Channel	-	SC	SC	SC	SC	SC	SC	F
Size	3	32	64	128	256	512	1024	2048
	256	128	64	32	16	8	4

表 1: 网络架构通用部分 符号解释：

Layer Channel: 描述了网络的层级和通道数。
SC: $S$ 表示步长为 2 的卷积 (stride 2 convolution)， $C$ 表示步长为 1 的卷积 (stride 1 convolution)。
F: 全连接层 (fully connected layer)。
Size:
- 第二行表示输出通道数。
- 第三行表示输出特征图的空间尺寸。

具体网络差异：

生成器 (Generator): 序列从右到左运行（即从 2048 通道逐渐上采样）。
其他网络 (编码器、判别器、分类器): 序列从左到右运行（即从 3 通道逐渐下采样）。
输入/输出层： 在通用结构之上，为每个网络添加了全连接输入/输出层，具有适当的输入/输出特征数量：
- 分类器 $C_1(\cdot)$ 和 $C_2(\cdot)$ : 输出特征数是艺术家数量（1139）。
- 判别器 $D(\cdot)$ : 输出特征数是 1 (用于判断真假)。
- 编码器 $E(\cdot)$ : 使用 2 个并行的层，每个输出 256 个特征，分别表示输出分布的均值和标准差。
- 生成器 $G(\cdot, \cdot)$ : 内容和风格维度的总和为 512。

5. 实验设置

5.1. 数据集

5.1.1. 动漫插画数据集

来源: 从 Danbooru 网站获取的动漫插画。
预处理:
1. 筛选出仅包含一个艺术家标签的图像。
2. 使用开源工具 AnimeFace 2009 [21] 检测人脸。
3. 将检测到的人脸旋转至直立位置，裁剪并缩放至 $256 \times 256$ 像素。
4. 只使用至少有 50 张图像的艺术家进行训练。
规模: 最终训练集包含来自 1139 位艺术家的 106,814 张图像。

5.1.2. NIST 手写数字数据集

来源: 最近发布的完整 NIST 手写数字数据集 [25]，它是 MNIST 数据集的超集。
特点: 包含更多图像 (总计 402,953 张)，并提供了更多元数据，特别是书写者身份 (writer identity) (3579 位不同的书写者)。
目的: 用于验证方法在解耦数字类别 (digit class) 和书写者身份方面的通用性，即使在训练时只知道其中一个标签。
变异因子: 论文指出，手写数字的出现由三个因素决定：数字类别 $(\mathcal{D})$ 、书写者身份 $(\mathcal{W})$ 和其余因素 $(\mathcal{R})$ 。
实验设置:
1. 解耦 $\mathcal{W}$ 和 $\mathcal{D} + \mathcal{R}$ : 仅使用书写者标签进行训练。
2. 解耦 $\mathcal{D}$ 和 $\mathcal{W} + \mathcal{R}$ : 仅使用数字标签进行训练。
图像尺寸: $28 \times 28$ 像素。
网络规模: 调整为 3 层，每层包含两个卷积残差块，通道数分别为 64、128 和 256。
代码长度: 数字类别为 16，书写者身份为 128，其余特征为 32。
- 对于 $\mathcal{W}$ vs. $\mathcal{D} + \mathcal{R}$ 任务：标记特征（书写者）为 128 维，未标记特征（数字 + 其余）为 $16+32 = 48$ 维。
- 对于 $\mathcal{D}$ vs. $\mathcal{W} + \mathcal{R}$ 任务：标记特征（数字）为 16 维，未标记特征（书写者 + 其余）为 $128+32 = 160$ 维。

5.2. 评估指标

论文指出，除了视觉结果，目前还没有公认的定量评估风格迁移质量的标准。评估专家对动漫风格的判断也很难进行正式的用户研究。因此，论文主要依赖定性视觉结果和对生成样本的分类准确率，并对其适用性进行了讨论。

5.2.1. 定性视觉评估 通过观察生成图像的视觉质量、风格忠实度以及内容保留情况来评估模型性能。例如：

固定风格改变内容时，内容特征（如面部形状、表情）是否一致。
固定内容改变风格时，风格特征（如线条、色彩、阴影）是否忠实于目标艺术家。
风格迁移结果与基线方法的对比。

5.2.2. 分类准确率 (Classification Accuracy)

概念定义: 分类准确率衡量模型在分类任务中正确预测样本类别所占的比例。在本文中，它用于评估生成的图像是否能被分类器识别为目标风格（艺术家）。
数学公式: $\text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$
符号解释:
- Number of Correct Predictions: 模型正确分类的样本数量。
- Total Number of Predictions: 总共进行分类的样本数量。
论文中的应用:
- 在动漫数据集上，报告了生成样本被分类器按风格分类的 top-1 准确率为 86.65%。
- 在 NIST 数据集上，用于定量评估编码器解耦效果的指标包括：
  - 样本到类中心点的平均欧氏距离 (Mean Euclidean distance of a sample to the center of its class): 衡量同类样本在潜在空间中的聚集程度。
  - 正确类别被赋予的平均概率 (Average probability given to the correct class): 衡量分类器对正确类别的置信度。
  - 正确类别的平均排名 (Average rank of the correct class): 衡量正确类别在分类器输出概率中的平均顺序。
  - Top-1 分类准确率 (Top-1 classification accuracy): 与上述概念定义相同，用于评估编码器输出空间中分类器的性能。
对分类准确率作为评估指标的讨论: 论文在附录 C.2 中讨论了使用分类准确率作为风格迁移质量衡量标准的局限性，认为仅在真实样本上训练的非对抗分类器无法捕捉完整的风格信息，因此高准确率不一定代表风格迁移成功。然而，如果模型能抵抗对抗分类器仍获得高准确率，则可视为成功。

5.2.3. KL 散度 (KL-Divergence)

概念定义: KL 散度是衡量两个概率分布之间差异的非对称度量。在 VAEs 和本文的第一阶段中，它被用作损失函数的一部分，以约束潜在变量的分布接近一个预设的先验分布（通常是标准正态分布）。这有助于潜在空间变得更规则，并避免过拟合。
数学公式: 对于两个概率分布 $P$ 和 $Q$ ，在离散情况下： $D_{\mathrm{KL}}(P || Q) = \sum_i P(i) \log \frac{P(i)}{Q(i)}$ 在连续情况下： $D_{\mathrm{KL}}(P || Q) = \int_{-\infty}^{\infty} p(x) \log \frac{p(x)}{q(x)} \, dx$
符号解释:
- $P$ : 真实分布（或近似的后验分布，如编码器输出的分布）。
- $Q$ : 目标分布（或先验分布，如标准正态分布）。
- p(x), q(x): 分别是分布 $P$ 和 $Q$ 的概率密度函数。
- $\sum_i, \int$ : 分别表示对所有可能值或整个连续域求和/积分。
- $\log$ : 自然对数。
本文中的应用: 在第一阶段中，用于约束内容编码 E(x) 和风格代码 S(a) 的分布接近标准正态分布。

5.3. 对比基线

在风格迁移应用中，本文方法与以下两种现有方法进行了比较：

原始神经风格迁移 (Original Neural Style Transfer) [5]: 基于 Gram 矩阵匹配纹理统计信息的方法。
StarGAN [2]: 用于多领域图像到图像翻译的统一生成对抗网络。

5.4. 训练参数

以下是原文 Table 2 的权重和训练超参数：

Weight	Value
λC1	0.2
λE-KL	10-4
λS-KL	2 × 10-5
λD	1
λC2	1
λcont	0.05

表 2: 权重和训练超参数

Stage	S	Others	Algorithm	Batch	Time
Stage	Learning rate		Algorithm	Batch	Time
1	0.005	5 × 10−5	Adam	8	400k
C2 pre-train	-	10-4	Adam	16	200k
2	0.01	2 × 10−5	RMSprop	8	400k

表 2 (续): 权重和训练超参数（训练过程部分） 符号解释：

Weight: 损失函数中各组件的权重因子。
$\lambda_{C1}$ : 阶段 1 分类器损失的权重。
$\lambda_{E-KL}$ : 编码器 KL 散度损失的权重。
$\lambda_{S-KL}$ : 风格函数 KL 散度损失的权重。
$\lambda_D$ : 判别器对抗损失的权重。
$\lambda_{C2}$ : 阶段 2 分类器损失的权重。
$\lambda_{cont}$ : 内容损失的权重。
Stage: 训练阶段。
Learning rate S: 风格函数 $S(\cdot)$ 的学习率。
Learning rate Others: 其他网络（编码器 $E$ 、生成器 $G$ 、判别器 $D$ 、分类器 $C_1, C_2$ ）的学习率。
Algorithm: 优化器类型。Adam [Adam optimizer] 用于大多数阶段，RMSprop 用于阶段 2，因为 RMSprop 在 GANs 中有时能提供更好的稳定性。
Batch: 批次大小 (batch size)。
Time: 训练迭代次数。

特殊处理：

风格函数 $S(\cdot)$ : 不作为一个网络，而是存储风格代码的矩阵。
学习率： 同一阶段内，所有网络使用相同的学习率。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 风格与内容的解耦表示 (Disentangled Representation of Style and Content)

为了验证生成器输入代码中风格和内容解耦的主要目标，论文通过固定其中一个因子并改变另一个因子来展示结果。

以下是原文 Figure 2 的生成图像：

Figure 2: Images generated by fixing the style in each group of two rows and varying the content. Two different styles are shown. Leftmost column taken from training set, courtesy of respective artis… 该图像是论文中的插图，展示了通过固定风格并变化内容生成的多组动漫人物头像。图中包括两种不同风格，上下两组分别为Sayori和Swordsouls风格，最左列为训练集中原始风格图像。 图 2: 固定每两行的风格并改变内容生成的图像。展示了两种不同的风格。最左列图像取自训练集，鸣谢各自艺术家。上组：Sayori。下组：Swordsouls。

从 Figure 2 可以看出，对于特定的艺术家（如上组的 Sayori 和下组的 Swordsouls），模型能够生成保持该艺术家独特风格的图像。在每个两行组中，尽管内容（人脸特征、表情）在变化，但整体的画风、线条、色彩、阴影处理等风格元素都保持了一致性。这表明模型成功地学习并应用了特定的艺术家风格。

以下是原文 Figure 3 的生成图像：

Figure 3: Images generated from a single content code and an assortment of styles. Including both style of artists from the training set and style codes randomly samples from the style distribution 该图像是论文中展示的插图，展示了通过固定内容编码与多样化风格编码生成的多张动漫人物头像，包含训练集中艺术家风格和随机风格样本，体现风格与内容的有效解耦。 图 3: 从单个内容代码和多种风格生成的图像。包括来自训练集中艺术家的风格和从风格分布中随机采样的风格代码。

Figure 3 展示了固定相同内容（同一个角色面部特征）但应用不同风格代码生成的多张图像。这些风格代码一部分来自训练集中的艺术家，一部分是随机采样的。结果清晰地表明，角色的面部结构、表情等内容信息得到了很好的保留，而图像的整体艺术风格（如眼睛的画法、头发的细节、光影处理、色彩饱和度、线条粗细等）则根据不同的风格代码发生了显著变化。这有力地证明了模型成功地将风格和内容进行了分离和独立控制。

6.1.2. 风格迁移 (Style Transfer)

作为直接的应用，论文展示了风格迁移结果，并与现有方法进行了对比。

以下是原文 Figure 4 的风格迁移结果：

该图像是论文中展示的动漫头像风格与内容解耦结果示意图，展示了固定内容下不同艺术家风格的多样化生成效果，验证了模型在风格迁移和风格分离上的能力。 图 4: 风格迁移结果。每两行中，第一列是来自同一艺术家的训练集样本。在随后的每个三行组中，最左边的图像来自训练数据集。右侧的图像是三种不同方法生成的风格迁移结果，内容来自该组最左边的图像，风格来自该列最上方的艺术家。在每个组中，第一行是本文方法，第二行是 StarGAN，第三行是神经风格迁移。对于神经风格迁移，风格图像是该列最上方的图像。训练样本鸣谢各自艺术家。风格样本，从左到右：Sayori, Ideolo, Peko, Yabuki Kentarou, Coffee-kizoku, Mishima Kurone, Ragho no Erika。内容样本，从上到下：Kantoku, Koi, Horiguchi Yukiko。

分析：

原始神经风格迁移 [5]: 结果显示，它似乎主要将风格图像的颜色应用到内容图像上，并且往往会改变内容图像的语义。这与论文对“风格”的定义（不仅仅是纹理统计）不符，也未能捕捉到高层次的风格语义。例如，眼睛大小、面部轮廓等内容特征被严重扭曲。
StarGAN [2]: StarGAN 成功迁移了目标艺术家的整体用色和一些显著特征，如眼睛的大小。然而，它未能捕捉到更复杂的风格元素，例如面部特征的精细形状、线条细节、光影处理等。结果通常显得不够精致，且仍保留了内容图像的一些原始风格痕迹。
本文方法 (Our method): 结果表明，本文方法能够更忠实地迁移目标艺术家的风格。它不仅处理了颜色和一些显著特征，还能捕捉到更复杂的风格元素，如面部特征的特定形状和外观（眼睛、嘴巴、下巴、头发）、腮红、高光、轮廓，以及整体的色彩饱和度和对比度。这验证了本文方法在建模高级艺术语义和视觉质量方面的优越性。

6.1.3. NIST 数据集上的实验

为了展示方法的通用性，论文在 NIST 手写数字数据集上进行了实验，目标是解耦数字类别 ( $\mathcal{D}$ ) 和书写者身份 ( $\mathcal{W}$ )。

解耦书写者标签 ( $\mathcal{W}$ ) 和其他因素 ( $\mathcal{D} + \mathcal{R}$ ): 以下是原文 Figure 5 的生成样本：

$Figure 5: Generated samples when disentangling $\\mathcal { W }$ from $\\mathcal { D } + \\mathcal { R }$$ 该图像是图5，展示了在将风格 W 从内容与剩余因素 $D + R$ 中解耦时生成的样本，体现了模型对风格和内容的分离能力。 图 5: 解耦 $\mathcal{W}$ 和 $\mathcal{D} + \mathcal{R}$ 时生成的样本。

Figure 5 展示了在固定书写者风格下，不同数字的生成效果。每列代表一个书写者的风格，每行代表一个数字类别以及其余变化。结果表明，模型能够保持特定书写者的笔迹特点（风格），同时生成从数字 0 到 9 的不同数字（内容）。这定性地验证了在 NIST 数据集上，书写者风格和数字内容的成功解耦。

以下是原文 Figure 6 的编码器输出分布对比：

Figure 6: Comparison of output distribution between stage 1 encoder and vanilla VAE. 该图像是图表，展示了图6中阶段1编码器与传统VAE编码器输出分布的对比，左图为阶段1编码器输出，右图为VAE编码器输出，可见前者分布更为稠密且结构清晰。 图 6: 阶段 1 编码器与传统 VAE 的输出分布对比。

Figure 6a 展示了本文方法在阶段 1 训练后编码器 $E(\cdot)$ 的输出分布（投影到前两个主成分），颜色代表数字类别。Figure 6b 展示了传统 VAE 在相同数据集上训练后的输出。对比发现，本文方法的 $E(\cdot)$ 使得相同数字的图像更紧密地聚类，而不同数字的图像则更清晰地分离。在二维特征空间中，本文方法得到了 10 个清晰的聚类，而 VAE 中有三个数字几乎完全混淆。这表明通过去除编码器中的书写者信息，同一数字类别内的变异性减小，从而增强了数字信息的聚类效果，且这一效果是在训练时未告知数字标签的情况下实现的。

解耦数字标签 ( $\mathcal{D}$ ) 和其他因素 ( $\mathcal{W} + \mathcal{R}$ ): 以下是原文 Figure 7 的生成样本：

$Figure 7: Generated samples when disentangling $\\mathcal { D }$ from $\\mathcal { W } + \\mathcal { R }$$ 该图像是手写数字风格迁移的示意插图，展示了通过解耦不同风格因子 $\\mathcal { D }$ 与其他因子 $\\mathcal { W } + \\mathcal { R }$ 后生成的样本。图中纵向排列的数字类别保持一致，横向展示了不同风格的变化样例。 图 7: 解耦 $\mathcal{D}$ 和 $\mathcal{W} + \mathcal{R}$ 时生成的样本。

Figure 7 展示了在固定数字内容下，不同书写者风格的生成效果。每行代表一个数字（内容），每列代表一个书写者风格和其余变异（风格）。与 Figure 5 相比，这里的行内变异更大，因为现在行内变化包含了书写者风格和剩余因素，而不是仅仅书写者风格。这表明，即使是同一数字，不同书写者的笔迹变化也可能非常显著。

以下是原文 Figure 8 的手写数字变异示例：

Figure 8: Variation within the same digit written by the same writer 该图像是一张手写数字的示意图，展示了同一数字由同一作者多次书写的多样性，对比了不同样本之间的细微变化和风格差异。 图 8: 同一书写者书写同一数字时的变异。

Figure 8 左侧 5 列展示了训练集中同一书写者书写不同数字的样本。右侧 10 列是模型生成的样本，它们固定了书写者风格和数字内容，只改变了其余因素 $\mathcal{R}$ 。这表明，即使是同一书写者书写同一数字，也存在一定的变异性，且模型能够捕捉并生成这种细微的变异。

以下是原文 Figure 9 的数字分布：

$Figure 9: Distribution of each digit from stage 1 encoder for $\\mathcal { D }$ vS. $\\mathcal { W } + \\mathcal { R }$$ 该图像是一个图表，展示了论文中阶段1编码器对不同类别的数字分布，每个子图用不同颜色区分，呈现出各类别在二维空间上的聚集情况，体现了内容编码的分离效果。 图 9: 解耦 $\mathcal{D}$ 和 $\mathcal{W} + \mathcal{R}$ 时，阶段 1 编码器对每个数字的分布。

Figure 9 展示了当目标是解耦 $\mathcal{D}$ 和 $\mathcal{W} + \mathcal{R}$ 时，阶段 1 编码器 $E(\cdot)$ 的输出分布。由于此时数字类别是应该从编码器中“清除”的标记特征，如果解耦成功，每个数字的分布在潜在空间中应该是相似的、不可区分的。图中的分布确实非常相似，这与 Figure 6b（VAE 的分布）形成了对比，进一步证明了编码器成功地移除了数字类别信息。

6.1.4. 定量分析解耦效果 (NIST 数据集)

论文通过两个指标定量评估了第一阶段编码器的解耦效果：

样本到类中心点的平均欧氏距离 (Mean Euclidean distance of a sample to the center of its class): 衡量同类样本在编码空间中的紧密程度。

朴素贝叶斯分类器 (Naive Bayesian Classifier) 性能: 使用编码作为特征，评估分类器对书写者或数字的分类能力。

以下是原文 Table 4 的平均欧氏距离：

Encoder	By writer	By digit	Whole dataset
(a) First 2 dimensions
Ew	1.2487	0.2788	1.2505
ED	0.7929	1.2558	1.2597
Ev	1.2185	0.4672	1.2475
(b) First 8 dimensions
Encoder	By writer	By digit	Whole dataset
Ew	2.6757	2.0670	2.6957
ED	2.4020	2.6699	2.7409
Ev	2.6377	1.7629	2.7363

表 4: 样本到其类中心点的平均欧氏距离 符号解释：

$E_{\mathcal{W}}$ (Ew): 针对书写者标签训练的解耦编码器（解耦 $\mathcal{W}$ 和 $\mathcal{D} + \mathcal{R}$ ）。
$E_{\mathcal{D}}$ (ED): 针对数字标签训练的解耦编码器（解耦 $\mathcal{D}$ 和 $\mathcal{W} + \mathcal{R}$ ）。
$E_v$ (Ev): 未进行解耦训练的传统 VAE 编码器。
By writer: 按书写者分类计算距离。
By digit: 按数字分类计算距离。
Whole dataset: 将整个数据集视为一类计算距离。 分析：
对于 $E_{\mathcal{W}}$ ，按数字分类的距离（红色）显著小于按书写者分类和整个数据集的距离，表明它能很好地聚类数字信息，而书写者信息则被抑制。
对于 $E_{\mathcal{D}}$ ，按书写者分类的距离（红色）小于按数字分类和整个数据集的距离，表明它能更好地聚类书写者信息，而数字信息则被抑制。

与 $E_v$ 相比， $E_{\mathcal{W}}$ 在数字聚类上表现更好（距离更小），而 $E_{\mathcal{D}}$ 在书写者聚类上表现更好。这与定性观察一致。

以下是原文 Table 5 的平均概率：

Encoder	By writer	By digit
(a) First 2 dimensions
Ew	0.000293	0.9001
ED	0.001441	0.1038
Ev	0.000337	0.6179
(b) First 8 dimensions
Encoder	By writer	By digit
EW	0.000363	0.9327
ED	0.002845	0.1015
Ev	0.000843	0.9380

表 5: 给定正确类别的平均概率 分析：

$E_{\mathcal{W}}$ : 在“By digit”列中，平均概率很高（0.9001），而在“By writer”列中，平均概率很低（0.000293），这表明 $E_{\mathcal{W}}$ 成功地编码了数字信息但抑制了书写者信息。
$E_{\mathcal{D}}$ : 结果相反，在“By digit”列中概率很低（0.1038），而在“By writer”列中概率相对较高（0.001441），说明它抑制了数字信息而编码了书写者信息。
$E_v$ : 在“By digit”列中概率较高（0.6179），但在“By writer”列中也相对较低，但不如 $E_{\mathcal{W}}$ 那么极致。这些结果再次验证了解耦的有效性。

以下是原文 Table 6 的正确类别的平均排名：

Encoder	By writer	By digit
(a) First 2 dimensions
Ew	1608	1.12
ED	582	5.20
Ev	1409	1.49
(b) First 8 dimensions
Encoder	By writer	By digit
EW	1330	1.12
ED	422	3.98
Ev	838	1.08

表 6: 正确类别的平均排名 分析：

$E_{\mathcal{W}}$ : 在“By digit”列中，正确类别的平均排名非常低（1.12），接近理想情况（1），这表明数字类别总是排在第一位。而在“By writer”列中排名非常高（1608），表明很难根据 $E_{\mathcal{W}}$ 的输出识别书写者。
$E_{\mathcal{D}}$ : 结果相反，在“By writer”列中排名较低（582），在“By digit”列中排名较高（5.20）。
$E_v$ : 介于两者之间，在“By digit”列中排名也较低，但不如 $E_{\mathcal{W}}$ 极致。这些结果进一步支持了编码器的解耦能力。

以下是原文 Table 7 的 Top-1 分类准确率：

Encoder	By writer	By digit
(a) First 2 dimensions
EW	0.000454	0.94
ED	0.005331	0.13
Ev	0.000846	0.70
(b) First 8 dimensions
Encoder	By writer	By digit
EW	0.001400	0.94
ED	0.015424	0.23
Ev	0.004946	0.95

表 7: Top-1 分类准确率 分析：

$E_{\mathcal{W}}$ : 仅使用前两个特征时，对数字的分类准确率高达 94%，而对书写者的分类准确率极低（0.000454）。这强烈表明 $E_{\mathcal{W}}$ 成功地将数字信息编码，并移除了书写者信息。
$E_{\mathcal{D}}$ : 结果相反，对数字的分类准确率非常低（0.13，略高于随机猜测），对书写者的分类准确率也相对较低（0.005331），但高于 $E_{\mathcal{W}}$ 对书写者的分类准确率。
$E_v$ : 对数字的分类准确率较高（0.70），但对书写者的分类准确率也相对较高。这些定量指标有力地证明了本文第一阶段编码器在解耦目标因子方面的有效性。

6.2. 消融实验/参数分析

论文在附录 C 中对几项关键设计进行了消融研究。

6.2.1. 将重构结果作为阶段 1 分类器输入

问题： 论文指出，如果像 [3] 那样让分类器直接分类编码器输出 E(x)，效果不佳。原因在于 E(x) 的分布不受约束，编码器-解码器可以利用这一点来“欺骗”分类器，同时仍将风格信息编码到 E(x) 中。编码器-解码器可以通过线性或非线性变换改变编码空间分布，使得分类器难以学习。 本文改进： 让分类器 $C_1(\cdot)$ 分类生成器输出的图像 G(E(x), S(a'))，其中 $a'$ 是不同于原始图像作者 $a$ 的风格。这样，只要生成器输出的图像具有 $a'$ 的风格，分类器就能将其识别出来。同时，通过 KL 散度损失约束 E(x) 的分布，进一步防止 E(x) 编码未被生成器使用的信息。

以下是原文 Figure 10 的阶段 1 图像重构对比：

Figure 10: Comparison of stage 1 image reconstruction with correct style and zero style, using different methods. Column 1: images from the dataset. Column 2: VAE reconstruction. Column 3: MLP classi… 该图像是图10，展示了使用不同方法在第一阶段基于正确风格和零风格进行图像重构的对比。第一列为原始数据图像，后续列分别为VAE重建、多层感知机分类器和作者分类器在正确风格及零风格条件下的重构效果。 图 10: 阶段 1 图像重构（正确风格与零风格）使用不同方法的对比。第一列：数据集图像。第二列：VAE 重构。第三列：MLP 分类器，正确风格。第四列：MLP 分类器，零风格。第五列：本文分类器，正确风格。第六列：本文分类器，零风格。训练图像鸣谢各自艺术家。从上到下：Azumi Kazuki, Namori, Iizuki Tasuku, Tomose Shunsaku。

分析：

MLP 分类器 (MLP classifier): 当分类器分类 E(x) 时，在“零风格”重构（即 $G(E(x), \mathbf{0})$ ，其中 $\mathbf{0}$ 是全零风格代码）中，仍然明显保留了输入图像的风格特征（如眼睛大小、面部轮廓、腮红）。这表明编码器未能完全去除风格信息。
本文分类器 (Our classifier): 在“零风格”重构中，虽然未能完全剥离输入图像的风格（仍有细微痕迹），但相比 MLP 分类器，它在风格中立性方面表现得更好，例如消除了输入图像的独特眼型或腮红。同时，它在“正确风格”重构中保持了与输入图像几乎相同的质量。这证实了将分类器输入改为生成图像并使用不同风格进行分类，结合 KL 散度损失，能更有效地阻止编码器编码风格信息。

以下是原文 Figure 11 的编码器输出分布变化：

该图像是图表，展示了不同编码器输出分布的变化，包括(a) VAE编码器，(b) 结合MLP分类器的第一阶段编码器，以及(c) 结合论文提出的一阶段分类器的编码器，反映了编码特征的聚类效果差异。 图 11: 不同编码器输出分布的变化。

分析： Figure 11 追踪了训练过程中编码器输出分布的变化。
MLP 分类器下的编码器分布： 明显不稳定，数字类别之间的界限模糊，聚类效果差。这支持了论文的假设：由于 E(x) 的分布不受约束，编码器可以通过不断改变其分布来规避分类器的检测。
本文阶段 1 编码器分布： 相对稳定，每个数字类别在小范围内波动，并且类别之间的相对位置保持一致，形成了清晰的聚类。这表明本文的方法成功地稳定了编码器的输出分布，从而实现了更好的解耦。
传统 VAE 编码器分布： 保持稳定，但聚类效果不如本文方法，尤其是在数字类别分离方面。

6.2.2. 对抗性阶段 2 分类器 (Adversarial Stage 2 Classifier)

论文观点： 传统的分类器只需正确分类真实样本即可，可能不会学习艺术风格的所有方面。例如，如果仅通过发型就能区分艺术家，分类器就不会学习眼睛的风格。而对抗性分类器（即 $C_2$ 在生成样本上最小化 NLU 损失）会主动努力识别生成样本与真实样本的区别，迫使生成器生成更真实的风格，也迫使分类器更全面地学习风格特征。 NLU 损失的选择： 论文解释了选择 NLU (Negative Log-Unlikelihood, $\mathrm{NLU}(\mathbf{y}, i) = - \log(1 - y_i)$ ) 而非最大化负对数似然 (NLL) 的原因：NLL 在生成样本上没有上限，可能导致分类器忽略真实样本的损失而过度关注生成样本，从而崩溃。NLU 则避免了这个问题，因为它鼓励分类器将生成样本判别为“不是目标风格”，而不是“是其他风格”。

以下是原文 Figure 12 的生成图像：

Figure 12: Images generated from fixed style and different contents, when stage 2 classifier is not adversarial. 该图像是论文中展示的插图，展示了在第二阶段分类器非对抗训练情况下，固定风格与不同内容生成的多张动漫人物头像，表现了风格一致而内容多样的生成效果。 图 12: 阶段 2 分类器非对抗训练时，固定风格与不同内容生成的图像。

分析： Figure 12 展示了在阶段 2 分类器非对抗训练（即 $C_2$ 不使用 NLU 损失）的情况下生成的图像。与 Figure 2 相比，这些图像的风格特征（如眼睛的画法、色彩饱和度）似乎不如对抗分类器训练出来的生成器那么逼真或一致。这定性地支持了对抗分类器的有效性，它能促使生成器更好地捕捉和再现目标艺术家的风格。

以下是原文 Table 8 的分类准确率：

	Adversarial C2	Non-adversarial C2
G trained with adversarial C2	14.37%	86.65%
G trained with non-adversarial C2	1.85%	88.59%

表 8: 两个分类器对两个生成器生成样本的 Top-1 分类准确率 分析：

非对抗 $C_2$ 的局限性： 无论哪个生成器生成的样本，非对抗 $C_2$ 都能达到较高的分类准确率（86.65% 和 88.59%）。这表明非对抗分类器可能只学习了区分艺术家的表面特征，而未能全面理解风格。
对抗 $C_2$ 的挑战性： 相比之下，对抗 $C_2$ 对生成样本的分类准确率非常低（14.37% 和 1.85%）。这意味着对抗 $C_2$ 能够轻易识别出生成样本的“非真实性”或“非目标风格性”，即使它们在非对抗 $C_2$ 看来风格相似。这支持了论文的观点，即对抗分类器迫使生成器生成更难以区分的、更真实的风格，同时对抗 $C_2$ 本身也学习了更全面的风格信息。
分类准确率作为评估指标的局限性： 论文强调，如果一个生成器即使面对对抗分类器也能获得高准确率，那才算真正的成功。仅依靠在真实样本上训练的非对抗分类器进行评估可能具有误导性。

6.2.3. 阶段 2 生成器中内容的显式条件 (Explicit Conditioning on Content in Stage 2 Generator)

论文观点： 在阶段 2 中，通过内容损失 $\mathcal{L}_{\mathrm{cont}}$ 显式地将生成图像的内容限制为接近原始输入内容编码是必要的。

以下是原文 Figure 13 的生成图像：

Figure 13: Images generated from fixed style and different contents, when explicit condition on content is removed. 该图像是论文中的插图，展示了在移除显式内容条件后，以固定风格生成的多种不同内容的动漫人像。 图 13: 移除显式内容条件后，固定风格与不同内容生成的图像。

分析： Figure 13 展示了在移除内容损失 ( $\lambda_{\mathrm{cont}} = 0$ ) 后，固定风格并改变内容生成的图像。结果显示，内容代码失去了对生成图像内容的大部分控制能力。不同内容代码生成的图像在面部特征、表情等方面差异不大，内容似乎变得模糊或固定。有趣的是，内容代码似乎仍能控制生成角色的头部姿态 (head pose)，这表明头部姿态可能是内容代码中相对突出且难以被其他因素替代的信息。

以下是原文 Figure 14 的生成图像：

Figure 14: Images generated from fixed content and different styles, when explicit condition on content is removed. 该图像是论文中的插图，展示了图14中在移除对内容的显式条件后，固定内容但应用不同风格生成的多张动漫头像图像，体现了风格与内容的解耦能力。 图 14: 移除显式内容条件后，固定内容与不同风格生成的图像。

分析： Figure 14 展示了在移除内容损失后，固定内容并改变风格生成的图像。此时，风格代码不仅控制风格，也开始控制内容。例如，原本应该保持一致的面部特征和形状，却随着风格的变化而改变。这表明，当没有显式内容损失的约束时，内容信息会发生部分模式崩溃 (partial mode collapse)，生成器可能将内容信息与风格信息混淆或忽略部分内容信息。因此，显式的内容损失在保持内容忠实度方面是至关重要的。

6.3. 局限性

数据集局限性： 由于缺乏大规模、一致性高的标注艺术品数据集，目前仅在动漫肖像画上进行了验证。方法是否能推广到更广泛的艺术风格和对象（如全身、场景）仍需进一步测试。
小特征不一致性： 观察到一些小特征（如眼睛颜色、面部表情）有时未能很好地保留。这可能归因于：
- 第一阶段的像素级重建损失可能对小面积特征不够重视。
- 固定大小的编码 (fixed-size code) 而非全卷积 (fully convolutional) 架构可能限制了对精细细节的捕捉。
编码器架构限制： 论文指出，其编码器-解码器架构使用固定长度的内容代码，而 StarGAN 等全卷积网络能够保留更丰富的内容信息。这导致本文方法在保留精细内容细节方面不如全卷积网络。
全卷积网络对风格的捕捉： 论文认为，全卷积网络可能倾向于保留像素级别的图像结构，这不利于捕捉艺术风格中对形状和比例的改变（如面部特征的夸张）。为了解决这个问题，可能需要引入非刚性空间变换。

7. 总结与思考

7.1. 结论总结

本文提出了一种生成对抗解耦网络 (Generative Adversarial Disentanglement Network)，通过一个两阶段的训练框架，成功地将动漫插画中的风格和内容进行了解耦。

第一阶段训练了一个风格独立的内容编码器 (style independent content encoder)，能够从图像中提取纯粹的内容信息，同时避免编码风格信息。这一阶段通过改进的对抗分类器（分类生成器输出的图像而非编码器潜在向量）和 KL 散度损失来实现。
第二阶段训练了一个内容和风格双条件生成器 (content and style-conditional generator)，在第一阶段学习到的编码器和风格函数的基础上，通过对抗损失、对抗分类器（使用特殊的负对数非似然损失）和显式内容损失，生成高质量、风格一致且内容可控的动漫肖像。实验结果表明，该方法能够生成高保真度的动漫人物肖像，既能保持固定内容并应用来自上千位艺术家的各种风格，也能保持固定风格并改变内容，并在风格迁移应用中显著优于现有最先进的 (state-of-the-art) 方法，特别是在建模高层次艺术语义和视觉质量方面。NIST 手写数字数据集上的实验也验证了该方法在仅有一个因子被标记的情况下，解耦两种变异因子的通用能力。

7.2. 局限性与未来工作

7.2.1. 局限性

数据领域限制： 目前仅在动漫肖像画上进行了验证，推广到其他艺术风格或更复杂的场景（如全身、完整场景）仍需进一步探索。
精细特征保留： 在眼睛颜色、面部表情等小特征的保留上仍存在不一致性，这可能与像素级重建损失的权重偏向大面积特征以及固定尺寸内容编码的架构有关。
内容细节的丢失： 相比全卷积网络，本文的编码器-解码器架构使用固定长度的内容代码，导致在保留非常精细的内容细节方面有所不足。

7.2.2. 未来工作

扩展到更广泛的艺术风格： 将方法应用于动漫之外的更多艺术风格，以验证其更广泛的适用性。
建模更复杂的内容： 探索学习建模整个角色身体，甚至完整场景的能力。
解决小特征不一致性： 考虑引入额外的标签信息（如眼睛颜色、表情标签）或设计与人类视觉感知更一致的损失函数来改进小特征的保留。
结合空间变换： 针对全卷积网络在捕捉面部特征形状变化上的不足，未来可能需要结合某种形式的非刚性空间变换，以更好地处理风格带来的几何形变。

7.3. 个人启发与批判

7.3.1. 个人启发

解耦的通用性： 论文将风格迁移抽象为“在一个因素被标记，另一个因素未标记的情况下进行解耦”的通用问题，这种思想非常具有启发性。它表明许多看似独特的生成问题，都可以通过这种解耦范式来解决，从而降低对强监督数据的依赖。
两阶段训练的有效性： 针对复杂生成任务，分阶段训练（先解耦编码，再条件生成）的策略被证明非常有效，它将一个大问题分解为可管理的子问题，有助于稳定训练和提升性能。
细致的损失函数设计： 论文中对第一阶段分类器输入、KL 散度损失、第二阶段对抗分类器中“负对数非似然”损失以及显式内容损失的精心设计，都展示了在对抗训练中如何通过巧妙的损失函数来引导模型学习到期望的解耦表示。特别是 NLU 的引入，为对抗性训练提供了新的思路，避免了传统 NLL 在特定情境下的潜在崩溃。
对“风格”的深刻理解： 论文超越了传统风格迁移对纹理统计的关注，强调了风格在语义层面的重要性（如面部结构、线条、光影），这对于生成更具艺术表现力的图像至关重要。将艺术家身份作为风格的代理标签，在没有细粒度风格标注的情况下提供了一个实用的解决方案。

7.3.2. 潜在的问题、未经验证的假设或可以改进的地方

“风格”定义的边界：尽管论文批判了其他工作对“风格”定义的模糊性，并提出了自己的定义（“不同方式呈现相同主题”），但在实际操作中，“内容”和“风格”的边界仍然存在一定主观性。例如，某些角色的标志性面部特征（如特定的眼睛形状）既可以视为内容的一部分，也可以视为艺术家风格的一部分。如何在模型中明确区分和控制这种模糊边界，仍是挑战。
计算成本： 两阶段训练，特别是复杂的对抗损失和分类器设计，可能意味着较高的计算成本和更长的训练时间。未来的工作可以探索如何简化或加速训练过程，例如通过更高效的网络架构或优化策略。
定量评估的挑战： 论文承认了风格迁移和艺术生成质量的定量评估难题。虽然引入了 NIST 数据集进行定量分析，但对于动漫插画这种高度主观的领域，如何设计更客观、更全面的评估指标（超越分类准确率）仍然是一个开放问题。用户研究可能是一个方向，但其规模和成本限制了广泛应用。
泛化能力： 模型在训练数据（动漫肖像）上的表现非常出色，但其在处理完全不同于训练数据的艺术风格或内容（例如，现实照片转动漫风格，或生成非人脸的动漫物体）时的泛化能力有待进一步验证。尤其是在“零风格”重构中，仍有轻微的风格残留，表明解耦并非 100% 完美。
可解释性： 尽管实现了风格和内容的解耦，但潜在空间中每个维度具体对应哪些风格或内容特征，其可解释性仍有提升空间。例如，能否通过潜在向量的特定操作来精确控制“眼睛大小”或“线条粗细”等具象特征，将进一步增强模型的实用性。
固定尺寸内容代码的限制： 论文明确提到了固定尺寸内容代码的弊端，即无法捕捉所有精细内容细节。未来的工作可以探索结合全卷积架构的优势（保留细节）和本文方法的解耦能力，可能需要引入一些空间注意力机制或可变形卷积来处理风格引起的几何变换。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。