Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support
TL;DR 精炼摘要
本文提出Taiyi-Diffusion-XL,一种通过双语连续预训练扩展CLIP和Stable-Diffusion-XL的中英双语文本到图像生成模型。创新包括高效扩充中文词汇表、扩展绝对位置编码及利用大视觉语言模型丰富文本提示,显著提升了双语图像生成质量与图文检索表现。
摘要
Recent advancements in text-to-image models have significantly enhanced image generation capabilities, yet a notable gap of open-source models persists in bilingual or Chinese language support. To address this need, we present Taiyi-Diffusion-XL, a new Chinese and English bilingual text-to-image model which is developed by extending the capabilities of CLIP and Stable-Diffusion-XL through a process of bilingual continuous pre-training. This approach includes the efficient expansion of vocabulary by integrating the most frequently used Chinese characters into CLIP's tokenizer and embedding layers, coupled with an absolute position encoding expansion. Additionally, we enrich text prompts by large vision-language model, leading to better images captions and possess higher visual quality. These enhancements are subsequently applied to downstream text-to-image models. Our empirical results indicate that the developed CLIP model excels in bilingual image-text retrieval.Furthermore, the bilingual image generation capabilities of Taiyi-Diffusion-XL surpass previous models. This research leads to the development and open-sourcing of the Taiyi-Diffusion-XL model, representing a notable advancement in the field of image generation, particularly for Chinese language applications. This contribution is a step forward in addressing the need for more diverse language support in multimodal research. The model and demonstration are made publicly available at \href{https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/}, fostering further research and collaboration in this domain.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support
1.2. 作者
Xiaojun Wu, Dixiang Zhang, Ruyi Gan, Junyu Lu, Ziwei Wu, Renliang Sun, Jiaxing Zhang, Pingjian Zhang, Yan Song。 主要作者来自国际数字经济研究院 (International Digital Economy Academy),部分作者也隶属于华南理工大学 (South China University of Technology) 和中国科学技术大学 (University of Science and Technology of China)。
1.3. 发表期刊/会议
本文作为预印本 (preprint) 发布在 arXiv 平台。arXiv 是一个开放获取的预印本服务器,主要用于共享物理学、数学、计算机科学等领域的学术论文,虽然不是正式的同行评审期刊或会议,但其在该领域的声誉和影响力非常高,是研究人员快速分享最新研究成果的重要平台。
1.4. 发表年份
2024年1月26日(UTC)。
1.5. 摘要
文本到图像 (text-to-image, T2I) 模型在图像生成能力方面取得了显著进展,但在双语或中文支持方面仍存在明显的开源模型空白。为了解决这一需求,本文提出了 Taiyi-Diffusion-XL,一个通过双语连续预训练 (bilingual continuous pre-training) 扩展 CLIP 和 Stable-Diffusion-XL 能力而开发的新型中英文双语 T2I 模型。该方法包括通过将最常用的中文字符集成到 CLIP 的 tokenizer 和 embedding layers 中来高效扩展词汇,并结合绝对位置编码 (absolute position encoding) 扩展。此外,研究人员还通过大型视觉语言模型 (large vision-language model, LVLM) 丰富了文本提示 (text prompts),从而生成了更好的图像描述 (image captions) 并提升了视觉质量。这些增强功能随后被应用于下游 T2I 模型。实证结果表明,所开发的 CLIP 模型在双语图像-文本检索 (bilingual image-text retrieval) 方面表现出色。此外,Taiyi-Diffusion-XL 的双语图像生成能力超越了现有模型。这项研究促成了 Taiyi-Diffusion-XL 模型的开发和开源,代表了图像生成领域,特别是中文语言应用方面的一个显著进步。这一贡献是解决多模态研究中对更多语言支持需求迈出的重要一步。该模型和演示已在 HuggingFace 平台公开,以促进该领域的进一步研究和协作。
1.6. 原文链接
https://arxiv.org/abs/2401.14688
PDF 链接: http://arxiv.org/pdf/2401.14688v3
发布状态:预印本 (preprint)。
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题与现有挑战
当前文本到图像(T2I)模型尽管在生成高质量图像方面取得了巨大进步,但主要集中于英文支持。在开源领域,支持双语(尤其是中文和英文)的 T2I 模型存在显著的空白。现有解决中文生成需求的方法通常依赖于将中文文本翻译成英文,再使用英文模型进行生成,这不仅可能导致语义和情感的丢失,也无法充分捕捉中文语境和文化特定的细微差别。
2.1.2. 现有研究的局限
一些中文 T2I 模型,如 Taiyi-Diffusion、Pai-Diffusion 和 Alt-Diffusion,虽然为中文场景提供了支持,但它们通常通过替换多语言文本编码器 (multi-language text encoders) 来实现中文理解,这往往会牺牲模型原有的英文理解能力。这意味着模型在获得中文能力的同时,失去了其在英文环境下的优势。
2.1.3. 本文的切入点与创新思路
本文旨在解决上述问题,提出 Taiyi-Diffusion-XL (Taiyi-XL),一个能够同时支持中英文双语的 T2I 模型,并且在增加中文支持的同时,保留甚至增强了模型的英文生成能力。其核心创新在于:
- 高效双语扩展算法:通过集成高频中文字符到
CLIP的tokenizer和embedding layers,并扩展绝对位置编码,实现词汇的高效双语扩展。 - 大型视觉语言模型 (LVLM) 增强:利用
LVLM(如Lyrics) 来丰富文本提示,生成更准确、更详细的图像描述,从而提升模型的视觉质量和文本理解能力。 - 基于
Stable-Diffusion-XL的连续预训练:在Stable-Diffusion-XL的基础上进行双语连续预训练,以构建一个强大的双语T2I模型。
2.2. 核心贡献/主要发现
本文的核心贡献主要体现在以下三个方面:
-
高效的双语扩展算法:提出了针对 T2I 模型中词汇和位置编码(position encoding)的双语扩展算法。这些算法专门针对双语语境进行优化,实现了更准确和文化适应性更强的图像生成。
-
大型视觉语言模型 (LVLM) 丰富文本提示:创新性地利用
LVLM来丰富文本提示。这种方法显著增强了模型解释和可视化复杂文本描述的能力,使得生成的图像在细节和质量上有了提升。 -
创建并开源双语
T2I模型Taiyi-XL:基于多模态基础模型的能力,开发并开源了Taiyi-XL模型。该模型在双语图像-文本检索和图像生成方面表现出优越性能,尤其在中文应用中取得了显著进展,超越了当前开源的双语模型。该模型的开放共享促进了该领域的研究与合作。主要发现包括:
-
开发的
CLIP模型在双语图像-文本检索任务中表现出色,尤其在中文数据集上取得了最高召回率 (recall rates)。 -
Taiyi-Diffusion-XL的双语图像生成能力优于现有开源模型,在英文和中文数据集上的CLIP Similarity、Inception Score和Fréchet Inception Distance等指标均达到最佳。 -
模型的 XL 版本(如
Taiyi-XL)相较于 1.5 版本(如SD-v1.5)有显著提升,表明模型规模、算法和训练方法的重要性。 -
尽管与商业模型(如
DALL-E 3和Midjourney)仍存在差距,但Taiyi-XL在开源双语模型中处于领先地位。这种差距主要归因于训练数据在数量、质量和多样性上的差异,同时也凸显了版权合规数据在模型开发中的挑战。 -
对
Latent Consistency Models(LCM) 的评估表明,减少推理步数可以加速生成,但步数过少(如一步)会导致图像质量显著下降,至少需要 8 步才能保持令人满意的细节和图像保真度。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 文本到图像生成 (Text-to-Image Generation, T2I)
T2I 是一项人工智能任务,旨在根据自然语言描述(文本提示)生成相应的视觉图像。这一领域是多模态 AI 的一个重要分支,结合了自然语言处理 (Natural Language Processing, NLP) 和计算机视觉 (Computer Vision, CV) 技术。
3.1.2. 扩散模型 (Diffusion Models)
扩散模型 (Diffusion Models) 是一种生成模型,通过模拟物理扩散过程来学习数据分布。核心思想是逐步向数据中添加噪声,然后学习逆向过程,即从噪声中逐步去除噪声来恢复原始数据。它通常包含两个主要过程:
- 前向扩散过程 (Forward Diffusion Process):将数据(如图像)逐渐转化为纯噪声。
- 逆向去噪过程 (Reverse Denoising Process):从纯噪声中逐步恢复出数据。模型通过学习去噪步骤来生成新数据。
3.1.3. 潜在扩散模型 (Latent Diffusion Models, LDM)
潜在扩散模型 (Latent Diffusion Models, LDM) 是对传统扩散模型的改进,旨在提高计算效率。LDM 不直接在像素空间(高维空间)进行扩散和去噪,而是首先使用一个变分自编码器 (Variational AutoEncoder, VAE) 将图像编码到低维的潜在空间 (latent space)。所有的扩散和去噪操作都在这个潜在空间中进行,从而大幅减少了计算资源和内存需求。最后,再使用 VAE 的解码器将潜在空间的去噪结果解码回像素空间,生成最终图像。
3.1.4. CLIP (Contrastive Language-Image Pre-training)
CLIP 是由 OpenAI 开发的一种视觉语言模型 (Vision-Language Model)。它通过在大量图像-文本对上进行对比学习 (contrastive learning) 来训练。其目标是学习一个能够将图像和文本映射到同一个嵌入空间 (embedding space) 的模型,使得相关联的图像和文本在嵌入空间中距离更近,不相关的则距离更远。CLIP 通常包含一个图像编码器 (image encoder) 和一个文本编码器 (text encoder),它们可以用于图像-文本检索、零样本分类 (zero-shot classification) 等任务,并且在 T2I 模型中常被用作文本提示的特征提取器。
3.1.5. Stable-Diffusion-XL (SD-XL)
Stable-Diffusion-XL 是 Stability AI 公司开发的一个大型、高性能的潜在扩散模型,是 Stable Diffusion 系列的最新版本之一。它在生成高分辨率、高质量图像方面表现出色,并支持更复杂的文本提示理解。SD-XL 通常包含多个组件,如 VAE、UNet(作为噪声预测器)和文本编码器(通常是 CLIP 或其他大型语言模型的变体),共同协作完成图像生成任务。
3.1.6. 变分自编码器 (Variational AutoEncoder, VAE)
VAE 是一种生成模型,由编码器 (encoder) 和解码器 (decoder) 组成。编码器将输入数据(如图像)压缩成一个潜在空间中的概率分布(通常是均值和方差),而不是一个单一的潜在向量。解码器从这个潜在分布中采样一个向量,并将其解码回原始数据空间。VAE 在 LDM 中用于将高维图像数据压缩到低维潜在空间,以及将潜在表示恢复为图像。
3.1.7. UNet
UNet 是一种卷积神经网络架构,最初设计用于生物医学图像分割。其名字来源于其对称的 U 形结构,包含一个下采样路径(编码器)和一个上采样路径(解码器),并且在相同分辨率层之间有跳跃连接 (skip connections)。这种结构使其能够很好地捕捉上下文信息和精确定位信息。在扩散模型中,UNet 通常被用作噪声预测器 (noise predictor),学习从噪声图像中预测需要去除的噪声。
3.1.8. tokenizer
tokenizer (词元分析器) 是 NLP 中的一个组件,负责将原始文本切分成更小的单元,称为词元 (token)。这些词元可以是单词、子词或字符。然后,这些词元会被映射到数字 ID,以便输入到神经网络模型中。
3.1.9. embedding layers
embedding layers (嵌入层) 是神经网络中的一种层,它将离散的输入(如词元 ID)映射到连续的向量空间中。这些向量称为嵌入 (embeddings),它们捕捉了词元之间的语义关系。在 CLIP 的文本编码器中,词元的嵌入层将 tokenizer 产生的数字 ID 转换为模型可以处理的稠密向量。
3.1.10. 绝对位置编码 (Absolute Position Encoding)
在 Transformer 架构中,由于 self-attention 机制不区分序列中词元的位置,需要引入位置编码来提供词元的位置信息。绝对位置编码 是一种显式地将位置信息添加到词元嵌入中的方法,常见的包括正弦余弦位置编码 (sinusoidal position encoding) 或学习到的位置嵌入 (learned position embeddings)。
3.1.11. 对比损失 (Contrastive Loss)
对比损失 是一种训练目标,旨在使相似样本的嵌入在特征空间中距离更近,而不相似样本的嵌入距离更远。在 CLIP 中,它用于训练图像编码器和文本编码器,使得匹配的图像-文本对的嵌入彼此靠近,而不匹配的则相互远离。
3.1.12. 大型视觉语言模型 (Large Vision-Language Model, LVLM)
LVLM 结合了大型语言模型 (Large Language Models, LLM) 和视觉处理能力,能够理解和生成涉及图像和文本的多模态内容。它们可以执行多种任务,如图像描述生成、视觉问答、图像编辑等。本文中,LVLM 用于生成更详细和准确的图像描述来丰富训练数据集。
3.1.13. Latent Consistency Models (LCM)
Latent Consistency Models (LCM) 是一类旨在加速扩散模型采样过程的技术。它们通过学习一个一步或少数几步的映射,直接从噪声映射到干净的潜在表示,从而显著减少生成高质量图像所需的推理步数,提高生成速度。
3.2. 前人工作
3.2.1. 文本到图像生成模型的演进
- 早期生成模型:
- 生成对抗网络 (Generative Adversarial Networks, GANs) (Goodfellow et al., 2014; Arjovsky et al., 2017):通过生成器和判别器之间的对抗训练来生成数据。
- 变分自编码器 (VAEs) (Kingma & Welling, 2013):通过学习数据的潜在表示来生成数据。
- 流式模型 (Flow-based models) (Rezende & Mohamed, 2015):通过可逆变换将简单分布映射到复杂数据分布。
- 自回归模型 (Autoregressive models) (Ramesh et al., 2021; Ding et al., 2021; 2022):逐步生成数据,每个部分的生成都依赖于前面已生成的部分。
- 扩散模型:
- 起源于
Vincent (2011),并在 和Song et al. (2020)的工作后得到显著发展。 - DALL-E 2 (Ramesh et al., 2022):利用分层方法和
CLIP潜在空间进行图像生成。 - Imagen (Saharia et al., 2022):强调深度语言理解,能够生成高质量、逼真的图像。
- Deepfloyd-IF (Shonenkov et al., 2023):同样是
T2I扩散模型,以其高质量输出著称。 - 潜在扩散模型 (LDM) (Rombach et al., 2022):包括
stable-diffusion-v1-5、stable-diffusion-2-1和stable-diffusion-xl(Podell et al., 2023),是当前主流的T2I技术。这些模型通常使用CLIP文本模型提取文本特征,并将其集成到潜在扩散过程中,以降低计算和内存开销。
- 起源于
3.2.2. 双语文本到图像模型
- 中文
CLIP版本:为了支持中文,研究人员通常会用中文特化的编码器替换CLIP的文本编码器,并在中文数据集上进行预训练以实现文本-图像匹配。Taiyi-CLIP(Zhang et al., 2022)Chinese-CLIP(Yang et al., 2022)Alt-CLIP(Chen et al., 2022)
- 中文扩散模型:在中文
CLIP版本的基础上,替换Stable Diffusion中的文本编码器,并在中文文本-图像数据集上进行进一步训练,从而开发出中文版本的图像生成模型。Taiyi-diffusion(Zhang et al., 2022)Alt-diffusion(Ye et al., 2023)Pai-diffusion(Wang et al., 2023)- 局限性:这些方法往往会损失模型的英文语言能力,且训练过程资源密集。
3.2.3. 文本-图像数据集
- 传统数据集:
- 英文:
COCO(Lin et al., 2014) 和Flickr(Young et al., 2014),规模通常小于一百万。 - 中文:
COCO-CN(Li et al., 2019) 和Flickr-CN(Li et al., 2016),规模也相对较小。
- 英文:
- 网络爬取数据集:
Laion(Schuhmann et al., 2021):主要为英文,规模可达数亿。Wukong(Gu et al., 2022):主要为中文,规模也可达数亿。这些大规模数据集是训练扩散T2I模型的核心数据来源。
3.3. 技术演进
T2I 技术从早期的 GAN 和 VAE 发展到当前以扩散模型为主流,实现了图像质量和文本对齐能力的显著提升。在语言支持方面,最初主要集中于英文,随后出现了通过替换文本编码器来支持中文等非英文语言的模型。然而,这种替换策略往往以牺牲原有英文能力为代价。Taiyi-Diffusion-XL 的工作正是在这一演进背景下,试图通过双语连续预训练和 LVLM 辅助来克服这种局限,实现中英文能力的兼顾与增强。
3.4. 差异化分析
Taiyi-Diffusion-XL 与相关工作的主要区别和创新点在于:
- 双语能力兼顾:与
Taiyi-diffusion、Alt-diffusion和Pai-diffusion等通过替换文本编码器导致英文能力损失的模型不同,Taiyi-XL旨在通过双语连续预训练,在扩展中文支持的同时,保留并提升模型原有的英文能力。 - 高效词汇与位置编码扩展:提出了针对
CLIP词汇表和位置编码的高效扩展算法,使得模型能够原生理解中文字符,而非仅仅依赖翻译或简单替换。 LVLM驱动的文本提示增强:利用Lyrics等大型视觉语言模型生成高质量、详细的图像描述来丰富训练数据,这使得模型能够从更准确、更丰富的文本信息中学习,从而提升生成图像的质量和对文本提示的遵循能力。这是一种数据增强的创新方法,区别于简单使用网络爬取的数据。- 基于
SD-XL的强大基础:选择在先进的Stable-Diffusion-XL上进行扩展,而非从头开始训练,这使得模型能够继承SD-XL强大的图像生成基础能力,并在双语环境中进一步优化。
4. 方法论
本文提出的 Taiyi-Diffusion-XL 模型,旨在通过双语连续预训练(bilingual continuous pre-training)扩展 CLIP 和 Stable-Diffusion-XL 的能力,以实现高质量的中英文双语文本到图像生成。整个方法论分为数据集准备、CLIP 训练和 Taiyi-XL 训练三个核心阶段。
4.1. 方法原理
Taiyi-Diffusion-XL 的核心思想是构建一个能够深入理解中英文文本的 CLIP 模型,并将其强大的双语文本编码能力集成到 Stable-Diffusion-XL 的潜在扩散过程中。通过精心准备的、由 LVLM 增强的高质量双语图像-文本数据集进行连续预训练,模型不仅能生成视觉质量优异的图像,还能精确遵循复杂的双语文本提示。具体来说,它通过词汇和位置编码的扩展,使 CLIP 能够高效处理中文;通过 LVLM 生成的详细图像描述来提升训练数据的质量;最终在 SD-XL 架构上进行多分辨率训练,确保了模型在双语环境下的优越性能。
4.2. 核心方法详解
4.2.1. 数据集准备 (DataSet Preparation)
为了克服网络爬取数据中标签不相关或不准确的限制,本文采用了一种创新方法来策展高质量的图像-文本对数据集 (X, Y),其中 代表图像, 代表描述性文本。
- 数据来源:与传统使用离散标签的数据集不同,本研究更侧重于包含材料、风格、颜色和空间布局等综合描述的文本。
LVLM增强描述:为了生成更准确的图像描述,研究人员利用了大型视觉语言模型 (LVLM),具体是Lyrics(Lu et al., 2023b;a)。Lyrics模型继承了双语大型语言模型 (LLM) 的语言能力,并扩展了视觉能力。- 描述生成过程:
- 输入:将图像、网络爬取的原始描述(可能不准确或不完整)以及生成指令作为
Lyrics模型的输入。 - 指令示例:
- 中文指令:“请详细描述图片内容。”
- 英文指令:“Write a detailed description of the given image.”
Lyrics的作用:Lyrics模型通过从图像中提取特征,并从不准确的原始描述中提炼有用信息,来生成新的、准确的描述性文本。
- 输入:将图像、网络爬取的原始描述(可能不准确或不完整)以及生成指令作为
- 数据集输出:最终,将生成的这些高质量文本与原始图像结合,形成新的图像-文本对,用于
Taiyi-XL的训练。这种方法显著提升了数据集的丰富性和描述的准确性。
4.2.2. CLIP 训练 (CLIP Training)
CLIP 模型是 Taiyi-XL 的基础,负责图像和文本表示的有效对齐。
- 起点:研究从一个预训练的仅支持英文的
CLIP模型开始。 - 双语连续预训练:
- 阶段一:首先在包含
Laion(主要英文) 和Wukong(主要中文) 等大规模双语数据集上进行训练。在此阶段,重点是数据清洗和质量提升。训练采用对比损失函数 (contrastive loss function) 和分布式、内存高效的训练方法 (Chen et al., 2023)。- 词汇扩展:在此过程中,将最常用的中文字符集成到
CLIP的tokenizer和embedding layers中。这意味着CLIP的文本编码器能够直接处理和理解中文词元。 - 绝对位置编码扩展:为了适应扩展后的词汇和可能更长的文本序列,模型的绝对位置编码也进行了扩展,确保了对文本序列中词元位置信息的准确捕获。
- 词汇扩展:在此过程中,将最常用的中文字符集成到
- 阶段二:在第一阶段训练的基础上,继续使用上一步准备好的、由
LVLM增强的高质量图像-文本数据集进行训练。此阶段旨在进一步优化模型对多样化和细节丰富的图像-文本对的理解。
- 阶段一:首先在包含
- 模型输出:训练后的
CLIP模型具备强大的双语图像-文本对齐能力,能够更准确地理解和编码中英文文本提示。
4.2.3. Taiyi-XL 训练 (Taiyi-XL Training)
Taiyi-XL 的训练过程是 T2I 生成方法的核心,尤其是在扩散模型背景下,包括模型初始化和训练以及文本到图像生成两个主要阶段。
4.2.3.1. 初始化与训练
该阶段将 Taiyi-XL 模型初始化,并在混合分辨率( 和 )下进行训练。
-
模型组件:
Taiyi-XL模型 () 由以下部分组成:- 噪声预测器 (noise predictor) :通常实现为一个时间条件
UNet。 CLIP文本编码器 (CLIP text encoder) :来自上一步训练好的双语CLIP模型。- 潜在编码器 (latent encoder) :
VAE的编码器部分,用于将图像编码到潜在空间。
- 噪声预测器 (noise predictor) :通常实现为一个时间条件
- 训练数据集 :包含图像-文本对 ,其中 是图像, 是其对应的文本描述。
-
损失函数:用于指导图像去噪过程的损失函数定义如下:
- 符号解释:
- :
Taiyi-XL模型所有可学习参数的集合。 - : 期望值运算符,表示在训练过程中对所有可能的输入和噪声进行平均。
- : 潜在编码器
VAE的编码器部分将原始图像 编码到潜在空间得到的表示。 - : 图像对应的文本描述。
- : 从标准正态分布 中采样的噪声,表示添加到潜在表示中的噪声。
- : 标准正态分布,均值为 0,方差为 1。
- : 时间步长,通常在 之间,表示扩散过程中的当前阶段。
- : 噪声预测器,一个时间条件
UNet,其参数由 决定。它接收一个噪声的潜在表示 、当前时间步 和文本编码器输出的文本特征 作为输入,并预测添加到 中的噪声。 - : 在时间步 时的噪声潜在表示,由 逐步加噪得到。
- : 由
CLIP文本编码器(其参数也由 决定)对文本描述 进行编码后得到的文本特征。 - : 2范数的平方,表示预测噪声和真实噪声之间的均方误差。
- :
- 符号解释:
-
模型参数更新:模型参数 通过梯度下降迭代更新,以最小化损失函数 :
- 符号解释:
- : 在第 个训练迭代时的模型参数。
- : 在第 个训练迭代后的模型参数。
- : 学习率 (learning rate),控制每次参数更新的步长。
- : 损失函数 对当前参数 的梯度。
- 符号解释:
4.2.3.2. 文本到图像生成
在训练完成后,Taiyi-XL 模型用于从文本描述生成图像。
-
文本特征提取:利用训练好的双语文本编码器 从文本描述 中提取文本特征 。
-
潜在扩散过程:这些提取的文本特征被整合到潜在扩散过程中。潜在扩散模型从纯噪声(在最后一个时间步 )开始,迭代地对输入进行去噪。
-
迭代去噪过程:通过以下公式描述从 时间步去噪到
t-1时间步:- 符号解释:
- : 在时间步 时的潜在表示,其中包含噪声。
- : 在时间步
t-1时的去噪后的潜在表示。 - : 噪声预测器,预测添加到 中的噪声。
- : 表示随着时间步 趋近于 0,潜在表示 逐渐收敛到干净的潜在表示 。
- 符号解释:
-
图像解码:最终获得的干净潜在表示 会通过
VAE的解码器转换为像素空间的图像。以下是
Taiyi-Diffusion-XL训练过程的概述图:
该图像是一个示意图,展示了Taiyi-Diffusion-XL模型的数据生成、视觉语言对齐及多分辨率和长宽比学习流程,包含通过大规模视觉语言模型生成文本描述、图像和文本编码器对齐,以及扩散去噪过程。
Figure 2: Taiyi-Diffusion-XL (Taiyi-XL) 训练过程概述,包括数据预处理、图像-文本对比学习以及多分辨率去噪训练过程。
5. 实验设置
5.1. 数据集
本文的实验评估使用了以下数据集:
Flickr30K:一个包含 30,000 张英文图片及其 5 个英文描述的图像-文本数据集。MSCOCO(Microsoft Common Objects in Context):一个包含大量英文图片和详细描述的常用数据集,用于对象检测、分割和图像标注。Flickr30K-CN:Flickr30K的中文版本,包含中文图片描述。MSCOCO-CN:MSCOCO的中文版本,包含中文图片描述。 这些数据集用于CLIP模型的零样本图像-文本检索评估。
在 Diffusion Model 评估部分,虽然没有直接指定用于训练或生成的数据集,但从评估指标来看,英文生成效果在 COCO 数据集上评估,中文生成效果在 COCO-CN 数据集上评估。这表明模型能够处理这些数据集所代表的英文和中文语境。
5.2. 评估指标
本文采用机器评估和人工评估两种方式来全面衡量模型的性能。机器评估主要使用以下指标:
5.2.1. Recall@K (R@K)
- 概念定义:
Recall@K是在检索任务中常用的指标,衡量在检索结果的前 个候选中,正确匹配项出现的频率。高R@K值表示模型能够更准确地检索到相关的图像或文本。 - 数学公式:
- 符号解释:
- : 总查询数量。
- : 单个查询。
- : 指示函数,如果条件为真则返回 1,否则返回 0。
ground truth for q in top K retrieved items: 表示查询 的真实匹配项是否出现在其检索结果的前 个中。
5.2.2. CLIP Similarity (CLIP Sim)
- 概念定义:
CLIP Similarity衡量生成图像与给定文本描述之间的语义对齐程度。它通常通过计算图像的CLIP嵌入向量和文本的CLIP嵌入向量之间的余弦相似度 (cosine similarity) 来实现。值越高表示图像与文本的语义关联性越强。 - 数学公式:
- 符号解释:
- : 生成图像经过
CLIP图像编码器得到的特征向量。 - : 文本描述经过
CLIP文本编码器得到的特征向量。 - : 向量点积。
- : 向量的欧几里得范数(长度)。
- : 生成图像经过
5.2.3. Inception Score (IS)
- 概念定义:
Inception Score(IS) 用于评估生成图像的质量和多样性。它基于预训练的Inception v3分类模型,通过计算生成图像的类别预测分布的Kullback-Leibler(KL) 散度来衡量。高IS值表示生成的图像不仅清晰可辨(分类器能够自信地将其分类为特定类别,即 的熵低),而且具有多样性(生成的图像覆盖了广泛的类别,即p(y)的熵高)。 - 数学公式:
- 符号解释:
- : 图像生成模型。
- : 由模型 生成的图像。
- : 对从模型 生成的图像集合进行期望。
- :
Inception v3模型对生成图像 的类别预测条件概率分布。 p(y): 所有生成图像类别预测概率的边际分布(即 )。- :
Kullback-Leibler散度,衡量概率分布 与 之间的差异。
5.2.4. Fréchet Inception Distance (FID)
- 概念定义:
Fréchet Inception Distance(FID) 衡量生成图像的分布与真实图像的分布之间的距离。它使用预训练的Inception v3模型的某个中间层的特征来表示图像,然后计算生成图像特征分布和真实图像特征分布之间的Fréchet距离。FID值越低表示生成图像的质量越高、多样性越好,且与真实图像的分布越接近。 - 数学公式:
- 符号解释:
- : 真实图像的特征分布。
- : 生成图像的特征分布。
- : 真实图像在
Inception v3特征空间中的均值向量。 - : 生成图像在
Inception v3特征空间中的均值向量。 - : 真实图像在
Inception v3特征空间中的协方差矩阵。 - : 生成图像在
Inception v3特征空间中的协方差矩阵。 - : 2范数的平方,表示向量差的平方。
- : 矩阵的迹(对角线元素之和)。
- : 矩阵乘积的平方根。
5.2.5. 人工评估 (Human Preference Evaluation)
人工评估虽然具有一定主观性,但能从人类感知角度提供补充。本文主要采用案例分析 (case analysis) 方法,定性地考察不同模型在图像生成方面的独特特征和性能细微差别,而非直接的定量优劣比较。
5.3. 对比基线
为了全面评估 Taiyi-XL 的性能,本文将其与多个已建立的模型进行了比较:
SDXL(Podell et al., 2023):Stable Diffusion的一个变体,以其在复杂图像合成方面的卓越表现而闻名。Midjourney:一个闭源的商业T2I模型,以其高质量的艺术风格图像生成能力而广受认可。DALL-E 3(Betker et al., 2023):OpenAI的商业T2I模型,以其创新的T2I能力和强大的提示遵循能力设定了高标准。Taiyi-v0.1(Wang et al., 2022):之前的开源中文T2I模型。Alt-Diffusion(Ye et al., 2023):另一个开源的多语言T2I扩散模型。Pai-Diffusion(Wang et al., 2023):又一个开源的中文T2I模型。SD-v1.5(Rombach et al., 2022):Stable Diffusion的一个早期版本。
5.4. 训练设置
- 基础模型:
Taiyi-XL基于预训练的Stable Diffusion XL(SD-XL) 检查点进行构建。 - 精度:采用
BFLOAT16格式以提高效率并管理GPU内存使用。 - 学习率:设置为 。
- 学习率调度器:训练开始时采用
warmup阶段以实现稳定学习,随后使用cosine decay调度器对模型进行微调和优化。这些策略旨在平衡训练速度与模型性能。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. CLIP 模型评估
CLIP 模型在零样本图像-文本检索任务中的表现,如 Table 1 所示,展示了其在英文和中文数据集上的卓越性能。
以下是原文 Table 1 的结果:
| | Flickr30K | | | | | | MSCOCO | | | | | | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | | Image Text | | | Text Image | | | Image Text | | | Text Image | | | Model | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | CLIP (Radford et al., 2021) | 85.1 | 97.3 | 99.2 | 65.0 | 87.1 | 92.2 | 56.4 | 79.5 | 86.5 | 36.5 | 61.1 | 71.1 | AltCLIP (Chen et al., 2022) | 86.0 | 98.0 | 99.1 | 72.5 | 91.6 | 95.4 | 58.6 | 80.6 | 87.8 | 42.9 | 68.0 | 77.4 | Our-CLIP | 88.4 | 98.8 | 99.9 | 75.7 | 93.8 | 96.9 | 61.2 | 84.8 | 90.3 | 49.2 | 70.3 | 79.6 | | Flickr30K-CN | | | | | | MSCOCO-CN | | | | | | | Image Text | | | Text Image | | | Image Text | | | Text Image | | | Model | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | CLIP (Radford et al., 2021) | 2.3 | 8.1 | 12.6 | 0 | 2.4 | 4.0 | 0.6 | 4.1 | 7.1 | 1.8 | 6.7 | 11.9 | AltCLIP (Chen et al., 2022) | 69.8 | 89.9 | 94.7 | 84.8 | 97.4 | 98.8 | 63.9 | 87.2 | 93.9 | 62.8 | 88.8 | 95.5 | Our-CLIP | 73.2 | 90.3 | 96.5 | 88.1 | 98.2 | 99.1 | 66.0 | 91.1 | 96.6 | 69.7 | 91.3 | 96.8
Table 1: Flickr30K、MSCOCO、Flickr30K-CN 和 MSCOCO-CN 数据集上的零样本图像-文本检索结果。最佳结果以粗体显示。
- 英文数据集表现 (
Flickr30K,MSCOCO):- 原始
CLIP模型(Radford et al., 2021)在这些英文数据集上表现良好,但在跨语言迁移方面面临挑战。 AltCLIP(Chen et al., 2022)相比原始CLIP有所改进。Our-CLIP(本文提出的CLIP模型)在大多数评估指标上都实现了最高的召回率 (R@K),尤其在 检索任务中,Flickr30K的R@1达到 75.7%,MSCOCO的R@1达到 49.2%,均显著优于基线。这表明本文的CLIP改进模型在英文图像-文本对齐方面也表现卓越。
- 原始
- 中文数据集表现 (
Flickr30K-CN,MSCOCO-CN):-
原始
CLIP在中文数据集上的表现非常差(例如Flickr30K-CN的 仅为 0%),这突显了其缺乏中文理解能力。 -
AltCLIP在中文数据集上取得了显著进步,验证了其跨语言扩展的有效性。 -
Our-CLIP在中文数据集上的性能再次领先,尤其在 检索任务中,Flickr30K-CN的R@1达到 88.1%,MSCOCO-CN的R@1达到 69.7%,均超过了AltCLIP。这有力地证明了Our-CLIP在双语(尤其是中文)上下文中的鲁棒性和准确性。这些结果表明,通过高效的词汇扩展、位置编码扩展和双语连续预训练,本文的
CLIP模型在双语图像-文本检索方面达到了行业领先水平,为后续的Taiyi-XL图像生成模型提供了强大的文本理解基础。
-
6.1.2. 扩散模型评估
Table 2 展示了不同模型在双语图像生成任务中的性能比较,评估指标包括 CLIP Sim、FID 和 IS。
以下是原文 Table 2 的结果:
| Model | CLIP Sim() | FID() | IS() |
|---|---|---|---|
| English Dataset (COCO) | |||
| Alt-Diffusion(Ye et al., 2023) | 0.220 | 27.600 | 31.577 |
| SD-v1.5(Rombach et al., 2022) | 0.225 | 25.342 | 32.876 |
| SD-XL(Podell et al., 2023) | 0.231 | 23.887 | 33.793 |
| Taiyi-XL | 0.254 | 22.543 | 35.465 |
| Chinese Dataset (COCO-CN) | |||
| Taiyi-v0.1(Wang et al., 2022) | 0.197 | 69.226 | 21.060 |
| Alt-Diffusion(Ye et al., 2023) | 0.220 | 68.488 | 22.126 |
| Pai-Diffusion(Wang et al., 2023) | 0.196 | 72.572 | 19.145 |
| Taiyi-XL | 0.225 | 67.675 | 22.965 |
Table 2: 基于 CLIP Sim、IS 和 FID 在英文 (COCO) 和中文 (COCO-CN) 数据集上不同模型的比较。最佳结果以粗体显示。
- 英文数据集 (
COCO) 表现:Taiyi-XL在所有英文指标上均表现优异:CLIP Sim达到 0.254(最高,表示图像与文本对齐最佳),FID为 22.543(最低,表示图像质量和真实性最佳),IS达到 35.465(最高,表示图像质量和多样性最佳)。Taiyi-XL明显超越了Alt-Diffusion、SD-v1.5和SD-XL等基线模型,表明其在处理英文提示时也能生成高质量且语义对齐的图像。这证实了模型在增强中文能力的同时,没有牺牲甚至提升了英文性能。
- 中文数据集 (
COCO-CN) 表现:-
Taiyi-XL在中文指标上同样领先:CLIP Sim达到 0.225,FID为 67.675,IS达到 22.965。所有指标均是中文数据集中的最佳结果。 -
相较于
Taiyi-v0.1、Alt-Diffusion和Pai-Diffusion等中文模型,Taiyi-XL展现出显著优势。这突出表明Taiyi-XL具备强大的双语能力,能高效生成与中文文本描述高度一致的高质量图像。综合来看,这些机器评估结果强有力地验证了
Taiyi-XL模型在双语图像生成任务中的卓越性能,尤其是在保留和提升英文能力的同时,显著增强了中文生成能力。这使得Taiyi-XL在多模态AI应用领域成为一个领先的双语解决方案。
-
6.1.3. 人工偏好评估 (Human Preference Evaluation)
人工偏好评估通过案例分析的方式,对模型生成的图像进行定性比较。
以下是原文 Figure 3 的结果:
该图像是一个图表,展示了Taiyi-v0.1、Alt-Diffusion、Pai-Diffusion、DALL·E 3与Taiyi-XL五种模型,针对三条中文提示生成图像的对比效果,体现了各模型在细节和画质上的差异。
Figure 3: 不同模型在中文文本到图像生成性能上的比较。
以下是原文 Figure 4 的结果:
该图像是一组图像生成模型对比示意图,展示了六个模型在三个不同文本描述下生成图像的效果,包括Alt-Diffusion、SD-v1.5、SDXL、DALL-E 3、Midjourney-V6和Taiyi-XL。
Figure 4: 不同模型在英文文本到图像生成性能上的比较。
XL版本模型的优势:从 Figure 3 和 Figure 4 可以看出,SD-XL和Taiyi-XL等XL版本模型相较于SD-v1.5和Alt-Diffusion等 1.5 版本模型有显著改进,这归因于模型参数规模、底层算法和训练方法的进步。XL模型通常能生成更高质量、更精细的图像。DALL-E 3的提示遵循能力:DALL-E 3在提示遵循 (prompt-following) 能力方面表现出色,能够精准地按照文本描述生成图像,但有时生成的颜色会过于鲜艳。这为其设定了很高的质量基准。Taiyi-XL的风格与双语支持:Taiyi-XL展现出摄影写实 (photographic style) 的风格,其视觉效果与Midjourney相当。一个显著的优势在于Taiyi-XL对中英文双语T2I生成的增强支持,这在多语言环境中非常重要。- 与商业模型的差距及数据挑战:论文指出,尽管
Taiyi-XL显著超越了当前的开源双语模型,但与DALL-E 3和Midjourney等商业模型相比仍存在差距。这种差距主要归因于训练数据在数量、质量和多样性上的差异。Taiyi-XL仅使用符合版权(copyright-compliant)的图像-文本数据进行训练,这凸显了T2I和AIGC(AI-generated content) 模型在版权合规数据方面的持续挑战。
6.1.4. Latent Consistency Models (LCM) 的影响
以下是原文 Figure 5 的结果:
该图像是一个展示中文和英文文本描述在不同步数下生成图像效果的对比图。图中分别以8步、4步和1步采样步骤生成包含“宇航员骑白马”、“年轻女子穿白裙站沙滩”和“年轻男性爬山”三组场景的图像,展示了生成质量随采样步数减少而降低的趋势。
Figure 5: Taiyi-XL 使用 Latent Consistency Model 生成的示例。
Figure 5 展示了使用 Latent Consistency Models (LCM) 加速图像生成过程的效果。
- 推理步数与图像质量的权衡:实验观察到,减少推理步数与图像质量下降存在关联。
- 单步生成:当生成仅限于一步时,结果图像主要呈现基本轮廓,缺乏精细细节,质量显著下降。
- 八步生成:将生成过程延长到 8 步时,生成的图像质量显著提高,能够保留令人满意的细节和整体图像保真度。
- 结论:这表明
LCM虽能有效加速生成过程,但在推理步数和所需图像质量之间需要取得平衡。至少 8 步的采样对于维持可接受的图像细节和质量至关关重要。
6.2. 消融实验/参数分析
本文没有进行严格的消融实验来验证模型各个组件的独立贡献,但通过 LCM 的评估,分析了推理步数这一关键参数对图像生成质量的影响,这可以视为一种参数分析。结果表明,推理步数并非越少越好,存在一个保证质量的最低步数(例如 8 步)。
7. 总结与思考
7.1. 结论总结
本文提出了 Taiyi-Diffusion-XL,一个在中文和英文双语文本到图像生成领域取得显著进展的模型。通过双语连续预训练,它成功地扩展了 CLIP 和 Stable-Diffusion-XL 的能力,实现了词汇和位置编码的有效扩展,使得模型能够原生支持中文,同时保留并提升了英文能力。此外,利用大型视觉语言模型 (LVLM) 丰富文本提示,显著提高了生成图像的视觉质量和对文本描述的遵循精度。实验结果表明,所开发的 CLIP 模型在双语图像-文本检索中表现卓越,而 Taiyi-Diffusion-XL 的双语图像生成能力也超越了现有开源模型。该研究不仅推动了图像生成技术,特别是对中文应用的支持,还通过开源模型和演示,促进了多模态领域的进一步研究和协作。
7.2. 局限性与未来工作
论文指出,尽管 Taiyi-XL 在开源双语模型中处于领先地位,但与 DALL-E 3 和 Midjourney 等商业模型之间仍存在差距。这种差距主要归因于训练数据在数量、质量和多样性上的差异。作者强调,Taiyi-XL 仅使用符合版权(copyright-compliant)的图像-文本数据进行训练,这揭示了在文本到图像生成 (T2I) 和 AI 生成内容 (AIGC) 模型开发中,版权问题所带来的数据获取挑战。
未来的工作可能包括:
- 数据规模与质量的提升:在遵守版权的前提下,探索更大规模、更高质量、更具多样性的双语图像-文本数据,以进一步缩小与商业模型的差距。
- 更深层次的文化理解:进一步提升模型对特定文化背景和语境的理解能力,以生成更具文化相关性和真实感的图像。
- 模型效率与可控性:在
LCM等加速技术的基础上,探索更多在保持图像质量的同时提高生成效率的方法,并增强用户对生成过程的精细控制。 - 多模态融合优化:深入研究
LVLM在T2I模型中的更深层次集成方式,例如不仅用于提示增强,还可用于模型训练或微调阶段的更复杂交互。 - 开放社区协作:通过模型的开源,鼓励全球研究者共同参与,贡献数据、代码或新的训练策略,共同推动双语
T2I技术的发展。
7.3. 个人启发与批判
7.3.1. 个人启发
这篇论文的创新点在于其务实地解决了双语 T2I 模型中的核心痛点:如何在支持非英文(尤其是中文)的同时,不牺牲甚至增强模型的英文能力。这对于全球化的 AI 应用至关重要。利用 LVLM 辅助数据策展,生成高质量的合成描述,这一策略在数据获取受限或数据质量不佳时,提供了一个非常有价值的解决方案,它从数据源头提升了模型学习的效率和效果。此外,在 SD-XL 这种强大的基础模型上进行连续预训练,是一种高效利用现有先进技术、避免从零开始的明智选择。开放源代码的举措也值得称赞,它将极大地推动相关领域的研究和应用。
7.3.2. 批判与潜在改进
- 数据版权问题:论文明确指出了版权数据带来的局限性。未来工作可以深入探讨如何利用合成数据、差异隐私 (
differential privacy) 或联邦学习 (federated learning) 等技术,在保护版权和隐私的前提下,获取或生成更多高质量的训练数据。这不仅是技术问题,更是伦理和法律问题。 LVLM辅助数据策展的偏见:虽然LVLM能够生成高质量的描述,但LVLM本身可能存在固有的偏见(bias),这些偏见可能会被引入到生成的数据集中,进而影响T2I模型的输出。论文中并未详细探讨Lyrics模型可能引入的偏见及其缓解策略。未来的研究应关注对LVLM生成描述的偏见分析和校正。- 消融实验的缺乏:论文的实验结果虽然令人印象深刻,但缺乏对各项创新(如词汇扩展、位置编码扩展、
LVLM增强提示)的独立消融实验。这将使得读者难以量化每一部分对最终性能的贡献。例如,仅进行词汇和位置编码扩展,不使用LVLM增强提示,模型性能会如何?这将有助于更好地理解各组件的重要性。 - 多分辨率训练的细节:论文提到在混合分辨率下训练( 和 ),但未深入探讨其具体策略,例如不同分辨率下的数据混合比例、训练阶段安排等。这些细节可能对模型性能和训练效率有重要影响。
- 文化特定内容的深入评估:尽管模型支持中文,但对于一些高度文化特定(如中国传统艺术、特定历史事件或人物)的文本提示,模型能否生成高质量且忠实于文化原貌的图像,还需要更深入的定性分析和评估。
相似论文推荐
基于向量语义检索推荐的相关论文。