A Survey on Personalized Content Synthesis with Diffusion Models
TL;DR 精炼摘要
本文综述了扩散模型在个性化内容合成(PCS)中的应用,分析了超过150种方法,并将其框架分为测试时微调和预训练适应两类。讨论了面临的挑战,如过拟合及主题保真度与文本对齐的权衡,为未来研究提供发展方向。
摘要
Recent advancements in diffusion models have significantly impacted content creation, leading to the emergence of Personalized Content Synthesis (PCS). By utilizing a small set of user-provided examples featuring the same subject, PCS aims to tailor this subject to specific user-defined prompts. Over the past two years, more than 150 methods have been introduced in this area. However, existing surveys primarily focus on text-to-image generation, with few providing up-to-date summaries on PCS. This paper provides a comprehensive survey of PCS, introducing the general frameworks of PCS research, which can be categorized into test-time fine-tuning (TTF) and pre-trained adaptation (PTA) approaches. We analyze the strengths, limitations, and key techniques of these methodologies. Additionally, we explore specialized tasks within the field, such as object, face, and style personalization, while highlighting their unique challenges and innovations. Despite the promising progress, we also discuss ongoing challenges, including overfitting and the trade-off between subject fidelity and text alignment. Through this detailed overview and analysis, we propose future directions to further the development of PCS.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
A Survey on Personalized Content Synthesis with Diffusion Models (扩散模型个性化内容合成综述)
1.2. 作者
Xulu Zhang, Xiaoyong Wei, Wentao Hu, Jinlin Wu, Jiaxin Wu, Wengyu Zhang, Zhaoxiang Zhang, Zhen Li, Qing Li。 作者团队来自香港理工大学计算机系、中国科学院香港科学与创新研究所人工智能与机器人中心、中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院。其中,Xiaoyong Wei (魏晓勇) 和 Zhen Li (李震) 是通讯作者。
1.3. 发表期刊/会议
该论文作为预印本发表在 arXiv 上。arXiv 是一个广受欢迎的预印本服务器,允许研究人员在正式同行评审和发表前分享他们的研究成果,在人工智能和计算机视觉领域具有很高的影响力。
1.4. 发表年份
2024年5月9日 (UTC)。
1.5. 摘要
扩散模型 (Diffusion Models) 的最新进展极大地推动了内容创作,催生了个性化内容合成 (Personalized Content Synthesis, PCS) 领域。PCS 旨在利用少量用户提供的、包含相同主题对象 (Subject of Interest, SoI) 的示例图像,根据用户定义的文本提示 (text prompts) 对该主题进行定制化生成。在过去两年中,该领域已涌现出超过150种方法。然而,现有综述主要关注文本到图像生成,鲜有对 PCS 提供最新总结的。本文全面综述了 PCS,介绍了其通用框架,这些框架可分为测试时微调 (Test-time Fine-tuning, TTF) 和 预训练适应 (Pre-trained Adaptation, PTA) 方法。论文分析了这些方法的优势、局限性和关键技术。此外,还探讨了该领域的专业任务,如对象、人脸和风格个性化,并强调了它们的独特挑战和创新。尽管取得了可喜的进展,本文也讨论了当前面临的挑战,包括过拟合 (overfitting) 以及主题保真度 (subject fidelity) 与文本对齐 (text alignment) 之间的权衡。通过这份详细的概述和分析,论文提出了未来发展 PCS 的方向。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2405.05538 PDF 链接: https://arxiv.org/pdf/2405.05538v5.pdf 发布状态: 预印本 (Preprint)。
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题与挑战
近年来,生成模型 (Generative Models),特别是大型语言模型如 ChatGPT 和文本到图像扩散模型,在内容创作方面展现出惊人的能力。然而,这些模型在满足特定、个性化需求时常常力不从心,例如回答领域特定查询或准确描绘用户的肖像。这种局限性凸显了个性化内容合成 (Personalized Content Synthesis, PCS) 的重要性,它使用户能够根据其独特的任务和需求定制模型。
在计算机视觉领域,PCS 的目标是从少量用户上传的样本中学习用户感兴趣的主题对象 (Subject of Interest, SoI),并根据用户定义的上下文(文本提示)生成新的图像。例如,给定一张特定猫咪的照片,PCS 能够生成这只猫咪“戴着粉色太阳镜”或“在雪中”的图像,同时保持其独特的身份。
当前研究面临的挑战主要包括:
- 现有综述不足: 尽管 PCS 领域在过去两年内涌现了超过150种方法,但现有综述主要集中在更广泛的文本到图像生成领域,缺乏对 PCS 这一特定且快速发展子领域的全面、最新总结。
- 过拟合问题: 由于可用的参考图像数量有限,模型容易出现过拟合,导致生成的图像过于僵硬地复制参考图像,或包含与当前上下文无关的背景元素。这会牺牲生成内容的可编辑性 (editability)。
- 主题保真度与文本对齐的权衡: 在生成图像时,模型需要在精确重现
SoI的细节(主题保真度)与灵活遵循文本提示(文本对齐)之间找到平衡。过度强调主题保真度可能导致模型对文本提示的响应能力下降,而过度强调文本对齐则可能损害SoI的识别度。 - 缺乏标准化评估: 缺乏统一的评估指标和标准化数据集,使得不同 PCS 方法的性能难以公平、准确地比较。
2.1.2. 论文的切入点与创新思路
本综述旨在填补现有研究空白,为 PCS 领域提供一个全面、结构化且最新的概述。论文的切入点和创新思路在于:
- 系统化分类框架: 首次将 PCS 方法划分为两大通用框架:
测试时微调 (TTF)和预训练适应 (PTA),并深入分析它们的机制、优缺点和关键技术。 - 技术与任务的交叉分析: 不仅从技术角度(如注意力机制、掩码引导、数据增强、正则化)对方法进行分类,还根据个性化任务的类型(如对象、人脸、风格、多主体组合、高级语义)进行总结,提供多维度的视角。
- 扩展应用领域: 探讨 PCS 在图像生成之外的扩展应用,包括视频和3D生成,以及新兴方向如攻击与防御。
- 建立新基准: 针对当前缺乏标准化评估的问题,论文提出了一个新的测试数据集
Persona,并对22种代表性方法进行了系统评估,以促进未来研究的统一比较。 - 深入探讨挑战与未来方向: 对过拟合、保真度-对齐权衡等核心挑战进行深入分析,并提出多模态自回归框架、交互式个性化工作流等前瞻性研究方向。
2.2. 核心贡献/主要发现
本综述的主要贡献总结如下:
- 全面综述了 PCS 领域: 提供了对扩散模型个性化内容合成的全面概述,涵盖了超过150种方法。
- 提出了两大通用框架: 系统地将 PCS 研究分为
测试时微调 (TTF)和预训练适应 (PTA)两种范式,并详细阐述了它们各自的原理、技术、优势和局限性。 - 分析了关键技术与方法: 总结了 PCS 中常用的四大类技术:
注意力机制操作 (attention-based operations)、掩码引导生成 (mask-guided generation)、数据增强 (data augmentation)和正则化 (regularization)。 - 分类了图像个性化任务: 探讨了对象、人脸、风格、多主体组合和高级语义等多种图像个性化任务,并分析了各任务的特有挑战和创新。
- 扩展到多模态与多维度应用: 讨论了 PCS 在视频、3D 内容生成以及其他新兴领域(如 SVG、全景图、攻击与防御)的扩展应用。
- 建立了新的评估基准: 构建了一个名为
Persona的综合评估数据集,并基于该数据集对22种代表性 PCS 方法进行了基准测试,揭示了当前方法在主题保真度与文本对齐之间普遍存在的权衡问题。 - 提出了未来研究方向: 明确指出了 PCS 领域面临的挑战(如过拟合、保真度-对齐权衡、标准化评估),并展望了未来可能的研究方向(如多模态自回归框架、交互式个性化工作流)。
3. 预备知识与相关工作
本节将介绍理解个性化内容合成所必需的扩散模型基础,并概述其条件生成机制,最后将本文置于更广泛的技术演进脉络中。
3.1. 基础概念
3.1.1. 扩散模型 (Diffusion Models)
扩散模型是一类生成模型 (Generative Models),旨在学习复杂数据分布,并从噪声中生成高质量的新样本。它们通过模拟数据从复杂分布逐渐转化为简单噪声分布的前向扩散过程 (Forward Diffusion Process),以及学习逆转此过程的反向去噪过程 (Reverse Denoising Process) 来工作。
3.1.1.1. 去噪扩散概率模型 (Denoising Diffusion Probabilistic Models, DDPMs)
DDPMs [10] 是扩散模型的早期且具有影响力的框架。其核心思想是,前向过程在 个时间步内逐步向原始数据 添加高斯噪声,直到数据完全变为随机噪声。
前向扩散过程通过以下公式定义:
-
: 在时间步 时的带噪声数据。
-
: 原始数据(无噪声)。
-
: 标准高斯噪声向量。
-
: 控制在时间步 添加噪声量的超参数, 是 的累积乘积。
反向去噪过程的目标是学习如何从 恢复 ,从而最终从纯噪声中生成数据。这通过一个参数化的神经网络 来实现,该网络预测在当前时间步 添加的噪声 。 生成能力在于学习通过贝叶斯重建来反转这种退化:
-
: 参数化的反向转换概率。
-
: 神经网络,预测在时间步 时添加到 中的噪声。
-
: 模型训练前的超参数。
神经网络 通过最小化预测噪声与实际添加噪声之间的 距离来学习:
-
: 训练目标函数。
-
: 期望值。
-
: 范数的平方。
训练完成后,模型可以从任意噪声输入开始,通过迭代去噪生成高质量的数据样本。
3.1.1.2. 随机微分方程 (Stochastic Differential Equations, SDEs)
为了克服 DDPMs 离散公式的局限性,扩散框架被推广到连续时间域,使用 SDEs [8] 提供统一的视角:
-
: 数据状态。
-
: 确定性漂移 (drift) 分量,描述数据随时间变化的平均趋势。
-
g(t): 调制随机扩散的函数,控制噪声的强度。 -
: 维纳过程 (Wiener process) 或布朗运动 (Brownian motion),引入随机性。
这种连续视角涵盖了
DDPMs作为特例,并通过对 和 的策略性选择,实现了自适应噪声调度策略,如方差保持 (Variance-Preserving, VP) 和方差爆炸 (Variance-Exploding, VE) 调度 [9]。 反向过程也遵循SDE[11]: -
: 反向时间维纳增量。
-
: 分数函数 (score function),表示数据分布的梯度。
通过从高斯噪声 向后积分到 ,并在学习到的分数估计值条件下,可以实现生成。
3.1.1.3. 常微分方程 (Ordinary Differential Equations, ODEs)
SDEs 虽然全面,但其固有的随机性导致采样效率低,通常需要 1000 步以上才能生成高质量图像。为了解决这些限制,研究人员推导出了确定性采样轨迹,即概率流常微分方程 (Probability Flow ODEs) [8, 9]:
ODE 的确定性源于其结合了原始漂移项 和一个涉及分数函数 的校正项。这种调整在消除路径随机性的同时,保留了边缘数据分布 。结果是采样速度比 SDEs 快 5-10 倍,通过自适应 ODE 求解器如 DPM-Solver [12] 和 DPM-Solver++ [13] 实现。
3.1.2. 条件生成机制 (Conditional Generation Mechanisms)
条件生成 (Conditional Synthesis) 是扩散模型连接理论框架与实际应用的关键能力,它允许输出与多模态指导信号(如文本提示、主题嵌入、解剖学掩码)精确对齐。 条件生成通过扩展分数匹配 (score matching) 进行形式化:
-
: 条件信号,例如文本提示或图像嵌入。
-
: 预测噪声的神经网络,现在也以条件 为输入。
条件信号 可以通过多种协同机制集成,如跨模态注意力 (cross-modal attention) [15] 和空间调制 (spatial modulation) [16]。这种条件范式直接支持了
PCS的应用,使得Stable Diffusion (SD)[15] 和DALLE[17] 等领先的文本到图像系统能够通过文本指令控制定制内容。
3.2. 前人工作与技术演进
3.2.1. 文本到图像生成模型 (Text-to-Image Generation Models)
在 PCS 兴起之前,文本到图像生成 (Text-to-Image Generation, T2I) 是主流研究方向,旨在根据文本描述生成图像。早期的 T2I 模型如 GAN (Generative Adversarial Networks) [108] 存在生成质量和多样性的限制。随着扩散模型的发展,DALLE [17] 和 Stable Diffusion (SD) [15] 等模型取得了突破性进展,能够生成高质量、多样化的图像。这些模型通常包含一个文本编码器(如 CLIP [42])将文本提示转换为嵌入向量,以及一个扩散 U-Net [28] 来逐步去噪生成图像。
3.2.2. 个性化内容合成的萌芽:Textual Inversion 和 DreamBooth
PCS 的快速发展主要归功于两项开创性工作:Textual Inversion [7] 和 DreamBooth [4],它们在2022年8月发布,极大地推动了该领域的研究。
Textual Inversion[7]: 这是PCS领域的早期尝试,提出通过优化一个可学习的词元嵌入 (token embedding) 来表示SoI。这个新的词元(或称为“独特修饰符”)被添加到文本编码器的词汇表中,其嵌入向量在少量参考图像上进行微调,以捕捉SoI的视觉特征。它的优点是参数效率高(只需要存储几千字节的嵌入),但可能牺牲细节保真度和训练时间较长。DreamBooth[4]: 这项工作进一步提升了PCS的能力,通过使用一个不常见的词元(rare token)作为SoI的唯一标识符,并在少量参考图像上微调整个扩散模型 (diffusion model) 的参数(主要是U-Net)。为了缓解过拟合,DreamBooth引入了一个正则化数据集 (regularization dataset),包含与SoI相同类别的图像。DreamBooth实现了卓越的主题保真度,但代价是每次个性化请求都需要进行模型微调,导致存储成本高和推理时间长。
3.3. 差异化分析
本文的贡献在于对 Textual Inversion 和 DreamBooth 之后迅速发展的 PCS 领域进行了全面的归纳和总结。与现有主要关注 T2I 模型的综述不同,本文专门聚焦于 PCS,并提供了以下差异化分析:
-
聚焦特定任务: 本文深入探讨了
PCS的具体挑战,即从少量样本中学习SoI并将其融入任意文本提示中,这比通用T2I更具挑战性。 -
框架分类清晰: 明确提出了
TTF和PTA两种通用框架,这是对PCS方法的首次系统化分类,有助于理解不同方法的设计理念。Textual Inversion和DreamBooth可被视为TTF框架的代表。 -
技术与应用全面性: 不仅涵盖了图像领域,还扩展到了视频和3D,并总结了注意力机制、掩码引导、数据增强、正则化等多种技术,以及对象、人脸、风格、多主体和高级语义等具体任务。
-
评估体系构建: 针对
PCS领域缺乏统一评估标准的现状,本文构建了新的Persona数据集并进行基准测试,推动了评估的标准化。总体而言,本文在
T2I和PCS领域技术快速演进的背景下,为PCS领域提供了一个急需的、结构化的、最新的、对初学者友好的全面指南。
4. 方法论
本节将详细阐述个性化内容合成 (Personalized Content Synthesis, PCS) 的主要框架和关键技术。PCS 旨在从少量参考图像中学习特定主题对象 (Subject of Interest, SoI) 的特征,并根据文本提示生成该 SoI 的新图像。
4.1. 通用框架
本综述将 PCS 框架 broadly 分为两大范式:测试时微调 (Test-time Fine-tuning, TTF) 和 预训练适应 (Pre-trained Adaptation, PTA)。它们在模型适应机制上存在根本差异:TTF 方法在推理阶段为每个新主题动态调整模型参数,优先考虑视觉保真度,但代价是计算开销大;而 PTA 框架则采用在大型数据集上训练的参考感知架构,无需在推理期间更新参数即可实现单次通过个性化。
4.1.1. 测试时微调 (TTF) 框架
TTF 方法是 PCS 的基础方法,通过在推理过程中进行实例特定的优化来适应新主题。如下图(原文 Figure 4)所示,该框架围绕两个核心原则运作:1) 测试时适应 (Test-time Adaptation) 微调模型参数以学习 SoI 的关键视觉元素;2) 语义感知修饰符系统 (Semantic-aware Modifier System) 在词元 (token) 层面表示 SoI,以弥合视觉适应与文本控制之间的差距。
该图像是示意图,展示了测试时微调(TTF)和生成过程的框架。在推理阶段,模型通过重建每个主题对象(SoI)组的参考图像来微调其参数,使用独特的修饰符 来生成个性化图像。
图 (原文 Figure 4) 展示了 TTF 框架的测试时微调过程和生成阶段。在推理阶段,模型通过重建每个 SoI 组的参考图像来微调其参数。独特的修饰符 用于表示 SoI,并用于制定新的推理提示来生成个性化图像。
4.1.1.1. 测试时适应 (Test-time Adaptation)
对于每个 SoI 的参考图像集 ,优化过程调整模型参数的子集 ,以重建在参考提示下条件化的 SoI。微调目标由一个重建损失 (reconstruction loss) 定义:
-
: 优化目标函数,表示重建损失。
-
: 期望值。
-
: 原始数据,属于
SoI的参考图像集。 -
: 扩散时间步。
-
: 实际添加的高斯噪声。
-
: 神经网络(扩散模型)预测的噪声,以带噪数据 、时间步 和条件 为输入。
-
: 范数的平方,衡量预测噪声与实际噪声之间的差异。
-
: 条件信号,通常是参考图像的描述性字幕 (caption)。
与大型预训练(如
Equation 7中描述的)相比,主要区别在于训练数据和可学习参数。训练样本通常仅限于SoI的参考图像,有时还会补充一个正则化数据集 [4] 以减轻过拟合。对于可学习参数 的选择,常用的选项包括词元嵌入 (token embeddings) [7, 18]、整个扩散模型 [4, 19]、特定参数子集 [20, 21, 22],或引入新参数如适配器 (adapters) [23, 24] 和LoRA(Low-Rank Adaptation) [25, 26, 27]。
一旦模型使用优化后的参数 完成微调,即可进行测试时生成 (Test-time Generation)。通过构建包含 SoI 唯一标识符(在 Section 3.1.2 介绍)的新输入提示,适应后的模型可以合成多样化的图像,同时保留主题的独特特征。
4.1.1.2. 独特修饰符 (Unique Modifier)
独特修饰符是一个文本词元或短语,它唯一地表示一个 SoI,从而能够以文本为基础表示 SoI,实现灵活的提示组合。如上图(原文 Figure 4)所示,这个修饰符作为 SoI 的文本描述,可以在推理过程中与其他描述(例如“ 在沙滩上”)结合使用。通常,独特修饰符的构建可分为三类:
Plain text(普通文本) [4, 20, 21, 24, 19]:使用显式文本描述来表示SoI。例如,词语“cat”可以直接代表用户在参考图像中的猫。这种方法通常需要微调扩散模型组件(如U-Net[28] 或Transformer块 [29])的参数,以使模型将SoI的视觉特征与普通文本词元关联起来。普通文本提供了用户友好的提示构建,并注入主题先验信息以简化微调难度。然而,这种技术可能会过度专业化常用词汇,限制了其更广泛的应用,因为模型会学习将通用词汇与特定的SoI特征关联起来。Rare token(稀有词元) [4]:使用不常使用的词元,以最小化它们对常用词汇的影响。与普通文本方法类似,稀有词元的嵌入在微调过程中保持不变。然而,这些稀有词元通常无法提供有用的主题先验信息,并且仍可能对不相关的词汇产生微弱干扰,潜在导致原始含义与预期的SoI引用之间产生歧义。Learnable token embedding(可学习词元嵌入) [7, 18, 30, 31, 32, 33]:在分词器 (tokenizer) 的词典中添加一个新的词元及其对应的嵌入向量。一个直观的例子是,这种方法创建了一个词典中不存在的新词。这个插入的词元在微调过程中具有可调整的权重,而预定义词典中其他词元的嵌入则保持不变。这种方法只需要几千字节的额外参数,并保持了基础模型对非定制生成的能力。与稀有词元方法类似,它在实践中对用户而言不太友好,因为用户必须学习并记住一个不熟悉的词元来引用他们感兴趣的主题。
4.1.1.3. 训练参数选择 (Training Parameter Selection)
可训练参数的选择是 PCS 中一个关键的设计考量,直接影响主题保真度、训练效率和模型存储需求等多个关键性能指标。当前可调参数大致可分为以下四种类型:
Token embedding(词元嵌入):如Section 3.1.2介绍,词元嵌入优化 [7] 引入可学习词元作为独特修饰符,通过噪声到图像重建来表示SoI。虽然实现了显著的参数效率,但由于将复杂特征压缩到低维嵌入中,这种方法在细节保留和训练时间(通常超过20分钟)方面面临挑战。后续工作 [18, 30, 31, 32, 33] 旨在通过不同策略解决这些限制。Existing model parameters(现有模型参数):这种范式直接优化预训练模型组件,如文本编码器、U-Net块和Transformer层 [4, 19, 20, 21, 22]。受益于这些模块先进的表示能力,微调阶段可以实现更快的收敛(5-10分钟)和优于仅词元方法的视觉保真度,尽管代价是显著的存储开销。此外,这些模块固有地支持注意力机制以促进特征增强操作。Parameter-efficient extensions(参数高效扩展):最近的先进方法已将参数高效技术引入PCS,例如LoRA[25, 26, 27, 34, 35, 36] 和适配器模块 (adapter modules) [23, 24],它们将小型、可训练的组件注入到基础模型中。这些方法在显著降低存储需求的同时,实现了与全参数微调相当的性能。Combined strategy(组合策略):由于上述策略并不冲突,一些方法为每种组件类型分配不同的学习率和训练阶段,以实现保真度和效率之间的最佳平衡。例如,微调后的词元嵌入可以作为后续模型权重微调的有效初始化 [37]。此外,这两部分可以以不同的学习率同时优化 [38, 39]。
4.1.1.4. 提示工程 (Prompt Engineering)
训练样本的训练提示 (training prompts) 通常从在修饰符词元前添加前缀词开始。一个最简单的例子是“Photo of ”。然而,DreamBooth [4] 指出,这种简单的描述会导致训练时间长且性能不佳。为了解决这个问题,他们将独特修饰符与一个类别名词结合起来,以描述参考图像中的 SoI(例如,“Photo of cat”)。此外,每个训练参考图像的训练字幕可以更精确,以便更好地解耦 SoI 和不相关概念 [40],例如“Photo of cat on the chair”。这遵循了训练集中高质量字幕有助于进一步提高准确文本控制的趋势 [41]。
4.1.2. 预训练适应 (PTA) 框架
PTA 框架已成为 PCS 的突破性方法,旨在消除每请求微调的计算负担,同时保持高质量、主题特定的生成能力。为了实现这一目标,这种方法将大规模预训练与参考感知架构结合起来,实现单次通过个性化,如下图(原文 Figure 5)所示。基于这种架构,考虑了三个关键设计因素以确保实际可行性:1) 语义关键特征的保存 (Preservation of semantic-critical features) 以保证与参考输入的视觉一致性;2) 有效融合 (Effective fusion) 结合参考特征与文本引导以实现期望的生成;3) 训练数据集规模的优化 (Optimization of training dataset scale) 以实现鲁棒泛化而不发生过拟合。
该图像是个示意图,展示了个性化图像合成中的PTA方法。该框架通过预训练阶段利用大规模数据集进行训练,结合图像和文本编码器处理混合输入。在推理阶段,用户上传的图像与上下文合并,生成个性化图像。
图 (原文 Figure 5) 展示了 PTA 方法用于个性化图像合成的插图。该框架利用大规模数据集训练一个统一模型,可以处理多样化的个性化请求。扩散模型被调整以处理来自视觉和文本特征的混合输入。此外,图像和文本特征的拼接可以通过多种方式实现,例如基于占位符 (placeholder-based) 和参考条件化 (reference-conditioned)。
4.1.2.1. 预训练 (Pre-training)
在预训练阶段,PTA 框架旨在建立参考特征(例如,面部特征、对象纹理)与合成输出之间的直接映射。为此,参考输入通过专用的特征提取器进行处理,并与文本提示融合,作为引导生成的条件,如上图(原文 Figure 5)所示。优化一个重建损失,强制生成的图像与大规模数据集 对齐。
-
: 优化目标函数,表示重建损失。
-
: 期望值。
-
: 原始数据,属于大规模数据集。
-
: 扩散时间步。
-
: 实际添加的高斯噪声。
-
: 神经网络(扩散模型)预测的噪声,以带噪数据 、时间步 和融合条件 为输入。
-
: 范数的平方。
-
: 融合后的条件信号。
-
: 融合操作,结合文本条件 和参考图像 。
可调参数 包括视觉编码器权重、文本编码器组件、扩散模块和注入的适配器模块。
4.1.2.2. 推理 (Inference)
在推理过程中,PTA 框架通过其视觉编码器处理参考图像以提取判别性特征,然后使用预训练的条件模块将其与文本嵌入融合。这种融合表示引导扩散模型生成个性化输出。这种方法有效地消除了测试时优化,确保了快速生成。
4.1.2.3. 主题特征提取 (Subject Feature Extraction)
提取 SoI 的代表性特征是创建个性化内容的关键。一种常见方法是采用编码器,利用 CLIP [42] 和 BLIP [43] 等预训练模型。尽管这些模型在捕获全局特征方面表现出色,但它们通常包含不相关信息,可能降低保真度,从而损害个性化输出的质量,例如在生成中包含相同的背景。为了减轻这个问题,一些研究纳入额外的先验知识来指导学习过程,使其专注于目标 SoI。例如,SoI 特定的掩码 [44, 32, 38, 45, 34, 35] 有助于有效排除背景的影响。此外,在人脸定制中,使用面部地标 (facial landmarks) [6] 有助于提高身份保留。
处理多个输入参考图像是另一个挑战,但在实际部署中至关重要。这需要从多个参考图像中集成特征,以增强框架的适应性。然而,当前大多数 PTA 系统仅限于支持一个参考输入。一些研究工作 [6, 46] 建议对从多个参考图像中提取的特征进行平均或堆叠,以形成复合的 SoI 表示。
4.1.2.4. 主题特征融合 (Subject Feature Fusion)
个性化内容合成系统通常处理两种输入模态:参考图像和文本描述,如上图(原文 Figure 5)所示。有效融合这些异构特征是 PTA 框架中的一个关键技术挑战。当前的方法可以分为四种主要途径:
Concatenation-based Fusion(基于拼接的融合) [47, 46, 5, 48, 49, 50]:这种方法使独特修饰符成为一个占位符词元 (placeholder token),以封装视觉主题特征。占位符词元嵌入,通过视觉编码器的图像特征进行初始化,然后与语言模型的文本嵌入拼接。这种组合表示随后通过扩散过程中的标准交叉注意力层 (cross-attention layers) 引导生成,实现了基本的SoI-文本对齐,同时保持了架构的简单性。Cross-attention Fusion(交叉注意力融合) [51, 52, 6, 53, 54, 55, 56]:这种范式通过专门的注意力机制扩展U-Net架构,这些机制共同处理视觉和文本条件。例如,IP-Adapter[51] 引入了解耦交叉注意力层 (decoupled cross-attention layers),为图像和文本特征维护独立的查询投影 (query projections)。在这种情况下,独特修饰符直接显示普通文本。Multimodal Encoder Fusion(多模态编码器融合) [57, 58, 59, 60, 61]:这种方法利用强大的多模态编码器架构(例如BLIP-2[62])来联合嵌入视觉和文本主题描述符。BLIP-Diffusion[57] 通过Q-Former模块学习一个紧凑的主题提示嵌入,该嵌入将图像块与文本名称融合,从而体现了这种策略。Hybrid Fusion(混合融合) [63, 64]:此外,一些系统集成了多种融合策略。例如,Subject-Diffusion[63] 结合了拼接和交叉注意力融合,利用每种方法的优势来增强整体个性化能力。
4.1.2.5. 训练数据 (Training Data)
训练 PTA 模型进行 PCS 需要大规模数据集。主要有两种类型的训练样本:
Triplet Data(三元组数据,即:参考图像、目标图像、目标字幕) [57, 52, 65]:这种数据集格式直接与PCS目标对齐,建立了参考图像和个性化内容之间的清晰关系。然而,如此大规模的三元组样本并不普遍可用。已经提出几种策略来缓解这个问题:1) 数据增强 (Data Augmentation):使用前景分割后放置在不同背景等技术来构建三元组数据 [57]。2) 合成样本生成 (Synthetic Sample Generation):像SuTI[52] 这样的方法利用多个TTF模型生成合成样本,然后将其与原始参考图像配对。3) 利用可识别的 SoI (Utilizing Recognizable SoIs):收集名人等易于识别主题的图像,显著促进了人脸个性化 [65]。Dual Data(双重数据,即:参考图像、参考字幕) [66, 67]:这种数据集本质上是三元组格式的简化版本,其中个性化内容就是原始图像本身。这类数据集更易获取,包括LAION[66] 和LAION-FACE[67] 等集合。然而,一个显著的缺点是训练倾向于更多地关注重建参考图像,而不是整合文本提示。因此,在此类数据上训练的模型可能难以处理需要大量修改或与对象交互的复杂提示。
4.1.3. 混合框架 (Hybrid Framework)
最近,一些工作开始探索 TTF 和 PTA 方法的结合。HyperDreamBooth [26] 指出,PTA 方法提供了一个能够处理各种常见对象的通用框架,而 TTF 技术能够对特定实例进行微调,从而提高精细细节的保留。他们首先开发一个 PTA 网络,然后进行主题驱动的微调。类似地,DreamTuner [39] 预训练一个主题编码器,该编码器输出用于准确重建的扩散条件。然后进行额外的微调阶段以实现精细的身份保留。相比之下,SuTI [52] 首先应用 TTF 方法生成合成的成对样本,然后将其用于训练 PTA 网络。
4.2. 个性化内容合成中的技术 (Techniques in Personalized Content Synthesis)
在 Section 3 讨论的架构框架基础上,本节分析适用于 TTF 和 PTA 框架的学习优化技术。我们关注四类:注意力机制 (attention mechanisms)、掩码引导生成 (mask-guided generation)、数据增强 (data augmentation) 和 正则化策略 (regularization strategies)。这些方法旨在解决 PCS 中的关键挑战,如增强主题保真度、最小化冗余语义的干扰、增强泛化能力和避免过拟合。
4.2.1. 注意力机制操作 (Attention-based Operation)
注意力机制操作已成为模型学习中的关键技术,尤其是在有效处理特征方面 [68]。在扩散模型中,这些操作通常涉及通过 Query-Key-Value (QKV) 方案操纵模型关注数据不同部分的方式。虽然大规模预训练赋予了该模块强大的特征提取能力,但仍有大量工作正在进行,以增强其在定制任务中的性能。
Explicit attention weight manipulation(显式注意力权重操纵) [25, 39, 69, 70, 71]:一组研究专注于限制SoI词元在注意力层中的影响。例如,Mix-of-Show[25] 设计了区域感知交叉注意力 (region-aware cross-attention),其中特征图最初由全局提示生成,然后替换为与每个实体对应的不同区域特征。这避免了词语与视觉区域之间的错位。DreamTuner[39] 设计了一个自主题注意力层 (self-subject-attention layer) 来进一步细化主题身份。这个注意力模块将生成图像的特征作为查询 (query),生成特征的拼接作为键 (key),参考特征作为值 (value)。Layout-Control[69] 在不进行额外训练的情况下,专门调整布局周围的注意力权重。Cones 2[70] 还定义了一些负注意力区域来惩罚非法占据,以允许生成多个对象。VICO[71] 插入了一个新的注意力层,其中部署了一个二元掩码 (binary mask) 来选择性地遮蔽噪声潜变量 (noisy latent) 和参考图像特征之间的注意力图。Implicit attention guidance(隐式注意力引导) [5, 22, 38, 63, 45, 72, 37]:除了这些显式注意力权重修改方法外,许多研究人员在交叉注意力模块中采用了局部监督 (localization supervision)。具体来说,他们使用坐标感知损失函数 (coordinate-aware loss functions) 训练交叉注意力模块,强制注意力图与标注的主题位置对齐。DreamTuner[39] 通过设计一个有效集成图像不同部分特征的注意力层,进一步完善了这种方法。
4.2.2. 掩码引导生成 (Mask-guided Generation)
由于参考图像包含 SoI 和不相关的视觉元素,掩码作为指示指定对象位置和轮廓的关键先验 (prior),可以有效地最小化冗余信息的影响。
Pixel-level mask(像素级掩码) [44, 32, 38, 45, 34, 35, 37, 74, 75]:受益于SAM[73] 等先进的分割方法,SoI可以从背景中精确隔离。基于此策略,大量研究选择丢弃背景区域的像素,以便重建损失能够专注于目标对象并排除不相关的干扰。另一项技术 [49] 进一步添加了掩码背景重建,以实现更好的解耦。此外,像素掩码指示的布局可以作为监督信号 [5, 22, 38, 63, 45, 72, 37] 整合到注意力模块中,以自适应地调整注意力的集中度。此外,掩码可以拼接特定特征图 (feature maps) 以构建信息更丰富的语义模式 [47, 76, 63]。Feature-level mask(特征级掩码) [77, 78, 79]:除了像素级操作,掩码还可以扩展到特征级操作。DisenBooth[77] 定义了一个具有可学习掩码的身份无关嵌入 (identity-irrelevant embedding)。通过最大化身份保留嵌入 (identity-preservation embedding) 和身份无关嵌入之间的余弦相似度 (cosine similarity),掩码将自适应地排除冗余信息,从而更好地保留主题外观。AnyDoor[78] 定义了一个高频掩码 (high-frequency mask),它存储详细的SoI特征作为图像生成过程的条件。FaceDiffuser[79] 通过从预训练的文本到图像扩散模型和PTA个性化模型预测的噪声中进行增强来确定掩码。每个模型都进行自己的噪声预测,最终的噪声输出是通过掩码引导拼接创建的复合噪声。
4.2.3. 数据增强 (Data Augmentation)
由于神经网络的优化需要大量数据,现有的 PCS 方法通常难以从有限的参考图像中捕获 SoI 的完整语义信息,导致图像质量不佳。为了解决这个问题,采用了各种数据增强策略来丰富 SoI 参考的多样性。
Compositional augmentation(组合增强) [22, 63, 80, 81]:一些方法通过经典的图像增强(如混合和空间重排)来增强数据多样性。SVDiff[22] 手动构建多个SoI的混合图像作为新的训练数据,从而增强模型对复杂场景的接触。这种概念组合也用于其他工作 [63, 80, 81] 中。BLIP-Diffusion[57] 分割前景主题并将其组合到随机背景中,从而将原始的文本-图像对扩展到更大的数据集。StyleAdapter[82] 选择打乱图像块以打破不相关的对象并保留所需的风格。PACGen[75] 表明空间位置与身份信息纠缠在一起。因此,重新缩放、中心裁剪和重新定位是有效的增强解决方案。Synthetic data(合成数据) [52, 48, 24, 19]:生成的合成数据在结合质量保证机制的情况下可以提供大量的训练资源。SuTI[52] 建立了一个级联管道,其中TTF模型首先生成每个SoI的多样化变体。这些合成样本随后训练目标PTA模型。类似地,DreamIdentity[48] 利用大规模预训练扩散模型中嵌入的名人现有知识来生成源图像和编辑后的人脸图像。StyleDrop[24] 和GAL[19] 实现了迭代细化管道,其中早期训练阶段的高质量合成输出被纳入后续轮次。External sources(外部来源) [83]:利用网络资源扩展训练数据集是直观的。COTI[83] 采用一个评分网络 (scorer network) 逐步扩展训练集,从大型网络爬取数据池中选择具有高美学质量的语义相关样本。
4.2.4. 正则化 (Regularization)
正则化是一种有效的方法,用于规范权重更新以避免过拟合并增强泛化能力。
Auxiliary data regularization(辅助数据正则化) [4, 84, 40]:为了缓解PCS系统持续生成与参考图像相同输出的过拟合问题,研究开始使用一个由与SoI相同类别的图像组成的额外数据集 [4]。通过重建这些图像,个性化模型被要求生成该类别的多样化实例,同时适应目标主题。在此策略基础上,StyleBoost[84] 引入了一个辅助的风格特定数据来分离内容和美学适应。后来,一个数据集 [40] 经过精心策划,包含详细的文本提示(指定属性/上下文),以改善主题特征和背景特征之间的解耦。Text embedding constraints(文本嵌入约束) [21, 87, 88, 34, 70, 33, 89, 71]:预训练文本(例如,主题类名)的语义丰富性为个性化生成提供了强大的正则化信号。通过策略性地约束主题特定表示如何在嵌入空间中与已建立的语言概念交互,这些方法可以实现更好的泛化能力。例如,Perfusion[21] 将键投影 (key projections) 约束为类别名词嵌入,同时从主题图像中学习值投影 (value projections)。受coached active learning[85, 86] 启发,该方法使用锚定概念进行优化指导,Compositional Inversion[87] 采用一组语义相关词元作为锚点来约束词元嵌入搜索。此外,一些工作 [88, 34] 对可学习词元相对于预训练CLIP嵌入的偏移量进行正则化。通过最小化偏移量,最终的词嵌入能够实现更好的文本对齐。类似地,Cones 2[70] 通过重建包含类别名词的 1,000 个句子的特征来最小化偏移量。[33] 将可学习词元优化到 691 个知名名称的平均文本嵌入。Domain-Agnostic[89] 提出使用对比损失 (contrastive loss) 来引导SoI文本嵌入接近其在大型样本上预训练的最近的CLIP词元。另一方面,VICO[71] 经验性地发现文本结束词元 保持了SoI的语义一致性。为了利用这一发现,采用 损失来减少SoI词元和 之间的注意力相似度 logits 的差异。
5. 图像个性化任务分类
如下图(原文 Figure 6)所示,个性化涵盖了对象、风格、人脸等多个领域。以下小节将通过 Section 3 建立的框架,分析每个领域中的 TTF 和 PTA 方法。我们还在 Table 2、Table 3 和 Table 4 中总结了这些研究,以提供清晰的概述并方便快速比较。
该图像是一个示意图,展示了个性化内容合成的不同方法。通过提供不同的提示,如单一对象、风格、面孔和多重主题,图中归纳了相应的个性化方法。每种方法的结果展示在下方,以说明它们的应用和效果。
图 (原文 Figure 6) 展示了针对不同兴趣的个性化方法,要求生成预期的图像。该图通过提供不同的提示,如单一对象、风格、面孔和多重主题,归纳了相应的个性化方法。每种方法的结果展示在下方,以说明它们的应用和效果。
5.1. 个性化对象生成 (Personalized Object Generation)
作为基础任务,个性化对象生成要求从通用实例(如玩具、车辆或建筑)中学习判别性特征,并以文本提示指定的新上下文渲染它们。
5.1.1. TTF 框架
TTF 方法在推理期间通过对参考图像进行模型参数的实例特定优化来实现卓越的主题保真度,并有效处理稀有属性。
在 TTF 方法中,一个重要分支是优化可学习词元嵌入 (learnable token embeddings)。首个工作始于 Textual Inversion [7],它提出了一种简单而有效的方法,引入一个新词元作为独特修饰符来表示 SoI。这种方法的一个显著优点是其最小的存储需求,新词元仅消耗几千字节。然而,该方法将复杂的视觉特征压缩到一小组参数中,可能导致收敛时间长和视觉保真度下降。最近的工作旨在通过多个方向解决这些限制。DVAR [90] 通过提出一个清晰的停止准则来提高训练效率,即通过消除所有随机性来指示收敛。为了增强表示能力, [18] 在 U-Net 架构的不同层中引入了不同的可学习词元,从而通过额外的可学习参数提供了更好的属性控制。NeTI [30] 通过提出一个神经映射器 (neural mapper) 进一步推进了这一概念,该映射器根据去噪时间步和特定的 U-Net 层自适应地输出词元嵌入。ProSpect [31] 基于观察到不同类型的提示(如布局、颜色、结构和纹理)在去噪过程的不同阶段被激活,建议优化多个词元嵌入以适应不同的去噪时间步。类似地,[91] 的研究展示了分层激活的洞察力,通过选择性地激活词元在其各自范围内来学习不同的属性。随后,HiFiTuner [32] 将多种技术整合到可学习词元中,包括掩码引导损失函数、参数正则化、时间相关嵌入以及最近参考辅助的生成细化。其他方法,如 DreamArtist [92],选择优化负面和正面提示嵌入 (negative and positive prompt embeddings) 以细化细节保留。除了这些词元级细化方法,该领域仍在不断发展,涌现出诸如 InstructBooth 的强化学习框架 [93] 和无梯度进化优化 [94] 等新颖技术。总而言之,Textual Inversion 的基础工作之后的最新发展主要集中在缩短训练时间并提高生成图像的视觉质量。
在 PCS 的 TTF 方法领域,存在一个明显的趋势,即倾向于微调模型权重而不仅仅是词元嵌入。这种方法通常解决了仅靠词元嵌入难以捕捉预训练数据中未发现的复杂语义的局限性 [25, 95]。DreamBooth [4] 提出使用一个稀有词元作为唯一修饰符来表示 SoI,并微调扩散模型的全部参数。此外,还采用了一个包含与 SoI 相同类别的 20-30 张图像的正则化数据集来克服过拟合问题。这两种结合方法取得了令人印象深刻的性能,极大地推动了图像个性化研究的进展。然而,为每个新对象微调整个模型会导致巨大的存储成本,可能阻碍其广泛应用。为了解决这个问题,Custom Diffusion [20] 专注于识别和微调关键参数,特别是交叉注意力层中的 key-value 投影,以实现视觉保真度和存储效率的平衡。进一步的方法,Perfusion [21],也采用了交叉注意力微调,并提出将 K (key) 投影的更新方向正则化到超类别词元嵌入,将 V (value) 投影正则化到可学习词元嵌入。COMCAT [96] 引入了注意力矩阵的低秩近似 (low-rank approximation),这大大降低了存储需求至 6 MB,同时保持了输出的高保真度。此外,适配器 [23, 24] 和 LoRA 变体 [25, 26, 27, 34, 35, 36] 等方法越来越多地应用于个性化生成,以实现参数高效微调。值得注意的是,词元嵌入微调与扩散权重微调是兼容的。多种方法 [37, 38, 39] 已开始使用组合权重微调。
5.1.2. PTA 框架
对于 PCS 系统的实际部署,快速响应时间是一个关键因素。PTA 方法通过利用大规模预训练来避免推理阶段的每主题优化,从而实现实时生成(每个主题不到 10 秒)。Re-Imagen [97] 引入了一种检索增强生成方法 (retrieval-augmented generative approach),它利用通过特定提示检索到的文本-图像对的特征。虽然它并非专门针对对象个性化,但它展示了训练参考条件框架的可行性。随后,ELITE [47] 专门针对图像个性化,通过将全局参考特征与文本嵌入结合,同时融入排除不相关背景的局部特征。融合特征和局部特征都作为去噪过程的条件。类似地,InstantBooth [98] 重新训练 CLIP 模型以提取图像特征和块特征 (patch features),这些特征分别通过注意力机制和可学习适配器注入到扩散模型中。此外,UMM-Diffusion [61] 设计了一个多模态编码器,根据参考图像和文本提示生成融合特征。文本特征和多模态隐藏状态被视为预测混合噪声的引导信号。另一项工作 SuTI [52] 采用了与 Re-Imagen 相同的架构。区别在于训练样本是由大量 TTF 模型生成的,每个模型都在特定的主题集上进行微调。这种策略促进了在实例级别而非 Re-Imagen 的类级别上更精确的个性化对齐。此外,Domain-Agnostic [89] 结合了基于对比的正则化技术,将图像编码器生成的伪嵌入 (pseudo embedding) 推向现有最近的预训练词元。此外,他们引入了一个双路径注意力模块 (dual-path attention module),分别以最近词元和伪嵌入为条件。与使用单独编码器处理单一模态的方法相比,一些工作探索了使用预训练的多模态大语言模型 (Multimodal Large Language Models, MLLM),这些模型可以在统一框架内处理文本和图像模态。例如,BLIP-Diffusion [57] 利用预训练的 BLIP2 [62] 编码包括 SoI 参考和类别名词在内的多模态输入。输出嵌入随后与上下文描述拼接,并作为生成图像的条件。进一步地,Customization Assistant [58] 和 KOSMOS-G [60] 用预训练的 MLLM 替换 Stable Diffusion 的文本编码器,以根据参考和上下文描述输出融合特征。同时,为了满足 Stable Diffusion 的标准格式,训练了一个网络来对齐输出嵌入的维度。
5.2. 个性化风格生成 (Personalized Style Generation)
个性化风格生成旨在定制参考图像的美学元素。现在,“风格”的概念包括广泛的艺术元素,如笔触、材质纹理、配色方案、结构形式、照明技术和文化影响。
5.2.1. TTF 框架
在该领域,StyleDrop [24] 利用适配器微调 (adapter tuning) 有效地从单个参考图像中捕捉风格。该方法通过迭代训练展示了其有效性,利用通过反馈机制(如人工评估和 CLIP 分数)细化的合成图像。这种方法不仅增强了风格学习,还确保生成的风格与人类审美判断紧密对齐。随后,GAL [19] 提出了一种基于不确定性 (uncertainty-based) 的评估策略来过滤高质量的合成风格数据,并使用加权方案 (weighted schema) 来平衡额外样本和原始参考的贡献。此外,StyleAligned [99] 专注于在图像批次中保持风格一致性。这是通过使用第一张图像作为参考来实现的,该参考在自注意力层中充当额外的键和值,确保批次中所有后续图像都遵循相同的风格指南。Style-friendly [100] 引入了一种新颖的扩散模型微调方法,通过自适应地将噪声采样偏向更高的噪声水平(其中风格特征出现)来增强个性化艺术风格生成。
5.2.2. PTA 框架
对于 PTA 框架,StyleAdapter [82] 在 PTA 框架内采用了双路径交叉注意力机制 (dual-path cross-attention mechanism)。该模型引入了一个专门的嵌入模块,旨在从多个风格参考中提取和整合全局特征。Diptych Prompting [101] 利用一种图像修复机制 (inpainting mechanism) 来绘制另一幅与参考部分风格相同的图像。
5.3. 个性化人脸生成 (Personalized Face Generation)
个性化人脸生成旨在利用少量初始人脸图像,生成遵循文本提示规范的多样化身份图像。与通用对象个性化相比,范围缩小到特定类别——人类。一个显而易见的好处是,可以很容易地利用大规模以人为中心的数据集 [67, 102, 103],并利用面部地标检测 [104] 和人脸识别 [105] 等成熟领域的预训练模型。
5.3.1. TTF 框架
关于 TTF 方法,PromptNet [106] 训练了一个基于扩散的网络,将输入图像和噪声潜变量编码为词嵌入。为了缓解过拟合问题,词嵌入和上下文描述预测的噪声通过无分类器引导 (classifier-free guidance) 中的融合采样 (fusion sampling) 进行平衡。此外,Celeb Basis [65] 提供了一个新颖的想法,即个性化 ID 可以被视为名人面孔的组合,而名人面孔已被预训练扩散模型学习。基于这一假设,在测试时优化一个简单的 MLP (多层感知器) 以将面部特征转换为不同名人名称嵌入的权重。
5.3.2. PTA 框架
由于存在大量包含同一人物在不同上下文中的可用数据集,这为 PTA 方法的预训练提供了有价值的数据,因此 PTA 框架中的工作数量正在迅速增加。Face0 [107] 裁剪人脸区域以提取精细嵌入,并将其与文本特征拼接。在采样阶段,classifier-free guidance 的输出被替换为人脸专用嵌入、文本专用嵌入和拼接后的人脸-文本嵌入预测的噪声模式的加权组合。W+ Adapter [53] 构建了一个映射网络 (mapping network) 和残差交叉注意力模块 (residual cross-attention modules),以将 StyleGAN [108] 空间中的面部特征转换为 Stable Diffusion 的文本嵌入空间。FaceStudio [109] 调整交叉注意力层以支持包括风格化图像、面部图像和文本提示在内的混合引导。此外,PhotoMaker [46] 通过精心的数据收集和过滤管道构建了一个高质量数据集。他们使用一个两层 MLP 来融合 ID 特征和类别嵌入,以全面表示人像。PortraitBooth [50] 也采用一个简单的 MLP,它融合了文本条件和预训练人脸识别模型的浅层特征。为了确保表情操纵和面部保真度,他们添加了另一个表情词元,并结合了身份保留损失 (identity preservation loss) 和基于掩码的交叉注意力损失 (mask-based cross-attention loss)。InstantID [6] 额外引入了 ControlNet 的一个变体,它将面部地标作为输入,与仅依赖注意力融合的方法相比,提供了更强的引导信号。
5.4. 多主体组合 (Multiple Subject Composition)
多主体组合指的是用户打算将一个或多个参考图像中显示的多个 SoI 组合在一起的场景。
5.4.1. TTF 框架
这项任务对 TTF 方法提出了挑战,特别是在如何整合同一模块内分别为单个 SoI 微调的参数方面。一些工作侧重于遵循融合机制的一对一生成。例如,Custom Diffusion [20] 提出了一种约束优化方法来合并交叉注意力 key-value 投影权重,目标是最大化每个主题的重建性能。Mix-of-Show [25] 以相同的优化目标融合了 LoRA [110] 权重。StyleDrop [24] 动态总结每个个性化扩散模型的噪声预测。在 OMG [27] 中,每个 LoRA 微调模型预测的潜变量通过主题掩码进行空间组合。联合训练是涵盖所有预期主题的另一种策略。SVDiff [22] 采用了一种名为 Cut-Mix 的数据增强方法,将多个主题组合在一起,并应用位置损失 (location loss) 来正则化注意力图,确保每个主题与其对应词元对齐。类似策略也见于其他工作 [20, 65],它们通过重建每个 SoI 的外观来训练单个模型。还有先进的控制机制被设计来管理多个主题。Cones [111] 提出找到一小簇神经元,它们保留了 SoI 的大部分信息。属于不同 SoI 的神经元将同时激活以生成组合。Compositional Inversion [87] 引入了将空间区域分配给不同主题的方法,以提高组合成功率。
5.4.2. PTA 框架
对于 PTA 框架,多主体生成通过专门的架构设计实现。Fastcomposer [5]、Subject-Diffusion [63] 和 λ-eclipse [112] 将每个主题特征放置在文本嵌入中对应的占位符中,确保无缝高效的组合。CustomNet [113] 和 MIGC [114] 训练了一个支持每个主题位置控制的 PTA 网络。SSR-Encoder [55] 实现了一个编码器来选择性地保留所需的主题特征 (subject feature),以及一个交叉注意力模块来支持多主体特征融合。
5.5. 高级语义个性化 (High-level Semantic Personalization)
最近,图像个性化领域已开始包含复杂的语义关系和高级概念。已经开发出不同的方法来增强模型理解和操纵这些抽象元素的能力。
5.5.1. TTF 框架
目前,该领域的所有研究都基于 TTF 框架。ReVersion [115] 旨在从参考图像中反演对象关系。具体来说,他们使用对比损失来引导词元嵌入的优化朝着特定的词性标注 (Part-of-Speech tags) 簇,例如介词、名词和动词。同时,他们还在训练过程中增加了在较大时间步添加噪声的可能性,以强调高级语义特征的提取。Lego [116] 专注于更一般的概念,例如形容词,这些形容词经常与主题外观交织在一起。这个概念可以通过应用于包含干净主题图像和体现所需形容词图像的数据集的对比损失来学习。此外,ADI [117] 旨在从参考图像中学习动作特定标识符。为了确保反演只关注所需动作,ADI 从构建的三元组样本中提取梯度不变性 (gradient invariance),并应用阈值来掩盖不相关的特征通道。
6. Extensions of Personalized Content Synthesis (个性化内容合成的扩展)
虽然核心 PCS 系统侧重于从参考主题生成图像,但最近的进展已将其能力扩展到多个维度。本节探讨了一些前沿扩展,它们推动了个性化技术的边界。
6.1. Personalization on Extra Conditions (额外条件下的个性化)
最近的个性化任务倾向于包含额外的条件以实现多样化的内容定制。一个常见的应用是将主题定制到固定的源图像中。例如,PhotoSwap [118] 引入了一项新任务,用参考图像中的 SoI 替换源图像中的主题。为了满足这一要求,他们首先在参考图像上微调一个扩散模型以获得个性化模型。为了保留源图像的背景,他们在推理时用 DDIM inversion [119] 初始化噪声,并用源图像生成派生的中间特征图替换。随后,MagiCapture [53] 将范围扩展到面部定制。另一个类似的应用可以在虚拟试穿 (Virtual Try-on) 中找到,该任务旨在将选定的服装穿到目标人物身上。这项任务的复杂性已在另一篇综述 [120] 中进行了深入分析。
个性化任务中的额外条件可能包括调整布局 [69]、转换草图 [121]、控制视点 [113, 122] 或修改姿势 [6]。这些条件中的每一个都提出了独特的挑战,需要专门的方法将这些元素无缝集成到个性化内容中。
6.2. Personalized Video Generation (个性化视频生成)
随着视频生成 [123] 的日益普及,视频个性化也开始引起关注。在视频个性化中,SoI 可以分为三个不同的类别:外观 (appearance)、运动 (motion) 以及 外观和运动的组合。
6.2.1. Appearance-based video personalization (基于外观的视频个性化)
这项任务侧重于将主题外观从静态图像转移到视频序列。标准的 TTF 管道利用参考图像作为外观锚点,并微调视频扩散模型 (video diffusion models, VDM) 进行时间合成。该过程涉及利用 2D 个性化的复杂方法,如参数高效微调 (parameter-efficient fine-tuning) [81]、数据增强 (data augmentation) [80, 81] 和注意力操纵 (attention manipulation) [124, 54, 81]。此外,几项研究 [125, 124, 54, 126] 探索了 PTA 框架。这些扩散模型专门用于根据图像参考合成视频。
6.2.2. Motion-based video personalization (基于运动的视频个性化)
在这项任务中,参考输入切换为包含一致动作的视频片段。一种常见方法是通过重建动作片段来微调视频扩散模型 (video diffusion model) [127, 128, 129, 130, 131, 132, 133]。然而,区分参考视频中的外观和运动可能具有挑战性。为了解决这个问题,SAVE [128] 应用外观学习以确保在运动学习阶段排除外观。此外,VMC [129] 在训练提示构建期间删除了背景信息。
6.2.3. Appearance and motion personalization (外观和运动个性化)
当整合主题外观和运动时,采用了创新方法来解决同时学习这两个方面的复杂性。MotionDirector [134] 利用空间和时间损失来促进跨这些维度的学习。另一种方法,DreamVideo [135],结合了从随机选择帧获得的残差特征,以强调主题信息。这种技术使微调模块能够主要专注于学习运动动态。
总而言之,视频个性化策略根据具体方面而显著不同。此外,由于当前在鲁棒视频特征表示方面的局限性,直接以视频输入为条件的 PTA 视频个性化仍然是一个正在探索的领域。
6.3. Personalized 3D generation (个性化 3D 生成)
个性化 3D 生成是指根据 2D SoI 图像创建定制 3D 模型或场景的过程。基本上,该流程首先使用 TTF 方法微调 2D 扩散模型。然后,这个微调后的模型利用分数蒸馏采样 (Score Distillation Sampling, SDS) [136] 为每个特定提示训练一个 3D 神经辐射场 (Neural Radiance Field, NeRF) 模型 [137, 138, 139]。在此基础上,开发了几种方法来改进工作流程。DreamBooth3D [140] 将过程分为三个阶段:从 DreamBooth 模型初始化和优化 NeRF、渲染多视图图像,以及为最终的 3D NeRF 细化微调一个辅助 DreamBooth。Consist3D [141] 通过在 3D 模型优化期间训练两个不同的词元(一个语义词元和一个几何词元)来增强文本嵌入。TextureDreamer [142] 专注于从优化的空间可变双向反射分布函数 (spatially-varying bidirectional reflectance distribution, BRDF) 场中提取纹理图,以便在广泛的 3D 主题上渲染纹理。
此外,进展还扩展到 3D 虚拟形象渲染和动态场景。Animate124 [143] 和 Dream-in-4D [144] 将视频扩散集成到 3D 优化过程中,以支持 4D 动态场景。在虚拟形象渲染方面,PAS [145] 生成可由虚拟形象设置配置的 3D 身体姿势,StyleAvatar3D [146] 促进基于图像的 3D 虚拟形象生成,AvatarBooth [147] 采用双微调扩散模型进行独立的面部和身体生成。
6.4. Attack and Defense (攻击与防御)
这种快速发展引发了对 PCS 伦理影响的担忧,特别是在错误信息 (misinformation)、隐私侵犯 (privacy violations) 和深度伪造 (deepfakes) 等领域。个人或组织利用它们来制作误导性内容或操纵公众认知的风险增加。为了缓解这种情况,AntiDreamBooth [148] 旨在对参考图像添加微妙的噪声扰动 (subtle noise perturbation),使得任何基于这些样本训练的个性化模型都只能产生糟糕的结果。其基本思想是最大化替代模型 (surrogate model) 的重建损失。此外,[149] 建议预定义一组触发词 (trigger words) 和无意义图像。这些数据被配对并在训练阶段整合。一旦遇到触发词,合成图像将有意被修改以进行防护。
6.5. Other Emerging Directions (其他新兴方向)
几项工作正在探索不同的个性化扩展。例如,[150] 引入了 SVG 个性化,其中应用了一种参数高效微调方法来创建 SVG。在第一步生成之后,SVG 通过一个包括语义对齐和双重优化方法的过程进行细化,该方法同时利用图像级和矢量级损失来增强最终输出。另一个应用,360 度全景定制 (360-degree panorama customization) [151],也正在成为数字成像领域个性化的潜在工具。
7. 评估
7.1. 评估数据集 (Evaluation Dataset)
为了评估个性化模型的性能,开发了各种数据集:
-
DreamBench[4]:作为DreamBooth[4] 的主要评估基准,包含 30 个多样化主题(例如背包、动物、车辆和玩具),每个主题有 25 个独特的提示。 -
DreamBench-v2[52]:通过为每个主题增加 220 个测试提示,扩展了DreamBench的评估范围。 -
Custom-10[20]:在Custom Diffusion[20] 中使用,评估 10 个主题,每个主题有 20 个特定测试提示,并包括多主题组合测试,其中包含 5 对主题和每对 8 个提示。 -
Custom-101[20]:由Custom Diffusion[20] 的作者发布的最新数据集,包含 101 个主题,提供更广泛的评估范围。 -
Stellar[35]:专门针对以人为中心的评估,包含 400 个人类身份的 20,000 个提示。尽管有这些贡献,它们在不同的研究组中仍然是分散的,研究社区仍然缺乏针对大量个性化生成任务进行测试的基准。为了解决这一差距,本综述引入了一个全面的评估数据集
Persona,专为最常见的个性化对象和面部个性化而设计。
7.1.1. Persona 数据集
- 对象个性化 (For Object):
Persona包含来自现有资源 [7, 4, 20] 的 47 个主题。遵循DreamBooth[4] 的方法论,我们将主题分为两类:对象和活体宠物,基于主题是否为活体。具体来说,47 个主题中有 10 个是宠物,其余 37 个是各种对象。为了评估性能,我们使用了DreamBooth[4] 的文本提示。这包括 20 个重新情境化提示 (recontextualization prompts) 和 5 个属性修改提示 (property modification prompts) 用于对象,以及 10 个重新情境化、10 个配饰化 (accessorization) 和 5 个属性修改提示用于宠物,总计每个类别 25 个提示。 - 人脸个性化 (For Face):我们还从
Celeb-A[159] 中收集了 15 个主题到Persona数据集中。我们使用 40 个提示进行评估,包括 10 个配饰提示、10 个风格提示、10 个动作提示和 10 个上下文提示。
7.2. 评估指标 (Evaluation Metrics)
由于 PCS 旨在保持对 SoI 的保真度,同时确保与文本条件的对齐,因此指标从两个方面设计:文本对齐 (text alignment) 和 视觉保真度 (visual fidelity)。
7.2.1. 文本对齐指标 (Text Alignment Metrics)
文本对齐指标量化了生成输出如何精确反映提示的语义:
-
CLIP-T(CLIP Text Score):- 概念定义:
CLIP-T量化了生成图像与其文本提示之间的语义对齐程度。它通过计算CLIP模型将生成图像和文本提示分别编码成的嵌入向量之间的余弦相似度来衡量。得分越高表示图像与文本提示的语义匹配度越好。 - 数学公式:
- 符号解释:
- : 生成的图像。
- : 文本提示。
- :
CLIP模型的图像编码器将图像编码为嵌入向量的函数。 - :
CLIP模型的文本编码器将文本编码为嵌入向量的函数。 - : 计算两个向量余弦相似度的函数。
- 概念定义:
-
ImageReward[152],HPS Score (v1/v2)[153, 154],PickScore[155]:- 概念定义: 这些指标是基于学习模型,这些模型在人类判断 (human judgments) 上进行训练,旨在更好地与感知质量相关联,从而更好地反映人类偏好。它们通常通过预测人类对生成图像与文本提示匹配度的评分来评估。
- 数学公式: (这些指标通常没有统一的公开数学公式,因为它们是基于复杂神经网络模型预测的评分。其内部机制涉及模型的特定架构和训练数据。)
例如,对于
ImageReward,其计算可以概括为: - 符号解释:
- : 生成的图像。
- : 文本提示。
- , :
CLIP模型的图像和文本编码器。 - : 一个学习到的奖励模型,它接收图像和文本嵌入作为输入,并输出一个分数来预测人类偏好。
7.2.2. 视觉保真度指标 (Visual Fidelity Metrics)
为了确定生成的主题与 SoI 的相似程度,可以通过以下指标评估视觉保真度:
-
CLIP-I(CLIP Image Score):- 概念定义:
CLIP-I评估主题保留程度,通过计算生成图像与参考图像之间CLIP图像嵌入的相似度。理想情况下,最佳值应在保真度(高分)和过拟合(过高分数以至于忽略文本引导)之间取得平衡。 - 数学公式:
- 符号解释:
- : 生成的图像。
- : 参考图像。
- :
CLIP模型的图像编码器将图像编码为嵌入向量的函数。 - : 计算两个向量余弦相似度的函数。
- 概念定义:
-
DINO-I[156] (DINO Image Score):- 概念定义:
DINO-I使用DINO模型的实例感知特征 (instance-aware features) 提供互补评估,特别适用于对象级别的相似性评估。DINO是一种自监督学习方法,其训练的视觉Transformer可以学习到强大的语义和局部特征,这使得它在区分图像中特定实例的细节方面非常有效。 - 数学公式: (通常通过计算
DINO特征空间中的距离或相似度来衡量。具体公式可能因实现而异,但核心是特征匹配。) 例如,可以表示为: - 符号解释:
- : 生成的图像。
- : 参考图像。
- :
DINO模型提取图像特征的函数。 - : 计算两个特征向量之间距离的函数(例如,余弦距离、欧氏距离),通常期望距离越小越好。
- 概念定义:
-
Fréchet Inception Distance (FID)[157]:- 概念定义:
FID通过Inception-V3[158] 提取的特征,量化生成图像分布与真实图像分布之间的统计相似性。FID值越低,表示生成图像的质量和多样性越接近真实图像。它是一个综合评估生成图像质量的指标,反映了生成图像的真实感和多样性。 - 数学公式:
- 符号解释:
- : 真实图像在
Inception-V3特征空间中的均值和协方差矩阵。 - : 生成图像在
Inception-V3特征空间中的均值和协方差矩阵。 - : 范数的平方。
- : 矩阵的迹。
- : 真实图像在
- 概念定义:
7.2.3. 专门指标 (Specialized Metrics)
除了这些常用指标外,还讨论了一些用于 PCS 系统评估的专门指标:
-
LyCORIS[36]:引入了涵盖保真度 (fidelity)、可控性 (controllability)、多样性 (diversity)、基础模型保留 (base model preservation) 和图像质量 (image quality) 的五维评估。 -
Stellar[35]:开发了六个人以中心的指标,包括软惩罚CLIP文本分数 (soft-penalized CLIP text score)、身份保留分数 (Identity Preservation Score)、属性保留分数 (Attribute Preservation Score)、身份稳定性分数 (Stability of Identity Score)、对象接地准确性 (Grounding Objects Accuracy) 和关系保真度分数 (Relation Fidelity Score)。这些不断发展的指标格局反映了
PCS系统的日益复杂性,最佳评估通常需要结合通用和任务特定的度量。
7.3. 新基准:Persona 数据集上的 SoTA 方法评估
尽管该领域已提出多个评估数据集,但仍迫切需要一个标准化基准来系统评估不同 PCS 方法的性能。为了解决这一局限性,本综述提出了一个名为 Persona 的新测试数据集,并在此基础上对现有工作进行了全面评估。
7.3.1. 设置 (Settings)
- 评估方法选择: 我们选择 22 种代表性
PCS方法进行评估。 - 生成数量: 对每个测试提示生成 4 张图像。
- 随机种子: 所有方法设置相同的随机种子,以确保评估的一致性。
- 评估指标应用:
- 文本对齐: 使用
CLIP-T评估文本对齐。 - 对象个性化保真度: 使用
CLIP-I评估对象生成中的主题保真度。 - 人脸个性化保真度: 使用
MTCNN[160] 检测生成图像和目标图像中的人脸,并使用FaceNet[161] 计算成对的身份相似度。
- 文本对齐: 使用
7.3.2. 评估结果 (Results)
以下是原文 Table 1 的结果:
| Type | Methods | Framework | Backbone | Metrics | |
|---|---|---|---|---|---|
| CLIP-T | CLIP-I | ||||
| Object | Textual Inversion [7] | TTF | SD 1.5 | 0.199 | 0.749 |
| Dreambooth [4] | TTF | SD 1.5 | 0.286 | 0.772 | |
| P+ [18] | TTF | SD 1.4 | 0.244 | 0.643 | |
| Custom Diffusion [20] | TTF | SD 1.4 | 0.307 | 0.722 | |
| NeTI [30] | TTF | SD 1.4 | 0.283 | 0.801 | |
| SVDiff [22] | TTF | SD 1.5 | 0.282 | 0.776 | |
| Perfusion [21] | TTF | SD 1.5 | 0.273 | 0.691 | |
| ELITE [47] | PTA | SD 1.4 | 0.292 | 0.765 | |
| BLIP-Diffusion [57] | PTA | SD 1.5 | 0.292 | 0.772 | |
| IP-Adapter [51] | PTA | SD 1.5 | 0.2722 | 0.825 | |
| SSR Encoder [55] | PTA | SD 1.5 | 0.288 | 0.792 | |
| Face | MoMA [59] | PTA | SD 1.5 | 0.322 | 0.748 |
| Diptych Prompting [101] | PTA | FLUX 1.0 dev | 0.327 | 0.722 | |
| λ-eclipse [112] | PTA | Kandinsky 2.2 | 0.272 | 0.824 | |
| MS-Diffusion [56] | PTA | SDXL | 0.298 | 0.777 | |
| CrossInitialization [33] | TTF | SD 2.1 | 0.261 | 0.469 | |
| Face2Diffusion [162] | PTA | SD 1.4 | 0.265 | 0.588 | |
| SSR Encoder [55] | PTA | SD 1.5 | 0.233 | 0.490 | |
| FastComposer [5] | PTA | SD 1.5 | 0.230 | 0.516 | |
| IP-Adapter [51] | PTA | SD 1.5 | 0.292 | 0.462 | |
| IP-Adapter [51] | PTA | SDXL | 0.292 | 0.642 | |
| PhotoMaker [46] | PTA | SDXL | 0.311 | 0.547 | |
| InstantID [6] | PTA | SDXL | 0.278 | 0.707 | |
结果分析:
从上表 (原文 Table 1) 的评估结果可以明显看出,没有一种方法能够在视觉保真度 (CLIP-I / FaceNet 相似度) 和文本对齐 (CLIP-T) 指标上同时表现出色。这凸显了 PCS 方法目前面临的一个重大挑战:在主题保留和可编辑性之间取得最佳权衡。实现这种平衡是困难的,因为高主题保真度通常以牺牲提示保真度为代价,反之亦然。
例如,对于对象个性化任务:
-
IP-Adapter[51] 在CLIP-I上取得了最高分 0.825,表明其在保留主题视觉特征方面表现出色,但其CLIP-T得分(0.2722)并非最高,不如Custom Diffusion(0.307) 或MoMA(0.322)。 -
MoMA[59] 在CLIP-T上表现最佳(0.322),但其CLIP-I略低(0.748),这可能意味着其生成内容在语义上更贴合文本提示,但对主题的视觉细节保留不如一些高CLIP-I的方法。对于人脸个性化任务:
-
InstantID[6] 在CLIP-I上取得了最高的 0.707,表明其人脸身份保留效果最好,但CLIP-T表现一般(0.278)。 -
Diptych Prompting[101] 在CLIP-T上得分最高 (0.327),但在CLIP-I上得分仅为 0.722,表明它可能更注重文本提示的语义,而牺牲了一定的人脸身份保真度。此外,论文指出,更高的视觉保真度并不总是意味着更好的性能。生成的图像有时会显示与参考图像过于相似的模式,而忽略提示的指导。这种现象主要源于模型在参考输入上的过拟合,这阻碍了模型泛化能力。因此,视觉相似度指标可能会基于这种“镜像输出”和参考图像之间的高相似性而给出高分,而不是准确反映模型的真实性能。如下图(原文 Figure 3)所示,过拟合、欠拟合和崩溃都体现了这种权衡和失败模式。
该图像是图表,展示了个性化图像合成中文本对齐与视觉保真度之间的权衡。图中涉及不同的生成示例,如过拟合、欠拟合和崩溃。测试提示为“戴着太阳镜的猫”,并以参考图像为中心,分析了生成结果的文本对齐和视觉保真度表现。
图 (原文 Figure 3) 展示了个性化图像合成中文本对齐与视觉保真度之间的权衡,通过 DreamBooth 生成的定制猫咪戴太阳镜的示例进行说明。当模型只专注于重建猫咪,而忽略太阳镜的上下文时,就会发生过拟合。另一方面,欠拟合反映了模型试图满足文本提示,但未能准确表示个性化的猫咪。崩溃则表示未能满足这两个标准。
8. 总结与思考
8.1. 结论总结
本综述对基于扩散模型的个性化内容合成 (Personalized Content Synthesis, PCS) 领域进行了全面的审查,特别关注 2D 图像定制。论文详细探讨了 测试时微调 (TTF) 和 预训练适应 (PTA) 这两大核心框架,并深入剖析了它们的工作机制、优缺点以及关键技术。此外,本综述还覆盖了特定定制领域(如对象、人脸、风格、视频和 3D 合成)的最新进展。除了令人印象深刻的技术,论文还提出了仍需解决的几个挑战,包括防止过拟合、在重建质量和可编辑性之间找到适当的平衡,以及标准化评估方法。为了支持正在进行的研究,论文从现有文献中整理了一个测试数据集 Persona,并评估了经典方法,提供了清晰的比较基准。通过提供详细的分析和概述有针对性的建议,本综述旨在促进 PCS 社区内的进一步创新与合作。
8.2. 局限性与未来工作
论文作者指出了 PCS 领域当前面临的以下关键局限性:
8.2.1. 过拟合问题 (Overfitting Problem)
如 Section 7.3 所述,当前 PCS 系统面临一个关键的过拟合挑战,因为参考图像集有限。这种过拟合问题体现在两个方面:
-
SoI 可编辑性丧失: 个性化模型倾向于生成严格复制参考图像中
SoI的图像,例如始终描绘一只猫咪以相同的姿势出现。 -
不相关语义的包含: 参考图像中的不相关元素(如背景或与当前上下文无关的物体)被生成在输出中。
原因探究:
Compositional Inversion[87] 观察到,学习到的词元嵌入相对于预训练词汇形成的中心分布,位于一个离群分布区域 (out-of-distribution area)。另一项工作 [33] 也发现可学习词元嵌入与初始嵌入的分布显著偏离。此外,有证据 [87, 76, 71] 表明,在交叉注意力层中,独特修饰符相对于其他上下文词元占据主导地位,导致其他语义外观的缺失。 未来方向: 尽管许多方法(如背景排除、注意力操纵、参数正则化、数据增强)有助于缓解过拟合,但该问题尚未完全解决,特别是在SoI具有非刚性外观 [87] 或上下文提示与参考图像中的不相关元素具有相似语义关联 [19] 的情况下。作者强调,解决PCS中的过拟合不仅仅是技术挑战,更是确保这些系统在多样化和动态的现实世界环境中实际部署和可扩展性的必要条件。因此,迫切需要有效的策略和鲁棒的评估指标,以实现更广泛的采用和更高的实际应用满意度。
8.2.2. 主题保真度与文本对齐的权衡 (Trade-off on Subject Fidelity and Text Alignment)
个性化内容合成的最终目标是创建既能高度保真地渲染 SoI,又能有效响应文本提示的系统。然而,同时在两个方面都取得卓越表现存在显著冲突。
-
高主题保真度: 通常涉及捕捉和重现
SoI的详细和特定特征,这往往要求模型最小化重建损失,以精确复制精微的特性。 -
文本对齐: 要求系统根据变化的文本描述灵活调整
SoI。这些描述可能暗示姿势、表情、环境或风格上的改变,而这些改变并非旨在重建参考图像中的精确视觉效果。因此,在不同上下文中实现灵活适应,同时又强迫模型捕捉精细细节变得具有挑战性。为了解决这种固有的冲突,
Perfusion[21] 建议通过这两个项目来正则化注意力投影。[163] 将条件引导解耦为两个独立过程,允许分别处理主题保真度和文本对齐。尽管付出了这些努力,这个问题仍有进一步探索和改进的空间。作者认为,增强的模型架构、创新的训练方法和更动态的数据处理策略可能为在PCS系统中更好地平衡主题和文本保真度的需求提供新途径。
8.2.3. 标准化与评估 (Standardization and Evaluation)
尽管个性化技术日益普及,但仍明显缺乏标准化测试数据集和能够准确捕捉不同策略性能的鲁棒评估指标。目前,评估视觉保真度的一个广泛使用的指标依赖于 CLIP 图像相似度。然而,当模型对参考图像过拟合时,这种方法可能会错误地夸大其价值。因此,未来的努力应集中于创建全面且广受接受的基准,能够评估 PCS 模型的各个方面,包括但不限于视觉保真度和主题可编辑性。
8.2.4. 多模态自回归框架 (Multimodal Autoregressive Frameworks)
多模态自回归模型 (multimodal autoregressive models) 的最新进展为 PCS 提供了新颖的解决方案,通过统一跨模态理解和生成。Emu3 [164] 等模型表明,自回归架构可以通过离散词元化和联合 Transformer 训练,原生处理图像-文本-视频序列。这种范式能够无缝集成用户提供的多模态参考(例如,带有 SoI 图像的文本描述),同时在生成步骤中保持上下文连贯性。此外,该框架原生支持通过多轮对话进行主题编辑,有效解决了扩散模型中常见的过拟合局限性。
8.2.5. 交互式个性化工作流 (Interactive Personalization Workflow)
交互式生成系统 (interactive generation systems) 的发展为 PCS 开辟了新领域,特别是通过集成多轮交互式生成。这种能力允许用户迭代地细化和准确定义 SoI,解决了将模糊或复杂需求转化为精确内容生成的挑战。例如,Gemini-2.0-flash [165] 等对话式 PCS 系统通过利用自然语言对话迭代优化主题保真度和提示对齐,体现了这一进展。通过让用户提供实时反馈并通过类似聊天的交互调整参数,这些系统弥合了抽象意图和具体输出之间的鸿沟,符合 PCS 在忠实主题表示与灵活可编辑性之间取得平衡的核心目标。
8.3. 个人启发与批判
8.3.1. 个人启发
这篇综述为我提供了对 PCS 领域全面且深入的理解,特别是在扩散模型背景下。有几个方面给我带来了启发:
- 技术路线的清晰划分:
TTF和PTA两种框架的分类非常清晰,让我理解了PCS方法在“训练时适应”和“推理时适应”之间进行权衡的根本差异。这对于初学者理解不同方法的定位和优劣至关重要。例如,TTF虽然效果好但成本高,PTA虽然速度快但泛化能力面临挑战。这种分类有助于构建更高效的混合方法。 - 多维度问题分析: 论文不仅从技术层面(注意力、掩码、增强、正则化)剖析
PCS,还从应用层面(对象、人脸、风格、多主体、高级语义)进行分类,这种多维度的视角有助于全面把握领域全貌,并启发我在解决问题时从不同角度思考。 - 挑战与未来展望的洞察力: 对过拟合、保真度与文本对齐权衡的深入分析,以及对多模态自回归和交互式工作流的展望,提供了非常有价值的研究方向。这表明
PCS不仅仅是生成技术,更是一个涉及用户体验、伦理安全和人机交互的综合性领域。 - 标准化评估的重要性: 论文强调了缺乏统一评估基准的问题,并提出了
Persona数据集。这让我意识到,在任何快速发展的领域,建立可靠的评估标准是推动进步的关键。 - 多模态融合的潜力:
PTA框架中关于多模态编码器融合和混合框架的讨论,让我看到PCS与MLLM结合的巨大潜力,未来可能会出现更强大、更通用的个性化生成系统。
8.3.2. 批判性思考
尽管这篇综述非常全面且结构严谨,但我也有一些批判性思考和认为可以改进的地方:
-
关于“高视觉保真度不总是好性能”的深层机制探讨不足: 论文在
Section 7.3中提到了“更高的视觉保真度并不总是意味着更好的性能”以及过拟合导致的“镜像输出”问题。虽然提到了这是过拟合的一种表现,但对导致这种现象的深层机制,如模型内部表示、特征空间的结构性变化等,可以进一步探讨。例如,是否可以分析CLIP嵌入空间中SoI的偏移量与过拟合程度的关系? -
评估指标的局限性: 论文详细介绍了各种评估指标,并指出了
CLIP-I在过拟合情况下的局限性。然而,对于ImageReward,HPS Score,PickScore这类基于人类偏好训练的模型,它们的“黑箱”性质和潜在的偏见也值得更深入的讨论。如何确保这些模型真正捕捉了PCS任务中人类对“好”生成的复杂定义?未来的评估是否需要更细粒度、更可解释的人类评估维度? -
伦理与安全问题的展开:
Section 6.4提到了Attack and Defense,指出了错误信息、隐私侵犯和深度伪造的风险。这部分内容较为简略,考虑到PCS在生成特定个人(人脸)方面的强大能力,这些伦理安全问题的重要性不亚于技术创新。更深入地探讨现有的防御机制的有效性、潜在的社会影响,以及如何从技术、政策和教育层面共同应对,会使综述更加完善。 -
实际部署中的用户体验: 论文在未来展望中提到了
交互式个性化工作流,但对于TTF和PTA在实际应用中各自的用户体验挑战(例如TTF的等待时间、PTA对新颖SoI的适应性等)可以进行更详细的讨论。例如,对于普通用户来说,如何提供友好的接口来选择合适的SoI样本、调整提示工程,以及理解生成结果中的权衡,都是非常实际的问题。 -
对计算资源消耗的量化分析: 论文提到了
TTF的计算开销和PTA的快速生成。如果能在评估部分加入更多关于不同方法在训练/推理时间、GPU 内存占用等方面的量化对比,将更能帮助读者全面理解实际部署的成本。总体而言,这篇综述为
PCS领域的研究者和初学者提供了极具价值的指导。通过对这些批判性思考点的进一步探索,未来的研究可以更全面、更深入地推动PCS技术的发展和落地。
相似论文推荐
基于向量语义检索推荐的相关论文。