Infinite-Story: A Training-Free Consistent Text-to-Image Generation
TL;DR 精炼摘要
本文提出了Infinite-Story,一个免训练的一致文本到图像生成框架,针对多提示叙事场景,解决身份和风格不一致问题。借助身份提示替换和统一注意力引导机制,该方法在不需微调的情况下,达到领先的生成性能,推理速度比现有模型快6倍,展现了广泛的应用潜力。
摘要
We present Infinite-Story, a training-free framework for consistent text-to-image (T2I) generation tailored for multi-prompt storytelling scenarios. Built upon a scale-wise autoregressive model, our method addresses two key challenges in consistent T2I generation: identity inconsistency and style inconsistency. To overcome these issues, we introduce three complementary techniques: Identity Prompt Replacement, which mitigates context bias in text encoders to align identity attributes across prompts; and a unified attention guidance mechanism comprising Adaptive Style Injection and Synchronized Guidance Adaptation, which jointly enforce global style and identity appearance consistency while preserving prompt fidelity. Unlike prior diffusion-based approaches that require fine-tuning or suffer from slow inference, Infinite-Story operates entirely at test time, delivering high identity and style consistency across diverse prompts. Extensive experiments demonstrate that our method achieves state-of-the-art generation performance, while offering over 6X faster inference (1.72 seconds per image) than the existing fastest consistent T2I models, highlighting its effectiveness and practicality for real-world visual storytelling.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Infinite-Story: A Training-Free Consistent Text-to-Image Generation (Infinite-Story: 一种免训练的一致文本到图像生成方法)
1.2. 作者
Jihun Park, Kyoungmin Lee, Jongmin Gim, Hyeonseo Jo, Minseok Oh, Wonhyeok Choi, Kyumin Hwang, Jaeyeul Kim, Minwoo Choi, Sunghoon Im。所有作者均来自韩国的 DGIST (大邱庆北科学技术院)。
1.3. 发表期刊/会议
论文作为预印本发表在 arXiv 上,链接为 https://arxiv.org/abs/2511.13002。
1.4. 发表年份
2025年
1.5. 摘要
本文提出了 Infinite-Story,一个针对多提示 (multi-prompt) 叙事场景的免训练 (training-free)、一致性文本到图像 (consistent text-to-image, T2I) 生成框架。该方法基于尺度自回归模型 (scale-wise autoregressive model),旨在解决一致性 T2I 生成中的两大挑战:身份不一致性 (identity inconsistency) 和 风格不一致性 (style inconsistency)。为应对这些问题,作者引入了三项互补技术:
- 身份提示替换 (Identity Prompt Replacement, IPR):通过减轻文本编码器 (text encoder) 中的上下文偏差 (context bias),以对齐跨提示的身份属性。
- 统一注意力引导机制 (unified attention guidance mechanism):包括自适应风格注入 (Adaptive Style Injection, ASI) 和 同步引导自适应 (Synchronized Guidance Adaptation, SGA)。这两种技术共同作用,在保持提示忠实度 (prompt fidelity) 的同时,强制实现全局风格和身份外观的一致性。
与先前需要微调 (fine-tuning) 或推理速度慢的扩散模型 (diffusion-based approaches) 不同,
Infinite-Story完全在测试时 (test time) 运行,并在各种提示下实现了高身份和风格一致性。大量实验表明,该方法在生成性能上达到了最先进 (state-of-the-art) 水平,同时推理速度比现有最快的一致性 T2I 模型快 6 倍以上(每张图像 1.72 秒),这突显了其在真实世界视觉叙事中的有效性和实用性。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2511.13002 PDF 链接: https://arxiv.org/pdf/2511.13002v1.pdf
2. 整体概括
2.1. 研究背景与动机
大规模扩散模型 (diffusion-based models) 在文本到图像 (Text-to-Image, T2I) 生成方面取得了显著进展,并广泛应用于设计原型、内容生成和视觉传播等创意任务。然而,这些模型在生成多个图像时往往缺乏一致性 (consistency),这限制了它们在需要连贯视觉叙事的场景中的应用,例如讲故事、角色驱动内容创作和漫画生成等。
当前研究面临的主要挑战和空白包括:
-
身份不一致性 (Identity Inconsistency):即使是基于相同角色的不同提示,生成的图像中角色的外观(如性别、年龄、物种)也可能发生变化。
-
风格不一致性 (Style Inconsistency):在多场景叙事中,图像的整体视觉风格(如插画风格、光照、纹理)难以保持统一,导致视觉叙事缺乏连贯性。
-
推理速度慢 (Slow Inference Speed):现有的大多数一致性 T2I 生成方法都基于扩散模型,即使不进行微调,每张图像的推理时间通常也超过 10 秒。这对于交互式应用来说过慢,无法满足用户体验需求。
最近出现的尺度自回归模型 (scale-wise autoregressive models) 通过采用“下一尺度预测 (next-scale prediction)”范式,显著提高了推理速度,但它们在保持跨图像一致性方面仍面临挑战。
因此,本文的切入点是利用尺度自回归模型在速度上的优势,并在此基础上开发一套免训练的机制,以同时解决身份和风格一致性问题,从而实现高效且连贯的多提示视觉叙事。
2.2. 核心贡献/主要发现
本文的主要贡献在于提出了 Infinite-Story 框架,一个在无需额外训练或微调的情况下,解决一致性文本到图像生成中身份和风格不一致问题的有效方案。
其核心贡献和主要发现包括:
- 首个免训练的尺度自回归一致性 T2I 框架:
Infinite-Story是第一个将免训练方法应用于尺度自回归模型以实现一致性 T2I 生成的框架,这在保持图像质量的同时显著提升了推理速度。 - 身份提示替换 (Identity Prompt Replacement, IPR) 技术:该技术通过统一身份提示嵌入 (identity prompt embeddings),有效缓解了文本编码器中的上下文偏差,从而在不同提示下保持一致的身份属性(如性别、年龄)。
- 统一注意力引导机制 (Unified Attention Guidance Mechanism):
- 自适应风格注入 (Adaptive Style Injection, ASI):在早期生成步骤的自注意力层 (self-attention layers) 中,通过将参考图像的特征注入到生成过程,对齐身份的外观和整体视觉风格。
- 同步引导自适应 (Synchronized Guidance Adaptation, SGA):将
ASI中计算出的插值权重 (interpolation weights) 应用于条件分支 (conditional branch) 和非条件分支 (unconditional branch),以在增强一致性的同时,维持无分类器引导 (Classifier-Free Guidance, CFG) 的效果,确保提示忠实度。
- 卓越的性能与效率:实验结果表明,
Infinite-Story在身份和风格一致性方面达到了最先进的水平,同时推理速度比现有最快的扩散模型快 6 倍以上(每张图像 1.72 秒),这使其非常适合实时和交互式视觉叙事应用。 - 泛化能力:作者通过将该方法应用于其他尺度自回归模型(如
Switti和HART),证明了其方法具有良好的泛化能力。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 文本到图像生成 (Text-to-Image Generation, T2I)
T2I 是一项通过文本描述生成对应图像的技术。近年来,随着大规模图像-文本数据集的出现,以及各种生成模型(如扩散模型、GANs、自回归模型)的发展,T2I 模型的性能得到了显著提升。这些模型能够将自然语言的语义信息转化为视觉特征,生成高质量、多样化的图像。
3.1.2. 扩散模型 (Diffusion Models)
扩散模型通过模拟扩散过程来生成图像。它们首先逐步向图像中添加噪声(前向扩散过程),然后学习如何逆转这个过程,从噪声中逐步恢复出清晰的图像(逆向去噪过程)。这类模型在图像生成质量方面表现出色,但也因其迭代去噪的特性,通常需要较长的推理时间。
3.1.3. 自回归模型 (Autoregressive Models, AR)
自回归模型通过逐个生成图像的像素或离散编码(如 token)来构建图像。传统的自回归模型由于逐像素生成,效率较低。后续发展出了通过生成掩码 token (masked token generation) 或“下一尺度预测 (next-scale prediction)”来提高效率的方法。本文工作基于后者,即尺度自回归模型 (scale-wise autoregressive models)。
3.1.4. 尺度自回归模型 (Scale-wise Autoregressive Models)
这类模型通过预测不同尺度的特征图来逐步生成图像,而非逐像素或逐 token。它们首先生成较低分辨率的特征图,然后逐步预测更高分辨率的残差特征图,最终由解码器 (decoder) 重建出高质量图像。这种“由粗到细”的生成方式在保证图像质量的同时,显著提高了推理效率。本文的具体实现是基于 Infinity 架构。
3.1.5. 文本编码器 (Text Encoder)
文本编码器是 T2I 模型中的关键组件,负责将输入的文本提示 (text prompt) 转换为模型可理解的数值表示,即文本嵌入 (text embeddings) 或上下文嵌入 (contextual embeddings)。这些嵌入包含了文本的语义信息,用于条件化图像生成过程。本文采用 Flan-T5 作为文本编码器。
3.1.6. 无分类器引导 (Classifier-Free Guidance, CFG)
CFG 是一种在扩散模型和自回归模型中广泛使用的技术,用于平衡生成图像的多样性 (diversity) 和对提示的忠实度 (fidelity to prompts)。它通过同时运行条件生成(基于提示)和非条件生成(无提示),然后根据两者的差异来引导生成过程,从而在不使用额外分类器的情况下增强提示忠实度。
3.2. 前人工作与技术演进
T2I 领域的技术发展大致可以分为以下几个阶段和方向:
- 早期
T2I模型:最初的T2I模型多基于生成对抗网络 (GANs) 或传统的自回归模型,但其生成质量和多样性有限。 - 扩散模型的兴起:
Ramesh et al. (2021)、Rombach et al. (2022)等工作推动了扩散模型在图像生成质量上的突破,使其成为当前主流。 - 自回归模型的效率提升:传统的自回归模型如
VQ-VAE后续发展为MaskGIT(Chang et al. 2022) 等通过掩码token预测来加速生成。近期,Infinity(Han et al. 2024) 等尺度自回归模型进一步提升了效率,实现了与扩散模型相当的图像质量,但推理速度更快。 - 一致性生成的需求:随着
T2I模型的普及,用户对生成图像一致性的需求日益增长,尤其是在视觉叙事、角色创作等场景。- 个性化图像生成 (Personalized Image Generation):旨在生成具有用户特定特征的图像。
- 主题驱动 (Subject-driven):如
DreamBooth(Ruiz et al. 2023)、Textual Inversion(Gal et al. 2022) 等,通过微调或适配预训练编码器来注入参考图像中的概念嵌入。 - 风格驱动 (Style-driven):如
StyleDrop(Sohn et al. 2023)、Style Aligned(Hertz et al. 2024) 等,通过优化风格特征或调整注意力机制来确保视觉一致性。
- 主题驱动 (Subject-driven):如
- 一致性文本到图像生成 (Consistent Text-to-Image Generation):这是个性化生成的一个特定分支,专注于在多个图像中保持身份一致性。
- 早期工作如
CLIP(Radford et al. 2021) 增强了文本编码器的语言能力,并通过调整注意力层权重或利用提示嵌入变化来保持身份一致性。 1Prompt1Story(Liu et al. 2025) 关注在单一提示下生成一致性图像,并提出了相应的评估基准。ConsiStory(Tewel et al. 2024) 专注于跨场景的身份一致性。
- 早期工作如
- 个性化图像生成 (Personalized Image Generation):旨在生成具有用户特定特征的图像。
3.3. 差异化分析
本文 Infinite-Story 与上述相关工作的主要区别和创新点在于:
- 基础模型不同:大多数现有的一致性
T2I方法都基于扩散模型,而Infinite-Story构建在尺度自回归模型Infinity之上。这使得它能在保证质量的同时,实现显著更快的推理速度。 - 免训练范式:与许多需要微调或额外训练的个性化生成方法(如
DreamBooth、IP-Adapter)不同,Infinite-Story是完全免训练 (training-free) 的,所有技术都集成在推理管线中。 - 同时解决身份和风格一致性:以往的工作多侧重于身份一致性,而
Infinite-Story通过IPR解决身份属性偏差,通过ASI和SGA同时解决身份外观和全局视觉风格的一致性,且兼顾提示忠实度。 - 效率与实用性:在实现最先进的一致性生成性能的同时,
Infinite-Story实现了每张图像 1.72 秒的推理速度,比最快的扩散模型快 6 倍以上,使其在实际应用(如实时视觉叙事)中更具优势。 - 上下文偏差缓解:首次引入
IPR技术,明确解决文本编码器中因上下文变化引起的身份属性偏差,这是先前工作较少关注的方面。
4. 方法论
4.1. 方法原理
Infinite-Story 旨在为多提示叙事场景生成一系列在身份和风格上保持一致的图像。其核心思想是利用一个参考图像(默认是批处理中的第一个样本)的身份和风格特征,并通过巧妙的文本提示处理和注意力机制引导,将其一致性特征传播到批处理中的所有其他图像。整个过程是免训练的,直接集成到现有的尺度自回归模型的推理管线中。
该方法通过三个主要技术协同工作:
- 身份提示替换 (Identity Prompt Replacement, IPR):解决文本编码器在不同上下文提示下对同一身份生成不同属性的问题。
- 自适应风格注入 (Adaptive Style Injection, ASI):通过在早期生成步骤中注入参考图像的注意力特征,增强身份外观和全局视觉风格的一致性。
- 同步引导自适应 (Synchronized Guidance Adaptation, SGA):确保
ASI在增强一致性的同时不会破坏Classifier-Free Guidance (CFG)的平衡,从而保持生成图像对提示的忠实度。
4.2. 核心方法详解
4.2.1. 整体流程
Infinite-Story 基于 Infinity 架构 (Han et al. 2024),该架构采用“下一尺度预测 (next-scale prediction)”方案。模型包括一个预训练的文本编码器 (使用 Flan-T5)、一个自回归预测量化残差 步特征图 的变换器 、以及一个从最终特征图重建图像的解码器 。
给定 个文本提示 ,每个提示可分为身份部分 和表达部分 。目标是生成 个相应的图像 ,这些图像在身份和整体风格上保持一致。所有提示被串联起来作为一个批处理并行处理。
以下是模型的生成过程: 其中:
-
:最终生成的图像。
-
:图像解码器 (image decoder),从最终特征图 重建图像。
-
:在最终步 的特征图。
-
:在步骤 时累积的特征图,由所有前面步骤的残差特征图 经过双线性上采样 (bilinear upsampling) 到 尺寸后累加得到。
-
:一个双线性上采样函数,将特征图上采样到 尺寸。
-
:在步骤 生成的量化残差特征图,其中 是批处理大小(即图像数量), 是在该步骤的空间尺寸。
-
:自回归变换器,根据前一步的特征图 和文本上下文嵌入 预测当前步的残差特征图 。
-
\mathbf{T} = E_T(\mathbf{t}) = \{ (T^n_{iden}, T^n_{exp}) \}_{n=1}^N:文本编码器 对输入文本提示 进行编码后得到的上下文嵌入,其中 和 分别是第 个样本的身份和表达特征。 -
:预训练的文本编码器,采用
Flan-T5。 -
初始特征图 由 初始化。
如图 4 所示,首先应用身份提示替换 (Identity Prompt Replacement, IPR) 来确保一致的身份属性。在生成过程中,自适应风格注入 (Adaptive Style Injection, ASI) 和 同步引导自适应 (Synchronized Guidance Adaptation, SGA) 都在早期生成步骤 的自注意力层中应用,以促进所有生成图像中一致的身份外观和全局风格。
该图像是示意图,展示了无限故事框架的整体流程。图中包含文本编码器、身份提示替换模块和统一注意力引导机制,分别处理文本提示并生成图像。文本编码器将一组提示 和 转换为上下文嵌入 ,随后应用身份提示替换以增强一致性。最终,残差特征图通过变换器 解码成最终图像 。字符位置信息和风格指导通过适应性风格注入与同步指导适应共同作用。
Figure 4: Overall pipeline of our method. The text encoder E _ { T } (Chung et al. 2024) processes a set of text prompts t, producing contextual embeddings T that condition the transformer. Identity Prompt Replacement is applied to before generation to y y produces residual feature maps, which are decoded into final images I via the image decoder.
4.2.2. 身份提示替换 (Identity Prompt Replacement, IPR)
背景:生成模型通常会反映训练数据中的偏差。例如,一个描述动态动作的提示“a dog springing toward a frisbee”可能倾向于生成活泼的威尔士柯基犬,而一个描述静态场景的提示“a dog on a porch swing with pillows”则可能倾向于生成温顺的金毛猎犬。这种上下文偏差 (context bias) 导致文本编码器对同一身份(如“a dog”)在不同语境下产生不同的语义解释,进而导致生成图像中身份属性(如性别、年龄、物种)的不一致性。
IPR 的目标:缓解文本编码器固有的上下文偏差,通过对齐身份相关的属性,确保跨提示的身份一致性。
IPR 的方法: 本文提出了一种身份提示替换 (IPR) 策略。具体来说,对于批处理中的所有身份嵌入 ,它们都会被批处理中参考实例(默认是批处理中的第一个样本)的身份嵌入所替换。为了保持身份与表达之间的比例关系,替换后的身份嵌入与原始表达嵌入进行组合。
IPR 的定义如下: 其中:
-
:经过 IPR 处理后的新的上下文嵌入。
-
:经过 IPR 处理后的身份提示嵌入。
-
:经过 IPR 处理后的表达提示嵌入。
-
:批处理中第一个样本(参考实例)的身份提示嵌入。所有的身份嵌入都会被替换为它。
-
:第 个样本的原始身份提示嵌入。
-
:第 个样本的原始表达提示嵌入。
-
:这表示通过一个比例因子来调整第 个样本的表达嵌入。这个比例因子是参考身份嵌入的模长与第 个原始身份嵌入的模长之比。这里的除法和乘法是对嵌入向量的元素级操作或模长缩放。其目的是在替换身份嵌入的同时,保持表达嵌入的相对强度和方向,以维持原始提示的语义比例。
IPR 的效果:通过强制所有样本使用相同的身份嵌入,
IPR确保了身份相关的属性(如性别、年龄、物种)在语义层面保持一致,从而减轻了文本编码器中因上下文变化带来的偏差。
4.2.3. 统一注意力引导 (Unified Attention Guidance)
即使 IPR 解决了上下文层面的身份属性不一致,但在外观层面(如面部特征、着装风格)和全局视觉风格(如光照、渲染方式)上,仍可能存在不一致。为解决此问题,本文提出了统一注意力引导机制,包含 Adaptive Style Injection (ASI) 和 Synchronized Guidance Adaptation (SGA)。
4.2.3.1. 自适应风格注入 (Adaptive Style Injection, ASI)
ASI 的目标:在外观层面统一身份和全局视觉风格。
ASI 的方法:
ASI 在早期生成步骤 的自注意力层中操作。选择早期步骤的原因是,有研究发现早期生成阶段对风格对齐 (style alignment) 具有关键作用。
具体操作如下(如图 4 所示):
对于批处理中的每个样本 ,我们执行以下步骤:
-
替换 Key 特征:将其自注意力中的所有 Key 特征 替换为参考样本(第一个样本)的 Key 特征 。 其中:
- :第 个样本在步骤 时经过替换后的 Key 特征。
- :参考样本(第一个样本)在步骤 时的 Key 特征。 通过这种替换,模型被引导去关注与参考样本语义一致的区域。
-
自适应插值 Value 特征:计算第 个样本的 Value 特征 与参考样本的 Value 特征 之间的余弦相似度,并以此计算一个自适应插值权重 。然后使用此权重对 Value 特征进行插值。 其中:
-
:第 个样本在步骤 时经过插值后的 Value 特征。
-
:第 个样本在步骤 时的 Value 特征。
-
:参考样本在步骤 时的 Value 特征。
-
:自适应插值权重,根据 和 的余弦相似度计算。
-
: 和 之间的余弦相似度。
-
:一个缩放系数 (scaling coefficient),用于调整插值权重的强度,其值在实验中设定为 0.85。
ASI 的效果:这种相似度引导的自适应操作促进了批处理中身份外观和全局视觉风格的平滑、按比例对齐,从而实现了更强的外观一致性。
-
4.2.3.2. 同步引导自适应 (Synchronized Guidance Adaptation, SGA)
SGA 的目标:在应用 ASI 提升一致性的同时,维护 Classifier-Free Guidance (CFG) 的平衡,从而确保生成图像的提示忠实度。
背景:CFG 通过对比条件(有提示)和非条件(无提示)生成分支的输出,来增强提示忠实度。如果只将 ASI 应用于条件分支,可能会打破这种平衡,导致 CFG 效果下降,进而影响生成图像对提示的忠实度。
SGA 的方法:
为了解决上述问题,SGA 将相同的 Key 替换和 Value 插值操作应用于非条件分支,并重用从条件分支计算出的自适应插值权重 。
具体操作如下:
对于非条件分支,我们修改 Key 和 Value 特征:
其中:
-
:第 个样本在步骤 时非条件分支中经过替换后的 Key 特征。
-
:参考样本在步骤 时非条件分支的 Key 特征。
-
:第 个样本在步骤 时非条件分支中经过插值后的 Value 特征。
-
:第 个样本在步骤 时非条件分支的 Value 特征。
-
:参考样本在步骤 时非条件分支的 Value 特征。
-
:这是从条件分支(公式 (3))共享过来的自适应插值权重。
SGA 的效果:通过在条件分支和非条件分支之间同步特征自适应,
SGA保持了无分类器引导的预期效果,使生成的图像能够忠实地反映其文本提示,同时保持一致的主体身份和整体风格。
4.2.4. 实施细节
- 基础模型:采用预训练的
Infinity 2B模型作为基线。 - 尺度预测:模型在 12 个步骤中执行尺度预测。
- 码本 (Codebook):使用一个维度为 的码本,生成分辨率为 且有 32 个通道的量化特征图。
- 早期生成步骤:
ASI和SGA仅在早期生成步骤 中应用。 - 缩放系数:缩放系数 设置为 0.85。
- 参数冻结:模型的其他所有组件保持不变,所有参数在推理过程中被冻结。
- 推理速度:在单个
A6000 GPU上并行生成四张 图像的总时间约为 6.88 秒,即每张图像 1.72 秒。 - 批处理策略:当提示数量超过四个时,采用分批生成策略:每个批处理中,与第一个表达提示配对的身份提示始终放在第一位,其余位置填充其他提示,以确保身份信息在所有生成批处理中保持一致并有效传播。
5. 实验设置
5.1. 数据集
实验遵循 1Prompt1Story (Liu et al. 2025) 提出的评估协议,该协议是 ConsiStory (Tewel et al. 2024) 基准的扩展。 通过引入更多样化的主题、提示描述和风格来扩展评估范围。
- 评估范围:200 个不同的提示集,总共生成多达 1,500 张图像。
- 内容多样性:涵盖广泛的主题、人物、物体和场景,以全面评估模型在不同情境下保持一致性的能力。
5.2. 评估指标
本文使用了 1Prompt1Story 的评估协议,并额外加入了风格一致性指标。对所有评估指标,遵循以下详细说明:
5.2.1. 提示忠实度 (Prompt Fidelity)
CLIP 文本分数 (CLIP-T)
- 概念定义:
CLIP-T衡量生成图像与其对应文本提示之间的语义匹配程度。高CLIP-T值表示生成图像与文本描述的内容越吻合。 - 数学公式:
- 符号解释:
- :缩放因子,本文设定为 2.5。
- :余弦相似度函数。
- :
CLIP模型(ViT-B/32)对生成图像进行编码后得到的图像嵌入。 - :
CLIP模型(ViT-B/32)对文本提示进行编码后得到的文本嵌入。 - 计算细节:在计算前,每个提示都会加上前缀“A photo depicts”。最终分数是所有样本的平均值。
5.2.2. 身份一致性 (Identity Consistency)
DreamSim
- 概念定义:
DreamSim是一种感知相似度指标,旨在更好地与人类对图像相似性的判断对齐。它是一个基于距离的度量,值越低表示图像越相似,即身份一致性越高。 - 数学公式:
DreamSim本身是一个距离度量。在计算和谐分数 (Harmonic Score) 时,为了使其与相似度度量保持一致,通常将其转换为相似度:。其内部计算基于学习到的感知特征空间中的距离,具体公式较为复杂,但其核心思想是计算特征向量间的欧氏距离或余弦距离。 - 符号解释:
- :
DreamSim模型计算的图像对之间的距离分数。 - 计算细节:通过
CarveKit移除图像背景,并用随机噪声替换,以确保相似度测量仅反映主体的身份,避免背景干扰。计算的是生成图像对之间的平均成对距离。
- :
CLIP 图像相似度 (CLIP-I)
- 概念定义:
CLIP-I衡量图像嵌入之间的余弦相似度,反映了不同生成图像中主体身份的视觉相似性。高CLIP-I值表示身份一致性越高。 - 数学公式:
- 符号解释:
- :余弦相似度函数。
- :
CLIP模型(ViT-B/16)对第一张图像进行编码后得到的图像嵌入。 - :
CLIP模型(ViT-B/16)对第二张图像进行编码后得到的图像嵌入。 - 计算细节:与
DreamSim类似,也通过CarveKit移除图像背景并替换为随机噪声,以隔离主体身份的影响。计算的是来自相同身份提示的生成图像之间的平均成对相似度。
5.2.3. 风格一致性 (Style Consistency)
DINO 相似度
- 概念定义:
DINO相似度通过计算图像在自监督学习模型DINO特征空间中的相似度来评估全局视觉外观的一致性。它能捕捉图像的渲染方式、背景、纹理等整体视觉风格元素。高DINO值表示风格一致性越高。 - 数学公式:
- 符号解释:
- :余弦相似度函数。
- :
DINO ViT-B/8模型提取的CLStoken特征,用于表示第一张图像的全局视觉特征。 - :
DINO ViT-B/8模型提取的CLStoken特征,用于表示第二张图像的全局视觉特征。 - 计算细节:计算的是来自相同身份提示的生成图像之间的平均成对
DINO相似度。
5.2.4. 和谐分数 (Harmonic Score, )
- 概念定义: 是一个综合性的评估指标,通过计算上述四个核心指标(
CLIP-T、CLIP-I、、DINO)的调和平均值 (Harmonic Mean, HM) 来提供对整体生成质量的平衡视图。它对任何一个单一指标的低分都有显著的惩罚,确保了模型在所有维度上都表现良好。 - 数学公式: 其中,调和平均值的定义为:
- 符号解释:
- :调和平均值函数。
- :CLIP 文本分数。
- :CLIP 图像相似度。
- :将
DreamSim距离转换为相似度度量。 - :DINO 相似度。
5.2.5. 实施细节
- 评估脚本:采用
1Prompt1Story的官方评估脚本,并进行少量修改以包含DINO指标。 - 硬件:所有指标均在单个
A6000 GPU上使用PyTorch计算。 - 背景移除:对所有基于身份的指标(
DreamSim和CLIP-I)一致应用背景移除。 - 特征提取:所有特征提取均遵循各模型提供的标准预处理流程。
5.3. 对比基线
本文将 Infinite-Story 与多种最先进的一致性文本到图像生成模型进行比较,包括基于图像的(需要参考图) 和 非参考的 方法。
5.3.1. 基于图像的(需要参考图像)一致性 T2I 模型
这些模型通常使用 Stable Diffusion XL (SDXL) (Podell et al. 2023) 作为主干网络,并且需要一个外部参考图像作为额外输入。
-
IP-Adapter (Ye et al. 2023):一个可插拔的适配器,用于将图像提示注入到
T2I模型中,以实现定制化生成。 -
PhotoMaker (Li et al. 2024):通过堆叠 ID 嵌入 (stacked ID embedding) 来定制逼真人像照片的方法。
-
StoryDiffusion (Zhou et al. 2024b):利用一致性自注意力 (consistent self-attention) 进行长范围图像和视频生成。
-
OneActor (Wang et al. 2024):通过簇条件引导 (cluster-conditioned guidance) 实现一致性主体生成。
参考图像生成策略:对于这些需要参考图像的方法,参考图像的生成方式是:仅将完整提示中的身份部分提供给相应的基线模型来生成。例如,对于提示“A graceful unicorn galloping through a flower field”,参考图像由“A graceful unicorn”生成,然后此参考图像在序列的所有提示中保持一致使用。
5.3.2. 非参考(无需额外参考图像)一致性 T2I 模型
这些模型也通常使用 Stable Diffusion XL 作为主干网络,但不需要外部参考图像。
-
The Chosen One (Avrahami et al. 2024):在
T2I扩散模型中生成一致性角色。 -
ConsiStory (Tewel et al. 2024):一种免训练的一致性
T2I生成方法。 -
1Prompt1Story (Liu et al. 2025):通过单个提示实现免训练一致性
T2I生成。采样设置:对于所有对比模型,都采用其开源实现中提供的默认
DDIM采样设置。为了保持比较的一致性,所有模型(包括The Chosen One的非官方实现)的DDIM采样步骤固定为 50 步。
6. 实验结果与分析
6.1. 定量比较
以下是原文 Table 1 的结果,它比较了 Infinite-Story 与各种最先进的一致性文本到图像生成模型。
| Method | Train-Free | SH ↑ | DINO ↑ | CLIP-T ↑ | CLIP-I ↑ | DreamSim ↓ | Inference Time (s) ↓ |
|---|---|---|---|---|---|---|---|
| Vanilla SDXL (Podell et al. 2023) | - | 0.7408 | 0.6067 | 0.9074 | 0.8793 | 0.3385 | 10.27 |
| Vanilla Infinity (Han et al. 2024) | - | 0.7891 | 0.6965 | 0.8836 | 0.8955 | 0.2780 | 1.71 |
| IP-Adapter (Ye et al. 2023) | X | 0.8323 | 0.7834 | 0.8661 | 0.9243 | 0.2266 | 10.40 |
| PhotoMaker (Li et al. 2024) | X | 0.7223 | 0.6516 | 0.8651 | 0.8465 | 0.3996 | 19.52 |
| The Chosen One (Avrahami et al. 2024) | X | 0.6494 | 0.5824 | 0.8162 | 0.7943 | 0.4893 | 13.47 |
| OneActor (Wang et al. 2024) | X | 0.8088 | 0.7172 | 0.8859 | 0.9070 | 0.2423 | 24.94 |
| ConsiStory (Tewel et al. 2024) | ✓ | 0.7902 | 0.6895 | 0.9019 | 0.8954 | 0.2787 | 37.76 |
| StoryDiffusion (Zhou et al. 2024b) | ✓ | 0.7634 | 0.6783 | 0.8403 | 0.8917 | 0.3212 | 23.68 |
| 1Prompt1Story (Liu et al. 2025) | ✓ | 0.8395 | 0.7687 | 0.8942 | 0.9117 | 0.1993 | 22.57 |
| Ours | ✓ | 0.8538 | 0.8089 | 0.8732 | 0.9267 | 0.1834 | 1.72 |
分析:
-
整体性能 ():
Infinite-Story(Ours) 取得了最高的 分数(0.8538),这表明它在提示忠实度、身份一致性和风格一致性之间取得了最佳平衡。这尤其引人注目,因为我们的方法是免训练的。 -
风格一致性 (DINO):我们的方法在
DINO相似度上排名第一(0.8089),远超其他模型,证实了其在保持全局视觉风格方面具有卓越性能。 -
身份一致性 (CLIP-I, DreamSim):
Infinite-Story在CLIP-I和DreamSim上也取得了最佳表现(CLIP-I为 0.9267,DreamSim为 0.1834),这验证了其在保留主体身份方面的鲁棒性,即使在移除了背景后依然如此。 -
提示忠实度 (CLIP-T):虽然
Infinite-Story的CLIP-T(0.8732) 略低于一些扩散模型(如Vanilla SDXL的 0.9074 或ConsiStory的 0.9019),但考虑到其在一致性方面的显著提升,这个权衡是合理的。在消融实验中,我们看到SGA的引入旨在平衡提示忠实度和一致性。 -
推理速度 (Inference Time):这是
Infinite-Story的一个突出优势。它仅需 1.72 秒每张图像,比现有最快的扩散模型快 6 倍以上(例如IP-Adapter10.40 秒,1Prompt1Story22.57 秒)。这使其成为实时和交互式视觉叙事场景的理想选择。 -
与
1Prompt1Story的比较:1Prompt1Story作为另一个免训练基线,也表现出竞争力,但我们的方法在风格和身份一致性以及整体 上均超越它,并且速度快了 13 倍以上。这些结果强调了
Infinite-Story不仅提供了高质量和一致的生成,而且效率卓越,适用于实际的实时生成场景。
6.2. 定性比较
该图像是一个比较图,展示了多种基于共享身份提示组合不同表达提示下生成的图像。每一行呈现了一系列图像,左侧为不同风格的角色,而右侧则展示了多种小动物的细腻插图,体现了各个生成模型在一致性文本到图像生成上的差异。
Figure 6: Qualitative comparison with state-of-the-art consistent T2I generation models. Each row depicts a set of images generated using a shared identity prompt combined with varying expression prompts.
图 6 展示了不同一致性 T2I 生成模型在两个主题(精灵角色和水彩风格刺猬)上的定性结果。
分析:
-
IP-Adapter:在保留主体身份(尤其是面部结构和姿态)方面表现出色。然而,它往往无法充分体现提示的细微差别,例如在精灵示例中,“guarding a hidden woodland village”等不同表达提示未能产生显著的上下文变化。
-
OneActor 和 1Prompt1Story:能够很好地捕捉表达提示,但在背景和渲染细节上出现风格变化,破坏了视觉连贯性。
-
StoryDiffusion 和 ConsiStory:展示了良好的风格一致性,但在跨提示集的主体身份上存在不一致。
-
PhotoMaker 和 The Chosen One:虽然生成的结果具有美感,但在提示忠实度、身份一致性和风格一致性这三个方面都表现不佳。
-
Infinite-Story (Ours):在精灵和刺猬的场景中,生成的图像清晰地反映了提示的各种变化,同时始终保持主体身份的一致性和统一的视觉风格。例如,精灵角色在不同场景(如“reading ancient scrolls in a cozy library”、“practicing archery in a sunlit glade”)中保持了相同的面部特征和服装风格,而刺猬在不同动作和背景(如“sketch of a cheerful hobbit with curly hair and bare feet”、“holding a tiny paintbrush and canvas”)中也保持了水彩插画的统一风格和可识别的外观。
这些定性结果证实了
Infinite-Story能够生成在身份、风格和提示忠实度方面都高度一致的图像序列。
6.3. 消融实验
6.3.1. 定量分析
以下是原文 Table 2 的结果,展示了对 IPR、ASI 和 SGA 各组件贡献的消融研究。
| # | IPR | ASI | SGA | Sh ↑ | DINO ↑ | CLIP-T ↑ | CLIP-I ↑ | DreamSim ↓ |
|---|---|---|---|---|---|---|---|---|
| (a) | 0.7891 | 0.6965 | 0.8836 | 0.8955 | 0.2780 | |||
| (b) | ✓ | 0.8013 | 0.7119 | 0.8814 | 0.9046 | 0.2569 | ||
| (c) | ✓ | ✓ | 0.8481 | 0.8082 | 0.8625 | 0.9242 | 0.1931 | |
| (d) | ✓ | ✓ | ✓ | 0.8538 | 0.8089 | 0.8732 | 0.9267 | 0.1834 |
分析:
-
基线 (a):
Vanilla Infinity模型(无任何所提方法),其 为 0.7891。 -
引入 IPR (b):仅引入身份提示替换 (IPR) 后,
CLIP-I和DreamSim显著提高(CLIP-I从 0.8955 提高到 0.9046,DreamSim从 0.2780 降低到 0.2569)。这证实了IPR在通过缓解文本编码器上下文偏差来对齐身份相关属性方面的有效性。DINO也有小幅提升(0.6965 -> 0.7119),表明身份属性的统一对风格也有正面影响。 -
引入 ASI (c):在
IPR的基础上引入自适应风格注入 (ASI) 后,DINO相似度大幅增加(从 0.7119 提高到 0.8082),表明全局风格一致性显著改善。同时,CLIP-I和DreamSim也进一步提升(CLIP-I达到 0.9242,DreamSim降低到 0.1931),反映了身份外观对齐的增强。然而,CLIP-T略有下降(从 0.8814 降低到 0.8625),这可能是因为强风格注入可能部分覆盖了提示的局部语义。 -
引入 SGA (d):最后,加入同步引导自适应 (SGA) 后,
CLIP-T有了有意义的回升(从 0.8625 提高到 0.8732),这表明SGA成功地恢复了CFG条件分支和非条件分支之间的平衡,从而更好地保持了提示忠实度。同时,整体一致性指标(DINO、CLIP-I、DreamSim)也进一步得到巩固,最终实现了最高的和谐分数 (0.8538)。尽管与基线相比,最终配置的
CLIP-T略有下降,但整体和谐分数最高,表明我们的方法成功地平衡了身份连贯性、风格一致性和提示忠实度,且无需任何额外微调。
6.3.2. 定性分析
该图像是图表,展示了不同配置下的生成效果对比,其中(a)-(d)分别对应于表2中的配置。展示了水莲花和红狐狸的不同场景,突出了风格与身份一致性的视觉效果。
Figure 7: Qualitative analysis of ablation study. The results from (a)-(d) correspond to the configurations in Table 2.
图 7 展示了消融研究的定性结果,使用了水莲花和红狐狸两个例子。
-
(a) 无任何所提方法:生成的图像在主体身份和视觉风格上都表现出严重的不一致性。例如,水莲花的种类和渲染风格各不相同,红狐狸的皮毛纹理和面部形状也明显波动。
-
(b) 仅引入 IPR:引入身份提示替换 (IPR) 后,身份相关属性得到改善。水莲花在不同提示下保持了更统一的花朵结构,红狐狸也保留了更一致的面部特征和身体比例。然而,光照和渲染等全局风格元素仍然不一致。
-
(c) 引入 IPR + ASI:在
IPR基础上加入自适应风格注入 (ASI) 后,全局风格和外观层面的身份一致性进一步增强。水莲花展现出稳定的色彩和笔触模式,红狐狸在不同场景中也保持了一致的阴影和背景纹理。但某些提示特有的语义被弱化,且偶尔出现不自然的轮廓或扭曲纹理等视觉伪影,这可能是由于强风格注入可能覆盖了局部细节。 -
(d) 引入 IPR + ASI + SGA(完整方法):应用完整方法,即包含同步引导自适应 (SGA) 后,条件分支和非条件分支之间的平衡得以恢复,从而更好地保留了提示忠实度。这使得生成的结果在视觉上连贯,同时保持了主体外观的一致性和统一的风格渲染,并准确反映了提示特有的变化,例如在不同提示下,红狐狸的姿态、上下文和光照都恰如其分。
这些定性趋势与表 2 中观察到的定量改进是一致的。
6.4. 用户研究
以下是原文 Table 3 的结果,展示了用户研究的偏好百分比。
| Method | Identity ↑ | Style ↑ | Prompt ↑ |
|---|---|---|---|
| 1Prompt1Story (Liu et al. 2025) | 18.0% | 13.2% | 28.2% |
| OneActor (Wang et al. 2024) | 7.2% | 7.2% | 10.6% |
| IP-Adapter (Ye et al. 2023) | 16.4% | 29.6% | 4.7% |
| Ours | 58.4% | 50.0% | 56.5% |
分析:
用户研究的结果与定量评估一致,表明 Infinite-Story 在用户感知方面也显著优于竞争方法。
-
身份一致性 (Identity Consistency):
Infinite-Story获得了 58.4% 的用户偏好,远超1Prompt1Story(18.0%) 和IP-Adapter(16.4%)。 -
风格一致性 (Style Consistency):
Infinite-Story获得了 50.0% 的用户偏好,也显著高于IP-Adapter(29.6%) 和1Prompt1Story(13.2%)。 -
提示忠实度 (Prompt Fidelity):
Infinite-Story获得了 56.5% 的用户偏好,再次领先于1Prompt1Story(28.2%) 和OneActor(10.6%)。这些结果表明,
Infinite-Story在身份、风格和提示一致性方面都表现出强大的、人类可感知的性能,进一步验证了其在多提示场景下生成高质量、连贯图像的能力。
6.5. 泛化能力
以下是原文 Table 4 的结果,展示了将 Infinite-Story 的技术应用于其他尺度自回归模型家族的效果。
| Method | SH↑ | DINO ↑ | CLIP-T ↑ | CLIP-I ↑ | DreamSim ↓ |
|---|---|---|---|---|---|
| Vanilla Switti (Voronov et al. 2024) | 0.7719 | 0.6595 | 0.8904 | 0.8871 | 0.2934 |
| Switti + Ours | 0.8146 | 0.7441 | 0.8756 | 0.9018 | 0.2398 |
| Vanilla HART (Tang et al. 2024) | 0.7434 | 0.6381 | 0.8848 | 0.8714 | 0.3488 |
| HART + Ours | 0.7894 | 0.7048 | 0.8505 | 0.8982 | 0.2945 |
分析:
- 将
Infinite-Story的方法应用于Switti(Voronov et al. 2024) 和HART(Tang et al. 2024) 这两个其他尺度自回归模型时,均观察到明显的性能提升。 - Switti + Ours:
SH从 0.7719 提高到 0.8146,DINO、CLIP-I和DreamSim均有显著改善。这表明我们的方法能够有效地增强Switti模型的一致性。 - HART + Ours:
SH从 0.7434 提高到 0.7894,DINO、CLIP-I和DreamSim同样得到明显改善。 - 这些结果有力地证明了
Infinite-Story提出的技术(IPR、ASI、SGA)具有良好的泛化能力 (generalization capability),不仅限于Infinity模型,也适用于更广泛的尺度自回归架构,能够普遍提升它们在一致性生成方面的表现。
7. 总结与思考
7.1. 结论总结
本文提出了 Infinite-Story,一个创新的免训练 (training-free) 框架,旨在解决多提示 (multi-prompt) 叙事场景中一致性文本到图像生成 (consistent text-to-image generation, T2I) 的挑战。该框架基于尺度自回归模型 (scale-wise autoregressive model) Infinity,通过引入三项关键技术实现了卓越的性能:
-
身份提示替换 (Identity Prompt Replacement, IPR):通过统一身份提示嵌入,有效缓解了文本编码器中的上下文偏差,确保了跨提示的身份属性一致性。
-
自适应风格注入 (Adaptive Style Injection, ASI):在早期生成步骤的自注意力层中注入参考特征,增强了身份外观和全局视觉风格的一致性。
-
同步引导自适应 (Synchronized Guidance Adaptation, SGA):通过在条件分支和非条件分支中同步注意力适应,在保持提示忠实度 (prompt fidelity) 的同时,维护了
Classifier-Free Guidance (CFG)的有效性。实验结果表明,
Infinite-Story在身份和风格一致性方面达到了最先进的性能,同时实现了每张图像 1.72 秒的推理速度,比现有最快的扩散模型快 6 倍以上。用户研究也进一步证实了其在人类感知方面的一致性优势。此外,该方法在其他尺度自回归模型上的成功应用证明了其良好的泛化能力。
7.2. 局限性与未来工作
作者指出了 Infinite-Story 的一个主要局限性:
-
对参考图像 (Anchor) 选择的敏感性:
Infinite-Story依赖批处理中的单个参考图像来传播身份和风格特征。如果这个参考图像质量较低或风格不符合预期,这种缺陷可能会传播到整个批处理的生成图像中。由于该方法不改变底层Infinity模型的生成能力,其成功与否与初始输出的质量密切相关。基于此局限性,作者提出了未来可能的研究方向:
-
自适应锚点选择或校正机制:开发能够智能选择或纠正参考图像的策略,以减轻对低质量或不理想参考图像的敏感性。
-
时间一致性视频生成:将当前方法扩展到视频生成领域,以支持视频中身份和风格的时间一致性 (temporal consistency)。
7.3. 个人启发与批判
7.3.1. 个人启发
- 免训练范式的潜力:
Infinite-Story的免训练特性是一个巨大的优势。它意味着无需耗费大量计算资源进行模型微调,即可在现有预训练模型上实现高级功能。这对于资源受限的团队或需要快速迭代的场景具有极高的实用价值。这种在推理阶段通过巧妙设计引导机制来提升性能的思路,对于其他生成任务也有借鉴意义。 - 尺度自回归模型的价值:本文再次强调了尺度自回归模型在速度和质量上的平衡。在生成领域,推理速度往往是决定实际应用可行性的关键因素。结合高效的基础模型和免训练的一致性策略,为实时交互式应用开辟了道路。
- 对上下文偏差的洞察:
IPR模块解决文本编码器中上下文偏差的思路非常精妙。这表明,即使是看似简单的文本提示,其深层语义解释也可能受到上下文的微妙影响,导致生成结果的不一致。对这种“隐性偏差”的识别和修正,对于提升生成模型的鲁棒性和可控性至关重要。 - 多维度一致性的综合考量:论文不仅关注身份,还兼顾了风格和提示忠实度,并通过调和平均分数 来综合评估。这种全面的评估视角有助于推动一致性生成研究走向更成熟的阶段,避免“顾此失彼”的问题。
7.3.2. 批判与潜在改进
-
对参考图像质量的依赖:虽然作者指出了对参考图像选择的敏感性,但这是一个核心问题。如果用户无法提供一个高质量或理想的初始参考图像,整个生成序列的质量都会受到影响。未来的工作可以探索:
- 自动质量评估与优化:模型能否自动评估初始参考图像的质量,并在发现问题时提供改进建议或进行自适应修正?
- 多参考图像融合:允许用户提供多个参考图像,模型通过融合它们的特征来创建一个更鲁棒、更具代表性的“锚点”身份和风格。
- 语义驱动的锚点生成:除了图像作为锚点,能否通过更高级的语义描述来生成一个“理想”的锚点特征,以减少对实际图像的依赖?
-
CLIP-T的权衡:尽管SGA旨在提升CLIP-T,但最终结果仍略低于某些基线。这表明在追求极致的一致性时,可能会对提示忠实度产生一定的负面影响。未来的研究可以在ASI和SGA的设计中探索更精细的平衡机制,例如根据提示的复杂性或用户偏好动态调整 值,或者引入其他形式的提示引导来弥补潜在的语义损失。 -
IPR的具体实现细节:公式 中的向量除法和乘法缺乏详细解释。如果这仅仅是模长上的缩放,那可能会损失向量方向上的信息。如果是元素级操作,其语义合理性需要更深入的探讨。这部分可以更详细地阐明,例如提供具体的数学操作定义和其背后的动机。 -
更复杂的叙事结构:当前的“多提示叙事”主要体现在序列中的连贯性。对于更复杂的叙事结构,例如包含多个独立角色、角色之间的交互、或者时间线上的跳跃等,现有框架可能还需要进一步扩展。例如,如何处理多个主角之间的身份一致性,或者在角色发生重大外观变化(如换装、老化)时如何保持“一致性”的语义。
-
用户控制粒度:虽然是免训练,但用户对一致性程度的控制粒度仍可探索。例如,是否允许用户指定在哪些图像上强调身份一致性,哪些强调风格一致性,或者在何时允许身份或风格发生可控的变化。
总的来说,
Infinite-Story在免训练、高效且一致性生成方面迈出了重要一步,为未来的视觉叙事应用提供了强大且实用的工具。其创新点在于对现有模型架构的巧妙利用和对生成偏差的深刻理解,为该领域的研究开辟了新的方向。
相似论文推荐
基于向量语义检索推荐的相关论文。