Canvas-to-Image: Compositional Image Generation with Multimodal Controls
TL;DR 精炼摘要
本文提出了一种名为`Canvas-to-Image`的统一框架,实现高保真的组合式图像生成与多模态控制。通过将多种控制信号编码为单一复合画布图像,该模型可进行更加精确的视觉空间推理。同时,建立了多任务数据集,并采用多任务画布训练策略,提升了模型对不同控制模态的理解能力与泛化性能。
摘要
While modern diffusion models excel at generating high-quality and diverse images, they still struggle with high-fidelity compositional and multimodal control, particularly when users simultaneously specify text prompts, subject references, spatial arrangements, pose constraints, and layout annotations. We introduce Canvas-to-Image, a unified framework that consolidates these heterogeneous controls into a single canvas interface, enabling users to generate images that faithfully reflect their intent. Our key idea is to encode diverse control signals into a single composite canvas image that the model can directly interpret for integrated visual-spatial reasoning. We further curate a suite of multi-task datasets and propose a Multi-Task Canvas Training strategy that optimizes the diffusion model to jointly understand and integrate heterogeneous controls into text-to-image generation within a unified learning paradigm. This joint training enables Canvas-to-Image to reason across multiple control modalities rather than relying on task-specific heuristics, and it generalizes well to multi-control scenarios during inference. Extensive experiments show that Canvas-to-Image significantly outperforms state-of-the-art methods in identity preservation and control adherence across challenging benchmarks, including multi-person composition, pose-controlled composition, layout-constrained generation, and multi-control generation.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Canvas-to-Image: Compositional Image Generation with Multimodal Controls (画布到图像:多模态控制下的组合式图像生成)
1.2. 作者
-
Yusuf Dalva¹,³*, Guocheng Gordon Qian¹,†, Maya Goldenberg¹*, Tsai-Shien Chen¹,²*
-
Kfir Aberman¹, Sergey Tulyakov¹, Pinar Yanardag³, Kuan-Chieh Jackson Wang¹
- ¹Snap Inc.
- ²UC Merced
- ³Virginia Tech
- *共同第一作者
- †通讯作者
1.3. 发表期刊/会议
该论文发布于 arXiv 预印本平台,表明其是预发表的研究成果,尚未经过同行评审。在计算机视觉和机器学习领域,arXiv 是一个重要的预印本库,许多顶级会议和期刊的论文会先在此发布。论文中引用了多篇 IEEE/CVF 会议论文 (CVPR, ICCV) 以及 NeurIPS, ICLR 等顶级会议,表明作者团队在相关领域有较强的学术背景。
1.4. 发表年份
2025年11月26日
1.5. 摘要
现代扩散模型 (diffusion models) 在生成高质量和多样性图像方面表现出色,但在实现高保真组合式 (compositional) 和多模态控制 (multimodal control) 方面仍面临挑战,尤其当用户同时指定文本提示 (text prompts)、主体参考 (subject references)、空间布局 (spatial arrangements)、姿态约束 (pose constraints) 和布局标注 (layout annotations) 等多种控制信号时。本文引入了 Canvas-to-Image,一个统一的框架,将这些异构控制 (heterogeneous controls) 整合到一个单一的画布界面 (canvas interface) 中,使用户能够生成忠实反映其意图的图像。其核心思想是将多样化的控制信号编码成一个单一的复合画布图像 (composite canvas image),模型可以直接解释该图像以进行集成式的视觉空间推理 (integrated visual-spatial reasoning)。作者进一步整理了一套多任务数据集 (multi-task datasets),并提出了一种多任务画布训练 (Multi-Task Canvas Training) 策略,优化扩散模型以在统一的学习范式 (unified learning paradigm) 内共同理解和整合异构控制到文本到图像生成中。这种联合训练 (joint training) 使 Canvas-to-Image 能够跨多个控制模态 (control modalities) 进行推理,而不是依赖于任务特定的启发式方法 (task-specific heuristics),并且在推理阶段对多控制场景 (multi-control scenarios) 具有良好的泛化能力。广泛的实验表明,Canvas-to-Image 在包括多人物组合 (multi-person composition)、姿态控制组合 (pose-controlled composition)、布局约束生成 (layout-constrained generation) 和多控制生成 (multi-control generation) 等挑战性基准测试中,在身份保留 (identity preservation) 和控制依从性 (control adherence) 方面显著优于现有最先进的方法。
1.6. 原文链接
- 原文链接: https://arxiv.org/abs/2511.21691
- PDF 链接: https://arxiv.org/pdf/2511.21691v1.pdf
- 发布状态:
arXiv预印本。
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题与现有挑战
现代扩散模型在生成逼真和多样化图像方面取得了巨大成功。然而,它们在提供精细的组合式 (compositional) 和多模态 (multimodal) 控制方面仍存在显著局限性。具体来说,当用户希望同时控制图像生成的多个方面时,例如:
-
文本提示 (text prompts): 描述图像内容。
-
主体参考 (subject references): 指定图像中特定人物或物体的外观。
-
空间布局 (spatial arrangements): 定义物体在图像中的位置和大小。
-
姿态约束 (pose constraints): 设定人物的身体姿态。
-
布局标注 (layout annotations): 标记特定区域的内容或属性。
现有模型通常只能处理这些控制中的一部分,而无法同时有效地整合所有这些异构 (heterogeneous) 的输入。这导致生成结果往往难以精确反映用户的多方面意图,尤其在数字艺术和内容创作等需要高精度控制的应用中,这一局限性尤为突出。
2.1.2. 现有研究的不足
- 孤立的任务处理: 大多数现有的控制机制 (如
ControlNet[52] 和T2I-Adapter[26]) 倾向于解决图像合成的孤立方面,例如仅关注空间布局或姿态约束,而无法在单一输入中处理多种控制。 - 异构输入整合困难: 不同类型的输入(如主体参考图像、边界框、文本标签)在结构和语义上存在差异,如何训练模型联合解释和平衡这些信号是一个核心难题。
- 复杂模块组合: 某些尝试整合多控制的方法 (如
StoryMaker[55] 和ID-Patch[53]) 依赖于多个独立模块的复杂组合 (例如ControlNet结合IP-Adapter),这增加了系统复杂性,并且通常仅限于特定任务 (如面部注入),泛化能力较差,缺乏对边界框等通用布局控制的支持。 - 缺乏统一接口: 用户通常需要通过不同的接口或复杂的步骤来施加不同的控制,缺乏一个统一、直观的交互方式。
2.1.3. 本文的切入点与创新思路
本文提出了 Canvas-to-Image 框架,其核心创新点在于:
- 统一的画布表示 (Unified Canvas Representation): 将所有异构的控制信号(包括背景组合、主体插入、边界框布局、姿态引导等)编码为一个单一的复合 RGB 图像,即“多任务画布 (Multi-Task Canvas)”。这个画布作为一个通用的视觉接口,让所有控制元素在共同的像素空间中表达,使得模型无需额外的模块或架构修改即可直接解释多模态指导。
- 多任务画布训练策略 (Multi-Task Canvas Training Strategy): 构建全面的多任务数据集,将这些异构控制与相应的目标图像对齐,并设计一种训练框架,通过联合优化扩散模型来学习跨任务的共享语义和空间依赖。这种联合训练使得模型能够超越单任务学习,在推理时自然地泛化到多种控制组合的场景,即使这些组合在训练中从未出现过。
- 集成视觉空间推理 (Integrated Visual-Spatial Reasoning): 避免依赖任务特定的启发式方法,而是让模型通过统一的画布接口进行端到端的视觉空间推理,从而更精确地理解和满足用户的多重意图。
2.2. 核心贡献/主要发现
本文的贡献总结如下:
-
统一画布框架 (Unified Canvas Framework): 提出了一个广义的“多任务画布”表示,将异构控制整合到一个
canvas-to-image的统一范式中,实现了跨模态的连贯推理。这使得用户可以通过一个直观的界面同时施加多种控制。 -
多任务数据集与训练 (Multi-task Datasets and Training): 策划了涵盖多样化控制模态的综合多任务数据集,并提出了一个统一的多任务画布训练框架,共同微调扩散模型以处理这些任务。实验结果表明,这种联合训练使得模型能够在推理时处理混合控制。
-
全面的评估 (Comprehensive Evaluation): 在挑战性基准测试上进行了广泛实验,结果显示在身份保留和控制依从性方面,
Canvas-to-Image显著优于现有最先进的方法。消融实验 (ablation studies) 证实了统一多任务设计是实现灵活和连贯异构控制的关键。主要发现包括:
-
Canvas-to-Image在多人物组合、姿态控制组合、布局约束生成和多控制生成等任务中,在身份保留和控制依从性方面表现出色,显著优于Qwen-Image-Edit、Nano-Banana和Overlay Kontext等基线模型。 -
统一的画布表示和多任务训练策略使得模型能够从单控制训练样本自然泛化到复杂的、训练时未见的混合控制场景。
-
任务指示器 (task indicator) 对于防止任务间干扰和消除模糊性至关重要,确保模型在不同控制任务之间有效切换。
-
模型架构中的文本和图像分支的联合训练对身份保留至关重要,而冻结前馈层有助于保持预训练模型的图像质量。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 扩散模型 (Diffusion Models)
扩散模型 [16, 41] 是一类生成模型,近年来在图像合成领域取得了显著成功。它们的核心思想是通过一个马尔可夫链 (Markov chain) 逐步将随机噪声转化为数据样本(如图像),或者反过来,通过逆向过程从噪声中恢复出清晰的数据。
- 正向扩散过程 (Forward Diffusion Process): 逐步向图像中添加高斯噪声,直到图像完全变为纯噪声。这个过程是固定的(没有可学习参数),通常由预设的方差计划 (variance schedule) 控制。
- 逆向去噪过程 (Reverse Denoising Process): 模型学习预测并去除每个时间步添加的噪声,从而将纯噪声逐步转换回原始图像。这是扩散模型的核心,通常由神经网络(如
U-Net)建模。 - 条件生成 (Conditional Generation): 扩散模型可以通过额外的输入(如文本提示、图像特征、布局信息等)进行条件化,从而引导生成过程以满足特定要求。
- 潜在扩散模型 (Latent Diffusion Models, LDM):
LDM[38] 通过在潜在空间 (latent space) 进行扩散和去噪,而不是直接在像素空间操作,从而显著提高了计算效率和生成质量。它们使用一个自编码器 (autoencoder) 将图像编码到低维潜在空间,并在潜在空间中进行扩散操作。
3.1.2. 文本到图像生成 (Text-to-Image Generation)
文本到图像模型 [37, 38, 40] 利用大规模的文本-图像对进行训练,实现根据文本描述生成图像。这些模型通常结合了强大的语言模型(如 CLIP)来编码文本提示,并将其作为条件输入给扩散模型。
3.1.3. 流匹配 (Flow Matching)
流匹配 [3, 9, 31] 是一种替代扩散模型的新型生成范式,它通过学习连续时间路径 (continuous-time paths) 来连接噪声分布和数据分布。与扩散模型不同,流匹配的目标是学习一个确定性的向量场 (vector field),使得沿着这个向量场积分可以从噪声平滑地转换到数据。这种方法在某些方面可以简化训练过程,并可能导致更稳定的生成。本文所使用的 Qwen-Image-Edit [45] 是基于 VLMDiffusion 架构,而 VLMDiffusion 架构在论文中描述为使用流匹配损失进行优化。
3.1.4. 视觉-语言模型 (Vision-Language Models, VLM)
VLM [7, 45] 是能够同时处理视觉(图像)和语言(文本)信息的多模态模型。它们通过联合训练学习图像和文本之间的关联,从而实现例如图像字幕、视觉问答、跨模态检索等任务。在本文中,VLM 用于将统一画布和文本提示编码为模型可理解的表示。
3.1.5. LoRA (Low-Rank Adaptation)
LoRA [17] 是一种参数高效的微调 (parameter-efficient fine-tuning) 技术,主要用于大型预训练模型。它通过在模型中注入小的、低秩的 (low-rank) 矩阵来适应特定任务,从而避免对整个模型进行微调。这大大减少了可训练参数的数量和计算成本,同时能够保持甚至提高模型在特定任务上的性能。在本文中,LoRA 用于微调扩散模型的注意力 (attention)、图像调制 (image modulation) 和文本调制 (text modulation) 层。
3.2. 前人工作
3.2.1. 图像生成中的个性化 (Personalization in Image Generation)
个性化方法旨在生成包含特定主体或身份的新颖图像。
- 早期方法 [10, 21, 39]: 通常需要对每个概念进行单独微调,计算成本高昂。
- 基于适配器的方法 (Adapter-based solutions) [12, 13, 30, 34, 44, 50]: 通过冻结基础模型并注入主体特定表示来提高效率。例如
IP-Adapter[50] 是一种常见的图像提示适配器。 - 多概念个性化 (Multi-concept personalization): 仍然具有挑战性。
- 基于优化 (Optimization-based) 的方法 [1, 6, 11, 20, 32]: 需要显式概念解耦 (explicit concept disentanglement)。
- 无优化 (Optimization-free) 的方法 [5, 14, 35, 43, 48]: 通常通过连接嵌入 (concatenating embeddings) 来实现,但计算复杂度线性增长。
- 局限性: 大多数个性化方法仅关注参考注入 (reference injection) [15, 36],缺乏空间控制能力。本文的
Canvas-to-Image通过统一的单一画布解决了可扩展性和灵活性控制的挑战,并保持了恒定的计算成本。
3.2.2. 生成中的组合控制 (Compositional Control in Generation)
提供细粒度的组合控制仍然是一个挑战,因为现有机制通常处理孤立的任务。
- 结构线索控制 (Structural cues control):
ControlNet[52] 和T2I-Adapter[26] 等模型利用姿态骨架 (pose skeletons) 或深度图 (depth maps) 等结构线索来指定身体配置。 - 空间布局控制 (Spatial layout control):
GLIGEN[22]、LayoutDiffusion[54] 和CreatiDesign[51] 等方法通过微调生成器来解释边界框 (bounding boxes) 或分割掩码 (segmentation masks)。 - 统一异构控制的挑战: 将这些异构控制统一起来极具挑战性,特别是当需要结合个性化身份约束时。支持主体注入的方法通常缺乏精细的空间控制,而布局引导方法无法整合特定的姿态或主体身份。
- 近期统一尝试:
StoryMaker[55] 和ID-Patch[53] 等方法尝试统一,但它们依赖于单独模块的复杂组合 (例如ControlNet和IP-Adapter),并且通常限于单一类型的控制。 - 本文的差异化:
Canvas-to-Image通过将多样化的控制类型重构为单一的“视觉画布”来解决这一空白。它不是依赖于任务特定的启发式方法,而是在一个连贯的界面中支持空间布局、姿态引导和主体外观注入,使模型能够协同地跨模态进行推理。
3.3. 技术演进与差异化分析
Canvas-to-Image 的工作是建立在 VLMDiffusion 架构之上的,具体而言,它使用了 Qwen-Image-Edit [45] 作为其基础架构。Qwen-Image-Edit 是一种多模态模型,结合了视觉-语言模型 (VLM) 来编码输入,并将这些编码作为条件输入给扩散模型。
本文与现有方法的核心区别和创新点在于:
- 统一输入接口: 大多数现有方法(如
ControlNet,IP-Adapter,GLIGEN,CreatiDesign)要么专注于单一控制类型,要么需要多个独立的输入模块。Canvas-to-Image通过引入“多任务画布”将所有异构控制(主体参考、姿态、边界框、文本)整合到一个单一的 RGB 图像中。这极大地简化了用户界面和模型架构,避免了复杂的多模块组合。 - 集成视觉空间推理: 现有方法通常依赖任务特定的模块或启发式方法来处理不同的控制。
Canvas-to-Image的统一画布允许模型直接进行端到端的视觉空间推理,学习如何共同解释和平衡这些控制信号,而不是分别处理。 - 多任务训练实现泛化: 通过对精心策划的多任务数据集进行“多任务画布训练”,模型能够学习到解耦的、可泛化的表示,从而在推理时能够处理训练中未曾见过的复杂多控制组合。这与许多现有方法(如
StoryMaker,ID-Patch)需要针对特定组合进行复杂配置形成鲜明对比。 - 避免复制粘贴伪影: 在处理多人物组合时,
Canvas-to-Image通过“跨帧集”构建空间画布,避免了直接复制粘贴可能导致的伪影,从而生成更自然、更具集成感的图像。
4. 方法论
4.1. 方法原理
Canvas-to-Image 旨在解决多模态、组合式控制图像生成中的挑战。其核心思想是将多样化的异构用户控制信号(如主体身份、空间布局、人体姿态、边界框)统一编码到一个单一的 RGB 图像中,即“多任务画布 (Multi-Task Canvas)”。这个画布作为模型的通用输入,允许模型直接进行集成式的视觉空间推理。通过在不同类型的画布上进行多任务训练,模型学会了对每种控制类型 robustly 和 generalizably 进行推理,从而在推理时即使面对训练中未曾出现过的多控制组合也能有效工作。
4.2. 核心方法详解
Canvas-to-Image 框架的核心由两个主要部分构成:多任务画布 (Multi-Task Canvas) 的构建和 基于 VLMDiffusion 架构的多任务训练 (Multi-Task Training)。
4.2.1. 多任务画布 (Multi-Task Canvas)
多任务画布是 Canvas-to-Image 的核心贡献,它将复杂的组合任务转化为一个共享的输入格式:一个单一的 RGB 图像。这个“视觉画布”是一个灵活的多模态格式,统一了多样化的组合输入。画布的变体是从适合每个任务的数据源中生成的,并被设计为不同的控制类型。例如,空间画布 (Spatial Canvas) 提供字面上的像素级组合,而姿态画布 (Pose Canvas) 提供抽象的结构性引导。
Canvas-to-Image 主要构建在三种画布变体之上:
-
空间画布 (Spatial Canvas):
-
目的: 训练模型根据显式组合渲染完整的场景,支持多主体个性化。用户可以放置和调整参考主体的大小来引导生成。
-
构建方式: 这是一个复合 RGB 图像,通过将分割好的主体(例如 )的剪影 (cutouts) 粘贴到掩码背景 (masked background) 的目标位置来创建。
-
关键技术: 使用“跨帧集 (Cross-Frame Sets)”构建(如
Figure 2左侧所示),这允许将主体和背景以跨帧 (cross-frame) 的方式进行配对,从而避免了简单复制粘贴方法中常见的伪影 (artifacts)。这种策略对于生成更自然的图像至关重要。
该图像是示意图,展示了多任务画布训练(Multi-Task Canvas Training)和推理(Inference)的过程。在左侧,展示了用于生成目标图像的空间画布、姿态画布和框画布的组合。右侧则呈现了通过文本提示和控制信息生成最终图像的推理过程。
Figure 2. Canvas-to-Image 框架概述
-
-
姿态画布 (Pose Canvas):
- 目的: 增强空间画布,提供强烈的视觉约束以控制人物姿态 (articulation)。
- 构建方式: 在空间画布上叠加地面真值姿态骨架 (ground-truth pose skeleton)(例如来自
OpenPose[4]),使用特定的透明度因子。 - 关键设计: 这种半透明叠加是一种关键设计选择:姿态骨架作为结构引导清晰可见,同时底层主体片段 (subject segments)(如果存在)的视觉身份仍可被模型恢复和解释。
- 训练策略: 在训练过程中,主体片段会随机被丢弃,即存在只有姿态而无主体片段的空白画布,以独立引导姿态。这使得姿态控制在推理时可以作为独立模态使用,即使没有参考主体注入。
-
框画布 (Box Canvas):
-
目的: 训练模型解释通过边界框 (bounding boxes) 和文本标注 (textual annotations) 直接在画布上进行的显式布局规范。
-
构建方式: 每个边界框包含一个文本标识符(例如
“Person 1”、“Person 2”、“Stone”),指定应在该空间区域出现的主体及其大小。人物标识符按从左到右的顺序排列。 -
支持功能: 这种“框画布”支持简单的带文本标注的空间控制,而无需像前两种画布变体那样使用参考图像。
通过在这些不同、单任务的画布类型上训练模型,框架为每种控制学习了一个鲁棒且可泛化的策略。有趣的是,这使得模型能够超越单任务学习,允许在推理时同时执行这些不同的控制信号,即使这些组合在训练中从未遇到过。
Figure 2(b)展示了这种泛化能力。
-
4.2.2. 模型和多任务训练 (Model and Multi-Task Training)
Canvas-to-Image 构建在 VLMDiffusion 架构之上,具体使用了 Qwen-Image-Edit [45] 作为基础模型。其模型和训练策略细节如下:
-
架构概览:
- 输入处理: 输入画布图像和文本提示首先由
VLM(Vision-Language Model) 处理,以提取语义嵌入 (semantic embeddings)。同时,画布图像也被VAE(Variational Autoencoder) 编码为潜在表示 (latents)。 - 条件输入: 这些
VLM嵌入、VAE潜在表示和噪声潜在表示被拼接 (concatenated) 起来,并与文本提示嵌入一起作为条件输入 (conditional inputs) 馈送给扩散模型。 - 扩散模型: 扩散模型(通常是一个
U-Net结构)接收这些条件输入和噪声潜在表示,并预测用于去噪的速度 (velocity)。
- 输入处理: 输入画布图像和文本提示首先由
-
优化目标:任务感知流匹配损失 (Task-aware Flow-Matching Loss): 模型通过一个任务感知的流匹配损失进行优化。流匹配通过学习一个连续的向量场来将噪声分布平滑地转换为数据分布。其损失函数如下: 符号解释:
- : 流匹配损失 (Flow-matching loss)。
- : 表示对目标潜在表示 、噪声潜在表示 和时间 进行期望。
- : 目标图像的潜在表示 (target latent)。
- : 纯噪声的潜在表示 (noise latent)。
- : 在时间 时的插值潜在表示 (interpolated latent),表示从 到 路径上的中间状态。
- : 由神经网络 参数化的速度预测器 (velocity predictor)。它接收当前状态 、时间 和条件输入
[h; c],并预测一个速度向量。 [h; c]: 模型的条件输入。- : 表示输入条件,它是
VLM嵌入(来自画布和文本提示)和VAE潜在表示(来自同一画布)的拼接。 - : 任务指示器 (task indicator),用于指定当前的控制类型(例如
[Spatial]、[Pose]、[Box])。
- : 表示输入条件,它是
- : 从噪声 到目标 的目标速度向量 (target velocity)。
- : 表示 L2 范数的平方,即预测速度与目标速度之间的均方误差。 这个损失函数的目标是训练网络 预测从噪声潜在表示到目标潜在表示的正确速度,从而实现准确的图像生成。
-
多任务画布训练 (Multi-Task Canvas Training):
- 统一范式:
Canvas-to-Image采用统一的多任务画布范式,在每个训练步骤中,都会采样一种画布类型(例如,空间画布、姿态画布、框画布)作为输入条件。 - 学习解耦表示: 在这种多样化的多任务课程上进行训练,使得模型能够学习到针对每种控制类型的解耦的、可泛化的表示。
- 推理时泛化: 这种设计使得模型能够在推理时执行这些控制的组合(例如,一个包含姿态骨架和布局框的混合画布),即使在训练中从未见过这样的组合。这种从单任务学习到多任务应用的自发泛化 (emergent generalization) 是本文框架的一个关键特性。
- 统一范式:
-
任务指示器 (Task Indicator):
- 目的: 为了防止任务间干扰 (task interference),引入了一个任务指示器提示——一个短的文本标记(例如
“[Spatial]”、“[Pose]”或“[Box]”),预置 (prepended) 到用户提示中。 - 作用: 这个指示器
(c)是必要的,因为它能区分不同的画布类型所代表的不同控制含义,从而消除任务上下文的歧义,防止模式混合 (mode blending)。消融研究 (Section 4.3) 证明了这种多任务训练策略在推理时执行这些组合控制任务的有效性。
- 目的: 为了防止任务间干扰 (task interference),引入了一个任务指示器提示——一个短的文本标记(例如
4.3. 训练细节
- 基础架构: 基于
Qwen-Image-Edit[45]。 - 微调层: 在每个块中,使用
LoRA[17](秩为 128)微调注意力 (attention)、图像调制 (image modulation) 和文本调制 (text modulation) 层。 - 冻结层: 前馈层 (feed-forward layers) 被冻结,因为作者发现这对于保留预训练模型的图像质量很重要。
- 优化器: 使用
AdamW[24]。 - 学习率: 。
- 有效批处理大小 (Effective Batch Size): 32。
- 训练步数: 在 32 块
NVIDIA A100 GPU上训练 200K 步。
5. 实验设置
5.1. 数据集
本文的训练数据集主要由两个来源构成:
-
内部大规模人类中心数据集 (Internal Human-Centric Dataset):
- 来源: 一个大规模的内部数据集,包含 6M (六百万) 跨帧 (cross-frame) 图像,来自 1M (一百万) 个独特的身份。
- 用途: 主要用于构建“空间画布”和“姿态画布”变体。这个数据集支持灵活的组合采样,例如以跨帧方式配对主体和背景,以避免复制粘贴伪影。
- 具体构建: 使用内部实例分割模型 (instance segmentation model) 从这些图像中提取人物片段,以构建输入画布,并将图像的其余部分视为背景。同样,使用内部姿态估计模型 (pose estimation model) 从目标帧中提取姿态。
- 法律限制: 由于法律限制,该内部数据集不能开源。但作者指出,类似的跨帧数据集可以从公共开源视频数据集中构建。
-
CreatiDesign 数据集 [51]:
-
来源: 外部的
CreatiDesign数据集,提供了带有边界框和命名实体 (named entities) 标注的大规模图像语料库。 -
用途: 扩展内部数据,主要用于“框画布”的训练。它引入了命名标注和以文本渲染为重点的样本,使模型能够处理多种对象。
-
Box Canvas 构建: 结合内部数据集提取的人物片段来构建“框画布”中的人物框。
训练采样: 在训练期间,每个任务类型及其对应的数据集以均匀分布 (uniform distribution) 进行采样,以实现平衡的多任务监督。
-
5.2. 评估指标
本文采用了多种评估指标,涵盖身份保留、图像质量、文本-图像对齐以及对施加控制的忠实度。
-
ArcFace ID Similarity (ArcFace ID 相似度) [8]:
- 概念定义:
ArcFace是一种深度人脸识别模型,其核心是Additive Angular Margin Loss。在图像生成领域,ArcFace ID Similarity用于量化生成图像中人物身份与参考图像中人物身份的匹配程度。高相似度值表示生成图像成功保留了参考人物的身份特征。 - 数学公式:
ArcFace本身是一个损失函数。在这里,ArcFace ID Similarity通常指的是使用预训练的ArcFace特征提取器提取两张人脸图像的特征向量,然后计算这两个特征向量的余弦相似度。 对于两张人脸图像 和 ,其ArcFace特征向量分别为 和 。 - 符号解释:
- : 两张人脸图像经过
ArcFace特征提取器得到的特征向量。 - : 向量点积。
- : 向量的 L2 范数(模长)。
- : 计算出的余弦相似度,范围在 -1 到 1 之间。值越大表示相似度越高。
- : 两张人脸图像经过
- 概念定义:
-
HPSv3 (Human Preference Score v3) [25]:
- 概念定义:
HPSv3是一种人类偏好分数,用于评估生成图像的整体美学质量和真实感。它旨在量化图像在人类眼中看起来有多“好”,包括视觉吸引力、细节清晰度、构图平衡等。 - 数学公式: 论文中未提供
HPSv3的具体计算公式,但通常它是一个基于深度学习模型的得分,该模型已在大量人类偏好数据上进行训练。它接收一个图像作为输入,输出一个表示人类对其美学偏好程度的分数。 - 符号解释:
HPSv3的具体实现细节通常涉及复杂的神经网络架构,其内部参数不直接以简单公式形式给出。其输出通常是一个标量分数,分数越高代表人类偏好度越高。
- 概念定义:
-
VQAScore (Visual Question Answering Score) [23]:
- 概念定义:
VQAScore用于评估生成图像与给定文本提示之间的语义对齐程度。它通常通过一个视觉问答 (Visual Question Answering, VQA) 模型来衡量:模型根据文本提示提出问题,然后评估生成的图像是否能提供与问题相符的视觉答案。高的VQAScore表示生成图像的内容与文本提示高度一致。 - 数学公式: 论文中未提供
VQAScore的具体计算公式。通常,VQAScore的计算涉及一个 VQA 模型,该模型输入生成图像和从文本提示派生的问题,然后评估 VQA 模型的答案与预期答案的一致性。 - 符号解释:
VQAScore的具体实现细节涉及 VQA 模型,其输出通常是一个衡量文本-图像语义对齐程度的标量分数,分数越高表示对齐越好。
- 概念定义:
-
Control-QA (Control Quality Assurance Score):
- 概念定义:
Control-QA是本文提出的一个新指标,用于评估生成图像对所施加控制(例如身份、姿态、边界框)的忠实度。它是一个由大型语言模型 (LLM) 评估的 1 到 5 分的评分,反映生成图像与给定控制组合的对齐程度。这个指标旨在综合评估多模态控制下的依从性。 - 数学公式:
Control-QA没有一个简单的数学公式,它是一个基于LLM(GPT-4o[28]) 的主观评分系统。LLM作为一个多模态专家,根据预设的系统提示 (system prompts) 和评分准则(详见附录 F.1)对生成图像进行评估。 - 符号解释:
- 分数范围: 1 到 5。
- 5: 优秀 (Excellent),所有控制条件完美满足。
- 4: 良好 (Good),有一个次要缺陷。
- 3: 部分 (Partial),有一个重大缺陷或多个次要缺陷。
- 2: 差 (Poor),未能满足至少两个标准。
- 1: 失败 (Failure),与输入控制无有意义的相似性。
- 概念定义:
-
PoseAP
_{0.5}(Pose Average Precision @ IoU 0.5):- 概念定义:
PoseAP_{0.5}专门用于严格衡量姿态的准确性。它表示在关键点检测任务中,当预测关键点与地面真值关键点之间的 `Object Keypoint Similarity` (OKS) 达到 0.5 时,平均精度 (Average Precision) 的值。高 `PoseAP`_{0.5}值表明生成图像中的人物姿态与目标姿态骨架非常吻合。 - 数学公式:
AP的计算通常基于召回率-精确率曲线下的面积。OKS的计算公式如下: - 符号解释:
- : 第 个关键点预测值与地面真值之间的欧氏距离。
- : 检测到的人物的尺度因子(通常是其包围盒的面积的平方根)。
- : 用于控制第 个关键点下降速度的常数(每个关键点类型都有一个权重)。
- : 表示一个正确的关键点匹配。
- : 在
OKS阈值为 0.5 时的平均精度。
- 概念定义:
-
DINOv2 (Vision Transformer Feature Similarity) [29]:
- 概念定义:
DINOv2是一个自监督学习的视觉Transformer模型,它能学习强大的图像特征。在这里,DINOv2用于评估生成图像中物体与参考物体之间的相似度。它能够捕捉物体的高级语义和结构特征,常用于无监督的物体识别和匹配。 - 数学公式: 类似
ArcFace相似度,DINOv2相似度通常通过提取两张图像(或图像中的物体区域)的DINOv2特征向量,然后计算其余弦相似度来衡量。 对于两个物体图像 和 ,其DINOv2特征向量分别为 和 。 - 符号解释:
- : 两个物体图像经过
DINOv2特征提取器得到的特征向量。 - : 向量点积。
- : 向量的 L2 范数(模长)。
- : 计算出的余弦相似度,范围在 -1 到 1 之间。值越大表示相似度越高。
- : 两个物体图像经过
- 概念定义:
5.3. 对比基线
本文将 Canvas-to-Image 方法与多个基线模型进行了比较:
- Qwen-Image-Edit [45]: 作为本文的基础架构,也是一个强大的文本到图像编辑模型。
- Gemini 2.5 Flash Image (Nano-Banana) [42]: 最先进的商业编辑模型,代表了闭源模型的顶尖水平。
- CreatiDesign [51]: 一个专门针对布局引导组合任务的先进模型,其训练数据集中包含大量的边界框和命名实体标注。
- Overlay Kontext [18]: 一个基于
FLUX Kontext[3] 的LoRA微调模型,用于图像叠加任务。 - 其他个性化方法 (在附录中进行比较):
- UniPortrait [15]: 统一的身份保留单人和多人物图像个性化框架。
- FLUX Kontext [3]: 基于流匹配的上下文图像生成和编辑模型。
- UNO [47]: 探索通过上下文生成解锁更多可控性的模型。
- OmniGen2 [46]: 先进的多模态生成模型。
- DreamO [27]: 统一的图像定制框架。
- ID-Patch [53]: 针对群组照片个性化的鲁棒 ID 关联模型。
5.4. 基准测试
实验在四个不同的基准测试中进行:
-
4P 组合 (4P Composition) 基准:
- 描述: 评估模型在组合多个个性化主体时的性能。
- 画布构建: 随机采样
FFHQ-in-the-wild[19] 数据集中的四个人类身份。使用FLUX.1-Dev[2] 生成合成的“先验图像 (prior image)”以获取人物的逼真边界框。然后将分割好的FFHQ身份放置到这些提取的位置,构建输入画布。
-
姿态叠加 4P 组合 (Pose-Overlaid 4P Composition) 基准:
- 描述: 在 4P 组合的基础上增加姿态控制。
- 画布构建: 使用与 4P 组合任务相同的
FLUX.1-Dev[2] 先验图像,但提取的是目标姿态,而非仅边界框。将这些目标姿态与参考身份一同构建输入画布。
-
布局引导组合 (Layout-Guided Composition) 基准:
- 描述: 评估模型解释显式布局规范(通过边界框和文本标注)的能力。
- 画布构建: 使用
CreatiDesign[51] 数据集的测试集。筛选出与本文画布格式(文本直接叠加在图像上)兼容的样本,因为CreatiDesign数据集非常强调文本渲染能力。
-
多控制基准 (Multi-Control Benchmark):
- 描述: 评估模型同时满足身份保留、姿态引导和边界框标注的能力。
- 画布构建: 利用
CreatiDesign[51] 测试集中的文本提示和命名实体标注,特别是涉及人类主体的样本。使用基线模型Qwen-Image-Edit[45] 生成合成的先验图像,但不直接用其像素数据作为输入,而是严格用于提取目标骨骼姿态 (target skeletal pose)。最终输入画布通过结合提取的姿态、采样的参考身份以及原始CreatiDesign样本的命名实体标注(用于文本渲染)来构建。
5.5. 用户研究 (User Study)
为了进一步验证 Canvas-to-Image 在多控制组合任务上的有效性,作者进行了一项人类评估。考虑到同时评估三个同步条件(姿态、身份和边界框布局)的认知难度,研究将输入控制解耦为两个独立的成对比较:“姿态 + 身份” 和 “姿态 + 边界框布局”。
- 参与者: 30 名匿名参与者,通过
Prolific平台招募。 - 设置: 每个研究包含 30 个示例,采用 A/B 测试设置,用户选择他们偏好的输出。
5.5.1. 控制遵循 (Control Following) (姿态 + 边界框布局)
-
焦点: 评估模型的结构能力。
-
任务: 用户会看到一个输入姿态参考和一个边界框布局,然后是两个生成的样本。他们需要选择哪一个生成更符合输入控制。
-
用户说明:
该图像是用户研究“控制遵循”的说明,展示了一个目标姿态和目标布局,同时提供了两幅生成的图像(图像A和图像B)。目标姿态显示必须转移到输出图像的身体姿势,而目标布局则展示了需要出现在指定位置的元素。参与者的目标是选择在目标姿态和目标布局上表现更佳的图像。Figure IX. 用户研究“控制遵循”的用户说明。
-
样本问题:
该图像是一个示意图,展示了用户研究中的控制跟随问题。上方的目标姿势与目标布局分别展现了主体的姿势和环境布局的要求,而下方的图像 A 和图像 B 是待比较的候选图像,以评估哪一幅更符合这些目标。Figure X. 用户研究“控制遵循”的样本问题。
5.5.2. 身份保留 (Identity Preservation) (姿态 + 身份)
-
焦点: 评估在空间约束下主体身份的保留程度。
-
任务: 用户被指示在评估中优先考虑身份保留,同时验证姿态是否应用。
-
用户说明:
该图像是用户研究“身份保留”的说明文本,参与者需根据两个参考图像和两个生成图像选择保留身份特征的图像。说明中指出,重点在于身份保留,姿势匹配则为次要标准。Figure XI. 用户研究“身份保留”的用户说明。
-
样本问题:
该图像是一个关于用户研究“身份保存”的示例,展示了两个部分:左侧为身份参考,右侧为目标姿势,均包含相同主题的图像和相关文本元素。Figure XII. 用户研究“身份保留”的样本问题。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 4P 组合基准测试
在 4P 组合基准测试中,Canvas-to-Image 在组合多个个性化主体时,展示了卓越的身份保留和空间对齐能力。它显著优于 Qwen-Image-Edit [45]、商业模型 Nano-Banana [42] 和 Overlay Kontext [18]。特别是 Nano-Banana 经常产生复制粘贴的人体片段,这与我们的画布训练中显式整合分割类输入的方法形成对比。Overlay Kontext 和 Qwen-Image-Edit 在保留主体身份方面表现不佳,这体现在其较低的 ArcFace 分数。
该图像是一个对比展示,包含五个不同算法生成的图像比较,包括 Overlay Kontext、Nano-Banana、Qwen-Image-Edit、本研究的生成结果和对应的输入说明。图像展示了不同控制信号下生成的多个场景,体现了研究方法在多个任务上的性能。
Figure 3. 4P 组合基准测试中的定性比较。我们的方法在身份保持和图像质量方面超越了基线模型。
以下是原文 Table 1 的结果:
| Method | ArcFace ↑ | HPSv3 ↑ | VQAScore ↑ | Control-QA ↑ |
|---|---|---|---|---|
| 4P Composition | ||||
| Qwen-Image-Edit [45] | 0.258 | 13.136 | 0.890 | 3.688 |
| Nano Banana [42] | 0.434 | 10.386 | 0.826 | 3.875 |
| Overlay Kontext [18] | 0.171 | 12.693 | 0.879 | 2.000 |
| Ours | 0.592 | 13.230 | 0.901 | 4.000 |
| Pose Guided 4P Composition | ||||
| Qwen-Image-Edit [45] | 0.153 | 12.940 | 0.890 | 4.031 |
| Nano Banana [42] | 0.262 | 9.973 | 0.861 | 3.438 |
| Ours | 0.300 | 12.899 | 0.897 | 4.469 |
| Layout-Guided Composition | ||||
| Qwen-Image-Edit [45] | - | 10.852 | 0.924 | 3.813 |
| Nano Banana [42] | 10.269 | 0.917 | 3.750 | |
| CreatiDesign [51] | 9.790 | 0.923 | 4.844 | |
| Ours | - | 10.874 | 0.935 | 4.844 |
| Multi-Control Composition | ||||
| Qwen-Image-Edit [45] | 0.204 | 12.251 | 0.903 | 3.575 |
| Nano Banana [42] | 0.356 | 11.370 | 0.873 | 3.625 |
| Ours | 0.375 | 12.044 | 0.906 | 4.281 |
Table 1. 本文方法与基线方法在四种不同控制任务下的定量比较。
从 Table 1 的 4P Composition 部分可以看到,Ours 在所有指标上都达到了最佳性能,尤其是在 ArcFace 相似度上显著高于其他方法(0.592 vs. Nano Banana 的 0.434),表明其身份保留能力更强。HPSv3 和 VQAScore 也略高于基线,说明图像质量和文本对齐更好。Control-QA 达到了 4.000,表示对控制的依从性很高。
6.1.2. 姿态引导 4P 组合基准测试
在叠加姿态的基准测试中(Figure 4),Canvas-to-Image 是唯一能够准确遵循目标姿态 (“Pose Prior” 列) 同时保持高身份保真度和视觉真实感的方法,显著优于基线模型。
该图像是论文中展示不同方法效果的图表,包含了多种人群场景的生成对比。第一行展示了三种方法的合成结果,第二行展示了游戏互动场景,第三行展示了街道上的购物场景,所示结果体现了该研究的多模态控制和高保真生成能力。
Figure 4. 姿态引导 4P 组合基准测试中的定性比较。
从 Table 1 的 Pose Guided 4P Composition 部分可见,Ours 在 ArcFace(0.300)和 Control-QA(4.469)方面表现最佳,表明其在保持身份的同时,对姿态控制的依从性也最强。尽管 HPSv3 略低于 Qwen-Image-Edit,但总体性能仍然领先。
6.1.3. 布局引导组合基准测试
在布局引导组合基准测试中(Figure 5),Canvas-to-Image 生成了语义连贯的组合,并严格遵守边界框约束。而 Nano-Banana 和 Qwen-Image-Edit 常常忽略结构信号或遭受标注渲染伪影。值得注意的是,Canvas-to-Image 甚至超越了专门为此任务训练的先进模型 CreatiDesign [51]。
该图像是一个示意图,展示了不同图像生成方法在布局引导组合基准测试中的表现,包括CreatiDesign、Nano-Banana、Qwen-Image-Edit和我们的模型。该图的顶部显示的是各自生成的图像,而底部则展示了对应的输入条件,突显了模型在处理多种输入信号时的能力。
Figure 5. 布局引导组合基准测试中的定性比较。在 Box Canvas 设置下,我们的方法展示了卓越的条件对齐。
从 Table 1 的 Layout-Guided Composition 部分来看,Ours 在 HPSv3(10.874)和 VQAScore(0.935)上表现最佳,与 CreatiDesign 在 Control-QA 上并列第一(4.844),这表明在布局引导任务中,我们的方法在图像质量、文本对齐和控制依从性方面都表现出色。
6.1.4. 多控制组合基准测试
在多控制基准测试中(Figure 6),需要同时满足身份保留、姿态引导和边界框标注,我们的模型实现了最高的组合保真度。它无缝集成了参考主体和多种控制线索,而基线模型通常产生伪影或未能满足所有输入约束。
该图像是一个示意图,比较了不同方法(Nano-Banana、Qwen-Image-Edit和我们的框架)在处理多模态控制下的图像生成效果。展示了输入图像、生成的结果以及各自的控制元素。图像中展示了雨具、白板和沙滩等元素,体现了对位置和姿势的分析能力。
Figure 6. 多控制组合基准测试中的定性比较。我们的方法在多控制输入中保持了身份和图像的保真度。
从 Table 1 的 Multi-Control Composition 部分,Ours 在所有指标上都表现最佳,尤其是在 ArcFace(0.375)和 Control-QA(4.281)上领先,再次验证了其在复杂多控制场景下的优越性。
6.1.5. 用户研究结果
以下是原文 Table V 的结果:
| Control Following | Identity Preservation | |
|---|---|---|
| Ours vs. Qwen-Image-Edit [45] | 67.3% | 77.3% |
| Ours vs. Nano Banana [42] | 78.9% | 73.8% |
Table V. 用户研究结果。
用户研究结果 (Table V) 显示,在“控制遵循”和“身份保留”两项评估中,Canvas-to-Image 均显著优于 Qwen-Image-Edit 和 Nano Banana。这与定量结果一致,进一步验证了 Control-QA 指标的有效性。
6.1.6. 与其他个性化方法的比较 (附录 A)
以下是原文 Table I 的结果:
| ArcFace ↑ | HPSv3 ↑ | VQAScore ↑ | Control-QA ↑ | |
| DreamO [27] | 0.2049 | 12.4210 | 0.7782 | 1.4062 |
| OmniGen2 [46] | 0.0859 | 12.9873 | 0.8051 | 1.9688 |
| ID-Patch [53] | 0.0824 | 7.1262 | 0.7846 | 1.0938 |
| UniPortrait [15] | 0.3088 | 12.4011 | 0.7860 | 2.5000 |
| Overlay Kontext [18] | 0.1709 | 12.6932 | 0.8792 | 2.0000 |
| Flux Kontext [3] | 0.2168 | 12.7684 | 0.8687 | 2.2188 |
| UNO [47] | 0.0769 | 12.1558 | 0.8402 | 1.5000 |
| Nano Banana [42] | 0.4335 | 10.3857 | 0.8260 | 3.8750 |
| Qwen Image Edit [45] | 0.2580 | 13.1355 | 0.8974 | 3.6875 |
| Ours | 0.5915 | 13.2295 | 0.9002 | 4.0000 |
Table I. 包含个性化基线在 4P 组合基准测试上的定量比较。
在 4P 组合基准测试中与更多个性化方法的比较 (Table I) 进一步证实了 Canvas-to-Image 的优越性,在所有指标上均表现最佳。
6.1.7. 姿态引导 4P 组合基准测试与 ID-Patch 的比较 (附录 A)
以下是原文 Table II 的结果:
| Pose | ArcFace ↑ | HPSv3 ↑ | VQAScore ↑ | Control-QA ↑ | PoseAP0.5 ↑ |
|---|---|---|---|---|---|
| ID-Patch [53] | 0.2854 | 11.9714 | 0.8955 | 4.1250 | 75.0814 |
| Nano Banana [42] | 0.2623 | 9.9727 | 0.8609 | 3.4375 | 64.1704 |
| Qwen-Image-Edit [45] | 0.1534 | 12.9397 | 0.8897 | 4.0312 | 67.2734 |
| Ours | 0.3001 | 12.8989 | 0.8971 | 4.4688 | 70.1670 |
Table II. 姿态引导 4P 组合基准测试的定量比较。
在姿态引导 4P 组合基准测试中 (Table II),虽然 ID-Patch 在 PoseAP_{0.5}`` 上取得了最高分(75.0814),表明其姿态依从性极高,但 Canvas-to-Image 在 ArcFace(0.3001)和 Control-QA(4.4688)上表现更好。这表明 Canvas-to-Image 在姿态保真度与身份保留之间取得了更好的平衡,而 ID-Patch 虽然能有效复现姿态,但往往难以保持正确的主体数量和一致的身份。
6.1.8. ID-物体交互基准测试 (附录 A)
以下是原文 Table III 的结果:
| ArcFace ↑ | HPSv3 ↑ | VQAScore ↑ | Control-QA ↑ | DINOv2 ↑ | |
| UNO [47] | 0.0718 | 8.6718 | 0.8712 | 2.5000 | 0.2164 |
| DreamO [27] | 0.4028 | 9.0394 | 0.8714 | 3.9688 | 0.3111 |
| OmniGen2 [46] | 0.1004 | 10.2854 | 0.9266 | 4.4062 | 0.3099 |
| Overlay Kontext [18] | 0.1024 | 8.6132 | 0.8539 | 3.2812 | 0.2703 |
| Flux Kontext [3] | 0.1805 | 9.2179 | 0.8914 | 3.1562 | 0.2818 |
| Qwen-Image-Edit [45] | 0.3454 | 10.3703 | 0.9045 | 4.4062 | 0.2867 |
| Ours | 0.5506 | 9.7868 | 0.9137 | 4.8750 | 0.3298 |
Table III. ID-物体交互基准测试的定量结果。
在 ID-物体交互基准测试中 (Table III),Canvas-to-Image 在身份(ArcFace)、物体(DINOv2)保留和综合控制遵循(Control-QA)方面均取得了最高分,这表明其在处理非人类主体和交互场景时也具有强大的泛化能力。
总的来说,所有基准测试的结果(定性和定量)都一致表明,Canvas-to-Image 框架在处理复杂的多模态控制任务时,在身份保留、控制依从性、图像质量和文本对齐方面均显著优于现有最先进的方法。这主要归功于其统一的画布表示和多任务训练策略,使其能够有效地整合和推理异构控制信号。
6.2. 消融实验/参数分析
作者进行了消融研究,以评估多任务画布训练在多控制基准测试中的有效性。
6.2.1. 多任务画布训练的消融 (Ablation of Multi-Task Canvas Training)
作者从仅在空间画布 (Spatial Canvas) 上训练的基线模型开始,然后逐步添加姿态画布 (Pose Canvas) 和框画布 (Box Canvas) 任务到训练课程中。
以下是原文 Table 2 的结果:
| Model | ArcFace↑ | VQAScore↑ | HPSv3↑ | Control-QA↑ |
|---|---|---|---|---|
| Spatial Canvas | 0.389 | 0.865 | 10.786 | 4.156 |
| + Pose Canvas | 0.371 | 0.874 | 11.440 | 4.188 |
| + Box Canvas | 0.375 | 0.906 | 12.044 | 4.281 |
Table 2. 多任务画布训练的消融研究。
从 Table 2 可以清楚地看到,随着更多画布任务的加入,图像质量(HPSv3)和控制依从性(Control-QA)持续获得提升。
-
从
Spatial Canvas到+ Pose Canvas,HPSv3从 10.786 提升到 11.440,Control-QA从 4.156 提升到 4.188。ArcFace略有下降,但VQAScore有所提升。 -
在进一步添加
+ Box Canvas后,所有指标(包括ArcFace)都得到了进一步提升,达到了最高值(ArcFace: 0.375,VQAScore: 0.906,HPSv3: 12.044,Control-QA: 4.281)。这表明多任务训练确实增强了模型在复杂多控制场景下的性能。定性结果(Figure 7)也证实了这一点:基线模型(仅
Spatial Canvas训练)未能遵循姿态和布局指令,而完整模型成功处理了所有多控制输入。
该图像是示意图,展示了在不同控制模式下生成图像的过程,包括仅空间画布、添加姿势画布和框架画布,以及输入和姿势先验。图中的示例说明了如何通过位置和姿势信息来调整图像生成的输出效果。
Figure 7. 多任务画布训练的定性消融。
6.2.2. 可训练模块的消融 (Ablations of Trainable Blocks) (附录 B)
作者还研究了 LoRA 优化不同架构选择的影响。默认配置是训练文本和图像注意力分支中的调制和注意力层,同时冻结前馈层。
以下是原文 Table IV 的结果:
| Model | ArcFace↑ | HPSv3↑ | VQAScore↑ |
|---|---|---|---|
| Qwen-Image-Edit | 0.2580 | 13.1355 | 0.8974 |
| Ours w/o Text Branch | 0.4917 | 11.6523 | 0.8297 |
| Ours w/o Image Branch | 0.4687 | 12.7077 | 0.8880 |
| Ours w/ Feed-Forward | 0.5603 | 12.4846 | 0.8577 |
| Ours w/o Task Indicator | 0.5217 | 12.6046 | 0.8555 |
| Ours | 0.5915 | 13.2295 | 0.9002 |
Table IV. 模型架构的消融研究。
主要发现:
- 文本和图像分支的联合训练: 有效的身份保留需要文本和图像分支的联合训练。省略其中任何一个(
Ours w/o Text Branch或Ours w/o Image Branch)都会导致身份保真度下降,如ArcFace分数所示。 - 冻结前馈层: 训练前馈层(
Ours w/ Feed-Forward)会对模型的泛化能力产生负面影响,导致视觉质量 (HPSv3) 和提示对齐 (VQAScore) 劣化。这验证了作者将前馈层冻结的决策。
6.2.3. 任务指示器 (Task Indicator) 的影响
-
有效性: 任务指示器提示 (c) 的贡献也进行了评估。
-
结果: 从 Table IV 中可以看出,移除任务指示器(
Ours w/o Task Indicator)会导致所有指标的性能下降。这证实了明确信号控制类型对于模型解决歧义和有效切换不同组合推理模式至关重要。 -
定性分析 (Figure VII):
该图像是图表,展示了去除任务指示器对图像生成效果的影响。左侧为输入,中央为未使用任务指示器的生成结果,右侧为使用我们的方法生成的结果。可以看到,去除任务指示器后,生成的图像存在任务混淆现象,导致不需文本渲染的背景出现了不必要的文本伪影。Figure VII. 任务指示器的定性消融。
定性结果(Figure VII)显示,没有任务指示器,模型会出现任务混淆 (task mix-up)。例如,在 4P 组合(空间画布)任务中,模型会受到框画布任务的影响,导致背景中出现不必要的文本伪影,因为它错误地将仅在框画布设置中需要的文本渲染行为转移到了不需要文本渲染的空间组合基准测试中。
6.2.4. 训练动态 (Training Dynamics) (附录 B)
该图像是一个图表,展示了 Canvas-to-Image 的训练动态。ControlQA 分数在训练初期持续提升,并在约 50K 次迭代后趋于稳定,表明模型有效学习了控制和组合的一致性。同时,训练至 200K 次迭代以细化局部细节和提升生成质量的鲁棒性。
Figure I. Canvas-to-Image 的训练动态。
作者跟踪了模型在不同训练迭代中的性能(Figure I)。`Control-QA` 曲线显示在早期阶段稳步提升,在约 50K 迭代后达到收敛。这表明模型在早期阶段有效地学习了持续的控制和组合。尽管关键指标在 50K 之后趋于稳定,但作者继续训练到 200K 迭代以细化局部细节并提高生成质量的鲁棒性。6.3. 其他应用
Canvas-to-Image 还能够进行背景感知组合 (background-aware composition)。它可以通过参考图像粘贴或边界框标注将人物或物体注入场景,使插入的元素与背景自然互动(Figure VIII)。
该图像是示意图,展示了输入画布与生成的输出图像之间的关系。左侧为输入画布,右侧为经过 Canvas-to-Image 模型处理后的输出,体现了模型在多模态控制下的生成能力。
Figure VIII. 背景感知组合。Canvas-to-Image 能够将参考人物或物体无缝集成到背景中,保持一致的照明和环境。
7. 总结与思考
7.1. 结论总结
本文介绍了 Canvas-to-Image,一个灵活且统一的组合式图像生成框架。该方法通过将异构控制(包括参考主体、姿态信号和布局约束)重新构建为单一的画布条件范式,使扩散模型能够对其进行联合推理。通过“多任务画布训练”策略,Canvas-to-Image 能够从单控制训练样本泛化到复杂的、多控制的推理场景,从而使一个单一的统一模型在身份保留、姿态保真度和结构连贯性方面都表现出色。这种统一的画布表述为多模态引导建立了一个可扩展的范式。
7.2. 局限性与未来工作
作者指出了 Canvas-to-Image 的一个主要局限性:
- 像素空间限制: 尽管“视觉画布”格式在可用性和灵活性方面具有显著优势,但它受到可用像素空间的内在限制。当同时处理的概念数量增加时,画布会变得拥挤且难以解释。虽然
Canvas-to-Image成功处理了多达 4P 组合的遮挡实体并优于基线方法,但单一 RGB 接口的信息密度隐含地限制了可以同时解释的概念数量。 - 未来工作: 为了解决这一问题,未来的工作可以探索分层控制 (layered controls),例如设计带有额外 alpha 通道 (
RGBA) 的输入画布,以增加信息密度和处理更复杂的组合场景。
7.3. 个人启发与批判
7.3.1. 个人启发
- 统一接口的强大潜力:
Canvas-to-Image最主要的启发在于其“统一画布”的思想。将所有多模态控制(文本、图像参考、姿态、布局)编码到单一的视觉接口中,极大地简化了模型输入和用户交互。这种统一性不仅带来了技术上的优雅,也为用户提供了直观且强大的创作工具,这对于未来人机交互设计具有重要意义。它表明,解决复杂多模态问题的关键之一可能在于找到一个“共同语言”或“通用表示”。 - 多任务训练的泛化能力: 通过多任务画布训练,模型能够从单控制场景泛化到多控制场景,即使在训练中从未见过这些组合。这种自发泛化能力令人印象深刻,表明模型真正学习到了不同控制之间的内在联系和语义依赖,而不仅仅是记忆任务。这为设计更通用的、少样本甚至零样本的多模态生成模型提供了宝贵的经验。
- 避免启发式方法的优点: 许多现有方法依赖于复杂的模块组合和任务特定的启发式方法。
Canvas-to-Image的端到端学习方法避免了这些,使得模型能够更自然、更连贯地整合信息,减少了人工设计的复杂性和潜在的错误。 - 工程与学术的结合:
Canvas-to-Image的研究背景是Snap Inc.这样的公司,这表明了将前沿学术研究(如扩散模型、流匹配、LoRA)与实际应用需求(如创意和内容生成)相结合的强大驱动力。这种结合能够推动技术的快速迭代和落地。
7.3.2. 批判与潜在改进
- “单一 RGB 图像”的局限性: 尽管作者指出了像素空间限制作为局限性,并提出了
RGBA作为未来方向,但这种限制可能比描述的更深。当控制信号非常密集或相互冲突时,模型如何有效地区分和权衡这些信息是一个挑战。例如,当一个边界框与姿态骨架发生强烈冲突时,模型如何决策?简单的像素叠加可能无法完全捕捉到语义层面的优先级和复杂关系。- 改进方向: 除了
RGBA,可以考虑引入一些显式的“权重图”或“注意力图”作为额外的输入通道,允许用户或模型定义不同控制信号的重要性。或者,探索更高级的结构化输入(例如,图结构来表示对象关系),然后通过专门的编码器将其映射到潜在的视觉表示。
- 改进方向: 除了
- “任务指示器”的必要性: 任务指示器
(c)虽然被证明是有效的,但其存在表明模型在没有明确提示的情况下仍然难以完全解耦不同任务的语义。这可能意味着在模型内部,不同控制类型的信息流并未完全解耦,或者模型的上下文理解能力仍有提升空间。- 改进方向: 研究更深层次的跨任务特征共享和解耦机制,例如通过对比学习 (contrastive learning) 强制不同控制模态的嵌入在潜在空间中保持其独特但又相互关联的特性,从而可能减少对显式任务指示器的依赖。
- 内部数据集的不可及性: 依赖大规模内部数据集(6M 跨帧图像,1M 独特身份)是其取得成功的关键之一。对于学术界和开源社区来说,这种数据集的不可及性限制了该方法的可复现性和进一步研究。
- 讨论: 虽然作者提到了可以从公共开源视频数据集构建类似数据,但具体实现细节和挑战并未详细说明。
- 计算成本与实时性: 尽管
LoRA降低了微调成本,但作为一个复杂的扩散模型,其推理时间和计算资源消耗仍然是一个考虑因素,特别是在需要实时交互的应用中。-
讨论: 未来的工作可以关注模型的蒸馏 (distillation) 或更轻量级的架构,以提高推理效率。
总而言之,
Canvas-to-Image提供了一个新颖且强大的框架,通过统一的视觉接口和多任务训练,显著提升了多模态组合式图像生成的控制精度和灵活性。其核心思想具有广阔的应用前景,同时也为未来在更复杂控制场景和更深层次语义理解方面的研究指明了方向。
-
相似论文推荐
基于向量语义检索推荐的相关论文。