AiPaper
论文状态:已完成

Generation of Clothing Patterns Based on Impressions Using Stable Diffusion

原文链接
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本论文提出了一种基于印象的个性化服装图案生成模型,扩展了Stable Diffusion架构,通过多模态输入系统同时处理文本描述、图案图像和量化视觉印象。实验结果显示,生成的图像在多个印象指标上与原图存在正相关,成功保留了设计中的主观视觉特征。

摘要

Personalized products based on individual preferences have been considered to improve personal well-being and consumer satisfaction. This approach helps reduce waste and conserve resources. With artificial intelligence enabling personalization, consumers can easily access products that match their preferences without the need for specialized knowledge or professional expertise. Advances in artificial intelligence, text-to-image models in particular, have enabled the generation of impressive images from textual descriptions. However, existing models lack the ability to generate images based on visual impressions. In this paper, we propose a text-to-image diffusion model that incorporates visual impressions into the image generation process. Our model extends the stable diffusion architecture by introducing a multi-modal input system that processes text descriptions, pattern images, and quantified visual impressions. Experimental validation confirmed the positive correlation between generated and original images across multiple impression metrics, demonstrating the model’s effectiveness in preserving impression-based characteristics. These results suggest that our approach successfully bridges the gap between textual descriptions and visual impressions in image generation.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

基于印象的服装图案生成,使用 Stable Diffusion (Generation of Clothing Patterns Based on Impressions Using Stable Diffusion)

1.2. 作者

J. N. Htoi Sann Ja, Kaede Shiohara, Toshihiko Yamasaki, Miyuki Toga Kensuke Tobitani, and Noriko Nagata

1.3. 发表期刊/会议

ICICT2025 (International Conference on Information and Communication Technology 2025)

1.4. 发表年份

2025 年

1.5. 摘要

基于个人偏好的个性化产品被认为可以改善个人福祉和消费者满意度。这种方法有助于减少浪费和节约资源。随着人工智能赋能个性化,消费者无需专业知识或专业技能即可轻松获得符合其偏好的产品。人工智能的进步,特别是文本到图像 (text-to-image) 模型,使得从文本描述生成令人印象深刻的图像成为可能。然而,现有模型缺乏根据视觉印象生成图像的能力。在本文中,我们提出了一种文本到图像扩散模型,该模型将视觉印象纳入图像生成过程。我们的模型通过引入一个多模态输入系统来扩展 Stable Diffusion 架构,该系统处理文本描述、图案图像和量化的视觉印象。实验验证证实了生成图像与原始图像在多个印象指标上存在正相关,证明了该模型在保留基于印象的特征方面的有效性。这些结果表明,我们的方法成功弥合了图像生成中文本描述与视觉印象之间的鸿沟。

1.6. 原文链接

https://ist.ksc.kwansei.ac.jp/~nagata/data/Sanja_ICICT2025.pdf 发布状态:预印本或会议论文集稿件(根据会议名称及年份推测)。

2. 整体概括

2.1. 研究背景与动机

  • 论文试图解决的核心问题是什么? 现有文本到图像 (Text-to-Image, T2I) 生成模型能够根据文本描述生成图像,但缺乏将人类细微、主观的审美或“印象”作为可控参数融入图像生成过程的能力。这意味着用户无法直接通过指定“可爱”、“明亮”或“酷炫”等视觉印象来生成相应的图像。
  • 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白 (Gap)? 在现代工业中,个性化产品设计至关重要,它能提高用户满意度,增强产品情感连接,并促进可持续消费。尤其在时尚行业,图案、纹理和颜色对消费者偏好和情感反应影响巨大。然而,现有的 T2I 模型虽然能实现定制化和创意生成,但在将深层情感和感官品质(即视觉印象)嵌入设计过程方面存在空白。尽管已有研究致力于量化主观印象、预测印象或合成纹理,但将印象作为可控参数进行图像生成仍是一个尚未建立的领域。
  • 这篇论文的切入点或创新思路是什么? 论文的创新点在于提出了一个能够同时利用文本描述和量化视觉印象来生成图案图像的扩散模型。它通过扩展 Stable Diffusion 架构,引入了一个多模态输入系统,将文本、图案图像和量化的视觉印象结合起来,从而使得印象值(如“可爱”、“明亮”、“酷炫”)可以作为可控参数来指导图像生成。

2.2. 核心贡献/主要发现

  • 论文最主要的贡献是什么?
    1. 提出了一个将视觉印象融入图像生成过程的文本到图像扩散模型。
    2. 通过引入一个多模态输入系统(处理文本描述、图案图像和量化视觉印象),扩展了 Stable Diffusion 架构。
    3. 开发了一个 印象编码器 (Impression Encoder),能够将量化的印象值转换为与 CLIP 模型文本嵌入空间对齐的嵌入向量 (SS^*),从而实现印象对图像生成的引导。
  • 论文得出了哪些关键的结论或发现?这些发现解决了什么具体问题?
    1. 印象保留有效性: 实验验证证实,生成的图像与原始图像在多个印象指标上存在显著正相关,表明该模型能有效地保留基于印象的特征。
    2. 弥合鸿沟: 该方法成功弥合了图像生成中文本描述与视觉印象之间的鸿沟,使得用户可以通过主观印象来控制图像生成。
    3. 文本条件化验证: 通过使用特定提示(如“floral texture of SS^*”),模型成功生成了准确的花卉图案,证实了输入文本对模型的有效条件化。
    4. 相似度与印象一致性: 原始图像与生成图像之间的相似度越高(即 DISTS 值越低),其唤起的印象评价相关性也越高,且评价分数差异很小,表明模型在保持印象一致性方面的良好性能。 这些发现共同解决了现有 T2I 模型无法直接依据主观视觉印象生成图像的难题,为个性化产品设计提供了新的工具和可能性。

3. 预备知识与相关工作

3.1. 基础概念

  • 个性化产品设计 (Personalization in Product Design): 强调产品根据个人偏好、审美和生活方式进行定制,以提高用户满意度和情感连接,并促进可持续消费。
  • 生成模型 (Generative Models): 一类能够学习数据分布并生成新数据的机器学习模型。在图像领域,它们可以根据输入(如文本、噪声)创造出全新的图像。
  • 文本到图像扩散模型 (Text-to-Image Diffusion Models): 一种先进的生成模型,如 Stable DiffusionDALL-E2Imagen。它们通过迭代的去噪过程(从随机噪声逐渐恢复出清晰图像)来生成与给定文本描述相符的图像。
    • 扩散模型 (Diffusion Models): 这类模型通常包含两个过程:前向扩散过程(逐步向数据添加噪声,直到数据变为纯噪声)和反向去噪过程(学习如何从噪声中恢复原始数据)。在生成时,模型从纯噪声开始,通过学习到的反向过程逐步去除噪声,最终生成目标图像。
  • Stable Diffusion: 一种流行的潜在扩散模型 (Latent Diffusion Model, LDM)。它在图像的潜在空间 (latent space) 而非像素空间进行扩散和去噪,大大提高了效率和生成质量。
  • CLIP (Contrastive Language–Image Pre-training) 文本编码器 (Text Encoder): CLIP 是一个由 OpenAI 提出的多模态模型,能够理解图像内容和文本描述之间的语义关系。其文本编码器负责将文本输入转换为高维的语义嵌入向量,这些向量可以与图像的嵌入向量进行比较,从而判断文本和图像是否匹配。在 Stable Diffusion 中,CLIP 文本编码器产生的文本嵌入用于指导图像的生成。
  • VAE (Variational Autoencoder) 编码器 (Encoder): VAE 是一种生成模型,包含一个编码器和一个解码器。编码器将输入数据(如图像)压缩到低维的潜在空间,解码器则从潜在空间重构数据。在 Stable Diffusion 中,VAE 编码器用于将高维图像压缩到更高效的潜在空间进行处理,从而降低计算复杂度并提高生成速度。
  • UNet (U-shaped Network): 一种卷积神经网络架构,因其形状像字母“U”而得名。它通常由一个下采样路径(编码器)和一个上采样路径(解码器)组成,并在不同层级之间存在跳跃连接 (skip connections)。UNetStable Diffusion 等扩散模型中作为去噪器使用,负责预测在给定噪声图像中需要去除的噪声量。
  • 视觉印象 (Visual Impression) / 感知工学 (Kansei): 视觉印象是指人们在看到图像或产品时产生的感性、主观的心理和情感反应。感知工学 (Kansei Engineering) 是一门研究如何将人类感性需求转化为产品设计元素,并量化主观感受的学科。本文试图将这些主观印象量化并作为输入来控制生成过程。
  • LeakyReLU 激活函数 (Activation Function): 一种常用的激活函数,定义为 f(x)=max(αx,x)f(x) = \max(\alpha x, x),其中 α\alpha 是一个小的正数(通常为 0.01)。它解决了传统 ReLU 函数在输入为负时导致神经元“死亡”的问题,允许在负输入下仍有小的梯度,有助于神经网络的训练。
  • DISTS 指标 (Metric): 用于评估图像质量和相似度的指标。在本文中,用于衡量生成图像与原始图像之间的感知相似度。

3.2. 前人工作

  • 通用文本到图像 (T2I) 模型:
    • Stable Diffusion [1]: 论文所基于的基础模型,实现了从文本描述生成高质量图像。
    • DALL-E2 [2], Imagen [3]: 其他先进的 T2I 模型,同样能从文本生成令人印象深刻的图像。
    • 局限性: 这些模型主要依赖文本条件化,缺乏将细致、主观的“视觉印象”作为直接可控参数的能力。
  • T2I 模型个性化方法:
    • E4T [6]: 提出两阶段个性化方法,通过预训练嵌入词和调整注意力层权重来适应特定领域数据集,从而从少量样本中快速生成个性化图像。
    • Face2Diffusion [7]: 针对面部图像的个性化生成。
    • 局限性: 这些方法主要关注生成特定概念或未见过的个体,而非控制图像的抽象视觉印象。
  • 纹理与印象量化研究:
    • Sunda 等人 [4] 和 Sugiyama 等人 [5]: 进行了关于纹理合成、物理参数到印象转换以及印象自动预测模型的研究。Sunda 等人成功构建了使用服装图案风格特征进行印象估计的模型,并开发了符合人类直觉的图案搜索系统。
    • 局限性: 尽管这些研究能够估计或预测印象,但其现有框架尚未能有效生成符合特定印象的新图案图像,特别是将印象作为可控参数进行生成。

3.3. 技术演进

该领域的技术演进经历了从早期的图像合成技术,到基于深度学习的生成对抗网络 (GANs) 和变分自编码器 (VAEs),再到近年来在图像生成质量和可控性方面取得突破的扩散模型。特别是文本到图像扩散模型,如 Stable Diffusion,极大地提升了从文本描述生成逼真图像的能力。然而,这些技术主要关注“内容”的生成(由文本描述),而较少关注“风格”或“印象”的直接控制。本文的工作正是在这个背景下,试图将感知工学中的“印象”量化并融入到最先进的 T2I 扩散模型中,以实现对图像风格和情感的更精细控制。

3.4. 差异化分析

本文的方法与相关工作的核心区别在于:

  • 多模态印象控制: 现有 T2I 模型主要以文本为唯一输入进行条件化。本文首次提出通过引入一个多模态输入系统,将量化的视觉印象与文本描述、图案图像一同作为输入,以控制图像生成过程。
  • 印象作为可控参数: 过去的研究虽然能对印象进行量化和预测,但并未将印象值直接作为扩散模型中的可控参数来指导新图像的生成。本文通过 印象编码器 将印象值转换为潜在嵌入 SS^*,使其能够在 Stable Diffusion 的文本嵌入空间中发挥作用,从而实现了印象驱动的图像生成。
  • 弥合感知与生成之间的鸿沟: 多数 T2I 模型专注于语义内容的准确性,而本文则致力于解决如何将抽象、主观的人类审美和情感(视觉印象)有效地映射到机器可操作的生成参数中,这是一个在个性化产品设计中至关重要的空白。

4. 方法论

4.1. 方法原理

本文的核心思想是扩展 Stable Diffusion 模型,使其能够接收并理解量化的视觉印象,并将其作为条件来指导图案图像的生成。为了实现这一目标,作者引入了一个 印象编码器 (Impression Encoder)。这个编码器负责将代表主观视觉印象的数值向量转换成一个嵌入向量 (SS^*)。这个 SS^* 向量随后被整合到 CLIP 模型所定义的文本嵌入空间中,使其能够与传统的文本提示一起,共同影响 Stable Diffusion 的图像生成过程。这样,模型不仅能理解“是什么”的文本描述,还能感知“感觉如何”的视觉印象,从而生成兼具两者特征的图像。

4.2. 核心方法详解

4.2.1. T2I 模型 (Stable Diffusion)

本文以 Stable Diffusion (SD) [1] 作为基础文本到图像 (T2I) 模型。SD 包含两个核心编码器:一个 文本编码器 和一个 VAE 编码器 (VAE Encoder)

  • VAE 编码器 (ε\varepsilon): 负责将输入图像 (xx) 压缩到低维的潜在空间 (latent space)。这个过程在保留图像感知细节的同时,显著降低了数据的维度,从而提高了处理效率。

  • CLIP 文本编码器 (τ\tau): 用于将输入的文本提示 (pp) 编码成高维的嵌入向量 (τ(p)\tau(p))。这个嵌入向量捕捉了文本的语义信息,用于指导图像的生成。

  • UNet (ϵθ\epsilon_\theta): 是模型的核心去噪器。它在潜在空间中,逐步对带有噪声的潜在特征 (ztz_t) 进行去噪。在每个时间步 ttUNet文本特征 (τ(p)\tau(p)) 的引导下,预测需要从 ztz_t 中去除的噪声量 ϵ\epsilon

    模型训练的目标是最小化实际噪声 (ϵ\epsilon) 与 UNet 预测噪声 (ϵθ\epsilon_\theta) 之间的差异。这通过以下均方误差损失函数 (LldmL_{ldm}) 实现: Lldm=(ϵϵθ(zt,t,τ(p))22. L _ { l d m } = | | ( \epsilon - \epsilon _ { \theta } ( z _ { t } , t , \tau ( p ) ) | | _ { 2 } ^ { 2 } . 符号解释:

  • LldmL_{ldm}: 潜在扩散模型 (Latent Diffusion Model) 的损失函数 (loss function)。

  • ϵ\epsilon: 实际添加到潜在特征中的噪声 (actual noise added to the latent feature)。

  • ϵθ\epsilon_\theta: UNet 模型 (θ\theta 代表模型参数) 预测的噪声 (predicted noise by the UNet model)。

  • ztz_t: 在时间步 tt 时,经过噪声处理的潜在特征 (noisy latent feature at time tt)。

  • tt: 扩散过程中的时间步 (time step in the diffusion process)。

  • τ(p)\tau(p): 通过 CLIP 文本编码器 (τ\tau) 将文本提示 pp 编码得到的嵌入向量 (embedding vector of text prompt pp encoded by the CLIP text encoder)。

  • 22||\cdot||_2^2: L2 范数(欧几里得范数)的平方,表示向量之间距离的平方 (squared L2 norm, representing the squared Euclidean distance between vectors)。

    通过这个训练过程,Stable Diffusion 学习文本和图像之间鲁棒的语义关系,从而能够生成与文本提示对齐的高质量图像。

4.2.2. 印象编码器 (Impression Encoder)

为了将视觉印象纳入图像生成过程,本文引入了一个 印象编码器 (fimpf_{imp})。

  • 功能: 该编码器负责将量化的印象值向量 (vxv_x) 转换为一个印象特征嵌入向量 (SS^*)。这个 SS^* 向量被设计为与 CLIP 模型文本嵌入的维度(768 维)对齐。

  • 结构: 印象编码器 是一个神经网络,其每一层都使用 LeakyReLU 激活函数。LeakyReLU 有助于从印象向量中有效提取有意义的特征,并促进与 CLIP 模型的无缝集成。

    其转换过程可以表示为: S=fimp(vx). S ^ { * } = f _ { i m p } ( v _ { x } ) . 符号解释:

  • SS^*: 提取出的印象特征,以词嵌入 (word embedding) 的形式表示 (extracted impression feature, represented as a word embedding)。

  • fimpf_{imp}: 印象编码器,一个神经网络函数 (impression encoder, a neural network function)。

  • vxv_x: 对应于输入图像 xx 的印象值向量,这些印象值是基于主观评估进行量化的 (vector of impression values corresponding to input image xx, quantified based on subjective evaluation)。

    通过这种方式,印象嵌入 (SS^*) 可以被视为一个令牌化的词 (tokenized word),用于生成印象增强的图像。

4.2.3. 训练过程 (Training Process)

训练阶段的流程如图 1a 所示:

  1. 输入: 训练模型需要输入 印象值图像文本提示

  2. 印象编码: 印象编码器 将输入的印象值向量 (vxv_x) 编码成印象特征 SS^*

  3. 文本编码: CLIP 文本编码器印象特征 SS^* 与输入的文本提示进行组合,并编码成最终的文本嵌入。

  4. 图像编码与加噪: VAE 编码器 将输入的图像编码到潜在空间,并向其添加高斯噪声 ϵ\epsilon

  5. 噪声预测: 所有的输入(包括处理后的图像潜在特征、时间步以及结合印象特征的文本嵌入)随后被送入 UNet (ϵθ\epsilon_\theta),UNet 的任务是预测添加到潜在特征中的噪声 ϵ\epsilon。模型通过最小化预测噪声与实际噪声之间的差异来更新参数。

    以下是原文 Figure 1 的示意图,展示了训练过程:

    Fig. 1 Overview of our proposed method 该图像是示意图,展示了基于印象生成图像的训练和推理流程。在训练阶段,通过印象编码器和文本编码器处理输入图像和文本描述,生成的噪声通过去噪 U-Net 模型进行优化。在推理阶段,模型利用相同结构生成最终图像。

图 1a 展示了训练阶段,模型接收图像、印象值和文本提示。印象编码器将印象值转换为印象嵌入 SS^*,并与文本提示一起输入文本编码器。图像通过 VAE 编码器压缩并添加噪声。UNet 模型在文本和印象的引导下预测噪声。

4.2.4. 推理过程 (Inference)

推理阶段的流程如图 1b 所示:

  1. 输入: 在生成图像时,只需输入印象值文本提示

  2. 印象嵌入: 类似于训练过程,印象特征 SS^* 通过 印象编码器 生成,并被整合到输入文本中。

  3. 图像生成: 然后,Stable Diffusion 模型根据这个结合了印象和文本信息的条件,执行去噪过程。从随机噪声开始,逐步去除噪声,最终生成一张符合输入印象和文本描述的图像。

    以下是原文 Figure 1 的示意图,展示了推理过程:

    Fig. 1 Overview of our proposed method 该图像是示意图,展示了基于印象生成图像的训练和推理流程。在训练阶段,通过印象编码器和文本编码器处理输入图像和文本描述,生成的噪声通过去噪 U-Net 模型进行优化。在推理阶段,模型利用相同结构生成最终图像。

图 1b 展示了推理阶段,模型接收印象值和文本提示。印象编码器将印象值转换为印象嵌入 SS^*,并与文本提示一起输入到文本编码器。然后,模型从随机噪声开始,在文本和印象嵌入的引导下进行去噪,最终生成图像。

5. 实验设置

5.1. 数据集

实验使用了两种类型的图案数据集:

  • 花卉图案 (Floral Patterns):
    • 图像: 准备了 3,098 张尺寸为 512×512512 \times 512 的花卉图案图像作为输入。
    • 印象: 使用了 10 个评估词(参见 Table 2)来描述花卉图案所唤起的印象。这些词是通过先前研究 [4] 中的自由描述和拟合度评估选定的。
    • 量化: 图案的印象通过主观评估进行量化。每个评估词都采用 7 点量表评分,范围从“非常同意”到“非常不同意”,并赋值为 -3 到 3。这些分数作为印象值。
  • 通用图案 (General Patterns):
    • 图像与印象: 准备了 2,878 张通用图案图像,其评估词的选取和印象的量化过程与花卉图案数据集相同。

      以下是原文 Figure 2 的示意图,展示了输入图案图像的示例:

      Fig. 2 Input pattern images 该图像是图表,展示了不同类型的图案。在左侧,包含了多种花卉图案;右侧则呈现了一组通用图案。这些图案用于研究个性化产品生成的视觉印象。

图 2a 展示了花卉图案的示例,图 2b 展示了通用图案的示例。这些图案作为模型的输入,用于生成和评估。

5.2. 评估指标

论文中使用了以下几种方式来评估模型的性能:

  1. 相关性 (Correlation):

    • 概念定义 (Conceptual Definition): 衡量原始图像与生成图像所唤起的印象评价分数之间的一致性或线性关系。如果相关系数为正且较高,则表示生成图像在印象上与原始图像保持了相似的趋势。
    • 数学公式 (Mathematical Formula): 通常使用皮尔逊相关系数 (Pearson Correlation Coefficient) 来衡量这种线性关系。给定两组数据 X={x1,x2,,xn}X = \{x_1, x_2, \dots, x_n\}Y={y1,y2,,yn}Y = \{y_1, y_2, \dots, y_n\},其皮尔逊相关系数 rr 计算如下: r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2 r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n (y_i - \bar{y})^2}}
    • 符号解释 (Symbol Explanation):
      • nn: 数据点的数量 (number of data points)。
      • xix_i: 原始图像的印象评价分数 (impression evaluation score of the original image for the ii-th data point)。
      • yiy_i: 生成图像的印象评价分数 (impression evaluation score of the generated image for the ii-th data point)。
      • xˉ\bar{x}: 原始图像印象评价分数的平均值 (mean of impression evaluation scores for original images)。
      • yˉ\bar{y}: 生成图像印象评价分数的平均值 (mean of impression evaluation scores for generated images)。
  2. 评价分数差异 (Difference in Evaluation Scores):

    • 概念定义 (Conceptual Definition): 直接量化生成图像和原始图像在特定印象评价分数上的绝对或平均差异。差异越小,表明模型在保持特定印象方面表现越好。
    • 数学公式 (Mathematical Formula): 假设我们关注的是原始图像 XX 和生成图像 YY 在某个印象维度上的评价分数,差异可以直接计算为: ΔS=SYSX\Delta S = |S_Y - S_X| 或者计算平均绝对差异 (Mean Absolute Difference): MAD=1Ni=1NSY,iSX,i MAD = \frac{1}{N} \sum_{i=1}^N |S_{Y,i} - S_{X,i}|
    • 符号解释 (Symbol Explanation):
      • ΔS\Delta S: 某个印象维度的分数差异 (difference in score for a specific impression dimension)。
      • SYS_Y: 生成图像在该印象维度上的评价分数 (evaluation score of the generated image for that impression dimension)。
      • SXS_X: 原始图像在该印象维度上的评价分数 (evaluation score of the original image for that impression dimension)。
      • NN: 样本数量 (number of samples)。
      • SY,iS_{Y,i}: 第 ii 个生成图像在该印象维度上的评价分数 (evaluation score of the ii-th generated image for that impression dimension)。
      • SX,iS_{X,i}: 第 ii 个原始图像在该印象维度上的评价分数 (evaluation score of the ii-th original image for that impression dimension)。
  3. DISTS (Deep Image Structure and Texture Similarity) 指标 [10]:

    • 概念定义 (Conceptual Definition): DISTS 是一种全参考图像质量评估 (Image Quality Assessment, IQA) 方法,旨在通过结合图像的结构信息和纹理信息来衡量两幅图像的感知相似度。它利用预训练的深度卷积神经网络(例如 VGG 网络)从输入图像中提取多尺度、多层次的特征图。DISTS 基于这些提取出的特征图,计算结构相似度 (Structure Similarity) 和纹理相似度 (Texture Similarity),并将它们加权聚合,最终输出一个衡量两幅图像之间感知距离的得分。DISTS 值越低,表示两幅图像在人类感知上越相似,与人类的视觉判断更为一致。
    • 数学公式 (Mathematical Formula): 鉴于 DISTS 是一个基于深度学习特征提取和多尺度聚合的复杂指标,其完整计算公式涉及多个子公式和神经网络的内部机制,无法用一个简洁的数学表达式完全概括。其核心思想是,对于图像 XXYY,首先通过一个预训练的特征提取器 FF(例如 VGG16)获取它们在不同层级 ll 的特征图 Fl(X)F_l(X)Fl(Y)F_l(Y)。然后,在这些特征图上计算局部区域的结构相似度 SstrS_{str} 和纹理相似度 StexS_{tex}。最终的 DISTS 值是这些局部相似度的加权聚合。 通常,局部结构相似度可以表示为(类似于 SSIM 的亮度项): Sstr(fX,fY)=2μfXμfY+C1μfX2+μfY2+C1 S_{str}(f_X, f_Y) = \frac{2\mu_{f_X}\mu_{f_Y} + C_1}{\mu_{f_X}^2 + \mu_{f_Y}^2 + C_1} 局部纹理相似度可以表示为(类似于 SSIM 的对比度和结构项): Stex(fX,fY)=2σfXfY+C2σfX2+σfY2+C2 S_{tex}(f_X, f_Y) = \frac{2\sigma_{f_X f_Y} + C_2}{\sigma_{f_X}^2 + \sigma_{f_Y}^2 + C_2}
    • 符号解释 (Symbol Explanation):
      • X, Y: 输入的两幅图像 (Input images XX and YY)。
      • Fl(X),Fl(Y)F_l(X), F_l(Y): 图像 XXYY 在深度学习模型第 ll 层提取的特征图 (Feature maps of images XX and YY extracted from layer ll of a deep learning model)。
      • fX,fYf_X, f_Y: 特征图 Fl(X)F_l(X)Fl(Y)F_l(Y) 中的局部区域 (Local patches from feature maps Fl(X)F_l(X) and Fl(Y)F_l(Y))。
      • μfX,μfY\mu_{f_X}, \mu_{f_Y}: 局部区域 fXf_XfYf_Y 的均值 (Mean of local patches fXf_X and fYf_Y)。
      • σfX,σfY\sigma_{f_X}, \sigma_{f_Y}: 局部区域 fXf_XfYf_Y 的标准差 (Standard deviation of local patches fXf_X and fYf_Y)。
      • σfXfY\sigma_{f_X f_Y}: 局部区域 fXf_XfYf_Y 的协方差 (Covariance of local patches fXf_X and fYf_Y)。
      • C1,C2C_1, C_2: 较小的常数,用于数值稳定性 (Small constants for numerical stability)。
      • DISTS 的最终值是通过对多个层级的 SstrS_{str}StexS_{tex} 进行加权平均得到,其详细聚合方式请参考原论文 [10]。

5.3. 对比基线

本研究主要关注验证所提出模型在生成符合特定印象的图像方面的有效性,以及生成图像与原始图像在印象和视觉上的相关性。因此,实验中没有直接与其他的图像生成模型进行横向对比,而是通过分析模型生成图像的内部一致性(即与原始图像印象的匹配程度)来评估其性能。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 生成图像示例

Generation of Images 部分,作者展示了使用花卉图案和通用图案数据集生成的图像示例。这些图像是利用原始图像的印象值和标注提示作为输入生成的。 以下是原文 Figure 3a 和 Figure 4 的示意图,展示了生成图像的示例:

该图像是插图,展示了基于原始图像和提示生成的服装图案。图中包括原始图像、不同提示下生成的样式(S*)以及对应的纹理,展示了视觉印象与生成图像之间的关系。 该图像是插图,展示了基于原始图像和提示生成的服装图案。图中包括原始图像、不同提示下生成的样式(S)以及对应的纹理,展示了视觉印象与生成图像之间的关系。*

图 3a 展示了花卉图案的生成图像。

Fig. 3 Generated images 该图像是生成的服装图案展示,包含多种基于视觉印象的图案。第一行展示了原始图像,随后为不同提示(如'S'、'a photo of S*'等)生成的图案,表现了如何通过多模态输入结合文本描述和视觉印象生成图像。*

图 3b 展示了不同提示下生成的图案(例如 SS*, a photo of S*),以验证视觉印象与生成图像之间的关系。

讨论:

  • 在比较不同提示(如“a photo of SS^*”、“SS^*”、“SS^* texture”)生成的图像时,作者发现肉眼难以区分它们之间的明显差异。
  • 为了验证输入文本是否充分条件化了模型,作者使用了“floral texture of SS^*”的提示。成功生成准确的花卉图案证实了输入文本对模型的有效条件化。
  • 然而,同样难以直接通过肉眼判断输入印象是否有效条件化了模型,这促使作者进行了进一步的验证实验。

6.1.2. 验证实验 (Verification Experiment)

为了客观评估模型在印象条件化方面的有效性,作者设计了一个验证实验。

实验目标:

  • 验证从具有高印象评价的原始图像生成的图像是否也能唤起高印象。
  • 验证从具有低印象评价的原始图像生成的图像是否也能唤起低印象。
  • 评估原始图像与生成图像的印象评价是否一致。

实验步骤: 30 名参与者对原始图像和生成图像的印象进行主观评价,使用 7 点量表(量化为 -3 到 3)。计算了原始图像和生成图像印象分数的相关性及差异。

数据集选择 (5.1 Selection of Dataset):

  • 从花卉图案和通用图案数据集中随机选择 5 张原始图像。

  • 使用这些原始图像的印象值,通过三个提示(“a photo of SS^*”、“SS^*”、“SS^* texture”)各生成 15 张图像。每个数据集总计生成 225 张图像。

  • 定义“可用图像”为没有噪声且图案结构清晰的图像。 以下是原文 Figure 4 的示意图,展示了可用与不可用图像的示例:

    Fig. 4 Example of usable and unusable images 该图像是插图,展示了可用与不可用图案的对比,正中央为原始图案。上方的图案为可用,显示了多种花卉设计;下方则是不可用的图案,包含色彩和图案设计的不同效果,反映了模型生成的多样性。

图 4 展示了可用(无噪声、结构清晰)和不可用(有噪声、结构不清晰)的生成图像示例。

以下是原文 Table 1 的结果:

Floral patternGeneral pattern
a photo of *2813
S*2710
S* texture209
Usable images/total images75/22532/225
Usable images percentage33%14%

分析:Table 1 可以看出,花卉图案数据集生成的可用图像数量(75/225,33%)远多于通用图案数据集(32/225,14%)。因此,后续实验主要基于花卉图案数据集进行。

评估词选择 (5.2 Selection of Evaluation Words):

  • 从花卉图案的 10 个评估词中选择。这些词被分为六个因子(Table 2)。

  • 每个因子选择负载最高的词。

  • 排除“free”和“sophisticated”,因为它们在极端分数(+2~+3 和 -2~-3)上代表性不足(Fig. 5)。 以下是原文 Table 2 的结果:

    FactorEvaluation word
    PopCheerfulBrightColorful
    ElaborateComplexMultilayered
    RefreshingCool-looking
    NovelFree
    TidyCute
    StylishElegantSophisticated

以下是原文 Figure 5 的示意图,展示了评估词的分布:

Fig. 5 Distribution of the evaluation word 该图像是图表,展示了根据不同评价标准(如快乐、复杂、酷、自由、可爱和高级)对图像的评分分布。每个子图呈现了不同评价标准下图像数量与评价分数的关系,并指出某些分类下数据不足的情况。

图 5 展示了不同评估词的得分分布。可以看出,“free”和“sophisticated”在极端得分(+2~+3和-2~-3)上的样本数量较少,说明这些印象词在数据集中缺乏极端的代表性。

以下是原文 Table 3 的结果:

Evaluation word
Cheerful
Complex
Cool-looking
Cute

分析: 最终选定了 4 个评估词:“Cheerful”、“Complex”、“Cool-looking”和“Cute”。

原始图像选择 (5.3 Selection of Original Images):

  • 对每个选定的评估词,分别选择 5 张对应最高、中位数和最低印象分数的图像。

  • 总计选择了 60 张原始图像 (4 个评估词 ×\times 5 张图像 ×\times 3 种分数模式)。 以下是原文 Figure 6 的示意图,展示了“Cheerful”印象的原始图像示例:

    Fig. 6 Selected original images of the impression "cheerful" 该图像是一组展示不同印象级别的花卉图案,其中分为三个类别:最高、中间和最低。每个类别下展示了多种花卉设计,旨在突出色彩和图案的多样性。

图 6 展示了针对“Cheerful”印象,得分最高、中位数和最低的原始图像示例。

生成图像选择 (5.4 Selection of Generated Images):

  • 排除不可用图像。

  • 使用 DISTS 指标 [10] 衡量原始图像与生成图像之间的相似度(DISTS 值越低,相似度越高)。

  • 对每个原始图像,从生成的图像中选择 3 张 DISTS 分数最高、中位数和最低的图像。

  • 通过此过程,最终选择了 600 张图像(60 张原始图像 ×\times (1 张原始图像 + 3 个提示 ×\times 3 张基于 DISTS 生成的图像))。 以下是原文 Figure 7 的示意图,展示了图像选择过程:

    Fig. 7 Selection of images 该图像是示意图,展示了通过不同的DIST评分和评估分数来评估生成图像的效果。图中显示了原始图片及其生成图像在评分上的对比,帮助理解图像质量与输入参数之间的关系。

图 7 详细描绘了图像选择流程:从原始图像出发,经过生成和 DISTS 评估,最终挑选出用于主观评测的图像子集。

6.1.3. 结果与讨论 (5.5 Results and Discussion)

相关性 (Correlation):

  • Table 4 显示了原始图像与生成图像印象评价分数之间的平均相关系数。

  • 参与者之间的平均相关性为中等水平,表明生成图像的印象趋势与原始图像相似。

  • 在不同提示中,“a photo of SS^*”提示的相关系数略高于其他提示(平均 0.547),这可能是因为模型在训练时使用了“a photo of SS^*”作为输入文本。

  • 关键发现: DISTS 分数较低(即生成图像与原始图像更相似)时,对应更高的相关系数。这表明,生成图像与原始图像在视觉上越相似,其反映原始图像印象的能力就越强。

  • 重要洞察: “generated images with high DISTS scores also correspond to high correlation coefficients confirms that our model generates objectively different images from the original images while preserving their original impressions.” 这句话表明,即使生成的图像在视觉上与原始图像有较大差异(高 DISTS),但只要它们在印象上仍保持高度相关,就说明模型成功地捕捉并保留了原始图像的抽象印象,而不仅仅是复制视觉细节。

    以下是原文 Table 4 的结果:

    PromptDISTSAverageSD
    LowestMedianHighest
    S*0.5800.5100.5060.5320.068
    S* texture0.6170.4900.4310.5120.070
    A photo of *0.6220.5650.4530.5470.065
    Average0.6060.5220.463
    SD0.0660.0750.058

评价分数差异 (Difference in Evaluation Scores):

  • 计算了原始图像和生成图像之间评价分数的差异。0 表示无差异,最大差异为 6 或 -6。

  • 参与者之间的平均分数差异很小,通常四舍五入后为 0。

  • “cool-looking”这个评估词的生成图像得分略低,但差异小于 1。

  • 分析: 整体结果表明原始图像与生成图像之间存在高度一致性,验证了模型的良好性能。

    以下是原文 Figure 8 的示意图,展示了评价分数差异:

    Fig. 8 Difference in evaluation scores between generated and original images 该图像是图表,展示了生成图像与原始图像在评估分数上的差异。图中不同颜色的点代表了各种视觉印象的评分差异,横轴显示视觉印象类型,纵轴则表示分数差异。整体来看,生成图像在各个印象上的表现各异,且有些表现优于原始图像。

图 8 显示了生成图像与原始图像之间在“Cheerful”、“Complex”、“Cool-looking”和“Cute”这四个评估词上的平均评价分数差异。图中可以看出,大多数印象词的差异接近于零,表明生成图像在这些印象上与原始图像保持了高度一致性。

局限性 (Limitation):

  • 尽管模型在生成印象反映图像方面表现良好,但存在局限性。
  • 生成图案图像的成功率相对较低:花卉图案数据集为 33%,通用图案数据集仅为 14%(如 Table 1 所示)。

6.2. 数据呈现 (表格)

以下是原文 Table 1 的结果:

Floral patternGeneral pattern
a photo of *2813
S*2710
S* texture209
Usable images/total images75/22532/225
Usable images percentage33%14%

以下是原文 Table 2 的结果:

FactorEvaluation word
PopCheerfulBrightColorful
ElaborateComplexMultilayered
RefreshingCool-looking
NovelFree
TidyCute
StylishElegantSophisticated

以下是原文 Table 3 的结果:

Evaluation word
Cheerful
Complex
Cool-looking
Cute

以下是原文 Table 4 的结果:

PromptDISTSAverageSD
LowestMedianHighest
S*0.5800.5100.5060.5320.068
S* texture0.6170.4900.4310.5120.070
A photo of *0.6220.5650.4530.5470.065
Average0.6060.5220.463
SD0.0660.0750.058

7. 总结与思考

7.1. 结论总结

本研究提出了一种创新的服装图案图像生成方法,该方法允许将量化的印象分数作为输入,与文本提示一同条件化图像生成过程。通过对使用“floral texture of SS^*”提示生成的图像进行验证,作者确认了输入文本能够有效地指导模型。更为重要的是,通过分析原始图像与生成图像之间主观印象评分的相关性及差异,模型有效地反映了输入的印象。研究发现,用于模型训练的提示(“a photo of SS^*”)在反映印象方面表现更佳。同时,原始图像与生成图像之间视觉相似度越高(DISTS 值越低),它们在所唤起印象上的一致性也越强。此外,即使生成图像在客观上与原始图像存在差异(DISTS 值较高),但它们在印象上仍能保持高相关性,这进一步证实了模型在保留原始印象的同时,能够生成具有一定新颖性的图像。最后,原始图像与生成图像之间评价分数的微小差异也强力印证了两者印象的高度一致性。

7.2. 局限性与未来工作

  • 局限性: 论文明确指出,尽管方法在印象反映方面表现良好,但在生成图案图像的成功率上存在显著局限性。花卉图案数据集的成功率为 33%,而通用图案数据集的成功率仅为 14%(参见 Table 1)。这表明模型在生成稳定且结构清晰的图案方面仍有改进空间。
  • 未来工作: 作者计划通过扩展和多样化数据集来提高图案图像的生成成功率。他们认为,当前数据集规模相对较小且多样性有限可能是导致成功率低下的主要原因。通过收集和训练更大、更广泛的图案和设计数据集,旨在增强模型生成一致且高质量输出的能力。

7.3. 个人启发与批判

  • 个人启发:
    • 印象驱动设计的潜力: 本文最显著的启发在于成功将抽象的、主观的“视觉印象”量化并融入到生成模型中,为个性化产品(特别是时尚和设计领域)的创作开辟了新途径。这使得设计师和普通用户都能更直观地表达其审美偏好,而无需复杂的专业知识。这种 感知工学 (Kansei Engineering)人工智能 (Artificial Intelligence) 的结合,极具应用价值。
    • 多模态融合的深度: 论文通过 印象编码器 将印象值映射到 CLIP 的文本嵌入空间,这是一种巧妙的多模态融合策略,展示了如何将不同类型的数据(数值印象、文本)统一到同一语义空间中进行条件化。
    • 理解与控制的分离: 模型能够生成与原始图像印象高度相关但视觉上有所不同的图像,这暗示了模型不仅是简单地复制图像,而是真正理解并能够生成符合某种“印象”的抽象特征,即使具体视觉元素有所变化。
  • 批判与可改进之处:
    • 生成成功率低下的原因分析: 14% 和 33% 的成功率是模型应用于实际场景的一个主要障碍。论文将其归因于数据集的规模和多样性,但这可能只是部分原因。是否模型的架构(特别是 印象编码器 如何与 Stable Diffusion 融合)、训练策略、或损失函数在处理复杂图案结构方面仍有不足?未来的工作可以深入探究这些因素。
    • 主观评价的局限性: 尽管使用了 30 名参与者进行主观评价,这在学术研究中是常见的,但人类对“印象”的感知可能受到文化、个人背景、情绪状态等多种因素的影响。如何进一步增强评价的鲁棒性和普遍性是一个值得探讨的问题。例如,可以引入跨文化研究或更精细的用户画像。
    • 印象编码器的可解释性: 印象编码器 是一个神经网络,将印象值映射到 768 维的嵌入空间。这个嵌入空间中的 SS^* 向量具体代表了哪些视觉特征?能否提高其可解释性,从而更好地理解模型是如何将抽象印象转化为具体视觉元素的?这对于未来的模型改进和用户控制至关重要。
    • DISTS 与印象相关性的关系: 论文提到“generated images with high DISTS scores also correspond to high correlation coefficients”。需要更清晰地解释其含义。高 DISTS 意味着图像“客观上不相似”。如果这些不相似的图像在印象上却高度相关,这确实是一个积极的发现,表明模型能够捕捉抽象的印象而非仅仅复制像素。但在表述上,可以更明确地区分“视觉相似度”和“印象相似度”这两个概念。
    • 模型泛化能力: 实验主要在服装图案上进行。该方法是否能泛化到其他类型的产品或图像(如建筑、家具、艺术品)?其 印象编码器 是否需要针对不同领域重新训练或设计?这是未来探索的重要方向。
    • “usable images”的自动化选择: 目前依赖人工筛选“可用图像”,这可能引入主观性并耗费大量人力。开发一套自动化或半自动化的质量评估系统来识别和过滤生成图像中的噪声或不合格图案,将有助于提高效率和客观性。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。