LITA: LMM-Guided Image-Text Alignment for Art Assessment
TL;DR 精炼摘要
随着社交媒体上艺术作品数量激增,艺术图像美学评估(AIAA)模型的需求日益增加。本文提出了一种名为LITA的模型,基于大型多模态模型(LMM)引导的图像-文本对齐方法。LITA利用预训练的LLaVA模型生成评论,提取丰富的图像特征并进行美学预测,从而有效捕捉艺术风格和美学语义,实验结果表明其优于现有方法。
摘要
With an increasing number of artworks being shared on social media, Artistic Image Aesthetics Assessment (AIAA) models that can evaluate the aesthetics of these artworks are becoming increasingly essential. Existing methods primarily focus on devising pure vision models, often overlooking the nuanced and abstract elements that are crucial in artistic evaluation. To address the issue, we propose Large Multimodal Model (LMM)-guided Image-Text Alignment (LITA) for AIAA. LITA leverages comments from pre-trained LLaVA for rich image feature extraction and aesthetics prediction, considering that LLaVA is pre-trained on a wide variety of images and texts, and is capable of understanding abstract concepts such as artistic style and aesthetics. In our training, image features extracted by image encoders are aligned with text features of the comments generated by LLaVA. The alignment allows the image features to incorporate artistic style and aesthetic semantics. Experimental results show that our method outperforms the existing AIAA methods. Our code is available at https://github.com/Suna-D/LITA.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
LITA: LMM-Guided Image-Text Alignment for Art Assessment (LITA: LMM引导的图像-文本对齐用于艺术评估)
1.2. 作者
Tatsumi Sunada, Kaede Shiohara, Ling Xiao, and Toshihiko Yamasaki
隶属机构: The University of Tokyo (东京大学), Tokyo, Japan
1.3. 发表期刊/会议
论文未明确指出发表期刊或会议名称,但从行文和格式来看,很可能是一篇提交给顶级会议或期刊的稿件(例如,CVPR, ICCV, ECCV, NeurIPS等)。此类会议/期刊在计算机视觉和机器学习领域享有极高声誉,是发布前沿研究成果的重要平台。
1.4. 发表年份
2024年(根据 Published at (UTC): 2024-12-30T00:00:00.000Z 判断)
1.5. 摘要
随着社交媒体上分享的艺术作品数量不断增加,能够评估这些艺术作品美学质量的艺术图像美学评估 (Artistic Image Aesthetics Assessment, AIAA) 模型变得日益重要。现有的方法主要侧重于设计纯视觉模型,常常忽略了艺术评估中至关重要的细微和抽象元素。为了解决这个问题,本文提出了一种大型多模态模型 (Large Multimodal Model, LMM) 引导的图像-文本对齐 (Image-Text Alignment) 方法,名为 LITA,用于 AIAA。LITA 利用预训练的 LLaVA 模型生成的评论进行丰富的图像特征提取和美学预测,考虑到 LLaVA 在各种图像和文本上进行了预训练,并能够理解艺术风格和美学等抽象概念。在训练过程中,通过图像编码器提取的图像特征与 LLaVA 生成的评论的文本特征进行对齐。这种对齐使得图像特征能够融入艺术风格和美学语义。实验结果表明,该方法优于现有的 AIAA 方法。
1.6. 原文链接
/files/papers/6911dc4ab150195a0db749c4/paper.pdf 发布状态: 预印本或投稿状态(因为没有明确的期刊/会议信息,且提供的链接是内部文件路径)。
2. 整体概括
2.1. 研究背景与动机
核心问题: 艺术图像美学评估 (AIAA) 是一项复杂且具有挑战性的任务,因为艺术美学受多种绘画元素(如光照、构图、色彩和谐)和广泛的艺术风格(如印象派、表现主义、现实主义)影响,这些都是抽象概念。
为什么重要:
- 社会媒体普及: 社交媒体上艺术图像的激增,对客观评估艺术作品美学的需求越来越大。
- 反馈与策展: AIAA 模型可以为艺术家和内容创作者提供客观反馈,帮助平台策展高质量内容,并为用户提供更具美感的推荐。
现有研究的挑战或空白 (Gap):
- 纯视觉模型的局限性: 现有 AIAA 方法主要依赖于纯视觉模型,这些模型难以准确捕捉艺术风格和美学等抽象概念。艺术风格和美学是高度抽象的,仅凭像素信息难以完全理解。
- 文本信息利用不足: 图像美学评估 (Image Aesthetics Assessment, IAA) 领域已经成功利用文本数据(如用户评论)来理解抽象元素,但在 AIAA 领域,由于缺乏丰富的艺术相关文本数据集,这种做法尚未得到充分探索。
- 推理阶段的可用性问题: 即使在 IAA 中利用了文本信息,许多方法在推理阶段仍然需要文本输入,这在实际应用中(用户评论不总是可用)是不切实际的。
这篇论文的切入点或创新思路: LITA 旨在通过利用大型多模态模型 (LMM) 的强大能力来弥补上述空白。LMMs(如 LLaVA)在大量的图像-文本对上进行预训练,具备理解抽象概念(如艺术风格和美学)的能力,并且能够生成描述性文本。LITA 的创新之处在于,它利用 LMM 生成的评论在训练阶段引导图像特征的提取,使图像编码器能够学习到具有艺术风格和美学语义的丰富特征,而在推理阶段则无需 LMM 的参与,仅依靠图像编码器进行高效评估。
2.2. 核心贡献/主要发现
本文的主要贡献体现在以下几个方面:
- 提出 LMM 引导的图像-文本对齐框架 LITA: LITA 利用 LLaVA 对艺术作品进行评论,从艺术风格和美学角度提取丰富的文本特征,并将其作为指导,增强图像特征的提取。这解决了在缺乏丰富艺术文本数据集的情况下,如何有效利用文本信息的问题。
- 通过图像-文本对齐融入抽象概念: LITA 通过将图像特征与 LLaVA 生成的风格和美学文本特征进行对齐,使得图像编码器能够理解和捕捉艺术风格、美学等抽象概念,这是纯视觉模型难以实现的。
- 性能超越现有方法: 在 Boldbrush Artistic Image Dataset (BAID) 数据集上,LITA 在回归任务的 Pearson 线性相关系数 (PLCC) 达到 0.573,在分类任务的准确率达到 78.91%,超越了现有的先进 AIAA 方法,其中 PLCC 提高了 0.015,准确率提高了 1.19%。
- 推理阶段的高效性: LITA 在训练阶段利用 LMM 的知识,但在推理阶段仅使用训练好的图像编码器和全连接层,避免了 LMM 在推理时带来的高计算成本和时间开销。
- 可视化验证: 通过注意力图可视化,证实了 LITA 使得图像编码器不仅关注主体对象,还能捕捉背景和抽象概念,从而提取更全面的艺术特征。
3. 预备知识与相关工作
3.1. 基础概念
- 图像美学评估 (Image Aesthetics Assessment, IAA): 旨在评估图像的视觉吸引力和质量。通常用于摄影图像,关注构图、色彩、光线等因素。
- 艺术图像美学评估 (Artistic Image Aesthetics Assessment, AIAA): IAA 的一个专门领域,专注于评估艺术图像(如绘画)的特定属性,这些属性构成其美学吸引力。它需要考虑更深层次的艺术风格、历史背景、创作者意图等抽象概念。
- 大型多模态模型 (Large Multimodal Models, LMMs): 结合了大型语言模型 (LLM) 和视觉模型能力,能够同时处理和理解图像和文本信息。它们通过在海量图像-文本对上进行预训练,学习到强大的跨模态理解和生成能力。
- LLaVA (Large Language and Vision Assistant): 一种具体的 LMM,以其在图像理解和生成描述性文本方面的强大能力而闻名。它能够根据文本提示(
prompt)来描述图像内容,包括抽象概念。 - 图像-文本对齐 (Image-Text Alignment): 一种机器学习技术,旨在将图像特征和文本特征映射到同一个共享的潜在空间中,使得语义上相关的图像和文本特征在该空间中彼此靠近,而无关的则远离。这通常通过对比学习(如
contrastive loss)实现。 - Vision Transformer (ViT): 一种基于
Transformer架构的图像处理模型。它将图像分割成固定大小的图像块 (patch),然后将这些块转换为序列,输入到标准的Transformer encoder中进行处理。相较于传统的卷积神经网络 (CNN),ViT 在处理图像时能够更好地捕捉全局信息。 - Bidirectional Encoder Representations from Transformers (BERT): 一种预训练的语言表示模型,由 Google 开发。它通过在大规模文本语料库上进行双向
Transformer编码器的预训练,学习了丰富的语言理解能力,可以为文本生成高质量的特征表示。 - 对比损失 (Contrastive Loss): 一种用于训练深度学习模型以学习相似性度量函数的损失函数。其核心思想是拉近相似样本对(如图像与其对应文本)的嵌入,同时推远不相似样本对的嵌入。在本文中,它用于
image-text paired learning。- CLIP (Contrastive Language-Image Pre-training): 一个通过在大量图像-文本对上进行对比学习来训练图像编码器和文本编码器的模型。其目标是学习一个多模态嵌入空间,其中匹配的图像和文本对具有高相似度,而不匹配的对具有低相似度。本文的对比损失是借鉴了 CLIP 的思想。
3.2. 前人工作
-
图像美学评估 (IAA) 领域:
- 传统方法: 早期主要采用机器学习技术,依赖人工设计的特征(如颜色、光照、布局),但难以捕捉美学价值。
- 深度学习方法: 随着
Aesthetic Visual Analysis (AVA)等大型数据集的出现,深度神经网络被广泛用于提取图像特征并预测美学分数分布,例如 NIMA [28]、MPada [26]、MLSP [11]、UPF [36]、BIAA [39]、HLA-GCN [25]、TANet [9]、EAT [8]。 - 利用文本信息的方法: 近年来,大型视觉-语言模型的发展促进了利用文本信息改进 IAA 的工作。
- MSCAN [37] 结合图像特征和用户评论的文本特征,通过
co-attention机制捕捉隐式关联。 - 其他类似工作 [10, 38] 也利用图像和用户评论。
- 局限性: 这些方法在推理时仍需要用户评论,不适用于评论不可用的实际场景。
- VILA [13] 提出
image-text pretraining框架,将图像特征和用户评论特征嵌入同一空间,解决推理时数据不配对问题。 - 总体而言,利用文本信息已显著提升 IAA 性能 [30, 33]。
- MSCAN [37] 结合图像特征和用户评论的文本特征,通过
-
艺术图像美学评估 (AIAA) 领域:
- 早期方法: 主要基于手工特征 [2, 7],例如计算美学、美感、色彩分数或根据复杂性分类,但受限于小规模数据集。
- 大型数据集推动: 2023 年,Yi et al. [34] 发布了首个大型艺术图像数据集 Boldbrush Artistic Image Dataset (BAID)。
- SAAN [34]: 随 BAID 数据集一同提出的模型,提取风格特定美学特征和通用美学特征,然后组合预测美学分数。
- TSC-Net [32]: 提出了
Theme-Style-Color引导的网络,包含主题理解、美学特征提取和色彩分布网络,提取主题和色彩特征。 - SSMR [27]: 利用
Graph Convolutional Network (GCN)来预测美学。它通过采样相似图像并构建 GCN 来理解艺术作品的语义和风格。
- 现有方法的共同局限性: 这些方法主要关注设计专门的网络来提取风格和美学特征,但未利用文本信息来提供更多上下文信息和增强特征表示。
-
大型多模态模型 (LMM) 领域:
- 文本-图像配对预训练: CLIP [21] 和 ALIGN [12] 等模型通过
text-image paired pre-training学习强大的多模态处理能力,将文本和图像嵌入同一潜在空间,在多种下游任务中表现出色 [22, 23]。 - 新兴 LMMs: LLaVA [17]、BLIP-2 [14]、GPT-4 [1] 等模型在此基础上进一步发展,能够根据文本提示描述图像信息,甚至理解抽象概念如美学和质量 [30, 33, 35]。
- 文本-图像配对预训练: CLIP [21] 和 ALIGN [12] 等模型通过
3.3. 技术演进
该领域的技术演进可以概括为从:
-
手工特征 + 传统机器学习 (早期 IAA/AIAA)
-
深度学习 + 纯视觉模型 (基于大规模数据集的 IAA/AIAA)
-
深度学习 + 视觉-语言结合 (文本信息在 IAA 中得到利用,但推理时仍需文本)
-
大型多模态模型 + 视觉-语言结合 (LMMs 展现强大理解和生成能力,为更深层次的抽象概念理解提供可能)
本文的工作正处于第四阶段,它利用 LMM 的先进能力,将文本知识注入到视觉模型中,从而提升 AIAA 性能,同时解决推理时文本不可用的问题。
3.4. 差异化分析
本文的 LITA 方法与相关工作的核心区别和创新点在于:
- 与纯视觉 AIAA 方法的区别: LITA 明确利用 LMM 生成的文本评论来指导图像特征提取,从而捕获艺术风格和美学等抽象概念。而 SAAN、TSC-Net、SSMR 等方法主要通过设计复杂的视觉网络来提取这些特征,缺乏文本语义的直接指导。
- 与依赖文本的 IAA 方法的区别: 尽管 IAA 领域已有一些工作利用文本信息(如 MSCAN、VILA),但 LITA 的独特之处在于,它仅在训练阶段利用 LMM 生成的评论进行图像-文本对齐,而在推理阶段完全不依赖文本。这意味着 LITA 在实际部署时具有更高的效率和更低的成本,无需 LMM 的在线推理,解决了现有 IAA 文本方法在实际应用中的局限性。
- 利用 LMM 的方式: LITA 将 LMM 视为一个“艺术评论员”或“知识蒸馏器”,其生成的评论作为一种“软标签”或“引导信号”,帮助视觉编码器学习更具语义的特征,而不是直接将 LMM 作为一个端到端的预测模型或在推理时与其结合。这种方式巧妙地利用了 LMM 的强大知识,又规避了其高计算成本。
- 针对 AIAA 任务的特异性: LITA 专门针对艺术风格和美学这两个关键的抽象维度,设计了两个独立的图像编码器和对应的文本特征对齐,这比通用的图像-文本对齐更具针对性。
4. 方法论
4.1. 方法原理
LITA 的核心思想是利用预训练的大型多模态模型 (LMM)(具体是 LLaVA)的强大理解能力,为艺术图像生成关于其艺术风格 (artistic style) 和美学 (aesthetics) 的文本评论。这些评论包含了 LMM 对艺术作品抽象概念的理解。然后,在模型训练阶段,通过一个图像-文本对齐 (Image-Text Alignment) 机制,将从图像中提取的视觉特征与这些 LLaVA 生成的文本评论的特征进行对齐。这种对齐的目的是将 LMM 所蕴含的关于艺术风格和美学的知识“蒸馏”到视觉编码器中,使得视觉编码器能够学习到更能捕捉这些抽象概念的图像特征。最终,这些富有语义的图像特征被用于预测艺术图像的美学分数。值得注意的是,在实际的推理阶段,LITA 不依赖 LLaVA 模型,仅使用训练好的图像编码器和预测层,从而保证了高效性和实用性。
4.2. 核心方法详解
4.2.1. 问题定义
艺术图像美学评估 (AIAA) 专注于评估艺术图像的美学吸引力。本文关注两种主要的 AIAA 任务:
-
二分类 (Binary Classification): 将艺术图像分为高美学 (
high aesthetic) 和低美学 (low aesthetic) 两类。 -
分数回归 (Score Regression): 预测艺术图像的精确美学分数。
论文使用
Boldbrush Artistic Image Dataset (BAID)[34] 进行实验,该数据集包含 60,337 幅艺术作品,每幅作品都有投票注释,并被赋予一个 0 到 10 的美学分数。
4.2.2. LITA 概述
LITA 的整体流程如图 1 所示。

该图像是示意图,展示了LMM引导的图像-文本对齐(LITA)模型用于艺术评估的结构。图中包含一幅艺术图像及其风格和美学特征的提取过程,通过图像编码器和文本编码器获得相应特征,并结合LLaVA生成的评论。最终,这些特征被输入至全连接层,预测美学评分。图中显示了各个损失函数,包括评分回归损失、风格距离损失和美学距离损失。
图 1. 本文提出的 LMM 引导的图像-文本对齐 (LITA) 用于艺术评估的概述。预训练的 LLaVA 模型首先用于从风格和美学角度生成艺术图像的评论,然后采用一个冻结的文本编码器来提取文本特征。接着,我们将图像特征与风格和美学方面的文本特征进行对齐。最后,提取的图像特征被输入到一个全连接层。在训练过程中,我们优化图像编码器和一个全连接层来预测美学分数,同时对齐图像和文本特征。在推理过程中,只使用预训练的图像编码器和全连接层。
核心步骤:
- LMM 评论生成: 利用预训练的 LLaVA 模型为训练数据集中的艺术图像生成关于其艺术风格和美学的文本评论。
- 文本特征提取: 使用一个冻结的
BERT文本编码器从这些评论中提取文本特征。 - 图像特征提取: 采用两个
Vision Transformer (ViT)视觉编码器,分别提取图像的风格视觉特征和美学视觉特征。 - 图像-文本对齐: 将提取的风格视觉特征与风格文本特征对齐,美学视觉特征与美学文本特征对齐。
- 美学分数预测: 将对齐后的视觉特征拼接起来,并通过一个全连接层预测最终的美学分数。
- 训练: 在训练阶段,同时优化图像编码器和全连接层,使其能够预测准确的美学分数,并通过图像-文本对齐损失来引导特征学习。
- 推理: 在推理阶段,不使用 LLaVA 和文本编码器,仅依靠训练好的图像编码器和全连接层进行预测,从而保持计算效率。
4.2.3. LMM 对艺术作品的评论
动机:
- 艺术风格多样性: AIAA 面临着多种艺术风格(如写实主义、波普艺术、立体主义)的挑战,每种风格都有其独特的特征和美学考量 [27, 34]。需要能够识别和适应这些风格的算法。
- LMMs 的强大能力: LMMs(如 LLaVA)在生成类人文本方面表现出色,并在多样化数据集上训练,因此被认为能与人类对艺术有相似的感知,可以作为“艺术评论家”来增强 AIAA 性能。
评论生成过程:
-
使用 LLaVA [17] 模型为艺术作品生成风格和美学两方面的文本评论。
-
指令 (Prompt): 向 LLaVA 提供的指令为: (描述一张图片的艺术风格/美学)。
-
示例: 图 2 展示了 LLaVA 生成的描述性文本的定性示例。
该图像是一个艺术肖像,描绘了一位女性,她穿着条纹裙子,表情温和。背景模糊,突出了她的面部特征,展现了细腻的艺术风格和情感。
图 2. LLaVA 生成的评论定性示例(部分)。 图 2 示例:
-
Style:
The image is a realistic portrait with a focus on the woman's face, featuring a detailed and lifelike representation of her features, with a warm color palette that enhances the overall mood of the artwork.(图像是一个写实肖像,重点是女人的脸,她的面部特征被细致逼真地描绘,暖色调增强了作品的整体氛围。) -
Aesthetics:
Thrte hag at woman with a thoughtful expression, a colorful headband, and a striped shirt, set against a textured background that adds depth and warmth to the composition.(一个表情沉思的女人,戴着彩色头带,穿着条纹衬衫,背景纹理增加了构图的深度和温暖感。)
该图像是插图,展现了一幅抽象艺术作品,运用丰富的色彩和形状,传递出深刻的视觉情感与艺术风格。
图 2. LLaVA 生成的评论定性示例(部分)。 图 3 示例:
-
Style:
The artistic style of this image is abstract expressionism, characterized by its loose, gestural brushstrokes and the use of color to convey emotion and mood.(这张图片的艺术风格是抽象表现主义,其特点是松散的、手势般的笔触以及通过颜色传达情感和情绪。) -
Aesthetics:
Thertistestheti thisag e harceiz y a blend of abstract and impressionistic elements, with a focus on color and texture that creates a sense of depth and movement.(这幅作品的美学是抽象和印象派元素的融合,专注于色彩和纹理,营造出深度和动感。)
该图像是插图,描绘了一幅夕阳下的海洋景观,水面波光粼粼,颜色层次丰富,展现了艺术的美感与风格。
图 2. LLaVA 生成的评论定性示例(部分)。 图 4 示例:
-
Style:
The artistic style of this image is a watercolor painting that a rocky shore, a waterfall, and a lush green hillside.(这张图片的艺术风格是水彩画,描绘了岩石海岸、瀑布和郁郁葱葱的绿色山坡。) -
Aesthetics:
The artistic aesthetics of this image are characterized by the use of watercolor, which creates a soft and dreamy atmosphere, with the artist's skillful use of color and brushwork to capture the essence of the coastal landscape.(这张图片的美学特点是使用了水彩画,营造出柔和梦幻的氛围,艺术家巧妙地运用色彩和笔触捕捉了海岸景观的精髓。)
该图像是插图,描绘了一幅夕阳下的海洋景观,水面波光粼粼,颜色层次丰富,展现了艺术的美感与风格。
图 2. LLaVA 生成的评论定性示例(部分)。 图 4 示例(续):
-
Style:
The artistic style of this image is a vibrant and dynamic impressionistic seascape painting.(这张图片的艺术风格是一幅充满活力和动感的印象派海景画。) -
Aesthetics:
The painting captures the serene beauty of a sunset over the ocean, with the warm hues of the sun reflecting off the water's surface.(这幅画捕捉了海面日落的宁静之美,太阳温暖的色调反射在水面上。)这些生成的文本描述随后由文本编码器嵌入,用于指导图像特征的提取。
4.2.4. LMM 引导的图像-文本对齐用于艺术评估
LITA 模型包含一个风格图像编码器、一个美学图像编码器和一个文本编码器。
1. 图像编码 (Image Encoding):
- 模型包含两个图像编码器:
- 风格图像编码器 (
style image encoder): 专注于提取风格相关特征。 - 美学图像编码器 (
aesthetic image encoder): 旨在捕获美学感知特征。
- 风格图像编码器 (
- 两者都采用简单的
ViT模型作为骨干网络。 - 每个
ViT模型输出的[CLS]token 分别表示为:- : 风格视觉特征。
- : 美学视觉特征。
2. 文本编码 (Text Encoding):
- LLaVA 生成的文本描述(关于艺术风格和美学)被
token化。 - 使用一个预训练的
BERT模型对token序列进行编码,以提取文本特征。 - 重要:
BERT模型的参数在 LITA 训练过程中是冻结的。 BERT[CLS]token 的输出分别表示为:- : 艺术风格评论的文本嵌入。
- : 美学评论的文本嵌入。
3. 图像-文本配对学习 (Image-text Paired Learning):
-
这是 LITA 的核心学习过程,旨在将视觉特征与文本特征对齐。
-
通过这种对齐,模型能够理解更细致的视觉内容。
-
采用
CLIP中提出的对比损失(contrastive loss)来计算图像特征和文本特征之间的距离。目标是最大化对应图像-文本对之间的余弦相似度,同时最小化非对应图像-文本对之间的余弦相似度。 -
定义风格对齐损失 和美学对齐损失 如下:
其中, 是图像和文本特征之间的对比损失,定义为: 符号解释:
- : 风格特征的对齐损失。
- : 美学特征的对齐损失。
- : 风格视觉特征。
- : 风格文本特征。
- : 美学视觉特征。
- : 美学文本特征。
- : 从 到 的对比损失。
- : 批次 (
batch) 中的数据点数量。 - : 批次中第 个数据点(图像或文本)的嵌入。
- : 批次中第 个数据点(文本或图像)的嵌入。
- : 第 个数据点的图像嵌入和文本嵌入之间的点积(通常表示余弦相似度,如果向量是归一化的)。
- : 自然指数函数。
- : 自然对数函数。
- : 求和符号。
4. 分数预测 (Score Prediction):
-
将风格视觉特征 和美学视觉特征 进行拼接 (
concatenate)。 -
拼接后的向量输入到一个全连接层 (
fully-connected layer)。 -
该全连接层输出输入图像的预测美学分数 。
符号解释:
- : 预测的美学分数。
- : 表示一个全连接层(将输入向量 映射到预测分数)。
- : 表示对嵌入 和 进行拼接操作。
5. 融合模型学习 (Fused Model Learning):
-
模型训练过程中,同时优化三个损失:
- 回归损失 (用于美学分数预测,采用 均方误差 (Mean Squared Error, MSE) 损失,这与之前的 AIAA 工作保持一致)。
- 风格对齐损失 。
- 美学对齐损失 。
-
总损失函数 定义为:
符号解释:
- : 总损失函数。
- : 均方误差回归损失,衡量预测分数 与真实分数 之间的差异。
- : 预测的美学分数。
- : 艺术图像的真实美学分数 (ground-truth score)。
- : 一个超参数,用于平衡回归损失和对齐损失的权重。
5. 实验设置
5.1. 数据集
- Boldbrush Artistic Image Dataset (BAID) [34]:
- 来源: 该数据集的艺术图像来源于 Boldbrush 网站,这是一个每月举办艺术竞赛的平台,艺术家可以上传作品并接受公众投票。
- 规模: 包含 60,337 幅艺术图像。
- 注释: 每幅图像都标注了超过 360,000 张投票。
- 分数范围: 美学分数被归一化到 0 到 10 的范围,其中 0 代表最低美学价值,10 代表最高美学价值。
- 数据划分: 遵循 [27, 32, 34] 中的相同数据划分:
- 训练集 (
training): 50,737 张图像。 - 验证集 (
validation): 3,200 张图像。 - 测试集 (
testing): 6,400 张图像。
- 训练集 (
- 特点: 这是目前唯一的,也是第一个大规模的艺术图像数据集,极大地推动了 AIAA 领域的发展。
5.2. 数据预处理
- 长尾分布问题: BAID 数据集存在长尾分布,即大多数艺术作品的真实分数集中在 3 到 4 之间。模型在不平衡数据上训练时,可能倾向于输出平均分数,而忽略少数分数的美学特征。
- Box-Cox 变换 [24]: 为了解决数据不平衡问题,本文采用了
Box-Cox transformation来减少 BAID 数据集中的不平衡性。 - 逆变换: 在计算评估指标时,会将预测值逆变换回原始分数范围,以确保公平比较。
5.3. 实施细节
- LMM: 使用
LLaVA-1.6[16] 生成评论。 - 图像编码器: 使用在
ImageNet[4] 上预训练的ViT模型作为艺术风格和美学特征提取的图像编码器。 - 图像增强: 遵循 IAA 领域先前的研究 [3, 11],本文避免了裁剪、旋转等图像增强操作,因为这些操作可能会改变图像的美学信息并对训练过程产生负面影响。
- 图像尺寸: 将原始图像缩放到 像素。
- 训练超参数:
- 训练周期 (
epochs): 15 个周期。 - 批次大小 (
batch size): 64。 - 优化器 (
optimizer):Adam。 - 学习率 (
learning rate): 0.0001。 - 损失权重 (
loss weight): 总损失函数中超参数 设置为 0.35。
- 训练周期 (
5.4. 评估指标
为了全面评估模型的性能,本文采用了以下三个指标:
5.4.1. Spearman's Rank Correlation Coefficient (SRCC)
- 概念定义:
Spearman's rank correlation coefficient是一种非参数的统计量,用于评估两个变量的秩次(排名)之间单调关系(不一定是线性关系)的强度和方向。在美学评估中,它衡量模型预测的美学分数排序与真实分数排序之间的一致性。 - 数学公式:
- 符号解释:
- :
Spearman's Rank Correlation Coefficient(SRCC) 值。 - : 第 个数据点上,模型预测分数和真实分数的秩次之差。
- : 数据点的数量。
- :
5.4.2. Pearson Linear Correlation Coefficient (PLCC)
- 概念定义:
Pearson linear correlation coefficient是一种参数统计量,用于衡量两个连续变量之间线性关系的强度和方向。在美学评估中,它评估模型预测分数与真实分数之间的线性相关性。 - 数学公式:
- 符号解释:
- :
Pearson Linear Correlation Coefficient(PLCC) 值。 - : 第 个数据点的预测美学分数。
- : 第 个数据点的真实美学分数。
- : 所有预测美学分数的平均值。
- : 所有真实美学分数的平均值。
- : 数据点的数量。
- :
5.4.3. Accuracy (分类准确率)
- 概念定义: 在二分类任务中,
accuracy指的是模型正确分类的样本数占总样本数的比例。对于美学评估,通过将预测分数和真实分数转换为二元标签(吸引人的/不吸引人的)来计算。 - 数学公式:
- 符号解释:
- : 分类准确率。
TP:True Positives(真阳性),正确预测为吸引人的艺术作品数量。TN:True Negatives(真阴性),正确预测为不吸引人的艺术作品数量。FP:False Positives(假阳性),错误预测为吸引人的艺术作品数量。FN:False Negatives(假阴性),错误预测为不吸引人的艺术作品数量。- 转换规则: 根据前人工作 [27, 32, 34],将预测分数和真实分数通过阈值 5 转换为二元标签。分数 被视为“吸引人的”,分数 被视为“不吸引人的”。
6. 实验结果与分析
6.1. 核心结果分析
本文将 LITA 与现有的 state-of-the-art (最先进的) IAA 和 AIAA 方法在 BAID 数据集上进行了比较。
以下是原文 Table 1 的结果:
| Methods | SRCC↑ | PLCC↑ | Acc (%)↑ |
|---|---|---|---|
| NIMA [28] | 0.393 | 0.382 | 71.01 |
| MPada [26] | 0.437 | 0.425 | 74.33 |
| MLSP [11] | 0.441 | 0.430 | 74.92 |
| UPF [36] | 0.427 | 0.431 | 73.58 |
| BIAA [39] | 0.389 | 0.376 | 71.61 |
| HLA-GCN [25] | 0.405 | 0.412 | 72.57 |
| TANet [9] | 0.453 | 0.437 | 75.45 |
| EAT [8] | 0.486 | 0.495 | 77.23 |
| SAAN [34] | 0.473 | 0.467 | 76.80 |
| TSC-Net [32] | 0.480 | 0.479 | 76.97 |
| SSMR [27] | 0.508 | 0.558 | 77.72 |
| Ours | 0.490 | 0.573 | 78.91 |
分析:
- 显著优势: LITA 在
PLCC(0.573) 和Accuracy(78.91%) 指标上均取得了最佳性能,相比之前的最佳方法SSMR(0.558 PLCC, 77.72% Accuracy) 有明显提升。具体而言,PLCC提升了 0.015,Accuracy提升了 1.19%。这强有力地证明了 LITA 在捕捉艺术美学和风格方面的有效性。 - SRCC 竞争力: 在
SRCC指标上,LITA (0.490) 表现具有竞争力,尽管略低于SSMR(0.508)。这表明 LITA 在预测分数排名方面表现良好,但在线性相关性和二分类准确性方面更胜一筹。 - 跨领域比较: 论文还包括了 IAA 领域的方法(如 NIMA、MPada 等)进行比较,尽管它们主要针对摄影图像,但也证明了 LITA 在更具挑战性的艺术图像领域表现出色。
6.2. LMM 使用方式的比较
为了验证图像-文本对齐的有效性,论文将 LITA 与两种替代的文本利用方法进行了比较。这两种方法在推理时都需要 LMM 的评论。
以下是原文 Table 2 的结果:
| Method | SRCC↑ | PLCC↑ | Acc(%)↑ |
|---|---|---|---|
| 0.262 | 0.292 | 76.20 | |
| 0.440 | 0.556 | 78.69 | |
| LITA | 0.490 | 0.573 | 78.91 |
方法定义:
- : 仅使用 LLaVA 生成的文本特征( 和 ),拼接后输入全连接层预测美学分数。
- : 将图像特征( 和 )和文本特征( 和 )全部拼接起来,然后输入全连接层预测美学分数。
- 在 和 中,BERT 的参数是优化的,而在 LITA 中是冻结的。
分析:
- 文本特征的局限性: 仅使用文本特征的 模型表现最差,
PLCC仅为 0.292,Acc为 76.20%。这表明纯粹依赖 LLaVA 生成的文本评论不足以进行准确的艺术美学评估。 - 图像-文本拼接的提升: 模型结合了图像和文本特征,性能显著优于 ,
PLCC达到 0.556,Acc达到 78.69%。这说明图像和文本信息的结合确实有助于提升性能。 - LITA 的卓越性: LITA 在
PLCC(0.573) 和Acc(78.91%) 上再次超越了 。 - 关键发现: LITA 在推理阶段不使用 LLaVA,却能达到更好的性能,这表明其通过图像-文本对齐成功地将 LMM 的知识融入到了图像编码器中,使得图像编码器能够独立地提取更丰富的艺术特征。这种方式不仅提高了预测性能,还实现了更快的推理速度和更低的计算成本。
6.3. 消融实验
消融实验旨在验证 LITA 中不同损失函数和图像编码器数量的有效性。
以下是原文 Table 3 的结果:
| #Image encoders | SRCC↑ | PLCC↑ | Acc(%)↑ | |||
|---|---|---|---|---|---|---|
| 1 | ✓ | 0.435 | 0.541 | 78.59 | ||
| 1 | ✓ | ✓ | 0.438 | 0.541 | 78.55 | |
| 1 | ✓ | ✓ | 0.484 | 0.567 | 78.25 | |
| 2 | ✓ | 0.430 | 0.551 | 78.03 | ||
| 2 | ✓ | ✓ | ✓ | 0.490 | 0.573 | 78.91 |
分析:
- 对齐损失的显著效果:
- 当使用一个图像编码器时,从仅使用 (
SRCC0.435,PLCC0.541) 增加 (SRCC0.484,PLCC0.567) 带来了显著的性能提升 (SRCC提升 0.049,PLCC提升 0.026)。这表明 LLaVA 评论引导的美学特征对齐对性能至关重要。 - 当使用两个图像编码器时,从仅使用 (
SRCC0.430,PLCC0.551) 到结合所有三个损失 (SRCC0.490,PLCC0.573) 同样带来了显著提升 (SRCC提升 0.060,PLCC提升 0.022)。 - 这些结果共同证明,将 LLaVA 评论通过对齐损失融入到图像特征提取中,能够极大地丰富图像特征,从而提升美学预测性能。
- 当使用一个图像编码器时,从仅使用 (
- 双编码器的优势: 比较单编码器(
SRCC0.484,PLCC0.567,仅有 和 )和双编码器(SRCC0.490,PLCC0.573,所有损失)的最好结果,双编码器在所有指标上均表现更优,说明分离的风格和美学编码器有助于更精细地捕捉不同维度的艺术特征。 Acc的稳定性:Accuracy指标在不同配置下变化相对较小,这可能因为二分类的性质相对简单,对细微特征差异的敏感度不如回归指标。- 总结: 结合了 、 和 的双图像编码器 LITA 模型取得了最佳性能,这验证了 LITA 设计的有效性。
6.4. 案例研究
为了获得定性洞察,论文对成功和失败案例进行了分析,如图 5 所示。

该图像是一个插图,展示了成功与不成功的艺术作品评估案例。上部分展示了四个成功案例,其中预测分数与真实分数接近;下部分展示了四个不成功案例,预测分数与真实分数差异较大。
图 5. 成功和不成功的案例。
分析:
- 成功案例 (图 5a):
- 模型在评估女性肖像画方面表现良好,这些画作往往具有较高的美学分数,模型成功捕捉了这一趋势。
- 模型也能精确评估抽象画作,这通常被认为是难以评估的类型,显示了其对抽象概念的理解能力。
- 失败案例 (图 5b):
- 在某些失败案例中,模型的预测分数非常高,但实际分数仅为中等。这可能表明模型在某些情况下过度自信或对某些视觉元素产生了误判。例如,可能对某些鲜艳的色彩或复杂的构图赋予了过高的美学权重,而忽略了整体的和谐度或真实投票者的偏好。
6.5. 可视化
论文通过可视化注意力图 (attention map) 来展示图像-文本对齐对图像特征提取的有效性,并与仅用 训练的基线 ViT 模型进行比较,如图 6 所示。

该图像是示意图,展示了不同艺术作品对应的基线、风格和美学预测。左侧为原始图像,第一行显示了各种艺术作品在GT与预测分数的对比,后续列展示了基线模型和我们模型在风格及美学上的关注图。通过这些图,可以观察到我们的模型在捕捉细节方面的优势。
图 6. 基线模型和我们模型的注意力图可视化。基线模型只关注主要对象,而我们的模型则同时关注主要对象和背景。
分析:
- 基线模型的局限性:
- 在示例 (a) 和 (b) 中,基线模型(一个在 ImageNet 上预训练并仅用于回归美学分数的
ViT)主要关注图像中的主体对象(如女性的面部)。 - 在示例 (c) 和 (d) 中,基线模型仅关注图像中的某些点,无法捕捉整个图像的区域,尤其在抽象画或缺少明显主体对象的风景画中表现更差。这反映了
ViT作为一个通用目标识别模型,更倾向于识别具体对象,而忽视抽象概念。
- 在示例 (a) 和 (b) 中,基线模型(一个在 ImageNet 上预训练并仅用于回归美学分数的
- LITA 模型的优势:
-
LITA 中的风格图像编码器和美学图像编码器不仅关注主体对象,还能捕捉背景、阴影等非主体区域,以及天空、水面、地面和边界等更广泛的图像区域(如示例 (c) 和 (d))。
-
这表明通过 LMM 引导的图像-文本对齐,LITA 成功地将 LLaVA 对艺术作品的概念性理解融入到图像编码器中,使其能够捕捉到纯视觉模型容易忽略的抽象概念和全局美学信息。
结论: 可视化结果直观地验证了 LITA 机制的有效性,它使得图像编码器能够提取出更全面、更具艺术语义的特征,这对于艺术美学评估至关重要。
-
7. 总结与思考
7.1. 结论总结
本文提出了 LMM 引导的图像-文本对齐 (LITA) 框架,用于艺术图像美学评估 (AIAA)。LITA 的核心创新在于利用预训练的 Large Multimodal Model (LMM),特别是 LLaVA,为艺术作品生成关于其艺术风格和美学的丰富文本评论。在训练阶段,这些评论的文本特征被用于引导图像编码器提取的视觉特征,通过图像-文本对齐机制,使得视觉特征能够融入抽象的艺术风格和美学语义。实验结果表明,LITA 在 BAID 数据集上在 PLCC 和二分类准确率方面均超越了现有的 state-of-the-art AIAA 方法,显示了其卓越的性能。此外,LITA 在推理阶段无需 LLaVA 的参与,保持了高效性和实用性。通过注意力图可视化,LITA 也被证明能够捕获图像中的抽象概念和背景信息,而非仅限于主要对象。
7.2. 局限性与未来工作
论文作者指出了 LITA 的一些局限性以及未来的研究方向:
- LLaVA 评论质量问题: LLaVA 生成的美学描述有时可能不恰当,或者仅仅是对图像中对象的解释,缺乏更深层次的见解、抽象思想或情感。未来的工作需要探索如何获得更深刻、更有洞察力的评论。
- 图像编码器架构: 本文为了验证图像-文本对齐的有效性,使用了简单的、在
ImageNet上预训练的ViT模型作为图像编码器。作者建议,构建专门针对艺术风格和美学特征提取的网络可能会进一步提升性能。
7.3. 个人启发与批判
- LMM 知识蒸馏的有效范式: LITA 提供了一种非常有前景的利用 LMM 知识的范式。它避免了 LMM 在推理时的高计算成本,但又巧妙地利用了 LMM 在预训练阶段学到的丰富世界知识和抽象概念理解能力。这种“训练时引导,推理时独立”的策略对于将大型模型的强大能力应用于实际、高效的下游任务具有普遍的指导意义。
- 跨模态学习在抽象概念理解中的潜力: 艺术美学是一个高度主观和抽象的概念,纯视觉模型难以捕捉。LITA 通过引入文本模态,并强制图像特征与文本语义对齐,成功地将抽象概念的理解注入到视觉表示中。这启发我们,对于其他需要理解抽象概念(如情感、意图、幽默)的视觉任务,跨模态的知识迁移可能是一个强大的解决方案。
- 评论质量对性能的影响: 论文指出的 LLaVA 评论质量问题是一个核心挑战。如果 LMM 生成的评论不够深入或有时偏离艺术美学,那么它们对图像编码器的引导效果就会受限。未来的工作可以探索:
- 更精细的
prompt engineering: 设计更复杂的prompt来引导 LLaVA 生成更高质量、更具艺术洞察力的评论。 - 结合人类专家知识: 在生成评论时,能否引入少量人类艺术专家提供的评论作为 LMM 的
few-shot示例,从而提升生成评论的专业性和准确性? - 评论的过滤和加权: 根据评论与真实美学分数的相关性,对 LLaVA 生成的评论进行过滤或加权,以减少不恰当评论的负面影响。
- 更精细的
- 通用性与泛化能力: LITA 在 BAID 数据集上取得了显著成功。然而,艺术风格和美学是高度多样化的,不同的艺术流派、文化背景甚至时代都会对美学判断产生影响。LITA 在一个数据集上的成功是否能泛化到其他风格迥异的艺术数据集,或者真实世界中更多样化的艺术作品中,仍需进一步验证。探索模型对未见过艺术风格的泛化能力将是一个重要的研究方向。
- 可解释性增强: LITA 通过注意力图展示了模型关注的区域,这在一定程度上增强了可解释性。未来可以进一步探索,例如,通过分析对齐后的特征空间,理解模型是如何区分不同艺术风格或美学维度的,这有助于我们更好地理解 AI 对艺术的“理解”。
- 超参数 的敏感性: 损失函数中的超参数 平衡了回归损失和对齐损失的重要性。这个值的选择对模型性能可能非常关键。未来的研究可以探索自适应地调整 的策略,或者通过更系统的超参数优化来找到最优值。
相似论文推荐
基于向量语义检索推荐的相关论文。