AiPaper
论文状态:已完成

Explainable AI for Image Aesthetic Evaluation Using Vision-Language Models

发表:2025/02/03
原文链接
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究利用视觉-语言模型(VLM)改进图像美学评估,提出了一种可解释的评估方法。通过整合反义词提示和`SHAP`值分析,我们探讨了不同特征的重要性并使用`LightGBM`回归器预测质量分数。结果显示了与人类判断的高相关性,推动了美学评估的客观性和可解释性。

摘要

The provided text only includes the title, authors, and metadata for the first page of the PDF, but does not contain the abstract or any other content beyond the first page. Therefore, the abstract cannot be extracted from the given material.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Explainable AI for Image Aesthetic Evaluation Using Vision-Language Models (使用视觉-语言模型进行图像美学评估的可解释人工智能)

1.2. 作者

  • 1st1^{\text{st}} Supatta Viriyavisuthisakul (Dept. of Engineering and Technology, Panyapiwat Institute of Management, Nonthaburi, Thailand)
  • 2nd2^{\text{nd}} Shun Yoshida (Dep. of Information and Communication Engineering, The University of Tokyo, Tokyo, Japan)
  • 3rd3^{\text{rd}} Kaede Shiohara (Dep. of Information and Communication Engineering, The University of Tokyo, Tokyo, Japan)
  • 4th4^{\text{th}} Ling Xiao (Dep. of Information and Communication Engineering, The University of Tokyo, Tokyo, Japan)
  • 5th5^{\text{th}} Toshihiko Yamasaki (Dep. of Information and Communication Engineering, The University of Tokyo, Tokyo, Japan)

1.3. 发表期刊/会议

论文内容未明确指出发表的期刊或会议名称,但其格式(包含摘要、引言、方法、实验结果和结论等典型会议论文结构)以及发布日期 2025-02-03T00:00:00.000Z 表明这可能是一篇已接受或即将发表的会议论文。

1.4. 发表年份

2025年

1.5. 摘要

评估图像美学本身具有主观性,传统上依赖于人类评估者的专业知识。视觉-语言模型(例如 Contrastive Language-Image Pre-Training, CLIP)为评估图像的视觉特征和描述提供了一种新范式,从而实现了更具可解释性的美学评估。最近,基于 CLIP 的图像质量评估 (CLIP-IQA) 已成为一种利用反义词提示对策略来量化图像质量和抽象感知的方法。尽管该方法与人类美学判断达到了高度相关性,但与人类感知一致的特征相关性问题仍然存在。在本研究中,我们调查了来自各种配对提示的图像特征的重要性。每个提示对都使用文本编码器编码为特征向量,而图像也以类似方式使用图像编码器编码。为了预测质量分数,我们使用 Light Gradient Boosting Machine (LightGBM) 作为回归器。训练后,为每个特征计算 SHapley Additive exPlanations (SHAP) 值,使我们能够评估单个提示元素的贡献。在本研究中,应用了多模态大语言模型 (MLLM) 来生成图像的语言解释。我们的结果显示 Spearman's rank correlation coefficient (SROCC)Pearson linear correlation coefficient (PLCC) 分数分别为 0.7620.785。此外,我们探索了高级提示策略,揭示了 IQA 评分机制更深层次的见解。

1.6. 原文链接

/files/papers/6911d810b150195a0db749a3/paper.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题: 图像美学评估 (Image Aesthetics Assessment, IAA) 是一项具有挑战性的任务,因为它本质上是主观的。传统的 IAA 方法,无论是基于手工特征(如色彩和谐、构图)还是深度学习模型,都面临着在准确性和可解释性之间取得平衡的困境。

现有挑战与空白:

  • 传统方法的局限性: 早期模型依赖于人工设计的特征,效率不高。深度学习方法虽然提高了效率,但通常被视为“黑箱”模型,难以解释其决策依据。
  • CLIP-IQA 的局限性: CLIP-IQA 虽能通过反义词提示对实现与人类感知高度相关的图像质量评估,但其仍然是一个“黑箱”模型,无法解释哪些视觉特征对最终的美学评分产生了影响。用户不知道为什么一张图片被评为“好”或“差”。
  • MLLM 的局限性: 尽管多模态大语言模型 (MLLM) 如 LLaVa 在处理视觉和语言信息方面表现出色,并能提供图像的语言描述,但它们在直接评估图像美学质量方面的识别准确率较低,并且输出可能不一致。

论文的切入点与创新思路: 为了解决上述挑战,本研究旨在开发一个既能提供高准确度美学评估,又能提供清晰、可理解的解释的框架。核心思路是将 CLIP-IQA 的定量评估能力、 SHAP 的特征贡献解释能力以及 MLLM 的自然语言生成能力相结合。

2.2. 核心贡献/主要发现

  • 提出了新颖的框架: 本文提出了一种新颖的框架,整合了 CLIP-IQASHAPMLLM,旨在同时提高图像美学评估的解释性和语言解释能力。
  • 提高美学评估性能: 实验结果表明,该方法在 SROCCPLCC 指标上优于单独使用 LLaVaCLIP-IQA 的方法,达到了 0.762SROCC0.785PLCC
  • 提供特征重要性洞察: 通过计算 SHAP 值,该框架能够揭示不同提示对(代表不同美学特征)对最终美学评分的贡献,从而增加了模型的透明度。
  • 实现语言解释: 利用 MLLMLLaVa)根据 SHAP 值和原始图像生成自然语言的解释,使得模型不仅能给出分数,还能说明原因。
  • 探索提示策略: 研究了通过 ChatGPT 生成的更多提示对(10、20、30对)对模型性能的影响,发现增加提示对数量能有效提高准确性,更好地利用 CLIP 的内部知识。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 图像美学评估 (Image Aesthetics Assessment, IAA)

IAA 是一项计算机视觉任务,旨在根据人类的感知和偏好,自动评估图像的视觉吸引力或艺术质量。这通常涉及到预测一个图像是“好看”还是“不好看”,或者给出一个连续的美学分数。由于美学的主观性,这是一项具有挑战性的任务。

3.1.2. 视觉-语言模型 (Vision-Language Models, VLMs)

VLM 是一类能够同时处理和理解图像和文本信息的人工智能模型。它们通过学习图像和文本之间的语义关联来执行各种任务,如图像描述、视觉问答和跨模态检索。

3.1.3. CLIP (Contrastive Language-Image Pre-Training)

CLIP 是一种由 OpenAI 开发的视觉-语言模型,通过在大量图像-文本对上进行对比学习预训练。它包含一个图像编码器和一个文本编码器。

  • 工作原理: CLIP 的训练目标是使得匹配的图像-文本对在嵌入空间中距离更近,而不匹配的对距离更远。它通过计算图像嵌入和文本嵌入之间的余弦相似度来实现这一点。
  • 零样本学习 (Zero-shot learning): CLIP 可以在没有特定任务训练数据的情况下,通过提示(prompt)来执行各种下游任务,例如图像分类、目标检测或图像质量评估。这是因为其强大的泛化能力和对视觉概念的广泛理解。

3.1.4. CLIP-IQA (CLIP-based Image Quality Assessment)

CLIP-IQA 是一种利用 CLIP 模型进行图像质量评估的方法。它通过设计反义词提示对(例如“好照片” vs. “坏照片”,“清晰照片” vs. “模糊照片”)来量化图像的质量和抽象感知。通过计算图像与这些提示的相似度,可以得出一个美学分数。

3.1.5. 可解释人工智能 (Explainable AI, XAI)

XAI 是人工智能的一个领域,旨在使 AI 系统的决策过程更透明、可理解。传统上,许多强大的 AI 模型(如深度神经网络)被认为是“黑箱”,即我们知道它们能做出什么决策,但不知道为什么。XAI 技术通过提供解释来解决这一问题,帮助用户信任和理解 AI 系统的行为。

3.1.6. SHAP (SHapley Additive exPlanations)

SHAP 是一种基于合作博弈论中的 Shapley 值概念的 XAI 方法。它为机器学习模型的每个特征分配一个贡献值,以解释单个预测。

  • Shapley 值: 衡量一个玩家(或特征)在所有可能的合作联盟中对总收益(或模型预测)的平均边际贡献。
  • SHAPXAI 中的应用: SHAP 值量化了每个输入特征对模型预测的积极或消极影响,从而提供了模型预测的全局和局部解释。它是一种模型无关(model-agnostic)的方法,可以应用于任何机器学习模型。

3.1.7. 多模态大语言模型 (Multimodal Large Language Model, MLLM)

MLLM 结合了大型语言模型 (LLM) 的强大文本处理能力和视觉编码器的图像理解能力。它们能够同时接收图像和文本作为输入,并生成与图像内容相关的文本响应。这使得 MLLM 能够执行复杂的跨模态任务,如视觉问答、图像描述生成等。

3.1.8. LLaVa (Large Language and Vision Assistant)

LLaVa 是一种特定的 MLLM,它通过将一个视觉编码器(例如,基于 CLIPViT)与一个 LLM(例如,Vicuna)集成,实现多模态理解。LLaVa 能够处理视觉输入并生成详细的、上下文相关的文本描述和回答问题。在图像美学评估中,LLaVa 可以用于生成对图像美学特征的语言解释。

3.1.9. SROCC (Spearman's Rank Correlation Coefficient)

SROCCSpearman 秩相关系数,是一种非参数统计指标,用于衡量两个变量之间排序关系(单调性)的强度和方向。它评估的是两个变量的秩次之间的一致性,而不是实际数值的线性关系。

  • 概念定义: SROCC 值介于 -11 之间。1 表示完全正单调相关(一个变量增加,另一个变量也增加,即使不是线性),-1 表示完全负单调相关,而 0 表示没有单调相关性。在图像质量评估中,它常用于衡量模型预测分数与人类主观评分排名的一致性。
  • 数学公式: ρ=16di2n(n21) \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}
  • 符号解释:
    • ρ\rho: Spearman 秩相关系数。
    • did_i: 第 ii 个观测值在两个变量中的秩次之差(即模型预测分数的秩次与人类主观评分的秩次之差)。
    • nn: 观测值的数量(即图像数量)。

3.1.10. PLCC (Pearson Linear Correlation Coefficient)

PLCCPearson 线性相关系数,是一种参数统计指标,用于衡量两个变量之间线性关系的强度和方向。

  • 概念定义: PLCC 值介于 -11 之间。1 表示完全正线性相关(一个变量增加,另一个变量也线性增加),-1 表示完全负线性相关,而 0 表示没有线性相关性。在图像质量评估中,它常用于衡量模型预测分数与人类主观评分数值的线性一致性。
  • 数学公式: ρX,Y=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2i=1n(YiYˉ)2 \rho_{X,Y} = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^n (X_i - \bar{X})^2}\sqrt{\sum_{i=1}^n (Y_i - \bar{Y})^2}}
  • 符号解释:
    • ρX,Y\rho_{X,Y}: Pearson 线性相关系数。
    • XiX_i: 第 ii 个观测值的变量 XX(例如,模型预测分数)。
    • YiY_i: 第 ii 个观测值的变量 YY(例如,人类主观评分)。
    • Xˉ\bar{X}: 变量 XX 的平均值。
    • Yˉ\bar{Y}: 变量 YY 的平均值。
    • nn: 观测值的数量。

3.2. 前人工作

  • 早期 IAA 模型: 主要依赖于手工设计的特征,如颜色和谐 [1]、构图 [2][3]。这些方法虽然具有一定的解释性,但泛化能力和效率有限。
  • 深度学习 IAA 为了提高效率和性能,引入了深度学习方法,整合了全局和局部特征来捕捉图像细节和整体布局 [4][5][6][7]。然而,这些模型通常缺乏对美学判断依据的解释。
  • CLIPIAA 中的应用: CLIP [8] 提供了一种新颖的视觉和描述性元素评估方式,能够提取对 IAA 至关重要的特征,如光照、构图和美感相关属性,为 IAA 网络提供了更稳健的基础。
  • CLIP-IQA 方法: Wang 等人 [9] 提出了 CLIP-IQA,利用反义词提示对策略(如“好照片” vs. “坏照片”)来评估图像质量和抽象感知,并在各种图像质量数据集中取得了与人类评估高度相关的结果。
  • LLaVa 在美学感知中的应用: LLaVa [11] 作为一种 MLLM,已被应用于图像美学领域 [12],其性能在美学感知方面优于现有模型,并接近人类水平。

3.3. 技术演进

IAA 领域从最初依赖人类专家经验和手工特征工程,逐步发展到利用深度学习模型自动学习特征。随着多模态学习的兴起,特别是 CLIP 等视觉-语言模型的出现,IAA 开始能够更好地结合视觉信息和语义信息。然而,这些先进模型通常是“黑箱”,缺乏解释性。本研究正是在这一背景下,试图通过引入 XAI 技术(如 SHAP)和 MLLM(如 LLaVa),来弥补现有 CLIP-IQA 方法在可解释性方面的不足,从而推动 IAA 模型向更透明、更可信的方向发展。

3.4. 差异化分析

  • 与传统 CLIP-IQA 的区别: 传统的 CLIP-IQA 虽然能提供量化美学评分,但其是一个“黑箱”模型,无法解释分数背后的原因。本文的方法通过整合 SHAP,能揭示是哪些具体的图像特征(由提示对捕获)对最终评分贡献最大。
  • 与单独使用 MLLM(如 LLaVa)的区别: 尽管 LLaVa 能提供图像的语言描述,但在直接评估图像美学质量时,其识别准确率(SROCCPLCC)相对较低。本文方法将 CLIP-IQA 的定量评估能力与 LLaVa 的语言生成能力结合,实现了更高的准确性,同时利用 LLaVa 生成基于 SHAP 解释的语言描述。
  • 创新点总结: 本文的创新在于构建了一个多阶段的集成框架,有效地结合了现有技术的优势,解决了美学评估中准确性和可解释性难以兼得的痛点,并通过 SHAP 提供特征贡献,再通过 MLLM 将这些贡献转化为可理解的语言解释。

4. 方法论

4.1. 方法原理

本文提出的框架旨在通过整合 CLIP-IQASHAPMLLM 来提高图像美学评估的解释性和语言解释能力。其核心思想是首先利用 CLIP-IQA 基于反义词提示对来量化图像的各种美学属性,得到一系列分数作为特征。然后,使用这些特征训练一个可解释的机器学习模型(LightGBM)来预测最终的美学分数。接着,通过计算 SHAP 值来量化每个美学特征(即每个提示对的得分)对最终预测的贡献。最后,将这些 SHAP 值与原始图像一同输入到 MLLMLLaVa)中,生成关于图像美学得分的自然语言解释。

下图(Figure 1)展示了本文提出的方法架构:

该图像是示意图,展示了一种用于图像美学评价的解释性AI方法。图中描述了输入图像经过图像编码器处理,并与文本编码器生成的提示配对。系统计算得到CLIP-IQA评分和SHAP评分,提供形状、色彩、高对比度等特征的量化评估。其中,SHAP分数显示形状得分为+14.51,表明图像相对清晰。 图1:本文提出的用于图像美学评估的解释性AI框架示意图。该框架将输入图像通过图像编码器与文本编码器生成的提示对进行处理,计算CLIP-IQA分数,并利用SHAP值解释各个特征的贡献,最终通过MLLM生成语言解释。

4.2. 核心方法详解 (逐层深入)

4.2.1. 提示对选择与编码

研究首先从 CLIP-IQA 中借鉴灵感,使用多个反义词提示对来捕捉图像的不同美学属性。

  • 初始提示对: 论文中明确给出了一组基础提示对,如 Table I 所示。 以下是原文 Table I 的结果:

    Bright photoDark photo
    Clean photoNoisy photo
    Colorful photoDull photo
    Sharp photoBlurry photo
    High contrast photoLow contrast photo

    这些提示对涵盖了亮度、清晰度、色彩、锐度、对比度等多个图像质量和美学维度。

  • ChatGPT 生成的高级提示对: 为了探索更深层次的 IQA 评分机制,研究还利用 ChatGPT 生成了数量更多的提示对(例如 10、20、30 对),以期更全面地利用 CLIP 的内部知识。这些高级提示对的例子如 Table III 所示。 以下是原文 Table III 的结果:

    ClearBlurry
    ShapDull
    CrispFuzzy
    VibrantDull
    DetailedPixelated
    High-resolutionLow-resolution
    ColorfulMonochrome
    Well-exposedOverexposed
    BalancedImbalanced
    High contrast4.2.2. CLIP-IQA 特征提取

    对于每个输入图像和每个提示对,通过 CLIP 模型提取特征并计算相似度。

    1. 图像编码: 输入图像 II 经由 CLIP 的图像编码器 EimgE_{img} 处理,生成图像特征向量 fimg=Eimg(I)f_{img} = E_{img}(I)
    2. 文本编码: 对于每个提示对 (Ppos,Pneg)(P_{pos}, P_{neg})(例如 ("Bright photo", "Dark photo")),其正向提示 PposP_{pos} 和负向提示 PnegP_{neg} 分别经由 CLIP 的文本编码器 EtextE_{text} 处理,生成对应的文本特征向量 fpos=Etext(Ppos)f_{pos} = E_{text}(P_{pos})fneg=Etext(Pneg)f_{neg} = E_{text}(P_{neg})
    3. 余弦相似度计算: 计算图像特征与每个提示特征之间的余弦相似度。 Simg,pos=fimgfposfimgfpos S_{img, pos} = \frac{f_{img} \cdot f_{pos}}{||f_{img}|| \cdot ||f_{pos}||} Simg,neg=fimgfnegfimgfneg S_{img, neg} = \frac{f_{img} \cdot f_{neg}}{||f_{img}|| \cdot ||f_{neg}||} 其中,\cdot 表示向量点积,||\cdot|| 表示向量的L2范数。余弦相似度衡量了两个向量在方向上的接近程度,值越接近1表示越相似。
    4. 相似度归一化与 CLIP-IQA 分数: 对于每个提示对,将计算出的相似度通过 softmax 函数进行归一化,并聚合为一个单一的 CLIP-IQA 分数。 Scorepair=exp(Simg,pos)exp(Simg,pos)+exp(Simg,neg) \text{Score}_{pair} = \frac{\exp(S_{img, pos})}{\exp(S_{img, pos}) + \exp(S_{img, neg})} 这个 ScorepairScore_{pair} 代表了图像在该特定美学维度(由提示对定义)上偏向正向描述的程度。例如,如果 Score"Bright","Dark"Score_{"Bright", "Dark"} 很高,则说明图像更符合“Bright photo”的描述。
    5. 特征向量构建: 将所有提示对计算出的 Scorepair\text{Score}_{pair} 组合成一个特征向量 FCLIPIQA=[Scorepair1,Scorepair2,,ScorepairN]F_{CLIP-IQA} = [\text{Score}_{pair_1}, \text{Score}_{pair_2}, \dots, \text{Score}_{pair_N}],其中 NN 是提示对的数量。这个向量将作为后续回归模型的输入特征。

    4.2.3. 回归模型训练 (LightGBM)

    为了将 CLIP-IQA 分数转换为最终的美学评估分数,并为后续的解释性分析做准备,本文使用 LightGBM 作为回归器。

    1. 数据集: 使用具有质量评分的图像数据集 KonIQ-10k [13] 进行训练。对于 KonIQ-10k 中的每张图像,计算其 CLIP-IQA 特征向量 FCLIPIQAF_{CLIP-IQA},并以图像的真实美学评分(通常是 MOS 或类似指标)作为目标变量。
    2. LightGBM 训练: LightGBM 是一种高效的梯度提升决策树 (Gradient Boosting Decision Tree, GBDT) 框架。它通过迭代地训练决策树来拟合前一棵树的残差,从而逐步提高模型的准确性。其核心思想是:
      • 梯度提升 (Gradient Boosting): 建立一系列弱预测器(决策树),每个弱预测器都在前一个预测器的残差上进行训练,以最小化损失函数。
      • 决策树 (Decision Tree): 一种树形结构,通过一系列基于特征的判断来将数据分割成更小的子集,最终在叶节点给出预测值。
      • LightGBM 的优化: 相较于其他 GBDT 框架(如 XGBoost),LightGBM 采用 Gradient-based One-Side Sampling (GOSS)Exclusive Feature Bundling (EFB) 等技术,以更快的训练速度和更低的内存消耗实现相似甚至更好的性能。
      • 训练过程: 回归器学习如何将 CLIP-IQA 特征向量 FCLIPIQAF_{CLIP-IQA} 映射到图像的最终美学评分。训练结束后,该模型能够根据输入的 CLIP-IQA 特征预测美学分数。

    4.2.4. 特征贡献解释 (SHAP 值计算)

    训练好的 LightGBM 模型依然是一个复杂的模型。为了解释其预测,计算每个输入特征(即每个 Scorepair\text{Score}_{pair})的 SHAP 值。

    1. SHAP 值的定义: SHAP 值衡量了每个特征对模型预测的贡献,即将特征从基线值(baselineaverage prediction)推向最终预测值的程度。对于一个预测 f(x),它可以被表示为: f(x)=E[f(X)]+j=1Mϕj f(x) = E[f(X)] + \sum_{j=1}^M \phi_j 其中, E[f(X)] 是模型对所有样本的平均预测值(基线),ϕj\phi_j 是第 jj 个特征的 SHAP 值,MM 是特征总数。每个 ϕj\phi_j 表示第 jj 个特征对当前样本预测值与平均预测值之间差异的贡献。
    2. SHAP 值计算: SHAP 库提供了多种算法来近似计算 Shapley 值,例如 KernelSHAP(模型无关)或针对树模型优化的 TreeSHAP(速度更快)。由于本研究使用 LightGBM(一种树模型),很可能采用了 TreeSHAPTreeSHAP 能够高效地计算出每个 CLIP-IQA 分数(对应一个提示对)对最终预测美学分数的贡献。
      • 直观理解: 如果“Bright photo”的 CLIP-IQA 分数很高,且其 SHAP 值是正的,则说明“亮度高”这个特征使得最终美学分数高于平均水平。反之,如果是负的,则说明该特征导致美学分数低于平均水平。

    4.2.5. 语言解释生成 (MLLM - LLaVa)

    最后一步是将 SHAP 解释与 MLLM 结合,生成自然语言的美学解释。

    1. 输入组合: 原始输入图像和计算出的 SHAP 值(以及它们对应的提示对信息)被作为输入提供给 MLLM LLaVa
    2. LLaVa 的作用: LLaVa 利用其强大的视觉理解能力和语言生成能力:
      • 理解图像内容: LLaVa 首先分析原始图像的视觉内容。

      • 结合 SHAP 信息: LLaVa 接收 SHAP 值,这些值量化了哪些美学特征(如“高对比度”、“色彩鲜艳”)对最终评分有正面或负面影响。

      • 生成解释: 根据对图像的理解和 SHAP 提供的特征贡献信息,LLaVa 生成连贯的自然语言描述,解释图像为何获得某个美学分数,并指出哪些具体的美学元素(由提示对代表)是关键影响因素。

      • 示例: 如果 SHAP 值显示“高对比度”和“色彩鲜艳”具有很高的正贡献,LLaVa 可能会生成类似“这张照片因其鲜艳的色彩和高对比度而显得美观”的解释。

        通过这个多阶段的框架,该研究不仅提供了量化的美学评分,还深入揭示了评分背后的原因,并将其转化为人类可理解的语言。

    5. 实验设置

    5.1. 数据集

    • KonIQ-10k [13]: 这是一个大规模的图像质量评估数据集,包含10073张图片,每张图片都附有来自人类评估者的大量主观质量评分。该数据集被设计为具有生态学有效性,即图片来源于真实世界场景,能够反映用户在日常生活中遇到的图像质量问题。
      • 作用: 在本研究中,KonIQ-10k 数据集用于训练 LightGBM 回归器。模型的输入是根据每张图片计算出的 CLIP-IQA 特征向量,而回归器的训练目标是预测 KonIQ-10k 中对应图片的人类主观质量评分(通常是 Mean Opinion Score, MOS)。

    5.2. 评估指标

    对论文中出现的评估指标,提供概念定义、数学公式和符号解释。

    5.2.1. SROCC (Spearman's Rank Correlation Coefficient)

    • 概念定义: Spearman 秩相关系数是一种非参数统计指标,用于衡量两个变量之间排序关系(单调性)的强度和方向。它评估的是两个变量的秩次之间的一致性,而不是实际数值的线性关系。SROCC 值介于 -11 之间。1 表示完全正单调相关(一个变量增加,另一个变量也增加,即使不是线性),-1 表示完全负单调相关,而 0 表示没有单调相关性。在图像质量评估中,它常用于衡量模型预测分数与人类主观评分排名的一致性。
    • 数学公式: ρ=16di2n(n21) \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}
    • 符号解释:
      • ρ\rho: Spearman 秩相关系数。
      • did_i: 第 ii 个观测值在两个变量中的秩次之差(即模型预测分数的秩次与人类主观评分的秩次之差)。
      • nn: 观测值的数量(即图像数量)。

    5.2.2. PLCC (Pearson Linear Correlation Coefficient)

    • 概念定义: Pearson 线性相关系数是一种参数统计指标,用于衡量两个变量之间线性关系的强度和方向。PLCC 值介于 -11 之间。1 表示完全正线性相关(一个变量增加,另一个变量也线性增加),-1 表示完全负线性相关,而 0 表示没有线性相关性。在图像质量评估中,它常用于衡量模型预测分数与人类主观评分数值的线性一致性。
    • 数学公式: ρX,Y=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2i=1n(YiYˉ)2 \rho_{X,Y} = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^n (X_i - \bar{X})^2}\sqrt{\sum_{i=1}^n (Y_i - \bar{Y})^2}}
    • 符号解释:
      • ρX,Y\rho_{X,Y}: Pearson 线性相关系数。
      • XiX_i: 第 ii 个观测值的变量 XX(例如,模型预测分数)。
      • YiY_i: 第 ii 个观测值的变量 YY(例如,人类主观评分)。
      • Xˉ\bar{X}: 变量 XX 的平均值。
      • Yˉ\bar{Y}: 变量 YY 的平均值。
      • nn: 观测值的数量。

    5.3. 对比基线

    本文将提出的方法与以下基线模型进行比较:

    • LLaVa 仅使用 LLaVa 模型进行图像美学评估。这代表了直接利用 MLLM 的能力来评估美学,通常能提供语言解释但可能缺乏量化精度。
    • CLIP-IQA 仅使用 CLIP-IQA 方法进行图像美学评估。这代表了利用 CLIP 的反义词提示对进行量化评估,通常具有较高的相关性,但缺乏可解释性。

    5.4. 提示生成策略

    为了研究提示学习 (prompt learning) 的影响,本文采用了两种提示生成策略:

    • 预定义提示对: 如 Table I 所示,包含“Bright photo vs. Dark photo”等5对基础提示。
    • ChatGPT 生成提示: 使用 ChatGPT 生成了数量更多的提示对,分为 1 对(即“good photo”和“bad photo”)、10 对、20 对和 30 对。这些提示旨在捕捉更广泛和细致的美学属性。Table III 中展示了 ChatGPT 生成的部分提示示例。

    6. 实验结果与分析

    6.1. 核心结果分析

    6.1.1. 整体性能评估

    论文首先展示了本文提出的方法与基线模型在定量评估方面的比较,以及其可解释性(Explainability)特点。 以下是原文 Table II 的结果:

    MethodExplainabilitySROCC ↑PLCC ↑
    LLaVAO0.1950.171
    CLIP-IQA×0.6840.700
    OursO0.7620.785

    表2:所提出方法的定量评估

    分析:

    • LLaVa 独立使用 LLaVa 进行美学评估时,虽然提供了语言解释(Explainability: O),但其 SROCC (0.195) 和 PLCC (0.171) 值非常低,表明其在美学判断的准确性上远不及人类感知。这验证了论文中提到的 MLLM 模型在审美评估上识别准确率低且输出不一致的局限性。
    • CLIP-IQA CLIP-IQASROCC (0.684) 和 PLCC (0.700) 明显高于 LLaVa,显示了其在量化美学评分方面的有效性。然而,它被标记为不可解释(Explainability: ×),这正是本研究试图解决的核心问题。
    • 本文方法 (Ours): 本文提出的集成框架在 SROCC (0.762) 和 PLCC (0.785) 上均取得了最佳性能,显著优于 CLIP-IQALLaVa。更重要的是,它同时提供了可解释性(Explainability: O)。这表明该方法成功地结合了 CLIP-IQA 的量化能力和 LLaVa 的解释能力,实现了高准确度与高可解释性的统一。与 CLIP-IQA 相比,本文方法将 SROCC 提高了 0.7620.684=0.0780.762 - 0.684 = 0.078,将 PLCC 提高了 0.7850.700=0.0850.785 - 0.700 = 0.085

    6.1.2. 提示对数量对性能的影响

    论文进一步探讨了增加提示对数量对模型准确性的影响,比较了两种框架下的结果:Prompt learning modelMachine learning model。虽然论文没有明确定义这两个术语,但从上下文推断:

    • Prompt learning model 可能指直接通过 CLIP-IQA 得到的原始相似度分数,不经过 LightGBM 回归器(可能指的是直接的CLIP相似度得分或某种简单的聚合)。

    • Machine learning model 则指的是本文提出的集成框架,即使用 LightGBM 作为回归器。

      以下是原文 Table IV 的结果:

      No. ofPrompt learning modelMachine learning model
      prompt pairsSROCC↑PLCC↑SROCC↑PLCC↑
      10.8730.8920.6840.700
      100.8790.8970.7680.790
      200.8800.8980.8400.867
      300.8890.9020.8490.874

    表4:两个框架中提示对数量变化的准确性变化。第一行显示了使用“good photo”和“bad photo”提示的结果,其他行显示了使用GPT生成提示的结果。

    分析:

    • 总体趋势: 无论是 Prompt learning model 还是 Machine learning model,随着提示对数量从 1 增加到 30,SROCCPLCC 均呈现上升趋势。这表明使用更多样化的提示对能够更好地捕捉图像美学信息,从而提高评估准确性。这支持了“增加决策标准轴的数量可以更好地利用 CLIP 的内部知识”的观点。
    • Prompt learning model 该模型在少量提示对(1对)的情况下就表现出非常高的相关系数(SROCC 0.873PLCC 0.892),甚至高于本文最终方法的 0.762/0.7850.762/0.785。这可能意味着 CLIP 本身在处理“好照片” vs. “坏照片”这种高层次抽象概念时表现出很强的零样本能力。然而,论文也提到 Prompt learning model 提供了较差的可解释性(如 Table II 中 CLIP-IQA×),这是其主要缺点。
    • Machine learning model(本文方法): 尽管在 1 对提示时性能(SROCC 0.684PLCC 0.700)低于 Prompt learning model,但其性能随着提示对数量的增加而显著提升。从 1 对到 30 对,SROCC0.684 提高到 0.849(提升约 24%24\%),PLCC0.700 提高到 0.874(提升约 24%24\%)。这表明,通过 LightGBM 回归器整合多个美学维度(由更多提示对代表)的 CLIP-IQA 特征,能够有效地提升模型性能。同时,该模型保留了通过 SHAP 带来的可解释性。
    • 权衡: 论文指出,Prompt learning model 在相关系数方面表现更好,而 Machine learning model 提供了更强的可解释性。这突出了本研究的价值,即在保持高准确性的同时,为美学评估提供了所需的解释能力。在 30 对提示下,Machine learning modelSROCC 0.849PLCC 0.874 已经非常接近 Prompt learning model 的最高性能,同时增加了关键的可解释性。

    6.1.3. SHAP 值与语言解释示例

    图2展示了本文方法如何通过 SHAP 值和 MLLM 提供图像美学评估的解释。

    Fig. 2. Example result of the proposed method. The Shapley value is denoted as `f ( X )` and average value of the predictions is represented as \(E \[ f ( X ) \]\) Fetues i posivcnbutions hown nd those w… 图2:所提出方法的示例结果。Shapley 值表示为 f ( X ),预测的平均值表示为 E \[ f ( X ) \]。正向贡献的特征以绿色显示,负向贡献的特征以红色显示。

    分析: 图2展示了两个图像示例,并对其美学评分进行了可视化解释:

    • 图像1(色彩鲜艳的鸟):
      • 预测得分 f(X)=54.584f(X) = 54.584,平均预测得分 E[f(X)]=58.738E[f(X)] = 58.738
      • SHAP 值显示,Colorful (色彩鲜艳) 这一特征对最终分数有显著的正向贡献(绿色条),表明图像的鲜艳色彩是其美学吸引力的一个关键因素。
      • LLaVa 提供的语言解释会基于这些 SHAP 值和图像内容,说明“这张照片因其鲜艳的色彩而获得高分”。
    • 图像2(月亮):
      • 预测得分 f(X)=36.155f(X) = 36.155,平均预测得分 E[f(X)]=58.738E[f(X)] = 58.738

      • SHAP 值显示,Dark (黑暗) 这一特征对最终分数有显著的正向贡献,这符合月亮照片的特点,即深邃的背景是其美学的一部分。

      • LLaVa 提供的语言解释会基于这些 SHAP 值和图像内容,说明“这张照片的黑暗背景是其独特美学的一部分”。

        这些示例直观地展示了本框架如何将抽象的美学评分分解为具体可解释的特征贡献,并通过 MLLM 转化为人类易于理解的语言描述。

    6.2. 数据呈现 (表格)

    本部分已在 6.1.16.1.2 小节中转录并分析了原文的 Table II、Table III 和 Table IV。

    7. 总结与思考

    7.1. 结论总结

    本文提出了一种新颖的框架,旨在解决图像美学评估 (IAA) 中准确性与可解释性难以兼顾的挑战。该框架巧妙地整合了 CLIP-IQA 的量化评估能力、SHAP 的特征贡献解释能力以及多模态大语言模型 (MLLM) LLaVa 的自然语言生成能力。

    核心发现和贡献包括:

    1. 提升性能与解释性兼具: 相较于单独使用 LLaVa(解释性强但准确性低)或 CLIP-IQA(准确性高但解释性差),本文方法在 SROCCPLCC 等评估指标上均取得了显著提升,同时能够提供美学评分的清晰解释。
    2. 揭示特征贡献: 通过计算 SHAP 值,模型能够量化每个美学特征(由反义词提示对定义)对最终美学评分的贡献,从而提高了模型的透明度。
    3. 生成语言解释: 利用 LLaVa,结合 SHAP 值和原始图像,模型能够生成自然语言的解释,使得用户能够理解图像获得特定美学评分的原因。
    4. 提示策略有效性: 实验证明,通过 ChatGPT 生成更多的提示对(例如 30 对)能够有效提升模型的准确性,表明增加美学维度可以更好地利用 CLIP 的内在知识。

    7.2. 局限性与未来工作

    论文没有明确列出自身的局限性或未来工作方向,但可以从其内容中推断出一些潜在的方面:

    • Prompt learning model 的性能差距: 在 Table IV 中,Prompt learning model 在相关系数上表现略优于 Machine learning model,这可能意味着在保持可解释性的同时,如何进一步提升回归模型的性能以匹配甚至超越纯 CLIP-IQA 的直接相关性是一个潜在的改进方向。

    • MLLM 解释的鲁棒性: 尽管 LLaVa 用于生成解释,但 MLLM 本身在理解复杂美学概念和避免生成偏见方面仍有提升空间。语言解释的质量和一致性可能仍受限于 MLLM 的能力。

    • 提示对的生成与优化: 提示对的质量和多样性对模型性能至关重要。目前依赖 ChatGPT 生成,未来可以探索更系统、更自动化或基于人类美学理论的提示工程方法。

    • 评估主观性: 美学评估本身具有高度主观性,即使是人类评估者之间也存在分歧。模型可能难以捕捉所有细微的人类审美偏好,特别是在文化差异方面。

      基于上述,未来工作可能包括:

    • 探索更先进的 MLLM 或其他语言生成模型,以提供更精细、更准确和更具上下文感知的语言解释。

    • 研究更复杂的回归模型或集成学习方法,以进一步提高预测准确性,同时保持 SHAP 的可解释性。

    • 开发自动化的提示对生成和优化机制,以减少对人工 prompt engineering 的依赖。

    • 将该框架应用于更多样化、更具挑战性的美学数据集,并考虑多文化背景下的美学差异。

    7.3. 个人启发与批判

    7.3.1. 个人启发

    这篇论文提供了一个非常重要的启发,即在面对高度主观且需要人类理解的任务(如美学评估)时,将不同 AI 模型的优势进行融合,是实现既高精度又高可解释性目标的关键。

    1. 分而治之的策略: 论文通过将任务分解为定量评估(CLIP-IQA)、特征归因(SHAP)和语言解释(MLLM)三个阶段,有效地解决了单一模型难以兼顾所有目标的问题。这种模块化的设计思路在其他复杂 AI 应用中也具有广泛借鉴意义。
    2. CLIP 潜力的深度挖掘: 论文通过精心设计的提示对,充分挖掘了 CLIP 模型在捕捉图像美学属性方面的强大潜力。这表明 CLIP 不仅仅是一个强大的特征提取器,通过巧妙的 prompt engineering,其内在的视觉-语言知识可以被引导用于解决更复杂的感知任务。
    3. XAI 的实际应用价值: SHAP 在这里不仅仅是一个理论工具,它将 CLIP-IQA 这个“黑箱”模型的部分内部机制暴露出来,使得 MLLM 能够基于这些“洞察”进行解释。这对于提高用户对 AI 系统的信任度、帮助人类理解 AI 决策过程至关重要。在需要人类专家干预或理解的领域(如医疗诊断、金融风控),这种可解释性 AI 的应用前景广阔。

    7.3.2. 批判

    尽管本文的框架具有创新性和实用性,但仍有一些潜在的问题和可以改进的地方:

    1. “Prompt learning model”的模糊定义: 论文在 Table IV 中引入了“Prompt learning model”这一概念,但对其具体实现缺乏详细说明。如果它指的是直接的 CLIP-IQA 结果,那么其在 1 对提示下表现出的高相关性(SROCC 0.873)与 Table II 中 CLIP-IQA 的性能(SROCC 0.684)存在较大差异,这需要更清晰的解释和实验设计。这种定义上的模糊性可能会让读者困惑。
    2. MLLM 解释的“真实性”: LLaVa 生成的语言解释是基于 SHAP 值和图像内容的。然而,LLaVa 是否真正“理解”了美学,或者它只是在“复述”SHAP 提供的特征贡献?如果 SHAP 值本身存在偏差或无法完全捕捉人类复杂的审美,LLaVa 可能会生成听起来合理但不够深入或甚至误导性的解释。这涉及到 XAI 中“忠实度”和“可信度”的问题。
    3. 提示对的全面性与偏见: 尽管使用了 ChatGPT 生成提示对,但这些提示对是否能全面覆盖人类审美的所有维度?如果缺失某些关键维度,或者 ChatGPT 生成的提示本身带有某种文化或特定群体的偏见,那么模型的评估和解释也可能受到影响。
    4. 计算成本: 整合 CLIPLightGBMLLaVa 意味着整个框架可能具有较高的计算成本,尤其是在大规模数据集上进行训练和推理时。论文没有提及这方面的考量。
    5. 主观性挑战: 图像美学本质上是主观的。虽然 KonIQ-10k 提供了人类标注数据,但不同人对美学的看法仍然存在差异。模型在多大程度上能够泛化到不同人群的审美偏好,仍是一个开放性问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。