AiPaper
论文状态:已完成

A Challenging Benchmark of Anime Style Recognition

发表:2022/06/01
原文链接
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了动漫风格识别(ASR)的挑战性基准,旨在判断两幅不同角色的动漫图像是否来自同一作品。研究者收集了包含20,937张图像的大规模数据集(LSASRD),并设计了跨角色评估协议,以验证模型是否学习到抽象风格。结果显示,当前的Transformer模型在这一任务中表现有限,显示ASR研究的潜力与必要性。

摘要

Given two images of different anime roles, anime style recognition (ASR) aims to learn abstract painting style to determine whether the two images are from the same work, which is an interesting but challenging problem. Unlike biometric recognition, such as face recognition, iris recognition, and person re-identification, ASR suffers from a much larger semantic gap but receives less attention. In this paper, we propose a challenging ASR benchmark. Firstly, we collect a large-scale ASR dataset (LSASRD), which contains 20,937 images of 190 anime works and each work at least has ten different roles. In addition to the large-scale, LSASRD contains a list of challenging factors, such as complex illuminations, various poses, theatrical colors and exaggerated compositions. Secondly, we design a cross-role protocol to evaluate ASR performance, in which query and gallery images must come from different roles to validate an ASR model is to learn abstract painting style rather than learn discriminative features of roles. Finally, we apply two powerful person re-identification methods, namely, AGW and TransReID, to construct the baseline performance on LSASRD. Surprisingly, the recent transformer model (i.e., TransReID) only acquires a 42.24% mAP on LSASRD. Therefore, we believe that the ASR task of a huge semantic gap deserves deep and long-term research. We will open our dataset and code at https://github.com/nkjcqvcpi/ASR.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

动漫风格识别的挑战性基准 (A Challenging Benchmark of Anime Style Recognition)

1.2. 作者

Haotang Li, Shengtao Guo, Kailin Lyu, Xiao Yang, Tianchen Chen Jianqing Zhu, and Huanqiang Zeng* 所有作者均隶属于华侨大学工程学院 (College of Engineering, Huaqiao University)。

1.3. 发表期刊/会议

该论文发表于计算机视觉与模式识别会议 (CVPR) 2022 年的研讨会 (Workshops) 上,具体为 VDU (Vision for Digital Humans) 研讨会。CVPR 是计算机视觉领域的顶级会议之一,具有极高的学术声誉和影响力,其研讨会也通常会吸引高质量的研究工作。

1.4. 发表年份

2022年

1.5. 摘要

给定两张不同动漫角色的图像,动漫风格识别 (ASR) 旨在学习抽象的绘画风格,以判断这两张图像是否来自同一作品。这是一个有趣但极具挑战性的问题。与人脸识别、虹膜识别和行人再识别等生物特征识别不同,ASR 面临着更大的语义鸿沟 (semantic gap),但受到的关注却较少。本文提出了一个具有挑战性的 ASR 基准。首先,我们收集了一个大规模 ASR 数据集 (LSASRD),其中包含 190 部动漫作品的 20,937 张图像,每部作品至少有十个不同的角色。除了规模庞大之外,LSASRD 还包含一系列挑战性因素,如复杂的光照、多样的姿势、戏剧性的色彩和夸张的构图。其次,我们设计了一个跨角色协议 (cross-role protocol) 来评估 ASR 性能,其中查询 (query) 和画廊 (gallery) 图像必须来自不同的角色,以验证 ASR 模型是否学习了抽象绘画风格而非角色的判别特征。最后,我们应用了两种强大的行人再识别方法,即 AGW 和 TransReID,来构建 LSASRD 上的基线性能。令人惊讶的是,最近的 Transformer 模型 (即 TransReID) 在 LSASRD 上仅获得了 42.24% 的 mAP。因此,我们认为具有巨大语义鸿沟的 ASR 任务值得深入和长期的研究。我们将开放我们的数据集和代码。

1.6. 原文链接

https://openaccess.thecvf.com/content/CVPR2022W/VDU/papers/Li_A_Challenging_Benchmark_of_Anime_Style_Recognition_CVPRW_2022_paper.pdf?utm_source=chatgpt.com 该论文已在 CVPR 2022 Workshops 上正式发表。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

论文试图解决的核心问题是:计算机能否像人类一样,通过学习动漫作品的抽象绘画风格,来判断两张不同角色的图片是否来自同一部动漫作品。这被称为动漫风格识别 (Anime Style Recognition, ASR) 任务。

2.1.2. 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白?

动漫作为一种全球流行的艺术形式,其作品数量庞大且风格多样。理解动漫风格对于动漫内容推荐、图像检索、版权管理、甚至辅助创作等方面都具有重要价值。然而,当前研究在 ASR 领域面临以下挑战和空白:

  • 巨大的语义鸿沟 (Semantic Gap): 与人脸识别等生物特征识别任务不同,ASR 关注的是抽象的“绘画风格”,而非具体的“身份”。这种从像素到抽象风格的映射存在巨大的语义鸿沟,使得模型难以直接学习。例如,同一部作品中的不同角色可能具有非常不同的外观特征,但其整体绘画风格却是一致的;而不同作品中的角色可能外观相似,但风格却不同。
  • 缺乏关注与专用基准: 尽管生物特征识别和艺术风格分析(如对传统艺术品)受到了广泛关注,但针对动漫作品这种特殊艺术形式的“风格识别”任务,特别是需要判断不同角色是否来自同一作品的挑战,目前受到的关注较少,并且缺乏专门的大规模数据集和统一的评估基准。
  • 现有动漫数据集的局限性: 现有动漫图像数据集(如 iCartoonFaceManga109Nico-illust 等)通常侧重于人脸检测、角色识别、文本检测或图像生成等任务,缺乏对作品级别“风格”的精细标注,也未能提供针对 ASR 任务的全面评估协议。
  • 动漫艺术表现的复杂性: 动漫作品的创作自由度高,包含复杂的光照、多样的姿势、戏剧性的色彩和夸张的构图等挑战性视觉因素,这些都增加了风格识别的难度。

2.1.3. 这篇论文的切入点或创新思路

本文的创新思路在于,通过构建一个大规模、高挑战性、专门用于动漫风格识别的数据集,并提出一个严格的评估协议,来填补该领域的研究空白,推动 ASR 任务的发展。具体切入点包括:

  • 构建 LSASRD 数据集: 收集和标注一个大规模、高质量的动漫图像数据集 LSASRD,该数据集不仅图像数量多,更重要的是提供了作品和角色级别的精细标注,并涵盖了多种具有挑战性的视觉条件。
  • 设计跨角色协议: 提出“跨角色协议”,要求查询图像和画廊图像必须来自不同的角色,以此强制模型学习抽象的绘画风格,而不是仅仅识别角色的判别特征,从而真正解决语义鸿沟问题。
  • 建立基线性能: 将 ASR 任务建模为行人再识别问题,并应用最先进的行人再识别模型作为基线,量化当前技术在 ASR 任务上的表现,揭示其挑战性。

2.2. 核心贡献/主要发现

2.2.1. 论文最主要的贡献

  • 提出了一个具有挑战性的动漫风格识别 (ASR) 基准 (Benchmark): 这是该论文的核心贡献,旨在为 ASR 领域提供一个统一的评估标准和研究平台。
  • 构建并发布了大规模动漫风格识别数据集 (LSASRD): 该数据集包含 20,937 张图像,涵盖 190 部动漫作品和 1,829 个角色。其特点在于规模大、标注精细(作品和角色级别)、以及包含了复杂光照、多样姿势、戏剧性色彩和夸张构图等多种挑战因素。
  • 设计了独特的跨角色评估协议 (Cross-Role Protocol): 强制查询和画廊图像来自不同角色,确保模型学习抽象绘画风格而非角色身份特征,从而更准确地评估 ASR 性能。
  • 建立了基于最先进行人再识别方法的基线性能: 首次将 AGWTransReID 两种强大的行人再识别模型应用于 ASR 任务,并提供了详细的实验结果。

2.2.2. 论文得出了哪些关键的结论或发现?

  • ASR 任务极具挑战性: 即使是最先进的深度学习模型(如基于 Transformer 的 TransReID),在 LSASRD 上也仅能达到 42.24% 的 mAP,远低于这些模型在传统行人再识别或人脸识别任务上的表现,这凸显了 ASR 任务中巨大的语义鸿沟。
  • 现有模型在抽象风格学习方面存在不足: 实验结果表明,当前模型主要擅长提取纹理特征,但在学习高级抽象属性(即绘画风格)方面存在机制上的缺陷或不足。
  • ASR 任务值得深入长期研究: 鉴于现有方法的局限性和任务的挑战性,ASR 领域需要更多深入和长期的研究来开发专门针对动漫风格理解的模型和技术。
  • 数据集和协议的有效性: LSASRD 和跨角色协议成功地构建了一个能够有效评估模型风格理解能力的基准,为未来的研究提供了工具。

3. 预备知识与相关工作

3.1. 基础概念

  • 动漫风格识别 (Anime Style Recognition, ASR): 本文定义的核心任务,旨在判断两张不同动漫角色的图像是否来自同一部作品,其核心在于学习作品的抽象绘画风格。
  • 语义鸿沟 (Semantic Gap): 指低级视觉特征(如像素值、边缘、颜色)与高级语义概念(如“绘画风格”、“情感”、“场景类型”)之间存在的巨大差异。在 ASR 任务中,模型需要从图像的像素信息中提取出抽象的绘画风格这一高级语义,这是一个典型的语义鸿沟问题。
  • 生物特征识别 (Biometric Recognition): 利用个体生理或行为特征进行身份识别的技术,例如人脸识别 (Face Recognition)、虹膜识别 (Iris Recognition)、指纹识别等。这些任务通常关注于识别特定个体的身份。
  • 行人再识别 (Person Re-identification, Re-ID): 计算机视觉领域的一个任务,目标是在不同的摄像机视角或不同时间点下,识别出图像或视频序列中的同一行人。它处理的是个体身份在不同环境下的外观变化。
  • 深度度量学习 (Deep Metric Learning): 一种机器学习范式,通过深度神经网络学习一个嵌入空间 (embedding space),使得相似的样本在该空间中距离较近,而不相似的样本距离较远。这在检索、聚类和分类任务中非常有用。
  • 平均精度均值 (mean Average Precision, mAP): 广泛用于目标检测、图像检索等任务的评估指标。它首先计算每个查询的平均精度 (Average Precision, AP),然后对所有查询的 AP 值取平均。AP 衡量的是在不同召回率下的查准率,综合反映了模型的检索性能。
  • 累积匹配特征曲线 (Cumulative Matching Characteristics, CMC): 在再识别任务中常用的评估指标,它描绘了在不同排名 (rank) 下,查询图像能找到其正确匹配的概率。例如,Rank-1 准确率表示在检索列表的第一个结果中找到正确匹配的概率,Rank-5 表示在前五个结果中找到正确匹配的概率。
  • 平均逆负惩罚 (mean Inverse Negative Penalty, mINP): 这是 AGW 论文 [37] 中提出的一个补充评估指标,旨在衡量模型找到“最难的正确匹配”的能力。它关注的是在检索列表中,正确匹配出现的最靠后的位置,从而更严格地评估模型的鲁棒性。
  • 卷积神经网络 (Convolutional Neural Network, CNN): 一种专门用于处理具有网格状拓扑结构数据(如图像)的深度学习模型。它通过卷积层、池化层等提取图像特征。
    • ResNet (Residual Network): 深度残差网络 [10],一种通过引入残差连接(shortcut connections)来解决深层网络训练中梯度消失问题的 CNN 架构。
    • Non-local Block (非局部块): 一种神经网络模块 [15],能够捕获图像中任意两个位置之间的长距离依赖关系,而不仅仅是相邻区域。这有助于模型理解图像中的全局信息。
    • Squeeze-and-Excitation (SE) Module (挤压-激励模块): 一种通道注意力机制 [12],通过学习每个特征通道的重要性,自适应地调整通道的权重,从而增强有用特征并抑制不相关特征。
    • Instance-Batch Normalization (IBN) (实例-批量归一化): 一种结合了实例归一化和批量归一化的技术 [36],旨在提高模型在图像风格变化下的泛化能力。
  • Transformer: 一种最初为自然语言处理设计的神经网络架构,其核心是自注意力(self-attention)机制,能够有效地处理序列数据中的长距离依赖关系。
    • Vision Transformer (ViT): 将 Transformer 架构应用于图像分类任务的模型 [5]。它将图像分割成多个固定大小的图像块 (patches),并将这些图像块作为序列输入到 Transformer 编码器中进行处理。
    • DeiT (Data-efficient image Transformers): 一种优化过的 ViT 模型 [31],通过引入蒸馏 (distillation) 策略,使其在较少的数据量下也能达到与 ViT 相当的性能。
    • Jigsaw Patch Module (JPM) (拼图补丁模块): TransReID 论文中提出的模块 [11],通过对图像块进行移位和洗牌操作,生成更鲁棒和多样化的特征,以增强模型的判别能力。
  • 损失函数 (Loss Function):
    • 标签平滑交叉熵 (Label Smoothing Cross-Entropy): 一种正则化技术 [21],通过在计算交叉熵损失时,将硬标签(one-hot 编码)替换为软标签(将真实标签的概率分散到其他类别),从而防止模型对训练数据过拟合,提高模型的泛化能力。
    • 加权正则三元组损失 (Weighted Regularized Triplet Loss): 一种度量学习中常用的损失函数,旨在使得正样本对(来自同一类别的样本)之间的距离小于负样本对(来自不同类别的样本)之间的距离,并引入权重和正则化项进行优化。
    • ID Loss (身份损失): 通常指的是分类任务中的交叉熵损失,用于识别图像的身份(在本任务中是作品的身份)。
    • Triplet Loss (三元组损失): 度量学习中的一种经典损失函数,它选取一个锚点 (anchor) 样本、一个正样本 (positive) 和一个负样本 (negative),并要求锚点与正样本的距离小于锚点与负样本的距离加上一个设定的 margin。

3.2. 前人工作

  • 动漫图像数据集:

    • iCartoonFace [41]: 用于卡通人脸检测和识别,包含大量卡通图像。但其许多图像是卡通视频的连续帧,导致内容相似且可能缺少人脸。

    • Danbooru2021 [2]: 一个大规模的众包和带标签的动漫插画数据集,但主要关注颜色等特征,未标注作品和角色信息,不适用于风格识别。

    • Manga109 [1]: 一个漫画数据集,包含扫描的漫画书图像,并标注了文本框和漫画面板,主要用于文本检测和图像分割。

    • COMICS [14]: 一个漫画数据集,主要关注情节预测。

    • Nico-illust [13]: 主要由 Niconico Seiga 上的绘画图像组成,设计用于动漫着色渲染。

    • 本文的 LSASRD 与这些数据集的主要区别在于,LSASRD 明确地标注了作品和角色信息,并专门针对“动漫风格识别”任务设计,以学习作品的抽象风格。

      以下是原文 Table 1 的结果:

      DatasetiCartoonFace [41]Danbooru2021 [2]Manga109 [1]COMICS [14]nico-illst [13]LSASRD
      Images Roles389,678 5,013400k Not annotated21,142 500k1.2m Not annotated400k Not annotated20,937 1,829
      WorkNot annotated Face DetectionNot annotated Color109 TextNot annotated PlotNot annotated Color190 Style
      Applicationsand RecognitionRenderingDetectionPredictionRenderingRecognition

    从 Figure 2 可以看到 LSASRD 与其他动漫数据集的对比。

    Figure 2. Examples of different datasets. 该图像是一个示意图,展示了四个不同的动漫风格数据集,包括 iCartoonFace、Danbooru2021、Manga109 和 LSASRD。每个数据集包含多种动漫角色的示例,呈现了不同的艺术表现形式和风格特点。

    Figure 2. Examples of different datasets.

  • 艺术理解研究:

    • DeepArt [17]: Mao et al. 提出的方法,用于学习视觉艺术内容和风格的联合表示。
    • Text2Art [7]: Garcia et al. 提出的多模态检索方法,通过文本查询检索艺术品。
    • Shen et al. [28]: 设计了空间一致的特征学习方法,用于发现艺术品集合中的视觉模式。
    • 本文的 ASR 与这些艺术理解工作的区别在于,动漫具有其独特的创作自由度和视觉表现力,不能简单地等同于传统美术作品,其风格理解具有额外的挑战。
  • 生物特征识别:

    • 传统的生物特征识别任务(如人脸识别 [25]、虹膜识别 [23])主要关注学习身份上下文。本文指出 ASR 与这些任务存在根本差异,ASR 的一个类别是“作品”,其中包含多个“角色”,每个角色又有多个图像,这导致了更复杂的类内变化。
  • 行人再识别 (Person Re-identification):

    • AGW [37]: Ye et al. 提出的强大基线方法,在单模态和跨模态 Re-ID 任务上表现出色,并引入了 mINP 评估指标。
    • TransReID [11]: He et al. 提出的基于 Transformer 的对象再识别框架,引入了 Jigsaw Patch Module 和侧信息嵌入,取得了 SOTA (State-Of-The-Art,最先进的) 结果。
    • 本文与行人再识别的区别在于,行人再识别关注的是同一个人的识别,而 ASR 关注的是不同角色但来自同一作品的风格识别。ASR 任务的“类别”是作品,其“实例”是不同角色,这使得其语义鸿沟更大。

3.3. 技术演进

动漫相关研究经历了从图像生成 [20]、着色 [33]、风格迁移 [24] 到视频插帧 [30] 的发展。近年来,动漫角色的识别 [27] 和检测 [38] 也逐渐受到关注。然而,这些研究大多集中在具体的视觉任务上,例如识别某个特定角色或检测人脸。本文的工作代表了动漫图像理解领域的一个重要演进方向,即从具体的角色或人脸识别,转向更抽象、更高层次的“作品风格”识别。这种演进反映了计算机视觉领域从低级特征学习向高级语义理解的普遍趋势,尤其是在处理像动漫这样具有复杂抽象特征的领域时。

3.4. 差异化分析

  • 与生物特征识别的核心区别: 生物特征识别通常关注的是同一身份在不同条件下的识别,其类别是“个体”。而 ASR 的类别是“作品”,一个“作品”类别下包含多个不同的角色,这些角色之间可能外观差异很大。因此,ASR 的挑战在于模型不能仅仅学习角色的判别特征(如同生物特征识别),而是必须学习作品的抽象绘画风格。这种“作品”作为类别的设定,引入了比生物特征识别更复杂的类内变化,造成了更大的语义鸿沟。
  • 与现有动漫数据集的核心区别: 大多数现有动漫数据集,如 iCartoonFace 专注于人脸检测和识别,Manga109 用于文本和面板分割,Nico-illust 用于着色。它们虽然提供了动漫图像数据,但缺乏对“作品风格”这一高级语义的直接标注,也没有为“风格识别”这一特定任务设计评估协议。LSASRD 的独特之处在于其精细的作品和角色级别标注,以及为 ASR 任务量身定制的“跨角色协议”,这使得它能够直接评估模型对抽象风格的理解能力。
  • 与一般艺术理解的核心区别: 动漫的风格创作非常自由,常常包含复杂的光照、夸张的构图、非现实的色彩和多变的姿势。这使得动漫风格比传统意义上的“美术作品”更具挑战性,因为其风格规律可能更为多样、抽象和难以捕捉。

4. 方法论

本文的主要贡献在于提出新的数据集和评估协议,并在此基础上应用现有最先进的行人再识别 (Person Re-identification, Re-ID) 方法作为基线。因此,方法论部分主要介绍这些基线模型的核心原理。

4.1. 方法原理

本文将动漫风格识别 (ASR) 任务建模为一个检索问题,其核心思想是利用深度学习模型学习一个特征嵌入空间。在这个空间中,来自同一动漫作品的不同角色的图像,其特征表示应该相互靠近;而来自不同动漫作品的图像,其特征表示应该相互远离。通过这种方式,模型能够捕捉到作品之间抽象的绘画风格差异,而不是仅仅关注角色的具体身份特征。

4.2. 核心方法详解

论文采用了两种强大的行人再识别方法 AGWTransReID 作为基线模型,并详细描述了它们的配置。

4.2.1. AGW (Attention-guided Global-Local Feature Representation for Person Re-identification)

AGW 是一种强大的行人再识别基线模型 [37],它通过结合骨干网络、特定损失函数和超参数配置来实现高性能。

架构概览: AGW 框架如图 6 所示,主要包括骨干网络、损失函数和超参数配置。

Figure 7. TransReID framework \[11\]. 该图像是TransReID框架的示意图,展示了输入数据的分块处理、位置嵌入、线性投影和多个变换层的结构。它包括一个全球分支和一个拼图分支模块,使用不同的损失函数来优化模型性能。

Figure 6. AGW framework [37]

主干网络 (Backbone Network): AGW 默认使用 ResNet50 NL (带非局部块 Non-local Block) 作为骨干网络。非局部块 [15] 能够捕获图像中任意两个位置之间的长距离依赖关系,这对于理解图像的全局信息非常重要。除了默认配置,论文还测试了以下 ResNet 变体:

  • ResNet 系列 [10]: ResNet50ResNet101ResNet152,通过增加网络深度来提取更丰富的特征。
  • IBNResNet [36]: ResNet50 IBN AIBN (Instance-Batch Normalization) 结合了实例归一化和批量归一化,旨在提高模型在图像风格变化下的泛化能力。
  • SE 模块的 ResNet 系列 [12]: SE ResNet50SE ResNet101SE ResNet152,引入了 Squeeze-and-Excitation (SE) 模块,通过通道注意力机制自适应地调整特征通道权重。
  • SE 模块的 ResNext 系列 [35]: SE ResNext50SE ResNext101ResNeXt 是一种聚合残差变换,通过分组卷积增加模型宽度,进一步提升性能。

损失函数 (Criterion): AGW 使用两种损失函数来计算模型损失:

  • 标签平滑交叉熵 (Label Smoothing Cross-Entropy) [21]:
    • 原理: 标签平滑是一种正则化技术,它鼓励模型预测的正确类别和其他类别之间的 logits (模型输出的未经 softmax 处理的原始分数) 差异保持恒定。传统的交叉熵损失使用硬标签(例如,one-hot 编码,正确类别概率为 1,其他为 0),这可能导致模型过分自信并对训练数据过拟合。标签平滑通过将硬标签替换为软标签来缓解这一问题。
    • 公式: 假设真实标签 yky_k 是一个 one-hot 向量,对于类别 kk,只有 yk=1y_k=1。标签平滑后的软标签 y~k\tilde{y}_k 计算如下: y~k=(1ϵ)yk+ϵK \tilde{y}_k = (1 - \epsilon) y_k + \frac{\epsilon}{K} 其中,KK 是类别的总数,ϵ\epsilon 是一个小的平滑参数(通常在 0.1 到 0.01 之间)。 然后,使用这个软标签 y~\tilde{y} 计算交叉熵损失: LCE=k=1Ky~klog(pk) L_{CE} = - \sum_{k=1}^K \tilde{y}_k \log(p_k) 其中,pkp_k 是模型预测的类别 kk 的概率。
    • 符号解释:
      • y~k\tilde{y}_k: 经过标签平滑后的类别 kk 的软标签值。
      • yky_k: 原始的 one-hot 编码中的类别 kk 的标签值 (0 或 1)。
      • ϵ\epsilon: 平滑参数,控制将多少概率从真实标签分散到其他类别。
      • KK: 类别的总数。
      • LCEL_{CE}: 标签平滑后的交叉熵损失。
      • pkp_k: 模型预测的类别 kk 的概率。
  • 加权正则三元组损失 (Weighted Regularized Triplet Loss):
    • 原理: 这种损失继承了度量学习中三元组损失的优势,即优化正样本对和负样本对之间的相对距离,但避免了引入任何额外的 margin 参数。它通过对三元组损失进行加权和正则化处理,使得来自同一作品的图像(即使是不同角色)在特征空间中距离更近,而来自不同作品的图像距离更远。
    • 具体公式AGW 论文 [37] 中详细给出,其核心思想是对于一个锚点 (anchor) 样本 xax_a,一个正样本 (positive) xpx_p 和一个负样本 (negative) xnx_n,要求 D(f(xa),f(xp))+α<D(f(xa),f(xn))D(f(x_a), f(x_p)) + \alpha < D(f(x_a), f(x_n)),其中 DD 是距离函数,ff 是特征提取函数,α\alphamargin。加权正则化版本在此基础上引入权重来调节不同三元组的重要性,并加入正则项防止过拟合。

4.2.2. TransReID (Transformer-based Object Re-identification)

TransReID 是一种基于 Transformer 的对象再识别框架 [11],它将 Transformer 架构引入到行人再识别任务中。

架构概览: TransReID 框架如图 7 所示,它以 Vision Transformer (ViT)DeiT 作为骨干,并引入了 Jigsaw Patch Module

Figure 8. CMC curve of several experiments on AGW. 该图像是图表,展示了不同网络结构(如SE ResNext50、ResNet50等)在多个实验上的CMC曲线。图中不同线条和标记分别代表各模型在不同条件下的性能变化,显示了它们在图像识别任务中的表现。

Figure 7. TransReID framework [11].

主干网络 (Backbone Network): TransReID 使用 Vision Transformer (ViT) [5] 和 Data-efficient image Transformers (DeiT) [31] 作为骨干网络。

  • ViT-BaseViT-Small: ViT 将图像分割成固定大小的图像块,将这些块线性嵌入,加上位置编码后输入标准的 Transformer 编码器。
  • DeiT-Small: DeiTViT 的一个变体,通过知识蒸馏技术提高了数据效率。
  • 步长 (Stride) 调整: 除了默认的 Transformer 步长 16,论文还测试了步长为 12 的配置 (ViT-Stride, DeiT-Stride),以探究不同步长对性能的影响。

Jigsaw Patch Module (JPM):

  • 原理: JPMTransReID 中提出的一个模块,旨在通过对图像块进行操作来生成更鲁棒的特征。它通过移位 (shift) 和补丁洗牌 (patch shuffle) 操作来重新排列图像块的嵌入,这有助于模型学习更具判别能力的特征,并增加特征的多样性覆盖。这种操作模拟了局部-全局信息的变化,迫使模型关注更抽象的结构。
  • 配置: 实验中测试了包含 JPMViT-JPM 配置。

损失函数 (Loss Function): TransReID 结合了两种常用的损失函数:

  • 身份损失 (ID Loss):
    • 原理: 通常是交叉熵损失,用于将每个图像分类到其对应的作品身份(类别)。它强制模型学习区分不同作品的特征。
    • 公式: 对于一个批次中的 NN 个样本,如果将其视为 CC 分类问题 (C 个作品),则 ID Loss 可以表示为: LID=1Ni=1Nc=1Cyiclog(pic) L_{ID} = - \frac{1}{N} \sum_{i=1}^N \sum_{c=1}^C y_{ic} \log(p_{ic}) 其中 yicy_{ic} 是样本 ii 真实属于类别 cc 的指示符,picp_{ic} 是模型预测样本 ii 属于类别 cc 的概率。
    • 符号解释:
      • NN: 批次中的样本总数。
      • CC: 类别(作品)的总数。
      • yicy_{ic}: 如果样本 ii 属于类别 cc,则为 1,否则为 0。
      • picp_{ic}: 模型预测样本 ii 属于类别 cc 的概率。
      • LIDL_{ID}: 身份损失。
  • 三元组损失 (Triplet Loss):
    • 原理: Triplet Loss [11] 是一种度量学习损失,旨在在嵌入空间中将来自同一作品的图像特征拉近,同时将来自不同作品的图像特征推远。它通过锚点 (anchor)、正样本 (positive) 和负样本 (negative) 的三元组来计算。
    • 公式: 典型的三元组损失定义为: LTriplet=i=1P×K[f(xai)f(xpi)22f(xai)f(xni)22+α]+ L_{Triplet} = \sum_{i=1}^{P \times K} [\left \| f(x_a^i) - f(x_p^i) \right \|_2^2 - \left \| f(x_a^i) - f(x_n^i) \right \|_2^2 + \alpha]_+ 其中 []+=max(0,)[ \cdot ]_+ = \max(0, \cdot)
    • 符号解释:
      • PP: 批次中的身份(作品)数量。
      • KK: 每个身份(作品)中的样本数量。
      • xaix_a^i: 第 ii 个三元组中的锚点样本。
      • xpix_p^i: 第 ii 个三元组中的正样本(与锚点来自同一作品)。
      • xnix_n^i: 第 ii 个三元组中的负样本(与锚点来自不同作品)。
      • f()f(\cdot): 特征提取函数。
      • 22\left \| \cdot \right \|_2^2: L2 范数平方,表示特征之间的欧氏距离。
      • α\alpha: 设定的 margin (裕量),确保正负样本之间有足够的距离。
      • LTripletL_{Triplet}: 三元组损失。
  • 损失计算细节: 论文指出,对于一个批次的样本,每个损失部分的计算方式是:第一个样本的损失值的一半,加上其余样本损失值总和的一半。这可能是一种为了平衡批次中不同样本贡献而设计的特殊加权策略。

5. 实验设置

5.1. 数据集

实验主要使用了本文新发布的大规模动漫风格识别数据集 LSASRD

  • 数据集名称: Large-Scale Anime Style Recognition Dataset (LSASRD)
  • 数据集规模:
    • 图像总数: 20,937 张
    • 角色总数: 1,829 个
    • 动漫作品总数: 190 部
    • 每部作品至少包含 10 个不同的角色。
  • 数据来源与特点:
    • 收集自 Moegirlpedia (萌娘百科) 和 BiliBili (哔哩哔哩),以及图片搜索引擎和在线视频网站。
    • 涵盖 13 个国家和地区在 1928 年至 2021 年间的动漫作品(主要来自中国和日本)。
    • 包含 2D 和 3D 作品,以及动漫、卡通、漫画和游戏中的图像。
    • 图像内容仅限于角色的脸部特写(肖像),所有图像都被裁剪并调整大小为 256x256 像素。
    • 元数据丰富:每部作品和角色都手工标注了年份、地区、制作人员、性别、种族等信息。
  • 挑战性因素:
    • 复杂图像内容条件: 图像清晰度低、过亮或过暗、大面积遮挡、夸张的姿势和特殊的构图。

    • 复杂图像风格条件: 图像来源于原作和二次创作,同一角色可能存在不同风格;作品来自不同地区和时代,风格多样;角色包括人类、类人 (如兽人) 和非人 (如动物),导致模型难以学习固有面部特征模式。

    • 与生物特征识别数据集的区别: LSASRD 的一个“主题”是一个动漫作品,其中包含多个不同的角色;而每个角色又包含不同状态下的多张图片。模型不能仅仅学习角色的身份特征,必须寻找更高层次的共同特征(即作品风格)。

      从 Figure 1 可以看到 LSASRD 的样本示例,展示了不同动漫作品如《JOJO的奇妙冒险》、《七龙珠》和《名侦探柯南》中的角色,突出了其风格多样性。

      Figure 1. LSASRD Samples. 该图像是一个插图,展示了大规模动漫风格识别数据集(LSASRD)的样本,图中包含了来自不同动漫作品的多张图像,分别标注了《JOJO的奇妙冒险》、《七龙珠》和《名侦探柯南》等。插图的中心聚集了一些关键角色的图片,并展示了作品间的风格多样性。

Figure 1. LSASRD Samples.

从 Figure 5 可以看到 LSASRD 中的挑战因素示例,包括复杂的光照、各种姿势、戏剧性色彩、夸张构图、低清晰度、遮挡等。

Figure 5. Examples of LSASRD. 该图像是示意图,展示了在ASR基准中的不同挑战因素,包括颜色、构图、光照、低质量、遮挡和姿势等。每个因素通过多张动画角色图像呈现,为研究者提供了丰富的视觉参考。

Figure 5. Examples of LSASRD.

从 Figure 4 可以看到 LSASRD 的标注示例,所有图像都被裁剪为只显示角色的头部,并标注了作品和角色信息。

Figure 4. Annotations of LSASRD. 该图像是示意图,展示了 LSASRD 数据集中的不同动漫角色的注释。图中标注了多个角色,并通过红色虚线框突出显示了部分特征,具体信息编码为 0001、0002、0003。从而展示了不同角色在同一作品中的多样性。

Figure 4. Annotations of LSASRD.

5.1.1. 数据集划分

  • 训练集与测试集划分: 图像被随机划分为训练集和测试集。

    • 训练集 (Train): 114 部作品,1097 个角色,12,562 张图片。
    • 测试集 (Test Set): 进一步划分为查询集和画廊集。
      • 查询集 (Query): 293 个角色,3,350 张图片。
      • 画廊集 (Gallery): 439 个角色,5,025 张图片。
  • 跨角色协议 (Cross-Role Protocol): 这是 LSASRD 的一个关键设计。查询集和画廊集中的图片所对应的角色是严格不重叠的。这意味着模型不能通过识别具体的角色身份来完成任务,而必须学习作品的抽象绘画风格。

  • 5 折交叉验证 (5-Fold Cross-Validation): 为了减少数据分布偏差和避免过拟合,实验采用了 5 折交叉验证。总数据被分成 5 份,每次实验选取其中 1 份作为验证集,其余 4 份作为训练集。所有 5 种组合都进行评估,并取平均值作为最终基线性能。

    以下是原文 Table 2 的结果:

    SubsetTrainGalleryQuery
    Work1147676
    Role1097439293
    Image1256250253350

以下是原文 Table 3 的结果:

Fold-k12345
Work3838383838
Role364367367366365
Image41874185418841894188

5.2. 评估指标

论文使用了 mINPmAPCMC 曲线来评估 ASR 模型的性能。

5.2.1. 平均逆负惩罚 (mean Inverse Negative Penalty, mINP)

  1. 概念定义: mINP 衡量模型检索“最难的正确匹配”的能力。它关注的是在检索结果列表中,正确匹配(尤其是那些排名靠后、难以找到的正确匹配)的发现情况。mINP 越高,表明模型在处理最困难的匹配情况时表现越好,对长尾效应或不明显特征的鲁棒性越强。
  2. 数学公式: mINP=1ni(1NPi)=1niGiRihard mINP = \frac { 1 } { n } \sum _ { i } ( 1 - NP _ { i } ) = \frac { 1 } { n } \sum _ { i } \frac { | G _ { i } | } { R _ { i } ^ { hard } } 其中,负惩罚 NP _ { i } 的计算公式为: NPi=RihardGiRihard NP _ { i } = \frac { R _ { i } ^ { hard } - | G _ { i } | } { R _ { i } ^ { hard } }
  3. 符号解释:
    • nn: 查询的总数。
    • ii: 第 ii 个查询。
    • NP _ { i }: 第 ii 个查询的负惩罚,衡量找到最难正确匹配的难度。
    • RihardR _ { i } ^ { hard }: 第 ii 个查询的最难正确匹配(即在排位列表中位置最靠后的正确匹配)的排名。
    • Gi| G _ { i } |: 第 ii 个查询的正确匹配的总数量。

5.2.2. 平均精度均值 (mean Average Precision, mAP)

  1. 概念定义: mAP 是图像检索和目标检测等任务中常用的评估指标,用于衡量模型在检索所有相关项目方面的整体性能。它计算每个查询的平均精度 (Average Precision, AP),然后对所有查询的 AP 值取平均。AP 综合考虑了查准率 (Precision) 和查全率 (Recall),反映了模型在不同召回水平下检索相关项目的有效性。
  2. 数学公式: mAP=q=1QAP(q)NQ mAP = { \frac { \sum _ { q = 1 } ^ { Q } AP ( q ) } { N _ { Q } } } 其中,平均精度 AP 的计算公式为: AP=k=1nP(k)×rel(k)NRelevant AP = \frac { \sum _ { k = 1 } ^ { n } P \left( k \right) \times rel \left( k \right) } { N _ { Relevant } }
  3. 符号解释:
    • QQ: 查询的总数。
    • qq: 第 qq 个查询。
    • AP ( q ): 第 qq 个查询的平均精度。
    • N _ { Q }: 查询的总数。
    • kk: 召回列表中的排名位置。
    • nn: 召回列表的总长度。
    • P ( k ): 在排名 kk 处的查准率 (Precision at cutoff kk)。
    • rel ( k ): 一个指示函数,如果排名 kk 处的检索结果是正确的匹配,则为 1,否则为 0。
    • N _ { Relevant }: 对于给定查询,数据库中所有相关(正确匹配)项目的总数。

5.2.3. 累积匹配特征曲线 (Cumulative Matching Characteristics, CMC)

  1. 概念定义: CMC 曲线显示了查询身份(在本任务中是作品风格)出现在不同大小候选列表中的概率。CMC@Rank(k) 表示查询的正确匹配在检索列表的前 kk 个结果中出现的概率。它直观地展示了模型在不同召回深度下的性能,例如 Rank-1 (R1) 表示第一次尝试就找到正确匹配的概率,Rank-5 (R5) 表示在前五次尝试中找到正确匹配的概率。
  2. 数学公式: CMC@Rank(k)=q=1Qrel(q,k)(k)Q CMC@Rank ( k ) = \frac { \sum _ { q = 1 } ^ { Q } rel ( q , k ) ( k ) } { Q }
  3. 符号解释:
    • QQ: 查询的总数。
    • qq: 第 qq 个查询。
    • kk: 排名阈值(即考虑检索列表的前 kk 个结果)。
    • rel ( q , k ): 一个指示函数,如果查询 qq 的真实匹配在画廊图像的排名 kk 或更靠前的位置出现,则为 1,否则为 0。

5.3. 对比基线

论文将自己的方法与以下两种最先进的行人再识别 (Re-ID) 方法进行了比较,这些方法被选为基线,因为它们在 Re-ID 任务中表现出色且具有代表性:

  • AGW [37]: 这是一种强大且广泛使用的 Re-ID 基线模型,代表了基于 CNN 的先进方法。它结合了注意力机制和全局-局部特征表示,并使用标签平滑交叉熵和加权正则三元组损失进行训练。

  • TransReID [11]: 这是一种基于 Transformer 的 Re-ID 方法,代表了最新的模型架构趋势。它利用 Vision Transformer 的能力处理图像,并引入了 Jigsaw Patch Module 来增强特征表示。

    通过与这些强大的基线进行比较,论文旨在量化当前最先进的 Re-ID 方法在动漫风格识别这一新颖且更具挑战性的任务上的表现,从而突出 ASR 任务的难度和现有方法的局限性。

6. 实验结果与分析

6.1. 核心结果分析

论文报告了 AGWTransReID 系列模型在 LSASRD 数据集上的基线性能。

  • AGW 模型性能分析 (Table 4, Figure 8):

    • AGW 系列模型中,ResNet50 取得了最佳的 mINP (12.48%) 和 mAP (40.84%)。
    • ResNet50 NL (非局部块) 取得了最佳的 Rank1 (72.50%) 和 Rank5 (88.18%)。
    • 值得注意的是,随着 ResNet 网络层数的增加 (ResNet101, ResNet152),性能并没有随之提升,反而略有下降。这表明,在相同的超参数配置下,更深的模型可能未能充分发挥其潜力,或者在 ASR 任务中,简单的深度增加并不足以捕获所需的抽象风格特征。
    • Figure 8 的 CMC 曲线可以看出,不同 ResNet 变体之间的性能差异非常小,曲线几乎重叠,进一步证实了 AGWLSASRD 上整体性能的稳定性但提升空间有限。
  • TransReID 模型性能分析 (Table 5, Figure 9):

    • ViT-Stride 模型获得了最佳的 mINP (13.14%)。
    • ViT-Small 模型在 mAP (42.76%)、Rank1 (76.68%) 和 Rank5 (91.04%) 上取得了最佳性能。
    • AGW 相比,最佳的 TransReID 模型 (ViT-Small) 在 mAPRank1 上均略优于 AGW 的最佳结果 (42.76% vs 40.84% mAP, 76.68% vs 72.50% Rank1),这体现了 Transformer 模型在处理图像任务方面的潜力。
    • 然而,即使是 TransReID 这样的最新模型,其在 LSASRD 上的 mAP 也仅为 42.76%。作者指出,这可能是因为 ViT 模型通常在大量具体图像上进行预训练,可能需要针对抽象动漫图像数据集进行专门的调整或微调,以更好地适应其独特的风格特征。
    • Figure 9 的 CMC 曲线可以看出 TransReID 系列模型也表现出相似的趋势,尽管 ViT-Small 略优。
  • 总体挑战性总结:

    • 实验结果表明,无论 AGW (基于 CNN) 还是 TransReID (基于 Transformer),在 LSASRD 上都未能取得令人满意的性能。最高的 mAP 仅为 42.76%,远低于这些模型在传统行人再识别任务上的表现。
    • 作者认为,这可能是因为当前模型更擅长提取图像的纹理特征,但在学习高级语义信息(如动漫的抽象绘画风格)方面存在不足。
    • 这些结果强有力地验证了 ASR 任务中巨大的语义鸿沟,以及 LSASRD 数据集的挑战性,并强调了该领域需要深入和长期的研究。

6.2. 数据呈现 (表格)

以下是原文 Table 4 的结果:

MetricsmINPmAPR1R5
ResNet50 [10]12.4840.8472.0688.60
ResNet50 NL [15]12.4040.8072.5088.18
ResNet101 [10]12.3040.1870.7887.28
ResNet152 [10]12.2640.3471.8288.04
SE ResNet50 [12]10.7638.1069.4486.90
SE ResNet101 [12]10.8638.4270.1086.86
SE ResNet152 [12]10.2836.8067.2686.10
SE ResNext50 [35]10.9039.4471.5288.10
SE ResNext101 [35]9.3237.5671.5488.52
ResNet50 IBN A [36]10.9040.7471.5288.10

以下是原文 Table 5 的结果:

MetricsmINPmAPR1R5
DeiT-Small [31]10.5836.5867.5486.56
DeiT-Stride [31]11.3439.6672.3288.22
ViT-Small [5]12.4842.7676.6891.04
ViT-Base [5]11.3436.7065.7082.98
ViT-JPM [11]12.7241.8874.1689.30
ViT-Stride [5]13.1442.2474.7289.34

6.3. 消融实验/参数分析

论文通过 GradCam++GradCam++ [4] 对 AGWTransReID 模型的关注区域进行了可视化,以分析它们学习到的特征。

  • 热力图可视化 (Figure 10):
    • 可视化了 AGW (使用 ResNet50 NL 作为骨干,关注 layer4 模块的最后一个 Bottleneck 块) 和 TransReID (使用 ViT 作为骨干,关注 b1b1 模块的第一个 LayerNorm 层) 的梯度和激活。

    • 对于前两个 3D 动漫图像样本: AGW 注意到的特征较少,而 TransReID 更多地关注了边缘和阴影等细节。这可能表明 TransReID 在某些情况下能捕捉更丰富的局部纹理信息。

    • 对于后两个样本: 两个模型都能够关注到角色的显著特征。例如,对于第三个样本,它们都关注了角色的 Kabuto (头盔/面罩);对于第四个样本,它们都关注了角色大而独特的眼睛绘画风格。

    • TransReID 相较于 AGW 提到了更多的样本部分,这可能意味着 Transformer 具有更强的全局感知能力,能够整合更广泛的上下文信息。

    • 分析局限: 尽管模型能够关注到一些显著特征,但这些可视化结果仍未能充分解释模型为何在整体 ASR 任务上表现不佳。这暗示了即使模型能够定位到一些关键区域,也可能未能从这些区域中提取出足够的抽象风格信息来完成跨角色识别。这进一步支持了模型缺乏有效学习抽象属性机制的观点。

      Figure 10. Heat map \[9\] of samples. Samples are numbered as 1,2,3 and 4 of both AGW and TransReID from left to right. 该图像是热图示意图,展示了 AGW 和 TransReID 方法在四个不同样本上的效果,样本编号为1至4,左右分别是 AGW 和 TransReID 的结果。

Figure 10. Heat map [9] of samples. Samples are numbered as 1,2,3 and 4 of both AGW and TransReID from left to right.

7. 总结与思考

7.1. 结论总结

本文提出了一个开创性的、具有挑战性的动漫风格识别 (ASR) 基准,旨在深入探索深度学习模型在理解高级语义方面的能力。为推动 ASR 领域的研究,作者构建并发布了一个大规模的 ASR 数据集 (LSASRD),其中包含 20,937 张图像,涵盖 1,829 个角色和 190 部动漫作品,并附带了丰富的元数据。为确保模型真正学习抽象绘画风格而非角色身份,本文设计了严格的跨角色评估协议。通过将两种最先进的行人再识别方法 (AGWTransReID) 应用于 LSASRD 并建立基线性能,实验结果揭示了一个重要发现:即使是最强大的现有模型,在 ASR 基准上的表现也远未达到令人满意的水平 (TransReID 的 mAP 仅为 42.76%)。这强烈表明,当前方法在提取和理解具有巨大语义鸿沟的抽象属性(即作品风格特征)方面存在显著不足。因此,ASR 任务为研究模型的语义理解能力以及动漫图像在信息推荐和图像检索等领域的应用提供了一个富有前景的研究框架。

7.2. 局限性与未来工作

7.2.1. 论文作者指出的局限性

  • 现有模型的抽象属性提取能力不足: 作者明确指出,当前的深度学习模型更擅长提取图像的纹理特征,但在学习“抽象属性”(如绘画风格)方面缺乏有效的机制。对于具有巨大语义鸿沟的任务,这些模型显得力不从心。
  • 模型配置并非针对 ASR 优化: 论文提到,所使用的 AGWTransReID 模型及其配置主要针对自然人图像(行人再识别)进行优化。它们可能没有完全发挥在抽象图像数据集上的性能,需要更具体的配置来探索其能力极限。

7.2.2. 作者提出的未来研究方向

  • 深入研究抽象属性的学习: 开发新的模型架构和学习范式,使其能够有效弥合低级视觉特征与高级抽象绘画风格之间的语义鸿沟。
  • 更具体的模型配置优化: 针对 ASR 任务的特点,对现有模型进行定制化的配置和微调,以更好地适应动漫图像的风格特点。
  • 推动动漫图像应用发展: 利用 ASR 的研究成果,促进动漫内容推荐、图像检索等应用的发展。

7.3. 个人启发与批判

7.3.1. 个人启发

  • 新颖且重要的研究方向: 动漫风格识别是一个在学术界被相对忽视但极具实际应用价值和理论挑战性的问题。本论文通过构建一个高质量的基准,成功地将这一领域推向了前沿。它提醒我们,除了传统的识别任务,对艺术风格这种高度抽象的概念进行机器理解,是计算机视觉未来发展的重要方向。
  • 语义鸿沟的凸显: 论文通过实验结果有力地证明了,即使是当前最先进的 Re-ID 模型,在 ASR 这种具有巨大语义鸿沟的任务面前也显得力不从心。这启发我们,在设计面向高级语义理解的模型时,不能仅仅依赖于现有模型在其他任务上的成功,而需要针对语义鸿沟本身进行更深层次的机制创新。
  • 数据集和协议设计的智慧: LSASRD 的构建和“跨角色协议”的设计非常巧妙。通过强制模型在不同角色之间进行风格匹配,它有效避免了模型仅学习角色身份特征的捷径,从而真正评估了模型对抽象风格的理解能力。这为其他类似的高级语义理解任务的数据集和评估方法设计提供了宝贵的经验。
  • 潜在的应用价值: ASR 技术一旦成熟,将在动漫产业中发挥巨大作用,例如:
    • 内容推荐: 为用户推荐风格相似但可能来自不同创作者的动漫作品。
    • 版权保护: 辅助识别盗版或侵权作品,例如通过风格匹配来追踪作品源头。
    • 创作辅助: 帮助艺术家分析和学习特定风格,甚至生成具有特定风格的新内容。
    • 学术研究: 为艺术风格分析、文化遗产保护等领域提供新的工具。

7.3.2. 批判与可以改进的地方

  • 模型解释性不足: 尽管论文使用了 GradCam++GradCam++ 进行可视化,但对于模型为何无法很好地捕捉抽象风格的深层原因,解释仍不够深入。例如,哪些具体的视觉元素(线条、色彩饱和度、构图模式、角色眼睛/头发的绘制方式等)是决定动漫风格的关键?模型是否能有效捕捉这些元素?未来可以引入更具解释性的分析工具或可解释 AI (XAI) 技术来剖析模型的决策过程。
  • 风格定义的主观性与粒度: 论文将“风格”定义为“是否来自同一作品”,这是一种粗粒度的定义。动漫风格本身是一个非常复杂和主观的概念,可能涉及画师个人风格、工作室风格、时代风格、流派风格等多个维度。未来可以尝试对“风格”进行更细粒度的定义和标注,例如通过专家众包或多标签分类的方式,从而推动更精细的 ASR 研究。
  • 多模态信息的利用: 动漫作品不仅仅是视觉风格,还包含故事情节、配乐、声优、文本等多种模态信息。未来的 ASR 模型可以考虑融合这些多模态信息,以提供更全面、更鲁棒的风格理解。例如,一部作品的音乐风格也可能与其视觉风格存在关联。
  • 预训练策略与领域适应: 论文提到 ViT 模型可能需要调整以适应抽象图像数据集。未来的研究可以深入探讨专门针对动漫风格的预训练策略,或者引入领域自适应 (Domain Adaptation) / 领域泛化 (Domain Generalization) 技术,以更好地弥合自然图像和动漫图像之间的特征分布差异。
  • 数据集规模和多样性: 尽管 LSASRD 已是当前大规模的 ASR 数据集,但 190 部作品覆盖的风格可能仍有限。随着时间的推移,可以继续扩大数据集规模,特别是增加更多地区、时代和风格流派的动漫作品,以进一步提升基准的挑战性和普适性。此外,可以考虑加入更多带有明确风格标签的作品,例如“赛璐珞风格”、“萌系风格”、“写实风格”等。
  • 人类感知对齐: 可以进行人类感知实验,收集人类专家(如动漫评论家、艺术家)对动漫风格相似性的判断数据,并与模型的评估结果进行对比分析。这有助于发现模型与人类感知之间的差距,并指导模型的设计方向,使其更符合人类对“风格”的理解。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。