Computational Meme Understanding: A Survey
TL;DR 精炼摘要
本论文综述了计算模因理解(CMU)领域,提出了涵盖形式、功能和主题的全面模因分类法,分析了分类、解释和阐述三个关键任务,回顾了现有数据集与模型及其局限性,指出该领域的主要挑战,并为未来研究提供建议。
摘要
Computational Meme Understanding, which concerns the automated comprehension of memes, has garnered interest over the last four years and is facing both substantial opportunities and challenges. We survey this emerging area of research by first introducing a comprehensive taxonomy for memes along three dimensions – forms, functions, and topics. Next, we present three key tasks in Computational Meme Understanding, namely, classification, interpretation, and explanation, and conduct a comprehensive review of existing datasets and models, discussing their limitations. Finally, we highlight the key challenges and recommend avenues for future work.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
计算模因理解:一项综述 (Computational Meme Understanding: A Survey)
1.2. 作者
Khoi P. N. Nguyen 和 Vincent Ng,均来自德克萨斯大学达拉斯分校人类语言技术研究所 (Human Language Technology Research Institute, University of Texas at Dallas)。
1.3. 发表期刊/会议
本论文作为一篇综述文章,于 2024 年发表。
1.4. 发表年份
2024年。
1.5. 摘要
计算模因理解 (Computational Meme Understanding),旨在实现对模因 (memes) 的自动化理解,在过去四年中引起了广泛关注,并面临着巨大的机遇和挑战。本综述首先通过引入一个涵盖形式、功能和主题三个维度维度的全面模因分类法,对这一新兴研究领域进行调研。接着,我们介绍了计算模因理解中的三个关键任务,即分类、解释和阐述,并对现有数据集和模型进行了全面回顾,讨论了它们的局限性。最后,我们强调了关键挑战,并为未来的工作提出了建议。
1.6. 原文链接
/files/papers/69174c3c110b75dcc59ae048/paper.pdf
该论文已于 2024 年 1 月 1 日发布。
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 论文旨在解决的核心问题是如何实现对模因 (memes) 的自动化理解,即计算模因理解 (Computational Meme Understanding, CMU)。
- 重要性与现有挑战: 在当前数字化时代,模因因其幽默感和易于消化的特点而广泛传播,成为一种新颖且普遍的在线交流方式。它们可以是恶意的(如仇恨、有害、政治操纵),也可以是积极的(表达思想、改善人际沟通、促进文化理解)。然而,由于互联网的广阔性,人工检查所有模因是不可能实现的。因此,开发自动化系统来理解模因变得至关重要,尤其是在检测恶意内容和促进积极交流方面。
CMU面临的主要挑战包括:- 需要无缝地识别和结合模因中的文本和视觉元素。
- 生成模因所传达信息的完整文本描述,需要对最新新闻、互联网亚文化、模因文化和世界有广博而深入的知识。
CMU系统通常需要言外之意 (read between the lines),例如解码比喻语言 (figurative language),才能成功理解模因。
- 切入点或创新思路: 尽管相关领域(如计算宣传、多模态虚假信息检测、仇恨言论、幽默生成)已有综述,但专门针对模因理解的全面综述尚属空白。此前最近的综述(Sharma et al., 2022a)也仅限于有害模因 (harmful memes) 及其分类任务。本论文填补了这一空白,提出了一个更广泛的、综合性的
CMU综述,涵盖了更多类型的模因和更广泛的技术任务。
2.2. 核心贡献/主要发现
本论文对计算模因理解领域做出了以下关键贡献:
- 提出全面的模因分类法: 首次系统性地引入了基于形式、功能和主题三个维度的模因分类法,为理解模因的多样性提供了统一语言。
- 定义关键任务: 明确了
CMU领域的三大核心任务:分类 (Classification)、解释 (Interpretation) 和阐述 (Explanation),为研究方向提供了清晰的划分。 - 全面回顾数据集和模型: 对现有
CMU相关数据集和模型进行了详细梳理和评估,指出了它们的优点和局限性。 - 识别并讨论主要挑战: 深入分析了
CMU所面临的独特挑战,包括模因特有的知识、时间上下文、解释的主观性以及可解释模型的需求。 - 展望未来研究方向: 提出了多项未来有前景的研究方向,如更丰富的注释、利用
VLM改进注释过程、更深层次的视觉推理、主动知识获取、与语用学的连接、处理动画和视频模因以及模因生成等。
3. 预备知识与相关工作
3.1. 基础概念
- 模因 (Meme): 在当前语境中,特指用户创建的、将图片和图像与叠加文本结合在一起的媒体内容。它们通常具有幽默、讽刺或表达特定观点、情感的特点,并在互联网上广泛传播。
- 计算模因理解 (Computational Meme Understanding, CMU): 本文引入的一个总称,指涉及对模因进行自动化理解的一系列任务。这包括识别模因的组成部分、推断其意义、分类其意图等。
- 多模态 (Multimodal): 指涉及两种或更多不同模态信息(例如视觉图像和文本)的处理。模因本质上是多模态的,因为它们结合了视觉内容和文本内容。
- 比喻语言 (Figurative Language): 指使用不同于字面意义的词语或表达方式来传达含义的语言,例如讽刺、反语、典故、对比等。模因中常包含比喻语言,增加了理解的难度。
- 分类法 (Taxonomy): 一种对事物进行系统性分类和组织的方法,通常以层次结构呈现。本文提出了一个模因分类法,从形式、功能和主题三个维度对模因进行划分。
- 言语行为理论 (Speech Act Theory): 由语言学家提出,研究话语所能完成的行动。例如,陈述、提问、命令等。在本文中,Grundlingh (2018) 将其应用于模因,提出了基于言外行为 (illocutionary acts) 的模因功能分类法,即模因除了字面意义外,还“做了”什么。
- 言外行为 (Illocutionary Acts): 在言语行为理论中,指说话者通过发出一个话语所要完成的意图或功能。例如,当某人说“我承诺会来”时,其言外行为就是“承诺”。在模因语境下,一个模因的言外行为可能包括嘲讽、说服、表扬等。
3.2. 前人工作
论文指出,虽然没有专门针对 CMU 的全面综述,但存在一些相关领域的综述,这些工作虽然在一定程度上涉及模因,但范围较窄或侧重点不同:
-
计算宣传 (Computational Propaganda): Martino et al. (2020) 和 Ng and Li (2023) 等综述关注如何利用计算方法检测和分析网络宣传活动,其中可能包括模因作为宣传工具。
-
多模态虚假信息和事实核查 (Multimodal Disinformation and Fact-checking): Alam et al. (2022) 和 Akhtar et al. (2023) 探讨了结合文本和视觉信息来检测和纠正虚假信息,这与理解模因的恶意用途有所交叉。
-
仇恨言论 (Hate Speech): Schmidt and Wiegand (2017) 的综述集中于自然语言处理技术在仇恨言论检测中的应用,部分仇恨言论以模因形式出现。
-
幽默生成 (Humor Generation): Amin and Burghardt (2020) 的综述讨论了计算幽默的生成,这与模因的幽默本质相关,但侧重于生成而非理解。
与最接近工作的差异: 论文特别提到了 Sharma et al. (2022a) 的综述,该工作发表于两年前,主要关注有害模因 (harmful memes) 及其分类任务。本论文超越了这一范围,不仅涵盖了更多类型的模因(不限于有害模因),还扩展到了更广泛的技术任务,如模因的解释和阐述,并引入了一个全面的模因分类法。
3.3. 技术演进
CMU 作为一个新兴领域,在过去四年中获得了显著关注。其技术演进与更广泛的多模态学习 (multimodal learning) 和大视觉语言模型 (Large Vision-Language Models, LVLMs) 的发展密切相关:
- 多模态特征提取和融合: 早期的
CMU模型通常依赖于分离的视觉特征提取器(如ResNet、ViT)和文本特征提取器(如BERT、RoBERTa),然后通过拼接或交叉注意力 (Cross-Attention) 机制将两种模态信息融合。 - 端到端视觉语言模型 (End-to-End Vision-Language Models, VLMs): 随着
VLMs的发展(如ViLBERT、CLIP、Flamingo、PaLI、Llava、GPT-4、Llama 2),模型能够更有效地在单个框架内处理和融合视觉与文本信息,极大地提升了CMU任务的性能。这些模型通过大规模预训练,学会了强大的跨模态理解能力。 - 生成式任务的兴起: 从最初的分类任务,
CMU逐渐扩展到更复杂的生成式任务,如模因解释和阐述,这得益于更强大的文本生成模型 (text generation models) 的发展。
3.4. 差异化分析
本论文的工作与上述相关综述的主要区别和创新点在于:
- 全面的覆盖范围: 本综述首次提供了对
CMU领域的全面回顾,涵盖了模因的各种形式、功能和主题,而不仅仅局限于有害模因或特定任务。 - 新颖的分类法: 引入了从社会科学中借鉴的、基于形式、功能和主题的模因分类法,为模因的结构化理解提供了统一框架,这在
CMU领域是独有的。 - 任务的细致划分: 明确区分了分类、解释和阐述这三个关键任务,并深入探讨了它们各自的挑战和现有进展。
- 对新兴生成式任务的关注: 特别关注了模因解释和阐述这些新兴且更具挑战性的生成式任务,这超越了传统分类任务的范畴。
- 强调伦理和社会影响: 讨论了
CMU技术发展中的伦理考量,包括标注者的心理健康和模型滥用的风险,体现了对社会责任的重视。
4. 方法论
本论文作为一篇综述,其“方法论”主要体现在其对计算模因理解 (CMU) 领域进行系统性分析和归纳的框架上。作者通过以下步骤构建了对该领域的全面理解:
4.1. 模因分类法
论文首先引入了一个全面的模因分类法,该分类法借鉴了社会科学的研究,并从三个维度对模因进行组织:形式、功能和主题。
4.1.1. 形式 (Forms)
模因具有多种形式,每种形式都有其独特的意义创造方式。论文采纳了传播学研究者 Milner (2012) 提出的模因形式分类法。该分类法将所有模因大致分为两类:重混图像 (Remixed Images) 和稳定图像 (Stable Images)。
-
重混图像 (Remixed Images): 这类模因是通过图像操纵创建的。一个重混图像可以包含一个或多个子图像,每个子图像都可以通过各种方式进行操纵。
- 宏图 (Macros): 这是最流行的操纵类型。它由一个基本模板组成,通常在顶部有一行文字(前提),底部有另一行文字(点睛之笔)。
- 修图 (Shops): 指的是将其他图像的部分添加到基本图像,或直接图形编辑基本图像(如使用 Photoshop)。
- 标注静止图 (Annotated Stills): 在静态图片上添加文字标注。
- 消极图 (Demotivationals): 一种特殊类型的宏图,通常包含一个图片,下方有文字,旨在传达消极、讽刺或反激励的信息。
- 引用 (Quotes): 将名言或流行语与相关或不相关的图片结合。
- 文本 (Text): 纯文本模因,通常使用特定字体或格式。
- 堆叠图像 (Stack Images): 多个重混图像堆叠在一起,形成更复杂的模因。这些图片可以按时间顺序排列、相互回应或形成预定义的模板。
-
稳定图像 (Stable Images): 这类图像在作为模因使用时未经编辑。
-
截图 (Screenshots): 例如,社交媒体对话的截图。
-
照片 (Photos): 包括真实生活中的模因照片(Memes IRL)。
-
图画和图表 (Drawings and Graphs): 使用图画或图表作为模因。
下图(原文 Figure 1)展示了模因的形式分类:
该图像是示意图,展示了根据形式对 memes 的分类,包括单图、重混图和稳定图等类型。这些分类的子项如标注静止图、消极图和宏图等显示了 memes 的多样性,帮助理解其功能与主题。
-
4.1.2. 功能 (Functions)
作为一种媒体和交流方式,模因具有高度的功能性。普遍认为,模因的默认功能是对某人或某事开玩笑。在此基础上,模因通常还具有其他功能,如说服、嘲讽或赞美。语言学家 Grundlingh (2018) 将言语行为理论 (speech act theory) 应用于模因,并基于其言外行为 (illocutionary acts) 提出了一个分类法(见附录 A)。例如,陈述、预测、刻板印象和争辩都是该分类法中的一些言外行为。
论文指出,检测“模因做了什么”对处理有害意图的 CMU 工作尤为重要,因此现有有害模因研究也发展了多种细粒度的功能分类法。
下图(原文 Figure 3)展示了模因的言外行为分类:
该图像是一个示意图,展示了交际性言辞行为的分类结构,包括常规性行为、指令性言辞、承诺性言辞和认可行为。每种行为下又细分了具体的类型,有助于理解不同类型的言辞行为及其功能。
4.1.3. 主题 (Topics)
模因还可以按主题组织,即它们所关注的语义主题。每个主题都需要独特的背景知识或推理能力。因此,模因的主题可能会决定理解模型选择。 模因的主题没有固定分类,因为互联网讨论的主题无限多。有些主题(如厌女症、反犹太主义)长期存在,而另一些则具有时效性,基于现实事件(如美国总统选举、COVID-19、俄乌冲突)。这类主题要求模型能及时更新其世界知识。
4.2. CMU 中的关键任务
论文将现有的 CMU 任务大致分为三类:
4.2.1. 分类 (Classification)
这是 CMU 工作中最大多数,专注于使用预定义类别对模因进行标记。
- 恶意模因检测: 识别攻击性 (offensive)、捣乱 (trolling)、仇恨 (hateful)、反犹太主义 (antisemitic)、有害 (harmful)、厌女症 (misogynous) 等恶意模因,这通常是二分类任务 (binary classification)。
- 其他方面预测: 预测模因的其他方面,例如:
- 使用的说服技巧 (persuasion techniques)。
- 目标 (targets)(如宗教、种族、性别、国籍、残疾)。
- 情感类型 (emotion type)(如讽刺、幽默、激励、攻击性)。
- 比喻语言类型 (types of figurative language)(如典故、反语/讽刺、对比)。
- 模因中人物的角色 (roles)(如英雄、反派、受害者)。
- 模因类型 (meme genres)。 这些通常是多分类问题 (multi-class classification problems)。
- 评估指标: 通常通过准确率 (accuracy)、F1-宏观分数 (F1-macro score) 和 ROC 曲线下面积 (Area Under the ROC Curve, ROC AUC) 进行评估。
4.2.2. 解释 (Interpretation)
这项相对较新的任务旨在生成文本来捕捉模因的最终含义,作者称之为最终信息 (final message)。
-
MemeCap (Hwang and Shwartz, 2023): 目前唯一为此任务创建的数据集,将模因解释任务称为模因字幕 (meme captioning)。目标是生成能概括模因深层含义的文本描述。
-
评估指标: 作为文本生成任务 (text generation task),可通过人工评估,或使用基于 n-gram 的指标如
BLEU、ROUGE、METEOR,以及基于语义的指标如BERTScore。下图(原文 Figure 2a,b)展示了
MemeCap数据集中的模因示例:
该图像是图表,展示了不同来源的示例表情包,包括(a)信号灯树(b)游戏预定(c)特朗普表情包(d)特朗普发言。这些表情包反映了现代社会中的幽默与讽刺。
4.2.3. 阐述 (Explanation)
该任务也涉及文本生成,但重点是生成针对模因所分配标签的文本解释。
-
Sharma (2023) 的任务: 给定有害模因、模因中的实体及其扮演的角色(英雄、反派、受害者),任务是解释该实体为何在模因中扮演该角色。
-
Hee et al. (2023) 的任务 (HatReD): 解释仇恨模因的原因。给定仇恨模因和一般目标(如“种族”),目标是:
- 识别一般目标中的具体目标群体(如“犹太人”、“黑人”)。
- 描述模因发布者如何表达对该特定目标群体的仇恨。 这涉及生成遵循“”模式的原因,其中 是“使用贬义词针对”或一个动词, 是受攻击的社会目标, 是仇恨含义。
-
与解释任务的区别: 阐述任务可被视为受约束的生成任务 (constrained generation tasks)。在 Sharma et al. 的任务中,目标和角色都是给定的;在 Hee et al. 的任务中,一般目标是给定的。而解释任务没有这些约束。
下图(原文 Figure 2c,d)展示了
SemEval-2021-T6和ExHVV数据集中的模因示例,用于分类和阐述:
该图像是图表,展示了不同来源的示例表情包,包括(a)信号灯树(b)游戏预定(c)特朗普表情包(d)特朗普发言。这些表情包反映了现代社会中的幽默与讽刺。
4.3. 模因理解的挑战
论文详细阐述了 CMU 的独特挑战:
4.3.1. 模因特定知识 (Meme-specific Knowledge)
除了获取物理世界和文化世界的知识外,CMU 系统还需要广泛理解模因文化 (meme culture)。Milner (2012) 指出,模因理解需要亚文化素养 (subcultural literacy),即各种互联网亚文化群体维护的“内部人知识”。系统需要自动访问这些知识。
- 形式的利用: 例如,
Macros类型模因要求理解基础模板如何与填充文本共同创造最终含义。Stack Images要求理解多个图像之间的关系(时间顺序、相互回应或预定义模板)。
4.3.2. 时间上下文 (Temporal Context)
模因的含义往往与其发布日期紧密相关。正确理解模因需要系统具备发布时期的正确上下文知识。
- “回溯”思考: 如果模型在模因发布日期之后的数据上训练,它必须“回溯思考”,即不使用发布日期之后的信息。
- 实时更新: 对于监控仇恨言论等实时系统,需要获取与当前互联网用户一样最新的知识。如果系统无法快速更新,可能会导致不良后果。
- 挑战: 在模因被模仿和快速传播时,如何维护发布日期、保持最新状态以及进行“回溯”思考,是一个重要挑战。
4.3.3. 解释的主观性 (Subjectivity in Interpretation)
模因解释任务的标注者被要求写下他们认为作者试图传达的信息,而非作者的真实意图,因为后者无法验证。因此,模因的解释本身就具有主观性,不同背景的读者可能对同一个模因有不同理解。
- 正确性定义: 尽管主观,但仍存在“正确性”的概念,例如标注者可能忽略了关键视觉线索或进行了不当假设。挑战在于设计能识别这类错误信息的注释机制。
- 多重解释: 一个模因可能有多种正确解释。模型需要能够输出最受欢迎的解释(即大多数人认为作者试图传达的信息)。
4.3.4. 模因解释的可解释模型 (Interpretable Models for Meme Interpretation)
对于面向大众的模因解释模型,用户有权质疑其输出的正确性。
- 解决方案:可解释性 (interpretability)。 如果模型能解释其输出信息的原因,用户可以检查解释以判断是否可信。
- 挑战: 模因解释的解释可能需要模仿人类的推理过程,即结合文本和视觉线索以及相关隐含信息(背景知识和信念)的多步骤推导过程。考虑到即使是生成简短解释,神经网络模型的可解释性仍是开放问题,设计能够输出如此详细解释的模型极具挑战性。
4.4. 模型概述
论文在综述过程中,对现有模型采取了概括性的描述,主要分为分类模型、解释模型和解释模型:
4.4.1. 分类模型 (Classification Models)
- 方法:
- 传统多模态: 系统首先提取模因的关键特征(文本、视觉实体属性),使用现成的工具(如 Google Cloud Vision API,
EasyOCR)或模型(如FairFace)。 - 嵌入: 将视觉和文本信息编码到嵌入空间,视觉编码器如
ResNet、VilBERT、ViT、CLIP、Perceptual Hashing、SURF;语言编码器如BERT、RoBERTa、T5、Llama 2。 - 对齐: 通过拼接或交叉注意力 (Cross-Attention) 技术对齐两种模态。
- 分类头: 最终将模因所有方面的向量表示输入到前馈神经网络 (Feedforward Neural Network) 等分类头中以生成标签。
- 文本化: 另一种方法是将多模态问题简化为文本分类任务,即先生成图像的文本描述,然后将图像描述、
OCR文本和其他特征作为模型输入。 - 视觉语言模型 (Vision-Language Models, VLMs): 近期表现强劲,通过融合语言模型和视觉编码器构建,并在微调后在模因分类中表现出色。包括专有模型(
Flamingo、PaLI、GPT-4)和开源模型(Llava、OpenFlamingo)。
- 传统多模态: 系统首先提取模因的关键特征(文本、视觉实体属性),使用现成的工具(如 Google Cloud Vision API,
- 性能: 模型性能差异较大。一些模型在
HatefulMemes(二分类)和WOAH5(多分类)上达到了 90% 以上的准确率。但某些基准(如SemEval-2021-T6)仍极具挑战,最佳模型在 22 个类别上仅达到 0.58 的F1分数。
4.4.2. 解释模型 (Explanation Models)
- 方法: 这些模型通过将分类头替换为语言解码器 (language decoder) 来生成文本,从而扩展了分类模型。例如,
LUMEN系统通过联合学习分类和解释任务来构建。 - 性能: 人工评估得分普遍较低。
HatReD数据集上的最佳系统在正确性方面得分低于 70%。Hee et al. (2023) 指出,不可靠的视觉信息提取器和模型中的幻觉 (hallucinations) 影响了性能,并建议未来工作应利用检索增强技术整合显式知识。
4.4.3. 解释模型 (Interpretation Models)
- 方法: 针对
MemeCap数据集,研究人员主要实验了最先进的开源VLM。 - 性能: 表现与解释任务类似,模型在推断模因正确含义方面仍有困难。Hwang and Shwartz (2023) 发现模型错误通常源于:
- 未能关注重要的视觉元素。
- 缺乏足够的背景知识。
4.5. 伦理考量
CMU 技术的发展伴随着潜在的滥用风险和负面社会影响。论文强调了两个主要的伦理考量:
4.5.1. 是否应让标注者接触色情和仇恨内容?
- 问题: 许多
CMU数据集的目标是检测恶意内容(如仇恨模因、有害模因),但标注者接触此类内容可能对其心理健康产生负面影响。 - 建议: 研究人员在进行模因标注时应实施年龄限制、进行适当的预标注筛选,确保标注者了解潜在危害。在众包情境下,若数据有害,应雇佣标注者而非众包,以便监测参与者的心理健康。
4.5.2. 是否应创建有害模因的数据集和模型?
- 问题: 尽管目标是识别仇恨模因或显示警告信息,但存在数据集和模型被滥用以生成仇恨信息或绕过仇恨检测模型(即对抗性攻击 (adversarial attacks))的风险。
- 建议: 此类数据和模型的公开发布应谨慎处理,最好在咨询社会科学研究人员后进行。对于数据集,可采用类似
Hateful Memes数据集(Kiela et al., 2020)的许可方式。对于模型,部署到实际世界前应严格进行红队测试 (red teaming)。
5. 实验设置
本节主要基于论文对现有 CMU 数据集和模型的综述,而非作者自己提出的实验。
5.1. 数据集
论文总结了 24 个常用的 CMU 数据集,并根据其创建任务类型(分类、解释、阐述)进行了分类。
5.1.1. 数据集概览
以下是原文 Table 1 的结果:
| Dataset and/or Publication | Task | Objective | # Memes | Lang. | Method | License |
|---|---|---|---|---|---|---|
| HatefulMemes (Kiela et al., 2020) | 2C | Hate | 10,000 | E | Synthesis | Custom |
| MUTE (Hossain et al., 2022b) | 2C | Hate | 4,158 | E+Be | Scrape | MIT |
| MMHS150K (Gomez et al., 2019) | 2C | Hate | 150,000 | E | Scrape | Custom |
| Sabat et al. (2019) | 2C | Hate | 5,020 | E | Scrape | CC0 |
| CrisisHateMM (Thapa et al., 2024) | NC | Hate & Target | 4,486 | E | Scrape | MIT |
| WOAH-5 (Mathias et al., 2021) | NC | Hate Type & Target | 10,000 | E | Inherit | Apache-2.0 |
| HarMeme (Pramanick et al., 2021a) | 2C, NC | Harm & Target | 3,544 | E | Scrape | BSD |
| HARM-C&P (Pramanick et al., 2021b) | 2C, NC | Harm & Target | 7,096 | E | Inherit | MIT |
| Giri et al. (2021) | NC | Offensiveness | 6,992 | E | Scrape | Unavailable |
| Shang et al. (2021b) | 2C | Offensiveness | 3,059 | E | Scrape | Unavailable |
| MultiOFF (Suryawanshi et al., 2020a) | 2C | Offensiveness | 743 | E | Scrape | None |
| TamilMemes (Suryawanshi et al., 2020b) | 2C | Trolling | 2,969 | T | Scrape | GNU-3.0 |
| BanglaAbuse (Das and Mukherjee, 2023) | 2C | Abuse | 4,043 | Be | Scrape | MIT |
| Jewtocracy (Chandra et al., 2021a) | 2C, NC | Antisemitism | 6,611 | E | Scrape | Unavailable |
| MAMI (Fersini et al., 2022) MIMOSA (Ahsan et al., 2024) | 2C, NC | Misogyny | 11,000 | E | Scrape | Apache-2.0 |
| NC | Agression Target | 4,848 | Be | Scrape | MIT | |
| Memotion (Sharma et al., 2020) | NC | Emotion | 10,000 | E | Scrape | MIT |
| FigMemes (Liu et al., 2022) | NC NC | Figurative Lang. | 5,141 | E | Scrape | None |
| HVVMemes (Sharma et al., 2022b) | NC | Role of Entities | 7,000 | E | Inherit | None |
| MemoSen (Hossain et al., 2022a) SemEval-2021-T6 (Dimitrov et al., 2021) | NC | Sentiment | 4,417 | Be | Scrape | Custom |
| Persuasion Tech. | 950 | E | Scrape | None | ||
| HatReD (Hee et al., 2023) | E | Hate | 3,304 | E | Inherit | Custom |
| ExHVV (Sharma et al., 2023) | E | Role of Entities | 4,680 | E | Inherit | CC0-1.0 |
| MemeCap (Hwang and Shwartz, 2023) | I | Meme Captioning | 6,387 | E | Scrape | GPL-3.0 |
关键观察:
- 分类任务: 绝大多数数据集(24个中的21个)用于分类任务。其中 16 个涉及检测或分类恶意模因(如仇恨、有害、攻击性等),其余 5 个涉及非恶意方面的分类(如情感、比喻语言类型、实体角色、说服技巧)。
- 解释任务:
MemeCap(Hwang and Shwartz, 2023) 是目前唯一为模因解释任务创建的数据集。 - 阐述任务:
HatReD和ExHVV是两个包含阐述真值标签的数据集,它们通过在现有分类数据集上添加新的标注层而创建。
5.1.2. 数据集样本示例
下图(原文 Figure 2)展示了不同来源的示例模因,帮助直观理解数据形态:
该图像是图表,展示了不同来源的示例表情包,包括(a)信号灯树(b)游戏预定(c)特朗普表情包(d)特朗普发言。这些表情包反映了现代社会中的幽默与讽刺。
- 图 2a,b (来自 MemeCap): 示例了模因解释任务的数据,例如图 2a 的模因被标注为“模因发布者传达的是,女性不明白为什么男性不懂她们过于复杂的信号”。
- 图 2c (来自 SemEval-2021-T6): 示例了分类任务,如检测说服技巧或仇恨言论。
- 图 2d (来自 ExHVV): 示例了阐述任务,例如针对“民主党”实体及其“受害者”角色,解释可能是“民主党被描绘成虚假指控的受害者”。
5.1.3. 现有数据集的问题讨论
论文指出了现有数据集的几点不足:
- 形式被忽视 (Forms Overlooked):
- 许多研究(如
HatefulMemes的创建和 Zhou et al. (2023) 的模因分析)仅考虑了Macros这一种模因形式。Kirk et al. (2021) 指出,在此类数据集上训练的模型在处理“野外”其他类型模因(如截图或纯文本)时会遇到困难。 - 对于其他通过抓取(
Scrape)方式构建的数据集,目前不清楚它们是否刻意控制了模因形式的多样性,因此尚不明确它们是否涵盖了所有模因类型。 - 然而,对于功能和主题维度,现有数据集的作者监控得较好。
- 许多研究(如
- 标注质量 (Annotation Quality):
- 分类数据集: 并非所有数据集都报告了标注者间一致性 (Inter-annotator agreement)。例如,
SemEval-2021-T6和Memotion未报告。MAMI报告的Kappa分数仅为 0.33,属于“公平”一致性,考虑到模因理解的主观性,这引发了对数据质量和模型性能期望的疑问。 - 解释数据集:
MemeCap虽然通过众包收集了多位标注者的意见以解决主观性挑战,但似乎未对标注进行审查。这使得数据质量存疑。 - 阐述数据集:
HatReD和ExHVV通过多轮标注者培训和多位人类评判者对解释的多个方面进行评分来控制质量。这种COLLECT-AND-JUDGE方法被认为是良好实践,但仍可能因评判者共享偏见而导致报告质量虚高。
- 分类数据集: 并非所有数据集都报告了标注者间一致性 (Inter-annotator agreement)。例如,
- 时间上下文 (Temporal Context):
- 论文指出,模因的时间上下文对理解至关重要,但现有数据集中没有一个记录了模因的发布时间戳。虽然有些数据集提供了收集模因的日期范围,但这只是第一步。
5.2. 评估指标
论文中提到了针对不同 CMU 任务的评估指标:
5.2.1. 分类任务的评估指标
-
准确率 (Accuracy)
- 概念定义: 准确率是最直观的分类模型评估指标,它衡量模型正确预测的样本数量占总样本数量的比例。
- 数学公式:
- 符号解释:
TP(True Positives): 真实为正且被预测为正的样本数。TN(True Negatives): 真实为负且被预测为负的样本数。FP(False Positives): 真实为负但被预测为正的样本数。FN(False Negatives): 真实为正但被预测为负的样本数。
-
F1-宏观分数 (F1-macro score)
- 概念定义:
F1-macro score是F1分数的宏观平均值,用于多分类问题。它首先计算每个类别的F1分数,然后对所有类别的F1分数进行算术平均。这使得每个类别在总分数中的权重相等,不受类别样本数量不平衡的影响。 - 数学公式: 对于 个类别,宏观平均 F1 分数:
- 符号解释:
- : 精确率,模型预测为正的样本中,真实为正的比例。
- : 召回率,所有真实为正的样本中,被模型预测为正的比例。
- : 第 个类别的
F1分数。 - : 类别的总数。
- 概念定义:
-
ROC 曲线下面积 (Area Under the ROC Curve, ROC AUC)
- 概念定义:
ROC AUC是衡量二分类模型性能的综合指标,尤其适用于评估模型在不同分类阈值下的表现。ROC曲线绘制了真阳性率 (True Positive Rate, TPR)(召回率)与假阳性率 (False Positive Rate, FPR) 之间的关系。AUC值越大,表示模型在区分正负类别方面的能力越强。 - 数学公式:
ROC AUC的计算通常不直接通过一个简单公式给出,而是通过计算ROC曲线下的面积。TPR和FPR的定义如下:AUC可以理解为随机选择一个正样本和一个负样本,模型将正样本排在负样本之前的概率。 - 符号解释:
TPR: 真阳性率,所有真实为正的样本中,被模型正确识别的比例。FPR: 假阳性率,所有真实为负的样本中,被模型错误识别为正的比例。
- 概念定义:
5.2.2. 解释和阐述任务的评估指标
-
人工评估 (Manual Evaluation)
- 概念定义: 由人类专家或标注者对模型生成的文本进行质量评估,通常从流畅性 (Fluency)、正确性 (Correctness)、一致性 (Consistency) 等方面进行打分。
- 数学公式: 无统一数学公式,通常是基于预设标准的主观评分或多项选择。
- 符号解释: 无。
-
BLEU (Bilingual Evaluation Understudy)
- 概念定义:
BLEU是一种衡量机器翻译质量的指标,通过比较机器翻译结果与人类参考翻译之间的n-gram重叠来计算。它的核心思想是,翻译结果越接近参考翻译,其质量就越高。 - 数学公式:
其中, 是修改后的
n-gram精度(clipped n-gram precision), 是简洁惩罚 (brevity penalty)。 (Brevity Penalty) 计算如下: - 符号解释:
- : 简洁惩罚,如果候选译文比参考译文短,则施加惩罚。
- :
n-gram的最大长度(通常为 4)。 - : 权重,通常为 。
- : 修正后的
n-gram精度,计算候选译文与参考译文共享的n-gram数量。 - :
n-gram在参考译文中的最大计数,如果候选译文中的计数超过此值,则截断为最大计数。 - :
n-gram在候选译文中的计数。 - : 候选译文的总词数。
- : 参考译文中最接近候选译文长度的参考译文总词数。
- 概念定义:
-
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
- 概念定义:
ROUGE主要用于评估文本摘要和机器翻译的质量,通过比较模型生成的文本与一组参考文本之间的n-gram、词序列或词对的重叠程度,侧重于召回率。ROUGE-L专门衡量最长公共子序列(Longest Common Subsequence,LCS)的匹配度。 - 数学公式 (ROUGE-L): 通常 ,则 。
- 符号解释:
LCS(X, Y): 候选文本 和参考文本 之间的最长公共子序列的长度。- : 候选文本 的长度(词数)。
- : 参考文本 的长度(词数)。
- : 基于
LCS的召回率。 - : 基于
LCS的精确率。 - : 基于
LCS的F1分数。 - : 一个权重因子,用于平衡精确率和召回率,通常设为 1。
- 概念定义:
-
METEOR (Metric for Evaluation of Translation with Explicit Ordering)
- 概念定义:
METEOR旨在解决BLEU的一些局限性,它通过精确匹配、词干匹配、同义词匹配和释义匹配来衡量机器翻译与参考翻译的一致性,并考虑了词序信息。 - 数学公式:
- 符号解释:
- : 惩罚项,基于分块(
chunk)的数量,惩罚不连贯的匹配。 - : 精确率 () 和召回率 () 的组合分数。
- : 基于匹配词语的精确率。
- : 基于匹配词语的召回率。
- : 匹配词语在候选译文中形成的连续块的数量。
- : 匹配的单词总数。
- : 惩罚项,基于分块(
- 概念定义:
-
BERTScore
- 概念定义:
BERTScore是一种基于预训练语言模型BERT的文本生成评估指标。它通过计算生成文本和参考文本中每个词语的BERT嵌入向量之间的余弦相似度来衡量语义相似性,克服了n-gram重叠指标无法捕捉语义信息的缺陷。 - 数学公式:
BERTScore的计算涉及到词嵌入的相似度,并结合了召回率、精确率和F1分数: - 符号解释:
- : 生成文本中的词语序列。
- : 参考文本中的词语序列。
- : 生成文本中的第 个词语。
- : 参考文本中的第 个词语。
- : 词语 的
BERT嵌入向量。 - : 向量 和 之间的余弦相似度。
- : 召回率,衡量参考文本中的词语在生成文本中被覆盖的程度。
- : 精确率,衡量生成文本中的词语在参考文本中出现的程度。
- :
BERTScore的F1分数,平衡精确率和召回率。
- 概念定义:
5.3. 对比基线
由于这是一篇综述论文,它本身不提出新的实验方法并与基线进行比较。相反,它回顾了其他研究中提出的模型,这些模型通常会与该领域内最先进的 (state-of-the-art) 或常用的 (commonly-used) 基线模型进行比较。论文中提到的模型类型(如 ResNet、BERT、CLIP、VLMs 等)可以被视为在各自任务中作为比较对象的基线或被比较的对象。
6. 实验结果与分析
本节总结了论文中对现有模型性能的讨论,以及从数据集中观察到的共同错误。
6.1. 核心结果分析
6.1.1. 分类模型 (Classification Models)
- 性能表现: 模型性能差异很大。
- 在一些任务上,例如
HatefulMemes(二分类)上的PaLIX-VPD(Hu et al., 2024) 和WOAH5(5 和 7 类)上的CLIP、LASER和LaBSE组合,模型已达到 90% 以上的准确率。 - 然而,另一些任务,如
SemEval-2021-T6(22 个类别),则非常具有挑战性,最佳模型仅达到 0.58 的F1分数。这表明在复杂的多分类任务中,模型仍有很大的改进空间。
- 在一些任务上,例如
- 常用方法: 大多数模因分类系统遵循相似的流程:
- 提取文本和视觉特征(使用
OCR、Google Cloud Vision API等)。 - 将多模态信息编码成嵌入(使用
ResNet、ViT、CLIP、BERT、Llama 2等)。 - 通过拼接或交叉注意力 (Cross-Attention) 对齐两种模态。
- 输入到分类头(如前馈神经网络 (Feedforward Neural Network))生成标签。
-
文本化简化: 有些方法通过先生成图像的文本描述,将多模态问题转化为文本分类。
-
视觉语言模型 (VLMs):
Flamingo、PaLI、GPT-4、Llava、OpenFlamingo等VLM在微调后表现出强大的分类能力。以下是原文 Table 2 的结果,展示了模因分类任务中的最先进模型:
Publication of state-of-the-art models Dataset Task Acc AUC F1 Hu et al. (2024) Hateful Memes (Kiela et al., 2020) B .90 .81 Zia et al. (2021) WOAH5 (Mathias et al., 2021) N T. .96 Mathias et al. (2021) N T. .97 .91 Zia et al. (2021) N A. Mathias et al. (2021) MAMI (Fersini et al., 2022) N A. .91 Cao et al. (2023) B .74 .84 Zhang and Wang (2022) B .83 Zhang and Wang (2022) HarMeme (Pramanick et al., 2021a) NT. .73 Cao et al. (2023) B .91 Pramanick et al. (2021a) NL. .76 .54 Pramanick et al. (2021a) HARM-C (Pramanick et al., 2021b) NT. .76 .66 Lin et al. (2024) B .87 .86 Pramanick et al. (2021b) NL. .77 .55 Pramanick et al. (2021b) HARM-P (Pramanick et al., 2021b) N T. .78 .70 Lin et al. (2024) B .91 .91 Pramanick et al. (2021b) Pramanick et al. (2021b) NL. .87 .79 .67 Jewtocracy (Chandra et al., 2021a) NT. .72 .69 Chandra et al. (2021b) Chandra et al. (2021b) B Tw B G. Chandra et al. (2021b) .91 Chandra et al. (2021b) N Tw .68 .67 MultiOFF (Suryawanshi et al., 2020a) N G. Lee et al. (2021) TamilMemes (Suryawanshi et al., 2020b) B .65 Suryawanshi et al. (2020b) Gomez et al. (2019) MMHS150K (Gomez et al., 2019) B .52 Sabat et al. (2019) Sabat et al. (2019) B .68 .73 .70 Giri et al. (2021) Giri et al. (2021) B B .83 Giri et al. (2021) .99 Shang et al. (2021a) Shang et al. (2021a) N BR. .73 Shang et al. (2021a) .70 .49 SemEval-2021-T6 (Dimitrov et al., 2021) BG. .55 Feng et al. (2021) N 3 N St. .58 Sharma et al. (2020) Sharma et al. (2020) Memotion (Sharma et al., 2020) N H. .52 Sharma et al. (2020) N Sm .32
- 提取文本和视觉特征(使用
6.1.2. 解释和阐述模型 (Explanation and Interpretation Models)
- 方法:
- 解释模型: 扩展分类模型,用语言解码器替换分类头来生成文本。
LUMEN(与ExHVV提出的系统)通过联合学习分类和解释任务构建。 - 解释模型: 针对
MemeCap数据集,主要实验了开源的视觉语言模型 (VLMs)。
- 解释模型: 扩展分类模型,用语言解码器替换分类头来生成文本。
- 性能表现:
-
解释模型: 人工评估得分普遍较低。
HatReD数据集上的最佳系统在正确性方面得分低于 70%。Hee et al. (2023) 指出,不可靠的视觉信息提取器和模型中的幻觉 (hallucinations) 导致了性能下降。 -
解释模型: 模型在推断模因的正确含义方面仍有困难。Hwang and Shwartz (2023) 发现模型错误主要源于:1) 未能关注重要的视觉元素;2) 缺乏足够的背景知识。
以下是原文 Table 3 的结果,展示了模因解释和阐述任务中的最先进模型:
Dataset Model Automatic Eval. Human Eval. BLEU ROUGE-L BERT Fluent Correct HatReD Text-only: RoBERTa-base 0.177 0.389 0.480 0.975 0.544 Text-only: : T5-Large 0.190 0.392 0.479 0.926 0.622 ExHVV LUMEN 0.313 0.294 0.902 MemeCap Open-Flamingo few-shot 0.267 0.435 0.739 0.933 0.361 0.270 0.435 0.743 Llama fewshot 0.266 0.434 0.747 0.967 0.361
-
6.1.3. 模因分类器中的常见错误 (Common Errors in Meme Classifiers)
- 上下文缺失: Chandra et al. (2021b) 指出,模型对模因上下文的缺乏理解导致分类错误。
- 数据偏差: Cao et al. (2023) 和 Pramanick et al. (2021a) 发现,训练数据中的偏差(例如,大多数包含穆斯林的图像被标记为仇恨)会导致模型对某些主题产生偏见,而不考虑实际内容。
- 复杂推理失败: 模型未能对文本进行复杂的推理(Chandra et al., 2021b)。
- 视觉信息关注失败: 模型未能关注重要的视觉信息(Pramanick et al., 2021b)。
6.2. 数据呈现 (表格)
本节已在 5.1.1. 数据集概览 和 6.1.1. 分类模型 和 6.1.2. 解释和阐述模型 中完整呈现了原文 Table 1、Table 2 和 Table 3。
7. 总结与思考
7.1. 结论总结
本综述全面回顾了计算模因理解 (CMU) 这一新兴领域,从模因的定义、分类法(形式、功能、主题)出发,详细介绍了其核心任务(分类、解释、阐述),并对现有数据集和模型进行了深入分析。论文不仅指出了 CMU 的巨大潜力和社会价值(如恶意内容检测、文化理解),也坦诚地揭示了该领域面临的独特挑战,包括模因特定知识的获取、时间上下文的捕捉、解释的主观性以及可解释模型的构建。尽管分类任务已取得一定进展,但解释和阐述等更深层次的理解任务仍面临显著挑战。最后,论文为未来的研究工作提出了多项富有启发性的建议。
7.2. 局限性与未来工作
论文作者指出了自身的局限性,即受限于篇幅,只提供了模型的高层次概述,未能深入探讨每个模型的具体优缺点。同时,论文也为未来的研究工作指明了以下方向:
- 更丰富的注释以构建更鲁棒的模型 (Richer Annotations for More Robust Models): 为了使
CMU模型(特别是模因解释模型)能够稳健部署,它们需要比现有模型更强大。这不仅包括可解释性,还需要能够根据受欢迎程度对合理信息进行排序。构建模仿人类推理过程的可解释模型极具挑战性。建议在学习初期采用有监督方法,并研究如何最好地表示这些推理过程以收集训练数据。 - 利用
VLM改进注释过程 (Improving Annotation Procedures with VLMs): 鉴于VLM在某些指标上已超越人类,它们有潜力减少CMU任务中的人工注释工作。例如,VLM可以生成初始草稿,再由人类标注者审查以确保无幻觉 (hallucinations)。但编辑文本可能比从头开始编写更耗时,因此需要进一步研究VLM的利弊。 - 更高层次的视觉推理 (Next Level of Visual Reasoning): 现有模型常忽视对模因含义至关重要的决定性视觉元素。例如,未能识别人物的关键人口统计信息会导致推理链条中断。模型需要学会关注“正确”的细节。建议构建包含人类理解模因推理过程文本解释的数据集,明确提及视觉细节,以训练模型引导视觉注意力。
- 主动知识获取 (Active Knowledge Acquisition): 实际部署的模型需要主动获取知识,因为模因的上下文变化迅速。
- 模因文化: 理解模因模板的含义。可以利用像
Know Your Meme这样的互联网模因数据库获取知识并定期更新模型。 - 主题特定背景知识: 例如,在嘲讽模因中,被嘲讽的目标可能通过模因中提到的一些特征间接暗示。如何获取这类隐含知识仍是开放问题,可探索在多模态情境中利用检索增强 (Retrieval Augmentation) 技术。
- 模因文化: 理解模因模板的含义。可以利用像
- 与语用学的连接 (Connection to Pragmatics): 模因的理解高度依赖上下文信息。语用学 (Pragmatics),包括对预设 (presuppositions)、指示语 (deixis) 的处理以及社会上下文接地 (social-context grounding),可以为识别高级特征以提高
CMU任务性能提供见解。例如,识别预设、指示语和结合社会上下文可以帮助系统更准确地理解模因的深层含义。 - 处理动画和视频模因 (Towards Processing Animated and Video Memes): 模因不仅存在于静态图像中,
GIF和短视频也更广泛传播。自动理解这些格式的模因内容将为在线交流研究提供巨大信息源。但GIF和短视频由大量帧组成,帧间关系复杂,对CMU提出了显著挑战。 - 模因生成 (Meme Generation): 模因生成是模因理解之外的重要下一步,原因有三:1) 可以衡量模型对模因工作原理的理解;2) 像幽默生成一样,在使计算机界面更幽默、友好和可信方面具有巨大应用潜力;3) 自动生成引人入胜的在线内容对数字营销等领域有巨大影响。
7.3. 个人启发与批判
这篇综述为我提供了对计算模因理解领域一个全面而深入的视角,尤其是在理解其独特挑战和未来潜力方面。
- 多模态理解的复杂性: 论文强调了模因理解并非简单地识别图片和文字,而是需要深层次的视觉与文本融合、背景知识、亚文化素养以及对语用学(如讽刺、反语)的把握。这再次印证了多模态人工智能的巨大潜力和复杂性,也提醒我们在设计模型时不能仅停留在表层特征提取。
- 知识获取的动态性与挑战: 模因的时间上下文 (Temporal Context) 和模因特定知识 (Meme-specific Knowledge) 是其独有的、最具挑战性的方面。互联网文化变化迅速,如何让模型具备“实时更新”并“回溯思考”的能力,以及如何有效地从如
Know Your Meme这类外部知识库中提取和整合知识,是未来研究的关键。这对于构建真正智能的、能适应变化的AI系统具有普遍意义。 - 伦理考量的必要性: 论文中对伦理考量的讨论非常及时和重要。在开发用于检测恶意内容的
AI系统时,必须关注标注者的心理健康,并警惕模型和数据集被滥用。这提示所有AI研究者,技术发展绝不能脱离其社会影响,负责任的AI(Responsible AI) 实践应贯穿研究与开发的整个生命周期。 - 从分类到生成和解释的演进: 领域从简单的分类任务向更复杂的解释和阐述任务发展,反映了
AI从“识别”到“理解”再到“解释”的自然演进。虽然生成式任务目前性能仍有待提高,但它们是衡量模型深层理解能力的关键。构建可解释的模型,尤其是能够模仿人类推理过程的解释,将是未来AI发展的重要方向,它不仅能提高用户信任,也能帮助我们更好地诊断和改进模型。 - 批判性思考:
- 统一评估框架的缺失: 尽管论文列举了各种评估指标,但对于解释和阐述这类高度主观的任务,缺乏一个统一且被广泛接受的、能充分衡量模型“理解”能力的评估框架。目前的
n-gram相似度指标(如BLEU、ROUGE)可能无法完全捕捉语义的微妙之处,而人工评估又面临成本和一致性问题。未来需要探索更有效的、结合人类感知的评估方法。 - 跨文化
CMU的挑战: 模因的文化依赖性极强,本综述主要关注英文模因。如何构建能够理解和处理不同语言、不同文化背景下模因的系统,将是更宏大的挑战,这可能需要更深入的跨文化语用学研究。 - 模型解释的实用性与深度: 论文中提到理想的解释应模仿人类推理过程,但实际应用中,用户对解释的深度和复杂程度可能有所不同。如何在解释的详细程度和可理解性之间取得平衡,是构建实用可解释
CMU模型的另一个重要课题。
- 统一评估框架的缺失: 尽管论文列举了各种评估指标,但对于解释和阐述这类高度主观的任务,缺乏一个统一且被广泛接受的、能充分衡量模型“理解”能力的评估框架。目前的
相似论文推荐
基于向量语义检索推荐的相关论文。