Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning
TL;DR 精炼摘要
本文提出了Face-LLaVA,一个多模态大语言模型,专注于人脸表情和属性的识别及推理,同时生成自然语言描述。通过开发FaceInstruct-1M数据库,结合人脸几何信息与视觉特征,Face-LLaVA在多个数据集上展示了优异表现,超越现有开源模型,并在零样本设定下优于GPT的推理评分。
摘要
The human face plays a central role in social communication, necessitating the use of performant computer vision tools for human-centered applications. We propose Face-LLaVA, a multimodal large language model for face-centered, in-context learning, including facial expression and attribute recognition. Additionally, Face-LLaVA is able to generate natural language descriptions that can be used for reasoning. Leveraging existing visual databases, we first developed FaceInstruct-1M, a face-centered database for instruction tuning MLLMs for face processing. We then developed a novel face-specific visual encoder powered by Face-Region Guided Cross-Attention that integrates face geometry with local visual features. We evaluated the proposed method across nine different datasets and five different face processing tasks, including facial expression recognition, action unit detection, facial attribute detection, age estimation and deepfake detection. Face-LLaVA achieves superior results compared to existing open-source MLLMs and competitive performance compared to commercial solutions. Our model output also receives a higher reasoning rating by GPT under a zero-shot setting across all the tasks. Both our dataset and model wil be released at https://face-llava.github.io to support future advancements in social AI and foundational vision-language research.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning (Face-LLaVA: 通过指令微调实现面部表情和属性理解)。
1.2. 作者
Ashutosh Chaubey、Xulang Guan、Mohammad Soleymani。他们均隶属于南加州大学创意技术学院 (Institute for Creative Technologies, University of Southern California),所在地点为美国加利福尼亚州洛杉矶。
1.3. 发表期刊/会议
预印本 (Preprint)。论文于 2025 年 4 月 9 日发布在 arXiv,目前尚未在正式期刊或会议上发表。
1.4. 发表年份
2025年。
1.5. 摘要
人类面部在社会交流中扮演着核心角色,因此高性能的计算机视觉工具对于以人为中心的应用程序至关重要。本文提出了 Face-LLaVA,一个用于以面部为中心的情境学习 (in-context learning) 的多模态大语言模型 (Multimodal Large Language Model, MLLM),包括面部表情和属性识别。此外,Face-LLaVA 能够生成可用于推理的自然语言描述。作者利用现有视觉数据库,首先开发了 FaceInstruct-1M,一个以面部为中心的数据库,用于指令微调 (instruction tuning) MLLM 进行面部处理。接着,开发了一种新颖的面部专用视觉编码器 (face-specific visual encoder),该编码器由面部区域引导的交叉注意力 (Face-Region Guided Cross-Attention) 驱动,集成了面部几何结构与局部视觉特征。该方法在九个不同数据集和五种不同面部处理任务(包括面部表情识别、动作单元 (Action Unit, AU) 检测、面部属性检测、年龄估计和深伪 (deepfake) 检测)上进行了评估。Face-LLaVA 在现有开源 MLLM 中取得了优越的结果,并与商业解决方案相比表现出具有竞争力的性能。在零样本 (zero-shot) 设置下,该模型的输出在所有任务中也获得了 GPT 更高的推理评分。数据集和模型都将发布,以支持未来在社交人工智能 (social AI) 和基础视觉-语言 (vision-language) 研究方面的进展。
1.6. 原文链接
原文链接:https://arxiv.org/abs/2504.07198v1 PDF 链接:https://arxiv.org/pdf/2504.07198v1.pdf 发布状态:预印本 (Preprint)。
2. 整体概括
2.1. 研究背景与动机
2.1.1. 论文试图解决的核心问题
该论文旨在解决现有面部分析方法在两个主要方面的局限性:
- 任务专用性 (Task Specificity) 和泛化能力不足: 大多数现有的面部分析方法是为特定任务(如表情识别或属性检测)开发的,这限制了它们的泛化能力 (generalizability),难以处理多任务场景。
- 缺乏自然语言描述和推理能力 (Lack of Natural Language Description and Reasoning): 现有模型主要输出分类标签或数值,而缺乏对预测结果提供自然语言描述的能力。在医疗保健和监控等关键应用中,能够用自然语言解释决策过程至关重要。
2.1.2. 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白?
- 社会交流的核心作用: 人类面部是社会交流的根本媒介,对面部分析的需求广泛存在于人机交互、社会行为评估、在线学习和监控等应用中。
- 现有通用模型局限: 尽管出现了处理多任务的通用面部模型,但它们仍缺乏自然语言接口,无法提供决策过程的洞察。
- 多模态大语言模型 (MLLM) 应用的挑战: 近期 MLLM (如 LLaVA) 的兴起为面部分析带来了新机遇,但现有方法通常:
- 任务特定: 关注于特定任务,且可能依赖背景信息或音频。
- 数据稀缺: 用于面部分析的指令微调数据集规模小、任务单一,且通常只关注图像或视频。
- 视觉编码器不足: 通用视觉编码器 (如 CLIP) 未能有效提取对面部细粒度分析至关重要的面部特定特征 (如面部标志)。
2.1.3. 这篇论文的切入点或创新思路是什么?
该论文的创新思路是开发一个通用的多模态大语言模型 Face-LLaVA,专门用于面部中心的情境学习,能够同时执行面部感知任务(如表情、AU、属性、年龄和深伪检测)并提供自然语言推理。其主要切入点包括:
- 构建大规模面部指令微调数据集
FaceInstruct-1M: 克服现有数据集规模小、任务单一的限制,创建包含图像和视频,涵盖五种面部分析任务的百万级数据集。 - 开发面部专用视觉编码器: 针对通用视觉编码器缺乏面部特定特征提取能力的问题,提出
Face-Region Landmark Projector (FRLP)和Face-Region Guided Cross-Attention (FRGCA)模块,将面部几何特征与局部视觉特征深度融合。 - 提供自然语言推理能力: 使模型不仅输出标签,还能生成可用于决策解释和下游推理的自然语言描述。
2.2. 核心贡献/主要发现
2.2.1. 论文最主要的贡献是什么?
该论文的核心贡献在于:
- 引入
FaceInstruct-1M数据集: 一个大规模面部分析数据集,包含超过一百万个指令微调样本,涵盖图像和视频,并涉及五项关键面部任务:表情识别、动作单元 (AU) 检测、属性检测、年龄估计和深伪检测。 - 提出
Face-LLaVA模型: 一个多模态大语言模型架构,通过Face-Region Landmark Projector (FRLP)和Face-Region Guided Cross-Attention (FRGCA)模块整合面部标志 (landmark) 特征,从而有效进行面部处理任务的指令微调。 - 全面的实验验证和优越性能: 通过在九个数据集上对五种面部分析任务进行广泛实验,证明了
Face-LLaVA在零样本 (zero-shot) 设置下优于现有开源 MLLM,并在传统基准和 GPT 辅助的生成响应评估中表现出卓越的性能。同时,该方法在所有任务上都达到了与监督式任务特定技术相当的性能。
2.2.2. 论文得出了哪些关键的结论或发现?这些发现解决了什么具体问题?
- FaceInstruct-1M 的有效性: 该数据集通过 GPT-4o 辅助的评估和过滤,确保了高质量的指令-描述对,有效弥补了大规模、多任务、面部中心指令微调数据的空白。
- Face-LLaVA 架构的优越性:
FRLP和FRGCA模块能够有效地将面部标志特征融入视觉表示,显著提升了模型在面部分析任务上的性能,尤其是在零样本设置下超越了现有 MLLM。 - 强大的推理能力:
Face-LLaVA能够生成高质量的自然语言描述和推理,其 GPT 评分在所有任务中均高于其他 MLLM 基线,解决了现有模型缺乏可解释性输出的问题。 - 多任务通用性:
Face-LLaVA在面部表情识别、AU 检测、属性检测、年龄估计和深伪检测等多种任务上均表现出色,验证了其作为通用面部分析模型的潜力,解决了现有方法任务专用性强、泛化能力弱的问题。 - 对社交 AI 的推动: 模型的发布将支持社交 AI 领域的发展,使其能够更好地理解和推理人类面部信息,从而开发更智能、更具社交能力的 AI 智能体 (agent)。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 多模态大语言模型 (Multimodal Large Language Models, MLLMs)
概念定义: 多模态大语言模型 (MLLMs) 是指能够处理和理解多种类型数据(如文本、图像、视频、音频)的深度学习模型,并在此基础上生成自然语言响应或执行其他任务。它们通常结合了视觉编码器 (visual encoder) 和大型语言模型 (Large Language Model, LLM) 的能力,使得模型可以“看到”和“理解”视觉内容,并用语言进行推理和交互。
在本文中的作用: Face-LLaVA 就是一个 MLLM,它结合了视觉信息(面部图像/视频)和语言指令,生成关于面部表情和属性的自然语言描述和推理。
3.1.2. 指令微调 (Instruction Tuning)
概念定义: 指令微调 (Instruction Tuning) 是一种训练大型语言模型的方法,通过在各种任务的指令-响应对上进行训练,使模型能够理解并遵循自然语言指令来执行任务。这些指令可以是“描述这张图片”、“回答这个问题”等。
在本文中的作用: Face-LLaVA 利用 FaceInstruct-1M 数据集进行指令微调,使其能够理解各种面部分析任务的指令,并生成相应的描述和推理。
3.1.3. 视觉编码器 (Vision Encoder)
概念定义: 视觉编码器 (Vision Encoder) 是深度学习模型的一部分,负责将图像或视频等视觉输入转换为机器可理解的数值表示(通常是高维向量或特征图),这些表示捕捉了视觉内容的关键信息。
在本文中的作用: Face-LLaVA 使用 LanguageBind 作为其基础视觉编码器,并在此基础上增加了面部专用的 Face-Region Landmark Projector 和 Face-Region Guided Cross-Attention 模块来增强面部特征的提取。
3.1.4. 面部标志 (Facial Landmarks)
概念定义: 面部标志 (Facial Landmarks) 是指人脸上的关键点,通常用于描述面部几何结构和表情。这些点包括眼睛角、眉毛、鼻子尖、嘴唇角等。通过检测这些标志点,可以量化面部形状和运动,对于细粒度 (fine-grained) 的面部分析至关重要。
在本文中的作用: Face-LLaVA 使用地标检测器作为“面部专家模型”,提取面部标志作为面部特定特征,并通过 FRLP 和 FRGCA 模块将其整合到模型的视觉表示中。
3.1.5. 交叉注意力 (Cross-Attention)
概念定义: 交叉注意力 (Cross-Attention) 是一种在深度学习(尤其是 Transformer 架构)中使用的注意力机制,它允许模型在处理一种模态(例如,文本查询)时,关注另一种模态(例如,图像键和值)中的相关部分。与自注意力 (self-attention) 不同,交叉注意力 的查询 (query)、键 (key) 和值 (value) 来自不同的源。
在本文中的作用: Face-LLaVA 引入了 Face-Region Guided Cross-Attention (FRGCA) 模块,使用面部标志词元 (landmark token) 作为键和值,视觉词元 (visual token) 作为查询,从而引导模型将注意力集中在面部区域相关的视觉特征上。
Transformer 架构中的 Attention 机制详解:
Attention 机制是 Transformer 架构的核心,它允许模型在处理序列数据时,动态地权衡输入序列中不同部分的重要性。其基本思想是计算查询(query)和键(key)之间的相似度,然后用这个相似度来加权值(value)。
数学公式如下:
符号解释:
-
(Query): 查询矩阵,代表当前要处理的元素。
-
(Key): 键矩阵,代表序列中所有元素的特征。
-
(Value): 值矩阵,代表序列中所有元素的实际信息。
-
: 键向量的维度,用于缩放点积结果,防止点积过大导致
softmax函数梯度过小。 -
: 查询和键的点积,表示查询与每个键的相似度。
-
: 归一化函数,将相似度转换为注意力权重,使其和为 1。
-
: 将注意力权重应用于值矩阵,得到加权后的输出。
在交叉注意力中, 来自一种模态(例如,语言词元),而 和 来自另一种模态(例如,视觉词元),从而实现不同模态间的信息融合。
3.1.6. 零样本 (Zero-shot) 设置
概念定义: 零样本 (Zero-shot) 设置是指模型在训练过程中从未见过某个特定任务或类别的数据,但在推理时仍然能够对该任务或类别进行预测。这要求模型具备强大的泛化能力和对未见概念的理解。
在本文中的作用: Face-LLaVA 在多个面部分析任务上评估了其在零样本设置下的性能,即在训练时从 FaceInstruct-1M 中移除特定任务的数据集,然后测试模型在该任务上的表现。这展示了模型的泛化能力。
3.1.7. 推理 (Reasoning) 评分
概念定义: 推理 (Reasoning) 评分是对模型生成响应的逻辑连贯性、与视觉内容的吻合度、与真实标签的一致性以及整体完整性的评估。它超越了传统的精确度指标,旨在衡量模型解释其决策和理解复杂情境的能力。
在本文中的作用: 论文使用 GPT-4o-mini 对 Face-LLaVA 和其他基线模型生成的自然语言描述进行推理评分,以量化其解释和理解面部分析结果的能力。
3.2. 前人工作
3.2.1. 传统面部分析 (Traditional Face Analysis)
- 任务特定模型: 早期研究主要集中于单个面部分析任务,如表情识别 [7, 64, 70, 75, 79, 80, 84, 85]、动作单元检测 [33, 43, 59, 65]、年龄估计 [2, 13, 62]、属性检测 [42, 45, 58] 和深伪检测 [1, 9, 52]。
- 向通用模型转变: 研究焦点逐渐转向开发通用面部分析模型 [48, 53, 54] 和学习鲁棒面部表示 [6, 60, 91]。
Faceptor[54] 基于FaRL[91] 和SWINFace[53],引入单编码器双解码器Transformer来处理多任务。MARLIN[6] 和PrefAce[19] 利用masked autoencoders (MAE)[16, 69] 在视频数据上进行自监督学习,学习鲁棒面部表示。PCL[41] 采用姿态解耦解码器 (pose-disentangled decoder) 进行对比学习 (contrastive learning),生成鲁棒的姿态和外观特征。
- Face-LLaVA 的差异:
Face-LLaVA在这些通用感知模型的基础上,进一步集成了对预测结果的推理能力,从而增强了可解释性和上下文感知能力。
3.2.2. 基于指令微调的面部分析 (Face Analysis using Instruction Tuning)
- MLLMs 在视觉任务中的应用:
多模态大语言模型 (MLLMs)[37, 39, 68, 81, 86] 通过利用大型语言模型 (LLM)的广泛知识,增强了对视觉输入(及其他模态)的推理和分析能力。 - 指令微调数据集的稀缺性:
MLLMs的应用需要大规模的指令微调数据集,包含视觉输入、指令和对应响应。然而,传统面部分析数据集 [22, 42, 46, 47, 56, 57] 通常只提供类别或数值标签。 - 现有情感相关指令数据集:
EMER[36]、MAFW[40]、EmoVIT[76]、MERR[8]:这些数据集存在用于通用情感识别的指令或描述,但主要依赖于背景上下文和音频,而非仅仅面部线索。FABA-Instruct[34]:一个面部专用数据集,但仅限于静态图像和情感行为分析,样本量较小,任务覆盖少。
- 现有面部相关 MLLMs:
EmoVIT[76]:使用指令微调增强大型视觉语言模型的情绪理解。Emotion-LLaMA[8]:使用MLLM接收音频、视频和文本输入,生成情感响应描述和推理。但这些方法通常是任务特定的,并涉及使用背景信息或音频进行预测。Foteinopoulou et al.[12]:研究现有LLMs的深伪检测和推理能力。FABA[34] 和VL-FAU[15]:尝试通过利用强大的视觉编码器和LLMs的推理能力来桥接面部分析的鸿沟,但它们的能力仅限于分析静态图像,专注于面部表情分析。AU-LLAVA[18]:利用LLM进行AU检测和强度估计,但输出仅限于类别或数值预测,缺乏推理。VL-FAU[15]:引入视觉-语言框架进行可解释的AU检测。EmoLA[34]:将地标先验词元与视觉嵌入集成,促进面部情感行为分析和推理。EMO-LLaMA[77]:采用面部信息挖掘模块增强面部特征编码,展示推理和对话能力。Face-MLLM[63]:利用Gemini自动标注Laion-Face[90] 数据集进行指令微调,但仅关注感知而非对模型预测的推理,并且高度依赖Gemini的面部分析能力。FaVChat[88]:利用现有面部视频数据集进行指令微调,但由于数据集中属性的类别不平衡(如CelebV-HQ[94] 中的情感),导致整体数据集不平衡。
- Face-LLaVA 的差异: 现有方法通常是任务特定、样本量小、依赖背景/音频信息、或缺乏全面推理能力。
Face-LLaVA提出了FaceInstruct-1M,一个大规模、多任务、面部专属的指令微调数据集,涵盖图像和视频,并构建了专门的架构来融合面部几何特征,最终提供通用的、可推理的面部分析能力,同时减少了背景信息可能导致的幻觉。
3.3. 技术演进
面部分析领域的技术演进经历了从传统机器学习方法到深度学习,再到结合多模态大语言模型 (MLLM) 的过程:
- 早期阶段 (传统方法): 依赖手工特征(如
HOG、SIFT)和传统分类器(如SVM、Adaboost)进行特定任务的面部分析。 - 深度学习崛起 (任务特定): 卷积神经网络 (CNN) 的出现极大地推动了面部分析的性能。大量研究集中于为特定任务(如表情识别、年龄估计)设计深度网络。
- 通用面部表示学习 (通用感知): 意识到任务专用模型的局限性,研究开始探索学习通用的面部表示,使其能用于多个下游任务。这包括自监督学习、多任务学习等方法,例如
Faceptor、MARLIN。这些模型通常仍输出标签或数值。 - 视觉-语言模型 (MLLMs 早期探索):
CLIP等模型的成功展示了视觉和语言之间对齐的潜力。随之,研究开始尝试将视觉编码器与LLMs结合,实现视觉问答、图像描述等任务。 - MLLMs 在面部分析中的应用 (初步阶段): 将
MLLMs应用于面部分析,如EmoVIT、Emotion-LLaMA、FABA,但这些方法仍面临数据集稀缺、任务专用、或依赖非面部信息(如音频、背景)的挑战,且在生成详细推理方面仍有不足。 - Face-LLaVA 所处阶段 (面部专用 MLLM):
Face-LLaVA代表了当前技术的一个重要进步,它:- 构建了大规模、面部专属、多任务的指令微调数据集
FaceInstruct-1M。 - 设计了面部专用的视觉编码器组件 (
FRLP和FRGCA),将面部几何信息深度融入MLLM。 - 实现了通用面部感知与自然语言推理的结合,能够为多种面部任务提供详细的、可解释的描述。
- 构建了大规模、面部专属、多任务的指令微调数据集
3.4. 差异化分析
| 特征/方法 | 传统任务特定模型 | 通用面部感知模型 | 现有 MLLM (如 Emotion-LLaMA、FABA) |
Face-LLaVA |
|---|---|---|---|---|
| 输出形式 | 标签/数值 | 标签/数值 | 标签/短描述 (常依赖背景/音频) | 自然语言描述与推理 (全面) |
| 任务覆盖 | 单一任务 | 多任务 (感知) | 有限多任务 (感知,常含背景) | 广泛多任务 (表情、AU、属性、年龄、深伪) |
| 输入模态 | 图像/视频 | 图像/视频 | 图像/视频 + 音频/背景 | 面部裁剪后的图像/视频 (专注面部) |
| 面部特征利用 | 任务特定特征 | 通用面部表示 | 依赖通用视觉编码器 | 集成面部标志 (Landmark) 几何与局部视觉特征 (FRLP, FRGCA) |
| 数据集 | 任务专用,标签化 | 多任务数据集 | 少量、任务特定、含背景/音频的指令数据 | FaceInstruct-1M (百万级、面部专属、多任务、图像/视频、指令微调数据) |
| 可解释性与推理能力 | 缺乏 | 缺乏 | 有限 | 强 (GPT 评估显示更高推理评分,能提供详细的决策依据) |
| 模型架构 | 任务特定 | 共享编码器 | 通用视觉编码器 + LLM | LanguageBind + 面部区域地标投影器 + 面部区域引导交叉注意力 + LLM |
| 效率与上下文窗口 | 高 | 较高 | 可能受限 | 高效利用 LLM 上下文窗口 (通过 FRGCA 整合地标,而非简单拼接) |
| 泛化能力 (Zero-shot) | 低 | 中 | 中 | 高 (在多种任务上显著优于现有 MLLM) |
Face-LLaVA 的核心创新在于,它在 MLLM 框架下,通过专门设计的数据集和架构组件,真正实现了以面部为中心的多任务感知与可解释的自然语言推理的结合,同时解决了现有 MLLM 在面部分析中对背景和音频的依赖、以及面部细粒度特征利用不足的问题。
4. 方法论
4.1. 方法原理
Face-LLaVA 的核心思想是构建一个 多模态大语言模型 (MLLM),使其能够专注于人脸区域,从面部图像和视频中提取细粒度特征,并结合指令来生成关于面部表情、属性等的自然语言描述和推理。为了实现这一目标,它在通用 MLLM 的基础上,引入了两个关键的创新模块:Face-Region Landmark Projector (FRLP) 和 Face-Region Guided Cross-Attention (FRGCA)。
其背后的理论基础是:
- 视觉-语言对齐: 通过指令微调,将视觉信息(特别是面部特征)与自然语言语义对齐,使
LLM能够理解视觉内容并生成相关的语言描述。 - 面部先验知识整合: 人脸分析任务对局部面部几何结构和肌肉运动非常敏感。通过将面部标志 (landmark) 作为专家特征引入模型,可以为
MLLM提供关键的、细粒度的面部先验知识。 - 注意力机制引导: 利用交叉注意力机制,并结合面部区域的几何信息(通过区域-补丁距离掩码),能够引导模型将注意力集中在视觉特征中最相关的面部区域,从而提高面部分析的准确性和鲁塞特性。
- 高效上下文利用: 通过
FRGCA模块,面部专家特征得以有效整合,而无需简单地将大量额外词元附加到LLM的输入序列中,从而节省了LLM的上下文窗口。
4.2. 核心方法详解 (逐层深入)
下图(原文 Figure 3)展示了 Face-LLaVA 的架构:

该图像是示意图,展示了Face-LLaVA模型中面部特征的处理流程,包括视频输入、补丁编码、面部标志检测器,以及面部区域引导的交叉注意机制。图中包括各个模块的功能,如视觉投影器和语言模型。整个架构实现了面部相关的信息处理与理解。
VLM 描述: 该图像是示意图,展示了Face-LLaVA模型中面部特征的处理流程,包括视频输入、补丁编码、面部标志检测器,以及面部区域引导的交叉注意机制。图中包括各个模块的功能,如视觉投影器和语言模型。整个架构实现了面部相关的信息处理与理解。
Face-LLaVA 架构主要包含以下几个核心组件:
4.2.1. 基础 MLLM 结构
Face-LLaVA 借鉴了现有 MLLMs (如 Video-LLaVA [37]) 的基本结构。它由以下部分组成:
-
补丁式视觉编码器 (Patch-based Vision Encoder, ): 用于编码输入的图像或视频。
-
词元分析器 (Tokenizer, ): 用于编码文本指令。
-
大型语言模型解码器 (Large Language Model Decoder, ): 根据指令生成响应。
-
联合视觉投影器 (Joint Vision Projector, ): 将视觉词元空间投影到语言词元空间。
给定视觉输入 ,我们首先通过视觉编码器 获得视觉特征,然后通过视觉投影器 将其映射到语言词元空间,得到视觉词元 。 符号解释:
-
: 原始视觉输入(图像或视频)。
-
: 补丁式视觉编码器,用于提取视觉特征。在
Face-LLaVA中,对于视频和图像,使用了LanguageBind[93] 视觉编码器。 -
: 联合视觉投影器,将视觉特征投影到与语言模型兼容的词元空间。 代表其可学习参数。
-
: 投影后的视觉词元。其维度为 ,其中 是视频帧数(图像为 1), 是从补丁式视觉编码器获得的视觉词元数量(对于
LanguageBind为 256), 是LLM隐藏表示的维度。
4.2.2. 面部专家模型 (Face-Expert Model)
由于通用视觉编码器(如 CLIP)未针对面部细粒度特征(如面部标志)进行优化,Face-LLaVA 引入了一个面部专家模型 。
-
面部标志检测器 (Landmark Detector):
Face-LLaVA使用地标检测器作为其面部专家模型,从视觉输入 中提取面部特定特征。论文提到也尝试过面部解析模型,但未带来额外收益且计算量更大。形式上,我们从视觉输入 中获取标准化 2D 面部标志坐标 : 符号解释:
-
: 面部专家模型,即地标检测器。在
Face-LLaVA中使用了FAN[5] 预训练模型。 -
: 提取到的标准化 2D 面部标志坐标。其维度为 ,其中 是视频帧数, 是每帧检测到的地标数量。
这些面部专家特征 随后被送入
Face-Region Landmark Projector (FRLP)和Face-Region Guided Cross-Attention (FRGCA)模块。
4.2.3. 面部区域地标投影器 (Face-Region Landmark Projector, FRLP)
为了将面部标志特征投影到词元空间,并保留区域信息,FRLP 模块将地标分组到不同的面部区域,并通过独立的 多层感知机 (MLPs) 将它们投影为独立的面部区域词元 (face-region tokens)。
FRLP 包含两个子模块:
-
局部地标投影器 (Local Landmark Projector, ): 该投影器将地标分组为 个面部区域(例如,面部边界、左右眼、左右眉毛、鼻子、鼻孔、嘴唇和牙齿共 9 组),然后为每个区域生成一个词元: 符号解释:
- : 对应于第 个面部区域的 个 2D 地标点。
- : 用于第 个面部区域的单层
MLP。 - : 局部面部区域词元集合。
-
全局地标投影器 (Global Landmark Projector, ): 与
EmoLA[34] 类似,为了捕捉整体面部结构和动态,FRLP也将所有 个地标投影为一个全局地标词元: 符号解释:-
: 原始的全部 个地标点。
-
: 用于全局地标的单层
MLP。 -
: 全局地标词元。
最终的地标词元 是局部区域词元和全局词元的组合: 符号解释:
-
- : 最终整合后的地标词元。在执行加法时,局部地标词元会广播到全局词元的维度上。
通过结合局部区域和全局地标词元,该方法确保了局部和整体面部特征都被有效建模。为了最小化计算开销,所有地标投影器都使用单层
MLP。
4.2.4. 面部区域引导交叉注意力 (Face-Region Guided Cross-Attention, FRGCA)
FRGCA 模块使用 FRLP 生成的地标词元 通过交叉注意力机制与视觉词元 进行交互。这种架构具有两个优点:
-
权重视觉词元: 交叉注意力能够对靠近显著面部区域的视觉词元赋予更高的权重,这些区域很可能被下游面部处理任务所使用。
-
节省上下文窗口: 与直接将地标词元附加到视觉词元作为
LLM输入不同,FRGCA通过交叉注意力整合信息,从而节省了LLM的上下文窗口。具体来说,我们首先从地标词元 生成键 和值 向量,并从视觉词元 生成查询 向量:
- (来自 )
- (来自 )
- (来自 ) (为简化,这里省略了时间维度 )。
为了进一步强化注意力权重对特定面部区域的关注,我们计算一个面部区域补丁邻近度 (Face-Region Patch Proximity, RPP) 掩码 。 该掩码与视觉补丁中心和不同面部区域中心之间的 2D 距离成反比。 数学上,掩码 的元素由下式给出: 符号解释:
-
:
RPP掩码的第 行第 列元素。 -
: 第 个面部区域的中心点。
-
: 与视觉词元 关联的第 个视觉补丁的中心点。
-
: L2 范数,表示欧几里得距离。
-
:
RPP掩码矩阵。RPP掩码在softmax层之前用于引导注意力权重。整个FRGCA模块 的输出 可以总结为: 符号解释: -
: 注意力机制的隐藏维度。
-
: 查询和键的点积。
-
: 面部区域补丁邻近度掩码,用于在
softmax之前调整注意力分数,引导模型关注面部相关区域。 -
: 值向量。
-
: 归一化函数,生成注意力权重。
-
: 线性层,对加权后的值进行转换。
-
: 残差连接,将原始视觉词元 加回到经过交叉注意力处理后的结果中,有助于信息流动和训练稳定性。
-
: 经过
FRGCA模块增强后的视觉词元,包含了面部地标信息。
4.2.5. 训练
Face-LLaVA 模型的训练分为多个阶段,以确保视觉和地标词元与语言词元对齐。
-
初始化:
- 视觉编码器 ()、视觉投影器 ()、词元分析器 () 和
LLM() 使用Video-LLaVA[37] 的预训练权重进行初始化。 - 地标检测 (
FAN[5]) 使用预训练权重。
- 视觉编码器 ()、视觉投影器 ()、词元分析器 () 和
-
面部区域预训练 (Face-Region Pretraining):
- 在此阶段,只训练
FRLP模块 和FRGCA模块 ,而其他所有权重保持冻结。 - 可训练参数为 。
- 目的: 确保新初始化的地标词元生成模块能够与视觉和语言词元对齐。
- 在此阶段,只训练
-
微调 (Finetuning):
- 在此阶段,以较低的学习率训练视觉投影器 和
LLM模型 ,同时继续训练 和 。 - 可训练参数为 。
- 目的: 联合微调整个模型,进一步提升模型的指令遵循能力。
- 注: 由于
FaceInstruct-1M拥有大量的训练样本,因此训练了LLM的所有参数 ,而非使用LoRA[17] 等参数高效微调方法。
- 在此阶段,以较低的学习率训练视觉投影器 和
损失函数: 在两个阶段,模型都以自回归方式训练,通过最大化响应 的似然来优化模型: 符号解释:
- : 模型生成的响应。
- : 经过
FRGCA增强后的视觉词元。 - : 文本指令经过词元分析器编码后的词元。
- : 响应 的长度。
- : 响应 的第 个词元。
- : 在生成第 个词元之前已经生成的响应词元序列。
- : 模型参数为 时的概率分布。
- 训练细节: 预训练和微调阶段的学习率分别为 1e-4 和 2e-5,所有模型训练一个
epoch。
5. 实验设置
5.1. 数据集
FaceInstruct-1M 数据集是从现有任务特定数据集中构建的,旨在为 MLLMs 提供面部中心 (face-centric) 的指令微调数据。
以下是用于构建 FaceInstruct-1M 的数据集及其在不同任务中的应用:
5.1.1. 数据预处理
为确保数据质量并专注于面部,进行了以下预处理:
-
面部裁剪: 对视频中的人脸进行裁剪,只保留包含单一个人脸的样本。
-
质量筛选: 使用
GPT-4o-mini[67] 辅助的评分管道,对 Gemini 生成的描述和原始标签进行准确性、一致性及整体质量评估。评分低于或等于 6 分的样本被移除(约占数据集的 7%)。 以下是原文 Table 11 展示的预处理后的数据统计。Dataset Task Initial Number of Samples After After DFEW [22] MAFW [40] FERV39k [72] Expression Expression Expression 11.7k 10k 39k Preproc. 6.7k 6.9k 30.7k GF. 6.2k 6.6k 28.8k Crema-D [24] AffectNet [47] RAF-DB [31] Expression Expression Expression 7.4k 287k 15k 7.4k 280k 6.8k 260k 14.8k DISFA [46] AU 131k 15k 130k 123k BP4D [83] AU 150k 146k 128k CelebA [42] Attributes 203k 201k 196k UTK Face [87] Age 24.1k 23.5k 22.8k MORPH II [56] Age 50k Deepfake 49.9k 49k FaceForensics++ [57] 30k 25.9k 24.7k Fake AV-Celeb [25] Deepfake 20k 19.5k 19.3k Real Faces* [22, 40, 72] Deepfake 60.7k 44.3k Total - 1.04M 987k 43.8k 930k
FaceInstruct-1M 的样本数量: 经过筛选后,FaceInstruct-1M 最终包含大约 93 万个样本(约 85 万张图像和 120 小时视频)。 以下是原文 Figure 2 展示的 FaceInstruct-1M 数据集样本:

该图像是示意图,展示了FaceInstruct-1M数据集中不同任务的样本。图中包含了与面部表情分析和面部属性识别相关的多种任务示例,分别解析了面部情感、动作单元、估计年龄和面部特征的变化。这些样本旨在阐明研究中使用的不同面部表达及其相关数据,体现了该项目在面部分析领域的应用和重要性。
VLM 描述: 该图像是示意图,展示了FaceInstruct-1M数据集中不同任务的样本。图中包含了与面部表情分析和面部属性识别相关的多种任务示例,分别解析了面部情感、动作单元、估计年龄和面部特征的变化。这些样本旨在阐明研究中使用的不同面部表达及其相关数据,体现了该项目在面部分析领域的应用和重要性。
5.1.2. 面部表情识别 (Facial Expression Recognition, FER)
- DFEW [22]: 一个用于识别野外动态面部表情的大规模数据库,包含 11.7k 个视频剪辑,在 FaceInstruct-1M 中贡献了 6.2k 样本。
- MAFW [40]: 一个大规模、多模态、复合情感数据库,用于野外动态面部表情识别,在 FaceInstruct-1M 中贡献了 6.6k 样本。
- FERV39k [72]: 一个大规模多场景数据集,包含 39k 视频样本,在 FaceInstruct-1M 中贡献了 28.8k 样本。
- Crema-D [24]: 包含 8 种情感类别,由 91 位演员表演的 7.4k 视频片段组成,在 FaceInstruct-1M 中贡献了 6.8k 样本。
- AffectNet [47]: 一个用于面部表情、效价和唤醒计算的数据库,包含 440k 图像,在 FaceInstruct-1M 中贡献了 260k 样本。
- RAF-DB [31]: 包含 30k 图像,由 4 个独立标注者标注 7 种面部表情类别,在 FaceInstruct-1M 中贡献了 14.8k 样本。
5.1.3. 动作单元 (Action Unit, AU) 检测
- DISFA [46]: 一个自发面部动作强度数据库,包含高分辨率视频,所有帧由人类 FACS 专家标注 AU 强度(0-5 级),在 FaceInstruct-1M 中贡献了 123k 样本。
- BP4D [83]: 包含由 41 位受试者表演的 3D 动态面部表情,标注了 12 个动作单元,并包含自动追踪的头部姿态和 2D/3D 面部标志,在 FaceInstruct-1M 中贡献了 128k 样本。
5.1.4. 面部属性检测 (Facial Attribute Detection)
- CelebA [42]: 一个大规模名人面部属性数据集,包含超过 20 万张名人图像和 40 种二值属性标注,在 FaceInstruct-1M 中贡献了 196k 样本。
5.1.5. 年龄估计 (Age Estimation)
- MORPH II [56]: 一个纵向图像数据库,包含 55134 张快照,标注了年龄、性别和种族类别,在 FaceInstruct-1M 中贡献了 49k 样本。
- UTKFace [87]: 一个大规模面部数据集,包含 0 到 116 岁的人脸,超过 2 万张图像标注了年龄、性别和种族,在 FaceInstruct-1M 中贡献了 22.8k 样本。
5.1.6. 深伪检测 (Deepfake Detection)
- FaceForensics++ [57]: 一个包含 1000 个原始视频序列的数据集,通过 4 种面部操作方法(Deepfakes, Face2Face, FaceSwap, NeuralTextures)进行操作,在 FaceInstruct-1M 中贡献了 24.7k 样本。
- Fake AV-Celeb [25]: 一个音频-视频多模态深伪数据集,包含约 20k 个操作视频,在 FaceInstruct-1M 中贡献了 19.3k 样本。
- Real Faces [22, 40, 72]:* 从 DFEW、MAFW 和 FERV39k 中提取的真实视频作为对照样本,在 FaceInstruct-1M 中贡献了 43.8k 样本。
小规模测试集:
论文还为 FaceInstruct-1M 构建了一个小规模测试集,每个任务包含 500 个样本,来自 DFEW [22]、DISFA [46]、CelebA [42]、UTKFace [87] 和 FaceForensics++ [57]。这些样本经过 GPT 评分并精炼,确保类别分布与原始数据集匹配,以便进行推理能力评估和人类评估。
5.2. 评估指标
论文评估了 Face-LLaVA 在感知任务和推理能力两方面的性能。
5.2.1. 感知任务评估指标
对于面部分析任务,模型输出的是自然语言,因此需要将描述中的信息提取为分类标签或数值。
- 提取方法:
-
同义词匹配 (Synonym Matching): 对于表情识别、属性检测和深伪检测,通过与预定义的同义词列表进行匹配来提取标签。 以下是原文 Table 19 展示的用于同义词匹配的关键词示例:
Expression Recognition Attribute Detection Deep-Fake Detection Happiness Sadness Neutral Anger … Attractive Chubby Rosy Cheeks Young Real Fake cheerful crying calm annoyed appealing plump blushed cheeks childish authentic fabricated content distress expressionless enraged beautiful puffy face flushed cheeks juvenile genuine forged joy melancholy unemotional incensed good looking soft cheeks pinkish cheeks teenager legitimate fraudulent smiling sob unmoving mad handsome round face red cheeks youthful original manipulated … … … … … … … … … … 为确保准确性,在匹配前会移除负面陈述。对于需要单一预测标签的任务,采用多数投票 (majority voting)。
-
字符串解析 (String Parsing): 对于 AU 检测和年龄估计,直接从生成的文本中提取数值。
-
- 任务特定指标:
- 面部表情识别 (Facial Expression Recognition, FER):
- UAR (Unweighted Average Recall, 未加权平均召回率):
- 概念定义: 衡量模型在每个类别上的召回率的平均值。它对所有类别一视同仁,不受类别样本数量不平衡的影响。在高类别不平衡的数据集中,UAR 比加权平均召回率 (WAR) 更能反映模型在少数类别上的性能。
- 数学公式:
- 符号解释:
- : 类别的总数。
- : 类别 的真阳性 (True Positives) 数量,即正确预测为类别 的样本数。
- : 类别 的假阴性 (False Negatives) 数量,即属于类别 但被错误预测为其他类别的样本数。
- WAR (Weighted Average Recall, 加权平均召回率) / Accuracy (准确率):
- 概念定义: 衡量模型在所有样本上的整体准确率。它可以看作是每个类别召回率根据其样本数量进行加权后的平均值。在类别分布均衡的情况下,WAR 与 UAR 接近。
- 数学公式:
- 符号解释:
- : 类别的总数。
- : 类别 的真阳性 (True Positives) 数量。
- : 类别 的假阴性 (False Negatives) 数量。
- 对于
RAF-DB[31] 数据集,仅报告整体准确率 (Accuracy)。
- UAR (Unweighted Average Recall, 未加权平均召回率):
- 动作单元 (AU) 检测:
- 平均 F1 分数 (Average F1 Score):
- 概念定义: F1 分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值。它在精确率和召回率之间取得了平衡,特别适用于类别不平衡的数据集。平均 F1 分数是所有类别的 F1 分数的平均值。
- 数学公式:
- 符号解释:
- : 真阳性 (True Positives) 数量。
- : 假阳性 (False Positives) 数量,即不属于该类别但被错误预测为该类别的样本数。
- : 假阴性 (False Negatives) 数量。
- : 类别的总数。
- : 类别 的 F1 分数。
- 平均 F1 分数 (Average F1 Score):
- 面部属性检测 (Facial Attribute Detection):
- mAcc (Mean Accuracy, 平均准确率):
- 概念定义: 衡量模型在所有属性类别上的平均准确率。对于多标签分类任务,它通常是每个属性的准确率的平均值。
- 数学公式:
- 符号解释:
- : 属性的总数量。
- : 第 个属性的准确率。
- mAcc (Mean Accuracy, 平均准确率):
- 年龄估计 (Age Estimation):
- MAE (Mean Absolute Error, 平均绝对误差):
- 概念定义: 衡量模型预测年龄与真实年龄之间的平均绝对差值。MAE 越小表示预测越准确。
- 数学公式:
- 符号解释:
- : 样本总数。
- : 第 个样本的真实年龄。
- : 第 个样本的预测年龄。
- MAE (Mean Absolute Error, 平均绝对误差):
- 深伪检测 (Deepfake Detection):
- Accuracy (准确率):
- 概念定义: 衡量模型正确分类深伪或真实视频的比例。
- 数学公式:
- 符号解释:
- : 真阳性 (True Positives),正确识别为深伪的深伪视频。
- : 真阴性 (True Negatives),正确识别为真实的真实视频。
- : 假阳性 (False Positives),错误识别为深伪的真实视频。
- : 假阴性 (False Negatives),错误识别为真实的深伪视频。
- Accuracy (准确率):
- 面部表情识别 (Facial Expression Recognition, FER):
5.2.2. 推理能力评估指标
论文使用 GPT-4o-mini [67] 对模型生成的自然语言描述进行推理能力评估,评估以下三个方面:
- 响应-视频一致性 (Consistency or overlap of the given reasoning with video): 评估生成推理与输入视频内容(尤其是面部特征)的吻合程度。
- 响应-真实标注一致性 (Consistency or overlap of the given reasoning with ground truth label): 评估生成推理与真实标注标签的逻辑一致性。
- 推理完整性 (Overall completeness of the reasoning to support the ground truth label w.r.t the video): 评估推理是否全面、充分地支持了基于视频内容的真实标注标签。 评分范围为 1-10 分。
5.3. 对比基线
5.3.1. 闭源模型 (Closed-source models)
- GPT-4o-mini [67]: OpenAI 最新模型,用于评估其在面部分析任务中的零样本性能和推理能力。
- Gemini-1.5F [66]: Google 的多模态模型,同样用于评估其零样本性能和推理能力。
5.3.2. 开源 MLLMs (Open-source MLLMs)
- VideoLLaMA 3 [81]: 最新的视频-语言模型。
- Qwen 2.5 [68]: 阿里巴巴开发的通义千问系列的多模态模型。
- Video-LLaVA [37]: 一个将 LLaVA 扩展到视频理解的模型。
- LLaVA-Vid. [86] / LLaVA-OV [28]: 核心的 LLaVA 架构及其变体。
- EmoLA [34]: 结合地标先验词元进行面部情感行为分析的 MLLM。
- Emotion LLaMA [8]: 结合音频、视频和文本进行情感识别和推理的 MLLM。
- EMO-LLaMA [77]: 增强面部情感理解的指令微调模型。
5.3.3. 监督式任务特定方法 (Supervised Task-specific Approaches)
对于每项任务,都与该领域的最先进 (state-of-the-art) 监督式方法进行了比较。例如:
- FER:
EC-STFL[22]、Former-DFER[89]、 [29]、M3DFEL[70]、MAE-DFER[64]、S2D[7]、Lei et al.[27]、PTH-Net[30]、RUL[84]、EAC[85]、TransFER[79]、Xue et al.[80]、POSTERv2[44]、MTL-ER*[82]、MT-Former*[78]、MTCAE-DFER[75]。 - AU 检测:
ATCM[21]、ReCoT[33]、KS[32]、ME-GraphAU[43]、JÅA-Net[59]、PIAP-DF[65]、VL-FAU[15]、AU-LLaVA[18]。 - 年龄估计:
PML[10]、Berg et al.[4]、DLDL-v2[14]、MWR[62]、Faceptor[54]。 - 属性检测:
Liu et al.[42]、MOON[58]、SwinFace[53]、Faceptor[54]、DMM-CNN[45]。 - 深伪检测:
MesoNet[1]、Xception[9]、MARLIN[6]、M2TR[71]、F3-Net[52]。
评估协议:
- 感知: 在零样本设置下,从
FaceInstruct-1M中移除整个任务特定数据集进行微调。在微调 (fine-tuned) 设置下,根据基准的官方划分或训练协议对零样本模型进行微调。 - 推理: 使用
GPT-4o-mini在FaceInstruct-1M测试集上进行推理评估。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 面部表情识别 (Facial Expression Recognition)
以下是原文 Table 3 展示的面部表情识别结果:
| DFEW [22] | Crema-D [24] | RAF-DB [31] | |||||||
| Method | UAR ↑ | WAR↑ | Method | UAR ↑ | WAR ↑ | Method | Acc. ↑ | ||
| Closed - source models | |||||||||
| GPT4o-mini [67] | 0.426 | 0.518 | GPT4o-mini [67] | 0.410 | 0.486 | GPT4o-mini [67] | 0.758 | ||
| Gemini-1.5F [66] | 0.433 | 0.481 | Gemini-1.5F [66] | 0.465 | 0.635 | Gemini-1.5F [66] | 0.685 | ||
| Zero-shot | |||||||||
| Vid.LLaMA 3 [81] | 0.286 | 0.305 | Vid.LLaMA 3 [81] | 0.397 | 0.546 | Vid.LLaMA 3 [81] | 0.671 | ||
| Qwen 2.5 [68] | 0.293 | 0.399 | Qwen 2.5 [68] | 0.395 | 0.566 | Qwen 2.5 [68] | 0.526 | ||
| Vid.-LLaVA [37] | 0.220 | 0.326 | Vid.-LLaVA [37] | 0.367 | 0.557 | Vid.-LLaVA [37] | 0.545 | ||
| LLaVA-Vid. [86] | 0.375 | 0.498 | LLaVA-Vid. [86] | 0.478 | 0.618 | LLaVA-OV [28] | 0.700 | ||
| EmoLA* [34] | 0.346 | 0.449 | EmoLA* [34] | 0.431 | 0.618 | EmoLA [34] | 0.741 | ||
| Emotion LLaMA† [8] | 0.456 | 0.594 | Emotion LLaMA [8] | 0.225 | 0.308 | ||||
| Emotion LLaMA‡ [8] Face-LLaVA (Ours) | 0.302 | 0.378 | |||||||
| 0.564 | 0.469 | Face-LLaVA (Ours) | 0.582 | 0.681 | Face-LLaVA (Ours) | 0.780 | |||
| Fine-tuned | |||||||||
| EC-STFL [22] | 0.454 | 0.565 | Lei et al. [27] | 0.645 | 0.648 | RUL [84] | 0.890 | ||
| Former-DFER [89] | 0.537 | 0.657 | PTH-Net [30] | 0.699 | 0.700 | EAC [85] | 0.909 | ||
| GCA+IAL [29] | 0.557 | 0.692 | MAE-DFER [64] | 0.773 | 0.774 | TransFER [79] | 0.909 | ||
| M3DFEL [70] | 0.561 | 0.693 | MTL-ER* [82] | 0.745 | 0.756 | Xue et al. [80] | 0.920 | ||
| MAE-DFER [64] | 0.634 | 0.744 | MT-Former* [78] | 0.793 | 0.807 | POSTERv2 [44] | 0.922 | ||
| S2D [7] | 0.618 | 0.760 | MTCAE-DFER [75] | 0.847 | 0.850 | EmoLA [34] | 0.921 | ||
| EMO-LLaMA [77] | 0.602 | 0.659 | |||||||
| Emotion-LLaMA [8] | 0.642 | 0.771 | |||||||
| Face-LLaVA (Ours) | 0.625 | 0.745 | Face-LLaVA (Ours) | 0.798 | 0.813 | Face-LLaVA (Ours) | 0.921 | ||
- 零样本设置 (Zero-shot):
Face-LLaVA在DFEW、Crema-D和RAF-DB上几乎所有基线模型。尤其在DFEW上,其UAR和WAR分别达到 0.469 和 0.564,显著高于大多数开源MLLMs。Emotion-LLaMA[8] 在DFEW上取得了更高的WAR,但它是一个多模态模型,使用了音频和背景上下文。当去除背景上下文后(Emotion LLaMA‡),其性能显著下降。这表明Face-LLaVA专注于面部信息的优势。 - 微调设置 (Fine-tuned):
Face-LLaVA在微调设置下也表现出竞争力,尽管它在DFEW和Crema-D数据集上缺乏背景和音频上下文。值得注意的是,Face-LLaVA在微调设置下仍然生成描述,而不是单一分类标签。
6.1.2. 动作单元 (AU) 检测
以下是原文 Table 4 展示的动作单元检测结果:
| Method | Average F1 ↑ DISFA [46] BP4D [83] | |
| Closed-source models | ||
| GPT4o-mini [67] | 0.429 | 0.496 |
| Gemini-1.5F [66] | 0.515 | 0.532 |
| Zero-shot | ||
| VideoLLaMA 3 [81] | 0.374 | 0.458 |
| Qwen 2.5 VL [68] | 0.431 | 0.467 |
| Video-LLaVA [37] | 0.442 | 0.445 |
| LLaVA-OneVision [28] | 0.280 | 0.439 |
| EmoLA [34] | 0.418 | 0.407 |
| Face-LLaVA (Ours) | 0.553 | 0.495 |
| Fine-tuned | ||
| ATCM [21] | 0.615 | 0.642 |
| ReCoT [33] | 0.626 | 0.648 |
| KS [32] | 0.628 | |
| ME-GraphAU [43] | 0.631 | 0.655 |
| JÅA-Net [59] | 0.635 | 0.624 |
| PIAP-DF [65] | 0.638 | 0.641 |
| VL-FAU [15] | 0.665 | 0.658 |
| AU-LLaVA [18] | 0.525 | 0.603 |
| EmoLA [34] | 0.651 | 0.642 |
| Face-LLaVA (Ours) | 0.729 | 0.658 |
Face-LLaVA在DISFA[46] 和BP4D[83] 数据集上的F1分数均超越了所有零样本和微调基线。在DISFA上,相对于先前的微调SOTA,实现了约 10% 的相对提升。- 与
Gemini-1.5 Flash[66] 相比,Face-LLaVA实现了约 7% 的性能提升,再次证明了其模型和训练集 (FaceInstruct-1M) 的有效性。
6.1.3. 年龄估计、属性检测和深伪检测
以下是原文 Table 5 展示的年龄估计、属性检测和深伪检测结果:
| Age Estimation (MAE ↓) | Face Attribute (mAcc. ↑) | DeepFake Det. (Acc. ↑) | ||||
| Method | M [56] U[87] | Method | CA [42] | Method | FF [57] | |
| Closed-source models | ||||||
| GPT4o-m [67] | 4.09 | 5.04 | GPT4o-m [67] | 0.780 | GPT4o-m [67] | 0.807 |
| Gem.-1.5F [66] | 4.78 | 6.13 | Gem.-1.5F [66] | 0.814 | Gem.-1.5F [66] | 0.770 |
| Zero-shot | ||||||
| V-LLaMA3 [81] | 6.98 | 6.91 | V-LLaMA3 [81] | 0.813 | V-LLaMA3 [81] | 0.793 |
| Qwen 2.5 [68] | 6.09 | 5.25 | Qwen 2.5 [68] | 0.786 | Qwen 2.5 [68] | 0.653 |
| V-LLaVA [37] | 6.75 | 5.89 | V-LLaVA [37] | 0.795 | V-LLaVA [37] | 0.697 |
| LLaVA-OV [28] | 6.33 | 6.87 | LLaVA-OV [28] | 0.805 | LLaVA-V [86] | 0.751 |
| Face-LLaVA | 3.34 | 4.89 | Face-LLaVA | 0.868 | Face-LLaVA | 0.845 |
| Fine-tuned | ||||||
| PML [10] | 2.15 | - | Liu et al. [42] | 0.873 | MesoNet [1] | 0.705 |
| Berg et al. [4] | - | 4.55 | MOON [58] | 0.909 | Xception [9] | 0.869 |
| DLDL-v2 [14] | 1.97 | 4.42 | SwinFace [53] | 0.913 | MARLIN [6] | 0.894 |
| MWR [62] | 2.00 | 4.37 | Faceptor [54] | 0.914 | M2TR [71] | 0.929 |
| Faceptor [54] | 1.96 | 4.10 | DMM-CNN [45] | 0.917 | F3-Net [52] | 0.930 |
| Face-LLaVA | 2.02 | 4.06 | Face-LLaVA | 0.901 | Face-LLaVA | 0.888 |
- 年龄估计 (Age Estimation):
Face-LLaVA在零样本设置下,在MORPH II[56] 和UTKFace[87] 上的MAE分数分别为 3.34 和 4.89,显著优于所有零样本基线。在微调设置下,其表现与基于回归的基线模型相比具有竞争力。 - 面部属性检测 (Facial Attribute Detection):
Face-LLaVA在CelebA[42] 上的零样本mAcc达到 0.868,超过所有基线模型。微调后,它也达到了有竞争力的性能。 - 深伪检测 (Deepfake Detection): 在 [57] 的低质量视频上,所有零样本
MLLM基线(包括GPT-4o-mini和Gemini-1.5 Flash)的准确率接近或低于基线随机准确率 80%。而Face-LLaVA在零样本设置下取得了显著更高的准确率 0.845。在微调设置下,虽然与SOTA模型仍有差距,这主要是因为SOTA模型通常使用更多的视频帧,而Face-LLaVA仅使用 8 帧。
6.2. 评估推理能力
以下是原文 Table 10 展示的推理能力评估结果。
| Method | Reason-Video Consistency | Reason-GT Consistency | Reasoning Completeness | |||||||||||||||
| Emo. | AU | Attr. | Age | DF. | All | Emo. | AU | Attr. | Age | DF. | All | Emo. | AU | Attr. | Age | DF. | All | |
| GT from FaceInstruct-1M | 9.47 | 8.52 | 9.80 | 9.27 | 8.85 | 9.18 | 9.70 | 8.84 | 9.88 | 9.55 | 9.56 | 9.51 | 9.21 | 8.26 | 9.75 | 9.02 | 8.41 | 8.93 |
| VideoLLaMA 3 [81] | 5.14 | 2.58 | 6.90 | 5.82 | 7.02 | 5.49 | 5.27 | 2.06 | 6.27 | 5.13 | 7.64 | 5.27 | 4.90 | 2.73 | 6.50 | 5.37 | 6.51 | 5.20 |
| Qwen 2.5 VL [68] | 5.82 | 3.02 | 5.48 | 7.36 | 5.48 | 5.43 | 5.96 | 2.54 | 4.86 | 7.02 | 5.76 | 5.23 | 5.57 | 3.34 | 5.21 | 6.89 | 5.30 | 5.26 |
| Video LLaVA [37] | 4.31 | 2.58 | 5.82 | 7.79 | 6.19 | 5.34 | 4.47 | 2.06 | 5.28 | 7.10 | 6.58 | 5.10 | 4.20 | 2.73 | 5.30 | 7.00 | 5.84 | 5.01 |
| LLaVA-OV [28] | 7.11 | 2.18 | 6.08 | 7.97 | 6.69 | 6.01 | 7.30 | 1.95 | 5.48 | 7.44 | 7.33 | 5.9 | 6.67 | 2.34 | 5.72 | 7.52 | 6.19 | 5.69 |
| EmoLA [34] | 7.33 | 5.17 | - | ' | - | 7.58 | 5.04 | - | - | - | - | 6.81 | 5.32 | - | - | - | - | |
| Emotion-LLaMA [8] | 6.77 | - | - | - | - | 6.90 | - | - | - | - | 6.50 | - | - | - | - | - | ||
| Face-LLaVA (Ours) | 7.95 | 6.90 | 8.34 7.68 8.56 7.89 | 8.14 | 6.68 | 8.13 | 7.53 9.20 7.94 | 7.79 | 6.62 | 7.89 | 7.59 8.11 7.60 | |||||||
Face-LLaVA在FaceInstruct-1M测试集上,其推理能力在GPT-4o-mini评估下显著优于其他MLLM基线。- 在推理完整性 (Reasoning Completeness) 方面,
Face-LLaVA的平均评分约为 7.60/10,比最好的基线高出约 33%。 - 在响应-视频一致性 (Response-Video Consistency) 和响应-真实标注一致性 (Response-GT Consistency) 方面,
Face-LLaVA的平均评分也更高,这突出了其出色的视觉-语言对齐能力和高准确性。 - 这表明
Face-LLaVA不仅能做出准确的预测,还能提供高质量、连贯且与视觉内容和真实标注高度一致的自然语言解释。
6.3. 消融实验/参数分析
以下是原文 Table 6 展示的消融实验结果:
| Model | Landmark Projector | Cross- Attention | Input tokens | DFEW [22] UAR WAR |
| Baseline | - | - | hv | 0.391 0.479 |
| Baseline + Landmarks | only global only local FRLP | - | hv + hglobal hv + hlocal | 0.402 0.483 0.409 0.491 |
| only global | - simple | hv + hl hlglobal | 0.410 0.491 0.401 0.483 | |
| only local | simple | hllocal | 0.409 0.494 | |
| FRLP | simple | hv | 0.416 0.512 | |
| only local FRLP | FRGCA FRGCA | hlocal hv | 0.412 0.511 0.520 | |
| Baseline + Face Parsing | - | simple | hp | 0.424 0.413 0.498 |
消融实验在 DFEW [22] 数据集上进行零样本性能评估,训练数据包括 MAFW [40]、FERV39k [40] 和 Crema-D [24]。
-
基线模型:
Video-LLaVA[37],仅使用视觉词元 作为输入。 -
地标词元作为额外输入: 简单地将地标词元(包括仅全局、仅局部或
FRLP组合)作为额外输入追加到视觉词元 中,确实能提升基线性能,但提升幅度有限。 -
交叉注意力 (
simple cross-attention): 即使是简单的交叉注意力机制,将地标词元与视觉词元进行交互,也能带来比直接追加更大的性能提升。 -
FRGCA的有效性:Face-Region Guided Cross-Attention (FRGCA)模块(通过区域-补丁邻近度掩码 引入掩蔽注意力)相比简单的交叉注意力带来了更大的性能增益。这表明将面部区域几何信息融入注意力机制是有效的。 -
地标 vs. 面部解析: 尝试使用面部解析热图(通过视觉编码器编码)替换地标词元进行交叉注意力。面部解析图显示出与
FRLP + FRGCA相当的性能,但代价是额外的计算和内存成本(面部解析词元与视觉词元大小相同)。这证实了使用地标的效率优势。结论: 消融实验清晰地表明,
FRLP和FRGCA模块的结合对Face-LLaVA的性能提升至关重要,特别是FRGCA中的区域引导交叉注意力机制,能够有效地将面部几何信息整合到视觉表示中,同时高效利用LLM的上下文窗口。
7. 总结与思考
7.1. 结论总结
该研究在面部分析领域取得了显著进展,通过引入 Face-LLaVA,一个用于多任务面部分析的多模态大语言模型,并结合了创新的数据集和模型架构。
-
大规模指令微调数据集: 构建了
FaceInstruct-1M,包含超过一百万个样本,涵盖图像和视频,用于面部表情识别、动作单元检测、属性检测、年龄估计和深伪检测五项核心面部任务。该数据集通过Gemini自动标注并由GPT-4o辅助筛选,确保了高质量的指令-描述对。 -
创新模型架构: 提出了
Face-LLaVA模型,其核心在于Face-Region Landmark Projector (FRLP)和Face-Region Guided Cross-Attention (FRGCA)模块。FRLP将面部标志投影到局部区域和全局词元,而FRGCA则通过引入区域-补丁邻近度掩码,引导交叉注意力机制将视觉特征聚焦于关键面部区域,从而增强了面部特征的表示能力并高效利用了LLM的上下文窗口。 -
卓越的性能:
Face-LLaVA在九个数据集上进行了广泛评估,结果表明其在零样本设置下显著优于现有开源MLLM,并在感知任务上达到了与任务特定监督方法相当的性能。 -
强大的推理能力:
GPT-4o辅助的评估证实了Face-LLaVA能够生成高质量、连贯且与视觉内容和真实标注高度一致的自然语言描述和推理,其推理评分远超其他基线模型。总而言之,
Face-LLaVA为面部分析领域提供了一个通用、可解释且高性能的解决方案,为社交人工智能和基础视觉-语言研究的未来发展奠定了基础。
7.2. 局限性与未来工作
7.2.1. 论文作者指出的局限性
- 单轮交互限制:
Face-LLaVA目前仅限于单轮交互 (single-turn interactions),缺乏高级的思维链 (chain-of-thought) 推理能力。 - 任务范围限制: 模型未探索面部识别 (face identification) 或密集预测 (dense prediction) 任务。
- 数据可能存在的偏差: 尽管数据集经过
GPT-4o过滤,但由于其来源于现有数据集,可能继承了原始数据中的某些偏差 (bias)。解决这些偏差是未来工作。
7.2.2. 作者提出的未来可能的研究方向
- 整合多轮对话能力: 通过集成多轮对话功能,使模型能够进行更复杂、更深入的交互和推理。
- 扩展到其他面部任务: 将模型能力扩展到面部识别、面部重建或更细粒度的面部属性分析等其他面部任务。
- 解决数据偏差: 深入研究并解决数据集可能存在的偏差问题,以提高模型的公平性和鲁棒性。
7.3. 个人启发与批判
7.3.1. 个人启发
- 细粒度特征整合的重要性:
Face-LLaVA通过引入面部标志 (landmark) 和区域引导交叉注意力,证明了在MLLM中整合领域特定细粒度特征的巨大潜力。这对于其他需要精细视觉感知的多模态任务(如医学影像分析、工业质检)具有启发意义,即通用MLLM需要与特定领域的“专家知识”深度融合。 - 数据质量和指令微调的协同作用:
FaceInstruct-1M的构建流程(利用现有标签辅助Gemini生成描述,再由GPT-4o过滤)提供了一种高效、高质量生成指令微调数据的范式。这对于缺乏大规模高质量指令数据的其他视觉-语言任务具有重要的参考价值。 - 可解释性与推理能力的价值: 模型能够生成详细的自然语言推理,这在医疗、安全等关键应用中是极其宝贵的。它从“黑箱”预测走向“白箱”解释,极大提升了
AI的可信赖度和实用性。这种对推理能力的强调,是未来AI发展的重要方向。 - 效率与上下文管理:
FRGCA模块在整合地标信息时,通过交叉注意力而非简单拼接,有效节省了LLM的上下文窗口,这对于处理长序列或多模态输入LLM的效率优化提供了有益的思路。
7.3.2. 批判性思考
-
对基础
LLM幻觉的依赖与缓解: 尽管论文通过GPT-4o对Gemini生成的数据进行了过滤,但Gemini本身可能存在幻觉 (hallucinations)。Face-LLaVA在推理过程中,其底层的LLM也可能产生幻觉。如何进一步量化和缓解LLM在面部分析推理中产生的错误或不准确信息,是一个持续的挑战。 -
计算资源消耗: 虽然
FRGCA节省了LLM的上下文窗口,但训练一个百万级样本的MLLM仍然需要巨大的计算资源(论文提到使用NVIDIA DGX节点与 8 块H100 GPU)。这限制了学术界和小型团队复现或进一步研究的能力。未来是否能探索更参数高效 (parameter-efficient) 的微调方法或更轻量级的架构? -
隐私和伦理问题: 面部分析技术固有的隐私 (privacy) 和潜在滥用 (misuse) 风险在论文中有所提及,但其声明更多是免责性质。作为资深且严谨的学术研究助理,应该考虑更积极的伦理防护措施,例如:模型输出是否可能被用于不当的身份识别?如何确保模型不会加剧社会中的偏见或歧视?这些是技术发展中不可回避的问题。
-
深伪检测的局限性: 论文承认在深伪检测任务上,
Face-LLaVA与SOTA模型的差距,部分原因在于其仅使用 8 帧视频。深伪检测通常需要更多时序信息来捕捉细微的伪造痕迹。未来可以探索如何更有效地处理长视频或多帧信息,以进一步提升该任务的性能。 -
单轮对话的推理深度: 尽管模型在单轮推理中表现出色,但人类的社会交流往往是多轮、动态变化的。缺乏思维链和多轮对话能力,可能限制模型在更复杂、情境化社交交互中的应用。例如,如何在对话中逐步推断面部表情的变化趋势,并提供连贯的解释?
总体而言,
Face-LLaVA在结合MLLM和面部分析方面迈出了坚实的一步,其创新的数据集和架构组件为未来的研究提供了宝贵的经验。然而,在计算效率、伦理考量和更深层次的交互能力方面,仍有广阔的探索空间。
相似论文推荐
基于向量语义检索推荐的相关论文。