论文状态：已完成

Cross-Modal Adaptive Dual Association for Text-to-Image Person Retrieval

发表：2023/12/04

文本到图像人物检索 (1)跨模态双向关联建模 (1)图文细粒度对应关系 (1)属性级跨模态关联 (1)视觉语言交互解码器 (1)

原文链接 PDF 下载

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文针对文本到图像人物检索中图文双向关联不对称问题，提出跨模态自适应双向关联（CADA）模型，设计基于解码器的自适应双向关联模块，实现文本词元与图像块及图像区域与文本属性的细粒度互联，显著提升检索性能。

摘要

Text-to-image person re-identification (ReID) aims to retrieve images of a person based on a given textual description. The key challenge is to learn the relations between detailed information from visual and textual modalities. Existing works focus on learning a latent space to narrow the modality gap and further build local correspondences between two modalities. However, these methods assume that image-to-text and text-to-image associations are modality-agnostic, resulting in suboptimal associations. In this work, we show the discrepancy between image-to-text association and text-to-image association and propose CADA: Cross-Modal Adaptive Dual Association that finely builds bidirectional image-text detailed associations. Our approach features a decoder-based adaptive dual association module that enables full interaction between visual and textual modalities, allowing for bidirectional and adaptive cross-modal correspondence associations. Specifically, the paper proposes a bidirectional association mechanism: Association of text Tokens to image Patches (ATP) and Association of image Regions to text Attributes (ARA). We adaptively model the ATP based on the fact that aggregating cross-modal features based on mistaken associations will lead to feature distortion. For modeling the ARA, since the attributes are typically the first distinguishing cues of a person, we propose to explore the attribute-level association by predicting the masked text phrase using the related image region. Finally, we learn the dual associations between texts and images, and the experimental results demonstrate the superiority of our dual formulation. Codes will be made publicly available.

思维导图

论文精读

中文精读约 32 分钟读完 · 18,987 字

1. 论文基本信息

1.1. 标题

跨模态自适应双向关联用于文本到图像的人物检索 (Cross-Modal Adaptive Dual Association for Text-to-Image Person Retrieval)

1.2. 作者

Dixuan Lin, Yixing Peng, Jingke Meng*, Wei-Shi Zheng

隶属机构: 中山大学计算机科学与工程学院 (School of Computer Science and Engineering, Sun Yat-sen University, Guangzhou, China)。

1.3. 发表期刊/会议

本文作为预印本 (preprint) 发布在 arXiv 上。

1.4. 发表年份

2023年。

1.5. 摘要

文本到图像的人物重识别 (ReID，Re-identification) 旨在根据给定的文本描述检索人物图像。其核心挑战在于学习视觉和文本模态中详细信息之间的关系。现有工作通常侧重于学习一个潜在空间来缩小模态鸿沟 (modality gap)，并进一步在两种模态之间建立局部对应关系。然而，这些方法假设图像到文本 (image-to-text) 和文本到图像 (text-to-image) 的关联是模态无关的 (modality-agnostic)，从而导致次优的关联。

本文揭示了图像到文本关联与文本到图像关联之间的差异，并提出了 CADA (Cross-Modal Adaptive Dual Association) 模型，该模型能够精细地构建双向的图像-文本详细关联。CADA 的核心是一个基于解码器 (decoder-based) 的自适应双向关联模块，该模块实现了视觉和文本模态之间的充分交互，从而支持双向和自适应的跨模态对应关联。具体来说，本文提出了两种双向关联机制：文本词元到图像块的关联 (Association of text Tokens to image Patches, ATP) 和图像区域到文本属性的关联 (Association of image Regions to text Attributes, ARA)。

对于 ATP，模型基于聚合基于错误关联的跨模态特征会导致特征扭曲这一事实，自适应地对其进行建模。对于 ARA，由于属性通常是区分人物的第一个线索，本文通过使用相关的图像区域预测被遮盖的文本短语，探索属性级别的关联。最终，模型学习了文本与图像之间的双向关联，实验结果证明了这种双向公式的优越性。代码将公开。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2312.01745v1
PDF 链接: https://arxiv.org/pdf/2312.01745v1.pdf
发布状态: 预印本 ( $v1$ 版本)。

2. 整体概括

2.1. 研究背景与动机

核心问题: 文本到图像的人物检索 (Text-to-image person ReID) 任务中，如何有效地学习视觉模态（图像）和文本模态（描述）之间细粒度的对应关系。
问题重要性: 文本描述是描述人物属性的自然且全面的方式，相较于图像更易获取。这使得文本到图像的人物检索在个人相册搜索、公共安全等多种应用中具有重要价值。
现有挑战与空白 (Gap):
1. 模态异构性 (Modality Heterogeneity): 视觉和语言固有的表示差异导致巨大的模态鸿沟 (modality gap)，难以直接进行比较和匹配。
2. 细粒度信息匹配困难: 早期方法多采用全局匹配 (global-matching)，倾向于关注最显著的特征，忽视了细粒度信息的匹配。而人物重识别任务对细节匹配 (fine-grained information matching) 有很高要求。
3. 单向关联的局限性: 现有方法在建立跨模态关联时，通常假设图像到文本的关联和文本到图像的关联是模态无关的 (modality-agnostic)，即单向地以某一模态作为锚点 (anchor) 进行学习。例如，图1展示了一个红夹克的图像块可以关联到文本中的“red”和“jacket”，而文本中的“red”同时可以关联到图像中的红鞋和红夹克。这种不对称性表明，从图像到文本的关联不一定意味着从文本到图像的关联，现有方法未能充分理解这种双向关联的复杂性。
论文切入点/创新思路: 针对现有方法忽视图像到文本和文本到图像关联之间差异的问题，本文提出 CADA (Cross-Modal Adaptive Dual Association) 框架，通过显式地建模双向且自适应的跨模态细粒度关联来弥补这一不足。

2.2. 核心贡献/主要发现

提出 CADA 框架: 提出了Cross-Modal Adaptive Dual Association (CADA) 方法，该方法能够双向关联视觉和文本模态，而现有方法往往将这两种非等价的关联视为同一种。这是对现有方法的关键改进，认识到双向关联的差异性。
引入 ATP 机制: 提出了文本词元到图像块的关联 (Association of text Tokens to image Patches, ATP) 机制。该机制允许信息从文本模态流向视觉模态，并能自适应地聚合与文本词元锚点相关的图像块，以解决聚合错误关联特征导致的特征扭曲问题。
提出 ARA 机制: 提出了图像区域到文本属性的关联 (Association of image Regions to text Attributes, ARA) 机制。该机制通过掩码属性建模 (Masked Attribute Modeling, MAM)，自适应地定位相关图像区域，以预测被掩码的文本短语，从而探索文本短语与图像块之间的关系。这有助于模型从视觉信息中学习属性级别的关联。
卓越的实验性能: 在 CUHK-PEDES、ICFG-PEDES 和 RSTPReid 三个公共数据集上，CADA 方法在 Rank-1 准确率和 mAP 等评估指标上显著优于现有最先进方法，尤其是在需要细粒度匹配的局部匹配推理协议下表现突出，验证了所提出的双向关联公式的有效性。

3. 预备知识与相关工作

3.1. 基础概念

文本到图像的人物重识别 (Text-to-image person re-identification, ReID): 这是一项计算机视觉任务，其目标是根据一段给定的自然语言文本描述，从一个大型图像库中检索出与该描述相符的人物图像。与基于图像的 ReID 相比，它需要处理视觉和文本两种不同模态之间的信息匹配。
模态鸿沟 (Modality Gap): 指的是不同数据模态（如图像和文本）之间在特征表示、语义结构和数据分布上的固有差异。这种差异使得直接比较和匹配来自不同模态的数据变得困难。
全局匹配 (Global Matching): 在跨模态检索中，全局匹配通常指将图像的整体特征与文本的整体特征在某个共享潜在空间中进行对齐。它关注的是两种模态的宏观语义一致性，但可能忽略细粒度的局部对应信息。
局部对应关系 (Local Correspondence): 指的是在两种模态（如图像和文本）之间建立更细致的匹配，例如图像中的某个区域（如“红色夹克”）与文本描述中的某个词或短语（如“红色”、“夹克”）之间的语义关联。这对于需要细粒度理解的任务（如人物检索）至关重要。
交叉注意力 (Cross-attention): Transformer 架构中的一种注意力机制，用于让一个模态的序列（查询 Query）去关注另一个模态的序列（键 Key 和值 Value）。例如，文本词元可以通过交叉注意力机制来查询相关的图像区域，从而捕获跨模态的依赖关系。
编码器-解码器架构 (Encoder-Decoder Architecture): 一种常见的神经网络结构，通常由两部分组成：
- 编码器 (Encoder): 负责将输入数据（如图像或文本）转换为高维的、语义丰富的隐藏表示。
- 解码器 (Decoder): 负责接收编码器的输出，并基于该隐藏表示生成目标输出（如文本描述、另一模态的特征或匹配分数）。
Transformer: 一种由 Attention 机制（特别是自注意力 Self-attention）构成的深度学习模型架构，最初用于自然语言处理，后来被广泛应用于计算机视觉等领域，因其能够有效捕捉序列数据中的长距离依赖关系而闻名。其核心 Self-attention 机制的计算公式如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
- $Q$ (Query): 查询矩阵，由输入序列的每个元素生成。
- $K$ (Key): 键矩阵，由输入序列的每个元素生成。
- $V$ (Value): 值矩阵，由输入序列的每个元素生成。
- $d_k$ : 键向量的维度，用于缩放点积以防止梯度过小。
- softmax: 归一化指数函数，将注意力分数转换为概率分布。
- $QK^T$ : 查询和键的点积，表示查询对键的匹配程度。
ViT (Vision Transformer): 是一种将 Transformer 架构应用于图像识别任务的模型。它将图像分割成固定大小的图像块 (image patches)，然后将这些图像块（像词元一样）输入到 Transformer 编码器中进行处理。
BERT (Bidirectional Encoder Representations from Transformers): 一种基于 Transformer 编码器预训练的自然语言处理模型，通过学习上下文相关的词表示来理解语言。它擅长处理各种 NLP 任务，通过掩码语言建模 (Masked Language Modeling) 和下一句预测 (Next Sentence Prediction) 等任务进行预训练。
CLIP (Contrastive Language-Image Pre-training): 由 OpenAI 提出的一个大型预训练模型，通过对比学习的方式在大规模图像-文本对数据集上进行训练，学习图像和文本在共享潜在空间中的对齐表示。它能够执行零样本 (zero-shot) 图像分类和文本到图像检索等任务。
掩码语言建模 (Masked Language Modeling, MLM): BERT 等预训练模型中使用的一种训练任务。在输入文本中随机掩盖（替换为特殊标记 [MASK]）一部分词元，然后模型被训练来预测这些被掩盖的词元的原始身份。这有助于模型学习词元之间的上下文关系。
KL 散度 (Kullback-Leibler Divergence): 衡量两个概率分布之间差异的度量。 $KL(P || Q)$ 表示用分布 $Q$ 来近似分布 $P$ 时所损失的信息量。 $KL(P || Q) = \sum_{x \in X} P(x) \log \left(\frac{P(x)}{Q(x)}\right)$
- P(x): 真实分布的概率。
- Q(x): 近似分布的概率。
- $\sum_{x \in X}$ : 遍历所有可能的事件 $x$ 。 KL 散度是非对称的，即 $KL(P || Q) \neq KL(Q || P)$ 。

3.2. 前人工作与技术演进

文本到图像的人物检索领域的技术演进大致可分为以下几个阶段：

早期方法：全局匹配 (Global Matching):
- 特点: 主要关注将图像和文本的整体特征映射到一个共享的潜在空间中，通过比较全局表示来判断匹配程度。
- 代表工作: CUHK-PEDES 数据集 [1] 的提出开启了该领域。CMPM/CMPC [8] 提出跨模态投影匹配损失来对齐全局表示。Dual Path [9] 也属于此列。IVT [20] 引入双向掩码建模模块以使全局特征包含多级信息。
- 局限性: 效率高，但由于只对齐全局表示，容易忽略人物描述中丰富的细粒度细节信息，导致性能不佳。
中期发展：局部对应 (Local Correspondence):
- 特点: 认识到细粒度信息的重要性，开始探索图像局部区域与文本词元之间的对应关系。
- 代表工作: 部分工作关注显著性图像块与词元的匹配 [1, 26, 27, 28]，例如利用注意力机制 [21] 捕获身体部位关系。也有工作放弃外部标注（如分割、关键点），转向隐式对齐，如 AXM [29] 使用多尺度卷积层，TIPCB [30] 使用不同残差块捕捉多尺度语义信息。CAIBC [31] 分别对齐颜色相关和颜色无关特征。
- 局限性: 虽有改进，但对于复杂且依赖于锚点的细致对应关系，现有方法仍不令人满意，往往未能充分考虑双向关联的差异性。
近期趋势：视觉-语言预训练 (Vision-Language Pre-training, VLP) 的引入:
- 特点: 借鉴 CLIP [14] 等大规模 VLP 模型的成功经验，将预训练知识迁移到文本到图像的人物检索任务中，以增强特征提取和跨模态对齐能力。
- 代表工作: CFine [17] 采用 Vision Transformer 和 BERT 作为骨干网络。IRRA [15] 提出了 CLIP 驱动的框架，并在微调阶段利用其知识。
- 本文的定位: 本文也受到 VLP 模型成功的启发，利用其知识来增强全局对齐和局部交互，但更进一步地解决了现有 VLP 模型在处理细粒度双向关联时的不足。

3.3. 差异化分析

本文提出的 CADA 方法与现有工作的主要区别和创新点在于：

显式建模双向关联: 现有方法通常假设图像到文本的关联和文本到图像的关联是模态无关的 (modality-agnostic)，或者只采用单向锚点进行学习。这意味着它们未能捕捉到这两种关联的本质差异（如图1所示，同一图像区域可能与多个文本词元关联，而同一文本词元可能与多个图像区域关联）。CADA 明确指出并解决了这一问题，通过双向 (bidirectional) 且自适应 (adaptive) 的方式精细地构建这两种关联。
创新的解码器设计: CADA 引入了一个基于解码器 (decoder-based) 的自适应双向关联模块，该模块能够实现视觉和文本模态之间的充分交互。这个解码器通过参数共享的方式高效地学习，并专门设计了 ATP 和 ARA 两个子模块来处理不同方向的细粒度关联。
ATP (文本词元到图像块的关联): 针对文本到图像方向，ATP 模块通过约束聚合特征的匹配来学习文本词元如何正确地聚合相关的图像块。它解决了因错误关联导致的特征扭曲问题。
ARA (图像区域到文本属性的关联): 针对图像到文本方向，ARA 模块通过 Masked Attribute Modeling (MAM) 技术，让模型通过图像区域来预测被掩码的文本属性短语。这是一种新颖的方式，使得模型能够从图像中学习属性级别的语义，而非简单地随机掩码词元，更符合人物检索任务的特点。

总结来说，CADA 的核心创新在于其对双向细粒度跨模态关联差异性的深刻理解和有效建模，通过专门设计的 ATP 和 ARA 模块，在 encoder-decoder 框架下实现了更精确、更自适应的图像-文本匹配。

4. 方法论

4.1. 方法原理

本文提出的 CADA (Cross-modal Adaptive Dual Association) 模型旨在解决文本到图像人物检索中双向跨模态关联的复杂性问题。其核心思想在于：

认识双向关联的差异性: 明确指出图像到文本的关联（例如：图像中的红夹克对应文本中的“红色”和“夹克”）与文本到图像的关联（例如：文本中的“红色”对应图像中的红夹克和红鞋）是不对称且模态依赖的。传统方法往往忽视这种差异，导致次优的匹配。
分层处理: 采用一个分层的处理机制。首先，使用编码器 (encoder) 建立全局级别的粗略关联，缩小模态鸿沟。其次，引入一个基于解码器 (decoder-based) 的模块，专门处理局部级别的细粒度双向关联。
自适应交互: 解码器模块通过设计特定的任务 (ATP 和 ARA)，使得视觉和文本模态能够充分、自适应地进行交互，从而捕捉更精确的细粒度对应关系。
- ATP (Association of text Tokens to image Patches): 关注从文本词元到图像块的信息流动，确保文本词元能正确聚合相关图像特征。
- ARA (Association of image Regions to text Attributes): 关注从图像区域到文本属性的信息流动，通过图像来预测文本描述中的关键属性。
  
  通过这种方式，CADA 旨在构建一个更全面、更精确的跨模态理解模型，从而在人物检索任务中取得更好的性能。

4.2. 核心方法详解

CADA 框架基于流行的编码器-解码器网络架构。编码器用于从不同模态的数据中提取高级语义信息，而解码器则实现详细的双向跨模态交互，这是有效跨模态 ReID 的核心。

4.2.1. 编码器：基于编码器的全局关联 (Encoder-based Global Association)

编码器阶段主要负责从图像和文本中提取高层特征，并进行初步的全局对齐。

4.2.1.1. 图像编码器 (Image Encoder)

本文使用一个预训练的 ViT-B/16 (Vision Transformer Base/16) 作为图像编码器。对于给定图像 $\bar { I } \in \mathbb { R } ^ { H \times W \times C }$ ：

H, W, C 分别表示图像的高度、宽度和通道数。
图像被分割成 $N = H \times W / P^2$ 个图像块 (patches)，其中 $P$ 是一个图像块的边长。
一个可学习的 [CLS]_v 标记 (token) 被附加到图像块序列的开头，用作图像的全局视觉表示。
可学习的位置嵌入 (position embeddings) 被添加，以融入空间信息。
处理后的图像块序列被送入视觉 Transformer。
图像编码器的输出表示为 $\{ v _ { c l s } , v _ { 1 } , . . . , v _ { N } \}$ ，其中 v _ { c l s } 是 [CLS]_v 标记的 $d_v$ 维嵌入，代表全局图像特征。

4.2.1.2. 文本编码器 (Text Encoder)

本文使用一个12层的 BERT (Bidirectional Encoder Representations from Transformers) 作为文本编码器。对于给定文本 $T$ ：

文本中的每个词被映射到其词嵌入 (word embedding)。
特殊标记 [CLS]_t 用于表示整个句子，[PAD] 用于填充嵌入到固定长度。
词嵌入序列与位置嵌入聚合后被送入文本编码器。
文本编码器输出文本表示 $\{ t _ { c l s } , t _ { 1 } , . . . , t _ { M } \}$ ，其中 $M$ 是句子长度，t _ { c l s } 是 [CLS]_t 标记的 $d_t$ 维嵌入，代表全局文本特征。

4.2.1.3. 全局关联 (Global Association)

全局关联通过在共享潜在空间中对齐图像和文本的全局特征来学习。本文提出了归一化分布拟合损失 (Normalized Distribution Fitting, NDF) 来替代常用的 CMPM 损失，因为它使用余弦相似度而非投影长度，并结合 KL 散度加速分布拟合。

相似度函数: 给定图像 $I$ 和文本 $T$ ，首先通过可学习的线性变换 $W _ { v } \in \mathbb { R } ^ { d \times d _ { v } }$ 和 $W _ { t } \in \mathbb { R } ^ { d \times d _ { t } }$ 将全局表示 v _ { c l s } 和 t _ { c l s } 投影到共享潜在空间得到 $\widetilde { v } = W _ { v } v _ { c l s }$ 和 $\tilde { t } = W _ { t } t _ { c l s }$ 。然后，定义相似度函数为余弦相似度： $s i m ( I , T ) = \tilde { v } ^ { \top } \tilde { t } / | \tilde { v } | | \tilde { t } |$

图像到文本匹配概率: 在一个包含 $N_z$ 个图像-文本对的 mini-batch 中，图像 $I$ 到文本 $T$ 的图像到文本匹配概率 $p ^ { i2t }$ 计算如下： $p ^ { i2t } = \frac { \exp ( s i m ( I , T ) / \tau ) } { \sum _ { k = 1 } ^ { N_z } \exp ( s i m ( I , T _ { k } ) / \tau ) }$

$\tau$ : 温度参数 (temperature parameter)，用于控制概率分布的尖锐度。
$N_z$ : mini-batch 中的图像（或文本）数量。

图像到文本对比损失: 假设存在一个真实匹配的 one-hot 标签分布 $q ^ { i2t } \in \mathbb { R } ^ { N_z }$ (即对于正样本对为1，负样本对为0)，图像到文本对比损失 L _ { i2t } ( I ) 结合了前向 KL 散度 (Forward KL divergence) 和后向 KL 散度 (Backward KL divergence)： $L _ { i2t } ( I ) = K L ( p ^ { i2t } | | q ^ { i2t } ) + K L ( q ^ { i2t } | | p ^ { i2t } )$
$K L ( P | | Q )$ : 从分布 $P$ 到分布 $Q$ 的 KL 散度。
前向 KL 散度 ( $KL ( p ^ { i2t } | | q ^ { i2t } )$ ): 关注当 $p$ 具有高概率而 $q$ 具有低概率的样本，倾向于降低负样本对的匹配概率。
后向 KL 散度 ( $KL ( q ^ { i2t } | | p ^ { i2t } )$ ): 关注当 $q$ 具有高概率而 $p$ 具有低概率的样本，倾向于提高正样本对的匹配概率。这种组合方式加速了对齐过程。

文本到图像对比损失: 类似地，通过交换 Eq.(1) 和 Eq.(2) 中的 $I$ 和 $T$ ，可以 формулировать 文本到图像对比损失 L _ { t2i } ( T )。

总 NDF 损失: 本文提出的归一化分布拟合 (NDF) 损失可以表示为： $L _ { NDF } = \frac { 1 } { N _ { z } } ( \sum _ { n = 1 } ^ { N _ { z } } L _ { i2t } ( I _ { n } ) + \sum _ { n = 1 } ^ { N _ { z } } L _ { t2i } ( T _ { n } ) )$

4.2.2. 解码器：基于解码器的局部自适应双向关联 (Decoder-based Local Adaptive Dual Association)

全局关联不足以关联两种模态中全面而详细的信息。因此，本文提出了基于解码器的局部自适应双向关联方案，以双向增强视觉和文本模态的交互，并自适应地关联图像和文本的局部区域。该模块通过文本词元到图像块的关联 (ATP) 和图像区域到文本属性的关联 (ARA) 来实现。

参数共享: 为了提高训练效率并实现双向跨模态交互和关联学习，解码器与文本编码器共享除交叉注意力层外的所有参数。这是因为自注意力 (self-attention) 和前馈 (feed-forward) 层在编码和解码任务中功能相似。

4.2.2.1. 文本词元到图像块的关联 (`Association of text Tokens to image Patches`, `ATP`)

ATP 模块旨在通过自适应地聚合相关图像块，将信息从文本模态传递到视觉模态。

解码器架构和交叉注意力: 如图2所示，给定一个图像-文本对 ( I _ { a } , T _ { b } )：

首先对 T _ { b } 进行词元化和嵌入，得到文本嵌入 ${ \cal E } ^ { b } = \{ e _ { enc } , e _ { 1 } , . . . , e _ { M } \}$ ，其中特殊标记 [ENC] 附加在序列的开头。
文本嵌入 $E ^ { b }$ 作为查询 (Query)，图像编码器输出的图像嵌入 $V ^ { a } = \{ v _ { cls } , v _ { 1 } , . . . , v _ { N } \}$ 作为键 (Key) 和值 (Value)，送入交叉注意力层。
交叉注意力操作后，解码器的最终输出嵌入表示为 $H ^ { a , b } = \{ h _ { enc } ^ { a , b } , h _ { 1 } ^ { a , b } , . . . , h _ { M } ^ { a , b } \}$ 。
$h _ { i } ^ { a , b }$ 是通过聚合 $e_i$ 与 $V^a$ 中图像嵌入的加权组合得到的，其中相关图像块获得更高的权重。

匹配约束和 ATP 损失: 直观地，如果图像和文本匹配，它们的关联应该很强，特征聚合自然。反之，负样本对的特征聚合会导致特征扭曲。为约束这种关联，本文将 $H ^ { a , b }$ 分组，并对每个组计算匹配损失。
分组: 将 $H ^ { a , b }$ 分成 $\kappa$ 个组 $G _ { 1 } ^ { a , b } , . . . , G _ { \kappa } ^ { a , b }$ ，组大小为 $p$ ，分割步长为 (M-p)+1。
组表示: 对每个组 $G _ { i } ^ { a , b }$ 进行均值池化 (mean pooling)，得到组表示 $g _ { i } ^ { a , b } \in \mathbb { R } ^ { d }$ 。此外，将 $g _ { 0 } ^ { a , b } = h _ { enc } ^ { a , b }$ 也作为一个组表示。
匹配概率: 对于每个组表示 $g _ { i } ^ { a , b }$ ( $0 < i < \kappa$ )，将其送入一个分类器以计算“匹配”和“不匹配”的概率： $\hat { p } ( g _ { i } ^ { a , b } ) = S o f t m a x ( F C _ { \phi } ( g _ { i } ^ { a , b } ) )$
- $FC_{\phi}$ : 一个全连接层（分类器），参数为 $\phi$ 。
- $\hat { p } ( g _ { i } ^ { a , b } )$ : 基于 $g _ { i } ^ { a , b }$ ，图像 I _ { a } 和文本 T _ { b } 的匹配概率。
硬负样本选择: 对于每个 I _ { a }，从 mini-batch 中选择一个具有最高全局相似度 $s i m ( I _ { a } , T _ { a ^ { - } } )$ 的硬负文本 $T _ { a ^ { - } }$ (但 I _ { a } 和 $T _ { a ^ { - } }$ 指代不同人物)。同样，对于每个 T _ { b }，选择硬负图像 $I _ { b ^ { - } }$ 。
ATP 损失: 综合计算 ATP 损失如下： $\begin{array} { c } { { { \cal L } _ { ATP } = \displaystyle \frac { 1 } { | { \mathcal P } | * ( \kappa + 1 ) } \sum _ { ( I _ { a } , T _ { b } ) ^ { + } \in { \mathcal P } } \sum _ { i = 0 } ^ { \kappa } [ \log ( \hat { p } ( g _ { i } ^ { a , b } ) ) } } \\ { { + \log ( 1 - \hat { p } ( g _ { i } ^ { a , a ^ { - } } ) ) + \log ( 1 - \hat { p } ( g _ { i } ^ { b ^ { - } , b } ) ) ] . } } \end{array}$
- $\mathcal { P }$ : mini-batch 中的正样本对集合。
- $( I _ { a } , T _ { b } ) ^ { + }$ : 指代同一人物的正图像-文本对。通过最小化 L _ { ATP }，模型学习区分仅在细节上存在差异的负图像-文本对，从而迫使其正确建立文本词元与图像块之间的关联。

4.2.2.2. 图像区域到文本属性的关联 (`Association of image Regions to text Attributes`, `ARA`)

ARA 模块旨在学习图像到文本的关联，侧重于图像区域与文本属性之间的关联。这通过掩码属性建模 (Masked Attribute Modeling, MAM) 实现。

掩码属性建模 (MAM):

MAM 的灵感来源于 Masked Language Modeling (MLM)，但其重点在于属性相关的词语而非随机掩码所有词。
属性识别: 使用自然语言工具包 NLTK 进行词性标注 (part-of-speech tagging)，将 [形容词][名词] 模式的短语（例如“black shoes”、“long straight hair”）定义为属性。
掩码过程: 随机地以掩码率 $\alpha$ 掩码文本描述中的属性短语，即用 [MASK] 替换短语中的每个词。
预测任务: 解码器被训练来预测整个被掩码的属性短语。
- 给定正图像-文本对 ( I _ { a } , T _ { b } )，通过随机掩码属性短语得到掩码文本 $T _ { b ^ { \prime } }$ 。
- 将 $( I _ { a } , T _ { b ^ { \prime } } )$ 输入解码器，得到最终嵌入 $H ^ { a , b ^ { \prime } } = \{ h _ { enc } ^ { a , b ^ { \prime } } , h _ { 1 } ^ { a , b ^ { \prime } } , . . . , h _ { M } ^ { a , b ^ { \prime } } \}$ 。
- 从中提取 $H _ { m s k } ^ { a , b ^ { \prime } } \in \mathbb { R } ^ { N _ { m } \times d }$ ，包含所有 [MASK] 标记的最终嵌入，N _ { m } 是被掩码标记的数量。
预测公式: 预测过程被视为一个分类问题。沿用 BERT [18] 的做法，使用一个包含所有可能词的词汇表 Voc。将 $H _ { m s k } ^ { a , b ^ { \prime } }$ $H_{m s k}^{a, b^{'}}$ 输入一个分类器： $p _ { m s k } ^ { a , b ^ { \prime } } = S o f t m a x ( F C _ { \beta } ( H _ { m s k } ^ { a , b ^ { \prime } } ) )$
- $FC_{\beta}$ : 另一个全连接层，参数为 $\beta$ 。
- $p _ { m s k } ^ { a , b ^ { \prime } } \in \mathbb { R } ^ { N _ { m } \times V o c }$ : 对每个被掩码标记的预测概率分布。
ARA 损失: 将被掩码词语在词汇表中的标签作为真实标签 $y _ { m s k } ^ { a , b ^ { \prime } }$ $y_{m s k}^{a, b^{'}}$ ，ARA 损失计算如下： $L _ { ARA } = \frac { 1 } { | \mathcal { P } | } \sum _ { ( I _ { a } , T _ { b } ) ^ { + } \in \mathcal { P } } K L ( y _ { m s k } ^ { a , b ^ { \prime } } | | p _ { m s k } ^ { a , b ^ { \prime } } )$
- 通过最小化 ARA 损失，模型学习通过相关图像区域预测正确的属性，从而实现图像到文本的关联。

4.2.3. 训练与推理 (Training and Inference)

4.2.3.1. 训练 (Training)

CADA 框架的总损失函数是 NDF 损失、ATP 损失和 ARA 损失的加权和： $L _ { CADA } = \lambda L _ { NDF } + L _ { ATP } + L _ { ARA }$

$\lambda$ : 一个权衡参数 (trade-off parameter)，用于平衡 NDF 损失与其他损失项的重要性。

4.2.3.2. 推理 (Inference)

在测试阶段，评估采用全局匹配推理协议 (global-matching inference protocol) 和局部匹配推理协议 (local-matching inference protocol)。

全局匹配推理:
- 单独使用图像编码器和文本编码器提取全局特征。
- 使用全局特征之间的余弦相似度 $S _ { G } = s i m ( I , T )$ 作为最终匹配分数。
局部匹配推理:
- 为了效率，首先根据 S _ { G } 对图库中的所有图像进行排名，并选择前 $\eta$ 个候选图像。
- 对于这前 $\eta$ 个候选图像，图像和文本特征序列被送入解码器进行交互，计算局部匹配分数 S _ { L } (即 Eq.(4) 中的 $\hat { p } ( g _ { 0 } ^ { a , b } )$ )。
- 将 S _ { G } + S _ { L } 作为这前 $\eta$ 个候选的最终匹配分数。
- 对于其余的图像，继续使用 S _ { G } 作为匹配分数。
- 本文设置 $\eta = 32$ 作为所有基准测试的默认值。

5. 实验设置

5.1. 数据集

本文在三个公开数据集上评估 CADA 方法：CUHK-PEDES、ICFG-PEDES 和 RSTPReid。

CUHK-PEDES [1]:
- 来源: 第一个文本-图像人物检索基准数据集。
- 规模: 包含 13,003 个人物的 40,206 张图像和 80,412 条文本描述。每张图像都附有 2 条文本描述。
- 划分:
  - 训练集: 11,003 个人物的 34,054 张图像和 68,108 条描述。
  - 验证集: 1,000 个人物的 3,078 张图像和 6,156 条描述。
  - 测试集: 1,000 个人物的 3,074 张图像和 6,148 条描述。
ICFG-PEDES [21]:
- 来源: 从 MSMT-17 数据集 [38] 收集。
- 特点: 拥有更多的人物和文本描述，背景更复杂，光照条件不稳定。
- 规模: 包含 4,102 个人物的 54,522 张图像和 54,522 条文本描述。
- 划分:
  - 训练集: 3,102 个人物的 34,674 对图像-文本。
  - 测试集: 1,000 个人物的 19,848 对图像-文本。
RSTPReid [22]:
- 来源: 同样从 MSMT-17 数据集收集。
- 特点: 每人包含 5 张由 15 个不同摄像机捕获的图像，每张图像有 2 条对应的文本描述。
- 规模: 包含 4,101 个人物的 20,505 张图像和 41,010 条文本描述。
- 划分:
  - 训练集: 3,701 个人物。
  - 验证集: 200 个人物。
  - 测试集: 200 个人物。

5.2. 评估指标

本文使用 Rank-1、Rank-5、Rank-10 准确率和平均精度均值 (mAP) 来评估模型的性能。

Rank-k 准确率 (Rank-k accuracy):
- 概念定义: Rank-k 准确率衡量的是对于每个查询（例如一个文本描述），其对应的真实匹配项（例如正确的行人图像）是否出现在检索结果的前 $k$ 个位置中。该指标越高，表示模型检索相关图像的能力越强，且通常关注模型召回顶部相关结果的能力。
- 数学公式: $\text{Rank-k Accuracy} = \frac{1}{Q} \sum_{i=1}^{Q} \mathbb{I}(\text{rank}_i \leq k)$
- 符号解释:
  - $Q$ : 总查询（query）的数量。
  - $\mathbb{I}(\cdot)$ : 指示函数，如果括号内的条件为真，则返回 1，否则返回 0。
  - $\text{rank}_i$ : 对于第 $i$ 个查询，其对应的真实匹配项在检索结果列表中的排名位置。
平均精度均值 (mean Average Precision, mAP):
- 概念定义: mAP 是对所有查询的平均精度 (Average Precision, AP) 进行平均得到的指标。AP 衡量的是一个查询的检索质量，它是精确率-召回率曲线下方的面积。mAP 综合考虑了检索结果的精确性和排序，能够更全面地评估检索系统的整体性能。一个高 mAP 值意味着模型不仅能够检索到许多相关项，而且这些相关项在检索结果中排名靠前。
- 数学公式: $AP = \sum_{k=1}^{N} P(k) \Delta r(k)$ $mAP = \frac{1}{Q} \sum_{i=1}^{Q} AP_i$
- 符号解释:
  - $N$ : 对于一个查询，所有检索结果的总数量。
  - P(k): 在检索列表的前 $k$ 个结果中的精确率（Precision）。
  - $\Delta r(k)$ : 召回率（Recall）从第 k-1 个结果到第 $k$ 个结果的变化量。具体来说，当第 $k$ 个检索结果是相关项时， $\Delta r(k) = \frac{1}{\text{总相关项数}}$ ；否则 $\Delta r(k) = 0$ 。
  - $Q$ : 总查询（query）的数量。
  - $AP_i$ : 对于第 $i$ 个查询，计算得到的平均精度。

5.3. 对比基线

本文将 CADA 方法与以下最先进的方法进行了比较：

全局匹配方法: Dual Path [9], CMPM/CMPC [8], A-GANet [25], IVT [20], TextReID [16], CFine [17], IRRA [15]。
局部匹配方法: MIA [27], SCAN [40], ViTAA [11], NAFS [41], DSSL [22], SSAN [21], LapsCore [42], LBUL [43], SAF [44], TIPCB [30], CAIBC [31], AXM-Net [29], LGUR [13], ACSA [28]。

这些基线方法涵盖了从早期的全局匹配到基于局部对应和 VLP 模型的各种最新技术，具有很强的代表性。

5.4. 实现细节

骨干网络 (Backbones):
- 图像编码器: ViT-B/16 (12层)。
- 文本编码器: BERT-base (12层)。
模型初始化: 使用在 1.29 亿图像-文本对上预训练的 BLIP [36] 模型参数进行初始化。
数据增强 (Data Augmentation): 训练期间采用随机水平翻转 (random horizontal flipping)、随机擦除 (random erasing) 和随机裁剪 (random crop)。
图像尺寸: 输入图像统一调整为 $224 \times 224$ 像素。
文本长度: 输入句子最大长度设置为 72。
嵌入维度 (Embedding Dimensions):
- 视觉和文本编码器的输出维度 $d_v, d_t = 768$ 。
- 共享潜在空间的维度 $d = 256$ 。
MAM 掩码率: Masked Attribute Modeling (MAM) 的掩码率 $\alpha$ 设置为 0.8。每个被掩码的词被替换为特殊标记 [MASK]。
损失函数参数:
- NDF 损失 (Eq.(1)) 中的温度参数 $\tau$ 设置为 0.02。
- 总损失 (Eq.(8)) 中的权衡参数 $\lambda_{NDF}$ 设置为 0.1。
优化器 (Optimizer): 采用 AdamW [39] 优化器，权重衰减 (weight decay) 为 0.05。
训练设置:
- mini-batch 大小为 96。
- 训练 40 个 epochs。
- 初始学习率为 1e-5，并采用余弦学习率衰减调度器 (cosine learning rate decay scheduler)。
推理设置:
- 局部匹配推理中的交互候选数量 $\eta$ 默认设置为 32。

6. 实验结果与分析

6.1. 核心结果分析

本文在 CUHK-PEDES、ICFG-PEDES 和 RSTPReid 三个基准数据集上进行了广泛评估，以验证 CADA 方法的有效性。

整体性能优越性: CADA 在所有三个数据集上都取得了最先进的结果，尤其是在局部匹配推理协议 (CADA-L) 下，显著超越了现有方法。这表明 CADA 提出的双向细粒度关联机制能够更有效地理解和匹配视觉与文本信息。
CUHK-PEDES 数据集:
- 全局匹配 (CADA-G): Rank-1 准确率达到 $73.48\%$ ，mAP 为 $65.82\%$ 。这与最强的竞争者 IRRA [15] (Rank-1 $73.38\%$ ) 相当，略有提升 ( $+0.10\%$ 在 Rank-1 准确率)。这表明即使是全局表示，通过双向局部关联的学习也缩小了模态鸿沟。
- 局部匹配 (CADA-L): Rank-1 准确率达到 $78.37\%$ ( $+4.99\%$ 相较于 IRRA)，mAP 为 $68.87\%$ ( $+2.74\%$ 相较于 IRRA)。这显示出 CADA 在细粒度跨模态关联方面的强大能力。
ICFG-PEDES 数据集:
- 全局匹配 (CADA-G): 结果与 IRRA [15] 相当 ( $62.54\%$ vs $63.46\%$ on Rank-1)。
- 局部匹配 (CADA-L): Rank-1 准确率达到 $67.81\%$ ，显著超越 IRRA [15] ( $+4.35\%$ ) 和 CFine [17] ( $+6.98\%$ )。该数据集背景复杂且光照不稳定，CADA 在此数据集上的出色表现证明了其在克服背景和光照变化方面的鲁棒性，因为它能双向学习局部级别的跨模态关联。
RSTPReid 数据集:
- CADA 取得了显著的提升，Rank-1 准确率和 mAP 分别超越 IRRA [15] 达 $+9.40\%$ 和 $+5.57\%$ 。
- 相对于其他局部匹配方法，CADA 也大幅超越，例如比最先进的局部匹配方法 CFine [17] 在 Rank-1 准确率上高出 $+19.05\%$ 。
领域泛化任务 (Domain Generalization Task):
- 在 CUHK $\Rightarrow$ ICFG 和 ICFG $\Rightarrow$ CUHK 的领域泛化任务中，CADA 显著优于所有对比方法。例如，CADA 在 CUHK $\Rightarrow$ ICFG 任务中，Rank-1 准确率比 LGUR [13] 高出 $+18.35\%$ 。这表明 CADA 学习到的细粒度关联具有很强的泛化能力，能够有效应对不同数据集之间的领域差异。

6.2. 数据呈现

6.2.1. CUHK-PEDES 数据集性能比较

以下是原文 Table I 的结果：

Methods	Type	Ref	Rank-1	Rank-5	Rank-10	mAP
Dual Path [9]	G	TOMM20	44.40	66.26	75.07	-
CMPM/CMPC [8]	L	ECCV18	49.37	-	79.27
MIA [27]	L	TIP20	53.10	75.00	82.90	-
A-GANet [25]	G	MM19	53.14	74.03	81.95	-
SCAN [40]	L	ECCV18	55.86	75.97	83.69	-
ViTAA [11]	L	ECCV20	55.97	75.84	83.52	51.60
NAFS [41]	L	arXiv21	59.94	79.86	86.70	54.07
DSSL [22]	L	MM21	59.98	80.41	87.56
SSAN [21]	L	arXiv21	61.37	80.15	86.73	-
LapsCore [42]	L	ICCV21	63.40	-	87.80
IVT [20]	G	ECCVW22	64.00	82.72	88.95	-
LBUL [43]	L	MM22	64.04	82.66	87.22	-
TextReID [16]	G	BMVC21	64.08	81.73	88.19	60.08
SAF [44]	L	ICASSP22	64.13	82.62	88.40	-
TIPCB [30]	L	Neuro22	64.26	83.19	89.10	-
CAIBC [31]	L	MM22	64.43	82.87	88.37	-
AXM-Net [29]	L	AAA122	64.44	80.52	86.77	58.73
LGUR [13]	L	MM22	65.25	83.12	89.00	-
ACSA [28]	L	TMM22	68.67	85.61	90.66	-
CFine [17]	G	arXiv22	69.57	85.93	91.15
IRRA [15]	G	CVPR23	73.38	89.93	93.71	66.13
CADA-G(Ours)	G	-	73.48	89.57	94.10	65.82
CADA-L(Ours)	L	-	78.37	91.57	94.58	68.87

6.2.2. ICFG-PEDES 数据集性能比较

以下是原文 Table II 的结果：

Methods	Type	Ref	Rank-1	Rank-5	Rank-10	mAP
Dual Path [9]	G	TOMM20	38.99	59.44	68.41	-
CMPM/CMPC [8]	L	ECCV18	43.51	65.44	74.26
MIA [27]	L	TIP20	46.49	67.14	75.18
SCAN [40]	L	ECCV18	50.05	69.65	77.21
ViTAA [11]	L	ECCV20	50.98	68.79	75.78
SSAN [21]	L	arXiv21	54.23	72.63	79.53
TIPCB [30]	L	Neuro22	54.96	74.72	81.89
IVT [20]	G	ECCVW22	56.04	73.60	80.22
CFine [17]	G	arXiv22	60.83	76.55	82.42
IRRA [15]	G	CVPR23	63.46	80.25	85.82	38.06
CADA-G(Ours)	G	-	62.54	79.46	85.14	37.07
CADA-L(Ours)	L	-	67.81	82.34	87.14	39.85

6.2.3. RSTPReid 数据集性能比较

以下是原文 Table III 的结果：

Methods	Type	Ref	Rank-1	Rank-5	Rank-10	mAP
DSSL [22]	L	MM21	39.05	62.60	73.95	-
SSAN [21]	L	arXiv21	43.50	67.80	77.15	-
LBUL [43]	L	MM22	45.55	68.20	77.85
IVT [20]	G	ECCVW22	46.70	70.00	78.80
ACSA [28]	L	TMM22	48.40	71.85	81.45
CFine [17]	G	arXiv22	50.55	72.50	81.60
IRRA [15]	G	CVPR23	60.20	81.30	88.20	47.17
CADA-G(Ours)	G	-	61.50	82.60	89.15	47.28
CADA-L(Ours)	L	-	69.60	86.75	92.40	52.74

6.2.4. 领域泛化任务性能比较

以下是原文 Table VI 的结果：

Methods	CUHK⇒ ICFG			ICFG⇒ CUHK
Methods	Rank-1	Rank-5	Rank-10	Rank-1	Rank-5	Rank-10
Dual Path [9]	15.41	29.80	38.19	7.63	17.14	23.52
MIA [27]	19.35	36.78	46.42	10.93	23.77	32.39
SCAN [40]	21.27	39.26	48.43	13.63	28.61	37.05
SSAN [21]	29.24	49.00	58.53	21.07	38.94	48.54
LGUR [13]	34.25	52.58	60.85	25.44	44.48	54.39
Ours	52.60	69.03	75.22	54.18	73.68	80.48

6.2.5. 参数数量比较

以下是原文 Table VII 的结果：

methods	Rank-1		param
methods	ICFG	CUHK	param
Ours (36layers)	67.81	78.37	223.45M
Ours (32layers)	67.13	77.18	204.55M
Ours (28layers)	66.63	76.17	185.65M
Ours (24layers)	64.35	75.09	166.74M
IRRA [15]	63.46	73.38	190.43M
TIPCB [30]	54.96	64.26	184.75M

6.2.6. 定性结果

图6展示了给定文本词元时图像块的注意力权重。

颜色相关词: 对于“red”、“blue”等颜色词，CADA 精确地捕捉到相应颜色的图像块。
服装/身体部位相关词: 对于“pants”、“hair”等词，CADA 自适应地关注整个相关区域。
图像无关词: 对于“the”等无关词，注意力图不规则，表明这些词对于构建图像-文本关联具有混淆性，从而验证了 ATP 模块的有效性。

该图像是文本到图像人物检索中的示意图，展示了通过关键词与对应身体部位之间的关联热力图，体现了文图双向细粒度关联机制在不同人物图像上的适应性匹配。

图6：给定文本词元时图像块的注意力权重示意图。蓝色框代表文本中被关注的词元，红点标记了图像中对应的注意力权重较高的区域。

图8展示了一个背蓝色双肩包、身穿深色短袖和浅色裤子的女性从后方行走的图像。

该图像是一张实拍人物图，展示了一名背蓝色双肩包、身穿深色短袖和浅色裤子的女性从后方行走的姿态。图中无公式或其他视觉元素，适用于文本到图像人物检索任务。

图9展示了一个背蓝色背包、穿灰色上衣和卡其裤的成年男性侧面站立的图像。

该图像是一张彩色照片，展示一位背蓝色背包、穿灰色上衣和卡其裤的成年男性侧面站立画面，背景为户外人行道。

图7展示了一个穿黑色上衣和红色短裤的人物侧面图像。

该图像是一张低分辨率的街景人物照片，显示了一个穿黑色上衣和红色短裤的人物侧面，背景中有自行车和其他模糊行人。

图6和图7展示了预测属性的示例。在给定图像线索的情况下，模型成功地建立了从视觉信息到描述文本中属性的对应关系，例如性别、颜色、服装和身体部位。

6.2.7. 性能与 $\eta$ 参数的关系

下图（原文 Figure 3）展示了在 CUHK-PEDES 和 ICFG-PEDES 数据集上，不同 $\eta$ 值（局部匹配推理中交互候选数量）下的性能表现。当 $\eta=0$ 时，表示没有进行局部交互，即纯全局匹配。

该图像是论文中的折线图，展示了不同参数 η 对 Rank-1 与 mAP 指标的影响。图中绿色虚线星形代表 Rank-1，蓝色虚线圆点代表 mAP，随着 η 增加，指标先上升后趋于平稳。

图3(a)：CUHK-PEDES 数据集上不同 $\eta$ 值下的性能表现。

该图像是一个折线图，展示了参数η对Rank-1和mAP指标的影响，图中Rank-1和mAP随η的增大而提升并趋于稳定。

图3(b)：ICFG-PEDES 数据集上不同 $\eta$ 值下的性能表现。

分析: 当 $\eta$ 值从 0 增加时，Rank-1 和 mAP 均显著提升，并在 $\eta=32$ 左右达到稳定或最优性能。这表明局部交互对于提升性能至关重要。
效率: 即使将 $\eta$ 设置得很小（例如 $\eta < 10$ ），CADA 仍能超越所有现有最先进方法，这验证了模型在保证效率的同时大幅提升性能的能力。

6.2.8. `MAM` 掩码率分析

下图（原文 Figure 4）展示了在 CUHK-PEDES 数据集上，MAM 掩码率 $\alpha$ 对模型性能的影响。图中也呈现了 MLM 在 $\alpha=0.15$ 和 0.3 时的结果作为对比。

Fig. 4. Evaluation on the CUHK-PEDES under different mask rates of MAM. Results of MLM with 0.15 and 0.3 masking rates are also presented as a comparison. 该图像是图表，展示了论文中Fig.4在CUHK-PEDES数据集上，不同MAM掩码率下模型性能的评估，对比了0.15和0.3掩码率的MLM结果，横轴为掩码率，纵轴分别为Rank-1和mAP指标。

图4：CUHK-PEDES 数据集上不同 MAM 掩码率下的评估。MLM 在 0.15 和 0.3 掩码率下的结果也作为对比呈现。

分析: 实验结果表明，将 MAM 掩码率设置为 0.8 时，Rank-1 和 mAP 均能达到最佳性能。这说明了 MAM 作为一个特定于属性的掩码策略，其较高的掩码率能够更好地驱动模型学习属性级别的关联。

6.2.9. 局部特征分组分析

以下是原文 Table V 的结果：

size p	stride r	groups κ	Rank-1	mAP
36	36	2	77.78	68.46
36	18	3	77.53	68.31
24	24	3	77.45	68.45
48	24	2	77.47	68.43
72	72	1	77.01	68.06

分析: 文本中提到，当组大小为 32 且无重叠时，性能达到最佳，但表V中并未展示 $p=32$ 的数据。根据表 V，当组大小 $p=36$ 且步长 $r=36$ (即无重叠，分为 2 组) 时，Rank-1 达到 $77.78\%$ ，mAP 达到 $68.46\%$ ，这是表中最佳的结果。这表明每个组包含足够多的局部聚合特征对于判断匹配至关重要。

6.3. 消融实验/参数分析

本文在 CUHK-PEDES 和 ICFG-PEDES 上进行了消融研究，以验证 CADA 框架中每个模块的有效性。基线模型 (Baseline) 采用双编码器 (ViT-B/16 和 BERT-base) 并结合 CMPM [25] 损失。

以下是原文 Table IV 的结果：

No.	Methods	CUHK-PEDES				ICFG-PEDES
No.	Methods	Rank-1	Rank-5	Rank-10	mAP	Rank-1	Rank-5	Rank-10	mAP
0	Baseline	64.36	83.36	88.78	58.18	56.16	73.77	80.17	31.59
1	+NDF	71.79	88.78	93.28	64.77	60.68	78.55	84.61	36.48
2	+NDF+ARA	72.93	89.20	93.30	65.27	61.15	78.82	84.59	36.67
3	+NDF+ATP(G)	73.01	88.94	93.46	65.49	62.16	78.89	84.65	36.60
4	+NDF+ATP(L)	77.78	91.15	94.50	68.46	67.09	81.91	86.85	38.99
5	+NDF+ARA+ATP(G)	73.48	89.57	94.10	65.82	62.54	79.46	85.14	37.07
6	+NDF+ARA+ATP(L)	78.37	91.57	94.58	68.87	67.81	82.34	87.14	39.85

归一化分布拟合损失 (L_NDF) 的有效性:
- 比较 No.0 (Baseline) 与 $No.1 (+NDF)$ 。
- 在 CUHK-PEDES 上，Rank-1 提高了 $7.43\%$ ，mAP 提高了 $6.59\%$ 。
- 在 ICFG-PEDES 上，Rank-1 提高了 $4.52\%$ ，mAP 提高了 $4.89\%$ 。
- 分析: 这表明 L_NDF 在对齐跨模态全局表示方面更有效，因为它消除了向量幅度变化的影响，仅关注方向相似度。
文本词元到图像块的关联 (ATP) 的有效性:
- 比较 $No.1 (+NDF)$ 与 $No.4 (+NDF+ATP(L))$ 。
- ATP 显著提升了性能，在 CUHK-PEDES 上 Rank-1 提高了 $4.85\%$ ，mAP 提高了 $3.69\%$ 。在 ICFG-PEDES 上 Rank-1 提高了 $5.94\%$ ，mAP 提高了 $2.51\%$ 。
- 分析: ATP 通过充分交互文本词元和图像块并建立关联，极大地增强了检索性能。即使在全局匹配协议下 (No.1 vs No.3, $+NDF+ATP(G)$ )，ATP 也提高了 Rank-1 准确率（CUHK-PEDES 上 $+1.22\%$ ，ICFG-PEDES 上 $+1.48\%$ ）。这说明 ATP 在学习细粒度局部特征的跨模态关系时，也使得编码器能够更精确地将全局特征映射到潜在空间。
图像区域到文本属性的关联 (ARA) 的有效性:
- 比较 $No.1 (+NDF)$ 与 $No.2 (+NDF+ARA)$ 。
- 直接添加 ARA 模块到全局匹配框架中（不进行词元级别的交互），模型在 CUHK-PEDES 上 Rank-1 提高了 $1.14\%$ ，mAP 提高了 $0.47\%$ 。
- 分析: 这证明通过建立区域到属性的关联，ARA 增强了单模态编码器的性能并缩小了模态鸿沟。
- 比较 $No.3 (+NDF+ATP(G))$ 与 $No.5 (+NDF+ARA+ATP(G))$ ，以及 $No.4 (+NDF+ATP(L))$ 与 $No.6 (+NDF+ARA+ATP(L))$ 。
- 无论是在全局匹配推理还是局部匹配推理中，ARA 模块都带来了性能提升，这表明 ARA 和 ATP 具有互补性。
参数数量分析:
- 本文在 Table VII 中比较了不同注意力层数对模型参数和性能的影响。
- 结果显示，增加注意力层数（即增加参数量）确实能提升性能。然而，即使将层数减少到 24 层 (Ours (24layers))，模型的参数量 (166.74M) 仍低于 IRRA [15] (190.43M) 和 TIPCB [30] (184.75M)，但在 Rank-1 准确率上仍能超越这些方法（ICFG 上 $64.35\%$ vs $63.46\%$ ，CUHK 上 $75.09\%$ vs $73.38\%$ ）。
- 分析: 这表明 CADA 的性能提升不仅仅是由于参数量增加，更主要归因于其提出的双向关联机制的有效性。

7. 总结与思考

7.1. 结论总结

本文深入探讨了文本到图像人物检索任务中，视觉和文本模态之间关联的复杂性，并明确指出传统的“模态无关”或单向关联假设的局限性。针对此问题，本文提出了跨模态自适应双向关联 (CADA) 框架。

CADA 的核心贡献在于：

提出双向关联的必要性: 识别并解决了图像到文本关联与文本到图像关联之间存在的差异，这是现有方法普遍忽视的关键点。
设计创新的解码器模块: 引入了一个基于解码器且具有参数共享机制的模块，实现了视觉和文本模态的充分、自适应交互。
开发 ATP 和 ARA 机制:
- ATP (文本词元到图像块的关联) 负责从文本到图像的细粒度信息流，通过匹配约束聚合相关图像块，避免特征扭曲。
- ARA (图像区域到文本属性的关联) 则通过 Masked Attribute Modeling (MAM) 实现了从图像到文本的属性级别关联，让模型从视觉线索预测文本属性短语。
  
  综合而言，CADA 通过其独特的双向关联公式，在 CUHK-PEDES、ICFG-PEDES 和 RSTPReid 三个主流基准数据集上均取得了显著超越现有最先进方法的性能，特别是在处理细粒度局部匹配方面表现出色，充分验证了其方法的有效性和优越性。

7.2. 局限性与未来工作

本文的结论部分并未明确指出模型的局限性或未来的工作方向。然而，从其方法论和实验结果中可以推断出一些潜在的方面：

局限性:
- 计算成本: 局部匹配推理虽然提高了准确率，但引入了额外的解码器计算，尤其是在 top-eta 候选选择之后。尽管作者证明了即使 eta 较小也能表现良好，但对于超大规模的图库，这种局部交互的成本仍可能是一个挑战。
- 属性识别的依赖性: ARA 模块依赖于 NLTK 进行词性标注来识别 [形容词][名词] 模式的属性。这种基于规则的属性提取可能不够灵活，无法捕捉更复杂的属性短语或上下文相关的属性。
- 参数量: 尽管作者通过消融实验证明了其性能提升并非单纯依赖于参数量，但其完整模型（36层，223.45M参数）仍相对较大，在资源受限的环境中部署可能面临挑战。
- 领域泛化中的细微差距: 尽管在领域泛化任务中表现出色，但仍存在进一步提升的空间，尤其是在更具挑战性的跨领域场景下，如何更有效地迁移知识可能需要进一步探索。
未来工作:
- 更细致的属性建模: 探索更先进的、无需硬编码规则的属性识别和掩码策略，例如利用图神经网络 (GNN) 捕捉属性之间的关系，或引入知识图谱来丰富属性语义。
- 动态调整交互策略: 研究更智能的局部交互策略，例如根据文本描述的复杂性或图像的视觉丰富程度，自适应地调整 eta 或局部交互的深度，以平衡性能和计算效率。
- 轻量化模型: 探索模型压缩、剪枝或蒸馏等技术，以在保持高性能的同时，降低模型参数量和计算需求，使其更适用于边缘设备或实时应用。
- 强化学习的引入: 考虑将强化学习引入到 ATP 和 ARA 的匹配过程中，让模型自主学习最优的特征聚合和属性预测策略，从而进一步提升自适应性。

7.3. 个人启发与批判

个人启发:
- 双向关联的重要性: 本文最主要的启发在于，它清晰地揭示了跨模态任务中双向关联的本质差异，并提供了有效的建模方法。这对于理解视觉-语言交互的复杂性至关重要，也为其他跨模态任务（如图像描述生成、视觉问答）提供了新的视角。仅仅将两种模态拉近距离（全局匹配）是不够的，如何让它们在细粒度层面进行“对话”才是关键。
- 解码器在跨模态中的潜力: 传统上，许多跨模态工作倾向于双编码器 (dual-encoder) 结构以提高效率。本文通过巧妙地使用解码器，并在其内部引入参数共享和特定任务 (ATP, ARA)，展示了解码器在实现深度、细粒度跨模态交互方面的强大潜力。这鼓励研究者重新审视并更灵活地应用 Transformer 架构的组件。
- 任务驱动的掩码策略: MAM 相比于传统的 MLM，更具任务特异性。针对人物检索的属性特点进行掩码，使得模型能够学习到与任务目标直接相关的属性级语义，这比通用的语言建模更有效。这提示我们在设计预训练任务时，应尽可能地与下游任务的特性对齐。
批判:
- “特征扭曲”概念的量化: 论文中提到“聚合基于错误关联的跨模态特征会导致特征扭曲”。尽管这个直觉很合理，但对“特征扭曲”的量化定义和更深入的理论分析可能会更有说服力。例如，通过一些指标来衡量特征的失真程度或语义一致性，以更客观地支持这一论断。
- ATP 分组策略的普适性: 在 ATP 模块中，对聚合特征进行分组以计算匹配损失。虽然消融实验表明了分组的有效性，但其具体的分组大小 $p$ 和步长 $r$ 的选择（尤其是文本中提到的 $p=32$ 而表格中没有对应数据）可能仍需更系统化的理论指导或更广泛的实验验证，以确保其在不同数据集和任务上的普适性。
- 硬负样本挖掘的局限: ATP 损失使用了硬负样本挖掘策略。虽然这通常能提升性能，但硬负样本的选择仍可能受到 mini-batch 大小和采样策略的影响。更鲁棒的负样本构造方法（例如，通过对抗训练或生成式方法）可能会进一步提高模型的泛化能力。
- 可解释性与对齐可视化: 尽管图6展示了注意力权重，但在更复杂的场景下，如何直观地可视化和解释 ATP 和 ARA 建立的细粒度双向关联，以更好地理解模型的决策过程，仍是一个挑战。
  
  总的来说，CADA 是一项扎实且具有创新性的工作，它通过深入理解并有效建模跨模态双向关联，为文本到图像人物检索领域带来了显著进步。其提出的方法和思想对于未来的跨模态研究具有重要的借鉴意义。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。