Contrastive Incomplete Cross-Modal Hashing
TL;DR 精炼摘要
提出对比式不完整跨模态哈希(CICH)方法,解决现实中跨模态数据不完整导致的语义与模态相似性崩溃及对应关系不确定问题。通过原型语义相似性协调和语义感知对比哈希模块,重建不完整跨模态相似性,实现更准确的跨模态检索。
摘要
IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 36, NO. 11, NOVEMBER 2024 5823 Contrastive Incomplete Cross-Modal Hashing Haoyang Luo , Zheng Zhang , and Liqiang Nie , Senior Member, IEEE Abstract —The success of current deep cross-modal hashing ad- mits a default assumption of the fully-observed cross-modal data. However, such a rigorous common policy is hardly guaranteed for practical large-scale cases, which directly disable the training of prevalent cross-modal retrieval methods with incomplete cross- modal instances and unpaired relations. The main challenges come from the collapsed semantic- and modality-level similarity learning as well as uncertain cross-modal correspondence. In this paper, we propose a Contrastive Incomplete Cross-modal Hashing (CICH) network, which simultaneously determines the cross-modal seman- tic coordination, unbalanced similarity calibration, and contextual correspondence alignment. Specifically, we design a prototypi- cal semantic similarity coordination module to globally rebuild partially-observed cross-modal similarities under an asymmetric learning scheme. Meanwhile, a semantic-aware contrastive hashing module is establis
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Contrastive Incomplete Cross-Modal Hashing
- 中文解读: 对比式不完整跨模态哈希。
- 核心主题: 论文的核心是提出一种新的跨模态哈希 (Cross-Modal Hashing) 方法,该方法专门用于解决现实世界中常见的数据不完整 (Incomplete Data) 问题。它创新性地引入了对比学习 (Contrastive Learning) 的思想来应对这一挑战。
1.2. 作者
- Haoyang Luo, Zheng Zhang, and Liqiang Nie
- 隶属机构: 哈尔滨工业大学(深圳)(Harbin Institute of Technology, Shenzhen)。
- 研究背景: 作者团队在多媒体计算、信息检索和机器学习领域有深厚积累。其中,Liqiang Nie(聂礼强)教授是该领域的资深专家,担任多个顶级期刊(如 IEEE TKDE, IEEE TMM)的副主编,这表明该研究具有坚实的学术背景和质量保障。
1.3. 发表期刊/会议
论文正文和参考文献格式(如引用了大量 IEEE Transactions 系列期刊)表明,这是一篇发表在高水平学术期刊上的文章,很可能隶属于 IEEE Transactions 系列,例如《IEEE Transactions on Knowledge and Data Engineering》(TKDE) 或《IEEE Transactions on Multimedia》(TMM)。这类期刊在计算机科学、数据挖掘和多媒体领域享有极高的声誉和影响力。
1.4. 发表年份
根据参考文献列表包含了截至 2023 年的文献,可以推断该论文发表于 2023 年或之后。
1.5. 摘要
论文旨在解决现有跨模态哈希 (Cross-Modal Hashing, CMH) 方法的一个默认前提,即训练数据必须是完全配对的 (fully-observed)。在现实大规模应用中,数据往往是不完整的 (incomplete),即存在大量只有单一模态(如只有图像或只有文本)的样本,这使得传统方法无法训练。不完整性带来了两大挑战:语义和模态相似性学习的崩溃以及跨模态对应关系的不确定性。
为应对这些挑战,论文提出了一种名为对比式不完整跨模态哈希 (Contrastive Incomplete Cross-modal Hashing, CICH) 的网络。CICH 通过三个协同工作的模块来解决问题:
-
原型语义相似性协调 (Prototypical Semantic Similarity Coordination, PSSC): 通过一个非对称学习方案,全局性地重建部分观察到的跨模态相似性。
-
语义感知对比哈希 (Semantic-aware Contrastive Hashing, SaCH): 利用一种新颖的对比哈希机制,自适应地感知和修正不同模态间不平衡的相似性,以生成有判别力的哈希码。
-
上下文对应对齐 (Contextual Correspondence Alignment, CCA): 通过一个双重上下文信息瓶颈公式,最大化地捕获模态间的共享知识,并消除对应关系的不确定性,同时用于恢复缺失的特征。
作者声称,这是首次将对比学习成功应用于不完整深度跨模态哈希的研究。大量的实验结果证明了 CICH 方法相比于当前最先进方法的优越性。
1.6. 原文链接
/files/papers/6900d1c9272c0b89d44bd6e0/paper.pdf
- 发布状态: 已正式发表。
2. 整体概括
2.1. 研究背景与动机
-
核心问题: 传统的跨模态检索 (Cross-Modal Retrieval) 技术,特别是高效的跨模态哈希 (CMH) 方法,严重依赖于一个理想化的假设:训练数据集中每一个样本都拥有所有模态的完整数据,并且它们之间是一一配对的(例如,每张图片都有一段精确对应的文字描述)。然而,在现实世界的应用场景中,例如社交媒体、网络图库,数据往往是不完整的 (incomplete)。例如,很多图片没有文字描述,很多视频没有字幕。这种数据缺失的情况,论文称之为不完整跨模-态哈希 (Incomplete Cross-Modal Hashing, ICMH) 问题。
-
重要性与挑战 (Gap): 数据的不完整性会直接导致现有 CMH 方法的训练失败或性能急剧下降,主要体现在以下三个方面(如图 1 所示):
- 语义相似性学习崩溃: 由于不同模态中样本的随机缺失,导致标签分布不均衡。例如,属于“猫”这个类别的图片可能有 100 张,但对应的文本描述可能只有 30 条。这使得模型难以学习到准确的、跨越不同模态的语义相似性。
- 模态相似性学习崩溃: 缺失的配对关系(unpaired relations)破坏了模态间的直接比较,增大了所谓的异构鸿沟 (heterogeneity gap)。
- 跨模态对应关系不确定: 当配对数据稀少时,模型无法学习到“这张图片具体对应这段文本”这种精确的实例级别对应关系,从而无法有效地进行知识迁移和特征对齐。
-
切入点与创新思路: 论文没有像一些先前工作那样仅仅试图“生成”缺失的数据,因为基于有限信息生成高质量特征非常困难。相反,本文的创新思路是设计一个多任务协同的框架,从三个层面系统性地解决上述挑战:
-
全局重建相似性: 不再局限于残缺的局部配对信息,而是利用所有样本都拥有的标签信息作为“全局锚点”,来重建和校准语义相似性。
-
校准对比关系: 将对比学习的思想引入进来,但不是简单应用。它设计了一种新颖的机制,可以为不完整数据智能地构建“正样本对”,从而稳定和平衡相似性学习过程。
-
对齐与恢复特征: 采用信息瓶颈理论来学习模态间的“共同知识”,并利用这些知识来恢复缺失的特征,同时确保模态间的对应关系尽可能准确。
这篇论文的核心在于,它认为“恢复相似性关系”和“恢复缺失特征”是相辅相成的,并首次将强大的对比学习范式改造后用于解决这个棘手的 ICMH 问题。
-
图 1: 不完整跨模态哈希中的障碍图解
该图像是示意图,展示了不完整跨模态哈希中的三种障碍:(a) 理想情况的跨模态数据完美配对形成语义聚类;(b) 部分观测数据导致语义和模态关系模糊;(c) 不确定的实例对应关系损害了一对一特征对齐和跨模态知识交互。
- (a) 理想情况: 数据完整且配对,来自同一语义类别(相同形状)的样本(不同颜色代表不同模态)能够很好地聚类在一起。
- (b) 部分观测样本: 带有虚线边框的样本表示其对应模态的数据缺失。这导致语义关系变得模糊,聚类结构被破坏。
- (c) 不确定对应关系: 缺失配对关系导致模型无法学习到精确的一对一特征对齐,阻碍了跨模态的知识交互。
2.2. 核心贡献/主要发现
-
核心贡献:
- 提出 CICH 框架: 提出了一个名为 CICH (Contrastive Incomplete Cross-modal Hashing) 的 principled 框架,它首次将监督式对比学习应用于不完整跨模态哈希(ICMH)问题,能够协同地进行语义校准、相似性校准和缺失特征恢复。
- 设计 PSSC 和 SaCH 损失: 为了在不完整数据上学习有判别力的哈希码,设计了原型相似性协调损失 (PSSC) 和语义感知对比损失 (SaCH)。前者利用非对称转换恢复全局跨模态相似性,后者通过语义推理稳定了不平衡的对比学习样本对。
- 构建 CCA 损失: 为了消除对应关系的不确定性,构建了上下文对应对齐损失 (CCA),它通过一种新颖的上下文信息瓶颈来确保有效的对应关系和模态间的最大化知识共享。
- 充分的实验验证: 在多个数据集和不同不完整度设置下进行了广泛实验,证明了 CICH 模型相比现有最先进方法的优越性,尤其是在不完整程度加剧时,性能依然保持稳健。
-
主要发现:
- 通过全局语义协调、平衡的对比学习和上下文感知的特征恢复相结合,可以有效解决不完整数据给跨模态哈希带来的相似性学习崩溃和对应关系不确定的问题。
- 相比于简单地生成缺失特征,或者使用无监督原型的方法,CICH 能够学习到质量更高、判别力更强的哈希码。
- 该方法对数据的不完整程度具有很强的鲁棒性,即使在只有 10% 数据是配对的“困难”设置下,依然能取得优异的性能。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 跨模态检索 (Cross-Modal Retrieval)
这是一种信息检索任务,目标是使用一种数据类型(模态)的查询,去检索另一种数据类型的相关内容。最经典的例子是以文搜图(输入一段文字描述,返回与之匹配的图片)或以图搜文(输入一张图片,返回描述它的文字)。其核心挑战在于如何衡量不同模态数据之间的相似性,这个问题被称为异构鸿沟 (heterogeneity gap)。
3.1.2. 哈希 (Hashing)
哈希是一种将任意长度的输入数据通过一个哈希函数映射成固定长度输出(哈希值)的技术。在信息检索领域,哈希特指学习型哈希 (Learning to Hash),其目标是:
- 降维与加速: 将高维度的复杂数据(如图像特征向量)转换为非常短的二进制码(如 64 位的
01串或-1/1串)。 - 相似性保持: 原始空间中相似的两个数据点,其对应的二进制哈希码也应该相似。哈希码之间的相似性通常用汉明距离 (Hamming Distance) 来衡量,即两个等长码串对应位置上不同字符的个数。计算汉明距离非常快(只需异或和计数操作),因此哈希极大地提升了大规模检索的速度和存储效率。
3.1.3. 跨模态哈希 (Cross-Modal Hashing, CMH)
CMH 结合了以上两个概念,旨在为不同模态的数据学习统一的哈希码。它会为每种模态(如图像、文本)学习一个特定的哈希函数,这些函数能将来自不同模态但语义相关的实例(如一张猫的图片和“一只猫在睡觉”的描述)映射到汉明空间中非常相近的二进制码。这样,跨模态检索就可以通过快速计算哈希码的汉明距离来完成。
3.1.4. 对比学习 (Contrastive Learning)
这是一种强大的自监督学习 (Self-Supervised Learning) 范式,核心思想是“近朱者赤,远墨者黑”。它通过构建正负样本对来学习特征表示:
-
锚点 (Anchor): 当前正在处理的样本。
-
正样本 (Positive): 与锚点相似的样本(例如,同一张图片的不同数据增强版本,或在本文中,语义相关的跨模态样本)。
-
负样本 (Negative): 与锚点不相似的样本(例如,其他不相关的图片)。
对比学习的目标是,在特征空间中,拉近锚点与正样本的距离,同时推远锚点与所有负样本的距离。一个经典的对比学习损失函数是 InfoNCE,其形式如下:
-
符号解释:
- 是锚点样本的特征表示。
- 是一个正样本的特征表示。
- 是包含一个正样本和 个负样本的集合。
- 是相似度函数,通常是余弦相似度。
- 是一个温度超参数 (temperature),用于调节 softmax 函数的平滑度,控制模型对负样本的关注程度。
3.1.5. 信息瓶颈 (Information Bottleneck, IB)
IB 是一个信息论原理,用于学习数据的有效表示。假设我们有输入变量 和目标变量 ,IB 的目标是学习一个关于 的压缩表示 ,这个 就像一个“瓶颈”,它需要满足两个条件:
- 充分性: 要包含尽可能多关于 的信息,即最大化互信息
I(Z; Y)。 - 压缩性: 要尽可能地被压缩,丢弃掉 中与 无关的信息,即最小化互信息
I(X; Z)。 在深度学习中,这通常被实现为一个优化目标,鼓励模型学习到既紧凑又有预测能力的特征。
3.2. 前人工作
作者将相关工作分为三类:
-
跨模态哈希 (CMH):
- 浅层方法 (Shallow CMH): 如
DCH,SePH,SCRATCH。这类方法通常分两步:先用传统方法提取特征,再设计一个哈希学习模型。它们无法进行端到端的训练,特征表达能力有限。 - 深度方法 (Deep CMH): 如
DCMH,SSAH,DADH。这类方法使用深度神经网络(如 CNN)来提取特征,并将特征学习和哈希码学习整合到一个端到端的框架中,性能通常更优。 - 共同缺陷: 无论是浅层还是深度方法,它们几乎都假设训练数据是完整且配对的,无法直接应用于不完整数据集。
- 浅层方法 (Shallow CMH): 如
-
对比学习 (Contrastive Learning):
- 在自监督学习中的应用: 如
DIM,MoCo,BYOL,这些工作在视觉表示学习上取得了巨大成功。 - 在哈希中的应用: 一些方法如
CIBHash,CIMON已将对比学习用于无监督哈希。而监督方法如文献 [6] 则在模态二进制码和其对应标签之间进行对比学习。 - 共同缺陷: 这些方法同样假设数据是完整的,或者它们构建相似关系的方式在数据不完整时会失效。例如,文献 [6] 的方法依赖于样本-标签的一一对应,当类别样本不均衡时(这在不完整数据中很常见)会产生偏差。
- 在自监督学习中的应用: 如
-
不完整跨模态检索 (Incomplete Cross-Modal Retrieval):
- 现有方法: 只有少数工作关注此问题。例如
DAVAE使用变分自编码器(VAE)来生成缺失的特征;MCCN和PAN则使用类原型 (class prototypes) 来辅助相似性学习和特征重建。 - 共同缺陷: 作者指出,这些方法存在明显局限。例如,
DAVAE基于有限知识生成特征可能不准确;MCCN等方法忽略了不完整数据中类别不平衡的本质,可能导致语义判别力不足。最重要的是,它们大多忽略了由模态对应知识引入的跨模态可迁移性。
- 现有方法: 只有少数工作关注此问题。例如
3.3. 技术演进
该领域的技术演进路线清晰可见:
- 早期 (浅层 CMH): 特征提取和哈希学习是分离的。
- 中期 (深度 CMH): 利用深度学习实现端到端的特征和哈希码学习,性能大幅提升,成为主流。
- 当前挑战 (不完整 CMH): 认识到“数据完整”这一理想假设在现实中难以满足,开始探索如何在数据缺失的情况下进行有效的跨模态哈希。
- 本文工作: 处在探索不完整 CMH 的前沿。它没有沿用之前“生成-补全”或“无监督聚类”的思路,而是开创性地将对比学习范式进行改造和适配,为解决这一问题提供了全新的、更系统化的视角。
3.4. 差异化分析
与相关工作相比,本文的核心差异和创新点在于:
- 针对不完整性的系统性设计: 不同于只关注缺失特征“生成”的
DAVAE或PAN,CICH 从相似性重建和对应关系对齐两个层面协同解决问题,思想更全面。 - 对对比学习的创新改造 (
SaCH): 传统的对比学习依赖明确的正负样本。本文的SaCH模块通过关系传播,为不完整/恢复的样本构建了更鲁棒的、多对多的“软”正样本关系,解决了在数据缺失时难以定义正样本对的问题。这是对标准对比学习在 CMH 场景下的重要拓展。 - 全局与局部信息的结合 (
PSSC+SaCH):PSSC利用全局的标签信息重建一个基础的语义相似度结构,而SaCH则在此基础上进行更精细的、模态间的显式对比。这种“先宏观后微观”的策略比单一方法更稳健。 - 上下文感知的特征恢复 (
CCA): 不同于仅依赖单一模态信息生成特征,CCA模块在利用信息瓶颈提取共享知识的同时,还巧妙地引入了目标模态中邻居节点的上下文信息,使得恢复出的特征更丰富、更准确。
4. 方法论
本部分将详细拆解 CICH 模型的技术方案,严格遵循原文的公式和逻辑。
CICH 模型整体框架图
该图像是作者本人正面头像照片,用于展示研究人员的形象信息,图像内容清晰,无其他附加元素。
- 输入: 不完整的多模态数据(部分样本只有图像,部分只有文本,部分两者都有)。
- 核心模块:
- 上下文对应对齐 (CCA): 负责在不同模态的特征之间建立联系,恢复缺失的特征。
- 原型语义相似性协调 (PSSC): 利用全局的标签信息,为所有样本(无论完整与否)构建一个统一的语义相似性空间。
- 语义感知对比哈希 (SaCH): 在 PSSC 建立的语义空间基础上,进行模态间的对比学习,进一步优化哈希码的判别力。
- 输出: 对所有样本(包括补全后的样本)生成高质量的、具有判别力的统一哈希码。
4.1. 方法原理
CICH 的核心思想是协同作战。它不把数据不完整看作一个单一问题,而是分解为三个子问题并设计相应模块去解决,最终通过一个统一的损失函数进行端到端优化。
- 直觉 1 (PSSC): 当图像和文本之间的直接配对关系缺失时,它们共有的语义标签就成了最可靠的“中间人”。我们可以让图像和文本都去学习与这个“中间人”(即标签原型)保持一致,从而间接地对齐彼此。
- 直觉 2 (SaCH): 即使有了标签作为指导,模态间的相似性仍然不平衡。对比学习是增强判别力的利器,但它需要正样本。对于一个图像样本,其正样本不仅可以是那个唯一的配对文本(如果存在),还可以是所有与之共享相同语义标签的其他文本。这种“多对多”的对比关系比传统的“一对一”更鲁棒。
- 直觉 3 (CCA): 要恢复缺失的文本特征,不能只凭空想象。最有效的方式是从对应的图像特征中提取与文本最相关的“共享信息”。信息瓶颈理论恰好能做到这一点。更进一步,我们还可以参考与该图像相似的其他图像所对应的文本(即上下文),来辅助恢复。
4.2. 核心方法详解 (逐层深入)
4.2.1. 问题定义
首先,我们形式化地定义不完整跨模态哈希问题。
- 一个常规的、完整的数据集表示为 ,其中 是文本, 是图像, 是它们的共享标签。
- 一个不完整的数据集则由三部分组成: 。
- 是完整配对的部分。
- 是只有文本的部分。
- 是只有图像的部分。
- 目标: 学习两个哈希函数 和 ,它们能将任意文本 和图像 编码为 位的二进制码 和 。这些哈希码需要保持语义相似性,即如果两个实例(无论是否同模态)共享一个标签,它们的哈希码汉明距离应该很近。
4.2.2. 原型语义相似性协调 (Prototypical Semantic Similarity Coordination, PSSC)
这个模块旨在利用全局标签信息来重建被破坏的语义相似性结构。
步骤与公式:
-
创建标签原型: 为每个标签 学习一个 维的原型码 (prototypical code) 。这通过一个简单的线性网络 实现:,其中 是可学习的参数。这个原型码可以看作是该语义类别在哈希空间中的“理想中心点”。
-
定义相似性概率: 论文采用内积来度量两个哈希码的相似性。两个码 的相似性预测概率被定义为 sigmoid 函数的形式: 这里 表示两个样本相似, 表示不相似。 的值域是 ,除以 2 是为了缩放。
-
构建非对称学习损失: PSSC 的核心是让每个模态的哈希码(如文本码 )去拟合与所有标签原型码 之间的相似性关系。这通过一个负对数似然损失来实现,并加入一个量化损失来使连续的哈希码逼近离散的 。最终的 PSSC 损失函数如下:
公式 (3) 详解:
-
符号解释:
- 表示不同的“模态”,这里巧妙地将原型 也看作一种模态。 就是原型网络 。
- 是一个 mini-batch 中模态 的样本索引集合。
- 是整个训练集的样本总数。
- 是第 个样本在模态 下的连续哈希码(网络输出)。
- 是第 个样本的标签原型码。
- 是模态样本 与标签原型 之间的内积相似度。注意这里是非对称的:左边是 mini-batch 里的样本 ,右边是数据库里所有样本对应的原型 。
- 是真实的语义相似度矩阵 ( 表示样本
i,j共享标签,否则为 0)。 - 是相似性保持损失。这个形式是二元交叉熵损失(BCE Loss)的等价形式,目标是让预测的相似度 逼近真实的 。
- 是量化损失 (Quantization Loss),它惩罚网络输出的连续值 与其符号化的离散值 之间的差距,促使输出接近 。
-
核心思想: 这个损失函数迫使每个文本/图像的哈希码去学习与全局所有标签原型之间的关系。由于标签信息是所有样本都具备的,这种方式能够有效地重建一个全局一致的语义空间,弥补了配对数据缺失带来的信息损失。
-
4.2.3. 语义感知对比哈希 (Semantic-Aware Contrastive Hashing, SaCH)
PSSC 建立了宏观的语义结构,而 SaCH 则在此基础上进行更精细的、模态之间的显式对比,以增强哈希码的判别力。
步骤与公式:
-
改进的对比哈希目标: 传统对比学习是“一对一”的(一个锚点,一个正样本)。这里,对于一个来自模态 的锚点 ,所有在模态 中与它语义相关(共享标签)的样本 都被视为正样本。SaCH 的损失函数定义如下: 公式 (5) 详解:
- 符号解释:
- , 分别是来自两个模态 mini-batch 的样本索引。
- 是模态 的锚点。
- 分母部分包含了锚点 与模态 中所有样本 的相似度计算,这构成了对比学习中的负样本集合。
- 分子部分是关键: 是一个邻接矩阵 (adjacency matrix),当 时,样本 是样本 的正样本。损失函数会对所有正样本进行加权求和。
- 是温度超参数。 是 sigmoid 函数。
- 符号解释:
-
构建邻接矩阵 : 如何定义 是 SaCH 的核心创新。
- 对于已配对的样本: 可以直接使用真实的语义相似度矩阵 。
- 对于不完整/恢复的样本: 这些样本的语义关系可能不明确。论文提出一种关系传播 (propagating) 策略来构建一个更鲁棒的邻接矩阵:
公式 (6) 详解:
- 是原始的语义相似度矩阵。
- 计算了样本间的“二跳”相似性。如果两个样本
i, k都与同一个样本 相似,那么它们之间也可能存在相似性。 - 实际上是利用这种二跳关系来“增强”原始的相似度矩阵,使得相似关系可以在样本构成的图上传播。
- 是一个指示函数,将矩阵中的正数变为 1,非正数变为 0,最终得到一个二值的邻接矩阵。
- 核心思想: 这个传播策略为那些关系不明确的样本(特别是通过 CCA 恢复的样本)找到了更多的“邻居”作为正样本,从而稳定了对比学习过程。
-
总损失: SaCH 的总损失是双向的( 和 ): 公式 (7)
4.2.4. 上下文对应对齐 (Contextual Correspondence Alignment, CCA)
这个模块是解决数据不完整的“根本”手段:恢复缺失的模态特征。它基于信息瓶颈理论,并创新地加入了上下文信息。
步骤与公式:
-
信息瓶颈对齐: 目标是从源模态特征 (图像) 学习一个压缩表示 ,这个表示既要能最大程度地预测目标模态特征 (文本),又要尽可能地被压缩。优化目标为: 公式 (8) 详解:
- 是互信息。
- 最大化 意味着 要对 有足够预测能力。
- 最小化 (通过带负号的 项实现) 意味着 要丢弃 中与 无关的信息。
-
变分近似: 直接优化互信息很困难,因此采用变分推断的方法,优化其下界。这引导出类似 VAE 的损失函数: 公式 (9) 详解:
- 第一项是重构损失:解码器 尝试从 重构出 。
- 第二项是 KL 散度:它约束 的后验分布 (由编码器产生) 接近一个简单的先验分布
r(z)(通常是标准正态分布),从而实现压缩。
-
引入上下文信息: 仅靠 (共享知识) 来恢复 可能不够,因为 还包含文本模态独有的信息。为此,论文引入了一个额外的解码器 ,它不仅利用 ,还利用了上下文信息 。这里的上下文是指:对于源图像 ,在哈希空间中找到与它最相似的 个文本邻居的特征。最终的 CCA 损失为: 公式 (10) 详解:
- 双重重构: 现在的重构损失有两部分,来自两个解码器 和 。 负责从共享知识中恢复,而 则在共享知识的基础上,进一步融合目标模态的上下文信息进行更精细的恢复。
- 特征恢复: 在训练完成后,对于一个只有图像 的不完整样本,就可以使用训练好的上下文解码器 来生成其缺失的文本特征:。这些恢复的特征随后可以用于 PSSC 和 SaCH 的训练。
4.2.5. 最终优化目标
CICH 的总损失函数是上述三个模块损失的加权和: 公式 (11) 详解:
- 和 是平衡三个模块重要性的超参数。
- 这三个模块协同工作:
CCA负责“补全”数据,为其他两个模块提供完整的输入。PSSC负责构建全局的、粗粒度的语义结构。SaCH在此基础上进行细粒度的、判别性的对比学习。
- 整个模型通过交替优化算法进行训练(详见原文 Algorithm 1)。
5. 实验设置
5.1. 数据集
实验在 5 个广泛使用的跨模态检索基准数据集上进行,其统计信息如下(根据原文 Table I 整理):
| 数据集 | 训练集大小 | 测试集大小 | 数据库大小 | 总计 | 文本维度 | 类别数 |
|---|---|---|---|---|---|---|
| MIRFLICKR-25K | 18,015 | 2,000 | 20,015 | 20,015 | 1,386 | 24 |
| MS COCO | 82,081 | 5,000 | 87,081 | 82,783 | 2,000 | 80 |
| NUS-WIDE-10K | 8,000 | 2,000 | 10,000 | 10,000 | 1,000 | 10 |
| IAPR TC-12 | 18,000 | 2,000 | 20,000 | 20,000 | 2,885 | 275 |
| NUS-WIDE | 50,000 | 2,085 | 52,085 | 50,000 | 1,000 | 21 |
-
特点与选择理由:
- 这些数据集覆盖了不同的规模(从 10k到 80k+)、不同的场景(社交媒体图片、通用物体)和不同的标签复杂度(单标签 vs 多标签,如 MIRFLICKR-25K 和 MS COCO 是多标签数据集)。
- 选择这些广泛使用的数据集,可以公平地与现有方法进行比较,并验证方法的普适性。
-
不完整性设置: 为了模拟真实世界的数据不完整性,论文采用了三种不同程度的设置,将训练集划分为(完整配对,仅图像,仅文本)的比例:
- 简单 (Easy): (50%, 25%, 25%) - 一半数据是完整的。
- 中等 (Medium): (30%, 35%, 35%) - 大部分数据是不完整的。
- 困难 (Hard): (10%, 45%, 45%) - 绝大部分数据是不完整的,挑战最大。
5.2. 评估指标
论文使用了跨模态检索领域标准的评估指标。
5.2.1. 平均精度均值 (mean Average Precision, mAP)
- 概念定义 (Conceptual Definition): mAP 是衡量检索系统整体性能的金标准。它综合了精确率 (Precision) 和召回率 (Recall)。对于单个查询,平均精度 (Average Precision, AP) 计算的是返回的检索结果列表中,所有相关结果位置上的精确率的平均值。AP 越高,说明模型不仅找到了相关项,而且把它们排在了更靠前的位置。mAP 则是对所有查询的 AP 值再取平均,反映了模型在整个测试集上的平均表现。
- 数学公式 (Mathematical Formula): 单个查询的 AP 计算公式如下(根据原文 Eq. 12):
- 符号解释 (Symbol Explanation):
- 是数据库中的样本总数。
- 是检索结果列表中的第 个样本。
- 是一个指示函数,如果第 个结果与查询相关,则为 1,否则为 0。
- 是返回的前 个结果中,与查询相关的样本数量。
- 是整个数据库中与查询相关的样本总数。
- 在这里表示乘法。
5.2.2. 精确率-召回率曲线 (Precision-Recall Curve, PR-Curve)
- 概念定义 (Conceptual Definition): PR 曲线以召回率为横轴,精确率为纵轴,展示了在不同召回率水平下模型的精确率。曲线越靠近图的右上角(即在相同的召回率下有更高的精确率),说明模型性能越好。
5.2.3. NDCG@K
- 概念定义 (Conceptual Definition): 归一化折扣累计增益 (Normalized Discounted Cumulative Gain, NDCG) 是一个衡量排序质量的指标,特别适用于多标签或相关性有不同等级的任务。它不仅考虑返回结果是否相关,还考虑了相关性的高低以及它们的位置。位置越靠前的相关结果贡献越大(通过对数折扣实现)。NDCG 是将一个查询的 DCG 值除以理想排序下的 DCG 值(IDCG),使其结果归一化到
[0, 1]区间,便于跨查询比较。NDCG@K表示只考虑返回的前 K 个结果。 - 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- 是评估的截断位置(如 top-100)。
- 是排在第 位的结果的相关性得分(在本文中,共享标签则为 1,否则为 0)。
IDCG@K是理想排序(即将所有最相关的结果排在最前面)所能得到的最大DCG@K值。
5.3. 对比基线
论文将 CICH 与 10 个代表性的基线模型进行了比较,涵盖了不同类型的 CMH 方法:
-
浅层哈希方法 (Shallow Hashing):
DCH,JIMFH,SCRATCH。 -
深度哈希方法 (Deep Hashing):
DCMH,SSAH,AGAH,DADH,DCHMT。这些是主流的、基于完整数据假设的深度学习方法。 -
不完整跨模态检索方法 (Incomplete Retrieval):
MCCN,PAN。这两个是专门为不完整数据设计的(但不是哈希方法,输出的是实数值特征)。将 CICH 与它们比较,可以验证 CICH 在不完整场景下学习到的二进制码表示是否能媲美甚至超越实数值表示。选择这些基线具有代表性,能够全面地评估 CICH 在不完整场景下的性能,并与不同技术路线(浅层 vs. 深度,哈希 vs. 实数值,完整 vs. 不完整)进行对比。
6. 实验结果与分析
6.1. 核心结果分析
论文的核心结果展示在 Table II 和 Table III 中,对比了 CICH 与各基线在三个数据集和三种不完整度下的 mAP 表现。
以下是原文 Table II 的完整转录和分析。该表格结构复杂,包含跨列标题,因此使用 HTML 进行精确还原。
...
<tr>
<td><b>CICH (ours)</b></td>
<td><b>0.708</b></td>
<td><b>0.739</b></td>
<td><b>0.724</b></td>
<td><b>0.723</b></td>
<td><b>0.744</b></td>
<td><b>0.734</b></td>
<td><b>0.739</b></td>
<td><b>0.764</b></td>
<td><b>0.752</b></td>
<td><b>3.10</b></td>
<td><b>2.50</b></td>
<td><b>2.80</b></td>
</tr>
<tr>
<td rowspan="10">NUS-WIDE-10K</td>
<td>DCH</td>
<td>0.507</td>
<td>0.585</td>
<td>0.546</td>
<td>0.531</td>
<td>0.599</td>
<td>0.565</td>
<td>0.537</td>
<td>0.598</td>
<td>0.568</td>
<td>3.00</td>
<td>1.30</td>
<td>2.15</td>
</tr>
...
<tr>
<td><b>CICH (ours)</b></td>
<td><b>0.628</b></td>
<td><b>0.602</b></td>
<td><b>0.615</b></td>
<td><b>0.644</b></td>
<td><b>0.604</b></td>
<td><b>0.624</b></td>
<td><b>0.639</b></td>
<td><b>0.607</b></td>
<td><b>0.623</b></td>
<td><b>1.10</b></td>
<td><b>0.50</b></td>
<td><b>0.80</b></td>
</tr>
| 数据集 | 方法 | hard (10%, 45%, 45%) | medium (30%, 35%, 35%) | easy (50%, 25%, 25%) | ∆ (easy - hard) (%) | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| i→t | t→i | mean | i→t | t→i | mean | i→t | t→i | mean | i→t | t→i | mean | ||
| MIRFLICKR-25K | DCH | 0.597 | 0.622 | 0.610 | 0.713 | 0.683 | 0.698 | 0.733 | 0.692 | 0.713 | 13.60 | 7.00 | 10.30 |
| JIMFH | 0.560 | 0.589 | 0.575 | 0.589 | 0.598 | 0.594 | 0.599 | 0.600 | 0.600 | 3.90 | 1.10 | 2.5 | |
| SCRATCH | 0.795 | 0.733 | 0.764 | 0.813 | 0.737 | 0.775 | 0.828 | 0.748 | 0.788 | 3.30 | 1.50 | 2.40 | |
| DCMH | 0.890 | 0.817 | 0.854 | 0.891 | 0.826 | 0.859 | 0.894 | 0.829 | 0.862 | 0.40 | 1.20 | 0.80 | |
| SSAH | 0.895 | 0.822 | 0.859 | 0.895 | 0.832 | 0.864 | 0.896 | 0.845 | 0.871 | 0.10 | 2.30 | 1.20 | |
| AGAH | 0.617 | 0.626 | 0.622 | 0.841 | 0.811 | 0.826 | 0.876 | 0.830 | 0.853 | 25.90 | 20.40 | 23.15 | |
| DADH | 0.876 | 0.814 | 0.856 | 0.883 | 0.828 | 0.859 | 0.884 | 0.835 | 0.864 | 0.80 | 2.10 | 1.45 | |
| DCHMT | 0.860 | 0.802 | 0.832 | 0.862 | 0.805 | 0.835 | 0.864 | 0.809 | 0.835 | 0.40 | 0.70 | 0.55 | |
| PAN | 0.896 | 0.807 | 0.852 | 0.901 | 0.806 | 0.854 | 0.903 | 0.811 | 0.857 | 0.70 | 0.40 | 0.55 | |
| CICH (ours) | 0.917 | 0.845 | 0.881 | 0.918 | 0.845 | 0.882 | 0.924 | 0.847 | 0.886 | 0.70 | 0.20 | 0.45 | |
| MS COCO | DCH | 0.527 | 0.628 | 0.578 | 0.535 | 0.643 | 0.589 | 0.539 | 0.645 | 0.592 | 1.20 | 1.70 | 1.45 |
分析与解读:
- 绝对性能优势: 在所有三个数据集、所有三种不完整度设置下,CICH 的 mAP 值几乎全面超过了所有基线方法,包括浅层方法、主流的深度哈希方法,甚至是专为不完整数据设计的实数值方法
PAN和MCCN。这强有力地证明了 CICH 学习到的哈希码具有卓越的判别力和检索精度。 - 对不完整性的鲁棒性: 观察
∆ (easy - hard)列,该值衡量了模型性能从“简单”设置下降到“困难”设置时的衰减程度,值越小代表鲁棒性越强。- 一些不完整数据“不可知”的方法,如
AGAH,在 MIRFLICKR-25K 上的性能衰减高达 23.15%,表明它们在数据严重缺失时几乎崩溃。 - 相比之下,CICH 的性能衰减非常小(在 MIRFLICKR-25K 上仅为 0.45%),在所有方法中表现最为稳定。这证明了 CICH 的设计(PSSC, SaCH, CCA)能够有效抵御数据缺失带来的负面影响。
- 一些不完整数据“不可知”的方法,如
- 超越专用实数值方法: CICH 作为一种哈希方法,其性能甚至优于
PAN和MCCN这类输出高精度实数值特征的方法。这说明 CICH 不仅解决了不完整性问题,而且学习到的二进制码表示质量极高,在效率和效果上实现了双赢。 - t-SNE 可视化分析:
图 7: t-SNE 特征可视化
该图像是多个数据集(FLICKR-25K、MS COCO、NUS-WIDE-10K)上四种跨模态哈希方法(DCMH、DADH、AGAH、CICH)的二维t-SNE特征散点图,展示了各方法对多类别数据的聚类与区分能力,明显可见CICH方法聚类效果更为紧凑且区分度更高。
上图展示了在 MIRFLICKR-25K 数据集上,不同方法学习到的哈希码的 t-SNE 降维可视化结果。图中,点 ('.') 代表图像,加号 ('+') 代表文本,不同颜色代表不同语义类别。
分析:
- 在
DCMH和DADH的结果中,不同类别的样本混杂在一起,类内结构松散。AGAH的结果虽然有聚类趋势,但同类内的图像和文本(相同颜色下的点和加号)分离严重,表明模态对齐不佳。- 在 CICH 的结果中,可以清晰地看到:(1) 类内紧凑性: 同一类别(同种颜色)的样本形成了非常紧凑的簇;(2) 类间可分性: 不同类别(不同颜色)的簇之间边界清晰;(3) 模态对齐性: 在每个簇内部,图像(点)和文本(加号)很好地融合在一起。这直观地证明了 CICH 在语义判别和模态对齐两方面的优越性。
6.2. 消融实验/参数分析
6.2.1. 消融实验
为了验证 CICH 每个组件的有效性,作者进行了一系列消融实验。结果如 Table V 所示。
以下是原文 Table V 的结果:
...
| 数据集 | 变体 | hard | medium | easy | |||
|---|---|---|---|---|---|---|---|
| i→t | t→i | i→t | t→i | i→t | t→i | ||
| MIRFLICKR-25K | Pair | 0.743 | 0.769 | 0.818 | 0.807 | 0.862 | 0.824 |
| PSSC | 0.896 | 0.831 | 0.899 | 0.833 | 0.901 | 0.837 | |
| PSSC+CCA | 0.907 | 0.842 | 0.906 | 0.843 | 0.915 | 0.845 | |
| CICH (PSSC+CCA+SaCH) | 0.917 | 0.845 | 0.918 | 0.845 | 0.924 | 0.847 | |
分析与解读:
-
Pair: 仅使用传统的成对损失,性能最差,尤其在hard模式下。这证明了传统方法在不完整数据上的局限性。 -
PSSC: 仅加入 PSSC 模块后,性能得到巨大提升。例如,在 MIRFLICKR-25K 的hard模式下,i→t 的 mAP 从 0.743 跃升至 0.896。这证明了 PSSC 通过全局标签原型重建语义相似性的策略是极其有效的。 -
: 在 PSSC 的基础上再加入 CCA 模块,性能进一步提升。这说明 CCA 模块通过信息瓶颈对齐和上下文感知的特征恢复,有效地解决了对应关系不确定的问题,并为 PSSC 提供了更高质量的“补全”数据。
-
CICH(完整模型): 最后加入 SaCH 模块后,性能达到最佳。这证明了 SaCH 模块通过语义感知的对比学习,进一步增强了哈希码的判别力,使得模态间的相似性学习更加鲁棒和精细。结论: 消融实验清晰地证明了 PSSC、CCA 和 SaCH 三个模块各自的必要性,以及它们协同工作时产生的累积效应。PSSC 和 CCA 负责打好“地基”(重建相似性结构和补全数据),而 SaCH 则负责在其上“精装修”(增强判别力)。
6.2.2. 参数分析
论文对几个关键超参数()进行了敏感性分析。
图 5: 参数敏感性分析
分析与解读:
- 从图中可以看出,在一定范围内,模型的性能对这些超参数的取值是相对鲁棒的。例如,对于温度 ,在
[0.25, 5.0]区间内都能取得不错的性能。对于邻居数量 ,在[5, 15]范围内表现较好。 - 这表明 CICH 并非一个需要极端精细调参的脆弱模型,具有一定的实用性。
- 最优参数组合显示,一个较大的 (SaCH 的权重)和一个较小的 (CCA 中信息压缩的强度)能带来更好的性能。这直观地解释为:(1) 增强模态间的对比学习(SaCH)对于提升判别力至关重要;(2) 对源模态信息的压缩不宜过强(CCA),以保留足够的信息用于特征恢复。
7. 总结与思考
7.1. 结论总结
本论文成功地识别并解决了深度跨模态哈希中一个长期被忽视但至关重要的问题:训练数据的不完整性。作者将该问题分解为相似性学习崩溃和对应关系不确定两大挑战,并为此提出了一个新颖、系统的解决方案——CICH (Contrastive Incomplete Cross-modal Hashing)。
CICH 的核心贡献在于其三位一体的协同框架:
-
PSSC 模块通过全局标签原型,从宏观上重建了被破坏的语义相似性。
-
SaCH 模块创新性地改造了对比学习,通过关系传播为不完整数据构建了鲁棒的对比关系,从微观上增强了哈希码的判别力。
-
CCA 模块利用上下文信息瓶颈,在实现模态对齐的同时,高质量地恢复了缺失特征,为整个学习过程提供了坚实的数据基础。
大量的实验结果,包括在多种不完整度下的核心性能对比、消融研究和可视化分析,均强有力地证明了 CICH 相对于现有最先进方法的显著优越性和鲁棒性。该工作是首次将对比学习成功引入不完整跨模态哈希领域的尝试,为解决现实世界中的不完美数据问题开辟了新的道路。
7.2. 局限性与未来工作
尽管论文取得了显著成功,但仍可从以下角度思考其潜在的局限性和未来研究方向:
- 计算复杂度: CICH 包含三个复杂的损失模块,特别是 PSSC 涉及到与整个数据库的样本进行比较,CCA 需要进行 K 近邻搜索,这可能导致训练过程的计算开销大于一些传统方法。虽然论文中的时间效率分析(图 6)表明其收敛速度尚可,但在超大规模数据集上的可扩展性仍有待进一步验证。
- 超参数敏感性: 模型引入了多个新的超参数(),虽然参数分析表明其在一定范围内稳定,但在新任务或数据集上,寻找最优参数组合可能仍需一定的调试成本。
- 对极度不完整性的探索: 论文最困难的设置是 10% 的配对数据。在现实中,可能存在更极端的情况(如 <1% 配对)。模型在这些场景下的性能边界值得探索。
- 多模态扩展: 论文主要在图像-文本双模态上进行验证。将其框架扩展到三种或更多模态(如视频、音频、文本)的不完整场景是一个有价值的未来方向。
- 无监督场景: 本文的方法是监督式的,依赖于标签信息。如何将这种思想迁移到完全无监督的不完整跨模态哈希任务中,是一个更具挑战性但意义重大的问题。
7.3. 个人启发与批判
这篇论文给我带来了深刻的启发,它体现了解决复杂问题时一种系统性、分而治之的优雅思路。
-
启发点:
- 正视问题,而非回避: 面对数据不完整这一棘手问题,作者没有选择简化假设,而是直面其带来的多重挑战,并逐一设计精巧的模块来应对。这种严谨的研究态度值得学习。
- 思想的巧妙迁移与改造: 本文并非简单地将对比学习或信息瓶颈“拿来就用”,而是深刻理解了它们在不完整数据场景下的局限,并进行了创造性的改造。例如,
SaCH中的关系传播和CCA中的上下文融合,都是针对特定问题量身定制的 brilliant idea。 - 全局与局部的协同:
PSSC模块提供全局视角,而SaCH关注局部对比,这种宏观与微观结合的策略在很多机器学习问题中都具有借鉴意义。
-
批判性思考:
-
邻居选择的可靠性:
CCA模块依赖于在哈希空间中找到的 K 近邻作为上下文。在训练早期,哈希空间本身尚不完善,找到的邻居可能并不可靠,这可能导致“错误的上下文”被用于特征恢复,从而引入噪声。这种“先有鸡还是先有蛋”的问题是否会对模型收敛造成影响,值得进一步探讨。或许可以引入一种课程学习(Curriculum Learning)的策略,在训练初期给予上下文较低的权重。 -
标签依赖性: 整个框架(特别是 PSSC)在很大程度上依赖于高质量的标签信息。如果标签本身存在噪声或不完整,模型的性能可能会受到影响。尽管这是所有监督学习方法的共同问题,但在一个旨在解决“数据不完整”的框架中,对“标签完整”的依赖是一个值得注意的假设。
总而言之,
Contrastive Incomplete Cross-Modal Hashing是一篇质量极高、构思精巧的论文。它不仅为不完整跨模态检索领域提供了一个强大的新基准,更重要的是,其背后解决问题的系统性思维和对现有技术进行创造性改造的方法论,对任何领域的AI研究者都具有重要的启发价值。
-
相似论文推荐
基于向量语义检索推荐的相关论文。
该图像是示意图,展示了不完整跨模态哈希中的三种障碍:(a) 理想情况的跨模态数据完美配对形成语义聚类;(b) 部分观测数据导致语义和模态关系模糊;(c) 不确定的实例对应关系损害了一对一特征对齐和跨模态知识交互。
该图像是作者本人正面头像照片,用于展示研究人员的形象信息,图像内容清晰,无其他附加元素。
该图像是多个数据集(FLICKR-25K、MS COCO、NUS-WIDE-10K)上四种跨模态哈希方法(DCMH、DADH、AGAH、CICH)的二维t-SNE特征散点图,展示了各方法对多类别数据的聚类与区分能力,明显可见CICH方法聚类效果更为紧凑且区分度更高。