Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
TL;DR 精炼摘要
本文提出了一种新的自监督学习模型——图像基础联合嵌入预测架构(I-JEPA),通过从单一上下文块预测同一图像中多个目标块的表征,实现高效的表征学习。I-JEPA无需手工数据增强,借助一个特定的遮蔽策略显著提升了在ImageNet上的表现,展现出极佳的计算效率和广泛的适用性。
摘要
This paper demonstrates an approach for learning highly semantic image representations without relying on hand-crafted data-augmentations. We introduce the Image-based Joint-Embedding Predictive Architecture (I-JEPA), a non-generative approach for self-supervised learning from images. The idea behind I-JEPA is simple: from a single context block, predict the representations of various target blocks in the same image. A core design choice to guide I-JEPA towards producing semantic representations is the masking strategy; specifically, it is crucial to (a) sample target blocks with sufficiently large scale (semantic), and to (b) use a sufficiently informative (spatially distributed) context block. Empirically, when combined with Vision Transformers, we find I-JEPA to be highly scalable. For instance, we train a ViT-Huge/14 on ImageNet using 16 A100 GPUs in under 72 hours to achieve strong downstream performance across a wide range of tasks, from linear classification to object counting and depth prediction.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
自监督图像学习的联合嵌入预测架构 (Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture)
1.2. 作者
Mahmoud Assran, Quentin Duval, Ishan Misra, Piotr Bojanowski, Pascal Vincent, Michael Rabbat, Yann LeCun, Nicolas Ballas。 作者主要隶属于 Meta AI (FAIR),以及麦吉尔大学 (McGill University)、纽约大学 (New York University) 和 Mila 魁北克人工智能研究所。其中,Yann LeCun 是图灵奖得主,也是该论文架构设计思路(JEPA)的提出者。
1.3. 发表期刊/会议
该论文发表于 CVPR 2023(计算机视觉与模式识别会议),这是计算机视觉领域的顶级学术会议(CCF-A类)。
1.4. 发表年份
2023年(预印本最早发布于 2023 年 1 月)。
1.5. 摘要
本文提出了一种名为 图像基础联合嵌入预测架构 (Image-based Joint-Embedding Predictive Architecture, I-JEPA) 的非生成式自监督学习方法。I-JEPA 的核心思想是:从单一的“上下文块”出发,在表征空间 (Representation Space) 中预测同一图像中多个“目标块”的表征。该方法不依赖于手工设计的数据增强 (Data Augmentations),通过一种多块遮蔽策略引导模型学习高水平的语义特征。实验表明,I-JEPA 具有极高的计算效率和可扩展性,在 ImageNet 线性评估和各种下游任务(如目标计数、深度预测)上均表现出色。
1.6. 原文链接
-
arXiv 链接: https://arxiv.org/abs/2301.08243
-
发布状态: 已正式发表于 CVPR 2023。
2. 整体概括
2.1. 研究背景与动机
在计算机视觉的自监督学习 (Self-Supervised Learning, SSL) 领域,目前存在两大主流流派:
-
基于不变性的方法 (Invariance-based methods): 如 DINO、SimCLR。它们通过对同一张图进行大幅度的人工数据增强(如翻转、颜色抖动),强迫模型对这些变换保持不变。但这些增强往往带有强烈的人工偏见,且难以推广到音频等其他模态。
-
生成式方法 (Generative methods): 如 遮蔽自编码器 (Masked Autoencoders, MAE)。它们遮住图片的一部分并尝试在像素层面重建它。虽然通用性强,但这种方法往往过于关注像素级的细节(如噪声、纹理),而忽略了高层语义。
论文试图解决的核心问题: 能否在不依赖复杂人工数据增强的前提下,让模型直接学习图像的高层语义表征?
2.2. 核心贡献/主要发现
-
提出了 I-JEPA 架构: 这是首个在图像领域成功应用 联合嵌入预测架构 (Joint-Embedding Predictive Architecture, JEPA) 的模型。它不预测像素,而是预测“特征的表征”。
-
语义性更强: 由于在抽象的表征空间进行预测,模型会自动忽略掉不重要的像素细节,从而捕捉到更深刻的语义信息(如物体的结构、姿态)。
-
计算效率极高: I-JEPA 的预训练速度非常快。例如,训练一个
ViT-Huge/14模型在 16 张 A100 GPU 上仅需不到 72 小时,比传统的 MAE 快了近 10 倍。 -
无需复杂增强: 仅通过简单的遮蔽策略即可达到甚至超过依赖复杂数据增强的方法。
3. 预备知识与相关工作
3.1. 基础概念
- 自监督学习 (Self-Supervised Learning, SSL): 一种机器学习方法,不需要人工标注的标签。它利用数据自身的结构(如图像的一部分预测另一部分)来构造监督信号。
- 视觉变换器 (Vision Transformer, ViT): 本文使用的 主干网络 (Backbone)。它将图像切成一个个小方块(Patches),像处理文本中的词一样处理这些方块。
- 联合嵌入架构 (Joint-Embedding Architecture, JEA): 这种架构(见原文 Figure 2a)将两个输入映射到同一个特征空间。目标是让“兼容”的输入(如同一张图的不同视图)在空间中靠近。
- 指数移动平均 (Exponential Moving Average, EMA): 在训练中,目标编码器的参数不是通过梯度更新的,而是上下文编码器参数的加权平均,这有助于防止模型产生表征崩溃 (Representation Collapse)(即模型对所有输入都输出同一个常数)。
3.2. 前人工作
- MAE (Masked Autoencoders): 遮蔽部分像素并重建。本文与之最大的区别在于:MAE 在像素空间做减法(重建),I-JEPA 在嵌入空间做预测。
- DINO / iBOT: 依赖强力的数据增强。I-JEPA 证明了即使不使用这些增强,仅靠空间位置预测也能学得很好。
3.3. 技术演进与差异化
下图(原文 Figure 2)清晰地对比了三种架构:
该图像是示意图,展示了三种不同的嵌入架构:联合嵌入架构、生成架构与联合嵌入预测架构。这些架构旨在通过对比学习提升图像表征的语义性,尤其是通过推测上下文信息来生成目标表示。图中包含的公式 表示对嵌入的判别过程。
-
(a) JEA: 学习输入
x, y的相似性。 -
(b) 生成架构: 通过解码器重建信号 。
-
(c) JEPA (本文): 给定 和位置信息 ,在嵌入空间预测 的表征。
4. 方法论
4.1. 方法原理
I-JEPA 的直觉源自 Yann LeCun 对世界模型的设想:智能系统应该在抽象空间预测未来或缺失的信息,而不是去模拟每一个微小的像素。
4.2. 核心方法详解 (融合讲解)
I-JEPA 的具体执行逻辑分为以下几个关键步骤:
4.2.1. 目标表征生成 (Target Generation)
首先,模型将原始图像 切分为 个不重叠的 词元 (Tokens)。这些词元通过一个 目标编码器 (Target-Encoder) ,得到对应的特征表征 。
- 注意: 这里的目标表征是在嵌入空间生成的。
- 参数更新: 目标编码器 的参数 通过对上下文编码器参数 进行 指数移动平均 (EMA) 更新。
4.2.2. 多块遮蔽策略 (Multi-block Masking)
这是 I-JEPA 获得语义能力的核心(见原文 Figure 4)。
-
目标块采样: 随机从图像中选取 个(通常 )可能重叠的方块作为 目标块 (Target Blocks)。每个块的比例在 之间。
-
上下文块采样: 采样一个较大的方块作为 上下文块 (Context Block),比例在 。
-
去重: 为了保证预测任务具有挑战性,如果上下文块与目标块有重叠,则从上下文块中移除重叠部分。
该图像是示意图,展示了上下文和目标块的随机采样策略。原图展示了四个目标块与对应的上下文块,目标块相对语义化,而上下文块则具有信息性,且稀疏有效。
4.2.3. 上下文编码 (Context Encoding)
上下文块 被输入到 上下文编码器 (Context-Encoder) (一个 ViT 架构)。其输出为 ,仅包含可见区域的特征。
4.2.4. 在嵌入空间进行预测 (Prediction)
这是最关键的一步。预测器 (Predictor) (一个较小的 ViT)接收两个输入:
-
上下文特征 。
-
位置词元 (Positional Mask Tokens) ,这些词元告诉预测器我们要预测哪个位置的目标块。
预测器的输出为预测出的特征表征 。
4.2.5. 损失函数 (Loss Function)
I-JEPA 使用简单的 均方误差 (L2 Distance) 作为损失函数,计算预测出的特征与真实目标特征之间的差异:
-
: 采样目标块的数量。
-
: 第 个目标块覆盖的索引集合。
-
: 预测器输出的第 个位置的特征。
-
: 目标编码器输出的第 个位置的真实特征。
下图展示了 I-JEPA 的整体架构流程:
该图像是示意图,展示了图像基础的联合嵌入预测架构(I-JEPA)。通过单一上下文块来预测同一图像中不同目标块的表示,上下文编码器使用视觉变换器(ViT),而预测器则根据位置标记输出目标块的表示。相关损失通过 进行计算。
5. 实验设置
5.1. 数据集
- ImageNet-1K: 包含约 128 万张图像,涵盖 1000 个类别。这是视觉模型最基础的战场。
- ImageNet-22K: 更大规模的数据集,包含约 1400 万张图像。用于验证模型在大数据量下的 可扩展性 (Scalability)。
- Clevr 数据集: 用于下游的“目标计数”和“深度预测”任务。
5.2. 评估指标
- Top-1 准确率 (Top-1 Accuracy):
- 概念定义: 衡量模型预测出的最高概率类别是否与真实标签一致。
- 数学公式:
- 符号解释: 为样本数, 为模型预测的概率最大的类别, 为真实类别标签。
- 线性评估 (Linear Probing): 冻结预训练好的主干网络,仅在其上方训练一个简单的线性层。这能直接反映预训练特征的质量。
5.3. 对比基线
-
生成式方法: MAE, CAE, SimMIM。
-
不变性方法: DINO, iBOT, MSN。
-
多模态/通用方法: data2vec。
6. 实验结果与分析
6.1. 核心结果分析
-
特征语义性: I-JEPA 在不使用增强的情况下,线性评估结果显著超过了 MAE。
-
效率: Figure 1 表明 I-JEPA 在更短的训练时间内达到了更高的准确率。
以下是原文 Table 1 的完整转录,展示了在 ImageNet-1k 上的线性评估对比:
方法 (Method) 主干网络 (Arch.) 预训练轮数 (Epochs) Top-1 准确率 (%) 不使用人工视图数据增强的方法 (Methods without view data augmentations) data2vec [8] ViT-L/16 1600 77.3 MAE [36] ViT-B/16 1600 68.0 MAE [36] ViT-L/16 1600 76.0 MAE [36] ViT-H/14 1600 77.2 CAE [22] ViT-L/16 1600 78.1 I-JEPA (本文) ViT-B/16 600 72.9 I-JEPA (本文) ViT-L/16 600 77.5 I-JEPA (本文) ViT-H/14 300 79.3 使用额外人工视图数据增强的方法 (Methods using extra view data augmentations) DINO [18] ViT-B/8 300 80.1 iBOT [79] ViT-L/16 250 81.0
分析: 可以看到,I-JEPA 在 300-600 轮训练后的表现,就已经超越了训练 1600 轮的 MAE。
6.2. 效率与可扩展性
下图(原文 Figure 5)展示了预训练 GPU 小时数与性能的关系:
该图像是图表,展示了不同模型在预训练 GPU 小时与 Top 1 准确率之间的关系,特别是 I-JEPA 和其他方法的比较。
I-JEPA(实线)在极短的 GPU 时间内就能达到很高的准确率,其效率远超 iBOT 和 MAE。
6.3. 消融实验
在 Table 7 中,作者对比了在“像素空间”预测和在“表征空间”预测的差异: 以下是原文 Table 7 的结果:
| 预测目标 (Targets) | 架构 (Arch.) | 轮数 (Epochs) | Top-1 (1% ImageNet) |
|---|---|---|---|
| 目标编码器输出 (Target-Encoder Output) | ViT-L/16 | 500 | 66.9 |
| 像素 (Pixels) | ViT-L/16 | 800 | 40.7 |
分析: 如果将 I-JEPA 的预测目标改为像素(即退化为类似 MAE 的模式),性能会暴跌。这有力地证明了 “在表征空间预测” 是获取语义信息的关键。
7. 总结与思考
7.1. 结论总结
I-JEPA 成功验证了 LeCun 的 联合嵌入预测架构 (JEPA) 在图像领域的威力。它通过在抽象表征空间进行预测,摒弃了对复杂人工数据增强的依赖,学习到了极具语义性的特征,同时在计算效率上取得了突破性的进步。
7.2. 局限性与未来工作
- 表征崩溃风险: 虽然 EMA 缓解了这个问题,但 JEA 架构天然存在崩溃风险,未来可能需要更稳健的正则化手段。
- 多模态潜力: I-JEPA 的遮蔽预测逻辑非常通用,未来可以扩展到视频(时间轴预测)和音频领域。
7.3. 个人启发与批判
-
启发: 这篇论文告诉我们,“任务的难度”(如从上下文预测复杂的语义特征)比“数据的花样”(如各种人工增强)更能促使模型理解世界。
-
批判: 尽管 I-JEPA 减少了数据增强的需求,但它对 掩码 (Masking) 策略的参数非常敏感(如 Table 8/9 所示,目标块和上下文块的大小必须精准调节)。这种对超参数的敏感性在一定程度上替代了对数据增强的依赖,是否具有普适性仍需更多不同规模数据的验证。
-
可视化意义: 原文 Figure 6 展示了预测器的可视化结果,即便在表征空间预测,解码回像素后依然能看到正确的物体姿态,这证明了模型确实理解了物体的空间结构。
该图像是示意图,展示了使用I-JEPA架构进行图像自监督学习的过程。图中包含了多组图像块,其中部分图像块被遮蔽,目的是通过上下文块预测目标块的表示,展示了该算法的遮蔽策略。
相似论文推荐
基于向量语义检索推荐的相关论文。