论文状态：已完成

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

发表：2023/01/20

ImageNet 数据集 (2)图像自监督学习 (1)图像联合嵌入预测架构 (1)视觉 Transformer (1)语义图像表示 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新的自监督学习模型——图像基础联合嵌入预测架构（I-JEPA），通过从单一上下文块预测同一图像中多个目标块的表征，实现高效的表征学习。I-JEPA无需手工数据增强，借助一个特定的遮蔽策略显著提升了在ImageNet上的表现，展现出极佳的计算效率和广泛的适用性。

摘要

This paper demonstrates an approach for learning highly semantic image representations without relying on hand-crafted data-augmentations. We introduce the Image-based Joint-Embedding Predictive Architecture (I-JEPA), a non-generative approach for self-supervised learning from images. The idea behind I-JEPA is simple: from a single context block, predict the representations of various target blocks in the same image. A core design choice to guide I-JEPA towards producing semantic representations is the masking strategy; specifically, it is crucial to (a) sample target blocks with sufficiently large scale (semantic), and to (b) use a sufficiently informative (spatially distributed) context block. Empirically, when combined with Vision Transformers, we find I-JEPA to be highly scalable. For instance, we train a ViT-Huge/14 on ImageNet using 16 A100 GPUs in under 72 hours to achieve strong downstream performance across a wide range of tasks, from linear classification to object counting and depth prediction.

思维导图

论文精读

中文精读约 10 分钟读完 · 5,688 字

1. 论文基本信息

1.1. 标题

自监督图像学习的联合嵌入预测架构 (Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture)

1.2. 作者

Mahmoud Assran, Quentin Duval, Ishan Misra, Piotr Bojanowski, Pascal Vincent, Michael Rabbat, Yann LeCun, Nicolas Ballas。作者主要隶属于 Meta AI (FAIR)，以及麦吉尔大学 (McGill University)、纽约大学 (New York University) 和 Mila 魁北克人工智能研究所。其中，Yann LeCun 是图灵奖得主，也是该论文架构设计思路（JEPA）的提出者。

1.3. 发表期刊/会议

该论文发表于 CVPR 2023（计算机视觉与模式识别会议），这是计算机视觉领域的顶级学术会议（CCF-A类）。

1.4. 发表年份

2023年（预印本最早发布于 2023 年 1 月）。

1.5. 摘要

本文提出了一种名为 图像基础联合嵌入预测架构 (Image-based Joint-Embedding Predictive Architecture, I-JEPA) 的非生成式自监督学习方法。I-JEPA 的核心思想是：从单一的“上下文块”出发，在表征空间 (Representation Space) 中预测同一图像中多个“目标块”的表征。该方法不依赖于手工设计的数据增强 (Data Augmentations)，通过一种多块遮蔽策略引导模型学习高水平的语义特征。实验表明，I-JEPA 具有极高的计算效率和可扩展性，在 ImageNet 线性评估和各种下游任务（如目标计数、深度预测）上均表现出色。

1.6. 原文链接

arXiv 链接: https://arxiv.org/abs/2301.08243
PDF 链接: https://arxiv.org/pdf/2301.08243v3.pdf
发布状态: 已正式发表于 CVPR 2023。

2. 整体概括

2.1. 研究背景与动机

在计算机视觉的自监督学习 (Self-Supervised Learning, SSL) 领域，目前存在两大主流流派：

基于不变性的方法 (Invariance-based methods): 如 DINO、SimCLR。它们通过对同一张图进行大幅度的人工数据增强（如翻转、颜色抖动），强迫模型对这些变换保持不变。但这些增强往往带有强烈的人工偏见，且难以推广到音频等其他模态。
生成式方法 (Generative methods): 如 遮蔽自编码器 (Masked Autoencoders, MAE)。它们遮住图片的一部分并尝试在像素层面重建它。虽然通用性强，但这种方法往往过于关注像素级的细节（如噪声、纹理），而忽略了高层语义。

论文试图解决的核心问题: 能否在不依赖复杂人工数据增强的前提下，让模型直接学习图像的高层语义表征？

2.2. 核心贡献/主要发现

提出了 I-JEPA 架构: 这是首个在图像领域成功应用 联合嵌入预测架构 (Joint-Embedding Predictive Architecture, JEPA) 的模型。它不预测像素，而是预测“特征的表征”。
语义性更强: 由于在抽象的表征空间进行预测，模型会自动忽略掉不重要的像素细节，从而捕捉到更深刻的语义信息（如物体的结构、姿态）。
计算效率极高: I-JEPA 的预训练速度非常快。例如，训练一个 ViT-Huge/14 模型在 16 张 A100 GPU 上仅需不到 72 小时，比传统的 MAE 快了近 10 倍。
无需复杂增强: 仅通过简单的遮蔽策略即可达到甚至超过依赖复杂数据增强的方法。

3. 预备知识与相关工作

3.1. 基础概念

自监督学习 (Self-Supervised Learning, SSL): 一种机器学习方法，不需要人工标注的标签。它利用数据自身的结构（如图像的一部分预测另一部分）来构造监督信号。
视觉变换器 (Vision Transformer, ViT): 本文使用的 主干网络 (Backbone)。它将图像切成一个个小方块（Patches），像处理文本中的词一样处理这些方块。
联合嵌入架构 (Joint-Embedding Architecture, JEA): 这种架构（见原文 Figure 2a）将两个输入映射到同一个特征空间。目标是让“兼容”的输入（如同一张图的不同视图）在空间中靠近。
指数移动平均 (Exponential Moving Average, EMA): 在训练中，目标编码器的参数不是通过梯度更新的，而是上下文编码器参数的加权平均，这有助于防止模型产生表征崩溃 (Representation Collapse)（即模型对所有输入都输出同一个常数）。

3.2. 前人工作

MAE (Masked Autoencoders): 遮蔽部分像素并重建。本文与之最大的区别在于：MAE 在像素空间做减法（重建），I-JEPA 在嵌入空间做预测。
DINO / iBOT: 依赖强力的数据增强。I-JEPA 证明了即使不使用这些增强，仅靠空间位置预测也能学得很好。

3.3. 技术演进与差异化

下图（原文 Figure 2）清晰地对比了三种架构：

$该图像是示意图，展示了三种不同的嵌入架构：联合嵌入架构、生成架构与联合嵌入预测架构。这些架构旨在通过对比学习提升图像表征的语义性，尤其是通过推测上下文信息来生成目标表示。图中包含的公式 $D(s_x, s_y)$ 表示对嵌入的判别过程。$ 该图像是示意图，展示了三种不同的嵌入架构：联合嵌入架构、生成架构与联合嵌入预测架构。这些架构旨在通过对比学习提升图像表征的语义性，尤其是通过推测上下文信息来生成目标表示。图中包含的公式 $D(s_x, s_y)$ 表示对嵌入的判别过程。

(a) JEA: 学习输入 x, y 的相似性。
(b) 生成架构: 通过解码器重建信号 $y$ 。
(c) JEPA (本文): 给定 $x$ 和位置信息 $z$ ，在嵌入空间预测 $y$ 的表征。

4. 方法论

4.1. 方法原理

I-JEPA 的直觉源自 Yann LeCun 对世界模型的设想：智能系统应该在抽象空间预测未来或缺失的信息，而不是去模拟每一个微小的像素。

4.2. 核心方法详解 (融合讲解)

I-JEPA 的具体执行逻辑分为以下几个关键步骤：

4.2.1. 目标表征生成 (Target Generation)

首先，模型将原始图像 $y$ 切分为 $N$ 个不重叠的 词元 (Tokens)。这些词元通过一个 目标编码器 (Target-Encoder) $f_{\bar{\theta}}$ ，得到对应的特征表征 $s_y = \{s_{y_1}, \dots, s_{y_N}\}$ 。

注意: 这里的目标表征是在嵌入空间生成的。
参数更新: 目标编码器 $f_{\bar{\theta}}$ 的参数 $\bar{\theta}$ 通过对上下文编码器参数 $\theta$ 进行 指数移动平均 (EMA) 更新。

4.2.2. 多块遮蔽策略 (Multi-block Masking)

这是 I-JEPA 获得语义能力的核心（见原文 Figure 4）。

目标块采样: 随机从图像中选取 $M$ 个（通常 $M=4$ ）可能重叠的方块作为 目标块 (Target Blocks)。每个块的比例在 $(0.15, 0.2)$ 之间。
上下文块采样: 采样一个较大的方块作为 上下文块 (Context Block)，比例在 $(0.85, 1.0)$ 。
去重: 为了保证预测任务具有挑战性，如果上下文块与目标块有重叠，则从上下文块中移除重叠部分。

该图像是示意图，展示了上下文和目标块的随机采样策略。原图展示了四个目标块与对应的上下文块，目标块相对语义化，而上下文块则具有信息性，且稀疏有效。

4.2.3. 上下文编码 (Context Encoding)

上下文块 $x$ 被输入到 上下文编码器 (Context-Encoder) $f_{\theta}$ （一个 ViT 架构）。其输出为 $s_x$ ，仅包含可见区域的特征。

4.2.4. 在嵌入空间进行预测 (Prediction)

这是最关键的一步。预测器 (Predictor) $g_{\phi}$ （一个较小的 ViT）接收两个输入：

上下文特征 $s_x$ 。
位置词元 (Positional Mask Tokens) $\{m_j\}_{j \in B_i}$ ，这些词元告诉预测器我们要预测哪个位置的目标块。

预测器的输出为预测出的特征表征 $\hat{s}_y(i)$ 。

4.2.5. 损失函数 (Loss Function)

I-JEPA 使用简单的 均方误差 (L2 Distance) 作为损失函数，计算预测出的特征与真实目标特征之间的差异：

$\frac{1}{M} \sum_{i=1}^{M} D\left(\hat{\boldsymbol{s}}_{y}(i), \boldsymbol{s}_{y}(i)\right) = \frac{1}{M} \sum_{i=1}^{M} \sum_{j \in B_{i}}\left\|\hat{\boldsymbol{s}}_{y_{j}}-\boldsymbol{s}_{y_{j}}\right\|_{2}^{2}$

$M$ : 采样目标块的数量。
$B_i$ : 第 $i$ 个目标块覆盖的索引集合。
$\hat{\boldsymbol{s}}_{y_j}$ : 预测器输出的第 $j$ 个位置的特征。
$\boldsymbol{s}_{y_j}$ : 目标编码器输出的第 $j$ 个位置的真实特征。

下图展示了 I-JEPA 的整体架构流程：

该图像是示意图，展示了图像基础的联合嵌入预测架构（I-JEPA）。通过单一上下文块来预测同一图像中不同目标块的表示，上下文编码器使用视觉变换器（ViT），而预测器则根据位置标记输出目标块的表示。相关损失通过 $L_2$ 进行计算。

5. 实验设置

5.1. 数据集

ImageNet-1K: 包含约 128 万张图像，涵盖 1000 个类别。这是视觉模型最基础的战场。
ImageNet-22K: 更大规模的数据集，包含约 1400 万张图像。用于验证模型在大数据量下的 可扩展性 (Scalability)。
Clevr 数据集: 用于下游的“目标计数”和“深度预测”任务。

5.2. 评估指标

Top-1 准确率 (Top-1 Accuracy):
- 概念定义: 衡量模型预测出的最高概率类别是否与真实标签一致。
- 数学公式: $\text{Top-1 Acc} = \frac{1}{N} \sum_{i=1}^N \mathbb{1}(\hat{y}_i = y_i)$
- 符号解释: $N$ 为样本数， $\hat{y}_i$ 为模型预测的概率最大的类别， $y_i$ 为真实类别标签。
线性评估 (Linear Probing): 冻结预训练好的主干网络，仅在其上方训练一个简单的线性层。这能直接反映预训练特征的质量。

5.3. 对比基线

生成式方法: MAE, CAE, SimMIM。
不变性方法: DINO, iBOT, MSN。
多模态/通用方法: data2vec。

6. 实验结果与分析

6.1. 核心结果分析

特征语义性: I-JEPA 在不使用增强的情况下，线性评估结果显著超过了 MAE。

效率: Figure 1 表明 I-JEPA 在更短的训练时间内达到了更高的准确率。

以下是原文 Table 1 的完整转录，展示了在 ImageNet-1k 上的线性评估对比：

方法 (Method)	主干网络 (Arch.)	预训练轮数 (Epochs)	Top-1 准确率 (%)
不使用人工视图数据增强的方法 (Methods without view data augmentations)
data2vec [8]	ViT-L/16	1600	77.3
MAE [36]	ViT-B/16	1600	68.0
MAE [36]	ViT-L/16	1600	76.0
MAE [36]	ViT-H/14	1600	77.2
CAE [22]	ViT-L/16	1600	78.1
I-JEPA (本文)	ViT-B/16	600	72.9
I-JEPA (本文)	ViT-L/16	600	77.5
I-JEPA (本文)	ViT-H/14	300	79.3
使用额外人工视图数据增强的方法 (Methods using extra view data augmentations)
DINO [18]	ViT-B/8	300	80.1
iBOT [79]	ViT-L/16	250	81.0

分析: 可以看到，I-JEPA 在 300-600 轮训练后的表现，就已经超越了训练 1600 轮的 MAE。

6.2. 效率与可扩展性

下图（原文 Figure 5）展示了预训练 GPU 小时数与性能的关系：

该图像是图表，展示了不同模型在预训练 GPU 小时与 Top 1 准确率之间的关系，特别是 I-JEPA 和其他方法的比较。

I-JEPA（实线）在极短的 GPU 时间内就能达到很高的准确率，其效率远超 iBOT 和 MAE。

6.3. 消融实验

在 Table 7 中，作者对比了在“像素空间”预测和在“表征空间”预测的差异：以下是原文 Table 7 的结果：

预测目标 (Targets)	架构 (Arch.)	轮数 (Epochs)	Top-1 (1% ImageNet)
目标编码器输出 (Target-Encoder Output)	ViT-L/16	500	66.9
像素 (Pixels)	ViT-L/16	800	40.7

分析: 如果将 I-JEPA 的预测目标改为像素（即退化为类似 MAE 的模式），性能会暴跌。这有力地证明了 “在表征空间预测” 是获取语义信息的关键。

7. 总结与思考

7.1. 结论总结

I-JEPA 成功验证了 LeCun 的 联合嵌入预测架构 (JEPA) 在图像领域的威力。它通过在抽象表征空间进行预测，摒弃了对复杂人工数据增强的依赖，学习到了极具语义性的特征，同时在计算效率上取得了突破性的进步。

7.2. 局限性与未来工作

表征崩溃风险: 虽然 EMA 缓解了这个问题，但 JEA 架构天然存在崩溃风险，未来可能需要更稳健的正则化手段。
多模态潜力: I-JEPA 的遮蔽预测逻辑非常通用，未来可以扩展到视频（时间轴预测）和音频领域。

7.3. 个人启发与批判

启发: 这篇论文告诉我们，“任务的难度”（如从上下文预测复杂的语义特征）比“数据的花样”（如各种人工增强）更能促使模型理解世界。
批判: 尽管 I-JEPA 减少了数据增强的需求，但它对 掩码 (Masking) 策略的参数非常敏感（如 Table 8/9 所示，目标块和上下文块的大小必须精准调节）。这种对超参数的敏感性在一定程度上替代了对数据增强的依赖，是否具有普适性仍需更多不同规模数据的验证。
可视化意义: 原文 Figure 6 展示了预测器的可视化结果，即便在表征空间预测，解码回像素后依然能看到正确的物体姿态，这证明了模型确实理解了物体的空间结构。

该图像是示意图，展示了使用I-JEPA架构进行图像自监督学习的过程。图中包含了多组图像块，其中部分图像块被遮蔽，目的是通过上下文块预测目标块的表示，展示了该算法的遮蔽策略。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。