论文状态:已完成

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

发表:2023/01/20
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种新的自监督学习模型——图像基础联合嵌入预测架构(I-JEPA),通过从单一上下文块预测同一图像中多个目标块的表征,实现高效的表征学习。I-JEPA无需手工数据增强,借助一个特定的遮蔽策略显著提升了在ImageNet上的表现,展现出极佳的计算效率和广泛的适用性。

摘要

This paper demonstrates an approach for learning highly semantic image representations without relying on hand-crafted data-augmentations. We introduce the Image-based Joint-Embedding Predictive Architecture (I-JEPA), a non-generative approach for self-supervised learning from images. The idea behind I-JEPA is simple: from a single context block, predict the representations of various target blocks in the same image. A core design choice to guide I-JEPA towards producing semantic representations is the masking strategy; specifically, it is crucial to (a) sample target blocks with sufficiently large scale (semantic), and to (b) use a sufficiently informative (spatially distributed) context block. Empirically, when combined with Vision Transformers, we find I-JEPA to be highly scalable. For instance, we train a ViT-Huge/14 on ImageNet using 16 A100 GPUs in under 72 hours to achieve strong downstream performance across a wide range of tasks, from linear classification to object counting and depth prediction.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

自监督图像学习的联合嵌入预测架构 (Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture)

1.2. 作者

Mahmoud Assran, Quentin Duval, Ishan Misra, Piotr Bojanowski, Pascal Vincent, Michael Rabbat, Yann LeCun, Nicolas Ballas。 作者主要隶属于 Meta AI (FAIR),以及麦吉尔大学 (McGill University)、纽约大学 (New York University) 和 Mila 魁北克人工智能研究所。其中,Yann LeCun 是图灵奖得主,也是该论文架构设计思路(JEPA)的提出者。

1.3. 发表期刊/会议

该论文发表于 CVPR 2023(计算机视觉与模式识别会议),这是计算机视觉领域的顶级学术会议(CCF-A类)。

1.4. 发表年份

2023年(预印本最早发布于 2023 年 1 月)。

1.5. 摘要

本文提出了一种名为 图像基础联合嵌入预测架构 (Image-based Joint-Embedding Predictive Architecture, I-JEPA) 的非生成式自监督学习方法。I-JEPA 的核心思想是:从单一的“上下文块”出发,在表征空间 (Representation Space) 中预测同一图像中多个“目标块”的表征。该方法不依赖于手工设计的数据增强 (Data Augmentations),通过一种多块遮蔽策略引导模型学习高水平的语义特征。实验表明,I-JEPA 具有极高的计算效率和可扩展性,在 ImageNet 线性评估和各种下游任务(如目标计数、深度预测)上均表现出色。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

在计算机视觉的自监督学习 (Self-Supervised Learning, SSL) 领域,目前存在两大主流流派:

  1. 基于不变性的方法 (Invariance-based methods): 如 DINO、SimCLR。它们通过对同一张图进行大幅度的人工数据增强(如翻转、颜色抖动),强迫模型对这些变换保持不变。但这些增强往往带有强烈的人工偏见,且难以推广到音频等其他模态。

  2. 生成式方法 (Generative methods):遮蔽自编码器 (Masked Autoencoders, MAE)。它们遮住图片的一部分并尝试在像素层面重建它。虽然通用性强,但这种方法往往过于关注像素级的细节(如噪声、纹理),而忽略了高层语义。

    论文试图解决的核心问题: 能否在不依赖复杂人工数据增强的前提下,让模型直接学习图像的高层语义表征?

2.2. 核心贡献/主要发现

  • 提出了 I-JEPA 架构: 这是首个在图像领域成功应用 联合嵌入预测架构 (Joint-Embedding Predictive Architecture, JEPA) 的模型。它不预测像素,而是预测“特征的表征”。

  • 语义性更强: 由于在抽象的表征空间进行预测,模型会自动忽略掉不重要的像素细节,从而捕捉到更深刻的语义信息(如物体的结构、姿态)。

  • 计算效率极高: I-JEPA 的预训练速度非常快。例如,训练一个 ViT-Huge/14 模型在 16 张 A100 GPU 上仅需不到 72 小时,比传统的 MAE 快了近 10 倍。

  • 无需复杂增强: 仅通过简单的遮蔽策略即可达到甚至超过依赖复杂数据增强的方法。


3. 预备知识与相关工作

3.1. 基础概念

  • 自监督学习 (Self-Supervised Learning, SSL): 一种机器学习方法,不需要人工标注的标签。它利用数据自身的结构(如图像的一部分预测另一部分)来构造监督信号。
  • 视觉变换器 (Vision Transformer, ViT): 本文使用的 主干网络 (Backbone)。它将图像切成一个个小方块(Patches),像处理文本中的词一样处理这些方块。
  • 联合嵌入架构 (Joint-Embedding Architecture, JEA): 这种架构(见原文 Figure 2a)将两个输入映射到同一个特征空间。目标是让“兼容”的输入(如同一张图的不同视图)在空间中靠近。
  • 指数移动平均 (Exponential Moving Average, EMA): 在训练中,目标编码器的参数不是通过梯度更新的,而是上下文编码器参数的加权平均,这有助于防止模型产生表征崩溃 (Representation Collapse)(即模型对所有输入都输出同一个常数)。

3.2. 前人工作

  • MAE (Masked Autoencoders): 遮蔽部分像素并重建。本文与之最大的区别在于:MAE 在像素空间做减法(重建),I-JEPA 在嵌入空间做预测。
  • DINO / iBOT: 依赖强力的数据增强。I-JEPA 证明了即使不使用这些增强,仅靠空间位置预测也能学得很好。

3.3. 技术演进与差异化

下图(原文 Figure 2)清晰地对比了三种架构:

该图像是示意图,展示了三种不同的嵌入架构:联合嵌入架构、生成架构与联合嵌入预测架构。这些架构旨在通过对比学习提升图像表征的语义性,尤其是通过推测上下文信息来生成目标表示。图中包含的公式 \(D(s_x, s_y)\) 表示对嵌入的判别过程。 该图像是示意图,展示了三种不同的嵌入架构:联合嵌入架构、生成架构与联合嵌入预测架构。这些架构旨在通过对比学习提升图像表征的语义性,尤其是通过推测上下文信息来生成目标表示。图中包含的公式 D(sx,sy)D(s_x, s_y) 表示对嵌入的判别过程。

  • (a) JEA: 学习输入 x, y 的相似性。

  • (b) 生成架构: 通过解码器重建信号 yy

  • (c) JEPA (本文): 给定 xx 和位置信息 zz,在嵌入空间预测 yy 的表征。


4. 方法论

4.1. 方法原理

I-JEPA 的直觉源自 Yann LeCun 对世界模型的设想:智能系统应该在抽象空间预测未来或缺失的信息,而不是去模拟每一个微小的像素。

4.2. 核心方法详解 (融合讲解)

I-JEPA 的具体执行逻辑分为以下几个关键步骤:

4.2.1. 目标表征生成 (Target Generation)

首先,模型将原始图像 yy 切分为 NN 个不重叠的 词元 (Tokens)。这些词元通过一个 目标编码器 (Target-Encoder) fθˉf_{\bar{\theta}},得到对应的特征表征 sy={sy1,,syN}s_y = \{s_{y_1}, \dots, s_{y_N}\}

  • 注意: 这里的目标表征是在嵌入空间生成的。
  • 参数更新: 目标编码器 fθˉf_{\bar{\theta}} 的参数 θˉ\bar{\theta} 通过对上下文编码器参数 θ\theta 进行 指数移动平均 (EMA) 更新。

4.2.2. 多块遮蔽策略 (Multi-block Masking)

这是 I-JEPA 获得语义能力的核心(见原文 Figure 4)。

  1. 目标块采样: 随机从图像中选取 MM 个(通常 M=4M=4)可能重叠的方块作为 目标块 (Target Blocks)。每个块的比例在 (0.15,0.2)(0.15, 0.2) 之间。

  2. 上下文块采样: 采样一个较大的方块作为 上下文块 (Context Block),比例在 (0.85,1.0)(0.85, 1.0)

  3. 去重: 为了保证预测任务具有挑战性,如果上下文块与目标块有重叠,则从上下文块中移除重叠部分。

    Figure 4. Examples of our context and target-masking strategy. Given an image, we randomly sample 4 target blocks with scale in the range (0.15, 0.2) and aspect ratio in the range (0.75, 1.5). Next, we randomly sample a context block with scale in the range (0.85, 1.0) and remove any overlapping target blocks. Under this strategy, the target-blocks are relatively semantic, and the contextblock is informative, yet sparse (efficient to process). 该图像是示意图,展示了上下文和目标块的随机采样策略。原图展示了四个目标块与对应的上下文块,目标块相对语义化,而上下文块则具有信息性,且稀疏有效。

4.2.3. 上下文编码 (Context Encoding)

上下文块 xx 被输入到 上下文编码器 (Context-Encoder) fθf_{\theta}(一个 ViT 架构)。其输出为 sxs_x,仅包含可见区域的特征。

4.2.4. 在嵌入空间进行预测 (Prediction)

这是最关键的一步。预测器 (Predictor) gϕg_{\phi}(一个较小的 ViT)接收两个输入:

  1. 上下文特征 sxs_x

  2. 位置词元 (Positional Mask Tokens) {mj}jBi\{m_j\}_{j \in B_i},这些词元告诉预测器我们要预测哪个位置的目标块。

    预测器的输出为预测出的特征表征 s^y(i)\hat{s}_y(i)

4.2.5. 损失函数 (Loss Function)

I-JEPA 使用简单的 均方误差 (L2 Distance) 作为损失函数,计算预测出的特征与真实目标特征之间的差异:

1Mi=1MD(s^y(i),sy(i))=1Mi=1MjBis^yjsyj22 \frac{1}{M} \sum_{i=1}^{M} D\left(\hat{\boldsymbol{s}}_{y}(i), \boldsymbol{s}_{y}(i)\right) = \frac{1}{M} \sum_{i=1}^{M} \sum_{j \in B_{i}}\left\|\hat{\boldsymbol{s}}_{y_{j}}-\boldsymbol{s}_{y_{j}}\right\|_{2}^{2}

  • MM: 采样目标块的数量。

  • BiB_i:ii 个目标块覆盖的索引集合。

  • s^yj\hat{\boldsymbol{s}}_{y_j}: 预测器输出的第 jj 个位置的特征。

  • syj\boldsymbol{s}_{y_j}: 目标编码器输出的第 jj 个位置的真实特征。

    下图展示了 I-JEPA 的整体架构流程:

    Figure 3. I-JEPA. The Image-based Joint-Embedding Predictive Architecture uses a single context block to predict the representations of various target blocks originating from the same image. The context encoder is a Vision Transformer (ViT), which only processes the visible context patches. The predictor is a narrow ViT that takes the context encoder output and, conditioned on positional tokens (shown in color), predicts the representations of a target block at a specific location. The target representations correspond to the outputs of the target-encoder, the weights of which are updated at each iteration via an exponential moving average of the context encoder weights. 该图像是示意图,展示了图像基础的联合嵌入预测架构(I-JEPA)。通过单一上下文块来预测同一图像中不同目标块的表示,上下文编码器使用视觉变换器(ViT),而预测器则根据位置标记输出目标块的表示。相关损失通过 L2L_2 进行计算。


5. 实验设置

5.1. 数据集

  • ImageNet-1K: 包含约 128 万张图像,涵盖 1000 个类别。这是视觉模型最基础的战场。
  • ImageNet-22K: 更大规模的数据集,包含约 1400 万张图像。用于验证模型在大数据量下的 可扩展性 (Scalability)
  • Clevr 数据集: 用于下游的“目标计数”和“深度预测”任务。

5.2. 评估指标

  1. Top-1 准确率 (Top-1 Accuracy):
    • 概念定义: 衡量模型预测出的最高概率类别是否与真实标签一致。
    • 数学公式: Top-1 Acc=1Ni=1N1(y^i=yi)\text{Top-1 Acc} = \frac{1}{N} \sum_{i=1}^N \mathbb{1}(\hat{y}_i = y_i)
    • 符号解释: NN 为样本数,y^i\hat{y}_i 为模型预测的概率最大的类别,yiy_i 为真实类别标签。
  2. 线性评估 (Linear Probing): 冻结预训练好的主干网络,仅在其上方训练一个简单的线性层。这能直接反映预训练特征的质量。

5.3. 对比基线

  • 生成式方法: MAE, CAE, SimMIM。

  • 不变性方法: DINO, iBOT, MSN。

  • 多模态/通用方法: data2vec。


6. 实验结果与分析

6.1. 核心结果分析

  • 特征语义性: I-JEPA 在不使用增强的情况下,线性评估结果显著超过了 MAE。

  • 效率: Figure 1 表明 I-JEPA 在更短的训练时间内达到了更高的准确率。

    以下是原文 Table 1 的完整转录,展示了在 ImageNet-1k 上的线性评估对比:

    方法 (Method) 主干网络 (Arch.) 预训练轮数 (Epochs) Top-1 准确率 (%)
    不使用人工视图数据增强的方法 (Methods without view data augmentations)
    data2vec [8] ViT-L/16 1600 77.3
    MAE [36] ViT-B/16 1600 68.0
    MAE [36] ViT-L/16 1600 76.0
    MAE [36] ViT-H/14 1600 77.2
    CAE [22] ViT-L/16 1600 78.1
    I-JEPA (本文) ViT-B/16 600 72.9
    I-JEPA (本文) ViT-L/16 600 77.5
    I-JEPA (本文) ViT-H/14 300 79.3
    使用额外人工视图数据增强的方法 (Methods using extra view data augmentations)
    DINO [18] ViT-B/8 300 80.1
    iBOT [79] ViT-L/16 250 81.0

分析: 可以看到,I-JEPA 在 300-600 轮训练后的表现,就已经超越了训练 1600 轮的 MAE。

6.2. 效率与可扩展性

下图(原文 Figure 5)展示了预训练 GPU 小时数与性能的关系:

该图像是图表,展示了不同模型在预训练 GPU 小时与 Top 1 准确率之间的关系,特别是 I-JEPA 和其他方法的比较。 该图像是图表,展示了不同模型在预训练 GPU 小时与 Top 1 准确率之间的关系,特别是 I-JEPA 和其他方法的比较。

I-JEPA(实线)在极短的 GPU 时间内就能达到很高的准确率,其效率远超 iBOT 和 MAE。

6.3. 消融实验

Table 7 中,作者对比了在“像素空间”预测和在“表征空间”预测的差异: 以下是原文 Table 7 的结果:

预测目标 (Targets) 架构 (Arch.) 轮数 (Epochs) Top-1 (1% ImageNet)
目标编码器输出 (Target-Encoder Output) ViT-L/16 500 66.9
像素 (Pixels) ViT-L/16 800 40.7

分析: 如果将 I-JEPA 的预测目标改为像素(即退化为类似 MAE 的模式),性能会暴跌。这有力地证明了 “在表征空间预测” 是获取语义信息的关键。


7. 总结与思考

7.1. 结论总结

I-JEPA 成功验证了 LeCun 的 联合嵌入预测架构 (JEPA) 在图像领域的威力。它通过在抽象表征空间进行预测,摒弃了对复杂人工数据增强的依赖,学习到了极具语义性的特征,同时在计算效率上取得了突破性的进步。

7.2. 局限性与未来工作

  • 表征崩溃风险: 虽然 EMA 缓解了这个问题,但 JEA 架构天然存在崩溃风险,未来可能需要更稳健的正则化手段。
  • 多模态潜力: I-JEPA 的遮蔽预测逻辑非常通用,未来可以扩展到视频(时间轴预测)和音频领域。

7.3. 个人启发与批判

  • 启发: 这篇论文告诉我们,“任务的难度”(如从上下文预测复杂的语义特征)比“数据的花样”(如各种人工增强)更能促使模型理解世界。

  • 批判: 尽管 I-JEPA 减少了数据增强的需求,但它对 掩码 (Masking) 策略的参数非常敏感(如 Table 8/9 所示,目标块和上下文块的大小必须精准调节)。这种对超参数的敏感性在一定程度上替代了对数据增强的依赖,是否具有普适性仍需更多不同规模数据的验证。

  • 可视化意义: 原文 Figure 6 展示了预测器的可视化结果,即便在表征空间预测,解码回像素后依然能看到正确的物体姿态,这证明了模型确实理解了物体的空间结构。

    该图像是示意图,展示了使用I-JEPA架构进行图像自监督学习的过程。图中包含了多组图像块,其中部分图像块被遮蔽,目的是通过上下文块预测目标块的表示,展示了该算法的遮蔽策略。 该图像是示意图,展示了使用I-JEPA架构进行图像自监督学习的过程。图中包含了多组图像块,其中部分图像块被遮蔽,目的是通过上下文块预测目标块的表示,展示了该算法的遮蔽策略。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。