论文状态:已完成

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

发表:2025/12/12
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了视觉-语言模型VL-JEPA,基于联合嵌入预测架构(JEPA),与经典自回归模型不同,VL-JEPA在抽象表示空间内预测目标文本的连续嵌入。实验表明,该模型在参数量减少50%的情况下,性能优于传统视觉-语言模型,同时支持选择性解码,减少解码操作2.85倍,适用于开放词汇分类、文本到视频检索等多种任务。

摘要

We introduce VL-JEPA, a vision-language model built on a Joint Embedding Predictive Architecture (JEPA). Instead of autoregressively generating tokens as in classical VLMs, VL-JEPA predicts continuous embeddings of the target texts. By learning in an abstract representation space, the model focuses on task-relevant semantics while abstracting away surface-level linguistic variability. In a strictly controlled comparison against standard token-space VLM training with the same vision encoder and training data, VL-JEPA achieves stronger performance while having 50% fewer trainable parameters. At inference time, a lightweight text decoder is invoked only when needed to translate VL-JEPA predicted embeddings into text. We show that VL-JEPA natively supports selective decoding that reduces the number of decoding operations by 2.85x while maintaining similar performance compared to non-adaptive uniform decoding. Beyond generation, the VL-JEPA's embedding space naturally supports open-vocabulary classification, text-to-video retrieval, and discriminative VQA without any architecture modification. On eight video classification and eight video retrieval datasets, the average performance VL-JEPA surpasses that of CLIP, SigLIP2, and Perception Encoder. At the same time, the model achieves comparable performance as classical VLMs (InstructBLIP, QwenVL) on four VQA datasets: GQA, TallyQA, POPE and POPEv2, despite only having 1.6B parameters.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language (VL-JEPA:用于视觉-语言的联合嵌入预测架构)

1.2. 作者

Delong Chen (陈德隆)Mustafa ShukorThéo MoutakanniWilly ChungJade YuTejaswi KasarlaAllen BolourchiYann LeCun (杨立昆)、Pascale Fung (冯雁)。

  • 研究背景与隶属机构: 本文由 Meta FAIR(基本人工智能研究院)、香港科技大学 (HKUST)、索邦大学和纽约大学 (NYU) 合作完成。其中,杨立昆教授是图灵奖得主,也是联合嵌入预测架构 (JEPA) 理论的核心提出者。

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台(发布日期:2025年12月11日)。鉴于作者阵容包含人工智能领域的顶尖科学家且出自 Meta FAIR 实验室,该研究在计算机视觉与多模态学习领域具有极高的关注度和潜在影响力。

1.4. 摘要

本文引入了 VL-JEPA,这是一种基于联合嵌入预测架构 (Joint Embedding Predictive Architecture, JEPA) 的视觉-语言模型。不同于经典的视觉-语言模型 (VLM) 采用自回归方式生成词元 (token),VL-JEPA 在抽象的表示空间内学习,预测目标文本的连续嵌入 (embedding)。这种方法使模型能够专注于任务相关的语义,而忽略表层语言的可变性(如词汇选择或同义词)。实验表明,在严格受控的对比中,VL-JEPA 在可训练参数量减少 50% 的情况下,表现优于传统的词元空间 VLM。此外,它支持选择性解码 (selective decoding),在保持性能的同时将解码操作减少了 2.85 倍。VL-JEPA 还在视频分类、检索和判别式问答任务中表现出色,以 1.6B 的参数量达到了与 InstructBLIP 等大型模型相当的水平。

1.5. 原文链接

2. 整体概括

2.1. 研究背景与动机

当前先进的机器智能系统(如可穿戴设备、机器人)需要实时理解物理世界。实现这一目标的主流方法是使用大型词元生成式视觉-语言模型 (Generative VLMs),它们通过视觉输入和文本查询,以自回归 (autoregressive) 方式在词元空间生成响应。

然而,这种做法存在两个主要缺陷:

  1. 训练成本昂贵: 模型不仅要学习任务语义,还要花费大量计算资源去建模无关紧要的表层特征(如语气、词法变化或不同的措辞方式)。

  2. 推理延迟高: 实时任务(如直播视频跟踪)需要稀疏且选择性的反馈,但生成式模型必须逐个词元地进行昂贵的解码,无法在揭示语义前动态更新。

    论文切入点: 作者提出将视觉-语言任务从繁重的“词元生成”转向高效的“潜空间语义预测”,即利用 JEPA 架构在连续的嵌入空间进行预测。

2.2. 核心贡献/主要发现

  • 首个通用视觉-语言 JEPA 模型: 提出了 VL-JEPA 架构,首次证明了非生成式模型可以在通用视觉-语言任务上达到甚至超过生成式模型的性能。

  • 学习效率的质跃: 在相同的数据和编码器下,VL-JEPA 的学习效率显著高于词元预测模型,且可训练参数量仅为后者的一半。

  • 高效推理的选择性解码: 引入了一种原生支持的选择性解码 (selective decoding) 机制。模型可以持续监测语义流,仅在语义发生显著变化时才调用轻量级解码器,从而大幅降低推理开销。

  • 多任务统一架构: 一个统一的架构同时支持开放词汇分类、文本-视频检索、视觉问答 (VQA) 和视频标题生成。


3. 预备知识与相关工作

3.1. 基础概念

为了理解本文,初学者需要掌握以下核心概念:

  • 词元 (token): 文本处理的最小单位。在生成式模型中,模型会预测下一个词元的概率分布。
  • 嵌入 (embedding): 将离散的词元或图像块映射到高维空间中的连续向量。相近含义的物体在这个空间中距离更近。
  • 联合嵌入预测架构 (Joint Embedding Predictive Architecture, JEPA): 这是杨立昆提出的一种学习范式。它不尝试重构输入的原始像素或单词(这被认为是非必要的浪费),而是预测输入在表示空间(Representation Space)中的抽象表示。
  • 自回归 (autoregressive): 一种生成序列的方法,每次生成一个元素,并将已生成的元素作为下一步的输入。这在处理长文本或视频流时非常缓慢。
  • 判别式任务 (Discriminative Tasks): 指的是分类、检索等从候选项中挑选正确答案的任务。

3.2. 前人工作与技术演进

视觉-语言领域主要有两个技术脉络:

  1. CLIP 风格 (JEA 架构): 通过对比学习(Contrastive Learning)将图像和文本对齐到一个共享空间,擅长检索和分类,但不擅长复杂的问答和生成。

  2. 生成式 VLM: 将视觉编码器(如 CLIP 的主干网络)连接到大语言模型 (LLM),通过微调 (fine-tuning) 实现对话能力。

    VL-JEPA 的位置: 它介于两者之间。它像 CLIP 一样在嵌入空间工作,但又像 VLM 一样包含一个“预测器 (Predictor)”,能够根据复杂的文本查询(如“图中发生了什么?”)来预测答案的嵌入,从而兼具了两者的优点。

3.3. 差异化分析

相较于传统 VLM,VL-JEPA 的核心创新在于预测目标是连续向量而非离散词元

  • 在词元空间,"The light is off" 和 "It is dark" 是完全不同的词序列(正交)。
  • 在嵌入空间,这两者的向量位置非常接近。 这降低了学习难度,使模型无需纠结于措辞,只需把握语义。

4. 方法论

4.1. 方法原理

VL-JEPA 的核心思想是:给定视觉输入 XVX_V 和文本查询 XQX_Q,模型通过预测器预测出目标文本 YY 在抽象空间中的嵌入 SYS_Y。训练时,模型最小化预测嵌入 S^Y\hat{S}_Y 与真实文本嵌入 SYS_Y 之间的距离。

下图(原文 Figure 1)展示了 VL-JEPA 的模型架构:

Figure 1. VL-JEPA model architecture 该图像是VL-JEPA模型架构示意图。它展示了视觉输入通过X-Encoder进行编码,生成的表示和文本查询一起输入到预测器,最终输出文本目标的表示。模型还包含Y-Encoder和Y-Decoder,用于生成相应的文本输出。其中损失函数用L表示。

4.2. 核心组件详解

VL-JEPA 由四个主要模块构成,其数据流和处理逻辑如下:

4.2.1. X-Encoder (视觉编码器)

  • 功能: 将原始视觉输入 XVX_V(单张图片或视频帧序列)压缩为紧凑的视觉嵌入 SVS_V
  • 实现: 采用预训练并冻结的 V-JEPA 2 ViT-L。它将视频采样为 2562256^2 分辨率的帧,并输出类似于“视觉词元”的连续向量序列。

4.2.2. Predictor (预测器)

  • 功能: 这是模型的核心。它接受视觉嵌入 SVS_V 和文本查询词元嵌入 XQX_Q,预测目标的语义嵌入 S^Y\hat{S}_Y
  • 实现: 使用了 Llama-3.2-1B 的最后 8 层 Transformer。
  • 操作流:
    1. XQX_Q 进行词元化并转为嵌入。
    2. 取消因果掩码 (Causal Mask),允许视觉和查询嵌入互相进行双向注意力计算。
    3. 对非填充 (non-[PAD]) 词元的输出进行平均池化。
    4. 通过线性投影映射到目标空间。

4.2.3. Y-Encoder (目标文本编码器)

  • 功能: 将真实的文本答案 YY 映射到连续的潜空间,作为预测的目标。
  • 实现: 使用 EmbeddingGemma-300M 初始化。
  • 重要性: 它负责抽象掉任务无关的信息(如词法噪声)。

4.2.4. Y-Decoder (文本解码器)

  • 功能: 仅在推理时使用。将预测的嵌入 S^Y\hat{S}_Y 翻译回人类可读的文本 Y^\hat{Y}

4.3. 训练目标与公式

VL-JEPA 采用了 双向 InfoNCE 损失 (Bi-directional InfoNCE Loss) 进行训练。

InfoNCE 公式: LInfoNCE=logexp(sim(S^Y,SY)/τ)j=1Nexp(sim(S^Y,SY,j)/τ) \mathcal{L}_{InfoNCE} = -\log \frac{\exp(\mathrm{sim}(\hat{S}_Y, S_Y) / \tau)}{\sum_{j=1}^{N} \exp(\mathrm{sim}(\hat{S}_Y, S_{Y,j}) / \tau)}

  • 符号解释:
    • S^Y\hat{S}_Y: 预测器输出的预测嵌入向量。
    • SYS_Y: Y-Encoder 生成的真实目标嵌入向量。
    • sim(,)\mathrm{sim}(\cdot, \cdot): 相似度函数(通常是余弦相似度)。
    • τ\tau: 温度参数 (Temperature parameter),用于调节相似度分布的平滑度。
    • NN: 批次 (Batch) 中的样本数量。

公式深度分析: 该损失函数包含两个隐含的约束:

  1. 对齐项 (Alignment): 分子部分促使预测嵌入 S^Y\hat{S}_Y 靠近真实的 SYS_Y

  2. 均匀性正则项 (Uniformity/Anti-collapse): 分母部分促使不同样本的嵌入互相远离。这在 JEPA 架构中至关重要,能有效防止表示崩溃 (Representation Collapse),即模型给所有输入都输出同一个常数向量的现象。


5. 实验设置

5.1. 数据集

实验分为两个阶段进行:

  1. 大规模预训练 (Large-scale Pretraining): 使用 DatacompYFCC-100M (图像-文本) 和 Action100MEgo4D (视频-文本) 等共计超过 20 亿 (2B) 个样本,建立视觉-语言对齐。
  2. 监督微调 (Supervised Finetuning, SFT): 使用包含 2500 万 VQA 样本的混合数据集,赋予模型回答问题的能力。

5.2. 评估指标说明

论文使用了以下关键指标:

  1. CIDEr (Consensus-based Image Description Evaluation):

    • 概念定义: 通过计算候选文本与一组参考文本之间的 TF-IDF 加权 n-gram 相似度,衡量生成描述的“共识性”。它比 BLEU 更符合人类对图像描述质量的判断。
    • 数学公式: CIDErn(c,S)=1Mi=1Mgn(c)gn(si)gn(c)gn(si) \mathrm{CIDEr}_n(c, S) = \frac{1}{M} \sum_{i=1}^{M} \frac{\boldsymbol{g}^n(c) \cdot \boldsymbol{g}^n(s_i)}{\|\boldsymbol{g}^n(c)\| \|\boldsymbol{g}^n(s_i)\|}
    • 符号解释: cc 是候选描述;SS 是参考描述集;gn()g^n(\cdot) 是长度为 nn 的 n-gram 的 TF-IDF 向量;MM 是参考描述的数量。
  2. Recall@1 (R@1):

    • 概念定义: 衡量检索任务中,排名第一的结果就是正确答案的样本比例。
    • 计算方法: 正确结果排名第一的样本数总样本数\frac{\text{正确结果排名第一的样本数}}{\text{总样本数}}

5.3. 对比基线

  • 判别式模型: CLIP, SigLIP2, Perception Encoder (PE)。

  • 生成式模型: InstructBLIP, Qwen-VL, InternVL, LLaVA-1.5。


6. 实验结果与分析

6.1. 核心结果分析:分类与检索

VL-JEPA 在零样本 (Zero-shot) 视频分类和检索任务上表现极其优异。

以下是原文 Table 1 的结果汇总:

模型 (Model) 参数量 (Params) 数据量 (Data) 分类平均分 (Class Avg) 检索平均分 (Retr Avg)
Top-1 Acc 数据集数 R@1 数据集数
CLIP (ViT-L) 389M 12.8B 35.3 8 35.9 8
SigLIP2 (ViT-g) 1.9B 40B 39.9 8 43.4 8
PE-Core (ViT-G) 2.3B 86B 44.6 8 58.1 8
VL-JEPA Base 1.6B 2B 46.4 8 58.4 8
VL-JEPA SFT 1.6B 2.5B 70.7 8 68.2 8

深度解读: 注意 VL-JEPA Base 仅使用了 2B 数据,远少于 PE-Core 的 86B,但性能却实现了超越。这有力地证明了在嵌入空间进行学习具有更高的样本效率 (Sample Efficiency)

6.2. 嵌入预测 vs. 词元预测

作者进行了一项严格的控制变量实验(Figure 3),将 VL-JEPA 与执行“下一词元预测”的传统 VLM 进行对比:

  • 结论: 随着训练样本增加,VL-JEPA 的性能提升(CIDEr 分数)比传统 VLM 更快、更高。
  • 原因: 嵌入预测简化了目标分布,使模型不必学习如何拼写单词,只需学习如何表达语义。

6.3. 选择性解码的有效性

下图(原文 Figure 4)展示了选择性解码的效果:

该图像是一个示意图,展示了VL-JEPA模型中的选择性解码过程及其与均匀解码的性能比较。图中包含了平均解码间隔与平均CIDEr的关系,选择性解码在保持相似性能的同时减少了2.85倍的解码操作。 该图像是一个示意图,展示了VL-JEPA模型中的选择性解码过程及其与均匀解码的性能比较。图中包含了平均解码间隔与平均CIDEr的关系,选择性解码在保持相似性能的同时减少了2.85倍的解码操作。

  • 分析: 通过监测嵌入流的方差(语义变化),VL-JEPA 可以只在必要时解码。在减少了 2.85 倍解码开销的情况下,性能与每秒都解码的均匀采样持平。这对实时监控系统具有革命性意义。


7. 总结与思考

7.1. 结论总结

VL-JEPA 证明了联合嵌入预测架构 (JEPA) 在多模态视觉-语言任务中的巨大潜力。它不仅在训练效率和参数效率上优于传统的词元生成模型,还通过非自回归的特性,为实时视频理解提供了极高的推理效率。它成功地将复杂的语言生成问题简化为了连续空间中的向量预测问题。

7.2. 局限性与未来工作

  • 推理与智能体能力: 虽然 VL-JEPA 在感知任务(分类、检索、简单问答)上表现优异,但在需要复杂逻辑链条推理、工具调用或长程规划的任务上,生成式模型(词元空间)目前仍有优势。
  • 扩展性: 作者指出虽然目前的实验显示了良好的扩展性,但尚未在超大规模(如 100B 参数)下进行验证。
  • 未来方向: 探索在多模态潜空间内进行类似于“思维链 (Chain-of-Thought)”的推理过程。

7.3. 个人启发与批判

启发: 这篇论文是对“世界模型 (World Models)”愿景的一次重要践行。它挑战了“生成一切”的 LLM 范式。对于工业界来说,VL-JEPA 提供的选择性解码方案是解决视频分析成本高昂的“银弹”。

批判性思考: VL-JEPA 的成功高度依赖于 Y-Encoder 的质量。如果目标文本编码器不能完美地捕捉复杂的语义细微差别,预测器的上限就会被封死。此外,如何将这种潜空间预测与人类的对话交互更自然地结合(目前需要一个额外的轻量级解码器),仍是一个值得探讨的工程平衡点。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。