Revisiting Feature Prediction for Learning Visual Representations from Video
TL;DR 精炼摘要
本文提出了V-JEPA模型,通过独立的特征预测目标从2百万个视频中进行无监督学习,避免了依赖预训练图像编码器和其他监督形式的局限。研究表明,该模型在运动与外观任务上表现出色,充分验证了通过视频预测特征学习到的视觉表征的通用性和有效性。
摘要
This paper explores feature prediction as a stand-alone objective for unsupervised learning from video and introduces V-JEPA, a collection of vision models trained solely using a feature prediction objective, without the use of pretrained image encoders, text, negative examples, reconstruction, or other sources of supervision. The models are trained on 2 million videos collected from public datasets and are evaluated on downstream image and video tasks. Our results show that learning by predicting video features leads to versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model's parameters; e.g., using a frozen backbone. Our largest model, a ViT-H/16 trained only on videos, obtains 81.9% on Kinetics-400, 72.2% on Something-Something-v2, and 77.9% on ImageNet1K.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
重访特征预测:从视频中学习视觉表征 (Revisiting Feature Prediction for Learning Visual Representations from Video)
1.2. 作者
Ain Bardes, Quentin Garrido, Jean Ponce, Xinlei Chen, Micael Rabbat, Yann LeCun, Mahmoud Assran, Nicolas Ballas
- 机构: Meta FAIR (Facebook AI Research), Inria, 巴黎高等师范学院 (École normale supérieure), 纽约大学 (NYU)。其中 Mahmoud Assran 和 Nicolas Ballas 为共同通讯作者。
1.3. 发表期刊/会议
CVPR 2024 (根据发表日期 2024-02-15 及 Meta 发布的博客,该工作在计算机视觉顶会 CVPR 2024 上发表)。CVPR 是计算机视觉领域的顶级会议,具有极高的影响力和引用率。
1.4. 发表年份
2024年 (初次发布于 2024年2月,修订于 2024年4月)。
1.5. 摘要
本文探索了特征预测 (Feature Prediction) 作为从视频中进行无监督学习 (Unsupervised Learning) 的独立目标。作者引入了 V-JEPA,这是一个仅使用特征预测目标训练的视觉模型系列,不依赖预训练的图像编码器、文本、负样本、像素重建或其他形式的监督。模型在 200 万个公开视频上训练,并在下游图像和视频任务上进行评估。结果表明,通过预测视频特征学习到的视觉表征非常通用,在动作和外观任务上都表现出色。
1.6. 原文链接
-
发布状态: 正式发表 (CVPR 2024)。
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 如何从无标签的视频数据中高效地学习到既包含外观 (Appearance) 又包含运动 (Motion) 信息的通用视觉表征?
- 重要性: 人类能够通过观察世界捕捉时空规律。在机器视觉中,现有的视频学习方法主要分为两类:
- 对比学习 (Contrastive Learning): 需要精细设计的负样本和数据增强。
- 生成式学习 (Generative Learning): 如
VideoMAE通过重建像素来学习。但像素级重建往往会浪费大量的计算资源去建模复杂的低级细节(如树叶抖动),而这些细节对语义理解可能并不重要。
- 创新思路: 本文重访了预测特征原则 (Predictive Feature Principle),提出通过在特征空间 (Latent Space/Feature Space) 而非像素空间进行预测。这种方法允许模型丢弃不可预测或无关的像素级细节,专注于更高层级的语义和时空规律。
2.2. 核心贡献/主要发现
-
提出了 V-JEPA: 这是一个基于联合嵌入预测架构 (Joint-Embedding Predictive Architecture, JEPA) 的视频预训练模型,完全放弃了像素重建。
-
高性能的冻结表征 (Frozen Representations): 在不调整模型参数的情况下,V-JEPA 的主干网络在需要精细运动理解的任务(如
Something-Something-v2)上优于现有的像素重建方法(高出约 6% 的准确率)。 -
训练效率高: 相比像素重建方法,V-JEPA 需要更短的训练计划和更少的样本,即可达到同等甚至更优的性能。
-
标签效率 (Label Efficiency): 在极低比例的标注数据(如 5%-10%)下,V-JEPA 的表现显著优于其他自监督视频模型。
3. 预备知识与相关工作
3.1. 基础概念
- 自监督学习 (Self-Supervised Learning, SSL): 一种不需要人工标注的学习方法,通过数据自身的结构(如视频的后续帧)产生监督信号。
- 词元 (Token): 在 视觉变换器 (Vision Transformer, ViT) 中,将图像或视频切分成小方块,每个方块被转换成一个向量,称为词元。
- 掩码建模 (Masked Modeling): 随机遮盖输入数据的一部分(如视频中的某些区域),让模型预测被遮盖的内容。
- 主干网络 (Backbone): 模型中负责提取特征的基础网络架构。
3.2. 前人工作
- I-JEPA: V-JEPA 的前身,证明了在图像领域通过预测特征区域可以学习到强语义特征。
- BYOL: 提出了一种通过指数移动平均 (Exponential Moving Average, EMA) 更新目标网络并结合停止梯度 (Stop-gradient) 操作来防止特征崩溃(Collapse,即模型对所有输入都输出相同常数)的方法。
3.3. 技术演进
从早期的慢特征分析 (Slow Feature Analysis) 鼓励表征随时间平滑变化,到对比学习(如 SimCLR, MoCo),再到掩码图像建模(如 MAE)。V-JEPA 处在从“重建像素”向“预测语义表征”演进的技术脉络中。
3.4. 差异化分析
与 VideoMAE 不同,V-JEPA 的预测目标不是原始像素,而是由另一个编码器生成的特征。这使得模型不需要耗费容量去“画出”视频,而只需要“理解”视频。
4. 方法论
4.1. 方法原理
V-JEPA 的核心思想是:给定视频的一个部分(上下文 ),预测视频的另一个部分(目标 )在特征空间中的表示。通过这种方式,模型被迫学习视频中的时空关联性。
4.2. 核心方法详解 (逐层深入)
4.2.1. 视频标记化与处理
视频片段被视为 帧、高度 、宽度 的张量。V-JEPA 首先将其切分为 3D 块。
-
过程: 使用大小为 、步长为 的 3D 卷积核对视频进行处理。这意味着每个词元对应连续的 2 帧视频。
-
位置编码: 为了保留时空位置信息,在展平后的词元序列中加入 3D 正弦-余弦绝对位置嵌入 (3D sin-cos Positional Embeddings)。
下图(原文 Figure 3)展示了 V-JEPA 的训练流程:
该图像是示意图,展示了V-JEPA训练过程的结构。图中展示了一个视频片段的处理流程,包括输入的-encoder、预测器和-encoder。图左上方的二进制掩码表示视频的帧和空间分辨率,随后经过-encoder提取特征,并与可学习的掩码令牌连接。预测器的输出通过损失回归到预测目标,后续去除未掩盖的令牌以完成处理。
4.2.2. 训练目标与损失函数
V-JEPA 包含三个核心组件:
- 编码器 (Encoder) : 处理可见上下文区域 。
- 预测器 (Predictor) : 基于 的特征和位置信息 ,预测被遮盖区域 的特征。
- 目标编码器 (Target Encoder) : 生成预测目标。
核心损失函数: V-JEPA 采用 回归损失来最小化预测特征与目标特征之间的差异:
- 符号解释:
- : 视频中可见的词元部分。
- : 视频中被遮盖、需要预测的部分。
- : 被遮盖区域的时空位置信息(作为预测器的输入)。
- : 停止梯度 (Stop-gradient) 操作。这意味着在反向传播时,梯度不会流向目标编码器 。
- : 它是 的指数移动平均 (EMA) 版本,计算方式为:,其中 是动量参数。
4.2.3. 防止表征崩溃的理论动机
如果直接训练 ,模型可能会退化到对任何输入都输出全零或常数的平凡解。作者提供了基于 中值绝对偏差 (Median Absolute Deviation, MAD) 的理论解释:
- 解释: 当预测器 达到最优时,最小化该损失等同于最小化目标 在给定上下文 时的偏差。为了使偏差最小,编码器必须捕捉尽可能多的关于视频的有用信息,从而避免了输出常数的崩溃情况。
4.2.4. 掩码策略 (Masking Strategy)
V-JEPA 采用 多块掩码 (Multi-block masking):
-
短程掩码 (Short-range): 随机采样 8 个小块,覆盖每帧约 15% 的面积。
-
远程掩码 (Long-range): 随机采样 2 个大块,覆盖约 70% 的面积。
-
特点: 这些掩码在时间维度上是贯穿整个视频片段的,增加了预测难度,防止模型通过简单的帧间插值来“作弊”。
5. 实验设置
5.1. 数据集
- VideoMix2M: 这是作者组合多个公开数据集构建的 200 万视频数据集,包含:
HowTo100M (HT): 教学视频。Kinetics-400/600/700 (K710): 动作分类视频。Something-Something-v2 (SSv2): 物体交互视频,强调运动逻辑(如“将物体从左向右移动”)。
- 下游评估任务:
- 动作识别:
Kinetics-400 (K400)。 - 运动分类:
Something-Something-v2 (SSv2)。 - 动作检测:
AVA(基于时空定位)。 - 图像分类:
ImageNet-1K,Places205,iNaturalist 2021。
- 动作识别:
5.2. 评估指标
- Top-1 准确率 (Top-1 Accuracy):
- 概念定义: 模型预测概率最高的类别与真实标签一致的样本比例。
- 数学公式:
- 符号解释: 为样本总数; 为预测类别; 为真实标签。
- 平均精度均值 (Mean Average Precision, mAP):
- 概念定义: 主要用于
AVA动作检测任务,衡量模型在不同置信度阈值下的召回率和精确率的平衡,并对所有类别取平均。 - 标准化公式:
\text{mAP} = \frac{1}{C} \sum_{c=1}^{C} \int_{0}^{1} P_c(R_c) dR_c - 符号解释: 为类别总数; 和 分别为类别 的精确率和召回率。
- 概念定义: 主要用于
5.3. 对比基线
-
像素预测类:
VideoMAE,OmniMAE,Hiera。 -
图像预训练类:
DINOv2,OpenCLIP,I-JEPA。
6. 实验结果与分析
6.1. 核心结果分析
-
优于像素重建: 在冻结评估下,V-JEPA 显著超过了
VideoMAE等模型。特别是在SSv2上,V-JEPA (ViT-L/16) 达到 69.5%,而VideoMAE仅为 61.2%。 -
训练速度快: 下图(原文 Figure 5)显示 V-JEPA 在达到更高准确率的同时,预训练所需的算力时间远少于像素重建方法。
该图像是一个图表,展示了V-JEPA与其他视频模型在SSv2冻结评估性能与预训练时间之间的关系。其中,V-JEPA在较短的预训练时间内表现优异,超过70%的准确率,显示出其在视频特征预测中的优势。
6.2. 数据呈现
以下是原文 Table 5 的结果,对比了 V-JEPA 与像素预测方法在冻结评估和全微调下的表现:
| #已见样本 | 冻结评估 (含注意力探测器) | 全微调 (Fine-Tuning) | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| K400 (16×8×3) | SSv2 (16×2×3) | AVA | IN1K | Places205 | iNat21 | K400-ft | SSv2-ft | ||||
| OmniMAE (ViT-L/16) | 2400M | - | - | 65.6 | 60.6 | 14.4 | 75.1 | 59.8 | 66.1 | 84.0 | 74.2 |
| VideoMAE (ViT-L/16) | 410M | - | - | 77.8 | 65.5 | 21.6 | 71.1 | 59.3 | 64.6 | 85.4 | 74.3 |
| Hiera-L | 770M | - | - | 75.5 | 64.2 | 15.8 | 68.9 | 58.5 | 56.9 | 87.3 | 75.1 |
| V-JEPA (ViT-L/16) | 270M | - | - | 80.8 | 69.5 | 25.6 | 74.8 | 60.3 | 67.8 | 85.6 | 75.1 |
分析: V-JEPA 在样本数量仅为 OmniMAE 的约 1/10 时,在几乎所有任务上表现更好,证明了特征预测的高效性。
6.3. 标签效率分析
以下是原文 Table 7 的结果,展示了在极低标注样本(Low-shot)下的性能:
| 方法 | 架构 | K400 冻结评估 (Acc%) | SSv2 冻结评估 (Acc%) | ||||
|---|---|---|---|---|---|---|---|
| 5% 标签 | 10% 标签 | 50% 标签 | 5% 标签 | 10% 标签 | 50% 标签 | ||
| MVD | ViT-L/16 | 62.6 | 68.3 | 77.2 | 42.9 | 49.5 | 61.0 |
| VideoMAE | ViT-H/16 | 62.3 | 68.5 | 78.2 | 41.4 | 48.1 | 60.5 |
| V-JEPA | ViT-H/16 | 67.0 | 72.1 | 80.2 | 51.9 | 57.5 | 67.3 |
结论: 随着标注数据的减少,V-JEPA 与基线模型的差距反而扩大。这表明 V-JEPA 学习到的特征更具区分度,只需极少量标签就能快速迁移。
7. 总结与思考
7.1. 结论总结
V-JEPA 成功证明了特征预测可以作为自监督视频表示学习的强大且独立的驱动力。通过在特征空间进行掩码建模,V-JEPA 能够以更高效的训练代价,在多种视频理解任务上刷新最先进的 (state-of-the-art) 性能,特别是对于需要深度时空推理的任务。
7.2. 局限性与未来工作
- 静态图像差距: 尽管 V-JEPA 在视频任务上领先,但在纯静态图像分类(如
ImageNet)上仍略逊于最顶尖的图像模型(如DINOv2)。作者认为这主要是由于视频预训练数据的多样性不及图像模型使用的互联网级数据集。 - 未来方向: 构建更大规模、更多样化的公开视频数据集,并进一步融合图像与视频的联合预训练。
7.3. 个人启发与批判
- 语义与细节的博弈: 这篇论文再次验证了视觉学习的一个趋势:模型不应该尝试去记住每一个像素。正如人类看视频时不会记住每一片叶子的脉络,模型通过“预测不可见的特征”学会了捕捉本质。
- 冻结权重的力量: V-JEPA 在不改动主干网络参数的情况下表现如此出色,这意味着它提取的是一种“通用视觉语言”,这对于多模态系统或计算资源受限的边缘端部署极具价值。
- 潜在改进: 预测器目前使用的是较窄的 Transformer,未来是否可以引入更复杂的生成模型(如 Diffusion 模型)在特征空间进行预测,以处理更长期的视频依赖?这是一个值得探讨的方向。
相似论文推荐
基于向量语义检索推荐的相关论文。