Training data-efficient image transformers & distillation through attention
TL;DR 精炼摘要
针对视觉Transformer依赖大规模预训练数据的痛点,本文创新性地提出仅用ImageNet数据集训练纯注意力Transformer,成功验证了其数据高效性。核心方法是设计了一种基于“蒸馏令牌”的Transformer专用师生蒸馏策略,通过注意力机制指导学生模型学习。此策略不仅使基线模型在ImageNet上达到83.1%准确率,蒸馏后更提升至85.2%,性能与传统卷积网络相当,显著提升了ViT的实用性和可推广性。
摘要
Recently, neural networks purely based on attention were shown to address image understanding tasks such as image classification. However, these visual transformers are pre-trained with hundreds of millions of images using an expensive infrastructure, thereby limiting their adoption. In this work, we produce a competitive convolution-free transformer by training on Imagenet only. We train them on a single computer in less than 3 days. Our reference vision transformer (86M parameters) achieves top-1 accuracy of 83.1% (single-crop evaluation) on ImageNet with no external data. More importantly, we introduce a teacher-student strategy specific to transformers. It relies on a distillation token ensuring that the student learns from the teacher through attention. We show the interest of this token-based distillation, especially when using a convnet as a teacher. This leads us to report results competitive with convnets for both Imagenet (where we obtain up to 85.2% accuracy) and when transferring to other tasks. We share our code and models.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): Training data-efficient image transformers & distillation through attention (通过注意力机制训练数据高效的图像 Transformer 及蒸馏)
- 作者 (Authors): Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou. 作者主要来自 Facebook AI (现 Meta AI) 和索邦大学 (Sorbonne University)。
- 发表期刊/会议 (Journal/Conference): 该论文最初以预印本形式发布在 arXiv 上,后被机器学习领域的顶级会议 International Conference on Machine Learning (ICML) 2021 接收。
- 发表年份 (Publication Year): 2020 (arXiv 预印本)
- 摘要 (Abstract): 近期,纯粹基于注意力机制的神经网络(视觉 Transformer)在图像分类等任务上表现出色。然而,这些模型通常需要使用数亿张图片进行预训练,且依赖昂贵的计算设施,限制了其广泛应用。本文旨在解决这一问题,仅使用 ImageNet 数据集就训练出了一个有竞争力的、无卷积的 Transformer 模型。作者团队在一台普通计算机上不到3天就完成了训练。他们的基准视觉 Transformer (86M 参数) 在 ImageNet 上实现了 83.1% 的 top-1 准确率(单中心裁剪评估),且未使用任何外部数据。更重要的是,本文提出了一种专为 Transformer 设计的师生蒸馏策略。该策略依赖于一个新增的
distillation token(蒸馏令牌),确保学生模型能通过注意力机制向教师模型学习。实验证明,这种基于令牌的蒸馏方法效果显著,尤其是在使用卷积网络(ConvNet)作为教师时。最终,该方法在 ImageNet 上取得了高达 85.2% 的准确率,并在迁移到其他任务时也表现出与 ConvNet 相当的竞争力。 - 原文链接 (Source Link):
-
arXiv 链接: https://arxiv.org/abs/2012.12877
-
发布状态: 预印本 (Preprint),后被 ICML 2021 会议接收。
-
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 谷歌提出的
Vision Transformer(ViT) 模型虽然在图像分类上取得了巨大成功,但其论文得出一个关键结论:ViT存在数据饥饿问题,只有在巨大的私有数据集(如 JFT-300M,包含3亿张图片)上预训练后,其性能才能超越顶级的卷积神经网络(ConvNet)。若仅在中等规模的 ImageNet-1k(约130万张图片)上训练,ViT的性能会弱于同等规模的 ConvNet。这一结论极大地限制了ViT的研究和应用,因为大多数研究者无法接触到如此庞大的数据集和所需的计算资源。 - 重要性与挑战: 如何在没有海量外部数据的情况下,仅使用公开、标准的 ImageNet-1k 数据集,就能高效地训练出高性能的
ViT模型,是推动ViT走向普及的关键挑战。这需要打破ViT必须依赖“大数据”的固有认知。 - 切入点/创新思路: 本文的作者们认为,
ViT在中等数据集上表现不佳,并非模型结构本身的问题,而是训练策略的问题。他们推断,通过采用更先进的训练技巧、数据增强和正则化方法,可以弥补ViT因缺乏卷积带来的归纳偏置(inductive bias)的不足。此外,他们还创新性地思考如何将知识蒸馏(Knowledge Distillation)与ViT的核心机制——自注意力(self-attention)——进行深度融合,从而提出了一种全新的蒸馏框架。
- 核心问题: 谷歌提出的
-
核心贡献/主要发现 (Main Contribution/Findings - What):
-
证明 ViT 可在 ImageNet 上高效训练: 本文首次有力地证明,一个纯粹的
Transformer模型(命名为DeiT,Data-efficient image Transformer)仅需 ImageNet-1k 数据集,通过优化的训练策略,就能达到甚至超越当时顶级的ConvNet模型。例如,DeiT-B模型(86M参数)在 ImageNet 上达到了 83.1% 的 top-1 准确率,显著优于在相同条件下训练的ViT-B(77.9%)。 -
提出基于
distillation token的新蒸馏方法: 提出了一个专为Transformer架构设计的知识蒸馏框架。该方法不只是在最终的输出层面对齐师生模型的预测,而是在模型内部引入一个可学习的distillation token。这个token与图像patch tokens和class token一同参与所有Transformer层的自注意力计算,其目标是学习并复现教师模型的预测。这是一种更深层次、与模型结构紧密集成的蒸馏方式。 -
发现 ConvNet 是更好的教师: 实验发现,使用一个高性能的
ConvNet(如RegNetY)作为教师来蒸馏DeiT学生模型,其效果优于使用一个性能相当甚至更强的Transformer模型作为教师。这表明ConvNet的卷积归纳偏置可以通过蒸馏有效地迁移给Transformer,帮助其更好地学习。 -
提供了高性价比的模型: 论文开源了多个不同尺寸的
DeiT模型(如DeiT-Ti,DeiT-S,DeiT-B),它们在准确率-推理速度的权衡上极具竞争力,为社区提供了可与ResNet和EfficientNet系列相媲美的Transformer替代方案。
-
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- 卷积神经网络 (Convolutional Neural Networks, ConvNets): 这是过去十年计算机视觉领域的主流模型。其核心优势在于其归纳偏置 (Inductive Bias),即模型架构中内含的先验知识。例如,
卷积操作具有局部性 (Locality,关注邻近像素) 和平移等变性 (Translation Equivariance,物体在图像中移动不影响识别),这使得ConvNet能高效地从图像数据中学习特征,并且对数据量的要求相对较低。 - Transformer: 最初为自然语言处理(NLP)任务设计。其核心是自注意力机制 (
Self-Attention),它能够计算输入序列中任意两个元素之间的依赖关系,从而捕捉长距离依赖。与ConvNet的局部性不同,Transformer的感受野(receptive field)是全局的,这使其表达能力更强,但也意味着它缺少ConvNet那样的图像先验知识,因此在数据量不足时容易过拟合。 - 视觉 Transformer (Vision Transformer, ViT): 将
Transformer应用于图像任务的开创性工作。其标准流程是:- 将输入图像分割成一系列固定大小的图像块 (
patches)。 - 将每个
patch线性映射为一个向量(token)。 - 为每个
token添加位置编码 (positional embedding) 以保留空间信息。 - 在序列的开头添加一个特殊的可学习
[CLS](Class)token。 - 将整个
token序列输入标准的Transformer编码器中。 - 最后仅使用输出端
[CLS]token对应的向量进行分类。
- 将输入图像分割成一系列固定大小的图像块 (
- 知识蒸馏 (Knowledge Distillation, KD): 一种模型压缩和训练技巧。其核心思想是让一个大型、性能强大的教师模型 (
teacher) 去指导一个小型、轻量的学生模型 (student) 的训练。具体做法是,除了使用真实的标签(hard label)外,还让学生模型去拟合教师模型输出的类别概率分布(soft label)。这能将教师学到的“暗知识”(例如类别间的相似性)传递给学生,从而提升学生模型的性能。
- 卷积神经网络 (Convolutional Neural Networks, ConvNets): 这是过去十年计算机视觉领域的主流模型。其核心优势在于其归纳偏置 (Inductive Bias),即模型架构中内含的先验知识。例如,
-
前人工作 (Previous Works):
- ViT [15]: Dosovitskiy 等人的工作,是本文的直接基础。
ViT证明了Transformer在视觉领域的巨大潜力,但也指出了其“数据饥饿”的局限性,为DeiT的研究提供了明确的动机。 - 混合架构: 在
ViT之前,已有工作尝试将自注意力机制融入ConvNet(如Squeeze-and-Excitation Networks)或构建ConvNet与Transformer的混合模型,但ViT和DeiT追求的是一种纯粹的、无卷积的架构。 - 知识蒸馏 [24]: Hinton 等人提出的经典框架。传统
KD通常只作用于模型的最终输出 logits。DeiT的工作则是对KD进行了针对Transformer架构的创新。
- ViT [15]: Dosovitskiy 等人的工作,是本文的直接基础。
-
技术演进 (Technological Evolution): 计算机视觉模型的发展经历了从
ConvNet时代(AlexNet->VGG->ResNet->EfficientNet)到Attention机制兴起的转变。ViT的出现标志着Transformer正式成为ConvNet的一个强有力竞争者。而DeiT则扮演了“破壁者”的角色,它打破了ViT必须依赖超大规模数据集的限制,使得Transformer在常规数据集上的训练变得可行和高效,极大地推动了ViT架构的普及和后续研究。 -
差异化分析 (Differentiation):
-
与 ViT 的核心区别: 不在于模型结构(
DeiT-B与ViT-B结构完全相同),而在于训练范式。ViT依赖大数据,而DeiT依赖更优的训练策略和蒸馏。 -
与传统 KD 的核心区别: 传统
KD是一种外部监督,只在损失函数层面起作用。DeiT提出的蒸馏方法是一种内部引导,通过distillation token将教师的监督信号深度整合到Transformer的每一层注意力计算中,让模型在特征学习阶段就同时感知真实标签和教师标签的引导。
-
4. 方法论 (Methodology - Core Technology & Implementation Details)
本部分详细拆解 DeiT 的核心技术,特别是其创新的蒸馏方法。
-
方法原理 (Methodology Principles):
DeiT的核心思想有两个:- 数据效率 (Data-Efficiency): 通过整合一系列先进的训练策略(如强数据增强、正则化等),在不改变
ViT结构的前提下,弥补其因缺少卷积归纳偏置而导致的对数据量的依赖。 - 注意力蒸馏 (Distillation through Attention): 设计一种与
Transformer架构内在契合的蒸馏机制。既然Transformer的核心是token之间的信息交互,那么可以引入一个专门的distillation token来承载和学习教师模型的知识,并让它通过自注意力机制影响全局特征的形成。
- 数据效率 (Data-Efficiency): 通过整合一系列先进的训练策略(如强数据增强、正则化等),在不改变
-
方法步骤与流程 (Steps & Procedures):
DeiT的蒸馏流程如下图所示,其关键在于引入了distillation token。
该图像是示意图,展示了该论文中提出的基于视觉Transformer的蒸馏训练过程。图中引入了一个新的“蒸馏token”,它与“class token”和“patch tokens”一起通过多层自注意力(self-attention)和前馈网络(FFN)进行交互。输出部分,“class token”用于计算交叉熵损失,而“蒸馏token”则用于模仿教师模型的硬标签,计算教师损失,两者共同指导模型训练。- 输入准备: 和
ViT一样,输入图像被切分成 N 个patches,并线性映射为patch tokens。 - Token 拼接: 在
patch tokens序列前,不仅拼接了标准的可学习class token,还额外拼接了一个新的可学习distillation token。这两个token随机初始化,作用不同。 - Transformer 编码: 包含
class token、distillation token和patch tokens的整个序列被送入多层Transformer编码器。在每一层,所有token都通过自注意力机制相互交互、更新信息。 - 双头输出: 经过所有
Transformer层后,模型在输出端得到两个独立的token表征:class token的输出向量,送入一个线性分类头,用于预测真实标签 (ground truth label)。distillation token的输出向量,送入另一个线性分类头,用于预测教师模型的标签 (teacher's prediction)。
- 损失计算: 模型的总损失由两部分构成:
- 分类损失:
class token的预测与真实标签之间的交叉熵损失。 - 蒸馏损失:
distillation token的预测与教师模型预测标签之间的损失。论文发现,使用硬蒸馏 (hard distillation),即让distillation token直接拟合教师模型预测的那个类别(argmax结果),效果比传统的软蒸馏更好。
- 分类损失:
- 推理阶段: 在测试时,可以将
class token和distillation token两个分类头的softmax输出进行加权平均或直接相加,共同做出最终预测,进一步提升性能。
- 输入准备: 和
-
数学公式与关键细节 (Mathematical Formulas & Key Details):
- 自注意力机制 (Self-Attention):
- 符号解释:
- (
Query), (Key), (Value): 由输入token序列 经过不同线性变换得到的三个矩阵。在自注意力中,Q, K, V均源于同一输入序列 。 - :
Key向量的维度。除以 是为了进行缩放,防止内积过大导致Softmax函数梯度消失。
- (
- 符号解释:
- 软蒸馏损失 (Soft Distillation):
- 符号解释:
- : 全局总损失。
- : 交叉熵损失函数 (Cross-Entropy)。
- :
Softmax函数。 - : 分别是学生模型和教师模型的输出
logits(进入Softmax前的值)。 - : 真实标签。
- : 温度系数 (temperature)。 会平滑概率分布,让模型学习到更多“软”信息。
- : 平衡两个损失项的超参数。
- : KL 散度 (Kullback-Leibler Divergence),用于衡量两个概率分布的差异。
- 符号解释:
- 硬蒸馏损失 (Hard-label Distillation):
这是
DeiT中实际效果更好的蒸馏方式。- 符号解释:
-
: 教师模型预测的硬标签 (hard label),即概率最高的类别。
-
这个公式表示,学生模型一半向真实标签学习,一半向教师的预测结果学习。在
DeiT的双头架构中,第一项对应class token的损失,第二项对应distillation token的损失。
-
- 符号解释:
- 自注意力机制 (Self-Attention):
5. 实验设置 (Experimental Setup)
-
数据集 (Datasets): 实验覆盖了从大规模图像分类到细粒度分类的多个任务,以全面验证模型的性能和泛化能力。以下是根据原文 Table 6 转录的数据集信息:
Dataset Train size Test size #classes ImageNet [42] 1,281,167 50,000 1000 iNaturalist 2018 [26] 437,513 24,426 8,142 iNaturalist 2019 [27] 265,240 3,003 1,010 Flowers-102 [38] 2,040 6,149 102 Stanford Cars [30] 8,144 8,041 196 CIFAR-100 [31] 50,000 10,000 100 CIFAR-10 [31] 50,000 10,000 10 - 选择原因:
ImageNet是图像分类领域的黄金标准,用于核心性能评估。其他数据集(如CIFAR,Flowers,Cars)用于评估从ImageNet预训练后的迁移学习 (transfer learning) 能力。
- 选择原因:
-
评估指标 (Evaluation Metrics):
- Top-1 准确率 (Top-1 Accuracy):
- 概念定义: 这是图像分类任务中最常用的评估指标。它衡量的是模型预测的置信度最高的那个类别与真实类别完全一致的样本所占的比例。一个高的 Top-1 准确率意味着模型在绝大多数情况下都能给出正确的唯一答案。
- 数学公式:
- 符号解释:
- : 测试集中的样本总数。
- : 第 个样本的真实标签。
- : 模型对第 个样本预测的概率最高的类别。
- : 指示函数 (Indicator function),当内部条件为真时取值为1,否则为0。
- 吞吐量 (Throughput, images/s):
- 概念定义: 该指标衡量模型的推理速度,即在特定的硬件设备上(本文为一块 V100 GPU),每秒钟能够处理的图像数量。这是一个评估模型效率和部署可行性的关键指标,尤其是在需要实时处理或大规模处理的场景下。
- 数学公式:
- 符号解释:
- : 单次推理送入模型的图像数量。
- : 实验重复的次数。
- : 完成所有批次推理所需的总时间。
- Top-1 准确率 (Top-1 Accuracy):
-
对比基线 (Baselines):
- ConvNets:
- ResNet 系列: 经典的深度残差网络,是
ConvNet的重要基准。 - EfficientNet 系列: 当时在准确率和效率方面达到 SOTA 的
ConvNet模型,通过神经架构搜索(NAS)得到。 - RegNetY 系列: Facebook AI Research 提出的高性能
ConvNet,设计简洁且高效。
- ResNet 系列: 经典的深度残差网络,是
- Transformers:
-
ViT [15]: 原始的视觉
Transformer模型,作为直接对比的基线,特别是其在仅使用 ImageNet-1k 训练时的性能。
-
- ConvNets:
6. 实验结果与分析 (Results & Analysis)
-
核心结果分析 (Core Results Analysis):
-
准确率 vs. 吞吐量对比 (Figure 1):
该图像是一个二维散点折线图,展示了不同模型在ImageNet数据集上的处理速度(以每秒处理图像数量images/s为横轴)和top-1准确率(百分比为纵轴)的对比。图中包含EfficientNet、ViT以及作者提出的方法(Ours)和其蒸馏版本,显示作者模型在单机训练且数据有限条件下依然取得较高准确率和合理速度的性能。这张图是本文最重要的成果展示。
- DeiT vs. ViT: 蓝点
ViT-B和ViT-L在仅用 ImageNet 训练时,性能远低于其他模型。而红粉色系的DeiT模型(Ours)性能大幅提升,证明了DeiT训练策略的有效性。 - DeiT vs. EfficientNet: 未经蒸馏的
DeiT(粉色线)在性能上已经非常接近黄色的EfficientNet系列。 - 蒸馏后的 DeiT (DeiT⚗️): 经过蒸馏的
DeiT模型(红色线,带蒸馏器符号)在同样的吞吐量下,准确率全面超越了EfficientNet。这表明DeiT的蒸馏方法带来了显著的性能提升,成功地将Transformer模型推向了新的高度。
- DeiT vs. ViT: 蓝点
-
详细性能对比 (Table 5): 以下是 Table 5 的部分关键数据转录,展示了
DeiT与 SOTA 模型的详细对比:Network #param. image size throughput (image/s) ImNet top-1 Convnets EfficientNet-B4 19M 380 349.4 82.9 EfficientNet-B5 30M 456 169.1 83.6 RegNetY-16GF* 84M 224 334.7 82.9 Transformers ViT-B/16 (ImageNet only) 86M 384 85.9 77.9 ViT-B/16 (JFT-300M pretrain) 86M 384 85.9 84.15 (from ViT paper) DeiT-B 86M 224 292.3 81.8 DeiT-B↑384 86M 384 85.9 83.1 DeiT-B⚗️ 87M 224 290.9 83.4 DeiT-B⚗️↑384 (300 epochs) 87M 384 85.8 84.5 DeiT-B⚗️↑384 (1000 epochs) 87M 384 85.8 85.2 - 关键发现:
DeiT-B(81.8%) 远超仅用 ImageNet 训练的ViT-B(77.9%)。更惊人的是,经过蒸馏和更长周期训练的DeiT-B⚗️(85.2%) 甚至超越了使用 JFT-300M 海量数据预训练的 ViT-B (84.15%),这彻底颠覆了ViT必须依赖大数据的结论。
- 关键发现:
-
蒸馏策略有效性分析 (Table 2 & 3):
-
教师模型的选择 (Table 2): 该表显示,使用
RegNetY系列(ConvNet)作为教师时,学生DeiT-B的性能普遍优于使用DeiT-B自身作为教师。例如,使用RegNetY-16GF(82.9% Acc) 作为教师,学生模型最终能达到 84.2% 的准确率,而使用DeiT-B(81.8% Acc) 自蒸馏,学生只能达到 83.1%。结论:ConvNet 的归纳偏置对 Transformer 学生的成长非常有益。 -
不同蒸馏方法对比 (Table 3): 以下是 Table 3 的转录,对比了不同蒸馏方法在
DeiT-B上的效果:method ↓ label teacher B 224 B↑384 DeiT - no distillation ✓ X 81.8 83.1 DeiT - usual distillation (soft) X soft 81.8 83.2 DeiT - hard distillation X hard 83.0 84.0 DeiT⚗️: class+distillation ✓ hard 83.4 84.5 - 关键发现: 1. 软蒸馏 (
soft) 几乎没有提升。2. 硬蒸馏 (hard) 带来了显著提升 (+1.2%)。3. 本文提出的基于distillation token的方法 (DeiT⚗️) 性能最佳,比硬蒸馏还要高 0.4%,证明了其架构创新的有效性。
- 关键发现: 1. 软蒸馏 (
-
-
训练周期影响 (Figure 3):
该图像是一个折线图,展示了使用DeiT-B在ImageNet上不同蒸馏方法的top-1准确率随训练epoch数变化的趋势。图中对比了未蒸馏、常规蒸馏、硬蒸馏、带蒸馏token以及带蒸馏token且训练384个epoch的效果,显示带蒸馏token方法显著优于其他方法且准确率随训练epoch增加逐渐提升。此图表明,无蒸馏的
DeiT在 400 个epochs后性能饱和。然而,使用了蒸馏的DeiT模型,其性能随着训练周期的增加而持续稳定提升,直到 1000 个epochs。这说明蒸馏为模型提供了更丰富和稳定的监督信号,使其能够从更长的训练中受益。
-
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis): Table 8 详细地分析了各种训练技巧对
DeiT-B性能的影响。-
数据增强:
Rand-Augment,Mixup,Cutmix,Random Erasing等强数据增强手段都至关重要。例如,移除所有这些增强手段,性能从 81.8% 骤降至 75.8%。 -
正则化:
Stochastic Depth(随机深度)和Repeated Augmentation(重复增强)被证明是非常有效的正则化策略。特别是Repeated Augmentation,它能让模型在每个epoch中看到同一张图片的不同增强版本,显著提升性能。 -
优化器:
AdamW优化器远优于SGD。 -
结论:
DeiT的成功并非依赖单一技巧,而是一整套精心设计的训练策略组合的结果。这些策略共同帮助Transformer在有限的数据上克服了过拟合问题。
-
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary):
- 本文成功地提出了一套数据高效的训练流程,使得
Vision Transformer可以在中等规模的 ImageNet-1k 数据集上进行高效训练,并取得与顶级ConvNet相媲美甚至超越的性能。 - 本文创新地设计了一种基于注意力机制的蒸馏方法,通过引入
distillation token,将教师的知识深度融入Transformer的特征学习过程中,效果显著优于传统蒸馏方法。 - 实验证明,使用
ConvNet作为教师模型比使用Transformer自身更有效,这为跨架构知识迁移提供了有力证据。 DeiT的开源模型和代码极大地降低了Vision Transformer的研究和应用门槛,对整个社区产生了深远影响。
- 本文成功地提出了一套数据高效的训练流程,使得
-
局限性与未来工作 (Limitations & Future Work):
- 依赖强数据增强:
DeiT的“数据高效”在很大程度上依赖于非常复杂和激进的数据增强策略。这是否是解决Transformer归纳偏置不足问题的最优解,仍有待探索。 - 需要教师模型: 达到最佳性能的
DeiT模型需要一个强大的教师模型进行蒸馏,这在某种程度上增加了训练的复杂度和成本。 - 未来方向: 作者指出,未来可以研究更适合
Transformer的数据增强方法,或者探索如何让Transformer在没有教师指导的情况下,通过自监督等方式学习到更鲁棒的表征。
- 依赖强数据增强:
-
个人启发与批判 (Personal Insights & Critique):
- 启发:
- “大力出奇迹”并非唯一路径:
DeiT证明了算法和训练策略的优化,有时可以替代对海量数据的依赖。这对于资源有限的研究者和工程师来说是巨大的鼓舞。 - 架构与方法的协同创新:
distillation token的设计是一个典范,它没有停留在损失函数的修补上,而是深入思考如何让新方法与模型的核心机制(自注意力)进行有机结合,从而实现 1+1>2 的效果。 - 归纳偏置的可迁移性:
DeiT巧妙地利用ConvNet作为教师,“借用”了卷积的归纳偏置,为不同架构模型间的优势互补提供了一个非常实用的范例。
- “大力出奇迹”并非唯一路径:
- 批判性思考:
-
对“数据高效”的重新审视: 论文标题中的“Data-efficient”值得商榷。
DeiT并非让模型本身变得更高效,而是通过大量的“人工数据”(来自强数据增强)和外部知识(来自教师模型)来弥补其短板。这更像是一种训练策略上的“数据工程”,而非模型内在的数据利用效率提升。 -
训练复杂度的提升: 虽然
DeiT降低了对数据量的要求,但其训练流程(包含强数据增强、正则化、蒸馏)比传统的ConvNet训练要复杂得多,对超参数也更为敏感。这在实际应用中也需要被纳入考量。总而言之,
DeiT是一篇里程碑式的工作,它极大地推动了Vision Transformer的普及,并为后续无数的ViT变体和优化研究奠定了坚实的基础。
-
- 启发:
相似论文推荐
基于向量语义检索推荐的相关论文。