DART: Differentiable Dynamic Adaptive Region Tokenizer for Vision
  Foundation Models

Liang Lin

论文状态：已完成

DART: Differentiable Dynamic Adaptive Region Tokenizer for Vision Foundation Models

发表：2025/06/12

动态自适应区域分词器 (1)视觉基础模型优化 (2)内容感知令牌生成 (1)视觉Transformer加速 (1)高效多模态模型构建 (1)

原文链接 PDF 下载

价格：0.10

已有 7 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

DART论文提出一种可微分的动态自适应区域分词器，旨在解决视觉基础模型中固定网格分词器在捕捉细节与计算效率间的根本矛盾。该方法利用可学习的区域分数和基于分位数的划分策略，动态创建大小可变、内容感知的图像块，智能地为信息丰富区域分配更高的令牌密度。实验证明，搭载DART的DeiT-Small模型性能可媲美DeiT-Base，推理速度近乎翻倍，并在密集预测和时空视频任务中展现出普适优势，为构建下一代高效视觉基础模型提供了关键组件。

摘要

The content-agnostic, fixed-grid tokenizers used by standard large-scale vision models like Vision Transformer (ViT) and Vision Mamba (Vim) represent a fundamental performance bottleneck, creating a trade-off between capturing fine-grained detail and suffering from redundant computation. To resolve this dilemma, we introduce DART, a fully differentiable Dynamic Adaptive Region Tokenizer. DART employs learnable region scores and quantile-based partitioning to create content-aware patches of varying sizes, intelligently allocating a higher token density to information-rich regions. The impact of this approach is profound: it unlocks a more intelligent scaling paradigm, where a DART-equipped DeiT-Small (22M parameters) matches the performance of a DeiT-Base (86M) with nearly double the inference speed by efficiently capturing high-resolution details in key regions. Furthermore, the principle of adaptive tokenization proves its generality with clear benefits in dense prediction and spatiotemporal video tasks. We argue that by resolving the tokenizer bottleneck at its source, adaptive tokenization is a key component for building the next generation of more efficient and capable foundation models for multimodal AI, robotics, and content generation. Code is available at https://github.com/HCPLab-SYSU/DART.

思维导图

论文精读

中文精读约 21 分钟读完 · 11,327 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): DART: Differentiable Dynamic Adaptive Region Tokenizer for Vision Foundation Models (DART：面向视觉基础模型的可微分动态自适应区域分词器)
作者 (Authors): Shicheng Yin, Kaixuan Yin, Yang Liu, Weixing Chen, Liang Lin
隶属机构 (Affiliation): Sun Yat-sen University, China (中山大学)
发表期刊/会议 (Journal/Conference): 本文目前为预印本 (Preprint)，发布于 arXiv。
发表年份 (Publication Year): 2024 (v3版本提交于2025年6月，根据原文链接推断)
摘要 (Abstract): 标准视觉大模型（如 ViT 和 Vim）使用的固定网格、内容无关的分词器是其性能的根本瓶颈，导致在捕捉精细细节和避免冗余计算之间存在矛盾。为解决此问题，论文提出了 DART，一个完全可微分的动态自适应区域分词器。DART 利用可学习的区域分数和基于分位数的划分方法，创建大小可变、内容感知的图像块 (patches)，从而智能地将更高的令牌 (token) 密度分配给信息丰富的区域。该方法效果显著：它开启了一种更智能的扩展模式，使得一个配备 DART 的小型模型 DeiT-Small (22M 参数) 能够达到 DeiT-Base (86M 参数) 的性能，同时推理速度几乎翻倍。此外，自适应分词的原理在密集预测和时空视频任务中也展现了其通用性和明显优势。作者认为，通过从源头解决分词器瓶颈，自适应分词是构建下一代更高效、更强大的多模态 AI、机器人和内容生成基础模型的关键组成部分。
原文链接 (Source Link):
- ArXiv 链接: https://arxiv.org/abs/2506.10390
- PDF 链接: http://arxiv.org/pdf/2506.10390v3
- 发布状态: 预印本 (Preprint)

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题： 现代视觉基础模型，特别是基于 Vision Transformer (ViT) 的模型，其核心组件是将输入图像分割成固定大小、均匀排列的图像块 (patches)，这些图像块被称为 tokens。这种“一刀切”的 tokenizer (分词器) 策略存在根本性缺陷：对于包含大量细节的小物体，这种粗糙的划分会丢失关键信息；而对于平坦、信息量低的背景区域（如天空、墙壁），它又会产生大量冗余的 tokens，浪费计算资源。
- 问题重要性： 这个缺陷导致了一个棘手的权衡 (trade-off)：要想捕捉更多细节，就必须提高输入图像的分辨率，但这会使 tokens 数量呈二次方增长，带来难以承受的计算成本。这个问题限制了视觉模型在处理高分辨率输入时的效率和性能，是提升模型能力的一个核心瓶颈。
- 创新思路： 现有的解决方案要么改变模型的主干架构（如 Swin Transformer），使其变得复杂且与大型语言模型 (LLM) 的扁平结构不兼容；要么在 tokens 进入模型后再进行剪枝或合并，这是一种“事后补救”，且过程往往不可微。本文的创新思路是从问题的源头——分词器本身入手。作者提出，与其改变强大的 ViT 主干，不如为其配备一个更智能的“进气系统”。这个系统可以在 tokens 进入模型之前，就根据图像内容动态地、不均匀地划分图像，将计算预算（即 tokens）精确地分配到最需要的地方。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出了 DART： 论文提出了一种名为 DART (Differentiable Adaptive Region Tokenizer) 的全新分词器。它是一个轻量级、完全可微分的模块，可以即插即用地替换现有视觉模型中的标准分词器，而无需修改主干网络。
- 开启了智能扩展范式： DART 的核心贡献在于，它证明了一种更智能的模型扩展 (scaling) 方式。传统的扩展方式是“训练时扩展”，即通过堆叠更多的参数来构建更大的模型 (如从 DeiT-Small 到 DeiT-Base)。而 DART 实现了“测试时扩展”，即一个小型模型通过智能地处理高分辨率输入，就能达到甚至超越更大模型的性能，且计算成本和推理延迟远低于后者。
- 显著的性能提升与效率优势： 实验证明，一个 22M 参数的 DeiT-Small 模型在配备 DART后，能够达到 86M 参数的 DeiT-Base 模型的性能水平，但参数量仅为后者的四分之一，推理速度却几乎是后者的两倍。
- 通用性验证： DART 的自适应分词原理不仅在图像分类任务上有效，还被成功推广到密集预测（如语义分割）和时空视频理解等任务中，证明了其作为一种基础性增强模块的广泛适用性。

基础概念 (Foundational Concepts):
- Vision Transformer (ViT): 一种在计算机视觉领域取得巨大成功的深度学习模型。其核心思想借鉴了自然语言处理中的 Transformer。ViT 将输入图像分割成一系列固定大小的图像块（例如 16x16 像素），并将这些图像块线性嵌入后，作为一个序列输入到 Transformer 编码器中进行处理。这种简单的、非分层的统一架构具有出色的可扩展性，已成为许多视觉基础模型的标准选择。
- Tokenizer (分词器): 在视觉模型中，tokenizer 是指将连续的图像数据转换为离散的、模型可以处理的单元（即 tokens）的过程。对于标准的 ViT，这个过程就是固定网格划分 (fixed-grid patching)。
- Differentiable (可微分): 在深度学习中，一个操作或模块是可微分的，意味着它的输出相对于其输入存在梯度。这是模型能够通过梯度下降 (gradient descent) 算法进行端到端 (end-to-end) 训练的先决条件。DART 的完全可微分特性是其关键优势，因为它允许分词的边界位置像网络权重一样通过训练自动、平滑地优化。
- State Space Models (SSMs) / Mamba: 一类新兴的序列模型架构，被视为 Transformer 的有力竞争者。SSM 在处理长序列时具有线性的计算复杂度，相比 Transformer 的二次方复杂度更具效率优势。Vision Mamba (Vim) 是将 Mamba 架构应用于视觉任务的代表。
前人工作 (Previous Works):
- 架构解决方案 (Architectural Solutions): 这类方法通过修改 ViT 的主干网络来解决效率问题。
  - 代表工作： Swin Transformer、PVT。
  - 解决方法： 它们引入了类似卷积神经网络 (CNN) 的层级结构 (hierarchical structure)。通过在网络深层逐步合并 (merging) 相邻的图像块，来构建多尺度的特征金字塔。这在早期层保留了高分辨率信息，在深层减少了冗余。
  - 局限性： 1) 改变了 ViT 简洁的统一架构，增加了与 LLM 等其他模态融合的复杂性；2) 其合并过程是内容无关的、固定的，无法根据图像内容动态调整。
- 后分词自适应 (Post-Tokenization Adaptation): 这类方法在标准的固定网格分词之后，再对生成的 tokens 序列进行动态调整。
  - 代表工作： DynamicViT (Token Pruning)、A-ViT (Token Merging)。
  - 解决方法： 它们在 ViT 的不同层之间插入一个辅助决策网络，用于预测并丢弃 (pruning) 或合并 (merging) 不重要的 tokens。
  - 局限性： 1) 这是一种“事后补救”，无法从根本上解决初始 tokens 质量不佳的问题；2) 丢弃或保留的决策是离散的，本身不可微，需要依赖 Gumbel-Softmax 等近似方法进行训练；3) 会产生可变长度的 token 序列，不利于硬件的高效批处理。
技术演进 (Technological Evolution): 视觉模型的演进经历了从 CNN 到 ViT 的范式转变。ViT 凭借其强大的可扩展性成为主流。然而，其原始的 tokenizer 很快被发现是效率瓶颈。为此，研究界探索了两条主要路径：一是改变架构（如 Swin Transformer），二是动态推理（如 DynamicViT）。本文提出的 DART 开辟了第三条路径：改进前端 (front-end)，即在不改变主干网络的前提下，从源头优化 token 的生成过程。
差异化分析 (Differentiation): DART 与以往工作的核心区别在于：
1. 作用阶段不同： DART 是预分词自适应 (Pre-Tokenization Adaptation)，在 tokens 进入主干网络前就进行优化。而 DynamicViT 等是后分词自适应。
2. 可微性不同： DART 的边界计算是完全可微分的，允许端到端平滑优化。而 token 剪枝方法依赖于离散决策，可微性不佳。
3. 输出序列长度不同： DART 始终生成固定长度的 token 序列，对硬件友好。而 token 剪枝方法会产生可变长度的序列。
4. 对主干网络的侵入性不同： DART 是一个即插即用的模块，不改变主干网络架构，保持了 ViT 的简洁性和生态兼容性。而 Swin Transformer 等方法则从根本上改变了架构。

4. 方法论 (Methodology - Core Technology & Implementation Details)

DART 的核心是将传统的固定网格分词替换为一个动态、内容感知的过程。其整体流程可分为三个主要阶段：1) 区域分数预测，2) 可微分的分区，3) 可微分的重采样。

方法原理 (Methodology Principles):
- 核心思想： DART 的核心直觉是，图像中的信息分布是不均匀的。因此，计算资源（即 tokens）也应该不均匀地分配。通过一个轻量级网络预测出图像各区域的“重要性分数”，然后利用这些分数指导 patch 的划分，使得重要区域（如物体）被划分为更多、更小的 patches，而不重要区域（如背景）被合并为少数、更大的 patches。
- 关键技术： 为了让这个划分过程能够被端到端训练，DART 引入了一种可微分的分位数计算 (Differentiable Quantile Computation) 算法，这是实现其目标的技术基石。
方法步骤与流程 (Steps & Procedures):

步骤一：分数预测网络 (Score Prediction Network)
1. 输入： 原始图像 $X \in \mathbb{R}^{H \times W \times 3}$ 。
2. 特征提取： 使用一个轻量级的卷积神经网络 (CNN)，如 MobileNetV3，从输入图像中提取一个特征图 $F \in \mathbb{R}^{H' \times W' \times C}$ 。这个网络通常是预训练好并冻结的。
3. 分数预测： 一个浅层的多层感知机 (MLP) 接收特征图 $F$ ，并预测出一个单通道的分数图 (score map) $\{s_{i,j}\}$ 。
4. 归一化： 为了得到一个稳定的二维概率分布，分数图会经过两步归一化：首先通过 sigmoid 函数将值约束到 [0, 1] 之间，然后进行样本内归一化，确保所有分数的总和为 1。最终得到概率分布图 $\{\tilde{s}_{i,j}\}$ ，它量化了图像中每个位置的相对重要性。
步骤二：可微分分区 (Differentiable Partitioning) 这是 DART 的核心创新。它通过一种可微分的方式，根据概率分布图来确定 patch 的边界。

图 5: 左图(a)展示了可微分分位数算法的原理：通过对一个一维分布的累积分布函数(CDF)求逆，找到均匀分位数（如1/3, 2/3）对应的边界点。右图(b)展示了 DART-Grid 的分区方式：将这个一维算法分别应用于二维分数图的水平和垂直边际分布，从而生成一个非均匀网格。

DART 提供了两种分区策略：
1. DART-Grid (网格保持分区):
  - 计算边际分布： 将二维概率图 $\{\tilde{s}_{i,j}\}$ 分别沿着水平和垂直方向求和，得到两个一维的边际概率分布 $P_Y$ (y轴) 和 $P_X$ (x轴)。
  - 独立划分： 将可微分分位数算法分别应用于 $P_Y$ 和 $P_X$ ，计算出水平和垂直方向上的所有边界线。例如，要划分成 $N_h \times N_w$ 个 patches，就需要计算 N_h-1 条水平边界和 N_w-1 条垂直边界。
  - 结果： 生成一个非均匀的网格，patch 的面积与其所在区域的信息密度成反比，但整体的网格拓扑结构保持不变。
2. DART-Flow (拓扑破坏分区，核心方法): 这是 DART 的主要贡献，它能更灵活地全局分配 token 预算。
  
  图 6: DART-Flow 的流程示意图。算法分两步进行：首先，根据垂直方向的边际分布，将图像自适应地划分为若干高度可变的行；然后，将所有行在概念上“拉平”成一个长长的一维序列，并在这个序列上进行全局的 token 分配，从而打破了严格的网格限制。
  - 第一阶段：自适应行划分 (Adaptive Row Partitioning): 与 DART-Grid 的第一步相同，根据 y 轴的边际分布 $P_Y$ 将图像划分为 $N_h$ 个高度不等的行。
  - 第二阶段：全局 token 分配 (Global Token Allocation):
    - 虚拟展平 (Virtual Flattening): 将上一步得到的 $N_h$ 个自适应行在概念上头尾相连，形成一个长长的一维序列。这个序列上的概率分布直接来源于原始的二维分数图。
    - 一维全局划分： 对这个展平后的一维长序列应用一次可微分分位数算法，一次性计算出所有 N_{total}-1 个最终 patch 的边界。
  - 结果： 这种设计允许 tokens 预算在全局范围内自由“流动”，可以从信息量低的行“流向”信息量高的行，从而实现更极致的资源集中，有效勾勒出不规则物体的形状。
视频应用扩展: DART 可以自然地扩展到视频任务。方法是将视频的所有帧在垂直方向上拼接成一张大图，然后应用 DART 的分区算法。这样，固定的 token 预算就可以在空间和时间两个维度上进行不均匀分配，将计算资源集中在关键帧或运动显著的区域。

图 7: DART 在 SSv2 数据集一个视频片段上的分区效果。可以看到，tokens 密集地分配在正在发生动作的手和书本区域，而背景区域则分配了较少的 tokens。

步骤三：可微分重采样与位置变换 (Differentiable Resampling and Positional Transformation)
1. 内容采样： 划分边界确定后，每个非均匀的区域都需要被转换成一个固定大小的 token（例如 16x16）。这是通过可微分双线性插值 (differentiable bilinear interpolation) 实现的。DART 的动态边界定义了一个仿射变换，将目标 token 的标准网格映射到输入图像的对应区域上进行采样。
2. 位置编码变换： 为了让模型知道每个 token 来自图像的哪个位置，位置编码 (Positional Embeddings, PE) 也需要进行相应变换。PE 被视为一个可学习的低分辨率坐标图，每个 token 的 PE 通过在其中心坐标点对这个图进行双线性插值采样得到。这个步骤至关重要，它保留了 tokens 之间的空间相对关系。
数学公式与关键细节 (Mathematical Formulas & Key Details): 可微分分位数算法 (Differentiable Quantile Algorithm) 该算法是 DART 的技术核心。其目标是从一个离散的概率分布 $S = \{s_0, s_1, ..., s_{L-1}\}$ 中，以可微分的方式计算出一系列分位数对应的边界点。
1. 构建分段线性的累积分布函数 (CDF): 首先，将离散的概率分布 $S$ 视为一个分段常数函数。其累积分布函数 (CDF) $C(x)$ 是一个连续的分段线性函数。在任意整数点 $j$ 处，CDF 的值为： $C(j) = \sum_{i=0}^{j-1} s_i \quad (\text{其中 } C(0) = 0)$
2. 通过 CDF 求逆来解出分位数: 对于一个目标累积概率 $q_k$ （例如 k/N），找到它所在的区间 $[j, j+1)$ ，即满足 $C(j) \le q_k < C(j+1)$ 。然后，利用该区间的线性方程求解边界点 $x_k$ ： $q_k = C(j) + (x_k - j) \cdot s_j$ 整理后得到 $x_k$ 的解析解： $x_k = j + \frac{q_k - C(j)}{s_j}$
- 符号解释:
  - $S = \{s_i\}$ : 输入的一维离散概率分布。
  - $C(j)$ : 累积分布函数在点 $j$ 的值，代表前 $j$ 个区间的总概率。
  - $q_k$ : 第 $k$ 个目标分位数（一个概率值）。
  - $j$ : 目标分位数 $q_k$ 所在区间的起始索引。
  - $s_j$ : 区间 $[j, j+1)$ 内的概率密度。
  - $x_k$ : 计算出的与 $q_k$ 对应的边界点位置。
    
    这个计算过程中的所有操作（加、减、乘、除、求和）都是可微分的。虽然确定区间索引 $j$ 的过程是离散的，但在现代自动微分框架中，只要输入的微小变化不引起 $j$ 的跳变，梯度就可以平滑计算。这种“几乎处处可微”的特性足以支持端到端的稳定训练。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):
- ImageNet-1K: 用于图像分类任务的主要数据集。它包含约 128 万张训练图像和 5 万张验证图像，涵盖 1000 个类别。这是评估视觉骨干网络性能的黄金标准。
- ADE20k: 用于语义分割任务的数据集。它非常具有挑战性，包含 2 万多张训练图像，涵盖 150 个语义类别。
- Something-Something-V2 (SSv2): 一个大规模的视频动作识别数据集，强调对时序动态和物体交互的理解，对模型的时序建模能力要求很高。
- Kinetics-400: 另一个大规模的视频动作识别数据集，但更侧重于场景和上下文，动作类别更广泛。
评估指标 (Evaluation Metrics):
- Top-1 Accuracy (Top-1 准确率):
  1. 概念定义: 这是图像分类任务中最常用的评估指标。它衡量的是模型预测的概率最高的类别与真实标签完全一致的样本比例。Top-1 准确率越高，说明模型对图像内容的识别能力越强。
  2. 数学公式: $\text{Top-1 Accuracy} = \frac{1}{N} \sum_{i=1}^{N} \mathbb{I}(\hat{y}_i = y_i)$
  3. 符号解释:
    - $N$ : 测试样本的总数。
    - $y_i$ : 第 $i$ 个样本的真实类别标签。
    - $\hat{y}_i$ : 模型对第 $i$ 个样本预测的概率最高的类别。
    - $\mathbb{I}(\cdot)$ : 指示函数 (Indicator Function)，当内部条件为真时，其值为 1，否则为 0。
- FLOPs (Floating Point Operations, 浮点运算次数):
  1. 概念定义: FLOPs 是衡量模型计算复杂度的指标，通常以 GFLOPs（ $10^9$ 次浮点运算）为单位。它理论上反映了模型进行一次前向传播所需的计算量，与硬件无关。FLOPs 越低，模型的计算效率越高。
  2. 数学公式: 该指标没有统一的简单公式，其计算需要逐层分析网络结构（如卷积、全连接、自注意力等）的运算量并累加。
  3. 符号解释: 无。
- mIoU (mean Intersection over Union, 平均交并比):
  1. 概念定义: 这是语义分割任务的标准评估指标。它首先计算每个类别的交并比 (IoU)，然后对所有类别的 IoU 取平均值。IoU衡量的是模型预测的分割区域与真实区域的重合程度。mIoU 越高，说明模型的分割结果越精确。
  2. 数学公式: $\text{mIoU} = \frac{1}{C} \sum_{c=1}^{C} \frac{TP_c}{TP_c + FP_c + FN_c}$
  3. 符号解释:
    - $C$ : 类别的总数。
    - $TP_c$ : 类别 $c$ 的真正例 (True Positives)，即被正确预测为类别 $c$ 的像素数量。
    - $FP_c$ : 类别 $c$ 的假正例 (False Positives)，即被错误预测为类别 $c$ 的像素数量。
    - $FN_c$ : 类别 $c$ 的假负例 (False Negatives)，即本属于类别 $c$ 但被错误预测为其他类别的像素数量。
对比基线 (Baselines):
- DeiT (Data-efficient image Transformers): 一个在 ViT 基础上进行改进的 Transformer 模型，通过知识蒸馏等技术，使其在 ImageNet-1K 这种中等规模数据集上也能取得优异性能。本文主要使用 DeiT-Ti (Tiny), DeiT-S (Small), 和 DeiT-B (Base) 三个尺寸。
- Vision Mamba (Vim): 基于 Mamba (SSM) 架构的视觉骨干网络，是 Transformer 之外的另一条主流技术路线。
- VideoMamba: Vim 在视频领域的扩展。
- Swin Transformer: 一个强大的层级化视觉 Transformer，是密集预测任务的常用基线。
- Dynamic Inference Methods: 包括 DynamicViT 和 A-ViT 等，这些是 token 剪枝和合并领域的代表性工作。

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis):

1. 开启智能扩展范式 这是论文最核心的论点。实验结果表明，DART 提供了一条比单纯增大模型规模更高效的性能提升路径。

该图像为示意图，展示了DART方法中基于热力图的动态自适应区域分割过程。首先对输入图像生成热力图并计算边际分布，按等积分划分成若干大区块（图中标记为1、2…

图 4: DeiT 模型的 FLOPs 与准确率权衡曲线。橙色虚线代表标准 DeiT 模型的扩展路径（从 DeiT-S 到 DeiT-B），需要巨大的计算成本（从 4.6G 到 17.5G FLOPs）来换取约 2% 的准确率提升。蓝色实线代表配备 DART 的 DeiT-S 模型，通过增加输入 token 数量（即提高分辨率），可以用远低于 DeiT-B 的计算成本（10.1G FLOPs）达到与之相同的准确率（81.8%）。

注意：以下表格为根据原文数据转录，非原始图像。 表 2: 一条更优的通往顶级性能的路径

Backbone	Params	Patches	FLOPs	Top-1 (%)
DeiT Family
DeiT-B (Target)	86M	196	17.5G	81.8
DeiT-S†	22M	576	15.5G	81.6
DeiT-S† + DART	24M	392	10.1G	81.8
Vim Family
Vim-B (Target)	98M	196	19.9G	81.9
Vim-S†	26M	784	19.6G	81.6
Vim-S† + DART	29M	392	10.9G	82.2

分析: 表 2 数据强有力地证明了 DART 的价值。一个小型模型 DeiT-S (22M 参数) 在 DART 的加持下，仅用 10.1G FLOPs 就达到了大型模型 DeiT-B (86M 参数) 的 81.8% 准确率。相比之下，DeiT-B 需要 17.5G FLOPs。更重要的是，DART-DeiT-S 在推理速度上也有巨大优势（见表 6，延迟降低 42%，吞吐量提升 71%）。同样，DART-Vim-S 甚至超越了 Vim-B，显示了这种“智能扩展”范式的普遍性。

2. 作为通用增强模块的价值 即使在不改变 token 总数（即计算预算固定）的情况下，DART 也能作为即插即用的模块带来稳定的性能提升。

注意：以下表格为根据原文数据转录，非原始图像。 表 4: 作为即插即用模块的性能增益

Backbone	Tokenizer	Params	FLOPs	Top-1 (%)
DeiT-Ti	Baseline	6M	1.26G	72.2
DeiT-Ti	DART	7M	1.32G	73.8 (+1.6)
DeiT-S	Baseline	22M	4.61G	79.8
DeiT-S	DART	24M	4.84G	80.6 (+0.8)
Vim-S	Baseline	26M	5.30G	80.5
Vim-S	DART	29M	5.55G	81.5 (+1.0)

分析: 表 4 显示，在相同的 196 个 token 设置下，为不同大小的 DeiT 和 Vim 模型添加 DART 模块，都能带来 0.8% 到 1.6% 的显著准确率提升，而计算开销增加极小（约 5%）。这证明了 DART 通过更有效地利用计算预算，可以普遍地提升模型性能。

3. 任务通用性 DART 的优势不仅限于图像分类。

密集预测： 在 ADE20k 语义分割任务中，为强大的 Swin-T 基线添加 DART-Grid 后，mIoU 提升了 +0.5（见表 3）。这表明即使在已经具备多尺度能力的层级化模型上，DART 的内容感知分区依然能提供互补的增益。
视频理解： 在视频分类任务中（见表 5），DART 在动作敏感的 SSv2 数据集上，用减少 41% GFLOPs 的代价，将准确率提升了 +0.5%。在场景敏感的 Kinetics-400 上也提升了 +0.4%。这证明了 DART 在时空维度上分配计算资源的能力。

消融实验/参数分析 (Ablation Studies / Parameter Analysis):

1. 分区策略对比 注意：以下表格为根据原文数据转录，非原始图像。 表 8: 不同分区策略的消融实验 (DeiT-Ti)

Method Top-1 (%)

Deit-Ti 72.2

+DART-Grid 73.1

+DART-Flow 73.8
- 分析: DART-Grid（网格保持）相比基线有明显提升，但 DART-Flow（拓扑破坏）的效果显著更优。这证实了允许 tokens 全局“流动”的策略能够更灵活、更有效地将计算资源集中到关键区域。
2. 学习过程可视化

图 9: DART 学习过程的可视化。从左到右分别是训练第 0、40、70、300 个 epoch 时的分区结果。可以看到，随着训练的进行，模型逐渐学会将更细密的网格（更多的 tokens）集中到图像中的主体（狗）上，而背景区域的网格则变得稀疏。这直观地展示了 DART 的可微分特性使其能够通过端到端学习，自动优化资源分配策略。

3. 输入分辨率的影响

图 8: 输入分辨率对模型性能的影响。蓝线 (DeiT+DART) 的性能随着分辨率的提高而稳定增长，并在 448x448 附近达到饱和。而红线 (DeiT) 在分辨率超过一定程度后性能反而下降。这表明 DART 能有效利用高分辨率信息，而标准 ViT 则会因 patch 尺寸固定而无法很好地处理分辨率变化带来的位置编码不匹配问题。实验结果证明，DART 能够从高分辨率输入中持续获益，因为更密的像素可以为信息密集区域的小 patch 提供更高保真度的信息。

7. 总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary): 论文成功地提出并验证了 DART，一个新颖的、完全可微分的动态自适应区域分词器。DART 通过内容感知的方式智能地分配 tokens，从根本上解决了标准 ViT 中固定网格分词器带来的细节捕捉与计算冗余之间的矛盾。更重要的是，DART 揭示并实现了一种更智能、更高效的模型扩展范式，即通过优化数据处理前端，使得小型模型能够以极低的计算成本达到甚至超越数倍于其参数量的大型模型的性能。实验证明了 DART 在多种模型架构（Transformer 和 Mamba）和多种视觉任务（分类、分割、视频）上的通用性和有效性，使其成为构建下一代高效视觉基础模型的一个极具潜力的关键组件。
局限性与未来工作 (Limitations & Future Work): 论文在附录中坦诚地探讨了未来的研究方向，这也可以看作是当前工作的潜在扩展点：
1. 大规模系统集成： 将 DART 作为视觉前端集成到大型多模态模型 (LMM)、具身智能体 (Embodied AI) 和生成模型中，是其应用价值的终极体现。
2. 领域特定优化： 当前 DART 的分数网络是预训练后固定的。对于特定领域（如医学影像、遥感图像），可以对分数网络进行微调，以学习特定于该领域的“重要性”定义。
3. 样本间动态分配： DART 优化了单个样本内的 token 预算分配。未来的工作可以探索样本间的动态分配，即根据样本的“难易程度”分配不同总量的 tokens。
4. 与层级化模型协同设计： 论文用 DART-Grid 证明了其与 Swin Transformer 的兼容性。未来可以探索专门为层级化模型设计、更深度耦合的自适应分词器。
5. 在更大规模模型上的验证： 论文主要在 Tiny/Small/Base 尺寸的模型上进行了验证。将其扩展到超大规模模型（如 ViT-L/H）上，验证其效率增益是否依然存在，是一个有待探索的方向。
个人启发与批判 (Personal Insights & Critique):
- 启发：
  1. “前端优化”的价值： 这篇论文给我最大的启发是，在模型优化的思路上，有时“向输入端看”比“向模型深处走”更具性价比。DART 通过投资少量计算开销在“侦察”阶段（分数预测），极大地优化了主要计算预算的分配效率，这种“好钢用在刀刃上”的哲学思想非常值得借鉴。
  2. “可微分”的力量： DART 的成功很大程度上归功于其完全可微分的设计。这使得一个原本看似离散、启发式的分区问题，可以被无缝地整合到端到端的梯度优化框架中，让模型“自己学会”如何看图，而不是依赖于手工设计的规则。
  3. 对“模型扩展”的重新思考： DART 挑战了“更大模型=更好性能”的传统认知，提出了一条“更聪明的模型=更好性能”的新路径。这对于在计算资源受限的情况下追求更高性能具有重要的现实意义。
- 批判性思考：
  1. 对无明确主体的图像： 论文在附录中通过“自适应退化”的例子（图 8b）回应了对无明确前景/背景图像的处理，即 DART 会自动退化为均匀网格。这是一个合理的行为，但在一些细粒度分类任务中（如区分不同种类的织物纹理），这种全局均匀的策略可能不是最优的。
  2. 分数网络的开销与依赖： 虽然论文证明了分数网络的开销很小（约 5%），但在极度追求低延迟的场景下，这仍然是一个不可忽略的成本。此外，DART 的性能上限部分取决于分数网络的质量（如附录表 9 所示），一个更强的分数网络能带来更好的效果，但也意味着更大的开销，这本身也是一个权衡。
  3. “注意力平均”问题： 论文在附录中（图 8a）坦诚地指出了一个挑战性案例：当图像中存在大量密集的小物体时，即使 DART 能准确定位，有限的 token 预算被分散到太多目标上，可能导致“注意力平均”效应，无法对任何一个物体进行高保真度解析。这揭示了当前 DART 策略的一个边界条件，并启发了未来可以模仿人类“采样式”注意力的研究方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Method	Top-1 (%)
Deit-Ti	72.2
+DART-Grid	73.1
+DART-Flow	73.8