ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations
TL;DR 精炼摘要
ReferDINO结合视觉定位基础模型,提出定位引导的可变形掩码解码器和对象一致时间增强器,实现跨模态时空推理与像素级密集感知。其置信度感知查询剪枝策略提升解码速度,多数据集实验表明显著优于现有方法,达实时推理水平。
摘要
Referring video object segmentation (RVOS) aims to segment target objects throughout a video based on a text description. This is challenging as it involves deep vision-language understanding, pixel-level dense prediction and spatiotemporal reasoning. Despite notable progress in recent years, existing methods still exhibit a noticeable gap when considering all these aspects. In this work, we propose \textbf{ReferDINO}, a strong RVOS model that inherits region-level vision-language alignment from foundational visual grounding models, and is further endowed with pixel-level dense perception and cross-modal spatiotemporal reasoning. In detail, ReferDINO integrates two key components: 1) a grounding-guided deformable mask decoder that utilizes location prediction to progressively guide mask prediction through differentiable deformation mechanisms; 2) an object-consistent temporal enhancer that injects pretrained time-varying text features into inter-frame interaction to capture object-aware dynamic changes. Moreover, a confidence-aware query pruning strategy is designed to accelerate object decoding without compromising model performance. Extensive experimental results on five benchmarks demonstrate that our ReferDINO significantly outperforms previous methods (e.g., +3.9% (\mathcal{J}&\mathcal{F}) on Ref-YouTube-VOS) with real-time inference speed (51 FPS).
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations (ReferDINO:基于视觉定位基础模型的指代视频对象分割)
- 作者 (Authors): Tianming Liang, Kun-Yu Lin, Chaolei Tan, Jianguo Zhang, Wei-Shi Zheng, Jian-Fang Hu。第一作者和通讯作者单位为中山大学,其他作者来自中山大学和南方科技大学。
- 发表期刊/会议 (Journal/Conference): 论文中标注为
ICCV'25,这是一个未来的会议,表明该论文在提交时可能是一个占位符,或者作者意图投稿至该会议。ICCV (International Conference on Computer Vision) 是计算机视觉领域的顶级会议之一,具有极高的学术声誉和影响力。 - 发表年份 (Publication Year): 2025 (根据论文标注)。当前版本 (v2) 于 2025 年 1 月提交至 arXiv。
- 摘要 (Abstract): 论文旨在解决指代视频对象分割 (RVOS) 任务,即根据文本描述在整个视频中分割出目标对象。该任务具有挑战性,因为它需要深度视觉语言理解、像素级密集预测和时空推理。现有方法在这些方面仍有差距。为此,论文提出了
ReferDINO,一个强大的 RVOS 模型。该模型继承了视觉定位基础模型(如GroundingDINO)的区域级视觉语言对齐能力,并进一步被赋予了像素级密集感知和跨模态时空推理能力。具体而言,ReferDINO集成了两个关键组件:1) 一个定位引导的可变形掩码解码器,利用位置预测通过可微的变形机制逐步指导掩码预测;2) 一个对象一致的时间增强器,将预训练的时变文本特征注入帧间交互,以捕捉与对象相关的动态变化。此外,论文还设计了一种置信度感知的查询剪枝策略,在不牺牲性能的情况下加速对象解码。在五个基准数据集上的大量实验表明,ReferDINO显著优于先前方法(例如,在Ref-YouTube-VOS数据集上J&F指标提升了 3.9%),并能达到实时推理速度(51 FPS)。 - 原文链接 (Source Link):
- arXiv 链接: https://arxiv.org/abs/2501.14607v2
- PDF 链接: https://arxiv.org/pdf/2501.14607v2.pdf
- 发布状态: 预印本 (Preprint)。
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 指代视频对象分割 (Referring Video Object Segmentation, RVOS) 任务要求模型能理解自然语言描述,并在视频中持续、准确地分割出被描述的对象。
- 现有挑战 (Gap):
- 视觉语言理解能力不足: 现有的 RVOS 模型通常在小规模、标注昂贵的 RVOS 数据集上训练,导致它们难以理解复杂的文本描述,尤其是在处理涉及组合属性(如形状+颜色)、相对位置或动作的描述时,容易混淆相似物体(如图 1 (a) 所示)。
- 基础模型的局限性: 近期强大的视觉定位 (Visual Grounding) 基础模型,如
GroundingDINO,虽然在图像-文本数据上预训练后具备了强大的开放世界物体识别和定位能力,但它们存在两大缺陷:首先,它们主要用于输出边界框(区域级预测),缺乏像素级分割能力;其次,它们擅长理解静态属性(如“白猫”),但无法理解视频中的动态属性(如“正在摇尾巴的猫”),如图 1 (b) 所示。
- 创新切入点: 论文的思路不是从零开始设计模型,也不是简单地将
GroundingDINO和分割模型(如 SAM)进行低效的“串联”,而是提出一种端到端 (end-to-end) 的自适应方法。它旨在将GroundingDINO强大的静态物体感知能力“继承”下来,并为其“赋能”,补齐其在像素级分割和时空动态理解上的短板,从而打造一个既有强大先验知识又适应 RVOS 任务的专用模型。
-
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出了
ReferDINO模型: 一个强大的 RVOS 框架,它首次成功地将视觉定位基础模型GroundingDINO端到端地适配到 RVOS 任务中,有效结合了基础模型的开放世界知识和 RVOS 任务的特定需求。 - 设计了两个核心组件以弥补能力差距:
- 定位引导的可变形掩码解码器 (Grounding-guided Deformable Mask Decoder): 解决了从区域级定位到像素级分割的转换问题。它巧妙地利用
GroundingDINO预测的边界框作为“先验知识”,引导模型在正确的位置进行特征采样和掩码生成,实现了定位与分割的深度耦合。 - 对象一致的时间增强器 (Object-consistent Temporal Enhancer): 解决了静态理解到动态推理的跨越。该模块通过追踪跨帧的对象,并利用时变的文本特征进行跨模态时间交互,使模型能够理解动作和动态变化,保证分割结果的时间一致性。
- 定位引导的可变形掩码解码器 (Grounding-guided Deformable Mask Decoder): 解决了从区域级定位到像素级分割的转换问题。它巧妙地利用
- 提出了一种高效的查询剪枝策略 (Confidence-aware Query Pruning): 解决了基础模型计算开销大的问题。通过在解码过程中逐步剪除“不重要”的查询,该策略在几乎不损失性能的前提下,大幅降低了计算量和内存占用,使模型训练更高效,推理速度达到实时水平。
- 提出了
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- 指代视频对象分割 (Referring Video Object Segmentation, RVOS): 这是一个多模态任务。与传统的视频对象分割 (VOS) 仅提供第一帧的掩码不同,RVOS 的输入是一段视频和一句自然语言描述(例如,“正在追逐球的黑狗”),任务要求模型在视频的每一帧中都分割出被这句描述所指代的目标对象。
- 视觉定位 (Visual Grounding): 这是一个连接视觉和语言的任务,旨在根据给定的文本描述,在图像中定位出相应的物体区域,通常以边界框 (bounding box) 的形式输出。
DETR(DEtection TRansformer): 一种基于 Transformer 架构的端到端目标检测模型。它摒弃了传统检测器中复杂的锚框 (anchor) 和非极大值抑制 (NMS) 等后处理步骤。其核心思想是使用一组可学习的object queries(对象查询),每个query负责在解码器中与图像特征交互,并最终独立地预测一个物体的位置和类别。GroundingDINO正是基于DETR架构构建的。GroundingDINO: 一个强大的开放词汇目标检测/视觉定位基础模型。它将DETR架构与大规模图文预训练相结合,使其能够检测和定位文本中描述的任意物体,即使这些物体类别并未出现在传统的检测数据集中。它的强大之处在于其卓越的区域级视觉语言对齐能力。
-
前人工作 (Previous Works):
- 传统 RVOS 方法: 如
ReferFormer、SOC等,通常基于DETR范式,但它们的视觉语言理解能力受限于 RVOS 数据集的规模和多样性,导致在复杂场景或开放世界物体上表现不佳。 - 级联/集成方法: 一些近期工作尝试将
GroundingDINO用于在单帧图像上定位目标,然后用SAM(Segment Anything Model) 等分割模型生成掩码。这种方法的缺点是:1) 效率低下,需要依次运行两个大型模型;2) 非端到端,分割过程无法反向传播梯度来优化定位模型,两者无法协同学习;3) 缺乏时序信息,逐帧处理忽略了视频的动态连贯性。 Video-GroundingDINO: 该工作尝试将GroundingDINO扩展到视频领域,但其目标是时序动作定位(即找出动作在视频中的起止时间),而非像素级的分割。它通过简单地插入时间自注意力模块来实现,适配程度较浅。
- 传统 RVOS 方法: 如
-
技术演进 (Technological Evolution): 该领域的技术演进可以概括为:从针对特定类别的视频分割 -> 用户在第一帧指定目标的半监督视频分割 -> 基于文本描述的 RVOS。在 RVOS 内部,技术从早期的循环网络 (RNN) 结构,发展到目前主流的基于 Transformer 的端到端框架。而本文所处的技术脉络,则是将大规模预训练的视觉语言基础模型适配到下游视频任务的最新趋势,探索如何在保留基础模型强大能力的同时,高效地解决特定任务的挑战。
-
差异化分析 (Differentiation): 与传统的 RVOS 模型相比,
ReferDINO的核心优势在于继承了GroundingDINO强大的开放世界视觉语言理解能力,使其起点远高于从零开始训练的模型。与简单的级联方法相比,ReferDINO是一个完全端到端的、可微的统一框架。其设计的mask decoder和temporal enhancer并非简单的模块拼接,而是为解决GroundingDINO的固有缺陷而量身定制,实现了定位、分割和时序推理的深度融合与协同优化。
4. 方法论 (Methodology - Core Technology & Implementation Details)
ReferDINO 的整体架构如图 4 所示,它在 GroundingDINO 的基础上增加了三个核心组件。

方法原理与流程:
-
逐帧特征提取与剪枝: 对视频的每一帧,模型独立地使用
GroundingDINO的主干网络提取视觉特征,并与文本特征进行跨模态交互。在GroundingDINO的解码器中,应用置信度感知的查询剪枝 (§4.3),将初始的 900 个object queries逐步减少到一个紧凑的集合(例如,几十个),得到每帧最重要的对象特征 。 -
时序推理与增强: 收集所有帧的对象特征 ,送入对象一致的时间增强器 (§4.2)。该模块首先对跨帧的对象进行追踪和对齐,然后进行跨模态的时间信息交互,输出经过时间增强的对象特征 。
-
掩码生成: 将增强后的对象特征 送入定位引导的可变形掩码解码器 (§4.1)。该解码器利用
GroundingDINO预测的边界框作为位置先验,精确地生成每个对象的像素级掩码 。
-
4.1. 定位引导的可变形掩码解码器 (Grounding-guided Deformable Mask Decoder)
-
核心思想: 将边界框预测 (定位) 和掩码预测 (分割) 从并行关系变为串联引导关系。利用
GroundingDINO已经很准确的边界框预测来指导掩码的生成,让模型“知道”应该在图像的哪个区域集中注意力来生成精细掩码。 -
方法步骤:
- 对于一个经过时间增强的对象特征 ,首先通过
GroundingDINO的box head预测出其边界框 。 - 该解码器包含 个块,每个块的核心是可变形交叉注意力 (Deformable Cross-Attention, DCA)。与标准
DCA不同,它不通过 MLP 学习参考点,而是直接使用预测出的边界框中心点 作为注意力采样的参考点。模型只在参考点周围的一小部分关键位置进行特征采样,这既高效又精准。 - 为了缓解采样过程中可能引入的背景噪声,解码器还引入了跨模态注意力 (Cross-modal Attention, CMA),将对象特征 作为
query,文本特征 作为key和value,利用文本信息进一步提纯特征。 - 经过 个块的处理后,得到精炼的掩码嵌入 。最后,将 与高分辨率的图像特征图 进行点积,生成最终的实例掩码。
- 对于一个经过时间增强的对象特征 ,首先通过
-
优势: 相比于之前工作中常用的
dynamic mask head(为每个对象复制一份高分辨率特征图,内存开销巨大),该方法在共享的特征图上通过引导采样来集成位置信息,内存效率极高,特别适合于GroundingDINO这类使用大量query的基础模型。
-
-
4.2. 对象一致的时间增强器 (Object-consistent Temporal Enhancer)
该图像是图3的示意图,展示了ReferDINO中的对象一致时间增强器结构,包含交叉模态时间解码器和记忆增强追踪器,其中交叉模态时间解码器由时间自注意力和交叉注意力组成,输入为时序文本特征。- 核心思想: 解决
GroundingDINO无法理解动态信息和保证时间一致性的问题。它通过追踪和跨模态时间交互,使模型能够利用整个视频的上下文信息。 - 方法步骤:
-
记忆增强追踪器 (Memory-augmented Tracker):
- 对象对齐: 对于第 帧的对象特征 ,使用匈牙利算法 (Hungarian Algorithm) 与前一帧的记忆库 进行匹配,以找到帧间的对象对应关系,得到对齐后的特征 。
- 记忆更新: 采用动量更新的方式更新记忆库 。关键创新在于,更新的权重会乘以一个文本相关性分数 。如果某一帧中目标不可见,其文本相关性会很低,从而避免了这些“坏”帧对长期记忆的污染。
- 数学公式:
- 符号解释:
- : 第 帧的记忆库。
- : 动量系数。
- : 第 帧对齐后的对象特征。
- : 第 帧对象特征与该帧句子嵌入 之间的余弦相似度,代表文本相关性。
-
跨模态时间解码器 (Cross-modal Temporal Decoder):
- 该模块包含 个块。首先,对所有帧对齐后的对象特征 在时间维度上进行自注意力 (Self-Attention),实现帧间信息交互。
- 接着,使用一个交叉注意力 (Cross-Attention) 模块,以时变的句子嵌入 作为
query,对象特征作为key和value,从而提取出包含动态信息的特征 。这与以往工作中使用静态文本嵌入不同,更能捕捉细粒度的时序动态。 - 最后,将动态特征加回到原始对象特征上,完成增强。
- 数学公式:
- 符号解释:
-
: 经过时间增强后的对象特征。
-
: 对齐后的对象特征。
-
: 从交叉注意力中提取的动态视觉信息。
-
-
- 核心思想: 解决
-
4.3. 置信度感知的查询剪枝 (Confidence-aware Query Pruning)
该图像是示意图,展示了信心感知查询剪枝机制。图中包含交叉注意力和自注意力模块,结合查询和文本令牌,通过计算和比较置信度选择关键查询。- 核心思想: 在
GroundingDINO的解码器逐层计算时,动态识别并丢弃那些“低置信度”或“不重要”的object queries,从而在不损失预训练知识的前提下,大幅减少计算量。 - 方法步骤:
- 在解码器的第 层,为每个
query计算一个置信度分数 。这个分数由两部分组成:- 来自其他查询的注意力: 该
query从所有其他query处获得的自注意力权重的平均值。一个被其他query普遍关注的query通常更重要。 - 来自文本的注意力: 该
query与所有文本token交叉注意力的最大值,表示该query对应物体被文本提及的概率。
- 来自其他查询的注意力: 该
- 数学公式:
- 符号解释:
- : 第 个
query的置信度分数。 - : 自注意力权重矩阵。
- : 与文本
token的交叉注意力权重矩阵(已转置)。 - : 第 层的
query数量。 - : 文本
token的数量。
- : 第 个
- 根据分数 对
query排序,并只保留分数最高的 (例如,50%)的query进入下一层计算。这个过程逐层进行,最终输出的query数量 会远小于初始的 。
- 在解码器的第 层,为每个
- 核心思想: 在
5. 实验设置 (Experimental Setup)
-
数据集 (Datasets):
Ref-YouTube-VOS: 大规模 RVOS 数据集,包含 3,978 个视频和约 1.5 万条描述,场景多样,是评估模型泛化能力的核心基准。Ref-DAVIS17: 包含 90 个视频和 1.5 千条描述,虽然规模较小,但标注质量高。A2D-Sentences: 包含 3,700 多个视频,描述内容侧重于演员和动作。JHMDB-Sentences: 包含 928 个视频,每个视频只有一条描述,同样关注动作。MeViS: 一个较新的大规模数据集,包含 2,000 个视频和 2.8 万条描述,特点是包含大量描述物体运动的表达,且可能涉及多个目标对象。- 选择原因: 这些数据集覆盖了不同的场景、描述风格和任务难度,能够全面地评估模型在 RVOS 任务上的综合性能。
-
评估指标 (Evaluation Metrics):
-
区域相似度 (Region Similarity, ):
- 概念定义: 也称为 IoU (Intersection over Union)。它衡量的是模型预测的分割掩码与真实掩码之间的重合程度。 值越高,表示预测的区域与真实区域越吻合,定位越准确。
- 数学公式:
- 符号解释:
- : 模型预测的分割掩码区域 (像素集合)。
- : 真实标注的掩码区域 (Ground Truth)。
- : 计算集合中的像素数量。
-
轮廓准确度 (Contour Accuracy, ):
- 概念定义: 它将掩码视为一组轮廓点,并计算预测轮廓与真实轮廓之间的 F-score (精确率和召回率的调和平均值)。 关注的是分割边界的精细程度。值越高,表示预测的物体边界越贴近真实边界。
- 数学公式:
- 符号解释:
- (精确率): 预测为轮廓点的像素中,真正是轮廓点的比例。
- (召回率): 所有真实轮廓点中,被模型成功预测出来的比例。
-
:
- 概念定义: 这是 和 的平均值,综合了对区域和轮廓的评估,是 RVOS 任务中最常用的核心指标之一。
- 数学公式:
- 符号解释:
- : 区域相似度。
- : 轮廓准确度。
-
mAP (mean Average Precision):
- 概念定义: 平均精度均值。在目标检测和分割任务中,通过在不同 IoU 阈值下计算 AP (Average Precision),再对所有阈值取平均得到。它综合评估了模型在不同重叠要求下的性能。
- 数学公式: AP 的计算通常是 PR 曲线下的面积。mAP 是在多个 IoU 阈值(如 0.5 到 0.95)上计算的 AP 的平均值。
- 符号解释: 这是一个复合指标,其内部涉及精确率-召回率曲线的计算,此处不展开复杂公式。
-
oIoU (overall IoU) 和 mIoU (mean IoU):
- 概念定义:
oIoU是将所有视频的所有帧的预测和真值像素集合在一起,计算一个总的 IoU。mIoU则是先计算每个视频/类别的平均 IoU,再对所有视频/类别取平均。oIoU更关注大目标,而mIoU对小目标的表现更敏感。 - 数学公式:
- 符号解释:
- : 第 个类别/样本的真阳性、假阳性、假阴性像素数。
- : 类别/样本总数。
- 概念定义:
-
-
对比基线 (Baselines):
- SOTA 方法: 论文比较了近年来在该领域取得最佳性能的模型,如
ReferFormer,HTML,SgMg,SOC,LoSh,DsHmp等。这些都是基于 Transformer 的强基线。 - 自建基线: 为了证明其设计的有效性,作者还构建了两个基于
GroundingDINO的简化版基线:G-DINO+SH(Static Head): 直接将query嵌入与特征图点积生成掩码,是一种最简单的分割头。G-DINO+DH(Dynamic Head): 采用在先前工作中常见的dynamic mask head。- 这两个基线都增加了时间自注意力模块以处理视频,模拟了对
GroundingDINO的“简单”改造。
- SOTA 方法: 论文比较了近年来在该领域取得最佳性能的模型,如
6. 实验结果与分析 (Results & Analysis)
-
核心结果分析 (Core Results Analysis):
-
转录的 Table 1 (部分,Swin-T backbone): 由于原表复杂,这里转录关键对比部分,并使用 HTML 格式。
Method Venue Ref-YouTube-VOS Ref-DAVIS17 J&F J J&F J F SOC [23] NeurIPS'23 62.4 61.1 63.5 60.2 66.7 DsHmp [9] CVPR'24 63.6 61.8 64.0 60.8 67.2 G-DINO+DH - 64.2 62.4 65.1 61.3 69.1 ReferDINO (ours) ICCV'25 67.5 65.5 66.7 62.9 70.7 -
分析:
- 全面超越 SOTA: 在所有五个基准上,
ReferDINO的性能都显著优于所有先前的 SOTA 方法。例如,在最具挑战性的Ref-YouTube-VOS数据集上,使用Swin-T骨干的ReferDINO取得了 67.5% 的J&F,比之前的最佳方法DsHmp(63.6%) 高出 3.9%,这是一个巨大的提升。使用更大的Swin-B骨干后,性能进一步提升至 69.3%。 - 显著优于简单改造:
ReferDINO的性能也远超作者自己构建的G-DINO+SH和G-DINO+DH基线。例如,在MeViS数据集上,ReferDINO(48.0%) 比G-DINO+DH(45.4%) 高出 2.6%。这有力地证明了论文提出的mask decoder和temporal enhancer不是可有可无的,而是发挥了关键作用,简单的模型改造无法充分释放基础模型的潜力。
- 全面超越 SOTA: 在所有五个基准上,
-
定性分析 (Qualitative Analysis):
-
图 7 (
images/5.jpg) 展示了ReferDINO与SOC的对比。在处理“从后面开始注视并移到前面的小猫”这种包含动作和空间关系的复杂描述时,SOC可能会失败,而ReferDINO能够准确分割。
该图像是两组视频帧的分割示意图,展示了本文方法(Ours)与SOC方法在不同描述条件下对目标对象的分割效果对比,分别为“从后面开始注视并移到前面的小猫”和“领先的大象”,其中目标对象以蓝色覆盖显示。 -
图 8 (
images/6.jpg) 展示了ReferDINO在同一视频中处理多个不同文本描述的能力,证明了其强大的视觉语言理解和多目标区分能力。
该图像是ReferDINO模型处理多重文本指令的视频目标分割示意图,展示了根据不同文本描述对视频中多个对象进行实时分割的效果,突出模型的视觉语言理解和多目标区分能力。
-
-
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
-
掩码解码器 (Mask Decoder) 消融实验 (Table 3):
Method J&F J F ReferDINO 48.0 43.6 52.3 w/o CMA 47.6 (-0.4) 43.1 52.0 w/o DCA 45.3 (-2.7) 41.8 48.7 - 分析: 去掉
DCA(可变形交叉注意力) 导致性能大幅下降 2.7%,说明使用定位先验引导的自适应采样是提升掩码质量的核心。去掉CMA(跨模态注意力) 也有 0.4% 的性能损失,表明利用文本信息进行特征提纯是有益的补充。
- 分析: 去掉
-
时间增强器 (Temporal Enhancer) 消融实验 (Table 4):
Method J&F J F ReferDINO 48.0 43.6 52.3 w/o Tracker 47.6 (-0.4) 43.2 52.1 w/o Decoder 45.8 (-2.2) 42.7 48.8 - 分析: 去掉时间解码器 (
w/o Decoder) 导致性能显著下降 2.2%,证明跨模态时间交互对于理解动态属性至关重要。去掉追踪器 (w/o Tracker) 也有 0.4% 的性能损失,说明显式的对象追踪有助于提升时间一致性。
- 分析: 去掉时间解码器 (
-
查询剪枝 (Query Pruning) 分析 (Table 5):
Drop Rate J&F J F FLOPs Memory FPS 0% (No Pruning) 67.6 65.6 69.7 840.3G 24.0G 4.9 50% 67.5 65.5 69.6 499.3G 14.1G 51.0 Random 50% 38.3 37.1 39.4 499.3G 14.1G 51.0 - 分析: 采用 50% 的剪枝率,
J&F性能仅从 67.6% 微降至 67.5%,几乎没有损失。然而,计算量 (FLOPs) 减少了 40.6%,内存 (Memory) 减少了 41.3%,而推理速度 (FPS) 从 4.9 提升到 51.0,实现了超过 10 倍的加速。相比之下,随机剪枝 50% 的query会导致性能灾难性地下降近 30%。这充分证明了置信度感知的剪枝策略能够精确地识别并保留最重要的query,实现了性能与效率的完美平衡。
- 分析: 采用 50% 的剪枝率,
-
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary): 论文成功提出了
ReferDINO,一个为 RVOS 任务量身定制的强大模型。通过设计定位引导的可变形掩码解码器和对象一致的时间增强器,ReferDINO有效地将视觉定位基础模型GroundingDINO的区域级、静态语言理解能力,扩展到了像素级、动态时空推理的层面。此外,创新的置信度感知查询剪枝策略极大地提升了模型的训练和推理效率,使其能够达到实时性能。在五个主流基准数据集上的实验结果证明,ReferDINO在性能和效率上均达到了新的 SOTA 水平。 -
局限性与未来工作 (Limitations & Future Work): 论文正文没有明确指出自身的局限性。但基于分析,可以推断出一些潜在方向:
- 对预训练模型的依赖:
ReferDINO的性能高度依赖于GroundingDINO的预训练质量。如果GroundingDINO本身在某些特定领域或属性理解上存在偏差,这种偏差可能会被继承。 - 骨干网络冻结: 论文中冻结了视觉和文本骨干网络,只微调了 Transformer 部分。虽然这提高了训练效率,但完全端到端地微调整个模型可能会带来进一步的性能提升,尤其是在与预训练数据差异较大的下游任务上。
- 更复杂的时序关系: 当前模型主要关注对象本身的动态变化,对于更复杂的、涉及多个对象之间交互的时序关系(如“A 先跑,B 再追”)的理解能力可能还有提升空间。
- 对预训练模型的依赖:
-
个人启发与批判 (Personal Insights & Critique):
- 方法论的启发: 这篇论文最亮眼的地方在于它展示了如何“聪明地”适配基础模型。它不是做简单的模型拼接,而是深刻分析了基础模型(
GroundingDINO)的能力边界(仅区域、仅静态)和下游任务(RVOS)的核心需求(像素级、动态),然后通过设计专门的、可微的模块来“架桥”,填补能力鸿沟。这种“继承+赋能”的适配思想对于将其他领域的大模型(如 LLM)应用到特定任务中具有很强的借鉴意义。 - 工程与学术的平衡:
置信度感知查询剪枝策略是一个非常实用的贡献。它解决了基础模型在视频等多帧任务中计算成本过高这一核心痛点,使得 SOTA 级别的性能能够以实时速度实现,极大地推动了技术走向实际应用的可能。这体现了优秀研究工作在追求性能高度的同时,也应关注效率和实用性。 - 批判性思考: 论文的整体框架非常坚实,论证充分。一个可以进一步探讨的点是,
置信度感知查询剪枝中的分数计算方式是否最优。目前它结合了自注意力和交叉注意力,未来可以探索是否能引入更多信息(如几何信息、时间一致性)来更精确地衡量query的重要性。此外,模型在极长视频上的表现如何,内存增强追踪器的长期记忆能力是否会遇到瓶颈,也是值得未来研究的问题。
- 方法论的启发: 这篇论文最亮眼的地方在于它展示了如何“聪明地”适配基础模型。它不是做简单的模型拼接,而是深刻分析了基础模型(
相似论文推荐
基于向量语义检索推荐的相关论文。