ReferDINO-Plus: 2nd Solution for 4th PVUW MeViS Challenge at CVPR 2025
TL;DR 精炼摘要
本文提出ReferDINO-Plus,基于ReferDINO融合SAM2,通过条件掩码融合策略提升了指代性视频对象分割中掩码质量与时间一致性,有效兼顾单目标与多目标场景。该方法在MeViS挑战赛中获第二名,J&F分数达60.43。
摘要
Referring Video Object Segmentation (RVOS) aims to segment target objects throughout a video based on a text description. This task has attracted increasing attention in the field of computer vision due to its promising applications in video editing and human-agent interaction. Recently, ReferDINO has demonstrated promising performance in this task by adapting object-level vision-language knowledge from pretrained foundational image models. In this report, we further enhance its capabilities by incorporating the advantages of SAM2 in mask quality and object consistency. In addition, to effectively balance performance between single-object and multi-object scenarios, we introduce a conditional mask fusion strategy that adaptively fuses the masks from ReferDINO and SAM2. Our solution, termed ReferDINO-Plus, achieves 60.43 on MeViS test set, securing 2nd place in the MeViS PVUW challenge at CVPR 2025. The code is available at: https://github.com/iSEE-Laboratory/ReferDINO-Plus.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): ReferDINO-Plus: 2nd Solution for 4th PVUW MeViS Challenge at CVPR 2025 (ReferDINO-Plus: 第四届 PVUW MeViS 挑战赛(CVPR 2025)第二名解决方案)
- 作者 (Authors): Tianming Liang, Haichao Jiang, Wei-Shi Zheng, Jian-Fang Hu。他们均来自中山大学 (Sun Yat-sen University)。
- 发表期刊/会议 (Journal/Conference): 论文提交于计算机视觉领域的顶级会议——计算机视觉与模式识别会议 (Conference on Computer Vision and Pattern Recognition, CVPR) 2025 年的第四届像素级视频理解 (Pixel-level Video Understanding in the Wild, PVUW) 研讨会挑战赛。CVPR 是计算机视觉领域的 A 类顶会,具有极高的学术声誉和影响力。
- 发表年份 (Publication Year): 2025
- 摘要 (Abstract): 论文介绍了一种名为
ReferDINO-Plus的解决方案,用于解决指代性视频对象分割 (Referring Video Object Segmentation, RVOS) 任务。该方法在现有先进模型ReferDINO的基础上,集成了SAM2模型来提升分割掩码的质量和对象在时间上的连续性。为了解决在处理单个对象和多个对象场景时性能不均衡的问题,作者提出了一种“条件掩码融合” (Conditional Mask Fusion) 策略,该策略能自适应地合并来自ReferDINO和SAM2的掩码。最终,该方案在 MeViS 数据集的测试集上取得了 60.43 的J&F分数,在 CVPR 2025 的 MeViS 挑战赛中获得第二名。 - 原文链接 (Source Link):
- ArXiv 链接: https://arxiv.org/abs/2503.23509v2
- PDF 链接: https://arxiv.org/pdf/2503.23509v2.pdf
- 发布状态: 该论文是一篇预印本 (Preprint),作为技术报告提交给学术会议的挑战赛。
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 论文旨在解决指代性视频对象分割 (RVOS) 任务,即根据一句自然语言描述,在整个视频中分割出被描述的目标对象。
- 问题重要性与挑战: RVOS 在视频编辑、人机交互等领域有巨大应用潜力。然而,现有方法在处理复杂场景时面临挑战。特别是
MeViS这个新基准,它专注于动态、基于运动的描述 (e.g., "正在移动的鹦鹉") 和多目标指代 (e.g., "向左移动的牛群"),这比以往关注静态属性(如颜色、形状)的数据集更具挑战性。现有模型在复杂的视觉-语言理解和时空推理方面能力不足,是亟待解决的空白 (Gap)。 - 切入点: 作者没有从零开始设计新模型,而是选择了一个强大的基线模型
ReferDINO,并思考如何弥补其短板。他们发现ReferDINO虽然语言理解能力强,但生成的掩码质量有时不够精细。因此,他们引入了以高质量分割和跟踪著称的SAM2模型进行“后处理”增强。这一“强强联合”的思路是本文的创新切入点。
-
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出了
ReferDINO-Plus框架: 这是一个简单而高效的两阶段策略。第一阶段使用ReferDINO进行初步的跨模态推理和目标定位;第二阶段利用SAM2对ReferDINO的结果进行精炼和优化,显著提升了掩码质量和时间一致性。 - 设计了条件掩码融合 (Conditional Mask Fusion, CMF) 策略: 这是本文最关键的创新点。作者发现
SAM2虽然在单目标场景下表现优异,但在处理多目标时,倾向于将多个对象的掩码退化为单个对象的掩码,导致性能下降。CMF策略通过一个简单的面积比例判断,智能地区分单/多目标场景:在单目标场景下信任SAM2的结果,在多目标场景下将ReferDINO和SAM2的结果进行合并,从而有效平衡了两种模型的优劣。 - 取得了优异的竞赛成绩: 该方案在没有任何额外的伪标签微调的情况下,在
MeViS挑战赛中取得了第二名的成绩,证明了其方法的有效性和实用性。
- 提出了
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- 指代性视频对象分割 (Referring Video Object Segmentation, RVOS): 这是一个多模态任务,要求模型同时理解视频内容(视觉信息)和自然语言描述(文本信息),并根据描述在视频的每一帧中精确地分割出(即圈出像素级区域)所指代的对象。
- 基础模型 (Foundation Models): 指在大规模数据上预训练、具备强大通用能力的模型,如
GPT系列(语言)、SAM(视觉分割)。这些模型可以通过微调或提示 (prompting) 快速适应下游任务。本文中GroundingDINO和SAM2都是基础模型的代表。 - DETR (DEtection TRansformer): 一种基于 Transformer 架构的端到端目标检测模型。它将目标检测视为一个集合预测问题,无需手动设计复杂的后处理步骤(如 NMS),对后续的 RVOS 模型(如
MTTR,ReferFormer)产生了深远影响。 - 视觉定位 (Visual Grounding): 指根据文本描述在图像或视频中定位相应对象区域的任务。
GroundingDINO是一个在该领域表现出色的模型,它将目标检测和视觉定位统一到了一个框架中。 - SAM (Segment Anything Model) & SAM2:
SAM是一个强大的图像分割基础模型,能根据点、框、文本等提示分割出图像中的任何对象。SAM2是其在视频领域的进化版,专门为视频对象分割和跟踪设计,能够根据第一帧的提示(如掩码)在整个视频中稳定地跟踪并分割目标。
-
前人工作 (Previous Works):
- 早期方法: 直接将指代性图像分割方法应用于视频的每一帧,但这种方式忽略了时间维度信息,导致分割结果在帧间不连续、闪烁。
- 基于 Transformer 的方法:
MTTR首次将DETR范式引入 RVOS,实现了端到端处理。ReferFormer在此基础上改进,直接从文本描述生成查询 (query),增强了文本与视觉的交互。后续工作如SOC、DsHmp等则在模块上进行改进,以增强跨帧一致性和时序理解能力。这些方法的局限在于,它们大多在特定数据集上从头训练,视觉-语言理解能力有限,难以处理复杂的描述和未见过的对象。 - 基于基础模型的方法:
ReferDINO是一个里程碑式的工作,它通过利用预训练好的视觉定位模型GroundingDINO的强大知识,显著提升了 RVOS 任务的性能,特别是在处理复杂语言和开放词汇方面。本文的工作正是建立在ReferDINO的成功之上。
-
技术演进 (Technological Evolution): RVOS 领域的技术演进路线清晰可见:
- 帧级独立处理: 将视频视为一系列独立的图像。
- 引入时序建模: 使用循环神经网络 (RNN) 或 3D 卷积来捕捉时间信息。
- Transformer 时代:
MTTR和ReferFormer等工作利用 Transformer 强大的长距离依赖建模能力,实现了更高效的端到端时空信息融合。 - 基础模型时代:
ReferDINO等工作不再满足于在任务特定数据上训练,而是通过适配强大的预训练基础模型 (GroundingDINO),将从海量数据中学到的通用视觉-语言知识迁移到 RVOS 任务中,实现了性能的飞跃。本文则更进一步,将两个不同领域的基础模型 (ReferDINO和SAM2) 进行巧妙结合。
-
差异化分析 (Differentiation): 与直接改进
ReferDINO内部结构或用伪标签进行自训练等方法不同,本文的核心创新在于模型间的协同与互补。它将ReferDINO视为一个强大的“目标提案生成器”,而将SAM2视为一个高质量的“掩码优化与跟踪器”。最关键的差异化在于CMF策略,它不是简单地将两个模型的结果相加或平均,而是设计了一个基于问题特性(单/多目标)的智能决策机制,这是一种非常实用且高效的工程思想。
4. 方法论 (Methodology - Core Technology & Implementation Details)
ReferDINO-Plus 的整体框架是一个清晰的三步流程,如下图所示:
该图像是论文中ReferDINO-Plus方法的示意图,展示了输入视频帧经过ReferDINO生成初步掩码,随后利用SAM2优化掩码质量,并通过条件掩码融合策略获得最终目标分割结果。
-
方法原理 (Methodology Principles): 该方法的核心思想是“分而治之”与“择优融合”。
- 分而治之: 将复杂的 RVOS 任务分解为两个子问题:① “什么”和“哪里”的问题 (跨模态理解与定位),由
ReferDINO解决;② “如何精确分割”和“如何稳定跟踪”的问题 (高质量分割与时序一致性),由SAM2解决。 - 择优融合: 认识到
ReferDINO擅长处理多目标但掩码粗糙,而SAM2掩码精细但处理多目标时易出错。CMF策略就是为了动态地选择在特定情况下更优的方案,或将两者结合以取长补短。
- 分而治之: 将复杂的 RVOS 任务分解为两个子问题:① “什么”和“哪里”的问题 (跨模态理解与定位),由
-
方法步骤与流程 (Steps & Procedures):
-
第一阶段:使用
ReferDINO进行跨模态推理- 输入: 一个视频片段(包含 帧)和一句文本描述。
- 过程:
ReferDINO内部利用其从GroundingDINO继承的视觉-语言对齐能力,理解文本描述并定位到视频中的目标。它通过一个时序增强模块在不同帧之间传递信息,实现对目标的时空推理。 - 输出: 得到两组序列:
- 初步的掩码序列 ,其中 是第 帧的预测掩码。
- 对应的置信度分数序列 ,其中 是第 帧掩码的置信度。
- 注意: 对于可能的多目标描述,
ReferDINO会输出多个候选掩码,分数高于阈值 的掩码会被合并,形成最终的 。
-
第二阶段:使用
SAM2进行掩码精炼- 输入: 原始视频,以及一个“提示” (prompt)。
- 过程: 首先,从
ReferDINO输出的所有帧的掩码中,挑选出置信度分数最高(即 最大)的那一帧的掩码 。这个质量最高、最可信的掩码被用作SAM2的初始提示。SAM2接收这个提示后,利用其强大的视频对象跟踪和分割能力,在整个视频中传播这个掩码。 - 输出: 得到一个经过精炼的、时间上更连贯的掩码序列 。
-
第三阶段:条件掩码融合 (Conditional Mask Fusion, CMF)
- 背景: 作者观察到,如果
ReferDINO的提示 包含多个分离的对象,SAM2往往只能成功跟踪其中一个,导致其他目标丢失。 - 过程: 这一步在每一帧上独立进行。对于第 帧,比较
SAM2输出的掩码面积 和ReferDINO输出的掩码面积 。 - 决策:
- 如果
SAM2的掩码面积远小于ReferDINO(具体为小于其 ),则判定发生了“多目标退化”问题。此时,最终掩码 通过合并两者得到(即像素并集 ),以召回被SAM2丢失的目标。 - 否则,认为
SAM2的结果是可靠的,直接采用SAM2的掩码作为最终结果 。
- 如果
- 输出: 最终的、高质量的掩码序列 。
- 背景: 作者观察到,如果
-
-
数学公式与关键细节 (Mathematical Formulas & Key Details): 条件掩码融合策略的核心可以用以下公式表示:
- 符号解释 (Symbol Explanation):
- : 在单帧上最终输出的融合掩码。
- : 由
SAM2在该帧上生成的掩码。 - : 由
ReferDINO在该帧上生成的掩码。 - : 计算掩码面积(即掩码内像素总数)的函数。
- : 表示两个掩码的并集操作 (Union),即一个像素只要在任意一个掩码中,就在最终的融合掩码中。
- 关键超参数: 阈值 是一个经验性设置的超参数,用于判断是否发生了显著的面积缩小。另一个关键超参数是
ReferDINO合并多目标掩码时使用的分数阈值 。
- 符号解释 (Symbol Explanation):
5. 实验设置 (Experimental Setup)
-
数据集 (Datasets):
- 目标数据集 (Target Dataset):
MeViS数据集。这是一个大规模的 RVOS 数据集,包含 2000 个视频和 2.8 万条文本描述。其主要特点是:① 描述侧重运动和时序;② 视频中常有外观相似但动态不同的干扰对象;③ 包含大量指代多个对象的描述。这些特性使其极具挑战性。竞赛使用的测试集包含 100 个视频和 1456 条描述。 - 训练数据集 (Training Datasets): 模型训练遵循了多阶段策略:
- 图像级预训练: 在指代性图像分割数据集
RefCOCO, ,RefCOCOg上预训练,以学习基本的视觉-语言对齐能力。 - 视频级预训练: 在
Refer-Youtube-VOS和Ref-DAVIS17这两个经典的 RVOS 数据集上进行训练,以适应视频时序特性。 - 目标域微调: 最后在
MeViS的训练集上进行微调,使模型专门适应其数据分布和任务特点。
- 图像级预训练: 在指代性图像分割数据集
- 目标数据集 (Target Dataset):
-
评估指标 (Evaluation Metrics):
-
区域相似度 (Region Similarity, ):
- 概念定义 (Conceptual Definition): 该指标也常被称为
IoU(Intersection over Union)。它衡量的是预测掩码与真实掩码(Ground Truth)在区域上的重合程度。 的值越高,说明预测的区域形状和位置越准确。它是分割任务中最核心、最常用的评估指标之一。 - 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 模型预测的分割掩码区域。
- : 真实的标注掩码区域。
- : 表示计算一个区域内的像素点数量。
- : 集合的交集运算,在此表示两个区域重叠的部分。
- : 集合的并集运算,在此表示两个区域覆盖的总部分。
- 概念定义 (Conceptual Definition): 该指标也常被称为
-
轮廓准确度 (Contour Accuracy, ):
- 概念定义 (Conceptual Definition): 该指标关注预测掩码的边界(轮廓)与真实掩码边界的对齐精度。它将边界上的像素点视为一个集合,并计算预测边界和真实边界之间的 F-score (综合了精确率和召回率)。 值高表示预测的物体边缘非常贴合真实的物体边缘,分割结果更精细。
- 数学公式 (Mathematical Formula): 基于边界的精确率 (Precision) 和召回率 (Recall),F-score 计算如下:
- 符号解释 (Symbol Explanation):
- : 预测出的边界像素点中,有多大比例是真正的边界点。
- : 所有真正的边界像素点中,有多大比例被成功预测出来了。
- (注:在实际计算中,通常会允许一个小的容差范围来判断两个边界点是否匹配。)
-
综合指标 ():
- 概念定义 (Conceptual Definition): 这是 和 两个指标的算术平均值。它旨在提供一个更全面的性能评估,既考虑区域的重合度,也考虑边界的精细度。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 区域相似度得分。
- : 轮廓准确度得分。
-
-
对比基线 (Baselines):
- 内部基线 (Internal Baselines): 在消融实验中,论文主要与
ReferDINO自身(不加任何后处理)以及几种不同融合策略的变体进行比较。 - 外部基线 (External Baselines): 在竞赛排行榜中,与其他参赛队伍的方案进行比较,如
MVP-Lab(第一名)、HarborY(第三名) 等。
- 内部基线 (Internal Baselines): 在消融实验中,论文主要与
6. 实验结果与分析 (Results & Analysis)
-
核心结果分析 (Core Results Analysis): 如下方转录的
Table 1所示,ReferDINO-Plus在MeViS测试集上取得了 60.43 的J&F综合得分,位列所有参赛队伍第二。- 与第一名的比较: 仅比第一名
MVP-Lab(61.98) 低 1.55 分,差距非常小,表明其方案具有极强的竞争力。 - 与后续队伍的比较: 显著领先第三名
HarborY(56.26) 超过 4 分,展现了巨大的性能优势。这证明了ReferDINO-Plus框架的有效性。
(以下为 Table 1 的转录) Table 1. The leaderboard of the MeViS test set.
Team J&F J F MVP-Lab 61.98 58.83 65.14 ReferDINO-Plus 60.43 56.79 64.07 HarborY 56.26 52.68 59.84 Pengsong 55.91 53.06 58.76 ssam2s 55.16 52.00 58.33 strong_kimchi 55.02 51.78 58.27 - 与第一名的比较: 仅比第一名
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
Table 2的消融实验清晰地展示了ReferDINO-Plus中每个组件的贡献,是论证其方法设计的关键。(以下为 Table 2 的转录) Table 2. Ablation stuides on the MeViS validation set.
Method J&F J F ReferDINO 51.67 47.94 55.40 +SAM2 52.54 49.18 55.90 +SAM2+CMFv 54.82 51.39 58.24 +SAM2+CMF 55.27 51.80 58.75 -
ReferDINO(基线): 取得了 51.67 的J&F,这本身就是一个很强的基线。 -
: 在
ReferDINO的基础上直接使用SAM2进行精炼,性能提升到 52.54 ()。这证明了SAM2在提升掩码质量方面的确有效,但提升幅度有限,侧面印证了作者关于SAM2在多目标场景下有缺陷的观察。 -
(视频级融合): 引入了条件融合策略,但决策(是否融合)在整个视频级别只做一次。性能大幅提升到 54.82 ()。这说明
CMF思想是正确的,它成功解决了SAM2的多目标退化问题。 -
(帧级融合): 采用最终的逐帧融合策略,性能进一步提升到 55.27 ()。这表明逐帧决策比单一的视频级决策更加灵活和有效,因为一个视频中可能同时存在单目标和多目标交织的复杂情况。
总结: 消融实验有力地证明了(1)
SAM2的引入可以提升基线性能;(2)CMF策略是解决SAM2多目标缺陷的关键,带来了最大的性能增益;(3)逐帧CMF比视频级CMF更优。
-
-
可视化结果分析 论文中的
Figure 2(由图像2至图像8构成)展示了多个成功案例。-
运动描述理解: 如 "The parrot that is in motion..." 和 "Turtle coming from the right..." 的例子(图像3、图像2)表明,模型能准确理解动态描述,并分割出正确的移动对象。
-
静态与动态区分: 对比 "The parrot eating without moving..." 和 "The parrot that is in motion..."(图像3),模型能够区分同一对象的不同状态,展示了其细粒度的时序理解能力。
-
多目标处理: "cows moving to left" 的例子(图像8)清晰地展示了模型成功分割出了多个目标(牛群),这直观地验证了
CMF策略在处理多目标场景时的有效性。 -
高质量掩码: 所有的可视化结果都显示出分割掩码的边缘非常平滑且贴合对象轮廓,这归功于
SAM2的高质量分割能力。
该图像是三幅展示海龟前臂不同动作的连续图像,体现了动物在水中的动态姿态变化,未包含公式或其他标注信息。
该图像是三幅鸟类照片的对比示意图,展示了两只鸟在手掌上的不同颜色蒙版叠加效果,反映了可能的目标分割或识别技术应用。
该图像是三帧连续的水下海龟和红色鱼类视频截图,展示了ReferDINO-Plus在视频目标分割任务中的目标连续性和遮挡处理能力。
该图像是示意图,展示了使用ReferDINO-Plus对视频中三只猫咪进行分割的结果,分别用不同颜色(蓝色、红色、绿色)高亮表示各个目标对象的掩码区域。
该图像是两张示意图,展示了ReferDINO-Plus模型在含文本描述的视频目标分割任务中对多只猫进行语义分割的效果,分别用不同颜色区分猫的实例,体现了模型的对象一致性和高质量掩码。
该图像是两张猫的彩色分割示意图,分别以红、绿、蓝三色将同一组猫的不同部分进行标注。该图用于展示ReferDINO-Plus方法中对多目标视频分割中目标遮罩的效果对比。
该图像是多帧视频中的目标实例分割示意图,展示了通过ReferDINO-Plus模型对视频中牛和卡车等目标的掩码分割结果,其中不同颜色表示不同目标实例的精确分割。
-
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary): 本文提出了
ReferDINO-Plus,一个为解决MeViS挑战赛中复杂动态和多目标指代问题的两阶段 RVOS 解决方案。它首先利用ReferDINO进行强大的跨模态推理和目标定位,然后集成SAM2来精炼掩码质量并增强时间一致性。为了克服SAM2在多目标场景下的退化问题,作者独创性地设计了一种简单而有效的条件掩码融合 (CMF) 策略。该方法在无需额外数据增强的情况下,在MeViS挑战赛中取得了第二名的优异成绩,充分证明了其有效性和实用价值。 -
局限性与未来工作 (Limitations & Future Work): 尽管论文本身是竞赛报告,未详细阐述局限性,但我们可以推断出以下几点:
- 启发式阈值:
CMF策略中的 面积比例阈值是一个经验性的硬阈值 (heuristic)。它可能不是对所有视频和所有情况都最优的。未来的工作可以探索一种自适应的、可学习的融合策略,让模型自己决定何时以及如何融合。 - 两阶段效率问题: 作为一个两阶段(
ReferDINO->SAM2)的级联系统,其推理速度和系统复杂度会高于端到端的单体模型。将SAM2的精炼能力以更高效的方式整合进一个端到端的可训练框架,是一个有价值的未来研究方向。 - 对第一阶段的依赖: 整个流程的成功高度依赖于
ReferDINO在第一阶段能否成功定位到目标。如果ReferDINO完全失败(例如,由于描述过于模糊或场景极其复杂),SAM2也无能为力,因为没有正确的初始提示。
- 启发式阈值:
-
个人启发与批判 (Personal Insights & Critique):
- 启发: 这篇论文是“站在巨人肩膀上”进行创新的绝佳范例。它没有试图重新发明轮子,而是敏锐地洞察到现有最强模型 (
ReferDINO和SAM2) 各自的优缺点,并通过一个巧妙的工程化解决方案 (CMF) 将它们的优点结合起来,同时规避了它们的缺点。这种“组合创新”的思路在解决实际问题和参加技术竞赛时非常有效。 - 方法的可迁移性:
CMF这种思想可以被广泛应用到其他多模型集成的场景中。当不同的模型在任务的不同子集上表现出优劣势时,设计一个简单的规则来判断当前输入属于哪个子集,并动态选择最优的模型或组合,是一种非常实用的策略。 - 批判性思考: 该方法虽然有效,但略显“朴素”。它更像一个为特定比赛定制的“黑客松”式解决方案,而非一个理论上优雅的统一框架。一个更根本的解决方案或许是改进基础模型本身,使其原生具备在多目标场景下稳定跟踪和分割的能力,而不是依赖后处理来“打补丁”。尽管如此,在当前技术水平下,
ReferDINO-Plus的务实和高效是其最大的优点。
- 启发: 这篇论文是“站在巨人肩膀上”进行创新的绝佳范例。它没有试图重新发明轮子,而是敏锐地洞察到现有最强模型 (
相似论文推荐
基于向量语义检索推荐的相关论文。