论文状态：已完成

Video Object Segmentation using Space-Time Memory Networks

发表：2019/04/01

半监督视频目标分割 (1)空间时间记忆网络 (1)视频分割方法 (1)面向特征匹配的分割技术 (1)时序信息利用 (1)

原文链接 PDF 下载

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出一种半监督视频目标分割的新方法，通过引入时空记忆网络，利用过去带掩膜帧的信息来改善当前帧的分割效果。该方法在关键挑战如遮挡和外观变化中表现出色，并在YouTube-VOS和DAVIS数据集上取得了当时的最先进性能，速度较快。

摘要

We propose a novel solution for semi-supervised video object segmentation. By the nature of the problem, available cues (e.g. video frame(s) with object masks) become richer with the intermediate predictions. However, the existing methods are unable to fully exploit this rich source of information. We resolve the issue by leveraging memory networks and learn to read relevant information from all available sources. In our framework, the past frames with object masks form an external memory, and the current frame as the query is segmented using the mask information in the memory. Specifically, the query and the memory are densely matched in the feature space, covering all the space-time pixel locations in a feed-forward fashion. Contrast to the previous approaches, the abundant use of the guidance information allows us to better handle the challenges such as appearance changes and occlussions. We validate our method on the latest benchmark sets and achieved the state-of-the-art performance (overall score of 79.4 on Youtube-VOS val set, J of 88.7 and 79.2 on DAVIS 2016/2017 val set respectively) while having a fast runtime (0.16 second/frame on DAVIS 2016 val set).

思维导图

论文精读

中文精读约 11 分钟读完 · 5,866 字

1. 论文基本信息

1.1. 标题

Video Object Segmentation using Space-Time Memory Networks (使用时空记忆网络的视频目标分割)

1.2. 作者

Seoung Wug Oh, Joon-Young Lee, Ning Xu, Seon Joo Kim。作者分别隶属于韩国延世大学 (Yonsei University) 和 Adobe 研究院 (Adobe Research)。他们在计算机视觉，尤其是视频编辑和分析领域拥有深厚的研究背景。

1.3. 发表期刊/会议

该论文发表于 ICCV 2019 (IEEE International Conference on Computer Vision)。ICCV 是计算机视觉领域顶级的国际会议，具有极高的影响力和学术声誉。

1.4. 发表年份

2019年

1.5. 摘要

本文提出了一种针对半监督视频目标分割 (Semi-supervised Video Object Segmentation) 的创新解决方案。在视频处理过程中，随着预测的进行，可利用的参考信息（如带有掩膜的视频帧）会变得越来越丰富。然而，现有方法难以充分利用这一丰富的信息源。作者通过引入记忆网络 (Memory Networks) 解决了这一问题。在提出的架构中，过去带有掩膜的帧构成一个外部记忆，而当前帧作为查询，利用记忆中的信息进行分割。具体而言，查询帧和记忆帧在特征空间中进行密集的时空像素匹配。实验证明，该方法在 YouTube-VOS 和 DAVIS 评估集上达到了当时的最先进的 (state-of-the-art) 性能，同时保持了较快的运行速度。

1.6. 原文链接

arXiv 链接: https://arxiv.org/abs/1904.00607
PDF 链接: https://arxiv.org/pdf/1904.00607v2.pdf
状态: 已正式发表于 ICCV 2019。

2. 整体概括

2.1. 研究背景与动机

视频目标分割 (Video Object Segmentation, VOS) 的任务是在视频的所有帧中将前景目标像素与背景像素分离。在半监督 (Semi-supervised) 设定下，第一帧目标的真实标注数据 (Ground Truth) 掩膜是给定的，模型的目标是估计后续所有帧中的目标掩膜。

该任务面临的核心挑战包括：

外观剧烈变化: 目标在移动过程中会发生形变、旋转或光照变化。
遮挡 (Occlusion): 目标可能被其他物体暂时遮挡。
漂移 (Drifts): 随着时间的推移，微小的预测误差会不断累积，导致模型最终丢失目标。

现有挑战 (Gap): 以前的方法通常只利用第一帧（检测式）或前一帧（传播式）的信息。如图 1 所示，仅用第一帧无法应对外观变化，仅用前一帧则容易产生误差累积和不适应遮挡。虽然有些方法尝试结合两者，但仍然无法有效地利用视频中所有已处理帧的丰富信息。

上图（原文 Figure 1）对比了不同的特征提取策略：(a) 仅传播前一帧，(b) 仅参考第一帧，(c) 结合第一帧和前一帧，(d) 本文提出的 STM 方法，利用多个历史帧。

2.2. 核心贡献/主要发现

引入时空记忆网络 (Space-Time Memory Networks, STM): 首次将记忆网络的概念引入 VOS 任务，将过去的所有处理帧存储在外部记忆中。
时空记忆读取机制: 提出了一种非局部的像素级匹配操作，使当前帧的每个像素都能在整个时空记忆中寻找最相关的参考信息。
高效的端到端学习: 该模型无需在测试阶段进行耗时的微调 (fine-tuning)，仅通过前向传播即可实现自适应，运行速度极快。
卓越的性能: 在 YouTube-VOS 2018 挑战赛中表现优异，并在 DAVIS 2016/2017 数据集上大幅刷新了非在线学习方法的纪录。

3. 预备知识与相关工作

3.1. 基础概念

半监督视频目标分割 (Semi-supervised VOS): 这是一个计算机视觉任务，要求系统根据视频第一帧中给定的目标掩膜，自动追踪并分割出后续视频帧中的该目标。
掩膜 (Mask): 一个二值或概率图，表示图像中每个像素属于目标的概率（1 表示属于目标，0 表示属于背景）。
记忆网络 (Memory Networks): 最初用于自然语言处理（如问答系统）。它包含一个外部存储器，可以将信息写入其中，并在需要时通过“键-值”匹配机制读取相关信息。

3.2. 前人工作

视频目标分割的技术演进经历了以下阶段：

传播式方法 (Propagation-based): 依靠光流或掩膜细化网络，将前一帧的掩膜变形到当前帧。代表作如 MaskTrack [26]。
检测式方法 (Detection-based): 将任务视为目标检测或像素分类。代表作如 OSVOS [2]，它在测试时需要对第一帧进行长时间的在线微调。
记忆与注意力机制: 受到 Transformer 中 Attention 机制的启发。基本的 Attention 公式为： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中 $Q$ 是查询 (Query)， $K$ 是键 (Key)， $V$ 是值 (Value)。本文的 STM 正是扩展了这一思想。

3.3. 差异化分析

相比于之前需要在线学习 (Online Learning)（即在测试阶段针对特定目标训练网络）的方法，STM 属于离线学习 (Offline Learning) 方法。STM 的核心区别在于它不固定参考哪一帧，而是维护一个动态更新的外部记忆库。它通过“读取”操作在运行时自适应地选择必要信息，这比简单的特征拼接或光流传播要灵活得多。

4. 方法论

4.1. 方法原理

STM 的核心思想是将视频目标分割看作一个从“记忆”中检索信息的过程。过去带有掩膜的帧被编码为“键 (Key)”和“值 (Value)”对存入记忆。当前帧被编码为“查询键 (Query Key)”，通过计算查询键与记忆键之间的相似度，从记忆中提取对应的“值”，从而生成当前帧的掩膜。

4.2. 核心方法详解 (融合讲解)

下图（原文 Figure 2）展示了 STM 的整体架构，包含两个编码器、一个时空记忆读取块和一个解码器。

该图像是一个示意图，展示了如何利用过去帧的对象掩膜作为记忆，在当前帧中进行视频对象分割。图中显示了记忆和查询的编码器，以及空间-时间记忆读取的过程。

4.2.1. 键与值嵌入 (Key and Value Embedding)

模型使用两个基于 ResNet-50 的主干网络 (backbone) 作为编码器：

查询编码器 (Query Encoder): 输入是当前的查询帧图像。经过卷积层处理后，它输出两个特征图：
- 查询键 (Query Key): $\mathbf{k}^Q \in \mathbb{R}^{H \times W \times C/8}$ ，用于寻址。
- 查询值 (Query Value): $\mathbf{v}^Q \in \mathbb{R}^{H \times W \times C/2}$ ，包含用于重建掩膜的视觉细节。
记忆编码器 (Memory Encoder): 输入是彩色图像及其对应的目标掩膜（4通道输入）。它同样输出：
- 记忆键 (Memory Key): $\mathbf{k}^M \in \mathbb{R}^{T \times H \times W \times C/8}$ ，用于与查询键匹配。
- 记忆值 (Memory Value): $\mathbf{v}^M \in \mathbb{R}^{T \times H \times W \times C/2}$ ，存储了“哪些像素属于目标”的信息。这里 $T$ 表示记忆帧的数量，H, W 是特征图的长宽。

4.2.2. 时空记忆读取 (Space-time Memory Read)

这是本文最核心的操作。对于查询帧中的每一个像素位置 $i$ ，我们需要从记忆中检索信息。

计算相似度权重: 首先计算查询键在位置 $i$ 与记忆键在所有时空位置 $j$ 之间的相似度。公式如下： $f(\mathbf{k}_i^Q, \mathbf{k}_j^M) = \exp(\mathbf{k}_i^Q \circ \mathbf{k}_j^M)$ 其中 $\circ$ 表示向量的点积 (dot-product)。这个操作衡量了当前像素与记忆中某个像素的特征匹配程度。
加权读取记忆内容: 利用相似度权重对记忆值进行加权求和，得到检索到的特征，并与查询值拼接。合并后的输出 $\mathbf{y}_i$ 为： $\mathbf{y}_i = \left[ \mathbf{v}_i^Q, \frac{1}{Z} \sum_{\forall j} f(\mathbf{k}_i^Q, \mathbf{k}_j^M) \mathbf{v}_j^M \right]$ 这里 Z = \sum_{\forall j} f(\mathbf{k}_i^Q, \mathbf{k}_j^M) 是归一化因子， $[\cdot, \cdot]$ 表示通道维度的拼接 (Concatenation)。

$Figure 3: Detailed implementation of the space-time memory read operation using basic tensor operations as described in Sec. 3.2. $\\otimes$ denotes matrix inner-product.$ 上图（原文 Figure 3）展示了该操作的张量实现：通过矩阵乘法实现密集的像素级匹配。

4.2.3. 解码器与多目标处理

解码器: 采用类似于 [24] 的细化模块 (Refinement Module)，通过上采样逐步将特征图恢复到原始分辨率。
多目标分割: 如果视频中有多个目标，STM 会对每个目标独立运行，生成各自的概率图。然后使用软聚合 (Soft Aggregation) 操作将它们合并，确保每个像素所属目标的概率总和为 1。

4.2.4. 训练与推理策略

两阶段训练: 先在静态图像数据集上进行预训练 (Pre-training)（模拟伪视频），然后在视频数据集上进行主训练 (Main-training)。
推理 (Inference): 在推理时，模型默认将第一帧和前一帧放入记忆。此外，每隔 $N=5$ 帧，将新的预测结果加入记忆，以应对外观变化。

5. 实验设置

5.1. 数据集

YouTube-VOS: 目前规模最大的 VOS 数据集，包含 4453 个视频。它区分了“已见类别 (Seen)”和“未见类别 (Unseen)”，用于测试模型的泛化能力。
DAVIS 2016: 针对单目标分割的经典基准，包含 20 个高质量标注视频。
DAVIS 2017: DAVIS 2016 的扩展，包含多目标场景。

5.2. 评估指标

论文使用了两个核心指标：

区域相似度 (Region Similarity, $\mathcal{J}$ ):
- 概念定义: 度量预测掩膜与真实掩膜之间的交叠程度，即交并比 (IoU)。
- 数学公式: $\mathcal{J} = \frac{|M \cap G|}{|M \cup G|}$
- 符号解释: $M$ 是预测的像素掩膜集合， $G$ 是真实标注数据 (Ground Truth) 的像素集合。
轮廓准确度 (Contour Accuracy, $\mathcal{F}$ ):
- 概念定义: 衡量预测目标的边界与真实边界的匹配程度，通常基于 F-measure（准确率和召回率的调和平均数）。
- 数学公式: $\mathcal{F} = \frac{2 \cdot P_c \cdot R_c}{P_c + R_c}$
- 符号解释: $P_c$ 是轮廓准确率 (Precision)， $R_c$ 是轮廓召回率 (Recall)。

5.3. 对比基线

STM 与多种模型进行了对比，包括：

在线学习模型: OSVOS [2], OnAVOS [34], PReMVOS [20]。这些模型精度高但极慢。
快速离线模型: RGMP [24], A-GAME [13], FEELVOS [33]。

6. 实验结果与分析

6.1. 核心结果分析

STM 在所有指标上均表现优异。特别是在 YouTube-VOS 上，其总体得分比之前的最佳模型提升了 8% 以上。

6.1.1. YouTube-VOS 实验结果

以下是原文 Table 1 的数据转录：

Methods	Overall	Seen (已见类别)		Unseen (未见类别)
Methods	Overall	J Mean	F Mean	J Mean	F Mean
OSMN [40]	51.2	60.0	60.1	40.6	44.0
OSVOS [2]	58.8	59.8	60.5	54.2	60.7
S2S [38]	64.4	71.0	70.0	55.5	61.2
PReMVOS [20]	66.9	71.4	75.9	56.5	63.7
Ours (STM)	79.4	79.7	84.2	72.8	80.9

6.1.2. DAVIS 实验结果

STM 在 DAVIS 数据集上也表现出色。在不使用在线微调的情况下，其准确率甚至超过了许多耗时巨大的在线微调方法。

DAVIS 2016: $\mathcal{J}$ Mean 达到 88.7，运行速度为 0.16s/帧。
DAVIS 2017: $\mathcal{J}$ Mean 达到 79.2（添加 YouTube-VOS 数据训练后）。

6.2. 消融实验与分析

记忆管理策略: 实验发现，同时保留“第一帧”和“前一帧”至关重要（见 Table 5）。每隔 5 帧添加一个中间帧作为记忆，能有效处理极端遮挡情况。
预训练的重要性: 仅在视频上训练的效果远不如结合图像预训练的效果（见 Table 4）。这说明静态图像中丰富的目标类别有助于模型学习通用的像素匹配能力。

从上图（原文 Figure 6）可以看出，加入中间帧记忆（Every 5 frames）可以更准确地捕捉快速运动和复杂外观的目标。 该图像是一个示意图，显示了使用中间帧记忆进行视频目标分割的视觉比较。左侧为每隔五帧的结果对比，展示了帧44和帧89的对象掩膜效果，右侧则展示了帧39和帧80的表现，明显体现了方法在处理外观变化和遮挡时的优势。

7. 总结与思考

7.1. 结论总结

STM 成功地将记忆网络引入视频目标分割领域，其核心贡献在于通过时空像素匹配实现了高效的信息检索。该方法不仅在精度上大幅领先，而且在速度上具有极强的实用价值。它证明了：在处理动态视频任务时，与其强行让网络去“记住”所有参数，不如给它一个“外部笔记本”（记忆库）去查阅。

7.2. 局限性与未来工作

显存占用: 随着视频变长，记忆帧增多，GPU 显存压力会增大。虽然论文采用了间隔采样，但对于超长视频仍有挑战。
误差传播: 如果记忆中存入了错误的预测掩膜，这种错误可能会在后续读取中被放大。
未来方向: 作者提到该架构可以扩展到目标跟踪、交互式视频分割和视频补全（Inpainting）等其他像素级估计任务。

7.3. 个人启发与批判

启发: STM 的成功揭示了“非局部 (Non-local)”匹配在视频任务中的威力。传统的卷积受限于局部感受野，而 STM 允许像素跨越时间和空间进行对话。

批判性思考:

时序逻辑缺失: STM 实际上将记忆帧视为一个“无序集合”，它在匹配时并不考虑帧的先后顺序。虽然这增加了对大范围跳变的鲁棒性，但也可能丢失了一些有用的时序连贯性先验。
掩膜质量依赖: 记忆编码器非常依赖输入的掩膜质量。如果能在读取操作中加入某种“置信度机制”，自动忽略记忆中可能错误的区域，模型可能会更加健壮。
计算成本: 虽然推理速度快，但 4D 密集的张量匹配计算量依然不小，在移动端部署可能仍需进一步压缩。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。