论文状态：已完成

PatchWiper: Leveraging Dynamic Patch-Wise Parameters for Real-World Visible Watermark Removal

发表：2025/10/25

可见水印去除 (1)动态补丁参数 (1)水印分割网络 (1)Pixabay真实世界水印数据集 (1)多任务框架 (1)

价格：0.100000

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新型水印去除框架PatchWiper，通过独立的水印分割网络与动态分块修复网络协同工作，以应对复杂的真实场景。该框架为每个图像块生成独特参数，实现对多样水印的精细处理。同时，构建了包含多样背景和千种水印的Pixabay真实水印数据集，为方法评估提供全面基准。实验结果证明该方法优于现有技术。

摘要

Visible watermark removal is crucial for evaluating watermark robustness and advancing more resilient protection techniques. Current methods face challenges in real-world scenarios due to architectural constraints in multi-task frameworks and limited dataset diversity. To address these challenges, we first propose a novel two-stage framework, PatchWiper, consisting of an independent watermark segmentation network and a highly dynamic patch-wise restoration network. This framework decouples watermark localization from background restoration, allowing each network to focus on its designated task. Our restoration network dynamically generates unique parameters for each image patch, enabling fine-grained adaptation to different watermark distortions. Second, we construct the Pixabay Real-world Watermark Dataset (PRWD), which incorporates diverse background images and over 1,000 distinct watermark types, providing a more comprehensive benchmark for evaluating watermark removal methods. Extensive experiments on PRWD, ILAW, and real-world testing images demonstrate our method’s superior performance over existing approaches, particularly in handling complex real-world cases.

思维导图

论文精读

中文精读约 24 分钟读完 · 14,875 字

1. 论文基本信息

1.1. 标题

PatchWiper: Leveraging Dynamic Patch-Wise Parameters for Real-World Visible Watermark Removal (PatchWiper: 利用动态分块参数实现真实世界可见水印去除)

标题分析: 标题直接点明了论文的核心技术和应用场景。

PatchWiper: 一个形象的名称，暗示该方法像“橡皮擦”一样逐块（Patch）擦除水印。
Dynamic Patch-Wise Parameters: 揭示了方法的核心机制——为图像的每个小块（Patch）动态生成独特的网络参数，实现精细化处理。
Real-World Visible Watermark Removal: 明确了研究目标是解决真实世界中的可见水印去除问题，强调了方法的实用性和泛化能力。

1.2. 作者

Zihao Mo, Junye Chen, Guanbin Li: 来自中山大学计算机科学与工程学院。其中，李冠彬（Guanbin Li）教授是通讯作者，是计算机视觉领域的知名学者。
Chaowei Fang: 来自西安电子科技大学人工智能学院。

作者团队主要来自国内顶尖高校的计算机视觉研究组，在相关领域有深厚的研究积累。

1.3. 发表期刊/会议

ACM International Conference on Multimedia (MM '25): ACM多媒体会议是计算机多媒体领域的顶级国际会议，属于 CCF A类 会议。这表明该论文的研究工作具有很高的质量和影响力。

1.4. 发表年份

2025年 (预定发表于2025年10月27-31日的会议)

1.5. 摘要

可见水印去除对于评估水印技术的鲁棒性和开发更强的保护技术至关重要。现有方法在真实世界场景中面临两大挑战：1) 多任务学习框架中的架构限制；2) 数据集多样性不足。为了解决这些问题，本文提出了一个名为 PatchWiper 的新型两阶段框架。该框架包含一个独立的水印分割网络和一个高度动态的分块式修复网络。这种设计将水印定位与背景修复解耦，使每个网络能专注于各自的任务。修复网络能为每个图像块动态生成独特的参数，从而对不同的水印失真进行细粒度的自适应处理。此外，本文构建了 Pixabay真实世界水印数据集 (PRWD)，该数据集包含多样化的背景图像和超过1000种不同的水印类型，为评估水印去除方法提供了更全面的基准。在PRWD、ILAW和真实世界测试图像上的大量实验表明，该方法优于现有方法，尤其是在处理复杂的真实世界案例时。

1.6. 原文链接

链接: /files/papers/6919e336110b75dcc59ae30f/paper.pdf
发布状态: 根据摘要中的会议信息和发表时间，该论文已被 ACM MM '25 接收，处于正式发表前的预印本状态。

2. 整体概括

2.1. 研究背景与动机

核心问题: 如何从图像中有效、无痕地去除可见水印，特别是在背景复杂、水印多样的真实世界场景中。
问题重要性: 可见水印去除技术是衡量现有水印保护方案鲁棒性 (robustness) 的“矛”。通过研究更强的去除算法，可以反过来推动学术界和工业界设计出更难被攻破的、更鲁棒的水印技术。
现有研究的挑战与空白 (Gap):
1. 架构耦合问题: 现有主流方法大多采用多任务学习 (multi-task learning) 框架，即用一个共享的编码器 (encoder) 同时进行水印定位和背景修复。这种设计会导致两个任务相互干扰。例如，编码器为了学习修复背景纹理，可能会忽略水印的精细特征，导致定位不准；反之，过于关注水印又可能损害背景特征的提取，导致修复效果差。
2. 修复机制的局限性: 现有方法的修复网络要么使用静态参数 (static parameters)，对所有区域一视同仁，导致修复效果粗糙；要么采用简单的动态机制，其适应性有限，无法针对图像不同区域（如水印中心、水印边缘）的复杂失真情况进行精细化处理，容易产生模糊和伪影。
3. 数据集局限性: 现有的水印数据集（如CLWD）规模小、水印模式单一、背景不够多样化，与真实世界的情况存在较大数据分布差异 (distribution gap)。在这类数据集上训练的模型，在面对真实网络图片时泛化能力 (generalization) 差。
本文的切入点/创新思路:
1. 解耦 (Decouple): 将水印定位和背景修复彻底分离为两个独立的网络，让每个网络“各司其职”，避免任务间的相互干扰。
2. 动态化与精细化 (Dynamic & Fine-grained): 提出一个分块式 (patch-wise) 的动态修复网络。该网络的核心思想是：图像的不同小块受水印干扰的程度不同，因此修复每个小块时应该使用专门为其“量身定制”的参数。这使得修复过程具有高度的自适应性。
3. 构建新基准 (New Benchmark): 建立一个更大规模、更多样化的真实世界水印数据集 PRWD，以更好地模拟现实场景，推动领域发展。

2.2. 核心贡献/主要发现

提出了PatchWiper框架: 一个新颖的两阶段水印去除方法。
- 第一阶段: 一个独立的水印定位网络，用于精确预测水印的掩码 (mask)。
- 第二阶段: 一个动态的分块式修复网络，它能为每个图像块生成自适应的表征（即网络参数），实现前所未有的细粒度 (fine-grained) 修复。
构建了PRWD数据集: 提出了一个大规模、高多样性的可见水印去除基准数据集 Pixabay Real-world Watermark Dataset (PRWD)。该数据集包含223,278张图像，涵盖自然、人工设计和AI生成等多种背景，以及超过1000种不同类型的水印，极大地弥补了现有数据集的不足。
实现了最先进的性能: 实验结果表明，PatchWiper 在多个数据集（包括新建的 PRWD 和现有的 ILAW）以及真实世界图像上的表现均超越了现有的最先进的 (state-of-the-art) 方法，展现了卓越的性能和泛化能力。

3. 预备知识与相关工作

3.1. 基础概念

可见水印 (Visible Watermark): 指在图像或视频上可以被肉眼直接看到的、用于声明版权或所有权的半透明标记，如Logo、文字或图案。
多任务学习 (Multi-task Learning): 一种机器学习范式，指让一个模型同时学习并完成多个相关联的任务。在本文所讨论的背景下，即同时学习“水印定位”（一个分割任务）和“背景修复”（一个生成任务）。其优点是可能通过共享表征提升效率和性能，但缺点是任务间可能存在冲突和干扰。
动态神经网络 (Dynamic Neural Network): 与参数固定的静态网络相对，动态神经网络的结构或参数可以根据输入数据的不同而自适应地改变。这使得网络能够为每个样本“量身定制”计算过程，从而更高效、更灵活地处理复杂多变的任务。本文的 PatchWiper 正是利用了这一思想，为每个图像块动态生成参数。
编码器-解码器架构 (Encoder-Decoder Architecture): 深度学习中一种常见的网络结构。编码器负责将输入数据（如图像）压缩成一个低维的特征表示（feature representation），捕捉其核心信息。解码器则负责将这个特征表示还原为目标输出（如修复后的图像或分割掩码）。U-Net 是该架构的经典模型之一。
图像修复 (Image Inpainting): 一项计算机视觉任务，旨在根据图像中已知区域的信息，自动填充或修复图像中的缺失或损坏区域。水印去除可以被看作是一种特殊的图像修复任务，其中待修复的区域就是水印覆盖的区域。

3.2. 前人工作

早期GAN-based方法: 如 [1, 16] 等工作，将水印去除视为一个图像到图像的翻译 (image-to-image translation) 任务，使用生成对抗网络 (Generative Adversarial Networks, GAN) 来直接生成无水印图像。但这类方法由于缺乏对水印位置的精确感知，往往效果不佳。
引入定位的多任务框架: 后续工作 [5, 10, 17, 20] 意识到水印定位的重要性，普遍采用多任务学习框架，同时预测水印掩码和修复背景。
- WDNet [20]: 提出了一个经典的多任务框架，但其定位和修复相互影响。
- SplitNet [5]: 尝试解耦任务特定特征，但当检测失败或水印与背景纹理相似时效果不佳。
- SLBR [17]: 提出自校准掩码优化 (Self-calibrated Mask Refinement, SMR) 来改善定位，并通过多阶段优化提升修复质量。但其修复网络仍然是静态的。
引入动态机制的方法: 近期工作开始探索动态网络。
- DKSP [34]: 尝试为不同的整张水印图像自适应地调整卷积核参数。
- Li et al. [22]: 在 DKSP 的基础上，通过一个部分感知特征调制 (part-aware feature modulation) 模块，实现了对图像不同区域的差异化处理。
- 局限性: 这些方法的动态性仍然有限。它们通常只生成少数几组参数，应用于较大的图像区域，无法做到像 PatchWiper 一样为每个微小的图像块 (patch) 生成独一无二的参数，因此在处理像素级别的复杂失真时能力不足。

3.3. 技术演进

可见水印去除技术的发展脉络可以概括为：

直接生成: 将其视为黑盒的图像翻译任务，效果粗糙。
定位+修复: 引入多任务学习，明确地先定位水印再修复，成为主流范式。
优化定位与修复: 在多任务框架内不断改进定位模块（如 SLBR）和修复模块的细节。
初步动态化: 引入动态网络思想，使修复过程能对不同图像或区域产生一定的自适应性。
精细化动态化 (本文): 将动态思想推向极致，实现分块级别 (patch-level) 的参数自适应，并将定位与修复彻底解耦，解决了以往方法的根本性矛盾。

3.4. 差异化分析

PatchWiper 与以往工作最核心的区别在于：

架构上的彻底解耦: PatchWiper 使用两个完全独立的网络分别处理定位和修复，而之前的方法大多在同一个网络中使用共享的编码器，存在任务冲突。
动态性的粒度: PatchWiper 实现了patch-wise（分块式）的动态参数生成，这是前所未有的精细粒度。以往的动态方法最多是region-wise（区域级）或image-wise（图像级）的，适应性远不如 PatchWiper。
数据集的贡献: PatchWiper 不仅提出了新方法，还构建了 PRWD 数据集，推动了整个领域向更真实、更复杂的场景发展。

4. 方法论

PatchWiper 是一个两阶段框架，输入一张带水印的图像 $I^w$ ，输出一张无水印图像 $\hat{I}$ 和一个水印掩码 $\hat{M}$ 。

下面是该框架的整体流程图（原文 Figure 2）：

该图像是一个示意图，展示了PatchWiper框架的结构，包括水印定位网络(WLN)和补全网络。图中展示了位置编码、重塑过程以及多层感知器(MLP)的使用，强调了动态生成参数的关键步骤，以便对不同的水印失真进行细致的适应。

4.1. 第一阶段：水印定位 (Watermark Localization)

4.1.1. 方法原理

为了解决多任务学习中定位与修复任务的冲突，PatchWiper 设计了一个专门用于水印定位的独立分割网络。这个网络的目标只有一个：尽可能精确地预测出水印区域的二元掩码 (binary mask) $\hat{M}$ 。

4.1.2. 核心方法详解

网络结构: 采用了一个类似 U-Net [24] 的编码器-解码器结构。该结构包含一个5层的编码器和4层的解码器。为了提升定位精度，特别是在水印边缘等细节区域，解码器的最后3层集成了 SLBR [17] 中提出的 自校准掩码优化 (Self-Calibrated Mask Refinement, SMR) 模块。SMR模块利用注意力机制来有效扩大感受野，这对于捕捉尺寸和形状多变的水印图案至关重要。
训练策略与损失函数: 为了充分利用网络在解码过程中生成的多尺度特征，训练时对解码器每一层的输出以及最终的输出都进行监督。
- 每个SMR层会产生一个主掩码 (primary mask) $M^p$ 和一个自校准掩码 (self-calibrated mask) $M^{sc}$ 。
- 主掩码损失 $\mathcal{L}_p$ : 对3个SMR层产生的主掩码使用标准的二元交叉熵损失 (binary cross-entropy loss) 进行监督。 $\mathcal { L } _ { \mathrm { p } } = - \sum _ { i = 1 } ^ { 3 } \gamma ^ { i - 1 } \sum _ { j = 1 } ^ { N } \left[ M _ { j } \log ( M _ { i , j } ^ { p } ) + \left( 1 - M _ { j } \right) \log ( 1 - M _ { i , j } ^ { p } ) \right]$
  - 符号解释:
    - $i$ : 解码器中SMR层的索引（从1到3）。
    - $j$ : 图像中的像素索引。
    - $N$ : 图像总像素数。
    - $M_j$ : 第 $j$ 个像素的真实标注 (Ground Truth) 掩码值（0或1）。
    - $M_{i,j}^p$ : 第 $i$ 层输出的主掩码在第 $j$ 个像素上的预测概率。
    - $\gamma^{i-1}$ : 一个衰减因子，用于调整不同层级监督信号的强度。 $\gamma$ 的值在(0, 1)之间，使得较浅的层（ $i$ 较小）获得更强的监督。
- 自校准掩码损失 $\mathcal{L}_{sc}$ : 对3个SMR层产生的自校准掩码，使用二元交叉熵和 交并比 (Intersection-over-Union, IoU) 损失的组合进行监督。加入IoU损失有助于提升对水印边界的预测精度。 $\begin{array} { r } { \mathcal { L } _ { \mathrm { s c } } = - \displaystyle \sum _ { i = 1 } ^ { 3 } \gamma ^ { i - 1 } \sum _ { j = 1 } ^ { N } \left[ M _ { j } \log ( M _ { i , j } ^ { s c } ) + ( 1 - M _ { j } ) \log ( 1 - M _ { i , j } ^ { s c } ) \right] } \\ { + \lambda _ { \mathrm { i o u } } \displaystyle \sum _ { i = 1 } ^ { 3 } \gamma ^ { i - 1 } \left[ 1 - \frac { \sum _ { j = 1 } ^ { N } M _ { j } M _ { i , j } ^ { s c } } { \sum _ { j = 1 } ^ { N } ( M _ { j } + M _ { i , j } ^ { s c } - M _ { j } M _ { i , j } ^ { s c } ) } \right] , } \end{array}$
  - 符号解释:
    - $M_{i,j}^{sc}$ : 第 $i$ 层输出的自校准掩码在第 $j$ 个像素上的预测概率。
    - 公式第二项是 IoU损失。分子是真实掩码与预测掩码的交集，分母是并集。用1减去IoU值，就得到了损失。
    - $\lambda_{iou}$ : 控制IoU损失权重的超参数。
- 最终掩码损失 $\mathcal{L}_f$ : 对网络最终输出的掩码 $\hat{M}$ ，使用标准的二元交叉熵损失进行监督。
- 总损失 $\mathcal{L}_{mask}$ : 将以上三个损失加权求和，得到最终的定位网络总损失函数。 $\mathcal { L } _ { \mathrm { m a s k } } = \mathcal { L } _ { \mathrm { f } } + \mathcal { L } _ { \mathrm { s c } } + \lambda _ { p } \mathcal { L } _ { \mathrm { p } }$
  - 符号解释:
    - $\lambda_p$ : 平衡主掩码损失权重的超参数。
      
      通过这种设计，定位网络能够专注于学习水印的判别性特征，并通过多层次的监督和优化，生成高质量的掩码。

4.2. 第二阶段：动态背景修复 (Dynamic Background Restoration)

4.2.1. 方法原理

在获得精确的水印掩码后，第二阶段的目标是修复被掩码覆盖的区域。传统方法使用一套固定的卷积核处理所有区域，但这无法适应水印造成的复杂多样的局部失真。本文的核心创新在于提出一个由表征生成网络 (Representation Generation Network, RGN) 和分块查询网络 (Patch Query Network, PQN) 组成的动态修复框架。其核心思想是：为图像的每一个小块（patch）动态生成独一无二的修复参数，然后用这些参数来指导该小块的修复过程。

4.2.2. 核心方法详解

4.2.2.1. 表征生成网络 (RGN)

RGN 的作用是为后续的 PQN 网络生成所需的动态参数。它不是直接修复图像，而是为图像的每个小块“量身定制”一组特征表征（即参数）。

输入: 将带水印的图像 $I^w$ 和第一阶段预测的掩码 $\hat{M}$ 拼接 (concatenate) 在一起。
网络结构:
1. 首先，输入通过一个层级式的 Restormer [32] 模块。Restormer是一种高效的 Transformer 变体，擅长捕捉图像的长距离依赖关系 (long-range dependencies)，这对于理解全局上下文信息、推断被遮挡内容至关重要。
2. Restormer 提取的特征经过重塑 (reshape) 操作，然后送入一个前馈网络 (Feed-Forward Network, FFN)。
输出: RGN最终输出一组全面的表征集合 $\Theta$ $Θ$ 。 $\Theta = \operatorname { FFN } ( \mathcal { R } ( f ( [ I ^ { w } , \hat { M } ] ) ) )$
- 符号解释:
  - $[I^w, \hat{M}]$ : 表示将图像和掩码在通道维度上拼接。
  - $f(\cdot)$ : 代表层级式 Restormer 模块。
  - $\mathcal{R}(\cdot)$ : 代表重塑操作。
  - $\Theta = \{ \theta_i | i = 1, 2, ..., \frac{HW}{16} \}$ : RGN为图像中每个 $4 \times 4$ 的小块都生成了一个对应的特征表征 $\theta_i$ 。

4.2.2.2. 分块查询网络 (PQN)

PQN 的作用是使用 RGN 生成的参数来具体执行每个小块的修复工作。

输入准备:
1. 位置编码 (Positional Encoding): 为了让网络感知到每个像素的绝对位置信息，引入了正弦位置编码 (sinusoidal positional encoding) [28]。对于每个像素坐标 $(\rho_x, \rho_y)$ $(ρ_{x}, ρ_{y})$ ，其位置编码 $E_{\hat{P}}$ $E_{\hat{P}}$ 计算如下： $\begin{array} { r } { E _ { \hat { P } } = \Bigg ( \sin \Bigg ( \frac { 2 \pi \big ( \rho _ { x } \bmod H _ { \hat { P } } \big ) } { H _ { \hat { P } } } \Bigg ) , \cos \Bigg ( \frac { 2 \pi \big ( \rho _ { x } \bmod H _ { \hat { P } } \big ) } { H _ { \hat { P } } } \Bigg ) , } \\ { \sin \Bigg ( \frac { 2 \pi \big ( \rho _ { y } \bmod W _ { \hat { P } } \big ) } { W _ { \hat { P } } } \Bigg ) , \cos \Bigg ( \frac { 2 \pi \big ( \rho _ { y } \bmod W _ { \hat { P } } \big ) } { W _ { \hat { P } } } \Bigg ) \Bigg ) , } \end{array}$
  - 符号解释:
    - $H_{\hat{P}}, W_{\hat{P}}$ : 图像块的高度和宽度。
    - $\rho_x, \rho_y$ : 像素在图像块内的相对坐标。
2. 输入拼接: 将位置编码 $E_{\hat{P}}$ 、原始带水印图像 $I^w$ 的像素值 (RGB) 和预测的掩码 $\hat{M}$ 在通道维度上拼接，形成每个像素的查询嵌入 (query embedding) $E$ 。
分块查询与修复:
1. 将嵌入 $E$ 划分为多个 $4 \times 4$ 的小块，形成一组查询 (queries) $Q = \{ q_i | i = 1, 2, ..., \frac{HW}{16} \}$ 。
2. 对于第 $i$ 个图像块，取出其对应的查询 $q_i$ 和由 RGN 生成的专属表征 $\theta_i$ 。
3. 将 $q_i$ 和 $\theta_i$ 一同送入一个多层感知机 (Multi-Layer Perceptron, MLP)，生成修复后的图像块 $P_i^b$ 。 $P _ { i } ^ { b } = \mathrm { MLP } ( q _ { i } , \theta _ { i } )$
- 这个过程可以直观地理解为：MLP 的权重是由 $\theta_i$ 动态决定的，而其输入是 $q_i$ 。因此，每个块的修复过程都是由一个独一无二的、为其量身定制的“小网络”完成的。
最终图像合成:
1. 将所有修复好的小块 $P_i^b$ 重新组合成一张完整的背景图像 $I^b$ 。
2. 使用预测的掩码 $\hat{M}$ $\hat{M}$ 将修复好的背景 $I^b$ $I^{b}$ 与原始图像 $I^w$ $I^{w}$ 中未被水印覆盖的部分进行融合，得到最终的无水印图像 $\hat{I}$ $\hat{I}$ 。 $\hat { I } = I ^ { b } \odot \hat { M } + I ^ { w } \odot ( 1 - \hat { M } )$
  - 符号解释:
    - $\odot$ : 表示逐元素乘法 (element-wise multiplication)。
    - 这个公式的含义是：在掩码 $\hat{M}$ 值为1的区域（水印区），使用修复后的背景 $I^b$ ；在掩码值为0的区域（非水印区），保留原始图像 $I^w$ 的内容。
损失函数: 修复网络的训练使用 $\mathcal{L}_1$ 损失，即最小化预测图像 $\hat{I}$ 与真实标注 (Ground Truth) 背景图像之间的平均绝对误差 (Mean Absolute Error)。

5. 实验设置

5.1. 数据集

实验在三个基准数据集上进行，以验证方法的有效性和泛化能力。

CLWD (Colored Large-scale Watermark Dataset) [20]:
- 规模: 60,000张训练图像（160种水印），10,000张测试图像（40种水印）。
- 特点: 背景图像来自 PASCAL VOC2012 数据集，水印来自开源logo网站。水印的大小、位置、旋转和不透明度 (0.3-0.7) 都是随机的。这是一个相对基础和经典的数据集。
ILAW (Images with Large Area Watermarks) [13]:
- 规模: 60,000张训练图像（1,087种水印），10,000张测试图像（160种水印）。
- 特点: 背景图像来自 Places365 数据集，水印从互联网收集。与CLWD相比，ILAW的水印面积更大，不透明度更高，对修复算法的挑战更大。
PRWD (Pixabay Real-world Watermark Dataset) (本文提出):
- 规模: 训练集189,768张图像（994种水印），测试集33,492张图像（135种水印）。还有一个包含49张真实网络图片的评估子集。
- 特点: 这是本文的核心贡献之一，旨在弥合现有数据集与真实世界场景的差距。
  - 背景多样性: 背景图像来源广泛，包括真实照片、人工设计的图形和AI生成内容。
  - 水印多样性: 收集了1129种水印，分为三类：单一logo (single logo)、长条文本 (long-strip text)（如URL或时间戳）和全屏水印 (full-screen watermarks)。
- 数据样本示例 (原文 Figure 3):
  
  该图像是插图，展示了多种水印样例，包括真实照片、人造图形及AI生成背景的水印。每一列分别展示了单一标志、长条文本和全屏水印，提供了多样化的视觉效果。
  
  上图直观展示了 PRWD 数据集的多样性。行分别代表真实照片、人工设计和AI生成的背景；列分别代表三种不同类型的水印。

5.2. 评估指标

论文使用了多种全参考 (full-reference) 评估指标来衡量生成图像的质量。

PSNR (Peak Signal-to-Noise Ratio, 峰值信噪比):
1. 概念定义: 衡量图像质量的常用客观指标。它通过计算预测图像与真实图像之间的均方误差 (Mean Squared Error, MSE) 来评估失真程度。PSNR值越高，表示图像失真越小，质量越好。它特别关注像素级别的差异。
2. 数学公式: $\mathrm{PSNR} = 10 \cdot \log_{10}\left(\frac{\mathrm{MAX}_I^2}{\mathrm{MSE}}\right)$
3. 符号解释:
  - $\mathrm{MAX}_I$ : 图像像素值的最大可能值（对于8位灰度图，通常是255）。
  - $\mathrm{MSE}$ : 预测图像与真实图像之间的均方误差。
SSIM (Structural Similarity Index, 结构相似性指数):
1. 概念定义: 一种衡量两幅图像相似度的指标，它比PSNR更符合人眼的视觉感知。SSIM从亮度、对比度和结构三个方面来评估图像的相似性。其取值范围为[-1, 1]，值越接近1，表示两幅图像越相似。
2. 数学公式: $\mathrm{SSIM}(x, y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)}$
3. 符号解释:
  - x, y: 两幅待比较的图像（或图像块）。
  - $\mu_x, \mu_y$ : 图像 $x$ 和 $y$ 的平均值。
  - $\sigma_x^2, \sigma_y^2$ : 图像 $x$ 和 $y$ 的方差。
  - $\sigma_{xy}$ : 图像 $x$ 和 $y$ 的协方差。
  - $c_1, c_2$ : 两个用于维持稳定性的常数。
RMSE (Root-Mean-Square Error, 均方根误差):
1. 概念定义: 衡量预测值与真实值之间差异的常用指标，计算的是预测误差的平方和的平均值的平方根。RMSE值越低，表示模型的预测越准确。
2. 数学公式: $\mathrm{RMSE} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (\hat{I}_i - I_i)^2}$
3. 符号解释:
  - $N$ : 图像的总像素数。
  - $\hat{I}_i, I_i$ : 第 $i$ 个像素的预测值和真实值。
RMSEw (Weighted Root-Mean-Square Error):
1. 概念定义: 与RMSE类似，但其计算范围仅限于水印区域（根据真实掩码）。这个指标能更专门地评估模型在修复水印区域本身这项任务上的表现。RMSEw值越低，表示水印区域的修复质量越高。
2. 数学公式: 公式与RMSE相同，但求和范围 $N$ 变为水印区域内的像素总数。
LPIPS (Learned Perceptual Image Patch Similarity, 学习感知图像块相似度):
1. 概念定义: 一种更先进的、更符合人类感知的图像质量评估指标。它通过计算两张图像在预训练的深度神经网络（如VGG）中提取的深度特征 (deep features) 之间的距离来衡量它们的相似度。LPIPS越低，表示两张图像在感知上越相似。它比SSIM更能捕捉到纹理、语义等高层信息的差异。
IoU (Intersection over Union, 交并比) & F1 Score:
- 这两个指标用于评估水印定位（掩码预测）的精度。
- IoU 定义为预测掩码与真实掩码的交集面积除以并集面积。
- F1 Score 是精确率 (Precision) 和召回率 (Recall) 的调和平均数。
- 这两个指标的值都越高越好。

5.3. 对比基线

论文将 PatchWiper 与三类方法进行了比较：

专业水印去除方法: 包括 cGAN-based [16], BVMR [10], SplitNet [5], WDNet [20], DENet [26], 和 SLBR [17]。这些是该领域的代表性工作。
通用图像恢复方法: 包括 U-Net [24] 和 Restormer [32]。用于检验通用模型在该特定任务上的表现。
图像修复方法: CoordFill [19]。这是一种先进的图像修复方法，用于比较 PatchWiper 与通用修复方法的性能。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定量评估

在 PRWD 数据集上的表现 (Table 1):

以下是原文 Table 1 的结果：

Method	PSNR↑	SSIM↑	RMSE↓	RMSEw↓
CoordFill [19]*	35.90	0.9732	5.51	23.04
U-Net [24]	28.16	0.9354	12.16	51.67
Restormer [32]	37.69	0.9817	4.09	16.08
Li et al. [16]	26.36	0.8847	13.31	40.82
BVMR [10]	29.88	0.9294	8.79	16.50
WDNet [20]	36.68	0.9803	4.60	14.95
SLBR [17]	38.74	0.9805	3.46	12.80
PatchWiper(Ours)	39.38	0.9839	3.27	12.20

分析: PatchWiper 在所有四个指标上都取得了最佳成绩。特别是相比于强基线 SLBR，PatchWiper 在 PSNR 和 RMSEw 上都有明显提升，这证明了其动态分块修复机制在生成高质量和高保真度背景方面的优越性。带 * 的方法表示输入了精确的真实掩码，即使在这种理想情况下，CoordFill 的表现也不如 PatchWiper。

在 ILAW 数据集上的表现 (Table 2):

以下是原文 Table 2 的结果：

Method	Params(M)	PSNR↑	SSIM↑	LPIPS↓
LaMa [27]*	88.09	17.97	0.677	0.326
CoordFill [20]*	34.50	22.66	0.819	0.149
DENet [26]	22.42	19.66	0.814	0.236
WDNet [20]	21.00	24.37	0.887	0.166
SplitNet [5]	32.61	25.72	0.892	0.156
SLBR [17]	21.39	25.02	0.890	0.154
Leng et al. [13]	97.95	25.77	0.916	0.100
PatchWiper(Ours)	33.25	32.00	0.947	0.068

分析: 在更具挑战性的 ILAW 数据集上，PatchWiper 的优势更加惊人。其 PSNR 值达到了 32.00，远超所有基线方法（最高仅为25.77）。LPIPS 指标也大幅领先，说明其生成结果在感知质量上非常高，更接近真实图像。这充分证明了 PatchWiper 在处理大面积、高不透明度复杂水印时的强大能力。

6.1.2. 定性评估 (视觉效果)

在 PRWD 数据集上的视觉对比 (Figure 4):

该图像是示意图，展示了不同水印去除方法的对比，包括输入图像、GT（真实图像）、PatchWiper、SLBR和Restormer等多种方法的效果。通过这些示例，展示了不同算法在处理不同背景和水印方面的性能差异。
- 分析: 从上图可以看出，基线方法在处理复杂背景和水印时普遍存在问题。例如，在第二行，其他方法在去除水印的同时错误地抹去了背景中的电线。在第四行，基线方法无法完全去除水印的绿色纹理，在蜥蜴脸上留下了明显的残留。而 PatchWiper 不仅能干净地去除水印，还能最大程度地保留背景的细节和真实感。

6.1.3. 水印定位评估 (Table 4)

以下是原文 Table 4 的结果，该表格包含跨列的合并单元格，因此必须使用 HTML $<div class="table-wrapper"><table>$ 格式：

Method	PRWD		CLWD
Method	IoU↑	F1↑	IoU↑	F1↑
WDNet [20]	0.7688	0.8688	0.6120	0.7240
BVMR [10]	0.7571	0.8612	0.7021	0.7871
SplitNet [5]	\|	\|	0.7196	0.8027
SLBR [17]	0.8083	0.8798	0.7463	0.8234
DKSP [34]	\|	\|	0.7730	0.8480
Li et al. [22]	\|	\|	0.7909	0.8634
PatchWiper(Ours)	0.8177	0.8996	0.8042	0.8914

分析: PatchWiper 的独立定位网络在两个数据集上都取得了最高的 IoU 和 F1 分数。这验证了将定位与修复任务解耦的设计的正确性：专用的网络架构和损失函数确实能带来更精确的水印定位。

6.1.4. 真实世界泛化能力评估

用户研究 (User Study) (Table 5): 作者在真实网络图片上进行了用户研究，让61名参与者投票选择最佳结果。
- 以下是原文 Table 5 的结果：
  
  Method & Dataset Vote Top-Ranked Count
  
  SLBR [17] trained on CLWD [29] 180 0
  
  PatchWiper trained on CLWD [29] 316 3
  
  SLBR [17] trained on PRWD 1521 10
  
  PatchWiper trained on PRWD 2183 36
- 分析:
  1. 数据集的重要性: 无论使用 SLBR 还是 PatchWiper，在 PRWD 上训练的模型都远胜于在 CLWD 上训练的模型。这证明了 PRWD 数据集更能模拟真实世界分布，有效提升了模型的泛化能力。
  2. 方法的优越性: 在使用相同数据集（PRWD）进行训练时，PatchWiper 获得的票数和被评为最佳的次数都远超 SLBR，这证明了 PatchWiper 方法本身在真实场景中的鲁棒性和优越性。
真实世界视觉对比 (Figure 5):

该图像是可视水印去除的结果可视化。奇数行展示了修复后的图像，偶数行显示了相应的预测水印掩码。
- 分析: 该图直观地展示了用户研究的结果。可以看到，PatchWiper（最右列）不仅能够更准确地定位水印（偶数行），而且修复的背景（奇数行）也更加自然、清晰，伪影更少。

Method & Dataset	Vote	Top-Ranked Count
SLBR [17] trained on CLWD [29]	180	0
PatchWiper trained on CLWD [29]	316	3
SLBR [17] trained on PRWD	1521	10
PatchWiper trained on PRWD	2183	36

6.2. 消融实验/参数分析

作者通过一系列消融实验验证了动态修复网络中各个设计选择的有效性。实验在 PRWD 数据集上进行。

以下是原文 Table 3 的结果：

Encoding	Patch Size	Backbone	Decoder	Params(M)	PSNR↑	SSIM↑	RMSE↓	RMSEw↓
Position	8	AttFFC [19]	PQN	51.50	35.28	0.9725	5.87	24.83
Position	8	Transformer Block	PQN	40.30	38.70	0.9819	3.52	13.33
\|	\|	Transformer Block	CNN	55.46	28.23	0.9393	12.11	51.91
\|	\|	Transformer Block	Transformer Block	33.41	38.28	0.9837	3.87	15.22
Position	4	Transformer Block	PQN	33.19	39.07	0.9830	3.37	12.65
Position + Mask	4	Transformer Block	PQN	33.20	39.17	0.9831	3.33	12.48
Position + RGB	4	Transformer Block	PQN	33.24	39.21	0.9835	3.30	12.39
Position + RGB + Mask	4	Transformer Block	PQN	33.25	39.38	0.9839	3.27	12.20

分析:
- 主干网络 (Backbone) 的作用 (Row 1 vs Row 2): 将 RGN 的主干网络从 AttFFC 更换为 Transformer 模块后，PSNR 从 35.28 大幅提升至 38.70。这表明 Transformer 捕捉长距离依赖的能力对于生成高质量的动态参数至关重要。
- 解码器 (Decoder) 的作用 (Row 2 vs Row 3, 4): 将解码器从动态的 PQN 替换为传统的 CNN 或 Transformer 模块后，性能急剧下降或变差。这证明了 PQN 的动态查询和修复机制是整个框架成功的关键。
- 分块大小 (Patch Size) 的影响 (Row 2 vs Row 5): 将分块大小从 $8 \times 8$ 减小到 $4 \times 4$ 后，性能进一步提升。这说明更小的块能够更好地捕捉水印造成的细粒度失真，从而实现更精细的修复。
- 输入编码 (Encoding) 的作用 (Row 5-8):
  - 在位置编码的基础上，逐步加入掩码 (Mask) 和原始RGB值作为 PQN 的输入。
  - 加入 Mask (Row 6) 提供了水印位置的明确指导，提升了修复效果。
  - 加入 RGB (Row 7) 让网络可以利用未被遮挡的背景像素信息作为修复的强先验。
  - 将三者（位置、掩码、RGB）结合 (Row 8)，达到了最佳性能。这说明丰富的输入信息能协同作用，帮助网络进行更精确、更真实的修复。

7. 总结与思考

7.1. 结论总结

本文成功地解决了真实世界可见水印去除中的两大核心挑战：多任务框架的架构限制和数据集的多样性不足。

方法上， 提出了 PatchWiper，一个创新的两阶段框架。通过解耦水印定位和背景修复，并引入一个高度动态的分块式修复网络，该方法能够对复杂的局部失真进行前所未有的细粒度自适应修复，显著提升了去除效果和背景保真度。
数据上， 构建了大规模、高多样性的 PRWD 基准数据集，它更好地反映了真实世界的复杂场景，为水印去除领域的研究和评估提供了坚实的基础，并有力地推动了模型泛化能力的提升。
结果上， 大量实验证明 PatchWiper 在多个基准和真实世界图像上均达到了最先进的性能，特别是在处理复杂案例时展现出卓越的鲁棒性。

7.2. 局限性与未来工作

论文本身没有明确指出自身的局限性，但我们可以基于其方法进行一些推断：

计算成本: 两阶段的设计以及动态生成参数的机制，特别是 Transformer 结构的使用，可能会带来较高的计算开销，尤其是在推理阶段。这可能会限制其在实时或资源受限场景下的应用。
对不可见水印的无效性: 该方法完全依赖于可见水印的定位，因此对于不可见水印或数字水印是无效的。
极端情况: 对于完全不透明且覆盖大面积关键语义信息的水印，即使是 PatchWiper 也可能难以“凭空”生成完全合理的内容，可能会出现内容不一致或与原始背景有偏差的情况。

未来的工作可以探索：
模型轻量化: 研究如何降低模型的计算复杂度，使其能更高效地部署。
视频水印去除: 将该方法的思想扩展到视频领域，处理时序上连续的动态水印。
推动水印技术发展: 利用 PatchWiper 这样的强大工具来评估现有水印技术的脆弱性，从而启发设计出更难被AI去除的、更鲁棒的新型水印方案。

7.3. 个人启发与批判

启发:
1. “分而治之”与“专事专办”: PatchWiper 将定位和修复彻底解耦的设计思想非常有效。在面对复杂的多目标问题时，如果任务间存在冲突，将其分解为独立的子问题并分别优化，往往能取得比端到端多任务学习更好的效果。
2. 动态性是处理异质性的关键: 真实世界的数据往往是异质的（heterogeneous），即不同部分具有不同的特性。PatchWiper 的分块式动态参数机制，是应对这种空间异质性的一个绝佳范例。这种思想可以广泛应用于其他图像处理任务，如去雨、去雾、去噪等，因为这些退化现象在图像不同区域的强度和模式也可能是不同的。
3. 数据驱动的重要性: 本文再次印证了“数据是AI的燃料”。高质量、大规模、高多样性的数据集（如 PRWD）对于提升模型的泛化能力和推动领域发展起着至关重要的作用。
批判性思考:
- “修复”还是“幻觉”?: 本质上，所有图像修复/水印去除方法都是在进行有根据的猜测 (educated guess) 或内容幻觉 (hallucination)。虽然 PatchWiper 的结果在视觉上很出色，但修复出的内容是否100%是原始背景内容，是无法保证的。在对内容真实性要求极高的场景（如司法、新闻），这类技术的使用需要非常谨慎。
- 双刃剑效应: 水印去除技术的发展是一把双刃剑。虽然作者的初衷是评估和促进水印技术的发展，但这类强大的工具也可能被恶意用于侵犯版权。这引发了关于AI技术伦理和社会责任的持续讨论。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。