论文状态：已完成

End-to-End Multi-Task Learning with Attention

发表：2018/03/29

多任务学习中的注意力机制 (1)Multi-Task Attention Network (MTAN) (1)端到端多任务学习架构 (1)任务特定特征学习 (1)图像分类任务 (1)

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新颖的多任务学习架构——多任务注意力网络（MTAN），实现任务特定的特征级注意力学习。该架构结合了共享网络和每个任务的软注意力模块，允许从全局特征中提取特定任务特征，同时实现特征共享。实验表明，该方法在多任务学习方面达到了先进水平，并对损失函数中的加权方案更不敏感。

摘要

We propose a novel multi-task learning architecture, which allows learning of task-specific feature-level attention. Our design, the Multi-Task Attention Network (MTAN), consists of a single shared network containing a global feature pool, together with a soft-attention module for each task. These modules allow for learning of task-specific features from the global features, whilst simultaneously allowing for features to be shared across different tasks. The architecture can be trained end-to-end and can be built upon any feed-forward neural network, is simple to implement, and is parameter efficient. We evaluate our approach on a variety of datasets, across both image-to-image predictions and image classification tasks. We show that our architecture is state-of-the-art in multi-task learning compared to existing methods, and is also less sensitive to various weighting schemes in the multi-task loss function. Code is available at https://github.com/lorenmt/mtan.

思维导图

论文精读

中文精读约 41 分钟读完 · 26,148 字

1. 论文基本信息

1.1. 标题

End-to-End Multi-Task Learning with Attention （端到端带注意力的多任务学习）

1.2. 作者

Shikun Liu, Edward Johns, Andrew J. Davison，均来自伦敦帝国理工学院 (Imperial College London) 的计算机系。

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台，其发布时间为 2018-03-28T16:15:45.000Z。虽然论文中未明确指出其被哪个顶级期刊或会议接收，但通常这类研究会提交给计算机视觉或机器学习领域的顶会，如 CVPR、ICCV、ECCV、NeurIPS、ICML 等。在学术界，arXiv 预印本是研究成果快速分享的重要渠道。

1.4. 发表年份

2018年。

1.5. 摘要

我们提出了一种新颖的多任务学习 (Multi-Task Learning, MTL) 架构，该架构允许学习任务特定的特征级注意力 (feature-level attention)。我们的设计，即多任务注意力网络 (Multi-Task Attention Network, MTAN)，由一个包含全局特征池 (global feature pool) 的共享网络 (shared network) 和一个用于每个任务的软注意力模块 (soft-attention module) 组成。这些模块允许从全局特征中学习任务特定特征 (task-specific features)，同时允许在不同任务之间共享特征 (shared features)。该架构可以进行端到端 (end-to-end) 训练，可以建立在任何前馈神经网络 (feed-forward neural network) 之上，实现简单且参数高效 (parameter efficient)。我们在各种数据集上评估了我们的方法，包括图像到图像预测 (image-to-image predictions) 和图像分类 (image classification) 任务。我们表明，与现有方法相比，我们的架构在多任务学习方面达到了最先进的 (state-of-the-art) 水平，并且对多任务损失函数 (multi-task loss function) 中的各种加权方案 (weighting schemes) 也不那么敏感。代码可在 https://github.com/lorenmt/mtan 获取。

1.6. 原文链接

https://arxiv.org/abs/1803.10704 PDF 链接: https://arxiv.org/pdf/1803.10704v2.pdf

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题： 当前的卷积神经网络 (Convolutional Neural Networks, CNNs) 在单一计算机视觉任务上取得了巨大成功，但它们通常只针对特定任务进行设计。在现实世界的应用中，一个能够同时执行多个任务的更完整的视觉系统比构建一系列独立的网络更受青睐。然而，将多个任务训练到成功学习共享表示 (shared representation) 面临两大挑战：

网络架构 (Network Architecture) (如何共享特征): 如何设计一个既能表达任务共享特征又能表达任务特定特征的网络，以实现泛化 (generalization) 并避免过拟合 (over-fitting)，同时又能提供学习针对每个任务量身定制的特征的能力，以避免欠拟合 (under-fitting)。
损失函数 (Loss Function) (如何平衡任务): 如何设计一个能够平衡各个任务贡献的多任务损失函数，确保所有任务都能得到同等重要的学习，而不会让简单任务占据主导地位。手动调整损失权重繁琐，最好能自动学习权重，或者设计一个对不同权重方案都鲁棒 (robust) 的网络。

为什么这个问题在当前领域是重要的： 构建独立网络不仅在内存和推理速度方面效率低下，而且在数据利用方面也不足，因为相关任务可能共享信息丰富的视觉特征。多任务学习的效率和泛化能力对于构建实用、全面的视觉系统至关重要。

现有研究存在的具体的挑战或空白 (Gap)： 大多数先前的多任务学习方法只侧重于这两个挑战中的一个，而对另一个挑战则采用标准实现。这意味着现有方法往往在特征共享的灵活性或损失权重的鲁棒性上有所欠缺。

这篇论文的切入点或创新思路是什么： 论文提出了一种统一的方法，通过设计一个新颖的网络，同时解决这两个挑战：它能自动学习任务共享和任务特定特征，并因此对损失加权方案的选择具有内在的鲁棒性。其核心创新点在于引入了特征级注意力掩码 (feature-level attention masks)，以增强共享互补特征的灵活性。

2.2. 核心贡献/主要发现

论文最主要的贡献是什么：

提出了多任务注意力网络 (Multi-Task Attention Network, MTAN): 这是一种新颖的多任务学习架构，它包含一个单一的共享网络，该网络维护一个全局特征池，并为每个任务配备一个软注意力模块。这些模块通过学习任务特定的特征级注意力来从全局特征中选择和提取与任务相关的特征，同时促进跨任务的特征共享。
端到端学习任务共享和任务特定特征: MTAN 能够以自监督 (self-supervised) 的方式端到端地学习哪些特征应该共享，哪些特征应该为任务所独有，从而实现了特征共享的灵活性和效率。
参数高效: 与需要大量参数并随任务数量线性增长的多任务架构（如 Cross-Stitch Networks 和 Progressive Networks）不同，MTAN 只需为每个学习任务增加大约 10% 的参数，因此在任务数量增加时具有更好的可扩展性。
对损失加权方案的鲁棒性: MTAN 架构设计使其对多任务损失函数中不同的任务加权方案具有内在的鲁棒性，减少了手动调优损失权重的需求。
提出了动态权重平均 (Dynamic Weight Average, DWA): 一种简单而有效的自适应加权方法，它通过考虑每个任务损失的变化率来随时间调整任务权重。与需要访问网络内部梯度的 GradNorm 不同，DWA 仅需要数值化的任务损失，实现更简单。

论文得出了哪些关键的结论或发现：

MTAN 在各种图像到图像预测任务（语义分割、深度估计、表面法线预测）和图像分类任务（Visual Decathlon Challenge）上，性能均达到或超越了现有最先进的多任务学习方法。
MTAN 在 NYUv2 和 CityScapes 数据集上，相比基线方法（如 Split, Dense, Cross-Stitch），在更少的参数下取得了更好的或相当的性能。
实验证明 MTAN 对损失函数加权方案的选择更具鲁棒性，避免了繁琐的损失权重调整。
可视化结果显示，MTAN 学习到的注意力掩码能够有效地作为特征选择器，为不同任务突出显示不同的特征区域。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 卷积神经网络 (Convolutional Neural Networks, CNNs)

CNNs 是一类特殊的深度神经网络，广泛应用于图像处理和计算机视觉任务。它们的核心思想是利用卷积层 (Convolutional Layer) 自动从图像中学习空间特征，以及池化层 (Pooling Layer) 来降低特征图的维度并增强模型的鲁棒性。CNNs 通过多层感知器 (Multi-Layer Perceptrons, MLPs) 学习到的局部感受野 (local receptive fields) 和权值共享 (weight sharing) 机制，能够有效地提取图像中的高级语义信息。在本文中，MTAN 可以建立在任何前馈 CNN 架构之上，例如 VGG-16 和 Wide Residual Network。

3.1.2. 多任务学习 (Multi-Task Learning, MTL)

MTL 是一种机器学习范式，旨在通过同时学习多个相关任务来提高所有任务的学习效率和预测准确性。其核心思想是，如果多个任务是相关的，那么它们可能可以共享一些底层特征或知识。通过在共享表示上进行训练，模型可以从相关任务中获取归纳偏置 (inductive bias)，从而减少过拟合的风险，提高泛化能力，并可能需要更少的数据来学习每个任务。

3.1.3. 注意力机制 (Attention Mechanism)

注意力机制最初在自然语言处理 (Natural Language Processing, NLP) 领域中被提出，用于模拟人类视觉和认知系统对输入信息中特定部分的关注能力。在神经网络中，注意力机制允许模型动态地为输入的不同部分分配不同的权重，从而在处理信息时“聚焦”于最相关的部分。在本文中，MTAN 引入了特征级注意力 (feature-level attention)。这意味着注意力机制不是作用于输入数据本身，而是作用于由共享网络提取出的中间特征。每个任务都会学习一个自己的注意力掩码 (attention mask)，这个掩码会根据任务的需求，在共享特征图上“加权”不同的区域或通道，从而突出对当前任务更重要的特征，抑制不重要的特征。这种软注意力 (soft attention) 是可微分的，因此可以通过反向传播 (back-propagation) 进行端到端训练。

3.1.4. 编码器-解码器网络 (Encoder-Decoder Network)

编码器-解码器网络是一种常见的神经网络架构，尤其适用于图像到图像的转换任务，如语义分割、深度估计等。

编码器 (Encoder): 通常由一系列卷积层和池化层组成，负责将输入数据（如图像）压缩成一个低维的、具有丰富语义信息的特征表示 (feature representation)。这个过程可以看作是逐步提取图像的高级特征并降低空间分辨率。
解码器 (Decoder): 通常由一系列上采样 (upsampling) 层和卷积层组成，负责将编码器生成的特征表示恢复到与输入数据相似的维度（如原始图像分辨率），同时生成任务特定的输出（如分割图、深度图）。 SegNet [1] 是一个典型的编码器-解码器网络，在本文中被用作 MTAN 的主干网络 (backbone) 之一，用于图像到图像的预测任务。

3.1.5. 前馈神经网络 (Feed-forward Neural Network)

前馈神经网络是最基本的神经网络类型，其中信息只沿着一个方向（从输入层到输出层）传播，中间没有环路或循环。每一层的神经元只接收前一层的输入，并将其输出传递给下一层。CNNs 是前馈神经网络的一个特例。MTAN 被设计为可以建立在任何前馈神经网络之上，这表明其模块化和通用性。

3.2. 前人工作

论文在相关工作部分回顾了多任务学习在计算机视觉领域的应用，并对比了现有方法在网络架构设计和任务平衡方面的策略。

3.2.1. 网络架构方面

Cross-Stitch Networks [20]: 该方法为每个任务包含一个标准的 feed-forward network，并通过 cross-stitch units 允许特征在任务之间共享。这些 cross-stitch units 学习一个线性组合，将一个任务的特征图与另一个任务的特征图混合。
- 与 MTAN 差异: Cross-Stitch Networks 需要大量的网络参数，参数量随任务数量线性增长。MTAN 采用单一共享网络和注意力掩码，参数效率更高，更适合多任务场景。
自监督学习方法 [6]: 基于 ResNet101 架构，通过学习单个共享网络中不同层特征的正则化组合来实现多任务。
- 与 MTAN 差异: MTAN 引入了更细粒度的特征级注意力，使得特征选择更加动态和任务特定。
UberNet [16]: 提出了一个图像金字塔 (image pyramid) 方法，以多分辨率处理图像。在每个分辨率下，在共享的 VGG-Net 顶部形成额外的任务特定层。
- 与 MTAN 差异: UberNet 侧重于多分辨率处理和在后期增加任务特定层，而 MTAN 的注意力机制在共享网络内部的多个卷积块中实现特征的动态选择和共享。
Progressive Networks [26]: 利用一系列增量训练的网络来在任务之间传递知识。
- 与 MTAN 差异: 类似于 Cross-Stitch Networks，Progressive Networks 也需要大量的网络参数，并且随着任务数量的增加而线性扩展。MTAN 在参数效率上具有显著优势。

3.2.2. 特征共享平衡方面

实验分析 [20, 14]: 两篇论文都指出，不同程度的特征共享和权重分配对不同任务的效果最佳，这强调了自适应共享和加权的重要性。
Weight Uncertainty (不确定性权重) [14]: 通过修改多任务学习中的损失函数，利用任务的不确定性 (task uncertainty) 来调整损失权重。对于损失波动大、不确定性高的任务，赋予较低的权重，反之则赋予较高的权重。
GradNorm [3]: 通过操纵随时间变化的梯度范数 (gradient norms) 来控制训练动态，旨在平衡不同任务的梯度贡献，防止某些任务的梯度过大或过小。
- 与 DWA 差异: GradNorm 需要访问网络的内部梯度信息，这使得其实现可能更为复杂，且在不同架构上需要手动选择子集网络权重。MTAN 提出的 DWA 仅需要数值化的任务损失，实现更简单且更通用。
Dynamic Task Prioritisation (动态任务优先级) [10]: 不使用任务损失来确定任务难度，而是直接使用性能指标（如准确率和精确率）来鼓励优先处理困难任务。
- 与 DWA 差异: DWA 基于损失的变化率来调整权重，是一种更通用的、不需要特定性能指标的自适应方法。

3.3. 技术演进

从早期的独立网络，到共享编码器但任务头独立的简单共享架构，再到更复杂的自适应共享架构（如 Cross-Stitch Networks），多任务学习的架构设计逐渐演进，以期在共享性和任务特异性之间找到更好的平衡。同时，在损失函数方面，也从最初的等权重或手动调优，发展到基于不确定性、梯度范数或性能指标的自适应加权方法。本文的 MTAN 正是这一演进路径上的一个重要进展，它结合了特征级注意力机制来解决架构挑战，并提出了 DWA 来简化任务平衡问题。

3.4. 差异化分析

MTAN 的核心创新在于其特征级注意力模块，这与 Cross-Stitch Networks 的线性组合单元不同，MTAN 更专注于选择性地激活或抑制共享特征，从而实现了更精细的特征控制。这种机制使得 MTAN 能够：

更高效的参数利用: 通过注意力掩码在共享特征池上进行选择，避免了为每个任务维护大量独立参数或线性增长的共享单元，从而实现了更高的参数效率。
更强的任务特异性与共享性平衡: 注意力模块允许任务动态地从共享特征中提取最相关的信息，既能保留共享特征的泛化能力，又能为每个任务生成高度定制的特征。
对损失加权方案的鲁棒性: 这种灵活的特征选择能力意味着 MTAN 对外部损失权重调整的依赖性降低，因为网络能够通过内部的注意力机制来调整其对特征的关注点，以适应不同任务的需求。此外，MTAN 提出的 DWA 方法，在自动调整任务权重方面，相比 GradNorm 更简单易实现，因为它不依赖于内部梯度信息。

4. 方法论

本节将详细介绍多任务注意力网络 (Multi-Task Attention Network, MTAN) 的架构设计、任务特定注意力模块的实现以及模型的目标函数。MTAN 旨在通过学习特征级注意力来有效地平衡任务共享和任务特定特征的学习。

4.1. 方法原理

MTAN 的核心思想是构建一个单一的共享网络，该网络负责学习一个包含所有任务通用特征的全局特征池。在此基础上，为每个具体的任务设计一个任务特定的注意力网络。每个注意力网络由一系列注意力模块组成，这些模块与共享网络中的各个卷积块相连接。每个注意力模块通过应用一个软注意力掩码 (soft attention mask) 到共享网络的相应层，来动态地选择和加权共享特征，从而为当前任务生成任务特定的特征。这种机制使得注意力掩码能够作为特征选择器，在训练过程中自动学习哪些共享特征对于每个任务是重要的，从而在自监督 (self-supervised) 的端到端 (end-to-end) 方式下，同时实现任务共享和任务特定特征的学习。

4.2. 核心方法详解 (逐层深入)

4.2.1. 架构设计 (Architecture Design)

MTAN 主要由两部分组成：

一个单一的共享网络 (single shared network): 负责从输入数据中提取通用特征，形成一个全局特征池。这个共享网络可以根据具体的任务类型建立在任何前馈神经网络 (feed-forward neural network) 架构之上。例如，对于图像到图像的密集像素级预测任务（如语义分割、深度估计），可以基于 SegNet 这样的编码器-解码器 (encoder-decoder) 结构。
$K$ 个任务特定的注意力网络 ( $K$ task-specific attention networks): 每个任务对应一个注意力网络。每个注意力网络都包含一组注意力模块 (attention modules)，这些模块与共享网络的特定层进行连接。

如下图 (原文 Figure 1) 所示，共享网络接收输入数据，并学习任务共享特征。每个注意力网络通过对共享网络应用注意力模块来学习任务特定特征。

该图像是示意图，展示了多任务注意力网络（MTAN）的结构。左侧是输入图像，经过共享特征处理后，输出给不同的任务特定注意力模块。这些模块分别生成针对不同任务的特征图，体现了任务特异性与共享特征的结合。

Figure 1: Overview of our proposal MTAN. The shared network takes input data and learns task-shared features, whilst each attention network learns task-specific features, by applying attention modules to the shared network.

每个注意力模块通过对共享网络特定层的特征应用软注意力掩码 (soft attention mask) 来学习任务特定特征。因此，注意力掩码可以被视为从共享网络中选择特征的机制，这些机制以端到端的方式自动学习，而共享网络则学习跨所有任务的紧凑全局特征池。

以下图 (原文 Figure 2) 展示了基于 VGG-16 的 MTAN 详细架构，说明了 SegNet 的编码器部分。SegNet 的解码器部分与 VGG-16 对称，但其权重是独立学习的。图中清晰地展示了共享网络中的卷积块 (Convolutional Blocks) 和每个任务对应的注意力模块。每个注意力模块都会学习一个软注意力掩码，该掩码本身依赖于共享网络在相应层的特征。因此，共享网络中的特征和软注意力掩码可以协同学习，以最大化共享特征的泛化能力，同时通过注意力掩码最大化任务特定性能。

该图像是论文中的示意图，展示了多任务注意力网络（MTAN）架构，包括共享的卷积层和任务专用的注意力模块，以及编码器和解码器中的注意力模块结构。

rVisalsain MTAN basen GG-6, showg the encoer hal SeNe (with he decoer hal bei the same design, although their weights are individually learned.

4.2.2. 任务特定注意力模块 (Task Specific Attention Module)

注意力模块旨在允许任务特定的网络通过对共享网络中的特征应用软注意力掩码来学习与任务相关的特征，每个任务的每个特征通道 (feature channel) 有一个注意力掩码。

我们用 $p^{(j)}$ 表示共享网络中第 $j$ 个块的共享特征 (shared features)。对于任务 $i$ ，在该层学习到的注意力掩码为 $a_i^{(j)}$ 。那么，该层的任务特定特征 (task-specific features) $\hat{a}_i^{(j)}$ 通过注意力掩码与共享特征的逐元素乘法 (element-wise multiplication) 计算得到： $\hat { a } _ { i } ^ { ( j ) } = a _ { i } ^ { ( j ) } \odot p ^ { ( j ) }$ 符号解释:

$\hat { a } _ { i } ^ { ( j ) }$ : 任务 $i$ 在共享网络第 $j$ 个块中计算得到的任务特定特征图。
$a _ { i } ^ { ( j ) }$ : 任务 $i$ 在共享网络第 $j$ 个块中学习到的注意力掩码。这个掩码通常在 [0, 1] 之间，用于对共享特征进行加权。
$p ^ { ( j ) }$ : 共享网络第 $j$ 个块中的共享特征图。
$\odot$ : 逐元素乘法运算符。

如上图 (原文 Figure 2) 所示，编码器中的第一个注意力模块只接收共享网络中的特征作为输入。但是，对于第 $j$ 个块（其中 $j \geq 2$ ）中的后续注意力模块，其输入是由共享特征 $u^{(j)}$ 和经过 $f^{(j)}$ 处理后的前一个任务特定特征 $\hat{a}_i^{(j-1)}$ 拼接 (concatenation) 而成的： $a _ { i } ^ { ( j ) } = h _ { i } ^ { ( j ) } \left( g _ { i } ^ { ( j ) } \left( \left[ u ^ { ( j ) } ; f ^ { ( j ) } \left( \hat { a } _ { i } ^ { ( j - 1 ) } \right) \right] \right) \right) , j \geq 2$ 符号解释:
$a _ { i } ^ { ( j ) }$ : 任务 $i$ 在第 $j$ 个块中生成的注意力掩码。
$h _ { i } ^ { ( j ) }$ : 一个卷积层，由 $[1 \times 1]$ 卷积核组成，用于生成任务 $i$ 在第 $j$ 个块中的注意力掩码。在生成掩码前通常会接一个 Sigmoid 激活函数，以确保掩码值在 [0, 1] 之间。
$g _ { i } ^ { ( j ) }$ : 一个卷积层，由 $[1 \times 1]$ 卷积核组成，作为生成注意力掩码的中间步骤。
$u ^ { ( j ) }$ : 共享网络第 $j$ 个块中的共享特征。
$f ^ { ( j ) }$ : 一个共享的特征提取器，由 $[3 \times 3]$ 卷积核组成，用于将上一层的任务特定特征 $\hat { a } _ { i } ^ { ( j - 1 ) }$ 进行处理。其后通常跟着一个池化 (pooling) 或采样 (sampling) 层，以匹配相应的分辨率。
$\hat { a } _ { i } ^ { ( j - 1 ) }$ : 任务 $i$ 在共享网络第 j-1 个块中计算得到的任务特定特征。
$[\cdot ; \cdot]$ : 表示特征图的拼接操作，通常沿通道维度进行。
$j \geq 2$ : 表示此公式适用于第二个及后续的注意力模块，因为第一个模块没有前一个任务特定特征。

注意力掩码 $a_i^{(j)}$ 在经过 Sigmoid 激活函数后，确保其值位于 [0, 1] 之间，并通过反向传播 (back-propagation) 以自监督 (self-supervised) 的方式学习。如果 $a_i^{(j)}$ 接近 1，掩码就近似于一个恒等映射 (identity map)，此时注意力特征图与全局特征图等效，意味着任务共享所有特征。因此，模型的性能至少不会比那些在网络末端才将共享特征分支到各个任务的标准多任务网络差。

4.2.3. 模型目标函数 (The Model Objective)

在有 $K$ 个任务的多任务学习中，给定输入 $\mathbf{X}$ 和任务特定的标签 $\mathbf{Y}_i, i = 1, 2, \cdots, K$ ，总损失函数通常定义为任务特定损失 $\mathcal{L}_i$ 的线性组合： $\mathcal { L } _ { t o t } ( { \mathbf { X } } , { \mathbf { Y } } _ { 1 : K } ) = \sum _ { i = 1 } ^ { K } \lambda _ { i } \mathcal { L } _ { i } ( { \mathbf { X } } , { \mathbf { Y } } _ { i } ) .$ 符号解释:

$\mathcal { L } _ { t o t }$ : 总损失函数，模型在训练过程中需要最小化的目标。
$\mathbf { X }$ : 输入数据，例如图像。
$\mathbf { Y } _ { 1 : K }$ : 任务 1 到任务 $K$ 的真实标签集合。
$K$ : 学习任务的总数量。
$\lambda _ { i }$ : 任务 $i$ 的权重，用于平衡不同任务在总损失中的贡献。这些权重可以是固定的，也可以是动态学习的。
$\mathcal { L } _ { i } ( { \mathbf { X } } , { \mathbf { Y } } _ { i } )$ : 任务 $i$ 的损失函数，衡量模型对任务 $i$ 的预测 $\hat{\mathbf{Y}}_i$ 与真实标签 $\mathbf{Y}_i$ 之间的差异。

对于图像到图像的预测任务，论文考虑了三个任务：语义分割 (semantic segmentation)、深度估计 (depth estimation) 和表面法线预测 (surface normal prediction)。其中， $\hat{\mathbf{Y}}$ 代表网络的预测， $\mathbf{Y}$ 代表真实标签 (ground-truth label)。

语义分割 (Semantic Segmentation) 损失 ( $\mathcal{L}_1$ ): 使用像素级交叉熵损失 (pixel-wise cross-entropy loss) 来衡量每个像素预测类别与真实类别之间的差异。 $\mathcal { L } _ { 1 } ( \mathbf { X } , \mathbf { Y } _ { 1 } ) = - \frac { 1 } { p q } \sum _ { p , q } \mathbf { Y } _ { 1 } ( p , q ) \log \hat { \mathbf { Y } } _ { 1 } ( p , q ) .$ 符号解释:
- $\mathcal { L } _ { 1 }$ : 语义分割任务的损失函数。
- $\mathbf { X }$ : 输入图像。
- $\mathbf { Y } _ { 1 }$ : 语义分割的真实标签图，通常是独热编码 (one-hot encoding) 形式，表示每个像素所属的类别。
- $\hat { \mathbf { Y } } _ { 1 }$ : 网络预测的语义分割结果，经过 depth-softmax 分类器后得到的每个像素属于各个类别的概率分布。
- p, q: 图像像素的行和列坐标。
- pq: 图像的总像素数量。
- $\mathbf { Y } _ { 1 } ( p , q )$ : 像素 (p, q) 处的真实类别标签。
- $\log \hat { \mathbf { Y } } _ { 1 } ( p , q )$ : 像素 (p, q) 处网络预测的真实类别概率的对数。
深度估计 (Depth Estimation) 损失 ( $\mathcal{L}_2$ ): 使用 L1 范数 (L1 norm) 来比较预测深度与真实深度之间的绝对差。 $\mathcal { L } _ { 2 } ( \mathbf { X } , \mathbf { Y } _ { 2 } ) = \frac { 1 } { p q } \sum _ { p , q } | \mathbf { Y } _ { 2 } ( p , q ) - \hat { \mathbf { Y } } _ { 2 } ( p , q ) | .$ 符号解释:
- $\mathcal { L } _ { 2 }$ : 深度估计任务的损失函数。
- $\mathbf { X }$ : 输入图像。
- $\mathbf { Y } _ { 2 }$ : 真实深度或逆深度 (inverse depth) 标签。逆深度在 CityScapes 数据集中使用，因为它能更好地表示无限远处的点（如天空）。
- $\hat { \mathbf { Y } } _ { 2 }$ : 网络预测的深度或逆深度图。
- p, q: 图像像素的行和列坐标。
- pq: 图像的总像素数量。
- $| \cdot |$ : 绝对值运算符。
表面法线预测 (Surface Normal Prediction) 损失 ( $\mathcal{L}_3$ ): 对于表面法线预测（仅在 NYUv2 数据集中可用），使用每个归一化像素 (normalised pixel) 与真实法线图之间的逐元素点积 (element-wise dot product) 的负值作为损失。目标是最大化点积（即最小化负点积），当两个向量方向一致时点积最大。 $\mathcal { L } _ { 3 } ( \mathbf { X } , \mathbf { Y } _ { 3 } ) = - \frac { 1 } { p q } \sum _ { p , q } \mathbf { Y } _ { 3 } ( p , q ) \cdot \hat { \mathbf { Y } } _ { 3 } ( p , q ) .$ 符号解释:
- $\mathcal { L } _ { 3 }$ : 表面法线预测任务的损失函数。
- $\mathbf { X }$ : 输入图像。
- $\mathbf { Y } _ { 3 }$ : 真实表面法线图，每个像素是一个归一化的三维向量。
- $\hat { \mathbf { Y } } _ { 3 }$ : 网络预测的表面法线图。
- p, q: 图像像素的行和列坐标。
- pq: 图像的总像素数量。
- $\cdot$ : 向量点积运算符。
图像分类 (Image Classification) 损失: 对于图像分类任务，论文说明为所有分类任务应用了标准交叉熵损失 (standard cross-entropy loss)。

4.2.4. 动态权重平均 (Dynamic Weight Average, DWA)

为了解决多任务学习中训练时任务平衡的难题，论文提出了一个简单而有效的自适应加权方法：动态权重平均 (Dynamic Weight Average, DWA)。DWA 受到 GradNorm [3] 的启发，通过考虑每个任务损失的变化率 (rate of change of loss) 来学习随时间平均任务权重。与 GradNorm 需要访问网络内部梯度不同，DWA 仅需要任务的数值损失，因此实现更简单。

使用 DWA 时，任务 $k$ 的权重 $\lambda_k$ 定义如下： $\lambda _ { k } ( t ) : = \frac { K \exp ( w _ { k } ( t - 1 ) / T ) } { \sum _ { i } \exp ( w _ { i } ( t - 1 ) / T ) } , w _ { k } ( t - 1 ) = \frac { \mathscr { L } _ { k } ( t - 1 ) } { \mathscr { L } _ { k } ( t - 2 ) } ,$ 符号解释:

$\lambda _ { k } ( t )$ : 任务 $k$ 在当前迭代 (或周期) $t$ 的权重。
$K$ : 任务的总数量。
$\exp(\cdot)$ : 自然指数函数。
$w _ { k } ( t - 1 )$ : 任务 $k$ 在前一迭代 t-1 时的相对损失下降率。这个值衡量了任务损失从 t-2 到 t-1 之间的变化程度。
$T$ : 温度 (temperature) 超参数，用于控制任务权重分布的软性。较大的 $T$ 会导致任务权重分布更均匀；如果 $T$ 足够大，所有任务的 $\lambda_i$ 将近似于 1，即任务被等权加权。
$\sum _ { i } \exp ( w _ { i } ( t - 1 ) / T )$ : 所有任务的指数化损失下降率之和，作为分母用于归一化。
$\mathscr { L } _ { k } ( t - 1 )$ : 任务 $k$ 在迭代 t-1 时的平均损失值。
$\mathscr { L } _ { k } ( t - 2 )$ : 任务 $k$ 在迭代 t-2 时的平均损失值。
$t$ : 迭代 (iteration) 或周期 (epoch) 索引。

在实现中，损失值 $\mathscr { L } _ { k } ( t )$ 被计算为每个周期 (epoch) 内多次迭代的平均损失。这样做可以减少随机梯度下降 (stochastic gradient descent) 和随机训练数据选择带来的不确定性。对于 $t=1, 2$ ，权重下降率 w _ { k } ( t ) 被初始化为 1，但也可以基于先验知识进行非平衡初始化。

5. 实验设置

本节详细介绍了论文中用于评估 MTAN 的数据集、评估指标、对比基线和具体的训练设置。

5.1. 数据集

论文使用了两种类型的任务数据集进行评估：图像到图像的预测任务和图像分类任务。

5.1.1. CityScapes

来源与特点: CityScapes [4] 数据集包含高分辨率的街景图像，主要用于城市场景理解。
任务: 语义分割 (semantic segmentation) 和深度估计 (depth estimation)。
规模与处理: 为了加快训练速度，所有训练和验证图像被调整为 $[128 \times 256]$ 分辨率。
语义分割: 包含 19 个类别的像素级语义分割标签。为了研究任务复杂度的影响，实验中还使用了 2 类、7 类和 19 类语义分割（7 类和 19 类排除 void 组）。2 类数据集只包含背景和前景物体。
深度估计: 包含真实逆深度 (inverse depth) 标签，这是一种标准做法，可以更容易地表示无限远处的点，例如天空。
样本示例: 数据集中的图像是真实的街景照片，包含各种车辆、行人、建筑物、道路、天空等。

CityScapes 的语义类别详情 以下是原文 Table 1 的结果：

2-class	7-class	19-class
background	void	void
	flat	road, sidewalk
	construction	building, wall, fence
	object	pole, traffic light, trafficsgn
	nature	vegetation, terrain
	sky	sky
foreground	human	person, rider
foreground	vehicle	carm truck, bus, caravan, trailer, train, motorcycle

5.1.2. NYUv2

来源与特点: NYUv2 [21] 数据集包含 RGB-D 室内场景图像，其图像复杂度远高于 CityScapes，因为室内场景的视角变化显著、光照条件多变，且物体类别的外观在纹理和形状上差异很大。
任务: 13 类语义分割 (由 [5] 定义)、真实深度数据 (由 Microsoft Kinect 深度相机记录) 和表面法线 (surface normals) 预测 (由 [7] 提供)。
规模与处理: 为了加快训练速度，所有训练和验证图像被调整为 $[288 \times 384]$ 分辨率。
样本示例: 数据集中的图像是室内场景，包含家具、墙壁、地板、天花板、窗户、各种日常物品等。
选择原因: 通过在不同数据集、不同任务数量以及不同类别复杂度下评估性能，旨在全面了解 MTAN 在各种场景下的行为和扩展性。

5.1.3. Visual Decathlon Challenge

任务: 由 10 个独立的图像分类任务组成 (多对多预测)。
评估: 挑战赛报告每个任务的准确率，并分配一个累积得分，最高 10,000 分（每个任务 1,000 分）。
详情: 挑战赛的完整设置、评估和所用数据集可在 http://www.robots.ox.ac.uk/~vgg/decathlon/ 获取。
选择原因: 用于评估 MTAN 在多个不完全相关的分类任务上的通用性和扩展性。

5.2. 评估指标

论文使用了针对不同任务类型的标准评估指标，这些指标能够量化模型的性能。

5.2.1. 语义分割 (Semantic Segmentation)

平均交并比 (Mean Intersection over Union, mIoU)
- 概念定义: mIoU 是衡量预测分割区域与真实区域重叠程度的指标。对于每个类别，它计算预测区域与真实区域的交集面积除以它们的并集面积，然后对所有类别的结果取平均。mIoU 越接近 1，表示分割效果越好。该指标对类别不平衡敏感，能够综合反映模型在像素级别上的分类准确性和边界的精细度。
- 数学公式: 对于单个类别 $i$ 的交并比 ( $\mathrm{IoU}_i$ ) 为： $\mathrm{IoU}_i = \frac{TP_i}{TP_i + FP_i + FN_i}$ 其中， $TP_i$ 是真阳性 (True Positive)， $FP_i$ 是假阳性 (False Positive)， $FN_i$ 是假阴性 (False Negative)。平均交并比 ( $\mathrm{mIoU}$ ) 为所有类别 $\mathrm{IoU}$ 的平均值： $\mathrm{mIoU} = \frac{1}{C} \sum_{i=1}^{C} \mathrm{IoU}_i$
- 符号解释:
  - $TP_i$ : 被正确预测为类别 $i$ 的像素数量。
  - $FP_i$ : 被错误预测为类别 $i$ 的像素数量（实际不属于类别 $i$ ）。
  - $FN_i$ : 实际属于类别 $i$ 但被错误预测为其他类别的像素数量。
  - $C$ : 数据集中总的类别数量。
  - $\mathrm{IoU}_i$ : 针对类别 $i$ 计算的交并比。
像素准确率 (Pixel Accuracy, Pix Acc)
- 概念定义: 像素准确率是所有被正确分类的像素数量占图像总像素数量的比例。这是一个简单直观的指标，但在类别分布高度不平衡的数据集上，即使模型对大类别预测准确而对小类别表现不佳，也可能获得较高的 Pix Acc。
- 数学公式: $\mathrm{Pix Acc} = \frac{\sum_{i=1}^{C} TP_i}{\sum_{i=1}^{C} (TP_i + FP_i + FN_i)} = \frac{\text{正确分类的像素总数}}{\text{总像素数}}$
- 符号解释:
  - $TP_i, FP_i, FN_i, C$ : 含义同 mIoU 中的解释。

5.2.2. 深度估计 (Depth Estimation)

深度估计任务的评估指标通常是误差越低越好。

绝对误差 (Absolute Error, Abs Err)
- 概念定义: 绝对误差是预测深度值与真实深度值之间绝对差值的平均值。它直接反映了预测值偏离真实值的平均距离，单位与深度相同。
- 数学公式: $\mathrm{Abs Err} = \frac{1}{N} \sum_{k=1}^{N} |\hat{y}_k - y_k|$
- 符号解释:
  - $N$ : 图像中的总像素数量。
  - $\hat{y}_k$ : 第 $k$ 个像素的预测深度值。
  - $y_k$ : 第 $k$ 个像素的真实深度值。
  - $|\cdot|$ : 绝对值函数。
相对误差 (Relative Error, Rel Err)
- 概念定义: 相对误差是预测深度值与真实深度值之间绝对差值相对于真实深度值的平均比率。这个指标在深度范围差异很大的场景下更为有用，因为它衡量了误差与真实值大小的比例，避免了大深度值带来的绝对误差偏差。
- 数学公式: $\mathrm{Rel Err} = \frac{1}{N} \sum_{k=1}^{N} \frac{|\hat{y}_k - y_k|}{y_k}$
- 符号解释:
  - $N, \hat{y}_k, y_k$ : 含义同 Abs Err 中的解释。

5.2.3. 表面法线预测 (Surface Normal Prediction)

表面法线预测任务的评估指标通常是角度距离越小越好。

角度距离 (Angle Distance) (Mean, Median)
- 概念定义: 角度距离衡量的是预测的表面法线向量与真实的表面法线向量之间的夹角。Mean Angle Distance 是所有像素夹角的平均值，Median Angle Distance 则是中位数。较小的角度距离表示预测法线与真实法线更接近，即预测更准确。
- 数学公式: 假设 $\mathbf{n}_p$ 是第 $p$ 个像素的真实表面法线向量， $\hat{\mathbf{n}}_p$ 是其预测的表面法线向量，两者都被归一化为单位向量。单个像素的角度距离 $\theta_p$ 为： $\theta_p = \arccos(\mathbf{n}_p \cdot \hat{\mathbf{n}}_p) \times \frac{180}{\pi} \quad \text{(将弧度转换为度)}$ 平均角度距离： $\text{Mean Angle Distance} = \frac{1}{N} \sum_{p=1}^{N} \theta_p$ 中位角度距离： $\text{Median Angle Distance} = \text{Median}(\{\theta_p\}_{p=1}^N)$
- 符号解释:
  - $\mathbf{n}_p$ : 第 $p$ 个像素的真实表面法线单位向量。
  - $\hat{\mathbf{n}}_p$ : 第 $p$ 个像素的预测表面法线单位向量。
  - $\cdot$ : 向量点积运算符。
  - $\arccos(\cdot)$ : 反余弦函数，计算两个向量的夹角（弧度）。
  - $\frac{180}{\pi}$ : 弧度到度数的转换因子。
  - $N$ : 图像中的总像素数量。
  - $\text{Median}(\cdot)$ : 计算集合的中位数。
$X^\circ$ 以内准确率 (Within $X^\circ$ Accuracy) ( $11.25^\circ, 22.5^\circ, 30^\circ$ )
- 概念定义: 这个指标表示预测法线与真实法线之间的角度距离在预设阈值 $X$ 度（例如 $11.25^\circ, 22.5^\circ, 30^\circ$ ）以内的像素所占的百分比。该值越高越好，表明模型在特定精度要求下的性能。
- 数学公式: $\text{Within } X^\circ \text{ Accuracy} = \frac{1}{N} \sum_{p=1}^{N} \mathbb{I}(\theta_p \leq X) \times 100\%$
- 符号解释:
  - $\theta_p$ : 含义同 Angle Distance 中的解释。
  - $X$ : 角度阈值，如 11.25, 22.5, 30（单位：度）。
  - $\mathbb{I}(\cdot)$ : 指示函数 (indicator function)，当括号内的条件为真时返回 1，否则返回 0。
  - $N$ : 图像中的总像素数量。

5.2.4. 图像分类 (Image Classification)

准确率 (Accuracy)
- 概念定义: 准确率是分类任务中最常见的评估指标，表示模型正确预测的样本数量占总样本数量的比例。
- 数学公式: $\text{Accuracy} = \frac{\text{正确预测的样本数}}{\text{总样本数}}$
- 符号解释:
  - 正确预测的样本数: 模型对测试集或验证集中样本的标签预测与真实标签一致的数量。
  - 总样本数: 测试集或验证集中样本的总数量。
累积得分 (Cumulative Score)
- 概念定义: 这是 Visual Decathlon Challenge 特有的综合评估指标。它根据模型在 10 个独立图像分类任务上的准确率计算一个总分。挑战赛的累积得分最高为 10,000 分，每个任务最高可得 1,000 分。具体的得分计算规则由挑战赛组织者定义，但其核心思想是将不同任务的性能整合为一个单一的、可比较的量化指标。

5.3. 对比基线

为了进行公平比较，论文在 SegNet [1]（用于图像到图像预测）和 Wide Residual Network [31]（用于图像分类）的基础上实现了多种网络架构作为基线模型。所有基线模型都设计成参数量至少与 MTAN 相当，以确保性能提升是由于注意力模块而非简单地增加了网络参数。

单任务学习 (Single-Task, One Task):
- 描述: 香草 (vanilla) SegNet，专门为单个任务训练。
- 代表性: 代表了不进行多任务学习的传统方法。
单任务注意力网络 (Single-Task, STAN):
- 描述: 直接将 MTAN 中提出的注意力机制应用于只执行单个任务的网络。
- 代表性: 用于验证注意力模块本身在单任务场景下的有效性，并与真正的多任务 MTAN 进行对比。
多任务，分离 (Multi-Task, Split) (Wide, Deep):
- 描述: 标准的多任务学习架构，共享一个主干网络，但在最后一层分叉 (split) 为每个任务提供最终预测。
- 版本:
  - Wide: 通过调整卷积滤波器数量，使其参数量与 MTAN 相当。
  - Deep: 通过调整卷积层数量，使其参数量与 MTAN 相当。
- 代表性: 代表了最常见的简单共享多任务学习架构。
多任务，密集 (Multi-Task, Dense):
- 描述: 一个共享网络与任务特定网络相结合，其中每个任务特定网络接收来自共享网络的所有特征，但没有注意力模块。
- 代表性: 用于验证注意力模块在选择性特征共享中的重要性，对比没有注意力机制但共享所有特征的情况。
多任务，交叉缝合网络 (Multi-Task, Cross-Stitch) [20]:
- 描述: 一种先前提出的自适应多任务学习方法，论文在 SegNet 基础上实现了该方法。Cross-Stitch Networks 通过学习线性组合来混合不同任务的特征图。
- 代表性: 代表了当时最先进的自适应多任务学习架构之一，是 MTAN 的直接竞争对手。

5.4. 训练配置

5.4.1. 图像到图像预测任务 (CityScapes, NYUv2)

优化器: ADAM 优化器 [15]。
学习率: $10^{-4}$ ，在 40,000 次迭代时减半，总共训练 80,000 次迭代。
批次大小 (Batch Size): NYUv2 数据集为 2，CityScapes 数据集为 8。
权重方法:
- 等权 (Equal weighting): 所有任务的损失权重 $\lambda_i$ 都设置为 1。
- 不确定性权重 (Weight Uncertainty) [14]: 根据任务损失的不确定性来调整权重。
- 动态权重平均 (Dynamic Weight Average, DWA): 论文提出的自适应加权方法，温度参数 $T=2$ (通过经验发现是所有架构的最佳值)。
未包含 GradNorm [3] 的原因: GradNorm 需要根据其特定架构手动选择子集网络权重，这会干扰对架构本身公平的评估。

5.4.2. Visual Decathlon Challenge (图像分类任务)

主干网络: Wide Residual Network [31]，深度为 28，加宽因子 (widening factor) 为 4，在每个块的第一个卷积层中步幅 (stride) 为 2。
批次大小: 100。
优化器: SGD (随机梯度下降)。
学习率: 0.1。
权重衰减 (Weight Decay): $5 \cdot 10^{-5}$ 。
训练周期 (Epochs): 共 300 个周期，每 50 个周期学习率减半。
微调 (Fine-tuning): 之后，对 9 个分类任务（除了 ImageNet）以 0.01 的学习率进行微调，直到收敛。
备注: 实验结果与之前的工作一致，无需复杂的正则化策略（如 DropOut [28]、按大小重新分组数据集或为每个数据集设置自适应权重衰减）。

6. 实验结果与分析

本节详细分析 MTAN 在图像到图像预测任务和图像分类任务上的实验结果，并与其他基线方法进行比较。

6.1. 核心结果分析

6.1.1. 图像到图像预测任务结果 (Image-to-Image Predictions)

论文首先在 CityScapes (7类语义分割和深度估计) 和 NYUv2 (13类语义分割、深度估计和表面法线预测) 数据集上评估了 MTAN，并将其与 Section 4.1.2 中介绍的所有基线进行了比较。

CityScapes 数据集结果 以下是原文 Table 2 的结果：

#P.	Architecture	Weighting	Segmentation		Depth
			(Higher Better) mIoU Pix Acc		Abs Err Rel Err	(Lower Better)
			2 3.04	One Task STAN	n.a.	51.09	90.69	0.0158	34.17
		n.a.	51.90	90.87	0.0145	27.46
		Equal Weights	50.17	90.63	0.0167	44.73
		Uncert. Weights [14]	51.21	90.72	0.0158	44.01
	Split, Deep	DWA, T = 2	50.39	90.45	0.0164	43.93
		Equal Weights	49.85	88.69	0.0180	43.86
		Uncert. Weights [14] DWA T ==2	48.12 49.67	88.68 88.81	0.0169 0.0182	39.73 46.63
3.63	Dense
		Equal Weights	51.91	90.89	0.0138	27.21
		Uncert. Weights [14] DWA, T = 2	51.89 51.78	91.22 90.88	0.0134 0.0137	25.36 26.67
≈2	Cross-Stitch [20]	Equal Weights	50.08	90.33	0.0154	34.49
		Uncert. Weights [14]	50.31	90.43	0.0152	31.36
		DWA, T = 2	50.33	90.55	0.0153	33.37
1.65	MTAN (Ours)	Equal Weights	53.04	91.11	0.0144	33.63
		Uncert. Weights [14]	53.86	91.10	0.0144	35.72
		DWA, T = 2	553.29	91.9	0.0144	34.14

Table 2: 7-class semantic segmentation and depth estimation results on CityScapes validation dataset. #P shows the number of network parameters, and the best performing combination of multi-task architecture and weighting is highlighted in bold. The top validation scores for each task are annotated with boxes.

NYUv2 数据集结果 以下是原文 Table 3 的结果：

Type #P.		Architecture	Weighting	Segmentation		Depth		Surface Normal
Type #P.		Architecture	Weighting	(Higher Better) mIoU	Pix Acc	(Lower Better) Abs Err	Rel Err	Angle Distance (Lower Better) Mean	Median	11.25	Within (Higher Better) 22.5	30
Single Task	3 4.56	One Task STAN	n.a. n.a.	15.10 15.73	51.54 52.89	0.7508 0.6935	0.3266 0.2891	31.76 32.09	25.51 26.32	22.12 21.49	45.33 44.38	57.13 56.51
Single Task	1.75	Split, Wide	Equal Weights Uncert. Weights [14]	15.89 15.86	51.19 51.12	0.6494 0.6040	0.2804 0.2570	33.69 32.33	28.91 26.62	18.54 221.68	39.91 43.	52.02 5.36
Multi Task	2		DWA, T = 2 Equal Weights Uncert. Weights [14]	16.92 13.03 14.53	53.72 41.47 43.69	0.6125 0.7836	0.2546 0.3326	32.34 38.28 35.14	27.10 36.55 32.13	20.69 9.50 14.69	42.73 27.11 34.52	54.74 39.63 46.94
		Split, Deep	DWA, T = 2 Equal Weights	13.63 16.06	44.41 52.73	0.7705 0.7581 0.6488	0.3340 0.3227 0.2871	36.41 33.58	34.12 28.01	12.82 20.07	31.12 41.50	43.48 53.35
	4.95	Dense	Uncert. Weights [14] DWA, T = 2 Equal Weights	16.48 116.15 14.71	54.40 54.35 50.23	06282 0.6059 0.6481	0.2761 0.2593 0.2871	31.68 32.44 33.56	25.68 27.40 28.58	21.73 20.53 20.08	44.58 42.76 40.54	56.65 54.2 51.97
	≈3	Cross-Stitch [20]	Uncert. Weights [14] DWA, T = 2 Equal Weights	15.69 16.11 17.72	52.60 53.19 55.32	0.6277 0.5922 0.5906	0.2702 0.2611 0.2577	32.69 32.34 31.44	27.26 26.91 25.37	21.63 21.81 23.17	42.84 43.14 45.65	54.45 54.92 57.48
	1.77	MTAN (Ours)	Uncert. Weights [14] DWA, T = 2	17.67 17.15	55.61 54.97	0.5927 0.5956	0.2592 0.2569	31.25 31.60	25.57 25.46	22.99 22.48	45.83 44.86	57.67 57.24

Ta-a n uor ieulU da o ashi weighting is highlighted in bold. The top validation scores for each task are annotated with boxes.

分析总结：

参数效率 (#P): MTAN 的参数量 (~1.65 M 或 ~1.77 M) 远低于 Dense (3.63 M 或 4.95 M)、Split, Wide (1.75 M) 和 Split, Deep (2 M)，甚至与 Cross-Stitch (~2 M 或 ~3 M) 相比也更高效。这证明了 MTAN 在实现高性能的同时，能够显著节省参数。
CityScapes 上的表现: MTAN 在 CityScapes 数据集上与 Dense 基线表现相似，但参数量不到其一半，并优于所有其他基线。这表明 MTAN 的注意力机制能够以更少的参数实现相似的特征共享和选择能力。
NYUv2 上的表现: 在更具挑战性的 NYUv2 数据集上，MTAN 在所有权重方法和所有学习任务（语义分割、深度估计、表面法线）上都优于所有基线。这进一步验证了 MTAN 在复杂和多样化任务场景中的优越性。
对权重方案的鲁棒性: MTAN 在等权 (Equal Weights)、不确定性权重 (Uncert. Weights) 和 DWA 这三种不同的损失函数加权方案下，均保持了稳定的高性能。这支持了论文的论点，即 MTAN 对损失权重方案的选择更具鲁棒性，减少了手动调整权重的需求。
DWA 的有效性: 论文提出的 DWA 权重方案在许多情况下，特别是对于 MTAN 自己，都能带来与不确定性权重 (Uncert. Weights) 相当或更好的结果，进一步提升了模型的性能。

6.1.2. 损失函数加权方案的鲁棒性分析

下图 (原文 Figure 3) 展示了 NYUv2 数据集上，Cross-Stitch Network (顶部) 和 MTAN (底部) 在不同损失函数加权方案下的验证性能曲线，覆盖语义分割、深度估计和表面法线预测三个任务。

$Figure 3: Validation performance curves on the NYUv2 dataset, across all three tasks (semantics, depth, normals, from left to right), showing robustness to loss function weighting schemes on the Cross-Stitch Network \[20\] (top) and our Multi-task Attention Network (bottom).$ 该图像是一个示意图，展示了不同重量策略下模型在多个任务上的学习曲线，包括语义精确度、深度绝对误差和法线误差。不同的曲线分别代表了均等权重（红色）、动态权重调整（蓝色）和权重不确定性（绿色）的策略。X轴为训练轮次，Y轴为相应的指标值。

Figure 3: Validation performance curves on the NYUv2 dataset, across all three tasks (semantics, depth, normals, from left to right), showing robustness to loss function weighting schemes on the Cross-Stitch Network [20] (top) and our Multi-task Attention Network (bottom).

分析总结：

Cross-Stitch Network 的行为: 顶部一行显示，Cross-Stitch Network 在不同的加权方案（等权、不确定性权重、DWA）下，其性能曲线表现出显著的差异。例如，在语义分割和深度估计任务中，不同权重方案可能导致模型收敛到不同的性能水平，或者在训练过程中的波动模式不同。这表明 Cross-Stitch Network 对损失权重方案的选择较为敏感，需要仔细调优。
MTAN 的鲁棒性: 底部一行显示，MTAN 在所有三种加权方案下，其性能曲线呈现出相似的学习趋势和最终性能。无论是语义分割、深度估计还是表面法线预测任务，MTAN 的曲线都非常接近，没有像 Cross-Stitch Network 那样出现大的分化。这有力地证明了 MTAN 对损失函数加权方案具有更强的鲁棒性，能够避免因权重选择不当而导致的性能下降或训练不稳定。

6.1.3. 图像到图像预测的定性结果

下图 (原文 Figure 4) 展示了 CityScapes 验证数据集上的定性结果，对比了香草单任务学习和 MTAN 的语义分割和深度估计预测。

该图像是多任务学习语义分割和深度估计的定性对比示意图。图中展示了输入图像、真实标签以及Vanilla单任务学习和多任务注意力网络（MTAN）的预测结果，突出表现MTAN在边界和细节处的改进效果。

effectiveness of the results provided from our method and single task method.

分析总结：

单任务与多任务对比: 从图中可以看出，MTAN（多任务）的预测结果相比于香草单任务学习（Vanilla Single Task Learning），在物体边缘和细节处表现出更清晰、更准确的特征。例如，在语义分割任务中，MTAN 能够更好地勾勒出物体（如汽车、建筑）的轮廓，减少了模糊和误分类。在深度估计任务中，MTAN 的深度图也更平滑且与物体边界对齐更好。
MTAN 的优势: 这种改进表明多任务学习，特别是 MTAN 这种通过注意力机制进行特征共享和选择的方法，能够利用不同任务之间的互补信息，从而生成更精确和一致的预测结果。

6.1.4. 任务复杂度的影响 (Effect of Task Complexity)

论文评估了 MTAN 在 CityScapes 数据集上，不同语义类别数量（2类、7类、19类）对深度估计任务性能的影响。所有网络均使用等权训练。结果以相对于香草单任务学习的性能改进百分比表示。

分析总结：

STAN 在简单任务上的优势: 对于最简单的 2 类语义分割设置，单任务注意力网络 (STAN) 表现优于所有多任务方法。这表明当任务足够简单时，STAN 能够充分利用网络参数来解决单个任务，而无需多任务共享的复杂性。
多任务方法在复杂任务上的优势: 然而，随着任务复杂度的增加（从 2 类到 7 类再到 19 类），所有多任务方法的相对性能增益都呈上升趋势。这说明在任务更复杂时，多任务方法通过鼓励特征共享，能够更有效地利用可用的网络参数，从而带来更好的结果。
MTAN 的扩展性: 论文特别指出，随着任务复杂度的增加，MTAN 的性能增益增长速度快于其他多任务实现。这表明 MTAN 能够更好地适应和受益于更复杂的任务场景。

6.1.5. 注意力掩码作为特征选择器 (Attention Masks as Feature Selectors)

下图 (原文 Figure 5) 可视化了 MTAN 基于 CityScapes 数据集学习到的第一层注意力掩码，分别用于 7 类语义分割和深度估计任务。

Figure 5: Visualisation of the first layer of 7-class semantic and depth attention features of our proposed network. The colours for each image are rescaled to fit the data. 该图像是示意图，展示了输入图像、语义掩码、语义特征、共享特征、深度掩码和深度特征的可视化。上半部分与下半部分分别展示了不同输入图像的处理结果，这些特征的学习和共享反映了多任务学习的有效性。

Figure 5: Visualisation of the first layer of 7-class semantic and depth attention features of our proposed network. The colours for each image are rescaled to fit the data.

分析总结：

任务特定差异: 图中清晰地展示了语义分割任务的注意力掩码和深度估计任务的注意力掩码之间存在明显差异。这意味着注意力掩码确实在充当特征选择器，为不同的任务动态地选择和突出显示共享特征中的相关部分。
深度任务的聚焦性: 深度掩码相比语义掩码具有更高的对比度，表明深度估计任务更需要从共享特征中提取高度任务特定的特征。例如，深度估计可能需要更关注物体的轮廓和空间结构信息，而语义分割可能需要更广泛的纹理和颜色信息。这种选择性关注使得网络能够为每个任务优化其特征表示。
语义任务的普适性: 语义掩码相对对比度较低，这可能意味着对于语义分割任务，共享特征池中的大部分特征都是有用的，而无需像深度任务那样进行高度聚焦的特征选择。

6.1.6. Visual Decathlon Challenge (多对多预测)

论文在 Visual Decathlon Challenge 上评估了 MTAN，该挑战包含 10 个独立的图像分类任务。

以下是原文 Table 4 的结果：

Method	#P.	ImNet. Airc.	C100 DPed DTD	GTSR Flwr	Oglt	SVHN	UCF	\| Mean		Score
Scratch [23]	10	59.87	57.10 75.73 91.20	37.77 96.55	56.3	88.74	96.63	43.27	70.32	1625
Finetune [23]	10	59.87	60.34 82.12 92.82	55.53 97.53	81.41	87.69	96.55	51.20	76.51	2500
Feature [23]	1	59.67	23.31 63.11 80.33 45.37	68.16	73.69	58.79	43.54	26.8	54.28	544
Res. Adapt.[23]	2	59.67	56.68 81.20 93.88 50.85	97.05	66.24	89.62	96.13	47.45	73.88	2118
DAN [25]	2.17	57.74	64.12 80.07 91.30 56.54	98.46	86.05	89.67	96.77	49.38	77.01	2851
Piggyback [19]	1.28	57.69	65.29 79.87 96.99 57.45	97.27	79.09 87.63		97.24	47.48	76.60	2838
Parallel SVD [24]	1.5	60.32	66.04 81.86 94.23 57.82	99.24	85.74 89.25		96.62	52.50	78.36	3398
MTAN (Ours)	1.74	63.90	61.81 81.59 91.63	56.44 98.80	81.04	89.83	96.88	50.63	77.25	2941

TaSc i lower part of table presents results from multi-task learning baselines.

分析总结：

性能竞争力: MTAN (累积得分 2941) 在 Visual Decathlon Challenge 的在线测试集上表现出色，超越了大多数基线方法（如 Scratch, Finetune, Feature, Res. Adapt.）以及一些多任务学习基线 (DAN, Piggyback)。它与当前最先进的方法 (Parallel SVD 3398分) 具有竞争力。
参数效率与复杂度: MTAN 的参数量 (1.74 M) 相对于一些基线而言是适中的，但在取得高性能的同时，无需像其他方法那样采用复杂的正则化策略，例如 DropOut [28]、根据数据集大小重新分组，或为每个数据集使用自适应权重衰减。这凸显了 MTAN 在简洁性和有效性方面的优势。
平均准确率: MTAN 的平均准确率达到 77.25%，表明其在 10 个不同的分类任务上都表现稳定且具有竞争力。

6.2. 数据呈现 (表格)

本节已在 6.1.1 和 6.1.6 中完整呈现了原文 Table 2, Table 3 和 Table 4。

6.3. 消融实验/参数分析

论文中没有明确标注为“消融实验”的独立章节，但通过不同基线模型的比较以及 STAN 的引入，隐含地验证了 MTAN 各组件的有效性：

Single-Task, STAN 与 Single-Task, One Task 的对比: STAN 是将 MTAN 的注意力模块应用于单任务学习。在 CityScapes 的 2 类语义分割任务上，STAN 的表现优于所有多任务方法，这表明注意力机制本身在特征选择方面具有优势。
MTAN 与 Multi-Task, Dense 的对比: Dense 模型有一个共享网络和任务特定网络，但没有注意力模块。MTAN 在 CityScapes 上与 Dense 性能相似但参数量更少，在 NYUv2 上性能显著优于 Dense。这表明 MTAN 中的注意力模块能够以更参数高效的方式，甚至在更复杂任务上以更优异的性能实现比简单地共享所有特征更有效的特征共享。
不同权重方案的对比: 实验结果（特别是 Figure 3）表明，MTAN 对不同的损失函数加权方案（等权、不确定性权重、DWA）表现出更强的鲁棒性，这意味着其架构设计本身就具有内在的稳定性，减少了对外部权重调整的依赖。
DWA 的参数: 论文提到 DWA 中的温度参数 $T=2$ 是通过经验发现的最佳值，这属于参数分析的一部分。

这些比较有效地证明了 MTAN 架构中任务特定注意力模块和参数共享机制是其高性能和鲁棒性的关键因素。

7. 总结与思考

7.1. 结论总结

本文提出了一种新颖的多任务学习架构——多任务注意力网络 (Multi-Task Attention Network, MTAN)。该架构的核心在于一个包含全局特征池的单一共享网络，并为每个任务配备任务特定的软注意力模块。这种设计使得 MTAN 能够以端到端的方式自动学习任务共享和任务特定特征。实验结果表明，MTAN 在 NYUv2 和 CityScapes 数据集上的多个密集预测任务（语义分割、深度估计、表面法线预测）以及 Visual Decathlon Challenge 上的多个图像分类任务中，性能达到或超越了现有最先进的方法。同时，MTAN 展示出对多任务损失函数中不同加权方案的更强鲁棒性，减少了对繁琐权重调优的需求。由于其通过注意力掩码实现高效的特征共享，MTAN 还在实现最先进性能的同时，保持了高度的参数效率。论文还提出了 Dynamic Weight Average (DWA) 这一简单而有效的自适应损失加权方法。

7.2. 局限性与未来工作

论文中作者并未明确指出 MTAN 的自身局限性，但其创新点和实验结果为未来的研究提供了方向。 潜在局限性 (非作者明确指出，但可推断):

注意力模块的计算成本: 虽然 MTAN 比 Cross-Stitch Networks 等参数效率更高，但为每个任务添加注意力模块仍会增加一定的计算开销。对于具有数百个甚至更多任务的超大规模多任务场景，这种开销是否能维持高效仍需进一步验证。
温度参数 $T$ 的手动设置: DWA 方法中的温度参数 $T$ 需要手动设置（论文中通过经验设置为 $T=2$ ）。虽然这种方法简单有效，但自适应地学习或确定最佳 $T$ 值可能会进一步提升性能或简化使用。
任务相关性对性能的影响: 论文主要在相关性较强的密集预测任务和一些分类任务上进行评估。对于任务之间相关性非常弱甚至相互冲突的多任务场景，MTAN 的注意力机制能否有效处理，或者是否会存在“负迁移 (negative transfer)”现象，值得进一步探究。
注意力机制的解释性: 尽管可视化了第一层的注意力掩码，但对更深层注意力如何影响复杂特征、以及不同任务注意力之间是否存在更复杂的协同或竞争关系，仍有进一步解释的空间。

未来可能的研究方向 (基于论文及当前领域发展):

更复杂的注意力机制: 探索更精细、更具表达力的注意力机制，例如结合通道注意力 (channel attention) 和空间注意力 (spatial attention)，或者分层注意力 (hierarchical attention)，以实现更高效的特征选择。
自适应温度参数学习: 研究如何自动学习 DWA 中的温度参数 $T$ ，使其能够根据任务的动态变化自适应调整。
跨领域或更多任务的泛化能力: 在更多样化、更大量的多任务场景中验证 MTAN 的泛化能力和可扩展性。
与任务无关的特征解耦: 探索 MTAN 是否能被扩展，以不仅选择特征，还能显式地解耦 (decouple) 任务共享特征和任务特定特征，从而进一步提高模型性能和可解释性。
硬件部署优化: 考虑到参数效率的优势，进一步研究如何在边缘设备或低功耗平台上优化 MTAN 的推理速度和内存占用。

7.3. 个人启发与批判

个人启发：

注意力机制的多功能性: 这篇论文再次强调了注意力机制在深度学习中的强大和多功能性。它不仅可以用于序列建模，还可以作为一种高效的特征选择器，在特征层面实现细粒度的控制，从而在多任务学习中平衡共享性和特异性。这提示我们，注意力远不止是一种计算权重的方法，更是一种强大的信息过滤和聚焦机制。
参数效率的重要性: 在模型越来越大、任务越来越复杂的今天，参数效率是衡量模型优劣的关键指标之一。MTAN 通过巧妙的设计，在实现高性能的同时保持了较低的参数量，这对于实际应用和资源受限的环境至关重要。它提供了一个很好的范例，即通过更智能的架构设计而非简单地增加模型规模来提升性能。
损失权重平衡的艺术与科学: 多任务学习中损失权重的平衡问题一直是痛点。MTAN 架构本身的鲁棒性，以及 DWA 这种简单而有效的自适应加权策略，为解决这一问题提供了实用且易于实现的方法。DWA 仅依赖损失值而非梯度，大大降低了实现难度，对于实际工程应用具有很高的参考价值。

批判/潜在问题/可以改进的地方：

DWA 对损失平稳性的假设: DWA 的核心是基于历史损失变化率来调整权重。如果任务损失在训练初期或某些阶段波动剧烈，或者存在一些“病态”任务（pathological tasks）其损失行为异常，DWA 是否总能稳定地分配权重？其对超参数 $T$ 的敏感性仍需更全面的理论分析和实验探索。
注意力掩码的计算开销: 尽管 MTAN 整体参数高效，但每个注意力模块本身也包含卷积层。在极端深层或超宽网络中，如果注意力模块重复次数过多，其累积的计算开销仍可能成为瓶颈。论文并未详细分析单个注意力模块的计算成本对总推理时间的影响。
“负迁移”的缓解机制：论文主要展示了在任务相关性较强或中等的场景下的优势。当任务之间存在显著冲突或完全不相关时，即使有注意力机制，共享网络是否会因为需要同时学习冲突的特征而导致性能下降（即负迁移）？MTAN 并没有明确的机制来防止共享网络学习到对某些任务有害的特征。未来的工作可以考虑引入任务相关性建模或更强的特征解耦机制。
更深层次的注意力交互： 论文可视化了第一层的注意力掩码，并进行了解释。然而，注意力机制在网络深层如何演变？不同任务的深层注意力之间是相互抑制、相互增强还是独立运作？对这些更深层次的注意力交互进行分析，可能有助于更好地理解 MTAN 的工作原理，并指导更优化的设计。
泛化到非视觉任务： MTAN 的核心思想是特征级注意力，这本身是通用的。虽然本文主要聚焦于计算机视觉任务，但其核心思想是否能有效地泛化到其他模态（如自然语言处理、语音处理等）的多任务学习中，是一个值得探索的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。