论文状态：已完成

Attention is All you Need

发表：2022/03/04

Transformer架构 (14)基于注意力机制的序列转换 (2)机器翻译 (1)高效并行训练 (1)无递归神经网络 (1)

价格：0.100000

已有 21 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

《Attention is All You Need》提出开创性的Transformer架构，彻底摒弃了传统的循环和卷积网络，首次将序列转导任务完全基于注意力机制。该模型通过纯粹的注意力设计，显著提升了训练并行度，大幅缩短了训练时间。实验结果显示，Transformer在WMT 2014英德和英法机器翻译任务上取得了当时最先进的BLEU分数（28.4和41.0），超越了集成模型，并在大幅降低训练成本的同时，展现出卓越的翻译质量。

摘要

Attention Is All You Need Ashish Vaswani ∗ Google Brain avaswani@google.com Noam Shazeer ∗ Google Brain noam@google.com Niki Parmar ∗ Google Research nikip@google.com Jakob Uszkoreit ∗ Google Research usz@google.com Llion Jones ∗ Google Research llion@google.com Aidan N. Gomez ∗ † University of Toronto aidan@cs.toronto.edu Łukasz Kaiser ∗ Google Brain lukaszkaiser@google.com Illia Polosukhin ∗ ‡ illia.polosukhin@gmail.com Abstract The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English- to-German translation task, improving over the existing best results, including ensembles, by over 2 BLEU. On the WMT 2

思维导图

论文精读

中文精读约 17 分钟读完 · 10,990 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): Attention is All you Need (你所需要的只是注意力)
作者 (Authors): Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin。所有作者均被标记为同等贡献 (*)。隶属机构主要为 Google Brain 和 Google Research，其中一位作者来自多伦多大学。
发表期刊/会议 (Journal/Conference): 神经信息处理系统大会 (Advances in Neural Information Processing Systems, NIPS) 2017，现已更名为 NeurIPS。NIPS/NeurIPS 是人工智能和机器学习领域的顶级、最负盛名的学术会议之一，具有极高的影响力。
发表年份 (Publication Year): 2017
摘要 (Abstract): 主流的序列转导模型基于复杂的循环神经网络 (RNN) 或卷积神经网络 (CNN)，包含一个编码器和一个解码器。性能最好的模型还通过一个注意力机制来连接编码器和解码器。我们提出了一个简单的新网络架构——Transformer，它完全基于注意力机制，完全摒弃了循环和卷积。在两项机器翻译任务上的实验表明，这些模型在质量上更优，同时具有更好的并行性，并且训练所需时间显著减少。我们的模型在 WMT 2014 英德翻译任务上达到了 28.4 的 BLEU 值，比包括集成模型在内的现有最佳结果高出 2 BLEU。在 WMT 2014 英法翻译任务上，我们的模型在八个 GPU 上训练 3.5 天后，创造了新的单模型 SOTA BLEU 分数 41.0，这只是文献中最佳模型训练成本的一小部分。
原文链接 (Source Link): /files/papers/68e9d25e66ced2f54eba954d/paper.pdf (该论文为已正式发表的会议论文)

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题： 论文试图解决的是序列转导 (Sequence Transduction) 任务中的一个根本性难题。这类任务的目标是将一个输入序列转换为另一个输出序列，例如机器翻译、文本摘要等。
- 现有挑战与空白 (Gap)： 在这篇论文发表之前，处理序列任务最主流、最先进的模型是基于循环神经网络 (Recurrent Neural Networks, RNNs)，特别是长短期记忆网络 (Long Short-Term Memory, LSTM) 和门控循环单元 (Gated Recurrent Unit, GRU)。这些模型的核心特点是顺序计算 (Sequential Computation)：为了计算第 t 时刻的状态，必须先完成第 t-1 时刻的计算。这种固有的顺序性带来了两大瓶颈：
  1. 并行化困难： 无法在单个训练样本内进行并行计算，这极大地限制了在长序列上的训练效率。
  2. 长距离依赖问题： 理论上 RNN 可以捕捉长距离依赖，但实际上信息在序列中传递得越远，就越容易丢失或被稀释 (即梯度消失/爆炸问题)，导致模型难以学习到相距很远的词之间的关系。
- 创新思路： 作者提出了一个颠覆性的想法——能否完全抛弃顺序计算的循环结构，只依赖注意力机制 (Attention Mechanism) 来捕捉序列内的依赖关系？其核心思路是，注意力机制可以直接计算序列中任意两个位置之间的关联度，而不受它们之间距离的影响，这天然适合捕捉长距离依赖，并且计算过程可以高度并行化。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出了 Transformer 模型： 这是论文最核心的贡献。Transformer 是第一个完全不使用循环 (Recurrence) 或卷积 (Convolution) 结构，而仅仅依赖自注意力 (Self-Attention) 机制来处理序列数据的序列转导模型。
- 实现了性能与效率的双重突破：
  1. 性能卓越： 在 WMT 2014 英德和英法两个权威的机器翻译基准测试上，Transformer 均取得了当时最先进的 (State-of-the-Art, SOTA) 成绩，甚至超越了复杂的集成模型。
  2. 效率更高： 由于其高度并行化的架构，Transformer 的训练时间远少于之前的 SOTA 模型，极大地降低了训练成本。
- 开创了 NLP 新范式： Transformer 的成功证明了自注意力机制的强大能力，它不仅是一个辅助模块，更可以作为模型的核心构建块。这篇论文直接开启了自然语言处理 (NLP) 领域的新时代，后续的 BERT、GPT 等所有大规模预训练语言模型都基于 Transformer 架构。

基础概念 (Foundational Concepts):
- 序列转导模型 (Sequence Transduction Models): 这是一类模型的统称，其任务是将一个输入序列（如一句话）转换成一个输出序列（如翻译后的另一句话）。
- 编码器-解码器架构 (Encoder-Decoder Architecture): 这是处理序列转导任务的标准框架。
  - 编码器 (Encoder): 负责读取并理解整个输入序列，将其压缩成一个包含序列信息的上下文表示（通常是一个或一组向量）。
  - 解码器 (Decoder): 负责根据编码器提供的上下文表示，逐个生成输出序列中的元素。
- 循环神经网络 (Recurrent Neural Networks, RNNs): 一种专门用于处理序列数据的神经网络。它有一个内部的“记忆”状态，可以在处理序列中的每个元素时，将之前的信息传递下去。它的计算是严格按时间步顺序进行的，即 $h_t = f(h_{t-1}, x_t)$ ，其中 $h_t$ 是当前时刻的隐藏状态，h_{t-1} 是前一时刻的隐藏状态， $x_t$ 是当前时刻的输入。这种结构天然适合处理序列，但也导致了无法并行化的问题。
- 注意力机制 (Attention Mechanism): 最初是作为对标准 Encoder-Decoder 架构的改进提出的。在解码器生成每个词时，注意力机制允许它“回顾”编码器的所有隐藏状态，并为最重要的状态分配更高的权重。这样，解码器可以动态地关注输入序列的不同部分。其核心思想可以概括为通过查询 (Query) 和一系列键 (Key) 计算相似度，然后用这个相似度作为权重，对相应的值 (Value) 进行加权求和。
前人工作 (Previous Works):
- 基于 RNN 的模型： 论文提到，以 LSTM 和 GRU 为代表的 RNN 模型是当时序列建模的 SOTA 方法，例如在 [2, 5, 29] 等工作中被广泛应用。它们是本文旨在超越的主要竞争对手。
- 旨在减少顺序计算的模型： 为了解决 RNN 的并行化瓶颈，一些工作尝试使用卷积神经网络 (CNN) 来处理序列，如 Extended Neural GPU [20]、ByteNet [15] 和 ConvS2S [8]。这些模型可以并行计算所有位置的表示，但它们捕捉长距离依赖的能力受限于卷积核的大小。需要堆叠多层卷积才能连接远距离的位置，这使得信号传播的路径长度随距离增加而变长（线性或对数级增长）。
- 自注意力机制的应用： 自注意力 (Self-Attention) 或称 内部注意力 (Intra-Attention) 并非本文首创。它之前已被用于多种任务，如阅读理解 [4] 和句子表示学习 [19]，但通常是作为 RNN 或 CNN 模型的一个补充组件，而不是作为模型的基础。
技术演进 (Technological Evolution): 该领域的技术演进路线清晰可见：
1. 纯 RNN Encoder-Decoder： 用一个 RNN 将输入编码成单个上下文向量，另一个 RNN 从该向量解码出输出。
2. RNN + Attention： 在 RNN Encoder-Decoder 基础上引入注意力机制，让解码器在每一步都能关注输入的不同部分，极大提升了性能。
3. CNN 序列模型： 尝试用 CNN 替代 RNN，以实现并行计算，但在长距离依赖上仍有局限。
4. Transformer (本文)： 彻底抛弃 RNN 和 CNN，仅使用自注意力机制，将并行计算能力和长距离依赖建模能力推向极致。
差异化分析 (Differentiation): 与所有先前工作相比，本文最根本的创新在于彻底性。Transformer 是第一个完全依赖自注意力来计算输入和输出表示的序列转导模型。它与之前工作的主要区别在于：
- 相对于 RNN： Transformer 没有循环结构，因此可以对整个序列进行完全并行的计算。任意两个位置之间的交互路径长度是常数 $O(1)$ ，而 RNN 中是线性 $O(n)$ ，这使得 Transformer 学习长距离依赖更容易。
- 相对于 CNN： Transformer 中任意两个位置都可以直接交互，而 CNN 需要通过堆叠多层来扩大感受野，路径长度是 $O(log_k(n))$ 或 $O(n/k)$ 。Transformer 的全局依赖建模能力更强。

4. 方法论 (Methodology - Core Technology & Implementation Details)

本部分将详细拆解 Transformer 的模型架构，紧密结合原文图示与公式。

方法原理 (Methodology Principles): Transformer 的核心思想是：序列中任何一个词的表示，都应该由序列中所有其他词共同决定，而这种影响力的强弱，可以通过自注意力机制来计算。通过堆叠这种自注意力层，模型可以学习到从简单到复杂的特征组合和依赖关系，从而理解整个序列的结构与语义，而无需任何顺序处理。
方法步骤与流程 (Steps & Procedures): Transformer 沿用了经典的 Encoder-Decoder 架构，但其内部组件是全新的。下图展示了其整体结构。

这是一张网络结构示意图，展示了Transformer模型的编码器和解码器架构。左侧编码器由多层堆叠的“多头注意力机制”和“前馈网络”模块组成，输入先进行词嵌入和位置编码。右侧解码器包含带遮掩的多头注意力机制、多头注意力机制及前馈网络，同样输入词嵌入和位置编码，最终通过线性变换和Softmax输出概率分布。整个结构摒弃了循环和卷积，仅依赖注意力机制。
1. 输入处理：
  - 词嵌入 (Input Embedding): 将输入的词（tokens）转换为固定维度的向量 $d_{model}=512$ 。
  - 位置编码 (Positional Encoding): 由于模型没有循环结构，无法感知词的顺序。因此，必须在词嵌入中加入位置信息。这通过一个固定的、基于正弦和余弦函数的位置编码向量实现。
2. 编码器 (Encoder):
  - 由 $N=6$ 个相同的层堆叠而成。
  - 每个层包含两个子层 (Sub-layers):
    1. 多头自注意力机制 (Multi-Head Self-Attention): 这是核心。对于输入序列中的每个词，该层计算它与序列中所有其他词的注意力分数，然后生成一个新的、融合了全局上下文信息的表示。
    2. 位置前馈网络 (Position-wise Feed-Forward Network): 这是一个简单的全连接前馈网络，它对每个位置的表示进行一次非线性变换。
  - 残差连接与层归一化 (Add & Norm): 每个子层的输出都与该子层的输入进行残差连接 (Residual Connection)，然后进行层归一化 (Layer Normalization)。即 LayerNorm(x + Sublayer(x))。这有助于稳定训练过程和传递梯度。
3. 解码器 (Decoder):
  - 同样由 $N=6$ 个相同的层堆叠而成。
  - 每个层包含三个子层:
    1. 带掩码的多头自注意力机制 (Masked Multi-Head Self-Attention): 与编码器中的自注意力类似，但增加了一个“掩码 (Mask)”。在生成第 i 个词时，它只能关注到位置 i 之前的词，而不能看到未来的词。这保证了模型的自回归 (auto-regressive) 特性，即预测下一个词只能依赖已经生成的词。
    2. 编码器-解码器注意力机制 (Encoder-Decoder Attention): 这是连接编码器和解码器的桥梁。它以解码器上一层的输出作为查询 (Query)，以编码器的最终输出作为键 (Key) 和值 (Value)。这使得解码器在生成每个词时，都能关注到输入序列的所有部分。
    3. 位置前馈网络 (Position-wise Feed-Forward Network): 与编码器中的完全相同。
  - 同样，每个子层也都使用了残差连接和层归一化。
4. 输出层 (Output Layer):
  - 解码器的最终输出会经过一个线性层 (Linear Layer) 和一个 Softmax 函数，生成下一个预测词的概率分布。
数学公式与关键细节 (Mathematical Formulas & Key Details):

下图展示了缩放点积注意力和多头注意力的计算流程。

该图像为示意图，展示了Transformer模型中的两种注意力机制结构：左侧为缩放点积注意力（Scaled Dot-Product Attention），包括对Q、K矩阵点积、缩放、掩码（可选）、SoftMax和与V矩阵相乘的步骤；右侧为多头注意力（Multi-Head Attention）结构，通过三个线性变换得到多个Q、K、V头，分别进行缩放点积注意力计算，再将结果拼接并线性变换输出。
- 缩放点积注意力 (Scaled Dot-Product Attention): 这是 Transformer 中注意力的核心计算单元。 $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释:
  - $Q$ (Query): 查询矩阵。代表当前位置为了计算注意力而发出的“查询”信号。
  - $K$ (Key): 键矩阵。代表序列中所有位置等待被“查询”的信号。
  - $V$ (Value): 值矩阵。代表序列中所有位置的实际信息内容。
  - $d_k$ : 键向量的维度。
  - $\frac{1}{\sqrt{d_k}}$ : 缩放因子。作者发现，当 $d_k$ 较大时，点积 $QK^T$ 的结果会变得很大，这会将 softmax 函数推入梯度极小的区域，导致训练困难。除以 $\sqrt{d_k}$ 可以缓解这个问题。
- 多头注意力 (Multi-Head Attention): 作者发现，与其用 $d_{model}$ 维度的 Q, K, V 进行一次大的注意力计算，不如将它们线性投影到低维空间 h 次，并行地计算 h 个注意力，然后将结果拼接起来。这允许模型在不同的表示子空间中共同关注来自不同位置的信息。 $\mathrm{MultiHead}(Q, K, V) = \mathrm{Concat}(\mathrm{head}_1, ..., \mathrm{head}_h)W^O$ 其中每个“头”的计算方式为： $\mathrm{head}_i = \mathrm{Attention}(QW_i^Q, KW_i^K, VW_i^V)$ 符号解释:
  - $h$ : 注意力头的数量，论文中设为 8。
  - $W_i^Q, W_i^K, W_i^V$ : 对应第 i 个头的可学习的线性投影矩阵。
  - $W^O$ : 输出时使用的可学习的线性投影矩阵。
  - 在论文中， $d_k = d_v = d_{model} / h = 512 / 8 = 64$ 。
- 位置前馈网络 (Position-wise Feed-Forward Network): 这是一个由两个线性变换和一个 ReLU 激活函数组成的网络。 $\mathrm{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2$ 符号解释:
  - $x$ : 前一个子层的输出。
  - $W_1, b_1, W_2, b_2$ : 可学习的权重矩阵和偏置项。
  - 输入和输出维度为 $d_{model}=512$ ，中间层的维度为 $d_{ff}=2048$ 。
- 位置编码 (Positional Encoding): 使用正弦和余弦函数来生成位置编码。 $PE_{(pos, 2i)} = \sin(pos / 10000^{2i / d_{model}})$ $PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i / d_{model}})$ 符号解释:
  - pos: 词在序列中的位置 (从 0 开始)。
  - $i$ : 编码向量中的维度索引 (从 0 开始)。
  - $d_{model}$ : 模型的维度。这种设计的巧妙之处在于，对于任何固定的偏移量 $k$ ， $PE_{pos+k}$ 都可以表示为 $PE_{pos}$ 的线性函数，这使得模型很容易学习到相对位置信息。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):
- WMT 2014 英德 (English-German) 数据集: 包含约 450 万个句子对。
- WMT 2014 英法 (English-French) 数据集: 规模更大，包含 3600 万个句子对。
- 预处理: 使用了字节对编码 (Byte-Pair Encoding, BPE) 或 WordPiece 方法将词切分为子词单元 (subword units)，以处理罕见词问题，并构建了一个共享的源语言和目标语言词汇表。
评估指标 (Evaluation Metrics):
- BLEU (Bilingual Evaluation Understudy):
  1. 概念定义 (Conceptual Definition): BLEU 是一种用于评估机器翻译质量的自动化指标。它通过比较机器生成的译文与一个或多个专业人工翻译的参考译文之间的相似度来打分。BLEU 的核心是衡量 n-gram (连续的 n 个词) 的精确率，即机器译文中有多少 n-gram 片段出现在了参考译文中。为了避免机器生成过短但精确率高的句子，BLEU 还引入了“简洁惩罚” (Brevity Penalty)，对长度短于参考译文的句子进行惩罚。BLEU 分数介于 0 到 100 之间，越高表示翻译质量越好。
  2. 数学公式 (Mathematical Formula): $\mathrm{BLEU} = \mathrm{BP} \cdot \exp\left(\sum_{n=1}^{N} w_n \log p_n\right)$
  3. 符号解释 (Symbol Explanation):
    - $\mathrm{BP}$ : 简洁惩罚 (Brevity Penalty)。如果机器译文长度 $c$ 小于等于参考译文长度 $r$ ，则 $\mathrm{BP} = \exp(1 - r/c)$ ；否则 $\mathrm{BP} = 1$ 。
    - $N$ : n-gram 的最大长度，通常取值为 4。
    - $w_n$ : 每个 n-gram 精确率的权重，通常是均匀的，即 $w_n=1/N$ 。
    - $p_n$ : 修正后的 n-gram 精确率。其计算方式为：在机器译文中所有 n-gram 的总数中，有多少个 n-gram 出现在了任一参考译文中（对于同一个 n-gram，其计数不能超过它在任何单个参考译文中出现的最大次数）。
对比基线 (Baselines): 论文与当时最先进的多个模型进行了比较，包括：
- ByteNet [15]: 基于 CNN 的序列转导模型。
- GNMT + RL [31]: Google 的神经机器翻译系统，基于深度 LSTM 和强化学习 (Reinforcement Learning)。
- ConvS2S [8]: Facebook 提出的完全基于 CNN 的序列到序列模型。
- MoE [26]: 基于稀疏门控混合专家层的大规模模型。
- 以及上述模型的集成版本 (Ensembles)，通常集成模型能取得比单模型更高的性能。这些基线代表了当时基于 RNN 和 CNN 架构的最高水平。

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis): 论文的主要结果展示在 Table 2 中。由于未提供图像，以下为根据原文转录的表格。

模型 (Model)	BLEU (EN-DE)	BLEU (EN-FR)	训练成本 (FLOPs, EN-DE)	训练成本 (FLOPs, EN-FR)
ByteNet [15]	23.75
Deep-Att + PosUnk [32]		39.2		$1.0 \cdot 10^{20}$
GNMT + RL [31]	24.6	39.92	$2.3 \cdot 10^{19}$	$1.4 \cdot 10^{20}$
ConvS2S [8]	25.16	40.46	$9.6 \cdot 10^{18}$	$1.5 \cdot 10^{20}$
MoE [26]	26.03	40.56	$2.0 \cdot 10^{19}$	$1.2 \cdot 10^{20}$
Deep-Att + PosUnk Ensemble [32]		40.4		$8.0 \cdot 10^{20}$
GNMT + RL Ensemble [31]	26.30	41.16	$1.8 \cdot 10^{20}$	$1.1 \cdot 10^{21}$
ConvS2S Ensemble [8]	26.36	41.29	$7.7 \cdot 10^{19}$	$1.2 \cdot 10^{21}$
Transformer (base model)	27.3	38.1	$3.3 \cdot 10^{18}$
Transformer (big)	28.4	41.0	$2.3 \cdot 10^{19}$

注意：此表格为根据原文数据转录，非原始图像。

分析:

英德翻译 (EN-DE): Transformer (big) 模型取得了 28.4 的 BLEU 分数，这比之前所有已发表的模型，包括集成模型 (如 GNMT Ensemble 的 26.30)，都高出了超过 2.0 BLEU。这是一个巨大的性能提升，确立了新的 SOTA。即使是基础版 Transformer (27.3)，也超越了所有之前的模型。
英法翻译 (EN-FR): Transformer (big) 模型取得了 41.0 的 BLEU 分数，超越了所有之前的单模型 (如 ConvS2S 的 40.46)。
训练成本: Transformer 的训练成本显著低于竞争对手。例如，在 EN-DE 任务上，基础版 Transformer 的训练成本（ $3.3 \cdot 10^{18}$ FLOPs）比 ConvS2S（ $9.6 \cdot 10^{18}$ FLOPs）和 GNMT（ $2.3 \cdot 10^{19}$ FLOPs）都要低得多，但性能却更好。这强有力地证明了其架构的效率优势。

消融实验/参数分析 (Ablation Studies / Parameter Analysis): 作者在 Table 3 中对 Transformer 的不同变体进行了详细的消融研究，以验证各组件的重要性。由于该表格包含合并单元格，故使用 HTML

进行转录。

	N	d_model	d_ff	h	d_k	d_v	P_drop	ε_ls	train steps	PPL (dev)	BLEU (dev)	params ×10⁶
	N	d_model	d_ff	h	d_k	d_v	P_drop	ε_ls	train steps	PPL (dev)	BLEU (dev)	params ×10⁶
base	6	512	2048	8	64	64	0.1	0.1	100K	4.92	25.8	65
(A)				1	512	512				5.29	24.9
				4	128	128				5.00	25.5
				16 / 32	32 / 16	32 / 16				4.91 / 5.01	25.8 / 25.4
(B)					16 / 32					5.16 / 5.01	25.1 / 25.4	58
(C)	2 / 4 / 8									6.11 / 5.19 / 4.88	23.7 / 25.3 / 25.5	36 / 50 / 80
		256			32	32				5.75	24.5	28
		1024			128	128				4.66	26.0	168
			1024 / 4096							5.12 / 4.75	25.4 / 26.2	53 / 90
(D)							0.0			5.77	24.6
(D)								0.0		4.67 / 5.47	25.3 / 25.7
(E)	positional embedding instead of sinusoids								4.92	25.7	65
big	6	1024	4096	16	64	64	0.3		300K	4.33	26.4	213