论文状态：已完成

Robust Speech Recognition via Large-Scale Weak Supervision

发表：2022/12/09

大规模弱监督语音识别 (1)多语言多任务语音模型 (1)零样本迁移学习 (1)无微调语音识别 (1)互联网音频转录数据 (1)

原文链接

价格：0.100000

已有 5 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文通过大规模弱监督训练多语言多任务模型，使用68万小时互联网音频转录数据，实现了无微调下的零样本迁移语音识别。模型在多个基准测试中表现优异，鲁棒性和准确度接近人类水平，推动了开箱即用的鲁棒语音识别技术发展。

摘要

Robust Speech Recognition via Large-Scale Weak Supervision Alec Radford * 1 Jong Wook Kim * 1 Tao Xu 1 Greg Brockman 1 Christine McLeavey 1 Ilya Sutskever 1 Abstract We study the capabilities of speech processing systems trained simply to predict large amounts of transcripts of audio on the internet. When scaled to 680,000 hours of multilingual and multitask supervision, the resulting models generalize well to standard benchmarks and are often competitive with prior fully supervised results but in a zero- shot transfer setting without the need for any fine- tuning. When compared to humans, the models approach their accuracy and robustness. We are releasing models and inference code to serve as a foundation for further work on robust speech processing. 1. Introduction Progress in speech recognition has been energized by the development of unsupervised pre-training techniques exem- plified by Wav2Vec 2.0 (Baevski et al., 2020). Since these methods learn directly from raw audio without the need for human labels, they can productively use large datasets of un- labeled speech and have been quickly scaled up to 1,000,000 hours of training data (Zhang et al., 20

思维导图

论文精读

中文精读约 51 分钟读完 · 42,706 字

1. 论文基本信息

1.1. 标题

Robust Speech Recognition via Large-Scale Weak Supervision (通过大规模弱监督实现鲁棒语音识别)

1.2. 作者

Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever (所有作者均来自 OpenAI)。

1.3. 发表期刊/会议

论文中未明确指出具体的发表期刊或会议。鉴于作者均来自 OpenAI 且论文内容为前沿研究，通常这类工作会以预印本（如 arXiv）形式发布，并可能后续投稿至顶会（如 NeurIPS, ICML, ICLR）或顶级期刊。

1.4. 发表年份

根据论文参考文献中最新的引用多为 2021 年和 2022 年，以及 OpenAI 官方发布 Whisper 模型的时间，该论文应发表于 2022 年。

1.5. 摘要

我们研究了通过简单预测互联网上大量音频转录本（transcripts）来训练语音处理系统所能达到的能力。当模型被扩展至 68 万小时的多语言（multilingual）和多任务（multitask）监督数据时，所得到的模型在标准基准测试上表现出良好的泛化能力，并且在零样本迁移（zero-shot transfer）设置下，无需任何微调（fine-tuning）即可与之前完全监督（fully supervised）的结果相媲美。与人类相比，这些模型在准确性和鲁棒性（robustness）上接近人类水平。我们正在发布模型和推理代码，以期为未来在鲁棒语音处理方面的工作奠定基础。

1.6. 原文链接

/files/papers/690428e7b3dfc21c986862d6/paper.pdf (该链接指向 PDF 格式的预印本或技术报告)

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题是什么？ 传统的语音识别 (Automatic Speech Recognition, ASR) 系统在特定领域或干净数据上表现优异，但其鲁棒性 (robustness) 较差，在面对分布外 (out-of-distribution) 数据、多种口音、噪声环境或不同语言时，性能会急剧下降。现有的解决方案通常依赖于无监督预训练 (unsupervised pre-training) 和后续的领域特定微调 (fine-tuning)，但微调过程复杂，需要专业的实践者，且限制了模型的通用性和“开箱即用”的能力。

为什么这个问题在当前领域是重要的？ 在现实世界中，语音数据是高度多样化和复杂的。用户说话的环境、口音、录音质量以及语言种类都千差万别。如果 ASR 系统无法在这些多样化的场景下保持鲁棒性，就难以实现广泛的应用。同时，每次部署都需要进行复杂的微调，会增加成本和技术门槛，限制了 ASR 技术的普及和影响。因此，开发一个能够可靠地“开箱即用”的、在各种环境下都能工作的通用语音处理系统至关重要。

现有研究存在哪些具体的挑战或空白？

鲁棒性不足： 即使在某个数据集上达到“超人”性能的模型，在其他数据集上仍可能表现不佳，这表明模型可能过度利用了训练数据的特定“怪癖”而非通用规律。
微调的必要性： 现有的先进无监督预训练方法（如 Wav2Vec 2.0）虽然能学习高质量的音频编码器 (audio encoders)，但缺乏同样高性能的解码器 (decoders)，仍需要耗时且专业的微调阶段才能执行 ASR 任务。
高质量监督数据规模限制： 尽管多领域监督预训练（如 SpeechStew）被证明能提高鲁棒性，但高质量的标注数据集规模相对较小，远低于无监督学习能利用的非标注数据量。
弱监督数据的利用不足： 尽管一些工作尝试利用弱监督数据，但规模通常也仅是高质量数据集的几倍，远未达到无监督学习的百万小时级别。

这篇论文的切入点或创新思路是什么？ 论文的创新思路在于：

大规模弱监督预训练： 放弃对高质量标注数据的严格要求，转向利用互联网上大规模、多样化但可能包含噪声的音频-文本对数据（68万小时），将弱监督预训练扩展到前所未有的规模。
零样本迁移 (Zero-shot Transfer)： 目标是训练一个在多种任务、多种语言和多种分布下无需任何微调即可表现优异的通用模型，直接评估其泛化能力。
多语言与多任务统一： 将语音转录、翻译、语音活动检测 (Voice Activity Detection, VAD) 和语言识别 (Language Identification) 等多种任务以及96种语言整合到一个单一的 Encoder-Decoder Transformer 模型中进行联合训练。
简化训练范式： 不采用复杂的自监督 (self-supervision) 或自训练 (self-training) 技术，而是通过简单地预测大量互联网音频的原始文本转录本，来探索这种“简单扩展”范式的潜力。

2.2. 核心贡献/主要发现

这篇论文的核心贡献和主要发现可以总结如下：

发布大规模弱监督模型 Whisper： 论文开发并发布了 Whisper 模型，该模型通过对 68 万小时（包含 96 种语言）多语言和多任务的互联网音频转录数据进行大规模弱监督预训练。这是迄今为止在监督语音识别领域最大的数据集之一。
实现出色的零样本迁移能力： Whisper 模型在标准的语音识别基准测试上表现出卓越的零样本迁移能力，无需任何特定数据集的微调，其性能常常能与现有完全监督的最先进模型相媲美甚至超越。
鲁棒性显著提升，接近人类水平：
- 在英文语音识别任务中，Whisper 在分布外数据集上的鲁棒性远超经过监督训练的传统模型，平均相对错误率降低 55.2%。
- 在面对加性噪声（如酒吧噪声）时，Whisper 在高噪声环境下表现出优越的鲁棒性，性能优于大多数在干净数据上训练的模型。
- 通过与专业人类转录员的对比，Whisper 的英文语音识别准确率非常接近人类水平。
多语言和多任务学习的有效性： 论文证明了在足够大的模型规模下，联合进行多语言和多任务训练不仅没有负面影响，反而能带来性能提升（正迁移），从而实现一个单一模型处理多种语音任务和多种语言的能力。
揭示规模化的重要性： 实验结果表明，无论是模型规模还是数据集规模的增加，都持续带来性能提升。尤其是在多语言语音识别和翻译任务中，性能与训练数据量呈强相关。
代码和模型发布： 作者发布了 Whisper 模型和推理代码，为进一步研究鲁棒语音处理奠定基础，促进社区发展。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解这篇论文，我们需要了解以下几个核心概念：

语音识别 (Speech Recognition, ASR)： 语音识别是将人类语音转换为文本的过程。它是人机交互中的关键技术，广泛应用于语音助手、会议记录、无障碍辅助等领域。
无监督预训练 (Unsupervised Pre-training)： 一种机器学习范式，模型首先在一个大型未标注数据集上学习通用的特征表示（例如，通过预测掩码部分的音频或文本），然后这些预训练的表示可以在下游任务上进行微调。例如，Wav2Vec 2.0 就是通过这种方式学习音频表示。
微调 (Fine-tuning)： 在一个特定任务或特定数据集上，对已经预训练好的模型进行进一步训练的过程。微调通常使用较小的学习率和有标签的数据，以使模型适应特定任务的细节，但可能会导致模型对训练数据的特定分布过拟合，从而影响其在分布外数据上的泛化能力。
零样本迁移 (Zero-shot Transfer)： 指模型在训练过程中从未见过特定任务或特定领域的数据，但仍能直接在该任务或领域上执行并获得合理性能的能力。这与传统的微调范式形成对比，是衡量模型泛化能力和鲁棒性的重要指标。
弱监督 (Weak Supervision)： 指使用大量但可能包含噪声、不完整或质量较低的标签数据进行模型训练。这些标签可能不是人工逐一精确标注的“金标准”，而是通过自动化方法、启发式规则或众包等方式获得。本文中，从互联网收集的音频-转录对就属于弱监督数据。
Transformer 架构 (Transformer Architecture)： 一种基于注意力机制 (Attention Mechanism) 的深度学习模型架构，最初为自然语言处理任务设计，在序列到序列 (Sequence-to-sequence) 任务中表现出色。它避免了循环神经网络 (Recurrent Neural Network, RNN) 的顺序计算限制，能够并行处理序列数据，并有效捕捉长距离依赖关系。
注意力机制 (Attention Mechanism)： 注意力机制是 Transformer 的核心组成部分，它允许模型在处理序列数据时，动态地关注输入序列中与当前输出最相关的部分。这解决了传统序列模型在处理长序列时信息瓶颈和长距离依赖问题。其核心思想是通过计算查询 (Query, $Q$ ) 与一系列键 (Key, $K$ ) 的相似度，来为值 (Value, $V$ ) 分配权重，从而得到加权和的输出。最常用的形式是缩放点积注意力 (Scaled Dot-Product Attention)： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释:
- $Q$ : 查询矩阵 (Query matrix)，维度为 $n_q \times d_k$ 。
- $K$ : 键矩阵 (Key matrix)，维度为 $n_k \times d_k$ 。
- $V$ : 值矩阵 (Value matrix)，维度为 $n_v \times d_v$ 。通常 $n_k = n_v$ 且 $d_k = d_v$ 。
- $Q K^T$ : 查询与键的点积，计算每个查询与所有键的相似度。
- $\sqrt{d_k}$ : 缩放因子，用于防止当 $d_k$ 较大时点积结果过大，导致 softmax 函数进入梯度饱和区。
- $\mathrm{softmax}(\cdot)$ : 归一化指数函数，将相似度转换为注意力权重，使得所有权重的和为 1。
- $\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ : 注意力权重与值矩阵的乘积，得到加权后的值。
词错误率 (Word Error Rate, WER)： 衡量语音识别系统性能的标准评估指标。WER 越低表示性能越好。具体计算方式将在“评估指标”部分详细解释。
BLEU 分数 (Bilingual Evaluation Understudy, BLEU Score)： 衡量机器翻译质量的标准评估指标，通过比较机器翻译结果与高质量人工参考翻译的相似度来评估。BLEU 分数越高表示翻译质量越好。具体计算方式将在“评估指标”部分详细解释。
鲁棒性 (Robustness)： 指机器学习模型在输入数据发生微小或预料之内的变化（如噪声、口音、录音条件变化）时，仍能保持稳定性能的能力。在语音识别中，这意味着模型在各种现实世界场景下都能可靠工作。
BPE 分词器 (Byte Pair Encoding, BPE Tokenizer)： 一种常用的子词 (subword) 分词算法，用于将文本拆分成更小的单元（词元，token）。它通过迭代地合并训练数据中最频繁的字节对来构建词汇表，从而有效地处理生僻词和形态变化，并在词汇表大小和表示能力之间取得平衡。

3.2. 前人工作

论文引用了大量相关工作，主要集中在以下几个方面：

无监督预训练的进展 (Progress in Unsupervised Pre-training):
- Wav2Vec 2.0 (Baevski et al., 2020) 开创了无监督语音预训练的新范式，通过自监督学习从原始音频中提取高质量表示。
- 后续工作如 Zhang et al. (2021) 将 Wav2Vec 2.0 扩展到百万小时的训练数据，显著提升了性能。
- 然而，这些方法通常仍需要一个微调阶段，将学到的表示映射到可用的文本输出。
多领域训练提升鲁棒性 (Multi-domain Training for Robustness):
- Narayanan et al. (2018)、Likhomanenko et al. (2020) 和 Chan et al. (2021)（如 SpeechStew）表明，在多个数据集/领域上以监督方式预训练的语音识别系统，比在单一来源上训练的模型具有更高的鲁棒性和更好的泛化能力。这些工作通过整合尽可能多的现有高质量语音识别数据集来实现。
弱监督学习的兴起 (Rise of Weak Supervision):
- 鉴于高质量监督数据集规模的限制，Chen et al. (2021) 和 Galvez et al. (2021) 利用复杂的自动化流水线，将弱监督语音识别扩展到 1 万到 3 万小时的带噪声训练数据。
- 计算机视觉领域也证明了从“金标准”众包数据集（如 ImageNet）转向更大规模但弱监督的数据集，能显著提高模型的鲁棒性和泛化能力 (Mahajan et al., 2018; Kolesnikov et al., 2020)。
多任务学习 (Multitask Learning):
- Caruana (1997) 等早期工作就研究了多任务学习。
- 在语音识别中，多语言模型已有十多年的探索历史 (Schultz & Kirchhoff, 2006)。
- Johnson et al. (2017) 提出了使用语言代码的共享编码器/解码器架构，实现了机器翻译的零样本翻译。
- Radford et al. (2019) 和 Raffel et al. (2020) 的工作推广了“text-to-text”框架和大型 Transformer 语言模型。
- Toshniwal et al. (2018) 和 Pratap et al. (2020a) 展示了使用单一模型对多语言语音识别系统进行联合训练。
- MUTE (Wang et al., 2020c) 和 mSLAM (Bapna et al., 2022) 研究了语音和文本语言任务的联合训练，展示了它们之间的迁移学习 (transfer learning)。
鲁棒性研究 (Robustness Research):
- 多领域训练能增加鲁棒性和泛化能力，这一发现已在 NLP (Hendrycks et al., 2020) 和计算机视觉 (Radford et al., 2021) 等多个领域得到验证。
- Taori et al. (2020) 和 Miller et al. (2020) 分别研究了图像分类和问答模型的鲁棒性。

3.3. 技术演进

语音识别技术的发展历程，特别是近年来，呈现出从传统声学模型与语言模型分离到端到端 (end-to-end) 系统，再到大规模预训练模型，以及对鲁棒性和通用性日益关注的趋势：

早期深度学习阶段： 随着 GPU 加速的普及，深度学习开始应用于语音识别。Mohamed et al. (2009)、Seide et al. (2011) 等工作展示了模型深度和规模对性能的提升，以及数据集规模对深度学习 ASR 的重要性。
大规模监督学习： Deep Speech 2 (Amodei et al., 2015) 通过分布式训练和大规模数据（1.2万小时）实现了显著性能提升。Narayanan et al. (2018) 进一步将监督训练扩展到 16.2 万小时。
无监督预训练的兴起： 约 2020 年前后，以 Wav2Vec 2.0 为代表的自监督学习 (self-supervised learning) 方法出现，模型从原始音频中学习高质量的声学表示，无需人工标注。这些方法能够利用海量的无标签语音数据 (Zhang et al., 2021 达到了 100 万小时)，显著提升了在低数据量设置下的性能。然而，这些模型通常仍需要针对特定任务的微调 (fine-tuning)。
多任务与多语言学习： 研究人员开始探索将多种语言和多种任务（如语音识别、翻译）整合到一个模型中，以提高泛化能力和效率。这得益于 Transformer 架构和 text-to-text 框架在 NLP 领域的成功。
弱监督与鲁棒性： 认识到“金标准”数据集的局限性，一些工作开始探索利用更大规模但可能质量较低的弱监督数据，并研究如何在分布外场景下提升模型的鲁棒性。

本文的工作 Whisper 正是处在这一技术演进的最新阶段：它汲取了 Transformer 架构和大规模训练的优势，但与之前主流的无监督预训练后微调的范式不同，Whisper 直接转向大规模弱监督预训练，并整合了多语言和多任务学习，最终目标是实现零样本迁移能力，从而在通用性和鲁棒性方面迈出重要一步，试图实现一个真正“开箱即用”的语音处理系统。

3.4. 差异化分析

本文提出的 Whisper 模型与相关工作中的主要方法相比，其核心区别和创新点体现在以下几个方面：

训练数据范式：
- 相关工作（主流）： 大多数先进的 ASR 系统（如 Wav2Vec 2.0、HuBERT 等）依赖于大规模无监督预训练（利用大量无标签音频学习声学表示），然后结合少量高质量标注数据进行微调。一些工作（如 SpeechStew）也会聚合多个现有高质量监督数据集进行训练。
- Whisper： 采用大规模弱监督预训练。直接利用互联网上 68 万小时的音频-文本对数据，这些数据虽然规模巨大且多样，但质量参差不齐，包含噪声和自动化生成的转录。这种“直接从弱监督数据中学习”的范式，避免了复杂的自监督（self-supervision）或自训练（self-training）技术。
目标与评估设置：
- 相关工作： 通常在特定数据集上进行微调后，在同一数据集的测试集上评估性能（即域内泛化）。
- Whisper： 专注于零样本迁移 (Zero-shot Transfer)。模型在训练时不接触任何特定评估数据集的训练数据，直接在测试集上进行评估，旨在衡量其分布外泛化能力和鲁棒性，使其能“开箱即用”。
模型功能范围：
- 相关工作： 许多模型专注于单一任务（如英语语音识别）或单一语言。即使有多语言或多任务模型，也常需要不同的模块或复杂的接口。
- Whisper： 设计为单一模型处理多语言和多任务。它不仅支持多语言语音识别，还统一处理语音翻译、语音活动检测和语言识别等任务，通过解码器输入的特殊词元进行任务和语言的条件控制。
对鲁棒性的侧重：
- 相关工作： 鲁棒性通常是通过数据增强、模型正则化或多领域微调来间接提升。
- Whisper： 将鲁棒性作为核心设计目标。通过训练数据的巨大规模和多样性，以及零样本评估，直接证明了其在各种噪声、口音和语言环境下的出色鲁棒性，甚至可以与人类水平相媲美。
模型架构的简洁性：
- 相关工作： 一些最先进的模型会结合复杂的声学模型和外部语言模型，或使用更复杂的自监督预训练目标。
- Whisper： 使用了一个相对标准的 Encoder-Decoder Transformer 架构，并将音频处理、文本预测（包括多语言、多任务和时间戳）集成到单一序列生成框架中，避免了引入额外的复杂组件，如单独的逆文本正则化 (Inverse Text Normalization, ITN) 步骤。
  
  综上所述，Whisper 的核心差异在于其对大规模弱监督数据的利用，以及对零样本、多语言、多任务鲁棒性的坚定追求，这使得它能够在一个单一模型中提供前所未有的通用语音处理能力。

4. 方法论

本节将详细拆解 Whisper 模型的技术方案，包括其数据处理、模型架构、多任务格式和训练细节。

4.1. 方法原理

Whisper 方法的核心思想是，通过大规模弱监督预训练 (Large-Scale Weak Supervision Pre-training)，构建一个能够在多种语言和多种任务上零样本迁移 (Zero-shot Transfer) 的鲁棒语音处理系统。其直觉是，如果模型能够在一个极其庞大且多样化的互联网音频数据集上，仅仅通过学习预测其对应的文本转录本，那么它就能学习到足够通用的语音特征和语言知识，从而在面对未见过的语音分布或任务时，表现出强大的泛化能力。

具体而言，它利用了 Encoder-Decoder Transformer 架构的强大序列建模能力，将其训练成一个音频条件语言模型 (audio-conditional language model)。这个模型不仅要识别语音内容，还要能理解语音的语言、是否包含语音、以及在多任务格式下执行翻译或时间戳预测等附加任务。通过将所有这些信息编码为解码器 (decoder) 的输入词元 (tokens) 序列，实现了一个统一的端到端系统。

4.2. 核心方法详解

4.2.1. 数据处理 (Data Processing)

数据是 Whisper 模型成功的基石。由于其依赖大规模弱监督数据，数据处理阶段尤为关键，旨在从互联网上收集的嘈杂数据中提炼出可用于训练的有效信息。

数据收集与极简预处理：
- 数据源： 互联网上配对的音频和转录本 ((audio, transcript) pairs)。这使得数据集非常多样化，涵盖了各种环境、录音设置、说话人和语言。
- 极简主义方法： Whisper 采取了一种极简的预处理方法。与许多语音识别工作不同，它训练模型直接预测转录本的原始文本 (raw text)，而不进行任何显著的标准化 (standardization)。这意味着模型需要自行学习如何将语音映射到包含标点、大小写、数字表示等自然形式的文本。
- 优势： 简化了语音识别的流水线，无需单独的逆文本正则化 (Inverse Text Normalization, ITN) 步骤来生成自然文本。
数据质量过滤 (Data Quality Filtering)： 虽然音频质量的多样性有助于提高模型鲁棒性，但转录本质量的多样性则不然。因此，需要自动化方法来改善转录本质量。
- 移除机器生成转录： 许多互联网上的转录本并非人工生成，而是由现有 ASR 系统输出。为了避免模型学习到这些“转录本口音 (transcript-ese)”（如缺少复杂标点、格式化空白、全大写/全小写等），作者开发了多种启发式规则 (heuristics) 来检测并移除这些机器生成的转录本。例如，全大写或全小写的转录本很可能不是人工生成的。
- 音频语言检测： 使用一个预先在 VoxLingua107 数据集上微调过的音频语言检测器 (audio language detector) 来确保语音的语言与转录本的语言一致。
  - 如果语音语言和转录本语言不匹配，则该 (audio, transcript) 对不会被用作语音识别训练样本。
  - 例外情况： 如果转录本语言是英文，即使语音语言不匹配，这些对也会被包含进来，但作为X 到英文语音翻译 ( $\tt X \to \in \tt n$ speech translation) 训练样本。
- 模糊去重 (Fuzzy De-duping)： 对转录本文本进行模糊去重，以减少训练数据集中重复和自动生成内容的数量。
音频分段 (Audio Segmentation)：
- 音频文件被分割成 30 秒的片段 (30-second segments)，并与在该时间段内发生的转录本子集配对。
- 模型在所有音频上进行训练，包括不含语音的片段 (segments where there is no speech)。这些无语音片段被用作语音活动检测 (Voice Activity Detection, VAD) 的训练数据。
模型训练后的额外过滤： 在训练完一个初始模型后，作者收集了该模型在训练数据来源上的错误率信息，并手动检查了那些错误率高且数据源规模大的数据。
- 目的： 识别并移除部分转录、对齐不佳/错位以及未被前期启发式规则检测到的低质量机器生成字幕。
评估数据集去重 (De-duplication for Evaluation)： 为了避免训练数据与评估数据集之间的数据污染 (contamination)，作者在转录本层面进行了去重，特别是针对那些被认为有高重叠风险的评估数据集，如 TED-LIUM 3。

4.2.2. 模型架构 (Model)

Whisper 采用了成熟的 Encoder-Decoder Transformer 架构，以避免模型改进对研究大规模监督预训练能力的影响。

整体架构：
- 类型： Encoder-Decoder Transformer (Vaswani et al., 2017)。
- 音频预处理：
  - 所有音频被重采样 (re-sampled) 到 16,000 Hz。
  - 计算 80 通道对数幅度梅尔频谱 (80-channel logmagnitude Mel spectrogram) 作为输入表示。这是在 25 毫秒窗口 (25-millisecond windows) 上以 10 毫秒步长 (stride) 计算得到的。
  - 特征归一化 (Feature Normalization)： 输入数据全局缩放 (globally scale) 到 -1 到 1 之间，并在整个预训练数据集上具有近似零均值。
编码器 (Encoder)：
- 词干 (Stem)： 编码器首先通过一个小型词干处理输入表示，该词干包含 两个卷积层 (two convolution layers)，滤波器宽度为 3，并使用 GELU 激活函数 (Hendrycks & Gimpel, 2016)。第二个卷积层具有步长为 2。
- 位置嵌入 (Position Embeddings)： 在词干的输出之后添加正弦位置嵌入 (Sinusoidal position embeddings)。
- Transformer 块： 随后应用编码器 Transformer 块。这些块使用预激活残差块 (pre-activation residual blocks) (Child et al., 2019)。
- 最终层归一化： 在编码器输出上应用一个最终的层归一化 (layer normalization)。
解码器 (Decoder)：
- 位置嵌入： 使用学习到的位置嵌入 (learned position embeddings)。
- 词元表示： 使用绑定输入-输出词元表示 (tied input-output token representations) (Press & Wolf, 2017)。
- 尺寸匹配： 编码器和解码器具有相同的宽度 (width) 和 Transformer 块的数量 (number of transformer blocks)。
分词器 (Tokenizer)：
- 英文模型： 使用 GPT-2 中使用的字节对编码 (Byte-level BPE) 文本分词器 (Sennrich et al., 2015; Radford et al., 2019)。
- 多语言模型： 为多语言模型重新拟合 (refit) 词汇表 (vocabulary)，但保持相同的大小，以避免在其他语言上过度碎片化 (excessive fragmentation)，因为 GPT-2 的 BPE 词汇表是仅限英文的。
  
  以下是模型架构的示意图，描绘了其编码器-解码器结构和多任务输出。
  
  图 1：多任务弱监督语音识别模型的训练数据、多任务训练格式以及基于序列到序列的Transformer编码器-解码器架构示意图。

该图展示了 Whisper 模型如何将原始音频输入通过 Mel 频谱特征提取和编码器（Encoder）转换为高级表示，然后解码器（Decoder）接收这些表示和一系列特殊词元（tokens）来生成多任务输出。这些特殊词元用于指定语言、任务（转录或翻译）、是否生成时间戳，以及处理无语音片段等。这使得模型能够在一个统一的框架内处理多种语音处理任务。

4.2.3. 多任务格式 (Multitask Format)

Whisper 旨在通过一个单一模型执行整个语音处理流水线，而不仅仅是核心识别部分。为此，它采用了一种简洁的多任务格式来指定不同的任务和条件信息。

任务范围： 一个完整的语音识别系统除了核心的转录 (transcription) 任务外，还可能涉及语音活动检测 (voice activity detection)、说话人识别 (speaker diarization)、逆文本正则化 (inverse text normalization) 等。Whisper 的目标是整合：转录、翻译、语音活动检测、对齐和语言识别。
任务规范 (Task Specification)：
- 所有的任务和条件信息都通过作为解码器输入词元序列 (sequence of input tokens to the decoder) 来指定。
- 由于解码器是一个音频条件语言模型 (audio-conditional language model)，它也被训练来条件化 (condition on) 转录本的历史文本 (history of text of the transcript)。这有助于模型利用更长的文本上下文来解决模糊的音频信息。具体来说，以一定的概率将当前音频段之前（preceding）的转录文本添加到解码器的上下文中。
特殊词元序列 (Special Token Sequence)： 模型通过生成一系列特殊词元来逐步引导任务执行和输出格式：
- $<|startoftranscript|>$ 词元： 指示预测的开始。
- 语言词元： 接下来预测正在说的语言。这由为训练集中每种语言（共 99 种）设置的唯一词元表示。这些语言目标来源于 VoxLingua107 模型。
- $<|nospeech|>$ 词元： 如果音频片段中没有语音，模型被训练预测此词元。
- 任务词元： 紧接着指定任务类型，可以是 $<|transcribe|>$ （转录）或 $<|translate|>$ （翻译）。
- 时间戳词元： 之后指定是否预测时间戳。如果不需要时间戳，则包含 $<|notimestamps|>$ 词元。
- 输出开始： 至此，任务和所需格式已完全指定，模型开始生成实际的输出内容。
- 时间戳预测： 如果需要时间戳，模型预测相对于当前音频段的时间，并将所有时间量化 (quantizing) 到最近的 20 毫秒（与 Whisper 模型的原生时间分辨率匹配）。为此，额外的词元被添加到词汇表中。这些时间戳词元与字幕词元交错预测：开始时间词元在每个字幕文本之前预测，结束时间词元在其之后预测。
  - 部分片段处理： 当最终的转录片段仅部分包含在当前的 30 秒音频块中时，在时间戳模式下，模型仅预测该片段的开始时间词元，以指示后续解码应在与该时间对齐的音频窗口上执行，否则音频将被截断以不包含该片段。
- $<|endoftranscript|>$ 词元： 最终，添加此词元指示转录本的结束。
损失计算： 在训练期间，模型只掩盖 (mask out) 先前上下文文本的训练损失，并训练模型预测所有其他词元。这意味着模型不需要精确重构作为输入的历史文本上下文，而是专注于生成当前音频段对应的输出。

4.2.4. 训练细节 (Training Details)

作者训练了一系列不同大小的模型（Tiny、Base、Small、Medium、Large）以研究 Whisper 的扩展特性，并采用了高效的训练策略。

模型家族架构细节 (Table 1)：

Model Layers Width Heads Parameters
Tiny 4 384 6 39M
Base 6 512 8 74M
Small 12 768 12 244M
Medium 24 1024 16 769M
Large 32 1280 20 1550M

表 1：Whisper 模型家族的架构细节。
硬件与优化：
- 并行化： 使用跨加速器的数据并行 (data parallelism)。
- 精度： FP16 浮点精度，配合动态损失缩放 (dynamic loss scaling)。
- 内存优化： 激活检查点 (activation checkpointing) (Griewank & Walther, 2000; Chen et al., 2016) 用于减少内存消耗。
优化器与学习率：
- 优化器： AdamW (Loshchilov & Hutter, 2017)。
- 梯度裁剪： 梯度范数裁剪 (gradient norm clipping) (Pascanu et al., 2013)。
- 学习率调度： 线性学习率衰减 (linear learning rate decay) 到零，前 2048 次更新进行预热 (warmup)。
批处理与训练时长：
- 批处理大小： 256 个音频片段 (segments)。
- 训练步数： $2^{20}$ 次更新，这相当于数据集的 2 到 3 个周期 (passes)。
正则化与泛化：
- 无数据增强或正则化： 由于仅训练了少量 epoch，过拟合 (over-fitting) 并非主要问题。因此，模型未采用任何数据增强或显式正则化技术。
- 依赖多样性： 作者依赖于大规模数据集固有的多样性来鼓励模型的泛化和鲁棒性。
微调移除说话人名称猜测 (Speaker Name Guessing)：
- 在早期开发和评估中，Whisper 模型倾向于转录看似合理但几乎总是错误的说话人姓名。这是因为预训练数据集中许多转录本包含说话人姓名，鼓励模型尝试预测它们，但这些信息很少能从最近 30 秒的音频上下文推断出来。
- 解决方案： 对 Whisper 模型进行了短暂微调，仅使用那些不包含说话人标注的转录本子集，从而消除了这种行为。

训练超参数 (Appendix F)：

表 17：Whisper 训练超参数

Hyperparameter	Value
Updates	1048576
Batch Size	256
Warmup Updates	2048
Max grad norm	1.0
Optimizer	AdamW
β1	0.9
β2	0.98
e	10-6
Weight Decay	0.1
Weight Init	Gaussian Fan-In
Learning Rate Schedule	Linear Decay
Speechless audio subsample factor	10×
Condition on prior text rate	50%

表 17：Whisper 训练超参数。

表 18：Whisper Large V2 更改的超参数

Hyperparameter Value
Updates 655360
Batch Size 1024
BPE Dropout 0.1
Stochastic Depth 0.1
SpecAugment Policy LibriSpeech Basic

表 18：Whisper Large V2 更改的超参数。
表 19：Whisper 模型学习率

Model Max Learning Rate
Tiny 1.5 × 10−3
Base 1 × 10−3
Small 5 × 10−4
Medium 2.5 × 10−4
Large 1.75 × 10-4
Large V2 2.0 × 10−4

表 19：Whisper 模型学习率。

5. 实验设置

本节详细介绍 Whisper 模型的实验设置，包括使用的数据集、评估指标以及对比基线。

5.1. 数据集

为了全面评估 Whisper 的零样本迁移能力和鲁棒性，实验使用了广泛的现有语音处理数据集，涵盖了多种领域、任务和语言。关键在于，所有评估都在零样本 (zero-shot) 设置下进行，即模型在训练时不使用任何这些数据集的训练数据。

5.1.1. 英文语音识别 (English Speech Recognition)

这些数据集用于评估模型在不同口音、录音条件和内容类型下的英文转录性能。

LibriSpeech (Panayotov et al., 2015)： 一个大型英文有声书语料库，包含阅读语音。通常作为 ASR 研究的基准数据集。用于 test-clean 和 test-other 分割。
TED-LIUM 3 (Hernandez et al., 2018)： 包含 TED 演讲的音频和转录本。作者使用了其 test 分割。
Common Voice 5.1 (Ardila et al., 2019)： Mozilla 发布的众包语音语料库，包含多样化的说话人。使用了英文子集。
Artie (Meyer et al., 2020)： 一个用于检测语音应用中人口统计偏见的开放数据集。
CORAAL (Kendall & Farrington, 2021)： 包含区域性非裔美国人语言的语料库，反映了特定方言。
CHiME-6 (Watanabe et al., 2020)： 一个具有挑战性的多说话人语音识别数据集，包含嘈杂环境下的会议录音。
AMI-IHM 和 AMI-SDM1 (Caruana, 1997)： 包含会议录音，具有不同麦克风设置（IHM: Individual Headset Microphone, SDM1: Single Distant Microphone）。
Switchboard (Godfrey et al., 1992) 和 CallHome (LDC2002s09, LDC2002T43)： 包含电话对话录音，具有较强的口语化和背景噪声。
WSJ (LDC93S6B, LDC94S13B)： 华尔街日报语音语料库，包含阅读式语音。
VoxPopuli.en (Wang et al., 2021)： 包含欧洲议会会议的语音，多语言但这里使用了英文部分。
Fleurs.en_us (Conneau et al., 2022)： 一个多语言语音数据集，这里使用了美国英语部分。

5.1.2. 多语言语音识别 (Multilingual Speech Recognition)

这些数据集用于评估模型在多种语言下的语音转录能力。

Multilingual LibriSpeech (MLS) (Pratap et al., 2020b)： 大规模多语言有声书语料库。
VoxPopuli (Wang et al., 2021)： 大规模多语言语音语料库，包含欧洲议会会议的语音，覆盖 16 种语言。
Fleurs (Conneau et al., 2022)： 包含 102 种语言的语音，用于评估多语言性能和低资源语言的泛化能力。
Common Voice 9 (Ardila et al., 2019)： Common Voice 的第九个版本，提供更多语言的数据。

5.1.3. 翻译 (Translation)

用于评估模型从其他语言到英文的语音翻译能力。

CoVoST2 (Wang et al., 2020b)： 一个多语言语音到文本翻译数据集，作者使用了其 X 到英文 ( $\tt X \to \in \tt n$ ) 子集。
Fleurs (Conneau et al., 2022)： 重复用作翻译数据集。由于同一句子会以多种语言转录，英文转录本可作为参考翻译。

5.1.4. 语言识别 (Language Identification)

Fleurs (Conneau et al., 2022)： 用于评估模型识别语音语言的能力。

5.1.5. 鲁棒性对加性噪声 (Robustness to Additive Noise)

LibriSpeech (Panayotov et al., 2015)： 在 LibriSpeech 数据集上通过添加白噪声 (white noise) 和酒吧噪声 (pub noise) 来测试模型的抗噪能力。噪声来自 Audio Degradation Toolbox (Mauch & Ewert, 2013)。

5.1.6. 长文本转录 (Long-form Transcription)

这些数据集用于评估模型在长时间音频（分钟甚至小时级别）上的转录性能，这在现实世界应用中非常常见。

TED-LIUM3 (Hernandez et al., 2018)： 长篇改编版本，将 TED 演讲连接起来形成完整长度的演讲。
Meanwhile： 包含 Stephen Colbert 晚间秀的 4 个片段，内容可能包含特定行话 (jargon-laden)。
Rev16 和 Kincaid46： 从在线博客中用作 ASR 基准的视频/播客集合。
Earnings-21 (Del Rio et al., 2021) 和 Earnings-22： 包含公司财报电话会议的录音，内容专业。
CORAAL (Kendall & Farrington, 2021)： 包含完整长度的访谈，用于评估长篇口语转录。

以下是训练数据集的统计图，展示了多语言语音识别、翻译和英文语音识别在总训练时间中的分布。

Figure 11. Training dataset statistics 图 11：训练数据集统计。该图展示了 Whisper 训练数据集的构成，其中 65% 用于英文语音识别，17% 用于多语言语音识别，18% 用于语音翻译。右侧和左侧的条形图细化了多语言语音识别和语音翻译中各语言的音频小时数分布。

5.2. 评估指标

对论文中出现的每一个评估指标，都将提供概念定义、数学公式和符号解释。

5.2.1. 词错误率 (Word Error Rate, WER)

概念定义 (Conceptual Definition): 词错误率是语音识别领域最常用的评估指标，它衡量了语音识别系统输出的文本与人类参考转录文本之间的差异。WER 值越低，表示识别性能越好。它通过计算将系统输出转换为参考文本所需的替换 (substitutions, S)、删除 (deletions, D) 和插入 (insertions, I) 操作的总次数，然后除以参考文本中的总词数。
数学公式 (Mathematical Formula): $\text{WER} = \frac{S + D + I}{N} = \frac{S + D + I}{S + D + C}$
符号解释 (Symbol Explanation):
- $S$ : 系统输出中与参考文本不匹配的词被替换掉的次数。
- $D$ : 系统输出中缺失的词（即参考文本中有但系统输出中没有）的次数。
- $I$ : 系统输出中多余的词（即参考文本中没有但系统输出中出现）的次数。
- $N$ : 参考文本中的总词数。
- $C$ : 系统正确识别的词数 (Correctly recognized words)。
- 通常， $N = S + D + C$ ，即参考文本的总词数等于被替换的词数、被删除的词数和正确识别的词数之和。
文本标准化对 WER 的影响： 论文强调，WER 对文本的风格差异非常敏感。例如，标点、大小写、数字表示或缩写形式的细微不同，即使在人类看来是正确的转录，也可能导致 WER 升高。为了解决这个问题，Whisper 团队开发了一个自定义文本标准化器 (text normalizer)，它在计算 WER 之前对模型输出和参考转录本进行标准化处理，以消除非语义差异带来的惩罚。这对于零样本模型尤为重要，因为它们不会接触到特定数据集的转录格式。

5.2.2. BLEU 分数 (Bilingual Evaluation Understudy, BLEU Score)

概念定义 (Conceptual Definition): BLEU 分数是机器翻译领域广泛使用的评估指标，它通过比较机器翻译的输出（候选翻译）与一个或多个高质量的人工参考翻译之间的 N-gram（连续词序列）重叠度来量化翻译质量。BLEU 值通常在 0 到 1 之间，越高表示翻译质量越好，越接近人类翻译。它还包含一个简洁性惩罚 (Brevity Penalty, BP)，以避免过短的翻译获得高分。
数学公式 (Mathematical Formula): $\text{BLEU} = \text{BP} \cdot \exp \left( \sum_{n=1}^{N} w_n \log p_n \right)$ 其中，简洁性惩罚 $\text{BP}$ 计算如下： $\text{BP} = \begin{cases} 1 & \text{if } c > r \\ e^{1-r/c} & \text{if } c \le r \end{cases}$ N-gram 精度 $p_n$ 计算如下： $p_n = \frac{\sum_{\text{sentence} \in \text{candidates}} \sum_{n\text{-gram} \in \text{sentence}} \text{Count}_{\text{clip}}(n\text{-gram})}{\sum_{\text{sentence} \in \text{candidates}} \sum_{n\text{-gram} \in \text{sentence}} \text{Count}(n\text{-gram in candidate})}$
符号解释 (Symbol Explanation):
- $\text{BP}$ $BP$ : 简洁性惩罚 (Brevity Penalty)。当机器翻译的长度 ( $c$ $c$ ) 短于参考翻译的有效长度 ( $r$ $r$ ) 时，用于惩罚过短的翻译。
  - $c$ : 机器翻译（候选翻译）中的词数。
  - $r$ : 参考翻译中的有效词数。如果存在多个参考翻译，则选择与候选翻译长度最接近的参考翻译长度。
- $N$ : 考虑的最大 n-gram 长度，通常取 4（即计算 1-gram 到 4-gram 的精度）。
- $w_n$ : 第 $n$ 个 n-gram 精度的权重，通常为 $1/N$ （即所有 n-gram 权重相等）。
- $p_n$ $p_{n}$ : 修改的 n-gram 精度 (Modified n-gram Precision)。表示机器翻译中正确 n-gram 的比例。
  - $\text{Count}_{\text{clip}}(n\text{-gram})$ : 某个 n-gram 在机器翻译中出现的次数，但被“截断 (clipped)”为不超过它在任何一个参考翻译中出现的最大次数。这防止了重复生成常见词来虚增分数。
  - $\text{Count}(n\text{-gram in candidate})$ : 某个 n-gram 在机器翻译中出现的总次数。

5.2.3. 准确率 (Accuracy)

概念定义 (Conceptual Definition): 准确率是一个衡量分类模型性能的直观指标，表示模型正确预测的样本数量占总样本数量的比例。在语言识别任务中，它衡量模型正确识别语音语言的频率。准确率越高表示模型性能越好。
数学公式 (Mathematical Formula): $\text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$
符号解释 (Symbol Explanation):
- Number of Correct Predictions: 模型正确地将语音样本分类到其真实语言标签的数量。
- Total Number of Predictions: 所有被模型尝试分类的语音样本的总数量。

5.3. 对比基线

论文将 Whisper 模型与多种在语音识别和翻译领域具有代表性的先进模型进行了比较。这些基线模型通常在特定数据集上进行过大量训练和微调，或使用了不同的预训练范式。

5.3.1. 英文语音识别基线

Wav2Vec 2.0 系列模型 (Baevski et al., 2020)：
- wav2vec2-base-100h, wav2vec2-base-960h, wav2vec2-large-960h：基于 Wav2Vec 2.0 架构，在不同规模的无标签数据上预训练，并在 LibriSpeech 等高质量数据集上微调。
- wav2vec2-large-960h-lv60-self (Xu et al., 2021)：结合了自训练 (self-training) 技术。
- wav2vec2-large-robust-ft-libri-960h (Hsu et al., 2021b)：注重鲁棒性的 Wav2Vec 2.0 版本。
HuBERT 系列模型 (Hsu et al., 2021a)：
- hubert-large-ls960-ft, hubert-xlarge-ls960-ft：另一种流行的自监督语音表示学习模型，同样在 LibriSpeech 上微调。
S2T 模型 (Wang et al., 2020a)：
- s2t-medium-librispeech-asr, s2t-large-librispeech-asr：Fairseq 框架下的语音到文本 (Speech-to-Text) 模型，在 LibriSpeech 上训练。
UniSpeech-SAT (Chen et al., 2022a)：
- unispeech-sat-base-100h-libri-ft：一种结合说话人感知预训练 (speaker aware pre-training) 的通用语音表示学习模型。
NVIDIA STT 模型 (Kuchaiev et al., 2019)：
- nvidia/stt_en_conformer_ctc_large, nvidia/stt_en_conformer_transducer_xlarge：基于 Conformer 架构的商业级语音识别模型，通常在混合数据集上训练（类似于 SpeechStew）。
SpeechBrain ASR 模型 (Ravanelli et al., 2021)：
- speechbrain/asr-crdnn-rnnlm-librispeech, speechbrain/asr-transformer-transformerlm-librispeech：基于 CRDNN (Convolutional Recurrent Deep Neural Network) 和 Transformer 架构的开源语音工具包模型。

5.3.2. 多语言语音识别和翻译基线

VP-10K + FT (Wang et al., 2021)： VoxPopuli 论文中提出的基线模型，通常在 10K 小时数据上预训练并微调。
XLS-R (Babu et al., 2021)： 一种大规模跨语言自监督语音表示学习模型。
mSLAM (Bapna et al., 2022)： 大规模多语言语音和文本联合预训练模型。
Maestro (Chen et al., 2022b)： 通过模态匹配学习语音文本表示的模型。

5.3.3. 长文本转录基线

开源模型： NVIDIA STT Conformer-CTC Large (来自 NeMo 工具包)。
商业 ASR 服务： 4 个匿名的商业 ASR 服务（A, B, C, D），以其默认英文转录设置进行查询。

这些基线模型代表了当前语音识别领域的多样化方法，包括自监督学习、大规模监督训练、多语言/多任务学习以及商业解决方案。通过与它们的比较，论文旨在突出 Whisper 在零样本迁移和鲁棒性方面的独特优势。值得注意的是，论文中提及所有对比的开源模型都至少部分或完全在 LibriSpeech 上训练过，这使得它们在域内表现优异，但也可能在域外泛化方面有所限制。

6. 实验结果与分析

本节将详细分析 Whisper 模型的实验结果，包括其在英文语音识别、多语言识别、翻译、鲁棒性、长文本转录以及与人类性能对比方面的表现，并探讨模型和数据集规模对性能的影响。

6.1. 核心结果分析

6.1.1. 英文语音识别：鲁棒性显著提升，接近人类水平

与监督模型对比 (Figure 2, Table 2)：

尽管 Whisper 大型模型在 LibriSpeech test-clean 上的 WER 为 2.5%，与 2019 年中期的最先进水平相当，但其在其他数据集上的鲁棒性 (robustness) 远超在 LibriSpeech 上训练的监督模型。
Figure 2 清晰地展示了这一点：在 LibriSpeech dev-clean 上，监督模型可能与人类表现相当甚至超越，但在其他数据集上，它们的错误率大约是人类的两倍，表现出脆弱性 (brittleness)。而零样本 Whisper 模型的鲁棒性前沿（robustness frontier）包含了人类的 95% 置信区间，表明其行为模式更接近人类的泛化能力。

Table 2 提供了详细数据：

Dataset	wav2vec 2.0 Large (no LM)	Whisper Large V2	RER (%)
LibriSpeech Clean	2.7	2.7	0.0
Artie	24.5	6.2	74.7
Common Voice	29.9	9.0	69.9
Fleurs En	14.6	4.4	69.9
Tedlium	10.5	4.0	61.9
CHiME6	65.8	25.5	61.2
VoxPopuli En	17.9	7.3	59.2
CORAAL	35.6	16.2	54.5
AMI IHM	37.0	16.9	54.3
Switchboard	28.3	13.8	51.2
CallHome	34.8	17.6	49.4
WSJ	7.7	3.9	49.4
AMI SDM1	67.6	36.4	46.2
LibriSpeech Other	6.2	5.2	16.1
Average	29.3	12.8	55.2

表 2：跨各种数据集的有效鲁棒性详细比较。尽管两个模型在 LibriSpeech 上的性能相差不到 0.1%，但在其他数据集上，零样本 Whisper 模型的表现远超其 LibriSpeech 性能预期，平均错误率降低了 55.2%。结果以词错误率 (WER) 报告，并在应用我们的文本标准化器后得出。

从 Table 2 可以看出，在 LibriSpeech Clean 上，Whisper Large V2 的 WER (2.7%) 与 wav2vec 2.0 Large (no LM) (2.7%) 相同。然而，在其他 12 个分布外数据集上，Whisper 模型的 WER 显著低于 wav2vec 2.0，平均相对错误率降低了 55.2%，这充分证明了其卓越的鲁棒性。即使是最小的 Whisper 模型（39M 参数），在其他数据集上的表现也大致与最佳监督 LibriSpeech 模型相当。

Figure 4. Correlation of pre-training supervision amount with downstream translation performance. The amount of pretraining translation data for a given language is only moderately predictive of Whis… 图 4：零样本 Whisper 模型缩小了与人类鲁棒性之间的差距。尽管在 LibriSpeech dev-clean 上与人类匹配或超越，但监督 LibriSpeech 模型在其他数据集上的错误率大约是人类的两倍，这表明它们的脆弱性和缺乏鲁棒性。然而，零样本 Whisper 模型的估计鲁棒性边界包含了该特定人类的 95% 置信区间。

与人类性能对比 (Figure 7)：
- 通过对 Kincaid46 数据集中 25 段录音的分析，Whisper 的英文 ASR 性能非常接近专业人类转录员。计算机辅助的人类转录服务的总体 WER 为 1.15%，略优于 Whisper。纯人类转录的性能仅比 Whisper 好百分之几。这表明 Whisper 在英文 ASR 方面已达到或接近人类水平的准确性。
  
  图 9：Whisper 的性能接近专业人类转录员。此图显示了 Kincaid46 数据集中 25 段录音的 WER 分布，这些录音由 Whisper、图 6 中相同的 4 个商业 ASR 系统（A-D）、一个计算机辅助人类转录服务（E）和 4 个人类转录服务（F-I）转录。箱线图上叠加了表示单个录音 WER 的点，每个箱子上标注了 25 段录音的总体 WER。

6.1.2. 多语言语音识别

MLS 和 VoxPopuli 上的表现 (Table 3)：

Model MLS VoxPopuli
VP-10K + FT - 15.3
XLS-R (1B) 10.9 10.6
mSLAM-CTC (2B) 9.7 9.1
Maestro - 8.1
Zero-Shot Whisper 7.3 13.6

表 3：多语言语音识别性能。零样本 Whisper 提升了多语言 LibriSpeech (MLS) 上的性能，但在 VoxPopuli 上仍显著落后于 Maestro、XLS-R 和 mSLAM。

Whisper 在 Multilingual LibriSpeech (MLS) 上表现出色，以 7.3% 的 WER 优于 XLS-R、mSLAM 和 Maestro（在零样本设置下）。然而，在 VoxPopuli 上，Whisper 的表现显著落后于现有工作，仅略优于 VP-10K+FT 基线。作者推测这可能是因为其他模型将 VoxPopuli 作为其无监督预训练数据的主要来源，且该数据集有更多的监督数据，这有利于微调。
训练数据量与性能的相关性 (Figure 3)：
- 在 Fleurs 数据集上，作者研究了给定语言的预训练监督数据量与零样本性能之间的关系。
- Figure 3 显示，预训练语音识别数据量与该语言在 Fleurs 上的零样本性能之间存在强相关性。对数 WER 与对数训练数据量之间存在 0.83 的平方相关系数 ( $r^2=0.83$ )。
- 线性拟合估计表明，训练数据量每增加 16 倍，WER 就会减半。这凸显了大规模数据对多语言识别性能的重要性。
- 例外情况： 一些语言（如希伯来语、泰卢固语、中文、韩语）的性能低于预期，这可能是由于语言距离、BPE 分词器对这些语言不匹配或数据质量差异造成的。
  
  图 5：预训练监督量与下游语音识别性能的相关性。给定语言的预训练语音识别数据量对该语言在 Fleurs 上的零样本性能具有很强的预测性。

6.1.3. 翻译

CoVoST2 上的表现 (Table 4)：

X → English High Mid Low All
XMEF-X 34.2 20.2 5.9 14.7
XLS-R (2B) 36.1 27.7 15.1 22.1
mSLAM-CTC (2B) 37.8 29.6 18.5 24.8
Maestro 38.2 31.3 18.4 25.2
Zero-Shot Whisper 36.2 32.6 25.2 29.1

表 4：X 到英文语音翻译性能。零样本 Whisper 在 CoVoST2 的整体、中资源和低资源设置上均优于现有模型，但在高资源语言上仍略低于之前直接监督的工作。

Whisper 在 CoVoST2 的 X 到英文 ( $\tt X \to \in \tt n$ ) 子集上实现了 29.1 的 BLEU 分数，达到了新的零样本最先进水平 (state of the art)。这主要归因于其预训练数据集中包含了 6.8 万小时的 X 到英文翻译数据，远超 CoVoST2 自身的 861 小时。Whisper 在低资源语言组别上表现尤其出色，比 mSLAM 提升了 6.7 BLEU。但在高资源语言上，其表现略低于 Maestro 和 mSLAM。
训练数据量与翻译性能的相关性 (Figure 4)：
- 在将 Fleurs 数据集重用作翻译数据集时，作者分析了翻译训练数据量与零样本 BLEU 分数的相关性。
- Figure 4 显示，虽然随着训练数据量的增加，性能有明显的提升趋势，但平方相关系数仅为 0.24 ( $r^2=0.24$ )，远低于语音识别任务的 0.83。
- 作者怀疑这部分是由于音频语言识别错误导致训练数据噪音更大。例如，威尔士语 (CY) 在声称拥有 9000 小时翻译数据的情况下，BLEU 却只有 13，表现远低于预期。进一步调查发现，大部分“威尔士语”翻译数据实际上是英文音频配英文字幕，被语言识别系统错误地分类为威尔士语。
  
  图 6：预训练监督量与下游翻译性能的相关性。给定语言的预训练翻译数据量对 Whisper 在 Fleurs 上的零样本性能的预测能力仅为中等。

6.1.4. 语言识别

Fleurs 上的表现 (Table 5)：

Language ID Fleurs
w2v-bert-51 (0.6B)mSLAM-CTC (2B) 71.477.7
Zero-shot Whisper 64.5

表 5：语言识别性能。零样本 Whisper 的语言识别准确率不具备与 Fleurs 上先前监督结果的竞争力。这部分是由于 Whisper 在 Fleurs 的 20 种语言上没有任何训练数据。

Whisper 在 Fleurs 上的零样本语言识别性能不具备竞争力，比监督最先进水平低 13.6%。这主要是因为 Whisper 数据集中在 Fleurs 包含的 102 种语言中有 20 种没有任何训练数据，因此其准确率上限为 80.4%。在 82 种重叠语言上，Whisper 的最佳模型达到了 80.3% 的准确率。

6.1.5. 鲁棒性对加性噪声

噪声环境下的 WER (Figure 5)：
- 作者测试了 Whisper 模型和 14 个在 LibriSpeech 上训练的模型在添加白噪声和酒吧噪声情况下的 WER。
- 在低噪声环境下（如 40 dB SNR），许多主要在 LibriSpeech 上训练的模型表现优于 Whisper。
- 然而，随着噪声强度增加，所有模型性能迅速下降。在信噪比 (SNR) 低于 10 dB 的酒吧噪声下，Whisper 模型的表现优于所有其他测试模型。
- 这表明 Whisper 在应对更自然分布漂移（如酒吧噪声）方面具有出色的鲁棒性 (robustness)。
  
  图 7：LibriSpeech test-clean 在加性白噪声（左）和酒吧噪声（右）下，信噪比 (SNR) 的函数关系图。LibriSpeech 训练模型的准确性下降速度快于最佳 Whisper 模型（⭐）。NVIDIA STT 模型（•）在低噪声下表现最佳，但在高噪声（ΔSNR < 10 dB）下被 Whisper 超越。低噪声下第二好的模型（▼）仅在 LibriSpeech 上微调，且下降速度更快。

6.1.6. 长文本转录

长文本转录性能 (Figure 6, Table 7)：

Whisper 模型虽然训练在 30 秒音频块上，但通过一种缓冲转录策略（consecutively transcribing 30-second segments of audio and shifting the window according to the timestamps predicted by the model），在长文本转录任务上表现出色。
Figure 6 展示了 Whisper 在七个长文本数据集上的 WER 分布，与开源模型（NVIDIA STT Conformer-CTC Large）和四个商业 ASR 服务进行比较。
Whisper 在大多数数据集上优于对比模型，尤其是在包含生僻词较多的 Meanwhile 数据集上。作者也指出，商业 ASR 服务可能已在这些公开数据集上进行过训练。
解码策略的重要性 (Table 7)： 作者开发了一系列启发式规则 (heuristics) 来提高长文本转录的可靠性，包括束搜索 (beam search)、温度调度 (temperature scheduling)、语音活动检测 (voice activity detection, VAD)、先前文本条件 (previous text conditioning) 和初始时间戳约束 (initial timestamp constraint)。

Table 7 展示了这些干预措施如何逐步降低 WER：

	TET-N Meut Hhhld	RA	BE-su	23-tu	COAAA	Aee
Greedy decoding only	3.95 5.16	9.69 11.7	10.7	14.0	22.0	11.0
+ Beam search	4.16 5.71	9.42 11.5	10.2	13.4	20.0	10.6
+ Temperature fallback	4.16 5.71	9.42 11.5	10.2		13.4 20.0	10.6
+ Voice activity detection	3.56 4.61	9.45 11.4	10.1		13.2 19.4	10.2
+ Previous text conditioning	3.42 6.16	8.72 11.0	9.63		13.3 18.1	10.0
+ Initial timestamp constraint	3.51 5.26	8.41 11.5	9.73		12.6 19.1	10.0

表 7：随着采用额外的解码启发式策略，长文本转录性能逐步提高。各干预措施的详细信息在第 4.5 节中描述。

这些启发式规则有效解决了序列到序列模型常见的失败模式，如重复循环、遗漏开头或结尾的词、以及“幻觉 (hallucination)”。

该图像是多个折线图组成的图表，展示了不同模型参数规模下在英语语音识别、多语言语音识别、跨语言翻译和语言识别任务中的性能指标趋势。横轴为模型参数数量，纵轴依次为词错误率（WER）、BLEU评分和识别准确率，体现了随着模型规模增大性能逐步提升的规律。图 8：该图像是一个比较多个语音识别系统词错误率（WER）的箱线图，展示了Whisper和多家公司模型在不同数据集上的性能分布，反映出模型间的准确性差异。

6.1.7. 模型规模效应 (Model Scaling)

性能随规模增加而提升 (Figure 8)：
- 除了英文语音识别之外，多语言语音识别、语音翻译和语言识别的性能都随着模型规模的增大而持续提升。
- 英文语音识别的收益递减 (diminishing returns) 可能是因为性能已接近人类水平，出现了饱和效应 (saturation effects)。
  
  图 10：多个折线图组成的图表，展示了不同模型参数规模下在英语语音识别、多语言语音识别、跨语言翻译和语言识别任务中的性能指标趋势。横轴为模型参数数量，纵轴依次为词错误率（WER）、BLEU评分和识别准确率，体现了随着模型规模增大性能逐步提升的规律。

6.1.8. 数据集规模效应 (Dataset Scaling)

性能随数据量增加而提升 (Table 6)：
- Whisper 数据集以 68 万小时的规模，是监督语音识别领域最大的数据集之一。
- Table 6 显示了数据集规模对不同任务性能的影响：
  
  Dataset size English WER (↓) Multilingual WER (↓) X→En BLEU (↑)
  3405 30.5 92.4 0.2
  6811 19.6 72.7 1.7
  13621 14.4 56.6 7.9
  27243 12.3 45.0 13.9
  54486 10.9 36.4 19.2
  681070 9.9 29.2 24.8
  
  表 6：性能随数据集规模的增加而提高。英文语音识别性能是 12 个数据集的平均值，多语言语音识别报告的是 Fleurs 中重叠语言的性能，X 到英文翻译报告的是 CoVoST2 的平均 BLEU。数据集规模以小时为单位。
- 所有任务的性能都随着数据集规模的增加而提高。
- 英文语音识别在 3,000 到 13,000 小时之间性能快速提升，之后在 13,000 到 54,000 小时之间显著放缓。使用完整数据集（额外增加 12.5 倍）仅使 WER 再下降 1 点，这可能同样归因于接近人类性能的饱和效应。
- 多语言语音识别的 WER 遵循幂律趋势直到 54,000 小时，之后偏离趋势，在使用完整数据集时仅进一步下降 7 点。
- X 到英文翻译在 7,000 小时或更少数据时性能几乎为零，之后遵循大致对数线性改进趋势直到 54,000 小时，然后也出现收益递减。
- 收益递减的解释： 任务的普遍趋势是，从 54,000 小时到 680,000 小时时出现收益递减。这可能表明当前的 Whisper 模型相对于数据集规模而言训练不足 (under-trained)（需要更长时间的训练和更大的模型），也可能表明在语音识别领域，通过数据集规模扩展带来的性能提升已接近极限。

6.1.9. 多任务与多语言迁移 (Multitask and Multilingual Transfer)

正迁移效应 (Figure 9)：
- 研究了多任务和多语言联合训练可能带来的负迁移 (negative transfer) 问题。
- Figure 9 显示，对于使用中等计算量训练的小模型，确实存在负迁移：联合模型在英文语音识别任务上表现不如仅训练英文数据的模型。
- 然而，多任务和多语言模型规模越大，表现越好，在最大规模的实验中甚至超越了仅训练英文的模型，这表明存在正迁移 (positive transfer)。在最大规模下，即使不考虑每任务的计算量调整，联合模型也略优于仅英文模型。
  
  图 11：多任务和多语言迁移随规模的增加而改善。对于小型模型，在多任务和多语言设置下联合训练时，英文语音识别的性能会下降。然而，多语言和多任务模型受益于规模的增加，并最终超越仅在英文数据上训练的模型。图中显示了 95% 的引导估计置信区间。

6.1.10. 文本标准化 (Text Normalization)

自定义标准化器的有效性 (Figure 10)：
- 为了避免自定义文本标准化器可能对 Whisper 模型过拟合，作者将其与 FairSpeech 项目的独立标准化器进行了比较。
- Figure 10 显示，在大多数数据集上，两个标准化器的性能相似，对 Whisper 和其他开源模型的 WER 降低效果没有显著差异。
- 然而，在某些数据集（如 WSJ、CallHome 和 Switchboard）上，Whisper 使用自定义标准化器后 WER 降低更显著。
- 这些差异主要源于参考文本的格式以及标准化器如何处理这些格式。例如，自定义标准化器不惩罚常见英文缩写（如 "you're" vs "you are"）的差异，并标准化了数字和货币表达的口语和书面形式（如 "sixty-eight million dollars" vs "$68 million"）。
  
  图 2：在大多数数据集上，我们的文本标准化器对 Whisper 模型和其他开源模型的 WER 降低效果与 FairSpeech 的标准化器相似。对于每个数据集，箱线图显示了我们评估套件中不同模型相对 WER 降低的分布，表明使用我们的文本标准化器通常会导致比 FairSpeech 更低的 WER。在少数数据集上，我们的标准化器显著降低了 WER，对 Whisper 模型更是如此，例如 CallHome 和 Switchboard（参考数据中有许多缩写）和 WSJ（包含许多数字表达式）。

6.2. 数据呈现 (完整表格转录)

6.2.1. 英文转录 WER (%) (使用贪婪解码) (Table 8)

以下是原文 Table 8 的结果：

Model	LibriSpeech.test-clean LibriSpeech.test-other	TED-LIUM3
				N	CallHome	Switchboard	CommonVoice5.1	MAr	CORAAL	CHiME6	AMI-IHM	AMI-SDM1	VoxPopuli.en	Fleurs.en_us
Whisper tiny.en		14.6	6.0	5.0	24.1	17.8	26.3	20.0	23.9	41.3	23.7	50.3	11.7	11.6
Whisper tiny	5.6 7.6	16.9	7.0	6.7	30.0	22.8	29.6	23.9	31.0	49.6	27.6	58.1	12.7	13.7
Whisper base.en	4.2	10.2	4.9	4.6	20.9	15.2	19.0	13.4	22.6	36.4	20.5	46.7	10.0	7.6
Whisper base		12.4									22.0	49.9	10.0	10.1
Whisper small.en	5.0	7.4	5.5	5.1	23.0	16.8	21.6	16.9	26.0	40.2		38.0	8.1
	3.1	7.6	4.0	3.3	18.2	15.7	13.1	9.7	20.2	27.6	17.5			6.0
Whisper small	3.4 3.1	6.3	4.3	4.0	17.5	14.5	13.5	10.3	18.1	29.3	19.0	39.6	8.3	6.6
Whisper medium.en	2.9	5.9	4.1 3.8	3.3	16.2	14.1	10.6	7.6	17.5	25.3	16.4	37.2	7.4	5.0
Whisper medium	2.7	5.6	4.0	2.9 3.1	16.4 15.8	14.0 13.1	10.3 9.5	7.2 6.7	16.6 19.4	26.4 25.6	16.6 16.4	36.0 36.9	7.4	5.4
Whisper large	2.7	5.6	4.0	2.9	16.4	14.0	10.3	7.2	16.6	26.4	16.6	36.0	7.4	5.4
Whisper large-v2	2.7	5.2	4.0	3.9	17.6	13.8	9.0	6.2	16.2	25.5	16.9	36.4	7.3 7.3	4.6 4.4
wav2vec2-base-100h		13.4	17.8	13.9	46.9		47.4		47.0		48.1	81.2		23.1
wav2vec2-base-960h	6.0 3.3	8.5	12.8	8.9		40.2 32.9	36.4	40.8 30.9	39.9	79.9 68.5	40.2	71.9	28.9 21.4	17.4
	1.8	3.8	7.4	4.4	40.6 29.1	22.2	19.9	15.8	29.2	56.3	30.8	57.0	13.0	10.2
wav2vec2-large-960h-lv60-self	2.7	6.2	10.5	7.7	34.8	28.3	29.9	24.5	35.6	65.8	37.0	67.6	17.9	14.6
wav2vec2-large-960h	2.6	5.3	9.2	6.1	23.4	19.8	20.3	16.2	29.4		31.7	61.6	15.1	11.8
wav2vec2-large-robust-ft-libri-960h	3.0	9.7	17.7	10.7	59.7	56.1	43.7	33.3	83.8	58.1 81.0	57.2	85.8	30.6	32.4
asr-crdnn-rnnlm-librispeech	2.1	5.4	11.9	7.4	38.9	33.0	30.6	23.5	44.9	79.5	44.5	75.4	17.8	17.0
asr-transformer-transformerlm-librispeech	2.0	4.1	8.4	5.4	29.6	22.8	20.8	16.0	32.0	60.0	33.7	59.1	14.4	10.9
hubert-large-ls960-ft		3.5	8.3	5.4	29.3	22.2	19.8	14.8	31.5	58.5	33.3	58.9	14.2	10.5
hubert-xlarge-ls960-ft	1.9	8.1	14.9	9.4	54.5	40.3	38.1	30.7	50.2	79.2	53.4	79.5	21.6	18.0
s2t-large-librispeech-asr	3.3	8.2	15.7	9.7	58.1	42.4	39.3	31.3	52.6	79.8	60.3	85.3	22.9	19.7
s2t-medium-librispeech-asr	3.6 2.1	4.2	4.4	2.1	11.3	8.2	7.4	4.0	13.5	30.5	15.9	39.9	6.7	8.2
stt_en_conformer_ctc._large	1.5	2.8	4.3	1.2	12.0	7.4	4.3	1.5	19.9	36.8	20.5	48.6	6.0	6.3
stt_en_conformer_transducer_xlarge	5.7	13.8	17.7	13.6	46.5	40.0	45.3	38.6	44.7	74.8	47.8	77.7	29.8	22.4

6.2.2. 英文转录 WER (%) (使用束搜索和温度回退) (Table 9)

以下是原文 Table 9 的结果：

Model	LibriSpeech.test-clean	LibriSpeech.test-other	TED-LIUM3	N	CallHome	Switchboard	CommonVoice5.1	Artie	CORAAL	CHiME6	AMI-IHM	AMI-SDM1	VoxPopuli.en	Fleurs.en_us
Whisper tiny.en	5.4	12.8	5.4	4.6	21.4	16.0	23.5	18.4	21.4	42.0	22.7	54.2	10.9	10.0
Whisper tiny	6.7	15.0	6.3	5.9	24.8	18.3	26.1	20.8	25.1	48.0	25.6	57.3	11.6	12.4
Whisper base.en	4.1	9.6	4.6	4.0	18.3	14.2	17.5	13.2	18.5	35.2	21.1	49.0	9.3	7.1
Whisper base	4.9	11.0	5.0	4.4	20.5	15.6	19.4	15.3	20.5	40.0	21.5	50.0	9.5	8.9
Whisper small.en	3.2	6.7	4.3	3.0	17.2	13.4	12.6	9.2	17.5	29.5	17.9	42.5	8.1	5.3
Whisper small	3.3	7.2	4.3	3.9	17.1	13.3	12.8	9.3	16.4	30.9	19.2	43.5	8.2	6.1
Whisper medium.en	3.0	5.7	4.3	2.8	14.7	12.4	10.3	7.4	15.3	27.0	17.1	39.4	7.8	4.5
Whisper medium	2.7	5.6	4.0	2.7	15.3	13.2	9.7	6.7	14.9	27.6	17.6	43.0	7.6	4.4
Whisper large	2.8	5.7	4.3	3.5	16.2	14.2	8.9	6.4	15.1	25.2	17.6	37.1	7.2	4.5
Whisper large-v2	2.5	4.9	3.7	2.6	16.4	13.6	8.2	5.7	14.2	24.9	17.4	39.9	7.0	4.2

6.2.3. 多语言 LibriSpeech 上的 WER (%) (Table 10)

以下是原文 Table 10 的结果：

								Spanish
Model	Dutch	English	French	German	Italian	Polish	Portuguese	Spanish
Whisper tiny	39.4	15.7	36.8	24.9	41.7	34.2	31.3	19.2
Whisper base	28.4	11.7	26.6	17.7	31.1	22.8	21.9	12.8
Whisper small	17.2	8.3	16.2	10.5	21.4	11.2	13.0	7.8
Whisper medium	11.7	6.8	8.9	7.4	16.0	6.5	9.0	5.3
Whisper large	10.2	6.3	8.9	6.6	14.3	6.6	9.2	5.4
Whisper large-v2	9.3	6.2	7.3	5.5	13.8	5.0	6.8	4.2

6.2.4. CommonVoice9 上的 WER (%) (Table 11)

以下是原文 Table 11 的结果：

	Arabic	Bulgarian	Bengali	Catalan	Czech	Welsh	Danish	German	Greek	English	Spanish	Estonian	Persian
Whisper tiny	90.9	79.3	104.1	51.0	79.7	101.8	77.2	34.5	61.9	28.8	30.3	102.1	120.3
Whisper base	84.4	68.1	103.7	39.9	63.1	93.8	57.5	24.5	51.5	21.9	19.6	88.1	99.0
Whisper small	66.4	44.8	118.6	23.8	34.1	65.4	32.1	13.0	31.7	14.5	10.3	67.2	71.9
Whisper medium	60.3	26.7	124.7	16.4	18.8	43.6	19.3	8.5	20.0	11.2	6.9	45.6	49.9
Whisper large	56.0	24.1	106.0	15.3	17.1	40.3	18.3	7.7	18.3	10.1	6.4	41.4	44.8
Whisper large-v2	53.8	19.9	103.4	14.1	13.5	34.2	14.4	6.4	16.0	9.4	5.6	35.1	39.4
Model	Finnish	French	Hindi	Hungarian	Indonesian	Italian	Japanese	Lithuanian	Latvian	Malayalam	Mongolian	Dutch	Polish
Whisper tiny	68.5	49.7	108.3	87.0	49.6	44.5	36.1	103.5	87.8	102.7	123.0	43.6	45.3
Whisper base	52.9	37.3	106.5	71.9	36.1	30.5	24.2	91.3	78.0	122.9	137.0	29.5	32.8
Whisper small	30.5	22.7	43.6	44.4	18.4	16.0	14.0	72.8	54.6	104.8	225.8	14.2	16.9
Whisper medium	18.8	16.0	31.5	26.9	11.6	9.4	10.5	49.4	37.2	137.8	113.4	8.0	10.1
Whisper large	17.0	14.7	25.0	23.5	10.6	8.1	9.4	43.9	34.8	107.1	117.4	7.1	9.0
Whisper large-v2	14.4	13.9	21.9	19.7	8.5	7.1	9.1	35.2	25.5	103.2	128.4	5.8	7.6
	Portuguese	Romanian	Russian	Slovak	Slovenian	Serbian	Swedish	Tamil	T	Turkish	m	Vietnamese	Chinese
Model
Whisper tiny	35.2	68.2	40.6	104.0	82.0	106.1	58.2	105.7	55.9	53.6	74.7	69.3	52.4
Whisper base	23.7	55.9	28.8	87.2	70.3	103.0	42.4	49.5	32.1	38.6	58.6	51.6	44.9
Whisper small	12.5	33.2	15.0	60.4	45.5	101.3	22.1	28.7	18.1 10.5	23.7	39.1 29.9	33.3 24.4	29.4 23.2
Whisper medium	8.1	21.5	9.3	42.0	29.8	85.6	13.7	19.6	8.8	17.7 16.6	28.1	19.9	29.1
Whisper large	7.1 6.3	19.8 15.8	8.2 7.1	37.9 31.9	25.1 20.6	87.4 70.5	12.4 10.6	17.6 16.1	8.0	14.5	24.2	18.2	26.8
Whisper large-v2	6.3	15.8	7.1	31.9	20.6	70.5	10.6	16.1	8.0	14.5	24.2	18.2	26.8

6.2.5. VoxPopuli 上的 WER (%) (Table 12)

以下是原文 Table 12 的结果：

	German English
Model	Czech 73.5			en-accented	Spanish	Estonian	Finnish	French	Croatian	Hungarian		Italian	Lithuanian	Dutch	Polish	Romanian	Slovak	Slovenian
Whisper tiny		27.4	11.6	18.8	19.7	99.2	54.1	32.9	72.4	74.5		40.5	93.1	41.9	31.4	65.9	78.7	81.9
Whisper base	54.7	20.6	9.5	17.5	14.4	83.0	39.7	24.9	53.6	52.6	30.8	82.1	29.4	22.1	49.3	63.7	70.5
Whisper small	28.8	14.8	8.2	19.2	11.1	59.2	24.9	15.7	33.7	31.3	22.9	60.1	18.8	13.3	28.6	37.3	50.8
Whisper medium	18.4	12.4	7.6	19.1	9.6	38.2	16.6	12.2	23.9	19.3	19.7	39.3	14.9	10.1	18.4	23.0	36.3
Whisper large	15.9	11.9	7.2	20.8	8.8	33.3	15.5	11.0	19.0	16.8	18.4	35.0	14.0	9.0	17.0	19.1	31.3
Whisper large-v2	12.6	11.2	7.0	18.6	8.2	28.7	12.4	11.4	16.1	13.8	19.0	33.2	12.9	7.8	14.4	15.4	27.9

6.2.6. Fleurs 上的 WER (%) (Table 13)

以下是原文 Table 13 的结果：


Model		Afrikaans	Amharic Arabic	Assamese	Azerbaijani	Belarusian	Bulgarian	Bengali	Bosnian	Catalan	Chinese	Czech	0	Danish
Whisper tiny		91.2 81.5 61.1	122.9 196.8 120.2	63.4 48.8 30.6	102.0 93.1 102.0 76.4	49.1	94.0 91.3	81.0 65.1 37.3	101.6 100.6 104.4	82.1 66.7 39.4	42.8 29.0	40.5 34.1	82.8 66.0	101.3 85.3	82.0 57.6 32.8
Whisper base		81.5	196.8	48.8	93.1	49.1	94.0	65.1	100.6	66.7	29.0	34.1	66.0	85.3	57.6
Whisper small		61.1	120.2	30.6	76.4		91.3	37.3	104.4	39.4					32.8
Whisper medium	44.9 42.6 36.7		229.3 20.4 129.3 18.1	108.0 102.3 105.6	33.1 28.7	75.1 60.4 56.6	21.4 18.4		100.6 104.9	23.9 20.7	16.2 9.6 8.0	20.8 12.1 19.6	37.6 21.3 17.4	59.3 40.8	19.5
Whisper large	42.6		20.4	102.3	28.7	60.4	18.4		104.9	20.7	9.6	12.1	21.3	40.8	19.5
Whisper large-v2	36.7		18.1	105.6		56.6					8.0	19.6	17.4
	German		140.3	16.0 106.2	23.4	45.4	14.6		104.1	15.7	7.3	14.7	13.3	36.6 33.0	16.8 13.8
Model Whisper tiny		Greek	English	Spanish	Estonian	Persian	Finnish 59.5	Tagalog	French	Galician		Gujarati	Hausa	Hebrew	2
Whisper base	27.8 17.9 10.2		67.4 12.4 53.5 8.9 30.8	15.9 9.9 6.1 5.6	94.8 77.9 51.3	101.8 86.1 55.8 41.0	43.1 24.0 13.9		65.6 45.8 27.7	41.4 28.5 15.0	54.8 47.4 30.2	101.2 101.4 106.4	100.2 98.6 90.1	71.6 61.7 44.4	102.3 101.1 38.4
Whisper small	17.9	53.5	9.9	77.9	55.8	24.0	45.8	28.5	47.4	101.4	98.6	61.7	101.1
Whisper medium	10.2	30.8	6.1	51.3	41.0	13.9	27.7	15.0	30.2	106.4	90.1	44.4	38.4
Whisper large	6.5 5.5 4.5		19.0 18.7 12.5	4.4 3.6 4.5 3.5 4.2 3.0	29.8 25.5 21.9	36.1 32.9	12.2	9.7	19.1 15.8 13.8	8.7 7.7 8.3	21.2 19.0 15.4	104.8 103.9 102.7	106.6 87.0 88.9	33.1 30.2 27.1	26.8 26.9 21.5
Whisper large-v2	4.5	12.5	3.0	21.9	32.9	9.7	13.8	8.3	15.4	102.7	88.9	27.1	21.5
Model	Croatian	Hungarian	Armenian	Indonesian	Icelandic	Italian	Japanese	Javanese		Georgian	Kazakh	20	Kannada	Korean	Luxembourgish
Whisper tiny	79.0 59.1 33.4 19.3 16.7 13.4	83.8 65.0 38.9 24.3 21.0 17.0	118.6 126.3 86.6 60.1 53.7 44.6	51.7 33.1 16.3 10.2 8.5 7.1	113.3 95.5 72.6 49.9 43.0 38.2	29.8 17.9 9.8 5.2 4.2 4.0	37.0 22.8 12.0 7.1 6.4 5.3	107.3 89.5 88.6 67.9 87.0	nan	123.0 114.7 118.3 117.3 100.5 105.0	165.2 109.2 70.3 48.8 43.8	100.6 1016 104.4 98.9 96.0	100.7 107.2 100.4 77.7 69.8	36.1 27.8 19.6 16.4 15.2 14.3	99.1 100.7 100.1 90.0 86.5 880
Whisper base	59.1	65.0	126.3	33.1	95.5	17.9	22.8	89.5	nan	114.7	109.2	1016	107.2	27.8	100.7
Whisper small	33.4	38.9	86.6	16.3	72.6	9.8	12.0	88.6	nan	118.3	70.3	104.4	100.4	19.6	100.1
Whisper medium	19.3	24.3	60.1	10.2	49.9	5.2	7.1	67.9	nan	117.3	48.8	98.9	77.7	16.4	90.0
Whisper large	16.7	21.0	53.7	8.5	43.0	4.2	6.4	87.0	nan	100.5	43.8	96.0	69.8	15.2	86.5
Whisper large-v2	13.4	17.0	44.6	7.1	38.2	4.0	5.3		nan	105.0				14.3	880
Model	Lingala	or		Lithuanian Latvian	2	Macedonian	Malayalam		Mongolian	Marathi	37.7 2	99.7 Maltese	37.0 Myanmar	Norwegian	Nepali
Whisper tiny	105.4 96.7 91.3	83.2	115.1 1105.1 102.2 101.4	98.5 87.3 65.6 41.1	91.6 94.5 79.8 77.5 53.2 59.5 32.0 77.8	73.3 59.9 36.9 22.0	101.5 107.4 100.9 101.1		113.7 125.7 144.2 103.7	100.3 00.3 60.2 63.2	51.2 35.1 18.9 12.2	100.8 976 92.2 83.2	124.8 122.6 110.1 123.0	62.0 44.0 24.2 12.9	101.8 102.4 69.5 54.4
Whisper base	96.7	83.2	1105.1	87.3	94.5	59.9	107.4		125.7	00.3	35.1	976	122.6	44.0	102.4
Whisper mall	91.3		102.2	65.6	79.8	36.9	100.9		144.2	60.2	18.9	92.2	110.1	24.2	69.5
Whisper medium			101.4	41.1	77.5	22.0	101.1		103.7	63.2	12.2	83.2	123.0	12.9	54.4
Whisper large					53.2 59.5 32.0 77.8
Whisper large-v2	75.6	76.8 20	101.6 101.5 Occitan	35.2 28.3 28.1 Punjabi	45.7 23.1 38.5 Pashto	20.6 16.5 Portuguese	101.4 100.7 Romanian		106.2 110.5 Russian	43.7 38.3 20	10.2 8.7 Slovak	80.5 76.6 Slovenian	124.5 115.7 Shona	11.4 9.5 Somali	52.2 47.1 Serbian
Model Whisper tiny	49.0 33.0 16.4 9.9	95.9 82.9 87.3 79.5 8.3 75.9		102.6 1001.5 103.6 102.0 102.8	45.6 105.6 30.8 99.0 14.7 92.9 8.0 119.4 7.2 92.7	20.1 13.0 7.3 93.7 4.3	5.0 20.0 4.8	74.7 56.0 29.8 15.4 14.4	31.1 20.5 11.4 7.2 6.4 5.6	105.8 103.9 131.7 147.0 177.9 156.5	77.2 60.6 33.3 17.3 15.7	87.2 74.6 49.3 31.9 27.8	128.1 126.0 140.0 143.9 130.0	105.6 109.6 105.3 104.0 103.5	83.7 64.3 42.2 44.9 29.2
Whisper base	33.0	82.9		1001.5	105.6	13.0	20.0	56.0	20.5	103.9	60.6	74.6	126.0	109.6	64.3
Whisper small	16.4	87.3		103.6	99.0	7.3	4.8	29.8	11.4	131.7	33.3	49.3	140.0	105.3	42.2
Whisper medium	9.9	79.5		102.0	92.9	4.3		15.4	7.2	147.0	17.3	31.9	143.9	104.0	44.9
Whisper large		8.3 75.9		102.8	119.4 7.2 92.7			14.4	6.4 5.6	177.9 156.5	15.7	27.8	130.0	103.5	29.2
Whisper large-v2		75.9			92.7				5.6	156.5
	6.7	75.3 Swedish	102.4	Swahili m	5.4				Turkish	Ukrainian	11.7	23.1 Uzbek	121.0 Vietnamese	102.9 2	33.9
Model Whisper tiny											m
													60.0	106.4
Whisper large								58.8 38.2	42.5 27.5	51.2 37.7	65.2 52.0
Whisper large-v2								38.2	27.5	37.7	52.0
									15.9	19.3				101.8
				100.9	99.9	105.1	101.7
			52.7
Whisper medium
								21.9			37.3		105.2
Whisper base							84.3

			37.4				74.0						114.0	40.5
			20.8	92.5 73.7 52.8	58.7 35.2 23.1	105.2 98.2 82.8 100.6	109.3 74.5	15.4 13.2	10.4 9.4	11.6 10.3	28.2 25.0	109.6	107.7	21.2 12.7 105.1	116.4

6.2.7. Fleurs 上的 BLEU 分数 (Table 14)

以下是原文 Table 14 的结果：

	1.6 4.4	Afrikaans Amharic	Arabic			Belarusian	Bulgarian Bengali	Bosnian	Catalan	Chinese	Czech		Welsh		Danish
	1.6 4.4	Afrikaans Amharic	Arabic			Belarusian	Bulgarian Bengali	Bosnian	Catalan	Chinese	Czech		Welsh		Danish	Azerbaijani Assamese
Model Whisper tiny	18.1 29.5	0.1 0.3 0.2 0.9	0.1 1.0 10.6 19.9	0.4 0.4 1.2 3.5	0.1 0.8 5.8	0.8 3.3 7.1 9.8	0.4 2.7 14.8 23.9	0.4 0.7 2.7	0.4 4.1 16.8	5.2 13.1 25.1	0.6 1.9 9.3	0.6 2.7 14.2	0.6 0.7 1.3	0.7 5.0 18.1	28.6
Whisper base	29.5	0.3	1.0	0.4	0.8	3.3	2.7	0.7	4.1	13.1	1.9	2.7	0.7	5.0
Whisper small		0.2	10.6	1.2	5.8	7.1	14.8	2.7	16.8	25.1	9.3	14.2	1.3	18.1
Whisper medium	31.6 34.1	1.1 1.9	23.8 25.5	3.9 5.4	11.7 13.1 13.7	11.0 11.7	26.2 28.5	10.6 12.0 13.2	260 28.0 29.7	31.9 33.7 34.2		15.1 16.8 18.4	23.6 25.6 27.8	8.4 11.2 13.0	31.6 32.7
Whisper large	34.1	1.9	25.5	5.4	13.1	11.7	28.5	12.0	28.0	33.7		16.8	25.6	11.2	32.7
Whisper large-v2					13.7			13.2	29.7	34.2		18.4	27.8	13.0
Model Whisper tiny	German 5.2 13.7 25.9	Greek 0.1 0.7 11.6	English 68.6 73.3	Spanish 7.7 12.4 18.2	Estonian 0.1 0.3	Persian 0.1 0.2 5.8	Finnish 0.2 0.5 7.3	Tagalog 0.8 2.1 12.0	French 4.7 13.1 23.5	Galician 4.0 10.5		Gujarati 0.7 1.5	Hausa 0.1 0.0	Hebrew 0.2 0.6	2 1.0 3.4
Whisper base	13.7	0.7	73.3	12.4	0.3	0.2	0.5	2.1	13.1	10.5		1.5	0.0	0.6	3.4
Whisper small	25.9	11.6		18.2		5.8	7.3	12.0	23.5
Whisper medium	31.4 34.3 34.6	19.9 21.7 23.7	77.3 79.2 77.8 80.2	21.4 22.8 23.3	3.6 13.5 15.9 18.7	15.0 17.6 19.6	18.5 20.6 22.1	20.5 22.7 24.4	28.6 31.6 32.2		17.5 24.7 26.0 27.9	3.9 12.8 14.8 16.2	0.3 0.5 0.5 0.4	5.4 15.9 19.6 21.8	11.1 19.4 20.7 22.0
Whisper large	34.3	21.7	79.2	22.8	13.5	17.6	20.6	22.7	31.6		24.7	12.8	0.5	15.9	19.4
Whisper large-v2	34.6	23.7	80.2	23.3	18.7	19.6	22.1	24.4	32.2		27.9	16.2	0.4	21.8	22.0
Model		Hungarian Croatian		Armenian	Indonesian Icelandic	Italian	Japanese	Javanese	Georgian	Kazakh	Khmer		Kannada	Korean	Luxembourgish
Whisper tiny		0.6 0.1 3.7 0.2 14.6 4.8 23.0 15.5 25.4 18.3 27.0 21.2	0.1 0.1 0.7 10.4 13.2 16.0	2.6 16.4 24.1 27.2 29.1	0.3 0.4 0.4 1.8 6.8 6.6 9.1	5.3 11.3 17.8 21.6 23.5 23.6	0.2 1.5 9.6 14.9 17.0 18.9	0.2 0.2 1.4 5.0 5.1 6.2	0.1 0.2 0.2 1.3 2.7 2.4	0.1 0.2 0.8 4.3 6.3 5.4	0.1 0.1 0.5 3.3 5.2		0.8 0.9 2.3 8.5 9.9	0.5 3.7 12.2 19.2 20.0 21.3	0.8 1.7 5.7 13.6 15.4 16.8
Whisper base	0.1	0.1	16.4	0.4	11.3	1.5	0.2	0.2	0.2	0.1		0.9	3.7	1.7
Whisper small	0.7	24.1	0.4	17.8	9.6	1.4	0.2	0.8	0.5		2.3	12.2	5.7
Whisper medium	10.4	27.2	1.8	21.6	14.9	5.0	1.3	4.3	3.3		8.5	19.2	13.6
Whisper large	13.2	29.1	6.8	23.5	17.0	5.1	2.7	6.3	5.2		9.9	20.0	15.4
Whisper large-v2	16.0		6.6	23.6	18.9	6.2	2.4	5.4				21.3	16.8
Model	Lingala	or	Lithuanian	Latvian	Maori	Macedonian	Malayalam	Mongolian	Marathi	2	6.1	Maltese	11.6 Myanmar	Norwegian
Whisper tiny	0.1	0.2	0.1	0.2	0.3	1.0	0.8 1.4	0.1 0.1	0.2 0.9		0.3	0.6	0.1	1.4	20 0.1 0.3
Whisper base							1.4	0.1	0.9						0.3
Whisper mall
Whisper medium	0.1 0.5 0.9	0.3 2.0 8.1	0.3 1.9 9.6	0.4 1.5 10.0	1.0 3.9 8.5	5.4 15.3 23.5	5.7 13.8	0.1 0.5	3.8 10.9		2.1 14.1 23.2	1.4 4.9 11.2	0.1 0.0 0.2	8.4 22.0 29.1	2.9 12.7
Whisper large	0.5	2.0	1.9	1.5	3.9	15.3	13.8	0.5	10.9		14.1	4.9	0.0	22.0	12.7
Whisper large-v2	0.9	8.1	9.6	10.0	8.5	23.5					23.2	11.2	0.2	29.1
Model Whisper tiny	20	Occitan	Punjabi		20	Portuguese	Romanian 12.1	1.0	Russian 3.1	20 0.5	2	Slovenian	20	Somali	Serbian 0.6
Whisper base	2.7 15.9 21.6 22.8	1.7 4.2 9.5 15.9 16.8 20.2	0.3 1.1 4.4 12.8 14.6 15.7	0.8 5.1 14.0 19.0 21.4 22.3	0.3 0.4 0.8 2.1 3.7 3.4	22.4 31.2 35.9 37.4 38.1	4.9 18.3 26.6 29.1 31.5		12.1 19.7 24.8 26.7 27.8	0.7 2.0 5.5 5.9 5.7 26.1	0.7 4.6 14.4 22.7 25.1	0.3 1.3 6.9 14.0 16.9 17.0	0.1 0.3 0.6 1.4 1.8	0.0 0.1 0.1 0.4 0.5	5.4 19.3 27.7 30.5 0.7 32.5
Whisper small	15.9	4.2	1.1	5.1	0.4	31.2	18.3		19.7	2.0	4.6	1.3	0.3	0.1	19.3
Whisper medium	21.6	9.5	4.4	14.0	0.8	35.9	26.6		24.8	5.5	14.4	6.9	0.6	0.1	27.7
Whisper large	22.8	15.9	12.8	19.0	2.1	37.4	29.1		26.7	5.9	22.7	14.0	1.4	0.4	30.5
Whisper large-v2		20.2	15.7	22.3	3.4	38.1	31.5		27.8	5.7	25.1	17.0	1.8	0.5	32.5
	24.0	Swedish	Swahili	m	Telugu			Turkish	Ukrainian		m	Uzbek	1.8 Vietnamese	Yoruba
Model Whisper tiny				0.2	0.3		0.2	0.2		1.2	0.4 1.5	0.0 0.2	0.1
Whisper base			1.8 0.1	0.1 0.4		0.4	0.2	0.7	0.2 2.4	6.9 18.7 25.8	8.8			0.9	0.2
			9.1							28.0					0.5
		Whisper smalll	22.9 0.1	2.1 7.0		4.0	4.4	5.8	15.7				0.5		0.5
									22.9 25.7 26.6	29.4				8.5

Whisper large				3.1	9.2	10.8							3.8 5.8 6.0	16.6 19.5
			32.1				11.4	12.8							0.9 1.2
		Whisper medium				10.9								20.4	1.4
Whisper large-v2			33.1 5.3 35.3	8.5 7.2		12.5	13.0 14.5	15.2 16.1				14.9 16.3 17.2

6.2.8. CoVoST 2 上的 BLEU 分数 (Table 15)

以下是原文 Table 15 的结果：

	Catalan							Indonesian
Model	Arabic		Welsh	German	Spanish	Estonian	Persian	French		Italian	Japanese	Latvian	Mongolian
Whisper tiny	0.2 1.2	4.9 11.0	0.4 0.5	4.0 11.7	10.5 21.3	0.2 0.3	0.1 0.1	6.1 15.4	0.3 4.9	5.1 13.0	0.3 4.9	0.1 0.5	0.1 0.1
Whisper base	1.2	11.0	0.5	11.7	21.3	0.3	0.1	15.4	4.9	13.0	4.9	0.5	0.1
Whisper small	17.7	22.3	1.0	25.3	33.0	2.4	4.9	27.3	27.6	24.0	17.3	1.4	0.2
Whisper medium	30.6	29.2	12.1	33.2	38.4	11.4	15.5	33.6	42.3	29.5	24.6	9.7	0.2
Whisper large	35.5 39.7	30.3 31.8	16.1 21.5	34.3 36.3	38.0 40.1	13.4	17.5	34.4	45.4	29.1	24.2	10.5	0.3
Whisper large-v2	39.7	31.8	21.5	36.3	40.1	15.0	19.3	36.4	48.1	30.9	26.1	13.9	0.1
	Model		Dutch	Portuguese	Russian	Slovenian	Swedish	Tamil	Turkish	Chinese
	Whisper tiny		4.3	9.5	5.7	0.4	2.0	0.1	0.2
	Whisper base		12.4	23.2	16.1	1.4	10.5	0.4		2.8	0.4 1.4
	Whisper small		28.1	40.6	30.9	9.2	29.9	1.7		16.8	6.8
	Whisper medium		38.1	48.7	39.4	17.7	39.5	2.9	27.0		14.0
			39.3	48.6	41.6	23.9	40.3	3.7	26.7		17.1
	Whisper large		41.2	51.6	43.3	21.6	42.9	4.2	28.3		18.0
	Whisper large-v2

6.2.9. 长文本英文转录 WER (%) (Table 16)

以下是原文 Table 16 的结果：

	TED-LIUM3	Meanwhile	Kincaid46	Rev16	Earnings-21	Earnings-22	CORAAL
Whisper tiny.en	5.5	12.8	13.8	15.1	17.0	22.0	30.3
Whisper tiny	6.8	15.5	16.7	17.0	18.7	24.4	33.1
Whisper base.en	4.6	9.4	11.2	13.2	12.5	16.6	25.2
Whisper base	4.8	12.2	12.2	14.5	13.5	18.4	26.9
Whisper small.en	4.6	6.0	9.4	12.0	10.8	14.0	21.9
Whisper small	4.2	6.9	10.1	12.1	11.1	14.3	22.3
Whisper medium.en	3.6	5.2	8.9	11.9	10.2	13.3	20.6
Whisper medium	3.8	5.4	8.6	11.4	10.3	13.2	20.3
Whisper large	3.8	5.3	8.8	11.0	10.3	13.4	20.4
Whisper large-v2	3.5	5.1	8.8	11.3	9.7	12.6	19.6
wav2vec2-base-100h	17.6	27.7	39.3	35.2	45.7	57.1	55.4
wav2vec2-base-960h	12.8	19.7	32.9	29.8	37.3	46.8	49.1
wav2vec2-large-960h-lv60-self	7.2	11.4	21.1	21.3	21.7	28.0	36.7
wav2vec2-large-960h	10.1	16.4	27.4	26.4	30.4	40.1	43.5
wav2vec2-large-robust-ft-libri-960h	8.8	15.2	22.9	23.4	23.0	31.0	36.8
hubert-large-ls960-ft	8.1	12.9	22.4	23.4	23.0	30.6	37.9
hubert-xlarge-ls960-ft	8.1	12.5	22.9	23.2	23.1	31.3	38.1
stt_en_conformer_ctc_large	4.0	9.8	13.1	14.5	12.6	17.6	25.1
stt_en_conformer_transducer_xlarge	5.3	10.6	17.1	19.8	16.2	19.7	38.9

7. 总结与思考

7.1. 结论总结

Whisper 论文通过大规模弱监督预训练，展示了在语音识别领域被低估的巨大潜力。核心结论是，通过简单地训练一个 Encoder-Decoder Transformer 模型来预测互联网上大量、多样化但可能包含噪声的音频转录本，可以构建一个在零样本迁移 (zero-shot transfer) 设置下具有极强鲁棒性 (robustness) 和通用性的语音处理系统。

具体而言，Whisper 实现了：

卓越的零样本性能： 在标准基准测试上，无需任何特定任务的微调，其性能可与甚至超越之前完全监督的最先进模型。
接近人类的鲁棒性： 在分布外数据集、噪声环境以及长文本转录任务中，Whisper 的性能表现出与人类相似的泛化能力和稳定性。
多语言多任务统一： 一个单一模型通过简单的词元序列即可处理多达 96 种语言的语音识别、翻译、语音活动检测和语言识别等多种任务。
规模化的验证： 无论是模型参数规模还是训练数据集规模的增加，都持续带来性能提升，特别是在多语言任务中，证明了“简单扩展”范式的有效性。

这项工作挑战了长期以来依赖复杂自监督预训练和微调的范式，揭示了大规模弱监督数据在构建通用、鲁棒语音 AI 方面的强大力量。

7.2. 局限性与未来工作

论文作者指出了 Whisper 模型当前存在的几个局限性，并提出了未来可能的研究方向：

改进解码策略 (Improved Decoding Strategies)：
- 问题： 尽管 Whisper 在感知相关的错误（如混淆相似发音的词语）上取得了显著进展，但在长文本转录中，许多顽固的错误并非人类感知上的问题，而是序列到序列模型、语言模型和文本-音频对齐的失败模式。例如，模型可能陷入重复循环、遗漏音频片段的开头或结尾几个词，甚至完全“幻觉 (hallucination)”出与音频无关的转录本。
- 未来工作： 虽然文中讨论的启发式解码方法（如束搜索、温度调度、VAD 等）有所帮助，但作者认为通过在高质量监督数据集上对 Whisper 模型进行微调，和/或使用强化学习 (reinforcement learning) 更直接地优化解码性能，有望进一步减少这些错误。
增加低资源语言的训练数据 (Increase Training Data For Lower-Resource Languages)：
- 问题： Whisper 在许多语言上的语音识别性能仍然较差，这与这些语言的训练数据量不足有关（如图 3 所示的强相关性）。由于数据收集流程主要偏向于英语中心化的互联网，大多数非英语语言的训练数据量不足 1000 小时。
- 未来工作： 针对这些稀有语言有针对性地增加数据量，即使只对总训练数据集规模产生小幅增加，也可能显著改善平均语音识别性能。
研究微调 (Studying Fine-tuning)：
- 问题： 本文主要关注 Whisper 的零样本迁移性能以评估其鲁棒性。然而，在许多高质量监督语音数据已经存在的领域，通过微调模型很可能进一步提升性能。
- 未来工作： 研究微调策略将允许与现有工作进行更直接的比较，因为微调是更常见的评估设置。
研究语言模型对鲁棒性的影响 (Studying the Impact of Language Models on Robustness)：
- 问题： 作者推测 Whisper 的鲁棒性部分归因于其强大的解码器，它作为一个音频条件语言模型 (audio conditional language model)。目前尚不清楚 Whisper 的优势在多大程度上来源于其编码器、解码器，或是两者兼有。
- 未来工作： 可以通过消融实验（ablating various design components），例如训练一个没有解码器的 CTC 模型，或者研究将现有语音识别编码器（如 wav2vec 2.0）与 Whisper 的语言模型结合使用时性能如何变化，来解耦这些贡献。
添加辅助训练目标 (Adding Auxiliary Training Objectives)：
- 问题： Whisper 模型与近期许多最先进的语音识别系统的一个显著区别是，它缺乏无监督预训练或自训练方法。
- 未来工作： 尽管 Whisper 在没有这些技术的情况下也取得了良好性能，但整合这些辅助训练目标，如自监督 (self-supervision) 或自训练 (self-teaching)，可能会进一步提高结果。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文为我带来了几点重要的启发：

弱监督数据的巨大潜力： Whisper 成功地将弱监督数据的利用推向了前所未有的规模，并证明了其在构建通用、鲁棒 AI 模型方面的巨大潜力。这启发我们，在数据标注成本高昂的领域，与其追求小规模的“金标准”数据，不如投入更多资源收集大规模但可能包含噪声的弱监督数据，并设计有效的过滤机制。这为数据受限的 AI 应用提供了新的思路。
“简单扩展”范式的强大：论文没有引入复杂的自监督预训练任务或多阶段训练流程，而是选择了相对简洁的 Encoder-Decoder Transformer 架构，并通过大规模弱监督数据进行直接的序列到序列训练。这种“简单扩展 (simple scaling)”的范式在计算资源充足的情况下，可以带来令人惊讶的性能提升，甚至超越了更复杂的专门设计。这再次强调了数据和计算规模的重要性。
零样本评估的价值： Whisper 的成功强调了零样本评估在衡量模型真实泛化能力和鲁棒性方面的关键作用。传统上依赖域内微调和评估的范式，可能夸大模型在现实世界中的表现。零样本评估更能反映模型在未见数据和实际部署场景下的实用性，未来研究应更多地采纳这种评估方式。
多任务多语言统一的优雅： 通过设计一套简洁的特殊词元 (tokens) 机制，Whisper 将多种语音任务和多种语言整合到一个模型中，极大地简化了复杂的语音处理流水线。这种统一的架构不仅提高了效率，也促进了任务和语言之间的正向迁移学习。
鲁棒性是核心目标： 论文将鲁棒性提升到与准确性同等重要的地位，并通过各种分布外数据集和噪声环境的测试来验证。这种对鲁棒性的重视是 AI 从实验室走向实际应用的关键一步。

7.3.2. 批判与潜在改进

尽管 Whisper 取得了令人瞩目的成就，但仍存在一些值得批判和改进的地方：

数据来源的偏差和可复现性： 论文依赖于“互联网上的音频-转录本对”，但对这些数据的具体来源、收集方法和处理细节描述相对有限。互联网数据可能包含未知的社会文化偏差、特定口音或主题的过表示，这可能影响模型在某些群体或特定场景下的公平性和性能。同时，由于数据来源不公开且规模巨大，其收集和清理过程的复杂性使得其他研究者很难完全复现其数据。
文本标准化器的潜在过拟合： 论文承认其自定义文本标准化器可能存在对 Whisper 模型特有输出风格的过拟合风险。虽然这是为了在 WER 评估中公平对待模型，但如果这种标准化器过于特定，可能会使得 Whisper 的真实性能被高估，或者在没有相同标准化处理的实际应用中表现不佳。更通用的、与模型无关的标准化方法或更先进的评估指标可能是未来方向。
长文本解码的启发式依赖： 尽管 Whisper 在长文本转录中表现优秀，但这很大程度上依赖于束搜索、温度调度、VAD 和上下文条件等一系列启发式解码策略。这表明模型本身在处理长序列时仍存在固有的不稳定性（如重复循环、幻觉）。未来的工作应该致力于模型内部的改进，使其在无需复杂后处理的情况下也能可靠地处理长文本。
低资源语言的差距： 尽管 Whisper 涵盖了 96 种语言，但在许多低资源语言上的性能仍然不足，这直接与这些语言的训练数据量少有关。如何更有效地利用有限的低资源数据，或者通过更先进的跨语言迁移学习技术来弥补数据鸿沟，是一个重要的挑战。仅仅增加数据量可能效率低下，且对某些语言而言几乎不可行。
缺乏对自监督/自训练的探讨： 论文明确指出 Whisper 没有使用自监督或自训练技术。虽然这凸显了大规模弱监督的强大，但也可能错失了将这两种范式结合起来进一步提升性能的机会。未来工作可以探索将 Wav2Vec 2.0 等自监督预训练的优势与 Whisper 的大规模弱监督和多任务学习相结合，以期达到新的高度。
资源消耗： 训练一个 68 万小时数据的模型需要巨大的计算资源，这限制了小型研究团队或个人复现或进行类似规模实验的能力，可能会加剧 AI 研究的“马太效应”。

总的来说，Whisper 是一项开创性的工作，它不仅提供了高性能的语音处理模型，更重要的是，它重新定义了我们对语音 AI 模型训练数据范式和评估标准的一些看法。未来的研究将围绕如何克服其现有局限性，并进一步挖掘大规模弱监督学习的潜力展开。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Model	Layers	Width	Heads	Parameters
Tiny	4	384	6	39M
Base	6	512	8	74M
Small	12	768	12	244M
Medium	24	1024	16	769M
Large	32	1280	20	1550M

Model	Max Learning Rate
Tiny	1.5 × 10−3
Base	1 × 10−3
Small	5 × 10−4
Medium	2.5 × 10−4
Large	1.75 × 10-4
Large V2	2.0 × 10−4

Model	MLS	VoxPopuli
VP-10K + FT	-	15.3
XLS-R (1B)	10.9	10.6
mSLAM-CTC (2B)	9.7	9.1
Maestro	-	8.1
Zero-Shot Whisper	7.3	13.6

X → English	High	Mid	Low	All
XMEF-X	34.2	20.2	5.9	14.7
XLS-R (2B)	36.1	27.7	15.1	22.1
mSLAM-CTC (2B)	37.8	29.6	18.5	24.8
Maestro	38.2	31.3	18.4	25.2
Zero-Shot Whisper	36.2	32.6	25.2	29.1

Language ID	Fleurs
w2v-bert-51 (0.6B)mSLAM-CTC (2B)	71.477.7
Zero-shot Whisper	64.5

Dataset size	English WER (↓)	Multilingual WER (↓)	X→En BLEU (↑)
3405	30.5	92.4	0.2
6811	19.6	72.7	1.7
13621	14.4	56.6	7.9
27243	12.3	45.0	13.9
54486	10.9	36.4	19.2
681070	9.9	29.2	24.8