论文状态:已完成

AudioBench: A Universal Benchmark for Audio Large Language Models

发表:2025/04/01
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 0 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了音频大型语言模型的通用基准——AudioBench,涵盖8个任务和26个数据集(包括7个新数据集),评估焦点为语音理解、音频场景理解和声学特征理解。针对现有评估的不足,AudioBench提供了数据集和指标,帮助填补音频信号下模型在指令执行能力的评估空白,同时评测了五种模型表现,发现没有单一模型在所有任务上均优。

摘要

We introduce AudioBench, a universal benchmark designed to evaluate Audio Large Language Models (AudioLLMs). It encompasses 8 distinct tasks and 26 datasets, among which, 7 are newly proposed datasets. The evaluation targets three main aspects: speech understanding, audio scene understanding, and voice understanding (paralinguistic). Despite recent advancements, there lacks a comprehensive benchmark for AudioLLMs on instruction following capabilities conditioned on audio signals. AudioBench addresses this gap by setting up datasets as well as desired evaluation metrics. Besides, we also evaluated the capabilities of five popular models and found that no single model excels consistently across all tasks. We outline the research outlook for AudioLLMs and anticipate that our open-sourced evaluation toolkit, data, and leaderboard will offer a robust testbed for future model developments.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

AudioBench: A Universal Benchmark for Audio Large Language Models (AudioBench: 音频大型语言模型的通用基准)

1.2. 作者

Bin Wang, Xunlong Zou, Geyu Lin, Shuo Sun, Zhuohan Liu, Wenyu Zhang, Zhengyuan Liu, AiTi Aw, Nancy F. Chen。 作者们主要来自新加坡A*STAR(科学、技术与研究局)下属的资讯通信研究院 (Institute for Infocomm Research, I²R) 和前沿人工智能研究中心 (Centre for Frontier AI Research, CFAR)。

1.3. 发表期刊/会议

NAACL 2025 (北美计算语言学协会会议)。 NAACL是计算语言学和自然语言处理领域顶级的学术会议之一,具有很高的声誉和影响力。

1.4. 发表年份

2025年。论文于UTC时间2025年3月31日16:00:00发布。

1.5. 摘要

本文介绍了 AudioBench,一个旨在评估音频大型语言模型 (Audio Large Language Models, AudioLLMs) 的通用基准。该基准涵盖了8个不同的任务和26个数据集,其中7个是新提出的数据集。评估主要针对三个方面:语音理解 (speech understanding)、音频场景理解 (audio scene understanding) 和语音特征理解 (voice understanding)(即超语言学特征,paralinguistic)。尽管 AudioLLMs 最近取得了进展,但仍缺乏一个全面的基准来评估其在音频信号条件下遵循指令的能力。AudioBench 通过设置数据集和所需的评估指标来弥补这一空白。此外,本文还评估了五种流行模型的能力,发现没有单一模型能在所有任务上表现始终出色。论文概述了 AudioLLMs 的研究前景,并期望其开源的评估工具包、数据和排行榜能为未来的模型发展提供一个稳健的测试平台。

1.6. 原文链接

原文链接: https://aclanthology.org/2025.naacl-long.218/ PDF 链接: https://aclanthology.org/2025.naacl-long.218.pdf 发布状态:已正式发表在NAACL 2025会议上。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 研究背景

基础模型 (Foundation models),特别是基于大型语言模型 (Large Language Models, LLMs) 的模型,在处理多模态任务方面展现出强大能力,涵盖了文本、图像甚至视频等多种模态。针对这些模型,已经出现了许多基准测试来评估它们在不同任务上的表现。然而,在音频领域,特别是对于音频大型语言模型 (AudioLLMs) 而言,其音频解释能力往往难以追踪,并且在不同任务中缺乏系统的比较。现有的评估机制未能全面覆盖 AudioLLMs 可能的使用场景。

2.1.2. 现有研究的挑战与空白

尽管遵循指令的音频语言模型 (instruction-following audio-language models) 引起了广泛关注,但其评估数据集存在显著差异。例如,Qwen-Audio-Chat 模型在12个数据集上进行了测试,而 SALMONN 模型使用了15个数据集,其中只有2个数据集是重叠的。WavLLM 虽然与一些早期模型进行了比较,但其评估任务范围有限,使得比较不够充分。

另一个限制来自于评估集本身:类似于基于文本的 LLMs,评估主要依赖于旧有的数据集和指标。然而,AudioLLMs 需要灵活地响应指令,传统的评估指标并未为此做好充分准备。

2.1.3. 论文的切入点与创新思路

鉴于上述挑战,本文提出了 AudioBench,一个专门为通用指令遵循 AudioLLMs 设计的综合评估基准。该基准的目标是:

  • 统一评估框架:AudioLLMs 提供一个统一、全面的评估框架,以系统比较不同模型的音频理解能力。
  • 弥补数据空白: 针对现有数据集的不足,引入7个新的数据集,以覆盖更广泛的使用场景。
  • 关注指令遵循能力: 强调评估模型在音频信号条件下遵循指令的能力,这对于 AudioLLMs 的最终目标(处理多样音频输入并准确响应用户查询)至关重要。
  • 多样化评估内容: 不仅包括传统语音任务,还涵盖音频场景理解和超语言学特征(如情感、性别、口音)的理解。

2.2. 核心贡献/主要发现

2.2.1. 核心贡献

本文的主要贡献包括:

  • 引入 AudioBench 提出了第一个全面的 AudioLLM 评估基准 AudioBench,涵盖8个任务和26个数据集。
  • 新的数据集: 提出了7个新的数据集或对现有数据集进行了改编,以填补现有评估的空白。这些数据集旨在评估 AudioLLMs 在语音理解、音频场景理解和语音特征理解方面的能力。
  • 多样化评估设置:
    • 多提示模板: 引入多种提示模板,评估模型对不同指令的兼容性和鲁棒性,以应对模型对未见指令泛化能力差的问题。
    • 不同输入长度: 评估 suite 包含超过400小时的音频,分布在10万多个样本中,输入音频长度从几秒到几分钟不等,以评估模型处理长音频序列的能力。
  • 评估指标研究: 探索并验证了适用于 AudioLLMs 开放式生成输出的评估指标,特别推荐了 Model-as-Judge 方法,并验证了 LLaMA-3-70B-Instruct 作为评判模型的有效性。
  • 模型评估与分析: 评估了五种流行的 AudioLLMs 模型(SALMONNQwen-Audio-ChatWavLLMQwen2-Audio-Instruct 以及 Whisper+Llama3Whisper+Llama3 级联模型),发现没有单一模型能在所有任务上始终表现出色,揭示了未来模型发展的巨大潜力。
  • 开源工具包: 提供了开源的评估工具包、数据和排行榜,旨在为未来的 AudioLLMs 模型开发提供一个稳健的测试平台。

2.2.2. 主要发现

通过 AudioBench 的评估,本文得出了以下关键发现:

  • 无通用优胜者: 没有单一模型能在所有任务上持续表现优异,这表明 AudioLLMs 领域仍有很大的发展空间。
  • 长音频处理挑战: 所有 AudioLLMs 在处理长音频 (long-form audio) 任务时都面临困难,这可能是因为模型主要针对有限音频长度进行微调,难以泛化到任意上下文长度。
  • 级联模型在语音密集任务上表现突出: Whisper+Llama3Whisper+Llama3 级联模型在语音密集型任务(如 SQASI)上表现出色,这得益于 Whisper 强大的识别能力和 Llama 强大的推理能力。
  • 模态融合可能引入失真: AudioLLMs 中的模态融合过程可能会扭曲语音内容,是未来需要改进的领域。
  • AudioLLMs 在超语言学和非口语任务上优于级联模型: AudioLLMs 在涉及超语言学特征和非口语声音的任务中通常优于级联模型,尽管结果并非总是令人满意。
  • 训练任务相关性影响性能: 模型在训练期间接触到相关任务时表现更好。例如,WavLLMSQA 任务中表现出色,但在音频场景理解和语音特征理解任务中表现不佳,表明其指令遵循能力并非在没有专门对齐训练样本的情况下容易泛化。
  • 对提示的鲁棒性不足: AudioLLMs 对不同提示模板的鲁棒性较差,尤其是在 ASR 任务中,某些模型对特定提示过拟合,导致性能下降。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大型语言模型 (Large Language Models, LLMs)

LLMs 是指参数量巨大(通常数十亿到数千亿甚至更多)的深度学习模型,它们在大规模文本数据上进行训练,能够理解、生成和处理人类语言。LLMs 展现出强大的文本生成、问答、翻译、摘要等能力,并且通过指令微调 (instruction tuning) 可以使其遵循用户指令完成特定任务。

3.1.2. 多模态大型语言模型 (Multimodal Large Language Models, MLLMs)

MLLMsLLMs 的扩展,旨在处理和理解多种类型的数据模态,例如文本、图像、音频、视频等。它们通过将不同模态的信息编码成统一的表示形式,实现跨模态的理解和生成。本文关注的是 AudioLLMs,即专门处理音频输入的多模态 LLMs

3.1.3. 音频大型语言模型 (Audio Large Language Models, AudioLLMs)

AudioLLMs 是一种特殊类型的 MLLMs,主要关注音频信号的理解和处理。它们能够接收音频输入(如语音、环境音),并结合文本指令生成相应的文本响应。其能力涵盖语音识别、音频事件检测、情感识别、口音识别以及基于音频内容的问答等。

3.1.4. 基准测试 (Benchmark)

基准测试是一套标准化的数据集和评估指标,用于衡量不同模型在特定任务或能力上的表现。在 AI 领域,基准测试对于追踪研究进展、公平比较模型性能以及指导未来研究方向至关重要。

3.1.5. 指令遵循 (Instruction Following)

指令遵循是 LLMs 的一项重要能力,指模型能够理解并执行用户通过自然语言给出的指令。对于 AudioLLMs 而言,这意味着模型需要根据音频输入和文本指令,生成符合指令要求的文本输出。

3.1.6. 模型即评判者 (Model-as-Judge, M.J.)

Model-as-Judge 是一种评估开放式生成模型输出的方法。由于开放式生成(如自由文本问答)的输出空间巨大且多样,传统基于精确匹配的指标难以适用。Model-as-Judge 方法利用另一个高性能 LLM(如 GPT-4 或本文推荐的 LLaMA-3-70B-Instruct)来评估被测模型生成的响应与参考答案的质量、准确性、相关性等,并给出评分。

3.1.7. 级联模型 (Cascade Model)

级联模型是指将多个独立的模型按照顺序连接起来,前一个模型的输出作为后一个模型的输入。例如,在本文中提到的 Whisper+Llama3Whisper+Llama3 级联模型,先由 Whisper 模型进行语音转文本,然后将转录文本和用户查询输入 Llama3 模型生成响应。这种模型的优点是每个组件可以专注于其特定任务,但缺点是信息可能在不同模态之间传递时丢失。

3.2. 前人工作

本文讨论了在文本、视觉和视频领域已有的 LLMs 基准,并强调了 AudioLLMs 领域评估的缺失。

3.2.1. 文本 LLMs 基准

文本 LLMs 的评估已经非常成熟,涵盖了多个方面:

  • 推理 (Reasoning): 例如 Zellers et al., 2019 (Hellaswag)、Cobbe et al., 2021b (数学问题求解)、Shi et al., 2022 (Language models are multilingual chain-of-thought reasoners)。
  • 学科知识 (Subject Knowledge): 例如 Clark et al., 2018 (ARC)、Hendrycks et al., 2021 (MMLU)、Huang et al., 2024b (C-Eval)。
  • 安全性 (Safety): 例如 Zhang et al., 2023b (SafetyBench)、Li et al., 2024b (Salad-Bench)。
  • 多语言能力 (Multilingual Capability): 例如 Wang et al., 2024 (SeaEval)、Ahuja et al., 2023 (Mega)。

3.2.2. 视觉 LLMs (Vision-LLMs) 基准

视觉 LLMs 的评估也日益丰富:

  • 多学科理解 (Multidisciplinary Understanding): 例如 Yue et al., 2023 (MMMU)、Zhang et al., 2024b (M3Exam)、Hu et al., 2024b (OmniMedVQA)。
  • 感知测试 (Perception Tests): 例如 Yu et al., 2023 (MM-Vet)、Liu et al., 2023 (MMBench)。
  • 数学推理 (Mathematical Reasoning): 例如 Li et al., 2024a (Multimodal Arxiv)、Zhang et al., 2024a (Mathverse)。
  • 视频理解 (Video Understanding): 虽然包含视觉和音频元素,但通常以视觉输入为主,音频仅作为辅助特征。例如 Li et al., 2023 (MVBench)、Ning et al., 2023 (VideoBench)、Liu et al., 2024 (Tempcompass)、Fu et al., 2024 (Video-MME)。

3.2.3. AudioLLMs 的发展现状

尽管缺乏综合评估基准,但已经出现了多种增强语音和音频理解的多模态基础模型,包括:

  • 级联方法 (Cascaded Methods) 或集成多任务优化 (Integrated Multitask Optimization):
    • 专注于 ASR 的模型:Shu et al., 2023Ma et al., 2024
    • 专注于非语音音频任务的模型:Kong et al. 2024
  • 理想的语音-文本基础模型 (Ideal Speech-Text Foundation Models) 通常采用多任务方法:
    • AudioGPT (Huang et al., 2023)

    • SpeechGPT (Zhang et al., 2023a)

    • SALMONN (Tang et al., 2024)

    • Qwen-Audio (Chu et al., 2023)

    • AudioPALM (Rubenstein et al., 2023)

    • LTU-AS (Gong et al., 2023)

    • VioLA (Wang et al., 2023)

    • LLaSM (Shu et al., 2023)

    • Pengi (Deshmukh et al., 2023)

    • WavLLM (Hu et al., 2024a)

    • UniverSLU (Arora et al., 2024)

    • SpeechVerse (Das et al., 2024)

    • Qwen2-Audio (Chu et al., 2024)

      这些模型各专注于其特定用例的子任务。本文选择了其中四个具有更广泛任务处理能力的模型进行评估:WavLLMQwen-Audio-ChatSALMONNQwen2-Audio-Instruct

3.3. 差异化分析

  • 与文本/视觉 LLMs 基准的区别: 现有的文本和视觉 LLMs 基准无法直接应用于 AudioLLMs,因为它们主要关注视觉或纯文本输入,音频通常只是辅助。AudioBench 专注于专门测量 AudioLLMs 在音频上下文中的性能。
  • 与现有 AudioLLMs 评估的区别: 现有 AudioLLMs 的评估数据集碎片化,缺乏统一的、全面的基准。AudioBench 旨在通过整合现有数据集、引入新数据集和统一评估指标来解决这一问题。它特别关注 AudioLLMs 的指令遵循能力,并涵盖了语音理解、音频场景理解和语音特征理解等更广泛的方面。
  • SUPERBDynamic-SUPERB 的区别:
    • SUPERB (Yang et al., 2024b) 主要用于评估自监督语音编码器,通常需要监督微调步骤进行评估。
    • Dynamic-SUPERB (Huang et al., 2024a) 可以在零样本 (zero-shot) 场景下衡量指令遵循任务,但它是一个开放式的众包集合,对 AudioLLMs 缺乏专门的关注。
    • AudioBench 则专注于评估 AudioLLMs,并引入了新的数据集和评估流程来弥补现有空白。
  • AIR-Bench 的区别:
    • AIR-Bench (Yang et al., 2024a) 是与 AudioBench 同期的工作,也关注基于音频指令的 LLMs 评估。
    • 覆盖范围: AudioBench 提出了6个新的数据集来弥补评估中的缺失,并且包含了 AIR-Bench 未涵盖的多个 ASR 数据集、语音问答数据集和语音指令数据集。
    • 评估鲁棒性: AudioBench 评估工具包考虑了提示变体 (prompt variants),并评估了模型在遵循指令方面的鲁棒性。
    • 评估指标: AudioBench 对评估指标的选择进行了全面研究,并为未来的基准测试提供了稳定且经济的解决方案。
    • 任务焦点: AudioBench 旨在从语音理解、音频场景理解和语音特征理解三个方面评估 AudioLLMs,而 AIR-Bench 还包括了音乐数据集。

4. 方法论

4.1. 核心概念

AudioBench 的核心概念是提供一个全面的评估框架,旨在评估 AudioLLMs 在解释音频内容并灵活响应用户查询方面的能力。这包括理解语音、环境音以及超语言学特征(如情感、性别、口音)。

AudioBench 的设计原则围绕以下三个关键方面:

  1. 语音理解 (Speech Understanding): 专注于音频中语义内容的解释,例如语音转文本 (ASR) 和语音问答 (SQA)。

  2. 音频场景理解 (Audio Scene Understanding): 专注于非人类音频声音的理解,例如音频问答 (AQA) 和音频字幕 (AC)。

  3. 语音特征理解 (Voice Understanding)(超语言学特征, Paralinguistic): 专注于非语音但与人类相关的特征信息,例如情感识别 (ER)、口音识别 (AR) 和性别识别 (GR)。

    为了实现这一目标,AudioBench 整合了8个任务和26个数据集,其中7个是为弥补现有数据集空白而新创建或改编的。

4.2. 评估设置

4.2.1. 开放式生成与评估指标

AudioLLMs 预期能够响应用户查询并生成自然响应,这要求模型能够灵活地适应用户查询,并且生成风格可以相应调整。与传统语音模型(其输出空间通常受限,例如分类任务的输出是有限的类别)不同,AudioLLMs 的生成空间更广阔、更复杂,这给评估带来了挑战。

因此,AudioBench 采用了 模型即评判者 (Model-as-Judge, M.J.) 的方法来评估大多数任务,除了自动语音识别 (Automatic Speech Recognition, ASR) 任务,该任务使用词错误率 (Word Error Rate, WER) 作为唯一指标。对于音频字幕 (Audio Captioning, AC) 任务,除了 M.J.,还使用了 METEOR 分数作为附加衡量标准。

4.2.2. 鲁棒性评估:多提示模板

研究发现,模型对不同的指令可能表现出较低的鲁棒性,这会对其适用性和用户体验产生负面影响。这个问题在 AudioLLMs 中更为严重,因为在模态融合过程中处理多模态的复杂性。

因此,AudioBench 建议使用多个指令来评估一个数据集,尤其是在初始查询缺乏多样性时。这种方法对于 ASRERARGRAC 等任务尤其重要。

4.2.3. 输入长度变化

AudioBench 评估了从几秒到几分钟的不同输入音频长度,以更好地评估模型在处理较长音频序列时的性能。整个测试套件包含了超过400小时的音频,分布在10万多个样本中。

4.3. 任务与数据集

AudioBench 涵盖8个任务和26个数据集,具体分为三大类:语音理解、音频场景理解和语音特征理解。其中黄色高亮的数据集是新扩展或收集的。

Category Dataset Name #Samples Hours Avg.L/Min.L/Max.L(s) Metrics
Speech Understanding lib
LibriSpeech-Clean 2.6k 5.40 7.43 / 1.28 / 34.96 WER(↓)
LibriSpeech-Other 2.9k 5.34 6.55 / 1.47 / 34.51 WER(↓)
CommonVoice-15 16k 26.95 5.93 / 1.34 / 105.67 WER(↓)
PeoplesSpeech 32k 59.20 6.54 / 1.00 / 99.91 WER(↓)
GigaSpeech 18k 35.09 6.77 / 1.00 / 22.03 WER(↓)
Tedlium3 1.1k 2.61 8.24 / 1.07 / 32.55 WER(↓)
Tedlium3-Longform 1144 39.26 50.8k / 0.3k / 1.6k WER(↓)
Earning-21 125 119.88 3.2k / 1k / 5.7k WER(↓)
Earning-22 125 119.88 3.4k / 0.87k / 7.4k WER(↓)
SQA CN-College-Listen 2.2k 13.3 21.09 / 5.76 / 137.82 M.J.(↑)
SLUE-P2-SQA5 408 4.5 39.85 / 13.00 / 40.0 M.J.(↑)
DREAM-TTS 1.9k 18.1 34.14 / 3.14 / 261.85 M.J.(↑)
Public-SG-SpeechQA 688 7.6 39.86 / 15.78 / 95.71 M.J.(↑)
SI OpenHermes-Audio 100 0.16 5.95 / 2.04 / 15.77 M.J.(↑)
ALPACA-Audio 100 0.12 4.32 / 1.80 / 8.85 M.J.(↑)
Audio Scene Understanding
:--- :--- :--- :--- :---: :---
LibriSpeech-Clean 2.6k 5.40 7.43 / 1.28 / 34.96 WER(↓)
LibriSpeech-Other 2.9k 5.34 6.55 / 1.47 / 34.51 WER(↓)
CommonVoice-15 16k 26.95 5.93 / 1.34 / 105.67 WER(↓)
PeoplesSpeech 32k 59.20 6.54 / 1.00 / 99.91 WER(↓)
GigaSpeech 18k 35.09 6.77 / 1.00 / 22.03 WER(↓)
Tedlium3 1.1k 2.61 8.24 / 1.07 / 32.55 WER(↓)
Tedlium3-Longform 1144 39.26 50.8k / 0.3k / 1.6k WER(↓)
Earning-21 125 119.88 3.2k / 1k / 5.7k WER(↓)
Earning-22 125 119.88 3.4k / 0.87k / 7.4k WER(↓)
SQA CN-College-Listen 2.2k 13.3 21.09 / 5.76 / 137.82 M.J.(↑)
SLUE-P2-SQA5 408 4.5 39.85 / 13.00 / 40.0 M.J.(↑)
DREAM-TTS 1.9k 18.1 34.14 / 3.14 / 261.85 M.J.(↑)
Public-SG-SpeechQA 688 7.6 39.86 / 15.78 / 95.71 M.J.(↑)
SI OpenHermes-Audio 100 0.16 5.95 / 2.04 / 15.77 M.J.(↑)
ALPACA-Audio 100 0.12 4.32 / 1.80 / 8.85 M.J.(↑)
Audio Scene Understanding
AQA Clotho-AQA 2.2k 14.1 22.59 / 15.03 / 29.97 M.J.(↑)
WavCaps-QA 304 0.87 10.28 / 1.0 / 30.6 M.J.(↑)
AudioCaps-QA 313 0.86 9.86 / 3.27 / 10.00 M.J.(↑)
AC WavCaps 1.7k 4.9 10.22 / 1.00 / 30.97 M.J.(↑) & METEOR(↑)
AudioCaps 4.4k 12.1 9.86 / 1.74 / 10.0 M.J.(↑) & METEOR(↑)
Voice Understanding
ER IEMOCAP-Emotion 1k 1.3 4.51 / 0.75 / 24.12 M.J.(↑)
MELD-Sentiment 2.6k 2.4 3.35 / 0.13 / 304.9 M.J.(↑)
MELD-Emotion 2.6k 2.4 3.35 / 0.13 / 304.9 M.J.(↑)
AR VoxCeleb1-Accent 4.8k 11.2 8.27 / 3.96 / 69.04 M.J.(↑)
GR VoxCeleb1-Gender 4.8k 11.2 8.27 / 3.96 / 69.04 M.J.(↑)
IEMOCAP-Gender 1k 1.26 4.55 / 0.69 / 26.77 M.J.(↑)

表1:AudioBench 数据集统计。黄色表示我们新扩展和收集的数据集,以适应缺少合适数据集的情况。WER 指的是词错误率。METEOR 是音频字幕的常见指标。M.J. 指的是模型即评判者 (model-as-judge),我们当前部署了 Llama-3-70B-Instruct。

4.3.1. 语音理解 (Speech Understanding)

4.3.1.1. 自动语音识别 (Automatic Speech Recognition, ASR)

  • 功能和适用性: 将口语内容转换为文本格式,衡量语音到文本转换的准确性。需要能够理解和处理各种语言细微差别和方言的鲁棒算法。ASR 系统必须能够处理多样化的环境、语速、口音和背景噪音,确保在各种条件下提供高质量的转录。
  • 数据集: 包含9个数据集,其中3个包含长格式音频。
    • LibriSpeech-Clean (Panayotov et al., 2015)
    • LibriSpeech-Other (Panayotov et al., 2015)
    • CommonVoice-15 (Ardila et al., 2020)
    • PeoplesSpeech (Galvez et al., 2021)
    • GigaSpeech (Chen et al., 2021)
    • Tedlium3 (Rousseau et al., 2012)
    • Tedlium3-Longform (Rousseau et al., 2012) - 长音频数据集
    • Earning-21 (Del Rio et al., 2021) - 长音频数据集
    • Earning-22 (Del Rio et al., 2022) - 长音频数据集
  • 挑战: 当前 AudioLLMs 在处理可能超过10分钟的长音频文件时仍面临困难。对于当前评估,长音频被分割成小块,然后重新组合进行评估,如果模型不直接支持原始长度。
  • 指标: 词错误率 (WER)。

4.3.1.2. 语音问答 (Speech Question Answering, SQA)

  • 功能和适用性: 根据语音相关音频内容回答问题。评估模型对单人叙述 (monologue) 和对话 (dialogue) 的理解能力。
  • 数据集: 3个新策展的数据集。
    • CN-College-Listen (新数据集)
      • 开发过程: 收集自中国高考英语听力理解部分的真题,旨在评估学生在学术和日常情境中的听力理解能力。手动编译271个问题,并整合了 Huetal.(2024a)Hu et al. (2024a) 提供的2000个问题。问题以开放式 QA 格式呈现,没有多项选择。正确选项作为参考答案。
    • SLUE-P2-SQA5 (Shon et al., 2022)
    • DREAM-TTS (新数据集)
      • 开发过程: 基于文本对话理解数据集 DREAM (Sun et al., 2019) 构建。利用 SOTA 文本转语音 (TTS) 引擎 (Casanova et al., 2024) 将文本输入转换为口语格式,并保持性别与对话内容一致。
    • Public-SG-SpeechQA (新数据集)
      • 开发过程: 选自新加坡政要的四段公开演讲视频,附带清晰的转录文本。转录文本根据主题转换手动分割,每段生成五个 LLMs 问题。每个问题及其参考答案都经过人工审核,约30%的样本被丢弃。最终收集了688个语音问答对。
  • 指标: 模型即评判者 (M.J.)。

4.3.1.3. 语音指令 (Speech Instruction, SI)

  • 功能和适用性: 评估模型能否直接遵循通过语音输入提供的指令,模拟自然的人机交互。问题通过音频传递,模型需要理解并生成适当的文本格式响应。这种方法具有独特的优势,例如通过结合情感等超语言学信息,模型可以根据用户的情绪状态调整响应。
  • 数据集: 2个新合成的数据集。
    • OpenHermes-Audio (Teknium, 2023) - 新数据集
    • ALPACA-Audio (Taori et al., 2023) - 新数据集
      • 开发过程: 从现有指令遵循数据集 ALPACAOpenHermes 中合成音频指令。人工选择实例,确保1) 语音合成准确,2) 内容适合作为口语指令。最终保留了约10.5%的样本。
  • 指标: 模型即评判者 (M.J.)。

4.3.2. 音频场景理解 (Audio Scene Understanding)

4.3.2.1. 音频问答 (Audio Question Answering, AQA)

  • 功能和适用性: 专注于对环境上下文的理解。评估模型在这些场景中遵循指令的能力。
  • 数据集:
    • Clotho-AQA (Lipping et al., 2022) - 从中筛选高置信度样本。
    • WavCaps-QA (Mei et al., 2023) - 新数据集
    • AudioCaps-QA (Kim et al., 2019) - 新数据集
      • 开发过程: WavCaps-QAAudioCaps-QA 各包含300多个多样化问题,附带人工验证的问题和答案。使用 Llama-3-8B-Instruction 模型从提供的字幕生成问答对,然后经过人工标注和修订以确保有效性。
  • 指标: 模型即评判者 (M.J.)。

4.3.2.2. 音频字幕 (Audio Captioning, AC)

  • 功能和适用性: 为音频片段生成字幕(描述)。
  • 数据集:
    • WavCaps (Mei et al., 2023)
    • AudioCaps (Kim et al., 2019)
  • 指标: 模型即评判者 (M.J.) 和 METEOR

4.3.3. 语音特征理解 (Voice Understanding)

4.3.3.1. 情感识别 (Emotion Recognition, ER)

  • 功能和适用性: 情感是一种重要的超语言学元素,可以通过人类语音或非语音内容传达 (El Ayadi et al., 2011)。它在使交流对听者可解释方面起着至关重要的作用。
  • 数据集:
    • IEMOCAP-Emotion (Busso et al., 2008)
    • MELD-Sentiment (Poria et al., 2019)
    • MELD-Emotion (Poria et al., 2019)
  • 指标: 模型即评判者 (M.J.)。

4.3.3.2. 口音识别 (Accent Recognition, AR)

  • 功能和适用性: 口音是重要的超语言学特征,以前的评估中常被忽视。
  • 数据集:
    • VoxCeleb1-Accent (Nagrani et al., 2017) - 使用 VoxCeleb1 数据集的元数据,任务是预测说话者最可能的口音来源。
  • 指标: 模型即评判者 (M.J.)。

4.3.3.3. 性别识别 (Gender Recognition, GR)

  • 功能和适用性: 可以根据声音特征识别性别。该任务测试模型对性别特定声学模式的敏感性。
  • 数据集:
    • VoxCeleb1-Gender (Nagrani et al., 2017)
    • IEMOCAP-Gender (Busso et al., 2008)
  • 指标: 模型即评判者 (M.J.)。

4.4. 模型即评判者 (Model-as-Judge) 模板

本文使用的模型即评判者 Model-as-Judge 模板如下所示。评分范围通常为0到5,但 Prometheus2 除外,其范围为1到5。对于需要二元判断的任务,分数为0(不正确)或1(正确)。实际操作中,所有分数都重新缩放到100分制以便于比较。

Judgement Model Llama-3-70B-InstructTemplate [Reference Answer] {reference}
& Llama-3-8B-Instruct
& GPT4[Model Answer] {prediction}
[Question]
{question} [Task] Rate the model's answer based on its alignment with the reference answer, focusing
on accuracy and relevance to the reference provided. Please be critical on the details.
Criteria: Assess if the model's response mirors the reference in terms of content, accuracy, and relevance.
ScoreO: The answer is completely misaligned, providing incorrect or irrelevant information compared to the reference.
Score1: The answer shows minimal alignment, often misunderstanding or providing
irrelevant details unrelated to the reference. Score2: The answer recognizes the topic but diverges significantly from the reference
in accuracy or relevance. Score3: The answer aligns with the reference generally but lacks detail or precise
accuracy in some aspects. Score4: The answer is mostly accurate and relevant, closely following the reference
but could be clearer or more detailed.
Score5: The answer is highly accurate, detailed, and matches the reference answer perfectly, capturing its essence and detail.
Prometheus2Your response should be formatted as follows: Explanation: (Provide a concise explanation of your rating, comparing the reference answer with the model's response. "The reference answer is [XXX], while the model's
answer is [YYY]. I think ..") Rating: (int)* "criteria": "Does the model provide accurate, relevant, and contextually appropriate responses to user inquiries?"
"scorel _description": "The model frequently fails to understand or address the core of the user's inquiries, providing inaccurate, irrelevant, or inappropriate responses."
"score2_description": "The model occasionally recognizes the topic of inquiry but often provides responses that are not sufficiently accurate, detailed, or contextually relevant."
"score3_description": "The model usually understands the question and attempts to provide a relevant answer, yet the responses may sometimes lack detail, accuracy, or context." "score4_description": "The model consistently understands and appropriately ad-
clarity." thoroughly address the user's needs."dresses the questions, providing accurate and relevant responses. However, there may still be minor inaccuracies or instances where additional context could enhance "score5_description": "The model excels in understanding user inquiries and con- sistently delivers accurate, detailed, and contextually appropriate responses that

表2:模型即评判者 (Model-as-Judge) 的模板

5. 实验设置

5.1. 数据集

AudioBench 包含了8个不同的任务和26个数据集,其中7个是新提出的数据集。以下是部分新数据集的开发过程和特点,以及现有数据集的概览。完整的统计信息已在第4.3节的表格中给出。

5.1.1. 新策展数据集的开发过程

5.1.1.1. CN-College-Listen

  • 来源: 中国高考英语听力理解部分。
  • 规模: 271个手动编译的问题 + 2000个来自 Huetal.(2024a)Hu et al. (2024a) 的问题。
  • 特点: 零样本测试集,评估学术和日常情境下的听力理解能力。原始问题是多项选择,但为适应 AudioLLMs 转换为开放式问题,正确选项作为参考答案。
  • 示例:
    F: Excuse me, this is the address, where do I find it? M:All right, you need a street map, here is one, and I will show youwhere it is.
    Question: What does the woman want to do? Choices: (A) Find aplace. (B) Buy a map. (C) Get an address.
    Answer: (A) Find a place.
    

5.1.1.2. DREAM-TTS

  • 来源: 基于文本对话理解数据集 DREAM (Sun et al., 2019)。
  • 规模: 1.9k 样本。
  • 特点: 利用 SOTA TTS 引擎 (Casanova et al., 2024) 将文本对话转换为口语格式,并保持性别信息一致。旨在评估口语对话理解能力。
  • 示例:
    F: The movie next Tuesday has been canceled due to a lackof interest. M: what do you mean? F: Well by last night only afew tickets been sold.
    Question: What can we conclude about the movie? Choices: (A)They want to buy the tickets for the movie. (B) The tickets for themovie were sold. (C) The movie will not be shown.
    Answer: (C) The movie will not beshown.
    

5.1.1.3. Public-SG-SpeechQA

  • 来源: 新加坡政要的四段公开演讲视频及其转录文本。
  • 规模: 688个语音问答对。
  • 特点: 演讲时长从20分钟到1小时不等。演讲根据主题转换手动分割。使用 Llama-2-7B-Chat 模型生成问答对,然后进行人工审核和修订。
  • 示例:
    Today, speaking to a roomful of economists, I am inclinedto confine myself to talk about markets and price, dollars ..
    Question: How can economics help solve complex healthcare challenges, asmentioned by the speaker?
    Answer: Economics can help solvecomplex healthcare ….
    

5.1.1.4. OpenHermes-AudioALPACA-Audio

  • 来源: 从开源指令微调数据集 OpenHermes (Teknium, 2023) 和 ALPACA (Taori et al., 2023) 转换而来。

  • 规模: 各100个样本。

  • 特点: 将文本指令转换为口语格式。人工审核以确保语音可读性、自然度和参考答案的正确性,最终仅保留约10%的样本。

  • 示例 (OpenHermes-Audio):

    Context: Pretend to be Ghost, expressingfrustration to Soap that they're no closerto finding the elusive enemy leader afterweeks of searching.
    Instruction: Please follow the instruction in the speech
    Answer: It feels like we've been chasing ghosts, Soap.After all these weeks, we're still no closer tofinding the bastard. It's bloody infuriating.
    
  • 示例 (ALPACA-Audio):

    Context: identify the type of the sentence:she can play guitar.
    Instruction: Please follow the instruction in the speech
    Answer: The type of sentence is a declarative sentence.
    

    下图(原文 Figure 5)展示了 OpenHermes-Audio 的标注平台界面:

    Figure 5: Our Labeling Platform for OpenHermes-Audio. 该图像是一个标注平台的界面,展示了 OpenHermes-Audio 的信息输入区域。界面包括注释者姓名、选择 ID、处理项目和进度指示器等字段,方便用户进行音频数据标注和管理。

    下图(原文 Figure 6)展示了 ALPACA-Audio 的标注平台界面:

    Figure 6: Our Labeling Platform for ALPACA-Audio. 该图像是一个界面示例,展示了ALPACA-Audio标注平台的设计。界面包含注释者姓名、选择ID、处理项目和进度指示器等信息,进度指示器显示为609%。

5.1.1.5. WavCaps-QAAudioCaps-QA

  • 来源: 基于 WavCaps (Mei et al., 2023) 和 AudioCaps (Kim et al., 2019) 数据集。

  • 规模: 各300多个问题。

  • 特点: 使用 Llama-3-8B-Instruction 模型从提供的字幕生成问答对,然后进行人工标注和修订。

  • 示例 (WavCaps-QA):

    Context: (Electronic Music playing)
    Instruction: What type of sound is being played?
    Answer: The sound being played is music.
    
  • 示例 (AudioCaps-QA):

    Context: (Mechanical vibration sound)
    Instruction: What type of object or equipment islikely to produce a constant rattlingnoise and sharp vibrations?
    Answer: A loose or worn-out bolt or screw on amachine or equipment is likely to pro-duce a constant rattling noise and sharpvibrations.
    

    下图(原文 Figure 7)展示了 AudioCaps QA 和 WavCasp QA 的标注平台界面:

    Figure 7: Our Labeling Platform for AudioCaps QA and WavCasp QA. 该图像是一个音频标签平台的界面,展示了音频片段的处理和标注,也包含对音频内容的提问与回答功能。用户可以输入名称、检查音频索引,并根据音频音效进行标注和反馈。示例音频片段的声音描述为“雨滴落在表面上”。

5.1.2. 其他数据集(ASR、AC、ER、AR、GR)

这些数据集多为领域内常用基准,其详细信息和示例请参见第4.3节表格和原文附录。

5.2. 评估指标

本文使用了多种评估指标,主要分为两种类型:传统指标和基于 Model-as-Judge 的指标。

5.2.1. 词错误率 (Word Error Rate, WER)

  • 概念定义: WER 是自动语音识别 (ASR) 任务中最常用的评估指标之一,它衡量了转录文本与参考文本之间的差异。WER 越高表示转录错误越多,模型性能越差。它通过计算需要进行的插入 (Insertions)、删除 (Deletions) 和替换 (Substitutions) 的总次数来将转录文本转换为参考文本,然后将这个总和除以参考文本中的单词总数。
  • 数学公式: WER=S+D+IN \text{WER} = \frac{S + D + I}{N}
  • 符号解释:
    • SS: 替换 (Substitutions) 的单词数量,即转录中一个单词被另一个单词错误替换的次数。
    • DD: 删除 (Deletions) 的单词数量,即转录中缺失的单词数量。
    • II: 插入 (Insertions) 的单词数量,即转录中多余的单词数量。
    • NN: 参考文本中单词的总数量。

5.2.2. METEOR (Metric for Evaluation of Translation with Explicit ORdering)

  • 概念定义: METEOR 是一个用于机器翻译和文本生成任务的评估指标,尤其适用于音频字幕 (AC) 任务。与只关注精确匹配的 BLEU 不同,METEOR 考虑了单词的同义词、词形变化以及词序的匹配,旨在更好地反映人类判断。它的分数范围通常在0到1之间,越高表示生成文本与参考文本的质量越接近。
  • 数学公式: METEOR=(1Penalty)Fmean \text{METEOR} = (1 - \text{Penalty}) \cdot F_{\text{mean}} 其中, Fmean=10PRP+9R F_{\text{mean}} = \frac{10 \cdot P \cdot R}{P + 9 \cdot R} P=matched wordsgenerated words P = \frac{\text{matched words}}{\text{generated words}} R=matched wordsreference words R = \frac{\text{matched words}}{\text{reference words}} Penalty 基于生成文本与参考文本的块 (chunk) 数量和匹配块的数量计算。
  • 符号解释:
    • Penalty\text{Penalty}: 惩罚因子,用于惩罚词序不一致的情况。
    • FmeanF_{\text{mean}}: 匹配的 F-score,是精确率 PP 和召回率 RR 的加权调和平均。
    • PP: 精确率 (Precision),表示生成文本中与参考文本匹配的单词比例。
    • RR: 召回率 (Recall),表示参考文本中被生成文本匹配的单词比例。
    • matched words\text{matched words}: 生成文本和参考文本之间匹配的单词数量(考虑同义词、词形变化)。
    • generated words\text{generated words}: 生成文本中的单词总数。
    • reference words\text{reference words}: 参考文本中的单词总数。

5.2.3. 模型即评判者 (Model-as-Judge, M.J.)

  • 概念定义: M.J. 是一种使用大型语言模型(如 GPT-4LLaMA-3-70B-Instruct)来评估另一个模型开放式生成响应质量的方法。当传统指标难以量化生成文本(如问答、摘要等)的质量时,M.J. 提供了一种灵活且更接近人类判断的评估方式。评判模型会根据预设的评分标准(如准确性、相关性、细节程度)为被测模型的输出打分。
  • 数学公式: M.J. 评分没有统一的数学公式,因为它是基于 LLM 的判断。评分通常是离散的整数(如0-5分),然后可能被归一化到0-100的范围。其核心是评判模型对以下要素的综合判断:
    • 准确性: 模型答案是否正确。
    • 相关性: 模型答案是否与问题和参考答案相关。
    • 完整性: 模型答案是否足够详细和全面。
    • 忠实性: 模型答案是否忠实于音频内容和指令。
  • 符号解释:
    • Score: 评判模型给出的分数,反映生成质量。
    • Reference Answer: 任务的黄金标准答案。
    • Model Answer: 被评估模型生成的答案。
    • Question: 任务的输入问题。
    • Criteria: 评判模型评估时遵循的详细标准和描述(如表3所示)。

5.3. 对比基线

本文选择了以下四种代表性的 AudioLLMs 和一种级联模型进行比较分析:

5.3.1. AudioLLMs

  • SALMONN (Tang et al., 2024): 一款旨在为大型语言模型提供通用听觉能力的模型。

  • Qwen-Audio-Chat (Chu et al., 2023): 基于 Qwen-Audio 的聊天模型,专注于通过统一的大规模音频-语言模型实现通用音频理解。

  • WavLLM (Hu et al., 2024a): 一款旨在实现鲁棒和自适应语音大型语言模型的模型。

  • Qwen2-Audio-Instruct (Chu et al., 2024): Qwen-Audio 系列的最新版本,同样专注于音频理解和指令遵循。

    这些模型都是目前最强大的多任务语音-文本模型之一,能够同时处理多种任务。

5.3.2. 级联模型

  • Whisper+Llama3: 这是一个流水线式 (pipeline manner) 处理数据的模型。
    • 第一步: 使用 Whisper-large-v3 (Huang and Tsai, 2023) 模型提取语音转录文本。
    • 第二步: 将这些转录文本与用户查询一起输入到 Llama-3-8B-Instruct 模型以生成响应。
  • 特点: 尽管该模型无法理解丰富的音频内容(因为它仅依赖于转录文本进行上下文理解),但它在语音密集型任务中表现出强大的性能,可作为鲁棒的基线。

6. 实验结果与分析

6.1. 主要结果分析

论文对五种模型在26个数据集上的整体结果进行了详细分析,发现没有单一模型能在所有任务上始终表现出色。

以下是原文 Table 2 的结果:

Dataset NameAudioLLMsWhisper+Llama3
SALMONNQwen-Audio-ChatWavLLMQwen2-Audio-Instruct
Speech Understanding
LibriSpeech-Clean(↓)55.582.252.103.201.83
LibriSpeech-Other(↓)41.804.164.806.073.71
CommonVoice-15(1)33.7511.6514.5311.449.89
GigaSpeech(↓)34.3330.7237.9222.3214.54
14.2213.3215.4911.899.51
Tedlium3(↓)8.564.006.626.393.81
Tedlium3-Longform(↓)Earning-21(↓)Earning-22()Longform()18.3945.2945.3795.35
26.8738.4664.4798.6511.77
36.3851.1866.7298.8415.61
CN-College-Listen50.5160.8565.4374.5085.25
SLUE-P2-SQA578.2476.1283.9280.0582.99
DREAM-TTS55.9357.7664.5666.7086.09
Public-Public-SG-SpeechQA56.7757.4758.5558.3164.94
Public-SG-SpeechQAOpenHermes-AudioALPACA-Audio
19.2012.4011.009.6022.4021.6044.8052.6063.070.8
Audio Scene Understanding
Clotho-AQA51.1858.2038.6843.0150.9244.4729.4717.38
WavCaps-QA46.2526.25
AudioCaps-QA47.0347.9929.8445.7516.71
WavCaps(M.J.)AudioCaps(M.J.)21.1629.256.4033.783.45
34.3747.994.1740.782.47
WavCaps(METEOR)AudioCaps(METEOR)17.7221.2024.0227.709.786.7021.3419.8913.897.95
Voice Understanding
IEMOCAP-Emotion21.5627.3445.9149.3040.5434.43
MELD-Emotion33.0650.5741.0733.36
MELD-Sentiment41.8743.8750.0853.4943.87
VoxCeleb1-Accent28.0645.7037.6529.1939.33
VoxCeleb1-Gender88.9070.5670.5199.1253.41
IEMOCAP-Gender51.6051.1345.2949.3051.50

表3:四种 AudioLLMs 和一种级联模型的主要结果。ASR 任务的词错误率 (WER) 越低越好 (↓)。

6.1.1. 自动语音识别 (ASR) 任务

  • SALMONN 的表现: SALMONNLibriSpeech-CleanLibriSpeech-Other 等数据集上的 WER 显著高于其他模型,高达55.58%和41.80%,这表明其 ASR 能力相对较弱或对指令的鲁棒性不佳。
  • Qwen/WavLLM 的表现: Qwen-Audio-ChatWavLLMQwen2-Audio-InstructLibriSpeech-CleanLibriSpeech-OtherTedlium3 等标准 ASR 数据集上表现出强大的能力,WER 较低,接近甚至优于级联模型 Whisper+Llama3Whisper+Llama3
  • 长音频任务的挑战: 所有 AudioLLMs 在处理 Tedlium3-LongformEarning-21Earning-22 等长音频任务时表现不佳,WER 普遍较高(例如 Qwen2-Audio-Instruct 在这些数据集上的 WER 分别高达95.35%、98.65%、98.84%),远低于 Whisper+Llama3Whisper+Llama3。这表明 AudioLLMs 在泛化到任意上下文长度方面存在困难,可能因为主要针对有限长度的音频进行微调。

6.1.2. 语音问答 (SQA) 和语音指令 (SI) 任务

  • 级联模型的优势: Whisper+Llama3Whisper+Llama3CN-College-ListenDREAM-TTSSQA 任务上表现出卓越的性能,分数远高于 AudioLLMs(例如在 CN-College-Listen 上,Whisper+Llama3Whisper+Llama3M.J. 得分为85.25,而 AudioLLMs 最高为 Qwen2-Audio-Instruct 的74.50)。在 SI 任务(OpenHermes-AudioALPACA-Audio)上,Whisper+Llama3Whisper+Llama3 也表现出色。这归因于 Whisper 强大的语音识别能力和 Llama3 强大的推理能力。
  • 模态融合的潜在问题: AudioLLMs 的模态融合过程可能扭曲了语音内容,导致在这些主要依赖于口头内容的任务中表现稍逊。

6.1.3. 音频场景理解 (AQA, AC) 任务

  • AudioLLMs 的优势: 在涉及超语言学特征和非口语声音的任务中,AudioLLMs 通常优于级联模型。例如在 Clotho-AQAWavCaps-QAAudioCaps-QAAQA 任务上,AudioLLMsM.J. 分数普遍高于 Whisper+Llama3Whisper+Llama3
  • WavLLM 的弱点: WavLLMAQAAC 任务中表现出明显劣势(例如在 WavCaps(M.J.) 上仅为6.40),这表明其在训练时可能缺乏对非语音场景的充分暴露,指令遵循能力泛化不足。
  • Qwen 模型的平衡性: Qwen-Audio-ChatQwen2-Audio-InstructAQAAC 任务上表现相对较好,说明它们在音频场景理解方面具有一定能力。

6.1.4. 语音特征理解 (ER, AR, GR) 任务

  • AudioLLMs 的整体优势: AudioLLMs 在情感识别 (ER)、口音识别 (AR) 和性别识别 (GR) 等任务上普遍优于级联模型,因为这些任务需要对非语言音频特征进行理解。
  • 情感和情绪识别的特殊性: 在情感和情绪识别任务中,有些情感可以直接从语音语义中推断出来,这使得某些 AudioLLMs 在这些任务上表现不错。
  • Qwen2-Audio-Instruct 在性别识别上的突出表现: Qwen2-Audio-InstructVoxCeleb1-Gender 数据集上取得了惊人的99.12分,远超其他模型,表明其在该特定任务上的强大能力。
  • 级联模型的局限性: 级联模型难以理解非口头内容,凸显了 AudioLLMs 在处理这些复杂性方面进行更鲁棒开发的必要性。

6.2. 鲁棒性查询

本文还对模型对不同提示模板的鲁棒性进行了评估,发现 AudioLLMs 在这方面存在显著差异。

下图(原文 Figure 2)展示了 SALMONN 和 Qwen-Audio 在三个 ASR 数据集上对不同提示的敏感性:

该图像是一个条形图,展示了在 LibriSpeech-Clean、CommonVoice 和 Tedium3 数据集上,SALMONN 和 Qwen-Audio 模型在三个不同提示(Prompt-1、Prompt-2 和 Prompt-3)下的表现。每个数据集的条形高度代表模型在特定提示下的性能得分。 该图像是一个条形图,展示了在 LibriSpeech-Clean、CommonVoice 和 Tedium3 数据集上,SALMONN 和 Qwen-Audio 模型在三个不同提示(Prompt-1、Prompt-2 和 Prompt-3)下的表现。每个数据集的条形高度代表模型在特定提示下的性能得分。

图2:SALMONN 和 Qwen-Audio 在 LibriSpeech-Clean、CommonVoice 和 Tedium3 数据集上的词错误率 (WER)。结果表明 SALMONN 在面对不同提示时鲁棒性最差。

  • SALMONN 的敏感性: SALMONN 模型对不同的提示指令表现出高度敏感性。
    • 在使用某些提示(如 Prompt 3: "Decode the audio and give me the written transcripts.")时,SALMONN 会在 LibriSpeechTedium3 数据集上执行音素识别,导致 WER 显著升高。
    • CommonVoice 数据集上,SALMONN 倾向于对大量样本进行语音翻译,这也严重影响了其 WER 性能。
    • 这表明 SALMONN 可能过度依赖语音特征 (tokens),而对指令的响应性不足,容易过拟合。
  • Qwen-Audio 的鲁棒性: 相比之下,Qwen-Audio 模型在所有三个提示模板下的性能都保持稳定,显示出更好的鲁棒性。
  • 重要性: 这种鲁棒性差异表明,AudioLLMs 在部署时可能面临挑战,因为它们可能无法很好地泛化到未曾见过的指令。因此,AudioBench 在其评估框架中整合了至少20个多样化的提示模板,以全面测试模型的鲁棒性。

6.3. 模型即评判者 (Model-as-Judge) 比较

为了解决开放式生成任务的评估挑战,本文探索了 Model-as-Judge 方法,并比较了不同开源 LLMs 作为评判模型与 GPT-4 的相关性。

下图(原文 Figure 3)展示了 Llama3-70B-Instruct 与 GPT-4 作为评判模型时的相关性:

该图像是一个热力图,展示了三个数据集(CN-College-Listen、Clohto-AQA、VoxCeleb1-Accent)中多个模型之间的相似度。每个矩阵的值表示模型性能的相关性,颜色深浅反映了相关程度。 该图像是一个热力图,展示了三个数据集(CN-College-Listen、Clohto-AQA、VoxCeleb1-Accent)中多个模型之间的相似度。每个矩阵的值表示模型性能的相关性,颜色深浅反映了相关程度。

图3:评估模型之间使用 Spearman 秩相关系数分析了它们作为评判模型时的相关性。结果显示 Llama-3-70B-Instruct 与 GPT-4 作为评判模型时具有很强的相关性。

  • 评估方法:
    1. 选择 CN-College-Listen (语音理解)、Clotho-AQA (音频场景理解) 和 VoxCeleb1-Accent (语音特征理解) 这三个数据集的所有样本。
    2. 获取 SALMONN 模型的输出。
    3. 将这些模型输出、黄金答案和问题输入到 GPT-4 和三个开源模型(Llama-3-8B-InstructLlama-3-70B-InstructPrometheus-2)中获取评分。
    4. 计算 Spearman 秩相关系数 (Spearman's rank correlation) 来比较不同评判模型的有效性。
  • 结果分析:
    • Llama-3-70B-Instruct 模型与 GPT-4 (gp4-turbo-0409) 表现出最高的Spearman 秩相关系数,在所有三个数据集上都超过0.85,这表明它们之间存在“非常强的相关性”。本文将其归因于 Llama-3-70B-Instruct 强大的泛化能力。
    • 相比之下,Prometheus-2 虽然专门为评分目的进行了微调,但其相关性并不如 Llama-3-70B-Instruct。这可能因为它无法弥补其基础模型 (Mistral) 的局限性。
  • 结论: 鉴于 Llama-3-70B-InstructGPT-4 的高相关性,以及其开源和透明的优势,本文选择 Llama-3-70B-Instruct 作为 AudioBench 的评判模型。这提供了一个可访问且易于适应的评估解决方案。但论文也指出,Model-as-Judge 并非终极解决方案,准确评估自由形式生成仍然是 NLP 领域未解决的挑战。

7. 总结与思考

7.1. 结论总结

本文首次提出了一个全面的 AudioLLM 评估基准 AudioBench,它涵盖了8个任务和26个数据集,其中7个是新策展或改编的。AudioBench 旨在弥补现有评估的不足,特别关注 AudioLLMs 的指令遵循能力在语音理解、音频场景理解和语音特征理解三大方面的表现。通过对五种流行模型的评估,研究发现没有单一模型能在所有任务上始终表现出色,并且 AudioLLMs 在处理长音频和对不同提示指令的鲁棒性方面仍存在显著挑战。同时,本文还对 Model-as-Judge 方法进行了深入研究,验证了 LLaMA-3-70B-Instruct 作为 GPT-4 的有效开源替代方案。AudioBench 的开源工具包、数据和排行榜有望为 AudioLLMs 的未来发展提供一个坚实的测试平台。

7.2. 局限性与未来工作

7.2.1. 局限性

  • 单语种限制: 当前的 AudioBench 仅包含英语数据集。然而,多语言能力和语码转换 (code-switching) 对于全面的语音理解和生成至关重要。
  • 自由生成评估挑战: 评估自由生成(free-style generation)仍然具有挑战性,需要更鲁棒的指标或评判模型。传统的指标在零样本 (zero-shot) 场景下表现不足,评估输出响应的正确性复杂。
  • 效率考量不足: 作为端到端模型,AudioLLMs 通常模型规模较大,导致推理时间较长。当前基准主要关注准确性而非效率。

7.2.2. 未来工作

  • 多语言能力、语码转换和方言: 计划扩展基准,纳入多语言能力、语码转换和各种方言的评估,以提高模型在不同语言和文化背景下的适用性。
  • 语音生成: 发展 AudioLLMs 更复杂的语音生成能力,使其能够生成更自然、更具吸引力的人机交互语音,模仿人类的语调和节奏。
  • 长音频处理和理解: 将模型处理长音频的能力扩展到几分钟以上,以支持会议摘要和序列事件理解等更广泛的应用。通过将语音内容嵌入为词元 (tokens),可以有效探索这种能力。
  • 多轮查询处理: 增强模型处理多轮查询的能力,允许更动态的交互,其中每个查询可能涉及图像或音频等不同模态,从而使模型在实际应用中更具通用性。
  • 评估指标的发展: 开发适合音频输入的评估指标,特别是针对自由生成输出的准确评估方法。

7.3. 个人启发与批判

7.3.1. 个人启发

  • 构建综合基准的重要性: 本文强调了在 AudioLLMs 领域建立一个全面、统一基准的迫切性。这对于推动该领域发展、公平比较模型以及指导未来研究方向至关重要。AudioBench 的设计思路和任务分类(语音理解、音频场景理解、语音特征理解)为构建其他多模态 LLMs 的基准提供了有益的框架。
  • 鲁棒性评估的必要性: 模型对不同指令提示的敏感性是一个关键问题,它直接影响模型的实际部署和用户体验。在评估中融入多提示模板来测试鲁棒性是非常有远见的做法,这提醒研究人员在模型开发时不仅要关注绝对性能,还要关注其泛化和鲁棒性。
  • Model-as-Judge 的潜力和挑战: Model-as-Judge 方法为评估开放式生成任务提供了一条可行路径,尤其是在缺乏传统精确指标的情况下。LLaMA-3-70B-Instruct 作为开源评判模型的验证,为社区提供了一个经济且透明的替代方案。但这也促使我们思考如何进一步提高 Model-as-Judge 的可靠性、一致性,并探索结合人类评估的更有效机制。
  • 长序列处理的普遍挑战: AudioLLMs 在长音频处理上的困难,与文本 LLMs 在长上下文处理上的挑战具有异曲同工之处。这表明,无论模态如何,处理长序列信息并保持其完整性和连贯性仍是当前 AI 模型的一个核心瓶颈和研究热点。

7.3.2. 批判

  • Model-as-Judge 的内在局限性: 尽管 LLaMA-3-70B-InstructGPT-4 具有高相关性,但 Model-as-Judge 仍然存在固有的局限性。评判 LLM 的判断能力受其训练数据、内部偏见和推理能力的限制。它的评分可能并非总是与人类判断完全一致,并且可能容易受到提示工程 (prompt engineering) 的影响。论文虽然提到了这一点,但并未深入探讨如何缓解这些潜在问题,例如通过多模型投票、更复杂的评估协议或与少量人类评估的定期校准。
  • 效率考量的缺失: 论文明确指出当前基准主要关注准确性而非效率。然而,对于实际部署而言,推理速度和资源消耗是至关重要的因素。未来的 AudioBench 版本应纳入对模型效率的评估,例如延迟、吞吐量和内存占用,以提供更全面的模型画像。
  • 新数据集的偏差风险: 新策展的7个数据集,特别是通过 LLM 生成问题并进行人工筛选的 (Public-SG-SpeechQA, WavCaps-QA, AudioCaps-QA),可能存在潜在的偏差或风格限制。LLM 生成的问题可能倾向于特定类型,而人工筛选也可能引入主观偏好。虽然进行了人工审核,但更大规模、更多样化的专家标注可能更能保证数据集的质量和无偏性。
  • 多语言评估的迫切性: 尽管论文将多语言扩展列为未来工作,但考虑到全球用户对 AudioLLMs 的需求,以及不同语言声学特征和语义结构的巨大差异,仅依靠英语数据集可能会限制基准的通用性和模型的跨文化适用性。多语言能力应被视为更核心的评估维度,而非简单的未来扩展。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。