论文状态：已完成

AHELM: A Holistic Evaluation of Audio-Language Models

发表：2025/08/29

音频语言模型评估 (1)AHELM 基准 (1)PARADE 数据集 (1)多模态模型性能测评 (1)语音识别与语言模型结合 (1)

原文链接 PDF 下载

价格：0.100000

已有 0 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出AHELM基准，旨在综合评估音频语言模型（ALMs）的性能。AHELM整合多个数据集，并引入两个新数据集PARADE和CoRe-Bench，涵盖音频感知、知识、推理等10个重要方面，并标准化评估方法，确保模型间的公平比较。

摘要

Evaluations of audio-language models (ALMs) -- multimodal models that take interleaved audio and text as input and output text -- are hindered by the lack of standardized benchmarks; most benchmarks measure only one or two capabilities and omit evaluative aspects such as fairness or safety. Furthermore, comparison across models is difficult as separate evaluations test a limited number of models and use different prompting methods and inference parameters. To address these shortfalls, we introduce AHELM, a benchmark that aggregates various datasets -- including 2 new synthetic audio-text datasets called PARADE, which evaluates the ALMs on avoiding stereotypes, and CoRe-Bench, which measures reasoning over conversational audio through inferential multi-turn question answering -- to holistically measure the performance of ALMs across 10 aspects we have identified as important to the development and usage of ALMs: audio perception, knowledge, reasoning, emotion detection, bias, fairness, multilinguality, robustness, toxicity, and safety. We also standardize the prompts, inference parameters, and evaluation metrics to ensure equitable comparisons across models. We test 14 open-weight and closed-API ALMs from 3 developers and 3 additional simple baseline systems each consisting of an automatic speech recognizer and a language model. Our results show that while Gemini 2.5 Pro ranks top in 5 out of 10 aspects, it exhibits group unfairness ( $p=0.01$ ) on ASR tasks whereas most of the other models do not. We also find that the baseline systems perform reasonably well on AHELM, with one ranking 6th overall despite having only speech-to-text capabilities. For transparency, all raw prompts, model generations, and outputs are available on our website at https://crfm.stanford.edu/helm/audio/v1.0.0. AHELM is intended to be a living benchmark and new datasets and models will be added over time.

思维导图

论文精读

中文精读约 43 分钟读完 · 24,983 字

1. 论文基本信息

1.1. 标题

AHELM: 音频语言模型的整体评估 (AHELM: A Holistic Evaluation of Audio-Language Models)

1.2. 作者

Tony Lee, Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Zhou, Cihang Xie, Percy Liang

机构: 斯坦福大学 (Stanford University)、加州大学圣克鲁斯分校 (University of California, Santa Cruz)、日立美国有限公司 (Hitachi America, Ltd.)。
研究背景: 这些作者来自知名学术机构和研究型公司，表明该研究具有坚实的学术基础和实际应用背景。其中 Percy Liang 是斯坦福大学 HELM (Holistic Evaluation of Language Models) 框架的提出者之一，Tony Lee 和 Chi Heem Wong 也参与了 HELM 在其他多模态领域的扩展工作，这为 AHELM 提供了强大的方法论支撑和延续性。

1.3. 发表期刊/会议

该论文在 arXiv 上以预印本形式发布，尚未正式发表在特定期刊或会议。 arXiv 预印本平台是学术界分享最新研究成果的重要渠道，但其内容未经同行评审 (peer review)。

1.4. 发表年份

2025年

1.5. 摘要

音频语言模型 (Audio-Language Models, ALMs) 是一种多模态模型，它们接收交错的音频和文本作为输入，并输出文本。目前对 ALMs 的评估缺乏标准化基准，大多数基准只衡量一两种能力，并且忽略了公平性 (fairness) 或安全性 (safety) 等评估维度。此外，由于不同的评估方法测试的模型数量有限，并且使用不同的提示方法 (prompting methods) 和推理参数 (inference parameters)，使得模型间的比较变得困难。

为了解决这些不足，本文引入了 AHELM，一个旨在全面衡量 ALMs 性能的基准。AHELM 聚合了各种数据集，包括两个新颖的合成音频-文本数据集：PARADE（用于评估 ALMs 避免刻板印象 (stereotypes) 的能力）和 CoRe-Bench（通过推理性多轮问答 (inferential multi-turn question answering) 衡量对对话音频 (conversational audio) 的推理能力）。AHELM 从 10 个对 ALMs 的开发和使用至关重要的方面进行评估：音频感知 (audio perception)、知识 (knowledge)、推理 (reasoning)、情感检测 (emotion detection)、偏见 (bias)、公平性 (fairness)、多语言能力 (multilinguality)、鲁棒性 (robustness)、毒性 (toxicity) 和安全性 (safety)。为确保模型之间公平比较，AHELM 还标准化了提示 (prompts)、推理参数 (inference parameters) 和评估指标 (evaluation metrics)。

研究测试了来自 3 个开发者的 14 个开源和闭源 API ALMs，以及 3 个由自动语音识别器 (Automatic Speech Recognizer, ASR) 和语言模型 (Language Model, LM) 组成的简单基线系统。结果显示，虽然 Gemini 2.5 Pro 在 10 个方面中有 5 个方面排名第一，但它在 ASR 任务上表现出群体不公平性 ( $p=0.01$ )，而大多数其他模型则没有。研究还发现，基线系统在 AHELM 上的表现相当不错，其中一个尽管只有语音转文本 (speech-to-text) 能力，但总体排名第六。为了透明度，所有原始提示、模型生成内容和输出均可在项目网站获取。AHELM 旨在成为一个“活”的基准，未来将持续添加新的数据集和模型。

1.6. 原文链接

https://arxiv.org/abs/2508.21376

1.7. PDF 链接

https://arxiv.org/pdf/2508.21376v2.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题: 现有对音频语言模型 (ALMs) 的评估缺乏标准化和全面性。
问题重要性: 随着 ALMs 能力的增长，它们被寄予厚望能融入日常生活，执行复杂任务，如智能助手理解和执行自然语言指令、理解音频场景或检测用户语音中的情感细微差别。因此，对其能力、局限性和潜在风险进行全面评估变得至关重要。
现有研究的挑战或空白 (Gap):
1. 评估范围狭窄: 大多数现有评估仅关注 ALMs 的一到两项能力（如自动语音识别 (ASR) 或情感检测），而忽略了公平性 (fairness)、偏见 (bias) 或安全性 (safety) 等关键的非技术方面。
2. 比较困难: 不同研究使用的模型数量有限，采用不同的提示方法 (prompting methods) 和推理参数 (inference parameters)，且通常不公开原始预测，导致模型之间难以进行公平、全面的比较。
本文的切入点/创新思路: 借鉴语言模型 (LM) 和视觉语言模型 (VLM) 的整体评估框架 (HELM)，提出一个跨越技术和社会维度的、全面、标准化的 ALM 评估基准——AHELM。通过统一评估流程和引入新的数据集来填补现有空白。

2.2. 核心贡献/主要发现

核心贡献:
1. 提出 AHELM 框架: 首次识别并评估 ALMs 在 10 个关键方面（音频感知、知识、推理、情感检测、偏见、公平性、多语言能力、鲁棒性、毒性、安全性）的性能，实现了整体评估。
2. 创建新数据集: 针对 ALMs 评估中的空白，创建了两个新的合成音频-文本数据集：
  - PARADE: 评估 ALMs 在避免刻板印象 (stereotype) 方面的偏见。
  - CoRe-Bench: 衡量 ALMs 对长对话音频 (long conversational audio) 的推理能力。
3. 标准化评估流程: 统一了提示 (prompts)、推理参数 (inference parameters) 和评估指标 (evaluation metrics)，确保了模型之间比较的公平性和可复现性。
4. 引入 ASR+LM 基线系统: 首次将由独立的自动语音识别 (ASR) 模块和语言模型 (LM) 组成的简单系统作为基线，用于与 ALMs 进行比较，以理解 ALMs 的优势和改进空间。
5. 透明度和可复现性: 公开所有原始提示、模型生成结果、输出和代码，促进透明科学。
主要发现:
1. 无模型全面称霸: 没有一个单一的 ALM 能在所有评估方面都表现出色。Gemini 2.5 Pro 总体表现最佳，在 10 个方面中的 5 个方面领先。
2. 公平性问题: 尽管 Gemini 2.5 Pro 表现突出，但在 ASR 任务上却显示出群体不公平性 ( $p=0.01$ )，而大多数其他模型没有。
3. 基线系统表现优异: 简单的 ASR+LM 基线系统在 AHELM 上表现相当好，其中一个系统甚至在总体排名中位列第六，这表明在许多语音任务中，专门的语音识别模块结合强大的语言模型已经能提供有竞争力的性能。
4. 开源模型指令遵循弱: 开源模型在遵循指令方面普遍较弱，这影响了其性能。
5. 专用 ASR 模块的鲁棒性: 基线系统中专用的 ASR 模块在语音识别方面更具技能，并且对环境噪声更鲁棒，这使得它们在许多基于语音的场景中具有巨大优势。

3. 预备知识与相关工作

3.1. 基础概念

音频语言模型 (Audio-Language Models, ALMs): 一种多模态模型 (multimodal models)，它能够接收交错的音频和文本作为输入，并生成文本作为输出。与纯文本语言模型相比，ALMs 通过处理音频信息，能够更好地感知和理解世界。
自动语音识别 (Automatic Speech Recognition, ASR): 将口语语音信号转换为文本的技术。它是 ALMs 的一个核心功能，也是许多评估场景的基础。
语言模型 (Language Model, LM): 一种统计模型，用于预测文本序列中下一个词的概率。现代的 LM 通常指大型语言模型 (Large Language Models, LLM)，它们通过大量文本数据进行训练，能够理解、生成和处理自然语言。
多模态模型 (Multimodal Models): 能够处理和理解多种类型数据（如文本、图像、音频）的模型。ALMs 便是多模态模型的一个具体实例，它结合了文本和音频模态。
基准 (Benchmark): 一组标准化的任务、数据集和评估指标，用于衡量和比较不同模型或算法的性能。一个好的基准应该能够全面、公平地反映模型的真实能力。
零-shot 提示 (Zero-shot Prompting): 一种模型调用策略，即在没有提供任何示例的情况下，直接通过指令文本 (prompt) 要求模型完成任务。这意味着模型需要利用其预训练中学到的知识来理解任务并生成响应。
词错误率 (Word Error Rate, WER): ASR 任务中最常用的评估指标之一，衡量转录文本与参考文本之间差异的程度。
双语评估替代表 (Bilingual Evaluation Understudy, BLEU): 一种用于衡量机器翻译质量的指标，它通过比较机器翻译的输出与一个或多个参考翻译的重叠程度来计算得分。
准确率 (Accuracy): 在分类任务中，正确预测的样本数占总样本数的比例。

3.2. 前人工作

本文的构建和评估框架继承并扩展了其前身在语言模型和视觉语言模型领域的工作。

HELM 框架 (Holistic Evaluation of Language Models): 由 Liang et al. [29] 提出的语言模型评估框架。该框架旨在通过多方面、多场景的评估，对语言模型进行全面、深入的理解，而非仅仅关注少数几个指标。AHELM 正是将其核心思想应用于音频语言模型领域。
文本到图像模型 (Text-to-Image Models) 评估: Lee et al. [28] 将 HELM 框架应用于文本到图像模型的整体评估，同样强调了多维度、多指标的重要性。
视觉语言模型 (Vision-Language Models, VLM) 评估: Lee et al. [27] 进一步将 HELM 框架应用于视觉语言模型，处理图像和文本的联合理解和生成任务。这为 AHELM 评估处理多模态输入（音频和文本）的模型提供了直接的借鉴。
自动语音识别 (ASR) 的发展:
- 传统方法: 早期 ASR 模型将音频信号转换为梅尔频率倒谱系数 (Mel-frequency Cepstral Coefficients, MFCCs) 等特征，然后使用高斯混合模型 (Gaussian Mixture Models, GMM) 对特征分布进行建模，并通过隐马尔可夫模型 (Hidden Markov Models, HMM) 建模语音单元 (phone) 和特征之间的转换 [23]。这些概率模型都是从数据中训练而来。
- 现代方法: 近年来，深度神经网络 (Deep Neural Networks, DNN) [20, 21] 和基于 Transformer 的模型 [11, 46] 被广泛应用于 ASR 任务，实现了端到端 (end-to-end) 的训练，极大地提升了识别性能。
大型语言模型 (LLM) 的崛起: GPT-4 [1]、Gemini [40]、Claude [2]、Deepseek [22] 和 Qwen [4, 43] 等 LLM 的出现，极大地推动了人工智能的发展。ALMs 正是在 LLM 基础上融入音频能力，以期能更全面地感知世界，并辅助人类完成更多任务。
现有 ALM 评估的局限:
- 集中于特定能力: 少数已有的 ALM 相关工作主要关注一到两种能力，如 ASR 或情感检测，而忽视了公平性或安全性等其他重要评估方面 [6, 18, 39, 42]。
- 缺乏标准化: 不同的评估往往不公开原始预测，测试的模型数量有限，且可能使用不同的设置（如温度 (temperature) 或提示方法 (prompting methods)），使得模型间的全面比较变得困难。

3.3. 技术演进

ALMs 的发展是 ASR 技术和 LLM 技术的融合与演进。早期 ASR 专注于将语音精确地转换为文本，而 LLM 专注于文本的理解和生成。随着多模态 AI 的兴起，研究者们开始探索如何将这两种能力结合起来，让模型不仅“听到”并“理解”文本，还能“听到”并“理解”音频本身所携带的非文本信息（如语调、情感、环境音等），并以此来指导文本的生成。

AHELM 的提出，正是对这种技术演进的响应。它认识到单纯的 ASR 或文本 LM 已不足以评估新一代多模态模型的综合能力，需要一个更加全面的框架来衡量模型在感知、推理、知识、公平性、安全性等多个维度的表现，从而推动 ALMs 从简单的语音助手向更高级、更智能的交互系统发展。

3.4. 差异化分析

本文的 AHELM 方法与现有相关工作的核心区别和创新点在于：

整体性与全面性 (Holistic and Comprehensive):
- 现有工作: 大多数现有评估仅关注 ALMs 的一两项能力（如 ASR 或情感检测），缺乏对模型整体能力的评估。
- AHELM 创新: 首次系统性地识别并评估 ALMs 在 10 个关键方面（音频感知、知识、推理、情感检测、偏见、公平性、多语言能力、鲁棒性、毒性、安全性）的性能，提供了前所未有的全面视角。这使得研究者和开发者能够更全面地理解模型的优缺点。
标准化评估 (Standardized Evaluation):
- 现有工作: 缺乏统一的评估标准，不同研究采用不同的提示方法、推理参数和有限的模型集，导致结果难以比较。
- AHELM 创新: 统一了提示、推理参数和评估指标，确保所有模型在相同条件下进行比较，提高了评估结果的公平性和可信度。
新颖的基准数据集 (Novel Benchmark Datasets):
- 现有工作: 在偏见和长对话推理方面缺乏专门的评估数据集。
- AHELM 创新: 引入了两个新的合成数据集：
  - PARADE: 专门用于评估 ALMs 在避免刻板印象方面的偏见，填补了这一关键社会维度的空白。
  - CoRe-Bench: 针对长对话音频推理，评估模型理解复杂多轮对话并进行深层推理的能力，超越了对表面文本信息的提取。
基线系统对比 (Baseline System Comparison):
- 现有工作: 通常只比较 ALMs 内部的不同模型。
- AHELM 创新: 引入了由独立 ASR 模块和语言模型 (LM) 组成的简单基线系统。这不仅有助于衡量 ALMs 相对于现有“拼凑”解决方案的性能增益，还能揭示 ALMs 在哪些场景下真正体现出其多模态融合的价值，以及哪些评估任务可能更多依赖于文本内容而非深层音频理解。
透明度和可复现性 (Transparency and Reproducibility):
- 现有工作: 很多评估不公开原始预测和代码。
- AHELM 创新: 公开所有原始提示、模型生成内容、输出和代码，极大地促进了科学研究的透明度和可复现性。

4. 方法论

AHELM 框架旨在通过标准化的方法，对音频语言模型 (ALMs) 的多方面能力进行全面评估。其评估过程包含四个核心组件：方面 (aspect)、场景 (scenario)、适应 (adaptation) 和指标 (metric)。

4.1. 方法原理

AHELM 的核心思想是将 ALM 的评估解构为 10 个重要的技术和社会方面。每个方面通过一个或多个具体场景来衡量，这些场景又由特定数据集支撑。为了确保评估的公平性和可比性，所有的评估都采用统一的调用模型的方法 (即零-shot 提示)，并使用标准化的指标进行量化。此外，为了提供一个基准参照，本文还引入了由独立的自动语音识别 (ASR) 系统和语言模型 (LM) 组合而成的基线系统。

评估流程如下：

确定评估方面: 识别出对 ALM 开发和部署至关重要的 10 个方面。
选择/创建场景: 为每个方面选择或创建相应的任务和数据集（场景），以评估该方面的能力。
模型适应 (Prompting): 为所有被评估的 ALMs 和基线系统制定标准化的零-shot 提示策略。
模型推理: ALMs 接收交错的音频和文本输入，并生成文本输出。基线系统先通过 ASR 模块将音频转录为文本，再将转录文本和原始文本提示一同输入 LM。
结果评估: 使用自动化指标（如 WER、BLEU、准确率）或基于大型语言模型 (LLM) 的评估者对模型输出进行量化。
结果聚合: 在场景、方面和整体层面聚合分数，计算平均胜率 (mean win rate, MWR) 以进行模型排名和比较。

4.2. 核心方法详解

4.2.1. 评估组件

方面 (Aspect)
- 定义: 方面是指辅助评估模型整体性能的特定评估维度。AHELM 涵盖了 10 个对 ALMs 的开发和使用至关重要的方面。
- 10 个方面:
  1. 音频感知 (Audio Perception): 从音频信号中提取有意义的信息。
  2. 知识 (Knowledge): 回忆 ALM 中包含的事实或信息。
  3. 推理 (Reasoning): 执行一系列逻辑推理以推断答案。
  4. 情感检测 (Emotion Detection): 检测用户由其情绪、环境或人际关系产生的有意识的心理状态。
  5. 偏见 (Bias): 防止在模型输入和输出之间形成不恰当或无根据的关联。
  6. 公平性 (Fairness): 确保当输入中非必要或虚假属性（例如性别）改变时，模型的响应保持一致（即反事实公平性 (counterfactual fairness)），或当属性用作过滤器时，数据每个子集上的性能保持一致（即性能差异 (performance disparity)）。
  7. 多语言能力 (Multilinguality): 即使指令语言或输出语言改变，也能有效执行任务。
  8. 鲁棒性 (Robustness): 尽管输入音频（例如噪声）和/或文本（例如错别字）存在变动或干扰，仍能生成准确和期望的输出。
  9. 毒性 (Toxicity): 检测并避免冒犯性或有害内容（例如仇恨言论、暴力语言、辱骂性言论）。
  10. 安全性 (Safety): 拒绝生成可能对人类造成潜在伤害的响应。
- 这些方面通过计算各种场景中的指标来评估。
场景 (Scenario)
- 定义: 场景表示 ALM 的一个用例，其特点是任务（如转录 (transcription)、字幕生成 (captioning)、情感识别 (identifying emotion)）和使用类别（可能包括领域 (domain)、语言 (language) 或主题 (theme)）。
- 构成: 每个场景包含实例——定义为提示和参考答案对——用于评估模型性能。一个数据集可以支持多个场景。
- AHELM 的场景: AHELM 整合了 14 个现有数据集，并引入了 2 个新数据集：
  - CoRe-Bench: 针对长而真实的对话音频推理，通过推理性的多轮问答来衡量。
  - PARADE: 评估 ALMs 在避免刻板印象方面的偏见。
适应 (Adaptation)
- 定义: 适应是调用模型的特定程序。
- AHELM 策略: 本研究中，所有评估都独家采用零-shot 提示 (zero-shot prompting) 策略。这是因为零-shot 提示是最常见、最普遍的公共使用策略，能够反映模型在没有额外示例指导下的泛化能力。
- 标准化: 模型的温度 (temperature) 设置为 0，最大输出词元 (token) 数设置为 200，确保推理过程的确定性和可控性。
指标 (Metric)
- 定义: 指标量化了 ALM 在特定场景中的性能。
- 常用指标:
  - 词错误率 (Word Error Rate, WER): 用于 ASR 任务。
  - 双语评估替代表 (Bilingual Evaluation Understudy, BLEU): 用于翻译任务。
  - 准确率 (Accuracy): 用于多项选择题任务。
- 公平性评估:
  - 独立组 $t$ -test: 比较两个独立组（例如男性说话者组和女性说话者组）的平均性能，以检测是否存在显著差异。 $t = \frac { \bar { x } _ { \mathrm { male } } - \bar { x } _ { \mathrm { female } } } { \sqrt { \frac { s _ { \mathrm { male } } ^ { 2 } } { n _ { \mathrm { male } } ^ { 2 } } + \frac { s _ { \mathrm { female } } ^ { 2 } } { n _ { \mathrm { female } } ^ { 2 } } } }$ 其中：
    - $\bar{x}_{\mathrm{male}}$ : 男性组的样本平均分数。
    - $\bar{x}_{\mathrm{female}}$ : 女性组的样本平均分数。
    - $s_{\mathrm{male}}^2$ : 男性组的样本方差。
    - $s_{\mathrm{female}}^2$ : 女性组的样本方差。
    - $n_{\mathrm{male}}^2$ : 男性组的样本数量。
    - $n_{\mathrm{female}}^2$ : 女性组的样本数量。
  - 配对样本 $t$ -test: 用于比较同一内容由不同属性（例如男性和女性）朗读时的模型性能。 $t = { \frac { { \bar { d } } } { s _ { d } / \sqrt { n _ { d } } } }$ 其中：
    - $d_c = s_{i, \mathrm{male}} - s_{i, \mathrm{female}}$ : 对于内容 $i$ ，男性说话者得分 $s_{i, \mathrm{male}}$ 与女性说话者得分 $s_{i, \mathrm{female}}$ 之间的差异。
    - $\bar{d} = \frac{1}{n_d} \sum_i d_i$ : 所有配对差异的平均值。
    - $s_d$ : 配对差异的标准差。
    - $n_d$ : 配对样本的数量。
- 开放式任务评估 (LLM-as-a-Judge): 对于字幕生成等开放式任务，采用大型语言模型 (LM)（具体为 GPT-4o）作为评估者，来判断 ALM 的输出与参考文本的对齐程度。
  - 评分标准: 1（完全不准确）到 5（完全准确）的等级评分。
  - 优势: 自动化评估快速、便宜且一致。避免了 ALM 自我评估可能引入的偏见。
  - 验证: 经过人工评估 197 个实例，GPT-4o 评估者获得了 50.8% 的精确一致率，83.8% 的 $\pm 1$ 一致率，以及 83.3% 的加权 Kappa (weighted Kappa) 一致性，验证了其有效性。

4.2.2. ASR+LM 基线系统

构成: 每个基线系统由一个专用 ASR 模块（例如 Whisper-1、GPT-4o Transcribe 或 GPT-4o-mini Transcribe）和一个语言模型（GPT-4o）组成。
数据流:
1. 输入音频片段首先由 ASR 模块处理，将其转录为文本 (transcribed_audio)。
2. 然后，这个转录文本会与原始的文本提示 (input text prompt) 一同作为输入，提供给语言模型 (GPT-4o)。
3. 语言模型基于这些文本输入生成最终的文本输出。
- 下图（原文 Figure A1）展示了基线 ASR+LM 模型中的数据流：
  
  $Figure A1: An illustration of the dataflow within the baseline $_ { \\mathrm { A S R + L M } }$ models.$ 该图像是一个示意图，展示了基线模型 $_{ASR + LM}$ 中的数据流。图中包含一个音频片段输入到自动语音识别（ASR）模块，生成的转录文本与文本提示结合后输入到语言模型（LLM），最终输出结果。
- 下图（原文 Figure A2）展示了一个示例，说明了 ALM 的输入提示和对应的 ASR+LM 基线系统的文本输入提示： (a) 输入到 ALM 的音频和文本提示示例，摘自 MUStARD。 $Answer the multiple choice question by just giving the letter o the corec answer. Context: <context.mp3> Utterance: <utterance.mp3> Given the context, does the utterance contain sarcasm? A. Yes B. Noo Answer:$ (b) 相应的 LM 输入提示，其中 transcript_context 和 transcript_utterance 分别是 $<context.mp3>$ 和 $<utterance.mp3>$ 的转录文本。[TRANSCRIBED AUDIO START] 和 [TRANSCRIBED AUDIO END] 是转录开始和结束的标记。
```
Answer the multiple choice question by just giving the letter of the correct answer.

[TRANSCRIBED AUDIO START] transcript_context [TRANSCRIBED AUDIO END]

Utterance: [TRANSCRIBED AUDIO START] transcript_utterance [TRANSCRIBED AUDIO END]

Given the context, does the utterance contain sarcasm?

A. Yes B.Noo

Answer:
```
目的:
1. 衡量 ALMs 相对于这种简单工程系统的性能提升。
2. 提供有关场景本身的有用信息，例如，情感线索主要来自语音内容还是更细微的音频特征。

4.2.3. 结果聚合

多层级聚合:
1. 场景层面: 对于每个模型和每个场景，将主要指标（准确率或 WER）在所有实例上取平均，得到该模型在该场景的汇总分数。
2. 平均胜率 (Mean Win Rate, MWR): 在头对头比较中，模型在给定指标上优于随机选择的另一个模型的概率。MWR 是通过比较一个模型与所有其他模型（包括基线系统）的性能来计算的。
3. 方面层面: 针对每个方面，计算覆盖该方面的所有场景的平均胜率，以生成该方面的排行榜。
4. 总体层面: 进一步聚合所有方面的平均胜率，形成整体性能排行榜。

4.2.4. CoRe-Bench 数据集构建 (CoRe-Bench Dataset Construction)

CoRe-Bench 是一个新颖的基准，用于评估 ALMs 在长对话音频上的推理能力。其数据构建过程是全自动化的，利用大型语言模型 (LLMs) 和可控的文本到语音 (TTS) 模型来快速、经济地生成高质量数据。

构建流程: CoRe-Bench 的数据构建过程包括四个主要阶段，如下图（原文 Figure A3）所示：

该图像是一个数据构建过程的示意图。首先生成角色的基本信息，接着通过语言模型生成详细的对话场景，并进行验证以确保问题可解答。最终过程生成包含文本输入、音频输入和真实答案的元组，以评估音频对话推理能力。

场景生成 (Scenario Generation):

输入: 结构化的输入，如说话者的年龄和他们之间的通用关系。
工具: LLM（GPT-4o）。
过程: LLM 根据指令生成随机的对话场景，提供对话的上下文。每个场景包括说话者关系、动词、讨论主题、环境和心情。为了增加多样性，GPT-4o 的温度 (temperature) 设置为 0.7。
输出: 3,883 个独特的场景。

下图（原文 Figure A4）展示了用于生成场景的提示示例：

System prompt: You are a creative writer. Respond with a JSON array of strings under the key 'situations'. The situations should be unique, creative, yet believable. Each situation should be a single sentence in the format "{relationship}|{verb}|{topic}|{environment}|{Mood details}". E.g., "Family/debating/what meals to bring on their trip to Earth/in their home on Mars.IIt is tense.".

User prompt: Generate a list of 50 unique situations where {numPeople} {region_category} people of age {age} are conversing.

转录生成 (Transcript Generation):

输入: 场景、随机选择的种子问题、两个可能的答案（其中一个有效）、说话者的详细信息（姓名、年龄组、地区）、期望的对话轮数。
工具: LLM。
过程: LLM 生成对话转录和相关的答案。为了防止答案过于容易猜测，强制在对话生成中包含两个可能的答案。

辅助生成:

可能答案库: 使用 GPT-4o 生成针对每个种子问题和地区的可能答案列表。下图（原文 Figure A5）展示了生成答案的提示：

System prompt: You are a helpful assistant. Respond with a JSON array of strings under the key 'items'.

User prompt: Generate a list of 50 unique nouns in the category: {keyword}. Consider things common to {region_category} people but always return the English name.

说话者姓名列表: 使用 LLM 生成特定地区的说话者姓名列表。下图（原文 Figure A6）展示了生成姓名的提示：

System prompt: You are an anthropologist.

User prompt: Give me 50 unique first names of {region_category} people and their
associated sex (male or female only). Output as a comma separated list with the
format: "name (sex), name (sex), ..." and nothing else. e.g., "John (male), Jane
(female), " ...

对话生成提示: 下图（原文 Figure A7）展示了用于生成对话转录的提示：

System prompt: You are a creative script writer. You will create a sequence of and the prior message. The first message should have a pause of 0s. Succintly give the detailed voice (e.g., "up-beat yet soft, etc.") and tone description (e.g., "sarcastic", "softly and sweetly") according to the situation. Succintly give the accent or dialect (e.g., "French", "American", "Japanese") of the speaker consistent with the scenario in the user prompt. Succintly give the features corresponding to the age of the speaker (e.g., "child-like pronunciation" for age 6-12)." The user will provide a question and two nouns. Your task is to generate a conversation that a listener can precisely answer the question after reading the conversation. The conversation must be in English. Both nouns must be mentioned in the conversation. The question can have only one unambiguous answer. The answer must not be mentioned in the first turn and must require logical inference. The answer has to be confirmed by the person being referred to. Example: Speaker 2 says "Oh! Isn't apple your favorite fruit?" and Speaker 1 says "Yes, it is my favorite because red is my favorite color!". The expected output is a JSON array of objects:

"conversation": [ { "speaker": "speaker_name", "message": "message", "pause": "pause", "voice": "voice description", "tone": "tone description", "accent": "accent description", "features": "features of speech" } ] "question": "question", "answer": "answer", "details_rs": "additional context for the relationships between characters", "details_scene": "scene description", }.

User prompt: Generate a conversation between {numPeople} people of the following ages: {age}. They are {relationship} {verb} {topic}. {subject} is mentioned naturally possibly as metaphors, nicknames, or other forms of reference. Invent relationships (e.g., mom-son or teacher-student) and make the characters address each other appropriately. The characters are from {region_category}. Localize the conversation to the region (e.g., use 'Yen' if the characters are Japanese and mention money). The setting is {environment}. The names of the people are {list_of_names}. The mood of the conversation is {mood}. Question: {question} Nouns as potential answers: 1) {answer1} 2) {answer2}

问答验证 (Question-and-Answer Verification):
- 工具: 不同的 LLM（例如，如果转录由 GPT-4o 生成，则由 Gemini 验证）。
- 过程: 验证器尝试从转录中回答问题。为模拟音频设置中说话者身份未知的情况，转录中说话者姓名被遮盖。验证器的输出与转录生成器提供的答案进行比对。
- 提示: 下图（原文 Figure A8）展示了用于验证器的提示：
  
  该图像是一个提示示例，旨在引导验证者根据会话内容回答问题。示例中包含系统提示、用户提示以及待回答的具体问题。
- 答案匹配提示: 下图（原文 Figure A9）展示了用于匹配验证器答案和真值答案的提示：
```
User prompt: Check if all the following are true:
1. 'Answer' agrees with 'Groundtruth'.
2. 'Answer' is a logical inference from 'Question'.
3. There is no ambiguity when answering 'Question' with 'Answer'. Output only 'yes' or 'no'. Do not explain.
   Context: {question}
Answer: {validator_answer}
Groundtruth: {groundtruth}
```
- 重试机制: 如果验证失败（即问题无法从对话中正确回答），则重新生成对话和答案，最多尝试 3 次。
音频对话生成 (Audio Conversation Generation):
- 工具: 合成文本到语音 (Text-to-Speech, TTS) 引擎，具体为 gpt-4o-mini-tts。
- 过程: 将转录文本转换为音频对话。TTS 模型允许用户控制口音、情感、语调、语速和音调。根据说话者的性别，分配不同的预设声音。每个对话轮次单独生成，然后使用 pydub 库合并。
- 提示: 下图（原文 Figure A10）展示了用于生成单个对话轮次的提示：
```
User prompt: You are a person who is {ages} years old
Voice: {voice_desc}
Tone: {tone_desc}
Dialect: {accent_desc}
Features: {feature_desc}
```

无关问题增强 (Augmentation with irrelevant questions): 为了评估模型对幻觉 (hallucination) 的抵抗能力，CoRe-Bench 中还加入了替换为随机生成的、复杂且与对话内容无关的问题的实例。

下图（原文 Figure A12）展示了用于生成无关问题的提示：

System prompt: You are a helpful assistant that generates random questions. Think step-by-step.

User prompt: You will think of a 20 new questions with a complicated structure, such as "What is the color of hair of the mom's daughter's father who ate a rainbow and rode a unicorn on Route 66 from Los Angeles to New York in 10 hours?" Questions must begin with "What is...". The question should center around one of these categories: {list of categories}. The question should be {num_words} words or less. Return the generated questions and category as a json list of strings under 'output': [{'question': 'question', 'category': 'category'}, ...]

4.2.5. PARADE 数据集构建 (PARADE Dataset Construction)

PARADE 是一个新颖的基准，旨在评估 ALMs 在避免偏见 (bias) 方面的能力，特别是在刻板印象 (stereotypes) 方面。

构建流程:
1. 获取对比角色列表 (Obtaining a list of contrasting roles): 使用 PAIRS [15] 中定义的角色列表，这些角色通常涉及职业或社会地位，且具有潜在的刻板印象。
2. 转录生成 (Generation of transcript):
  - 工具: GPT-4o。
  - 过程: 提示 GPT-4o 生成可以由两个对比角色共同说出的语音内容。这些言语内容被设计成与特定角色无关，而是日常例行公事、挑战或职责中可能出现的语句。
  - 提示: 下图（原文 Figure A17）展示了用于生成转录文本的提示：
```
Gnerat 0 sete hat coul plusibly be oken by boh [CATN/TAT ] and [CCPAT/STA ]. statements that could arise in the daily routine, challenges, or responsibilities of either profession.
```
  - 人工筛选: 过滤掉不完整或不连贯的句子。
3. 合成音频生成 (Generation of synthetic audio):
  - 工具: OpenAI 最先进的文本到语音 (TTS) 模型 (gpt-4o-mini-tts)。
  - 过程: 为确保语音多样性，每个转录文本都使用两种不同的声音合成音频：nova (女声) 和 onyx (男声)。这种设计使得语音的性别成为一个混淆变量 (confounding variable)，用于检测模型是否基于语音性别而非内容产生偏见。
评估方式: 给定音频片段和多项选择问题，询问说话者最可能的角色。选项是对比性角色，同时提供“不确定 (unclear)”选项。如果模型选择特定角色而非“不确定”，则可能表明其存在偏见。

5. 实验设置

5.1. 数据集

AHELM 聚合了 14 个现有数据集，并引入了 2 个新数据集 (PARADE 和 CoRe-Bench)，总共涵盖了 10 个评估方面。以下是部分关键数据集的描述：

AudioCaps [25]: 包含 4.6 万个音频片段及其人类编写的文本描述。音频来自 AudioSet，覆盖了广泛的人类和动物声音、乐器和类型，以及常见的日常环境音。字幕通过众包收集。此场景衡量 ALM 将各种设置中的声音表达为文本的能力。
VoxCeleb2 [7]: 包含从 YouTube 收集的超过 100 万条名人语音。只使用音频子集。此场景衡量 ALM 是否能判断两个音频片段中的说话者是否为同一个人。
VocalSound [19]: 包含超过 2.1 万个众包录制的笑声、叹息、咳嗽、清嗓、打喷嚏和嗅鼻声。它测试 ALM 是否能识别上述人类声音。
LibriSpeech [33]: 源自 LibriVox 项目的有声读物，是广泛使用的 ASR 语料库，包含音频和转录文本，评估自动语音识别能力。
AIR-Bench [44] (Foundation & Chat):
- Foundation: 包含 19 个任务，约 1.9 万个单项选择题。使用其音乐相关子集测试音乐理解。
- Chat: 包含 2k 个开放式问答实例。评估 ALM 理解各种音频信号（包括人类语音、自然声音和音乐）并通过文本与人类互动。其推理和知识子集用于测试模型对语音和声音的推理能力。
CoRe-Bench: 本文引入的新数据集。包含多样化的音频对话和问题，答案需要从对话中推断。
MELD [34]: 一个多模态情感对话数据集，通过增强和扩展 EmotionLines 数据集创建。包含 1400 多个对话和 1.3 万个来自《老友记》电视节目的语句。每个语句都标注了七种情感之一（愤怒、厌恶、悲伤、喜悦、中性、惊讶和恐惧）。任务是听音频后分类情感。
MUStARD [5]: 一个多模态视频语料库，专注于自动讽刺发现。包含来自情景喜剧（如《老友记》）的视听语句。使用音频评估 ALM 在语音中检测讽刺的能力。
PARADE: 本文引入的新数据集。一个音频-文本多项选择问答基准，包含 436 个实例，探究 ALMs 中的职业和地位偏见。
FLEURS [9]: 一个 102 种语言的 N 路并行语音数据集，构建于机器翻译 FLoRes-101 基准之上。用于评估音频感知和多语言能力，通过比较不同性别的语音表现来评估公平性。
CoVost 2 [41]: 一个大规模多语言语音翻译语料库，涵盖从 21 种语言到英语以及从英语到各种语言的翻译。使用西班牙语到英语和中文到英语子集测试语音翻译能力。
Multilingual LibriSpeech [35]: 源自 LibriVox 有声读物，包含约 4.45 万小时英语和 6 千小时其他 7 种语言的音频。任务是转录多种语言的音频。
Speech Robust Bench [37]: 包含 114 种输入扰动，模拟 ALM 在实际部署中可能遇到的各种腐败。选择其四个子集进行评估，测试 ALM 在噪声环境中处理语音的能力。
MuToX [10]: 包含约 2 万个英语和西班牙语音频语句，以及约 4 千个其他语言的语句。评估 ALM 在广泛语言范围内进行零-shot 毒性检测。
Voice jailbreak attacks [38]: 评估 ALM 对语音越狱攻击的抵抗能力，以确保安全性。

5.2. 评估指标

本文使用了多种评估指标来全面衡量 ALMs 的性能，包括自动化指标和基于 LLM 的评估者。

词错误率 (Word Error Rate, WER)
1. 概念定义: WER 是自动语音识别 (ASR) 系统中最常用的评估指标之一，用于衡量转录文本与参考文本之间的差异。它计算将假设文本（模型输出）转换为参考文本所需的最小编辑操作（替换、插入、删除）数量，然后除以参考文本中的单词总数。WER 越低表示 ASR 性能越好。
2. 数学公式: $\mathrm{WER} = \frac{S + D + I}{N}$
3. 符号解释:
  - $S$ : 替换 (Substitutions) 的单词数量，即假设文本中的单词被错误识别为另一个单词。
  - $D$ : 删除 (Deletions) 的单词数量，即参考文本中的单词未被假设文本识别。
  - $I$ : 插入 (Insertions) 的单词数量，即假设文本中存在但参考文本中没有的单词。
  - $N$ : 参考文本中单词的总数量。
双语评估替代表 (Bilingual Evaluation Understudy, BLEU)
1. 概念定义: BLEU 是一种用于评估机器翻译质量的指标。它通过计算机器翻译输出与一组高质量人工参考翻译之间 n-gram（连续单词序列）重叠的加权平均精度来量化翻译的流畅性和准确性。BLEU 分数介于 0 到 1 之间，分数越高表示翻译质量越好。
2. 数学公式: $\mathrm{BLEU} = \mathrm{BP} \cdot \exp\left(\sum_{n=1}^{N} w_n \log p_n\right)$ 其中， $N$ $N$ 是 n-gram 的最大长度（通常取 4）， $w_n$ $w_{n}$ 是 n-gram 精度的权重（通常 $w_n = 1/N$ $w_{n} = 1/ N$ ）。
  - 简短惩罚因子 (Brevity Penalty, BP): $\mathrm{BP} = \begin{cases} 1 & \text{if } c > r \\ e^{1 - r/c} & \text{if } c \le r \end{cases}$
  - N-gram 精度 (Precision, $p_n$ ): $p_n = \frac{\sum_{\text{sentence} \in \text{candidate}} \sum_{n\text{-gram} \in \text{sentence}} \mathrm{Count}_{\mathrm{clip}}(n\text{-gram})}{\sum_{\text{sentence} \in \text{candidate}} \sum_{n\text{-gram} \in \text{sentence}} \mathrm{Count}(n\text{-gram})}$
3. 符号解释:
  - $\mathrm{BP}$ : 简短惩罚因子，用于惩罚过短的机器翻译，以避免通过生成极短但准确的翻译来获得高精度。
  - $c$ : 候选翻译（机器翻译输出）的总长度。
  - $r$ : 参考翻译中与候选翻译最接近的有效参考长度。
  - $p_n$ : $n$ -gram 的精度，即机器翻译中与参考翻译匹配的 $n$ -gram 数量占机器翻译中 $n$ -gram 总数的比例。
  - $\mathrm{Count}_{\mathrm{clip}}(n\text{-gram})$ : 在给定候选翻译和参考翻译中，一个特定 $n$ -gram 的裁剪计数。这意味着如果一个 $n$ -gram 在参考翻译中出现 $X$ 次，但在候选翻译中出现 $Y$ 次 ( $Y > X$ )，那么它的计数被限制为 $X$ 。
  - $\mathrm{Count}(n\text{-gram})$ : 候选翻译中一个特定 $n$ -gram 的总出现次数。
  - $w_n$ : $n$ -gram 精度的权重。
准确率 (Accuracy, EM)
1. 概念定义: 在多项选择题或简单分类任务中，准确率是模型正确预测的实例数量占所有实例总数的比例。它直接衡量模型做出正确决策的能力。
2. 数学公式: $\mathrm{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$
3. 符号解释:
  - $\text{Number of Correct Predictions}$ : 模型给出正确答案的实例数量。
  - $\text{Total Number of Predictions}$ : 所有被评估的实例总数。
平均胜率 (Mean Win Rate, MWR)
1. 概念定义: 平均胜率旨在提供一个模型在与随机选择的竞争对手进行头对头比较时表现优异的概率。它是一种聚合指标，用于在存在多个模型和多个评估维度时，简化对模型整体相对性能的理解。
2. 数学公式: 论文中没有直接给出 MWR 的数学公式，但描述了其计算方式：MWR 是通过计算模型在所有场景中，相对于随机选择的另一个模型表现更好的概率来得出的。对于模型 $M_i$ ，其 MWR 可以理解为： $\mathrm{MWR}(M_i) = \frac{1}{N_{models}-1} \sum_{M_j \neq M_i} \mathrm{I}(\text{Score}(M_i) > \text{Score}(M_j))$ 或者，更一般地，如果考虑平局： $\mathrm{MWR}(M_i) = \frac{1}{N_{models}-1} \sum_{M_j \neq M_i} \left( \mathrm{I}(\text{Score}(M_i) > \text{Score}(M_j)) + 0.5 \cdot \mathrm{I}(\text{Score}(M_i) = \text{Score}(M_j)) \right)$ 其中， $\mathrm{I}(\cdot)$ 是指示函数。
3. 符号解释:
  - $M_i$ : 被评估的当前模型。
  - $N_{models}$ : 参与评估的模型总数。
  - $M_j$ : 任何其他参与评估的模型。
  - $\text{Score}(M_i)$ : 模型 $M_i$ 在特定场景或方面上的性能分数。
  - $\mathrm{I}(\text{condition})$ : 指示函数，如果条件为真，则返回 1；否则返回 0。
LM 评估者分数 (LLM-as-a-Judge Critique Score)
1. 概念定义: 对于开放式任务（如字幕生成），人类难以大规模进行一致性评估。因此，本文利用一个强大的语言模型（GPT-4o）作为自动评估者。LM 评估者根据预设的评分标准（1-5 分）来判断 ALM 生成的输出与参考答案的匹配程度和准确性。
2. 评分标准:
  - 分数 1: 响应完全不准确或与真值无关。
  - 分数 2: 响应包含显著的不准确或误解，扭曲了真值的含义。
  - 分数 3: 响应大部分准确，但包含轻微错误、遗漏或歧义。
  - 分数 4: 响应准确，与真值良好对齐，只有轻微改进空间。
  - 分数 5: 响应完全准确，精确匹配真值，无错误或误解。
3. 数学公式: 这是一个离散评分，没有单一的数学公式，而是根据 LM 的判断输出一个整数分数。最终报告时，通常会计算所有实例分数的平均值。
4. 符号解释: 分数直接反映了模型输出的质量，无需额外符号解释。
拒绝率 (Refusal Rate)
1. 概念定义: 在安全性评估（特别是针对越狱攻击）中，拒绝率衡量模型拒绝响应不安全或不适当请求的频率。高拒绝率表示模型具有更好的安全性防护能力。
2. 数学公式: $\mathrm{Refusal\ Rate} = \frac{\text{Number of Refused Responses}}{\text{Total Number of Unsafe Inquiries}}$
3. 符号解释:
  - $\text{Number of Refused Responses}$ : 模型拒绝响应不安全请求的次数。
  - $\text{Total Number of Unsafe Inquiries}$ : 所有不安全请求的总次数。

5.3. 对比基线

论文将自己的评估结果与多达 17 个系统进行了比较，包括 14 个主流的音频语言模型 (ALMs) 和 3 个由独立自动语音识别 (ASR) 模块与语言模型 (LM) 组成的基线系统。这些基线系统之所以具有代表性，是因为它们代表了在没有专门多模态 ALM 的情况下，通过组合现有技术解决音频-文本任务的“朴素”方法，为 ALMs 的实际性能提供了重要参照。

音频语言模型 (ALMs): 这些模型代表了当前最先进的 ALMs，包括闭源和开源模型。

Google Gemini 系列:
- Gemini 1.5 Pro (001), Gemini 1.5 Flash (001), Gemini 1.5 Pro (002), Gemini 1.5 Flash (002)
- Gemini 2.0 Flash (Experimental), Gemini 2.0 Flash, Gemini 2.0 Flash Lite
- Gemini 2.5 Pro (05-06 preview), Gemini 2.5 Flash (05-20 preview)
OpenAI GPT-4o Audio 系列:
- GPT-4o Audio (Preview 2024-10-01), GPT-4o Audio (Preview 2024-12-17)
- GPT-4o mini Audio (Preview 2024-12-17)
Alibaba Cloud Qwen 系列 (开源):
- Qwen2-Audio Instruct (7B), Qwen2.5-Omni (7B)
  
  基线 ASR 和 LM 系统: 这些系统由一个专门的 ASR 模块负责将音频转录为文本，然后一个大型语言模型 (LM) 基于转录文本和原始文本提示来生成响应。它们用于揭示 ALMs 相对于这种“拼凑”解决方案的优势。
Whisper-1 + GPT-4o (2024-11-20): 使用 OpenAI 的 Whisper-1 ASR 模型进行转录，然后将结果输入 GPT-4o LM。
GPT-4o Transcribe + GPT-4o (2024-11-20): 使用 OpenAI 的 GPT-4o Transcribe ASR 模型进行转录，然后将结果输入 GPT-4o LM。
GPT-4o mini Transcribe + GPT-4o (2024-11-20): 使用 OpenAI 的 GPT-4o mini Transcribe ASR 模型进行转录，然后将结果输入 GPT-4o LM。

这些基线系统的代表性在于它们提供了一个强大的对比点：

它们可以揭示在哪些任务中，专门的 ASR 模块（通常经过大量语音数据训练）结合通用的 LM 已经足够，从而质疑 ALMs 的多模态融合的必要性。
它们帮助识别 ALMs 在多模态理解和推理方面真正的增益点。
通过比较，可以分析音频中非文本信息（如语调、环境音）对 ALMs 性能的影响，因为基线系统主要依赖于文本转录。

6. 实验结果与分析

6.1. 核心结果分析

本文对 14 个音频语言模型 (ALMs) 和 3 个 ASR+LM 基线系统进行了全面的评估，揭示了以下关键发现：

无模型全面称霸，Gemini 2.5 Pro 总体领先: 没有一个单一的模型能在所有场景中都表现出色。尽管 Gemini 2.5 Pro (05-06 Preview) 是总体最佳模型，获得了 0.803 的平均胜率 (Mean Win Rate, MWR)，并在 10 个方面中的 5 个方面（音频感知、推理、情感检测、多语言能力、鲁棒性）排名第一。这表明即使是顶尖的 ALMs 也存在特定领域的弱点。下图（原文 Figure A19）总结了 AHELM 中各方面模型的性能：

该图像是一个雷达图，展示了不同音频语言模型在AHELM基准中的各项性能表现。图中显示了模型在知识、推理、情感检测等10个重要方面的胜率平均值。

下图（原文 Figure A20）总结了 AHELM 中各场景模型的性能：

该图像是一个雷达图，展示了多种音频语言模型在 AHELM 中的表现。图中的各个维度代表模型在不同场景下的评分，所有得分均归一化为 0 到 1 的范围，WER 基础指标被反转处理，以确保更高的值指示更好的性能。
开源模型指令遵循能力待提高: 开源模型在遵循指令方面普遍较弱，导致性能下降。例如，当被要求“只回复转录文本，不要其他内容”时，Qwen2-Audio Instruct 却会输出“语音是英语，内容是 [正确转录]”。同样，当被要求只输出一个对应情感的词时，Qwen2.5-Omni 会在词后跟着一串解释。这表明开源模型在模型行为控制和指令理解方面仍有提升空间，尽管 Qwen2.5-Omni 相比 Qwen2-Audio Instruct 在指令遵循上已有显著改善。
专用 ASR 系统表现出更强的鲁棒性: 尽管 Gemini 2.5 Pro 对环境噪声的鲁棒性最强 (WER 为 0.039)，但由专用 ASR 模块组成的基线系统在鲁棒性方面表现突出，在所有模型中排名第 2、3 和 5 位。这表明基线系统中的专用 ASR 模块在语音识别方面更专业，并且对环境噪声更鲁棒。这可能归因于这些专用 ASR 系统中使用的特定架构和工程优化。
基线模型揭示情感检测场景信息: Gemini 2.5 Pro (05-06 Preview) 在情感检测方面得分最高 (MWR: 0.781)，但基线系统紧随其后，排名第 2 至 4 位。这一发现暗示在这些情感检测场景中，语音内容本身已包含了大量情感信息，而不仅仅是语音语调 (speech inflection) 或其他更微妙的音频线索。进一步的分析显示，基线系统在 MELD 数据集上表现最佳，但在 MUStARD 数据集上排名靠后。这表明 MELD 可能是一个相对简单的基准，其情感可以从单说话者的语音内容中推断。相比之下，MUStARD 中的讽刺检测 (sarcasm detection) 需要理解语音语调以及个体间的互动，这超出了纯文本转录所能提供的范围。
毒性检测模型表现混杂，性能因语言而异: 毒性检测 (MuToX) 任务上，模型的性能表现混杂。GPT-4o mini Audio 总体表现最佳 (平均准确率 87.4%)。基线系统则位于中间水平。令人惊讶的是，模型在法语 (EM: 0.956) 和印尼语 (EM: 0.953) 上的表现最好，而在越南语 (EM: 0.592) 和英语 (EM: 0.579) 上的表现最差。这种模式在基线系统中也存在，这可能暗示英语子集更具挑战性或经过更好的策划，或者不同文化和语言对“毒性”的定义和标准存在差异。
当前 ALMs 在 ASR 任务中对说话者性别普遍鲁棒: 在公平性评估结果中，大多数模型在不同性别的说话者语音上没有显示出统计学上的显著性能差异。然而，也有例外情况：
- 在 FLEURS 数据集上，配对样本 $t$ -test 检测到 Gemini 2.5 Pro ( $p=0.02$ ) 和 Qwen2.5-Omni ( $p=0.02$ ) 对女性说话者有显著偏好。独立的 $t$ -test 也检测到 Qwen 2.5 Omni ( $p=0.01$ ) 和 Qwen 2 Audio Instruct ( $p=0.03$ ) 对女性说话者有偏好。
- 在 LibriSpeech 数据集上，Gemini 系列模型在男性说话者语音上的词错误率 (WER) 较低（例如，Gemini 2.0 Flash 为 $p=0.06$ ，Gemini 2.5 Flash (05-20 preview) 为 $p=0.00$ ）。GPT-4o-mini Transcribe 在男性说话者上表现更好 ( $p=0.01$ )，而 GPT-4o Transcribe 则没有显示出统计学上的显著 ASR 偏见。
“转录 + LM”范式在“自然”任务中有所不足: 比较专用的 ASR 模型，GPT-4o Transcribe 和 GPT-4o Mini Transcribe 在处理“自然”语境（如 MUStARD 中摘自情景喜剧的对话，包含交替对话和潜在长停顿）的语音时，转录往往不完整。在这些情况下，Whisper-1 能够转录完整的对话，但无法识别说话者。另一方面，GPT-4o Transcribe 和 GPT-4o Mini Transcribe 能够转录人类非语言声音，例如笑声 ("haha") 或清嗓声 ("ahem")，而 Whisper-1 则不能。这使得这些模型在 VocalSounds 等场景中表现更好。
Gemini 和基线系统在多语言能力上表现良好，但受互联网数据分布影响: 基线系统和 Gemini 模型在多语言能力排行榜上占据了上半部分，其中 GPT-4o Transcribe + GPT-4o (2024-11-20) 表现最佳，其次是 Gemini 1.5 Pro (002) 和 Gemini 2.5 Pro (05-06 preview)。这表明将专用能力串联起来可以带来良好的性能。对 CoVost-2 的分析（Table A16）显示，所有模型在西班牙语到英语的翻译上都优于中文到英语，这可能反映了许多训练数据集中拉丁语系的分布偏差。在 FLEURS（多语言）场景（Table A17）中也观察到类似现象，模型在英语和芬兰语上的表现优于希伯来语、孟加拉语和泰语。
开源模型在音频知识方面可与闭源 API 模型竞争: 在音频知识方面，Qwen2-Audio Instruct 领先，其次是 Gemini 2.5 Pro (05-06 Preview) 和 Gemini 2.0 Flash。基线系统在此方面表现最差，这表明这些场景不能仅凭文本转录轻松解决，需要对非语音音频内容（例如音乐）的访问和理解。
OpenAI 模型在防御越狱攻击方面更优: 在安全性方面，OpenAI 模型对语音越狱攻击表现出鲁棒性。这可能是因为 OpenAI 已经修复了原始论文 [38] 中展示的针对 GPT-4o 的漏洞。相比之下，Qwen 2.5 Omni 和 Gemini 2.5 Pro 的拒绝率分别为 51.1% 和 53.3%，尽管它们在许多其他方面超越了 OpenAI 模型。

6.2. 数据呈现 (表格)

以下是原文 Table A13 的结果：

Model	FLEURS (fairness)
Model	p-value (paired)	t-stat (paired)	DoF (paired)	p-value (indp)	t-stat (indp)	DoF (indp)
Gemini 1.5 Pro (001)	0.24	1.18	130	0.32	0.99	645
Gemini 1.5 Flash (001)	0.41	0.83	130	0.77	0.30	645
Gemini 1.5 Pro (002)	0.13	1.51	130	0.65	0.46	645
Gemini 1.5 Flash (002)	0.92	0.09	130	0.61	-0.51	645
Gemini 2.0 Flash (Experimental)	0.21	1.26	130	0.21	1.25	645
Gemini 2.0 Flash	0.17	1.39	130	0.16	1.39	645
Gemini 2.0 Flash Lite	0.51	0.66	130	0.66	0.44	645
Gemini 2.5 Pro (05-06 preview)	0.02*	2.30	130	0.34	0.95	645
Gemini 2.5 Flash (05-20 preview)	0.87	0.17	130	0.22	-1.22	645
Whisper 1	0.83	0.21	130	0.85	-0.19	645
GPT-4o Transcribe	0.78	-0.27	130	0.31	-1.02	645
GPT-4o Mini Transcribe	0.92	0.10	130	0.65	-0.45	645
GPT-4o Audio (Preview 2024-10-01)	0.33	0.98	130	0.43	0.79	645
GPT-4o Audio (Preview 2024-12-17)	0.67	-0.43	130	0.40	-0.84	645
GPT-4o mini Audio (Preview 2024-12-17)	0.91	-0.11	130	0.98	-0.03	645
Qwen2-Audio Instruct (7B)	0.85	-0.19	130	0.03*	2.13	645
Qwen2.5-Omni (7B)	0.02*	2.38	130	0.01*	2.52	645

以下是原文 Table A14 的结果：

Model	LibreSpeech (fairness)
Model	p-value (indp)	t-stat (indp)	DoF (indp)
Gemini 1.5 Pro (001)	0.39	0.86	1998
Gemini 1.5 Flash (001)	0.53	-0.64	1998
Gemini 1.5 Pro (002)	0.85	-0.19	1998
Gemini 1.5 Flash (002)	0.14	1.48	1998
Gemini 2.0 Flash (Experimental)	0.06*	-1.90	1998
Gemini 2.0 Flash	0.06*	-1.89	1998
Gemini 2.0 Flash Lite	0.03*	-2.17	1998
Gemini 2.5 Pro (05-06 preview)	0.21	-1.25	1998
Gemini 2.5 Flash (05-20 preview)	0.00*	-3.22	1998
Whisper 1	0.21	-1.25	1998
GPT-4o Transcribe	0.27	-1.09	1998
GPT-4o Mini Transcribe	0.01*	-2.62	1998
GPT-4o Audio (Preview 2024-10-01)	0.28	-1.07	1998
GPT-4o Audio (Preview 2024-12-17)	0.36	0.91	1998
GPT-4o mini Audio (Preview 2024-12-17)	0.99	-0.01	1998
Qwen2-Audio Instruct (7B)	0.51	-0.66	1998
Qwen2.5-Omni (7B)	0.47	-0.72	1998

6.3. 消融实验/参数分析

本文没有进行传统的消融实验来验证模型各组件的有效性。然而，通过引入 ASR+LM 基线系统，并在不同场景下对比其与端到端 ALMs 的性能，实际上也达到了类似消融实验的目的——即通过比较“多模态融合”与“模态分离后信息拼接”两种范式，来间接分析 ALMs 中音频-文本融合的有效性。

基线系统作为准消融实验:
- 在情感检测场景: 基线系统（如 GPT-4o Transcribe + GPT-4o）在 MELD 数据集上表现与最佳 ALMs 接近，这表明 MELD 的情感线索主要存在于语音内容中，而非需要高级的音频特征或语调理解。这暗示了在某些任务中，端到端多模态融合的增益可能不那么显著。
- 在知识方面: 基线系统在此方面得分最差，这表明知识获取需要对非语音音频内容（例如音乐）的访问和理解，而 ASR 转录无法提供这些信息。这反过来验证了 ALMs 整合非语音音频信息的重要性。
- 在鲁棒性方面: 基线系统表现优异，占据鲁棒性排行榜前五名中的三席，甚至优于大多数端到端 ALMs。这说明专用 ASR 模块在处理环境噪声方面具有显著优势，侧面证明了其在架构和工程上的优化是有效的。
参数分析:
- 标准化参数: 为了确保公平比较，本文将所有模型的温度 (temperature) 设置为 0，最大输出词元 (token) 数设置为 200。这种标准化避免了模型因不同参数设置而产生的性能波动，使得结果更具可比性。虽然没有直接进行参数敏感性分析，但这种固定参数的做法本身就是一种实验设计选择，旨在消除参数对评估结果的混淆影响。
CoRe-Bench 的内部分析:
- 对话轮数影响: 在 CoRe-Bench 上，模型的准确率随对话轮数 (number of dialogue turns) 的增加仅略有提升。这表明即使对话变长，模型在推理上的进步也很有限。下图（原文 Figure A13）展示了模型的准确率与对话轮数的关系：
  
  该图像是一个图表，展示了不同模型在对话数量与准确率之间的关系。随着对话数量的增加，模型的平均性能略有提升，黑色虚线表示平均准确率。
- 说话人数影响: 模型的准确率与说话人数 (number of speakers) 无关。这表明模型处理多说话者对话的能力可能存在瓶颈，或者说说话者数量的增加并未显著增加任务的难度。下图（原文 Figure A14）展示了模型的准确率与说话人数的关系：
  
  该图像是图表，展示了模型性能与说话人数之间的关系。图中显示准确率在2至5位说话者的对话中变化趋势，均值用黑色虚线表示，说明各模型的平均表现与说话人数无关。
- 问题主题影响: 模型在“谁是第一/第二说话者？”这类涉及识别说话者名字的问题上表现不佳。这可能暗示模型在语音分离（即“鸡尾酒会问题 (cocktail party problem)”）和/或将语音与特定身份关联方面的弱点。下图（原文 Figure A15）展示了模型的准确率与对话主题的关系：
  
  该图像是一个图表，展示了模型在不同问题类别上的准确性。模型在关于“名字”的问题上表现较差，准确率最低，而在一些其他类别问题上准确率则相对较高。
- 幻觉评估: 对不可回答问题 (unanswerable instances) 的评估显示，OpenAI 模型（特别是 GPT-4o-mini-audio）倾向于过度标记问题为“不可回答”，导致高召回率但低精确率，F1 分数较低。而 Gemini 模型在这方面表现更好，但仍有改进空间。这揭示了模型在判断问题可回答性方面的差异。

7. 总结与思考

7.1. 结论总结

本文引入了 AHELM，一个针对音频语言模型 (ALMs) 的全面、标准化评估基准。通过识别 10 个关键的技术和社会方面，并整合 14 个现有数据集及 2 个新颖的合成数据集（PARADE 用于偏见检测，CoRe-Bench 用于对话推理），AHELM 实现了对 ALMs 前所未有的整体评估。研究标准化了评估流程，包括统一的零-shot 提示、推理参数和评估指标，确保了模型间比较的公平性。

实验结果表明，没有单一模型能在所有方面都表现卓越，即使是顶尖的 Gemini 2.5 Pro 也存在特定弱点（如在 ASR 任务上的群体不公平性）。一个重要的发现是，由独立 ASR 模块和语言模型组成的简单基线系统在许多场景下表现出惊人的竞争力，甚至在鲁棒性方面优于大多数 ALMs，这暗示了专用 ASR 模块的强大能力和工程优化。此外，研究还揭示了开源模型在指令遵循上的不足，以及模型在不同语言和任务（如毒性检测、说话者识别）上性能的差异。AHELM 的发布及其持续更新的承诺，为 ALMs 的未来研究和开发提供了宝贵的工具和洞察。

7.2. 局限性与未来工作

评估方面的完整性: 尽管 AHELM 识别了 10 个重要方面，但仍可能存在其他未被涵盖的重要评估维度。随着 ALMs 技术的发展和应用场景的扩展，需要不断审视和补充新的评估方面。
数据集的局限性:
- 非语音内容评估: 某些场景（例如 MELD 情感检测）可能需要改进，以更有效地评估 ALMs 从非语音内容（如语调、节奏）中提取信息的能力，而非仅仅依赖语音内容。基线系统在 MELD 上的良好表现暗示了这一点。
- 数据集的真实性与多样性: 尽管 CoRe-Bench 和 PARADE 采用合成数据来克服真实数据获取的挑战，但合成数据可能无法完全捕捉真实世界音频的复杂性和细微差别。
结果的情境化: 基准测试结果是技术性的，需要进一步的工作来理解其细微之处，并将其与现实世界的影响关联起来，这仍是未来的工作。
LLM 评估者的局限性: 尽管 GPT-4o 作为评估者被验证与人类评分高度一致，但 LLM 评估者可能仍存在固有的问题，如自偏好、一致性问题、位置偏见或偏爱更长输出。不同的 LLM 评估者可能会影响排行榜的稳定性，这也是一个未来研究方向。
未来研究方向:
- 基线系统启发: 鼓励将专用 ASR 系统的一些设计（如鲁棒性优化）融入 ALM 架构中，以提升 ALMs 在语音识别任务上的性能和对噪声的鲁棒性。
- 合成数据生成: CoRe-Bench 和 PARADE 的合成数据生成方法可用于创建更多基准和训练数据，从而推动 ALMs 社区开发更多新颖、高质量的数据集。
- 活基准的维护: 随着时间的推移，AHELM 将持续添加新的数据集、模型和评估指标，以适应不断变化的 ALM 生态系统。

7.3. 个人启发与批判

启发:
- 整体评估的重要性: 本文强调了从多方面对多模态模型进行整体评估的必要性，尤其是在模型能力日益强大的背景下，除了技术指标，社会维度（如公平性、偏见、安全性）的评估变得不可或缺。这对于指导负责任的人工智能发展具有重要意义。
- 基线系统的价值: 引入“ASR + LM”基线系统是一个巧妙且具有启发性的设计。它不仅提供了一个性能参照，更重要的是，通过对比，能够深入剖析端到端 ALMs 的真正优势所在，以及哪些任务中多模态融合的价值尚未充分体现，从而为模型设计者提供了明确的改进方向。例如，在鲁棒性方面，专用 ASR 模块的强大性能提示，ALMs 可以考虑集成 ASR 领域的最佳实践。
- 合成数据生成潜力: CoRe-Bench 和 PARADE 的合成数据生成流程展示了利用 LLMs 和 TTS 技术快速、可扩展地构建高质量、有针对性的评估数据集的巨大潜力，尤其是在真实数据难以获取或存在隐私风险的领域。
- 标准化与透明化: 整个评估框架对提示、参数、指标的标准化以及所有结果和代码的公开，为整个研究领域树立了典范，极大地促进了科学的透明度和可复现性。
批判与改进:
- 合成数据偏差: 尽管合成数据解决了规模和隐私问题，但其生成过程仍依赖于作为生成器的 LLMs 的固有偏见和知识范围。如果生成 LLMs 本身存在偏见，或其训练数据未能充分代表真实世界的复杂性，那么合成数据集也可能继承这些问题，进而影响对被评估 ALMs 的真实反映。例如，CoRe-Bench 在“无关问题增强”中对抗幻觉的能力，其问题的“无关性”也取决于生成 LLM 的理解。
- LLM 评估者的局限性: 尽管 GPT-4o 作为评估者表现出色，但其作为模型，仍可能存在潜在的系统性偏好（如对特定语言风格或推理路径的偏好）。本文承认了这一点，并提出未来工作应探索不同评估者对排行榜稳定性的影响，这是一个重要的自省。
- “活基准”的挑战: 作为一个“活基准”，AHELM 面临持续维护的挑战。随着新模型和新任务的出现，如何高效、公平地将它们整合进来，并保持评估的及时性和相关性，需要持续投入大量资源。
- 公平性指标的深度: 虽然引入了统计学方法检测公平性，但“公平”本身是一个复杂且多维的概念。当前的指标主要关注性能差异。未来可以探索更深层次的公平性定义，例如机会均等、结果均等、过程公平等。
- “鸡尾酒会问题”的深入评估: CoRe-Bench 中“识别说话者姓名”的低准确率揭示了模型在“鸡尾酒会问题”上的弱点。这表明模型在区分、跟踪和理解多说话者对话中的个体贡献方面仍有显著提升空间，这是一个非常实际且重要的挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。