Model-Free Assessment of Simulator Fidelity via Quantile Curves
TL;DR 精炼摘要
本文提出了一种无模型的方法,通过分位数函数评估复杂系统模拟与真实结果之间的差异,关注输出不确定性,并将模拟器视为黑盒应用,适用于各种参数模型。该方法支持构建置信区间、风险感知摘要及模拟器性能比较,并在世界价值基准数据集上评估大型语言模型的保真度。
摘要
Simulation of complex systems originated in manufacturing and queuing applications. It is now widely used for large-scale, ML-based systems in research, education, and consumer surveys. However, characterizing the discrepancy between simulators and ground truth remains challenging for increasingly complex, machine-learning-based systems. We propose a computationally tractable method to estimate the quantile function of the discrepancy between the simulated and ground-truth outcome distributions. Our approach focuses on output uncertainty and treats the simulator as a black box, imposing no modeling assumptions on its internals, and hence applies broadly across many parameter families, from Bernoulli and multinomial models to continuous, vector-valued settings. The resulting quantile curve supports confidence interval construction for unseen scenarios, risk-aware summaries of sim-to-real discrepancy (e.g., VaR/CVaR), and comparison of simulators' performance. We demonstrate our methodology in an application assessing LLM simulation fidelity on the WorldValueBench dataset spanning four LLMs.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Model-Free Assessment of Simulator Fidelity via Quantile Curves (通过分位数曲线对模拟器保真度进行无模型评估)
1.2. 作者
Garud Iyengar, Yu-Shiou Willy Lin, Kaizheng Wang
1.3. 发表期刊/会议
预印本(arXiv)
1.4. 发表年份
2025年
1.5. 摘要
本文提出了一种计算可行的方法,用于估计模拟器 (simulator) 和真实结果 (ground-truth outcome) 分布之间差异的 分位数函数 (quantile function)。该方法的核心在于关注 输出不确定性 (output uncertainty),并将模拟器视为 黑盒 (black box),不对其内部结构做任何建模假设。这使得该方法能够广泛应用于各种参数族,从 伯努利 (Bernoulli) 和 多项式模型 (multinomial models) 到连续的 向量值设置 (vector-valued settings)。通过这种方法得到的 分位数曲线 (quantile curve) 支持构建 未见场景 (unseen scenarios) 的 置信区间 (confidence interval),对 模拟到真实差异 (sim-to-real discrepancy) 进行 风险感知 (risk-aware) 汇总(例如 风险价值 (VaR) 和 条件风险价值 (CVaR)),以及比较不同模拟器的性能。作者在 WorldValueBench 数据集上,通过评估四种 大型语言模型 (LLM) 的模拟保真度来展示了该方法的有效性。
1.6. 原文链接
https://arxiv.org/abs/2512.05024v1 PDF 链接: https://arxiv.org/pdf/2512.05024v1.pdf 发布状态:预印本(v1)
2. 整体概括
2.1. 研究背景与动机
2.1.1. 论文试图解决的核心问题
随着 复杂系统 (complex systems) 模拟的广泛应用,尤其是在 机器学习 (ML) 驱动的系统(如 大型语言模型 (LLMs)、数字孪生 (digital twins))中,如何量化和表征 模拟器 (simulator) 输出与 真实世界 (real-world) 结果之间的 差异 (discrepancy) 成为了一个日益严峻的挑战。现有方法往往依赖于对模拟器内部结构或数据分布的强假设,这在面对日益复杂的黑盒模型时变得不切实际。论文的核心问题是:如何在 模型无关 (model-free) 的情况下,对模拟器与真实结果之间的差异进行 不确定性量化 (uncertainty quantification, UQ),并提供 有限样本保证 (finite-sample guarantee) 的 差异分布 (distribution of discrepancy)。
2.1.2. 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白?
- 复杂系统的普遍性与黑盒特性: 现代模拟系统,特别是基于 LLM 或深度神经网络的系统,极其复杂且通常作为
黑盒(black box) 存在,无法对其内部机制进行精确建模或校准参数。这使得传统依赖于模型假设的不确定性量化(UQ) 方法失效。 - 模拟到真实 (sim-to-real) 差距: 在机器人、计算系统和 LLM 等领域,
模拟到真实差距(sim-to-real gap) 已被广泛记录。准确理解和量化这一差距对于这些系统的可靠部署至关重要。 - 现有 UQ 文献的局限性:
输入不确定性(Input Uncertainty) 与输出不确定性(Output Uncertainty) 的区分: 传统 UQ 关注输入不确定性,假设模拟器本身是准确的,只关注输入数据误差如何传播到输出。而本文关注输出不确定性,直接表征模拟器输出与真实世界结果之间的固有差异(包括偏差(bias) 和方差(variance))。- 渐近保证与有限样本: 许多 UQ 文献提供的是
渐近保证(asymptotic guarantees),但在实际应用中,尤其是在可用场景数量有限时,有限样本保证(finite-sample guarantees) 更加关键。 - 特定函数与整个分布: 现有工作常通过评估特定
函数(functionals)(如平均误差(average error) 或固定分位数(quantile level) 的界限)来汇总差异,缺乏对差异整个分布(entire distribution) 的全面描述,从而限制了对复杂风险的评估。
- LLM 模拟的挑战: LLM 作为人类响应的
数字孪生(digital twin) 越来越受欢迎,但其输出的保真度(fidelity) 和对齐(alignment) 问题日益突出。一个无模型、可量化差异的方法对于评估和改进 LLM 模拟至关重要。
2.1.3. 这篇论文的切入点或创新思路是什么?
论文的创新思路在于提出了一种 无模型 (model-free) 且 计算可行 (computationally tractable) 的方法,通过估计 差异的分位数函数 (quantile function of the discrepancy) 来评估模拟器的保真度。
- 无模型黑盒处理: 将模拟器视为黑盒,不作任何内部建模假设,专注于
输出不确定性,这使其适用于各种复杂、ML 驱动的系统。 - 分位数函数估计: 不仅仅关注某个单一的统计量(如均值或特定分位数),而是旨在估计差异的
整个分位数函数。这提供了更灵活和信息丰富的诊断工具,支持构建置信区间、风险感知汇总(risk-aware summaries)(如 VaR/CVaR)和模拟器性能比较。 - 有限样本保证: 提供了
有限样本保证,这在可用场景数量有限时至关重要。 置信集(Confidence Set) 和伪差异(Pseudo-Discrepancy) 构造: 引入了基于集中不等式(concentration inequalities) 的置信集构造,为每个场景计算一个最坏情况差异(worst-case discrepancy),即伪差异。- 借鉴
保形推断(Conformal Inference) 思想: 方法精神与保形推断类似,但针对sim-to-real 差异的分布特性和异构样本量(heterogeneous sample sizes) 进行了适配。
2.2. 核心贡献/主要发现
论文的主要贡献包括:
- 无模型、黑盒评估框架: 提出了一个
无模型(model-free) 的模拟器保真度评估框架,不依赖于对模拟器或真实结果的任何参数假设。这使得它能够广泛应用于各种黑盒模拟器,并提供了一种新颖的模拟器比较方法。 - 有限样本分位数函数估计: 能够估计
差异的整个分位数函数,并提供有限样本保证(finite-sample guarantees) 的校准(calibrated) 估计。这超越了现有工作中仅关注特定统计量(如均值或固定分位数)的局限。 - 支持灵活的统计量: 由于获得了分位数函数,该方法自然支持从
均值(means) 到尾部风险度量(tail-risk measures)(如条件风险价值(CVaR))的各种汇总统计量。此外,通过利用模拟估计量,可以为真实世界参数(real-world parameters) 构建置信区间。 - 成对模拟器比较: 扩展了框架以支持
成对模拟器比较(pairwise comparison of simulators),允许对哪个模拟器更接近现实做出统计上稳健的断言。 - LLM 模拟保真度应用: 在 WorldValueBench 数据集上应用了该方法,评估了四种 LLM 的模拟保真度。结果表明,GPT-4o 在所有
分位数上表现出最佳的对齐性,且方法在不同样本量(n) 下表现出鲁棒性。
2.3. 论文得出了哪些关键的结论或发现?
- 方法有效性: 提出的无模型方法能够有效评估复杂
黑盒模拟器的保真度,并提供有限样本保证。 - 分位数曲线的诊断价值:
校准分位数曲线(calibrated quantile curve) 提供了比单一统计量更丰富的诊断信息,能揭示模拟器在不同差异水平(discrepancy levels) 下的表现,包括平均偏差(average bias) 和极端情况下的失败(severe misses)。 - LLM 性能评估: 在 WorldValueBench 数据集上,所有 LLM 模拟器都显著优于
均匀基线(uniform baseline)。其中,GPT-4o 表现出最高的保真度,在所有分位数上都显示出最小的差异,而 GPT-5-MINI 紧随其后。LLAMA 3.3 70B 和 QWEN-3-235B 的性能相对较差。 - 鲁棒性: 模拟器性能的相对优势在不同的
真实世界样本量() 下保持一致,验证了方法的鲁棒性。 - 紧致性 (Tightness): 随着每个场景的真实世界样本量 的增加,
校准分位数曲线会收敛到真实分位数曲线(true quantile curve),表明该方法在样本量充足时具有良好的紧致性。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 模拟器 (Simulator)
在本文中,模拟器 (simulator) 是指一个能够模仿 真实世界系统 (real-world system) 行为并生成 输出 (output) 的计算模型。这些模拟器通常是复杂的,例如基于 大型语言模型 (LLM) 或 深度神经网络 (deep neural network) 的 数字孪生 (digital twin)。模拟器的目标是尽可能准确地复制真实世界的响应,以便在无需实际部署或进行昂贵实验的情况下进行研究、教育或决策。
3.1.2. 真实标注数据 (Ground Truth)
真实标注数据 (Ground Truth) 指的是来自 真实世界系统 的实际观测结果或数据。在评估模拟器性能时,它被用作衡量模拟器输出准确性的 黄金标准 (gold standard)。例如,在调查应用中,人类受访者的实际回答就是 真实标注数据。
3.1.3. 模拟到真实差异 (Sim-to-Real Discrepancy)
模拟到真实差异 (sim-to-real discrepancy) 是指 模拟器输出分布 (simulated outcome distribution) 与 真实结果分布 (ground-truth outcome distribution) 之间的不一致性。量化这种差异是评估模拟器 保真度 (fidelity) 的核心目标。本文使用一个用户选择的 差异函数 (discrepancy function) 来度量这种差异。
3.1.4. 输出不确定性量化 (Output Uncertainty Quantification)
不确定性量化 (Uncertainty Quantification, UQ) 旨在识别、量化和减少与计算模型输出相关的不确定性。输出不确定性量化 (Output Uncertainty Quantification) 特指直接关注模拟器 输出 与 真实世界 之间差异的量化,而不是关注模型内部参数或输入数据的误差传播。这与 输入不确定性 (input uncertainty) 不同,后者假设模拟器本身是完美的,只关注输入误差的影响。
3.1.5. 黑盒模拟器 (Black Box Simulator)
黑盒模拟器 (black box simulator) 指的是其内部机制或数学形式对用户或评估者不透明的模拟器。这意味着我们无法直接访问或修改其内部参数,也无法对其建模假设进行验证。本文方法的一个关键特点就是将模拟器视为黑盒,从而使其具有广泛的适用性。
3.1.6. 分位数函数 (Quantile Function)
对于一个随机变量 及其 累积分布函数 (Cumulative Distribution Function, CDF) ,其 分位数函数 (quantile function) 定义为 。它返回使得随机变量 小于或等于 的概率至少为 的最小值。简单来说,它表示了分布中第 个百分位点的值。例如,0.5 分位数就是 中位数 (median)。在本文中,分位数函数用于描述 模拟到真实差异 的整个分布。
3.1.7. 置信集 (Confidence Set)
置信集 (Confidence Set) 是统计学中用于估计未知参数的区间推广。它是一个由数据构建的集合,以预设的 置信水平 (confidence level) 包含 真实参数 (true parameter) 的概率。例如,一个 95% 的置信集意味着,如果我们重复采样和构建置信集多次,大约有 95% 的置信集会包含真实参数。在本文中,置信集 用于在给定 估计参数 的情况下,界定 真实参数 的可能范围。
3.1.8. 集中不等式 (Concentration Inequalities)
集中不等式 (Concentration Inequalities) 是一类在概率论中用于估计随机变量偏离其 期望值 (expected value) 的概率的数学工具。它们提供了随机变量分布 尾部 (tail) 的 上界 (upper bounds)。本文使用 切尔诺夫-霍夫丁不等式 (Chernoff-Hoeffding inequality) 及其变体来构建 置信集,例如用于 多项式分布 (multinomial distribution) 和 有界结果 (bounded outcomes)。
3.1.9. 风险价值 (Value at Risk, VaR) 与 条件风险价值 (Conditional Value at Risk, CVaR)
风险价值(VaR): 表示在一定置信水平(或概率) 下,某一资产(asset) 或投资组合(portfolio) 在未来特定时间段内可能遭受的最大损失。例如,95% VaR 是指在 95% 的情况下,损失不会超过某个值。条件风险价值(CVaR): 也称为期望亏空(Expected Shortfall, ES),是在损失超过VaR 的前提下,预期损失的平均值。CVaR 是一种比 VaR 更全面的风险度量,因为它考虑了尾部风险的严重程度,而不是仅仅给出一个阈值。在本文中,CVaR用于对模拟到真实差异的尾部风险进行风险感知汇总。
3.2. 前人工作
- 模拟不确定性量化 (Simulation Uncertainty Quantification, S-UQ):
- 输入不确定性 (Input Uncertainty): 传统 S-UQ 关注
输入不确定性,即假设模拟器准确,但输入分布存在误差,目标是量化这些输入误差如何传播到输出(例如,Chen et al., 2024; Barton et al., 2014; Lam, 2022)。这些工作主要构建置信区间或CDF 的不确定性带。 - 与本文的区别: 本文关注
输出不确定性,将模拟器视为黑盒,直接量化sim-to-real 差异,并同时考虑偏差(bias) 和方差(variance),而非仅蒙特卡洛噪声(Monte Carlo noise)。本文提供的是有限样本保证,而非渐近保证。
- 输入不确定性 (Input Uncertainty): 传统 S-UQ 关注
- LLM 领域的输出不确定性:
- 最近 LLM 文献也开始关注
模型无关(model-agnostic) 的输出不确定性量化,例如 Santurkar et al. (2023a) 将sim-to-real 差距汇总为单一的标量误差摘要(scalar summary of error) 或偏差(bias),Huang et al. (2025) 限制了固定分位数水平(fixed quantile level) 的差异。 - 与本文的区别: 这些方法评估的是
差异分布的特定函数(functionals),而本文旨在近似整个分位数函数,提供更灵活和信息丰富的诊断。
- 最近 LLM 文献也开始关注
- 保形推断 (Conformal Inference):
保形推断(Vovk et al., 2005; Bates et al., 2021) 旨在为黑盒预测器(black-box predictor) 提供分布无关(distribution-free) 的有限样本保证。- 与本文的区别: 经典的
保形推断主要用于给定输入下的点覆盖(pointwise coverage),而不是sim-to-real 差异的分布。针对分布对象(distributional objects) 的保形变体(Snel et al., 2022; Budde et al., 2025) 仍假设更同构的数据结构(homogeneous data structures),并且没有解决异构样本量(heterogeneous sample sizes) 的问题。本文框架通过提供专门针对评估黑盒模拟器且处理异构真实世界数据的有限样本、分布级别保证,填补了这一空白。
3.3. 技术演进
- 早期模拟:
复杂系统模拟(Simulation of complex systems) 最早起源于制造业(manufacturing) 和排队论应用(queuing applications),主要用于优化生产流程、资源调度等。 - AI 驱动的模拟: 随着
人工智能(AI) 的发展,尤其是大型语言模型(LLM) 和深度学习(deep learning) 的进步,模拟技术得到了显著加速。现在,模拟被广泛应用于大规模、基于 ML 的系统,例如agent-based modeling(Macal, 2016)、用户调查(Argyle et al., 2023; Aher et al., 2023) 和数字孪生(digital twins) (NVIDIA Omniverse, Earth-2)。LLMs 甚至被用于创建能够复制人类响应的生成式 AI 代理(generative AI agents) (Park et al., 2023; Lu et al., 2025)。 - 不确定性量化需求: 随着模拟系统复杂性和应用范围的扩大,量化
模拟到真实差异的需求变得越来越迫切。早期不确定性量化(UQ) 主要关注输入不确定性和蒙特卡洛噪声。 - 从特定统计量到分布: 近年来,研究开始从关注单一的
误差度量(error measure) 或特定分位数(fixed quantile) 转向理解差异的整个分布。 - 本文的位置: 本文的工作处于
AI 驱动模拟和高级不确定性量化的交叉点。它通过提供一种无模型、有限样本保证的分位数函数估计方法,来解决黑盒模拟器与真实世界之间日益复杂的sim-to-real 差距问题,特别是针对异构样本量的挑战。
3.4. 差异化分析
本文的方法与相关工作的主要区别和创新点如下:
- 无模型与黑盒假设:
- 传统 UQ: 往往依赖于对模拟器内部机制或输入分布的假设。
- 本文: 将模拟器视为
黑盒,不作任何内部建模假设,专注于输出不确定性,这使其能够应用于任何 ML 驱动的复杂模拟器,而无需了解其内部结构。
- 量化目标:
整个分位数函数vs.特定统计量:- 现有 LLM UQ: Santurkar et al. (2023a) 聚合为单一
标量摘要,Huang et al. (2025) 关注固定分位数水平的界限。 - 本文: 旨在估计
差异的整个分位数函数。这提供了更全面、灵活的诊断信息,支持风险感知汇总(VaR/CVaR)和置信区间构建,而不仅仅是单一的误差值或固定百分位的界限。
- 现有 LLM UQ: Santurkar et al. (2023a) 聚合为单一
- 保证类型:
有限样本保证vs.渐近保证:- 传统 UQ: 许多工作提供的是
渐近保证,即在大样本量下才成立。 - 本文: 提供了
非空(non-vacuous) 的有限样本覆盖保证(finite-sample coverage guarantees),这在实际应用中,尤其是在场景数量() 有限时,更具实用价值。
- 传统 UQ: 许多工作提供的是
- 异构样本量处理:
- 现有
保形推断变体: 针对分布对象(distributional objects) 的保形推断方法(Snel et al., 2022; Budde et al., 2025)通常假设同构(homogeneous) 的数据结构。 - 本文: 通过为每个场景构建
置信集,并处理每个场景真实世界样本量() 的异构性(heterogeneity),填补了这一空白。
- 现有
- 应用范围:
- 传统 UQ: 更侧重于
制造、排队系统等传统领域。 - 本文: 能够应对
ML 驱动的数字孪生、LLM 模拟等新兴和复杂应用场景,提供了一种通用的评估框架。
- 传统 UQ: 更侧重于
4. 方法论
本节将详细阐述论文提出的 无模型模拟器保真度评估 方法。该方法的核心目标是构建一个 校准函数 (calibrated function) ,用于近似 模拟到真实差异 的 分位数函数 ,并提供 有限样本覆盖保证。
4.1. 问题定义与符号
我们首先定义问题中的关键概念和符号。
- 场景 (Scenario): ,表示从
场景池分布(scenario pool distribution) 中抽取的特定任务或问题。我们观察到 个场景,记为 。 - 真实系统 (Real System) / 人群 (Human Population): 由一个
潜在特征(latent profile) 及其人口分布(population distribution) 刻画。对于每个场景 和潜在特征 ,真实系统产生一个分类结果(categorical outcome) ,其条件分布(conditional distribution) 为 。 - 模拟器 (Simulator) / LLM: 产生一个
结果,其条件分布为 ,其中 是从模拟器人口分布中抽取的合成特征(synthetic profile), 表示LLM 设置(LLM settings)(如提示策略(prompting strategy)、超参数(hyperparameters) 等)。 - 总体统计量 (Population Statistic): 对于每个场景 ,我们关注一个
总体统计量,它是条件分布的函数(functional),且位于参数空间(parameter space) 中。类似地,模拟器的总体统计量为 。- 在
多项式结果(multinomial outcomes) 的例子中, (d-1单纯形(simplex)), 是调查受访者的平均响应(mean response)。 - 形式化表示:
- 其中 和 分别表示真实系统和模拟器在给定 下的
概率向量(probability vector)。
- 在
- 有限样本观测: 对于每个场景 :
- 我们观察到 个
真实标注结果:,其中 。 - 我们生成 个
模拟结果:,其中 。 - 和 分别是 和 的
估计量(estimators)。注意,为了标准化模拟器采样,所有场景的模拟样本数 固定。
- 我们观察到 个
- 数据集 (Dataset): 。
- 差异函数 (Discrepancy Function): 是一个用户选择的函数,用于度量
模拟统计量和真实统计量之间的差异。例如,KL 散度(Kullback-Leibler divergence) 或Wasserstein 距离(Wasserstein distance)。 - 真实差异 (True Discrepancy): 对于每个场景 ,我们定义
真实差异为 。这里的 使用 个模拟样本进行估计。 - 分位数函数 (Quantile Function): 是当 时 的
累积分布函数(CDF) 对应的分位数函数。 - 目标: 构建一个
校准函数,使得对于新的 和所有 ,以下关系以高概率成立: 其中 随着 消失。
4.2. 核心方法详解
本文方法分为两个主要步骤:
4.2.1. 步骤 1:计算伪差异 (Pseudo-Discrepancy)
对于每个场景 ,我们首先构建一个 置信集 (confidence set) 来捕获 真实参数 的不确定性。然后,基于这个置信集和模拟器估计 ,计算一个 伪差异 。
-
构建 的置信集 :
-
这个
置信集是基于真实标注数据及其估计量 构造的。 -
它满足一个关键属性:
真实参数以预设的覆盖概率(coverage probability) 落在 中,即 。在主定理中,作者选择 。 -
置信集的具体形式取决于结果类型(outcome type) 和差异函数(discrepancy function)。本文提供了几个例子: -
示例 3.1 (多项式置信集 - Multinomial Confidence Set): 如果结果是
多项式分布(multinomial outcomes),参数空间 (d-1单纯形(simplex)),并且使用KL 散度(Kullback-Leibler divergence) 。 置信集定义为: 这个界限是Chernoff-Hoeffding 不等式的变体(见Lemma A.5)。 -
示例 3.2 (有界结果 - Bounded Outcomes): 如果结果 有界于
[a, b],且 是样本均值(sample mean)。 置信集定义为: 这个界限基于Hoeffding 不等式。 -
示例 3.3 (伯努利置信集 - Bernoulli Confidence Set): 如果结果 服从
伯努利分布。 置信集定义为: 这里 是伯努利分布之间的KL 散度(见Lemma A.4)。 -
示例 3.4 (非参数 置信集 - Nonparametric Confidence Set): 对于场景 , 是 个样本的
经验分布(empirical distribution)。假设真实结果 是 -次高斯(-sub-Gaussian)。 置信集定义为: 其中, 这个界限基于Wasserstein 距离的集中不等式(L.A. and Bhat 2022)。
-
-
计算伪差异 : 一旦构建了
置信集,伪差异被定义为在置信集内,真实参数的所有可能值与模拟估计量之间差异函数的上确界(supremum)。- 直观上, 代表了在给定观测数据下,场景 的
最坏情况差异(worst-case discrepancy)。 - 可计算性: 对于特定的
差异函数和置信集, 是可计算(tractable) 的。- KL 散度: 如果 是基于
KL 散度的集合,且 ,那么上确界的最大化器(maximizer) 位于置信集的边界上,可以通过一维对偶搜索(one-dimensional dual search) 或其他最大化技术(maximization techniques) 计算。 - Wasserstein-1 距离: 如果 是基于 的集合,且 ,则利用
三角不等式(triangle inequality) 可以得到一个上界: 这使得 简化为一个可处理的实数值(tractable, real-valued number)。
- KL 散度: 如果 是基于
- 直观上, 代表了在给定观测数据下,场景 的
4.2.2. 步骤 2:估计校准分位数曲线
在获得每个场景的 伪差异 后,我们利用它们的 经验分布 (empirical distribution) 来估计 差异的分位数函数。
- 经验 -分位数:
被定义为
伪差异的 \alpha: 这通常通过对 进行排序,然后选择对应分位数位置的值来实现。
4.3. 理论保证 (Theoretical Guarantee)
本文提出了两个关键的 假设 (assumptions) 和一个 主定理 (main theorem) 来保证所提方法的有效性。
4.3.1. 假设 (Assumptions)
- 假设 3.1 (独立数据 - Independent Data): 场景 独立同分布 (i.i.d.) 地从 中抽取。此外,给定所有场景 ,数据对 是独立的,并且对于每个 ,
真实标注数据和模拟数据在条件于 下是独立的。新的测试场景 独立于校准数据 。 - 假设 3.2 (正则差异 - Regular Discrepancy):
差异函数在 上是联合连续(jointly continuous) 的,并且对于所有 ,满足 。
4.3.2. 定理 3.1 (Calibrated Quantile Curve Theory)
定理 3.1: 假设 假设 3.1 和 假设 3.2 成立。对于任何模拟样本量 ,定义 和 ,其中 置信集 是数据驱动的 紧致置信集 (compact confidence sets),满足 。那么,对于任何 ,以至少 的概率在 上,我们有以下保证:
其中
特别地,余项 (remainder) 是 ,对于任何 ,当 时,该余项消失。
- 定理的含义: 这个定理表明,我们构造的
经验伪分位数能够以高概率覆盖真实差异的分位数。为了达到 级别的覆盖,我们需要评估经验伪分位数在一个稍大的指数 处的值。余项衡量了由于有限场景数() 和校准过程引入的误差,它会随着 的增加而减小。 - 直观解释:
置信集: 通过为 构建置信集,并计算伪差异为置信集上的上确界,我们确保了 以至少 的概率大于或等于真实差异。- **
经验分位数调整:** 由于 是真实差异的保守估计(conservative estimate),为了获得对真实差异分布的覆盖保证,我们需要在经验伪分位数上向更保守(conservative) 的方向(即更大的分位数索引)进行调整。定理中的 就是这种调整的体现。 - DKW 不等式:
余项的一部分来源于Dvoretzky-Kiefer-Wolfowitz (DKW) 不等式(Lemma A.1),用于量化经验分布函数与真实分布函数之间的偏差。
4.3.3. 校准分位数曲线的用途
通过这个 校准分位数曲线 ,我们可以:
- 构建
真实参数的置信集: 对于一个未见场景和其模拟结果,我们可以构建一个置信集: 根据定理 3.1,真实参数以至少 的概率(忽略 余项)落在 中。 - 汇总模拟器性能:
为了方便汇总,定义
指数调整(index-adjusted) 的校准曲线:校准 AUC(Calibrated AUC): 聚合整个校准曲线为一个平均偏差摘要(average-bias summary)。校准 CVaR(Calibrated CVaR): 量化尾部风险。 这表示在最差的分位数范围内差异的平均值。
4.4. 成对模拟器比较 (Pairwise Simulator Comparison)
该框架可以扩展到比较两个模拟器 和 的性能。
- 定义
性能差异(Performance Discrepancy): 对于给定场景 ,定义性能差异为: 其中 和 分别是模拟器 和 的估计量。 意味着 在场景 上比 更接近真实标注数据。 - 计算
伪性能差异(Pseudo-Performance Discrepancy): 类似地,对于每个场景 ,我们计算一个伪性能差异: 这里 仍是 的置信集,且满足 。 - 经验 -分位数: 然后,我们计算 的 \alpha 。
- 定理 3.2 (Pairwise Comparison Theory):
定理 3.2: 假设
假设 3.1和假设 3.2成立。对于任何模拟样本量 ,定义差异和伪性能差异如上,其中置信集满足 。那么,对于任何 和 ,以至少 的概率在校准数据上,我们有: 其中 与定理 3.1中的形式相同,且余项为 。
- 定理的含义: 如果对于某个 ,,那么在 (1-
余项) 概率下,模拟器 至少与 一样好(即 )的场景比例至少为 。
4.5. 校准分位数曲线的紧致性分析 (Tightness Analysis)
4.5.1. 定理 5.1 (Tightness Guarantee)
定理 5.1: 假设 定理 3.1 的设置和 假设 3.1-3.2 成立。令 ,并定义 下伪差异 (lower pseudo-discrepancies) 为:
其中 是数据驱动的 置信集,满足 。令 表示 的 \alpha,而 表示 定理 3.1 中 上伪差异 的 \alpha(使用相同的 覆盖水平 )。
对于任何 ,以下 统一下界 (uniform lower bound) 成立:以至少 的概率在 校准数据 上,对于所有 :
其中 是 量级的,且在 上是统一的。
令 表示 的 分位数函数。那么,对于任何固定的 ,当 时,我们获得 渐近区间 (asymptotic band):
其中 当 时。
- 定理的含义:
定理 5.1提供了真实分位数曲线的置信带(confidence band)。通过结合上伪差异和下伪差异,我们可以确定真实分位数曲线所在的范围。这使得我们可以量化所估计的校准分位数曲线的紧致性,即它与真实曲线的接近程度。当每个场景的真实世界样本量() 足够大时,置信集将变得更小,从而使得上伪差异和下伪差异之间的差距缩小,置信带变紧。
4.6. 总结方法流程
- 数据收集: 对于 个独立同分布的场景 ,收集
真实标注数据( 个样本)和模拟数据( 个样本)。 - 参数估计: 从 和 分别估计
真实统计量和模拟统计量的点估计 和 。 - 置信集构建: 对于每个场景 ,使用
集中不等式(如Chernoff-Hoeffding)和预设的覆盖概率构建真实参数的置信集。 - 伪差异计算: 对于每个场景 ,在
置信集上计算差异函数的上确界,得到伪差异。对于成对比较,计算伪性能差异。 - 分位数曲线估计: 对所有场景的
伪差异进行排序,并计算其 \alpha ,得到校准分位数曲线。 - 理论保证: 根据
定理 3.1和定理 3.2,该校准分位数曲线提供了对真实差异分布的有限样本覆盖保证。 - 紧致性评估: 根据
定理 5.1,通过计算下伪差异和上伪差异的经验分位数,可以构建真实分位数曲线的置信带,从而评估估计的紧致性。
5. 实验设置
5.1. 数据集
本文主要使用 WorldValueBench 数据集进行实验,并在附录中展示了 EEDI 和 OpinionQA 数据集上的应用。
5.1.1. WorldValueBench 数据集
-
来源: 由 Zhao et al. (2024) 整理,基于
World Values Survey(Haerpfer et al., 2020)。 -
特点: 包含在 64 个国家进行的调查问题,旨在了解人们在 12 个类别(例如,社会价值观、安全、移民)中的态度。
-
规模: 清理后保留了 235 个不同的问题和来自 96,220 个个体的回答。
-
数据形态: 每个问题提供一组分类答案。为了进行统一比较,将每个问题的分类答案映射到 区间内的
实数值结果(real-valued outcome)。映射的方向由 GPT-5 评估答案的“理想程度”来确定(例如,从“A lot worse off”映射到 -1,到“A lot better off”映射到 1)。 -
个体协变量 (Individual-level Covariates): 包含每个受访者的
人口统计信息,例如性别、年龄、移民状态、教育、婚姻状况等。这些协变量用于构建合成特征(synthetic profiles) 和提示(prompts) 用于 LLM 模拟。以下是数据集中的具体样本示例:
Figure 2: Example of World Value Questions. Retrieved from Haerpfer et al. (2020).
该图像是图表,展示了不同 LLM 模型(如 GPT4o、GPT5mini、Llama、Qwen3和 Uniform)的校准后的 随着 的变化情况。各条曲线反映了模型在模拟与真实结果之间的差异表现。
该图展示了 World Value Questions 的一个例子:“Q199. How interested would you say you are in politics? Are you 1 Very interested, 2 Somewhat interested, 3 Not very interested, 4 Not at all interested”。这是一个典型的分类问题,用户选择一个选项来表示他们对政治的兴趣程度。
Figure 6: Text of Question 223.
该图像是一个调查问卷中的问题文本,内容为Q223:如果明天举行全国选举,您会投票给名单上的哪个政党?文本中列出了多个政党选项供受访者选择,包含'不知道'的选项。
该图展示了 Question 223 的文本:“Q223. If there were a national election tomorrow, which of the parties on this list would you vote for? (Code one number)” 之后列出了多个政党选项和“Don't know”选项。这类问题被排除,因为它难以沿着有序的情感尺度解释。
Figure 7: Example questions from the Political Interest category.
该图像是一个显示选民对其国家选举中几种现象看法的调查表。表中列出了不同问题,如投票是否公正、反对派候选人是否被阻止参选等,并标明了受访者的频率评估,选项包括"非常频繁"、"相当频繁"、"不频繁"和"根本不频繁"。
该图展示了 政治兴趣 类别中的示例问题,如“Q199. How interested would you say you are in politics?”,和“Q200. When you get together with your friends, would you say you discuss political matters…”,以及对应的回答选项。
Figure 8: Example question from the Science and Technology category.
该图展示了 科学技术 类别中的示例问题,评估人们对科学技术是否改善世界的看法,回答选项从 1 到 10,其中 1 为“A lot worse off”,10 为“A lot better off”。
Figure 9: Example question from the Migration category.
该图像是一个评分表,展示了对某项任务或服务的评估标准。评分从1到5分,分别表示'非常差'到'非常好',中间的'一般'评分为3分。这种评分标准通常用于收集反馈或满意度调查。
该图展示了 移民 类别中的示例问题,评估人们对来自其他国家的人的看法。问题是:“Q. Now we would like to know your opinion about the people from other countries who come to live in [your country]. How would you evaluate the people from other countries who come to live in [your country]? (Code one number)” 对应的回答选项从“Very bad for the economy”到“Very good for the economy”。
5.1.2. EEDI 数据集 (附录 E.1)
- 来源: He-Yueya et al. (2024),基于
NeurIPS 2020 Education Challenge(Wang et al., 2021)。 - 特点: 包含学生对数学多项选择题的回答。
- 规模: 原始语料库包含 573 个不同问题和 443,433 条来自 2,287 名学生的回答。经预处理后,保留了 412 个问题(至少有 100 条学生回答,排除带图表的问题)。
- 数据形态: 每个问题有 A-D 四个选项,二值化为“正确/不正确”。
- 个体协变量: 包含性别、年龄、社会经济地位等。
5.1.3. OpinionQA 数据集 (附录 E.2)
- 来源: Santurkar et al. (2023b),基于
Pew Research's American Trends Panel。 - 特点: 包含美国人口对社会公平、安全、技术等主题调查问题的回答。
- 规模: 原始语料库包含 385 个不同问题和 1,476,868 条来自至少 32,864 人的回答。
- 数据形态: 每个问题有 5 个选项,对应于有序的情感,属于
多项式设置(multinomial setting)。 - 个体协变量: 包含性别、年龄、社会经济地位、宗教信仰、婚姻状况等。
5.2. 评估指标
5.2.1. 差异函数 (Discrepancy Function)
论文使用用户选择的 差异函数 来度量 真实参数 和 模拟参数 之间的差异。
-
WorldValueBench 应用:
平方误差(Squared-Error Discrepancy):- 概念定义:
平方误差衡量了两个实数值(real-valued) 估计量之间距离的平方,它对较大的误差给予更大的惩罚。在本文中,由于分类答案被映射到 区间,因此可以应用此指标。 - 数学公式:
- 符号解释:
- :
真实统计量的值。 - :
模拟统计量的值。
- :
- 概念定义:
-
EEDI 数据集应用 (附录 E.1):
绝对误差(Absolute Error):- 概念定义:
绝对误差衡量了两个实数值估计量之间距离的绝对值,它表示了误差的量级。 - 数学公式:
- 符号解释:
- :
真实统计量的值。 - :
模拟统计量的值。
- :
- 概念定义:
-
OpinionQA 数据集应用 (附录 E.2):
总变差距离(Total Variation Distance):- 概念定义:
总变差距离衡量了两个概率分布(probability distributions) 之间的最大可能差异,它表示了在所有可能的事件上,这两个分布的最大差异程度。对于多项式分布,它等于L1 距离的一半。 - 数学公式:
- 符号解释:
- :
真实分布的概率向量,其中 是类别 的概率。 - :
模拟分布的概率向量,其中 是类别 的概率。 - :
类别的数量。 - :
L1 范数(L1-norm)。
- :
- 概念定义:
5.2.2. 其他汇总指标
-
校准 AUC(Calibrated AUC):- 概念定义:
校准 AUC聚合了整个校准分位数曲线,提供了一个平均偏差摘要,反映了模拟器在所有差异水平上的平均性能。 - 数学公式:
- 符号解释:
- :
指数调整后的校准分位数曲线,定义为 。
- :
- 概念定义:
-
校准 CVaR(Calibrated CVaR):- 概念定义:
校准 CVaR衡量了差异分布的尾部风险。具体而言,它是在最差的分位数范围内差异的平均值,对于风险规避(risk-averse) 的应用场景非常有用。 - 数学公式:
- 符号解释:
- :
尾部风险的水平,例如, 表示最差的 10% 差异。 - :
指数调整后的校准分位数曲线。
- :
- 概念定义:
5.3. 对比基线
5.3.1. LLM 模拟器 (WorldValueBench)
- GPT-4o (gpt-4o)
- GPT-5 MINI (gpt-5-mini)
- LLAMA 3.3 70B (Llama-3.3-70B-Instruct-Turbo)
- QWEN 3 235B (Qwen3 235B A22B Thinking 2507 FP8)
5.3.2. LLM 模拟器 (EEDI & OpinionQA)
- GPT-3.5 Turbo (gpt-3.5-turbo)
- GPT-4o-MINI (gpt-4o-mini)
- CLAUDE 3.5 HAIKU (claude-3-5-haiku-20241022)
- LLAMA 3.3 70B (Llama-3.3-70B-Instruct-Turbo)
- MISTRAL 7B (Mistral-7B-Instruct-v0.3)
- DEEPSEEKV3 (DeepSeek-v3)
5.3.3. 均匀基线 (Uniform Baseline)
- 概念: 对于每个问题,这个基线
生成器(generator) 从所有可用选项中均匀随机(uniformly at random) 地选择一个答案。 - 代表性: 作为一个最简单的随机模型,它提供了一个下限,用于评估 LLM 模拟器是否真正学习到了
真实世界分布的任何模式,而不仅仅是随机猜测。
5.4. 实验参数设置
-
WorldValueBench:
- 模拟预算 。
- 在估计 时,从 个模拟响应中随机选择 200 个。
真实标注样本量略有不同,通常在 450 到 500 之间。差异函数(平方误差)。置信水平参数(在定理 3.1中的 表达式中,用于控制DKW 不等式的失败概率)。置信集覆盖水平(在定理 3.1中,用于构建 ,确保 的概率至少为 )。
-
EEDI (附录 E.1):
差异函数(绝对误差)。置信集覆盖水平。DKW 失败概率。模拟预算。
-
OpinionQA (附录 E.2):
差异函数(总变差距离)。置信水平参数。模拟预算。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. WorldValueBench 数据集上的 LLM 保真度分析
下图(原文 Figure 3)展示了在 WorldValueBench 数据集上,不同 LLM 模拟器(包括 均匀基线 (Uniform baseline))的 校准分位数曲线 。横轴 代表 差异分位数,纵轴 代表对应的 差异值。曲线越低越平坦,表示 差异 越小,模拟器 保真度 越高。
Figure 3: Calibrated across LLMs.

分析:
- 总体性能: 相对于
均匀基线(黄色曲线),所有 LLM 模拟器在超过 70% 的问题上表现优异,这表明它们并非简单地随机生成答案。然而,在尾部区域(tail region)(即 接近 1,表示最大的差异),LLM 的曲线仍然较高,这说明它们在处理一些极端或离群(outlier) 问题时仍存在挑战。 - GPT-4o 的主导地位: GPT-4o(蓝色曲线)在所有
分位数上都处于最低位置,这强烈表明它与真实标注数据的对齐(alignment) 最可靠,具有最高的保真度。它的曲线在大部分范围内都非常平坦,意味着其差异普遍较小。 - GPT-5-MINI 的表现: GPT-5-MINI(橙色曲线)紧随 GPT-4o 之后,但在
尾部( 接近 1)显示出一些上扬(upward turn),这说明它在某些离群问题上未能很好地捕捉真实结果,但总体表现仍然非常出色。 - 其他 LLM 的表现: LLAMA 3.3 70B(绿色曲线)和 QWEN-3-235B(红色曲线)的曲线明显高于 GPT-4o 和 GPT-5-MINI,表明它们的性能相对较差。这突显了不同 LLM 在模拟人类响应能力上的
性能差距(performance dominance)。 - “肘部”现象 (Elbows): 曲线上的“肘部”现象(如 GPT-5-MINI 和 LLAMA 3.3 70B 在高 值处)揭示了模拟器在少数但严重的
错误或未捕捉到的离群值(severe misses or uncaptured outliers) 情况。
6.1.2. 鲁棒性检查
下图(原文 Figure 4)展示了在不同 真实世界样本量 水平下,LLM 模拟器性能的 鲁棒性检查。这四个子图分别对应 的情况。
Figure 4: Robustness check of simulator performance under different levels.

分析:
- 性能一致性: 尽管每个场景的
真实世界样本量发生了变化,但 GPT-4o 在所有 水平下都保持了对 GPT-5-MINI、LLAMA 3.3 70B 和 QWEN-3-235B 的主导地位。这验证了本文方法的结果具有鲁棒性,模拟器之间的相对性能排名不受真实世界样本量的显著影响。 样本量的影响: 随着 的增加,所有模型的校准分位数曲线都趋于向下移动并变得更平坦(尽管图示可能不明显,但理论上和紧致性分析部分的Figure 5所示)。这意味着更多的真实世界样本使得置信集更小,伪差异更接近真实差异,从而提高了估计的精确度。
6.2. 紧致性分析
下图(原文 Figure 5)展示了在 GPT-4o 模型下,不同 真实世界样本量 对 校准分位数曲线 紧致性 的影响。图中绘制了 校准分位数 (蓝色、橙色、绿色、红色曲线分别对应 )与 真实分位数 (黑色虚线,基于 96,220 个响应)的比较。
Figure 5: Tightness analysis of different n _ { j } under GPT-4o.

分析:
样本量对紧致性的影响:- 当 时(蓝色曲线),
校准分位数曲线相对宽松,与真实分位数曲线之间存在较大差距。这反映了当每个场景的真实世界样本量较少时,置信集较大,导致伪差异更加保守,从而使得校准分位数曲线向上偏移。 - 随着 增加到 200、500、1000(橙色、绿色、红色曲线),
校准分位数曲线逐渐向真实分位数曲线收敛,并且变得更加紧密。这表明所提出的方法在真实世界样本量充足时,能够提供相当紧密(tight) 的分位数估计。
- 当 时(蓝色曲线),
- 实际意义: 这一分析证实了方法的
渐近特性(asymptotic property) 和实用性。在实际应用中,如果能够收集足够的真实世界样本,那么通过该方法获得的校准分位数曲线将能够非常准确地反映真实差异分布。
6.3. EEDI 数据集上的 LLM 保真度分析 (附录 E.1)
下图(原文 Figure 10)展示了在 EEDI 数据集上,不同 LLM 模拟器(包括 随机基线)的 分位数保真度曲线 。这里使用的 差异函数 是 绝对误差 。
Figure 10: Quantile fidelity profiles across LLMs (Discrepancy: Absolute loss, , , 1)

分析:
- DEEPSEEK-V3 的领先: DEEPSEEK-V3(绿色曲线)在大多数
分位数上表现最佳,曲线最低,表明其对齐最可靠。 - 随机基线与 LLM 性能:
随机基线(黑色虚线)的表现出人意料地好,甚至优于一些 LLM(如 LLAMA 3.3 70B 和 MISTRAL 7B)。这表明并非所有 LLM 都优于简单的随机策略,并且在绝对误差这种差异函数下,某些 LLM 可能不适合基于代理的模拟(agent-based simulation)。 - GPT-4o 性能: GPT-4o(蓝色曲线)紧随 DEEPSEEK-V3 和
随机基线之后,在尾部表现比随机基线稍差。
6.4. OpinionQA 数据集上的 LLM 保真度分析 (附录 E.2)
下图(原文 Figure 11)展示了在 OpinionQA 数据集上,不同 LLM 模拟器(包括 随机基线)的 分位数保真度曲线 。这里使用的 差异函数 是 总变差距离 。
Figure 11: Quantile fidelity profiles across LLMs.

分析:
- GPT-4o 的主导: GPT-4o(深蓝色曲线)在大多数
分位数上表现最佳,其曲线最低,再次印证了其在模拟人类响应方面的高保真度。 - 模型间的性能差距: MISTRAL 7B(绿色曲线)的性能明显较差,其曲线高于其他LLM。
- 陡峭的曲线:
模拟器曲线(simulator curves) 比随机基线(黑色虚线)更陡峭。这表明LLM的差异具有更强的问题依赖性(question-dependent),并且差异水平不够均匀。这可能暗示模拟器需要进一步微调(fine-tuning) 以在所有问题上实现更均匀的差异水平。
7. 总结与思考
7.1. 结论总结
本文提出了一种新颖的 无模型 (model-free) 方法,用于评估 黑盒模拟器 (black box simulators) 的 保真度 (fidelity)。该方法通过估计 模拟器 与 真实世界结果 之间 差异 的 分位数函数 (quantile function),提供了一种全面且具有 有限样本保证 (finite-sample guarantees) 的 不确定性量化 (uncertainty quantification) 工具。核心思想是为每个场景构建 真实参数 的 置信集 (confidence set),并基于此计算 伪差异 (pseudo-discrepancy),进而估计 校准分位数曲线。
主要贡献包括:
- 无模型与黑盒适用性: 不对模拟器或真实世界的内部机制做任何参数假设,使其广泛适用于复杂的
机器学习驱动系统。 - 全面差异评估: 提供了
差异的整个分位数函数,而非单一统计量,支持构建置信区间、风险价值(VaR) 和条件风险价值(CVaR) 等风险感知汇总。 - 有限样本理论保证: 提供了严格的
有限样本覆盖保证,这在数据有限的实际场景中至关重要。 - 成对比较框架: 扩展了方法以支持
成对模拟器比较,允许对不同模拟器的相对性能进行统计上稳健的断言。 - LLM 模拟应用: 在
WorldValueBench数据集上的应用表明,该方法能够有效地评估不同大型语言模型(LLM) 模拟人类响应的保真度,并揭示了 GPT-4o 在此任务中的领先地位。紧致性分析进一步证实了该方法在真实世界样本量充足时具有良好的精度。
7.2. 局限性与未来工作
论文作者指出了以下局限性和未来研究方向:
- DKW 集中不等式的保守性: 本文的理论证明依赖于
Dvoretzky-Kiefer-Wolfowitz (DKW) 不等式和网格均匀步长(grid-uniform step),这些在场景数量() 较小时可能过于保守(conservative),导致常数(constants) 宽松。未来的工作目标是收紧(tightening) 这些界限。 - 动态模拟过程: 目前的框架是
静态(static) 的,而许多应用涉及时间依赖(temporally dependent) 的动态模拟过程(dynamic simulation processes)。将该框架扩展到动态设置将大大拓宽其适用范围。 - 独立同分布假设的挑战: 本文分析假设
场景是独立同分布(i.i.d.) 的。然而,在实际应用中,协变量偏移(covariate shift) 或内生采样(endogenous sampling) 可能会使边际保证(marginal guarantees) 失效。解决此类分布偏移(distribution shifts) 是未来工作的一个重要方向。
7.3. 个人启发与批判
-
个人启发:
- 黑盒评估的普适性: 论文提出的
无模型黑盒评估框架对于当前快速发展的AI 模型评估具有非常重要的意义。面对越来越复杂的LLM和生成式 AI 模型,我们往往难以窥探其内部机制,这种基于输入-输出观测的保真度量化方法提供了一个通用且灵活的解决方案,可以应用于广泛的领域。 - 分位数曲线的丰富信息: 传统的评估指标(如均方误差、平均绝对误差)提供的是单一的汇总值,容易掩盖
尾部风险。分位数曲线能够提供差异分布的全貌,使得风险感知的决策成为可能,这对于金融、医疗等高风险领域的AI 系统部署至关重要。 - 有限样本保证的实用性: 在许多现实场景中,获取
真实世界数据是昂贵且耗时的。有限样本保证比渐近保证更具实践意义,它确保了即使在数据量有限的情况下,我们也能对模拟器的性能有统计上可靠的理解。 - 校准与紧致性的平衡: 通过构建
置信集和伪差异来校准经验分位数,同时进行紧致性分析,体现了在统计鲁棒性和估计精度之间寻求平衡的严谨学术态度。
- 黑盒评估的普适性: 论文提出的
-
批判与可改进之处:
DKW 不等式的保守性影响: 作者自己也承认DKW 不等式在小样本() 情况下的保守性。虽然这保证了严格的覆盖率,但在实践中可能导致置信带过宽,使得诊断信息不够精细。未来的研究可以探索更紧密的有限样本不等式或基于bootstrap等重采样(resampling) 技术来改进界限。- 计算复杂性: 在
伪差异的计算中,涉及在置信集上进行上确界优化。虽然文中提到对于KL 散度和Wasserstein 距离是可计算的,但对于更复杂的差异函数或高维参数空间,这个优化过程可能变得计算密集(computationally intensive)。探讨更高效的优化算法或近似方法可能是必要的。 差异函数的选择: 论文强调差异函数是用户选择的。虽然这提供了灵活性,但如何选择最合适的 仍然是一个开放问题。不同的 会强调分布差异的不同方面。例如,L1 距离、L2 距离、KL 散度和Wasserstein 距离各有优缺点。提供关于差异函数选择的指导原则或敏感性分析(sensitivity analysis) 将使方法更加完善。异构样本量的影响: 虽然方法能够处理异构的 ,但这种异构性如何最优地影响置信集的构建和最终分位数曲线的精度,以及是否存在加权(weighting) 策略可以进一步优化,值得深入探讨。真实标注数据的质量:真实标注数据的质量直接影响置信集的准确性。如果真实标注数据本身存在噪声(noise) 或偏差,即使 很大,估计也可能不准确。这引入了数据质量的不确定性,是所有依赖真实标注数据的评估方法需要面对的问题。
相似论文推荐
基于向量语义检索推荐的相关论文。