论文状态：已完成

Model-Free Assessment of Simulator Fidelity via Quantile Curves

发表：2025/12/05

无模型仿真信度评估 (1)量化曲线方法 (1)仿真与真实分布比较 (1)LLM仿真评价 (1)输出不确定性处理 (1)

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种无模型的方法，通过分位数函数评估复杂系统模拟与真实结果之间的差异，关注输出不确定性，并将模拟器视为黑盒应用，适用于各种参数模型。该方法支持构建置信区间、风险感知摘要及模拟器性能比较，并在世界价值基准数据集上评估大型语言模型的保真度。

摘要

Simulation of complex systems originated in manufacturing and queuing applications. It is now widely used for large-scale, ML-based systems in research, education, and consumer surveys. However, characterizing the discrepancy between simulators and ground truth remains challenging for increasingly complex, machine-learning-based systems. We propose a computationally tractable method to estimate the quantile function of the discrepancy between the simulated and ground-truth outcome distributions. Our approach focuses on output uncertainty and treats the simulator as a black box, imposing no modeling assumptions on its internals, and hence applies broadly across many parameter families, from Bernoulli and multinomial models to continuous, vector-valued settings. The resulting quantile curve supports confidence interval construction for unseen scenarios, risk-aware summaries of sim-to-real discrepancy (e.g., VaR/CVaR), and comparison of simulators' performance. We demonstrate our methodology in an application assessing LLM simulation fidelity on the WorldValueBench dataset spanning four LLMs.

思维导图

论文精读

中文精读约 32 分钟读完 · 24,019 字

1. 论文基本信息

1.1. 标题

Model-Free Assessment of Simulator Fidelity via Quantile Curves （通过分位数曲线对模拟器保真度进行无模型评估）

1.2. 作者

Garud Iyengar, Yu-Shiou Willy Lin, Kaizheng Wang

1.3. 发表期刊/会议

预印本（arXiv）

1.4. 发表年份

2025年

1.5. 摘要

本文提出了一种计算可行的方法，用于估计模拟器 (simulator) 和真实结果 (ground-truth outcome) 分布之间差异的 分位数函数 (quantile function)。该方法的核心在于关注 输出不确定性 (output uncertainty)，并将模拟器视为 黑盒 (black box)，不对其内部结构做任何建模假设。这使得该方法能够广泛应用于各种参数族，从 伯努利 (Bernoulli) 和 多项式模型 (multinomial models) 到连续的 向量值设置 (vector-valued settings)。通过这种方法得到的 分位数曲线 (quantile curve) 支持构建 未见场景 (unseen scenarios) 的 置信区间 (confidence interval)，对 模拟到真实差异 (sim-to-real discrepancy) 进行 风险感知 (risk-aware) 汇总（例如 风险价值 (VaR) 和 条件风险价值 (CVaR)），以及比较不同模拟器的性能。作者在 WorldValueBench 数据集上，通过评估四种 大型语言模型 (LLM) 的模拟保真度来展示了该方法的有效性。

1.6. 原文链接

https://arxiv.org/abs/2512.05024v1 PDF 链接: https://arxiv.org/pdf/2512.05024v1.pdf 发布状态：预印本（v1）

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

随着 复杂系统 (complex systems) 模拟的广泛应用，尤其是在 机器学习 (ML) 驱动的系统（如 大型语言模型 (LLMs)、数字孪生 (digital twins)）中，如何量化和表征 模拟器 (simulator) 输出与 真实世界 (real-world) 结果之间的 差异 (discrepancy) 成为了一个日益严峻的挑战。现有方法往往依赖于对模拟器内部结构或数据分布的强假设，这在面对日益复杂的黑盒模型时变得不切实际。论文的核心问题是：如何在 模型无关 (model-free) 的情况下，对模拟器与真实结果之间的差异进行 不确定性量化 (uncertainty quantification, UQ)，并提供 有限样本保证 (finite-sample guarantee) 的 差异分布 (distribution of discrepancy)。

2.1.2. 为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白？

复杂系统的普遍性与黑盒特性： 现代模拟系统，特别是基于 LLM 或深度神经网络的系统，极其复杂且通常作为 黑盒 (black box) 存在，无法对其内部机制进行精确建模或校准参数。这使得传统依赖于模型假设的 不确定性量化 (UQ) 方法失效。
模拟到真实 (sim-to-real) 差距： 在机器人、计算系统和 LLM 等领域，模拟到真实差距 (sim-to-real gap) 已被广泛记录。准确理解和量化这一差距对于这些系统的可靠部署至关重要。
现有 UQ 文献的局限性：
- 输入不确定性 (Input Uncertainty) 与 输出不确定性 (Output Uncertainty) 的区分： 传统 UQ 关注 输入不确定性，假设模拟器本身是准确的，只关注输入数据误差如何传播到输出。而本文关注 输出不确定性，直接表征模拟器输出与真实世界结果之间的固有差异（包括 偏差 (bias) 和 方差 (variance)）。
- 渐近保证与有限样本： 许多 UQ 文献提供的是 渐近保证 (asymptotic guarantees)，但在实际应用中，尤其是在可用场景数量有限时，有限样本保证 (finite-sample guarantees) 更加关键。
- 特定函数与整个分布： 现有工作常通过评估特定 函数 (functionals)（如 平均误差 (average error) 或固定 分位数 (quantile level) 的界限）来汇总差异，缺乏对差异 整个分布 (entire distribution) 的全面描述，从而限制了对复杂风险的评估。
LLM 模拟的挑战： LLM 作为人类响应的 数字孪生 (digital twin) 越来越受欢迎，但其输出的 保真度 (fidelity) 和 对齐 (alignment) 问题日益突出。一个无模型、可量化差异的方法对于评估和改进 LLM 模拟至关重要。

2.1.3. 这篇论文的切入点或创新思路是什么？

论文的创新思路在于提出了一种 无模型 (model-free) 且 计算可行 (computationally tractable) 的方法，通过估计 差异的分位数函数 (quantile function of the discrepancy) 来评估模拟器的保真度。

无模型黑盒处理： 将模拟器视为黑盒，不作任何内部建模假设，专注于 输出不确定性，这使其适用于各种复杂、ML 驱动的系统。
分位数函数估计： 不仅仅关注某个单一的统计量（如均值或特定分位数），而是旨在估计差异的 整个分位数函数。这提供了更灵活和信息丰富的诊断工具，支持构建 置信区间、风险感知汇总 (risk-aware summaries)（如 VaR/CVaR）和 模拟器性能比较。
有限样本保证： 提供了 有限样本保证，这在可用场景数量有限时至关重要。
置信集 (Confidence Set) 和 伪差异 (Pseudo-Discrepancy) 构造： 引入了基于 集中不等式 (concentration inequalities) 的 置信集 构造，为每个场景计算一个 最坏情况差异 (worst-case discrepancy)，即 伪差异。
借鉴 保形推断 (Conformal Inference) 思想： 方法精神与 保形推断 类似，但针对 sim-to-real 差异 的分布特性和 异构样本量 (heterogeneous sample sizes) 进行了适配。

2.2. 核心贡献/主要发现

论文的主要贡献包括：

无模型、黑盒评估框架： 提出了一个 无模型 (model-free) 的模拟器保真度评估框架，不依赖于对模拟器或真实结果的任何参数假设。这使得它能够广泛应用于各种黑盒模拟器，并提供了一种新颖的模拟器比较方法。
有限样本分位数函数估计： 能够估计 差异的整个分位数函数，并提供 有限样本保证 (finite-sample guarantees) 的 校准 (calibrated) 估计。这超越了现有工作中仅关注特定统计量（如均值或固定分位数）的局限。
支持灵活的统计量： 由于获得了分位数函数，该方法自然支持从 均值 (means) 到 尾部风险度量 (tail-risk measures)（如 条件风险价值 (CVaR)）的各种汇总统计量。此外，通过利用模拟估计量，可以为 真实世界参数 (real-world parameters) 构建 置信区间。
成对模拟器比较： 扩展了框架以支持 成对模拟器比较 (pairwise comparison of simulators)，允许对哪个模拟器更接近现实做出统计上稳健的断言。
LLM 模拟保真度应用： 在 WorldValueBench 数据集上应用了该方法，评估了四种 LLM 的模拟保真度。结果表明，GPT-4o 在所有 分位数 上表现出最佳的对齐性，且方法在不同 样本量 (n) 下表现出鲁棒性。

2.3. 论文得出了哪些关键的结论或发现？

方法有效性： 提出的无模型方法能够有效评估复杂 黑盒模拟器 的 保真度，并提供 有限样本保证。
分位数曲线的诊断价值： 校准分位数曲线 (calibrated quantile curve) 提供了比单一统计量更丰富的诊断信息，能揭示模拟器在不同 差异水平 (discrepancy levels) 下的表现，包括 平均偏差 (average bias) 和 极端情况下的失败 (severe misses)。
LLM 性能评估： 在 WorldValueBench 数据集上，所有 LLM 模拟器都显著优于 均匀基线 (uniform baseline)。其中，GPT-4o 表现出最高的保真度，在所有分位数上都显示出最小的差异，而 GPT-5-MINI 紧随其后。LLAMA 3.3 70B 和 QWEN-3-235B 的性能相对较差。
鲁棒性： 模拟器性能的相对优势在不同的 真实世界样本量 ( $n_j$ ) 下保持一致，验证了方法的鲁棒性。
紧致性 (Tightness)： 随着每个场景的真实世界样本量 $n_j$ 的增加， 校准分位数曲线 会收敛到 真实分位数曲线 (true quantile curve)，表明该方法在样本量充足时具有良好的 紧致性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 模拟器 (Simulator)

在本文中，模拟器 (simulator) 是指一个能够模仿 真实世界系统 (real-world system) 行为并生成 输出 (output) 的计算模型。这些模拟器通常是复杂的，例如基于 大型语言模型 (LLM) 或 深度神经网络 (deep neural network) 的 数字孪生 (digital twin)。模拟器的目标是尽可能准确地复制真实世界的响应，以便在无需实际部署或进行昂贵实验的情况下进行研究、教育或决策。

3.1.2. 真实标注数据 (Ground Truth)

真实标注数据 (Ground Truth) 指的是来自 真实世界系统 的实际观测结果或数据。在评估模拟器性能时，它被用作衡量模拟器输出准确性的 黄金标准 (gold standard)。例如，在调查应用中，人类受访者的实际回答就是 真实标注数据。

3.1.3. 模拟到真实差异 (Sim-to-Real Discrepancy)

模拟到真实差异 (sim-to-real discrepancy) 是指 模拟器输出分布 (simulated outcome distribution) 与 真实结果分布 (ground-truth outcome distribution) 之间的不一致性。量化这种差异是评估模拟器 保真度 (fidelity) 的核心目标。本文使用一个用户选择的 差异函数 (discrepancy function) $L(\cdot, \cdot)$ 来度量这种差异。

3.1.4. 输出不确定性量化 (Output Uncertainty Quantification)

不确定性量化 (Uncertainty Quantification, UQ) 旨在识别、量化和减少与计算模型输出相关的不确定性。输出不确定性量化 (Output Uncertainty Quantification) 特指直接关注模拟器 输出 与 真实世界 之间差异的量化，而不是关注模型内部参数或输入数据的误差传播。这与 输入不确定性 (input uncertainty) 不同，后者假设模拟器本身是完美的，只关注输入误差的影响。

3.1.5. 黑盒模拟器 (Black Box Simulator)

黑盒模拟器 (black box simulator) 指的是其内部机制或数学形式对用户或评估者不透明的模拟器。这意味着我们无法直接访问或修改其内部参数，也无法对其建模假设进行验证。本文方法的一个关键特点就是将模拟器视为黑盒，从而使其具有广泛的适用性。

3.1.6. 分位数函数 (Quantile Function)

对于一个随机变量 $X$ 及其 累积分布函数 (Cumulative Distribution Function, CDF) $F_X(t) = P(X \le t)$ ，其 分位数函数 (quantile function) $Q_X(\alpha)$ 定义为 $Q_X(\alpha) = \inf\{t \in \mathbb{R} : F_X(t) \ge \alpha\}$ 。它返回使得随机变量 $X$ 小于或等于 $t$ 的概率至少为 $\alpha$ 的最小值。简单来说，它表示了分布中第 $\alpha$ 个百分位点的值。例如，0.5 分位数就是 中位数 (median)。在本文中，分位数函数用于描述 模拟到真实差异 的整个分布。

3.1.7. 置信集 (Confidence Set)

置信集 (Confidence Set) 是统计学中用于估计未知参数的区间推广。它是一个由数据构建的集合，以预设的 置信水平 (confidence level) 包含 真实参数 (true parameter) 的概率。例如，一个 95% 的置信集意味着，如果我们重复采样和构建置信集多次，大约有 95% 的置信集会包含真实参数。在本文中，置信集 $C_j(\hat{p}_j)$ 用于在给定 估计参数 $\hat{p}_j$ 的情况下，界定 真实参数 $p_j$ 的可能范围。

3.1.8. 集中不等式 (Concentration Inequalities)

集中不等式 (Concentration Inequalities) 是一类在概率论中用于估计随机变量偏离其 期望值 (expected value) 的概率的数学工具。它们提供了随机变量分布 尾部 (tail) 的 上界 (upper bounds)。本文使用 切尔诺夫-霍夫丁不等式 (Chernoff-Hoeffding inequality) 及其变体来构建 置信集，例如用于 多项式分布 (multinomial distribution) 和 有界结果 (bounded outcomes)。

3.1.9. `风险价值` (Value at Risk, VaR) 与 `条件风险价值` (Conditional Value at Risk, CVaR)

风险价值 (VaR)： 表示在一定 置信水平 (或概率) 下，某一 资产 (asset) 或 投资组合 (portfolio) 在未来特定时间段内可能遭受的最大损失。例如，95% VaR 是指在 95% 的情况下，损失不会超过某个值。
条件风险价值 (CVaR)： 也称为 期望亏空 (Expected Shortfall, ES)，是在 损失超过 VaR 的前提下，预期损失 的平均值。CVaR 是一种比 VaR 更全面的 风险度量，因为它考虑了尾部风险的严重程度，而不是仅仅给出一个阈值。在本文中，CVaR 用于对 模拟到真实差异 的 尾部风险 进行 风险感知汇总。

3.2. 前人工作

模拟不确定性量化 (Simulation Uncertainty Quantification, S-UQ)：
- 输入不确定性 (Input Uncertainty)： 传统 S-UQ 关注 输入不确定性，即假设模拟器准确，但输入分布存在误差，目标是量化这些输入误差如何传播到输出（例如，Chen et al., 2024; Barton et al., 2014; Lam, 2022）。这些工作主要构建 置信区间 或 CDF 的不确定性带。
- 与本文的区别： 本文关注 输出不确定性，将模拟器视为黑盒，直接量化 sim-to-real 差异，并同时考虑 偏差 (bias) 和 方差 (variance)，而非仅 蒙特卡洛噪声 (Monte Carlo noise)。本文提供的是 有限样本保证，而非 渐近保证。
LLM 领域的输出不确定性：
- 最近 LLM 文献也开始关注 模型无关 (model-agnostic) 的 输出不确定性 量化，例如 Santurkar et al. (2023a) 将 sim-to-real 差距 汇总为单一的 标量误差摘要 (scalar summary of error) 或 偏差 (bias)，Huang et al. (2025) 限制了固定 分位数水平 (fixed quantile level) 的差异。
- 与本文的区别： 这些方法评估的是 差异分布 的特定 函数 (functionals)，而本文旨在 近似整个分位数函数，提供更灵活和信息丰富的诊断。
保形推断 (Conformal Inference)：
- 保形推断 (Vovk et al., 2005; Bates et al., 2021) 旨在为 黑盒预测器 (black-box predictor) 提供 分布无关 (distribution-free) 的 有限样本保证。
- 与本文的区别： 经典的 保形推断 主要用于给定输入下的 点覆盖 (pointwise coverage)，而不是 sim-to-real 差异 的分布。针对 分布对象 (distributional objects) 的 保形变体 (Snel et al., 2022; Budde et al., 2025) 仍假设更 同构的数据结构 (homogeneous data structures)，并且没有解决 异构样本量 (heterogeneous sample sizes) 的问题。本文框架通过提供专门针对评估 黑盒模拟器 且处理 异构真实世界数据 的 有限样本、分布级别保证，填补了这一空白。

3.3. 技术演进

早期模拟： 复杂系统模拟 (Simulation of complex systems) 最早起源于 制造业 (manufacturing) 和 排队论应用 (queuing applications)，主要用于优化生产流程、资源调度等。
AI 驱动的模拟： 随着 人工智能 (AI) 的发展，尤其是 大型语言模型 (LLM) 和 深度学习 (deep learning) 的进步，模拟技术得到了显著加速。现在，模拟被广泛应用于 大规模、基于 ML 的系统，例如 agent-based modeling (Macal, 2016)、用户调查 (Argyle et al., 2023; Aher et al., 2023) 和 数字孪生 (digital twins) (NVIDIA Omniverse, Earth-2)。LLMs 甚至被用于创建能够复制人类响应的 生成式 AI 代理 (generative AI agents) (Park et al., 2023; Lu et al., 2025)。
不确定性量化需求： 随着模拟系统复杂性和应用范围的扩大，量化 模拟到真实差异 的需求变得越来越迫切。早期 不确定性量化 (UQ) 主要关注 输入不确定性 和 蒙特卡洛噪声。
从特定统计量到分布： 近年来，研究开始从关注单一的 误差度量 (error measure) 或 特定分位数 (fixed quantile) 转向理解 差异的整个分布。
本文的位置： 本文的工作处于 AI 驱动模拟 和 高级不确定性量化 的交叉点。它通过提供一种 无模型、有限样本保证 的 分位数函数估计方法，来解决 黑盒模拟器 与 真实世界 之间日益复杂的 sim-to-real 差距 问题，特别是针对 异构样本量 的挑战。

3.4. 差异化分析

本文的方法与相关工作的主要区别和创新点如下：

无模型与黑盒假设：
- 传统 UQ： 往往依赖于对模拟器内部机制或输入分布的假设。
- 本文： 将模拟器视为 黑盒，不作任何内部建模假设，专注于 输出不确定性，这使其能够应用于任何 ML 驱动的复杂模拟器，而无需了解其内部结构。
量化目标：整个分位数函数 vs. 特定统计量：
- 现有 LLM UQ： Santurkar et al. (2023a) 聚合为单一 标量摘要，Huang et al. (2025) 关注固定 分位数水平 的界限。
- 本文： 旨在估计 差异的整个分位数函数。这提供了更全面、灵活的诊断信息，支持 风险感知汇总（VaR/CVaR）和 置信区间 构建，而不仅仅是单一的误差值或固定百分位的界限。
保证类型：有限样本保证 vs. 渐近保证：
- 传统 UQ： 许多工作提供的是 渐近保证，即在大样本量下才成立。
- 本文： 提供了 非空 (non-vacuous) 的 有限样本覆盖保证 (finite-sample coverage guarantees)，这在实际应用中，尤其是在 场景数量 ( $m$ ) 有限时，更具实用价值。
异构样本量处理：
- 现有 保形推断 变体： 针对 分布对象 (distributional objects) 的 保形推断 方法（Snel et al., 2022; Budde et al., 2025）通常假设 同构 (homogeneous) 的数据结构。
- 本文： 通过为每个场景构建 置信集，并处理每个场景 真实世界样本量 ( $n_j$ ) 的 异构性 (heterogeneity)，填补了这一空白。
应用范围：
- 传统 UQ： 更侧重于 制造、排队系统 等传统领域。
- 本文： 能够应对 ML 驱动的数字孪生、LLM 模拟 等新兴和复杂应用场景，提供了一种通用的评估框架。

4. 方法论

本节将详细阐述论文提出的 无模型模拟器保真度评估 方法。该方法的核心目标是构建一个 校准函数 (calibrated function) $\hat{V}(\cdot, \mathcal{D})$ ，用于近似 模拟到真实差异 $\Delta_\psi$ 的 分位数函数 $V(\alpha)$ ，并提供 有限样本覆盖保证。

4.1. 问题定义与符号

我们首先定义问题中的关键概念和符号。

场景 (Scenario)： $\psi \sim \Psi$ ，表示从 场景池分布 (scenario pool distribution) $\Psi$ 中抽取的特定任务或问题。我们观察到 $m$ 个场景，记为 $\{\psi_j\}_{j=1}^m$ 。
真实系统 (Real System) / 人群 (Human Population)： 由一个 潜在特征 (latent profile) $z \in \mathcal{Z}$ 及其 人口分布 (population distribution) $\mathcal{P}$ 刻画。对于每个场景 $\psi$ 和潜在特征 $z$ ，真实系统产生一个 分类结果 (categorical outcome) $Y^{\mathrm{gt}}$ ，其 条件分布 (conditional distribution) 为 $Q^{\mathrm{gt}}(\cdot \mid z, \psi)$ 。
模拟器 (Simulator) / LLM： 产生一个 结果 $Y^{\mathrm{sim}}$ ，其 条件分布 为 $Q^{\mathrm{sim}}(z^{\mathrm{sim}}, \psi, r)$ ，其中 $z^{\mathrm{sim}} \in \mathcal{Z}_{\mathrm{sim}}$ 是从 模拟器人口分布 $\mathcal{P}^{\mathrm{sim}}$ 中抽取的 合成特征 (synthetic profile)， $r$ 表示 LLM 设置 (LLM settings)（如 提示策略 (prompting strategy)、超参数 (hyperparameters) 等）。
总体统计量 (Population Statistic)： 对于每个场景 $\psi$ $ψ$ ，我们关注一个 总体统计量 $p(\psi)$ $p (ψ)$ ，它是 条件分布 $Q^{\mathrm{gt}}(\cdot \mid \psi)$ $Q^{gt} (\cdot ∣ ψ)$ 的 函数 (functional)，且位于 参数空间 (parameter space) $\Theta$ $Θ$ 中。类似地，模拟器的 总体统计量 为 $q(\psi)$ $q (ψ)$ 。
- 在 多项式结果 (multinomial outcomes) 的例子中， $\Theta = \mathcal{P}^d$ (d-1 单纯形 (simplex))， $p(\psi)$ 是调查受访者的 平均响应 (mean response)。
- 形式化表示： $p_\psi := p(\psi) := \mathbb{E}_{y \sim Q^{\mathrm{gt}}} [y] = \mathbb{E}_{z \sim \mathcal{P}} \left[ \Pi^{\mathrm{gt}}(\psi, z) \right] \in \Theta,$ $q_\psi := q(\psi) := \mathbb{E}_{z \sim \mathcal{P}^{\mathrm{sim}}} \left[ \Pi^{\mathrm{sim}}(\psi, z) \right] \in \Theta.$
- 其中 $\Pi^{\mathrm{gt}}(\psi, z)$ 和 $\Pi^{\mathrm{sim}}(\psi, z)$ 分别表示真实系统和模拟器在给定 $z, \psi$ 下的 概率向量 (probability vector)。
有限样本观测： 对于每个场景 $j \in [m]$ $j \in [m]$ ：
- 我们观察到 $n_j$ 个 真实标注结果： $y_{j,i}^{\mathrm{gt}} \sim Q^{\mathrm{gt}}(\cdot \mid z_{j,i}, \psi_j)$ ，其中 $z_{j,1:n_j} \sim \mathcal{P}$ 。
- 我们生成 $k$ 个 模拟结果： $y_{j,\ell}^{\mathrm{sim}} \sim Q^{\mathrm{sim}}(\cdot \mid z_{j,\ell}^{\mathrm{sim}}, \psi_j, r)$ ，其中 $z_{j,1:k}^{\mathrm{sim}} \sim \mathcal{P}^{\mathrm{sim}}$ 。
- $\hat{p}_j$ 和 $\hat{q}_j$ 分别是 $p_j$ 和 $q_j$ 的 估计量 (estimators)。注意，为了标准化模拟器采样，所有场景的模拟样本数 $k$ 固定。
数据集 (Dataset)： $\mathcal{D} = \{(\psi_j, \hat{p}_j, \hat{q}_j, n_j, k)\}_{j=1}^m$ 。
差异函数 (Discrepancy Function)： $L : \Theta \times \Theta \to [0, \infty)$ 是一个用户选择的函数，用于度量 模拟统计量 和 真实统计量 之间的差异。例如，KL 散度 (Kullback-Leibler divergence) 或 Wasserstein 距离 (Wasserstein distance)。
真实差异 (True Discrepancy)： 对于每个场景 $\psi$ ，我们定义 真实差异 为 $\Delta_\psi := L(p_\psi, \hat{q}_\psi)$ 。这里的 $\hat{q}_\psi$ 使用 $k$ 个模拟样本进行估计。
分位数函数 (Quantile Function)： $V(\alpha) := \inf\{t \in \mathbb{R} : F_\Delta(t) \ge \alpha\}$ 是当 $\psi \sim \Psi$ 时 $\Delta_\psi$ 的 累积分布函数 (CDF) $F_\Delta$ 对应的 分位数函数。
目标： 构建一个 校准函数 $\hat{V}(\cdot, \mathcal{D}) : [0, 1] \to \mathbb{R}$ ，使得对于新的 $\psi \sim \Psi$ 和所有 $\alpha \in [0, 1]$ ，以下关系以高概率成立： $\mathbb{P}_{\psi \sim \Psi} \big( \Delta_\psi \le \hat{V}(\alpha, \mathcal{D}) \big| \mathcal{D} \big) \approx \alpha - \varepsilon_m,$ 其中 $\varepsilon_m$ 随着 $m \to \infty$ 消失。

4.2. 核心方法详解

本文方法分为两个主要步骤：

4.2.1. 步骤 1：计算伪差异 (Pseudo-Discrepancy) $\hat{\Delta}_j$

对于每个场景 $j$ ，我们首先构建一个 置信集 (confidence set) $\mathcal{C}_j(\hat{p}_j)$ 来捕获 真实参数 $p_j$ 的不确定性。然后，基于这个置信集和模拟器估计 $\hat{q}_j$ ，计算一个 伪差异 $\hat{\Delta}_j$ 。

构建 $p_j$ 的置信集 $\mathcal{C}_j(\hat{p}_j)$ ：
- 这个 置信集 是基于 真实标注数据 $\mathcal{D}_j^{\mathrm{gt}}$ 及其估计量 $\hat{p}_j$ 构造的。
- 它满足一个关键属性：真实参数 $p_j$ 以预设的 覆盖概率 (coverage probability) $\gamma$ 落在 $\mathcal{C}_j(\hat{p}_j)$ 中，即 $\mathbb{P}(p_j \in \mathcal{C}_j(\hat{p}_j) \mid \psi_j, n_j) \ge \gamma$ 。在主定理中，作者选择 $\gamma = \frac{1}{2}$ 。
- 置信集 的具体形式取决于 结果类型 (outcome type) 和 差异函数 (discrepancy function)。本文提供了几个例子：
- 示例 3.1 (多项式置信集 - Multinomial Confidence Set)： 如果结果是 多项式分布 (multinomial outcomes)，参数空间 $\Theta = \mathcal{P}^d$ (d-1 单纯形 (simplex))，并且使用 KL 散度 (Kullback-Leibler divergence) $\mathrm{KL}(\cdot \| \cdot)$ 。置信集定义为： $\mathcal{C}_j(\hat{p}_j) := \Big\{ u \in \mathcal{P}^d : \mathrm{KL}(\hat{p}_j \| u) \leq \frac{d-1}{n_j} \log \Big( \frac{2(d-1)}{\gamma} \Big) \Big\}.$ 这个界限是 Chernoff-Hoeffding 不等式 的变体（见 Lemma A.5）。
- 示例 3.2 (有界结果 - Bounded Outcomes)： 如果结果 $Y$ 有界于 [a, b]，且 $\hat{p}_j$ 是 样本均值 (sample mean)。置信集定义为： $\mathcal{C}_j(\hat{p}_j) := \Big\{ u \in [a, b] : ~ |u - \hat{p}_j| \leq (b-a) \sqrt{\frac{\log(2/\gamma)}{2n_j}} \Big\}.$ 这个界限基于 Hoeffding 不等式。
- 示例 3.3 (伯努利置信集 - Bernoulli Confidence Set)： 如果结果 $Y$ 服从 伯努利分布 $\mathrm{Ber}(p_j)$ 。置信集定义为： $\mathcal{C}_j(\hat{p}_j) := \Big\{ u \in \mathbb{R} : \mathrm{KL}(\hat{p}_j \| u) \leq \frac{1}{n_j} \log \Big( \frac{2}{\gamma} \Big) \Big\}.$ 这里 $D(p_j || u)$ 是 伯努利分布 之间的 KL 散度（见 Lemma A.4）。
- 示例 3.4 (非参数 $W_1$ 置信集 - Nonparametric $W_1$ Confidence Set)： 对于场景 $j$ ， $\widehat{P}_j$ 是 $n_j$ 个样本的 经验分布 (empirical distribution)。假设真实结果 $Y$ 是 $\sigma$ -次高斯 ( $\sigma$ -sub-Gaussian)。置信集定义为： $\mathcal{C}_j^{W_1}(\widehat{P}_j) := \Big\{ Q : ~ W_1(\widehat{P}_j, Q) \leq r_j(n_j, \gamma, \sigma) \Big\},$ 其中， $r_j = \frac{512\sigma}{\sqrt{n_j}} + \sigma \sqrt{\frac{256e}{n_j} \log \frac{1}{1-\gamma}}.$ 这个界限基于 Wasserstein 距离 的 集中不等式 (L.A. and Bhat 2022)。
计算伪差异 $\hat{\Delta}_j$ ： 一旦构建了 置信集 $\mathcal{C}_j(\hat{p}_j)$ ，伪差异 $\hat{\Delta}_j$ 被定义为在 置信集 内，真实参数 $p_j$ 的所有 可能值 $u$ 与 模拟估计量 $\hat{q}_j$ 之间 差异函数 $L(u, \hat{q}_j)$ 的 上确界 (supremum)。 $\hat{\Delta}_j := \operatorname*{sup}_{u \in \mathcal{C}_j(\hat{p}_j)} L(u, \hat{q}_j).$
- 直观上， $\hat{\Delta}_j$ 代表了在给定观测数据下，场景 $j$ 的 最坏情况差异 (worst-case discrepancy)。
- 可计算性： 对于特定的 差异函数 $L$ $L$ 和 置信集 $\mathcal{C}_j$ $C_{j}$ ， $\hat{\Delta}_j$ $\hat{Δ}_{j}$ 是 可计算 (tractable) 的。
  - KL 散度： 如果 $\mathcal{C}_j(\hat{p}_j)$ 是基于 KL 散度 的集合，且 $L(u, \hat{q}_j) = \mathrm{KL}(u \| \hat{q}_j)$ ，那么 上确界 的 最大化器 (maximizer) 位于 置信集 的边界上，可以通过 一维对偶搜索 (one-dimensional dual search) 或其他 最大化技术 (maximization techniques) 计算。
  - Wasserstein-1 距离： 如果 $\mathcal{C}_j^{W_1}(\widehat{P}_j)$ 是基于 $W_1$ 的集合，且 $L(u, \widehat{Q}_j) = W_1(u, \widehat{Q}_j)$ ，则利用 三角不等式 (triangle inequality) 可以得到一个 上界： $\hat{\Delta}_j = \operatorname*{sup}_{u \in \mathcal{C}_j^{W_1}(\widehat{P}_j)} W_1(u, \widehat{Q}_j) \leq W_1(\widehat{P}_j, \widehat{Q}_j) + r_j.$ 这使得 $\hat{\Delta}_j$ 简化为一个 可处理的实数值 (tractable, real-valued number)。

4.2.2. 步骤 2：估计校准分位数曲线 $\hat{V}_m(\alpha)$

在获得每个场景的 伪差异 $\{\hat{\Delta}_j\}_{j=1}^m$ 后，我们利用它们的 经验分布 (empirical distribution) 来估计 差异的分位数函数。

经验 $\alpha$ -分位数： $\hat{V}_m(\alpha)$ 被定义为 伪差异 $\{\hat{\Delta}_j\}_{j=1}^m$ 的 $\text{经验}$ \alpha $-\text{分位数}$ ： $\hat{V}_m(\alpha) := \mathrm{the} ~ \alpha \mathrm{-quantile~ of~} \{\hat{\Delta}_j\}_{j=1}^m.$ 这通常通过对 $\{\hat{\Delta}_j\}_{j=1}^m$ 进行排序，然后选择对应 分位数 位置的值来实现。

4.3. 理论保证 (Theoretical Guarantee)

本文提出了两个关键的 假设 (assumptions) 和一个 主定理 (main theorem) 来保证所提方法的有效性。

4.3.1. 假设 (Assumptions)

假设 3.1 (独立数据 - Independent Data)： 场景 $\psi_j$ 独立同分布 (i.i.d.) 地从 $\Psi$ 中抽取。此外，给定所有场景 $\{\psi_j\}_{j=1}^m$ ，数据对 $\mathcal{D} = \{(\mathcal{D}_j^{\mathrm{gt}}, \mathcal{D}_j^{\mathrm{sim}})\}_{j=1}^m$ 是独立的，并且对于每个 $j$ ，真实标注数据 $\mathcal{D}_j^{\mathrm{gt}}$ 和 模拟数据 $\mathcal{D}_j^{\mathrm{sim}}$ 在条件于 $\psi_j$ 下是独立的。新的测试场景 $(\psi, D^{\mathrm{sim}})$ 独立于校准数据 $\mathcal{D}$ 。
假设 3.2 (正则差异 - Regular Discrepancy)： 差异函数 $L : \Theta \times \Theta \to [0, \infty)$ 在 $\Theta \times \Theta$ 上是 联合连续 (jointly continuous) 的，并且对于所有 $u \in \Theta$ ，满足 $L(u, u) = 0$ 。

4.3.2. 定理 3.1 (Calibrated Quantile Curve Theory)

定理 3.1： 假设 假设 3.1 和 假设 3.2 成立。对于任何模拟样本量 $k \in \mathbb{N}$ ，定义 $\Delta_j^{(k)} := L(p_j, \hat{q}_j)$ 和 $\hat{\Delta}_j^{(k)} := \operatorname*{sup}_{u \in \mathcal{C}_j(\hat{p}_j)} L(u, \hat{q}_j)$ ，其中 置信集 $\mathcal{C}_j(\hat{p}_j) \subset \Theta$ 是数据驱动的 紧致置信集 (compact confidence sets)，满足 $\mathbb{P}(p_j \in \mathcal{C}_j(\hat{p}_j) \mid \psi_j, n_j) \ge \frac{1}{2}$ 。那么，对于任何 $\alpha \in (0, 1)$ ，以至少 $1-\eta$ 的概率在 $\mathcal{D}$ 上，我们有以下保证： $\mathbb{P}_{\psi \sim \Psi} \Big( \Delta_\psi^{(k)} \le \hat{V}_m \big( 1 - \frac{\alpha}{2} \big) \Big| \mathcal{D} \Big) \ge 1 - \alpha - \frac{\varepsilon(\alpha, m, \eta)}{\sqrt{m}},$ 其中 $\varepsilon(\alpha, m, \eta) = \sqrt{2\alpha \log \frac{2m}{\eta} + \frac{(\log \frac{2m}{\eta})^2 + 4 \log \frac{2m}{\eta}}{m}} + \frac{\log \frac{2m}{\eta} + 2}{\sqrt{m}} + \sqrt{\frac{\log(4/\eta)}{2}}.$ 特别地，余项 (remainder) 是 $O(\sqrt{(\log m)/m})$ ，对于任何 $\alpha$ ，当 $m \to \infty$ 时，该余项消失。

定理的含义： 这个定理表明，我们构造的 经验伪分位数 $\hat{V}_m(\cdot)$ 能够以高概率覆盖 真实差异 $\Delta_\psi$ 的 分位数。为了达到 $\alpha$ 级别的覆盖，我们需要评估 经验伪分位数 在一个稍大的指数 $(1-\alpha/2)$ 处的值。余项 $\varepsilon(\alpha, m, \eta)/\sqrt{m}$ 衡量了由于 有限场景数 ( $m$ ) 和 校准过程 引入的误差，它会随着 $m$ 的增加而减小。
直观解释：
1. 置信集 $\mathcal{C}_j(\hat{p}_j)$ ： 通过为 $p_j$ 构建 置信集，并计算 伪差异 $\hat{\Delta}_j$ 为 置信集 上的 上确界，我们确保了 $\hat{\Delta}_j$ 以至少 $\frac{1}{2}$ 的概率大于或等于 真实差异 $\Delta_j$ 。
2. ** 经验分位数 调整：** 由于 $\hat{\Delta}_j$ 是 真实差异 的 保守估计 (conservative estimate)，为了获得对 真实差异分布 的覆盖保证，我们需要在 经验伪分位数 上向更 保守 (conservative) 的方向（即更大的分位数索引）进行调整。定理中的 $(1-\alpha/2)$ 就是这种调整的体现。
3. DKW 不等式： 余项 的一部分来源于 Dvoretzky-Kiefer-Wolfowitz (DKW) 不等式 (Lemma A.1)，用于量化 经验分布函数 与 真实分布函数 之间的偏差。

4.3.3. 校准分位数曲线的用途

通过这个 校准分位数曲线 $\hat{V}_m(\alpha)$ ，我们可以：

构建 真实参数 $p_\psi$ 的 置信集： 对于一个 未见场景 $\psi$ 和其 模拟结果 $\hat{q}_\psi$ ，我们可以构建一个 置信集 $S_{\bar{\alpha}}$ ： $S_{\bar{\alpha}} := \big\{ u \in \Theta : L(u, \hat{q}_\psi) \leq \tau_{\bar{\alpha}} \big\}, \quad \tau_{\bar{\alpha}} := \hat{V}_m \big( 1 - \frac{\bar{\alpha}}{2} \big).$ 根据定理 3.1，真实参数 $p_\psi$ 以至少 $1-\bar{\alpha}$ 的概率（忽略 $o_m(1)$ 余项）落在 $S_{\bar{\alpha}}$ 中。
汇总模拟器性能： 为了方便汇总，定义 指数调整 (index-adjusted) 的 校准曲线： $\hat{V}_m^{\mathrm{cal}}(\tau) := \hat{V}_m \Big( \frac{1+\tau}{2} \Big), \qquad \tau \in [0, 1].$
- 校准 AUC (Calibrated AUC)： 聚合整个 校准曲线 为一个 平均偏差摘要 (average-bias summary)。 $\mathrm{AUC}_{\mathrm{cal}} := \int_0^1 \hat{V}_m^{\mathrm{cal}}(\tau) d\tau.$
- 校准 CVaR (Calibrated CVaR)： 量化 尾部风险。 $\operatorname{CVaR}_\alpha^{\mathrm{cal}} := {\frac{1}{\alpha}} \int_{1-\alpha}^1 \hat{V}_m^{\mathrm{cal}}(u) du.$ 这表示在最差的 $\alpha$ 分位数 范围内 差异 的平均值。

4.4. 成对模拟器比较 (Pairwise Simulator Comparison)

该框架可以扩展到比较两个模拟器 $S_1$ 和 $S_2$ 的性能。

定义 性能差异 (Performance Discrepancy)： 对于给定场景 $\psi$ ，定义 性能差异 $\delta_\psi$ 为： $\delta_\psi := L(p_\psi, \hat{q}_\psi^{(1)}) - L(p_\psi, \hat{q}_\psi^{(2)}).$ 其中 $\hat{q}_\psi^{(1)}$ 和 $\hat{q}_\psi^{(2)}$ 分别是模拟器 $S_1$ 和 $S_2$ 的估计量。 $\delta_\psi < 0$ 意味着 $S_1$ 在场景 $\psi$ 上比 $S_2$ 更接近 真实标注数据。
计算 伪性能差异 (Pseudo-Performance Discrepancy)： 类似地，对于每个场景 $j$ ，我们计算一个 伪性能差异 $\hat{\delta}_j$ ： $\hat{\delta}_j := \operatorname*{sup}_{u \in \mathcal{C}_j(\hat{p}_j)} \Big[ L(u, \hat{q}_j^{(1)}) - L(u, \hat{q}_j^{(2)}) \Big].$ 这里 $\mathcal{C}_j(\hat{p}_j)$ 仍是 $p_j$ 的 置信集，且满足 $\mathbb{P}(p_j \in \mathcal{C}_j(\hat{p}_j) \mid \psi_j, n_j) \ge \gamma$ 。
经验 $\alpha$ -分位数： 然后，我们计算 $\{\hat{\delta}_j\}_{j=1}^m$ 的 $\text{经验}$ \alpha $-\text{分位数}$ $\hat{U}_m(\alpha)$ 。
定理 3.2 (Pairwise Comparison Theory)： 定理 3.2： 假设 假设 3.1 和 假设 3.2 成立。对于任何模拟样本量 $k \in \mathbb{N}$ ，定义 差异 $\delta_j$ 和 伪性能差异 $\hat{\delta}_j$ 如上，其中 置信集 $\mathcal{C}_j(\hat{p}_j, \gamma)$ 满足 $\mathbb{P}(p_j \in \mathcal{C}_j(\hat{p}_j, \gamma) \mid \psi_j, n_j) \ge \gamma$ 。那么，对于任何 $\alpha \in (0, 1)$ 和 $\eta \in (0, 1)$ ，以至少 $1-\eta$ 的概率在 校准数据 $\mathcal{D}$ 上，我们有： $\mathbb{P}_{\psi \sim \Psi} \Big( \delta_\psi \le \widehat{U}_m \big( 1 - \frac{\alpha}{2} \big) \Big| \mathcal{D} \Big) \ge 1 - \alpha - \frac{\varepsilon(\alpha, m, \eta)}{\sqrt{m}},$ 其中 $\varepsilon(\alpha, m, \eta)$ 与 定理 3.1 中的形式相同，且 余项 为 $O(\sqrt{(\log m)/m})$ 。

定理的含义： 如果对于某个 $\alpha$ ， $\widehat{U}_m(1-\alpha/2) \le 0$ ，那么在 (1-余项) 概率下，模拟器 $S_1$ 至少与 $S_2$ 一样好（即 $\delta_\psi < 0$ ）的场景比例至少为 $(1-\alpha)$ 。

4.5. 校准分位数曲线的紧致性分析 (Tightness Analysis)

4.5.1. 定理 5.1 (Tightness Guarantee)

定理 5.1： 假设 定理 3.1 的设置和 假设 3.1-3.2 成立。令 $\gamma \in (1/2, 1]$ ，并定义 下伪差异 (lower pseudo-discrepancies) 为： $\Delta_j^- := \operatorname*{inf}_{u \in C_j(\hat{p}_j)} L(u, \hat{q}_j),$ 其中 $C_j(\hat{p}_j) \subset \Theta$ 是数据驱动的 置信集，满足 $\mathbb{P}(p_j \in C_j(\hat{p}_j) \mid \psi_j, n_j) \ge \gamma$ 。令 $\hat{V}_m^-(\alpha)$ 表示 $\{\Delta_j^-\}_{j=1}^m$ 的 $\text{经验}$ \alpha $-\text{分位数}$ ，而 $\hat{V}_m(\alpha)$ 表示 定理 3.1 中 上伪差异 的 $\text{经验}$ \alpha $-\text{分位数}$ （使用相同的 覆盖水平 $\gamma$ ）。

对于任何 $\eta \in (0, 1)$ ，以下 统一下界 (uniform lower bound) 成立：以至少 $1-\eta$ 的概率在 校准数据 $\mathcal{D}$ 上，对于所有 $\alpha \in (0, 1)$ ： $\mathbb{P}_{\psi \sim \Psi} \Big( \Delta(\psi) \geq \hat{V}_m^-(\gamma \alpha) \Big| \mathcal{D} \Big) \geq 1 - \alpha - \frac{\varepsilon_-^{(\gamma)}(\alpha, m, \eta)}{\sqrt{m}},$ 其中 $\varepsilon_-^{(\gamma)}(\alpha, m, \eta)$ 是 $O(\sqrt{(\log m)/m})$ 量级的，且在 $\alpha$ 上是统一的。

令 $V : [0, 1] \to \mathbb{R}$ 表示 $\Delta(\psi)$ 的 分位数函数。那么，对于任何固定的 $\tau \in (0, 1)$ ，当 $m \to \infty$ 时，我们获得 渐近区间 (asymptotic band)： $\hat{V}_m^-(\gamma \tau) \leq V(\tau) \leq \hat{V}_m \bigl( \gamma + (1-\gamma)\tau \bigr) + o_m(1),$ 其中 $o_m(1) \to 0$ 当 $m \to \infty$ 时。

定理的含义： 定理 5.1 提供了 真实分位数曲线 $V(\tau)$ 的 置信带 (confidence band)。通过结合 上伪差异 和 下伪差异，我们可以确定 真实分位数曲线 $V(\tau)$ 所在的范围。这使得我们可以量化所估计的 校准分位数曲线 的 紧致性，即它与 真实曲线 的接近程度。当 每个场景的真实世界样本量 ( $n_j$ ) 足够大时，置信集 $\mathcal{C}_j(\hat{p}_j)$ 将变得更小，从而使得 上伪差异 和 下伪差异 之间的差距缩小，置信带 变紧。

4.6. 总结方法流程

数据收集： 对于 $m$ 个独立同分布的场景 $\{\psi_j\}_{j=1}^m$ ，收集 真实标注数据 $\mathcal{D}_j^{\mathrm{gt}}$ （ $n_j$ 个样本）和 模拟数据 $\mathcal{D}_j^{\mathrm{sim}}$ （ $k$ 个样本）。
参数估计： 从 $\mathcal{D}_j^{\mathrm{gt}}$ 和 $\mathcal{D}_j^{\mathrm{sim}}$ 分别估计 真实统计量 $p_j$ 和 模拟统计量 $q_j$ 的点估计 $\hat{p}_j$ 和 $\hat{q}_j$ 。
置信集构建： 对于每个场景 $j$ ，使用 集中不等式（如 Chernoff-Hoeffding）和预设的 覆盖概率 $\gamma$ 构建 真实参数 $p_j$ 的 置信集 $\mathcal{C}_j(\hat{p}_j)$ 。
伪差异计算： 对于每个场景 $j$ ，在 置信集 $\mathcal{C}_j(\hat{p}_j)$ 上计算 差异函数 $L(u, \hat{q}_j)$ 的 上确界，得到 伪差异 $\hat{\Delta}_j$ 。对于成对比较，计算 伪性能差异 $\hat{\delta}_j$ 。
分位数曲线估计： 对所有场景的 伪差异 $\{\hat{\Delta}_j\}_{j=1}^m$ 进行排序，并计算其 $\text{经验}$ \alpha $-\text{分位数}$ $\hat{V}_m(\alpha)$ ，得到 校准分位数曲线。
理论保证： 根据 定理 3.1 和 定理 3.2，该 校准分位数曲线 提供了对 真实差异分布 的 有限样本覆盖保证。
紧致性评估： 根据 定理 5.1，通过计算 下伪差异 和 上伪差异 的 经验分位数，可以构建 真实分位数曲线 的 置信带，从而评估估计的紧致性。

5. 实验设置

5.1. 数据集

本文主要使用 WorldValueBench 数据集进行实验，并在附录中展示了 EEDI 和 OpinionQA 数据集上的应用。

5.1.1. WorldValueBench 数据集

来源： 由 Zhao et al. (2024) 整理，基于 World Values Survey (Haerpfer et al., 2020)。
特点： 包含在 64 个国家进行的调查问题，旨在了解人们在 12 个类别（例如，社会价值观、安全、移民）中的态度。
规模： 清理后保留了 235 个不同的问题和来自 96,220 个个体的回答。
数据形态： 每个问题提供一组分类答案。为了进行统一比较，将每个问题的分类答案映射到 $[-1, 1]$ 区间内的 实数值结果 (real-valued outcome)。映射的方向由 GPT-5 评估答案的“理想程度”来确定（例如，从“A lot worse off”映射到 -1，到“A lot better off”映射到 1）。
个体协变量 (Individual-level Covariates)： 包含每个受访者的 人口统计信息，例如性别、年龄、移民状态、教育、婚姻状况等。这些协变量用于构建 合成特征 (synthetic profiles) 和 提示 (prompts) 用于 LLM 模拟。

以下是数据集中的具体样本示例：

Figure 2: Example of World Value Questions. Retrieved from Haerpfer et al. (2020).

$Figure 3: Calibrated $V ( \\alpha )$ across LLMs.$ 该图像是图表，展示了不同 LLM 模型（如 GPT4o、GPT5mini、Llama、Qwen3和 Uniform）的校准后的 $V(\alpha)$ 随着 $\alpha$ 的变化情况。各条曲线反映了模型在模拟与真实结果之间的差异表现。

该图展示了 World Value Questions 的一个例子：“Q199. How interested would you say you are in politics? Are you 1 Very interested, 2 Somewhat interested, 3 Not very interested, 4 Not at all interested”。这是一个典型的分类问题，用户选择一个选项来表示他们对政治的兴趣程度。

Figure 6: Text of Question 223.

Figure 6: Text of Question 223. 该图像是一个调查问卷中的问题文本，内容为Q223：如果明天举行全国选举，您会投票给名单上的哪个政党？文本中列出了多个政党选项供受访者选择，包含'不知道'的选项。

该图展示了 Question 223 的文本：“Q223. If there were a national election tomorrow, which of the parties on this list would you vote for? (Code one number)” 之后列出了多个政党选项和“Don't know”选项。这类问题被排除，因为它难以沿着有序的情感尺度解释。

Figure 7: Example questions from the Political Interest category.

Figure 7: Example questions from the Political Interest category. 该图像是一个显示选民对其国家选举中几种现象看法的调查表。表中列出了不同问题，如投票是否公正、反对派候选人是否被阻止参选等，并标明了受访者的频率评估，选项包括"非常频繁"、"相当频繁"、"不频繁"和"根本不频繁"。

该图展示了 政治兴趣 类别中的示例问题，如“Q199. How interested would you say you are in politics?”，和“Q200. When you get together with your friends, would you say you discuss political matters…”，以及对应的回答选项。

Figure 8: Example question from the Science and Technology category. $. Ph c h sh he or that "the world is a lot better off." (Code one number): <div class="table-wrapper"><table><tr><td colspan="10"></td></tr><tr><td>A lot worse off 1</td><td>2</td><td>3</td><td>4</td><td>5</td><td>6</td><td>7</td><td>8</td><td>9</td><td>A lot better off 10</td></tr></table></div>$ 该图展示了 科学技术 类别中的示例问题，评估人们对科学技术是否改善世界的看法，回答选项从 1 到 10，其中 1 为“A lot worse off”，10 为“A lot better off”。

Figure 9: Example question from the Migration category.

Figure 9: Example question from the Migration category. 该图像是一个评分表，展示了对某项任务或服务的评估标准。评分从1到5分，分别表示'非常差'到'非常好'，中间的'一般'评分为3分。这种评分标准通常用于收集反馈或满意度调查。

该图展示了 移民 类别中的示例问题，评估人们对来自其他国家的人的看法。问题是：“Q. Now we would like to know your opinion about the people from other countries who come to live in [your country]. How would you evaluate the people from other countries who come to live in [your country]? (Code one number)” 对应的回答选项从“Very bad for the economy”到“Very good for the economy”。

5.1.2. EEDI 数据集 (附录 E.1)

来源： He-Yueya et al. (2024)，基于 NeurIPS 2020 Education Challenge (Wang et al., 2021)。
特点： 包含学生对数学多项选择题的回答。
规模： 原始语料库包含 573 个不同问题和 443,433 条来自 2,287 名学生的回答。经预处理后，保留了 412 个问题（至少有 100 条学生回答，排除带图表的问题）。
数据形态： 每个问题有 A-D 四个选项，二值化为“正确/不正确”。
个体协变量： 包含性别、年龄、社会经济地位等。

5.1.3. OpinionQA 数据集 (附录 E.2)

来源： Santurkar et al. (2023b)，基于 Pew Research's American Trends Panel。
特点： 包含美国人口对社会公平、安全、技术等主题调查问题的回答。
规模： 原始语料库包含 385 个不同问题和 1,476,868 条来自至少 32,864 人的回答。
数据形态： 每个问题有 5 个选项，对应于有序的情感，属于 多项式设置 (multinomial setting)。
个体协变量： 包含性别、年龄、社会经济地位、宗教信仰、婚姻状况等。

5.2. 评估指标

5.2.1. 差异函数 (Discrepancy Function)

论文使用用户选择的 差异函数 $L : \Theta \times \Theta \to [0, \infty)$ 来度量 真实参数 $p$ 和 模拟参数 $q$ 之间的差异。

WorldValueBench 应用：
- 平方误差 (Squared-Error Discrepancy)：
  1. 概念定义： 平方误差 衡量了两个 实数值 (real-valued) 估计量之间距离的平方，它对较大的误差给予更大的惩罚。在本文中，由于分类答案被映射到 $[-1, 1]$ 区间，因此可以应用此指标。
  2. 数学公式： $L(p, q) = (p - q)^2$
  3. 符号解释：
    - $p$ : 真实统计量 的值。
    - $q$ : 模拟统计量 的值。
EEDI 数据集应用 (附录 E.1)：
- 绝对误差 (Absolute Error)：
  1. 概念定义： 绝对误差 衡量了两个 实数值 估计量之间距离的绝对值，它表示了误差的量级。
  2. 数学公式： $L(p, q) = |p - q|$
  3. 符号解释：
    - $p$ : 真实统计量 的值。
    - $q$ : 模拟统计量 的值。
OpinionQA 数据集应用 (附录 E.2)：
- 总变差距离 (Total Variation Distance)：
  1. 概念定义： 总变差距离 衡量了两个 概率分布 (probability distributions) 之间的最大可能差异，它表示了在所有可能的事件上，这两个分布的最大差异程度。对于 多项式分布，它等于 L1 距离 的一半。
  2. 数学公式： $L(p, q) = \frac{1}{2} \|p - q\|_1 = \frac{1}{2} \sum_{c=1}^K |p_c - q_c|$
  3. 符号解释：
    - $p$ : 真实分布 的 概率向量，其中 $p_c$ 是类别 $c$ 的概率。
    - $q$ : 模拟分布 的 概率向量，其中 $q_c$ 是类别 $c$ 的概率。
    - $K$ : 类别 的数量。
    - $\| \cdot \|_1$ : L1 范数 (L1-norm)。

5.2.2. 其他汇总指标

校准 AUC (Calibrated AUC)：
1. 概念定义： 校准 AUC 聚合了整个 校准分位数曲线 $\hat{V}_m^{\mathrm{cal}}(\tau)$ ，提供了一个 平均偏差摘要，反映了模拟器在所有 差异水平 上的平均性能。
2. 数学公式： $\mathrm{AUC}_{\mathrm{cal}} := \int_0^1 \hat{V}_m^{\mathrm{cal}}(\tau) d\tau$
3. 符号解释：
  - $\hat{V}_m^{\mathrm{cal}}(\tau)$ : 指数调整 后的 校准分位数曲线，定义为 $\hat{V}_m \Big( \frac{1+\tau}{2} \Big)$ 。
校准 CVaR (Calibrated CVaR)：
1. 概念定义： 校准 CVaR 衡量了 差异分布 的 尾部风险。具体而言，它是在最差的 $\alpha$ 分位数 范围内 差异 的平均值，对于 风险规避 (risk-averse) 的应用场景非常有用。
2. 数学公式： $\operatorname{CVaR}_\alpha^{\mathrm{cal}} := {\frac{1}{\alpha}} \int_{1-\alpha}^1 \hat{V}_m^{\mathrm{cal}}(u) du$
3. 符号解释：
  - $\alpha$ : 尾部风险 的水平，例如， $\alpha=0.1$ 表示最差的 10% 差异。
  - $\hat{V}_m^{\mathrm{cal}}(u)$ : 指数调整 后的 校准分位数曲线。

5.3. 对比基线

5.3.1. LLM 模拟器 (WorldValueBench)

GPT-4o (gpt-4o)
GPT-5 MINI (gpt-5-mini)
LLAMA 3.3 70B (Llama-3.3-70B-Instruct-Turbo)
QWEN 3 235B (Qwen3 235B A22B Thinking 2507 FP8)

5.3.2. LLM 模拟器 (EEDI & OpinionQA)

GPT-3.5 Turbo (gpt-3.5-turbo)
GPT-4o-MINI (gpt-4o-mini)
CLAUDE 3.5 HAIKU (claude-3-5-haiku-20241022)
LLAMA 3.3 70B (Llama-3.3-70B-Instruct-Turbo)
MISTRAL 7B (Mistral-7B-Instruct-v0.3)
DEEPSEEKV3 (DeepSeek-v3)

5.3.3. 均匀基线 (Uniform Baseline)

概念： 对于每个问题，这个基线 生成器 (generator) 从所有可用选项中 均匀随机 (uniformly at random) 地选择一个答案。
代表性： 作为一个最简单的随机模型，它提供了一个下限，用于评估 LLM 模拟器是否真正学习到了 真实世界分布 的任何模式，而不仅仅是随机猜测。

5.4. 实验参数设置

WorldValueBench：
- 模拟预算 $k=500$ 。
- 在估计 $\hat{q}_j$ 时，从 $k=500$ 个模拟响应中随机选择 200 个。
- 真实标注样本量 $n_j$ 略有不同，通常在 450 到 500 之间。
- 差异函数 $L(p, q) = (p-q)^2$ (平方误差)。
- 置信水平参数 $\delta = 0.05$ (在 定理 3.1 中的 $\varepsilon_m(\delta)$ 表达式中，用于控制 DKW 不等式 的失败概率)。
- 置信集覆盖水平 $\gamma = 0.5$ (在 定理 3.1 中，用于构建 $\mathcal{C}_j(\hat{p}_j)$ ，确保 $p_j \in \mathcal{C}_j(\hat{p}_j)$ 的概率至少为 $\gamma$ )。
EEDI (附录 E.1)：
- 差异函数 $L(p, q) = |p-q|$ (绝对误差)。
- 置信集覆盖水平 $\gamma = 0.5$ 。
- DKW 失败概率 $\delta = 0.1$ 。
- 模拟预算 $k = 50$ 。
OpinionQA (附录 E.2)：
- 差异函数 $L(p, q) = \frac{1}{2}\|p-q\|_1$ (总变差距离)。
- 置信水平参数 $\delta = 0.05$ 。
- 模拟预算 $k = 100$ 。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. WorldValueBench 数据集上的 LLM 保真度分析

下图（原文 Figure 3）展示了在 WorldValueBench 数据集上，不同 LLM 模拟器（包括 均匀基线 (Uniform baseline)）的 校准分位数曲线 $\hat{V}(\alpha)$ 。横轴 $\alpha$ 代表 差异分位数，纵轴 $\hat{V}(\alpha)$ 代表对应的 差异值。曲线越低越平坦，表示 差异 越小，模拟器 保真度 越高。

Figure 3: Calibrated $V ( \alpha )$ across LLMs.

$Figure 3: Calibrated $V ( \\alpha )$ across LLMs.$

分析：

总体性能： 相对于 均匀基线（黄色曲线），所有 LLM 模拟器在超过 70% 的问题上表现优异，这表明它们并非简单地随机生成答案。然而，在 尾部区域 (tail region)（即 $\alpha$ 接近 1，表示最大的差异），LLM 的曲线仍然较高，这说明它们在处理一些 极端或离群 (outlier) 问题时仍存在挑战。
GPT-4o 的主导地位： GPT-4o（蓝色曲线）在所有 分位数 上都处于最低位置，这强烈表明它与 真实标注数据 的 对齐 (alignment) 最可靠，具有最高的 保真度。它的曲线在大部分范围内都非常平坦，意味着其 差异 普遍较小。
GPT-5-MINI 的表现： GPT-5-MINI（橙色曲线）紧随 GPT-4o 之后，但在 尾部（ $\alpha$ 接近 1）显示出一些 上扬 (upward turn)，这说明它在某些 离群问题 上未能很好地捕捉 真实结果，但总体表现仍然非常出色。
其他 LLM 的表现： LLAMA 3.3 70B（绿色曲线）和 QWEN-3-235B（红色曲线）的曲线明显高于 GPT-4o 和 GPT-5-MINI，表明它们的性能相对较差。这突显了不同 LLM 在模拟人类响应能力上的 性能差距 (performance dominance)。
“肘部”现象 (Elbows)：曲线上的“肘部”现象（如 GPT-5-MINI 和 LLAMA 3.3 70B 在高 $\alpha$ 值处）揭示了模拟器在少数但严重的 错误 或 未捕捉到的离群值 (severe misses or uncaptured outliers) 情况。

6.1.2. 鲁棒性检查

下图（原文 Figure 4）展示了在不同 真实世界样本量 $n_j$ 水平下，LLM 模拟器性能的 鲁棒性检查。这四个子图分别对应 $n_j = 50, 500, 5000, 10000$ 的情况。

Figure 4: Robustness check of simulator performance under different $n$ levels.

$Figure 4: Robustness check of simulator performance under different $n$ levels.$

分析：

性能一致性： 尽管每个场景的 真实世界样本量 $n_j$ 发生了变化，但 GPT-4o 在所有 $n_j$ 水平下都保持了对 GPT-5-MINI、LLAMA 3.3 70B 和 QWEN-3-235B 的 主导地位。这验证了本文方法的结果具有 鲁棒性，模拟器之间的相对性能排名不受 真实世界样本量 的显著影响。
样本量 的影响： 随着 $n_j$ 的增加，所有模型的 校准分位数曲线 都趋于向下移动并变得更平坦（尽管图示可能不明显，但理论上和 紧致性分析 部分的 Figure 5 所示）。这意味着更多的 真实世界样本 使得 置信集 $\mathcal{C}_j(\hat{p}_j)$ 更小，伪差异 $\hat{\Delta}_j$ 更接近 真实差异 $\Delta_j$ ，从而提高了估计的精确度。

6.2. 紧致性分析

下图（原文 Figure 5）展示了在 GPT-4o 模型下，不同 真实世界样本量 $n_j$ 对 校准分位数曲线 紧致性 的影响。图中绘制了 校准分位数 $\hat{V}_m(\cdot)$ （蓝色、橙色、绿色、红色曲线分别对应 $n_j=100, 200, 500, 1000$ ）与 真实分位数 $\Delta^*$ （黑色虚线，基于 96,220 个响应）的比较。

Figure 5: Tightness analysis of different n _ { j } under GPT-4o.

$Figure 5: Tightness analysis of different `n _ { j }` under GPT-4o.$

分析：

样本量 对 紧致性 的影响：
- 当 $n_j=100$ 时（蓝色曲线），校准分位数曲线 相对宽松，与 真实分位数曲线 $\Delta^*$ 之间存在较大差距。这反映了当每个场景的 真实世界样本量 较少时，置信集 $\mathcal{C}_j(\hat{p}_j)$ 较大，导致 伪差异 $\hat{\Delta}_j$ 更加 保守，从而使得 校准分位数曲线 向上偏移。
- 随着 $n_j$ 增加到 200、500、1000（橙色、绿色、红色曲线），校准分位数曲线 逐渐向 真实分位数曲线 $\Delta^*$ 收敛，并且变得更加紧密。这表明所提出的方法在 真实世界样本量 充足时，能够提供相当 紧密 (tight) 的 分位数估计。
实际意义： 这一分析证实了方法的 渐近特性 (asymptotic property) 和 实用性。在实际应用中，如果能够收集足够的 真实世界样本，那么通过该方法获得的 校准分位数曲线 将能够非常准确地反映 真实差异分布。

6.3. EEDI 数据集上的 LLM 保真度分析 (附录 E.1)

下图（原文 Figure 10）展示了在 EEDI 数据集上，不同 LLM 模拟器（包括 随机基线）的 分位数保真度曲线 $\hat{V}(\alpha)$ 。这里使用的 差异函数 是 绝对误差 $L(p, q) = |p-q|$ 。

Figure 10: Quantile fidelity profiles $\\hat { V } ( \\alpha )$ across LLMs (Discrepancy: Absolute loss, $k = 5 0$ , $\\beta = 0 . 5$ , $\\delta = 0 .$ 1)

$Figure 10: Quantile fidelity profiles $\\hat { V } ( \\alpha )$ across LLMs (Discrepancy: Absolute loss, $k = 5 0$ , $\\beta = 0 . 5$ , $\\delta = 0 .$ 1)$

分析：

DEEPSEEK-V3 的领先： DEEPSEEK-V3（绿色曲线）在大多数 分位数 上表现最佳，曲线最低，表明其 对齐 最可靠。
随机基线与 LLM 性能： 随机基线（黑色虚线）的表现出人意料地好，甚至优于一些 LLM（如 LLAMA 3.3 70B 和 MISTRAL 7B）。这表明并非所有 LLM 都优于简单的随机策略，并且在 绝对误差 这种 差异函数 下，某些 LLM 可能不适合 基于代理的模拟 (agent-based simulation)。
GPT-4o 性能： GPT-4o（蓝色曲线）紧随 DEEPSEEK-V3 和 随机基线 之后，在 尾部 表现比 随机基线 稍差。

6.4. OpinionQA 数据集上的 LLM 保真度分析 (附录 E.2)

下图（原文 Figure 11）展示了在 OpinionQA 数据集上，不同 LLM 模拟器（包括 随机基线）的 分位数保真度曲线 $\hat{V}(\alpha)$ 。这里使用的 差异函数 是 总变差距离 $L(p, q) = \frac{1}{2}\|p-q\|_1$ 。

Figure 11: Quantile fidelity profiles $\\hat { V } ( \\alpha )$ across LLMs.

$Figure 11: Quantile fidelity profiles $\\hat { V } ( \\alpha )$ across LLMs.$

分析：

GPT-4o 的主导： GPT-4o（深蓝色曲线）在大多数 分位数 上表现最佳，其曲线最低，再次印证了其在模拟人类响应方面的 高保真度。
模型间的性能差距： MISTRAL 7B（绿色曲线）的性能明显较差，其曲线高于其他LLM。
陡峭的曲线： 模拟器曲线 (simulator curves) 比 随机基线（黑色虚线）更陡峭。这表明 LLM 的 差异 具有更强的 问题依赖性 (question-dependent)，并且 差异水平 不够均匀。这可能暗示 模拟器 需要进一步 微调 (fine-tuning) 以在所有问题上实现更 均匀的差异水平。

7. 总结与思考

7.1. 结论总结

本文提出了一种新颖的 无模型 (model-free) 方法，用于评估 黑盒模拟器 (black box simulators) 的 保真度 (fidelity)。该方法通过估计 模拟器 与 真实世界结果 之间 差异 的 分位数函数 (quantile function)，提供了一种全面且具有 有限样本保证 (finite-sample guarantees) 的 不确定性量化 (uncertainty quantification) 工具。核心思想是为每个场景构建 真实参数 的 置信集 (confidence set)，并基于此计算 伪差异 (pseudo-discrepancy)，进而估计 校准分位数曲线。

主要贡献包括：

无模型与黑盒适用性： 不对模拟器或真实世界的内部机制做任何参数假设，使其广泛适用于复杂的 机器学习驱动系统。
全面差异评估： 提供了 差异的整个分位数函数，而非单一统计量，支持构建 置信区间、风险价值 (VaR) 和 条件风险价值 (CVaR) 等 风险感知汇总。
有限样本理论保证： 提供了严格的 有限样本覆盖保证，这在数据有限的实际场景中至关重要。
成对比较框架： 扩展了方法以支持 成对模拟器比较，允许对不同模拟器的相对性能进行统计上稳健的断言。
LLM 模拟应用： 在 WorldValueBench 数据集上的应用表明，该方法能够有效地评估不同 大型语言模型 (LLM) 模拟人类响应的 保真度，并揭示了 GPT-4o 在此任务中的领先地位。紧致性分析 进一步证实了该方法在 真实世界样本量 充足时具有良好的精度。

7.2. 局限性与未来工作

论文作者指出了以下局限性和未来研究方向：

DKW 集中不等式的保守性： 本文的理论证明依赖于 Dvoretzky-Kiefer-Wolfowitz (DKW) 不等式 和 网格均匀步长 (grid-uniform step)，这些在 场景数量 ( $m$ ) 较小时可能过于 保守 (conservative)，导致 常数 (constants) 宽松。未来的工作目标是 收紧 (tightening) 这些界限。
动态模拟过程： 目前的框架是 静态 (static) 的，而许多应用涉及 时间依赖 (temporally dependent) 的 动态模拟过程 (dynamic simulation processes)。将该框架扩展到 动态设置 将大大拓宽其适用范围。
独立同分布假设的挑战： 本文分析假设 场景 是 独立同分布 (i.i.d.) 的。然而，在实际应用中，协变量偏移 (covariate shift) 或 内生采样 (endogenous sampling) 可能会使 边际保证 (marginal guarantees) 失效。解决此类 分布偏移 (distribution shifts) 是未来工作的一个重要方向。

7.3. 个人启发与批判

个人启发：
- 黑盒评估的普适性： 论文提出的 无模型黑盒评估 框架对于当前快速发展的 AI 模型 评估具有非常重要的意义。面对越来越复杂的 LLM 和 生成式 AI 模型，我们往往难以窥探其内部机制，这种基于 输入-输出 观测的 保真度量化 方法提供了一个通用且灵活的解决方案，可以应用于广泛的领域。
- 分位数曲线的丰富信息： 传统的评估指标（如均方误差、平均绝对误差）提供的是单一的汇总值，容易掩盖 尾部风险。分位数曲线 能够提供 差异分布 的全貌，使得 风险感知 的决策成为可能，这对于金融、医疗等 高风险领域 的 AI 系统 部署至关重要。
- 有限样本保证的实用性： 在许多现实场景中，获取 真实世界数据 是昂贵且耗时的。有限样本保证 比 渐近保证 更具实践意义，它确保了即使在数据量有限的情况下，我们也能对模拟器的性能有统计上可靠的理解。
- 校准与紧致性的平衡： 通过构建 置信集 和 伪差异 来校准 经验分位数，同时进行 紧致性分析，体现了在统计 鲁棒性 和 估计精度 之间寻求平衡的严谨学术态度。
批判与可改进之处：
- DKW 不等式 的保守性影响： 作者自己也承认 DKW 不等式 在 小样本 ( $m$ ) 情况下的 保守性。虽然这保证了严格的 覆盖率，但在实践中可能导致 置信带 过宽，使得诊断信息不够精细。未来的研究可以探索更 紧密 的 有限样本不等式 或基于 bootstrap 等 重采样 (resampling) 技术来改进 界限。
- 计算复杂性： 在 伪差异 $\hat{\Delta}_j$ 的计算中，涉及在 置信集 $\mathcal{C}_j(\hat{p}_j)$ 上进行 上确界 优化。虽然文中提到对于 KL 散度 和 Wasserstein 距离 是 可计算 的，但对于更复杂的 差异函数 或 高维参数空间，这个优化过程可能变得 计算密集 (computationally intensive)。探讨更 高效的优化算法 或 近似方法 可能是必要的。
- 差异函数 的选择： 论文强调 差异函数 $L$ 是用户选择的。虽然这提供了灵活性，但如何选择最合适的 $L$ 仍然是一个开放问题。不同的 $L$ 会强调 分布差异 的不同方面。例如，L1 距离、L2 距离、KL 散度 和 Wasserstein 距离 各有优缺点。提供关于 差异函数 选择的指导原则或 敏感性分析 (sensitivity analysis) 将使方法更加完善。
- 异构样本量 $n_j$ 的影响： 虽然方法能够处理 异构 的 $n_j$ ，但这种 异构性 如何最优地影响 置信集 的构建和最终 分位数曲线 的精度，以及是否存在 加权 (weighting) 策略可以进一步优化，值得深入探讨。
- 真实标注数据 的质量： 真实标注数据 的质量直接影响 置信集 $\mathcal{C}_j(\hat{p}_j)$ 的准确性。如果 真实标注数据 本身存在 噪声 (noise) 或 偏差，即使 $n_j$ 很大，估计 也可能不准确。这引入了 数据质量 的 不确定性，是所有 依赖真实标注数据 的 评估方法 需要面对的问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Model-Free Assessment of Simulator Fidelity via Quantile Curves

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 32 分钟读完 · 24,019 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

2.1.2. 为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白？

2.1.3. 这篇论文的切入点或创新思路是什么？

2.2. 核心贡献/主要发现

2.3. 论文得出了哪些关键的结论或发现？

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 模拟器 (Simulator)

3.1.2. 真实标注数据 (Ground Truth)

3.1.3. 模拟到真实差异 (Sim-to-Real Discrepancy)

3.1.4. 输出不确定性量化 (Output Uncertainty Quantification)

3.1.5. 黑盒模拟器 (Black Box Simulator)

3.1.6. 分位数函数 (Quantile Function)

3.1.7. 置信集 (Confidence Set)

3.1.8. 集中不等式 (Concentration Inequalities)

3.1.9. 风险价值 (Value at Risk, VaR) 与 条件风险价值 (Conditional Value at Risk, CVaR)

3.2. 前人工作

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 问题定义与符号

4.2. 核心方法详解

4.2.1. 步骤 1：计算伪差异 (Pseudo-Discrepancy) Δ^j\hat{\Delta}_jΔ^j​

4.2.2. 步骤 2：估计校准分位数曲线 V^m(α)\hat{V}_m(\alpha)V^m​(α)

4.3. 理论保证 (Theoretical Guarantee)

4.3.1. 假设 (Assumptions)

4.3.2. 定理 3.1 (Calibrated Quantile Curve Theory)

4.3.3. 校准分位数曲线的用途

4.4. 成对模拟器比较 (Pairwise Simulator Comparison)

4.5. 校准分位数曲线的紧致性分析 (Tightness Analysis)

4.5.1. 定理 5.1 (Tightness Guarantee)

4.6. 总结方法流程

5. 实验设置

5.1. 数据集

5.1.1. WorldValueBench 数据集

5.1.2. EEDI 数据集 (附录 E.1)

5.1.3. OpinionQA 数据集 (附录 E.2)

5.2. 评估指标

5.2.1. 差异函数 (Discrepancy Function)

5.2.2. 其他汇总指标

5.3. 对比基线

5.3.1. LLM 模拟器 (WorldValueBench)

5.3.2. LLM 模拟器 (EEDI & OpinionQA)

5.3.3. 均匀基线 (Uniform Baseline)

5.4. 实验参数设置

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. WorldValueBench 数据集上的 LLM 保真度分析

6.1.2. 鲁棒性检查

6.2. 紧致性分析

6.3. EEDI 数据集上的 LLM 保真度分析 (附录 E.1)

6.4. OpinionQA 数据集上的 LLM 保真度分析 (附录 E.2)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐

3.1.9. `风险价值` (Value at Risk, VaR) 与 `条件风险价值` (Conditional Value at Risk, CVaR)

4.2.1. 步骤 1：计算伪差异 (Pseudo-Discrepancy) $\hat{\Delta}_j$

4.2.2. 步骤 2：估计校准分位数曲线 $\hat{V}_m(\alpha)$