A generalized e-value feature detection method with FDR control at multiple resolutions
TL;DR 精炼摘要
本文提出了一种稳定灵活的e-过滤器过程(SFEFP),旨在解决多分辨率结构下显著特征及其分组的检测问题,并控制假发现率(FDR)。与现有的多层Knockoff过滤器方法相比,SFEFP通过构建广义e-值和利用稳定化处理,灵活整合不同分辨率下的检测过程,实验表明其在多分辨率FDR控制中表现出色。
摘要
Multiple resolutions arise across a range of explanatory features due to domain-specific structures, leading to the formation of feature groups. It follows that the simultaneous detection of significant features and groups aimed at a specific response with false discovery rate (FDR) control stands as a crucial issue, such as the spatial genome-wide association studies. Nevertheless, existing methods such as the multilayer knockoff filter (MKF) generally require a uniform detection approach across resolutions to achieve multilayer FDR control, which can be not powerful or even not applicable in several settings. To fix this issue effectively, this article develops a novel method of stabilized flexible e-filter procedure (SFEFP), by constructing unified generalized e-values, developing a generalized e-filter, and adopting a stabilization treatment. This method flexibly incorporates a wide variety of base detection procedures that operate effectively across different resolutions to provide stable and consistent results, while controlling the false discovery rate at multiple resolutions simultaneously. Furthermore, we investigate the statistical theories of the SFEFP, encompassing multilayer FDR control and stability guarantee. We develop several examples for SFEFP such as eDS-filter and eDS+gKF-filter. Simulation studies demonstrate that the eDS-filter effectively controls FDR at multiple resolutions while either maintaining or enhancing power compared to MKF. The superiority of the eDS-filter is also demonstrated through the analysis of HIV mutation data.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
多分辨率下具有 FDR 控制的广义 e-值特征检测方法 (A generalized e-value feature detection method with FDR control at multiple resolutions)
1.2. 作者
Chengyao Yu, Ruixing Ming, Min Xiao, Zhanfeng Wang, and Bingyi Jing。 作者分别隶属于浙江工商大学统计与数学学院、中国科学技术大学管理学院以及南方科技大学统计与数据科学系。
1.3. 发表期刊/会议
arXiv 预印本 (arXiv preprint)。 发布状态:预印本 (v4 版)。
1.4. 发表年份
2024年9月25日 (UTC)
1.5. 摘要
论文提出了一种新颖的稳定灵活 e-过滤器过程 (Stabilized Flexible E-Filter Procedure, SFEFP),旨在解决在多分辨率 (multiple resolutions) 结构下,同时检测显著特征及其分组,并控制假发现率 (False Discovery Rate, FDR) 的关键问题。现有的方法,例如多层 Knockoff 过滤器 (Multilayer Knockoff Filter, MKF),通常要求在所有分辨率上采用统一的检测方法来实现多层 FDR 控制,这在某些设置下可能不够强大甚至不适用。SFEFP 通过构建统一的广义 e-值 (generalized e-values)、开发广义 e-过滤器 (generalized e-filter) 和采用稳定化处理 (stabilization treatment) 来克服这一问题。该方法能够灵活地整合各种在不同分辨率下有效运行的基线检测过程,从而提供稳定且一致的结果,同时同步控制多分辨率下的 FDR。此外,论文还深入探讨了 SFEFP 的统计理论,包括多层 FDR 控制和稳定性保证。作者还开发了 eDS-filter 和 eDS+gKF-filter 作为 SFEFP 的具体应用示例。模拟研究表明,eDS-filter 在控制多分辨率 FDR 的同时,与 MKF 相比保持或增强了功效 (power)。对 HIV 突变数据分析也进一步验证了 eDS-filter 的优越性。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2409.17039v4 PDF 链接: https://arxiv.org/pdf/2409.17039v4.pdf
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题
在许多科学领域,解释性特征 (explanatory features) 往往具有多分辨率结构 (multi-resolution structures),这意味着它们可以根据领域特定特征被组织成多个有意义的特征组。例如,在全基因组关联研究 (Genome-Wide Association Studies, GWAS) 中,既关注影响表型 (phenotype) 的单个单核苷酸多态性 (SNPs),也关注包含这些 SNP 的基因。因此,如何同时检测对特定响应变量具有显著影响的特征和特征组,并严格控制在所有分辨率下的假发现率 (False Discovery Rate, FDR),是一个至关重要且具有挑战性的问题。
2.1.2. 现有研究的挑战与空白
- 现有方法限制: 现有的多层 FDR 控制方法,如基于 p-值的
p-filter[5, 30] 和多层 Knockoff 过滤器 (Multilayer Knockoff Filter, MKF) [23],通常要求在所有分辨率上采用统一的检测方法。p-filter的挑战在于,在高维设置下构建有效的 p-值很困难,且通过重塑 p-值来处理依赖性可能导致功效 (power) 下降。MKF的问题在于其多层 FDR 控制方法较为保守,因为它需要解耦跨层 Knockoff 统计量之间的依赖性。当特征高度相关时,基于 Knockoff 的方法可能会遭受严重的功效损失 [41, 14]。此外,Model-X Knockoff方法所需的特征联合分布通常难以估计。
- 单比特 e-值问题: 尽管
e-filter[18] 和e-MKF[18] 利用 e-值改进了MKF的功效并保证了多层 FDR 控制,但论文指出基于单比特 (one-bit) Knockoff e-值的e-filter可能会遇到零功效 (zero-power) 的困境。 - 缺乏灵活性: 目前缺乏一个统一的框架,允许用户根据每个分辨率的特点选择最先进的检测方法,而不仅仅局限于 p-值或 Knockoff。
2.1.3. 本文的切入点与创新思路
为了有效地解决上述问题,本论文提出了稳定灵活 e-过滤器过程 (Stabilized Flexible E-Filter Procedure, SFEFP)。其核心创新在于:
- 通用性: 通过构建统一的广义 e-值 (generalized e-values) 和开发广义 e-过滤器 (generalized e-filter),提供了一个普适框架,能够灵活地整合各种已有的最先进的特征检测方法。
- 稳定性与功效: 引入稳定化处理 (stabilization treatment),通过多次重复和平均广义 e-值,克服了单比特 e-值可能导致的零功效问题,显著提高了检测的稳定性和功效。
- 理论保证: 提供了严格的统计理论,证明了
SFEFP在多分辨率下的 FDR 控制和有限样本下的稳定性。
2.2. 核心贡献/主要发现
- 提出
SFEFP方法: 开发了一种新颖的稳定灵活 e-过滤器过程 (SFEFP),它能够灵活地利用在不同层(分辨率)上表现最佳的特征检测技术,从而获得稳定且强大的选择集,并同时实现多层假发现率 (FDR) 控制。 - 广义 e-值与广义 e-过滤器的创新构造: 首次明确定义并提出了广义 e-过滤器和广义 e-值 (generalized e-values) 的统一构造方法。这一创新使得
SFEFP能够直接整合各种最先进的检测方法 (如Knockoff、DS、GM、SAS等),而不仅仅局限于特定类型的方法,极大地增强了方法的通用性和灵活性。 - 解决零功效困境与增强功效:
SFEFP有效地解决了FEFP(Flexible E-Filter Procedure,SFEFP 的前身) 在单比特 (one-bit) 输入下可能导致的零功效问题。通过构建非单比特的广义 e-值来更好地协调各层之间的发现,显著提升了检测功效 (detection power)。 - 严格的统计理论保证: 论文深入研究了
SFEFP的统计理论,提供了多层 FDR 控制的保证以及在有限样本下的稳定性保证,为方法的可靠性提供了坚实的基础。 - 提供具体应用示例: 论文开发了
eDS-filter和eDS+gKF-filter作为SFEFP的具体应用实例。eDS-filter通过将DS和MDS方法扩展到多分辨率,在高相关性设置下为MKF和e-MKF提供了强大的替代方案。 - 卓越的实验验证: 模拟研究和对 HIV 突变数据的分析均表明,
eDS-filter在有效控制多分辨率 FDR 的同时,与MKF相比显著提高了功效。这证明了SFEFP框架的有效性及其在实际应用中的优越性。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 假发现率 (False Discovery Rate, FDR)
- 概念定义: 在大规模多重假设检验 (multiple hypothesis testing) 中,FDR 是指被错误拒绝的零假设 (null hypotheses) 的期望比例。与传统的 I 类错误率(也称作假阳性率,Type I error rate)控制不同,I 类错误率控制的是所有真零假设中被错误拒绝的比例,而 FDR 则关注在所有被拒绝的假设中,错误拒绝所占的比例。FDR 控制允许在多重检验中接受一定比例的假阳性,以换取更高的检测功效(即发现更多真实显著的效应),这在基因组学、图像处理等需要发现大量潜在信号的领域尤为重要。
- 数学公式:
- 符号解释:
- : 被错误拒绝的零假设数量(假阳性数)。
- : 被拒绝的所有假设数量。
- : 表示取最大值,即 。这样做是为了避免分母为零的情况。
3.1.2. e-值 (e-value)
- 概念定义: e-值是一种衡量反对零假设证据强度的统计量,类似于 p-值。一个 e-变量 是一个非负随机变量,在零假设 (null hypothesis) 下,其期望 (expected value) 至多为 1 ()。e-值是 e-变量的一次具体实现。与 p-值不同,e-值基于期望而非概率,这使得它们在某些情况下更容易构造和组合,并且对模型假设更具鲁棒性。拒绝零假设的规则通常是当 e-值大于 时(其中 是显著性水平),可以通过切比雪夫不等式 (Chebyshev inequality) 保证 I 类错误率控制。
- 与 p-值的对比: e-值在以下几个方面与 p-值有所不同:
- 定义: p-值是“在零假设下观察到当前或更极端数据的概率”;e-值是“在零假设下,e-变量的期望值至多为 1”。
- 组合: e-值可以直接通过乘积或加权平均进行组合,而 p-值的组合更为复杂。
- 鲁棒性: e-值通常对模型假设的变化更具鲁棒性。
3.1.3. e-BH 过程 (e-BH procedure)
- 概念定义:
e-BH 过程是由Wang和Ramdas[44] 提出的,用于控制多重检验中 e-值的 FDR,其灵感来源于Benjamini-Hochberg (BH)过程。该过程首先将所有 e-值按降序排列,然后根据一个动态阈值来选择拒绝的假设,以实现 FDR 控制。 - 算法概述:
- 将所有假设的 e-值 按降序排列:。
- 找到最大的索引 ,使得 。
- 拒绝所有 e-值 满足 的假设。
3.1.4. 多分辨率结构 (Multiple Resolutions)
- 概念定义: 多分辨率结构是指数据集中的特征可以以不同粒度或分组方式进行解释和分析。例如,在基因组学中,基因组可以被看作是单个核苷酸(最高分辨率)、基因区域(中分辨率)或染色体(最低分辨率)的集合。这些不同的“分辨率”或“层级”提供了不同的视角,每个层级都可能揭示重要的科学发现。
- 特征分组: 通常通过预先定义好的方案(例如,基于基因功能、物理位置等)将原始特征集划分为多个互不重叠或重叠的组。
- 层级与非层级: 多分辨率结构可以是层级 (hierarchical) 的(例如,SNP 属于基因,基因属于染色体),也可以是非层级 (non-hierarchical) 的(例如,特征可以同时属于多个不同的、不相关的组)。本文考虑的是更一般的情况,允许组之间重叠。
3.1.5. 假设检验 (Hypothesis Testing)
- 概念定义: 假设检验是统计推断的一种方法,用于判断样本数据是否足以支持某个关于总体参数的假设。它通常涉及建立一个零假设 (null hypothesis, ) 和一个备择假设 (alternative hypothesis, )。
- 零假设 : 在特征选择的背景下,零假设 表示给定其他所有特征 时,特征 与响应变量 之间是独立的,即 是不相关的。
- 备择假设 : 如果零假设不成立,则特征 被认为是相关的,即它在给定其他特征的情况下仍然对 提供额外的信息。
- 拒绝域 (Rejection Region): 检验统计量落入该区域时,我们将拒绝零假设。
3.1.6. 宽松 e-值 (Relaxed e-values)
- 概念定义:
宽松 e-值是一组 e-值,它们满足一个比标准 e-值更弱的条件,但仍足以保证在e-BH 过程中控制 FDR。具体来说,对于一组假设 及其对应的 e-值 ,如果它们满足 ,则称这些 e-值为宽松 e-值。这个条件比每个零假设下的 e-值期望都小于等于 1(即 )要宽松,因为它允许一些单个零假设的 e-值期望超过 1,只要所有零假设的 e-值期望总和不超过总假设数 即可。
3.2. 前人工作
3.2.1. p-过滤器 (p-filter) [5, 30]
- 背景: 这是
Barber和Ramdas提出的,基于 p-值的多层假发现率控制方法。它旨在解决在多分辨率结构下,同时检测个体特征和特征组的显著性问题。 - 核心思想:
p-filter采用一种迭代过滤的机制,通过调整不同分辨率下的 p-值阈值来控制多层 FDR。它确保在所有层级的发现都具有统计意义。 - 挑战:
- p-值构建: 在高维数据设置中,准确有效地构建 p-值往往非常困难。
- 依赖性处理: 当假设之间存在依赖性时,标准 p-值的有效性会受到影响。虽然可以通过重塑 p-值来处理依赖性,但这通常会降低检测的功效。
3.2.2. 多层 Knockoff 过滤器 (Multilayer Knockoff Filter, MKF) [23]
- 背景:
MKF由Katsevich和Sabatti提出,将Knockoff框架 [2, 13, 10] 扩展到多分辨率设置,以实现多层 FDR 控制。 - 核心思想:
Knockoff方法通过构造与原始特征具有相同协方差结构但条件独立于响应变量的“影子”或“Knockoff”特征,来估计假发现数量。MKF则将这一思想推广到多层结构,通过定义跨层 Knockoff 统计量来实现多层 FDR 控制。 - 挑战:
- 保守性: 为了保证多层 FDR 控制,
MKF通常比较保守,这意味着它可能会错过一些真实的信号,导致功效降低。这主要是因为需要解耦跨层 Knockoff 统计量之间的依赖性。 - 功效损失: 当特征之间高度相关时,基于 Knockoff 的方法可能遭受严重的功效损失 [41, 14]。
- 模型假设:
Model-X Knockoff需要特征的联合分布信息,这在实际应用中通常难以精确估计。
- 保守性: 为了保证多层 FDR 控制,
3.2.3. e-MKF [18]
- 背景:
Gablenz等人基于e-filter和单比特 Knockoff e-值对MKF进行了扩展。 - 核心思想:
e-MKF旨在结合 e-值的优势(构造简单、鲁棒性强)与Knockoff框架的 FDR 控制能力,以提高MKF的功效。 - 挑战: 论文指出
e-MKF尽管提高了MKF的功效,但在其单比特 e-值的性质下,仍可能遭遇零功效 (zero-power) 的困境。这意味着在某些情况下,e-MKF可能无法检测到任何显著特征。
3.2.4. 数据拆分 (Data Splitting, DS) 和多重数据拆分 (Multiple Data Splitting, MDS) 方法 [15]
- 背景:
Dai等人提出DS和MDS方法,旨在解决高维回归模型中的特征检测问题,特别是在特征高度相关的情况下。 - 核心思想:
DS方法通过将样本数据随机拆分成两部分,独立地在两部分数据上估计特征系数,然后构造检验统计量。通过利用统计量的对称性质来估计假发现,从而控制渐近 FDR。MDS是DS的一个改进版本,通过多次重复数据拆分并聚合结果,进一步提高稳定性和功效。 - 优势: 模拟研究表明,在特征高度相关的回归模型中,
DS和MDS比Knockoff方法展现出显著更高的功效。 - 限制: 原始
DS/MDS关注单层特征选择,未直接扩展到多分辨率分组检测。
3.2.5. 高斯镜像 (Gaussian Mirror, GM) 方法 [46]
- 背景:
Xing等人提出的GM方法是一种用于 FDR 控制的特征选择技术。 - 核心思想:
GM通过为每个特征构造一个“镜像”特征,并利用原始特征与其镜像特征之间在零假设下的对称性来估计假发现数。它构建的统计量与Knockoff类似,但构造方式有所不同。 - 特点: 在某些特定条件下,
GM方法可以有效地控制 FDR。
3.2.6. 基于对称性的自适应选择 (Symmetry-based Adaptive Selection, SAS) 框架 [45]
- 背景:
Wang等人提出了SAS框架,利用二维统计量 (two-dimensional statistics) 的对称性来确定拒绝超平面,以进行 FDR 控制下的自适应选择。 - 核心思想:
SAS框架关注的是每个假设对应的二维统计量。在零假设下,这些二维统计量通常展现出某种对称性。SAS利用核密度估计 (kernel density estimator) 和局部假发现率 (Local false discovery rate, Lfdr) 来构建一个自适应的拒绝区域,从而实现 FDR 控制。 - 优势:
SAS旨在通过利用更丰富的统计量信息来提高检测功效。
3.2.7. 去随机化 Knockoff 过程 (Derandomizing Knockoff Procedure) [33]
- 背景:
Ren等人提出通过利用 e-值来去随机化Knockoff过程,以实现 FDR 控制。 - 核心思想:
Knockoff过程本身具有随机性,每次运行可能得到不同的结果。derandomized Knockoff通过多次运行Knockoff过程,并对每次运行得到的 e-值进行平均,从而得到一个更稳定、去随机化的 e-值。然后,再使用e-BH 过程对这些平均 e-值进行选择。 - 挑战: 尽管提高了稳定性,但在单分辨率设置下,这种去随机化方法通常会以功效损失为代价 [24, 31]。
3.3. 技术演进
该领域的技术演进可以概括为以下几个关键阶段和方向:
-
从 p-值到 e-值: 早期,p-值是多重假设检验的主流工具 (
BH过程 [7])。然而,p-值在构建和组合方面存在挑战,尤其是在处理高维数据和依赖性时。e-值 [19, 21, 38, 39] 作为替代品出现,其基于期望的定义使其在构造和组合上更为简单,且对模型假设更具鲁棒性。Wang和Ramdas[44] 提出的e-BH 过程使得 e-值也能有效控制 FDR。 -
从单层到多层 FDR 控制: 传统的 FDR 控制方法主要关注单个分辨率下的特征选择。然而,在许多实际应用中,特征天然具有多分辨率结构,需要同时在多个层级进行发现。这催生了
p-filter[5, 30] 和MKF[23] 等多层 FDR 控制方法的出现。这些方法旨在解决不同层级发现之间的一致性问题,并避免在组层面 FDR 的膨胀。 -
从统一方法到灵活集成: 早期多层方法(如
MKF)往往要求所有层级使用统一的检测机制(例如,都基于 Knockoff)。这种统一性在某些情况下可能导致功效损失,尤其是在不同层级或数据特性需要不同检测方法的场景下。因此,研究趋势转向开发更灵活的框架,允许针对每个分辨率的特点选择最适合的“基线”检测过程。 -
克服 Knockoff 限制:
Knockoff框架在 FDR 控制方面非常强大,但其在高相关性特征下的功效损失和对特征联合分布的假设限制了其应用。这促使研究人员探索替代方法,如DS和MDS[15](在高相关性下表现优异)、GM[46] 和SAS[45](利用不同统计量的对称性)。 -
稳定化和功效提升: 随机性是许多先进统计推断方法的固有特性,例如
Knockoff。为了提高结果的稳定性和可靠性,Ren等人 [33] 提出了derandomized Knockoff,通过多次重复并平均 e-值来实现去随机化。然而,这种处理在单分辨率下可能以功效为代价。如何设计稳定化方法,不仅提高稳定性,还能在复杂的多分辨率场景下增强功效,成为了一个关键方向。本文的工作正处于这一技术演进的交汇点,旨在整合 e-值的优势、多层 FDR 控制的需求、灵活集成不同基线方法的愿望,并解决稳定化带来的功效权衡问题。
3.4. 差异化分析
本文提出的 SFEFP 方法与现有工作相比,具有以下核心区别和创新点:
-
通用性和灵活性:
- 核心优势:
SFEFP的最大创新在于其高度的通用性和灵活性。它通过广义 e-值和广义 e-过滤器的框架,允许用户在每个分辨率 (层) 上自由选择最适合的基线检测过程 (base detection procedure),无论是基于Knockoff、DS、GM还是SAS等。 - 对比
MKF和e-MKF:MKF[23] 和e-MKF[18] 都要求在所有层级使用统一的 Knockoff 框架。这种限制导致在某些数据特性(如高相关性)下,它们的功效会受到限制。SFEFP则通过集成eDS-filter等专门针对高相关性的方法,克服了这一局限。 - 对比现有 e-值构造: 论文指出其广义 e-值的构造 (方程 3) 比现有复合 e-值 [1, 22] 更强大和通用。例如,它不依赖于零假设 p-值的相互独立性等假设,能够从更广泛的 FDR 控制程序中生成有效的 e-值,例如
DSe-值、GMe-值和基于二维统计量的SASe-值,这些都超出了现有构造的范围。
- 核心优势:
-
解决零功效困境与功效增强:
- 核心问题: 论文明确指出了
FEFP(SFEFP 的非稳定化版本) 和e-MKF在面对单比特 (one-bit) 输入时可能遭遇零功效 (zero-power) 的问题。这意味着在不同层级发现存在显著冲突时,这些方法可能因为无法协调而被迫不选择任何特征。 SFEFP的解决方案:SFEFP引入了稳定化处理,通过多次重复运行基线检测过程并对生成的广义 e-值进行平均。这种平均化使得最终的广义 e-值不再是单比特的(即不再只有 0 或 1,而是可以取连续值),从而更好地反映了特征或组的重要性排名。- 对比去随机化: 与单分辨率下去随机化 Knockoff [33] 可能以功效损失为代价的情况不同,
SFEFP在多分辨率背景下的稳定化处理被证明能够增强功效,同时保持多层 FDR 控制。这是因为非单比特 e-值能够更好地协调不同层级之间的潜在冲突,从而做出更精准的选择。
- 核心问题: 论文明确指出了
-
多层 FDR 控制与稳定性保证:
SFEFP提供了严格的统计理论,保证了在多分辨率下的 FDR 控制和有限样本下的稳定性。这为方法在实际应用中的可靠性提供了坚实的基础。
-
实际应用中的优越性:
-
通过
eDS-filter和eDS+gKF-filter的示例,SFEFP在模拟研究和 HIV 突变数据分析中都展现出优于MKF和e-MKF的性能,尤其是在高相关性设置下,能够以更高的功效控制多层 FDR。综上所述,
SFEFP的核心创新在于其灵活性、稳定性和功效增强机制,它提供了一个通用且强大的框架,能够有效应对复杂的多分辨率特征选择问题,并克服了现有方法在功效和普适性方面的局限。
-
4. 方法论
本节将详细拆解 SFEFP 的技术方案。首先,我们将介绍论文的问题设置,然后回顾 e-值 和 e-BH 过程 的基础知识。接着,我们将详细阐述 SFEFP 的前身 FEFP (Flexible E-Filter Procedure),包括其框架、广义 e-值的构造、广义 e-过滤器以及其理论性质(包括单比特性质)。最后,我们将深入讲解 SFEFP 如何通过稳定化处理来克服 FEFP 的局限,并提供其理论保证和参数选择建议。
4.1. 问题设置 (Problem Setup)
论文将特征检测问题形式化为一个多重假设检验 (multiple hypothesis testing) 问题,并在此基础上引入了多分辨率 (multiple resolutions) 结构。
4.1.1. 特征检测
- 响应变量:
- 特征集:
- 数据样本: 个独立同分布 (i.i.d.) 样本 ,其中 是响应向量, 是已知的设计矩阵。
- 个体假设: 对于每个特征 (其中 ),零假设 (null hypothesis) 定义为:
- 符号解释:
- : 表示在给定其他所有特征 的情况下,特征 与响应变量 是独立的。
[N]: 表示索引集合 。
- 含义: 直观上,如果 为真,则 在已知其他特征的情况下不提供关于 的额外信息,即 是不相关的。如果 为假,则 是相关的。
- 符号解释:
- 相关特征集: 。
- 不相关特征集: 。
4.1.2. 组检测
论文进一步考虑了特征集可以在 个不同分辨率下进行解释的场景。
- 分辨率: 个不同的分辨率,用 表示。
- 分组: 对于每个分辨率 ,特征集被划分为 个组,表示为 。
- 符号解释:
- : 在分辨率 下的第 个特征组,它是一个特征索引的子集。
- : 组 中的特征集合。
- 说明: 这种分区方案应根据具体的研究目标预先确定,并且允许组之间存在重叠。
- 符号解释:
- 组索引函数: 函数
h(m, j)表示特征 在第 层所属的组的索引。 - 组假设: 在分辨率 下的组检测定义为:
- 符号解释:
- : 除组 以外的所有特征。
- 假设关系: 论文假设组零假设与个体零假设之间存在以下关系:
- 含义: 这意味着一个组的零假设为真,当且仅当该组内所有特征的零假设都为真。换句话说,只要组内有一个特征是相关的,则该组就被认为是相关的。
- 符号解释:
- 真零假设组集: 在层 中,真零假设组集 定义为:
- 含义: 只有当一个组内的所有特征都是不相关的(即所有特征都属于 )时,该组才被认为是真零假设组。
- 选定组集: 给定选定的特征集 ,第 层中选定的组集 定义为:
- 含义: 只要一个组 与选定特征集 有交集(即该组中至少有一个特征被选定),则该组就被认为是选定的组。
4.1.3. 多层假发现率 (FDR) 控制
- FDR 在第 层: 第 层的假发现率 (FDR) 定义为:
- 符号解释:
- : 第 层的假发现比例 (False Discovery Proportion)。
- : 第 层中被选定且为真零假设的组集(即假发现组集)。
- : 集合的大小。
- : 取最大值,确保分母不为零。
- 符号解释:
- 目标: 我们的目标是确定最大的特征集 ,使得对于所有分辨率 , 均低于预定义的水平 。
4.2. 回顾:基于 e-值的多重检验
4.2.1. e-值基本概念
- e-变量 (e-variable): 一个非负随机变量 ,在零假设 (null hypothesis) 下,其期望值至多为 1,即 。
- e-值 (e-value): e-变量的一次具体实现。
- I 类错误控制: 对于任何显著性水平 ,通过拒绝 e-值 的零假设,可以控制 I 类错误:
- 说明: 这是基于切比雪夫不等式 (Chebyshev inequality) 的直接推论。
4.2.2. e-BH 过程 (e-BH procedure)
- 概念:
Wang和Ramdas[44] 提出了e-BH 过程作为Benjamini-Hochberg (BH)过程 [7] 在 e-值背景下的类比。 - 步骤: 假设每个假设 对应一个 e-值 。
- 将 e-值按降序排列:。
- 找到最大的索引 ,使得 。
- 拒绝所有 e-值 满足 的假设。
- FDR 控制条件:
e-BH 过程保证 FDR 控制的充分条件是 e-值满足宽松 e-值 (relaxed e-values)条件:。
4.3. FEFP: 灵活 E-过滤器过程 (Flexible E-Filter Procedure)
FEFP 是 SFEFP 的基础,它通过广义 e-值和广义 e-过滤器,提供了一个灵活的框架,用于在多分辨率下进行特征检测。
4.3.1. 控制检测过程框架 (Framework for Controlled Detection Procedures)
论文首先定义了一个通用的受控特征或组检测过程框架,以便能够将各种现有方法纳入其中。
- 定义 1: 考虑 个特征(或组)。对于任何 ,一个特征(或组)检测过程 通过以下方式确定一个拒绝阈值 :
- 符号解释:
R(t): 在阈值 下被拒绝的假设数量。- : 在阈值 下估计的假拒绝数量(即
V(t)的估计)。 - : 取最大值运算符。
- 分类:
- 如果过程 通过确保 在有限样本下控制 FDR,则 。
- 如果它渐近地控制 FDR(即当 时),则 。
- 符号解释:
- 命题 1: 定义 1 中的目标函数可以等价替换为:
- 含义: 这个命题表明,在寻找最大拒绝集时,将估计的假发现数 与 取最大值,或者直接使用 ,不会改变最终的拒绝集。这简化了框架的理解和应用。
- 示例: 许多现有方法都符合此框架:
p-值方法 (如BH 过程[7]):通过 来确定拒绝集。Knockoff 过滤器[2, 10, 4, 26, 32]:利用零假设检验统计量的对称性来估计V(t)。- 其他扩展 (如
DS 过程[15]、Gaussian Mirror (GM)[46]、Symmetry-based Adaptive Selection (SAS)[45]) 也被证明符合此框架。
4.3.2. 广义 e-值的构造 (Construction of the Generalized e-values)
FEFP 的核心在于能够将任何符合上述框架的检测过程的输出转换为广义 e-值。
-
定义 2 (广义 e-值):
- 宽松 e-值 (Relaxed e-values): 对于 个假设及其非负检验统计量 ,如果 成立,则称其为宽松 e-值。
- 渐近 e-值 (Asymptotic e-value): 在渐近情况下 (当 时),对于 ,如果 ,则称 为渐近 e-值。
- 渐近宽松 e-值 (Asymptotic relaxed e-values): 如果 成立,则称其为渐近宽松 e-值。
- 广义 e-值: 宽松 e-值、渐近 e-值和渐近宽松 e-值的统称。
-
构造步骤 (Equation 3): 对于每个分辨率 ,广义 e-值的构造如下:
- 执行检测过程: 以原始 FDR 水平 运行所选的检测过程 (其必须属于 )。这将产生一个选定组集 和一个估计的假发现数 。
- 转换为广义 e-值: 对于每个组 ,其广义 e-值 定义为:
- 符号解释:
- : 第 层中组的总数。
- : 指示函数,当组 属于在 水平下由 选定的集合时,取值为 1,否则为 0。
- : 在分辨率 下,由过程 在水平 下估计的假发现数。
- : 预设的原始 FDR 水平。
- : 确保分母不小于 ,以避免除以过小的值导致 e-值过大。
- 符号解释:
- 定理 1: 对于任何检测过程 ,上述构造的 e-值 使得
广义 e-BH 过程在水平 下的拒绝集与 完全相同。这证明了这种构造的有效性。 - 备注 1 (与现有构造的比较): 本文的构造比
复合 e-值[1, 22] 更强大,因为其分母使用了估计的假发现数 而非 ,这使得 通常更大,从而提高功效。此外,它比Knockoff e-值[31] 更通用,因为它适用于任何符合定义 1 的检测过程,而不限于 Knockoff。
4.3.3. 利用广义 e-过滤器 (Leveraging the Generalized e-Filter)
广义 e-过滤器是一种迭代过程,用于根据广义 e-值和多层 FDR 目标来确定最终的特征选择集。
-
候选选择集 (Candidate selection set): 为了确保跨所有层级的一致性,特征 被拒绝的条件是:包含 的所有组都在各自层级上被拒绝。其定义为:
- 符号解释:
- : 第 层的阈值。
h(m,j): 特征 在第 层所属的组的索引。- : 特征 在第 层所属组的广义 e-值。
- 含义: 只有当特征 在所有分辨率下的所属组的 e-值都高于各自的阈值时,特征 才会被选中。
- 符号解释:
-
估计的假发现率 (Estimated False Discovery Rate): 广义 e-过滤器使用以下公式估计第 层的假发现率:
- 符号解释:
- : 在给定阈值向量下,第 层被选中的组集。
- 近似基础: 。
- 符号解释:
-
允许阈值集 (Admissible thresholds set): 定义为所有满足 对于所有 的阈值向量 的集合。
-
最终阈值: 对于每个层 ,最终阈值 通过以下方式确定:
- 含义: 在所有允许的阈值向量中,选择使得每个 最小的那个。
-
算法 1: FEFP (Flexible E-Filter Procedure for Feature Detection) 此算法概述了 FEFP 的完整流程:
- 输入: 数据 ;目标 FDR 水平向量 ;原始 FDR 水平向量 ;每个分辨率 的分区 。
- 计算广义 e-值: 对于每个分辨率 : a. 执行检测过程 与原始 FDR 水平 。 b. 根据方程 (3) 计算广义 e-值 。
- 应用广义 e-过滤器: a. 初始化阈值 (原文此处为印刷错误,应为 或某个初始大值)。 b. 重复 迭代更新阈值,直到所有 不再变化: i. 对于 : 根据当前的阈值向量 ,计算候选选择集 (方程 4)。 计算第 层的选定组集 。 更新 如下 (Algorithm 2 的迭代步骤): - 符号解释: - : 当前分辨率 的迭代阈值。 - : 第 层的总组数。 - : 考虑到当前迭代的 改变,重新计算的第 层的选定组集大小。 - : 第 层的目标 FDR 水平。 c. 输出: 最终的选定特征集 。
-
命题 2:
Algorithm 2(广义 e-过滤器) 生成的输出阈值向量 正好对应于方程 (5) 给出的值。这确保了算法的正确性。
4.3.4. 多层 FDR 控制和单比特性质 (Multilayer FDR Control and One-bit Property)
FEFP 旨在提供多层 FDR 控制,但其单比特性质也揭示了潜在的局限性。
- 引理 1 (FDR 控制): 对于任何分辨率 ,
FEFP的 FDR 满足:- 具体情况:
- 如果 是 e-值集,则 ,其中 是零假设比例。
- 如果 是宽松 e-值集,则 。
- 如果是渐近 e-值或渐近宽松 e-值,则在渐近意义上控制 FDR。
- 具体情况:
- 定理 2 (FEFP 的 FDR 保证): 给定原始 FDR 水平 和目标 FDR 水平 。对于每个分辨率 :
- 如果 ,则
FEFP在有限样本设置下保证 。 - 如果 且组大小 有统一上界,则
FEFP在 时保证 。 - 含义:
FEFP能够有效地控制多层 FDR,这是其核心优点。
- 如果 ,则
- 定理 3 (单比特性质 One-bit Property): 定义初始选择集 为:
FEFP仅当事件 发生时才选择集合 。否则,不选择任何特征。- 含义: 这一性质表明,
FEFP的广义 e-值是单比特的(即只有 0 或某个非零常数值)。如果不同层级的发现存在显著冲突,或者上述条件不满足,FEFP可能会陷入“零功效困境”,即不选择任何特征,即使存在真实的显著信号。这种不稳定性是SFEFP旨在解决的核心问题。
- 含义: 这一性质表明,
4.4. SFEFP: 稳定灵活 E-过滤器过程 (Stabilized Flexible E-Filter Procedure)
为了避免 FEFP 的零功效困境,SFEFP 引入了稳定化处理,旨在获得更能反映特征或组重要性排名的非单比特广义 e-值。
4.4.1. 稳定化处理的两种设置
SFEFP 考虑两种情况进行稳定化:
- 基线检测过程具有内在随机性: 例如,
Model-X Knockoff方法每次运行时可能产生不同的 e-值。在这种情况下,可以通过重复多次运行并对生成的广义 e-值进行平均来稳定结果。 - 基线检测过程是确定性的: 在这种情况下,
SFEFP采取“融合决策”,即运行不同的确定性过程(或对数据进行不同的预处理),然后平均它们的单比特广义 e-值。
4.4.2. SFEFP 算法 (Algorithm 3)
SFEFP 的详细步骤如下:
- 输入: 数据 ;目标 FDR 水平向量 ;每个分辨率 的分区 。
- R 次重复: 对于 (重复次数): a. 计算广义 e-值: 对于每个分辨率 和每次重复 ,执行检测过程 (来自 ),并以原始 FDR 水平 计算广义 e-值 : - 符号解释: - : 在第 次重复中,第 层检测过程在原始 FDR 水平 下的选定集。 - : 相应的估计假发现数。
- 计算平均广义 e-值 (Equation 6): 对于每个组 和每个分辨率 ,将 次重复得到的广义 e-值进行加权平均:
- 符号解释:
- : 第 次重复在第 层的权重 (通常取 )。
- 含义: 平均化过程将单比特的 e-值(0 或一个常数)转换为非单比特的连续值,从而更好地反映特征或组的重要性排名。
- 符号解释:
- 应用广义 e-过滤器: 使用平均广义 e-值 作为输入,应用广义 e-过滤器(类似于
Algorithm 2中的迭代过程)来确定最终的阈值 和选定特征集 。
4.4.3. 多层 FDR 控制和稳定性保证 (Multilayer FDR Control and Stability Guarantee)
SFEFP 通过稳定化处理,不仅克服了零功效问题,还提供了严格的 FDR 控制和稳定性保证。
- 定理 4 (SFEFP 的 FDR 保证): 给定原始 FDR 水平向量 、目标 FDR 水平向量 以及重复次数 。对于每个分辨率 :
- 如果 ,则
SFEFP计算出的选定集 在有限样本设置下满足 。 - 如果 且组大小 有统一上界,则
SFEFP在 时满足 。 - 含义:
SFEFP同样能够有效控制多层 FDR。通过平均 e-值,即使单个运行的 e-值是宽松的,其平均值也保持了这一性质。
- 如果 ,则
- 定理 5 (稳定性 Stability): 定义 为在给定数据下的 e-值期望,且 为当 时
SFEFP选择的确定性特征集,对应阈值为 。定义 。则有:- 含义: 这个定理保证了
SFEFP选定的特征集 随着重复次数 的增加,以很高的概率趋近于在无限次重复下得到的确定性集合 。这量化了稳定化处理带来的稳定性,其中 反映了 e-值与最终阈值之间的最小“距离”,决定了收敛的速度。
- 含义: 这个定理保证了
4.4.4. 参数选择 (Choices of Parameters)
- 原始 FDR 水平 :
SFEFP的 FDR 控制不依赖于 的选择。- 对于单层 (),
Ren et al. [31]建议 ,当 时, 是最优选择。 - 对于多层 (),情况有所不同。即使 , 也不再是最优,因为广义 e-值是二值的,可能导致零功效。因此,应选择较小的 (例如 )以最大化非零 e-值的数量和幅度,从而在协调不同层级时提供更多信息。
- 重复次数 : 增加 可以提高结果的稳定性和功效。
- 权重 : 通常采用均匀权重 。
4.5. SFEFP 的示例:eDS-filter
eDS-filter 是 SFEFP 的一个具体实例,专门设计用于处理高相关特征。它通过将 DS 方法扩展到组检测,并结合 SFEFP 框架来实现多层 FDR 控制。
4.5.1. DS 方法回顾
- 背景:
Dai et al. [15]提出的DS(Data Splitting) 过程,用于高维回归模型中的特征检测,特别适用于高相关性特征。 - 模型: 线性模型,响应变量 ,设计矩阵 ,系数 。
- 数据拆分: 将 个观测值随机拆分为两个子集 和 。
- 系数估计: 在每个子集上估计系数 和 。
- 假设 1 (对称性 Symmetry): 对于 (不相关特征), 或 的采样分布关于零对称。
- 检验统计量 :
- 符号解释:
f(u, v): 非负、可交换 (exchangeable) 且单调递增的函数 (例如 )。
- 含义: 越大越正,特征 越可能相关。不相关特征的 分布关于零对称。
- 符号解释:
- FDR 控制: 通过以下方式确定阈值 :
- 含义: 利用零假设下 分布的对称性, 作为假发现数 的估计。
4.5.2. 数据拆分组检测 (Data Splitting for Group Detection)
论文将 DS 框架扩展到组检测问题。
- 组检验统计量 (Equation 7): 对于分辨率 下的组 ,其检验统计量定义为该组内所有特征 的平均值:
- 符号解释:
- : 组 中的特征数量。
- 备注 2: 也存在其他构造方式,例如取组内特征 的最大值 ,可能在组内信号稀疏时更具功效。
- 符号解释:
- 引理 2: 在假设 1 (对称性) 下,组检验统计量 在零假设组 (null group) 下也具有对称性:
- 含义: 这使得可以通过 来近似估计假发现组的数量。
- 组 FDP 估计:
- 假设 2 (弱依赖性 Weak Dependence): 零假设组的指示函数之间协方差存在上界。这有助于 FDR 的控制。
- 定理 6: 在假设 1 和 2 下,且满足其他技术条件,组
DS方法渐近控制 FDR:- 含义: 这表明组
DS方法本身是一个有效的渐近 FDR 控制过程,可以作为SFEFP的基线检测过程 。
- 含义: 这表明组
4.5.3. eDS-filter 过程
eDS-filter 是通过将上述组 DS 方法作为 SFEFP 的基线检测过程 而实例化得到的。
- 数据拆分与统计量计算:
- 在每个分辨率 ,独立进行 次数据拆分。
- 对于每次重复 和每个层 ,计算组检验统计量 (如方程 7)。
- 计算 DS 广义 e-值:
- 对于每个重复 和层 ,计算阈值 (如
DS方法回顾中的公式,但针对组统计量 )。 - 然后,构造 DS 广义 e-值 (如方程 3,但使用组
DS的 估计): - 含义: 这里的 扮演了 的角色。
- 对于每个重复 和层 ,计算阈值 (如
- 平均广义 e-值: 使用方程 (6) 计算平均广义 e-值 。
- 广义 e-过滤器: 将平均广义 e-值输入广义 e-过滤器 (算法 3),得到最终选定的特征集 。
- 定理 7 (eDS-filter 的 FDR 保证): 在假设 1 和 2 以及其他技术条件下(例如 时概率收敛、方差有界、均匀可积性等),
eDS-filter的广义 e-值 是渐近宽松 e-值,并且eDS-filter渐近控制多层 FDR: - 备注 3 (与 MDS 的比较):
eDS-filter与MDS[15] 不同。MDS基于估计的包含率来排序和选择,并依赖于排名一致性。eDS-filter不依赖于这种排名一致性,而是通过平均广义 e-值和广义 e-过滤器实现选择。
4.6. eDS+gKF-filter
eDS+gKF-filter 是 SFEFP 的另一个灵活变体,结合了 DS 和 组 Knockoff 过滤器 (group Knockoff filter, gKF) 的优点。
-
动机:
DS过程在特征高度相关时表现优异。- 然而,如果组内信号非常稀疏 (即一个重要组中只有少数几个相关特征),则基于平均信号强度 (如方程 7) 的组
DS统计量可能功效不足。 - 在这种情况下,
组 Knockoff方法可能表现更好,因为它能够更好地识别稀疏信号。
-
实施步骤 (以线性模型为例):
- 第一层(个体特征检测,通常为 ):
- 假设线性模型 ,其中 。
- 使用 过程 [15] 作为
DS方法。 - 随机拆分数据,应用
Lasso选择特征,然后对选定特征应用OLS获得 和 。 - 构造个体特征的
DS统计量 。 - 依据个体
DS过程 (如方程 9 的个体版本) 构造个体特征的广义 e-值 。
- 后续层(组特征检测,通常为 ):
- 对于每个分辨率 ,使用
组 Knockoff 过滤器[3] 来构建组 Knockoff 统计量 。 组 Knockoff统计量具有两个关键属性: a. 如果 为假(组相关),则 倾向于取正值。 b. 满足马尔可夫性质,用于 FDR 控制 (Equation 10)。- 符号解释:
- : 第 次重复中,第 层的
组 Knockoff阈值。 c. 阈值 (Equation 11):
- : 第 次重复中,第 层的
- 符号解释:
- 构造
组 Knockoff宽松 e-值 (Equation 12):- 含义: 这里的 扮演了 的角色。
- 对于每个分辨率 ,使用
- 平均与过滤: 将所有层的广义 e-值进行平均 (方程 6),然后输入广义 e-过滤器 (算法 3),得到最终的选定特征集。
- 第一层(个体特征检测,通常为 ):
-
实践建议: 鉴于多层方法在实践中通常比理论预测更保守,作者建议适当放宽目标 FDR 水平,以获得更高的功效。
4.7. SFEFP 的其他应用和可能扩展
SFEFP 框架的通用性使其能够与多种现有检测过程结合,并可扩展到更复杂的场景。
4.7.1. SFEFP 与其他检测过程结合
- e-MKF 的稳定化:
Gablenz et al. [18]提出的e-MKF是将FEFP应用于Knockoff过程的结果。根据定理 3 的单比特性质,e-MKF存在零功效的风险。通过SFEFP的稳定化处理,可以将e-MKF扩展为一个更稳定、功效更高的版本。 - 与
GM方法结合: 在附录 F.1 中,论文开发了基于Gaussian Mirror (GM)方法 [46] 的渐近宽松 e-值 (见命题 4)。因此,可以将GM方法作为基线检测过程集成到SFEFP框架中,形成一个新的多层过滤过程。 - 与
SAS框架结合: 在附录 F.2 中,论文开发了基于Symmetry-based Adaptive Selection (SAS)框架 [45] 的渐近宽松 e-值 (见命题 5)。同样,SAS框架也可以作为SFEFP的基线检测过程,用于构建新的多层过滤方法。 - 统一 e-过滤器 (Unified e-filter): 附录 E 提出了
统一 e-过滤器,这是e-filter的一个扩展,用于结合先验知识(如重叠组、惩罚、先验权重)和零假设比例自适应性,以进一步提高检测功效和拓宽应用范围。这为SFEFP提供了更强大的接口来利用领域特定的先验知识。
4.7.2. 扩展到时间序列数据 (Extensions to Time Series Data)
- TSKI 框架:
Chi et al. [11]提出的时间序列 Knockoff 推断 (Time Series Knockoff Inference, TSKI)方法,可以在常规条件下渐近控制时间序列数据中的 FDR。TSKI依赖于子采样 (subsampling) 和鲁棒 Knockoff (robust Knockoff) [4] 的思想,并利用鲁棒 e-值的特性来控制 FDR。 - SFEFP 的适用性: 当
FEFP的基线检测过程 对应于鲁棒 Knockoff 时,不带子采样的TSKI过程与FEFP是一致的。带有子采样的TSKI框架也与SFEFP相似。 - 关键区别与扩展:
TSKI使用不同的不重叠子样本来处理复杂的时间序列依赖性,而SFEFP通常在每次重复中使用整个数据集。然而,通过修改SFEFP以适应子采样设置,并为组 Knockoff 过滤器构建鲁棒 e-值,可以很自然地将SFEFP框架扩展到时间序列数据的多层 FDR 控制。
5. 实验设置
本节详细描述了论文中模拟研究的设置,包括数据生成方式、评估指标、对比方法和具体参数。
5.1. 数据集
5.1.1. 模拟数据生成
- 模型: 数据从线性模型生成:
- 符号解释:
- : 响应变量向量,维度为 。
- : 设计矩阵,维度为 。
- : 系数向量,维度为 。
- : 噪声向量,服从标准正态分布 ,其中 是 的单位矩阵。
- 符号解释:
- 设计矩阵 :
- 每行独立地从多变量正态分布 中采样得到。
- 协方差矩阵 : 一个块对角矩阵,由 个 Toeplitz 子矩阵 (Toeplitz submatrices) 组成,每个子矩阵内部具有相关性 。这种结构模拟了组内特征高度相关而组间特征近似零相关的情景。
- Toeplitz 子矩阵结构:
- 符号解释:
- : 每个组的特征数量(组大小)。
- : 组内特征之间的相关性参数。
- 符号解释:
- 规范化: 设计矩阵 经过规范化,使得 且 对于所有 。
- 真实相关特征集 :
- 首先随机选择 个组作为“相关组”。
- 然后从这 个相关组内的特征中,随机选择 个特征作为真实相关特征。
- 含义: 平均而言,每个相关组包含 个相关特征。
- 系数 :
- 对于真实相关特征 ,其系数 从分布 中采样。
- 符号解释:
- : 衡量相关特征信号强度的参数。
- 含义: 值越大,信号越强。
5.1.2. 多分辨率设置
- 层数: 层。
- 第一层: 个独立的个体特征。
- 第二层: 个组,每个组包含
N/G个特征。
5.2. 评估指标
论文主要使用 假发现率 (False Discovery Rate, FDR) 和 功效 (Power) 作为评估指标。
5.2.1. 假发现率 (False Discovery Rate, FDR)
- 概念定义: 在多重假设检验中,FDR 是指所有被拒绝的假设中,错误拒绝的零假设的期望比例。在多分辨率背景下,它是在特定分辨率下,被选中的组中,实际上是真零假设的组所占的期望比例。一个好的方法应该能够将 FDR 控制在预设的水平之下。
- 数学公式: 对于第 层,FDR 定义为:
- 符号解释:
- : 期望运算符。
- : 在第 层被选定的组集。
- : 在第 层中,真实为零假设的组集。
- : 集合的基数(元素数量)。
- : 取最大值,,以避免分母为零。
5.2.2. 功效 (Power)
- 概念定义: 功效是指正确检测到真实相关特征或组的能力,即在所有真实相关的特征或组中,有多少比例被成功识别。一个高功效的方法能够发现更多的真实信号。
- 数学公式: 论文中未直接提供功效的数学公式。通常,在特征选择中,功效可以定义为:
- 符号解释:
- : 在第 层被选定的组集。
- : 在第 层中,真实为备择假设的组集(即真实相关的组集)。
- : 集合的基数。
5.3. 对比基线
论文将提出的方法与多种现有方法进行了比较,以展示其性能优势。
- MKF+ [23]: 多层 Knockoff 过滤器 (
Multilayer Knockoff Filter) 的一个变体,旨在控制多分辨率 FDR。它是当前多层 FDR 控制领域的代表性方法。 - e-MKF [18]: 基于 e-值的多层 Knockoff 过滤器,是
MKF的一个改进版本,旨在提高功效。 - KF+ [2]: 单层的 Knockoff 过滤器 (
Knockoff Filter)。引入这个基线是为了突出多层 FDR 控制的必要性,因为单层方法通常无法同时控制多个分辨率的 FDR。 - eDS-filter (本文方法):
SFEFP的一个实例化,使用DS方法进行个体和组的检测。 - eDS+gKF-filter (本文方法):
SFEFP的另一个实例化,个体层使用DS方法,组层使用组 Knockoff 过滤器 (group Knockoff filter, gKF)。 - KF+gDS:
SFEFP的一个实例化,个体层使用Knockoff方法,组层使用DS方法。 - 非稳定化版本: 为了展示稳定化处理 (stabilization treatment) 的功效增强效果,论文还对比了上述
SFEFP实例的非稳定化版本(即重复次数 的情况)。这些方法在图表中用星号*表示,例如*e-MKF,*eDS-filter, , 。其中*e-MKF正是Gablenz et al. [18]提出的方法。
5.4. 实验参数
5.4.1. 共通参数
- 重复次数 : 对于
SFEFP方法(如e-MKF,eDS-filter等),重复次数设置为 。 - 目标 FDR 水平: 对于所有方法,目标 FDR 水平设置为 。
- 原始 FDR 水平: 对于
SFEFP方法,原始 FDR 水平设置为 (对于 )。 - Knockoff 实现:
- 低维场景: 使用固定设计 (fixed design) 的
(group) knockoffs,采用signed-max函数作为检验统计量。 - 高维场景: 使用
knockoffsrR 包 [12] 来构建Model-X (group) knockoffs。
- 低维场景: 使用固定设计 (fixed design) 的
- DS 实现:
- 个体选择的 DS 过程: 采用 过程 [15]。
- 组选择的 DS 过程: 组检验统计量 (方程 7) 通过对上述 得到的个体统计量 进行平均来计算。
5.4.2. 低维场景设置
- 样本数:
- 特征数:
- 组数: (因此组大小 )
- 真实相关特征数:
- 相关组数: (平均每个相关组包含 个相关特征)
- 模拟次数: 所有结果均在 50 次独立试验中取平均。
5.4.2.1. 不同相关性 下的比较
- 信号强度 : 固定为 3。
- 相关性 : 在集合 中变化。
- 评估指标: 个体层和组层的实际 FDR 和功效。
5.4.2.2. 不同信号强度 下的比较
- 相关性 : 固定为 0.6。
- 信号强度 : 在集合 中变化。
- 评估指标: 个体层和组层的实际 FDR 和功效。
5.4.3. 高维场景设置
- 样本数:
- 特征数:
- 组数: (因此组大小 )
- 真实相关特征数:
- 相关组数:
- 模拟次数: 所有结果均在 50 次独立试验中取平均。
5.4.3.1. 不同相关性 下的比较
- 信号强度 : 固定为 3。
- 相关性 : 在集合 中变化。
- 评估指标: 个体层和组层的实际 FDR 和功效。
5.4.3.2. 不同信号强度 下的比较
- 相关性 : 固定为 0.6。
- 信号强度 : 在集合 中变化。
- 评估指标: 个体层和组层的实际 FDR 和功效。
6. 实验结果与分析
本节将详细分析模拟研究和 HIV 突变数据实验的结果,以评估 SFEFP 方法(特别是 eDS-filter)的性能。
6.1. 模拟研究结果分析
模拟研究分别在低维和高维设置下进行了测试,旨在展示 SFEFP 框架的功效增强以及不同方法组合的优势。
6.1.1. 低维场景结果分析
6.1.1.1. 不同相关性 下的比较 ( 固定)
以下是原文 Figure 1 的结果:
该图像是一个图表,展示了不同检测方法在个体和组别特征的功效(Power)和假发现率(FDR)下的模拟结果。图表分为四个部分:上左为个体特征的功效,右侧为个体特征的FDR;下左为组别特征的功效,右侧为组别特征的FDR。不同方法的表现随相关性(Correlation)变化,明显显示出eDS-filter等方法在控制FDR的同时维持或提高了功效。
图 1. 不同相关性下,固定信号强度 时,、e-MKF、eDS-filter、、、*e-MKF、*eDS-filter、 和 方法的模拟结果。
- FDR 控制:
- 所有方法 (无论是稳定化版本还是非稳定化版本) 在个体层和组层都有效控制了 FDR,使其低于目标水平 。这证实了
SFEFP框架以及其基线方法在不同相关性下的 FDR 控制能力。 - 在大多数情况下,FDR 实际上远低于 0.2,表明这些方法可能略显保守。
- 所有方法 (无论是稳定化版本还是非稳定化版本) 在个体层和组层都有效控制了 FDR,使其低于目标水平 。这证实了
- 功效:
- 高相关性优势: 随着相关性 的增加,
eDS-filter和eDS+gKF-filter(实线) 在个体层和组层都显著优于 、e-MKF和 。这有力地证明了SFEFP的灵活性:通过在不同分辨率下选择更适合高相关性场景(如DS)的检测过程,可以显著提高检测功效。 - 稳定化优势: 对比实线 (SFEFP, ) 和虚线 (非稳定化版本, ),可以观察到稳定化步骤始终提高了检测功效。例如,
eDS-filter(实线绿色) 的功效始终高于*eDS-filter(虚线绿色)。这与单分辨率下去随机化可能导致功效损失的情况形成对比,突显了多分辨率下稳定化处理的独特优势。 - 方法间对比:
- 和
e-MKF(实线/虚线蓝色) 在低相关性时表现尚可,但在高相关性下功效急剧下降。 - (实线紫色) 性能介于
MKF和eDS系列之间,说明在不同层选择不同基线方法确实能带来益处。 eDS-filter(实线绿色) 在高相关性下表现出最佳的功效。
- 和
- 高相关性优势: 随着相关性 的增加,
6.1.1.2. 不同信号强度 下的比较 ( 固定)
以下是原文 Figure 2 的结果:
图 2. 固定相关性 时,九种方法在不同信号强度下的模拟结果。
- FDR 控制:
- 同样,所有方法在不同信号强度下都有效控制了 FDR。随着信号强度 的增加,FDR 保持稳定或略有下降。
- 功效:
- 信号强度影响: 随着信号强度 的增加,所有方法的功效都显著提高,符合直觉。
- 高功效方法: 在所有信号强度下,
eDS-filter和eDS+gKF-filter持续表现出最高的功效,尤其是在组层面。这再次验证了这些方法在高相关性(这里固定为 )和不同信号强度下的鲁棒性和优越性。 - 稳定化优势: 稳定化处理 ( 的实线) 再次证明了其在增强功效方面的优势,始终优于非稳定化版本 ( 的虚线)。
6.1.2. 高维场景结果分析
高维场景 (n=600, N=800) 的模拟结果与低维场景的结论高度一致。
6.1.2.1. 不同相关性 下的比较 ( 固定)
以下是原文 Figure 3 的结果:
图 3. 高维设置下,固定信号强度 时,不同相关性下的模拟结果。
- FDR 控制: 所有方法在高维设置下依然有效控制了 FDR。
- 功效:
- 高相关性优势: 随着相关性 的增加,
eDS-filter和eDS+gKF-filter依然在高维设置下表现出显著更高的功效,尤其是在高相关性区域。 - 稳定化优势: 稳定化处理的功效提升在高维场景中仍然存在。
- 高相关性优势: 随着相关性 的增加,
6.1.2.2. 不同信号强度 下的比较 ( 固定)
以下是原文 Figure 4 的结果:
图 4. 高维设置下,固定相关性 时,不同信号强度下的模拟结果。
- FDR 控制: 在不同信号强度下,FDR 同样得到了有效控制。
- 功效:
- 信号强度影响: 功效随信号强度 线性增长。
- 高功效方法:
eDS-filter和eDS+gKF-filter在高维高相关性设置下,持续保持了最高的功效水平。 - 稳定化优势: 稳定化处理在高维设置中也带来了功效的提升。
6.1.3. 与复合 e-值 (Compound e-values) 的比较
以下是原文 Figure 5 的结果:
图 5. 不同相关性下,固定信号强度 时,与复合 e-值的比较。
以下是原文 Figure 6 的结果:
图 6. 固定相关性 时,不同信号强度下,与复合 e-值的比较。
- FDR 控制: 使用复合 e-值 (
cpd-e-MKF,cpd-eDS-filter等) 的方法也能控制 FDR。 - 功效:
- 论文提出的广义 e-值构造 (
e-MKF,eDS-filter等) 在个体和组分辨率下,始终比对应的复合 e-值方法具有显著更高的功效。这印证了备注 1中关于本文广义 e-值构造更强大的理论主张。 - 尤其是在特征高度相关时,功效差距更大。
- 论文提出的广义 e-值构造 (
6.2. HIV 突变数据实验分析
该实验旨在通过真实世界数据,比较 eDS-filter 与 eMKF、 和 在识别 HIV-1 病毒耐药性相关突变及其簇(位点)上的性能。
6.2.1. 数据描述与预处理
- 数据集: HIV-1 突变数据,包含多种药物的耐药性测量和 HIV-1 样本的基因型信息。
- 药物类型:
- 蛋白酶抑制剂 (PIs): APV, ATV, IDV, LPV, NFV, RTV, SQV (7种药物)。
- 核苷类逆转录酶抑制剂 (NRTIs): ABC, AZT, D4T, DDI (4种药物)。
- 响应变量 : 实验室检测的药物耐药性的对数倍数增加值 (log-fold increase)。
- 特征 : 指示突变 是否存在 (二元变量)。
- 分辨率:
- 个体分辨率: 识别单个突变。
- 组分辨率: 识别突变位点 (positions)——同一位置的不同突变被视为一个组。
- 目标: 同时控制个体突变和突变位点层面的 FDR。
- 参考标准:
治疗选择突变 (Treatment-Selected Mutation, TSM)面板 [34] 作为真实发现的近似参考。 - 预处理:
- 移除缺乏耐药性信息的行。
- 保留样本中出现超过三次的突变。
- 模型假设: 响应和特征之间存在线性关系,无交互项。
6.2.2. 实验结果与分析
表 1. 七种 PI 型药物和三种 NRTI 型药物的样本信息。
| Drug type | Drug | Sample size | # mutations | # positions genotyped |
|---|---|---|---|---|
| PI | APV | 767 | 201 | 65 |
| ATV | 328 | 147 | 60 | |
| IDV | 825 | 206 | 66 | |
| LPV | 515 | 184 | 65 | |
| NFV | 842 | 207 | 66 | |
| RTV | 793 | 205 | 65 | |
| SQV | 824 | 206 | 65 | |
| NRTI | ABC | 623 | 283 | 105 |
| AZT | 626 | 283 | 105 | |
| D4T | 625 | 281 | 104 | |
| DDI | 628 | 283 | 105 |
表 2. PI 型药物的结果。 “True”表示在 TSM 面板中识别出的真实突变(个体)或位点(组)数量。“False”表示假阳性数量。FDP 计算为假阳性数量与总阳性数量的比率。目标 FDR 水平 。对于 eDS-filter,设置 , (对于 )。表现最佳的方法以粗体显示。
| Drug | Method | True (ind) | False (ind) | FDP (ind) | True (grp) | False (grp) | FDP (grp) |
|---|---|---|---|---|---|---|---|
| APV | KF+ | 27 | 9 | 0.250 | 18 | 7 | 0.280 |
| MKF+ | 0 | 0 | 0 | 0 | 0 | 0 | |
| e-MKF | 0 | 0 | 0 | 0 | 0 | 0 | |
| eDS-filter | 27 | 4 | 0.129 | 18 | 2 | 0.100 | |
| ATV | KF+ | 19 | 6 | 0.240 | 19 | 1 | 0.050 |
| MKF+ | 0 | 0 | 0 | 0 | 0 | 0 | |
| e-MKF | 0 | 0 | 0 | 0 | 0 | 0 | |
| eDS-filter | 18 | 1 | 0.053 | 18 | 0 | 0 | |
| IDV | KF+ | 34 | 33 | 0.493 | 24 | 15 | 0.385 |
| MKF+ | 26 | 3 | 0.103 | 17 | 0 | 0 | |
| e-MKF | 26 | 4 | 0.133 | 18 | 0 | 0 | |
| eDS-filter | 27 | 3 | 0.100 | 18 | 0 | 0 | |
| LPV | KF+ | 27 | 8 | 0.229 | 20 | 3 | 0.130 |
| MKF+ | 19 | 3 | 0.136 | 13 | 1 | 0.071 | |
| e-MKF | 19 | 3 | 0.136 | 13 | 1 | 0.071 | |
| eDS-filter | 23 | 3 | 0.115 | 15 | 0 | 0 | |
| NFV | KF+ | 33 | 22 | 0.400 | 24 | 8 | 0.250 |
| MKF+ | 0 | 0 | 0 | 0 | 0 | 0 | |
| e-MKF | 0 | 0 | 0 | 0 | 0 | 0 | |
| eDS-filter | 32 | 8 | 0.200 | 20 | 2 | 0.091 | |
| RTV | KF+ | 19 | 5 | 0.208 | 12 | 2 | 0.143 |
| MKF+ | 0 | 0 | 0 | 0 | 0 | 0 | |
| e-MKF | 0 | 0 | 0 | 0 | 0 | 0 | |
| eDS-filter | 25 | 7 | 0.219 | 17 | 2 | 0.105 | |
| SQV | KF+ | 22 | 6 | 0.214 | 16 | 2 | 0.111 |
| MKF+ | 0 | 0 | 0 | 0 | 0 | 0 | |
| e-MKF | 0 | 0 | 0 | 0 | 0 | 0 | |
| eDS-filter | 22 | 4 | 0.154 | 15 | 0 | 0 |
表 3. NRTI 型药物的结果。 目标 FDR 水平 。对于 eDS-filter,设置 。表现最佳的方法以粗体显示。
| Drug | Method | True (ind) | False (ind) | FDP (ind) | True (grp) | False (grp) | FDP (grp) |
|---|---|---|---|---|---|---|---|
| ABC | KF+ | 14 | 0 | 0.176 | 14 | 2 | 0.125 |
| MKF+ | 0 | 0 | 0 | 0 | 0 | 0 | |
| e-MKF | 0 | 0 | 0 | 0 | 0 | 0 | |
| eDS-filter | 13 | 0 | 0.133 | 12 | 2 | 0.143 | |
| AZT | KF+ | 17 | 8 | 0.320 | 16 | 5 | 0.238 |
| MKF+ | 11 | 0 | 0 | 10 | 0 | 0 | |
| e-MKF | 11 | 0 | 0 | 10 | 0 | 0 | |
| eDS-filter | 15 | 1 | 0.063 | 14 | 0 | 0 | |
| D4T | KF+ | 10 | 1 | 0.100 | 9 | 1 | 0.100 |
| MKF+ | 0 | 0 | 0 | 0 | 0 | 0 | |
| e-MKF | 0 | 0 | 0 | 0 | 0 | 0 | |
| eDS-filter | 18 | 2 | 0.100 | 17 | 2 | 0.118 | |
| DDI | KF+ | 0 | 0 | 0 | 0 | 0 | 0 |
| MKF+ | 0 | 0 | 0 | 0 | 0 | 0 | |
| e-MKF | 0 | 0 | 0 | 0 | 0 | 0 | |
| eDS-filter | 18 | 4 | 0.182 | 17 | 3 | 0.150 |
6.2.2.1. PI 型药物的结果分析
eDS-filter的卓越性能: 在七种 PI 型药物中,eDS-filter始终表现最佳。它在个体和组分辨率下,通常具有最少的假发现(更低的 FDP),从而有效控制多层 FDR,同时保持甚至提高了功效。- 的局限性: (单层 Knockoff) 无法同时控制个体和组分辨率的 FDP,尤其是在 APV、ATV、IDV、LPV 和 NFV 等药物上,其 FDP 明显高于目标水平(例如 IDV 的个体 FDP 高达 0.493,远超 0.2)。这强调了多层 FDR 控制的必要性。
- 和
e-MKF的低功效: 和e-MKF在 APV、ATV、NFV、RTV 和 SQV 等药物上未能发现任何信号(真阳性为 0),这表明它们的功效非常低。即使在 IDV 和 LPV 上有所发现,eDS-filter仍通过更高的功效和/或更低的 FDP 优于它们。这与模拟研究中观察到的 Knockoff 方法在高相关性下功效下降的现象一致。 eDS-filter具体优势:- 对于 RTV 药物,
eDS-filter甚至达到了比 更高的功效。 - 对于 ATV、IDV、LPV 和 NFV 药物,
eDS-filter相较于DeepPINK[27](一个旨在控制个体 FDR 的方法,目标 FDR 为 0.2),获得了更低的 FDP。对于除 ATV 外的所有药物,eDS-filter的功效也高于DeepPINK。
- 对于 RTV 药物,
6.2.2.2. NRTI 型药物的结果分析
eDS-filter的持续领先:eDS-filter在 AZT、D4T 和 DDI 药物上表现最佳。- 和
e-MKF的低功效: 和e-MKF在 ABC、D4T 和 DDI 药物上再次未能发现任何信号。 - 的局限性: 在 AZT 药物上未能控制 FDP (个体 FDP 0.320 远超目标 0.3),并且在 DDI 药物上没有任何发现。
eDS-filter具体优势:eDS-filter始终在多个分辨率下控制 FDP,并取得了令人满意的功效。- 特别是对于 D4T 和 DDI 药物,
eDS-filter实现了显著更高的功效。
6.2.3. 结论
eDS-filter的普遍优越性:eDS-filter在真实 HIV 突变数据分析中,持续显著优于 和e-MKF,表现出更高的功效。- 多层 FDR 控制与功效平衡: 相较于 ,
eDS-filter实现了更精确的发现和多层 FDR 控制,同时保持或甚至提高了功效。 SFEFP框架的价值:eDS-filter的出色表现证明了SFEFP框架的强大能力,即能够根据特定领域(如 HIV 突变数据的高相关特征)设计定制化的程序,从而显著提高研究人员识别关键特征的效率。实践者可以根据先验知识为每个层级选择最先进的方法,以获得更理想的结果。
7. 总结与思考
7.1. 结论总结
本论文提出了一种新颖的稳定灵活 e-过滤器过程 (Stabilized Flexible E-Filter Procedure, SFEFP),旨在解决在具有多分辨率结构 (multiple resolutions) 的解释性特征中,同时检测显著特征和特征组并严格控制假发现率 (FDR) 的挑战。
其核心贡献和主要发现可以总结如下:
-
通用且灵活的框架:
SFEFP通过开发广义 e-过滤器 (generalized e-filter) 和广义 e-值 (generalized e-values) 的统一构造,提供了一个高度灵活的框架。这使得用户能够将各种现有的最先进检测过程(如Knockoff、DS、GM、SAS等)作为基线方法,在不同的分辨率层级进行集成。 -
解决零功效困境与功效增强:
SFEFP通过引入稳定化处理 (stabilization treatment),有效地克服了FEFP(SFEFP 的非稳定化版本) 和e-MKF在单比特 (one-bit) 输入下可能导致的零功效问题。稳定化处理将单比特 e-值转化为非单比特的平均 e-值,从而更好地反映特征或组的重要性排名,并在多分辨率下实现功效的显著增强。 -
严格的理论保证: 论文深入研究了
SFEFP的统计理论,提供了多层 FDR 控制的保证以及在有限样本下的稳定性保证,为方法的可靠性提供了坚实的基础。 -
实际应用中的优越性:
eDS-filter作为SFEFP的一个具体应用示例,在模拟研究和对 HIV 突变数据(一种高相关特征场景)的分析中,均展现出卓越的性能。它在有效控制多层 FDR 的同时,与MKF和e-MKF相比显著提高了功效,并比单层 提供了更精确的发现和更好的 FDR 控制。总而言之,
SFEFP的核心价值在于其灵活性和稳定性,它能够以几乎零成本的方式,促进开发多样化且强大的多层检测方法,从而更好地利用领域专业知识来识别关键特征。
7.2. 局限性与未来工作
论文作者指出了当前工作的几个局限性,并提出了未来可能的研究方向:
- 原始 FDR 水平向量的影响: 原始 FDR 水平向量 的选择对
FEFP和SFEFP的功效有影响,但其具体影响的理论机制尚需进一步深入研究。 - 更尖锐的 FDR 界限: 模拟结果显示
SFEFP有时实现的经验 FDR 远低于预设水平,这表明方法可能过于保守。未来可以探索在何种温和条件下可以推导出更尖锐(更紧)的 FDR 界限,从而进一步提升功效。 - 自适应权重: 在稳定化处理中,目前通常采用均匀权重。未来可以研究如何为不同的重复(replications)提供合适的数据驱动权重,以提高结果的整体可靠性。
- 增强 e-值技术: 结合
增强 e-值(enhanced e-values) 相关技术(如Blier-Wong and Wang [9],Lee and Ren [24]),有望进一步提升SFEFP的功效。
7.3. 个人启发与批判
7.3.1. 个人启发
- “没有一刀切方法”的哲学: 这篇论文深刻践行了“没有一刀切方法 (no one-size-fits-all method)”的哲学。它提供了一个通用框架,让研究者可以根据不同分辨率的数据特点和领域知识,灵活选择最适合的基线检测方法。这种模块化和可插拔的设计理念对于复杂的多分辨率问题尤其重要,因为它允许方法适应数据的异质性,而不是强制数据适应单一模型。
- 多分辨率下稳定化的独特价值: 论文揭示了稳定化 (stabilization) 在多分辨率背景下的独特优势。与单分辨率下去随机化可能带来功效损失不同,多分辨率下的稳定化处理通过将单比特 e-值转化为非单比特的平均 e-值,不仅提高了稳定性,还增强了功效。这表明在复杂的多层决策中,提供更精细的排名信息(而非简单的二元选择)对于协调各层发现至关重要,从而避免“零功效灾难”。
- e-值作为通用接口的潜力: 广义 e-值及其过滤器提供了一个强大的通用接口。任何能够控制 FDR 的检测过程,无论其内部机制如何,都可以通过这种方式被“封装”并集成到
SFEFP框架中。这极大地扩展了e-value在复杂多重检验问题中的应用广度。
7.3.2. 批判与潜在改进
- 原始 FDR 水平 的经验性选择: 尽管论文提到了 的选择建议(例如 ),但这种选择仍然是基于经验而非严格理论推导的。对于初学者和实际应用者而言,缺乏清晰的理论指导可能导致不确定性,需要通过反复试验来找到最佳参数。未来的工作应该尝试提供更强的理论依据或数据驱动的选择方法。
- 功效与保守性之间的平衡: 模拟结果中观察到经验 FDR 远低于目标水平,这虽然保证了严格的错误控制,但也可能意味着方法过于保守,牺牲了潜在的功效。探索更尖锐的 FDR 界限,或者开发自适应阈值调整机制,可以在保持 FDR 控制的同时,更好地利用数据的信号,提高功效。
- 计算成本:
SFEFP框架需要多次重复运行基线检测过程 ( 次)。如果所选的基线检测过程本身计算成本很高(尤其是在高维数据和大规模数据集上),那么SFEFP的总计算开销可能会非常大。论文虽然强调了功效和稳定性,但对计算效率的讨论相对较少。未来的研究可以考虑如何通过并行计算、近似方法或更高效的重复策略来降低计算成本。 - 强依赖性和异构性: 尽管论文声称其方法可以处理依赖性,但具体的理论分析和模拟验证主要集中在具有块对角 Toeplitz 结构(一种特定类型的相关性)的线性模型上。对于更复杂、非线性的特征依赖结构,或者跨层级高度异构的统计特性,
SFEFP的性能和理论保证可能需要进一步的检验和扩展。 - “零功效灾难”的根本原因: 论文指出
FEFP可能出现零功效。虽然SFEFP通过稳定化解决了这个问题,但深入探讨这种“灾难”的统计学或信息论上的根本原因,将有助于更好地设计未来的多层推断方法,从根本上避免此类问题。
相似论文推荐
基于向量语义检索推荐的相关论文。