AiPaper
论文状态:已完成

Estimation and mapping of the missing heritability of human phenotypes

发表:2025/11/12
原文链接
价格:0.10
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究通过分析来自英国生物样本库的34种复杂性状和疾病的全基因组测序数据,系统量化了稀有非编码变异对遗传力的贡献。结果显示,WGS数据捕获了约88%的狭义遗传力,稀有变异贡献20%,并成功定位脂质性状的特定基因座,提供了稀有变异遗传力高精度估计。

摘要

Rare coding variants shape inter-individual differences in human phenotypes. However, the contribution of rare non-coding variants to those differences remains poorly characterized. Here we analyse whole-genome sequence (WGS) data from 347,630 individuals with European ancestry in the UK Biobank to quantify the relative contribution of 40 million single-nucleotide and short indel variants to the heritability of 34 complex traits and diseases. On average, we find that WGS captures approximately 88% of the pedigree-based narrow sense heritability, which is derived from 20% rare variants and 68% common variants. We identified 15 traits with no significant difference between WGS-based and pedigree-based heritability estimates. Overall, our study provides high-precision estimates of rare-variant heritability and demonstrates significant mapping of specific loci for lipid traits.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

人类表型缺失遗传力的估计与定位 (Estimation and mapping of the missing heritability of human phenotypes)

1.2. 作者

Pierrick Wainschtein, Yuanxiang Zhang, Jeremy Schwartzentruber, Irfahan Kassam, Julia Sidorenko, Petko P. Fiziev, Huanwei Wang, Jeremy McRae, Richard Border, Noah Zaitlen, Sriram Sankararaman, Michael E. Goddard, Jian Zeng, Peter M. Visscher, Kyle Kai-How Farh & Loic Yengo 等。

作者团队来自多个机构,包括 Illumina 公司和昆士兰大学 (The University of Queensland) 等。这表明该研究是学术界与工业界合作的成果,汇集了基因组学、生物统计学和复杂性状遗传学领域的专家。

1.3. 发表期刊/会议

该研究发表在 Nature 期刊。Nature 是全球顶尖的多学科科学期刊,以发表开创性的、具有重大科学意义和广泛兴趣的研究成果而闻名。在该期刊上发表论文,表明该研究在方法、发现和影响力方面都达到了极高的标准。

1.4. 发表年份

2025年11月12日在线发表 (Published online: 12 November 2025)。

1.5. 摘要

稀有编码变异 (rare coding variants) 在塑造人类表型 (human phenotypes) 的个体差异中发挥作用,但稀有非编码变异 (rare non-coding variants) 对这些差异的贡献仍未被充分表征。本研究分析了英国生物样本库 (UK Biobank) 中347,630名欧洲血统个体的全基因组测序 (Whole-Genome Sequence, WGS) 数据,以量化4000万个单核苷酸变异 (Single-Nucleotide Variants, SNVs) 和短插入/缺失 (indels) 变异(次要等位基因频率 (Minor Allele Frequency, MAF) 大于0.01%)对34种复杂性状和疾病遗传力 (heritability) 的相对贡献。

平均而言,研究发现 WGS 数据捕获了大约88%的基于谱系 (pedigree-based) 的狭义遗传力 (narrow sense heritability),其中20%来自稀有变异(MAF < 1%),68%来自常见变异(MAF ≥ 1%)。研究确定了15种性状,其 WGS 基础遗传力估计值与谱系基础遗传力估计值之间没有显著差异,这表明这些性状的遗传力已完全由 WGS 数据解释。总体而言,本研究提供了高精度的稀有变异遗传力估计,并展示了脂质性状 (lipid traits) 特定基因座的显著定位。

1.6. 原文链接

/files/papers/6919acc6110b75dcc59ae266/paper.pdf 该论文已于2025年11月12日正式发表,并以开放获取 (Open Access) 的形式提供。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题是: 复杂性状和疾病的“缺失遗传力 (missing heritability)”问题,特别是稀有非编码变异对人类表型个体差异的贡献程度。

为什么这个问题在当前领域是重要的:

  • 遗传力是复杂性状的基础: 大多数人类性状具有遗传性,并受数千个 DNA 变异的影响。量化这些变异对性状遗传力的贡献是理解性状遗传结构的关键。
  • SNP 基础遗传力的局限性: 过去的研究主要集中于常见单核苷酸多态性 (Single Nucleotide Polymorphisms, SNPs),其解释的表型方差(SNP 基础遗传力,hSNP2h_{SNP}^2)通常低于基于谱系研究 (pedigree-based studies) 估计的狭义遗传力 (hPED2h_{PED}^2)。这个差距被称为“仍然缺失的遗传力 (still-missing heritability)”。
  • 稀有变异和非编码区域的未知贡献: 现有研究表明稀有编码变异 (rare coding variants) 对个体差异有贡献,但由于技术限制(如样本量小、测序技术成本高),稀有非编码变异 (rare non-coding variants) 的作用一直未能被充分探索。非编码区域占人类基因组的大部分,可能含有大量影响性状的变异。
  • 设计最优实验的需求: 量化不同遗传因素(如稀有变异、结构变异、非加性遗传效应、共享环境效应)对遗传力的贡献,对于设计更有效的实验来识别复杂性状和疾病的因果遗传变异至关重要。

现有研究存在的具体挑战或空白:

  • 样本量限制: 尽管全基因组测序 (WGS) 能够更好地测量稀有遗传变异,但以往的 WGS 基础研究样本量(约25,000人)相对较小,导致遗传力估计的标准误差 (standard errors) 较大,难以得出关于“仍然缺失的遗传力”恢复的明确结论。
  • 聚焦编码区: 之前的全外显子组测序 (Whole-Exome Sequence, WES) 研究虽然提供了稀有编码变异作用的更精确估计,但外显子组仅占基因组的不到3%,对稀有非编码变异的贡献仍然知之甚少。
  • 对地理结构的敏感性: 行为性状的遗传力估计容易受到精细尺度地理结构的影响,需要更稳健的协变量调整方法。

这篇论文的切入点或创新思路是: 本研究利用英国生物样本库 (UK Biobank) 大规模的 WGS 数据(347,630名欧洲血统的无关个体),克服了以往研究的样本量限制,以高精度量化稀有变异(特别是稀有非编码变异)对34种复杂性状和疾病遗传力的贡献。通过比较 WGS 基础遗传力与谱系基础遗传力,并进行精细的功能注释分区,旨在更全面地解释“缺失遗传力”。此外,研究还通过全基因组关联研究 (GWAS) 探索了稀有变异的定位和可映射性。

2.2. 核心贡献/主要发现

这篇论文在复杂性状遗传学领域做出了多项核心贡献:

  • 高精度稀有变异遗传力估计: 首次利用大规模 WGS 数据(347,630名欧洲血统个体)对34种复杂性状和疾病的稀有变异遗传力 (rare-variant heritability) 进行了高精度估计。对于23种定量性状,遗传力估计的标准误差低于1%。
  • 显著解释谱系基础遗传力: 平均而言,WGS 数据捕获了约88%的基于谱系 (pedigree-based) 的狭义遗传力。其中,稀有变异 (Minor Allele Frequency, MAF < 1%) 贡献了20%,常见变异 (MAF ≥ 1%) 贡献了68%。
  • 识别“完全解释”的性状: 确定了至少15种性状,其 WGS 基础遗传力估计值与谱系基础遗传力估计值之间没有显著差异,表明这些性状的狭义遗传力可能已完全由 WGS 数据所解释,显著减少了“缺失遗传力”。
  • 量化编码与非编码变异贡献: 发现稀有变异 WGS 基础遗传力中,编码变异和非编码变异分别贡献了21%和79%。同时,编码变异对遗传力的贡献不成比例地高,且在常见变异中富集程度更高(36倍)而非稀有变异(26倍)。
  • 稀有变异关联的定位与可映射性: 通过 GWAS 识别了886个稀有变异关联 (Rare-Variant Associations, RVAs)。特别是在脂质相关性状中,稀有变异关联解释了超过四分之一的稀有变异遗传力,表明即使是稀有变异,其相当一部分遗传力也已可通过当前规模的 WGS 数据进行定位。
  • 稀有变异关联的基因组分布特征: 发现稀有变异关联与常见变异关联 (Common-Variant Associations, CVAs) 存在强烈的共定位 (colocalization) 现象,且距离常见变异关联越近的稀有变异关联倾向于解释更多的表型方差。

3. 预备知识与相关工作

3.1. 基础概念

  • 遗传力 (Heritability, h2h^2):在群体中,性状变异中由遗传因素解释的比例。

    • 狭义遗传力 (Narrow Sense Heritability):特指由加性遗传效应 (additive genetic effects) 解释的性状变异比例。加性遗传效应是指一个等位基因 (allele) 的效应是独立于其他等位基因的,并且可以简单地叠加。这是遗传学研究中关注的重点,因为它与性状在世代间的传递、选择反应和表型预测能力直接相关。
    • 谱系基础遗传力 (Pedigree-based Heritability, hPED2h_{PED}^2):通过分析家庭成员(如兄弟姐妹、父母子女)之间的表型相似性来估计的遗传力。它基于血缘亲属之间共享的基因组片段数量来推断遗传效应,可以捕获所有遗传变异(包括常见变异、稀有变异、结构变异)的加性效应,以及部分非加性效应和共享环境效应。
    • SNP 基础遗传力 (SNP-based Heritability, hSNP2h_{SNP}^2):通过分析个体间共享的单核苷酸多态性 (Single Nucleotide Polymorphisms, SNPs) 相似性来估计的遗传力。它通常使用基因组限制性最大似然法 (Genomic Restricted Maximum Likelihood, GREML) 等方法,基于基因组关系矩阵 (Genomic Relationship Matrix, GRM) 来量化群体中所有常见 SNPs 对表型方差的解释比例。
    • WGS 基础遗传力 (WGS-based Heritability, hWGS2h_{WGS}^2):与 hSNP2h_{SNP}^2 类似,但它利用全基因组测序 (Whole-Genome Sequencing, WGS) 数据中包含的所有遗传变异(包括常见变异、稀有变异、SNPs 和 indels)来估计遗传力,因此理论上能捕获更全面的遗传效应。
  • 缺失遗传力 (Missing Heritability):指通过全基因组关联研究 (Genome-Wide Association Studies, GWAS) 识别的特定基因座所解释的遗传力 (GWAS-explained heritability, hGWAS2h_{GWAS}^2) 与通过家族或双生子研究估计的总遗传力 (hPED2h_{PED}^2) 之间的差距。它可能由多种因素造成,包括:未检测到的稀有变异、结构变异、基因-基因相互作用、基因-环境相互作用,以及谱系研究对非加性效应的过高估计等。

  • 单核苷酸变异 (Single-Nucleotide Variant, SNV):基因组中单个核苷酸的改变。

  • 插入/缺失 (Indel):基因组中一个或多个核苷酸的插入或缺失。

  • 次要等位基因频率 (Minor Allele Frequency, MAF):在群体中,某个位点上第二常见的等位基因的频率。

    • 常见变异 (Common Variants):通常指 MAF ≥ 1% 或 5% 的变异。
    • 稀有变异 (Rare Variants):通常指 MAF < 1% 的变异。
    • 超稀有变异 (Ultra-rare Variants):通常指 MAF < 0.1% 或 0.01% 的变异。
  • 全基因组测序 (Whole-Genome Sequencing, WGS):一种检测个体完整基因组序列的技术,能够捕获基因组中几乎所有的遗传变异,包括 SNPs、indels、结构变异等,且无论其频率高低。

  • 全外显子组测序 (Whole-Exome Sequencing, WES):一种检测个体基因组中所有蛋白质编码区域(外显子)的技术。它比 WGS 成本低,但仅覆盖基因组的一小部分(约3%),主要用于发现与孟德尔疾病相关的稀有编码变异。

  • 全基因组关联研究 (Genome-Wide Association Study, GWAS):一种通过扫描大量个体基因组中的遗传变异(通常是 SNPs),以寻找与特定性状或疾病相关的变异的研究方法。

  • 编码变异 (Coding Variants):位于基因编码区(外显子)内的遗传变异,可以直接影响蛋白质的氨基酸序列,进而影响蛋白质功能。

  • 非编码变异 (Non-coding Variants):位于基因编码区之外的遗传变异(如内含子、基因间区、调控区),它们不直接编码蛋白质,但可能通过影响基因表达、RNA 剪接或染色质结构等方式影响性状。

  • 基因组关系矩阵 (Genomic Relationship Matrix, GRM):一个方阵,描述了群体中个体之间基因组相似性的程度。GRM 的元素 πij\pi_{ij} 表示个体 iijj 之间的基因组亲缘关系系数,通常基于他们共享的 SNPs 数量计算。

  • 基因组限制性最大似然法 (Genomic Restricted Maximum Likelihood, GREML):一种广泛用于估计遗传力的统计方法,通过 GRM 和表型数据来估计不同遗传成分(如加性遗传方差、环境方差)对总表型方差的贡献。

  • Haseman-Elston (HE) 回归 (Haseman-Elston Regression):另一种估计遗传力的方法,它通过回归亲属对的表型相似性与基因组相似性来估计遗传力。

  • 连锁不平衡 (Linkage Disequilibrium, LD):指在群体中,位于染色体上不同位点(通常是紧密连锁)的等位基因以非随机组合出现的现象。高 LD 意味着这些位点上的等位基因倾向于一起遗传。

  • 赢家诅咒 (Winner's Curse):在 GWAS 中,由于只报告达到统计显著性的关联,那些效应值 (effect sizes) 被向上偏差估计的关联更容易达到显著性阈值。因此,初步发现的关联效应值往往高于其真实值。

  • 选型交配 (Assortative Mating, AM):指个体在选择配偶时,倾向于选择在特定性状(如身高、智力)上与自己相似的伴侣的现象。选型交配会增加亲属之间的基因组相似性,从而可能影响谱系基础遗传力的估计。

  • 解释遗传力比率 (Explained Heritability Ratio, EHR):本研究定义为 WGS 基础遗传力 (hWGS2h_{WGS}^2) 与谱系基础遗传力 (hPED2h_{PED}^2) 之比 (EHR=hWGS2/hPED2EHR = h_{WGS}^2 / h_{PED}^2)。

3.2. 前人工作

  • 常见变异的贡献: 早期的研究(参考文献 4-8)已经量化了可观察到的遗传变异对性状遗传力的总体贡献。例如,一项研究显示,在欧洲血统人群中,常见 SNPs 平均解释了9%的表型方差,尽管特定性状的估计范围很广(5%至49%)。
  • “隐藏遗传力”和 GWAS 的演进: GWAS 已经识别了数千个与性状和疾病相关的 SNPs,但 GWAS 解释的表型方差 (hGWAS2h_{GWAS}^2) 通常低于 SNP 基础遗传力 (hSNP2h_{SNP}^2),这种差距被称为“隐藏遗传力 (hiding heritability)”(参考文献 10)。随着 GWAS 样本量的增加,这个差距预计会缩小,例如最近一项包含超过500万人的身高 GWAS (参考文献 11) 已经展示了 hGWAS2h_{GWAS}^2hSNP2h_{SNP}^2 之间的收敛。
  • “仍然缺失遗传力”和常见变异限制: hSNP2h_{SNP}^2 的估计长期以来受限于常见 SNPs(MAF 通常大于1%或5%),因为实验样本量较小且缺乏可靠的稀有遗传变异测量技术。因此,这些估计系统性地低于传统的谱系基础狭义遗传力 (hPED2h_{PED}^2)(参考文献 12)。这个 hPED2h_{PED}^2 和基于常见变异的 hSNP2h_{SNP}^2 之间的差距被称为“仍然缺失的遗传力 (still-missing heritability)”(参考文献 10)。
  • WGS 早期尝试及局限性:
    • 自2022年以来,使用 Trans-Omics for Precision Medicine (TOPMed) 项目数据的一系列研究(参考文献 13-16)已经为身高、体重指数 (BMI)、吸烟相关性状、2型糖尿病和冠状动脉疾病生成了 WGS 基础遗传力估计。
    • 局限性: 尽管 WGS 相比基于参考的基因型填充 (reference-based imputation) 能更好地测量稀有遗传变异,但这些早期 WGS 基础研究的样本量仍有限(N 约为25,000),导致 hWGS2h_{WGS}^2 估计的标准误差高达10%,难以就 WGS 数据是否能恢复“仍然缺失的遗传力”得出确切结论。
  • WES 在 UK Biobank 中的应用: 最近,英国生物样本库 (UK Biobank, UKB) 中超过300,000名参与者的全外显子组测序 (Whole-Exome Sequence, WES) 数据被用于获取更精确的稀有编码变异作用估计(参考文献 1),但稀有非编码变异的贡献仍然存在很大空白。

3.3. 技术演进

该领域的技术演进大致经历了以下几个阶段:

  1. 早期家族研究: 通过双生子、领养和家族谱系研究,首次量化了性状的遗传力,但无法识别具体的遗传位点。

  2. SNP 芯片技术与 GWAS: 随着微阵列芯片技术的发展,可以大规模检测基因组中的常见 SNPs。GWAS 成为发现常见变异与疾病/性状关联的主流方法,但由于仅关注常见变异和严格的统计阈值,解释的遗传力有限。

  3. 基因组填充 (Genotype Imputation): 利用参考基因组面板,可以从 SNP 芯片数据推断出未直接测量的 SNPs,包括一些稀有变异。这在一定程度上增加了 GWAS 的覆盖范围。

  4. 全外显子组测序 (WES): 聚焦于蛋白质编码区,更有效地发现稀有编码变异,对于孟德尔疾病和具有大效应量的稀有变异发现具有优势。

  5. 全基因组测序 (WGS): 覆盖整个基因组,能够捕获所有类型的遗传变异,包括常见、稀有、超稀有变异,以及非编码区变异。这是当前最全面的基因组学技术,为解决“缺失遗传力”问题提供了前所未有的机会。

    本文的工作正处于 WGS 技术大规模应用阶段,利用 UKB 提供的海量 WGS 数据,旨在进一步缩小 hWGS2h_{WGS}^2hPED2h_{PED}^2 之间的差距,并更好地理解稀有非编码变异的贡献。

3.4. 差异化分析

本文的方法与相关工作中的主要方法相比,核心区别和创新点体现在:

  • 样本量与精度: 本研究使用了迄今为止最大规模的 WGS 数据集之一(UK Biobank 的347,630名欧洲血统个体),远超之前 TOPMed 等研究的样本量(约25,000人)。这使得本研究能够获得更高精度的遗传力估计,特别是稀有变异遗传力的标准误差大幅降低(定量性状介于0.6%至2.7%),从而能够得出更明确的结论。
  • 对稀有非编码变异的关注: 尽管之前的 WES 研究关注了稀有编码变异,但本研究首次系统性地量化了稀有非编码变异对遗传力的贡献。通过 WGS 数据,研究发现稀有非编码变异贡献了稀有变异 WGS 基础遗传力的79%,这弥补了以往研究的重大空白。
  • 全面的遗传力分解: 研究不仅估计了总的 WGS 基础遗传力,还将其细致地分解为常见变异和稀有变异的贡献,以及编码和非编码变异的贡献,提供了对遗传结构更全面的理解。
  • 解释“仍然缺失的遗传力”的程度: 本文明确地量化了 WGS 数据对谱系基础遗传力(平均88%)的解释程度,并识别出15种性状的遗传力可能已完全由 WGS 数据解释,这在很大程度上解决了“仍然缺失的遗传力”问题。
  • 稀有变异关联的可映射性: 通过大规模 GWAS,不仅识别了大量的稀有变异关联,还特别指出脂质性状的稀有变异遗传力有很大一部分(超过25%)可以映射到特定基因座,表明即便稀有变异,其在大规模 WGS 数据下也具有较高的可发现性。
  • 精细的协变量调整: 论文强调了在遗传力估计中,特别是对行为性状,地理信息(出生地聚类)作为协变量的重要性,以避免细尺度地理结构造成的混淆。

4. 方法论

4.1. 方法原理

本研究的核心原理是利用大规模全基因组测序 (WGS) 数据,通过统计遗传学方法(主要是基因组限制性最大似然法 (GREML))来高精度地估计复杂性状的遗传力,并将其分解为不同频率(常见、稀有、超稀有)和功能区(编码、非编码)变异的贡献。同时,通过全基因组关联研究 (GWAS) 来识别与性状相关的具体变异位点,并评估这些位点对稀有变异遗传力的解释程度。研究还通过与谱系基础遗传力 (pedigree-based heritability) 的比较,来量化 WGS 数据对“缺失遗传力”的解释能力。

其背后的理论基础是加性遗传模型 (additive genetic model),假设每个等位基因 (allele) 对表型 (phenotype) 的贡献是独立的,并且可以简单叠加。GREML 方法利用基因组关系矩阵 (GRM) 量化个体间的遗传相似性,并将表型方差分解为遗传方差和环境方差。通过对 GRM 的分层构建(例如,按次要等位基因频率 (MAF) 和连锁不平衡 (LD) 进行分层),可以进一步估计不同类别变异的贡献。Regenie 等 GWAS 工具则在控制群体结构和亲缘关系的前提下,对每个变异进行统计关联测试。

4.2. 核心方法详解 (逐层深入)

4.2.1. 样本选择与质量控制

  1. 欧洲血统样本筛选 (Selection of European ancestry samples)

    • 首先,从英国生物样本库 (UK Biobank, UKB) 中筛选出具有单核苷酸多态性 (SNP) 芯片数据的488,377个样本。
    • 使用1000基因组计划 (1000 Genomes, 1KG) 的主成分分析 (Principal Component Analysis, PCA) 载荷 (loadings),对这批样本的207,965个常染色体 SNPs 进行分析。
    • 筛选出与 1KG 参考欧洲血统人群前10个主成分的均值在3个标准差 (standard deviations, s.d.) 范围内的样本。这确保了样本在遗传上是同质的欧洲血统人群。
    • 最终保留了455,516个欧洲血统样本。
    • 进一步筛选同时具有 SNP 芯片数据和全基因组测序 (WGS) 数据,并同意数据使用的样本,得到452,618个样本用于 GWAS 分析。
  2. 原始 WGS 数据处理 (Processing of raw WGS data)

    • 对 UKB 发布的第二批 WGS 数据(490,542个基因组)进行分析。
    • 分块处理 (Chunk processing):将原始二进制变异调用格式 (Binary Variant Call Format, BCF) 数据分成136,477个常染色体块进行独立处理。
    • 变异过滤 (Variant filtering)
      • 保留所有样本,移除以下条件的变异:次要等位基因计数 (Minor Allele Count, MAC) 小于30;非 'PASS' 状态的变异(表示未通过质量检查);以及具有超过200个等位基因的变异。
      • 多等位基因变异 (Multi-allelic variants) 被拆分为独立的行。
      • 长等位基因名称(少于100个字符)被重命名。
    • 合并与二次过滤 (Merging and secondary filtering):将所有块合并为一个包含所有常染色体变异(MAC > 30)和所有 WGS 样本的文件(约1.3亿个变异)。
    • 最终质量控制 (Final quality control)
      • 仅保留先前识别的欧洲血统样本。
      • 在 GRCh38 参考基因组上标准化变异。
      • 应用以下过滤器:基因型缺失率 (genotype missingness) 超过0.1;哈迪-温伯格平衡 (Hardy-Weinberg Equilibrium, HWE) P=108P = 10^{-8};样本缺失率 (sample missingness) 阈值为0.05。
      • 最终得到 MWGS=40,575,204M_{WGS} = 40,575,204 个 SNPs 和 indels。这些变异用于 GWAS 分析。
  3. 基因组关系矩阵 (Genomic Relationship Matrix, GRM) 计算 (GRM computation)

    • 使用452,618个样本和583,191个基因型 SNPs(MAF > 0.01)计算 GRM。
    • 稀疏 GRM (Sparse GRM):提取 GRM 中基因组亲缘关系系数 (genomic relationship coefficient) 大于0.05的亲属对,用于估计谱系基础遗传力。
    • 无关样本集 (Unrelated sample set):从上述样本中提取347,630个基因组上无关的欧洲血统样本(基因组亲缘关系系数低于0.05),用于 GREML 分析,并为此生成新的 WGS 基因型集。
    • 等位基因频率和 LD 分数 (Allele frequencies and LD scores)
      • 从完整的452,618个样本集中计算等位基因频率。
      • 从较小的347,630个样本集中计算连锁不平衡 (Linkage Disequilibrium, LD) 分数,块大小为1 Mb,块间重叠500 kb。

4.2.2. 变异分组与协变量处理

  1. GREML-LDMS 变异分组 (Variant grouping for GREML-LDMS)

    • 为了计算 MAF 和 LD 分区后的 GRM,每个变异被分配到四个 MAF 组中的一个:(0.01%0.1%)(0.01\% - 0.1\%), (0.1%1%)(0.1\% - 1\%), (1%10%)(1\% - 10\%), (10%50%)(10\% - 50\%)
    • 然后,在每个 MAF 组内,变异根据其 LD 分数统计量中位数进一步分配到 LD 组中(参见补充表2)。LD 分数统计量计算为该 SNP 与1 Mb 窗口内所有附近 SNPs 的等位基因计数平方相关性之和。
    • 个体 iikk 之间的样本亲缘关系使用以下估计量计算: Aik=1Mj=1M(xij2pj)(xkj2pj)2pj(1pj) A _ { i k } = \frac { 1 } { M } \sum _ { j = 1 } ^ { M } \frac { ( x _ { i j } - 2 p _ { j } ) ( x _ { k j } - 2 p _ { j } ) } { 2 p _ { j } ( 1 - p _ { j } ) } 其中,xijx_{ij} 是个体 ii 在 SNP jj 处的次要等位基因计数,MM 是用于量化亲缘关系的变异数量,pjp_j 是 SNP jj 处的次要等位基因频率 (MAF)。
  2. 超稀有变异的 GRM (GRM for ultra-rare variants)

    • 作为次要分析,通过在 GREML 和 HE 分析中包含一个额外的 GRM,进一步量化超稀有变异(MAF < 0.01%)对性状遗传力的贡献。
    • 由于无关个体不太可能共享超稀有变异,这个额外的 GRM 被假定为对角矩阵(实际上是近似对角占优矩阵),其对角线元素 DiiD_{ii}(针对个体 ii)计算如下: Dii=1Mk=1KN(N2k)Sik+k2Mkk(Nk/2) D _ { i i } = \frac { 1 } { M } \sum _ { k = 1 } ^ { K } \frac { N ( N - 2 k ) S _ { i k } + k ^ { 2 } M _ { k } } { k ( N - k / 2 ) } 其中,M=760,525,073M = 760,525,073 表示超稀有变异的总数,MkM_k 是在 NN 个个体中恰好在 kk 个个体中发现的超稀有变异的数量,SikS_{ik} 是个体 ii 携带的在样本中计数为 kk 的变异数量(例如,当 k=1k=1 时是单点变异的数量)。
  3. 表型与协变量质量控制 (Phenotypes and covariates quality control)

    • 从4000万个变异中,为每个 MAF/LD 组的独立变异计算基因型主成分。
    • LD 剪枝参数:窗口大小为1 Mb,对于 MAF > 0.01% 的变异,R2=0.1R^2 = 0.1;对于 MAF < 0.01% 的变异,R2=0.01R^2 = 0.01
    • 在无关样本集中,使用 PLINK2 实施的随机矩阵算法计算了每个组的30个基因型主成分(总共 8×30=2408 \times 30 = 240 个主成分)。
    • 基础协变量 (Base covariates):包括性别、出生年份、评估中心、采血时的禁食时间、评估月份和处方药使用情况(药物使用信息从 UKB 字段20003提取,并映射到解剖学治疗化学分类代码 (Anatomical Therapeutic Chemical classification codes),分组为大类别,如他汀类药物、利尿剂等)。
    • 出生地坐标聚类 (Birthplace coordinates clustering):根据个体的北向和东向出生坐标(UKB 字段129和130)进行 k-means 聚类,聚类数量设置为10、20、50、100。出生地缺失的个体(通常在英国以外出生)被分到单独的聚类。
    • 数据标准化与降维 (Data standardization and dimensionality reduction):所有禁食时间超过24小时的合并为一个组,缺失的评估中心和评估月份数据也合并为独立组。每个协变量都被二值化,并标准化为均值0、方差1。为减少数据维度和共线性,对协变量矩阵进行奇异值分解 (Singular-Value Decomposition, SVD),选取解释总方差99%以上的顶部奇异向量。
    • 表型选择与标准化 (Phenotype selection and standardization):选择了41种复杂表型。定量性状在每个性别内标准化为均值0、方差1。表型值超出6个标准差的样本被排除。
    • 协变量集 (Covariate sets):为41种表型生成了5组协变量,基于基础协变量的 SVD、基础协变量加主成分、协变量主成分以及4种不同数量的 k-means 基础出生地聚类。总共拟合了6种不同协变量集的奇异值分解作为协变量。

4.2.3. GREML-基础估计 (GREML-based estimates)

  • 使用 MPH v.0.53.2 (参考文献 18) 工具获取 GREML 和 Haseman-Elston (HE) 回归遗传力估计。
  • HE 估计通过将所有方差组分初始化为0(除了残差方差初始化为1),然后执行一次 MPH 中实现的最优二次无偏估计 (minimum norm quadratic unbiased estimation, MINQUE) 迭代来获得,这等同于 HE 回归,并允许适当的协变量调整。
  • 二分类性状的 SNP 基础遗传力估计(在观测尺度上)通过以下公式转换为负荷尺度 (liability scale): hliability2=hobserved2×K(1K)[ϕ(ϕ1(K))]2 h_{liability}^2 = h_{observed}^2 \times \frac {K(1-K)}{[\phi(\phi^{-1}(K))]^2} 其中,KK 表示二分类性状在人群中(这里是452,618名欧洲血统参与者的整个样本)的患病率,ϕ\phiϕ1\phi^{-1} 分别是标准正态分布的概率密度函数和分位数函数。

4.2.4. 谱系基础估计 (Pedigree-based estimates)

  • 谱系基础狭义遗传力 (hPED2h_{PED}^2) 估计来源于 UKB 中识别的171,446对亲属(GRM 值大于0.05)。
  • 对于除了身高、教育程度和流体智力分数之外的所有性状,使用以下模型来建模亲属间的表型协方差(以一组协变量 XX 为条件): cov(yi,yjX)=σA2πij+σNA2πij2+δijσE2 \mathrm { cov } ( y _ { i } , y _ { j } | X ) = \sigma _ { \mathrm { A } } ^ { 2 } \pi _ { i j } + \sigma _ { \mathrm { N A } } ^ { 2 } \pi _ { i j } ^ { 2 } + \delta _ { i j } \sigma _ { \mathrm { E } } ^ { 2 } 其中,yiy_iyjy_j 是个体 iijj 的表型,πij\pi_{ij} 是他们观察到的 GRM 值,δij\delta_{ij} 是一个直接指示变量,当 i=ji=j 时等于1,否则为0。参数 σA2\sigma_A^2σNA2\sigma_{NA}^2σE2\sigma_E^2 分别捕获了加性遗传效应、非加性遗传效应(包括与 πij\pi_{ij} 相关的共享环境效应)和残差效应。
    • 利用这些参数估计值,计算 hPED2h_{PED}^2h^PED2=σA2^/(σE2^+σA2^+σNA2^)\widehat {h}_{PED}^2 = \widehat{\sigma_A^2} / (\widehat{\sigma_E^2} + \widehat{\sigma_A^2} + \widehat{\sigma_{NA}^2})
  • 对于已知受选型交配 (assortative mating, AM) 影响的身高、教育程度和流体智力,使用了类似于参考文献 50 的模型: cov(yi,yjX)=σA2(0.5)dij[1+θ]dij+σE2δijσA2(0.5)dij+σA2θ[(0.5)dijdij]+σE2δij=σA2πij+σAM2πij(log(πij)log(0.5))+σE2δij \begin{array} { r l r } { { \mathsf { c o v } ( y _ { i } , y _ { j } | X ) = \sigma _ { \mathrm { A } } ^ { 2 } ( 0 . 5 ) ^ { d _ { i j } } [ 1 + \theta ] ^ { d _ { i j } } + \sigma _ { \mathrm { E } } ^ { 2 } \delta _ { i j } } } \\ & { } & { \approx \sigma _ { \mathrm { A } } ^ { 2 } ( 0 . 5 ) ^ { d _ { i j } } + \sigma _ { \mathrm { A } } ^ { 2 } \theta [ ( 0 . 5 ) ^ { d _ { i j } } d _ { i j } ] + \sigma _ { \mathrm { E } } ^ { 2 } \delta _ { i j } } \\ & { } & { = \sigma _ { \mathrm { A } } ^ { 2 } \pi _ { i j } + \sigma _ { \mathrm { A M } } ^ { 2 } \pi _ { i j } \left( \frac { \log ( \pi _ { i j } ) } { \log ( 0 . 5 ) } \right) + \sigma _ { \mathrm { E } } ^ { 2 } \delta _ { i j } \quad } \end{array} 其中,dij=log(πij)/log(0.5)d_{ij} = \log(\pi_{ij}) / \log(0.5) 衡量个体间亲缘关系的程度,θ\theta 表示在一个经历多代选型交配的群体中,配偶遗传值之间的相关性,而 σAM2=σA2θ\sigma_{AM}^2 = \sigma_A^2 \theta。方程 (4) 中的一阶近似假设 θ1\theta \ll 1。需要注意的是,σAM2\sigma_{AM}^2 被纳入模型,因为它对个体间的表型协方差贡献被 log(πij)/log(0.5)\log(\pi_{ij}) / \log(0.5) 加权,而不是直接乘以 πij\pi_{ij}
  • 所有分析都用与 GREML 分析相同的协变量集进行调整。
  • 解释遗传力比率 (Explained Heritability Ratio, EHR):对于每个性状,计算 EHR 为 EHR=h^WGS2/h^PED2EHR = \widehat {h}_{WGS}^2 / \widehat {h}_{PED}^2。EHR 的标准误差使用 delta 方法计算,假设 h^WGS2\widehat {h}_{WGS}^2h^PED2\widehat {h}_{PED}^2 之间的抽样相关性为零。

4.2.5. 编码变异的遗传力富集 (Heritability enrichment in coding variants)

  • 研究将 h^WGS2\widehat {h}_{WGS}^2 分区以评估编码和非编码变异对性状遗传力的相对贡献。
  • WES 覆盖区域 (WES-covered regions):使用 Resource 字段3803(基于 IDT xGen Exome Research Panel v.1.0 和每个捕获目标上游和下游100 bp 侧翼区域)识别这些 WES 区域。总共有408,096个(占 MAF > 0.01% 的所有 WGS 变异的1%)变异被包含在 WES 覆盖区域内,而40,167,108个变异不在其内。
  • 功能后果预测 (Functional consequence prediction):使用 Nirvana 管道版本3.22.0(代码可用性部分)预测每个变异的功能后果。根据不同的后果类别(补充表2)定义了一组编码和非编码变异。
  • 变异亚组划分 (Variant subgroup partitioning):八个 MAF 和/或 LD 组中的每一个进一步被分为三个亚组:
    1. WES 区域内的编码变异(占 MAF > 0.01% 的所有 WGS 变异的0.71%)。
    2. WES 区域内的非编码变异(占 MAF > 0.01% 的所有 WGS 变异的0.29%)。
    3. WES 区域外的变异(占 MAF > 0.01% 的所有 WGS 变异的99%)。
  • GRM 和 GREML 分析 (GRM and GREML analyses):为这24个变异子集中的每一个计算 GRM。然后运行 GREML 分析,同时拟合这24个 GRM 和全套协变量。
  • 遗传力富集定义 (Heritability enrichment definition):编码变异的遗传力富集 (E^(coding)\widehat{E}(\text{coding})) 使用以下公式定义: E^(coding)=h^Coding2/MCodingh^WGS2/MWGS \widehat { E } ( \mathrm { c o d i n g } ) = \frac { \widehat { h } _ { \mathrm { C o d i n g } } ^ { 2 } / M _ { \mathrm { C o d i n g } } } { \widehat { h } _ { \mathrm { W G S } } ^ { 2 } / M _ { \mathrm { W G S } } } 其中,h^Coding2\widehat {h}_{Coding}^2 是由编码变异解释的遗传力,MCodingM_{Coding} 是编码变异的数量(大约408,096的0.71%),h^WGS2\widehat {h}_{WGS}^2 是所有 WGS 变异解释的遗传力, MWGSM_{WGS} 是所有 WGS 变异的数量。E^(coding)\widehat{E}(\text{coding}) 的标准误差使用 delta 方法推导。

4.2.6. GWAS 分析 (GWAS analyses)

  • 关联分析 (Association analyses):使用 Regenie (参考文献 53) 对34种表型和 WGS 变异进行关联分析,同时拟合所有用于遗传力估计的协变量(包括100个 k-means 出生地坐标聚类)。
  • 基因组预测因子 (Genomic predictors):使用500,999个 LD 剪枝的常见变异(LD r2>0.9r^2 > 0.9,窗口大小10 Mb,MAF > 0.05)计算 step 1 “留一染色体法”基因组预测因子 (leave-one-chromosome-out genomic predictors)。这些预测因子用于 step 2 的 WGS 和填充数据集。
  • 全基因组显著性阈值 (Genome-wide significance threshold):使用 P<5×109P < 5 \times 10^{-9} 的严格阈值来确定全基因组显著性。
  • 独立基因座聚类 (Clumping of independent loci):使用 PLINK (参考文献 54) 将每个性状的全基因组显著关联聚类为独立基因座。PLINK 参数为:导致 SNPs 之间 LD r2<0.01r^2 < 0.01,且位于1 Mb 范围内。
  • 联合分析 (Joint analysis):为了确保统计独立性,对所有聚类 SNPs 进行联合分析,同时拟合与边际 GWAS 分析相同的协变量和对应的“留一染色体法”基因组预测因子,以解释分层和隐性亲缘关系。联合分析对定量性状使用多元线性回归,对二分类性状使用 Firth 惩罚逻辑回归。
  • 表型方差解释比例 (Proportion of phenotypic variance explained):不同关联集解释的表型方差(在观测尺度上)比例使用以下公式量化: h^GWAS2=j=1m2pj(1pj)β^jmβ^jc \widehat { h } _ { \mathrm { G W A S } } ^ { 2 } = \sum _ { j = 1 } ^ { m } 2 p _ { j } ( 1 - p _ { j } ) \widehat { \beta } _ { j m } \widehat { \beta } _ { j c } 其中,mm 是焦点关联集中的 SNPs 数量,β^jm\widehat{\beta}_{jm}β^jc\widehat{\beta}_{jc} 分别是 SNP jj 的(经过赢家诅咒校正 (winner's curse corrected) (参考文献 30,31))估计边际效应量和条件效应量。
    • 对于二分类性状,h^GWAS2\widehat {h}_{GWAS}^2 计算为由性状关联变异解释的负荷方差比例,使用参考文献 55 提供的 R 代码,结合赢家诅咒校正的效应量(在观测尺度上)以及来自整个样本集的等位基因频率和患病率。
  • 变异注释 (Variant annotation)
    • 使用 Gencode v.39 (参考文献 56) 注释 GWAS 识别的变异,以确定其相对于基因的位置。
    • 使用 IDT xGen Exome Research Panel 评估变异是否位于 WES 基因座内。
    • 根据变异到最近基因的距离进行分组。
    • 使用 dbSNFp (参考文献 57,58) 提供的统一排名分数注释(如 AlphaMissense (参考文献 59), CADD (参考文献 60), Polyphen2 (参考文献 61), Revel (参考文献 62), SIFT (参考文献 63))以及 PrimateAI3D (参考文献 36), SpliceAI (参考文献 64) 和 PromoterAI (参考文献 65) 预测功能后果。
    • 保守变异 (Conserved variants):定义为 Zoonomia 进化分数 (Zoonomia phylogenetic score) 大于2.27的变异 (参考文献 34)。
  • 精细定位 (Fine-mapping):使用 SuSiE (参考文献 66,67) 将 GWAS 基因座精细定位到95%可信集 (credible sets)。基因座定义为独立关联两侧250 kb 窗口内的基因组区域。二分类性状的效应量使用参考文献 55 的方法转换为负荷尺度。

4.2.7. 基因组分布分析 (Genomic distribution analysis)

  • 稀有变异关联 (RVA) 的基因组分布 (Genomic distribution of RVAs):分析每个 RVA 与其最近的常见变异关联 (Common-Variant Association, CVA) 之间的距离(DCCVA)。
  • 共定位模式 (Colocalization patterns):评估 RVAs 和 CVAs 之间的共定位模式,量化每个 RVA 周围指定基因组窗口内 CVAs 的密度。
  • 变异密度与结构变异的关联 (Association between variant density and structural variants)
    • 为每个 CVA 计算其周围100 kb 窗口内其他 CVAs(与同一性状相关)的密度(CVA-CVA 密度)。
    • 对 RVAs 进行相同计算,定义 RVA-RVA 密度。
    • 将 GWAS 变异分配到基于欧洲血统特异性 GRCh38 LD 定义 (参考文献 68) 的 LD 块中。
    • 整合 publicly available 的串联重复序列 (VNTR) 和拷贝数变异 (CNV) 独立关联数据 (参考文献 69-71),并与本研究中的性状进行匹配。
    • 拟合两个逻辑回归模型(分别针对常见和稀有变异),将附近(100 kb 内)存在与性状相关的结构变异的二分类指标回归到 CVA-CVA 或 RVA-RVA 密度等于或大于2的二分类指标上。

4.2.8. 填充与 WGS 比较 (Imputation and WGS comparison)

  • 运行类似的 GWAS 分析,将 WGS 变异替换为来自 HRC + UK10K 填充面板和 TOPMed 填充面板的填充变异。
  • 应用类似的质量控制阈值:MAF > 0.01%,硬调用基因型缺失率 < 0.1,样本缺失率 < 0.05,填充质量 INFO 分数 > 0.3,HWE P>108P > 10^{-8}
  • 对每个数据集运行 Regenie 进行剂量基因型分析,使用从 WGS 数据计算的“留一染色体法”预测。
  • 使用相同的聚类和联合分析参数识别独立基因座。
  • 对每个填充数据集也进行了类似的 SuSiE 精细定位分析。

5. 实验设置

5.1. 数据集

5.1.1. 发现样本 (Discovery Sample) - UK Biobank (UKB)

  • 来源: 英国生物样本库 (UK Biobank),这是一个大规模生物医学数据库,包含来自英国50多万参与者的深度遗传和健康信息。
  • 规模:
    • 初始 WGS 数据来自490,542名 UKB 参与者。
    • 主要分析集中在347,630名欧洲血统的无关个体(基因组亲缘关系系数低于0.05),用于遗传力估计。
    • 全基因组关联研究 (GWAS) 分析使用了452,618名欧洲血统的个体(包括347,630名无关个体及其所有亲属)。
  • 特点:
    • 深度遗传数据: 包含高质量的 WGS 数据,覆盖基因组中的常见、稀有和超稀有变异。
    • 丰富表型数据: 涵盖34种复杂性状和疾病,包括生理测量、血液生化指标、疾病诊断、行为性状等。
    • 欧洲血统同质性: 通过严格的质量控制筛选出遗传同质的欧洲血统人群,减少了群体分层 (population stratification) 的混淆。
  • 选择理由: UKB 提供了前所未有的大规模 WGS 数据和丰富表型数据,是进行高精度遗传力估计和稀有变异关联研究的理想资源。

5.1.2. 复制样本 (Replication Sample) - Alliance for Genomic Discovery (AGD)

  • 来源: Alliance for Genomic Discovery (AGD) 队列,由 Vanderbilt 大学医疗中心 (Vanderbilt University Medical Center) 的 BioVU 生物样本库数据衍生。
  • 规模: 约67,000名欧洲血统的无关个体,以及约15,690名非洲血统个体。
  • 特点: 独立的 WGS 数据集,用于验证在 UKB 中发现的特定稀有变异关联,特别是针对 LDL、HDL 胆固醇和碱性磷酸酶 (ALK) 等脂质相关性状和非脂质性状。
  • 选择理由: 作为独立的验证队列,用于增强研究发现的可靠性和泛化性。

5.1.3. 其他数据集 (Other Datasets)

  • 1000基因组计划 (1000 Genomes Project, 1KG):用于欧洲血统样本的筛选和主成分分析。

  • 基因型填充面板 (Genotype Imputation Panels):Haplotype Reference Consortium (HRC) + UK10K 和 TOPMed 填充面板,用于与 WGS 数据的 GWAS 结果和精细定位分辨率进行比较。

    注: 原文未提供数据集中的具体样本示例图片或文字。

5.2. 评估指标

对论文中出现的每一个评估指标,本研究都进行了详尽的说明。

5.2.1. 遗传力 (Heritability, h2h^2)

  1. 概念定义: 遗传力是群体中性状总表型方差中由遗传因素解释的比例。它量化了遗传变异对表型差异的贡献程度,是理解性状遗传结构的基础。狭义遗传力特指由加性遗传效应 (additive genetic effects) 解释的部分。
  2. 数学公式 (狭义遗传力): h2=σA2σP2=σA2σA2+σNA2+σE2 h^2 = \frac{\sigma_A^2}{\sigma_P^2} = \frac{\sigma_A^2}{\sigma_A^2 + \sigma_{NA}^2 + \sigma_E^2}
  3. 符号解释:
    • h2h^2: 狭义遗传力。
    • σA2\sigma_A^2: 加性遗传方差 (additive genetic variance),由所有加性基因效应引起的表型变异。
    • σNA2\sigma_{NA}^2: 非加性遗传方差 (non-additive genetic variance),包括显性效应 (dominance effects) 和上位效应 (epistatic effects)。在谱系基础遗传力计算中,它可能部分被捕获。
    • σE2\sigma_E^2: 环境方差 (environmental variance),由环境因素引起的表型变异。
    • σP2\sigma_P^2: 总表型方差 (total phenotypic variance)。

5.2.2. 标准误差 (Standard Error, s.e.)

  1. 概念定义: 标准误差是统计量(如遗传力估计值)抽样分布的标准差,它衡量了估计值的精确度。标准误差越小,表示估计值越精确,越能代表真实参数。
  2. 数学公式: 对于一个参数 θ\theta 的估计值 θ^\hat{\theta},其标准误差通常表示为 s.e.(θ^)\text{s.e.}(\hat{\theta})。其计算方法取决于具体的估计方法和模型,在最大似然估计中通常从 Fisher 信息矩阵中导出。
  3. 符号解释:
    • s.e.(θ^)\text{s.e.}(\hat{\theta}): 参数 θ\theta 的估计值 θ^\hat{\theta} 的标准误差。

5.2.3. P 值 (P-value)

  1. 概念定义: P 值是在零假设 (null hypothesis) 为真时,观察到当前(或更极端)实验结果的概率。在假设检验中,P 值用于评估证据的强度,以拒绝或不拒绝零假设。通常,P 值越小,拒绝零假设的证据越强。
  2. 数学公式: P 值没有统一的数学公式,它是一个概率值,根据具体的统计检验(如 Wald 检验、tt-检验、FF-检验)和数据分布计算。例如,对于一个检验统计量 TT 和观测值 tobst_{obs}P=P(TtobsH0)P = P(T \ge t_{obs} \mid H_0) 或双侧检验: P=P(TtobsH0) P = P(|T| \ge |t_{obs}| \mid H_0)
  3. 符号解释:
    • PP: P 值。
    • TT: 检验统计量。
    • tobst_{obs}: 观察到的检验统计量的值。
    • H0H_0: 零假设。

5.2.4. 解释遗传力比率 (Explained Heritability Ratio, EHR)

  1. 概念定义: EHR 是本研究中定义的一个指标,用于量化通过全基因组测序 (WGS) 数据估计的遗传力对基于谱系 (pedigree-based) 估计的遗传力(通常被认为是性状总遗传力的上限)的解释程度。EHR 越接近1,表明 WGS 数据解释的遗传力越多。
  2. 数学公式: EHR=h^WGS2h^PED2 EHR = \frac{\widehat{h}_{WGS}^2}{\widehat{h}_{PED}^2}
  3. 符号解释:
    • EHR: 解释遗传力比率。
    • h^WGS2\widehat{h}_{WGS}^2: WGS 基础遗传力估计值。
    • h^PED2\widehat{h}_{PED}^2: 谱系基础遗传力估计值。

5.2.5. 遗传力富集 (Heritability Enrichment, E^\widehat{E})

  1. 概念定义: 遗传力富集衡量的是特定基因组区域或功能注释(例如编码区、保守区)对遗传力的贡献与其在基因组中所占比例的不成比例程度。如果一个区域的富集因子大于1,说明该区域对遗传力的贡献大于其在基因组中的物理大小所预期的贡献。
  2. 数学公式: E^(annotation)=h^annotation2/Mannotationh^total2/Mtotal \widehat { E } ( \mathrm { annotation } ) = \frac { \widehat { h } _ { \mathrm { annotation } } ^ { 2 } / M _ { \mathrm { annotation } } } { \widehat { h } _ { \mathrm { total } } ^ { 2 } / M _ { \mathrm { total } } }
  3. 符号解释:
    • E^(annotation)\widehat{E}(\text{annotation}): 特定注释区域的遗传力富集因子。
    • h^annotation2\widehat{h}_{\text{annotation}}^2: 由特定注释区域内变异解释的遗传力估计值。
    • MannotationM_{\text{annotation}}: 特定注释区域内变异的数量。
    • h^total2\widehat{h}_{\text{total}}^2: 所有变异解释的总遗传力估计值(例如 h^WGS2\widehat{h}_{WGS}^2)。
    • MtotalM_{\text{total}}: 所有变异的总数量(例如 MWGSM_{WGS})。

5.2.6. 解释的表型方差 (Phenotypic Variance Explained, h^GWAS2\widehat{h}_{GWAS}^2)

  1. 概念定义: GWAS 解释的表型方差是指通过 GWAS 识别的所有显著关联变异(或特定子集,如稀有变异关联或常见变异关联)累积解释的表型变异比例。它量化了已发现的遗传关联对性状表型差异的贡献。
  2. 数学公式: h^GWAS2=j=1m2pj(1pj)β^jmβ^jc \widehat { h } _ { \mathrm { G W A S } } ^ { 2 } = \sum _ { j = 1 } ^ { m } 2 p _ { j } ( 1 - p _ { j } ) \widehat { \beta } _ { j m } \widehat { \beta } _ { j c }
  3. 符号解释:
    • h^GWAS2\widehat{h}_{GWAS}^2: GWAS 解释的表型方差估计值。
    • mm: 焦点关联集中的 SNPs 数量。
    • pjp_j: SNP jj 的次要等位基因频率 (MAF)。
    • β^jm\widehat{\beta}_{jm}: SNP jj 的(经过赢家诅咒校正的)估计边际效应量 (marginal effect size)。
    • β^jc\widehat{\beta}_{jc}: SNP jj 的(经过赢家诅咒校正的)估计条件效应量 (conditional effect size)。

5.2.7. 皮尔逊相关系数 (Pearson's Correlation Coefficient, RR)

  1. 概念定义: 皮尔逊相关系数是衡量两个变量之间线性关系强度和方向的统计量。它的值介于 -1 和 1 之间,其中1表示完全正线性关系,-1表示完全负线性关系,0表示没有线性关系。
  2. 数学公式: 对于两个变量 XXYY,包含 nn 对数据点,其皮尔逊相关系数 RR 计算如下: R=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2i=1n(YiYˉ)2 R = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^n (X_i - \bar{X})^2 \sum_{i=1}^n (Y_i - \bar{Y})^2}}
  3. 符号解释:
    • RR: 皮尔逊相关系数。
    • Xi,YiX_i, Y_i: 第 ii 个数据点的 XXYY 值。
    • Xˉ,Yˉ\bar{X}, \bar{Y}: XXYY 的样本均值。
    • nn: 样本数量。

5.2.8. 后验包含概率 (Posterior Inclusion Probabilities, PIP)

  1. 概念定义: 在精细定位 (fine-mapping) 分析中,后验包含概率 (PIP) 是一个统计量,表示某个特定 SNP 属于因果变异集(即真正影响性状的变异)的概率。PIP 值越高,该 SNP 越有可能是一个因果变异。
  2. 数学公式: PIP 的计算基于贝叶斯统计模型,通常涉及对每个 SNP 的效应大小和其与周围 SNP 的连锁不平衡 (LD) 模式进行建模。它不是一个简单的直接公式,而是从后验分布中推断出来的概率。例如,在“单效应总和”模型 (Sum of Single Effects, SuSiE) 中,PIP 是对每个 SNP 是在一个或多个单一效应组件中被选中的后验概率。
  3. 符号解释:
    • PIP: 后验包含概率。

5.3. 对比基线

论文将自己的方法与以下基线模型或数据集进行了比较:

  • 谱系基础遗传力估计 (hPED2h_{PED}^2): 这是本研究最核心的比较基线。hPED2h_{PED}^2 通常被认为是性状遗传力的“黄金标准”上限,代表了所有遗传因素(包括那些 WGS 可能未能完全捕获的,如超稀有变异、某些结构变异、非加性效应等)的加性贡献。通过与 hPED2h_{PED}^2 比较,可以量化 WGS 数据解释“缺失遗传力”的程度。

  • 先前 WGS 基础研究: 特别是来自 TOPMed 联盟的研究(参考文献 13,14)。这些研究也使用 WGS 数据估计遗传力,但样本量较小(约25,000人)。本研究通过在更大的 UKB WGS 数据集上进行估计,展示了更高的精度,并与 TOPMed 的结果(例如身高、BMI、吸烟状态)进行了一致性比较。

  • Haseman-Elston (HE) 回归: 作为一种经典的遗传力估计方法,与 GREML 进行比较,特别是在考虑选型交配 (assortative mating) 影响的性状(如身高、教育程度)上。

  • 基因型填充 (Genotype Imputation) 基础的 GWAS: 与基于 HRC + UK10K 和 TOPMed 填充面板的 GWAS 结果进行比较。这用于评估 WGS 相对于填充数据在发现关联、精细定位分辨率和捕获稀有变异方面的优势。

  • 传统 GWAS 结果: 在讨论稀有变异关联 (RVA) 和常见变异关联 (CVA) 的共定位时,提到了先前已识别的身高关联基因座(如 Yengo et al. 参考文献 11),作为 CVA 的参考。

    这些基线模型和数据集的选择具有代表性,因为它们涵盖了从传统家族研究到现代基因组学研究的遗传力估计方法,并代表了不同程度的基因组覆盖和样本规模,从而能全面评估本研究的贡献和优势。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. WGS 基础遗传力估计

  • 平均 WGS 基础遗传力: 在34种选定的表型中,h^WGS2\widehat{h}_{WGS}^2 估计值范围在0.075(儿童数量)到0.709(身高)之间,平均值为0.284(标准误差0.002)。

  • 与 TOPMed 的一致性: 本研究对身高(0.709)、BMI(0.339)和吸烟状态(0.174)的估计值与 TOPMed 联盟之前基于 WGS 数据的研究结果一致(见 Table 2)。

  • 稀有变异贡献: 平均而言,稀有变异遗传力(MAF < 1%)为0.063(标准误差0.002),占平均 h^WGS2\widehat{h}_{WGS}^2 的约22%。教育程度表现出稀有变异对遗传力的最大贡献,约43%的 h^WGS2\widehat{h}_{WGS}^2 来自稀有变异。相比之下,骨密度和低密度脂蛋白(LDL)胆固醇的稀有变异(0.01% < MAF < 1%)贡献低于12%。

  • 协变量调整的稳健性: 敏感性分析(Extended Data Fig. 1)显示,对于大多数性状,遗传力估计对协变量调整是稳健的。然而,未校正的教育程度和流体智力分数 h^WGS2\widehat{h}_{WGS}^2 估计值因英国细尺度地理结构而显著膨胀,凸显了地理信息在调整行为性状时的重要性。

    以下是原文 Table 1 的结果:

    Phenotype Acronym hpfeD s.e. (hp) hio\$ s.e.(hws) P
    Albumin ALB 0.277 0.031 0.243 0.010 0.299
    Alkaline phosphatase ALK 0.435 0.026 0.420 0.009 0.572
    Alanine aminotransferase ALT 0.148 0.029 0.190 0.010 0.156
    Heel bone mineral density BMD 0.375 0.035 0.396 0.014 0.591
    BMI BMI 0.392 0.023 0.339 0.009 0.031
    Chronic ischaemic heart disease (I25) CIHD 0.300 0.113 0.228 0.026 0.539
    Creatinine CREA 0.244 0.028 0.295 0.009 0.077
    C-reactive protein CRP 0.178 0.030 0.138 0.010 0.203
    Diastolic blood pressure DBP 0.171 0.029 0.211 0.010 0.191
    Dyslipidaemia (E78) DISLIP 0.350 0.080 0.216 0.018 0.101
    Educational qualification EA 0.409 0.015 0.347 0.009 <0.001
    Forced expiratory volume in 1s FEV1 0.313 0.033 0.299 0.011 0.689
    Fluid intelligence score FI 0.405 0.036 0.328 0.027 0.084
    Hand grip strength GRIP 0.310 0.028 0.223 0.009 0.003
    Haemoglobin concentration Hb 0.272 0.028 0.272 0.009 0.987
    HDL cholesterol levels HDL 0.541 0.029 0.398 0.009 <0.001
    Standing height HT 0.882 0.010 0.709 0.006 <0.001
    Hypertension (I10) HypT 0.251 0.070 0.253 0.015 0.986
    IGF-1 IGF 0.405 0.028 0.354 0.009 0.083
    LDL cholesterol levels LDL 0.239 0.029 0.228 0.010 0.705
    Mean corpuscular volume MCV 0.509 0.027 0.413 0.008 <0.001
    Number of children NC 0.152 0.028 0.075 0.010 0.010
    Neuroticism score NEURO 0.212 0.034 0.185 0.011 0.455
    Platelet count PLAT 0.554 0.027 0.457 0.008 <0.001
    Red blood cell count RBC 0.388 0.027 0.355 0.009 0.251
    Systolic blood pressure SBP 0.188 0.029 0.217 0.010 0.333
    Sleep duration SLP 0.106 0.028 0.125 0.009 0.523
    Ever smoked Type 2 diabetes (E11) SMK 0.248 0.060 0.174 0.015 0.237
    T2D 0.597 0.100 0.403 0.030 0.065
    Telomere length TELO 0.377 0.028 0.127 0.010 <0.001
    Triglycerides levels Vitamin D TG 0.323 0.029 0.287 0.009 0.240
    VITD 0.227 0.030 0.178 0.010 0.118
    White blood cell count WBC 0.319 0.028 0.324 0.009 0.864
    Waist-to-hip ratio WHR ^ 2 0.291 0.027 0.240 0.009 0.071

以下是原文 Table 2 的结果:

TOPMed data UKB data (this study)
Trait N Estimate (s.e.) N Estimate (s.e.)
Height 25,465 0.68 (0.10) 346,828 0.709 (0.006)
BMI 25,465 0.30 (0.10) 346,381 0.339 (0.008)
Smoking initiation 26,257 0.23 (0.10) 346,215 0.174 (0.015)

6.1.2. 与谱系基础估计的比较

  • WGS 解释的谱系遗传力比例: 平均而言,WGS 捕获了约88%的谱系基础狭义遗传力(中位数为0.87)。解释遗传力比率 (EHR) 范围从0.34(端粒长度)到1.29(丙氨酸转氨酶水平)。

  • 无显著差异的性状: 对于25种表型,WGS 基础遗传力估计值与谱系基础估计值之间没有显著差异(P > 0.05)。其中15种定量性状的谱系基础遗传力标准误差低于3%,表明其遗传力已大部分由 WGS 数据解释。

  • 选型交配的影响: 身高、教育程度和流体智力分数受选型交配影响,其 HE 估计值与 GREML 估计值存在差异。经过选型交配调整后,HE 估计值与 GREML 估计值更趋于一致。

  • 仍然缺失的遗传力: 儿童数量和端粒长度表现出显著的“仍然缺失的遗传力”,WGS 仅解释了不到一半的谱系基础遗传力。

    下图(原文 Fig. 1)展示了34种复杂性状和疾病的遗传力估计,包括 WGS 基础遗传力与谱系基础遗传力的比较:

    Fig. 1| Estimates of heritability for 34 complex traits and diseases. a, Estimates of heritability from WGS data (denoted \(h _ { \\mathsf { W G S } } ^ { 2 }\) on the x axis) for 34 phenotypes with a m… 该图像是图表,展示了34种复杂性状和疾病的遗传力估计。图中包括基于全基因组测序(WGS)的遗传力 hWGS2h_{WGS}^2 和基于谱系的遗传力 hPED2h_{PED}^2 的比较,结果显示两者在部分性状上差异不显著。横坐标为常见变异组分,纵坐标为稀有变异组分,数据点的分布揭示了不同性状间的遗传相关性。

6.1.3. 编码基因座的遗传力富集

  • 编码变异的贡献: 编码变异(占总变异的0.71%)平均贡献了17.5%的 h^WGS2\widehat{h}_{WGS}^2

  • 常见与稀有编码变异: 编码变异贡献了稀有变异遗传力的21.0%,常见变异遗传力的16.9%。

  • 富集倍数: 相对于其在基因组中的比例,常见编码变异的遗传力富集高达36倍,而稀有编码变异的富集为26倍。

  • 富集模式差异: 常见和稀有变异的编码区遗传力富集之间存在中等相关性(R = 0.56),表明不同性状之间可能存在差异。例如,2型糖尿病的编码变异遗传力富集仅在常见变异中显著(21倍),但在稀有变异中不显著(10倍),这可能与统计能力不足或编码区有害稀有变异频率更低有关。

    下图(原文 Fig. 2)展示了编码和非编码变异对 WGS 基础遗传力的相对贡献:

    Fig. 2 | Relative contribution of coding and non-coding variants to WGSbased heritability. a, This panel represents, across 34 phenotypes, the ratio of proportion of phenotypic variance explained by… 该图像是图表,展示了编码和非编码变异对全基因组序列(WGS)基础遗传率的相对贡献。图a呈现了34种表型中,编码变异与非编码变异所解释的表型方差比例。图b比较了常见变异与稀有编码变异的遗传率富集,标出误差条,标注了二元与定量分布的不同。相关性通过Pearson相关系数(R)和显著性P值呈现。

6.1.4. GWAS 分析概述

  • 关联数量: 在34种表型中,共检测到12,129个独立关联(P < 5×1095 \times 10^{-9}),包括11,243个常见变异关联 (CVA) 和886个稀有变异关联 (RVA)。

  • 稀有变异的 MAF 分布: 64%的 RVA 的 MAF > 0.1%,反映了检测更稀有变异能力的局限性。

  • 多效性 (Pleiotropy): 848个(约8%)全基因组显著变异与至少2种性状相关。最具有多效性的 CVA 是 SLC39A8 错义变异 rs13107325(MAF = 7.5%),与14种性状相关。最具有多效性的 RVA 是 ASGR1 内含子内的稀有 indel (rs754165241,MAF = 0.8%),与多达9种性状相关。

  • 效应大小: 经过赢家诅咒校正后,每个 RVA 平均解释0.027%的表型方差,略高于 CVAs 的0.023%。

  • 解释的遗传力比例: 平均而言,CVAs 和 RVAs 解释的表型方差分别占平均常见变异遗传力的31%和稀有变异遗传力的11%。

  • 脂质性状的富集: 18%的 RVA 与至少一种脂质相关性状(血脂异常、甘油三酯、LDL、HDL)相关,而脂质性状仅占34种分析性状的12%,表明脂质相关性状的稀有变异具有更大的效应大小。LDL 和 HDL 的 RVAs 合计解释了其稀有变异遗传力的一半以上(LDL 约34%,HDL 约29%),并在 AGD 独立队列中得到验证。

    下图(原文 Fig. 3)展示了 WGS 基础 GWAS 信号解释的表型变异百分比:

    Fig. 3 | Characterization of variance explained by trait-associated variants detected in WGS-based GWAS. a, Proportion of WGS-based heritability explained by trait-associated variants. Left bars comp… 该图像是图表,展示了WGS基础GWAS信号解释的表型变异百分比。左侧显示了由稀有变异(RVA)解释的遗传力比例,右侧则为由常见变异(CVA)解释的比例。b部分呈现稀有变异与最近常见变异的距离与变异解释的分布关系,c部分则展示了不同窗口大小下CVA的平均密度。图中包括p值等统计信息。

6.1.5. 稀有变异关联的基因组分布

  • 距离最近 CVA 的预测能力: DCCVA(RVA 到最近 CVA 的距离)是唯一显著(P < 0.05)预测单 SNP 解释方差的注释(R2=0.007R^2 = 0.007)。其他注释(如 PrimateAI3D)也预测了效应量的大小。
  • RVA-CVA 共定位: RVA 显著富集在 CVA 附近,中位 DCCVA 为27 kb。碱性磷酸酶(ALK)表现出最强的共定位(中位 DCCVA 为5 kb),C-反应蛋白水平表现出最弱的共定位(中位 DCCVA 为1.7 Mb)。平均而言,每个 RVA 的100 kb 窗口内有1.8个 CVA。
  • 高密度区域: 具有高 CVA 密度的基因组区域也倾向于具有高 RVA 密度。
  • 与结构变异的关联: RVAs 密度高的基因座(100 kb 内有至少2个 RVA)与结构变异共定位的概率增加1.8倍,而 CVAs 密度高的基因座(100 kb 内有至少2个 CVA)与结构变异共定位的概率增加1.4倍。

6.1.6. WGS 与填充 GWAS 的比较

  • 关联数量增加: 相比于填充数据(HRC + UK10K 或 TOPMed),WGS 在所有 MAF 组中都检测到更多的独立关联。
  • 零密度关联: 即使在1000 kb 窗口内,填充 GWAS 仍会错过大量 WGS 发现的关联,包括常见变异和稀有变异,尤其是在稀有变异中更为明显。例如,一个与腰臀比(WHR)相关的常见内含子剪接变异(MAF = 45%)和一个与端粒长度(TELO)相关的 TINF2 下游致病性稀有 SNP(MAF = 0.8%)在 WGS GWAS 中显著,但在填充 GWAS 中缺失。
  • 精细定位分辨率: WGS 数据在精细定位分辨率上优于填充数据,特别是在稀有变异基因座上,能够更精确地识别因果变异。

6.2. 消融实验/参数分析

论文通过敏感性分析(Extended Data Fig. 1)评估了不同协变量调整对 WGS 基础遗传力估计的影响:

  • 协变量集: 比较了基础协变量(性别、出生年份、评估中心、禁食时间、评估月份、药物使用)的不同组合以及基因型主成分 (PCs) 和 k-means 出生地聚类作为固定效应的影响。
  • 结果:
    • 对于大多数性状,遗传力估计对协变量调整是稳健的,即调整前后的估计值差异不大。

    • 教育程度 (EA)流体智力分数 (FI) 是显著受影响的例外。在未充分调整地理结构时,这些性状的遗传力估计值显著膨胀。例如,使用100个 k-means 出生地聚类进行调整后,这些性状的遗传力估计值明显下降,更符合预期。这强调了在分析行为性状时,精确捕获细尺度地理结构(例如通过出生地聚类)作为协变量的重要性,以避免群体分层 (population stratification) 的混淆。

      下图(原文 Extended Data Fig. 1)展示了协变量调整对 WGS 基础遗传力估计的影响:

      该图像是一个示意图,展示了不同协变量调整对34种复杂性状及疾病遗传力估计的影响。X轴表示不同的调整方式,Y轴为\(h^{2}_{WGS} - h^{2}_{ped}\),不同颜色的线条代表不同性状,显示在不同协变量调整下遗传力的变化趋势。 该图像是一个示意图,展示了不同协变量调整对34种复杂性状及疾病遗传力估计的影响。X轴表示不同的调整方式,Y轴为hWGS2hped2h^{2}_{WGS} - h^{2}_{ped},不同颜色的线条代表不同性状,显示在不同协变量调整下遗传力的变化趋势。

下图(原文 Extended Data Fig. 2)展示了选型交配对遗传力估计的影响:

该图像是一个图表,展示了不同遗传方法对复杂性状(HT和EA)遗传率估计的比较。图中显示了各方法的估计值及其误差条,标示了与传统量谱估计的对应关系。 该图像是一个图表,展示了不同遗传方法对复杂性状(HT和EA)遗传率估计的比较。图中显示了各方法的估计值及其误差条,标示了与传统量谱估计的对应关系。

下图(原文 Extended Data Fig. 3)展示了34种具有显著 WGS 基础遗传力的表型之间,配对性状的表型和遗传相关性:

该图像是多个相关图表,展示了不同复杂性状和疾病遗传相关性的估计。图 a 和 b 显示了40种性状之间的相关矩阵,图 c 展示了使用GREML估计的常见突变的遗传相关性与LDSC估计值之间的关系,相关性为 \(R=0.99\),\(p<2.2e-16\)。图 d 则呈现了稀有突变与常见突变之间的遗传相关性比较。 该图像是多个相关图表,展示了不同复杂性状和疾病遗传相关性的估计。图 a 和 b 显示了40种性状之间的相关矩阵,图 c 展示了使用GREML估计的常见突变的遗传相关性与LDSC估计值之间的关系,相关性为 R=0.99R=0.99p<2.2e16p<2.2e-16。图 d 则呈现了稀有突变与常见突变之间的遗传相关性比较。

下图(原文 Extended Data Fig. 4)展示了34种表型中12,129个性状关联变异的估计效应大小与等位基因频率之间的关系:

该图像是散点图,展示了罕见变异对不同复杂性状和疾病的影响。左侧列出二分类性状,右侧为定量性状,横轴为次要等位基因频率(MAF),纵轴为遗传变异效应(β_GWAS)。红色点表示可能发生影响的变异,灰色点为其他变异。图中显示多个与脂质相关的基因及其在研究中的作用。横轴上的半对数坐标及不同基因的标注增强了可读性与信息传递。 该图像是散点图,展示了罕见变异对不同复杂性状和疾病的影响。左侧列出二分类性状,右侧为定量性状,横轴为次要等位基因频率(MAF),纵轴为遗传变异效应(β_GWAS)。红色点表示可能发生影响的变异,灰色点为其他变异。图中显示多个与脂质相关的基因及其在研究中的作用。横轴上的半对数坐标及不同基因的标注增强了可读性与信息传递。

下图(原文 Extended Data Fig. 5)展示了 WGS 基础和填充 GWAS 之间的比较:

该图像是包含多个图表和示意图的复合图,展示了不同来源的遗传变异对复杂性状的影响,包括与MAF相关的关联性分析及特定位点的结果。图中展示了WHR和TELO的p值分布以及不同面板的比较,highlight了重要的遗传变异信息。 该图像是包含多个图表和示意图的复合图,展示了不同来源的遗传变异对复杂性状的影响,包括与MAF相关的关联性分析及特定位点的结果。图中展示了WHR和TELO的p值分布以及不同面板的比较,highlight了重要的遗传变异信息。

下图(原文 Extended Data Fig. 6)展示了使用 WGS 和填充变异识别的 GWAS 基因座的精细定位分辨率比较:

该图像是包含多张图表的研究结果展示,图表分析了不同数据集(HRC-UK10K 和 TOPMed)的遗传变异分布情况,展示了稀有和常见变异对人类表型的贡献。图(c)和(d)分别显示了不同变异数量与大小的比例分布,强调了基因组序列对复杂性状的影响。 该图像是包含多张图表的研究结果展示,图表分析了不同数据集(HRC-UK10K 和 TOPMed)的遗传变异分布情况,展示了稀有和常见变异对人类表型的贡献。图(c)和(d)分别显示了不同变异数量与大小的比例分布,强调了基因组序列对复杂性状的影响。

下图(原文 Extended Data Fig. 7)展示了基因组注释与稀有变异关联等位基因效应大小之间的关联:

该图像是一个示意图,展示了不同基因组注释对表型表观遗传和改进 R² 的贡献。图中比较了40种基因组注释,包括 AlphaMissense、REVEL、SIFT 等,显示出 DCC-VA 在所有注释中具有最高的增量 R² 值。和显著 P 值的关系以 -log10(P) 形式呈现,并以红虚线标示显著性阈值。 该图像是一个示意图,展示了不同基因组注释对表型表观遗传和改进 R² 的贡献。图中比较了40种基因组注释,包括 AlphaMissense、REVEL、SIFT 等,显示出 DCC-VA 在所有注释中具有最高的增量 R² 值。和显著 P 值的关系以 -log10(P) 形式呈现,并以红虚线标示显著性阈值。

下图(原文 Extended Data Fig. 8)展示了性状关联变异的基因组密度:

该图像是一个示意图,展示了不同遗传变异(CVA 和 RVA)在特定性状中的平均密度关系。在图 a 中,横纵坐标分别表示CVA和RVA的均值密度,括号中的数值代表相关系数和 p 值。图 b 则展示了不同染色体上的关联密度。 该图像是一个示意图,展示了不同遗传变异(CVA 和 RVA)在特定性状中的平均密度关系。在图 a 中,横纵坐标分别表示CVA和RVA的均值密度,括号中的数值代表相关系数和 p 值。图 b 则展示了不同染色体上的关联密度。

下图(原文 Extended Data Fig. 9)展示了身高遗传力相对于身高关联基因座的基因组分布:

该图像是一个柱状图,展示了与身高相关的位点内外在不同小等位基因频率范围下的遗传估计值。蓝色代表位点内,红色代表位点外,标注了每个频率范围下的具体遗传估计值。 该图像是一个柱状图,展示了与身高相关的位点内外在不同小等位基因频率范围下的遗传估计值。蓝色代表位点内,红色代表位点外,标注了每个频率范围下的具体遗传估计值。

该图像是图表,展示了与身高相关的位点距离与效应大小的关系。不同颜色的点代表了不同距离(<35kb、35kb-50kb等)所对应的样本量,并显示了效应大小在身高标准差中的变化趋势。 该图像是图表,展示了与身高相关的位点距离与效应大小的关系。不同颜色的点代表了不同距离(<35kb、35kb-50kb等)所对应的样本量,并显示了效应大小在身高标准差中的变化趋势。

7. 总结与思考

7.1. 结论总结

本研究利用英国生物样本库 (UK Biobank) 大规模的347,630名欧洲血统个体的全基因组测序 (WGS) 数据,对34种复杂性状和疾病的遗传力进行了迄今为止最精确的量化,特别关注了稀有变异 (rare variants) 的贡献。

核心发现包括:

  1. 高精度稀有变异遗传力: 首次提供了高精度的稀有变异遗传力估计,对于23种定量性状,标准误差低于1%。
  2. 大幅度解释“缺失遗传力”: 平均而言,WGS 数据捕获了大约88%的谱系基础狭义遗传力 (pedigree-based narrow sense heritability)。其中,稀有变异贡献了20%,常见变异贡献了68%。
  3. 部分性状的遗传力已完全解释: 研究识别出至少15种定量性状,其 WGS 基础遗传力估计值与谱系基础估计值之间没有显著差异,表明这些性状的狭义遗传力可能已完全由 WGS 数据解释,显著减少了“缺失遗传力”的困境。
  4. 编码与非编码变异的贡献: 稀有变异 WGS 基础遗传力中,编码变异贡献了21%,非编码变异贡献了79%。编码区变异对遗传力有不成比例的贡献,但其富集倍数在常见变异中(36倍)高于稀有变异(26倍)。
  5. 稀有变异关联的可映射性: 识别了886个稀有变异关联 (RVA),并发现脂质相关性状(如 LDL 和 HDL 胆固醇)的稀有变异遗传力有超过25%可映射到特定基因座,这证明了大规模 WGS GWAS 在发现稀有效应变异方面的潜力。
  6. RVA 与 CVA 的共定位: 稀有变异关联倾向于与常见变异关联 (CVA) 共定位,且距离 CVA 越近的 RVA 倾向于解释更多的表型方差。

7.2. 局限性与未来工作

本研究虽然取得了重大进展,但也存在一些局限性,作者也提出了未来的研究方向:

  • 欧洲血统限制: 分析主要限于欧洲血统个体,因为 UKB 中其他血统群体的样本量有限,尤其是在研究稀有变异时。未来迫切需要针对其他血统群体进行遗传力研究,以校准多基因预测器 (polygenic predictors) 并完善遗传结构理解。
  • MAF 阈值限制: 主要分析集中在次要等位基因频率 (MAF) 大于0.01%的变异。虽然次要分析包含了超稀有变异 (MAF < 0.01%),但这些变异对大多数性状的总 WGS 基础遗传力贡献相对较小(平均约 ±6%\pm 6\% 的变化)。对于儿童数量,超稀有变异贡献显著增加,使其 WGS 基础遗传力与谱系基础估计值不再有统计学差异。然而,超稀有变异的 SNP 基础遗传力估计偏差尚不完全清楚,需要进一步研究。
  • 疾病性状的精度不足: 对于研究中分析的大多数常见疾病,稀有变异遗传力估计值与零没有显著差异。这反映了使用基于人群(非特定疾病)的生物样本库数据估算疾病遗传力的精度不足。未来的研究可以通过采用病例-对照设计、更大的实验样本量和更广泛的性状集来改进。
  • 性染色体贡献未明确: 研究主要关注常染色体变异,性染色体的贡献尚不清楚。尽管现有研究表明常见 X 染色体变异的贡献较小(不到3%的常染色体 SNP 基础遗传力),但仍需进一步探究。
  • 基因组构建版本限制: 研究使用了 hg38 参考基因组构建,该版本比最新的端粒到端粒 (T2T) 基因组构建缺少约8%的 DNA 序列。尽管初步分析表明 hg38 之外的常见变异对常见变异遗传力贡献较小(平均增加4.7%),但直接量化 hg38 中缺失的遗传变异贡献需要对整个 UKB 进行重新测序,这目前尚不可行。
  • 健康志愿者偏差: 疾病的谱系基础遗传力估计是基于 UKB 的患病率,由于 UKB 参与者的“健康志愿者偏差”,这些估计值可能被低估。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文的发布标志着复杂性状遗传学领域的一个重要里程碑,尤其是在解决长期存在的“缺失遗传力”问题上取得了显著进展。

  • WGS 数据的强大潜力: 论文有力地证明了大规模 WGS 数据在全面解析人类遗传结构方面的无与伦比的优势。随着测序成本的降低和大型生物样本库 WGS 数据的积累,我们将能够以前所未有的精度量化遗传力,并识别更多效应量较小的遗传变异。
  • 稀有非编码变异的重要性: 明确量化了稀有非编码变异对遗传力的显著贡献(占稀有变异遗传力的79%),这揭示了调控区域和基因组“暗物质”在复杂性状中的关键作用。这为未来的功能基因组学研究指明了方向,即需要更深入地探索非编码区域的致病机制。
  • GWAS 发现的边界扩展: 即使是稀有变异,其在大规模 WGS GWAS 中也具有可发现性,特别是在脂质性状中,相当一部分稀有变异遗传力已可映射到特定基因座。这提升了我们对通过 GWAS 彻底理解复杂性状的信心。
  • 多基因评分的未来: 论文指出,结合稀有变异的未来多基因评分 (polygenic scores) 可能会将预测能力提高高达20%。这将对疾病风险预测、药物靶点识别和精准医疗产生深远影响。
  • 共定位模式的价值: RVA 和 CVA 之间显著的共定位模式提供了一个重要的研究策略。在已知 CVA 的区域进行稀有变异的负担测试 (burden test) 分析,可能会提高稀有(和超稀有)非编码变异的发现效率。

7.3.2. 批判与潜在改进

尽管研究成果显著,但仍有一些方面值得思考和改进:

  • 超稀有变异的统计挑战: 论文在次要分析中纳入了超稀有变异 (MAF < 0.01%),但指出其遗传力估计存在显著的负值,这通常表明模型错误设定。这提醒我们,对于极低频率的变异,现有的统计模型和假设可能不再完全适用。未来需要开发更稳健的统计方法,以可靠地分析超稀有变异的贡献,这对于完全解释遗传力至关重要。

  • 非加性效应的进一步探索: 虽然研究在谱系基础遗传力估计中尝试模型化非加性效应,但其与共享环境效应的区分仍然具有挑战性。未来的研究可以结合更复杂的家系设计(如双生子或多代家系)和更精细的环境测量,以更清晰地解耦这些因素。

  • 结构变异的全面评估: 论文提及结构变异可能解释部分“仍然缺失的遗传力”。虽然研究讨论了变异密度与结构变异的关联,但 WGS 短读长技术对复杂结构变异的捕获能力有限。引入长读长测序 (long-read sequencing) 数据,将有助于更全面地评估结构变异对遗传力的贡献。

  • 多血统研究的必要性: 研究的欧洲血统限制是一个普遍问题。不同血统群体的连锁不平衡模式和等位基因频率存在差异,可能导致遗传结构和多基因评分预测性能的不同。开展大规模、多血统的 WGS 研究是未来基因组学研究的重点,以确保遗传学发现的公平性和普适性。

  • 因果机制的深挖: 尽管识别了大量关联变异并量化了其遗传力贡献,但这些变异具体如何影响性状的分子生物学机制仍需深入研究。整合单细胞组学、功能基因组学(如 CRISPR 编辑)和生物信息学预测工具,将有助于从关联走向因果,从而推动药物开发和临床干预。

  • 数据共享与伦理: 论文使用了大规模敏感的个体数据。尽管 UKB 有严格的访问流程,但随着数据规模的增大和分析能力的增强,数据隐私、伦理和公平性问题将更加突出。未来的研究需要不断审视和完善数据治理框架。

    总而言之,本研究极大地推进了我们对人类复杂性状遗传结构的理解,为未来的基因组学研究和精准医疗实践奠定了坚实基础。但同时,它也明确指出了该领域仍面临的挑战,如超稀有变异的处理、非加性效应的解耦以及多血统研究的拓展,这些都将是未来研究的重点。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。