AiPaper
论文状态:已完成

A genome-to-proteome map reveals how natural variants drive proteome diversity and shape fitness

发表:2025/10/09
原文链接
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究首次绘制出自然、核苷酸分辨率的基因组到蛋白质组图谱,揭示了自然遗传变异如何显著驱动蛋白质组的多样性和适应性。研究通过分析不同酵母菌株的减数分裂后代,展示了微小变异与复杂选择机制的相互作用,强调了高分辨率图谱在基因型-表型研究中的重要性。

摘要

Understanding the genotype-phenotype relationship remains a central challenge in genetics, especially regarding the effects of natural genetic variants. This study charts a nucleotide-resolution genome-to-proteome map by analyzing meiotic progeny from two distinct yeast strains. Results show that modest natural genetic variation leads to significant proteomic changes, with a complex interplay of directional and stabilizing selection enhancing adaptation and predicting genetic variant consequences, highlighting the utility of high-resolution mapping in understanding genetic mechanisms.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

A genome-to-proteome map reveals how natural variants drive proteome diversity and shape fitness 中文翻译:基因组到蛋白质组图谱揭示了自然变异如何驱动蛋白质组多样性并塑造适应性

1.2. 作者

Christopher M. Jakobson, Johannes Hart, Pauline Trébulle, Michael Mülleder, Daniel F. Jarosz, Markus Ralser 等。 作者们来自多个机构,包括斯坦福大学 (Stanford University) 和德国柏林夏里特大学医学中心 (Charité Universitätsmedizin Berlin) 等。

1.3. 发表期刊/会议

论文的发布时间为 2025 年 10 月 9 日。根据其学术论文的格式和内容,以及引用列表中的 Science 期刊引用格式,推测该论文发表于 Science 期刊。Science 是世界顶级的综合性科学期刊之一,在自然科学领域享有极高的声誉和影响力。

1.4. 发表年份

2025年

1.5. 摘要

本研究旨在解决基因型-表型关系这一遗传学核心挑战,特别是自然遗传变异的影响。通过分析两种不同酵母菌株的减数分裂后代 (meiotic progeny),研究人员绘制了一幅核苷酸分辨率的基因组到蛋白质组图谱。结果表明,即使是微小的自然遗传变异也能导致显著的蛋白质组变化,其中方向选择 (directional selection) 和稳定选择 (stabilizing selection) 的复杂相互作用增强了适应性 (adaptation),并预测了遗传变异的后果。这突显了高分辨率图谱在理解遗传机制方面的实用性。

1.6. 原文链接

/files/papers/69159f784d6b2ff314a02e2f/paper.pdf 发布状态:已正式发表 (Published at UTC: 2025-10-09T00:00:00.000Z)

2. 整体概括

2.1. 研究背景与动机

基因型-表型 (genotype-phenotype) 关系是遗传学领域的核心挑战,对进化、健康和疾病都具有重要意义。尽管全基因组关联研究 (Genome-Wide Association Studies, GWAS) 已经发现了许多 DNA 与表型之间的联系,但这些联系的分子基础往往难以捉摸。即使在经过深入研究的基因和通路中,许多自然遗传变异 (natural genetic variants) 的具体效应仍然不确定。

本研究的动机在于:蛋白质是基因组的主要功能产物,因此将遗传变化与其对蛋白质组 (proteome) 和细胞生理学 (cell physiology) 的影响联系起来,可以阐明基因型-表型关系。现有研究在酵母中已尝试绘制遗传变异与蛋白质水平的图谱,但常受限于检测蛋白数量、菌株数量或无法将关联定位到单个因果多态性 (causal polymorphisms) 等问题。

2.2. 核心贡献/主要发现

本研究的核心贡献是首次绘制出了一张自然、核苷酸分辨率 (nucleotide-resolution) 的基因组到蛋白质组图谱,并在酵母中揭示了自然变异驱动蛋白质组多样性和塑造适应性的机制。

主要发现包括:

  • 高分辨率图谱:通过对两种酵母菌株的 851 个减数分裂后代进行高通量蛋白质组学 (high-throughput proteomics) 和超分辨率遗传作图 (super-resolution genetic mapping),识别了超过 6400 个基因型-蛋白质关联 (genotype-protein associations),其中超过 1600 个效应被定位到单个多态性 (polymorphism)。
  • 蛋白质组多样性与适应性:即使是亲本酵母菌株间微小的遗传差异也导致了广泛而功能连贯的蛋白质组变化。蛋白质水平在后代中经常超越亲本水平(transgression),表明减数分裂 (meiosis) 通过潜在基因组变异 (latent genome variation) 创造了蛋白质组多样性。Ras-cAMP 依赖性蛋白激酶 (PKA) 通路等核心信号网络中多个变异的聚合效应,突显了多基因适应 (polygenic adaptation) 驱动快速分化的能力。
  • 转调控效应 (trans-regulatory effects) 的机制:发现了强大的转调控效应,这些效应通常源于代谢物 (metabolism) 和其他传统上不与基因调控相关的因子,为转调控变异遍布整个基因组的长期观察提供了机制见解。编码变异 (coding variants) 在转效应中起主导作用,这可能归因于它们影响蛋白质丰度和功能的双重能力。
  • 预测能力:所绘制的基因组到蛋白质组图谱在标准条件下具有持久性,并能预测遗传变异在各种扰动 (diverse perturbations) 下的影响。蛋白质组分析 (proteomic profiling) 反映了一个潜在的分子空间 (latent molecular space),它能广泛预测生物体的后果,即使这些效应仅在新的压力下才显现。
  • 揭示隐藏的因果变异:分子图谱能够揭示传统表型作图可能掩盖的隐藏适应性效应,例如 IRA2 热点处的 Ira2Asn201Ser 变异。

3. 预备知识与相关工作

3.1. 基础概念

  • 基因型-表型关系 (Genotype-Phenotype Relationship):指生物体的遗传构成(基因型)与其可观察到的性状(表型)之间的联系和作用机制。理解这种关系是遗传学和生物学中的核心问题。
  • 自然遗传变异 (Natural Genetic Variants):指在自然种群中存在的 DNA 序列差异,这些差异可以是单核苷酸多态性 (SNP)、插入、缺失等。它们是生物多样性的基础,也是自然选择的原材料。
  • 蛋白质组 (Proteome):指在特定时间点、特定条件下,一个细胞、组织或生物体内表达的所有蛋白质的集合。蛋白质是基因组功能的主要执行者。
  • 减数分裂后代 (Meiotic Progeny):通过减数分裂产生的子代细胞或个体。在本研究中,是指两个酵母亲本杂交后,通过减数分裂产生的单倍体酵母菌株,它们包含了亲本基因组的重组和随机组合。
  • 核苷酸分辨率 (Nucleotide-Resolution):指对 DNA 或 RNA 序列的分析能够达到单个核苷酸的精确度。在本研究中,意味着能够将基因型-蛋白质关联定位到单个多态性。
  • 全基因组关联研究 (Genome-Wide Association Studies, GWAS):一种通过扫描大量个体基因组中常见的遗传变异(如 SNP),以寻找与特定疾病或性状相关的变异的方法。
  • 蛋白质组学 (Proteomics):利用高通量技术(如质谱)系统研究蛋白质组的学科,包括蛋白质的识别、定量、修饰和相互作用。
  • 超分辨率遗传作图 (Super-resolution Genetic Mapping):一种能够以高精度定位基因组区域与性状之间关联的技术,通常通过分析大量重组事件来实现对因果变异的精细定位。
  • cis-调控 (cis-regulation) 与 trans-调控 (trans-regulation)
    • cis-调控:指调控元件(如启动子、增强子)与被调控基因位于同一 DNA 分子上,且通常物理距离较近。
    • trans-调控:指调控元件(如转录因子编码基因)与被调控基因位于不同 DNA 分子(或同一 DNA 分子但距离很远)上。
  • 转录因子 (Transcription Factor, TF):一种蛋白质,通过结合 DNA 上的特定序列来调控基因的转录(即 DNA 到 mRNA 的合成)。
  • 蛋白质定量性状位点 (Protein Quantitative Trait Loci, pQTLs):基因组中影响蛋白质丰度变化的区域。
  • 蛋白质定量性状核苷酸 (Protein Quantitative Trait Nucleotide, pQTN):在 pQTL 区域内,被精细定位到的单个影响蛋白质丰度的核苷酸变异。
  • 适应性 (Adaptation):生物体在特定环境中生存和繁殖的能力,通常指通过自然选择在进化过程中形成的有利性状。
  • 方向选择 (Directional Selection):一种自然选择形式,偏好某种性状的一个极端表型,导致该性状在种群中朝着一个方向发生进化。
  • 稳定选择 (Stabilizing Selection):一种自然选择形式,偏好某种性状的中间表型,淘汰极端表型,导致该性状在种群中保持相对稳定。
  • 蛋白质易位 (Protein Transgression):指在杂交后代中,某个性状(如蛋白质丰度)的表达水平超出了两个亲本的范围(高于最高亲本或低于最低亲本)。这表明亲本基因组中的互补基因或等位基因组合可以产生更极端的表型。

3.2. 前人工作

  • 基因型-表型关联研究:长期以来,全基因组关联研究 (GWAS) 已识别出许多 DNA 与表型之间的关联,但其分子机制往往不明确。
  • 分子表型作图:许多大规模研究致力于将遗传变异与分子表型 (molecular phenotypes) 关联起来,如 mRNA 水平 (eQTLs, expression quantitative trait loci) 或剪接模式。然而,蛋白质作为功能的主要执行者,直接将变异映射到蛋白质水平 (pQTLs) 具有更高价值。
  • 蛋白质组学作图:早期的开创性实验已证实直接将遗传变异映射到蛋白质水平的可能性。但在人类研究中,主要障碍包括:
    • 对血浆蛋白质组 (plasma proteome) 的关注仅间接代表细胞内调控。
    • 人群中稀有变异 (rare polymorphisms) 过多,导致遗传关联对血浆蛋白质水平变异的解释能力有限(例如,仅 2.7%)。
  • 模式生物研究:在单细胞生物(如酿酒酵母 Saccharomyces cerevisiae)中,可以更直接地建立遗传变异与蛋白质组的联系。酵母研究结合了小基因组、可控的减数分裂和交配,已被用于将遗传变异与 mRNA 和蛋白质表达水平的变化关联起来,并研究模型转录本和蛋白质的调控。
  • 现有酵母 pQTL 研究的局限
    • 研究的蛋白质或菌株数量通常较少(例如,约 100 个后代)。
    • 即使是大规模野生菌株集合也难以将连锁的基因组区域解析到单个因果多态性。

3.3. 技术演进

该领域的技术演进主要体现在:

  • 高通量测序 (High-throughput sequencing):使全基因组测序和基因分型变得经济高效,为识别遗传变异提供了基础。
  • 高精度质谱蛋白质组学 (High-precision mass spectrometry proteomics):特别是扫描 SWATH (Sequential Window Acquisition of all Theoretical fragments) 等技术,使得在足够规模的细胞中精确测量蛋白质水平成为可能,克服了过去蛋白质定量上的挑战。
  • 高级遗传作图策略:通过杂交近缘菌株的后代,可以打破相邻变异之间的连锁 (linkage disequilibrium),从而将遗传关联精细映射到单个核苷酸变异。这在以往的研究中是难以实现的。
  • 生物信息学和计算方法:用于处理大规模蛋白质组学数据、遗传作图分析、基因型-表型关联分析,以及蛋白质结构预测(如 AlphaFold2)等。

3.4. 差异化分析

本研究与先前工作的核心区别和创新点在于:

  • 核苷酸分辨率:通过结合高通量蛋白质组学和精细的遗传作图,本研究实现了将大量基因型-蛋白质关联定位到单个核苷酸多态性,这是以往酵母 pQTL 研究中少有的高分辨率。
  • 大规模后代群体:使用了 851 个 F6 代酵母后代,远超许多早期研究的规模(通常约 100 个后代),显著提高了检测关联的统计效力。
  • 聚焦自然变异:研究对象是两种自然酵母菌株(酿酒厂和临床分离株)的后代,而非实验室诱变的变异,这使得研究结果对理解自然种群中的遗传多样性和适应性更具生态学相关性。
  • 整合多维度分析:不仅识别了 pQTLs,还深入分析了它们的 cis/trans 作用模式、编码/非编码性质、在核心信号通路中的作用、与选择压力的关系,以及预测表型后果的能力。
  • 揭示隐藏因果性:发现了在表型作图中可能被掩盖的、但对蛋白质组有显著影响的变异,突出了蛋白质组学作图的独特价值。

4. 方法论

本研究旨在通过高通量蛋白质组学和核苷酸分辨率遗传作图,绘制酵母的基因组到蛋白质组图谱。

4.1. 方法原理

该方法的核心思想是利用大规模、高精度的蛋白质组学数据与精细基因型数据相结合,识别影响蛋白质丰度的遗传变异。通过对两种亲本酵母菌株的减数分裂 F6 后代进行分析,可以打破遗传连锁,从而将基因型-蛋白质关联精确定位到单个核苷酸变异。这种高分辨率的图谱能够揭示 cistrans 调控机制,并预测这些变异对细胞生理和适应性的影响。

4.2. 核心方法详解

4.2.1. 酵母菌株和分离株库 (Yeast Strains and Segregant Library)

  • 亲本菌株 (Parental Strains):使用两种具有显著表型分化但遗传距离适中(约 0.1% 差异)的酵母菌株进行杂交:
    • RM11 (RM):来自加利福尼亚州的一个葡萄园。
    • YJM975 (YJM):来自意大利一名免疫功能受损患者的黏膜。
  • F6 单倍体作图群体 (F6 Haploid Mapping Panel):通过上述两种亲本的杂交,产生了约 1000 个 F6 后代。为了避免营养缺陷型标记在蛋白质组学实验中产生混淆效应,最终选择了约 850 个仅对尿嘧啶 (uracil) 营养缺陷的菌株进行分析。
  • 参考菌株 (Reference Strains):每个 96 孔板中包含至少三个 RM11 和 YJM975 单倍体亲本的生物学重复 (biological replicates),以及 22 种来自 Saccharomyces Genome Resequencing Project (SGRP) 集合的代表性野生分离株,作为蛋白质组多样性的基准。
  • 随机分配 (Randomization):菌株被随机分配到不同的板和位置,以减少批次效应 (batch effects)。

4.2.2. 培养条件和样品制备 (Media and Culture Conditions & Proteomics Sample Preparation)

  • 培养基 (Medium):除非另有说明,酵母在含有尿嘧啶的最小葡萄糖培养基 (minimal glucose medium) 中培养。
  • 培养流程 (Culture Protocol)
    1. 从 12x96 孔冷冻储备液中,将样品点种到 Singer PlusPlates 上,含 40 mL 琼脂最小培养基,30°C 培养 48 小时。
    2. 细胞转移到 96 孔板,含 200 µL 最小培养基,孵育 16 小时作为预培养。
    3. 160 µL 预培养液转移到 96 深孔板,含 1440 µL 最小培养基和硼硅酸盐珠,用透气膜密封,30°C 摇床孵育 8 小时。
    4. 通过离心收集细胞沉淀,冷冻保存。
    5. 测量光密度 (OD600) 以评估生长情况。
  • 蛋白质组学样品制备 (Proteomics Sample Preparation)
    1. 解冻细胞沉淀,加入玻璃珠和 7M 尿素 (urea) 与 0.1M 碳酸氢铵 (ABC)。
    2. 使用 Genogrinder 进行珠磨裂解 (bead milling lysis)。
    3. 通过机械臂 (Biomek i7 pipetting robot) 进行自动化处理:加入二硫苏糖醇 (DTT) 还原,然后加入碘乙酰胺 (IAA) 烷基化。
    4. 用 0.1M ABC 稀释样品,加入胰蛋白酶/LysC (trypsin/LysC) 进行酶切过夜。
    5. 通过固相萃取 (solid-phase extraction) 纯化肽段,并在真空浓缩器中干燥。
    6. 用 0.1% 甲酸 (formic acid) 复溶肽段,准备进行质谱分析。

4.2.3. 液相色谱-质谱分析 (Liquid Chromatography-Mass Spectrometry, LC-MS)

  • 仪器平台 (Instrumentation)
    • 主研究:Agilent Infinity II HPLC (高效液相色谱) 与 SCIEX 6600 TripleTOF 平台结合,使用扫描 SWATH (Sequential Window Acquisition of all Theoretical fragments) 技术。
    • 验证实验:SCIEX ZenoTOF 7600 系统质谱仪结合 1290 Infinity II LC。
    • 跨环境蛋白质组学:Bruker timsTOF HT 质谱仪结合 1290 Infinity II LC 系统,使用 diaPASEF MS 采集。
  • 色谱分离 (Chromatographic Separation):肽段在反相 HPLC 柱上进行梯度洗脱分离,使用 0.1% 甲酸水溶液(溶剂 A)和 0.1% 甲酸乙腈溶液(溶剂 B)。
  • SWATH 采集 (SWATH Acquisition):一种数据非依赖性采集 (Data-Independent Acquisition, DIA) 策略,通过在宽离子选择窗口内连续扫描所有离子,捕获几乎所有可检测肽段的碎裂谱。
    • 前体离子隔离窗口 (precursor isolation window):10 m/z。
    • Bin Size:窗口大小的 20%。
    • 循环时间 (Cycle Time):0.41 秒。
    • 前体离子范围 (Precursor Range):400-900 m/z。
    • 碎片离子范围 (Fragment Range):100-1500 m/z。

4.2.4. 蛋白质组定量和数据处理 (Proteome Quantification and Data Processing)

  • 数据处理软件 (Data Processing Software):使用 DIA-NN 软件 (version 1.8) 处理质谱数据。
  • 参数设置 (Parameters)
    • MS1 质量精度 (MS1 mass accuracy):1.2×1051.2 \times 10^{-5}
    • MS2 质量精度 (MS2 mass accuracy):2×1052 \times 10^{-5}
    • 扫描窗口半径 (Scan Window Radius):6。
  • 数据过滤 (Data Filtering):排除空白样品、生长不良样品 (Z-scored OD600 < -2.5)、非蛋白质特异性前体 (nonproteotypic precursors),以及 Global.Q.Value, Global.PG.Q.Value, Q.Value, 或 PG.Q.Value > 0.01 的条目。前体离子被过滤到在 >80% 样品中出现,且质量控制注射中变异系数 (CV) > 0.3 的被排除。
  • 批次校正 (Batch Correction):为解决板效应 (plate effects),每个前体离子在板内的中位数被调整到所有样品的大中位数 (grand median)。
  • 蛋白质定量 (Protein Quantification):使用 maxLFQ 算法对蛋白质组进行定量,共识别出 1225 种蛋白质。
    • maxLFQ 是一种基于最大似然估计的标签自由定量 (label-free quantification, LFQ) 算法,旨在通过整合多个肽段的强度信息,准确地定量蛋白质在不同样品间的相对丰度。它特别处理了缺失值和共用肽段,以提高定量精度。
  • 质量控制 (Quality Control):经过批次校正后,蛋白质组的中位技术变异系数约为 11.0%。

4.2.5. 遗传作图 (Genetic Mapping)

  • 性状标准化 (Trait Normalization)DIA-NNmaxLFQ 估计的蛋白质丰度被标准化为均值 0 和标准差 1。
  • 假基因型 (Pseudogenotype):将每个样品的收获光密度 (OD600) 作为“假基因型”附加到单倍体基因型矩阵中,以控制其对蛋白质丰度的潜在影响。
  • 作图方法 (Mapping Method)
    1. 粗作图 (Coarse Mapping):通过逐步选择 (stepwise selection) 进行 pQTL 的粗略定位。
    2. 精细作图 (Fine Mapping):对 pQTN 的精细作图通过方差分析 (ANOVA) 进行,方法与之前研究 (21) 类似。
      • 方差分析 (ANOVA) 是一种统计方法,用于比较两个或多个组的均值是否存在显著差异。在本研究中,它用于评估特定遗传变异(如单个核苷酸多态性)对蛋白质丰度(定量性状)的影响是否显著。通过分析不同基因型组间蛋白质丰度的方差,可以识别出与蛋白质丰度相关的因果变异。
    3. 假阳性发现率 (False Discovery Rate, FDR):通过对实际丰度数据进行 100 次置换 (permutations) 来估计每个蛋白质的 FDR。经验性 PP 值截止值 (empirical PP value cutoffs) 设置为达到约 10% 的 FDR。
  • 作图模式 (Mapping Modes)
    • 全局作图 (Global Mapping):对整个基因型矩阵进行分析。
    • 局部作图 (Local Mapping):仅考虑与目标蛋白质编码开放阅读框 (ORF) 相距 10 个标记 (markers) 以内的基因座。

4.2.6. CRISPR 基因组编辑 (CRISPR Genome Editing)

  • 方法 (Method):按照先前描述的方法进行 (34)。
  • 步骤 (Steps)
    1. 酵母转化 (Yeast Transformation):将适当的 CRISPEY 基因编辑质粒 (gene editing plasmids) 转化到酵母中。
    2. 诱导编辑 (Induction):在半乳糖 (galactose) 培养基中诱导基因编辑。
    3. 淬灭和选择 (Quenching and Selection):在 YPD 培养基中淬灭后,通过 5-FOA 选择,分离出不含编辑质粒的单克隆。
    4. 基因分型 (Genotyping):通过聚合酶链式反应 (PCR) 扩增相关基因座,然后进行桑格测序 (Sanger sequencing) 对候选编辑菌株进行基因分型。
  • 用途 (Purpose):用于验证特定变异(如 Mcr1Gly240SerIRA2Asn201Ser)对蛋白质水平和表型效应的因果关系。

4.2.7. 逆转录定量 PCR (Reverse-Transcription Quantitative PCR, RT-qPCR)

  • 目的 (Purpose):测量特定基因(如 SER2, NCP1, PFK1)的 mRNA 表达水平。
  • 流程 (Protocol)
    1. 培养细胞至特定光密度,离心收集。
    2. 使用 Qiagen RNEasy 试剂盒提取总 RNA。
    3. 使用 Agilent AffinityScript 逆转录试剂盒,以随机六聚体 (random hexamers) 为引物进行逆转录。
    4. 使用 BioRad CFX ConnectNEB Luna qPCR 试剂盒进行扩增。
    5. 基于目标转录本的 Cq 值相对于内参基因 PFK1 进行标准化,估算相对 mRNA 水平。

4.2.8. 突变模拟和蛋白质结构分析 (Mutation Simulations and Protein Structure Analysis)

  • 错义变异模拟 (Missense Variant Simulation):基于 S288C 参考基因组 R64,在体外 (in silico) 模拟所有可能的单核苷酸变化,并将其分类为错义 (missense) 或同义 (synonymous)、转换 (transitions) 或颠换 (transversions)。
  • 等位基因频率 (Allele Frequencies):根据 1002 Yeast Genomes 基因型矩阵确定现有变异的等位基因频率。
  • 蛋白质结构分析 (Protein Structure Analysis)
    1. AlphaFold2 检索所有 S. cerevisiae S288C 开放阅读框的预测蛋白质结构。
    2. 使用 DSSP (Define Secondary Structure of Proteins) 和自定义代码分析每个 ORF,计算相邻 alpha-碳原子的数量(即堆积密度 packing density)。
    3. 将这些结构参数标注到每个模拟的错义 SNP 上。
  • 工具介绍
    • AlphaFold2:一种基于深度学习的蛋白质结构预测工具,能够从氨基酸序列准确预测蛋白质的三维结构,为蛋白质功能和变异效应分析提供结构基础。
    • DSSP:一个用于定义蛋白质二级结构和计算溶剂可及表面积的算法和数据库。
    • FoldX:一种计算蛋白质稳定性变化的算法,用于预测错义变异对蛋白质稳定性的影响。
    • BLOSUM62:一个氨基酸替换矩阵,用于评估蛋白质序列中氨基酸替换的保守性,反映了氨基酸之间化学相似性和进化距离。

4.2.9. 表型作图 (Phenotypic Mapping)

  • 数据来源 (Data Source):重新分析了先前研究 (32) 中 RM11 x YJM975 杂交的约 15,000 个 F6 二倍体分离株在各种环境条件下的表型数据(未抑制 Hsp90 的对照组)。
  • 作图方法 (Mapping Method):与上述蛋白质作图类似,用于识别生长相关的 QTLs 和 QTNs。

5. 实验设置

5.1. 数据集

  • 核心数据集 (Core Dataset)Saccharomyces cerevisiae 的 851 个 F6 代单倍体分离株,来源于两个亲本菌株的杂交:
    • RM11:来自一个加利福尼亚的葡萄园。
    • YJM975:来自一名免疫功能受损患者的黏膜。
    • 特点:这些菌株在表型上差异显著,但基因组差异不大(约 0.1% 的分化),且连锁不平衡度极低,这使得高分辨率的遗传作图成为可能。
  • 蛋白质组多样性基准 (Proteome Diversity Benchmark):包含来自 Saccharomyces Genome Resequencing Project (SGRP) 集合的 22 种代表性野生分离株(每个菌株最多 6 个重复),用于评估蛋白质组多样性。
  • 表型作图数据集 (Phenotypic Mapping Dataset):重新分析了先前研究 (32) 中约 15,000 个 F6 二倍体分离株在 12 种不同环境条件下的生长表型数据。

5.2. 评估指标

本研究使用了多种统计指标和方法来评估蛋白质丰度、遗传关联的显著性以及变异的生物学效应。

  1. 变异系数 (Coefficient of Variation, CV)

    • 概念定义:衡量数据离散程度的指标,表示标准差相对于均值的百分比,常用于比较不同量纲或不同均值水平的数据的相对变异性。
    • 数学公式CV=σμCV = \frac{\sigma}{\mu}
    • 符号解释
      • CV:变异系数。
      • σ\sigma:样本数据的标准差 (standard deviation)。
      • μ\mu:样本数据的平均值 (mean)。
  2. PP 值 (PP-value)

    • 概念定义:在统计假设检验中,PP 值是当零假设(null hypothesis)为真时,观察到当前数据(或比当前数据更极端)的概率。通常,PP 值越小,拒绝零假设的证据越强。
    • 数学公式:根据所使用的统计检验(如 t 检验、ANOVA),PP 值的计算方式不同,但其含义一致。
    • 符号解释
      • PPPP 值。
  3. Benjamini-Hochberg 校正 qq 值 (Benjamini-Hochberg-corrected qq-value)

    • 概念定义qq 值是控制假阳性发现率 (False Discovery Rate, FDR) 的一种方法。当进行多重假设检验时,直接使用 PP 值会增加假阳性率。qq 值提供了在拒绝零假设时,该次拒绝是假阳性的概率估计。
    • 数学公式qi=min(qi+1,Pi×Ni) q_i = \min\left(q_{i+1}, \frac{P_i \times N}{i}\right)
    • 符号解释
      • qiq_i:第 ii 个(按 PP 值升序排列)假设的 qq 值。
      • PiP_i:第 ii 个假设的 PP 值。
      • NN:总假设检验的数量。
      • ii:当前假设在 PP 值升序排列中的秩。
      • 注意:公式通常是从最大的 PP 值开始,反向计算。
  4. 皮尔逊相关系数 (Pearson's Correlation Coefficient, rr)

    • 概念定义:衡量两个变量之间线性关系强度和方向的统计量。其值介于 -1 和 1 之间,1 表示完全正线性相关,-1 表示完全负线性相关,0 表示没有线性相关。
    • 数学公式r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2 r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 \sum_{i=1}^{n}(y_i - \bar{y})^2}}
    • 符号解释
      • rr:皮尔逊相关系数。
      • xi,yix_i, y_i:第 ii 个数据点的两个变量值。
      • xˉ,yˉ\bar{x}, \bar{y}:两个变量的平均值。
      • nn:数据点的数量。
  5. 假阳性发现率 (False Discovery Rate, FDR)

    • 概念定义:在多重假设检验中,FDR 是被错误拒绝的零假设(即假阳性)占所有被拒绝的零假设总数的期望比例。
    • 数学公式:通常通过 Benjamini-Hochberg 程序等方法进行控制,其计算方式同 qq 值。
    • 符号解释
      • FDR:假阳性发现率。
  6. 广义遗传力 (Broad-sense Heritability)

    • 概念定义:衡量在一个群体中,一个性状的总变异中由基因型差异(包括加性遗传效应、显性遗传效应和上位性效应)所解释的比例。
    • 数学公式H2=VGVP=VA+VD+VIVA+VD+VI+VE H^2 = \frac{V_G}{V_P} = \frac{V_A + V_D + V_I}{V_A + V_D + V_I + V_E}
    • 符号解释
      • H2H^2:广义遗传力。
      • VGV_G:基因型方差 (genotypic variance)。
      • VPV_P:表型总方差 (phenotypic variance)。
      • VAV_A:加性遗传方差 (additive genetic variance)。
      • VDV_D:显性遗传方差 (dominance genetic variance)。
      • VIV_I:上位性方差 (epistatic variance)。
      • VEV_E:环境方差 (environmental variance)。
  7. 效应大小 (Effect Size)

    • 概念定义:衡量处理效应或变量之间关系强度的标准化指标。在本研究中,通常表示为解释的方差比例,或两个组之间均值差异的标准差单位。
    • 数学公式:具体公式取决于上下文,例如,对于解释的方差,可能是 R2R^2 值。
      • 对于方差解释 (variance explained): R2=1SSresSStot R^2 = 1 - \frac{SS_{res}}{SS_{tot}} 其中,SSresSS_{res} 是残差平方和,SStotSS_{tot} 是总平方和。
    • 符号解释
      • R2R^2:决定系数,表示模型解释的因变量方差比例。
      • SSresSS_{res}:残差平方和。
      • SStotSS_{tot}:总平方和。
  8. 统计检验 (Statistical Tests)

    • t 检验 (t-test):用于比较两个样本均值是否存在显著差异。
    • 卡方检验 (Chi-squared test):用于分析分类变量之间是否存在关联。
    • Fisher 精确检验 (Fisher's exact test):用于分析小样本分类数据之间的关联,尤其在卡方检验不适用时。
    • Mann-Whitney U 检验 (Mann-Whitney U test):一种非参数检验,用于比较两个独立样本的分布是否存在显著差异。
    • Kolmogorov-Smirnov 检验 (Kolmogorov-Smirnov test):用于比较两个样本的经验累积分布函数是否存在显著差异,或者一个样本的经验累积分布函数与理论分布之间是否存在差异。
    • 二项式检验 (Binomial test):用于检验观察到的二项分布结果是否与预期的概率显著不同。

5.3. 对比基线

  • 亲本菌株 (Parental Strains):RM11 和 YJM975 的蛋白质组数据被用作 F6 后代蛋白质组多样性和基因型-表型关联的基线。F6 后代中蛋白质水平的 transgression 现象就是相对于亲本而言。
  • 野生分离株集合 (Wild Isolate Collection):来自 SGRP 的 22 种野生酵母分离株作为广泛自然多样性的代表,用于比较 F6 后代中蛋白质组变异的广度。
  • 转录组数据 (Transcriptome Data):在比较蛋白质水平调控与 mRNA 水平调控时,本文参考了酵母的 eQTL 作图研究,特别是 1002 Yeast Genomes 项目的转录组数据。
  • 基因和物理相互作用数据库 (Genetic and Physical Interaction Databases)BioGRIDComplexEBI 等数据库中的已知基因和蛋白质相互作用被用作验证 pQTLs 揭示的生理调控连接的基线。
  • 基因敲除株 (Gene Deletion Strains):参考了约 5000 个可存活的基因敲除株的蛋白质组数据,用于验证 pQTL 效应的保守性。
  • 计算预测工具 (Computational Prediction Tools)FoldXBLOSUM62 分数被用作预测变异对蛋白质稳定性或保守性影响的基线,以与实验观察到的效应进行比较。
  • 随机期望 (Random Expectation):在评估 pQTL 效应的连贯性或空间分布时,通常会与随机期望的结果进行比较,以确定观察到的模式是否具有统计学意义。
  • 其他环境条件下的表型作图 (Phenotypic Mapping in Other Environments):利用先前研究 (32) 的表型作图数据,将蛋白质组作图的结果与生长相关 QTLs 进行比较,以评估蛋白质组图谱预测表型后果的能力。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 蛋白质组的广泛多样性与遗传力 (Standing and latent variation in the proteome)

尽管两种亲本酵母(葡萄园菌株 RM 和临床菌株 YJM)的遗传距离适中(约 12,000 个变异),且在标准实验室条件下增殖相似,但它们的蛋白质组却高度分化。

  • 在 1225 种蛋白质中,有 826 种(67.4%)在丰度上存在差异(qq 值 < 0.05)。
  • YJM 菌株的氨基酸和嘌呤生物合成、糖异生蛋白质水平较高,而 RM 菌株的氧化磷酸化和三羧酸 (TCA) 循环相关蛋白质水平较高,这些差异在功能上是连贯的。
  • F6 后代中许多蛋白质水平超出了亲本的丰度范围(transgression),表明潜在基因组变异通过减数分裂创造了蛋白质组多样性。
  • 蛋白质丰度表现出高广义遗传力 (broad-sense heritability),中位数为 76.2%,且主要受技术变异性限制。
  • 710 种蛋白质在 F6 后代中表现出非随机分布,其中 286 种蛋白质在后代中变异性更大,表明亲本中存在稳定选择 (stabilizing selection);424 种蛋白质分布更窄,表明存在方向选择 (directional selection)。
  • 后代中最可变的蛋白质与广泛的野生酵母分离株中的可变蛋白质高度相关 (r=0.74r = 0.74),表明实验中释放的蛋白质组多样性代表了自然的变异。

6.1.2. 核苷酸分辨率的蛋白质组基因组图谱 (A nucleotide-resolution proteogenomic map)

研究识别了 6476 个变异-蛋白质关联 (pQTLs),控制着 923 种蛋白质(~10% 的 FDR)。

  • 其中,1650 个(25.5%)被精细定位到单个多态性 (pQTN),达到了极高的分辨率。

  • 例如,线粒体 NADH-细胞色素 b5 还原酶 Mcrl 的一个编码单核苷酸多态性 (SNP) (Mcr1Gly240Ser)(Mcr1Gly240Ser)cis 位点上与蛋白质水平降低相关。通过 CRISPR 基因组编辑和蛋白质组学分析证实,该多态性足以使 Mcrl 水平降低近 40%。

  • 图谱解释了中位数 30.4% 的广义遗传力,以及 22.8% 的总方差,这与酵母中 mRNA 丰度图谱相当。

  • 研究具有很高的统计效力,能够检测到中等效应(0.1 SD 效应的敏感性约 95%)的关联。

    以下是原文 Figure 1 的结果:

    Fig. 1. A variant-resolution genome-to-proteome map. (A) Schematic of the mass spectrometry— based proteomics and genetic mapping approach. Chr, chromosome; MS, mass spectrometry. (B) Representative… 该图像是图表,展示了基于质谱的蛋白质组学和遗传学的映射方法,包括不同蛋白质表达的火山图、遗传变异对蛋白质丰度的影响以及Mcr1的结构示意图。图中包含了 extMcr1extGly240Ser ext{Mcr1}^{ ext{Gly240Ser}} 变异的CRISPR重构和相应的实验数据。该研究提供了蛋白质丰度和遗传变异间复杂关系的详细视图。 图 1. 核苷酸分辨率的基因组到蛋白质组图谱。(A) 质谱蛋白质组学和遗传作图方法的示意图。Chr,染色体;MS,质谱。(B) 葡萄园 (RM) 分离株生物学重复之间的代表性重现性。Pearson's r 如所示;P 值通过 t 统计量计算。(C) 火山图,显示葡萄园 (RM) 和临床 (YJM) 亲本之间蛋白质丰度的 log2\\log_2 倍数变化(横坐标)和 Benjamini-Hochberg 校正的 t 检验 PP 值(纵坐标)。n = 36 至 39 个重复。(D) RM 亲本(蓝色)、YJM 亲本(橙色)、F6 后代(灰色)和 SGRP 野生菌株(绿色)中 Mcr1、Gap1、Rnr4 和 Erg11 的估计丰度。方框显示中位数和上下四分位数;须线显示 1.5 倍的四分位距。A.U.,任意单位。(E) 在至少 80% 样品中测量到的所有蛋白质的平均广义遗传力(纵坐标)与估计的绝对蛋白质丰度(横坐标)的关系。(F) SGRP 野生菌株之间的归一化 CV 与亲本分离株中的平均 CV(纵坐标)相比,作为 F6 后代之间归一化 CV(横坐标)的函数。Pearson's r 如所示;P 值通过 t 统计量计算。(G) Mcr1 中 cis 作用错义变异的示意图和预测的 AlphaFold2 蛋白质结构。(H) 控制 Mcr1 丰度的 cis 作用 SNP 的遗传作图。(I) CRISPR 重建和质谱验证 Mcr1Gly240Ser 变异的效应。n = 6;P 值通过 t 检验。(J) 本研究中发现的 pQTLs(蓝色),与酵母中高功率 eQTL 作图研究(粉色)中解释的总方差的比较。(K) 发现的独特 trans 作用 pQTL 关联的稀疏曲线图,按估计蛋白质丰度递减(蓝色)和 100 个随机顺序(灰色)排列。还显示了使用仅 50% F6 后代的降采样真实数据的相同统计量(黑色虚线)。

6.1.3. 跨物种因果变异的影响和蛋白质水平调控 (Impact of causal variants across the species and protein-level regulation)

  • 许多 cis-pQTLs 在不同的野生酵母分离株转录组和蛋白质组中也存在效应(例如 Odc2Rdl1)。在测试的 67 个关联中,46 个在独立实验中得到复制 (P<103P < 10^-3)。这表明所绘制的 pQTLs 在物种范围内是普遍存在的。

  • 蛋白质组学捕获了 mRNA 调控(传递到蛋白质水平)和主要在蛋白质组中出现的效应。例如,FaalMap1 蛋白质在蛋白质组中观察到 cis-调控效应,但在转录组中没有。

  • 比较蛋白质作图数据与亲本杂交株 F0 的等位基因特异性 mRNA 表达 (ASE) 分析发现,127 个具有 cis-pQTL 的蛋白质中,只有 30 个具有显著的 mRNA 等位基因不平衡。这表明一些 cis 效应在蛋白质水平上更强,而不是 mRNA 水平。

  • 通过 CRISPR 重建验证了 NCP1A-177T 变异显著上调 Ncp1 蛋白质水平 (P<104P < 10^-4) 但不影响 mRNA 水平 (P=0.30P = 0.30),而 SER2G14ASER2G*14A 变异同时下调 SER2 mRNA 和蛋白质水平。

    以下是原文 Figure 2 的结果:

    Fig. 2. Variant-to-molecule atlas reveals protein-level regulation. (A) Schematic of statistical lication tratyLe Genicapi-ctffec n OcR rot abue and replication of this signal in the orthogonal 1002… 该图像是图表,展示了不同野生酵母分离株中蛋白质丰度与遗传变异之间的关系。图中包含多个蛋白的丰度比较,以及通过CRISPR编辑所得结果,强调了遗传变异对蛋白质水平调控的影响。图 E 中的气泡图展示了不同 pQTLs 的基因组位置和目标蛋白的调控数量,相关性统计采用 PP 值进行分析。 图 2. 变异到分子图谱揭示了蛋白质水平调控。(A) 统计复制的示意图,包括本研究中的 Odc2 蛋白质丰度信号,以及在正交的 1002 Yeast Genomes (19) 转录组和蛋白质组中的复制。(B) 显示复制数据的部分蛋白质水平。数据以中位数 ± SEM 显示。(C) (左) 对 Ncp1 蛋白质丰度产生 cis 作用效应的遗传作图。(右) CRISPR 重建和质谱测试 NCP1A-177T 变异的效应。n = 6;P 值通过 t 检验。(D) SER2G14ASER2G*14A 变异对 SER2 基因的 mRNA 表达和蛋白质水平的影响。n = 6;P 值通过 t 检验。(E) 气泡图,显示所有 pQTLs 的基因组位置。pQTL 位置和编码基因按基因组顺序排列。橙色点表示临床菌株(YJM)等位基因增加蛋白质水平,蓝色点表示葡萄园菌株(RM)等位基因增加蛋白质水平。点的尺寸由遗传作图 P 值决定。上方指示每个基因座控制的目标蛋白质数量(按基因聚合);突出显示了按基因功能着色的 trans 热点,如所示。(F) pQTLs 解释的方差,以其与编码基因的距离表示。P 值通过 Student's t 检验计算;点表示均值,条表示标准误差。

6.1.4. 非经典调节因子驱动的 trans 作用热点 (Noncanonical regulators underlying trans-acting hotspots)

  • 蛋白质表达调控复杂:中位数蛋白质受 5 个基因座控制,22.6% 的蛋白质受 10 个以上 pQTLs 控制。
  • trans 调控普遍:98% 的关联涉及 trans 作用基因座(>1kb 距离),其余为 cis 作用。
  • 热点效应 (Hotspot Effect):一小部分热点驱动了大量的 trans 调控。100 个最多效的 trans-pQTL 基因(约 2000 个中)解释了 44% 的关联。
  • 非经典调节因子 (Noncanonical Regulators):许多调节热点不包含 DNA 结合蛋白或调节因子,而是由代谢酶 (metabolic enzymes) 或膜转运蛋白 (membrane transporters) 驱动。例如,尿嘧啶转运蛋白 FUR4 控制尿嘧啶生物合成途径,次黄嘌呤单磷酸脱氢酶 IMD2 控制几种代谢酶的丰度。
  • cistrans 效应大小:单个 cis 作用变异的效应更大(解释 5.29% 的方差),而 trans 效应解释 1.66% 的方差。然而,trans 调控的累积效应远大于 cis 调控(trans 解释 70.9% 的总方差,cis 解释 0.74%)。

6.1.5. 蛋白质丰度上的方向选择 (Directional selection on protein levels)

  • Ras-PKA 信号通路热点 (Ras-PKA Signaling Pathway Hotspots)IRA1, IRA2, 和 PDE2 处的热点控制着多达 300 种蛋白质的丰度,并具有连贯的上调和下调模式。这三个基因是 Ras-PKA 信号通路的关键组分。

  • 这些 trans-调控效应在不同的遗传背景中具有高度的渗透性。

  • 方向选择证据 (Evidence of Directional Selection):通过对 pQTL 作用方向的符号检验 (sign test) 显示,pQTL 效应高度连贯 (P<10250P < 10^-250),表明 RM 和 YJM 亲本背景对许多蛋白质的表达进行了方向选择,由控制相同调节模块的多个变异驱动。

  • 生态位特异性富集 (Niche-Specific Enrichments)IRA2 pQTL 等位基因在发酵环境菌株中富集 (q<106q < 10^-6);73 个 pQTL 等位基因在发酵菌株中富集,24 个在人类相关分离株中富集。这表明许多被研究的蛋白质和 pQTLs 具有生态相关性。

    以下是原文 Figure 3 的结果:

    Fig. 3. Polygenic adaptation reflecting natural selection on protein abundance. (A) Schematic of Ras-PKA signaling highlighting the Ira1, Ira2, and Pde2 proteins, which harbored trans-acting hotspots… 该图像是图表,展示了与自然选择相关的多基因适应性及蛋白质丰度的变化(图3)。包括 Ras-PKA 信号通路示意图、Mcr1 蛋白水平与 F6 后代基因型的关系、基于 t-SNE 的蛋白质聚类,以及 pQTL sign 测试等结果,强调了转基因位点之间的关系与适应性的影响。 图 3. 反映自然选择对蛋白质丰度影响的多基因适应。(A) Ras-PKA 信号通路的示意图,突出显示了具有 trans 作用热点的 Ira1、Ira2 和 Pde2 蛋白质。(B) Mcr1 蛋白质水平,作为 F6 后代在 PDE2、IRA2、IRA1 和 MCR1 基因座的基因型函数,如所示。方框显示中位数和上下四分位数;须线显示 1.5 倍的四分位距。(C) 基于 F6 后代中蛋白质协变性 (covariation) 的蛋白质聚类(t-SNE 嵌入);突出显示了 IRA1、IRA2 和 PDE2 的葡萄园(蓝色)和临床(橙色)等位基因上调的蛋白质,如所示。(D) pQTL 符号检验 (sign test) 原理的示意图。(E) 所有已映射关联中连贯 trans-pQTLs 的平均比例(纵坐标),作为 trans-pQTL P 值(横坐标)的函数。实际作图数据以紫色显示;所有 trans-pQTLs(无论蛋白质靶标)的随机期望以灰色显示;P 值通过二项式检验计算。(F) 散点图,显示在发酵相关生态位中最富集的 pQTL 等位基因,显示次要等位基因的相对富集(横坐标)和 Bonferroni 校正的 Fisher 精确检验 qq 值(纵坐标)。

6.1.6. 编码变异驱动 cistrans 蛋白质丰度 (Coding variation driving protein abundance in cis and trans)

  • cis 作用变异:近一半的 cis 作用 pQTNs 改变了蛋白质编码序列,编码和非编码变异具有相似的效应大小。FoldX 预测不稳定(>1 kcal/mol)的七个 cis 作用错义 pQTNs 均导致蛋白质丰度下降。
  • trans 作用变异:蛋白质改变性 trans-pQTNs 对其靶标的效应远大于非编码 trans 作用变异。
  • 生化约束 (Biochemical Constraints)
    • BLOSUM62 评估发现,错义 pQTNs 的生化破坏性低于其他分离的错义变异。
    • FoldX 预测,trans pQTNs 对预测蛋白质稳定性的破坏性更强(中位数 ΔΔ\Delta\DeltaG ~0.83 vs 0.54 kcal/mol)。
  • 局部结构背景 (Local Structural Context)
    • 生化扰动性强的错义 trans-pQTNs 常常发生在蛋白质核心功能域之外(如 Ira2Asn201SerGcs1Ala147Pro)。
    • 生化保守性强的替换则位于激酶域等核心功能域内(如 Rim15Thr986Ile)。
  • 溶剂可及表面积和堆积密度 (Solvent-accessible surface area and packing density)
    • F6 作图组中的错义变异比所有可能的错义 SNPs 更易暴露于溶剂 (20% 更易暴露) 且局部堆积密度更低 (21% 更低)。

    • 然而,在已固定变异中,pQTNs 比其他分离的错义变异更埋藏 (6% 更埋藏) 且位于更密集堆积的区域 (9% 更密集)。

      以下是原文 Figure 4 的结果:

      Fig. 4. Biochemical constraints revealed by proteomic mapping. (A) Schematic ilustrating possible molecular mechanisms of cis and trans regulation. (B) Effect size of protein-altering, synonymous, an… 该图像是图表,展示了通过蛋白质组学映射揭示的生化约束。图中包括 cis 和 trans 调控机制的示意图,以及不同类型 pQTNs 对蛋白丰度的影响和相应的统计分析。相关的效应大小和模型参数也被一同展示,提供了对自然变异影响的深入理解。 图 4. 通过蛋白质组学作图揭示的生化约束。(A) 示意图,说明 cistrans 调控的可能分子机制。(B) 蛋白质改变性、同义和调控性 cis-pQTNs 的效应大小,如所示。方框显示中位数和上下四分位数;须线显示 1.5 倍的四分位距。(C) pQTL 对蛋白质水平的效应(替代等位基因与参考等位基因;纵坐标)作为 FoldX 预测变异效应(横坐标)的函数。(D) 蛋白质改变性、同义和调控性 trans-pQTNs 的效应大小,如所示。方框显示中位数和上下四分位数;须线显示 1.5 倍的四分位距。P 值通过双侧 t 检验计算。(E) 遗传作图预测的 IRA2Asn201Ser 变异对 Mcr1 水平的效应。(F) 在酿酒园菌株中引入 IRA2Asn201Ser 变异后对 Mcr1 水平的 CRISPR 重建和质谱验证。n = 15;P 值通过双侧 t 检验。(G 和 H) 错义 trans-pQTNs(蓝色)与所有其他分离错义变异(灰色)的 BLOSUM62 (G) 和 FoldX 分数 (H) 比较。方框显示中位数和上下四分位数;须线显示 1.5 倍的四分位距。P 值通过 Mann-Whitney U 检验计算。(I 和 J) 具有突变蛋白质功能域指示的说明性保守 pQTN 替换 (I) 和扰动性 pQTN 替换 (J)。(K) 所有可能的错义 SNPs(紫色;还显示了转换和颠换导致的子集)和 F6 作图群体中所有分离错义变异(灰色)的溶剂可及表面积和 10 Å 范围内的 Cα 原子数量。(L) 同 (K),但针对所有可能的错义 SNPs(紫色)、本研究中识别的错义 pQTNs(蓝色)和 F6 作图群体中所有其他分离错义变异(灰色)。P 值通过 Mann-Whitney U 检验计算。

6.1.7. 蛋白质协变性揭示基本蛋白质组结构 (Protein covariation reveals foundational proteome architecture)

  • 功能连接性 (Functional Connectivity):F6 后代中的蛋白质协变性 (protein covariation) 揭示了已知的代谢功能。例如,糖酵解 (glycolytic) 己糖激酶 Hxk2 的水平与其旁系同源物 Hxk1 和己糖激酶 Glk1 强烈负相关。

  • 复合物成员关联 (Complex Member Associations):同一大分子复合物 (macromolecular complex) 成员之间的平均相关性为 0.224,远高于所有蛋白质对的 0.038 (P<10195P < 10^-195)。

  • trans-pQTLs 与相互作用:虽然只有一个 trans-pQTL 连接了两个复合物成员(Sss1Sec61),但另有 354 个(约 5.6%)trans-pQTL-靶点对连接了已知的相互作用体(其中 74.0% 是遗传相互作用体,20.9% 是物理相互作用体)。

  • FRE1 热点 (FRE1 Hotspot)FRE1 基因(编码铁还原酶,参与铁和铜的吸收代谢)的移码变异 (frameshift) 控制着 79 种蛋白质。尽管只有两个调节基因与 FRE1 存在遗传相互作用,没有物理相互作用,但许多靶标蛋白质和相关复合物包含血红素或铁硫簇,或与呼吸作用相关。这表明 FRE1 缺失导致血红素和铁硫簇合成受损,进而引起酶组分广泛下调和补偿性转运机制上调。

    以下是原文 Figure 5 的结果:

    Fig. 5. pQTLs reveal molecular and functional connectivity. (A) Heatmap of pairwise protein abundance correlations in \(\\mathsf { F } _ { 6 }\) progeny among enzymes of glycolysis (purple) and citric a… 该图像是图表,展示了 F6 后代中易变性定量性状位点(pQTLs)及其对蛋白质丰度的影响。包含多个部分:(A) 蛋白丰度相关性热图;(B) 共调控途径示意图;(E) 和 (F) 分别展示了 Sss1 和 Bcy1 丰度的比较,依据 SEC61 和 IRA2 基因型进行分析;(G) FRE1 trans-pQTL 的预测效果示意图;(H) FRE1 目标的 p 值映射。部分内容以 pp 变量表示。 图 5. pQTLs 揭示分子和功能连接性。(A) F6 后代中糖酵解(紫色)和柠檬酸循环(绿色)酶之间的成对蛋白质丰度相关性热图。(B) 示意图,显示 (A) 中的代谢物和酶,如果催化涉及该代谢物的酶被 IRA2RM 或 IRA2YJM 上调,则代谢物以蓝色和橙色突出显示。(C) 大分子复合物成员之间的平均蛋白质丰度相关性(蓝色)与所有可能测量蛋白质对(灰色)的比较。P 值通过 Mann-Whitney U 检验计算。(D) 反映 BioGRID 相互作用的 pQTL-靶点连接(蓝色)和所有其他 pQTL-靶点对(灰色)的累积频率(左),以及在 BioGRID 相互作用中,被注释为遗传的(蓝色)、物理的(紫色)或既遗传又物理的(绿色)连接(右)。(E) Sss1 在葡萄园和临床亲本以及具有 SEC61 基因型的 F6 后代中的丰度,如所示。(F) Bcy1 在葡萄园和临床亲本以及具有 IRA2 基因型的 F6 后代中的丰度,如所示。(G) 示意图,显示 FRE1 trans-pQTL 的遗传作图(横坐标)和前向选择 F 检验 P 值(纵坐标)预测的丰度效应。(H) 下游 FRE1 pQTL 靶标,绑定铁或血红素,或作为 Hap4 或 Aft1 的靶标,如所示。

6.1.8. 药物抗性位点因果变异的优先级 (Prioritizing causal variants at drug-resistance loci)

  • ERG11 基因ERG11 的非编码 cis-调控变异 ERGI1T122OI4C 被预测能上调 Erg11 蛋白质(唑类抗真菌药物的作用靶点),并降低对唑类药物的敏感性。表型作图也涉及错义变异 Erg11Lys433Asn 对氟康唑敏感性的重要性。

  • 两种变异协同作用:CRISPR 重建证实,上游调控变异控制蛋白质水平,而邻近的错义变异不影响丰度,可能影响蛋白质折叠或催化。两者以加性方式降低唑类敏感性 (P<0.05P < 0.05)。

  • NCP1 基因NCP1A-177T 变异在无药物条件下被识别为 pQTN,但它能降低唑类敏感性 (P<104P < 10^-4),尽管不影响生长或显著增加 Erg11 水平。

  • 隐藏的因果变异 (Hidden Causal Variant)IRA2 热点控制大量蛋白质,但 QTN 作图显示其在表型上仅有少数变异-表型关联。通过 CRISPR 验证 Ira2Asn201Ser 变异,发现它是一个真正的多效性 trans-pQTN。其蛋白质组学效应在 YJM 背景中高度一致 (94%),在 RM 背景中也大部分一致 (78%)。

  • 背景效应 (Background Effect)Ira2Asn201Ser 变异的定量后果在 YJM 背景中比 RM 背景中更显著。在乙醇培养基中,葡萄园等位基因对生长具有高度有害性,而临床变异的适应性效应最小。这些不对称的表型在统计作图中可能被抑制性等位基因所掩盖。

    以下是原文 Figure 6 的结果:

    Fig. 6. Cryptic fitness effects embedded in the variant-to-protein map. (A) Schematic of \$\\begin{array} { r l } { ~ } & { { } A \\mathsf { S n } 4 3 3 \\mathsf { L y s } } \\\\ { ~ } & { { } . } \\end{arr… 该图像是图表,展示了不同遗传变异对酿酒酵母生长和蛋白质丰度的影响,具体包含多个实验结果。图A展示了ERGi1基因的丰度,图B比较了不同突变体的蛋白质水平,图C则显示对氟康唑的敏感性。图G呈现了pQTL和生长QTL的曼哈顿图,图H显示了IR2的转录调控和生长QTL的细化映射。图I和图J探讨了CRISPR重建的转录调控SNP及其对基因表达的影响。最后,图K评估了不同基因型在乙醇生长中的表现。 图 6. 嵌入在变异到蛋白质图谱中的隐匿适应性效应。(A) ERG11 基因中 T122O14C 调控变异和 Asn433Lys 错义变异的示意图,均与唑类敏感性相关。(B) 野生型 (WT) 和 CRISPR 编辑的 YJM ERG11T122O14C 突变株的 Erg11 蛋白质水平。n = 4;P 值通过 Student's t 检验计算。(C) 临床 (YJM) WT 和 CRISPR 编辑的 ERG11T122O14CERG11K433N 突变株在氟康唑中的生长情况。n = 96;P 值通过 Student's t 检验计算。(D) NCP1A-177T cis-pQTN 的示意图,与 NCP1 附近的唑类敏感性 QTL 的精细作图比较。(E) 临床 (YJM) WT 和 CRISPR 编辑的 YJM NCP1A-177T 突变株的 Ncpl 蛋白质水平。n = 4;P 值通过 Student's t 检验计算。(F) 临床 (YJM)、葡萄园 (RM) 和 CRISPR 编辑的 RM NCP1-1 突变株在氟康唑中的生长情况。n = 96;P 值通过 Student's t 检验计算。(G) 染色体 XV 上 pQTLs(顶部)和生长 QTLs(底部)的迈阿密图 (Miami plot)。IRA2 pQTLs 和 QTLs 以黑色突出显示。(H) IRA2 目标关联前 50 名的 pQTN 精细作图分数(左)和 IRA2 生长 QTL 关联的 QTN 精细作图分数(右)。(I) 遗传作图预测的 IRA2 pQTN 效应(本研究;纵坐标)与 CRISPR 编辑的 YJM Ira2Asn210Ser(左)和 RM Ira2Ser201Asn 突变体(右)的测量效应的比较。质谱估计的丰度在每种情况下均归一化为 WT。(J) CRISPR 编辑的 YJM Ira2Asn210Ser(纵坐标)和 RM Ira2Ser201Asn 突变体(RM)在乙醇中的测量效应。n = 96;P 值通过 Student's t 检验计算。

6.1.9. 从分子表型预测变异效应 (Forecasting variant effects from molecular phenotypes)

  • QTLs 比较:应激反应性状比蛋白质水平更复杂,应激反应 QTLs 效应大小中位数更小 (P<1016P < 10^-16)。尽管 pQTLs 数量少于生长性状 QTLs,但它们解释的总方差比例仍然很高 (中位数 22.8% vs 58.7%)。

  • 预测能力 (Predictive Power):在无应激条件下(最小葡萄糖培养基)发现的 pQTNs,在预测应激条件下的因果关系方面具有更强的能力 (P<10152P < 10^-152)。这表明蛋白质组图谱包含了预测表型结果的潜在信息。

  • pQTLs 的共定位 (Colocalization of pQTLs):在不同环境中,应激抗性 QTLs 之间的重叠较少(平均 48%),但与 pQTLs 共定位的比例更高(平均 78%)。

  • 跨环境保守性 (Conservation Across Environments):即使在应激条件下蛋白质组发生广泛重塑,IRA2 变异对蛋白质水平的影响仍得以保留。基因型-蛋白质图谱在不同条件下对蛋白质组结果仍具有广泛的预测能力 (P<107P < 10^-7)。

    以下是原文 Figure 7 的结果:

    Fig. 7. Proteomes identify causal variants underlying quantitative traits. (A to C) Effect size (variance explained) (A), total number of (p)QTLs (B), and total variance explained for pQTLs (blue) an… 该图像是图表,展示了定量性状的因果变异体。图中包括不同(QTLs)的效应大小、数量与方差解释等数据,同时描绘了pQTN与生长QTN的相对频率直方图和距离分析。实验结果强调了遗传变异对表型的影响,图中的某些统计值用公式表述。 图 7. 蛋白质组识别定量性状的因果变异。(A 至 C) 效应大小(解释的方差)(A)、(p)QTLs 总数 (B) 以及 pQTLs(蓝色)和生长 QTLs(灰色)的总解释方差 (C)。(D) pQTLs(蓝色)和生长 QTLs(灰色)的累积解释方差,作为考虑的 (p)QTLs 数量的函数。(E) 具有至少一个相关生长 QTN 的 pQTL 基因的比例(纵坐标),作为靶标数量(横坐标)的函数。还显示了所有 pQTL 基因的此统计量(黑色虚线)和我们组中具有多态性的所有基因(灰色虚线)。显示为均值 ± SEM。(F) pQTNs 到最近表型 QTN 距离的相对频率直方图(蓝色)和(灰色)随机选择的相同大小标记集。P 值通过 Kolmogorov-Smirnov 检验在真实数据和置换数据之间计算。(G) 同 (F),作为 pQTN 强度(最大 -log10 P;横坐标)的函数。(H) pQTNs(蓝色)、最小葡萄糖培养基中的生长 QTNs(无应激;灰色)和应激反应性生长 QTNs(各种颜色)的示意图。(I) 同 (F),但显示应激反应性生长 QTNs 到(蓝色)最近 pQTN 和(灰色)在最小葡萄糖(无应激)中发现的生长 QTNs 的距离。P 值通过 Kolmogorov-Smirnov 检验计算。(J) 环境之间(纵坐标)以及环境与 pQTLs 之间(横坐标)QTLs 共同比例的热图,如所示。另见图 S7。(K) YJM975 WT 和 Ira2Asn201Ser CRISPR 改造株在葡萄糖、氟康唑、雷帕霉素、麦芽糖和乙醇中的主成分分析 (PCA),如所示。(L) Hxk2(左)和 Ugp1(右)的丰度。(M) 遗传作图预测的 IRA2 pQTN 效应(本研究;纵坐标)与 CRISPR 编辑的 YJM Ira2Asn210Ser 在不同条件下的测量效应的比较,如所示。P 值通过 Fisher 精确检验计算;虚线表示一半。

6.2. 数据呈现

本研究中的所有主要实验结果均通过图表形式呈现,图表内容已在上述核心结果分析中结合图片和文字进行了详细描述。原始论文中未提供需要转录的纯文本表格。

7. 总结与思考

7.1. 结论总结

本研究通过对酵母减数分裂后代进行核苷酸分辨率的基因组到蛋白质组作图,成功绘制了一幅高精度的分子图谱。研究发现,即使是亲本之间微小的自然遗传变异,也能导致蛋白质组的广泛多样性,并受方向选择和稳定选择的复杂作用塑造。重要的发现包括识别出代谢酶和转运蛋白作为非经典 trans 调控热点,以及编码变异在 trans 效应中的主导作用。该图谱不仅揭示了基因型-蛋白质组之间未知的调控关系,还能有效预测遗传变异在不同环境下的表型后果,甚至揭示了传统表型作图可能忽视的“隐藏因果性”。这项工作为理解适应性机制和预测遗传变异的功能后果提供了强大的框架。

7.2. 局限性与未来工作

  • 蛋白质组覆盖不完全:尽管本研究捕获了大部分高丰度和必需蛋白质,但并未量化所有蛋白质。这可能遗漏了低丰度或在特定条件下才表达的蛋白质的调控信息。

  • 分子层面局限:研究主要关注蛋白质丰度,但蛋白质的功能还受到翻译后修饰 (posttranslational modifications)、蛋白质-蛋白质相互作用 (protein-protein interactions) 以及在代谢网络中的位置和作用等因素的影响,这些在本次研究中未完全探索。

  • 线性模型假设:作图方法(如大多数方法)假设表型是线性的,这可能无法完全捕捉到基因型与蛋白质丰度之间复杂的上位性 (epistatic) 或非线性相互作用。

  • 环境特定性:尽管图谱在不同环境下具有预测性,但所有初始蛋白质组测量均在标准无应激条件下进行。某些只在特定应激条件下才显现的特异性调控机制可能未被完全捕捉。

    未来工作方向:

  • 整合更多分子层:结合翻译后修饰、蛋白质-蛋白质相互作用、代谢物水平以及代谢网络中的蛋白质角色等数据,构建更全面的多组学图谱。

  • 非线性相互作用建模:开发更复杂的计算模型来捕捉基因型与蛋白质组之间可能存在的非线性、上位性相互作用。

  • 拓展至更复杂的生物体:将这种高分辨率作图策略应用于更复杂的生物体,以理解其基因组到蛋白质组的调控机制。

  • 探索新型治疗靶点:深入研究代谢酶和转运蛋白等非经典调控热点,以期发现调控生理学的新型治疗靶点。

  • 预测疾病风险:利用基因型-蛋白质图谱预测与疾病相关的遗传变异,甚至在病理学出现之前就能识别高风险个体。

7.3. 个人启发与批判

  • 蛋白质组学的核心地位:这项研究再次强调了蛋白质作为连接基因型和表型的核心桥梁作用。许多 cis-pQTLs 在 mRNA 层面不明显,但在蛋白质层面却具有显著效应,这表明仅依赖转录组数据会错过大量关键的调控信息。对于理解生物学功能而言,蛋白质组学是不可或缺的一环。
  • 自然变异的丰富性:论文揭示了自然种群中普遍存在的遗传多样性如何通过减数分裂重组释放出巨大的蛋白质组多样性,甚至产生亲本之外的极端表型(transgression)。这提示我们,即使是“功能中性”的变异,在特定环境或重组背景下也可能展现出深远的生物学意义。
  • trans-调控的复杂性与新视角:研究发现代谢酶和转运蛋白可以作为强大的 trans 调控热点,这挑战了传统上对基因调控由转录因子主导的观念。这可能意味着代谢物或辅因子可以直接介导一些调控关系,为调控生物学提供了全新的研究方向,也为药物开发提供了潜在的新靶点。
  • “隐藏因果性”的发现:最令人启发的是,分子作图能够揭示传统表型作图可能掩盖的“隐藏因果性”。IRA2 热点处的变异就是很好的例子,其强大的蛋白质组效应在某些遗传背景下被表型缓冲,但在另一些背景下则显现出显著的适应性后果。这对于理解复杂疾病的遗传基础和药物反应的个体差异至关重要,因为许多人类疾病的遗传易感性可能也以这种“隐藏”的方式存在。
  • 高分辨率的重要性:核苷酸分辨率的作图能力是这项研究成功的关键。它允许研究人员精确地将效应归因于单个变异,从而深入探讨其分子机制和生化影响。这种高精度是未来精准医学和生物工程的基础。

批判方面:

  • 模型生物的局限性:尽管酵母是强大的模型生物,其结果是否能完全推广到更复杂的多细胞生物(如人类)仍需进一步验证。人类基因组的复杂性、基因冗余度以及细胞类型特异性调控等因素可能会带来额外的挑战。
  • 计算复杂性:大规模高分辨率的基因组-蛋白质组作图,尤其是在整合多组学数据时,将面临巨大的计算挑战。如何高效地处理、分析和解释这些数据是持续的难题。
  • 变异的相互作用:本研究虽然揭示了许多 cistrans 效应,但对更复杂的上位性相互作用(即多个变异共同作用产生非加性效应)的全面解析仍有限。这可能是未来进一步提高方差解释能力的关键。
  • 环境的全面性:尽管研究展示了图谱在预测不同环境结果方面的能力,但所测试的环境数量有限。在更广泛、更复杂的环境压力组合下,图谱的预测准确性可能需要更全面的验证。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。