AiPaper
论文状态:已完成

Convergent genome evolution shaped the emergence of terrestrial animals

发表:2025/11/12
原文链接
价格:0.10
已有 0 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文通过比较154个基因组,研究了21个动物门的陆地化事件,揭示了动物从水生到陆生适应的趋同与偶然性。尽管每个转变都有独特的基因增益和丢失模式,但相似的生物功能不断出现,显示出特定适应对陆地生命的重要性,并提供了陆地化的时间框架。

摘要

The challenges associated with the transition of life from water to land are profound; yet they have been met in many distinct animal lineages. This constitutes a series of independent evolutionary experiments from which we can decipher the role of contingency versus convergence in the adaptation of animal genomes. Here we compare 154 genomes from 21 animal phyla and their outgroups to reconstruct the protein-coding content of the ancestral genomes linked to 11 animal terrestrialization events, and to produce a timescale of terrestrialization. We uncover distinct patterns of gene gain and loss underlying each transition to land, but similar biological functions emerged recurrently, pointing to specific adaptations as key to life on land.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

趋同基因组进化塑造了陆生动物的出现 (Convergent genome evolution shaped the emergence of terrestrial animals)

1.2. 作者

Jialin Wei, Davide Pisani, Philip C. J. Donoghue, Marta Álvarez-Presas & Jordi Paps

1.3. 发表期刊/会议

Nature 期刊。Nature 是国际顶尖的综合性科学期刊之一,在自然科学领域享有极高的声誉和影响力,发表的研究通常具有重要的突破性发现和广泛的科学意义。

1.4. 发表年份

2025年(在线发表日期:2025年11月12日)

1.5. 摘要

生命从水生到陆生的转变面临着巨大的挑战,然而,许多不同的动物谱系都成功地克服了这些挑战。这构成了系列独立的进化实验,通过它们可以解析动物基因组在适应过程中偶然性与趋同性的作用。本文比较了来自21个动物门及其外群的154个基因组,以重建与11个动物陆地化事件相关的祖先基因组的蛋白质编码内容,并确定陆地化的时间尺度。研究发现,每个陆地化转变背后存在着独特的基因增益和丢失模式,但相似的生物功能却反复出现,这表明特定的适应性是陆地生命的关键。研究表明,半陆生物种进化出了趋同的功能模式,而完全陆生谱系则通过不同的路径适应陆地。本文的时间线支持在过去4.87亿年间,动物陆地化发生了三个时间窗口,每个窗口都与特定的生态背景相关。尽管每个谱系都表现出独特的适应性,但动物界存在强烈的趋同基因组进化证据,这表明陆地生命的适应在很大程度上是可预测的,将基因与生态系统联系起来。

1.6. 原文链接

/files/papers/6919aa68110b75dcc59ae248/paper.pdf 发布状态: 已正式发表。

2. 整体概括

2.1. 研究背景与动机

生命从水生环境向陆生环境的转变是地球历史上最深刻的进化事件之一,深刻塑造了现代生态系统、生命形式和地球本身。陆地化(Terrestrialization)的挑战是巨大的,包括应对失水(desiccation)、改变呼吸方式、适应新的运动方式、调整生殖策略以及抵抗新的陆生病原体等。然而,在动物王国中,这种转变独立地发生了多次,例如节肢动物(arthropods)、脊椎动物(vertebrates)、轮虫(rotifers)、软体动物(molluscs)、环节动物(annelids)、线虫(nematodes)、缓步动物(tardigrades)和有爪动物(onychophorans)等。这些独立的陆地化事件为研究进化过程中偶然性(contingency)与趋同性(convergence)的作用提供了独特的“自然实验”。

现有研究已经观察到许多表型适应的广泛趋同,例如保水皮肤或角质层、适应性免疫系统、骨骼设计和运动方式的改变、新陈代谢率的提高、发育适应性以及在空中环境中的视觉适应等,这表明对相似环境压力的反应是高度可预测的。在基因型层面,一些研究将基因创新、复制和丢失等基因组变化与主要的后生动物进化转变联系起来,并发现特定基因(如水通道蛋白编码基因)和功能(代谢、应激反应、渗透调节和免疫)与陆地化相关。然而,与陆生植物相比,跨动物谱系的陆地化基因组基础在很大程度上仍未被充分表征。这构成了研究的空白:我们能否确定陆地化是否导致了谱系特异性的偶然性基因组适应,或者这些适应是否是针对相同环境挑战的可预测变化?

2.2. 核心贡献/主要发现

本文通过对154个基因组进行比较基因组学分析,深入探讨了动物基因组对陆地化过程的进化响应中趋同性与偶然性的作用,并建立了动物适应陆地的时间线。主要贡献和发现包括:

  • 广泛的基因组周转和功能趋同: 研究发现,所有11个陆地化事件都伴随着大规模的基因增益(新型基因和扩展基因)和基因丢失(丢失基因和收缩基因)周转,表明基因组具有高度可塑性。尽管每个转变事件的基因增益和丢失模式是独特的,但相似的生物功能却反复出现,这些功能主要与渗透调节、应激反应、免疫、感官接收、新陈代谢和繁殖相关。这表明在面对陆生环境的挑战时,动物基因组表现出可预测的适应模式。
  • 半陆生与完全陆生谱系的不同适应策略: 研究将陆生谱系分为半陆生(依赖潮湿环境)和完全陆生(较少依赖水)两类。结果显示,半陆生物种进化出了趋同的功能模式,其基因组适应性表现为“扩张且多功能”的工具包,强调了角质层重塑、视觉发育和应激反应。相比之下,完全陆生谱系则表现出“小型且精简”的基因组适应性,主要集中在神经元发育和离子膜稳态上,且其趋同性较低,表明它们可能通过多样化的路径适应陆地。
  • 陆地化的三个时间窗口: 重新构建的分子进化时间线支持动物陆地化在过去4.87亿年间发生了三个主要时间窗口,每个窗口都与特定的生态背景相关联。
    • 第一个窗口(中寒武纪至中奥陶纪): 发生在早期陆生植物兴起之后,包括线虫、多足纲、六足纲和蛛形纲。这些早期陆生物种发展了抗干燥和结构支持的特征。
    • 第二个窗口(晚泥盆纪至早石炭纪): 对应于周期性洪水、土壤加深和季节性湿地的时期,包括环节动物(寡毛类)和第一批四足动物。
    • 第三个窗口(白垩纪): 与高海平面、被子植物扩张和季节性干燥的微生境相关,包括轮虫和陆生腹足纲动物。
  • 连接基因与生态系统: 尽管每个谱系都有其独特的适应性,但跨动物王国存在强烈的趋同基因组进化证据,这表明陆地生命的适应在很大程度上是可预测的,从而将基因组变化与特定的生态系统挑战和机遇联系起来。

3. 预备知识与相关工作

3.1. 基础概念

  • 陆地化 (Terrestrialization): 指生命从水生环境向陆生环境演化的过程。这一过程对生物体提出了多方面的挑战,包括:
    • 失水 (Desiccation): 陆生环境水分稀少,生物体需要发展保水机制,如厚实的皮肤、角质层或分泌粘液。
    • 呼吸 (Respiration): 从水中溶解氧呼吸转变为空气中氧气呼吸,需要发展肺、气管系统或皮肤呼吸。
    • 运动 (Locomotion): 在密度较低的空气中和更坚硬的地面上移动,需要更强的结构支撑和不同的运动方式。
    • 繁殖 (Reproduction): 水生生物的体外受精和水生幼体不再适用,需要发展体内受精、有保护的卵或胎生。
    • 温度波动与紫外线 (Temperature Fluctuations and UV Radiation): 陆生环境的温度波动和紫外线辐射更强,需要相应的生理和行为适应。
    • 重力 (Gravity): 水的浮力消失,需要更强的骨骼或体壁支撑。
  • 比较基因组学 (Comparative Genomics): 一种通过比较不同物种的基因组序列来研究基因组进化、基因功能和物种间关系的方法。它有助于识别保守基因、新基因、基因丢失以及基因组重排等。
  • 同源基因组 (Homology Groups, HGs): 指一组具有共同祖先的蛋白质,可以包括直系同源物(orthologues,由物种形成事件产生)和旁系同源物(paralogues,由基因复制事件产生)。在本文中,HGs 是通过 OrthoFinder 软件将来自不同物种的蛋白质序列聚类而成的。
  • 基因本体论 (Gene Ontology, GO): 一个生物信息学工具,它提供了一个结构化的、分层的功能分类体系,用于描述基因和蛋白质的功能。GO 分为三个主要领域:
    • 生物过程 (Biological Process): 描述细胞或生物体执行的更广泛的生物学目标(例如:代谢过程)。
    • 分子功能 (Molecular Function): 描述基因产物在分子水平上执行的活性(例如:ATP结合)。
    • 细胞组分 (Cellular Component): 描述基因产物所在的细胞结构(例如:线粒体)。
  • Pfam 蛋白结构域 (Pfam protein domains): Pfam 是一个蛋白质家族数据库,包含了许多常见蛋白质结构域的序列比对和隐马尔可夫模型(HMMs)。蛋白质结构域是蛋白质中独立折叠并具有特定功能的区域。通过分析 Pfam 结构域,可以推断蛋白质的功能。
  • 趋同进化 (Convergent Evolution): 指不相关的或远缘的物种在相似的环境压力下,独立地演化出相似性状(traits)或功能的过程。例如,鸟类和昆虫的翅膀,它们独立进化但都用于飞行。
  • 偶然性 (Contingency): 在进化生物学中,指进化路径和结果在很大程度上取决于随机事件、历史偶然性或特定环境条件的作用。它强调了进化结果并非完全可预测,而是可能受到独特历史事件的塑造。
  • 基因增益和丢失 (Gene Gain and Loss): 指基因组在进化过程中增加或减少基因副本的事件。
    • 基因增益 (Gene Gain): 可以通过新基因的产生(novel gene emergence)、基因复制(gene duplication)或水平基因转移(horizontal gene transfer)发生。
    • 基因丢失 (Gene Loss): 通常通过假基因化(pseudogenization)和随后的序列删除发生。
  • 外适应 (Exaptation): 指一个性状最初是为某种功能而进化出来的,但在后来的进化过程中被“征用”或“共同利用”来执行另一种不同的功能。例如,鸟类的羽毛最初可能用于保温,后来被外适应为飞行。

3.2. 前人工作

本文在总结前人工作时指出,陆地化在动物王国中独立发生多次,且在表型层面观察到广泛的趋同适应,例如保水皮肤、适应性免疫系统、骨骼和运动方式的改变、代谢率升高、发育适应以及视觉适应等。这些都暗示了对相似环境压力存在高度可预测的响应。

在基因型层面,先前研究已表明基因创新、复制和丢失对后生动物主要进化转变至关重要。具体到陆地化,有研究将水通道蛋白编码基因(aquaporin-coding genes)与多个类群的陆地化联系起来,并发现基因组变化与代谢、应激反应、渗透调节和免疫相关的基因在陆地化中发挥作用。例如:

  • 水通道蛋白 (Aquaporins): 是一类跨膜蛋白,主要负责水分子在细胞膜上的快速转运。在陆地化过程中,动物需要高效地调节水分平衡以应对干燥环境,因此水通道蛋白基因的复制和功能适应可能至关重要。

  • 细胞色素 P450 (Cytochrome P450, CYP): 是一大类单加氧酶,在代谢外源性物质(如毒素)和内源性物质(如激素)中发挥关键作用。陆生环境可能引入新的食物来源和环境毒素,因此 CYP 基因家族的扩展有助于解毒。

  • 谷胱甘肽 S-转移酶 (Glutathione S-transferase, GST): 是一类参与解毒和抗氧化应激的酶。在陆生环境中,动物可能面临更高的氧化应激,GST 的适应性变化有助于保护细胞。

  • G 蛋白偶联受体 (G-protein-coupled receptor, GPCR): 是细胞表面受体家族,参与感知各种细胞外信号。陆生环境中的感官刺激(如气味、光线)可能与水生环境不同,GPCR 的适应性进化有助于感知新的环境信息。

    然而,本文强调,尽管存在这些零散的发现,但与陆生植物(其基因组基础已得到更充分的表征)相比,跨动物谱系的陆地化基因组基础仍未被充分阐明。这表明需要一项更全面、更系统的比较基因组研究来揭示动物陆地化的普遍基因组模式。

3.3. 技术演进

随着基因组测序技术和计算生物学方法的发展,比较基因组学(comparative genomics)已成为研究进化的强大工具。

  • 基因组测序技术的进步: 能够获取越来越多物种的高质量基因组序列,为大规模比较研究提供了数据基础。

  • 同源基因推断工具:OrthoFinder 等,能够准确识别不同物种间的直系同源物和旁系同源物,是构建同源基因组(HGs)的基础。

  • 祖先基因组重建方法: 允许研究者推断已灭绝祖先物种的基因组内容,从而追溯基因组在进化过程中的变化。

  • 基因家族动态分析软件:CAFE,能够建模基因家族在进化树上的扩张和收缩速率,识别在特定进化事件中显著变化的基因家族。

  • 功能注释工具:eggNOG-mapperPANTHER 等,能够将基因序列与已知的生物学功能(GO termsPfam domains)联系起来,从而推断基因变化的生物学意义。

  • 分子钟分析: 利用基因序列变异率估算物种分化时间,为进化事件提供时间框架。

    本文的工作正是在这些技术进步的基础上,整合了比较基因组分析、功能注释和分子钟重建,以系统地研究跨多个陆地化事件的基因组进化模式。

3.4. 差异化分析

本文与先前工作的核心区别和创新点在于:

  • 研究范围的广度: 先前研究通常关注单个或少数几个谱系的陆地化基因组变化。本文则进行了迄今为止最广泛的比较基因组分析之一,囊括了来自21个动物门和其外群的154个基因组,识别出11个独立的动物陆地化事件。这种大规模的比较使得识别普遍的趋同模式成为可能。

  • “趋同进化交叉框架” (InterEvo) 的提出: 本文设计并应用了一个名为 InterEvo 的框架,用于系统地识别在不同陆地化事件中独立发生增益或丢失的基因集之间共享的生物学功能。这使得研究能够超越简单的基因计数,深入到功能层面的趋同。

  • 对基因组变化的全面分类: 研究不仅关注新基因(novel HGs)的出现,还区分了新型核心基因(novel core HGs)、扩展基因(expanded HGs)、收缩基因(contracted HGs)和丢失基因(lost HGs),提供了对基因组动态更细致的理解。

  • 半陆生与完全陆生策略的区分: 本文首次系统地比较了半陆生和完全陆生谱系在基因组适应模式上的差异,揭示了不同生活方式对基因组进化路径的影响。

  • 陆地化时间窗口的精确刻画: 通过分子钟分析,本文提供了一个新的、精确的动物陆地化时间框架,识别出三个主要的时间窗口,并将它们与地球的生态和地质变化联系起来。

    总的来说,本文通过前所未有的大规模数据和系统方法,从基因组层面回答了动物陆地化中趋同性与偶然性的核心问题,填补了该领域的一个关键空白。

4. 方法论

4.1. 方法原理

本文设计并应用了一个名为“趋同进化交叉框架(InterEvo)”的方法(Extended Data Fig. 1),旨在通过比较基因组学方法,系统地识别在多个独立陆地化事件中,基因增益(gene gains)和基因丢失(gene reductions)所涉及的生物学功能的趋同模式。该框架的核心思想是,尽管不同谱系可能通过不同的基因(序列)实现陆地化,但它们可能在功能层面趋同,即独立地演化出执行相似生物学功能的能力。通过重建祖先基因组的蛋白质编码内容,并对特定陆地化节点的新生、扩展、收缩和丢失基因进行功能注释,InterEvo 框架能够量化这些功能在不同陆地化事件中的共享程度,从而揭示陆生动物适应性的可预测性。

4.2. 核心方法详解 (逐层深入)

4.2.1. 物种选择与同源基因组推断 (Taxon Sampling and HGs Inference)

研究首先汇集了来自 UniProtNCBIEnsembl 等公共数据库的154个基因组序列(Supplementary Table 1),其中包括151个后生动物基因组和3个非动物全动物界(holozoans)单细胞生物基因组。

  • 蛋白质序列提取: 使用 OrthoFinder 提供的辅助脚本 primary_transcript.pyCd-hit v.4.8.1(相似性阈值为1.00)从原始数据中提取规范蛋白质序列。
  • 基因组质量评估: 使用 BUSCO v.5.4.7 评估154个基因组中规范蛋白质的质量(completeness 大于85%,fragmentation 小于15%为优选标准,但也会根据物种的栖息地和系统发育考虑选择未完全满足标准的基因组)。
  • 同源基因组 (HGs) 推断: 使用 OrthoFinder v.2.5.5(依赖 MAFFT v.7.505DIAMOND v.2.1.8)将这些蛋白质序列聚类为483,458个同源基因组。HGs 是指从共同祖先分化而来的蛋白质组,包含直系同源物(orthologues)和/或旁系同源物(paralogues)。

4.2.2. 指导树构建 (Guide Tree)

为了后续的基因扩张/收缩分析和时间树构建,研究基于先前文献(70-73)中推断的物种位置绘制了一个指导树。

  • 保守单拷贝基因提取:BUSCO v.5.4.7Metazoa_odb10 数据库中提取保守的单拷贝基因。人(Homo sapiens)基因组包含943个此类基因,作为参考直系同源物。
  • 序列比对与修剪: 使用 MAFFT v.7.505 对识别出的保守蛋白质序列进行比对,并使用 trimAl v.1.4.rev.15 修剪比对结果,去除低质量的比对区域。
  • 超矩阵拼接: 使用 FASconCAT-G v.1.05.1 将修剪后的比对结果拼接成一个单一的超矩阵(supermatrix)。
  • 系统发育树构建: 使用 IQ-TREE v.2.2.2.6,以指导树作为约束,采用 C60+G+IC60+G+I 模型和1000次引导重复,构建系统发育树。该树的支长代表遗传变化,用于后续的 CAFE5 分析。

4.2.3. 基因内容分析 (Gene Content Analysis)

研究对每个陆地化节点及其祖先节点的基因组内容进行了分类,以识别基因增益和基因丢失事件。

  • 新型同源基因组 (Novel HGs): 指在一个谱系的最近共同祖先(LCA,本文称之为node)中至少一个物种中存在,但在所有外群物种中均不存在的 HGs

  • 新型核心同源基因组 (Novel core HGs): 指在一个节点的所有物种中都存在(对于包含三个以上物种的节点,允许一次缺失),但在所有外群物种中均不存在的 HGs。对于只有两个物种的节点,Novel HGs 等同于 Novel core HGs。为了验证其稳健性,Novel core HGs 经过 BLASTp v2.14.0+NCBI RefSeq 数据库的验证,结果显示绝大多数序列的 evalue>1010e-value > 10^-10identity<50identity < 50%,表明它们确实是新颖的。

  • 丢失同源基因组 (Lost HGs): 指在一个节点的所有物种中都缺失,但在其姐妹群和外群其他物种中均存在的 HGs

  • 扩展同源基因组 (Expanded HGs):HGs 中基因拷贝数增加的现象,通常是由于基因复制事件。

  • 收缩同源基因组 (Contracted HGs):HGs 中基因拷贝数减少的现象。

  • 祖先同源基因组 (Ancestral HGs): 指存在于一个节点的所有 HGs

    Novel HGsNovel core HGsLost HGs 的推断是使用 Paps and Holland 描述的 Phylogenetically Aware Parsing Script(GitHub: https://github.com/PapsLab)进行的。

Expanded HGsContracted HGs 的推断是使用 CAFE5 22 软件进行的。

  1. 超度量系统发育树生成: 基于 IQ-TREE 构建的系统发育树,使用 RR 语言中的 apeTreeToolsphytools 包生成一个超度量(ultrametric)系统发育树。
  2. CAFE5 运行: CAFE5 是一个通过建模基因家族的出生-死亡过程(birth-death process)来推断基因家族扩张和收缩的软件。由于数据集庞大,系统发育树被分成三个较小的树:LophotrochozoaEcdysozoaDeuterostomia
  3. 模型选择: 对每个小树,CAFE5 均使用泊松分布(Poisson distribution)和误差模型(error model)运行,并分别运行两次和三次 lambda 模型各十次,以测试模型基础最终似然值(-InL)的收敛性。通过似然比检验(likelihood ratio test)和卡方分布(chi-squared distribution),结果表明三次 lambda 模型对于 LophotrochozoaEcdysozoa 具有更好的拟合度(P<0.001P < 0.001),而对于 Deuterostomia,虽然似然比检验倾向于三次 lambda 模型,但模拟测试显示两次 lambda 模型的值更稳定,因此选择了两次 lambda 模型。

4.2.4. 置换检验分析 (Permutation Test Analysis)

为了评估观察到的基因组变化模式是否具有统计显著性,研究进行了置换检验。

  • 新型 HGs 增益率: 评估陆生节点中每百万年(Myr)出现的新型基因数量是否显著高于水生节点。
    • 计算11个陆生节点的总进化速率 RterrR_{\mathrm{terr}},即新型 HGs 总数除以总分化时间。
    • 从11个水生节点中进行10,000次有放回抽样,每次抽样计算 RbootR_{\mathrm{boot}}
    • 经验单尾 PP 值是 RbootRterrR_{\mathrm{boot}} \geq R_{\mathrm{terr}} 的引导样本比例。
  • 功能库: 评估陆生谱系的功能 GO term 组成是否与水生谱系不同。
    • 将每个谱系新型基因的 GO 矩阵转换为二元存在/缺失矩阵。
    • 使用 Jaccard dissimilarity 衡量陆生和水生 GO term 概况之间的差异。
    • 随机打乱“水生/陆生”标签10,000次,每次重新计算 Jaccard dissimilarity
    • 经验 PP 值是置换距离 \geq 观察距离的比例。

4.2.5. 功能注释和富集分析 (Functional Annotation and Enrichment Analysis)

为了理解基因组变化的生物学意义,研究对感兴趣的 HGs 进行了功能注释和富集分析。

  • 代表物种选择: 为每个陆地事件选择一个代表物种进行功能注释,例如轮虫的 Rotaria sordida、人的 H. sapiens 等。
  • Pfam 结构域和 GO 术语注释: 使用 eggNOG-mapper v.2 在线工具(默认参数)注释 HGsPfam 结构域和 GO 术语。UniProt 用于基因名称的进一步分析,PANTHER 19.0 用于蛋白质分类。
  • GO 富集分析: 针对陆地事件的新型和扩展 HGs 进行 GO 富集分析,以识别过表达的 GO 术语。
    • 背景: 使用存在于两侧对称动物(Bilateria)最近共同祖先中的所有 HGsGO 术语作为背景。
    • 统计检验: 使用 Fisher's exact test 比较陆地事件中命中每个 GO 术语的 HGs 数量与两侧对称动物背景中的数量。
    • 多重比较校正: 使用 Benjamini-Hochberg 方法校正 PP 值,adjustedP<0.05adjusted P < 0.05GO 术语被认为是显著富集的。
  • 半陆生与完全陆生群体间的功能差异:
    • 使用二元矩阵(存在/缺失)测试半陆生和完全陆生群体之间 GO 术语或 Pfam 的差异存在。
    • 对于每个特征,构建一个 2×22 \times 2 列联表,并进行双尾 Fisher's Exact Test
    • 使用 Benjamini-Hochberg 方法校正 PP 值,adjustedP<0.05adjusted P < 0.05 被认为是显著富集。为了保持生物学相关性,排除了在两个群体中存在比例 10%\leq 10\% 的功能术语。

4.2.6. 主坐标分析 (PCoA) 和主成分分析 (PCA) (PCoA and PCA)

为了比较半陆生和完全陆生谱系之间与新型和祖先 HGs 相关的 GO 术语分布,研究进行了 PCAPCoA

  • PCA (Principal Component Analysis): 使用 RR 中的 prcomp 函数进行。将物种的 GO 术语绘制在主成分 PC1PC2 上。ANOVATukey's HSDMANOVA 用于评估群体间差异。
  • PCoA (Principal Coordinates Analysis): 用于处理基于 Jaccard dissimilarity 的二元存在/缺失数据,避免 PCA 在共享缺失上可能产生的偏差。
    • 相似性量化: 使用 vegan R package 中的 Jaccard distance 计算物种间 GO termPfam 存在/缺失概况的成对相异度。
    • PCoA 运行:Jaccard distance 矩阵执行 PCoA
    • 群体差异检验: 使用 PERMANOVA (adonis2 函数,10,000次置换) 检验半陆生和完全陆生群体之间的总体差异。使用 betadisper 函数检验多变量离散度的同质性,以确保 PERMANOVA 结果不受群体内离散度不均的影响。

4.2.7. 分子钟 (Molecular Clock)

为了建立陆地化事件的时间框架,研究使用 MCMCTreePAML 包)进行了两步分子钟分析。

  1. 支长估计: 使用 CODEML 83 通过最大似然法估计支长,计算似然函数的梯度和 Hessian。采用 Empirical+FEmpirical+F 模型(model=3model=3)和独立速率时钟模型(clock=2clock=2)。
  2. 分化时间估计: 使用 MCMCTree 81 估计分化时间,采用相同的独立速率时钟模型、具有4个类别和形状参数 alpha=0.5alpha=0.5 的离散伽马分布。
    • 先验设置: 根据近似的根年龄(591.255 Ma),确定替代速率的先验,得到形状 α=2α=2 和尺度 β=5.1β=5.1 的伽马分布。
    • MCMC 运行: 每次分析运行约2000万代 MCMC,丢弃前10万代作为老化期,每1000代采样一次,得到20,000个样本。
    • 收敛性评估: 进行六次独立的 MCMC 运行,并使用 Tracer v.1.7.2 84 评估收敛性,确保所有参数的有效样本量(ESS)超过200。

5. 实验设置

5.1. 数据集

实验使用了从 UniProtNCBIEnsembl 和其他资源中收集的154个基因组。这些基因组包括151个后生动物基因组和3个非动物全动物界(Holozoa)单细胞生物基因组。物种选择聚焦于陆地化事件节点两侧的物种,以代表动物的多样性。

  • 基因组数量: 154个基因组。
  • 蛋白质序列总数: 3,934,362条。
  • 同源基因组 (HGs) 数量: 483,458个。
  • 陆地化事件节点: 11个,包括轮虫(Bdelloidea)、寡毛类(Clitellata)、柄眼目(Stylommatophora,陆生腹足纲)、线虫(Nematoda)、缓步动物(Tardigrada)、有爪动物(Onychophora)、蛛形纲(Arachnida)、多足纲(Myriapoda)、卷尾虫(Armadillidium,鼠妇)、六足纲(Hexapoda,昆虫及其近亲)和四足动物(Tetrapoda,陆生脊椎动物)。
  • 数据质量评估: 基因组质量通过 BUSCO v.5.4.7 评估,优先选择完整性大于85%且碎片化程度小于15%的基因组。尽管如此,为了确保物种多样性和系统发育覆盖,也选择了一些未完全满足此标准的基因组。

5.2. 评估指标

论文中使用了多种评估指标来量化基因组变化、功能差异和模型拟合度。

  1. P 值 (P-value):
    • 概念定义: 在假设检验中,P值是指在原假设(null hypothesis)为真的前提下,观察到当前或更极端结果的概率。P值越小,表明观察到的结果越不可能由随机机会引起,从而支持拒绝原假设,接受备择假设(alternative hypothesis)。在本文中,PP 值用于评估基因增益率、功能富集、基因家族扩张/收缩以及半陆生/完全陆生群体间差异的统计显著性。
    • 数学公式: PP 值没有一个统一的数学公式,它取决于所使用的具体统计检验(例如 Fisher's exact testlikelihood ratio testpermutation test)。它通常表示为: P=P(data or more extreme dataH0 is true) P = P( \text{data or more extreme data} \mid H_0 \text{ is true} )
    • 符号解释:
      • P()P(\cdot): 概率。
      • data or more extreme data\text{data or more extreme data}: 观察到的数据或比观察数据更极端的数据。
      • H0 is trueH_0 \text{ is true}: 原假设为真(例如,没有基因增益率的差异,没有功能富集)。
  2. R 方值 (R2R^2, Coefficient of Determination):
    • 概念定义:PERMANOVAPermutational Multivariate Analysis of Variance,置换多元方差分析)中, R2R^2 表示由分组变量(例如,半陆生与完全陆生)解释的变异(variance)比例。其值介于0和1之间, R2R^2 越高表明分组变量对数据变异的解释能力越强。
    • 数学公式:PERMANOVA 中, R2R^2 的计算基于平方和(sum of squares),类似于单变量方差分析: R2=SSASSTR^2 = \frac{SS_A}{SS_T}
    • 符号解释:
      • SSASS_A: 组间平方和,表示由分组变量(AA)解释的变异。
      • SSTSS_T: 总平方和,表示数据的总变异。
  3. 对数似然值 (-InL, Negative Log-Likelihood):
    • 概念定义: -InL 是统计模型拟合优度的一个度量。在最大似然估计中,目标是找到使似然函数最大化的模型参数。等价地,这也可以通过最小化负对数似然函数来实现。 -InL 值越小,表示模型对观测数据的拟合越好。在本文中,CAFE5CODEML 使用该值来评估基因家族演化模型和支长估计的拟合度。
    • 数学公式: 假设观测数据为 DD,模型参数为 θθ,似然函数为 L(θD)L(θ \mid D)。负对数似然函数定义为: lnL(θD)- \ln L(\theta \mid D)
    • 符号解释:
      • ln\ln: 自然对数。
      • L(θD)L(\theta \mid D): 在给定模型参数 θθ 下观测到数据 DD 的似然函数。
  4. 有效样本量 (Effective Sample Size, ESS):
    • 概念定义: 在马尔可夫链蒙特卡洛(MCMC)模拟中,ESS 衡量了采样的独立性。由于 MCMC 采样点之间通常存在自相关性,实际独立样本的数量小于总样本量。ESS 越高,表明 MCMC 链混合(mixing)得更好,自相关性较低,对参数的估计也越可靠。通常,ESS 超过200被认为是收敛良好的指标。在本文的分子钟分析中,Tracer v.1.7.2 用于评估 MCMC 运行的 ESS
    • 数学公式: 对于一个参数 θθMCMC 样本,ESS 可以近似计算为: ESS=N1+2k=1ρk \text{ESS} = \frac{N}{1 + 2 \sum_{k=1}^{\infty} \rho_k}
    • 符号解释:
      • NN: MCMC 样本的总数。
      • ρk\rho_k: MCMC 链中滞后 kk 时的自相关系数。
  5. Jaccard 相异度 (Jaccard Dissimilarity):
    • 概念定义: Jaccard 相异度(也称 Jaccard 距离)是衡量两个集合之间差异的指标。它等于两个集合不共享的元素数量除以两个集合所有元素的总数(即并集的大小)。其值介于0和1之间,0表示两个集合完全相同,1表示两个集合完全不同(没有共同元素)。在本文中,用于量化陆生和水生 GO term 概况之间的差异,以及半陆生和完全陆生物种之间 GO termPfam 存在/缺失概况的差异。
    • 数学公式: 对于两个集合 AABBJdissimilarity(A,B)=1Jsimilarity(A,B)=1ABAB=ABABAB J_{\text{dissimilarity}}(A, B) = 1 - J_{\text{similarity}}(A, B) = 1 - \frac{|A \cap B|}{|A \cup B|} = \frac{|A \cup B| - |A \cap B|}{|A \cup B|}
    • 符号解释:
      • AB|A \cap B|: 集合 AABB 的交集大小(共同元素的数量)。
      • AB|A \cup B|: 集合 AABB 的并集大小(所有元素的总数)。

5.3. 对比基线

本文的对比基线并非传统意义上的模型基线,而是主要通过以下方式进行比较分析:

  • 陆生节点与其祖先节点: 比较陆地化事件节点与其直接祖先节点(ancestors)的基因组内容和功能,以识别在陆地化过程中发生变化的基因家族。

  • 陆生与水生物种: 通过置换检验(permutation test)比较陆生谱系与随机选择的水生谱系在新型基因增益率和功能组成上的差异,以确定陆生适应的独特性。

  • 半陆生与完全陆生物种: 通过 PCoAPERMANOVA 比较这两类不同生活方式的陆生物种在新型基因功能组成上的差异模式。

  • 不同陆地化事件之间: 通过 UpSet 图等方式,识别不同陆地化事件之间共享的基因增益、丢失和功能,以揭示趋同进化的程度。

    这种比较方法使得研究能够揭示陆地化事件中基因组和功能层面的普遍模式和特异性适应。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 基因组动态与周转

研究发现,陆地化节点普遍表现出大规模的基因增益和基因丢失周转(图2)。

  • 基因增益(新型基因和扩展基因): 大多数陆生谱系显示出比其直接祖先更高的基因增益,其中轮虫、线虫、四足动物和陆生腹足纲动物(主要通过基因扩展)的新型基因丰度最高。然而,蛛形纲和六足纲表现出较低的新型基因增益,多足纲的新型基因增益也较低。

  • 基因丢失(丢失基因和收缩基因): 基因丢失在陆生谱系中也普遍存在,线虫、缓步动物、有爪动物和轮虫表现出最大的基因丢失。蛛形纲和六足纲的基因丢失水平较低,陆生腹足纲、四足动物和轮虫的基因丢失没有显著增加。

  • 基因周转的显著性: 置换检验(Extended Data Fig. 3a)证实,陆生谱系中观察到的新型基因出现速率显著高于水生节点(P=0.0015P = 0.0015)。这表明大多数陆地化事件都伴随着高水平的基因周转,反映了动物从水生到陆生过渡过程中基因组对新环境挑战的可塑性。蛛形纲和六足纲的较低可塑性可能暗示其进化更倾向于基因共选(gene co-option)而非新基因的产生。

    下图(原文 Fig. 2)展示了11个陆生动物事件节点及其三个直接祖先的同源基因(HG)数量:

    Fig. 2 | Comparison of HG content across terrestrial nodes and their ancestors. A total of 154 genomes were analysed to infer HGs and reconstruct ancestral states. Each bar chart represents one terre… 该图像是图表,展示了11个陆生动物事件节点及其三个直接祖先的同源基因(HG)数量。每个柱状图分别量化了五类同源基因:新型、新型核心、扩展、收缩和丢失,y轴显示了各类同源基因的数量,为理解动物的陆地化历程提供了重要数据。

下图(原文 Extended Data Fig. 3a)展示了新型HG增益速率的置换检验结果:

该图像是一个柱状图,展示了新型HG增益速率的分布情况。在图中,X轴表示每百万年内的新型HG增益数量,Y轴表示计数。红线标记了观察到的增益速率为4.900,p值为0.0015,显示出该速率的显著性。 该图像是一个柱状图,展示了新型HG增益速率的分布情况。在图中,X轴表示每百万年内的新型HG增益数量,Y轴表示计数。红线标记了观察到的增益速率为4.900,p值为0.0015,显示出该速率的显著性。

6.1.2. 基因增益的趋同功能

为了推断11个陆地化事件的功能趋同性,研究使用 GO 术语和 Pfam 蛋白质结构域对新型和新型核心 HGs 进行了注释。

  • 共享 GO 术语: 发现有118个 GO 术语(新型 HGs)和26个 GO 术语(新型核心 HGs)在至少10个节点的不同组合中共享(图3a,Supplementary Table 4)。这些趋同出现的新型基因家族主要参与:

    • 渗透调节 (Osmosis): 细胞水运输的调节。
    • 新陈代谢 (Metabolism): 特别是脂肪酸代谢,可能与饮食变化有关。
    • 繁殖 (Reproduction)。
    • 解毒 (Detoxification)。
    • 感官接收和对刺激的反应 (Sensory reception and reaction to stimuli)。
  • 最特异性 GO 功能(图3b): 在新型 HGs 中,55个“最特异性”的 GO 功能包括运动、膜离子运输和转运蛋白活性(渗透调节)、对刺激的反应和神经元功能(刺激检测和反应),以及代谢、繁殖和发育过程(生命周期和饮食适应)。细胞组分包括质膜(plasma membrane,与更好的营养吸收、细胞屏障和解毒有关)和含蛋白质复合体(protein-containing complex,膜蛋白插入的关键因素)。

  • 共享 Pfam 结构域(图3c): Pfam 结构域的分析也印证了这些功能,包括通过神经递质门控离子通道(neurotransmitter-gated ion channel)结构域实现的渗透调节,通过跨膜受体(transmembrane receptor)实现的刺激和神经元功能,以及通过细胞色素 P450 实现的解毒。

  • 扩展 HGs 的趋同功能(图4a): 对早于这些转变的基因家族,研究发现有10个 HGs 在不同组合的四个陆地节点中显著扩展,这些家族涉及解毒、氧化应激、新陈代谢和刺激接收。著名例子包括在异源生物代谢中起关键作用的细胞色素 P450、植物毒素代谢的黄素单加氧酶(flavin-containing monooxygenases)以及减少活性氧的谷胱甘肽 S-转移酶GG 蛋白偶联受体家族的扩展也值得注意,其对感知气味和光线等环境刺激至关重要。

    这些结果共同表明,基因增益(包括新型、新型核心和扩展基因家族)是所有水生到陆生转变的关键驱动因素,涉及刺激反应、氧化应激、脂质代谢和离子转运蛋白活性等功能在适应过程中发挥重要作用。此外,置换检验(Extended Data Fig. 3b)也证实了陆生谱系的功能库与水生谱系显著不同。

下图(原文 Fig. 3)展示了动物陆地化过程中共享的基因组功能(GO)术语和 Pfam 域的分布:

Fig. 3 | Convergent functional landscape of gene novelty in animal terrestrialization. a, Distribution of shared GO terms of gene novelty across terrestrialization. Bars indicate the number of GO ter… 该图像是图表,展示了动物陆地化过程中共享的基因组功能(GO)术语和Pfam域的分布。a部分显示至少十个陆地节点共享的新颖GO术语的数量,b部分为这些GO术语分类的树状图,而c部分则比较了不同陆地节点之间共享的Pfam域数量。

下图(原文 Fig. 4a)展示了共享扩展 HGs 的趋同模式:

Fig. 4 | Convergent patterns of shared expanded and contracted HGs across animal terrestrialization. a, Shared expanded HGs across terrestrial nodes. b, Shared contracted HGs across terrestrial nodes… 该图像是图表,展示了动物陆地化过程中共享的扩展和收缩HGs的汇聚模式。图中包含了11个陆地节点中共享扩展HGs(图a)和共享收缩HGs(图b)的UpSet图,直观地显示了不同组别之间的交集和共享情况。

下图(原文 Extended Data Fig. 3b)展示了 Jaccard 距离的置换检验结果:

该图像是一个直方图,展示了 Jaccard 距离的频率分布。图中显示,观察到的 Jaccard 距离为 0.583,p 值为 0。 该图像是一个直方图,展示了 Jaccard 距离的频率分布。图中显示,观察到的 Jaccard 距离为 0.583,p 值为 0。

6.1.3. 基因丢失的陆地适应标志

基因丢失也是陆地事件中重要的遗传变化。

  • 丢失 HGs(图2,Supplementary Fig. 7): 在大多数节点中,丢失 HGs 的数量相对高于基因增益。Dbl-homology domain 基因家族在11个陆地事件中的8个中丢失,pleckstrin-homology domain 基因家族在7个中丢失。这两个结构域都是 Rho GTPases 鸟嘌呤核苷酸交换因子(RhoGEF)的组分,与再生(神经元和肌肉)和伤口愈合有关。其他丢失的 HGs 包括叶绿素酶蛋白家族(可能指示陆地化过程中的饮食转变)和 Shugoshin C-terminal domain 蛋白(与繁殖中的染色体分离和凝聚调节有关)。

  • 收缩 HGs(图4b): 有4个 HGs 在至少四个陆生谱系中显示出趋同的拷贝数减少。这些包括氯离子通道蛋白(渗透调节)、两种不同的碳水化合物硫基转移酶(细胞外通信和粘附)以及褪黑素相关受体(昼夜节律)。

    下图(原文 Fig. 4b)展示了共享收缩 HGs 的趋同模式:

    Fig. 4 | Convergent patterns of shared expanded and contracted HGs across animal terrestrialization. a, Shared expanded HGs across terrestrial nodes. b, Shared contracted HGs across terrestrial nodes… 该图像是图表,展示了动物陆地化过程中共享的扩展和收缩HGs的汇聚模式。图中包含了11个陆地节点中共享扩展HGs(图a)和共享收缩HGs(图b)的UpSet图,直观地显示了不同组别之间的交集和共享情况。

6.1.4. 半陆生与完全陆生谱系

根据对水的依赖程度,研究将陆生谱系分为半陆生(需要潮湿环境)和完全陆生(较少依赖水)。

  • 功能组成差异: PCoA 分析(图5)显示,半陆生和完全陆生群体在新型基因相关的 GO 术语和 Pfam 组成上存在部分但显著的分离(GOterms:R2=0.0995,P<0.01;Pfams:R2=0.0992,P<0.01GO terms: R^2 = 0.0995, P < 0.01; Pfams: R^2 = 0.0992, P < 0.01)。

  • 半陆生策略: 携带“扩张且多功能”的环境适应工具包,强调角质层重塑、视觉发育和应激反应。它们共享广泛的生物功能,包括循环系统发育、渗透调节、营养处理、肌肉功能、能量代谢、解毒和感官响应机制。这些适应性使半陆生动物能够应对土壤依赖性环境,从气体交换、运动、营养吸收等基本生存需求到渗透压应激和污染物暴露等环境挑战。

  • 完全陆生策略: 显示出“小型且精简”的基因组适应性,主要集中在神经元发育和离子膜稳态上。它们在基因新颖性相关功能上的趋同性有限,新型基因中没有共享的 GO 术语,只有少数共享的扩展 HGs。大部分共享适应性存在于节肢动物内部。仅在鼠妇和陆生蜗牛之间共享葡萄糖转运和刺激感知机制,表明完全陆生谱系可能通过多样化的而非共同的适应模式进化。

    下图(原文 Fig. 5)展示了基于 GO 术语和 Pfam 域的 PCoA 分析结果:

    Fig. 5 | PCoA of GO terms and Pfam domains associated with novel genes in semi- and fully terrestrial species. a, PCoA of Jaccard dissimilarities based on GO terms presence/absence profiles. b, PCoA… 该图像是图5的统计图,展示了基于GO术语(左图)和Pfam域(右图)的PCoA分析结果。每个点代表61种采样的陆生物种,颜色表示不同的分类群。图中椭圆显示了半陆生(橙色)和完全陆生(绿色)物种的聚类模式,第一和第二主坐标分别解释了19.9%和15.6%的变异性。

6.1.5. 陆地化事件中的独特适应

除了趋同模式,每个陆地化节点也展现出独特的适应性。

  • 轮虫: 独特的应激抵抗基因,包括对干燥、极端温度和辐射的抵抗。
  • 寡毛类: 神经系统和肌肉适应。
  • 陆生蜗牛: 壳形成、粘液分泌和夏蛰基因。
  • 线虫: 角质层相关基因。
  • 缓步动物: 独特的应激抵抗基因。
  • 有爪动物: 与氧气适应和营养吸收相关,与鼠妇共享部分特征。
  • 节肢动物(六足纲、多足纲、蛛形纲和鼠妇): 趋同进化出外骨骼结构、保水和感官发育等特征。例如,多足纲和六足纲扩展了与外骨骼蜡层合成相关的基因家族,用于防水。视黄醇结合蛋白基因(retinol-binding protein genes)在节肢动物中扩展,以适应陆地光照条件下的视觉。六足纲在扩展基因中富集了与蜕皮(如萜类代谢、保幼激素代谢、类固醇代谢)和视觉(如视紫红质生物合成)相关的 GO 注释。
  • 四足动物: 陆生脊椎动物显示出与免疫功能相关的富集 GO 注释,例如 TT 细胞共刺激、活化 TT 细胞增殖的正调节和先天免疫相关过程(如中性粒细胞脱颗粒)。这些功能在扩展基因家族中也发现,如 Ly-6/uPAR 家族、siglecs、粘蛋白(mucins)和抵抗素(resistin)。这支持了先天免疫对于进化出具有活跃角质化过程和抵抗性角质层(stratum corneum)的专业化和强化表皮至关重要,以防御陆生环境中的病原体。

6.1.6. 陆地化的时间窗口

分子进化时间线(图1)支持动物对陆地的征服发生在三个主要时间窗口,这些窗口可能不重叠,并可能被数百万年分隔,每个都为陆地生态系统的复杂性做出了贡献。

  • 第一个时间窗口(中寒武纪至中奥陶纪,约5.15亿-4.736亿年前): 与早期陆生植物兴起大致重叠。线虫、多足纲、六足纲和蛛形纲是首批适应陆地的动物。这些早期陆生物种发展了缓解干燥和提供结构支持的特征,如节肢动物的外骨骼和线虫的角质层。基因增益功能与角质层形成、外骨骼维护、脂质代谢以及对干旱、过度光照和氧化应激的反应相关,这与在隐花植物和苔藓植物覆盖的、斑驳且间歇性湿润的陆地环境中选择保水和应激耐受性一致。

  • 第二个时间窗口(晚泥盆纪至早石炭纪): 这是一个周期性洪水、土壤加深和季节性湿地的时期。寡毛类环节动物(4.645亿-2.628亿年前)和第一批四足动物(3.512亿-3.377亿年前)独立适应陆地。四足动物进化出用于运动的肢体、用于空气呼吸的肺和减少失水的水分屏障皮肤。寡毛类适应了其神经和肌肉系统以应对陆生挑战,增强了运动和抗干燥能力。

  • 第三个时间窗口(白垩纪,1.3亿-0.86亿年前): 轮虫(1.809亿-0.784亿年前)和陆生腹足纲动物(1.271亿-0.393亿年前)在这一时期适应陆地,并与恐龙、早期哺乳动物和鸟类共同生活。轮虫进化出卓越的应激耐受机制,包括对干燥、极端温度和辐射的抵抗。陆生蜗牛发展了壳形成、粘液分泌和夏蛰等适应性,以抵御多样的气候条件。在分子层面,这两个类群都表现出 HGs 的基因扩展,包括铵转运蛋白(水和离子稳态)、NADP 依赖性氧化还原酶和 GG 蛋白偶联受体(应激抵抗)。这些共享的适应性可能反映了白垩纪温室环境的特征,包括高海平面、被子植物扩张、沿海湿地和季节性干燥的微生境,这些环境有利于水和离子的保存以及广泛的应激耐受性。

    下图(原文 Fig. 1)展示了祖先基因组重建和动物陆地化时间轴:

    Fig. 1 | Reconstruction of ancestral genomes and timescale across animal terrestrialization. The phylogeny is based on 154 sampled taxa, with taxon sampling numbers shown after clade names in parenth… 该图像是图表,展示了动物陆地化过程中的祖先基因组重建和时间轴。图中包含154种取样分类的信息及其对应的进化时间,陆地事件以绿色文本突出显示,相关基因组内容分为新型基因组、新型核心基因组、扩展基因组、收缩基因组和丢失基因组,支谱长度与进化时间成比例。

6.2. 数据呈现 (表格)

以下是原文 Extended Data Table 1 的结果:

Novel Genes associated with terrestrialisation-linked GOs in human
Gene Symbol Protein Name Protein Class Biological Functions
APOA2 Apolipoprotein A-lIl transfer/carrier protein (PC00219) lipid metabolism
IL27 Interleukin-27 subunit alpha immunity and response to stimuli
OSM Oncostatin-M
XCL1 XCL2 Lymphotactin Cytokine SCM-1 beta intercellular signal molecule (PC00207)
CXCL16 C-X-C motif chemokine 16 Tumor necrosis factor ligand
TNFSF18 FLT3LG superfamily member 18 Fms-related tyrosine kinase 3 ligand
CD1A, CD1B, CD1C, CD1E T-cell surface glycoprotein
CD1D Antigen-presenting glycoprotein defense/immunity protein (PC00090)
TMIGD2 CD1d Transmembrane and immunoglobulin domain-containing protein 2 Urokinase plasminogen activator cell adhesion molecule (PC00069)
PLAUR surface receptor Ly6_PLAUR domain-containing transmembrane signal receptor (PC00197)
LYPD3 protein 3 Megakaryocyte and platelet blood cell function regulation
MPIG6B inhibitory receptor G6b
SPP1 Osteopontin intercellular signal molecule (PC00207) bone regeneration
ENAM Enamelin structural protein (PC00211) teeth development retinal cell -to-cell
GPR152 Probable G-protein coupled receptor 152 transmembrane signal receptor (PC00197) communication
AKAP3, AKAP, KAP5 A-kinase anchor protein scaffold/adaptor protein (PC00226) reproductive strategies
DKKL1 Dickkopf-like protein 1 Zinc finger protein 239 membrane traffic protein (PC00150) gene-specific transcriptional regulator
ZNF239 (PC00264)
TBC1D21 TBC1 domain family member 21 Protein phosphatase 1 regulatory protein -binding activity modulator PC095) neurodevelopment
PPP1R3F subunit 3F Lysine-specific demethylase
HR hairless regulatory protein (PC00077) chromatin/chromatin-binding, or- hair-cycle regulation (suggesting skin barrier)
Novel Genes associated with terrestrialisation-linked GOs in fruit fly
Pof Protein painting of fourth RNA metabolism protein (PC00031) gene -specific transcriptional regulator reproductive strategies
MESR4 Misexpression suppressor of ras 4, isoform A (PC00264)
Ir64a, Ir75d, Ir31a, Ir84a Ionotropic receptor transmembrane signal receptor (PC00197) sensory activity (response to stimuli)
Gr39b Putative gustatory receptor 39b

6.3. 消融实验/参数分析

论文中没有明确进行传统的消融实验(ablation study)来验证模型各组件的贡献。然而,在 CAFE5 的基因家族扩张/收缩推断过程中,作者进行了模型选择和参数分析:

  • lambda 模型选择: 对于 CAFE5,研究测试了两种和三种 lambda 模型(lambda 代表基因家族的出生-死亡率)。通过似然比检验(likelihood ratio test)和卡方分布(chi-squared distribution),发现三次 lambda 模型对于 LophotrochozoaEcdysozoa 更具优势。然而,对 Deuterostomia,尽管统计检验倾向于三次 lambda 模型,但模拟测试显示两次 lambda 模型的值更稳定,因此选择了后者。这表明在应用 CAFE5 时,作者进行了参数敏感性分析和模型选择,以确保结果的稳健性。

  • MCMC 运行收敛性: 在分子钟分析中,作者进行了六次独立的 MCMC 运行,并使用 Tracer 评估了收敛性(ESS 超过200)。这确保了分子钟估计结果的可靠性。

    这些步骤虽然不是典型的算法消融实验,但在方法学上体现了对参数选择和模型稳健性的考量。

7. 总结与思考

7.1. 结论总结

本文通过对21个动物门中154个基因组的全面比较基因组分析,揭示了动物从水生到陆生的11个独立过渡事件中基因组进化的趋同模式。研究发现,尽管每个陆地化事件的基因增益和丢失模式是独特的,但相似的生物功能(如渗透调节、应激反应、免疫、感官接收、新陈代谢和繁殖)却反复出现,这强烈支持了陆地适应在基因组层面的可预测性。

研究进一步区分了半陆生和完全陆生谱系,发现半陆生物种倾向于发展“扩张且多功能”的环境适应工具包,而完全陆生谱系则表现出“小型且精简”的基因组适应性,且其功能趋同性较低。这表明不同的陆地化程度可能导致不同的基因组适应策略。

此外,分子钟分析确定了动物陆地化在过去4.87亿年间发生了三个主要时间窗口,每个窗口都与地球上重大的生态和地质变化相吻合,进一步巩固了陆生植物的兴起与早期陆生动物的出现之间的时间一致性。总而言之,陆生动物生命中许多基因组适应是趋同的,表明存在普遍可预测的分子响应,但每个谱系也通过其独特的进化历史、基因组背景和生态背景展示了偶然性适应。

7.2. 局限性与未来工作

作者在讨论中坦诚地指出了研究的局限性:

  • 陆地化分类的复杂性: 陆地性的定义并非普遍接受,例如对“半陆生”和“完全陆生”的划分可能存在多种分类标准(如隐匿型、变水型和恒水型生物)。未来的研究需要采用更多样的分类标准进行比较。

  • 丢失和收缩基因注释的挑战: 对于在模式生物中丢失或显著收缩的基因,其功能注释变得困难,因为缺乏参考信息或只能依赖远缘同源物,这可能无法准确反映其在特定谱系中的功能。

  • 基因复制事件的精确推断: CAFE5 推断基因扩展是基于拷贝数变化,而非基因树,因此无法精确识别基因复制事件的具体发生时间点(是在陆地化节点还是在谱系内部独立发生)。

  • 系统发育位置的不确定性: 某些类群的系统发育关系仍存在争议(如螯肢动物内部关系),这可能影响陆地化事件的解释。

  • 分类群采样有限: 对于缓步动物、有爪动物和鼠妇等某些谱系,可用的基因组数量有限,可能导致 HGs 数量不能完全代表整个类群的基因内容。

    基于这些局限性,作者提出了未来的研究方向:

  • 随着基因组测序的不断发展,将会有更多物种的基因组数据可用,从而改进采样深度。

  • 需要开发更先进的注释工具(例如机器学习方法,如语言模型),以克服序列差异和同源物有限带来的挑战,尤其是在注释丢失和收缩基因方面。

  • 通过整合基于基因树的方法,更精确地推断基因家族扩张事件,以更准确地定位复制事件。

7.3. 个人启发与批判

  • 启发:

    • 趋同与偶然性的辩证统一: 本文最深刻的启发在于其对趋同进化和偶然性之间复杂关系的阐释。尽管陆地化是一个多路径的事件,但在功能层面却呈现出高度的趋同,这表明生命对基本物理和生理挑战的响应存在“可预测性”。同时,每个谱系又保留了其独特的适应路径,体现了偶然性在特定环境和历史背景下的作用。这种平衡观点对于理解其他重大进化转变(例如从水生到空中,或从陆生到水生)也具有重要的指导意义。
    • 多维度分析的价值: 研究不仅关注基因序列变化,还深入到 GO 术语、Pfam 结构域等功能层面,并结合分子钟构建时间框架,再与古生态背景结合,形成了多维度、宏观与微观相结合的综合分析,极大地增强了结论的可靠性和说服力。InterEvo 框架的提出,为研究其他复杂性状的趋同进化提供了范式。
    • 区分陆生程度的重要性: 半陆生和完全陆生之间基因组适应策略的差异,提示我们在研究生物进化时,需要更细致地划分生态位和生活史策略,而非简单地二元分类。这可以为更精确地预测生物对环境变化的响应提供线索。
    • 基因组塑性与适应: 陆地化过程中大规模的基因组周转(增益和丢失),强调了基因组在面对新环境挑战时所展现出的巨大塑性,这对于理解物种形成和生态适应的机制至关重要。
  • 批判:

    • 陆地化定义和分类的潜在模糊性: 尽管作者承认了陆地化分类的挑战,但这种分类的非普遍性仍可能影响某些结论的普适性。例如,“半陆生”和“完全陆生”的界限在某些物种中可能并非截然分明,这可能导致一些物种的分类存在争议,从而影响 PCoA 等分析结果的解释。未来的研究可以探索更量化的陆地依赖性指标,而非仅仅是基于分类学家的主观判断。

    • 功能注释的局限: 对于大量新型基因或在模式生物中丢失的基因,功能注释的准确性和完整性是一个挑战。如果这些基因具有高度特异性或全新的功能,现有基于同源性的注释方法可能无法完全捕获,可能低估了某些谱系的独特适应性。语言模型等新兴 AI 工具在蛋白质功能预测方面的潜力,确实是未来可以探索的方向。

    • 基因复制机制的细节: CAFE5 仅推断基因拷贝数的变化,而没有详细说明这些基因复制事件是串联复制、片段复制还是全基因组复制。不同机制的基因复制对基因功能分化和新功能获得可能具有不同的影响。未来结合基因树分析,精确识别复制类型和发生时间,将为理解基因家族扩展的驱动力提供更深入的见解。

    • 环境与基因组的因果关系: 本文揭示了陆地化事件与特定基因组适应(功能)之间的高度相关性,并将其与古生态背景联系起来。然而,确定确切的因果关系仍然是一个挑战。例如,是环境压力导致了基因组变化,还是基因组的预适应性使得特定环境的殖民成为可能?未来的研究可以结合实验进化或基因编辑技术,在模式生物中验证特定基因或功能对陆地适应的贡献。

      总的来说,这篇论文提供了一个开创性的、大规模的比较基因组学视角,极大地深化了我们对动物陆地化复杂过程的理解。它不仅揭示了进化中普遍存在的趋同模式,也强调了每个谱系独特历史背景的重要性,为未来的进化生物学研究奠定了坚实的基础。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。