AiPaper
论文状态:已完成

Polyclonal-to-monoclonal transition in colorectal precancerous evolution

发表:2024/10/30
原文链接
价格:0.10
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究利用基于碱基编辑的DNA条形码系统,揭示了结直肠癌前病变的起源与演变,显示出多克隆向单克隆的转变过程。高分辨率单细胞谱系分析发现,肿瘤中存在多个独立细胞谱系并行扩增,这为结直肠癌的早期干预提供了新见解。

摘要

Unravelling the origin and evolution of precancerous lesions is crucial for preventing malignant transformation, yet our current knowledge remains limited. Here we used a base editor-enabled DNA barcoding system to comprehensively map single-cell phylogenies in mouse models of intestinal tumorigenesis induced by inflammation or loss of the Apc gene. Through quantitative analysis of high-resolution phylogenies, we identified tens of independent cell lineages undergoing parallel clonal expansions within each lesion. We also found polyclonal origins of human sporadic colorectal polyps through bulk whole-exome sequencing and single-gland whole-genome sequencing. Genomic and clinical data support a model of polyclonal- to-monoclonal transition, with monoclonal lesions representing a more advanced stage.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

结直肠癌前演变中的多克隆向单克隆转变 (Polyclonal-to-monoclonal transition in colorectal precancerous evolution)

1.2. 作者

Zhaolian Lu, Shanlan Mo, Duo Xie, Xiangwei Zhai, Shanjun Deng, Kantian Zhou, Kun Wang, Xueling Kang, Hao Zhang, Juanzhen Tong, Liangzhen Hou, Huijuan Hu, Xuefei Li, Da Zhou, Leo Tsz On Lee, Li Liu, Yaxi Zhu, Jing Yan, Ping Lan, Jiguang Wang, Zhen He, Xionglei He & Zheng Hu

主要贡献者来自中国的研究机构,包括中国科学院深圳先进技术研究院 (Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences) 和中山大学附属第六医院 (The Sixth Affiliated Hospital of Sun Yat-sen University)。

1.3. 发表期刊/会议

Nature (自然)。 Nature 是全球顶级的综合性科学期刊之一,在自然科学领域享有极高的声誉和影响力,发表的研究通常具有重大科学突破和广泛影响力。

1.4. 发表年份

2024年10月30日 (Published online: 30 October 2024)

1.5. 摘要

揭示癌前病变的起源和演变对于预防恶性转化至关重要,但我们目前的知识仍然有限。本文利用一种基于碱基编辑器 (base editor-enabled) 的 DNA 条形码系统,在炎症或 Apc 基因缺失诱导的肠道肿瘤发生小鼠模型中,全面绘制了单细胞谱系 (single-cell phylogenies)。通过对高分辨率谱系的定量分析,我们发现每个病变内有数十个独立的细胞谱系 (cell lineages) 正在进行平行的克隆扩增 (parallel clonal expansions)。我们还通过大块全外显子组测序 (bulk whole-exome sequencing) 和单腺体全基因组测序 (single-gland whole-genome sequencing) 发现了人类散发性结直肠息肉 (sporadic colorectal polyps) 的多克隆起源。基因组和临床数据支持了一种从多克隆向单克隆转变 (polyclonal-to-monoclonal transition) 的模型,其中单克隆病变 (monoclonal lesions) 代表着更晚期的阶段。单细胞 RNA 测序 (single-cell RNA sequencing, scRNA-seq) 显示,在早期的多克隆病变中存在广泛的细胞间相互作用 (intercellular interactions),但在单克隆转变过程中,这些相互作用显著减少。因此,我们的数据表明结直肠癌前病变通常由许多不同的谱系建立,并强调了它们在癌症形成最初阶段的协同作用。这些发现为结直肠癌的早期干预提供了新的见解。

1.6. 原文链接

/files/papers/691c4e2b25edee2b759f32e3/paper.pdf 这是一个直接指向 PDF 文件的链接,表明论文已在线发表。


2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 癌前病变 (precancerous lesions) 的起源和演变机制是理解和预防癌症恶性转化 (malignant transformation) 的关键,然而目前对此的认识仍然非常有限。特别是在结直肠癌 (Colorectal Cancer, CRC) 领域,尽管腺瘤-癌序列 (adenoma-carcinoma sequence) 描述了肿瘤发展路径,但关于病变形成初期细胞起源、克隆性动态 (clonal dynamics) 及其潜在机制的理解仍不深入。

为什么这个问题在当前领域是重要的:

  • 癌症预防与早期干预: 早期识别和理解癌前病变的演变过程,对于开发有效的癌症早期筛查和干预策略至关重要。
  • 时间跨度长,研究难度大: 癌前阶段通常持续数年,期间的事件难以准确捕捉和追踪,这给精确识别肿瘤起始的最初事件带来了巨大挑战。
  • 克隆性争议: 癌症研究中一个基本问题是肿瘤起源于单个祖细胞 (monoclonal origin) 还是多个不同祖细胞 (polyclonal origin)。现有研究表明两者皆有可能,但其普遍性、时间动态和机制仍不明确。

现有研究存在的具体挑战或空白 (Gap):

  • 分辨率不足: 传统的基因组测序方法通常只能揭示已形成的肿瘤中的主要克隆,对病变形成初期的单细胞谱系演变缺乏足够的分辨率。
  • 动物模型与人类数据的整合: 需要更先进的技术在小鼠模型中高分辨率地追踪细胞谱系,并将其发现与人类临床样本进行验证。
  • 细胞间相互作用的忽视: 现有研究多关注单个细胞的突变积累,对癌前阶段细胞间相互作用 (intercellular interactions) 在肿瘤演变中的作用关注不足。

这篇论文的切入点或创新思路: 本文通过引入一种高分辨率的 DNA 条形码谱系追踪系统 SMALT (Substitution mutation-aided lineage-tracing),首次在单细胞层面系统性地绘制了小鼠肠道癌前病变的谱系图。同时,结合人类大块测序和单腺体测序数据,验证了小鼠模型的发现,并进一步通过单细胞 RNA 测序 (scRNA-seq) 揭示了细胞状态和细胞间相互作用在肿瘤演变中的动态变化。这种多层次、多组学的整合方法为深入理解癌前病变提供了独特视角。

2.2. 核心贡献/主要发现

这篇论文的主要贡献和关键发现可以总结如下:

  • 开发并应用了高分辨率单细胞谱系追踪系统 SMALT 首次在小鼠肠道肿瘤发生模型中,以单细胞分辨率全面绘制了癌前病变的谱系图,克服了传统方法分辨率不足的限制。SMALT 系统能够检测到远超 CRISPR-Cas9 方法的突变位点,提供了前所未有的分辨率。

  • 揭示了结直肠癌前病变的多克隆起源和多克隆向单克隆转变的模式 (Polyclonal-to-monoclonal transition):

    • 在炎症诱导和 Apc 基因缺失小鼠模型中,发现癌前病变通常由数十个独立的细胞谱系并行扩增所建立(即多克隆起源)。
    • 通过对人类散发性结直肠息肉的基因组分析(大块全外显子组测序和单腺体全基因组测序),也证实了多克隆起源的普遍性。
    • 提供了基因组和临床数据支持,单克隆病变代表了更晚期、更具侵袭性的阶段,而多克隆病变则处于早期。
  • 量化了起始祖细胞数量 (Np) 和克隆扩张: 首次利用 TarCA (Targeting coalescent analysis) 方法量化了每个病变的起始祖细胞数量,并发现单克隆病变具有更高的突变负担和驱动基因突变,表明其经历了更多的细胞分裂和更强的选择压力。

  • 揭示了细胞间相互作用在早期肿瘤演变中的关键作用:

    • scRNA-seq 数据显示,在早期的多克隆病变中存在广泛的细胞间相互作用(特别是与细胞外基质组织和细胞黏附相关的相互作用),而在向单克隆转变的过程中,这些相互作用显著减少。
    • 发现 Krt20+Krt20+ 肿瘤细胞在早期病变中贡献了显著的细胞间相互作用,并表现出促炎特性。
    • 免疫抑制性肿瘤微环境(如 Trem2+Trem2+ 巨噬细胞的富集)可能促进了单克隆转变。
  • 提出了“招募模型”来解释多克隆起始: 鉴于起始克隆数量之多,作者提出肿瘤起始可能涉及邻近正常细胞被具有驱动突变的克隆招募的机制,而非仅仅是随机碰撞。

  • 对癌症早期干预的意义: 这些发现为理解肿瘤起始的复杂性提供了新的框架,并指出了通过靶向细胞间相互作用来进行早期干预的潜在机会。


3. 预备知识与相关工作

3.1. 基础概念

理解本文需要一些生物学和基因组学背景知识,特别是关于癌症发生、细胞谱系追踪和高通量测序的知识。

  • 癌前病变 (Precancerous lesions):指组织或细胞发生异常增生,但尚未达到恶性肿瘤诊断标准的病变。它们有发展为癌症的风险,但并非一定会癌变。在结直肠癌中,常见的癌前病变是腺瘤性息肉 (adenomatous polyps)。

  • 恶性转化 (Malignant transformation):细胞从正常状态转变为具有无限增殖、侵袭和转移能力的癌细胞的过程。这是癌症发生的核心环节。

  • 结直肠癌 (Colorectal Cancer, CRC):起源于结肠或直肠黏膜上皮的恶性肿瘤。它是全球第三大常见癌症,也是癌症相关死亡的第二大原因。

  • 腺瘤-癌序列 (Adenoma-carcinoma sequence):描述结直肠癌发生发展的一个经典模型。它认为大多数结直肠癌是由良性腺瘤(息肉)逐渐发展而来,经过细胞异型增生、局部侵袭,最终演变为侵袭性癌。

  • 克隆性 (Clonality)

    • 单克隆起源 (Monoclonal origin):指肿瘤或病变起源于单个异常细胞的扩增。
    • 多克隆起源 (Polyclonal origin):指肿瘤或病变起源于多个独立的、不同的异常细胞的扩增,这些细胞可能各自具有不同的起始突变。
  • 谱系追踪 (Lineage tracing):一种实验技术,用于追踪细胞的后代,从而了解细胞在发育、再生或疾病(如癌症)中的起源、分化和命运。它通常通过在祖细胞中引入可遗传的标记(如 DNA 条形码)来实现。

  • DNA 条形码 (DNA barcoding):一段独特的 DNA 序列,用作细胞的遗传标记。当细胞分裂时,这个条形码会被复制并传递给所有子细胞,从而形成一个可追溯的谱系。通过在条形码中积累随机突变,可以构建更精细的细胞谱系树。

  • 碱基编辑器 (Base editor):一种基因编辑工具,能够将 DNARNA 中的一个碱基直接转换成另一个碱基,而不需要切割 DNA 双螺旋结构。例如,HsAID 是一种 胞苷脱氨酶 (cytidine deaminase),可以将 胞嘧啶 (C) 转换成 尿嘧啶 (U),随后在 DNA 复制时 UU 会被识别为 胸腺嘧啶 (T),从而实现 CCTT 的突变。

  • 全外显子组测序 (Whole-exome sequencing, WES):一种高通量测序技术,专门针对基因组中所有蛋白质编码区域(外显子)进行测序。外显子组虽然只占人类基因组的约 1%,但包含了大约 85% 的已知致病突变。

  • 全基因组测序 (Whole-genome sequencing, WGS):一种高通量测序技术,对生物体整个基因组的 DNA 序列进行测序。它能捕获基因组中的所有变异类型,包括单核苷酸多态性 (SNP)、插入缺失 (indel)、结构变异 (SV) 和拷贝数变异 (CNV)。

  • 单细胞 RNA 测序 (Single-cell RNA sequencing, scRNA-seq):一种先进的分子生物学技术,可以测量单个细胞中的 RNA 表达水平。这使得研究人员能够揭示细胞异质性 (cellular heterogeneity)、识别新的细胞类型、追踪细胞命运以及分析细胞间相互作用。

  • 炎症性肠病 (Inflammatory Bowel Disease, IBD):包括克罗恩病和溃疡性结肠炎等慢性炎症性疾病,会增加结直肠癌的风险。论文中 AOM/DSS 小鼠模型即模拟了炎症诱导的肠道肿瘤发生。

  • 家族性腺瘤性息肉病 (Familial Adenomatous Polyposis, FAP):一种遗传性疾病,患者结直肠中会形成数百甚至数千个腺瘤性息肉,且有极高的几率发展为结直肠癌。论文中 ApcMin/+ApcMin/+ 小鼠模型即是模拟 FAP 的常见模型。

3.2. 前人工作与技术演进

  • 癌症克隆起源的早期认识: 早期研究已经发现,恶性肿瘤通常是单克隆起源的,即由单个细胞的突变和扩增而来。然而,也有研究(例如参考文献 9,10,18219, 10, 18-21)指出,癌前病变,甚至某些恶性肿瘤,可能具有多克隆起源,即多个不同的细胞谱系在同一个病变内并行扩增。但这些研究通常缺乏高分辨率的单细胞谱系信息。
  • 传统谱系追踪方法的局限性: 传统的谱系追踪方法,如基于内源性标记或少数几个遗传标记的方法,往往分辨率较低,难以捕捉到复杂的克隆动态和细胞间的相互作用。
  • CRISPR-Cas9 谱系追踪的兴起: 近年来,基于 CRISPR-Cas9 的谱系追踪技术(例如参考文献 1, 2, 11, 12, 14)极大地推动了细胞谱系研究。这些系统通过在基因组中引入可被 CRISPR-Cas9 编辑的序列(通常是多个靶位点),在细胞分裂过程中积累随机突变,从而构建细胞谱系树。
  • 本文的创新:SMALT 系统: 本文使用的 SMALT (Substitution mutation-aided lineage-tracing) 系统是在 CRISPR-Cas9 谱系追踪基础上的进一步发展。它利用碱基编辑器 HsAID 诱导 C 到 T 的定点突变,并在一个长达 3-kbDNA 条形码上产生大量可变位点(数百个突变位点),远超 CRISPR-Cas9 方法通常的 10-60 个可变位点。这种高密度突变能够提供更高分辨率的谱系图,更精细地解析细胞间的亲缘关系和克隆动态。
  • 多组学整合: 以前的工作通常侧重于单一组学数据(如基因组测序),而本文通过整合 SMALT 谱系追踪、全基因组/外显子组测序和单细胞 RNA 测序,提供了一个更全面的视角,不仅追踪了细胞的遗传谱系,还分析了其基因组景观和微环境中的细胞状态与相互作用。这种多组学方法在理解肿瘤起始和演进的复杂性方面具有显著优势。

3.3. 差异化分析

本文的方法与现有工作相比,主要差异化和创新点体现在以下几个方面:

  • 谱系追踪分辨率显著提升:

    • 现有 CRISPR-Cas9 方法: 通常只能提供 10-60 个可变突变位点。
    • 本文 SMALT 方法: 利用 HsAID 碱基编辑器在一个 3-kbDNA 条形码上,平均检测到 836 个突变位点(95% 置信区间 752-920),大大提高了谱系追踪的分辨率。这使得能够构建具有更多内部分支事件的谱系树,更精细地识别和量化并行扩增的克隆。例如,SMALT 树比 CRISPR-Cas9 谱系树的内部分支事件多 3.3 倍。
  • 首次系统性地全面绘制癌前单细胞谱系图:

    • 现有研究: 尽管有研究表明癌前病变可能具有多克隆起源,但缺乏在单细胞层面高分辨率、系统性地绘制整个病变谱系图的能力。
    • 本文: SMALT 系统允许在小鼠模型中全面映射单细胞谱系,揭示了癌前病变初期由数十个独立细胞谱系建立的普遍现象。
  • 整合多组学数据验证和深入机制探索:

    • 现有研究: 往往侧重于单一组学数据,难以全面揭示肿瘤演进的生物学复杂性。
    • 本文: 将小鼠模型中的 SMALT 谱系追踪数据与小鼠 WGSscRNA-seq 以及人类散发性息肉的 bulk WES 和单腺体 WGS 数据相结合。这种多层次、多物种的整合验证了多克隆向单克隆转变的模型,并进一步通过 scRNA-seq 探索了细胞状态和细胞间相互作用在这一转变中的作用。
  • 量化了起始祖细胞数量和其时间动态:

    • 现有研究: 尽管提出了多克隆起源的概念,但很少能精确量化起始祖细胞的数量,也无法推断其起始时间。
    • 本文: 首次使用 TarCA 方法量化了每个病变中创始祖细胞的数量 (Np),并开发了估算祖细胞起始时间的方法,提供了癌前病变起始的定量时间轴。
  • 强调了早期癌前病变中的细胞间相互作用:

    • 现有研究: 通常将肿瘤演变视为单个克隆突变积累和选择的过程。
    • 本文: 首次揭示了在早期的多克隆病变中存在广泛的细胞间相互作用,特别是细胞外基质组织和细胞黏附相关的相互作用,并在单克隆转变过程中显著减少。这强调了细胞“合作”在肿瘤起始阶段的重要性,而非仅仅是竞争。
  • 提出了“招募模型”而非随机碰撞来解释多克隆起源: 鉴于在同一物理位点内发现大量并行扩增的起始克隆,作者提出这更可能是一个“招募模型”,即具有驱动突变的克隆能够招募邻近的野生型细胞参与肿瘤形成,而非仅仅是多个独立克隆随机碰撞形成病变。


4. 方法论

本文采用了一种综合性的多组学方法来研究结直肠癌前病变的起源和演变,核心在于 SMALT 谱系追踪系统。以下是详细的方法论拆解:

4.1. 方法原理

本文的核心方法原理是利用 SMALT (Substitution mutation-aided lineage-tracing) 谱系追踪系统,在细胞分裂过程中,通过一个碱基编辑器在基因组中的特定 DNA 条形码区域诱导高密度的 CCTT 突变。由于这些突变是随着 DNA 复制而发生的,因此细胞中积累的突变数量可以反映其经历的细胞分裂次数。通过对这些条形码进行高通量测序,并结合生物信息学方法,可以重建单个细胞的谱系树,从而追踪细胞的起源和演变。

此外,该研究将 SMALT 谱系追踪与小鼠模型(炎症诱导和 Apc 基因缺失)、全基因组测序 (WGS)、单细胞 RNA 测序 (scRNA-seq) 相结合,并在人类散发性结直肠息肉中通过大块全外显子组测序 (WES) 和单腺体全基因组测序进行验证。通过这些多组学数据,研究旨在揭示癌前病变的克隆性、基因组景观、细胞状态及其在肿瘤微环境中的相互作用,最终建立一个多克隆向单克隆转变的肿瘤演变模型。

4.2. 核心方法详解 (逐层深入)

4.2.1. SMALT 谱系追踪系统

SMALT 系统由三个关键组件构成:HsAIDiScel 和一个 3kbDNA3-kb DNA 条形码。

  • HsAID (Homo sapiens activation-induced cytidine deaminase): 这是一种经过优化的 胞苷脱氨酶 (cytidine deaminase),相比野生型,它诱导 胞嘧啶 (C)胸腺嘧啶 (T) 突变的速度提高了大约 30 倍。HsAID 的关键特性是,它将 CC 脱氨基形成 尿嘧啶 (U),而 UU 只有在 DNA 复制之后才会被细胞的修复机制识别并替换为 TT。这意味着条形码中 CCTT 突变的数量直接反映了细胞经历的相对分裂次数。

  • iScel (inactive variant of the homing nuclease I-Scel): iScel 是一种非活性的归巢核酸内切酶变体。它能够特异性结合一个 18bpDNA18-bp DNA 模体 (motif),从而将 HsAID 引导到 DNA 条形码中的目标区域,确保突变发生在预设的条形码区域内。HsAIDiScel 被融合在一起 (HsAID-iScel)。

  • 3-kb DNA 条形码: 这个条形码是基因组中的一个 3-kb 区域,包含 16 个串联重复靶点,每个靶点都带有一个 18 bp iScel 结合位点和一个 156 bp 编辑区域。这种设计确保了有足够的靶位点来积累大量的突变,从而提供高分辨率的谱系信息。

  • 诱导表达: HsAID-iScel 的表达受到四环素(doxycycline)的诱导。这意味着研究人员可以通过给予 doxycycline 来控制突变积累的起始和持续时间。

    下图(原文 Fig. 1a)展示了 SMALT 谱系追踪系统的示意图:

    Fig. 1 | SMALT lineage tracing of mouse intestinal tumorigenesis. a, Schematic of the SMALT lineage tracing system. b, Intestinal tumorigenesis with AOM/DSS or ApcMin/+ mice carrying the engineered SMALT system in the germline. Normal and neoplastic samples were collected for long-read sequencing of lineage barcodes (barcode-seq), WGS and scRNA-seq. WT, wild type. c, The relative proportions of distinct substitution types in barcodes across all samples.Apc_, normal small intestine inApcMinmice; Apc_P, polyps in ApcMin/+mice; IBD_N, normal tissue in AOM/DSS mice; IBD_T, neoplasms in AOM/DSS mice; WT_N, wild-type normal colon. d, Per site mutation frequency on barcodes across all samples. e, Correlation of per site mutation frequency between mouse and fruit fly. Pearson's r and Pvalue are shown. f, Violin plot showing the number of barcode mutations per cellin different tissues. The mean number of mutations and the number of cells are shown. \(P\) values are by two-sided Wilcoxon rank-sum test. g, The proportion of unique barcode alleles and the number of cells with the unique barcode in WT_N \(( n = 4 )\) , Apc_N \(( n = 4 )\) ,iBD_N \(_ { n = 1 9 } )\) A_ \(( n = 2 1 )\) and IBD_T \(( n = 3 0 )\) , respectively. Data are mean \(\\pm\) s.e.m. h, The proportion of unique barcode alleles and the number of samples with the unique barcode. In box plots, the horizontal line is the median, the box delineates the 25th to 75th centiles, and whiskers extend to 1.5 times the interquartile range. 该图像是示意图,展示了SMALT谱系追踪系统在小鼠肠道肿瘤发生中的应用。图中包括样本类型的比例(c),不同样本中的突变频率(d),以及小鼠实验所用的模型(b)。其中,PP 值和其他相关数据展示了不同样本对比的结果,强调了多克隆至单克隆的转变在肿瘤进展中的重要性。

4.2.2. 小鼠模型建立与样本收集

  • 小鼠品系: SMALT 系统被敲入 C57BL/6JC57BL/6J 背景的小鼠基因组的 Rosa26 位点,建立了 SMALT 小鼠 (Rosa26rtTA;H11SMALTRosa26^rtTA; H11^SMALT)。

  • 肿瘤模型:

    • 炎症诱导模型 (AOM/DSS):Rosa26rtTA;H11SMALTRosa26^rtTA; H11^SMALT 雄性小鼠施用 偶氮甲烷 (Azoxymethane, AOM)葡聚糖硫酸钠 (Dextran Sodium Sulfate, DSS)AOM 是致癌剂,DSS 诱导结肠炎症。这模拟了炎症性肠病 (IBD) 相关的结直肠癌。实验方案包括 AOM 单次注射,随后进行三个周期的 DSS 处理(7DSS 水,14 天普通水)。
    • Apc 基因缺失模型 (ApcMin/+Apc^Min/+):ApcMin/+Apc^Min/+ 小鼠与 Rosa26rtTA;H11SMALTRosa26^rtTA; H11^SMALT 小鼠交配,产生 Rosa26rtTA;H11SMALT;ApcMin/+Rosa26^rtTA; H11^SMALT; Apc^Min/+ 雄性小鼠。ApcMin/+Apc^Min/+ 小鼠由于 Apc 基因缺失而自发形成肠道息肉,模拟人类家族性腺瘤性息肉病 (FAP)。
  • Doxycycline 诱导: 在实验开始前三天,所有小鼠都喂食含有 doxycycline 的食物,以诱导 HsAID-iScel 表达,启动条形码突变。

  • 样本类型: 收集了来自 AOM/DSS 模型的肿瘤 (IBDTIBD_T) 和正常组织 (IBDNIBD_N),ApcMin/+Apc^Min/+ 模型的息肉 (ApcPApc_P) 和正常小肠组织 (ApcNApc_N),以及野生型正常结肠 (WTNWT_N)。此外,还收集了来自 SMALT 小鼠的 6 个非受累器官的样本。

  • 细胞分选: 使用 MojoSort 磁珠分选技术,根据细胞表面标志物 CD45EpCAM 分离免疫细胞 (CD45+CD45+) 和上皮细胞 (EpCAM+EpCAM+)。

    下图(原文 Fig. 1bExtended Data Fig. 1c-e)展示了小鼠实验的示意图和体重记录:

    Fig. 1 | SMALT lineage tracing of mouse intestinal tumorigenesis. a, Schematic of the SMALT lineage tracing system. b, Intestinal tumorigenesis with AOM/DSS or ApcMin/+ mice carrying the engineered SMALT system in the germline. Normal and neoplastic samples were collected for long-read sequencing of lineage barcodes (barcode-seq), WGS and scRNA-seq. WT, wild type. c, The relative proportions of distinct substitution types in barcodes across all samples.Apc_, normal small intestine inApcMinmice; Apc_P, polyps in ApcMin/+mice; IBD_N, normal tissue in AOM/DSS mice; IBD_T, neoplasms in AOM/DSS mice; WT_N, wild-type normal colon. d, Per site mutation frequency on barcodes across all samples. e, Correlation of per site mutation frequency between mouse and fruit fly. Pearson's r and Pvalue are shown. f, Violin plot showing the number of barcode mutations per cellin different tissues. The mean number of mutations and the number of cells are shown. \(P\) values are by two-sided Wilcoxon rank-sum test. g, The proportion of unique barcode alleles and the number of cells with the unique barcode in WT_N \(( n = 4 )\) , Apc_N \(( n = 4 )\) ,iBD_N \(_ { n = 1 9 } )\) A_ \(( n = 2 1 )\) and IBD_T \(( n = 3 0 )\) , respectively. Data are mean \(\\pm\) s.e.m. h, The proportion of unique barcode alleles and the number of samples with the unique barcode. In box plots, the horizontal line is the median, the box delineates the 25th to 75th centiles, and whiskers extend to 1.5 times the interquartile range. 该图像是示意图,展示了SMALT谱系追踪系统在小鼠肠道肿瘤发生中的应用。图中包括样本类型的比例(c),不同样本中的突变频率(d),以及小鼠实验所用的模型(b)。其中,PP 值和其他相关数据展示了不同样本对比的结果,强调了多克隆至单克隆的转变在肿瘤进展中的重要性。


该图像是示意图,展示了在小鼠模型中,炎症或Apc基因缺失诱导的肠道肿瘤发生过程。图中包含不同阶段的样本采集时间线,展示了肠道收集、肿瘤和息肉的收集过程,以及对应的体重变化数据。 该图像是示意图,展示了在小鼠模型中,炎症或Apc基因缺失诱导的肠道肿瘤发生过程。图中包含不同阶段的样本采集时间线,展示了肠道收集、肿瘤和息肉的收集过程,以及对应的体重变化数据。

4.2.3. 条形码测序与数据处理

  • 文库制备: 从分选的细胞中提取基因组 DNA。使用三步策略扩增 3-kb 目标条形码:
    1. P1 引物扩增,引入 14ntUMI14-nt UMI (Unique Molecular Identifier) 到每个 DNA 分子。
    2. P2P3 引物进行 10 轮巢式 PCR 扩增,富集带索引的目标分子。
    3. P4P5 引物扩增,引入 6-nt 对称样本条形码进行多重分析。
  • 测序: 使用 PacBio 公司的 Sequel IIe 平台进行高保真 (HIFI) 长读长测序,以恢复完整的 3-kb 条形码序列。每个测序运行产生约 200 Gb 原始数据和超过 100 万条 HIFI 读长。由于每个细胞基因组中只有一个 3-kb 条形码副本,因此每条 PacBio 共有读长代表一个单细胞。
  • 生物信息学处理:
    1. 使用 pbccs v6.2.0 生成 CCS (Circular Consensus Sequencing) 读长。
    2. 使用 minimap2 v2.17CCS 读长比对到 3-kb 目标条形码参考序列。
    3. 使用 usearch v11.0.667UMI 进行分组,并折叠为共有 CCS 读长,识别核苷酸替换。
    4. 细胞过滤: 过滤掉高质量 CCS 读长中条形码突变少于 2 个的细胞。为了进一步区分肿瘤细胞和非肿瘤细胞,采用了两种策略:
      • 如果肿瘤样本的突变计数呈现双峰分布,则移除较低突变簇中的细胞。
      • 如果没有双峰分布,则移除突变计数低于邻近正常细胞 75 百分位数的细胞。

4.2.4. 谱系树重建

  • 方法: 使用 IQ-TREE v2.2.2.7 软件,通过最大似然法 (maximum-likelihood method) 重建系统发育树 (phylogenetic trees)。将原始 3-kb 条形码序列作为系统发育树的根。

  • 突变模型: 采用 GTR2+FO+R10GTR2+FO+R10 最优替代模型。

  • 鲁棒性评估: 运行 1000 轮超快自举近似 (ultrafast bootstrap approximation) 和 1000SH-like 近似似然比检验 (SH-like approximate likelihood ratio test) 来评估树重建的鲁棒性。

  • 热点位点: 通过分析野生型正常细胞中的突变频率,识别出 14 个突变频率超过 0.04 且存在于至少两个正常样本中的热点位点 (hotspot sites)。

    下图(原文 Fig.2acFig. 2a-c)展示了单细胞谱系图和自举值:

    该图像是图表,展示了不同肠道肿瘤样本的单细胞谱系分析结果。左侧标记为“Polyclonal”的部分显示了多克隆样本,右侧标记为“Monoclonal”的部分显示了单克隆样本。每个样本的树状图显示了细胞的演化关系,并附有样本的总细胞数(n)及进一步克隆的数量(Np)。这些数据支持了多克隆向单克隆转变的模型,提示样本的肿瘤发展阶段。 该图像是图表,展示了不同肠道肿瘤样本的单细胞谱系分析结果。左侧标记为“Polyclonal”的部分显示了多克隆样本,右侧标记为“Monoclonal”的部分显示了单克隆样本。每个样本的树状图显示了细胞的演化关系,并附有样本的总细胞数(n)及进一步克隆的数量(Np)。这些数据支持了多克隆向单克隆转变的模型,提示样本的肿瘤发展阶段。

4.2.5. 人类样本全外显子组测序 (WES) 和全基因组测序 (WGS)

  • 样本来源: 107 名未接受治疗、无家族史的散发性癌前息肉和同步结直肠癌患者。收集了肿瘤 (TT)、息肉 (PP) 和邻近正常组织 (NN) 样本。
  • WES 数据处理:
    1. 使用 fastp v0.19.7 预处理 fastq 文件,然后使用 BWA-MEM 算法 (BWAv0.7.17r1188BWA v0.7.17-r1188) 比对到人类参考基因组 (GRCh38)。
    2. 遵循 GATK 最佳实践,使用 MarkDuplicatesBaseRecalibratorApplyBQSR 处理比对读长。
    3. 使用 Mutect2 识别每个肿瘤/正常对或息肉/正常对的体细胞单核苷酸变异 (SSNVs) 和小插入缺失 (indels)。通过 panel-of-normals (PoN) 过滤假阳性。
    4. 使用 TitanCNA v1.28.0 检测体细胞拷贝数变异 (SCNAs) 并估计肿瘤纯度 (purity) 和倍性 (ploidy)。
    5. 计算癌症细胞分数 (CCF):通过校正变异等位基因频率 (VAF)、肿瘤纯度、局部拷贝数和多重性来计算。
    6. 突变分类:CCF 95% 置信区间上限等于或大于 1 的突变定义为“克隆性” (clonal),否则为“亚克隆性” (subclonal)。
  • 单腺体 WGS 另外收集了一名散发性息肉患者 (B139) 的 5 个息肉中的 29 个肿瘤腺体和 3 个邻近正常隐窝。
    1. 手动分离单个腺体,提取 DNA,构建 WGS 文库并测序 (~21x 深度)。

    2. 使用 Mutect2Strelka v2.9.2 识别 SSNVs,并取共识变异集。过滤掉 VAF<0.15VAF < 0.15 或变异读长 <4< 4 的突变。

    3. 使用 Biopython 中的 neighbor-joining 方法重建腺体间的系统发育树。

    4. 使用 Sequenza v3.0.0 估计 SCNAs

      下图(原文 Fig. 3)展示了人类结直肠息肉的多克隆向单克隆转变:

      该图像是示意图,展示了不同基因型(Apc68 和 Apc72)下的小鼠肠道肿瘤的单细胞谱系图,显示了多克隆到单克隆转变的动态过程。图中包含多条分支,代表独立细胞谱系的并行扩展。整体布局提供了高分辨率的细胞谱系构建,支持多克隆肿瘤发展为单克隆肿瘤的模型。 该图像是示意图,展示了不同基因型(Apc68 和 Apc72)下的小鼠肠道肿瘤的单细胞谱系图,显示了多克隆到单克隆转变的动态过程。图中包含多条分支,代表独立细胞谱系的并行扩展。整体布局提供了高分辨率的细胞谱系构建,支持多克隆肿瘤发展为单克隆肿瘤的模型。

下图(原文 Extended Data Fig. 7)展示了单腺体 WGSH&E 图像和突变热图:

Fig3|Polyclonal-to-onoclonaltransitioninumansporadicolyps. a, A human cohort with sporadic premalignant polyps, including 107 patients with synchronous polyps and CRC. b, The distribution of CCFs reveals the clonality of each lesion. One representative polyclonal polyp (P_poly, B046P) and one monoclonal polyp (P_mono, B002P) are shown. c, The total somatic mutation burden in P_poly \(( n = 3 0 )\) , P_mono \(\\left( n = 7 2 \\right)\) or CRCs \(( n = 8 6 )\) after removing samples with low purity \(_ { ( < 0 . 2 5 ) }\) . d, Distribution of small (<1 cm) and large (≥1 cm) polyps. e, Distribution oflow-grade and high-grade dysplasias. f, Representative images of haematoxylin and eosin (H&E) staining. Scale bar, \(1 0 0 \\mu \\mathrm { m }\) Age distribution of participants. h, Percentage of patients carrying indicated putative driver mutations. \(^ { * } P < 0 . 0 5\) - \(^ { * * } P { < } 0 . 0 1\) - \(^ { * * * } P < 0 . 0 0 1\) ,one-sided 该图像是图表,展示了107名同时存在肠癌和陆续腺瘤患者的临床数据。包含不同类型腺瘤的克隆性质、突变负担、腺瘤大小、等级及患者年龄分布。图中显示的随机样本包含多克隆(P_poly)和单克隆(P_mono)腺瘤的比较。

4.2.6. 谱系分析与克隆性量化

  • 判断克隆性:
    • 单克隆病变 (Monoclonal lesions): 表现为单一的、占主导地位的肿瘤细胞单系支 (monophyletic clade),并具有共享的克隆性突变。
    • 多克隆病变 (Polyclonal lesions): 肿瘤细胞分散在多个系统发育谱系中,与正常细胞混合,通常没有克隆性突变。
  • 起始祖细胞数量 (Np) 估计: 使用 TarCA v0.1.0 (Targeting coalescent analysis) 方法估计每个肿瘤病变中创始祖细胞的数量 (Np)。
    • 定义: 祖细胞被定义为能够在病变中建立克隆扩增群体的祖先细胞。
    • 计算公式: Np=1/PrN_p = 1 / P_r 其中,PrP_r 是随机两个肿瘤细胞在树的单系支中共享一个共同祖先的概率。 Pr=Cmi2CNs2=(mi×(mi1))Ns×(Ns1) P_r = \frac{\sum C_{m_i}^2}{C_{N_s}^2} = \frac{\sum (m_i \times (m_i - 1))}{N_s \times (N_s - 1)} 其中,mim_i 是第 ii 个单系支中采样的肿瘤细胞数量,NsN_s 是样本中肿瘤细胞的总数。
    • 鲁棒性评估: 通过对细胞进行 20 次下采样 (downsampling) 来评估 Np 估计的鲁棒性。
  • 克隆扩张评分: 定义了一个衡量两个随机细胞系统发育相似性的评分来量化组织中的克隆扩张。
  • 祖细胞起始时间估计: 建立了一个方法来估计祖细胞的起始时间,即息肉形成的克隆扩增开始的时间。该方法利用了正常细胞的平均条形码突变负担 m0=μ0Tm_0 = \mu_0 T (其中 TT 是从受精卵到息肉采样的时间,μ0\mu_0 是正常细胞突变率)以及肿瘤细胞每个单系支内的突变负担 mIm_I。结合体外类器官培养数据估计的肿瘤细胞突变率与正常细胞突变率之比 rr,可以推算出起始时间 T0T_0
    • Extended Data Fig. 5a 中给出了示意图,公式关系为: μ0=m0,organoid culturedaysr=mI, organoid cultureμ0×daysT0=TmIrμ0 \mu_0 = \frac{m_{0, \text{organoid culture}}}{\text{days}} \\ r = \frac{m_{\text{I, organoid culture}}}{\mu_0 \times \text{days}} \\ T_0 = T - \frac{m_I}{r \cdot \mu_0}

    • 其中,m0,organoid culturem_{0, \text{organoid culture}}mI, organoid culturem_{\text{I, organoid culture}} 分别是正常类器官和肿瘤类器官在体外培养中累积的突变负担。

      下图(原文 Extended Data Fig. 5)展示了 ApcMin/+ApcMin/+ 小鼠息肉中创始祖细胞的数量和时间:

      该图像是一个图表,展示了Apc突变小鼠模型中,正常细胞和肿瘤前体细胞的进化图谱与较高分辨率的细胞系谱。包括不同时间点的肠道类器官的显微图像,表现出多克隆到单克隆转变的过程,并通过公式 \(m_t = rac{m_ au}{r-1}\) 描述突变负担变化。 该图像是一个图表,展示了Apc突变小鼠模型中,正常细胞和肿瘤前体细胞的进化图谱与较高分辨率的细胞系谱。包括不同时间点的肠道类器官的显微图像,表现出多克隆到单克隆转变的过程,并通过公式 mt=racmaur1m_t = rac{m_ au}{r-1} 描述突变负担变化。

4.2.7. dN/dS 分析

  • 目的: 衡量基因在肿瘤进化过程中所受到的选择压力。
  • 方法: 使用 dndscv v0.0.1.0 RR 包计算 dN/dS 比率。该包能估计非同义突变率 (dN) 与同义突变率 (dS) 之比,其中 dN 是每非同义位点的非同义突变数,dS 是每同义位点的同义突变数。
  • 分类: 分别对多克隆息肉、单克隆息肉和结直肠癌的突变集进行分析。
  • 驱动基因: 针对策展的 CRC 驱动基因列表进行分析,该列表合并了 TCGA 泛癌驱动基因和 COSMIC 癌症基因普查注释的 CRC 特异性驱动基因。

4.2.8. 单细胞 RNA 测序 (scRNA-seq) 和分析

  • 样本: 9AOM/DSS 结直肠肿瘤样本,以及整合了 2 个来自 Vega et al. (2022) 的正常结肠样本作为对照。
  • 文库制备: 使用 10x Genomics v2 化学试剂盒。
  • 数据处理:
    1. 使用 Cell Ranger v7.1 比对 scRNA-seq 数据到参考基因组 (mm10) 并量化 UMI
    2. 使用 Seurat v5.0 RR 包处理 UMI 矩阵。
    3. 质量控制: 保留至少 500 个基因且线粒体基因表达低于 15% 的细胞,并使用 DoubletFinder v2.0.3 识别并移除 doublets
    4. 归一化与整合: 使用 Seuratsctransform v2 进行归一化。使用 Harmony v1.1.0 进行批次效应校正和细胞整合。
    5. 聚类与细胞类型注释: 基于 Harmony 空间构建 KNN 图,使用 Louvain 算法进行两轮聚类。第一轮 resolution=0.1resolution=0.1 识别 8 种主要细胞类型(中性粒细胞、巨噬细胞、TT 细胞、BB 细胞、内皮细胞、上皮细胞、肥大细胞、成纤维细胞)。第二轮 resolution=0.4resolution=0.4 识别 26 个亚群,特别是将上皮细胞和巨噬细胞分别细分为 107 个亚群。
  • 差异表达基因分析 (DEG): 使用 SeuratFindAllMarkersFindMarkers 函数,通过 Wilcoxon rank-sum test 识别 DEG
  • 基因集富集分析 (GSEA): 使用 clusterProfiler 包,利用 Gene OntologyMSigDB 数据库中的 Hallmark 基因集进行富集分析,评估基因集在 DEG 列表中的过度表达情况。
  • 基因集变异分析 (GSVA): 使用 GSVA 包对单个细胞的特定基因集进行评分,用于将巨噬细胞分为 7 个类别。
  • 差异细胞丰度分析 (Differential cell abundance): 使用 miloR v1.8.1 识别不同细胞类型丰度的变化。通过在 KNN 图上构建部分重叠的 neighbourhoods,利用广义线性模型捕获细胞丰度的连续变化。
  • 细胞-细胞通讯分析 (Cell-cell communication):
    1. 使用 CellChat v1.6.1 推断样本内不同上皮细胞类型之间的相互作用。CellChat 不仅考虑配体和受体基因的表达水平,还考虑多聚体配体-受体复合物、可溶性激动剂/拮抗剂等结构成分。

    2. 通过对细胞对进行 50 次下采样,计算配体-受体对 (ligand-receptor pairs, LRIs) 的平均数量,并与病变克隆性 (1/Np1/Np) 进行相关性分析。

    3. 比较早期多克隆病变 (Np>3Np > 3) 和晚期单克隆病变 (Np<=3Np <= 3) 之间的 LRIs

    4. 使用 MultiNicheNetR v1.0.3 进行正交验证,该方法侧重于下游靶基因是否被配体调节。

      下图(原文 Fig. 4)展示了细胞间相互作用和多克隆到单克隆的演化模型:

      该图像是一个图表,展示了Apc突变小鼠模型中,正常细胞和肿瘤前体细胞的进化图谱与较高分辨率的细胞系谱。包括不同时间点的肠道类器官的显微图像,表现出多克隆到单克隆转变的过程,并通过公式 \(m_t = rac{m_ au}{r-1}\) 描述突变负担变化。 该图像是一个图表,展示了Apc突变小鼠模型中,正常细胞和肿瘤前体细胞的进化图谱与较高分辨率的细胞系谱。包括不同时间点的肠道类器官的显微图像,表现出多克隆到单克隆转变的过程,并通过公式 mt=racmaur1m_t = rac{m_ au}{r-1} 描述突变负担变化。

下图(原文 Extended Data Fig. 8)展示了 AOM/DSS 诱导结肠肿瘤的单细胞 RNA-seq 谱:

Fig. 4 | Intercellular interactions and polyclonal-to-monoclonal evolution model. a, scRNA-seq identifies 26 cell subclusters. b, Beeswarm plot of differential abundance for the cell subclusters along the increase of lesion clonality (measured by 1/Np). Each point represents a neighbourhood that contains a group of cells with similar transcriptomes. Cell neighbourhoods with spatial FDR \(< 0 . 1\) are highlighted in red for decreased abundance and blue for increased abundance. c, Subclusters of macrophages and the expression of Trem2, signatures of LA_TAMs and Reg_TAMs. d, Cell-cell communication between neoplastic epithelial subclusters inferred by CellChat. The nodes represent epithelial subclusters. The thickness of edges represents the average number of ligand-receptor interactions between every two subclusters from the 50 downsamplings (Methods). e, Correlation between lesion clonality \(\\bf ( 1 / N p )\) 该图像是图表,展示了小鼠模型中肿瘤进化的多克隆到单克隆转变过程。图中展示了细胞亚群的scRNA-seq分析,包含不同亚群的丰度差异,巨噬细胞亚群的表达,细胞间通信,以及肿瘤病变克隆性的相关性分析,表明多克隆起源向单克隆转变的过程。


5. 实验设置

5.1. 数据集

本研究使用了多物种、多层次的生物学数据集,以全面验证其核心发现。

  • 小鼠模型数据:

    • 单细胞谱系追踪数据: 来源于携带 SMALT 系统的 AOM/DSS 诱导的炎症性肠道肿瘤小鼠和 ApcMin/+Apc^Min/+ 基因缺失小鼠。
      • 30AOM/DSS 肿瘤样本 (IBDTIBD_T)。
      • 17ApcMin/+Apc^Min/+ 息肉样本 (ApcPApc_P)。
      • 26 个来自健康结肠、炎症结肠或 ApcMin/+Apc^Min/+ 小肠的正常组织样本。
      • 18 个来自 3SMALT 小鼠 6 个未受影响器官的样本。
      • 总计 260,922 个单细胞用于下游谱系分析。
    • 小鼠全基因组测序 (WGS) 数据:
      • 11IBDTIBD_T 样本和 4ApcPApc_P 样本,均匹配有健康样本。平均每个样本测序深度约 30x
    • 小鼠单细胞 RNA 测序 (scRNA-seq) 数据:
      • 9AOM/DSS 肿瘤样本。
      • 整合了来自 Vega et al. (2022)2 个野生型小鼠结肠正常样本 (GSE134255) 作为对照。
      • 总计 45,620 个高质量单细胞。
  • 人类临床样本数据:

    • 大块全外显子组测序 (bulk WES) 数据:
      • 107 名具有散发性癌前息肉和同步结直肠癌的初治患者。
      • 每个患者收集了同步的肿瘤 (TT)、息肉 (PP) 和邻近正常 (NN) 样本。
      • 平均测序深度大于 200x
    • 单腺体全基因组测序 (single-gland WGS) 数据:
      • 来自一名散发性息肉患者 (B139) 的 5 个独立息肉中的 29 个肿瘤腺体。

      • 3 个邻近正常隐窝。

      • 每个腺体平均测序深度约 21x

        这些数据集涵盖了从小鼠到人类、从单细胞到大块组织、从基因组到转录组的多个层面,提供了强有力的数据支持来验证和阐明癌前病变的演变过程。例如,人类 WES 数据集包含了大量患者的临床信息,如息肉大小、组织学分级等,有助于将基因组发现与临床表型联系起来。单腺体 WGS 数据则利用了结直肠腺体的克隆性特点,进一步验证了多克隆起源。

5.2. 评估指标

论文使用了多种评估指标来量化细胞谱系、基因组变异、克隆性以及细胞状态和相互作用。

5.2.1. 条形码突变计数 (Barcode mutation count)

  • 概念定义: SMALT 系统中,每个细胞的 3kbDNA3-kb DNA 条形码上检测到的 CCTT 突变的总数量。由于这些突变与 DNA 复制相关,因此突变计数可以作为细胞经历分裂次数的代理指标,反映其增殖历史。
  • 数学公式: 该指标是直接计数,没有复杂的数学公式,即简单统计每个条形码序列中相对于参考序列的 C>TC>T 变异数量。
  • 符号解释:
    • Barcode mutation count:每个细胞条形码中检测到的突变总数。

5.2.2. 创始祖细胞数量 (Number of founding progenitors, Np)

  • 概念定义: Np 衡量的是一个肿瘤病变由多少个独立的祖细胞起源。Np=1Np=1 表示单克隆起源,Np>1Np > 1 表示多克隆起源。它通过 TarCA (Targeting coalescent analysis) 方法从单细胞谱系树中估计得出。
  • 数学公式: Np=1/PrN_p = 1 / P_r 其中,PrP_r 是随机两个肿瘤细胞在系统发育树的单系支中共享一个共同祖先的概率。 Pr=i=1kCmi2CNs2=i=1k(mi×(mi1))Ns×(Ns1) P_r = \frac{\sum_{i=1}^{k} C_{m_i}^2}{C_{N_s}^2} = \frac{\sum_{i=1}^{k} (m_i \times (m_i - 1))}{N_s \times (N_s - 1)}
  • 符号解释:
    • NpN_p: 创始祖细胞数量。
    • PrP_r: 随机两个肿瘤细胞共享一个共同祖先的概率。
    • kk: 系统发育树中肿瘤细胞的单系支数量。
    • mim_i: 第 ii 个单系支中采样的肿瘤细胞数量。
    • NsN_s: 样本中肿瘤细胞的总数。
    • Cx2=x(x1)2C_x^2 = \frac{x(x-1)}{2}: 从 xx 个元素中选择 2 个元素的组合数。

5.2.3. 分支指数 (Branching index)

  • 概念定义: 用于量化谱系树的复杂程度和分辨率的指标。分支指数越高,表示谱系树的内部节点越多,分辨率越高,能更精细地解析细胞间的亲缘关系。
  • 数学公式: 论文中并未直接给出分支指数的数学公式,但通常它与树的内部节点数量、总节点数量或树深相关。一个常见的方法是计算内部节点到叶节点路径的平均长度,或者节点度分布等。本文将其与 CRISPR-Cas9 谱系树进行比较,以表明 SMALT 树具有更强的解析能力。
  • 符号解释:
    • Branching index:谱系树的内部节点丰富程度或复杂性指标。

5.2.4. 克隆扩张评分 (Clonal expansion score)

  • 概念定义: 衡量组织中细胞克隆扩张程度的指标。它通过计算两个随机选择的细胞在谱系树上的系统发育相似性来量化,相似性越高,表明克隆扩张越显著。
  • 数学公式: 论文中具体计算方法未在正文中详述,但提及是根据两个随机细胞的系统发育相似性计算(参见 Supplementary Fig. 14aMethods 部分)。
  • 符号解释:
    • Clonal expansion score:反映细胞群体克隆扩张程度的量化指标。

5.2.5. 总体体细胞突变负担 (Total somatic mutation burden)

  • 概念定义: 指示肿瘤基因组中积累的体细胞突变(SSNVsindels)的总数量。突变负担越高,通常表明肿瘤经历了更多的复制错误、暴露于致突变剂或具有功能缺陷的 DNA 修复机制。
  • 数学公式: 直接计数全基因组或全外显子组中检测到的体细胞突变总数,通常以每兆碱基 (Mb) 或每基因组的总数表示。
  • 符号解释:
    • Total somatic mutation burden:基因组中体细胞突变的总数量。

5.2.6. 候选驱动基因突变负担 (Putative driver mutation burden)

  • 概念定义: 指在已知的癌症驱动基因中检测到的突变数量。驱动基因突变被认为能够赋予细胞生长优势,从而驱动肿瘤的发生和发展。
  • 数学公式: 在预先定义的癌症驱动基因列表中,统计检测到的突变总数。
  • 符号解释:
    • Putative driver mutation burden:已知癌症驱动基因中突变的总数量。

5.2.7. 癌症细胞分数 (Cancer Cell Fraction, CCF)

  • 概念定义: 在肿瘤样本中,携带特定体细胞突变的癌细胞所占的比例。CCF 接近 1 的突变被认为是克隆性突变,存在于几乎所有癌细胞中;CCF<1CCF < 1 的突变则被认为是亚克隆性突变。
  • 数学公式: CCF 是通过校正变异等位基因频率 (VAF)、肿瘤纯度、局部拷贝数和倍性来计算的。具体计算方法可能因工具而异,但通常基于以下原则: CCF=VAF×(CNt×P+(1P)×CNn)P×copy_number_of_mutation CCF = \frac{VAF \times (CN_t \times P + (1-P) \times CN_n)}{P \times copy\_number\_of\_mutation} 其中:
    • VAF 是观察到的变异等位基因频率。
    • CNtCN_t 是肿瘤细胞的平均拷贝数(通常为 2,但可能因倍性而异)。
    • PP 是肿瘤样本的纯度(即样本中癌细胞的比例)。
    • CNnCN_n 是正常细胞的平均拷贝数(通常为 2)。
    • copy_number_of_mutation 是突变位点在肿瘤基因组中的实际拷贝数。
  • 符号解释:
    • CCF: 癌症细胞分数。
    • VAF: 变异等位基因频率。
    • PP: 肿瘤纯度。
    • CNtCN_t: 肿瘤细胞的平均拷贝数。
    • CNnCN_n: 正常细胞的平均拷贝数。
    • copy_number_of_mutation: 突变位点的拷贝数。

5.2.8. dN/dS 比率

  • 概念定义: 非同义突变率 (dN) 与同义突变率 (dS) 之比,用于评估基因在进化过程中所受到的选择压力。
    • dN/dS>1dN/dS > 1 表明正选择(有利突变被保留,常见于驱动基因)。
    • dN/dS<1dN/dS < 1 表明负选择(有害突变被清除,常见于看家基因)。
    • dN/dS=1dN/dS = 1 表明中性选择(突变随机积累)。
  • 数学公式: dndscv RR 包用于估计 dN/dS 比率,它采用统计模型来考虑基因特定的突变率和三核苷酸背景。虽然没有简单的单一位点公式,但其核心思想是计算: dN=非同义突变数量非同义位点数量dS=同义突变数量同义位点数量dNdS dN = \frac{\text{非同义突变数量}}{\text{非同义位点数量}} \\ dS = \frac{\text{同义突变数量}}{\text{同义位点数量}} \\ \frac{dN}{dS}
  • 符号解释:
    • dN: 每非同义位点的非同义突变数。
    • dS: 每同义位点的同义突变数。
    • dNdS\frac{dN}{dS}: 非同义突变率与同义突变率之比。

5.2.9. 归一化富集分数 (Normalized Enrichment Score, NES)

  • 概念定义: 在基因集富集分析 (GSEA) 中,NES 用于量化一个预定义的基因集在按基因表达水平排序的基因列表的顶部或底部富集的程度。NES 值的大小反映了富集的强度,正值表示上调富集,负值表示下调富集。
  • 数学公式: GSEA 的计算比较复杂,涉及排名基因列表、计算富集分数 (ES),然后对 ES 进行归一化以校正基因集大小和背景基因表达。其简化核心思想是: ES=giS,gi is hitrank(gi)pNHgiS,gi is miss1NNH ES = \sum_{g_i \in S, g_i \text{ is hit}} \frac{|rank(g_i)|^p}{N_H} - \sum_{g_i \notin S, g_i \text{ is miss}} \frac{1}{N_{NH}} 其中,SS 是基因集,rank(gi)rank(g_i) 是基因 gig_i 在排序列表中的排名,NHN_H 是命中基因数量,NNHN_{NH} 是未命中基因数量,pp 是加权指数。NES 则是 ES 的归一化版本,通常通过与随机排列的 ES 分布进行比较得到。
  • 符号解释:
    • NES: 归一化富集分数,用于衡量基因集在基因表达列表中的富集程度。

5.2.10. 空间假发现率 (Spatial FDR)

  • 概念定义:miloR 差异细胞丰度分析中,FDR 是校正多重假设检验引起的假阳性错误的指标。Spatial FDR 是针对空间上相关的 neighbourhoods 进行的 FDR 控制,确保识别到的差异丰度区域是统计显著的。
  • 数学公式: FDR 通常通过 Benjamini-Hochberg (BH) 方法计算,它将 pp 值排序并根据秩次调整。 FDRi=pi×Nranki FDR_i = p_i \times \frac{N}{rank_i} 其中,pip_i 是第 iineighbourhoodpp 值,NN 是总的 neighbourhood 数量,rankirank_ipip_i 在排序后的 pp 值列表中的秩次。
  • 符号解释:
    • FDR: 假发现率。
    • pip_i: 第 ii 个检验的原始 pp 值。
    • NN: 总的检验数量。
    • rankirank_i: 第 ii 个检验的 pp 值在所有 pp 值中的排序位置。

5.3. 对比基线

本研究在不同层面和不同物种中使用了多种对比基线来验证其发现和方法的有效性。

  • 技术层面:

    • SMALT 谱系树 vs. CRISPR-Cas9 谱系树: 论文将 SMALT 系统构建的谱系树(n=77n=77)与之前研究中基于 CRISPR-Cas9 的谱系树(n=4n=4n=85n=85)进行比较,以展示 SMALT 在分支指数和分辨率方面的优越性。
  • 小鼠模型层面:

    • 肿瘤组织 vs. 正常组织: 在基因组和谱系层面,将肿瘤样本(AOM/DSS 肿瘤,ApcMin/+Apc^Min/+ 息肉)与邻近正常组织或未受累器官进行比较,以识别肿瘤特异性的突变积累和克隆扩张。
    • 炎症性肿瘤 (AOM/DSS) vs. Apc 驱动肿瘤 (ApcMin/+Apc^Min/+): 比较两种不同起始机制的肿瘤模型,观察其克隆性动态和分子特征的异同。例如,发现 AOM/DSS 肿瘤的突变负担高于 ApcMin/+Apc^Min/+ 肿瘤。
    • 单克隆病变 vs. 多克隆病变: 这是核心对比之一。在 AOM/DSS 模型中,根据 Np 值将病变分为单克隆和多克隆,并比较它们的突变负担(条形码和 WGS)、驱动基因突变、克隆扩张分数和细胞适应性等,以支持“多克隆向单克隆转变”的模型。
  • 人类样本层面:

    • 息肉 (Polyp) vs. 结直肠癌 (CRC):107 名患者队列中,比较息肉和 CRC 样本的克隆性、突变负担、驱动基因突变频率以及临床病理特征(如大小、异型增生等级)。
    • 多克隆息肉 vs. 单克隆息肉: 根据 CCF 分布将息肉分为多克隆和单克隆,并比较它们的基因组特征 (SSNVs, SCNAs)、临床特征(大小、异型增生等级、患者年龄)以及驱动基因突变频率和 dN/dS 比率,以验证“多克隆向单克隆转变”模型在人类中的存在。
    • 单腺体 WGS 验证: 通过对单个患者 5 个息肉的 29 个腺体进行 WGS,与 3 个正常隐窝进行比较,并在腺体间构建谱系树,以独立验证息肉的多克隆起源。
  • 单细胞 RNA 测序层面:

    • 高克隆性病变 (Np<=3Np <= 3) vs. 低克隆性病变 (Np>3Np > 3): 比较这两种病变的细胞组成、细胞亚群丰度、基因表达谱、关键信号通路富集情况以及细胞间相互作用的模式,以揭示多克隆向单克隆转变过程中的微环境和细胞状态变化。

    • 癌前病变 vs. 正常结肠细胞: 与外部数据集中的正常结肠细胞进行比较,以识别癌前病变特异性的细胞类型和基因表达改变。


6. 实验结果与分析

6.1. 核心结果分析

本研究通过整合小鼠模型和人类样本的多组学数据,揭示了结直肠癌前病变从多克隆起源到单克隆转变的进化轨迹,并深入探讨了细胞状态和细胞间相互作用在这一过程中的动态变化。

6.1.1. SMALT 谱系追踪的高分辨率和多样性

  • 高多样性: 论文首先验证了 SMALT 系统的强大能力。超过 90% 的突变是 C/GT/A 转换,符合 HsAID 的作用机制。突变广泛分布在 3-kb 条形码上,平均每个样本观察到 836 个突变位点,远超 CRISPR-Cas9 方法(通常 10-60 个)。

  • 突变负担差异: 肿瘤细胞的条形码突变计数显著高于相邻正常细胞或其他器官的正常细胞,这表明肿瘤细胞经历了更多的细胞分裂。AOM/DSS 肿瘤的突变负担高于 ApcMin/+Apc^Min/+ 肿瘤,可能与 AOM 作为致突变剂诱导 C/G>T/AC/G>T/A 转换有关。

  • 高谱系条形码能力: 90% 的细胞具有独特的突变组合,显示了 SMALT 条形码极高的谱系追踪能力。

    下图(原文 Fig. 1f)展示了不同组织中每个细胞的条形码突变数量:

    Fig. 1 | SMALT lineage tracing of mouse intestinal tumorigenesis. a, Schematic of the SMALT lineage tracing system. b, Intestinal tumorigenesis with AOM/DSS or ApcMin/+ mice carrying the engineered SMALT system in the germline. Normal and neoplastic samples were collected for long-read sequencing of lineage barcodes (barcode-seq), WGS and scRNA-seq. WT, wild type. c, The relative proportions of distinct substitution types in barcodes across all samples.Apc_, normal small intestine inApcMinmice; Apc_P, polyps in ApcMin/+mice; IBD_N, normal tissue in AOM/DSS mice; IBD_T, neoplasms in AOM/DSS mice; WT_N, wild-type normal colon. d, Per site mutation frequency on barcodes across all samples. e, Correlation of per site mutation frequency between mouse and fruit fly. Pearson's r and Pvalue are shown. f, Violin plot showing the number of barcode mutations per cellin different tissues. The mean number of mutations and the number of cells are shown. \(P\) values are by two-sided Wilcoxon rank-sum test. g, The proportion of unique barcode alleles and the number of cells with the unique barcode in WT_N \(( n = 4 )\) , Apc_N \(( n = 4 )\) ,iBD_N \(_ { n = 1 9 } )\) A_ \(( n = 2 1 )\) and IBD_T \(( n = 3 0 )\) , respectively. Data are mean \(\\pm\) s.e.m. h, The proportion of unique barcode alleles and the number of samples with the unique barcode. In box plots, the horizontal line is the median, the box delineates the 25th to 75th centiles, and whiskers extend to 1.5 times the interquartile range. 该图像是示意图,展示了SMALT谱系追踪系统在小鼠肠道肿瘤发生中的应用。图中包括样本类型的比例(c),不同样本中的突变频率(d),以及小鼠实验所用的模型(b)。其中,PP 值和其他相关数据展示了不同样本对比的结果,强调了多克隆至单克隆的转变在肿瘤进展中的重要性。

6.1.2. 炎症驱动病变的多克隆起源和向单克隆转变

  • 多克隆普遍存在:30AOM/DSS 肿瘤中,大多数(66.766.7%\text{,}20/30)被鉴定为多克隆起源。这意味着在炎症驱动的肠道肿瘤发生中,多个独立的细胞谱系在同一物理位点内并行扩增是常见的。
  • 起始祖细胞数量 (Np): TarCA 分析显示,单克隆病变的 Np 估计值约为 1,而多克隆病变的 Np233 不等。这个估计值即使在细胞下采样和热点突变事件过滤后也保持鲁棒性。
  • 单克隆病变为更晚期阶段:
    • 突变负担: 单克隆病变显示出显著更高的条形码突变计数,以及全基因组测序 (WGS) 中更高的体细胞突变负担。

    • 驱动突变: 单克隆病变中候选驱动突变也更常见。

    • 克隆扩张与适应性: 单克隆病变表现出更强的克隆扩张,并具有更高的增殖适应性。

    • 选择压力: dN/dS 比率分析显示,单克隆病变中非同义突变与同义突变的比率更高,特别是在无义突变和剪接突变中,这表明在向单克隆转变过程中存在严格的选择压力。

    • 强亚克隆选择: 空间计算推断表明,即使在单克隆转变后,单克隆 AOM/DSS 肿瘤也经历了强大的亚克隆选择。

      下图(原文 Fig.2ehFig. 2e-h)展示了创始祖细胞数量、突变计数、体细胞突变负担和驱动突变负担:

      该图像是图表,展示了不同肠道肿瘤样本的单细胞谱系分析结果。左侧标记为“Polyclonal”的部分显示了多克隆样本,右侧标记为“Monoclonal”的部分显示了单克隆样本。每个样本的树状图显示了细胞的演化关系,并附有样本的总细胞数(n)及进一步克隆的数量(Np)。这些数据支持了多克隆向单克隆转变的模型,提示样本的肿瘤发展阶段。 该图像是图表,展示了不同肠道肿瘤样本的单细胞谱系分析结果。左侧标记为“Polyclonal”的部分显示了多克隆样本,右侧标记为“Monoclonal”的部分显示了单克隆样本。每个样本的树状图显示了细胞的演化关系,并附有样本的总细胞数(n)及进一步克隆的数量(Np)。这些数据支持了多克隆向单克隆转变的模型,提示样本的肿瘤发展阶段。

6.1.3. ApcMin/+Apc^Min/+ 小鼠息肉的多克隆起源

  • 高度多克隆性:ApcMin/+Apc^Min/+ 小鼠模型中,所有 17 个单个息肉都表现出多克隆起源。起始祖细胞数量 (Np) 估计范围从 4 到约 100,表明其多克隆性甚至高于 AOM/DSS 诱导的病变。

  • 局部克隆扩张: 尽管整体多克隆,但某些区域(例如息肉 Apc68_P5R1R5 区域)显示出更强的局部克隆扩张,具有更高的突变细胞频率和增殖适应性。

  • 起始时间: 祖细胞起始时间估计在 Apc68 小鼠中平均为出生后 95 天,在 Apc72 小鼠中为出生后 47 天,这相当于人类 FAP 患者在婴儿期即可发生肿瘤起始。

    下图(原文 Extended Data Fig. 4)展示了 ApcMin/+Apc^Min/+ 小鼠息肉的多克隆起源:

    该图像是示意图,展示了不同基因型(Apc68 和 Apc72)下的小鼠肠道肿瘤的单细胞谱系图,显示了多克隆到单克隆转变的动态过程。图中包含多条分支,代表独立细胞谱系的并行扩展。整体布局提供了高分辨率的细胞谱系构建,支持多克隆肿瘤发展为单克隆肿瘤的模型。 该图像是示意图,展示了不同基因型(Apc68 和 Apc72)下的小鼠肠道肿瘤的单细胞谱系图,显示了多克隆到单克隆转变的动态过程。图中包含多条分支,代表独立细胞谱系的并行扩展。整体布局提供了高分辨率的细胞谱系构建,支持多克隆肿瘤发展为单克隆肿瘤的模型。

6.1.4. 人类结直肠息肉的起源和演变

  • 人类数据验证: 通过对 107 名患者的散发性息肉和同步 CRC 进行 WES 分析,结果支持了在小鼠模型中观察到的多克隆向单克隆转变模型。

  • 克隆性分布: 多克隆起源在息肉中更常见(29.4%),而在 CRC 中则显著减少(8.1%),进一步证实了转变过程。

  • 临床病理学关联:

    • 突变负担: 多克隆息肉的 SSNVsSCNAs 数量均少于单克隆息肉,且两者均低于 CRC
    • 大小和等级: 多克隆息肉相对较小,且更常表现为低级别异型增生。
    • 患者年龄: 患有多克隆息肉的患者诊断时年龄较轻(平均 60 岁),而患有单克隆息肉的患者年龄较大(平均 66 岁)。
  • 驱动基因突变: KRAS 突变在单克隆息肉和 CRC 中常见,但在多克隆息肉中很少见(6.7%),这表明 KRAS 突变可能赋予克隆生长优势并促进多克隆向单克隆转变。

  • 单腺体 WGS 进一步验证: 对一名患者 5 个息肉的 29 个单腺体进行 WGS 分析,明确证实了人类散发性息肉中多克隆起源的普遍性。在多克隆息肉中,并非所有的腺体都含有典型的驱动突变(如 APC),表明早期克隆扩张的驱动因素多样。

    下图(原文 Fig. 3)展示了人类散发性息肉的多克隆向单克隆转变:

    该图像是示意图,展示了不同基因型(Apc68 和 Apc72)下的小鼠肠道肿瘤的单细胞谱系图,显示了多克隆到单克隆转变的动态过程。图中包含多条分支,代表独立细胞谱系的并行扩展。整体布局提供了高分辨率的细胞谱系构建,支持多克隆肿瘤发展为单克隆肿瘤的模型。 该图像是示意图,展示了不同基因型(Apc68 和 Apc72)下的小鼠肠道肿瘤的单细胞谱系图,显示了多克隆到单克隆转变的动态过程。图中包含多条分支,代表独立细胞谱系的并行扩展。整体布局提供了高分辨率的细胞谱系构建,支持多克隆肿瘤发展为单克隆肿瘤的模型。

下图(原文 Extended Data Fig. 6)展示了息肉和 CRC 中体细胞拷贝数变异的景观:

Fig. 2 | Single-cell phylogenies reveal the origin of inflammation-driven neoplasms. a,b, Single-cell phylogeny (left) and corresponding barcode mutations (right) for a representative monoclonal lesion (a; lesion IBD4_T) and a representative polyclonal lesion (b; lesion IBD50_T). c, Bootstrapping values of the phylogenetic tree for IBD4_T (top) and IBD50_T (bottom). d, The branching index of SMALT trees in this study \(\\left( n = 7 7 \\right)\) compared with CRISPR Cas9 lineage trees from two previous studies (ref. 12, \(n = 4\) ; and ref.14, \(n = 8 5\) ). e, The number of founding progenitors (Np) estimated from single-cell phylogeny. For each lesion, Np was estimated 20 times using downsampled cells. f, The barcode mutation count per cell in monoclonal \(\\scriptstyle ( n = 2 2 , 7 6 6\) cells) versus polyclonal \(( n = 2 0 , 8 8 2\) cells) lesions. g,h, Total somatic mutation burden \(\\mathbf { \\delta } ( \\mathbf { g } )\) or putative driver mutation burden \(\\mathbf { ( h ) }\) in WGS data of monoclonal \(( n = 7 )\) versus polyclonal \(( n = 9 )\) lesions. i, Clonal expansion scores calculated using 1,000 downsampled cell pairs ranked by the median clonal expansion scores within each sample type.j, A representative single-cell phylogeny for inflamed normal colon. Lineages exhibiting clonal expansions are highlighted in colour. k, Single-cell fitness scores in monoclonal versus polyclonal lesions. d,f-h, Pvalues by two-sided Wilcoxon rank-sum test. 该图像是图表,展示了单细胞系统性发育关系的分析结果,包括单克隆病变(IBD4_T)和多克隆病变(IBD50_T)的细胞谱系与突变数据。图中还呈现了引导树的分支指数比较和突变数量的差异,P值均通过双侧Wilcoxon秩和检验进行计算。

6.1.5. 细胞状态和相互作用的演变

  • 细胞组成变化: scRNA-seq 分析显示,随着病变克隆性增加(1/Np1/Np 升高),巨噬细胞、中性粒细胞和内皮细胞比例显著增加,而肿瘤上皮细胞比例下降。

  • 巨噬细胞亚群: 高克隆性病变中 Trem2+Trem2+Chil3+Chil3+ 巨噬细胞(与脂质相关 TAMs 和免疫调节 TAMs 高度重叠,具有免疫抑制作用)显著富集,提示免疫抑制微环境可能促进单克隆转变。

  • 癌相关分子特征: 高克隆性病变中的肿瘤上皮细胞上调了 MYC 靶基因、KRAS 信号通路、上皮-间充质转化 (EMT) 和炎症反应等癌症相关分子特征。

  • 早期病变的细胞间相互作用: 早期多克隆病变中,上皮细胞亚群之间的配体-受体相互作用显著增强,远高于正常结肠和晚期单克隆病变。

  • 相互作用类型: 在早期多克隆病变中富集的 14 种配体-受体相互作用中,13 种与细胞外基质 (ECM) 组织和细胞黏附相关,其中 11 种代表了基底膜的表皮细胞衍生组分 层粘连蛋白 (laminins) 及其受体。

  • Krt20+Krt20+ 细胞的贡献: Krt20+Krt20+ 肿瘤细胞贡献了约 40% 的早期病变富集配体-受体相互作用,并表现出强烈的促炎特性。

    这些结果强烈表明,广泛的细胞间相互作用,可能通过 ECM 组织和细胞黏附,在炎症驱动的肠道肿瘤发生的早期阶段发挥关键作用。

下图(原文 Fig. 4)展示了细胞间相互作用和多克隆到单克隆的演化模型:

该图像是一个图表,展示了Apc突变小鼠模型中,正常细胞和肿瘤前体细胞的进化图谱与较高分辨率的细胞系谱。包括不同时间点的肠道类器官的显微图像,表现出多克隆到单克隆转变的过程,并通过公式 \(m_t = rac{m_ au}{r-1}\) 描述突变负担变化。 该图像是一个图表,展示了Apc突变小鼠模型中,正常细胞和肿瘤前体细胞的进化图谱与较高分辨率的细胞系谱。包括不同时间点的肠道类器官的显微图像,表现出多克隆到单克隆转变的过程,并通过公式 mt=racmaur1m_t = rac{m_ au}{r-1} 描述突变负担变化。

下图(原文 Extended Data Fig. 9)展示了早期与晚期 AOM/DSS 肿瘤中上皮细胞类型之间 14 种配体-受体相互作用的强度:

该图像是示意图,展示了在小鼠模型中,炎症或Apc基因缺失诱导的肠道肿瘤发生过程。图中包含不同阶段的样本采集时间线,展示了肠道收集、肿瘤和息肉的收集过程,以及对应的体重变化数据。 该图像是示意图,展示了在小鼠模型中,炎症或Apc基因缺失诱导的肠道肿瘤发生过程。图中包含不同阶段的样本采集时间线,展示了肠道收集、肿瘤和息肉的收集过程,以及对应的体重变化数据。

下图(原文 Extended Data Fig. 10)展示了 Krt20+Krt20+ 细胞的贡献和多克隆起源模型:

该图像是包含三个部分的示意图,展示了肠道肿瘤模型中细胞的遗传变异情况。部分 a 显示了不同时间点(IBD19_T1, IBD19_T3, IBD19_T4)中EPCAM和CD45阳性细胞的分布;部分 b 在过滤前后比较免疫细胞与肿瘤细胞的突变数;部分 c 则展示了不同样本中的突变数分支长度。 该图像是包含三个部分的示意图,展示了肠道肿瘤模型中细胞的遗传变异情况。部分 a 显示了不同时间点(IBD19_T1, IBD19_T3, IBD19_T4)中EPCAM和CD45阳性细胞的分布;部分 b 在过滤前后比较免疫细胞与肿瘤细胞的突变数;部分 c 则展示了不同样本中的突变数分支长度。

6.1.6. 多克隆向单克隆转变模型

综合小鼠和人类数据,论文提出了一个癌症形成的“多克隆向单克隆转变”模型。

  • 多克隆起源: 每个癌前病变通常由多个独立的谱系建立,这些谱系并行扩增并进行强烈的克隆间相互作用。

  • 招募模型: 鉴于起始克隆数量之多,作者提出这可能涉及“招募模型”,即一个 Hras 突变起始克隆可以招募邻近的野生型上皮细胞,这有助于克服小群体生长障碍(Allee 效应)。

  • 早期相互作用: 在早期多克隆病变中,广泛的细胞间通讯(例如通过 ECM 组织和细胞黏附)促进了肿瘤生长。

  • 单克隆转变: 随着病变进展,细胞间相互作用逐渐减少,微环境发生变化(例如免疫抑制性巨噬细胞的富集),可能促进了向单克隆的转变。

  • 后续选择: 即使在单克隆转变后,亚克隆选择仍然严格,恶性转化需要进一步的克隆清除。

    下图(原文 Fig. 4g)展示了多克隆起源和单克隆转变的示意图:

    该图像是包含三个部分的示意图,展示了肠道肿瘤模型中细胞的遗传变异情况。部分 a 显示了不同时间点(IBD19_T1, IBD19_T3, IBD19_T4)中EPCAM和CD45阳性细胞的分布;部分 b 在过滤前后比较免疫细胞与肿瘤细胞的突变数;部分 c 则展示了不同样本中的突变数分支长度。 该图像是包含三个部分的示意图,展示了肠道肿瘤模型中细胞的遗传变异情况。部分 a 显示了不同时间点(IBD19_T1, IBD19_T3, IBD19_T4)中EPCAM和CD45阳性细胞的分布;部分 b 在过滤前后比较免疫细胞与肿瘤细胞的突变数;部分 c 则展示了不同样本中的突变数分支长度。


7. 总结与思考

7.1. 结论总结

本研究通过开创性的 SMALT 谱系追踪系统,在单细胞分辨率下,系统性地揭示了结直肠癌前病变在小鼠模型和人类散发性息肉中普遍存在的多克隆起源。研究发现,这些病变通常由数十个独立的细胞谱系并行扩增形成。更重要的是,通过基因组和临床数据,本文提出并支持了一个“多克隆向单克隆转变”的模型,即单克隆病变代表了肿瘤进展的更晚期阶段,具有更高的突变负担、更多的驱动基因突变以及更强的选择压力。

此外,单细胞 RNA 测序结果进一步阐明了细胞状态和微环境在这一转变中的作用:早期的多克隆病变表现出广泛而活跃的细胞间相互作用(特别是与细胞外基质组织和细胞黏附相关的),而这些相互作用在向单克隆转变过程中显著减少。免疫抑制性微环境(如 Trem2+Trem2+ 巨噬细胞的富集)可能促进了这一转变。研究还提出了“招募模型”来解释早期多克隆起始中大量克隆的共同出现,强调了细胞合作在肿瘤形成最初阶段的关键作用。这些发现为理解肿瘤起始的复杂生物学提供了新的概念框架,并为结直肠癌的早期干预策略指明了新的方向。

7.2. 局限性与未来工作

论文作者在讨论部分指出了本研究的局限性并提出了未来的研究方向:

  • 多克隆起始的机制: 尽管研究发现了多克隆起源的普遍性,并提出了“招募模型”,但多克隆起始是否涉及积极的克隆间相互作用,如协同作用 (cooperation),其分子机制仍需深入阐明。例如,具有驱动突变的克隆如何招募邻近的野生型细胞,以及这种招募在分子层面如何实现,都需进一步研究。
  • 细胞微环境的分子串扰: 研究揭示了早期病变中广泛的细胞间相互作用,特别是 ECM 组织和细胞黏附的作用,但仍需进一步阐明这些相互作用在肿瘤微环境中的分子串扰 (molecular crosstalk) 机制。未来的研究应致力于在同一细胞中连接细胞状态(例如使用单细胞多组学技术)和谱系信息,以更全面地理解这些相互作用。
  • 预测模型的开发: 缺乏一个基于癌前病变的分子和进化特征来预测癌症风险的模型。未来的工作需要努力构建这样的预测模型,以指导临床实践中的癌症风险评估和管理。

7.3. 个人启发与批判

7.3.1. 个人启发

  • 重新定义肿瘤起源的复杂性: 过去对肿瘤起源的认知可能过于简化,倾向于单克隆起源。本文通过高分辨率的谱系追踪,揭示了癌前阶段多克隆起源的普遍性,并提供了一个动态的“多克隆向单克隆转变”的进化框架。这对于理解肿瘤异质性 (heterogeneity) 及其在最早期的形成具有重要意义。
  • 细胞间相互作用的关键作用: 强调了在肿瘤起始阶段,细胞间的“合作”和相互作用可能与个体克隆的突变积累同样重要,甚至更早发生。这改变了单纯关注基因突变驱动癌症的视角,为癌症研究开辟了新的维度,也为早期干预提供了全新的靶点——不再仅仅是清除突变细胞,而是可能通过调节细胞间的相互作用来阻止肿瘤进展。
  • 多组学整合的强大力量: SMALT 谱系追踪、WGSWESscRNA-seq 的整合,以及在小鼠模型和人类样本之间的验证,展示了现代生物医学研究如何通过多层次数据集成来解决复杂生物学问题,并获得具有转化潜力的深刻见解。
  • Allee 效应在癌症中的体现: 论文提及了“招募模型”可能有助于克服小群体生长障碍的 Allee 效应 (Allee effect)。这是一个非常有趣的生物学概念,即在低密度下,种群的个体繁殖能力或存活率会下降。将其引入癌症研究,解释为何多个克隆协同作用可能比单个克隆更容易建立病变,提供了新的视角。

7.3.2. 批判与潜在改进

  • Np 估计的局限性: 论文承认,由于随机漂移和竞争,许多创始谱系可能在生长过程中丢失,因此实际的祖细胞数量可能高于估计值 Np。虽然 TarCA 是一种先进的估计方法,但如何更精确地量化真实的起始祖细胞数量,以及这些丢失的谱系如何影响早期肿瘤的演变,仍是挑战。
  • “招募模型”的直接证据: “招募模型”是一个有吸引力的假设,解释了同一物理位置上大量起始克隆的出现。虽然有间接证据(例如 Hras 突变克隆招募野生型细胞的参考文献),但本文的实验更多是观察性的。未来的工作需要设计更直接的实验,例如通过在 SMALT 小鼠中诱导特定驱动突变,并追踪邻近野生型细胞的命运,以提供招募机制的因果证据。
  • 细胞间相互作用的分子通路细节: 研究发现早期病变中存在广泛的 ECM 和细胞黏附相关相互作用,以及 Krt20+Krt20+ 细胞的贡献。然而,这些相互作用的具体信号通路、下游效应以及它们如何精确地促进肿瘤生长,仍需更细致的分子生物学研究来阐明。靶向这些相互作用的潜在治疗策略需要深入的机制理解。
  • 转化研究的挑战: 尽管论文为早期干预提供了见解,但将小鼠模型和人类样本的观察结果转化为临床实践仍面临挑战。例如,如何在临床上早期识别多克隆病变,以及如何开发和测试针对细胞间相互作用的药物,都需要大量的后续研究。
  • AOM/DSS 模型与人类 CRC 的相似性: 论文指出 AOM/DSS 肿瘤在染色体核型稳定性和拷贝数变异方面与人类早期 CRC 相似,但与晚期 CRC 仍有差异。在将小鼠模型的结果推广到人类 CRC 的所有阶段时,需要保持谨慎。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。