AiPaper
论文状态:已完成

Defining endogenous barcoding sites for CRISPR/Cas9-based cell lineage tracing in zebrafish

发表:2020/02/01
原文链接
价格:0.10
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究旨在定义斑马鱼中用于CRISPR/Cas9介导的细胞谱系追踪的内源性条形码位点,利用先进的基因组技术识别可靠的条形码基因座。研究发现了一些新靶点,显著提升了谱系追踪的精度,为遗传学和发育研究提供了重要启示。

摘要

This study aims to define endogenous barcoding sites for CRISPR/Cas9-based cell lineage tracing in zebrafish, a crucial tool for understanding developmental biology and tissue organization. The authors employed advanced genomic techniques to identify specific loci that can serve as reliable barcoding sites. Key findings reveal novel targets which enhance the precision of lineage tracing, offering significant implications for genetic research and developmental studies.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

定义斑马鱼中用于CRISPR/Cas9细胞谱系追踪的内源性条形码位点 (Defining endogenous barcoding sites for CRISPR/Cas9-based cell lineage tracing in zebrafish)

1.2. 作者

Chang Ye, Zhuoxin Chen, Zhan Liu, Feng Wang, Xionglei He 所有作者均隶属于中国广州中山大学生命科学学院生物防治国家重点实验室 (State Key Laboratory of Biocontrol, School of Life Sciences, Sun Yat-sen University, Guangzhou 510275, China)。其中,Chang Ye 和 Zhuoxin Chen 为共同第一作者,Zhuoxin Chen 和 Xionglei He 为通讯作者。

1.3. 发表期刊/会议

该论文发表于《遗传与基因组学杂志》 (Journal of Genetics and Genomics)。该期刊是生物学,特别是遗传学和基因组学领域的一个同行评审学术期刊。

1.4. 发表年份

2020年2月1日 (Published at: 2020-02-01T00:00:00.000Z)。

1.5. 摘要

本研究旨在定义斑马鱼中用于 CRISPR/Cas9 介导的细胞谱系追踪的内源性条形码位点 (endogenous barcoding sites),这是一种理解发育生物学和组织组织的关键工具。作者采用了先进的基因组技术来识别可作为可靠条形码位点的特定基因座 (loci)。关键发现揭示了能够提高谱系追踪精度的新型靶点,为遗传学研究和发育生物学研究提供了重要启示。

1.6. 原文链接

/files/papers/692331a85d6d955da7ea73dd/paper.pdf 该论文已于2020年2月正式发表。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 细胞谱系追踪 (Cell Lineage Tracing) 是发育生物学中一个基本问题,旨在揭示多细胞生物如何从一个受精卵发育而来。然而,追踪复杂生物体(如斑马鱼)中所有细胞的谱系信息仍然是一个巨大的挑战。现有的 CRISPR/Cas9 (Clustered Regularly Interspaced Short Palindromic Repeats/CRISPR-associated protein 9) 基因编辑技术为谱系追踪提供了新的可能性,但依赖于外源性条形码序列 (exogenous barcoding sequences) 的方法存在显著的局限性。

为什么这个问题在当前领域是重要的: 理解细胞谱系对于揭示组织发育、器官形成、疾病进展以及再生生物学中的细胞命运决定机制至关重要。传统的细胞谱系追踪方法(如视觉观察)仅适用于透明且细胞数量较少的简单生物体,无法应用于复杂生物体。CRISPR/Cas9 技术提供了一种在基因组水平标记细胞谱系的方法,但其应用受限于现有方法的复杂性和效率。

现有研究存在的具体挑战或空白 (Gap):

  1. 外源性条形码的工程化难度: 现有的 CRISPR/Cas9 细胞谱系追踪方法通常需要将多个外源性条形码序列工程化插入基因组中。这使得基因工程操作变得困难,因为胚胎中多条形码的整合是随机的,不同细胞可能包含不同的插入,并且很难获得稳定的转基因品系 (transgenic lines)。
  2. 条形码回收率低: 随机插入的外源性条形码的表达水平差异很大,可能受到位置效应 (position effects) 的影响,导致在单细胞 RNA 测序 (single-cell RNA sequencing, scRNA-seq) 数据中难以从单个细胞中高效回收所有条形码信息。
  3. 可扩展性差: 对于像斑马鱼这样复杂的生物体,可能需要数十个条形码才能追踪其发育细胞谱系,这使得外源性条形码的基因工程和回收几乎不可能实现。
  4. 同时获取细胞类型和谱系信息的挑战: 虽然一些研究已尝试结合 scRNA-seq 同时定义细胞类型和谱系条形码,但上述问题依然存在。

这篇论文的切入点或创新思路: 为了规避上述问题,本研究提出了一种新颖的设计,即利用斑马鱼基因组中广泛且高水平表达的内源性基因座 (endogenous loci) 作为谱系追踪的条形码位点 (barcoding sites)。这种方法避免了复杂的外源性基因工程,并有望显著提高条形码的回收率和可扩展性,从而实现更精确的细胞谱系和细胞类型的同时分析。

2.2. 核心贡献/主要发现

论文最主要的贡献:

  1. 定义了78个高质量的斑马鱼内源性条形码位点: 首次在斑马鱼基因组中系统性地筛选并鉴定了78个高表达的内源性基因座,这些位点可以作为 CRISPR/Cas9 介导的谱系追踪的有效靶点。
  2. 验证了内源性条形码的高回收率: 通过 scRNA-seq 数据分析,证实了这些内源性条形码位点在大多数细胞类型中都具有高水平表达,并且可以被高效回收,显著优于现有外源性条形码方法。
  3. 展示了多样化的突变谱系用于谱系记录: 证明了 CRISPR/Cas9 在这些内源性位点上引入的插入/缺失 (InDels) 突变,即“瘢痕” (scars),具有高度多样性,足以连续记录斑马鱼早期发育过程中的细胞谱系信息。
  4. 提出了一种无须复杂基因工程的谱系追踪策略: 该设计避免了外源性条形码的复杂转基因操作,简化了实验流程,并允许通过简单地增加 sgRNA (single guide RNA) 数量来轻松扩展记录空间。
  5. 实现了细胞类型和细胞谱系信息的同步获取: 该方法通过与 scRNA-seq 平台的兼容性,能够同时对细胞类型和细胞谱系信息进行表征,为理解发育生物学和组织组织提供了强大的新工具。

论文得出的关键结论或发现:

  • 在斑马鱼基因组中成功筛选出78个适用于 CRISPR/Cas9 谱系追踪的内源性位点。
  • 这些位点在大多数细胞类型中都表现出高表达,且在 scRNA-seq 中具有高回收率(高达 70 个位点在超过 60% 的细胞中被检测到)。
  • 通过 Cas9sgRNA 诱导的突变(瘢痕)具有高度多样性,足以作为独特的细胞谱系标记。
  • 瘢痕的频率可以用于推断细胞分裂周期,表明该系统能够从早期胚胎发育阶段(约第三次细胞分裂)开始连续记录谱系事件。
  • 与现有的外源性条形码方法相比,本研究的内源性条形码设计在条形码回收率和潜在的条形码空间方面均表现出优势。

3. 预备知识与相关工作

3.1. 基础概念

  • 细胞谱系追踪 (Cell Lineage Tracing):

    • 概念定义: 追踪和记录一个生物体内所有细胞从受精卵开始,经过多次分裂、分化,最终形成各种组织和器官的过程。它回答了“哪个细胞来自哪个细胞”的问题。
    • 目的: 理解发育生物学中细胞命运决定、组织形成、器官发生以及疾病(如癌症)进展的机制。
  • CRISPR/Cas9 (Clustered Regularly Interspaced Short Palindromic Repeats/CRISPR-associated protein 9):

    • 概念定义: 一种强大的基因编辑技术,允许科学家在基因组的特定位置精确地进行 DNA 插入、删除或替换。它由两部分组成:
      1. Cas9 核酸酶 (Cas9 nuclease): 一种 DNA 切割酶,负责剪切 DNA 双链。
      2. 引导 RNA (guide RNA, gRNA),在本文中特指单引导 RNA (single guide RNA, sgRNA): 一段短 RNA 分子,包含一个与目标 DNA 序列互补的区域,以及一个与 Cas9 蛋白结合的区域。sgRNA 负责将 Cas9 引导到基因组中特定的靶点。
    • 机制: sgRNA 引导 Cas9 识别并结合目标 DNA 序列。Cas9sgRNA 结合位点的上游切割 DNA。切割后的 DNA 通常通过非同源末端连接 (non-homologous end joining, NHEJ) 途径进行修复,这个修复过程是容易出错的,常导致小的插入或删除 (insertions or deletions, InDels)。这些 InDels 序列是随机的,并且可以作为独特的“瘢痕” (scars) 来标记细胞。
    • PAM 序列 (Protospacer Adjacent Motif): Cas9 核酸酶在切割 DNA 靶点时,需要识别一个紧邻靶序列的短 DNA 序列,称为 PAM 序列。PAM 序列的存在是 Cas9 结合和切割的必要条件,通常是 NGG (N代表任意核苷酸)。
  • 单细胞 RNA 测序 (single-cell RNA sequencing, scRNA-seq):

    • 概念定义: 一种高通量测序技术,用于分析单个细胞中的基因表达谱。与传统的批量 RNA 测序不同,scRNA-seq 能够揭示细胞群内的异质性,识别新的细胞类型,并追踪细胞状态的变化。
    • 在本文中的作用: 用于同时获取细胞的类型信息(通过基因表达谱聚类)和谱系信息(通过检测 CRISPR/Cas9CRISPR/Cas9 产生的内源性条形码瘢痕)。
  • UMI (Unique Molecular Identifier):

    • 概念定义: UMI 是一段短的随机核苷酸序列,在 scRNA-seq 文库制备过程中,被连接到每个 cDNA 分子的末端。每个原始 mRNA 分子,即使经过 PCR 扩增,其对应的 cDNA 副本也都会带有相同的 UMI 序列。
    • 作用: 允许研究者区分原始的 mRNA 分子和 PCR 扩增的副本,从而更准确地量化基因表达水平,减少 PCR 偏倚的影响,并提高 scRNA-seq 数据的准确性。在本文中,UMI 用于量化每个条形码位点在单个细胞中的表达水平。
  • tSNE (t-distributed Stochastic Neighbor Embedding):

    • 概念定义: 一种非线性降维算法,主要用于将高维数据(如 scRNA-seq 表达谱)可视化到二维或三维空间中,同时保留数据点之间的局部相似性。
    • 作用:scRNA-seq 数据分析中,tSNE 图通常用于展示不同细胞群体的聚类情况,帮助研究人员识别和区分不同的细胞类型。
  • 斑马鱼 (Zebrafish, Danio rerio):

    • 概念定义: 一种小型淡水鱼,因其胚胎透明、体外发育、繁殖周期短、遗传操作方便等优点,被广泛用作脊椎动物发育生物学、遗传学和疾病模型的模式生物。

3.2. 前人工作

  • 传统细胞谱系追踪方法:

    • 视觉观察: 最早的谱系追踪方法,例如在秀丽隐杆线虫 (Caenorhabditis elegans) 中,由于其透明的身体和较少的细胞数量,科学家可以通过显微镜直接观察并记录细胞分裂和分化过程 (Deppe et al., 1978; Sulston et al., 1983; Sulston and Horvitz, 1977)。
    • 局限性: 这种方法不适用于大多数复杂、不透明或细胞数量庞大的生物体,如果蝇、斑马鱼和小鼠。
  • CRISPR/Cas9-based 谱系追踪 (外源性条形码):

    • 随着基因编辑技术的发展,研究人员开发了多种基于 CRISPR/Cas9CRISPR/Cas9 的策略来重建复杂生物体的发育细胞谱系。这些方法通常涉及将外源性条形码序列工程化地插入基因组中。
    • 代表性方法:
      • GESTALT (Genome Editing of Synthetic Target Arrays for Lineage Tracing): 例如 McKenna et al., 2016 首次提出了 GESTALT 方法,通过在细胞基因组中引入一系列可被 Cas9 酶切割的靶点,利用 Cas9 诱导的随机 InDels 产生独特的遗传瘢痕,从而为每个细胞及其后代创建独特的“条形码”。
      • LINNAEUS (Lineage Tracing by Nuclease-Activated Editing of Universal Sequences): Spanjaard et al., 2018 提出的方法,通过整合大量 Cas9 靶点,生成大量的遗传瘢痕。
      • 其他相关工作: Perli et al., 2016, Alemany et al., 2018, Kalhor et al., 2018 也开发了类似的基于 CRISPR/Cas9CRISPR/Cas9 的条形码策略。
    • 局限性 (已在整体概括中提及,这里强调):
      • 需要复杂的基因工程来插入多个外源条形码。
      • 插入位点和表达水平的随机性导致条形码回收率不稳定和偏倚。
      • 难以扩展到追踪大量细胞谱系所需的数十个条形码。
  • 结合 scRNA-seq 的谱系追踪方法:

    • 为了同时获取细胞类型和谱系信息,一些研究将 CRISPR/Cas9CRISPR/Cas9 条形码与 scRNA-seq 技术结合。
    • 代表性方法:
      • scGESTALT (single-cell GESTALT): Raj et al., 2018 将 GESTALTscRNA-seq 结合,实现了在单个细胞水平上同时分析谱系和细胞类型。
      • 其他: Wagner et al., 2018; Chan et al., 2019 等也探索了类似的方法。
    • 局限性: 尽管这些方法潜力巨大,但它们仍然面临外源性条形码固有的限制,如回收率低(例如,scGESTALT 中条形码回收率仅为 6%-27%)和难以大规模扩展等问题。

3.3. 技术演进

细胞谱系追踪技术的发展经历了从早期的宏观、定性观察到现代的微观、定量的基因组标记和高通量测序分析的演变:

  1. 早期阶段 (1970-1980s): 以秀丽隐杆线虫的视觉观察为代表,适用于简单、透明生物体,但无法应对复杂生物。
  2. 分子标记阶段 (后期20世纪-早期21世纪): 引入了荧光蛋白标记 (fluorescent protein labeling) 等分子工具,允许在活体中观察细胞命运,但仍受限于标记数量和追踪精度。
  3. 基因组编辑标记阶段 (2010s至今):
    • CRISPR/Cas9 兴起: CRISPR/Cas9CRISPR/Cas9 技术的出现革命性地改变了谱系追踪,使得在基因组水平上引入可遗传的、多样化的“条形码”成为可能。最初的方法主要依赖外源性条形码
    • 结合单细胞测序: 随着 scRNA-seq 技术的成熟,将 CRISPR/Cas9CRISPR/Cas9 条形码与 scRNA-seq 结合,实现了细胞类型和谱系信息的同步获取,大大提升了研究的深度和广度。
    • 本文的创新: 本文的工作代表了这一领域的进一步演进,通过转向内源性条形码,旨在克服外源性条形码方法的固有缺陷,简化实验流程,提高效率和可扩展性,从而推动大规模、高分辨率的谱系追踪。

3.4. 差异化分析

本文提出的内源性条形码方法与现有基于 CRISPR/Cas9CRISPR/Cas9 的外源性条形码方法相比,核心区别和创新点在于:

  • 条形码来源:

    • 本文方法: 使用斑马鱼基因组中天然存在的、高表达的内源性基因座作为条形码位点。
    • 现有方法 (scGESTALT, LINNAEUS 等): 需要将人工设计的外源性条形码序列插入基因组。
  • 基因工程复杂性:

    • 本文方法: 无需复杂的外源性基因工程来插入条形码序列,只需注射 Cas9 mRNAsgRNAs 即可。这大大简化了实验操作,提高了效率。
    • 现有方法: 涉及复杂的外源基因转入、整合,以及构建转基因动物,耗时耗力,且可能面临多位点随机插入、难以获得稳定品系等问题。
  • 条形码回收率:

    • 本文方法: 由于选择的内源性位点是广泛且高水平表达的基因,因此在 scRNA-seq 中具有高回收率。例如,本文结果显示一半的细胞中可回收多达 40 多个条形码。
    • 现有方法: 外源性条形码的表达水平往往受位置效应影响而差异巨大,导致回收率较低(例如,scGESTALT 的回收率仅为 6%-27%)。
  • 可扩展性 (Barcoding Space):

    • 本文方法: 谱系记录空间 (TnT^n,其中 TT 为单个切割位点的编辑模式数,nn 为有效位点数) 通过增加 sgRNA 的数量即可轻松扩展,因为不需要额外的基因工程。本文使用了 78 个位点。
    • 现有方法: 扩展条形码空间意味着需要插入更多的外源性序列,这会进一步增加基因工程的难度和复杂性,可扩展性受限。scGESTALT 使用了 10 个位点,LINNAEUS 使用了 1632 个位点,但后者在 scRNA-seq 兼容性方面可能仍面临挑战。
  • 对生物体发育的影响:

    • 本文方法: 编辑内源性基因可能会对斑马鱼正常发育产生潜在影响。但作者通过选择非致死基因、非转录因子、晚期编辑、低纯合性等策略来规避和减轻这些风险,并观察到大多数个体形态正常。

    • 现有方法: 外源性条形码通常被设计成不影响宿主基因功能,但其插入本身可能导致插入突变或影响附近基因表达,且多拷贝插入的累积效应也需考量。

      总体而言,本文的方法提供了一种更高效、更易于操作且更具可扩展性的 CRISPR/Cas9CRISPR/Cas9 细胞谱系追踪策略,特别是其与 scRNA-seq 的兼容性,为同时获取细胞类型和谱系信息提供了更强大的平台。

4. 方法论

4.1. 方法原理

本研究的核心思想是利用斑马鱼基因组中广泛表达且高表达水平的内源性基因座作为 CRISPR/Cas9CRISPR/Cas9 基因编辑的靶点,从而在这些位点上引入随机的插入或删除 (InDels) 突变。这些 InDels 突变将作为独特的遗传“瘢痕” (scars),充当细胞的条形码。由于这些位点是内源性的且高表达,它们的转录本将存在于细胞的 RNA 中,可以通过单细胞 RNA 测序 (scRNA-seq) 平台进行捕获和读取。通过这种方式,研究人员可以同时获取细胞的基因表达谱(用于细胞类型鉴定)和其独特的遗传瘢痕(用于谱系追踪)。这种设计避免了复杂的外源性条形码基因工程,提高了条形码的回收率和可扩展性。

4.2. 核心方法详解 (逐层深入)

4.2.1. 斑马鱼单细胞表达谱分析与条形码位点筛选

  1. 斑马鱼解离与单细胞悬液制备:

    • 取一只野生型 (wild-type, AB) 斑马鱼,年龄约为 30 天后受精 (days post-fertilization, dpf)。
    • 对斑马鱼进行麻醉和安乐死。
    • 将斑马鱼组织进行机械和酶解离,制备成单细胞悬液。具体步骤包括:用冰冷的 HBSS (Hanks' Balanced Salt Solution) 补充 1% BSA (Bovine Serum Albumin) 清洗;用 TrypLE 孵育 20 分钟;加入消化酶混合物(胶原酶、链霉蛋白酶、蛋白酶 K)进一步消化,直至组织完全分散。
    • 细胞悬液经过清洗、离心和重悬,然后通过 35 µm 滤网过滤,以去除细胞团块和碎片,确保获得高质量的单细胞悬液。
  2. 单细胞 RNA 测序文库制备与测序:

    • 使用 10x Genomics Chromium Single Cell 3' v2 Reagent Kit 平台对单细胞悬液进行处理。
    • 核心原理: 该平台将单个细胞与带有独特条形码珠 (barcoded beads) 的微液滴 (droplets) 封装在一起。在微液滴中,细胞被裂解,mRNA 分子被捕获并带有独特的细胞条形码 (cell barcode) 和 UMI (Unique Molecular Identifier)。
    • 进行逆转录和扩增,构建 cDNA 文库。
    • 对文库进行质量控制(使用 Qubit 3.0 Fluorometer 和 Agilent 2100 Bioanalyzer)。
    • 在 Illumina HiseqX PE150 平台上进行测序,以获取单细胞转录组数据。测序数据已存储在 NCBI's BioProject database (ID 571187)
  3. 单细胞 RNA 测序数据处理与细胞类型鉴定:

    • 使用 Cell Ranger 3.0.2 软件将测序数据映射到斑马鱼参考基因组 (GRCz11)。
    • 细胞过滤: 仅保留具有超过 500 个独特读取 (unique reads) 的细胞进行后续分析。
    • 使用 R 包 Seurat 3.0.2 进行数据标准化、高变基因 (highly variable genes) 选择、降维和聚类。
      • 移除在少于 3 个细胞中检测到的基因,以及基因数少于 200 个的细胞。
      • 对转录本计数进行归一化,并选择 2000 个高变基因。
      • 进行主成分分析 (Principal Component Analysis, PCA),并使用前 30 个主成分。
      • 利用 Louvain algorithm (一种社区检测算法) 进行无监督聚类,将细胞分成 24 个不同的群体。
      • 使用 t-distributed Stochastic Neighbor Embedding (tSNE) 进行二次降维可视化,生成 tSNE 聚类图 (见 Figure 1A)。
      • 通过 FindAllMarkers 函数识别差异表达基因 (differentially expressed genes, DEGs),参数设置为 only.pos=TRUEonly.pos = TRUE, min.pct=0.25min.pct = 0.25, logfc.threshold=0.25logfc.threshold = 0.25
      • 根据每个聚类的前 50 个差异表达基因,结合 ZFIN (Zebrafish Information Network) 数据库和其他文献,对细胞类型进行注释。
  4. 条形码位点选择:

    • 高表达区域筛选: 从经过过滤的细胞中提取读取,保留平均每个细胞有超过 10 个独特读取的基因组区域。进一步过滤掉在少于一半的细胞中无法检测到的区域,以确保所选位点在大多数细胞中都有表达。
    • sgRNA 设计与脱靶效应最小化:
      • 使用 CHOPCHOP (一种 CRISPR/Cas9CRISPR/Cas9TALEN 基因组编辑的在线工具) 选择候选条形码位点和对应的 sgRNAs
      • 为了最小化潜在的脱靶效应 (off-target effects),排除那些在基因组中具有少于等于 2 个错配的潜在脱靶位点的 sgRNAs。这产生了超过 6000 个候选靶位点。
    • 初步体内验证:
      • 从 6000 多个候选位点中选择 52 个位点进行初步体内 (in vivo) 活性测试。
      • 将单独的 sgRNACas9 mRNA 共注射到斑马鱼单细胞阶段胚胎中。
      • 在 3 dpf (3 天后受精) 时,通过 Sanger sequencing (链终止法测序,可以检测 DNA 序列中的 InDels) 和/或 T7 核酸内切酶 I (T7E1) 测定 (一种检测 CRISPR/Cas9CRISPR/Cas9 诱导的 InDels 效率的方法) 验证基因编辑事件。T7E1 测定通过识别和切割异源双链 DNA(其中一条链是野生型,另一条链含有 InDel 突变),然后通过凝胶电泳检测切割产物,从而评估编辑效率。
      • 结果:52 个测试位点中有 8 个检测到突变 (见 Figure 1B)。

4.2.2. 扩展条形码空间与回收性能评估

  1. 扩展 sgRNA 池:

    • 鉴于之前测试的 8 个有效 sgRNAs 具有较高的预测效率得分,研究人员选择了 70 个额外 sgRNAs,其预测效率得分高于 0.5,以进一步扩展条形码空间。
    • 将这 70 个 sgRNAs 与之前测试的 8 个有效位点合并,形成了一个包含 78 个 sgRNAs 的混合池。
    • 这些额外的 sgRNAs 的体内性能未单独评估,但基于预测得分被认为有效。
  2. 条形码回收性能评估:

    • 利用已有的青少年斑马鱼 scRNA-seq 数据(来自 4.2.1 节),分析这 78 个条形码位点的回收性能。
    • 分析方法:
      • 统计每个细胞中检测到的条形码位点数量。
      • 统计每个条形码位点对应的 UMI (Unique Molecular Identifier) 计数分布。UMI 用于量化基因表达水平,UMI 计数越高代表该条形码位点在该细胞中表达越活跃。
      • 分析在不同 UMI 计数阈值下(例如 UMI > 1, UMI > 2, UMI > 5),有多少比例的细胞能检测到多少个条形码位点。
    • 结果: scRNA-seq 数据显示,大量的条形码位点可以同时从大部分细胞中回收。例如,在超过 60% 的细胞中可以找到多达 70 个条形码位点(每个细胞至少有 1 个 UMI)。同时,在回收率方面,没有明显的细胞类型偏倚。此外,许多条形码位点可以以相当高的水平被捕获;例如,一半的细胞中至少可以回收 40 多个条形码位点,每个位点至少有 5 个 UMI (见 Figure 2A, 2B, 2C)。

4.2.3. 突变谱分析

  1. sgRNA 池注射:

    • Cas9 mRNA 和不同剂量的 78-sgRNA 混合池注射到斑马鱼单细胞阶段胚胎中。
    • 剂量比较: 比较了高剂量和低剂量的 sgRNA 池对条形码生成的影响。低剂量为 156 pg (总 sgRNA 量),高剂量为 780 pg (总 sgRNA 量)。
    • 为了减少编辑和/或注射效率的随机性,将注射相同剂量 sgRNA 的三个 3 dpf 斑马鱼幼鱼汇集 (pooled) 进行后续分析。
  2. 多重 PCR (Multiplex PCR) 和下一代测序 (Next-Generation Sequencing, NGS):

    • 从汇集的幼鱼基因组 DNA 中提取 DNA。
    • 使用 MPD (multiplex primer design) 工具 (Wingo et al., 2017) 预测引物,进行多重 PCR。MPD 工具用于设计能够同时扩增多个目标位点的引物,并最小化引物二聚体和非特异性扩增。
    • 将 PCR 扩增产物进行 NGSNGS 是一种高通量 DNA 测序技术,可以同时对大量 DNA 片段进行测序,从而获取每个条形码位点上的详细突变信息。
    • 过滤: 由于多重 PCR 扩增效率较低,有 16 个条形码位点被排除在进一步分析之外。
  3. 瘢痕检测与分析:

    • NGS 读段与参考序列进行比对。
    • 瘢痕定义: 仅考虑靶区域内的插入或删除 (InDels) 作为“瘢痕” (scars)。瘢痕是 CRISPR/Cas9CRISPR/Cas9 基因编辑事件的直接结果,代表了细胞基因组中特定位点的永久性改变。
    • 瘢痕筛选: 只有在 PAM 序列上游六个碱基内的删除、插入或替换事件才被认为是条形码。
    • 过滤假阳性瘢痕:
      • 剔除平均频率高于 5% 且在超过一半样本中出现的瘢痕,这些可能代表天然的遗传变异而非 Cas9 诱导的突变。
      • 移除在超过一半胚胎中检测到且方差低于 1e51e^{-5} 的瘢痕,这些可能是常见的测序错误。
      • 剔除读段数少于 3 个或在样本中占比低于 0.005% 的瘢痕,以减少低质量数据的干扰。
    • 突变率计算: 分别计算插入和删除的发生率。结果显示,大多数位点删除率高于插入率 (见 Figure S2),这与之前研究一致。
    • sgRNA 剂量效应: 结果显示,更高剂量的 sgRNA 导致了更高的条形码编辑水平 (见 Figure 3B)。

4.2.4. 谱系记录充分性评估

  1. 编辑强度和持续时间调查:

    • 注射不同剂量的 78-sgRNA 池(15.6, 156, 221.5 或 312 ng/µL)到单细胞阶段胚胎中,并测序单个胚胎的靶位点。
    • Cas9 mRNA 浓度保持 350 ng/µL 不变。
  2. 瘢痕多样性与谱系解析:

    • 统计所有样本中检测到的唯一瘢痕数量,发现约 2300 个独特瘢痕,每个条形码位点有 1 到约 200 个独特瘢痕 (见 Figure 3C)。
    • Scar (瘢痕) 的命名规则:例如 B53#2 表示在条形码位点 B53 处观察到的瘢痕,其在该位点所有瘢痕中频率排名第二。
  3. 细胞分裂周期估算:

    • 选取注射最高浓度 sgRNA 的幼鱼之一 (S10) 作为示例。

    • 分析不同瘢痕的频率分布,范围从 0.005% 到 16% (低于 0.005% 的瘢痕被丢弃) (见 Figure 4A)。

    • 估算逻辑:

      • 假设: 在斑马鱼早期发育阶段(第十次细胞分裂之前),细胞分裂是同步的。
      • 基本原理: 如果一个编辑事件发生在第 kk 次细胞分裂后(即在第 kk 个细胞周期内),且假设该编辑是单拷贝且在该细胞分裂期只发生一次,那么该瘢痕理论上会存在于 1/2k1/2^k 比例的细胞中。
      • 公式推导: 如果瘢痕的频率为 ff,且假设编辑发生在第 kk 个细胞分裂周期,则 f12kf \approx \frac{1}{2^k}。 因此,可以估算细胞分裂周期 k=log2(f)k = -\log_2(f)
      • 示例: 如果编辑事件发生在第一次和第二次细胞分裂之间(即在第 2 个细胞周期开始时),那么该瘢痕将存在于 25% 的读段中。
    • 结果: 转换瘢痕频率到可能的细胞分裂周期后,发现从第三次细胞分裂开始就可以标记细胞,并且从那时起,每个细胞分裂周期至少出现两个新的瘢痕 (见 Figure 4B 和 4C)。这表明该系统能够从早期发育阶段连续记录谱系信息。

      以下是原文 Figure 1 的图像:

      Fig. 1 该图像是一个示意图,其中部分A展示了tSNE分析结果,标示了不同细胞类型;部分B则显示了不同样本的序列图谱。各样本的条形图基于所分析的细胞类型进行标注,体现了细胞的多样性和遗传信息。

VLM 描述: 该图像是一个示意图,其中部分A展示了tSNE分析结果,标示了不同细胞类型;部分B则显示了不同样本的序列图谱。各样本的条形图基于所分析的细胞类型进行标注,体现了细胞的多样性和遗传信息。

以下是原文 Figure 2 的图像:

Fig. 2 该图像是图表,展示了CRISPR/Cas9在斑马鱼细胞谱系追踪分析中的结果。A部分为t-SNE图,显示不同位置的细胞数量;B部分为每个条形码位点的UMIs数目分布;C部分则显示了不同UMIs数量下细胞比例与检测到的位置数量关系。

VLM 描述: 该图像是图表,展示了CRISPR/Cas9在斑马鱼细胞谱系追踪分析中的结果。A部分为t-SNE图,显示不同位置的细胞数量;B部分为每个条形码位点的UMIs数目分布;C部分则显示了不同UMIs数量下细胞比例与检测到的位置数量关系。

以下是原文 Figure 3 的图像:

该图像是图表,展示了78个sgRNA池在斑马鱼发育过程中进行条形码标记和后续测序的实验流程(A),检测不同sgRNA池量对带有条形码的读取比例的影响(B),以及不同条形码位点获得的独特条形码数量(C)。 该图像是图表,展示了78个sgRNA池在斑马鱼发育过程中进行条形码标记和后续测序的实验流程(A),检测不同sgRNA池量对带有条形码的读取比例的影响(B),以及不同条形码位点获得的独特条形码数量(C)。

VLM 描述: 该图像是图表,展示了78个sgRNA池在斑马鱼发育过程中进行条形码标记和后续测序的实验流程(A),检测不同sgRNA池量对带有条形码的读取比例的影响(B),以及不同条形码位点获得的独特条形码数量(C)。

以下是原文 Figure 4 的图像:

Fig. 4 该图像是图表,展示了 zebrafish 中独特的衰损频率与细胞增殖周期的关系。图 A 显示了 170 个独特的衰损,其频率变化显著;图 B 通过不同颜色表示不同的频率排序;图 C 则展示了在不同增殖周期中新增衰损的数量变化,特别强调了 S10 和 S11 的趋势。

VLM 描述: 该图像是图表,展示了 zebrafish 中独特的衰损频率与细胞增殖周期的关系。图 A 显示了 170 个独特的衰损,其频率变化显著;图 B 通过不同颜色表示不同的频率排序;图 C 则展示了在不同增殖周期中新增衰损的数量变化,特别强调了 S10 和 S11 的趋势。

5. 实验设置

5.1. 数据集

  • 生物模型: 野生型 (wild-type, AB 品系) 斑马鱼 (Zebrafish, Danio rerio)。
  • 实验阶段: 主要使用了约 30 dpf (days post-fertilization,受精后天数) 的幼鱼进行单细胞 RNA 测序,以获取广泛的细胞类型和基因表达信息。部分实验也使用了 3 dpf 的幼鱼进行基因编辑效率检测和突变谱分析。
  • 单细胞数据来源:
    • 一只约 30 dpf 的幼鱼被解离成单细胞悬液。
    • 通过 10x Genomics Chromium Single Cell 3' v2 Reagent Kit 平台制备单细胞转录组文库。
    • 在 Illumina HiseqX PE150 平台进行测序。
    • 原始测序数据已存储在 NCBIBioProject 数据库中,ID 为 571187
  • 参考基因组: GRCz11,这是斑马鱼的官方参考基因组版本。

为什么选择这些数据集:

  • 斑马鱼作为模式生物,其胚胎透明、体外发育、基因组信息完善,且易于进行基因操作,非常适合发育生物学和细胞谱系追踪研究。
  • 使用 30 dpf 的幼鱼进行 scRNA-seq 可以获得一个发育相对成熟但仍包含多种细胞类型的生物体,从而确保所选的内源性条形码位点在足够多的细胞类型中表达。
  • 10x Genomics 平台是目前主流的高通量 scRNA-seq 平台,能有效捕捉大量单细胞的转录组信息,为后续的条形码位点筛选和回收率评估提供坚实数据基础。

具体样本示例: 原文未提供数据集中具体基因序列或细胞表达谱的直接样本示例,但 Figure 1A 展示了从单只幼鱼(25-30 dpf)获得的 3545 个细胞的 tSNE 聚类图,直观地显示了该数据集所覆盖的 24 种不同细胞类型,证明了数据的多样性。

5.2. 评估指标

本研究使用了多种指标来评估条形码位点的选择、编辑效率、回收性能以及谱系追踪能力。

  • 基因编辑效率 (Editing Efficiency):

    1. 概念定义:CRISPR/Cas9CRISPR/Cas9 系统在目标基因组位点成功引入突变(通常是 InDels)的程度。
    2. 数学公式: 未给出明确的数学公式,但通常通过以下两种方法进行定性或半定量评估。
    3. 符号解释:
      • Sanger 测序: 通过观察测序峰图在 Cas9 预测切割位点后是否出现多个重叠峰来判断是否存在 InDels。噪声信号的出现通常表明有效的基因编辑。
      • T7 核酸内切酶 I (T7E1) 测定: 是一种基于酶切的基因编辑效率检测方法。T7E1 酶能够识别并切割异源双链 DNA(即一条链是野生型,另一条链含有 InDel 突变),切割产物通过凝胶电泳分离,通过测量切割片段的相对丰度来估计突变率。 编辑效率 = (切割片段的总强度 / (完整片段强度 + 切割片段总强度)) × 100%
  • 条形码回收率 (Barcode Recovery Rate):

    1. 概念定义: 指通过 scRNA-seq 从单个细胞中成功检测到特定条形码位点转录本的效率。
    2. 数学公式: 未给出明确的数学公式,但通过以下方式进行量化。
    3. 符号解释:
      • 每个细胞检测到的条形码位点数量: 统计每个单细胞中至少检测到 1 个 UMI 的条形码位点数量。
      • 条形码位点 UMI 计数分布: 统计每个条形码位点在单个细胞中检测到的 UMI 数量。UMI 计数是原始 mRNA 分子数量的近似值,反映了基因的表达水平。
      • 不同 UMI 阈值下的细胞比例: 衡量有多少比例的细胞可以检测到一定数量的条形码位点,且这些位点满足一定的 UMI 计数阈值(例如 UMI > 1, UMI > 2, UMI > 5)。
  • 突变率 (Mutation Rate):

    1. 概念定义: 指在特定条形码位点上,CRISPR/Cas9CRISPR/Cas9 诱导的 InDels 突变在所有测序读段中所占的比例。
    2. 数学公式: Mutation Rate=Number of reads with scarsTotal number of reads×100% \text{Mutation Rate} = \frac{\text{Number of reads with scars}}{\text{Total number of reads}} \times 100\%
    3. 符号解释:
      • Number of reads with scars\text{Number of reads with scars}:在特定位点上检测到的包含 InDel 瘢痕的测序读段总数。
      • Total number of reads\text{Total number of reads}:在特定位点上所有高质量测序读段的总数。
  • 唯一瘢痕数量 (Number of Unique Scars):

    1. 概念定义: 指在所有分析的样本中或特定位点上,通过 NGS 识别到的,具有不同 InDel 序列模式的瘢痕总数。
    2. 数学公式: 直接计数。
    3. 符号解释: 这是一个直接的计数指标,反映了 CRISPR/Cas9CRISPR/Cas9 基因编辑事件产生的遗传多样性。多样性越高,谱系追踪的分辨率越高。
  • 瘢痕频率 (Scar Frequency):

    1. 概念定义: 指特定瘢痕在所有高质量测序读段中所占的比例。
    2. 数学公式: Scar Frequency=Number of reads with specific scarTotal number of reads in sample for that site×100% \text{Scar Frequency} = \frac{\text{Number of reads with specific scar}}{\text{Total number of reads in sample for that site}} \times 100\%
    3. 符号解释:
      • Number of reads with specific scar\text{Number of reads with specific scar}:在特定位点上检测到的,具有某个特定 InDel 序列的测序读段数量。
      • Total number of reads in sample for that site\text{Total number of reads in sample for that site}:在特定样本的特定位点上所有高质量测序读段的总数。
  • 细胞分裂周期估算 (Estimated Cell Division Cycle):

    1. 概念定义: 根据瘢痕在细胞群体中的频率,估算产生该瘢痕的 CRISPR/Cas9CRISPR/Cas9 编辑事件发生在胚胎发育的哪个细胞分裂周期。
    2. 数学公式: k=log2(f)k = -\log_2(f)
    3. 符号解释:
      • kk:估算的细胞分裂周期数(或更准确地说,是编辑事件发生时的细胞代数,即 2k2^k 个细胞具有该瘢痕)。
      • ff:特定瘢痕在细胞群体中的频率(作为分数表示,例如 0.25)。
      • 原理: 假设编辑事件发生在第 kk 次细胞分裂后,且该瘢痕只发生一次,那么该瘢痕理论上会存在于 1/2k1/2^k 比例的细胞中。例如,如果瘢痕频率为 0.25 (25%),则 k=log2(0.25)=2k = -\log_2(0.25) = 2,表示编辑发生在第二次细胞分裂之后。

5.3. 对比基线

本论文主要通过概念性比较和间接数据对比,将其提出的内源性条形码方法与现有基于 CRISPR/Cas9CRISPR/Cas9 的外源性条形码谱系追踪方法进行比较。论文中没有进行直接的实验性对比,而是基于已发表文献中的数据进行性能比较。

  • scGESTALT (Raj et al., 2018):
    • 代表性: 是一种将 CRISPR/Cas9CRISPR/Cas9 条形码与 scRNA-seq 结合的早期方法,在哺乳动物胚胎中实现了谱系追踪。
    • 比较点: 论文主要对比了条形码回收率。scGESTALT 在细胞中的条形码回收率仅为 6%-27%。
    • 本文优势: 本文的内源性条形码设计在回收率方面表现出显著优势,高达一半的细胞中可回收 40 多个条形码。
  • LINNAEUS (Spanjaard et al., 2018):
    • 代表性: 也是一种 CRISPR/Cas9CRISPR/Cas9 介导的谱系追踪方法,使用了大量的靶位点(1632个)来增加条形码空间。
    • 比较点: 论文主要对比了条形码空间 (TnT^n) 中的 nn 值(有效位点数)。LINNAEUSnn 为 1632。
    • 本文优势: 本文的 nn 为 78,虽然位点数量少于 LINNAEUS,但其内源性设计允许易于扩展 sgRNA 数量来增加 nn,且在回收率上具有优势,这对于实际应用更为关键。

为什么选择这些基线:

  • 这些基线代表了 CRISPR/Cas9CRISPR/Cas9 介导的单细胞谱系追踪领域的最先进方法,是该领域的重要里程碑。
  • 通过与这些方法的比较,可以突出本文在解决现有方法局限性(如回收率低、基因工程复杂、可扩展性差)方面的创新性和优势。虽然是间接比较,但能有效地定位本文工作的价值和改进点。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 斑马鱼单细胞图谱与有效 sgRNA 识别

  • 细胞类型多样性: 通过对一只 30 dpf 斑马鱼进行 scRNA-seq,研究人员成功获得了约 3500 个单细胞转录组数据。利用 Seurat 软件进行无监督聚类,识别出 24 个不同的细胞群 (clusters),并通过差异表达基因 (DEGs) 鉴定了它们的细胞类型。这表明 scRNA-seq 能够捕获来自斑马鱼不同组织和胚层 (germ layers) 的细胞,证实了数据涵盖的细胞类型多样性,为后续条形码位点筛选提供了全面的背景。

  • sgRNA 筛选与编辑活性: 从筛选出的约 400 个高表达基因组区域中,通过 CHOPCHOP 设计并排除了潜在脱靶效应的 sgRNAs,获得了超过 6000 个候选靶位点。初步筛选了 52 个 sgRNAs 在体内进行编辑活性测试。通过 Sanger 测序和 T7E1 测定,发现其中 8 个 sgRNAs 能够有效地在靶位点引入突变。这 8 个有效的 sgRNAs 往往具有更高的预测效率得分,为后续扩展 sgRNA 池提供了依据。

    以下是原文 Figure 1 的图像:

    Fig. 1 该图像是一个示意图,其中部分A展示了tSNE分析结果,标示了不同细胞类型;部分B则显示了不同样本的序列图谱。各样本的条形图基于所分析的细胞类型进行标注,体现了细胞的多样性和遗传信息。

VLM 描述: 该图像是一个示意图,其中部分A展示了tSNE分析结果,标示了不同细胞类型;部分B则显示了不同样本的序列图谱。各样本的条形图基于所分析的细胞类型进行标注,体现了细胞的多样性和遗传信息。

  • Figure 1A (tSNE 聚类图): 展示了 3545 个单细胞的 tSNE 降维图,细胞被聚类成 24 个不同的群体并标注了推断的细胞类型。这直观地显示了实验数据所捕获的细胞类型多样性。
  • Figure 1B (Sanger 测序结果): 展示了 8 个成功编辑的 sgRNAs 的代表性 Sanger 测序结果。图中显示了参考序列(紫色阴影表示 PAM 序列)和假定的切割位点(红色箭头)。切割位点后的信号变得嘈杂,表明 Cas9 在该位点引入了 InDels,验证了这些 sgRNAs 的编辑活性。

6.1.2. 78 个条形码位点的回收性能

  • 高回收率: 在初步筛选的 8 个有效 sgRNAs 基础上,研究人员又选择了 70 个预测效率得分高于 0.5 的 sgRNAs,总共形成了 78 个 sgRNA 池。通过对斑马鱼 scRNA-seq 数据的分析,结果显示这些条形码位点具有非常高的回收性能。例如,在超过 60% 的细胞中,可以同时检测到多达 70 个条形码位点(每个位点至少有 1 个 UMI)。

  • 高表达水平: 许多条形码位点被捕获的表达水平相当高。例如,在半数细胞中,可以回收超过 40 个条形码位点,且每个位点至少有 5 个 UMI

  • 无细胞类型偏倚: 值得注意的是,条形码的回收率没有明显的细胞类型偏倚,这意味着该系统可以应用于追踪各种细胞类型的谱系。这些结果与之前使用斑马鱼幼鱼 scRNA-seq 数据的研究一致,表明内源性条形码在不同发育阶段都具有良好的回收潜力。

    以下是原文 Figure 2 的图像:

    Fig. 2 该图像是图表,展示了CRISPR/Cas9在斑马鱼细胞谱系追踪分析中的结果。A部分为t-SNE图,显示不同位置的细胞数量;B部分为每个条形码位点的UMIs数目分布;C部分则显示了不同UMIs数量下细胞比例与检测到的位置数量关系。

VLM 描述: 该图像是图表,展示了CRISPR/Cas9在斑马鱼细胞谱系追踪分析中的结果。A部分为t-SNE图,显示不同位置的细胞数量;B部分为每个条形码位点的UMIs数目分布;C部分则显示了不同UMIs数量下细胞比例与检测到的位置数量关系。

  • Figure 2A (tSNE 图按检测到的条形码数量着色): tSNE 降维图显示了细胞按检测到的条形码位点数量着色。颜色越深表示检测到的条形码位点越多。该图直观地展示了大量细胞中能够检测到多个条形码位点,且没有明显的空间或细胞类型偏倚。
  • Figure 2B (UMI 计数分布): 显示了每个条形码位点在单个细胞中 UMI 计数(即表达水平)的分布。结果表明,许多条形码位点具有较高的 UMI 计数,意味着它们在细胞中高表达,有助于高效率回收。
  • Figure 2C (回收率曲线): 曲线图展示了在不同 UMI 计数阈值(>1、>2、>5)下,检测到的条形码位点数量与能够达到该检测水平的细胞百分比之间的关系。结果清晰地表明,即使在较高的 UMI 阈值下,仍有大量细胞能够检测到多个条形码,证明了该内源性条形码系统的高回收性能。

6.1.3. 多样化的突变谱系与剂量效应

  • 突变谱多样性: 为了评估 78-sgRNA 池的突变谱,研究人员将 Cas9 mRNA 和不同剂量的混合 sgRNAs 注射到斑马鱼胚胎中。结果显示,大多数位点删除率高于插入率。更重要的是,在所有样本中,共观察到约 2300 个独特的瘢痕,每个条形码位点产生了 1 到约 200 个不同的瘢痕。这种高度多样化的瘢痕为解析斑马鱼的细胞谱系提供了丰富的标记空间。

  • sgRNA 剂量效应: 对比了低剂量和高剂量 sgRNA 注射组的突变率,发现高剂量 sgRNA 显著提高了条形码的编辑水平。尽管高剂量可能导致较低的存活率,但存活的胚胎大多数形态正常,这表明在未来的实验中可以考虑使用较高浓度以获得更高分辨率的谱系重建。

    以下是原文 Figure 3 的图像:

    该图像是图表,展示了78个sgRNA池在斑马鱼发育过程中进行条形码标记和后续测序的实验流程(A),检测不同sgRNA池量对带有条形码的读取比例的影响(B),以及不同条形码位点获得的独特条形码数量(C)。 该图像是图表,展示了78个sgRNA池在斑马鱼发育过程中进行条形码标记和后续测序的实验流程(A),检测不同sgRNA池量对带有条形码的读取比例的影响(B),以及不同条形码位点获得的独特条形码数量(C)。

VLM 描述: 该图像是图表,展示了78个sgRNA池在斑马鱼发育过程中进行条形码标记和后续测序的实验流程(A),检测不同sgRNA池量对带有条形码的读取比例的影响(B),以及不同条形码位点获得的独特条形码数量(C)。

  • Figure 3A (条形码系统示意图): 展示了利用内源性位点进行条形码系统的概览。Cas9sgRNAs 注射到单细胞胚胎中,随着时间推移累积瘢痕,并通过多重 PCR 和 NGS 进行读取。
  • Figure 3B (突变率比较): 条形图比较了低剂量和高剂量 sgRNA 注射组的突变率。点代表每个靶位点带有瘢痕的读段百分比的中位数。结果显示,高剂量 sgRNA 组的突变率明显高于低剂量组,表明剂量效应。
  • Figure 3C (独特瘢痕数量): 柱状图展示了由不同 sgRNAs 产生的独特瘢痕数量。结果显示,许多 sgRNAs 产生了大量的独特瘢痕,总数达到了约 2300 个,这突出了该系统在提供丰富谱系标记方面的潜力。

6.1.4. 谱系记录能力与细胞分裂时间线

  • 连续编辑能力: 通过对注射了不同剂量 sgRNAs 的幼鱼进行序列分析,发现该策略能够持续在早期发育阶段(从约第三次细胞分裂开始)产生瘢痕。

  • 瘢痕频率与分裂周期: 以一个注射了最高浓度 sgRNAs 的幼鱼 (S10) 为例,不同瘢痕的频率变化显著,从 0.005% 到 16%。基于“瘢痕频率与细胞分裂周期成反比”的假设(即如果瘢痕在 kk 次细胞分裂后出现,其频率约为 1/2k1/2^k),研究人员能够估算出编辑事件发生的时间线。结果表明,从第三次细胞分裂开始,每个细胞分裂周期至少出现两个新的瘢痕,这证明了该系统能够连续、高密度地记录早期发育阶段的谱系事件。

    以下是原文 Figure 4 的图像:

    Fig. 4 该图像是图表,展示了 zebrafish 中独特的衰损频率与细胞增殖周期的关系。图 A 显示了 170 个独特的衰损,其频率变化显著;图 B 通过不同颜色表示不同的频率排序;图 C 则展示了在不同增殖周期中新增衰损的数量变化,特别强调了 S10 和 S11 的趋势。

VLM 描述: 该图像是图表,展示了 zebrafish 中独特的衰损频率与细胞增殖周期的关系。图 A 显示了 170 个独特的衰损,其频率变化显著;图 B 通过不同颜色表示不同的频率排序;图 C 则展示了在不同增殖周期中新增衰损的数量变化,特别强调了 S10 和 S11 的趋势。

  • Figure 4A (单个个体的瘢痕频率变化): 展示了在一个斑马鱼个体 (S10) 中,不同瘢痕的频率分布。每个瘢痕由其发生位点和在该位点上的频率排名标识。瘢痕按频率降序排列,显示出频率范围的显著变化,这提供了估算细胞分裂周期的基础。
  • Figure 4B (编辑事件的时间线估算): 散点图展示了根据瘢痕频率估算的编辑事件发生时间线(细胞分裂周期)。瘢痕由其发生的位点着色,不同形状表示瘢痕在该位点中的频率排名。该图直观地显示了编辑事件在多个分裂周期中持续发生。
  • Figure 4C (每个分裂周期新增瘢痕分布): 柱状图展示了在不同样本中,每个估算细胞分裂周期新增瘢痕的数量分布。结果显示,从第三次细胞分裂开始,每个周期都有新的瘢痕出现,证明了该系统能够连续地记录谱系信息。

6.1.5. 与现有方法的比较

  • 回收率优势: 本文设计在回收率方面显著优于 scGESTALT。本文设计实现了高达一半的条形码在约 90% 的细胞中可回收,而 scGESTALT 的条形码回收率仅为 6%-27%。
  • 条形码空间优势: 谱系记录空间可以用 TnT^n 来估计,其中 TT 是单个切割位点的可能编辑模式,nn 是有效位点数。本文设计使用了 78 个有效位点 (n=78n=78),而 scGESTALT 为 10 个,LINNAEUS 为 1632 个。虽然 LINNAEUSnn 值更大,但由于本文方法不依赖外源性工程化,可以通过简单增加 sgRNA 数量来轻松扩展 nn,且在回收率上具有显著优势,这使得其在实际应用中更具竞争力。

6.2. 数据呈现 (表格)

原文正文部分没有提供具体的表格数据。论文中提及了补充表格 (Table S1, Table S2, Table S3, Table S4),但这些表格内容未在正文或提供的附件中给出,因此无法转录。

6.3. 消融实验/参数分析

  • sgRNA 剂量效应: 研究人员比较了低剂量(总 sgRNA 156 pg)和高剂量(总 sgRNA 780 pg) sgRNA 注射对条形码编辑水平的影响。结果(Figure 3B)明确显示,更高剂量的 sgRNA 能够导致更高的条形码编辑水平。这意味着通过优化 sgRNA 浓度,可以提高谱系追踪的分辨率和编辑密度。虽然高剂量可能影响存活率,但大部分存活胚胎形态正常,表明这种策略是可行的。

  • 持续编辑与时间线: 通过注射不同剂量的 sgRNA 池并分析单个幼鱼的瘢痕频率,研究了编辑事件的持续性和在发育时间线上的分布。结果(Figure 4B, 4C)表明 CRISPR/Cas9CRISPR/Cas9 诱导的编辑事件从第三次细胞分裂开始持续发生,且每个细胞分裂周期都有新的瘢痕产生。这验证了该系统能够提供连续的谱系记录,而不是仅在非常早期或晚期发生单一的编辑事件。

    这些分析表明,sgRNA 剂量是影响条形码编辑效率和密度的关键参数,可以通过调整剂量来平衡编辑强度和生物体健康。同时,编辑事件的持续性是实现高分辨率谱系追踪的重要基础。

7. 总结与思考

7.1. 结论总结

本研究成功开发了一种在斑马鱼中进行 CRISPR/Cas9 介导的细胞谱系追踪的新策略。核心在于识别并表征了 78 个高质量的内源性基因座作为条形码位点。这些位点在大多数细胞类型中均具有广泛且高水平的表达,确保了通过单细胞 RNA 测序 (scRNA-seq) 进行条形码读取时的高回收率。实验结果表明,该内源性条形码系统具有显著优势:

  1. 高回收率: 远超现有的外源性条形码方法,例如 scGESTALT
  2. 多样化且连续的谱系记录: CRISPR/Cas9CRISPR/Cas9 诱导的 InDels 产生了高度多样的遗传瘢痕,这些瘢痕能够从斑马鱼早期发育阶段(约第三次细胞分裂)开始,在多个细胞分裂周期中持续累积,从而提供高分辨率的谱系信息。
  3. 简化操作: 避免了复杂的外源性基因工程,使得实验更易于实施和扩展。
  4. 同时获取细胞类型和谱系信息: 通过与 scRNA-seq 的兼容性,可以同步获取细胞的分子特征(细胞类型)和其发育历史(谱系)。 这些发现为在复杂生物体中大规模、高分辨率地解析细胞谱系和细胞命运提供了强大的新工具。

7.2. 局限性与未来工作

作者指出的局限性: 本文设计的一个主要潜在顾虑是,编辑内源性基因可能会对斑马鱼的正常发育产生影响,从而影响所记录的细胞谱系关系的真实性。

作者提出的缓解策略/未来研究方向 (暗示): 作者通过以下几点来论证这种影响可能有限,并暗示了未来需要关注和验证的方向:

  1. 位点选择安全性: 所选择的条形码位点均来自在删除后不会导致致死性结果的基因 (Amsterdam et al., 2004),并且这些基因都不是转录因子 (transcription factors)。这降低了编辑单个位点造成严重发育缺陷的可能性。

  2. 编辑起始时间: 根据数据,编辑事件从第八次细胞分裂或更晚才开始,这意味着只有相对较小比例的细胞会受到影响,且早期关键发育阶段可能未受干扰。

  3. 纯合性低: Cas9 诱导的编辑事件很少是纯合的 (homozygous),这意味着大多数编辑是杂合的,进一步最小化了单个基因功能受损的程度。

  4. 组合效应的缓解: 尽管多个编辑基因的组合效应可能较强,但由于这种组合在不同个体之间会有所不同,通过进行独立的生物学重复 (biological replicates) 可以减轻这些效应,并区分普遍的谱系模式与特定编辑组合的影响。

  5. 宏观形态正常: 大多数经过实验处理的斑马鱼个体在形态上保持正常,并能成熟到成年,这提供了该方法对发育影响较小的初步证据。

    因此,作者认为有充分理由相信该设计有助于以单细胞分辨率揭示斑马鱼的正常发育历史,但其潜在的生物学影响仍需在未来的研究中进行更深入的评估和验证。

7.3. 个人启发与批判

个人启发:

  • 创新性解决思路: 这篇论文的创新点在于巧妙地将现有的 CRISPR/Cas9CRISPR/Cas9 谱系追踪技术与 scRNA-seq 结合,并从“外源性”条形码转向“内源性”条形码。这一转变是解决现有方法复杂性、低回收率和可扩展性瓶颈的关键。
  • 生物学洞察力: 选择广泛表达且非关键的内源性基因作为靶点,这需要对模式生物的基因组和发育有深刻的理解。这种策略既保证了条形码的表达和回收,又最小化了对生物体正常发育的干扰,体现了严谨的生物学实验设计。
  • 技术整合的典范: 本文是多项前沿技术(CRISPR/Cas9CRISPR/Cas9scRNA-seq、计算生物学数据分析)成功整合的典范,展示了跨学科方法在解决复杂生物学问题上的强大潜力。
  • 广阔应用前景: 这种高分辨率、高效率的谱系追踪方法不仅限于发育生物学,还可以推广到研究组织再生、肿瘤发生发展、免疫细胞活化等多种生物学过程,为揭示细胞命运决定机制提供全新的视角。

批判或可改进之处:

  • 对发育影响的量化评估: 尽管作者提供了多种理由说明编辑内源性基因对斑马鱼发育影响较小,但这些都是定性或间接的证据。未来的工作可以进行更系统的量化评估,例如,通过比较编辑组与对照组在特定发育阶段的基因表达谱、表型特征或功能测试,以更严谨地排除潜在的发育偏差。
  • 直接实验对比的缺乏: 论文中与 scGESTALTLINNAEUS 等现有方法的比较主要是基于已发表文献数据的间接比较。如果能在同一个实验体系中,直接并行比较本文方法与现有最佳方法的性能(例如,在相同条件下比较回收率、编辑密度、谱系树准确性等),将能更有力地证明本文方法的优越性。
  • 瘢痕复发与 PCR 偏倚: 论文假设瘢痕复发率低且 PCR 扩增偏倚小,从而根据瘢痕频率估算细胞分裂周期。然而,CRISPR/Cas9CRISPR/Cas9 可能会产生倾向性重复的瘢痕,且 Multiplex PCR 扩增本身也可能存在偏倚。未来的研究可以探索更复杂的计算模型来校正这些因素,或开发更精确的实验方法来减少这些潜在的误差来源。
  • 单个细胞内的瘢痕组合: 论文主要关注了单个瘢痕的频率。然而,真正的谱系信息往往体现在单个细胞内多个瘢痕的组合上。未来的分析可以深入挖掘这些组合模式,以构建更精细的细胞谱系树。
  • 长程谱系追踪的挑战: 斑马鱼的寿命相对较长,追踪其整个生命周期的细胞谱系仍然是一个巨大的挑战。目前的 scRNA-seq 技术主要适用于捕获瞬时状态。如何将这种基于 RNA 的条形码读取方法与长期谱系追踪技术(例如,通过 DNA 提取和测序)结合,以实现更长期的谱系追踪,是未来值得探索的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。