AiPaper
论文状态:已完成

A cross entropy test allows quantitative statistical comparison of t-SNE and UMAP representations

发表:2023/01/01
原文链接
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出基于单细胞交叉熵分布的Kolmogorov-Smirnov统计检验方法,实现了t-SNE和UMAP降维结果的定量比较。该方法稳健识别生物变异,提供有效数据集距离度量,推动单细胞高维数据分析超越可视化范畴。

摘要

Article A cross entropy test allows quantitative statistical comparison of t-SNE and UMAP representations Graphical abstract Highlights d A cross entropy test enables evaluation of differences between t-SNE and UMAP projections d The cross entropy test can distinguish biological variation from technical variation d The cross entropy test can quantify differences between multiple samples d Full code and instructions are given for applying the test to single cell datasets Authors Carlos P. Roca, Oliver T. Burton, Julika Neumann, ..., Rafael V. Veiga, Ste ´ phanie Humblet-Baron, Adrian Liston Correspondence al989@cam.ac.uk In brief Dimensionality-reduction tools such as t- SNE and UMAP allow visualizations of single-cell datasets. Roca et al. develop and validate the cross entropy test for robust comparison of dimensionality- reduced datasets in flow cytometry, mass cytometry, and single-cell sequencing. The test allows statistical significance assessment and quantification of differences. Roca et al., 2023, Cell Reports Methods 3 , 100390 January 23, 2023 ª 2022 The Author(s). https://doi.org/10.1016/j.crmeth.2022.100390 ll

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

A cross entropy test allows quantitative statistical comparison of t-SNE and UMAP representations (交叉熵检验允许对 t-SNE 和 UMAP 表示进行定量统计比较)

1.2. 作者

Carlos P. Roca, Oliver T. Burton, Julika Neumann, Samar Tareen, Carly E. Whyte, Vaclav Gergelits, Rafael V. Veiga, Stéphanie Humblet-Baron, Adrian Liston

主要贡献者与通讯作者:

  • Carlos P. Roca 和 Adrian Liston: 构思并开发了交叉熵检验方法,并共同撰写了手稿。
  • Adrian Liston (al989@cam.ac.uk): 首席联系人 (Lead contact)。

隶属机构:

  • 英国剑桥巴布拉汉姆研究所免疫学项目 (Immunology Programme, The Babraham Institute, Cambridge, UK)
  • 比利时鲁汶 VIB 脑与疾病研究中心 (VIB Center for Brain and Disease Research, Leuven, Belgium)
  • 比利时鲁汶大学微生物学和免疫学系 (KU Leuven University of Leuven, Department of Microbiology and Immunology, Leuven, Belgium)

1.3. 发表期刊/会议

Cell Reports Methods。 该期刊是 Cell Press 旗下的开放获取期刊,专注于发表新的生物学和生物医学研究方法和协议。在生物学方法学领域具有良好的声誉和影响力。

1.4. 发表年份

2023年1月13日在线发表。

1.5. 摘要

随着高维单细胞数据的出现,降维工具的需求日益增长。t-Distributed stochastic neighbor embedding (t-SNE)(t 分布随机邻域嵌入)和 Uniform manifold approximation and projection (UMAP)(均匀流形近似与投影)是目前最常用的两种方法,能够清晰地可视化复杂的单细胞数据集。尽管对定量比较存在需求,但由于缺乏稳健的统计方法,t-SNEUMAP 在很大程度上仍停留在可视化工具层面。本文推导了一种统计检验方法,通过对数据集中单个细胞的交叉熵分布进行 Kolmogorov-Smirnov (KS) 检验,来评估降维数据集之间的差异。由于该方法利用了单个细胞的相互关系进行比较,因此所得到的统计量是稳健的,并能够识别真实的生物学变异。此外,该检验提供了一种有效的单细胞数据集间距离度量,从而允许将多个样本组织成树状图,以对复杂数据集进行定量比较。这些结果表明,降维工具在生物医学数据分析中除了可视化之外,还具有巨大的未开发潜力。

1.6. 原文链接

/files/papers/68ff6fb883c43dcf2b92fa29/paper.pdf 状态:已正式发表。


2. 整体概括

2.1. 研究背景与动机

核心问题与挑战: 在单细胞生物学领域,如单细胞测序、流式细胞术和质谱流式细胞术等技术,能够生成包含数万甚至数百万个细胞的高维数据集,每个细胞又包含数十到数千个参数。为了理解和可视化这些复杂的数据,t-SNEUMAP 等非线性降维工具被广泛应用,它们能将高维数据映射到二维或三维空间,从而揭示细胞群体的结构和异质性。然而,这些工具主要作为可视化手段,研究人员通常通过“肉眼观察”来评估不同数据集(例如来自不同实验条件或不同样本)之间降维表示的差异。这种主观评估方式缺乏定量、客观和统计学上的严谨性,使得 t-SNEUMAP 在分析工具方面的潜力远未被充分挖掘。

现有研究的空白 (Gap): 尽管有多种降维工具,但缺乏一种稳健的统计方法来定量比较这些降维后的数据集。这意味着:

  1. 无法区分真正的生物学差异与技术噪声(如实验重复之间的微小波动)。
  2. 无法量化不同样本之间差异的程度。
  3. 无法将多个样本系统地组织起来进行层次化比较。 传统的数据分析方法,如 principal-components analysis (PCA)(主成分分析)和 multidimensional scaling (MDS)(多维尺度分析),虽然提供线性缩放的低维表示,但对于识别高度相似的细胞群体的非线性关系效果不佳。而 t-SNEUMAP 虽能捕捉局部关系,但其结果的统计比较一直是一个难题。

本文的切入点和创新思路: 本文旨在填补这一空白,开发一种能够对 t-SNEUMAP 降维结果进行定量统计比较的方法。作者利用了 t-SNEUMAP 算法内部计算交叉熵的原理。t-SNE 算法通过优化高维和低维空间中数据点之间的交叉熵来生成降维表示。作者观察到,每个 t-SNE (或 UMAP)表示都可以被视为单个细胞交叉熵散度的分布。因此,可以通过比较这些交叉熵分布来评估两个降维图之间的差异。具体来说,他们提出了一个基于 Kolmogorov-Smirnov (KS) test(柯尔莫哥洛夫-斯米尔诺夫检验)的交叉熵检验 (cross entropy test),用于定量评估 t-SNEUMAP 降维数据集之间的统计差异。

2.2. 核心贡献/主要发现

本文的核心贡献在于提出了一个新颖且稳健的统计检验方法——交叉熵检验 (cross entropy test),用于定量比较 t-SNEUMAP 降维后的单细胞数据集。

主要发现:

  1. 稳健性与敏感性: 交叉熵检验能够可靠地区分真正的生物学变异与技术或生物学重复之间的噪声。

    • 在技术重复 (technical replicates) 和生物学重复 (biological replicates) 之间,检验结果显示无显著差异,支持零假设。
    • 在具有真实生物学差异的样本之间,检验结果显示显著差异。
    • 对于同一样本的不同 t-SNEUMAP 运行所产生的旋转对称性 (rotational symmetry) 等视觉差异,检验能正确识别为无显著差异。
    • 该检验对 t-SNEUMAP 的参数设置(如 perplexity、迭代次数、邻居数)具有鲁棒性。
  2. 量化差异与构建树状图: 该检验提供了 L∞ 距离 (L-infinity distance) 作为数据集之间差异的定量度量。

    • L∞ 距离可以用于构建树状图 (dendrogram),从而系统地组织和比较多个复杂数据集,揭示它们之间的层次关系。
    • 通过人工数据集验证了 L∞ 距离能够准确反映样本间的生物学“接近”程度。
  3. 对定性和定量变化的敏感性: 交叉熵检验能够同时检测到细胞簇频率的定量变化 (inter-cluster frequency) 和细胞簇内部表型的定性变化 (intra-cluster phenotype shifts)。

  4. 广泛适用性: 该方法不仅适用于流式细胞术数据,还成功应用于质谱流式细胞术 (mass cytometry) 和单细胞测序 (single-cell sequencing) 数据,并且对 t-SNEUMAP 两种主流降维方法均有效。这表明其在单细胞分析领域具有广泛的实用价值。

  5. 代码和指南: 提供了完整的代码和使用说明,方便其他研究者应用该检验到自己的单细胞数据分析中。

    这些发现共同揭示了降维工具在生物医学数据分析中超越简单可视化的巨大潜力,为单细胞数据分析提供了一个急需的定量分析框架。


3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 高维单细胞数据 (High-dimensional single-cell data)

指通过流式细胞术 (flow cytometry)、质谱流式细胞术 (mass cytometry, CyTOF) 或单细胞测序 (single-cell sequencing) 等技术获取的,针对单个细胞测量多个参数(如蛋白质表达、基因表达)的数据集。每个细胞可被视为高维空间中的一个数据点,其坐标由测量的各项参数值构成。这些数据集通常非常庞大且复杂,难以直接可视化和分析。

3.1.2. 降维 (Dimensionality Reduction)

一种将高维数据转换到低维空间(通常是二维或三维)的技术,同时尽可能保留数据的重要结构和信息。降维的目的是为了简化数据、去除噪声,并便于数据的可视化和解释。

  • 线性降维 (Linear Dimensionality Reduction):
    • 主成分分析 (Principal Component Analysis, PCA): 寻找数据中方差最大的正交方向(主成分),将数据投影到这些方向上以降低维度。PCA 擅长捕捉全局结构,但可能无法很好地揭示非线性关系。
    • 多维尺度分析 (Multidimensional Scaling, MDS): 旨在保留数据点之间的距离关系,将高维空间中的距离转换为低维空间中的距离。
  • 非线性降维 (Non-linear Dimensionality Reduction): 能够捕捉数据中复杂的非线性结构,这在生物学数据中尤为常见。
    • t-SNE (t-Distributed Stochastic Neighbor Embedding): 最常用的非线性降维算法之一,特别擅长在低维空间中可视化高维数据中的局部结构,将相似的数据点聚集在一起形成簇。
    • UMAP (Uniform Manifold Approximation and Projection): 另一种流行的非线性降维算法,与 t-SNE 类似,但通常运行速度更快,并且被认为在一定程度上更好地保留了数据的全局结构。

3.1.3. t-SNE (t-Distributed Stochastic Neighbor Embedding)

一种用于高维数据可视化的非线性降维算法。其核心思想是:将高维空间中数据点之间的相似度(通过高斯分布建模)映射到低维空间,并使用 tt 分布来建模低维空间中的相似度。t-SNE 通过最小化高维和低维相似度分布之间的 Kullback-Leibler (KL) divergence(KL 散度)来优化低维表示。它特别关注保留局部邻域结构,使得相似的数据点在低维空间中被放置在一起。

  • Perplexity (困惑度): t-SNE 的一个关键参数,可以被认为是数据点有效邻居数量的度量。它影响着局部和全局结构在低维表示中的平衡。

3.1.4. UMAP (Uniform Manifold Approximation and Projection)

一种相对较新的非线性降维算法,旨在将高维数据映射到低维空间,同时保留其拓扑结构。UMAP 基于流形学习 (manifold learning) 理论,假定数据点位于一个低维流形上。它通过构建高维数据点的 fuzzy simplicial complex(模糊单纯复形)来表示数据的拓扑结构,然后尝试在低维空间中找到一个尽可能相似的模糊单纯复形。UMAP 通常比 t-SNE 运行更快,并且在保留全局结构方面表现更好。

3.1.5. 熵 (Entropy) 和 交叉熵 (Cross Entropy)

  • 熵 (Entropy): 在信息论中,熵是衡量信息不确定性或混乱程度的指标。对于一个概率分布 PP,其熵 H(P) 定义为: H(P)=iP(xi)logP(xi) H(P) = -\sum_i P(x_i) \log P(x_i) 其中 P(xi)P(x_i) 是事件 xix_i 发生的概率。
  • 交叉熵 (Cross Entropy): 衡量两个概率分布 PPQQ 之间的差异。它计算了使用分布 QQ 来编码分布 PP 中事件所需的平均比特数。对于两个概率分布 PPQQ,其交叉熵 H(P, Q) 定义为: H(P,Q)=iP(xi)logQ(xi) H(P, Q) = -\sum_i P(x_i) \log Q(x_i) 在机器学习中,交叉熵常被用作损失函数,用于衡量模型预测的分布 QQ 与真实分布 PP 之间的匹配程度。

3.1.6. Kullback-Leibler (KL) 散度 (Kullback-Leibler (KL) Divergence)

KL 散度,也称为相对熵 (relative entropy),是衡量两个概率分布 PPQQ 之间差异的非对称度量。它量化了当使用分布 QQ 来近似分布 PP 时所损失的信息量。KL 散度 D(P, Q) 定义为: D(P,Q)=iP(xi)logP(xi)Q(xi) D(P, Q) = \sum_i P(x_i) \log \frac{P(x_i)}{Q(x_i)} KL 散度与熵和交叉熵的关系为:D(P,Q)=H(P,Q)H(P)D(P, Q) = H(P, Q) - H(P)t-SNE 算法通过最小化高维和低维相似度分布之间的 KL 散度来工作。

3.1.7. Kolmogorov-Smirnov (KS) 检验 (Kolmogorov-Smirnov (KS) Test)

一种非参数统计检验,用于比较两个单变量概率分布是否来自同一分布,或者一个样本分布是否与某个理论分布一致。KS 检验通过比较两个累积分布函数 (cumulative distribution function, CDF) 的最大垂直距离来计算统计量 DDDD 值越大,表示两个分布的差异越大。它能够检测分布形状、位置和尺度的差异。

  • p 值 (p-value): KS 检验的输出结果,表示在零假设(即两个分布相同)成立的情况下,观察到当前或更极端差异的概率。通常,当 pp 值小于预设的显著性水平(如 0.05)时,我们拒绝零假设,认为两个分布存在统计学上的显著差异。

3.1.8. LL^\infty 距离 (L-infinity Distance)

也称为切比雪夫距离 (Chebyshev distance),是两个向量之间各维度差的绝对值的最大值。在本文中,它被用来衡量两个累积分布函数(或两个交叉熵分布)之间的最大差异,即 KS 检验统计量 DDL(f,g)=maxx(f(x)g(x)) L^\infty(f, g) = \max_x (|f(x) - g(x)|) 其中 f(x)g(x) 是两个累积分布函数。它提供了一个直观的、量化的差异大小度量。

3.2. 前人工作

  • t-SNE 和 UMAP 的发展:
    • t-SNE (van der Maaten and Hinton, 2008) 极大地推动了高维数据的可视化,尤其是在生物学领域。
    • UMAP (McInnes et al., 2018) 作为 t-SNE 的替代品,提供了更快的运行速度和更好的全局结构保留能力 (Kobak and Linderman, 2021)。
    • 其他变体如 den-SNEdensMAP (Narayan et al., 2021) 尝试解决簇大小受细胞数量驱动的问题,通过优化细胞密度来反映异质性。
    • TMAP (Probst and Reymond, 2020) 等工具旨在处理 t-SNE 在更大规模数据上的局限性。
  • 单细胞数据分析挑战:
    • 单细胞技术能够生成海量数据,但数据分析方法已成为限制因素 (Lähnemann et al., 2020)。
    • 传统上,对单细胞数据进行下游分析时,通常将其聚类后视为“伪批量 (pseudo-bulk)”群体进行处理,例如比较簇大小变化或平均基因/蛋白质表达,这会损失单细胞层面的丰富信息 (Cheung et al., 2021)。
  • 缺乏定量比较:
    • 尽管 t-SNEUMAP 广泛用于可视化,但它们通常不作为分析工具。缺乏稳健的统计方法来比较这些降维表示,导致分析主要依赖主观的“肉眼观察”。

3.3. 技术演进

单细胞数据分析的技术演进,从最初的简单门控 (gating) 和 PCA,逐渐发展到 t-SNEUMAP 等非线性降维方法,以更好地处理高维数据的复杂性和非线性结构。然而,这种演进主要集中在可视化聚类方面。本文的工作代表了向定量比较和统计推断方向迈出的重要一步,旨在将 t-SNEUMAP 从纯粹的可视化工具提升为可进行严格统计分析的工具。它将单细胞间相互关系的复杂信息,通过交叉熵这一单一统计量进行捕捉,从而实现更深层次的生物学发现。

3.4. 差异化分析

本文的方法与现有方法的核心区别在于:

  • 创新点: 首次提出并验证了利用交叉熵分布结合 KS 检验来定量比较 t-SNEUMAP 降维结果。

  • 克服主观性: 解决了长期以来依赖“肉眼观察”来评估降维图差异的主观性问题,提供了客观、统计学严谨的比较工具。

  • 信息保留: 与将单细胞数据处理为“伪批量”的传统下游分析不同,本文方法直接利用 t-SNEUMAP 中保留的单细胞层面的局部关系信息,避免了信息损失。

  • 综合考量: 能够同时捕捉细胞簇频率的定量变化和细胞簇内部表型的定性变化,提供更全面的差异评估。

  • 定量度量: 引入 L∞ 距离,不仅能进行显著性检验,还能量化差异大小,并用于构建树状图进行多样本的层次化比较。


4. 方法论

4.1. 方法原理

本文的核心思想是:t-SNEUMAP 等降维算法在构建低维表示时,其优化目标都涉及到保留数据点在高维和低维空间中的局部邻域关系。这种关系通过概率分布来表示,而这些概率分布之间的“匹配程度”正是通过 Kullback-Leibler (KL) divergence 或等效地通过交叉熵 (cross entropy) 来度量的。

t-SNE 算法在优化过程中,会为数据集中的每个数据点(即单个细胞)计算一个“点交叉熵 (point cross entropy)”。由于 t-SNE 旨在使高维和低维空间中的相似度分布尽可能接近,并且在给定 perplexity 参数后,高维空间中的点熵 (point entropy) 被固定,因此 t-SNE 的优化实际上是在操作低维空间中的点交叉熵。

本文提出,如果两个原始高维数据集是统计等价的,那么它们通过 t-SNEUMAP 降维后得到的低维表示,其对应的点交叉熵分布也应该是统计等价的。反之,如果两个原始数据集存在生物学差异,这种差异将反映在它们的低维表示中,进而导致其点交叉熵分布产生统计学上的显著差异。

因此,该方法通过以下步骤实现定量比较:

  1. 为每个降维后的数据集计算单个细胞的交叉熵分布。

  2. 使用 Kolmogorov-Smirnov (KS) test 比较这两个交叉熵分布。 KS 检验能够检测两个分布之间的最大差异,并返回一个 pp 值,指示这种差异是否具有统计学显著性。

  3. 计算 L∞ 距离作为两个交叉熵分布之间差异的定量度量,用于构建树状图。

    这种方法利用了降维算法内部的数学机制,将高维数据的复杂差异转化为低维交叉熵分布的差异,从而提供了一个客观且稳健的统计比较框架。

4.2. 方法步骤与流程

4.2.1. t-SNE 或 UMAP 的多维数据表示 (t-SNE representation of multidimensional data)

首先,给定一个原始高维数据集 X={xi}i=1...nX = \{x_i\}_{i=1...n},其中 xiRdx_i \in \mathbb{R}^d 是一个 dd 维的单细胞数据点。t-SNE 算法的目标是将其映射到一个低维空间 Y={yi}i=1...nY = \{y_i\}_{i=1...n},其中 yiR2y_i \in \mathbb{R}^2R3\mathbb{R}^3

a. 高维空间中的概率相似度 (Probabilistic Similarities in High-Dimensional Space): 对于高维空间中的任意两个数据点 xix_ixjx_j (jij \neq i),t-SNE 首先计算条件概率 pjip_{j|i},表示 xix_i 选择 xjx_j 作为其邻居的概率。这个概率通过高斯分布来建模: pji=exp(xjxi2/(2σi2))kiexp(xkxi2/(2σi2))(Equation 1) p_{j|i} = \frac{\exp(-\|x_j - x_i\|^2 / (2\sigma_i^2))}{\sum_{k \neq i} \exp(-\|x_k - x_i\|^2 / (2\sigma_i^2))} \quad \text{(Equation 1)} 其中,xjxi2\|x_j - x_i\|^2 是欧氏距离的平方,σi\sigma_i 是以 xix_i 为中心的高斯分布的方差。每个数据点 xix_iσi\sigma_i 都会被调整,以确保其 perplexity ρ\rho 达到预设值。Perplexity 可以理解为 xix_i 的有效邻居数量。

为了得到对称的联合概率 pijp_{ij}t-SNE 将条件概率进行对称化和全局归一化: pij=pji+pij2n(Equation 2) p_{ij} = \frac{p_{j|i} + p_{i|j}}{2n} \quad \text{(Equation 2)} 其中 nn 是数据点的总数。这保证了全局归一化特性: i=1nj=1,jinpij=1(Equation 3) \sum_{i=1}^n \sum_{j=1, j \neq i}^n p_{ij} = 1 \quad \text{(Equation 3)}

b. 低维空间中的概率相似度 (Probabilistic Similarities in Low-Dimensional Space): 在低维空间中,t-SNE 使用一个具有重尾的 Student's t-distribution(学生 t 分布,自由度为 1,即柯西分布)来建模数据点 yiy_iyjy_j 之间的相似度 qijq_{ij}。这种重尾分布有助于解决“拥挤问题 (crowding problem)”,即在高维空间中相距较远的点在低维空间中可能被不恰当地拉近。 qij=(1+yjyi2)1ki(1+ykyi2)1(Equation 4) q_{ij} = \frac{(1 + \|y_j - y_i\|^2)^{-1}}{\sum_{k \neq i} (1 + \|y_k - y_i\|^2)^{-1}} \quad \text{(Equation 4)} 这里,q_ij 同样满足全局归一化: i=1nj=1,jinqij=1(Equation 5) \sum_{i=1}^n \sum_{j=1, j \neq i}^n q_{ij} = 1 \quad \text{(Equation 5)}

c. 优化目标 (Optimization Objective): t-SNE 算法的目标是寻找一组低维坐标 {yi}\{y_i\},使得低维空间中的相似度分布 Q={qij}Q = \{q_{ij}\} 尽可能地接近高维空间中的相似度分布 P={pij}P = \{p_{ij}\}。这通过最小化 Kullback-Leibler (KL) divergence 来实现: D(P,Q)=i=1nj=1,jinpijlogpijqij(Equation 6) D(P, Q) = \sum_{i=1}^n \sum_{j=1, j \neq i}^n p_{ij} \log \frac{p_{ij}}{q_{ij}} \quad \text{(Equation 6)} KL 散度与交叉熵 H(P, Q) 和分布 PP 的熵 H(P) 之间的关系为: D(P,Q)=H(P,Q)H(P)(Equation 9) D(P, Q) = H(P, Q) - H(P) \quad \text{(Equation 9)} 其中:

  • 交叉熵 H(P, Q)H(P,Q)=i=1nj=1,jinpijlogqij(Equation 7) H(P, Q) = - \sum_{i=1}^n \sum_{j=1, j \neq i}^n p_{ij} \log q_{ij} \quad \text{(Equation 7)}
  • 分布 PP 的熵 H(P)H(P)=i=1nj=1,jinpijlogpij(Equation 8) H(P) = - \sum_{i=1}^n \sum_{j=1, j \neq i}^n p_{ij} \log p_{ij} \quad \text{(Equation 8)} 由于 t-SNE 在构造 PP 分布时,通过调整 σi\sigma_i 将每个点 xix_i 的局部熵 Hi(P)H_i^{(P)} 固定为由 perplexity ρ\rho 确定的值(即 Hi(P)logρH_i^{(P)} \approx \log \rho),因此 H(P) 在优化过程中可以被视为一个常数。这意味着最小化 KL 散度 D(P, Q) 等价于最小化交叉熵 H(P, Q)

d. UMAP 的数学基础: UMAP 采用不同的数学基础(拓扑空间中的流形近似),但其核心也是通过匹配高维和低维空间中的拓扑结构来优化低维表示。这个过程同样涉及对类似交叉熵的优化目标。因此,交叉熵的概念同样适用于 UMAP

4.2.2. 熵和交叉熵的分布 (Distributions of entropy and cross entropy)

为了对单个细胞(数据点)进行比较,本文定义了每个数据点的局部熵和交叉熵。

a. 局部概率 (Local Probabilities): 为了得到每个数据点的局部熵和交叉熵,首先定义局部概率 pijp_{ij}^*qijq_{ij}^*pij=npij(Equation 12) p_{ij}^* = n p_{ij} \quad \text{(Equation 12)} qij=nqij(Equation 13) q_{ij}^* = n q_{ij} \quad \text{(Equation 13)} 这些局部概率的引入使得每个数据点 ii 的概率总和接近 1: j=1,jinpij1(Equation 14) \sum_{j=1, j \neq i}^n p_{ij}^* \approx 1 \quad \text{(Equation 14)} j=1,jinqij1(Equation 15) \sum_{j=1, j \neq i}^n q_{ij}^* \approx 1 \quad \text{(Equation 15)} 这意味着 pijp_{ij}^*qijq_{ij}^* 可以被看作是围绕每个点 ii 的局部概率分布。

b. 点熵和点交叉熵 (Point Entropy and Point Cross Entropy): 基于这些局部概率,可以定义每个数据点 ii 的点熵 Hi(P)H_i^{(P)} 和点交叉熵 Hi(P,Q)H_i^{(P, Q)}Hi(P)=j=1,jinpijlogpij(Equation 10) H_i^{(P)} = - \sum_{j=1, j \neq i}^n p_{ij}^* \log p_{ij}^* \quad \text{(Equation 10)} Hi(P,Q)=j=1,jinpijlogqij(Equation 11) H_i^{(P, Q)} = - \sum_{j=1, j \neq i}^n p_{ij}^* \log q_{ij}^* \quad \text{(Equation 11)} 理论上,t-SNE 的设计使得所有点 iiHi(P)H_i^{(P)} 都近似等于 logρ\log \rho。因此,t-SNE 的优化过程主要集中在调整 yiy_i 使得点交叉熵 Hi(P,Q)H_i^{(P, Q)} 最小化。

c. 点 KL 散度 (Point KL Divergence): 类似地,可以定义每个数据点 ii 的点 KL 散度: Di(P,Q)=Hi(P,Q)Hi(P)(Equation 16) D_i^{(P, Q)} = H_i^{(P, Q)} - H_i^{(P)} \quad \text{(Equation 16)} 全局 KL 散度 D(P, Q) 可以表示为所有点 KL 散度的平均值: D(P,Q)=1ni=1nDi(P,Q)=1ni=1nHi(P,Q)1ni=1nHi(P)(Equation 17) D(P, Q) = \frac{1}{n} \sum_{i=1}^n D_i^{(P, Q)} = \frac{1}{n} \sum_{i=1}^n H_i^{(P, Q)} - \frac{1}{n} \sum_{i=1}^n H_i^{(P)} \quad \text{(Equation 17)} 由于 Hi(P)H_i^{(P)}t-SNE 固定,因此在比较不同 t-SNE 运行结果时,差异主要体现在点交叉熵的分布 {Hi(P,Q)}\{H_i^{(P, Q)}\} 上。

4.2.3. 交叉熵分布检验 (Test on distributions of cross entropy)

给定两个原始数据集 X={xi}X = \{x_i\}X={xi}X' = \{x_i'\}, 它们分别经过 t-SNEUMAP 降维后得到表示 Y={yi}Y = \{y_i\}Y={yi}Y' = \{y_i'\}。对于每个降维表示,我们可以计算得到一个点交叉熵的分布,分别记为 {hi}\{h_i\}{hi}\{h_i'\}

a. 零假设 (Null Hypothesis):

  • 如果两个原始数据集 XXXX' 来自同一概率分布(例如,它们是技术重复或生物学重复),那么它们的低维表示 YYYY' 及其相应的点交叉熵分布 {hi}\{h_i\}{hi}\{h_i'\} 也应该遵循相同的分布。

b. 替代假设 (Alternative Hypothesis):

  • 如果两个原始数据集 XXXX' 在概率分布上存在差异(例如,它们是不同的生物学样本),那么它们的低维表示 YYYY' 以及其点交叉熵分布 {hi}\{h_i\}{hi}\{h_i'\} 也将存在差异。

c. 统计检验 (Statistical Test): 为了比较这两个点交叉熵分布 {hi}\{h_i\}{hi}\{h_i'\} 是否来自同一分布,本文采用了 Kolmogorov-Smirnov (KS) testKS 检验通过比较两个经验累积分布函数 (empirical cumulative distribution functions, ECDF) 之间的最大绝对差值来计算统计量 DD。这个 DD 值就是 LL^\infty 距离。

  • 计算 L∞ 距离: L(f,g)=maxx(f(x)g(x)) L^\infty(f, g) = \max_x (|f(x) - g(x)|) 其中 f(x)g(x) 分别是两个点交叉熵分布的 ECDF
  • 计算 pp 值: 根据 KS 检验的原理,从 L∞ 距离可以计算得到一个 pp 值。
    • 如果 pp 值低于预设的显著性水平(例如 0.05),则拒绝零假设,认为两个降维图之间存在统计学上的显著差异。
    • 如果 pp 值高于显著性水平,则无法拒绝零假设,认为两个降维图之间没有统计学上的显著差异。

d. 树状图构建 (Dendrogram Construction): L∞ 距离作为两个数据集之间差异的量化度量,可以被用作距离矩阵,进而通过层次聚类算法构建树状图。树状图能够可视化多个数据集之间的相对相似性,使得研究人员可以定量地比较和组织复杂的样本群体。

4.2.4. 额外降维分析 (Additional dimensionality reduction analysis)

本文还在 Python 3.9 中使用 RRreticulate 绘制了 PacMAPtriMAP 结果,以探索交叉熵检验对其他降维方法是否也适用(尽管这部分工作并未详细展开,且超出了本文主要验证范围)。

4.2.5. 一般实现细节 (General implementation details)

该检验的实现使用了多种 RR 包,包括 FlowSOM(用于细胞聚类)、ggplot2(用于可视化)、ggridgesRANNRColorBrewerreshape2Rtsneumap。这表明该方法是一个集成在现有单细胞分析生态系统中的解决方案。

4.3. 数学公式与关键细节

方法论部分已详细列出并解释了所有关键数学公式,包括:

  • 高维空间条件概率 pjip_{j|i} (Equation 1): pji=exp(xjxi2/(2σi2))kiexp(xkxi2/(2σi2))p_{j|i} = \frac{\exp(-\|x_j - x_i\|^2 / (2\sigma_i^2))}{\sum_{k \neq i} \exp(-\|x_k - x_i\|^2 / (2\sigma_i^2))}

    • xi,xjx_i, x_j: 高维空间中的数据点(细胞)。
    • xjxi2\|x_j - x_i\|^2: xjx_jxix_i 之间的欧氏距离平方。
    • σi\sigma_i: 与数据点 xix_i 相关联的高斯分布方差,用于调整 perplexity
    • exp()\exp(\cdot): 指数函数。
    • ki\sum_{k \neq i}: 对所有除 ii 之外的数据点求和。
    • 目的: 衡量在给定 xix_i 的情况下,xjx_j 作为其邻居的概率。
  • 高维空间联合概率 pijp_{ij} (Equation 2): pij=pji+pij2np_{ij} = \frac{p_{j|i} + p_{i|j}}{2n}

    • pji,pijp_{j|i}, p_{i|j}: 条件概率。
    • nn: 数据点总数。
    • 目的: 创建对称的联合概率,表示 xix_ixjx_j 相互相似的程度。
  • 高维概率全局归一化 (Equation 3): i=1nj=1,jinpij=1\sum_{i=1}^n \sum_{j=1, j \neq i}^n p_{ij} = 1

    • 目的: 确保所有高维联合概率的总和为 1,形成一个有效的概率分布。
  • 低维空间联合概率 qijq_{ij} (Equation 4): qij=(1+yjyi2)1ki(1+ykyi2)1q_{ij} = \frac{(1 + \|y_j - y_i\|^2)^{-1}}{\sum_{k \neq i} (1 + \|y_k - y_i\|^2)^{-1}}

    • yi,yjy_i, y_j: 低维空间中的数据点。
    • yjyi2\|y_j - y_i\|^2: yjy_jyiy_i 之间的欧氏距离平方。
    • (1+)1(1 + \cdot)^{-1}: 柯西分布的核函数,具有重尾特性。
    • 目的: 衡量在低维空间中 yiy_iyjy_j 相互相似的程度,使用 tt 分布(柯西分布)来解决拥挤问题。
  • 低维概率全局归一化 (Equation 5): i=1nj=1,jinqij=1\sum_{i=1}^n \sum_{j=1, j \neq i}^n q_{ij} = 1

    • 目的: 确保所有低维联合概率的总和为 1,形成一个有效的概率分布。
  • Kullback-Leibler (KL) 散度 D(P, Q) (Equation 6): D(P,Q)=i=1nj=1,jinpijlogpijqijD(P, Q) = \sum_{i=1}^n \sum_{j=1, j \neq i}^n p_{ij} \log \frac{p_{ij}}{q_{ij}}

    • PP: 高维空间的相似度分布。
    • QQ: 低维空间的相似度分布。
    • log\log: 自然对数。
    • 目的: t-SNE 的优化目标,衡量 QQPP 之间的差异,算法旨在最小化此值。
  • 交叉熵 H(P, Q) (Equation 7): H(P,Q)=i=1nj=1,jinpijlogqijH(P, Q) = - \sum_{i=1}^n \sum_{j=1, j \neq i}^n p_{ij} \log q_{ij}

    • 目的:KL 散度密切相关,当 H(P) 固定时,最小化 KL 散度等价于最小化交叉熵。
  • 高维分布的熵 H(P) (Equation 8): H(P)=i=1nj=1,jinpijlogpijH(P) = - \sum_{i=1}^n \sum_{j=1, j \neq i}^n p_{ij} \log p_{ij}

    • 目的: 衡量高维相似度分布 PP 的不确定性。在 t-SNE 中,每个点的局部熵被 perplexity 固定。
  • KL 散度、交叉熵与熵的关系 (Equation 9): D(P,Q)=H(P,Q)H(P)D(P, Q) = H(P, Q) - H(P)

    • 目的: 阐明三者关系,指出当 H(P) 固定时,优化 D(P, Q) 即优化 H(P, Q)
  • 点熵 Hi(P)H_i^{(P)} (Equation 10): Hi(P)=j=1,jinpijlogpijH_i^{(P)} = - \sum_{j=1, j \neq i}^n p_{ij}^* \log p_{ij}^*

    • pijp_{ij}^*: 点 ii 的局部高维概率。
    • 目的: 衡量每个数据点 ii 的局部高维相似度分布的熵。
  • 点交叉熵 Hi(P,Q)H_i^{(P, Q)} (Equation 11): Hi(P,Q)=j=1,jinpijlogqijH_i^{(P, Q)} = - \sum_{j=1, j \neq i}^n p_{ij}^* \log q_{ij}^*

    • qijq_{ij}^*: 点 ii 的局部低维概率。
    • 目的: 衡量每个数据点 ii 的局部高维相似度分布 PP 和低维相似度分布 QQ 之间的交叉熵。这是本文进行统计检验的核心分布。
  • 局部概率 pijp_{ij}^*qijq_{ij}^* 的定义 (Equations 12, 13, 14, 15): pij=npijp_{ij}^* = n p_{ij}j=1,jinpij1\sum_{j=1, j \neq i}^n p_{ij}^* \approx 1 qij=nqijq_{ij}^* = n q_{ij}j=1,jinqij1\sum_{j=1, j \neq i}^n q_{ij}^* \approx 1

    • 目的: 将全局概率 pij,qijp_{ij}, q_{ij} 转化为以每个点为中心的局部概率,使得它们可以被视为有效的局部概率分布。
  • 点 KL 散度 Di(P,Q)D_i^{(P, Q)} (Equation 16): Di(P,Q)=Hi(P,Q)Hi(P)D_i^{(P, Q)} = H_i^{(P, Q)} - H_i^{(P)}

    • 目的: 结合点熵和点交叉熵,得到每个点的 KL 散度。
  • 全局 KL 散度与点 KL 散度的关系 (Equation 17): D(P,Q)=1ni=1nDi(P,Q)=1ni=1nHi(P,Q)1ni=1nHi(P)D(P, Q) = \frac{1}{n} \sum_{i=1}^n D_i^{(P, Q)} = \frac{1}{n} \sum_{i=1}^n H_i^{(P, Q)} - \frac{1}{n} \sum_{i=1}^n H_i^{(P)}

    • 目的: 表明全局优化等价于所有点的平均优化。
  • LL^\infty 距离 (L-infinity distance) (未编号,在Test on distributions of cross entropy部分): L(f,g)=max(f(x)g(x))L^\infty(f, g) = \mathsf{max} (|f(x) - g(x)|)

    • f(x), g(x): 两个累积分布函数(在本例中是两个点交叉熵分布的 ECDF)。

    • 目的: 量化两个分布之间的最大差异,同时作为 KS 检验的统计量 DD

      这些公式构成了交叉熵检验的数学基础,详细说明了如何从 t-SNEUMAP 的内部机制中提取出用于统计比较的关键信息。


5. 实验设置

5.1. 数据集

本文使用了三类不同来源的单细胞数据集来验证交叉熵检验的广泛适用性:

5.1.1. MUS 数据集 (Mouse Flow Cytometry Dataset)

  • 来源: 本文作者生成。可访问 flowrepository.org/id/FR-FCM-Z48W
  • 类型: 小鼠高维流式细胞术 (flow cytometry) 数据。
  • 特点: 基于 C57BL/6 近交系小鼠的淋巴结 (lymph nodes)、脾脏 (spleen) 和组织(小肠固有层 lamina propria)的免疫细胞谱分析。流式细胞术能够提供极高的细胞数量,非常适合用于挑战和验证统计检验的稳健性。
  • 实验设计用途:
    • 技术重复 (technical replicates): 分割单个脾细胞样本,验证检验在技术噪声下的稳健性。
    • 生物学重复 (biological replicates): 比较来自不同年龄/性别匹配小鼠的脾细胞样本,验证检验在生物学固有变异下的稳健性。
    • 生物学差异 (biological differences): 比较来自淋巴结、脾脏和组织(小肠固有层)的淋巴细胞,这些组织具有已知的表型差异和细胞比例变化,用于验证检验识别真实生物学差异的能力。
    • 独立运行 (independent runs): 对同一样本进行多次 t-SNEUMAP 独立运行,验证检验对算法随机性导致的视觉差异的鲁棒性。
  • 人工数据集 (Artificial Datasets) 生成:
    • spleentissuetissuespleen 通过将脾脏和组织细胞按 90:10 或 10:90 比例混合创建,用于测试 L∞ 距离量化已知差异的能力。
    • lymph%spleenspleen%lymph 基于淋巴结和脾脏数据,通过选择性下采样 (downscaling) 来匹配主要 FlowSOM 细胞簇的频率(lymph%spleen 频率与脾脏匹配,spleen%lymph 频率与淋巴结匹配),用于测试检验对细胞簇频率和簇内表型变化的敏感性。

5.1.2. MC 数据集 (Mass Cytometry Dataset)

  • 来源: Penttila et al. (2021) 原始发表数据。可访问 flowrepository.org/id/FR-FCM-Z34U
  • 类型: 人类质谱流式细胞术 (mass cytometry) 数据。
  • 特点: 来自 COVID-19 患者外周血的免疫细胞亚群分析,在不同时间点(ICU 入院、ICU 期间、ICU 出院)进行采集。
  • 实验设计用途: 验证交叉熵检验在质谱流式数据上的适用性,并分析 COVID-19 患者免疫景观的动态变化。

5.1.3. SCS 数据集 (Single-cell Sequencing Dataset)

  • 来源: Wauters et al. (2021) 原始发表数据。可访问 ega-archive.org/studies/EGAS00001004717

  • 类型: 人类 10x 单细胞测序 (single-cell sequencing) 数据。

  • 特点: 来自 COVID-19 患者和非 COVID-19 肺炎患者的支气管肺泡灌洗液 (bronchoalveolar lavage) 的细胞转录组分析。

  • 实验设计用途: 验证交叉熵检验在单细胞测序数据上的适用性,并比较 COVID-19 与非 COVID-19 肺炎患者不同细胞类型的转录组特征。

    这些数据集涵盖了三种主流的单细胞技术,以及小鼠和人类样本,确保了交叉熵检验在不同生物学背景和技术平台下的通用性和稳健性验证。

5.2. 评估指标

本文主要使用了两种评估指标来量化和统计分析降维数据集之间的差异:

5.2.1. p 值 (p-value) 来自 Kolmogorov-Smirnov (KS) 检验

  1. 概念定义 (Conceptual Definition): pp 值是统计检验的核心输出,它量化了在零假设(H0:两个交叉熵分布相同,即两个降维图无统计学差异)成立的情况下,观察到当前数据或更极端差异的概率。换句话说,它告诉我们,如果两个数据集实际上没有差异,那么我们看到像实验中这样大的差异的可能性有多大。
  2. 数学公式 (Mathematical Formula): KS 检验的 pp 值计算依赖于 KS 统计量 DnD_n,该统计量是两个经验累积分布函数(ECDFs)之间最大垂直距离的绝对值。对于两个样本 X1X_1X2X_2,其 ECDF 分别为 F1(x)F_1(x)F2(x)F_2(x)DnD_n 定义为: Dn=supxF1(x)F2(x)D_n = \sup_x |F_1(x) - F_2(x)| 其中 supx\sup_x 表示所有 xx 上的上确界。pp 值是基于 DnD_n 及其样本大小通过特定分布(如 Kolmogorov 分布)计算得出的。
  3. 符号解释 (Symbol Explanation):
    • DnD_n: Kolmogorov-Smirnov 统计量,表示两个 ECDF 之间的最大绝对差异。
    • F1(x)F_1(x): 第一个样本的经验累积分布函数。
    • F2(x)F_2(x): 第二个样本的经验累积分布函数。
    • supx\sup_x: 对所有可能的 xx 值取上确界(即最大值)。
    • pp 值: 在零假设下,观察到统计量 DnD_n 等于或大于实际观测值的概率。
    • 在本文语境中: F1(x)F_1(x)F2(x)F_2(x) 分别是两个数据集的点交叉熵分布的 ECDF

5.2.2. LL^\infty 距离 (LL^\infty Distance)

  1. 概念定义 (Conceptual Definition): L∞ 距离,也称为切比雪夫距离 (Chebyshev distance),是衡量两个分布(或函数)之间差异大小的量化指标。它表示两个分布在任何一点上的最大绝对差异。与 pp 值不同,L∞ 距离直接反映了差异的“幅度”,而不是其统计显著性,因此它对细胞数量变化不那么敏感,可以作为差异大小的参考点。
  2. 数学公式 (Mathematical Formula): L(f,g)=max(f(x)g(x))(Equation from STAR METHODS) L^\infty(f, g) = \max (|f(x) - g(x)|) \quad \text{(Equation from STAR METHODS)}
  3. 符号解释 (Symbol Explanation):
    • f(x): 第一个累积分布函数(例如,一个数据集的点交叉熵分布的 ECDF)。
    • g(x): 第二个累积分布函数(例如,另一个数据集的点交叉熵分布的 ECDF)。
    • max\max: 取所有 xx 值中的最大绝对差。
    • 目的: 提供一个直观的、量化的差异大小度量,可用于构建树状图以比较多个样本间的相对距离。

5.3. 对比基线

本文的实验设计中,没有与传统的统计模型进行直接的“基线”比较,因为其核心贡献在于提出了一个全新的统计检验来解决现有空白。相反,它通过设置多种对照实验来验证其方法的稳健性和有效性:

  1. 技术重复 (Technical Replicates): 比较同一个样本的多次技术性复制品(例如,将一个脾细胞样本分成两份进行处理和分析)。期望:pp 值不显著,L∞ 距离小。
  2. 生物学重复 (Biological Replicates): 比较来自不同个体但生物学状态相似的样本(例如,不同小鼠的脾细胞)。期望:pp 值不显著,L∞ 距离小。
  3. 不同生物学样本 (Biologically Distinct Samples): 比较具有已知生物学差异的样本(例如,脾脏与淋巴结淋巴细胞,或健康与疾病样本)。期望:pp 值显著,L∞ 距离大。
  4. 独立 t-SNE/UMAP 运行 (Independent t-SNE/UMAP Runs): 对同一个样本进行多次独立的降维运行。t-SNE 具有随机性,可能产生视觉上不同的布局(如旋转对称),但本质上代表相同的数据结构。期望:pp 值不显著,L∞ 距离小。
  5. 人工构建数据集 (Artificially Constructed Datasets):
    • 已知混合比例: 创建具有已知成分(如 90% 脾脏 + 10% 组织细胞)的混合样本,以验证 L∞ 距离能否准确反映这些混合的中间状态。

    • 频率/表型匹配: 通过调整细胞簇频率或表型特征来创建人工样本,以测试交叉熵检验对定量(频率)和定性(表型)变化的敏感性。

      这些对照实验旨在全面评估交叉熵检验在各种场景下的表现,包括识别真实差异、忽略非本质差异以及量化差异大小的能力。


6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 交叉熵检验为 t-SNE 比较提供了稳健的统计检验

本文首先在小鼠高维流式细胞术 MUS 数据集上验证了交叉熵检验的稳健性,该数据集包含来自淋巴结、脾脏和组织(小肠固有层)的淋巴细胞。

  • 技术重复:

    • 如图 2A 所示,单个脾细胞样本通过 FlowSOM 聚类后,生成了视觉上相似的 t-SNE 图。
    • 交叉熵检验的 pp 值范围为 0.370-1,支持了无差异的零假设。这表明检验能够可靠地不对技术重复报告显著差异。
  • 生物学重复:

    • 如图 2B 所示,来自不同小鼠的脾细胞样本也生成了视觉上相似的 t-SNE 图。
    • 交叉熵检验的 pp 值范围为 0.202-0.636,同样支持了无差异的零假设。这表明检验能够可靠地不对生物学重复报告显著差异。
  • 生物学差异:

    • 如图 2C 所示,比较来自脾脏、淋巴结和组织(小肠固有层)的淋巴细胞,这些组织具有已知的生物学差异。
    • 交叉熵检验在所有比较中均显示出高度显著的 pp 值(例如,脾脏 vs 淋巴结、脾脏 vs 组织、淋巴结 vs 组织),证实了能够识别真实的生物学差异。
  • 独立 t-SNE 运行:

    • 如图 2D 所示,对淋巴结样本进行独立的 t-SNE 运行,可能产生视觉上不同的布局(如旋转对称),但其内在结构相同。
    • 尽管视觉差异有时甚至大于显著的脾脏-淋巴结比较,但交叉熵检验给出的 pp 值为 0.585,支持了无差异的零假设。这表明检验对算法随机性导致的非本质视觉差异具有鲁棒性。
  • 鲁棒性总结:

    • 如图 2E 所示的 pp 值累积分布函数(CDF)表明,对于 400 次独立 t-SNE 运行的比较,pp 值分布均匀,说明检验没有过度或不足地报告假阳性。

    • 此外,检验对 t-SNE 参数设置(如 perplexity、迭代值)或独立运行的变化也表现出鲁棒性(图 S1)。

      这些结果共同证明了交叉熵检验能够区分生物学信号与噪声,且具有适当的敏感性。

6.1.2. LL^\infty 提供了不同 t-SNE 可视化的定量比较

为了测试 L∞ 距离作为定量度量的能力,作者构建了人工数据集。

  • 人工数据集:
    • MUS 数据集中的脾脏和组织样本创建了两个人工样本:spleentissue (90% 脾脏 + 10% 组织) 和 tissuespleen (10% 脾脏 + 90% 组织)。
    • 如图 3A 所示,这些人工样本的 t-SNE 降维图在视觉上显示出介于纯脾脏和纯组织样本之间的中间状态。
  • Dendrogram (树状图):
    • 如图 3B 所示,通过计算所有样本之间的 L∞ 距离并构建树状图,结果准确地将 spleentissue 归类为生物学上更接近脾脏,而 tissuespleen 更接近组织。这验证了 L∞ 距离作为量化 t-SNE 图之间相对接近程度的有效工具。

6.1.3. 交叉熵检验响应单细胞表型的定量和定性变化

本文进一步探究了交叉熵检验对细胞簇频率(定量变化)和簇内表型(定性变化)的敏感性。

  • 簇内表型差异 (Qualitative Changes):

    • 作者创建了 lymph%spleen 人工数据集,其中淋巴结细胞的每个主要 FlowSOM 簇的细胞数量被归一化以匹配脾脏数据集,但细胞本身仍是淋巴结来源。
    • 如图 4A 所示,脾脏与 rescaled lymph%spleent-SNE 图在簇频率上相似,但在簇内的表型特征上有所不同(如图 4C 所示的 CD45CD4 表达分布)。
    • 如图 4B 所示,交叉熵检验发现这两个样本存在显著差异(p<0.001p < 0.001),这表明检验能够检测到簇内表型的定性变化
  • 簇频率差异 (Quantitative Changes):

    • 作者创建了 spleen%lymph 人工数据集,其中脾脏的生物学重复样本被选择性下采样,以使其细胞簇频率类似于淋巴结(如图 4D 所示)。

    • 如图 4F 所示,脾脏与 spleen%lympht-SNE 图在簇内表型上是相同的(均来自脾脏),但在簇频率上有所不同。

    • 如图 4E 所示,交叉熵检验发现这两个样本之间存在显著差异(p<0.001p < 0.001),这表明检验能够检测到簇频率的定量变化

      这些结果综合表明,交叉熵检验对单细胞表型中的定性和定量变化都具有敏感性。

6.1.4. 交叉熵检验在比较降维单细胞数据集方面具有广泛的实用性

本文还将交叉熵检验应用于人类样本的质谱流式细胞术 (mass cytometry) 和单细胞测序 (single-cell sequencing) 数据。

  • 质谱流式细胞术 (MC) 数据集 (COVID-19):

    • 对 COVID-19 患者在 ICU 入院、ICU 期间和出院三个时间点的外周血淋巴细胞亚群进行了分析。
    • 如图 5A 所示,L∞ 距离构建的树状图显示,ICU 期间的免疫景观更接近入院时,这与传统分析结果一致。
    • 如图 5B 所示,如果仅分析单核细胞亚群,ICU 期间的单核细胞更接近出院时的状态,这同样与传统研究中单核细胞是 COVID-19 后首先恢复的免疫群体这一发现相符。
  • 单细胞测序 (SCS) 数据集 (COVID-19 vs 非 COVID-19 肺炎):

    • 比较了 COVID-19 患者和非 COVID-19 肺炎患者支气管肺泡灌洗液中的不同细胞类型(上皮细胞、中性粒细胞、单核/巨噬细胞、CD4 T 细胞、CD8 T 细胞等)。

    • 如图 5C 所示,对每种细胞类型进行 t-SNE 交叉熵检验,发现 COVID-19 与非 COVID-19 样本在上皮细胞、中性粒细胞、单核/巨噬细胞、CD4 T 细胞和 CD8 T 细胞中存在高度显著的差异(p<0.001p < 0.001)。

    • 如图 5D 所示,L∞ 距离分析显示,中性粒细胞是变化最大的细胞群,其次是 CD8 T 细胞,这些结果与多项研究和传统分析结果一致。

      这些结果证明了交叉熵检验与多种独立技术(流式、质谱流式、单细胞测序)兼容,并且能够通过简单的检验重现传统深度分析所识别的关键生物学特征。

6.1.5. 交叉熵检验准确检测 UMAP 降维单细胞数据集中的差异

本文还验证了交叉熵检验对 UMAP 降维结果的适用性。

  • UMAP 验证 (MUS 数据集):
    • 如图 6A-D 所示,使用 MUS 数据集对 UMAP 表示进行了与 t-SNE 相同的验证测试(技术重复、生物学重复、生物学差异、独立 UMAP 运行)。
    • 交叉熵检验在所有情况下都得出了恰当的结论:对技术和生物学重复未能检测到显著差异,而对生物学上不同的样本则准确检测到差异。
    • 如图 6E 所示,对于 400 次独立 UMAP 运行的比较,pp 值累积分布函数均匀分布,表明检验具有适当的统计效力,没有过度或不足地报告假阳性。
  • 敏感性:
    • 如图 6F 所示,使用人工样本 spleen%LNLN%spleen 进行测试,UMAP 交叉熵检验同样能够响应亚群细胞表型和簇频率的变化。
  • 鲁棒性:
    • UMAP 迭代次数或邻居数量的变化,以及降维使用的维度数量,UMAP 交叉熵检验同样不敏感(图 S2)。

    • 此外,将交叉熵检验应用于其他降维方法,也得到了高度相似的 pp 值(图 S3),表明其在该领域可能具有更广泛的实用性。

      这些结果表明交叉熵检验对 UMAP 同样有效,进一步扩展了其在多维缩放单细胞数据分析中的应用范围。

6.2. 数据呈现 (表格)

以下是原文 KEY RESOURCES TABLE 的转录结果:

REAGENT or RESOURCE SOURCE IDENTIFIER
Deposited data
MUS dataset This paper https://flowrepository.org/id/FR-FCM-Z48W
MC dataset Penttila et al.10 https://flowrepository.org/id/FR-FCM-Z34U
SCS dataset Wauters et al.11 https://ega-archive.org/studies/EGAS00001004717
Software and algorithms
Cross Entropy test https://github.com/AdrianListon/Cross- Entropy-test https://doi.org/10.5281/zenodo.7420921
Guide to running the test https://www.liston.babraham.ac.uk/ flowcytoscript/

6.3. 消融实验/参数分析

尽管论文中没有明确的“消融实验”部分,但它通过以下方式验证了方法的鲁棒性,可以类比为对参数和条件的分析:

  • t-SNE/UMAP 参数鲁棒性: 论文指出,交叉熵检验对 t-SNEperplexity 和迭代次数(图 S1),以及 UMAP 的迭代次数、邻居数量和降维维度(图 S2)的变化均不敏感。这表明该检验能够捕获数据内在的生物学差异,而不是降维算法特定参数设置的伪影。

  • 其他降维方法: 论文在图 S3 中提到,交叉熵检验应用于 PacMAPtriMAP 等其他降维方法时,也得到了高度相似的 pp 值。这暗示了该方法的通用性,不受特定降维算法的限制。

    这些分析间接证明了交叉熵检验的稳健性,即其结果不易受降维参数或具体算法选择的影响,增强了其作为通用统计工具的可靠性。


7. 总结与思考

7.1. 结论总结

本文提出了一种新颖且稳健的统计检验方法——交叉熵检验 (cross entropy test),用于对 t-SNEUMAP 等非线性降维后的单细胞数据集进行定量比较。该方法的核心思想是,通过计算数据集中每个细胞在降维表示中的点交叉熵分布,然后使用 Kolmogorov-Smirnov (KS) test 来比较这些分布。

主要结论包括:

  1. 稳健性: 交叉熵检验能够可靠地区分真实的生物学差异与技术重复、生物学重复或降维算法随机性(如旋转对称)导致的非本质差异。

  2. 量化与可视化: L∞ 距离作为差异的定量度量,可以用于构建树状图,从而实现多样本的层次化比较。

  3. 敏感性: 检验对细胞簇频率的定量变化和细胞簇内部表型的定性变化都具有敏感性。

  4. 广泛适用性: 该方法已成功验证于流式细胞术、质谱流式细胞术和单细胞测序数据,并且对 t-SNEUMAP 两种主流降维方法均有效。

    这些结果共同揭示了降维工具在生物医学数据分析中超越简单可视化的巨大潜力,为单细胞数据分析提供了一个急需的定量分析框架。

7.2. 局限性与未来工作

7.2.1. 论文作者指出的局限性

  1. p 值与生物学意义: 强调 pp 值不应被误用作生物学意义的唯一衡量标准。检验的统计效力 (power) 取决于细胞数量。
    • 细胞数量影响: 细胞数量较少(数千个)时,即使存在细微的生物学差异,也可能返回不显著的 pp 值。
    • 高细胞数量问题: 相反,极高的细胞数量(超过 10,000 个)可能提供足够的统计效力来捕获生物学重复之间的微小差异,这些差异虽然真实,但通常不被认为是具有生物学意义的。作者建议在高细胞数量分析中,可以考虑使用 0.001 作为更严格的 pp 值阈值。
    • 建议: 除了 pp 值,应结合 L∞ 距离和生物学上已知的阳性/阴性对照样本进行解释。L∞ 距离对细胞数量不那么敏感,能提供差异大小的参考。技术重复之间的显著差异应被视为不可接受的技术变异。
  2. 目的限定: 交叉熵检验不旨在评估降维结果对原始数据距离或度量保留的程度,而是关注 t-SNEUMAP 表示之间的相似性。
  3. 不替代全面分析: 降维工具(包括本方法)不能替代对原始高维数据集的全面分析。它们有自身的局限性,应在使用时加以注意。
  4. 数据质量和实验设计: 与所有统计检验一样,分析的有效性完全取决于数据质量、实验设计和检验应用的恰当性。

7.2.2. 作者提出的未来研究方向

  1. 更广泛的应用领域: 交叉熵检验可应用于任何高维单细胞数据集,包括免疫学、神经科学、癌症等领域。
  2. 新兴技术: 可扩展到 CoDEX 或其他高维成像技术、单细胞蛋白质组学、单细胞测序中的突变分析等新兴单细胞技术。
  3. 非细胞单元数据: t-SNEUMAP 不仅限于细胞数据,也可以用于将个体(如人)作为分析单元的高维数据,如免疫反应、基因组变异、微生物组组成等。交叉熵检验可用于比较不同群体(如疾病状态)之间的底层数据差异。
  4. 临床诊断潜力: 结合流式细胞术、质谱流式细胞术和单细胞测序等技术在临床诊断中的应用,交叉熵 L∞ 距离可以用于简单分析白细胞数量或激活状态的偏差,帮助判断个体样本是否偏离健康或疾病模型。这可能提高对非典型免疫疾病或血液恶性肿瘤的检测敏感性。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 从可视化到量化: 这篇论文最重要的启发在于,它成功地将一个主要用于可视化的工具(t-SNE/UMAP)提升为可以进行严谨统计分析的工具。这为单细胞生物学领域提供了一个急需的、客观的比较框架,有助于从“肉眼观察”的阶段迈向定量分析,从而可能发现更细微、更可靠的生物学模式。
  2. 挖掘算法内部信息: 通过深入理解 t-SNE/UMAP 算法的内部机制(即交叉熵优化),作者巧妙地提取出一种新的统计量。这提示我们在利用复杂机器学习算法时,不应只关注其输入输出,而应尝试挖掘其内部计算过程所蕴含的丰富信息。
  3. 对噪声的鲁棒性: 检验对技术重复、生物学重复和算法随机性的强大鲁棒性令人印象深刻。这意味着研究人员可以更自信地比较不同实验批次或不同时间点的数据,而不必担心非生物学因素造成的假阳性。
  4. 诊断潜力: 论文展望了该方法在临床诊断中的应用,这具有巨大的实际意义。通过量化免疫细胞群的差异,交叉熵检验可能成为诊断非典型免疫疾病和监测治疗效果的有力工具。
  5. 广谱适用性: 跨越流式细胞术、质谱流式细胞术和单细胞测序等多种单细胞技术,以及对 t-SNEUMAP 均有效的特性,极大地拓宽了其应用场景,使其成为一个通用的单细胞数据分析工具包。

7.3.2. 批判与潜在改进

  1. "p 值滥用"的持续挑战: 尽管作者在局限性中强调了 pp 值不应被误用,但生物医学领域对 pp 值的过度依赖仍然是一个挑战。尤其是在高细胞数量下,极小的生物学差异也可能产生统计显著性,这可能导致对“生物学意义”的过度解读。未来工作可以探索除了 L∞ 距离之外,其他更直观、更具生物学可解释性的效应量 (effect size) 度量来补充 pp 值。
  2. 计算复杂度: 计算每个细胞的点交叉熵可能涉及计算所有细胞对之间的距离和概率,这对于包含数百万甚至上千万细胞的超大规模数据集,其计算成本可能非常高。虽然论文中提到 t-SNEUMAP 运行速度更快,但计算所有点的局部交叉熵分布是否能保持高效,以及如何应对大数据集,是实际应用中需要考虑的问题。作者虽提供了代码,但对其计算效率的详细分析相对较少。
  3. 参数依赖性: 尽管 KS 检验本身是非参数的,但 t-SNE/UMAP 的生成仍然依赖于 perplexity、邻居数等参数。虽然论文表明检验结果对这些参数不敏感,但这些参数的选择依然可能影响低维表示本身的质量,进而间接影响交叉熵分布的形状。对这些上游参数选择对最终交叉熵分布的潜在影响,以及何时需要调整这些参数以获得“最佳”比较结果,可以进行更深入的探讨。
  4. 可视化与解释: L∞ 距离和树状图提供了量化和层次化的比较,但如何将这些统计结果有效地反馈到直观的 t-SNE/UMAP 图中,并帮助研究人员理解“哪些区域或细胞群”导致了差异,是未来可以优化的方向。例如,是否可以开发一种机制,高亮显示在两个分布之间交叉熵贡献差异最大的细胞子集。
  5. 理论基础的进一步探索: 虽然本文利用了 t-SNE 的交叉熵优化目标,但 UMAP 的数学基础是拓扑学和流形学习。虽然两者都涉及保留局部结构,但将交叉熵检验应用于 UMAP 是否具有与 t-SNE 完全相同的理论严谨性,可以进行更深入的数学证明和探讨。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。