AiPaper
论文状态:已完成

SCALING LARGE LANGUAGE MODELS FOR NEXT-GENERATION SINGLE-CELL ANALYSIS

发表:2025/04/17
原文链接
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究提出了一种基于Cell2Sentence框架的新方法,将单细胞RNA测序数据转化为文本“细胞句子”,并在超过十亿个标记的语料库上训练大型语言模型。通过将模型规模扩展至270亿参数,观察到在多细胞信息整合及高级下游任务中的持续性能提升,最终为下一代单细胞分析和“虚拟细胞”的开发奠定了基础。

摘要

Single-cell RNA sequencing has transformed our understanding of cellular diversity, yet current single-cell foundation models (scFMs) remain limited in their scalability, flexibility across diverse tasks, and ability to natively integrate textual information. In this work, we build upon the Cell2Sentence (C2S) framework, which represents scRNA-seq profiles as textual “cell sentences,” to train Large Language Models (LLMs) on a corpus comprising over one billion tokens of transcriptomic data, biological text, and metadata. By scaling model size to 27 billion parameters, we observe consistent improvements in predictive and generative capabilities, as well as the capacity for advanced downstream tasks requiring synthesis of information across multicellular contexts. Through targeted fine-tuning supported by modern reinforcement learning techniques, our approach excels in tasks such as perturbation response prediction, natural language interpretation, and complex biological reasoning. By unifying transcriptomic and textual data at unprecedented scales, this approach not only surpasses both specialized single-cell models and general-purpose LLMs, but also establishes a powerful platform for next-generation single-cell analysis, paving the way for the development of “virtual cells.”

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

SCALING LARGE LANGUAGE MODELS FOR NEXT-GENERATION SINGLE-CELL ANALYSIS (为下一代单细胞分析扩展大型语言模型)

1.2. 作者

  • Syed Asad Rizvi*,† (耶鲁大学, 谷歌研究)
  • Daniel Levine* (耶鲁大学)
  • Aakash Patel* (耶鲁大学)
  • Shiyang Zhang* (耶鲁大学)
  • Eric Wang* (谷歌 DeepMind)
  • Sizhuang He (耶鲁大学)
  • David Zhang (耶鲁大学)
  • Cerise Tang (耶鲁大学)
  • Zhuoyang Lyu (布朗大学)
  • Rayyan Darji (耶鲁大学)
  • Chang Li (耶鲁大学)
  • Emily Sun (耶鲁大学)
  • David Jeong (耶鲁大学)
  • Lawrence Zhao (耶鲁大学)
  • Jennifer Kwan (耶鲁大学)
  • David Braun (耶鲁大学)
  • Brian Hafler (耶鲁大学)
  • Jeffrey Ishizuka (耶鲁大学)
  • Rahul M. Dhodapkar (南加州大学)
  • Hattie Chung (耶鲁大学)
  • Shekoofeh Azizi (谷歌 DeepMind)
  • Bryan Perozzi (谷歌研究)
  • David van Dijk‡ (耶鲁大学)

1.3. 发表期刊/会议

该论文是一个预印本 (PREPRINT),发布于 2025 年 4 月 15 日。预印本是在正式同行评审和出版之前公开的学术论文版本。

1.4. 发表年份

2025 年

1.5. 摘要

单细胞 RNA 测序 (scRNA-seq) 极大地改变了我们对细胞多样性的理解,但当前的单细胞基础模型 (scFMs) 在可扩展性、跨不同任务的灵活性以及原生整合文本信息的能力方面仍然存在局限性。在这项工作中,我们基于 Cell2Sentence (C2S) 框架,该框架将 scRNA-seq 图谱表示为文本化的“细胞句子”,在一个包含超过十亿个转录组数据、生物文本和元数据词元 (token) 的语料库上训练大型语言模型 (LLMs)。通过将模型规模扩展到 270 亿个参数,我们观察到预测和生成能力的一致提升,以及在需要整合多细胞上下文信息的高级下游任务中的能力。通过现代强化学习技术支持的靶向微调 (fine-tuning),我们的方法在扰动响应预测、自然语言解释和复杂生物推理等任务中表现出色。通过以前所未有的规模统一转录组和文本数据,这种方法不仅超越了专门的单细胞模型和通用大型语言模型,而且为下一代单细胞分析建立了一个强大的平台,为“虚拟细胞”的开发铺平了道路。

1.6. 原文链接

/files/papers/6915ae034d6b2ff314a02e95/paper.pdf (注:该链接为本地文件路径,实际获取需根据平台机制。)

2. 整体概括

2.1. 研究背景与动机

单细胞 RNA 测序 (scRNA-seq) 技术彻底改变了我们对细胞异质性 (cellular heterogeneity) 的理解,使得研究人员能够以高分辨率探索细胞多样性。近年来,转录组基础模型 (transcriptomic foundation models, FMs) 如 scGPT、Geneformer 等在建模单细胞转录组数据方面展现出巨大潜力。然而,现有的单细胞基础模型 (scFMs) 存在几个关键局限:

  1. 可扩展性 (Scalability) 差: 难以有效处理日益增长的海量单细胞数据。

  2. 灵活性 (Flexibility) 不足: 在执行多样化的生物学任务时缺乏通用性。

  3. 文本信息整合 (Textual Information Integration) 能力有限: 无法原生整合生物学文本和元数据,这限制了模型从已发表的生物学知识中学习和推理的能力。

    大型语言模型 (Large Language Models, LLMs) 在自然语言处理 (Natural Language Processing, NLP) 领域取得了显著成功,并展示出强大的可扩展性和在多种下游任务中的良好性能。论文的动机是借鉴 LLMs 的优势,解决单细胞分析领域面临的挑战,特别是通过数据工程 (data engineering) 将高维单细胞数据转换为 LLM 兼容的文本格式。

2.2. 核心贡献/主要发现

本文介绍了新一代 C2S 模型家族——C2S-Scale,其核心贡献和主要发现可以总结如下:

  1. 将 LLM 引入单细胞分析并实现多维度扩展: 论文引入了 C2S-Scale,一个旨在扩展单细胞分析的 LLM 家族。

    • 更大的模型容量 (Larger Model Capacity): C2S-Scale 模型的参数规模从 4.1 亿到 270 亿,远超现有单细胞基础模型,能够捕捉更复杂的数据关系。
    • 规模化性能提升 (Increased Performance at Scale): 论文建立了单细胞分析中 LLM 的性能扩展定律 (scaling laws),证明随着模型规模的增大,预测和生成任务的性能显著提升。
    • 数据规模和多模态性 (Data Size and Multimodality): C2S-Scale 模型在包含超过 10 亿词元 (token) 的大规模多模态语料库上进行训练,该语料库整合了超过 5000 万个人和小鼠细胞的转录组数据、相关元数据、生物学文本(如论文摘要),从而实现了转录组数据与自然语言和生物学上下文的对齐。
    • 长上下文、多细胞能力 (Long-Context, Multi-Cell Capabilities): 支持长达 8192 个词元 (token) 的上下文长度,能够同时处理和生成多个细胞的数据,从而分析细胞间相互作用和复杂的生物学过程。
    • 多样化的下游应用 (Diverse Downstream Applications): C2S-Scale 在更广泛的下游任务中进行微调和评估,包括扰动预测、自然语言解释和复杂生物推理。
  2. 利用强化学习 (Reinforcement Learning) 增强性能: 论文借鉴 NLP 中利用强化学习 (RL) 使 LLM 与用户偏好对齐的经验,采用组相对策略优化 (Group Relative Policy Optimization, GRPO) 技术进一步优化模型在特定单细胞任务上的表现,特别是问答和扰动响应预测。

  3. 引入评估单细胞生成模型的新指标: 论文提出了单细胞 Fréchet Inception 距离 (single-cell Fréchet Inception Distance, scFID) 作为评估生成细胞生物学意义的指标,它利用单细胞基础模型生成的嵌入空间来评估生成数据的质量。

  4. 开放模型和资源: 论文承诺开源其代码和模型权重,以及转录组-语言集成数据集和用于 LLM 单细胞分析的提示 (prompts),以促进社区的进一步研究和应用。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 单细胞 RNA 测序 (scRNA-seq)

概念定义: 单细胞 RNA 测序是一种高通量技术,用于分析单个细胞的基因表达谱。与传统的批量 RNA 测序不同,scRNA-seq 能够揭示细胞群体内部的异质性,识别稀有细胞类型,并研究细胞状态的动态变化。它通过分离单个细胞,提取其 RNA,然后逆转录为 cDNA 并进行测序,最终量化每个细胞中每个基因的表达水平。 重要性: scRNA-seq 已成为理解细胞多样性、发育生物学、疾病机制(如癌症、免疫疾病)以及细胞对扰动反应的关键工具。

3.1.2. 大型语言模型 (Large Language Models, LLMs)

概念定义: 大型语言模型是一类基于深度学习的计算模型,通常采用 Transformer 架构,通过在海量文本数据上进行预训练来学习语言的统计规律和语义信息。它们能够理解、生成和处理人类语言,执行多种自然语言处理任务,如文本生成、问答、翻译等。 工作原理: LLMs 通过预测序列中的下一个词元 (token) 来学习语言模式。它们的核心在于其庞大的参数量(数十亿甚至数千亿),这使得模型能够捕捉复杂的语言结构和知识。

3.1.3. 基础模型 (Foundation Models, FMs) 和单细胞基础模型 (scFMs)

概念定义:

  • 基础模型 (FMs): 指的是在广泛数据上训练的、具有强大通用能力的大型模型,可以适应(通过微调或提示工程)多种下游任务。LLMs 是基础模型的一种。
  • 单细胞基础模型 (scFMs): 借鉴基础模型的概念,指专门为处理单细胞数据而设计和训练的大型模型,旨在捕捉细胞生物学的基本规律,并支持多种单细胞分析任务,如细胞类型注释、轨迹推断、扰动预测等。 挑战: 论文指出,现有 scFMs 在可扩展性、任务灵活性和文本信息整合方面存在局限。

3.1.4. Cell2Sentence (C2S) 框架

概念定义: C2S 框架是一种创新方法,将高维单细胞 RNA 测序数据(即基因表达谱)转换为文本化的“细胞句子 (cell sentences)”。这种转换使得单细胞数据能够被 LLMs 直接处理,从而利用 LLMs 在处理文本数据方面的强大能力。 转换过程: C2S 通过对细胞中表达的基因进行排序(通常是按表达水平降序),然后选取前 KK 个高表达基因的名称,将它们连接成一个序列,形成一个“细胞句子”。例如,一个细胞可能被表示为“geneA geneB geneC ...”,其中 geneA 是表达量最高的基因,geneB 次之,依此类推。 优势: 这种文本化表示使得单细胞数据能够兼容 LLM 的架构,从而继承 LLM 的可扩展性和在多任务上的灵活性。

3.1.5. Transformer 架构

概念定义: Transformer 是一种基于自注意力机制 (self-attention mechanism) 的深度神经网络架构,于 2017 年由 Google 提出。它彻底改变了自然语言处理领域,成为多数先进 LLM 的核心组成部分。 核心机制: Transformer 的关键创新是注意力机制 (attention mechanism),特别是自注意力 (self-attention)。 Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

  • 概念定义: 注意力机制允许模型在处理序列中的每个元素时,动态地权衡序列中所有其他元素的重要性。在自注意力机制中,每个元素都会计算与序列中所有其他元素的“注意力分数”,这些分数决定了在表示当前元素时,其他元素应被赋予多少权重。
  • 数学公式: Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
  • 符号解释:
    • QQ (Query): 查询矩阵,由输入序列的每个词元 (token) 经过线性变换得到,用于查询序列中的相关信息。
    • KK (Key): 键矩阵,由输入序列的每个词元经过线性变换得到,用于与查询匹配。
    • VV (Value): 值矩阵,由输入序列的每个词元经过线性变换得到,包含要提取的信息。
    • QKTQ K^T: 查询和键的点积,表示查询与每个键的相似度。
    • dk\sqrt{d_k}: 键向量维度的平方根,用于缩放点积,防止在维度较高时点积过大,导致 softmax 函数梯度过小。
    • softmax\mathrm{softmax}: 归一化函数,将注意力分数转换为概率分布,确保所有权重的和为 1。
    • VV: 值矩阵,加权求和后得到最终的注意力输出。 组成部分: Transformer 通常由编码器 (encoder) 和解码器 (decoder) 组成,或者只包含解码器(如 GPT 系列)。每个编码器/解码器层包含多头自注意力机制和前馈网络。本文的 C2S-Scale 模型是解码器-only 的 Transformer 架构。

3.1.6. 强化学习 (Reinforcement Learning, RL) 和组相对策略优化 (Group Relative Policy Optimization, GRPO)

概念定义:

  • 强化学习 (RL): 是一种机器学习范式,智能体 (agent) 通过与环境的交互学习最优行为策略。智能体在执行动作后会收到环境的奖励或惩罚信号,目标是最大化长期累积奖励。
  • 组相对策略优化 (GRPO): 是一种强化学习算法,论文中提到它是为了进一步优化 LLM 的生成性能和对齐用户偏好。GRPO 通过优化模型生成的响应与预设的排名偏好或奖励函数(如 BioBERT Score)之间的对齐程度来微调策略。

3.1.7. Fréchet Inception 距离 (FID) 和单细胞 Fréchet Inception 距离 (scFID)

概念定义:

  • Fréchet Inception 距离 (FID): 是评估生成对抗网络 (GANs) 等生成模型图像质量的常用指标。它通过计算真实图像和生成图像在特征空间(通常由预训练的 Inception 模型提取)中的均值和协方差矩阵之间的 Fréchet 距离来衡量两组图像的相似度。FID 值越低,表示生成图像的质量越高、多样性越好,越接近真实数据分布。
  • 单细胞 Fréchet Inception 距离 (scFID): 是 FID 的改编版本,用于评估单细胞生成模型的生成质量。与传统 FID 使用 Inception 模型提取图像特征不同,scFID 利用预训练的单细胞基础模型(如 scGPT)来提取细胞转录组数据的嵌入特征。它量化了生成细胞与真实细胞在这些生物学意义丰富的嵌入空间中的相似度。 目的: scFID 克服了直接在表达水平上比较的局限性(表达水平容易受到高维噪声影响),提供了一个更生物学意义上的评估指标。

3.2. 前人工作

  • 现有单细胞基础模型 (scFMs):
    • scGPT [4]、Geneformer [5]、scFoundation [6]、scGeneT [7]: 这些模型在建模单细胞转录组数据方面展现了潜力,但论文指出它们在可扩展性、多任务灵活性和原生整合文本信息方面存在局限。例如,scGeneT 专注于扰动建模。
  • 通用大型语言模型 (General LLMs):
    • Llama [20, 21]、GPT-4o [22]、Gemini [23]: 这些是用于自然语言处理的通用 LLMs,在文本理解和生成方面表现出色,但它们并非为单细胞数据设计,难以直接处理生物学数据。
  • Cell2Sentence (C2S) [13, 14]: C2S 框架是本文工作的基础,它首次提出将 scRNA-seq 数据转化为文本化的“细胞句子”,使得 LLM 能够处理单细胞数据。本文的 C2S-Scale 是对原始 C2S 范式的显著改进和扩展。

3.3. 技术演进

该领域的技术演进路径是从传统的单细胞分析方法(主要基于统计学和机器学习算法)发展到利用深度学习技术(特别是 Transformer 架构)构建单细胞基础模型。最初的 scFMs 尝试直接在转录组数据上训练模型。C2S 框架的出现代表了一个关键的范式转变,即通过“数据工程”将生物学数据转换为 LLM 兼容的文本格式,从而将 LLM 的强大能力引入生物学领域。本文的 C2S-Scale 进一步推动了这一趋势,通过扩展模型规模、数据量和多模态整合,旨在构建更强大、更通用的单细胞分析平台。

3.4. 差异化分析

C2S-Scale 与先前工作的主要区别和创新点在于:

  1. 大规模扩展性: 相较于现有 scFMs,C2S-Scale 在模型参数(从 4.1 亿到 270 亿)和训练数据规模(10 亿词元 (token) 的多模态语料库)上实现了前所未有的扩展。
  2. 多模态数据整合: C2S-Scale 不仅处理转录组数据,还原生整合了生物学文本(如论文摘要)和元数据,实现了转录组与自然语言的深度对齐,这是许多现有 scFMs 所不具备的。
  3. 任务灵活性和通用性: 能够处理更广泛、更复杂的下游任务,包括自然语言解释、复杂生物推理、多细胞上下文分析等,超越了专业单细胞模型的局限。
  4. 强化学习的引入: 首次将组相对策略优化 (GRPO) 等现代强化学习技术应用于单细胞 LLM 的微调,显著提升了在问答和扰动预测等任务上的性能。
  5. 长上下文处理能力: 支持长达 8192 个词元 (token) 的上下文长度,使得模型能够同时分析多个细胞或整合丰富的上下文信息。
  6. 超越通用 LLM: 尽管借鉴了 LLM 架构,但 C2S-Scale 在单细胞领域的性能超越了通用 LLM(如 GPT-4o、Llama),表明其在生物学领域的专业化和优化。

4. 方法论

4.1. 方法原理

C2S-Scale 的核心原理是利用大型语言模型 (LLMs) 处理单细胞 RNA 测序 (scRNA-seq) 数据,以克服现有单细胞基础模型在可扩展性、灵活性和文本整合方面的局限。其直觉是,如果我们将高维的基因表达谱转换为一种“文本化”的表示形式,即“细胞句子 (cell sentences)”,那么 LLMs 就能像处理自然语言一样处理生物数据。这种转换不仅使得 LLMs 能够利用其强大的序列建模和生成能力,还允许模型原生整合各种生物学文本(如论文摘要、基因集描述)和元数据,从而实现多模态的生物学理解和推理。通过大规模预训练和针对性微调,C2S-Scale 旨在学习转录组数据与生物学知识之间的深层联系,并应用于多种复杂的单细胞分析任务。

4.2. 核心方法详解

4.2.1. 细胞句子转换 (Cell Sentence Transformation)

为了将单细胞 RNA 测序数据(即基因表达谱)转换为 LLM 可处理的文本格式,C2S-Scale 采用了细胞句子转换方法。 步骤:

  1. 获取表达向量: 对于每个细胞,首先得到一个基因表达向量 XRDX \in \mathbb{R}^D,其中 XkX_k 表示该细胞中基因 kk 的归一化表达值,DD 是基因的总数。
  2. 基因排序: 根据基因在细胞中的表达水平对所有基因进行降序排序。
  3. 选取高表达基因: 选择表达水平最高的 KK 个基因。
  4. 构建细胞句子: 将这 KK 个基因的名称按照它们的表达顺序连接起来,形成一个文本序列,即“细胞句子”。 公式: ;(X):=gene(S[1])gene(S[2])gene(S[K])P. ; ( X ) : = { \mathrm { } } ^ { * } \operatorname { g e n e } ( S [ 1 ] ) \operatorname { g e n e } ( S [ 2 ] ) \ldots \operatorname { g e n e } ( S [ K ] ) ^ { \mathfrak { P } } . 符号解释:
  • XX: 单个细胞的基因表达向量。

  • SS: 一个索引列表,包含从 1DD 的基因索引,这些索引根据基因在 XX 中的表达水平降序排列。

  • S[i]: 排序后第 ii 个基因的索引。

  • gene(S[i])\operatorname{gene}(S[i]): 对应于索引 S[i] 的基因的名称(文本表示)。

  • KK: 选取的最高表达基因的数量,用于构成细胞句子。

  • {}^{\ast}P{}^{\mathfrak{P}}: 可能是用于标记细胞句子开始和结束的特殊词元 (token) 或表示其文本化的属性。

    这种转换是可逆的,且仅带来最小的信息损失。论文指出,通过一个拟合在基因排名和原始表达之间的线性模型,可以准确地将细胞句子转换回表达值,其 R2R^2 值达到 85%(参见原文 Figure 9)。这表明细胞句子有效地保留了生物学相关信息。

4.2.2. C2S-Scale 架构与预训练 (C2S-Scale Architecture and Pre-training)

C2S-Scale 模型家族基于现有的 LLM 架构,如 Gemma-2 [15] 和 Pythia [16],并对其进行了规模化扩展(4.1 亿至 270 亿参数)。它采用了解码器-only (decoder-only) 的 Transformer 架构。

4.2.2.1. 词元嵌入 (Word Embedding)

  • 基因名称词元化: 细胞句子中的每个基因名称都被 LLM 的现有词汇表进行词元化 (tokenize)。这种方法避免了对 LLM 架构进行自定义修改,使得 C2S 框架能够立即应用于任何 LLM 架构。
  • 嵌入层: 词元化的基因名称通过一个嵌入层被转换为高维向量,即“词嵌入 (word embeddings)”。这些嵌入在模型训练过程中学习,捕捉基因的语义信息,并受到生物学上下文和局部先验知识的影响。它们使得模型能够理解和解释细胞句子中编码的表达模式。

4.2.2.2. 注意力机制 (Attention Mechanism)

  • 核心作用: 作为 Transformer 架构的核心,注意力机制允许模型在处理输入序列中的每个词元 (token) 时,动态地权衡序列中其他词元的重要性。
  • 自注意力 (Self-Attention): 用于计算词元之间的注意力分数,使得模型能够捕获基因表达数据中的长程依赖关系。例如,在细胞类型分类任务中,模型可能会关注某些关键的标记基因;在扰动预测任务中,则可能关注与扰动相关的基因。

4.2.2.3. Transformer 架构 (Transformer Architecture)

  • 解码器-Only: C2S-Scale 采用解码器-only 的 Transformer 架构,这种架构特别擅长序列数据建模和生成任务(如预测下一个词元)。
  • 模块化设计: 架构由堆叠的 Transformer 块组成,每个块包含多头自注意力层、前馈网络、残差连接 (residual connections) 和层归一化 (layer normalization)。
    • 自注意力层 (Self-Attention Layer): 计算序列中所有词元之间的关系,捕获基因表达数据中的长程依赖。
    • 前馈网络 (Feedforward Networks): 在每个注意力层之后应用非线性变换,以增强特征提取能力。
    • 残差连接和层归一化 (Residual Connections and Layer Normalization): 稳定训练过程,促进梯度流动,使模型能够有效扩展到大型参数规模。

4.2.2.4. 预训练目标 (Pre-training Objectives)

  • 下一个词元预测 (Next Token Prediction): LLM 的基础预训练目标是预测序列中的下一个词元。对于细胞句子,这意味着预测排序基因序列中的下一个基因名称。
  • 多任务学习 (Multi-task Learning): C2S-Scale 在一个大规模多模态语料库上进行预训练,该语料库包含转录组数据、元数据和文本注释。模型采用多任务学习策略,联合优化多个任务,例如,在同一提示 (prompt) 中整合多种任务类型。这使得模型能够学习多样化的任务,同时整合注释和自由文本信息。
  • 优化器与计算资源: 模型训练使用 AdamW 优化器和梯度检查点 (gradient checkpointing) 技术,以有效管理计算资源。训练从 10 亿参数模型到 270 亿参数模型,使用了 Huggingface 和 PyTorch (针对较小模型) 以及 Jax 和 TPU (针对较大模型)。

4.2.3. 后训练方法 (Post-training Methods)

预训练后,模型会进一步进行调整以适应特定任务。

4.2.3.1. 监督微调 (Supervised Fine-tuning, SFT)

  • 目的: 将预训练模型专门化,以解决特定的下游任务。
  • 过程: 在标注的任务特定数据集上,通过标准的监督学习方法对模型进行微调。提示 (prompts) 被设计成自然语言格式,以指导模型完成任务。例如,对于细胞类型注释任务,模型接收一个细胞句子,然后被要求预测细胞类型。

4.2.3.2. LoRA (Low-Rank Adaptation)

  • 概念定义: LoRA 是一种参数高效的微调 (parameter-efficient fine-tuning) 技术。它通过向预训练模型层中注入小的、低秩的矩阵来适应新任务,而不是修改所有原始模型参数。这显著减少了微调所需的计算资源和存储空间。
  • 优势: 使得模型能够快速适应新任务,而无需大量的计算资源或大型标注数据集,从而提高了微调的效率和可访问性。

4.2.3.3. 强化学习 (Reinforcement Learning)

  • 目的: 进一步增强模型在生成和解释任务上的性能,使其输出更符合专家期望和生物学见解。
  • 方法: 论文采用组相对策略优化 (Group Relative Policy Optimization, GRPO) [17] 框架。
  • GRPO 过程:
    1. 生成候选输出: 使用 SFT 后的模型为每个训练示例生成多个候选输出(例如,针对问答任务生成多个答案)。
    2. 评估与排名: 候选输出通过领域特定标准和自动化指标(如 BioBERT Score)进行评估和排名。BioBERT Score 量化了生成答案与真实答案之间的语义相似度,用作奖励函数 (reward function)。
    3. 策略优化: GRPO 通过优化模型策略,使其倾向于生成更高得分(即更高质量、更符合生物学见解)的答案。它通过比较不同输出的相对优劣来调整模型,而不是依赖于绝对的奖励值。
  • GRPO 优势: 相较于其他强化学习方法(如 PPO [62]),GRPO 提供了一种更简化的工作流程,特别是当奖励函数是基于排名的。它允许模型通过整合生物学相关指标,在特定单细胞任务中持续改进其输出。

5. 实验设置

5.1. 数据集

C2S-Scale 的训练和评估使用了多种大规模、多模态数据集。

5.1.1. 预训练语料库

  • 规模: 超过 10 亿词元 (token)。
  • 组成: 包含超过 5000 万个来自人 (human) 和小鼠 (mouse) 组织的单细胞转录组图谱。
  • 来源: 主要从公开可用的单细胞图谱平台收集,如 CellxGene [2] 和 Human Cell Atlas [3] 门户。这些平台提供了经过统一注释和质量控制的单细胞数据。
  • 多模态性: 除转录组数据外,还包含相应的生物学文本(如相关论文摘要)和元数据。这使得 C2S-Scale 能够将单细胞转录组数据与自然语言和生物学上下文对齐。
  • 多任务训练样本: 语料库被组织成超过 1.5 亿个多任务训练样本,允许 LLM 学习多样化的任务,同时整合注释和自由文本信息。

5.1.2. 下游任务数据集

  • 细胞类型注释 (Cell Type Annotation):
    • 免疫组织数据集 [63] 和肺部数据集 [19]。
    • 每个数据集的 80% 用于训练,20% 用于评估。
  • 空间生态位预测 (Spatial Niche Prediction):
    • CosMx 空间分子成像仪人类肝脏数据集 (CosMx Spatial Molecular Imager Human Liver dataset) [35]。
    • 包含来自多个供体的超过 80 万个单细胞,涵盖约 180 mm2180 \mathrm{~mm}^2 的肝脏组织。
    • 经过处理,移除了少于 3 个细胞或表达少于 50 个基因的细胞。
    • 标准化到总计数 1×104\mathrm{1 \times 10^4},并应用了基础对数变换。
    • 通过 CellPhoneDB [36] 和 BioGRID [37] 数据库,整合了细胞间相互作用的外部生物学知识(限于 1000 个基因和细胞外蛋白)。
  • 问答 (Question Answering, QA):
    • 通过 GPT-4.5 [22] 从 scRNA-seq 手稿的摘要、讨论和结果部分,以及从研究中采样的数据生成问答对。
    • 每个 scRNA-seq 研究生成大约 100 个问答对,总共 4000 个问答对用于 SFT。
    • GRPO 训练集额外收集了 600 个来自未见研究的样本。
  • 扰动响应预测 (Perturbation Response Prediction):
    • Dong et al. 数据集 [47]: 包含暴露于单个和组合细胞因子 (cytokines) 的免疫细胞,每个细胞都注释了类型、刺激和暴露时长,共 133 种条件。保留了 5000 个变异性最高的基因。

    • L1000 数据集 [46]: 用于预测扰动响应,包含 1000 种标志性基因的表达数据。GRPO 训练中使用了 MSigDB [68] 凋亡 (apoptosis) 相关基因集与 L1000 基因列表的交集(共 40 个基因)。

    • 细胞因子刺激数据集: 用于 GRPO 优化干扰素 (interferon) 相关基因的响应预测,使用了 MSigDB 干扰素-α 和干扰素-γ 标志性基因集与高变异基因 (HVGs) 的交集(共 95 个基因)。

      以下是原文 Figure 10 的数据集摘要示例:

Figure 10: Example abstract summaries from scRNA-seq datasets collected from CellxGene [2]. 图 10 描述: 这些摘要展示了不同 scRNA-seq 研究的背景、方法和主要发现。例如,第一个摘要描述了对成人人脑超过 300 万个细胞核的单核 RNA 测序,识别了 461 个簇和 3313 个亚簇,揭示了脑细胞的分子多样性。第二个摘要关于肾脏细胞图谱,识别了损伤中的稀有细胞群和改变的细胞状态。第三个摘要则深入探讨了胶质母细胞瘤 (glioblastoma) 细胞的基因组和转录组变异,揭示了肿瘤浸润和迁移的机制。这些示例直观地展示了 C2S-Scale 所处理的文本数据类型。

5.2. 评估指标

论文中使用了多种评估指标来衡量 C2S-Scale 在不同任务上的性能。

5.2.1. BERTScore

  • 概念定义: BERTScore 是一种评估文本生成质量的指标,特别适用于衡量生成文本与参考文本之间的语义相似性。它利用预训练的 BERT 模型(或其变体,如 BioBERT)的词嵌入 (word embeddings) 来计算词语匹配度,从而比传统的基于词汇重叠的指标(如 BLEU)更能捕捉语义上的细微差别。BERTScore 关注生成文本和参考文本之间最匹配的词语,然后计算它们的余弦相似度,并结合召回率和精确率。
  • 数学公式: 若给定一个参考句子 x=(x1,,xk)x = (x_1, \ldots, x_k) 和一个生成句子 x^=(x^1,,x^l)\hat{x} = (\hat{x}_1, \ldots, \hat{x}_l),其中 xix_ix^j\hat{x}_j 是句子中的词元。BERTScore 首先计算所有词元对的余弦相似度矩阵 RRk×lR \in \mathbb{R}^{k \times l},其中 Rij=ex(xi)Tex^(x^j)R_{ij} = \mathbf{e}_x(x_i)^T \mathbf{e}_{\hat{x}}(\hat{x}_j)ex()\mathbf{e}_x(\cdot)ex^()\mathbf{e}_{\hat{x}}(\cdot) 分别是 BERT 模型为参考和生成句子提取的词嵌入。 基于此,精确率 (Precision) 和召回率 (Recall) 计算如下: P=1lj=1lmaxi[k]Rij P = \frac{1}{l} \sum_{j=1}^{l} \max_{i \in [k]} R_{ij} R=1ki=1kmaxj[l]Rij R = \frac{1}{k} \sum_{i=1}^{k} \max_{j \in [l]} R_{ij} 最终的 BERTScore 通常是 PPRR 的 F1-Score: BERTScore=2PRP+R \text{BERTScore} = 2 \cdot \frac{P \cdot R}{P + R}
  • 符号解释:
    • xx: 参考句子。
    • x^\hat{x}: 生成句子。
    • kk: 参考句子中的词元数量。
    • ll: 生成句子中的词元数量。
    • ex(xi)\mathbf{e}_x(x_i): 参考句子中词元 xix_i 的 BERT 嵌入向量。
    • ex^(x^j)\mathbf{e}_{\hat{x}}(\hat{x}_j): 生成句子中词元 x^j\hat{x}_j 的 BERT 嵌入向量。
    • RijR_{ij}: 词元 xix_ix^j\hat{x}_j 嵌入向量之间的余弦相似度。
    • PP: 精确率,衡量生成句子中的词元有多少与参考句子中的词元语义匹配。
    • RR: 召回率,衡量参考句子中的词元有多少被生成句子中的词元语义覆盖。

5.2.2. Overlap % (重叠百分比)

  • 概念定义: 重叠百分比通常用于评估生成序列(如细胞句子或基因集列表)与真实序列之间的词元 (token) 或元素重叠程度。它量化了生成结果中与真实结果共同出现的元素的比例。在细胞句子生成中,可以指生成的基因序列与真实基因序列之间共同基因的比例。
  • 数学公式: 假设真实集合为 AA (如真实基因列表) 和生成集合为 BB (如生成基因列表)。 \text{Overlap %} = \frac{|A \cap B|}{\min(|A|, |B|)} \times 100\% \quad \text{或} \quad \frac{|A \cap B|}{|A|} \times 100\% 具体计算方式可能因任务而异,论文中提到用于评估细胞生成任务和基因集枚举任务。
  • 符号解释:
    • AA: 真实集合。
    • BB: 生成集合。
    • AB|A \cap B|: 真实集合与生成集合交集的大小(即共同元素的数量)。
    • min(A,B)\min(|A|, |B|): 真实集合和生成集合中较小者的大小。
    • A|A|: 真实集合的大小。

5.2.3. 最大平均差异 (Maximum Mean Discrepancy, MMD)

  • 概念定义: MMD 是一种度量两个概率分布之间差异的方法。它通过将数据映射到再生核希尔伯特空间 (Reproducing Kernel Hilbert Space, RKHS),然后计算两个分布的均值嵌入 (mean embeddings) 之间的距离来量化差异。MMD 值越小,表示两个分布越相似。在单细胞分析中,它可用于比较生成细胞的分布与真实细胞的分布。
  • 数学公式: 给定两个样本集 X={x1,,xm}X = \{x_1, \ldots, x_m\}Y={y1,,yn}Y = \{y_1, \ldots, y_n\},它们分别来自分布 PPQQ。MMD 的平方形式为: MMD2(P,Q)=EP[k(x,x)]+EQ[k(y,y)]2EP,Q[k(x,y)] \text{MMD}^2(P, Q) = \mathbb{E}_P[k(x, x')] + \mathbb{E}_Q[k(y, y')] - 2\mathbb{E}_{P,Q}[k(x, y)] 其无偏估计为: MMDu2(X,Y)=1m(m1)ijk(xi,xj)+1n(n1)ijk(yi,yj)2mni=1mj=1nk(xi,yj) \text{MMD}^2_u(X, Y) = \frac{1}{m(m-1)} \sum_{i \neq j} k(x_i, x_j) + \frac{1}{n(n-1)} \sum_{i \neq j} k(y_i, y_j) - \frac{2}{mn} \sum_{i=1}^m \sum_{j=1}^n k(x_i, y_j)
  • 符号解释:
    • P, Q: 两个概率分布。
    • X, Y: 从 P, Q 中抽取的样本集。
    • m, n: 样本集 X, Y 的大小。
    • k(,)k(\cdot, \cdot): 核函数 (kernel function),例如高斯核 (Gaussian kernel)。
    • E[]\mathbb{E}[\cdot]: 期望。

5.2.4. Wasserstein 距离 (Wasserstein Distance)

  • 概念定义: Wasserstein 距离(又称 Earth Mover's Distance, EMD)是衡量两个概率分布之间差异的另一种方法。它形象地表示为将一个分布的“土堆”移动到另一个分布的“土堆”所需的最小“工作量”(即移动的土量乘以移动距离)。与 MMD 类似,Wasserstein 距离越小,表示两个分布越相似。它在处理高维数据和不重叠分布时通常比 KL 散度等指标更稳定。
  • 数学公式: 对于两个概率分布 PPQQ,Wasserstein 距离 W(P, Q) 定义为: W(P,Q)=infγΓ(P,Q)E(x,y)γ[xy] W(P, Q) = \inf_{\gamma \in \Gamma(P, Q)} \mathbb{E}_{(x, y) \sim \gamma} [\|x - y\|] 其中 Γ(P,Q)\Gamma(P, Q) 是所有可能的联合分布 γ(x,y)\gamma(x, y) 的集合,这些联合分布的边缘分布分别为 PPQQ。 对于一维数据,排序后的样本 x1xmx_1 \leq \ldots \leq x_my1yny_1 \leq \ldots \leq y_n,其经验 Wasserstein 距离为: Wp(P,Q)=(01FP1(z)FQ1(z)pdz)1/p W_p(P, Q) = \left( \int_0^1 |F_P^{-1}(z) - F_Q^{-1}(z)|^p dz \right)^{1/p} 其中 FP1F_P^{-1}FQ1F_Q^{-1}PPQQ 的分位数函数。
  • 符号解释:
    • P, Q: 两个概率分布。
    • γ\gamma: 一个联合分布,其边缘分布分别为 PPQQ
    • Γ(P,Q)\Gamma(P, Q): 所有可能的联合分布 γ(x,y)\gamma(x, y) 的集合。
    • xy\|x - y\|: 样本 xxyy 之间的距离(通常是欧氏距离)。
    • E[]\mathbb{E}[\cdot]: 期望。
    • FP1(z),FQ1(z)F_P^{-1}(z), F_Q^{-1}(z): 分位数函数。
    • pp: 距离的阶数 (通常取 p=1p=1p=2p=2)。

5.2.5. 单细胞 Fréchet Inception 距离 (scFID)

  • 概念定义: scFID 是 Fréchet Inception 距离 (FID) 在单细胞领域的一个适应性版本,用于评估单细胞生成模型的质量。与传统 FID 使用 Inception 模型提取图像特征不同,scFID 利用预训练的单细胞基础模型(例如 scGPT)作为特征提取器,将细胞转录组数据映射到其生物学意义丰富的嵌入空间。然后,它计算真实细胞和生成细胞在这些嵌入空间中的均值和协方差矩阵之间的 Fréchet 距离。较低的 scFID 值表示生成细胞的生物学质量更高,更接近真实细胞的分布。
  • 数学公式: 给定两组单细胞嵌入——一组来自真实细胞,一组来自生成细胞,scFID 定义为: scFID=μrμg22+tr(Σr+Σg2(ΣrΣg)12) \mathrm { s cF I D } = \Vert \mu _ { r } - \mu _ { g } \Vert _ { 2 } ^ { 2 } + \operatorname { t r } \left( \Sigma _ { r } + \Sigma _ { g } - 2 \left( \Sigma _ { r } \Sigma _ { g } \right) ^ { \frac { 1 } { 2 } } \right)
  • 符号解释:
    • μr\mu _ { r }: 真实细胞嵌入的均值向量。
    • μg\mu _ { g }: 生成细胞嵌入的均值向量。
    • 22\Vert \cdot \Vert _ { 2 } ^ { 2 }: 欧氏距离的平方。
    • Σr\Sigma _ { r }: 真实细胞嵌入的协方差矩阵。
    • Σg\Sigma _ { g }: 生成细胞嵌入的协方差矩阵。
    • tr()\operatorname { t r } (\cdot): 矩阵的迹 (trace)。

5.2.6. Kendall's τ\tau (Kendall 秩相关系数)

  • 概念定义: Kendall's τ\tau 是一种非参数统计量,用于衡量两个随机变量之间排序的一致性(或不一致性)。它通过比较数据对的协和 (concordant) 与不协和 (discordant) 数量来评估相关性。τ\tau 值范围从 -1(完全不一致)到 +1(完全一致),0 表示没有秩相关。在扰动预测中,它可以用于评估预测的基因表达变化排序与真实变化排序之间的一致性。
  • 数学公式: 给定 nn 个样本对 (xi,yi)(x_i, y_i)(xj,yj)(x_j, y_j)。如果 (xi<xj 且 yi<yj)(x_i < x_j \text{ 且 } y_i < y_j)(xi>xj 且 yi>yj)(x_i > x_j \text{ 且 } y_i > y_j),则这对是协和的。如果 (xi<xj 且 yi>yj)(x_i < x_j \text{ 且 } y_i > y_j)(xi>xj 且 yi<yj)(x_i > x_j \text{ 且 } y_i < y_j),则这对是不协和的。如果 xi=xjx_i = x_jyi=yjy_i = y_j,则这对是绑定的。 τ=NcNd12n(n1) \tau = \frac{N_c - N_d}{\frac{1}{2}n(n-1)}
  • 符号解释:
    • NcN_c: 协和对的数量。
    • NdN_d: 不协和对的数量。
    • nn: 样本数量。
    • 12n(n1)\frac{1}{2}n(n-1): 总对数(不考虑绑定对)。

5.2.7. Pearson's rr (Pearson 相关系数)

  • 概念定义: Pearson 相关系数 (Pearson correlation coefficient) 是一种衡量两个变量之间线性相关强度的指标。它在 -1 到 +1 之间取值,其中 +1 表示完全正线性相关,-1 表示完全负线性相关,0 表示没有线性相关。在扰动预测中,它可以用于评估预测的基因表达值与真实表达值之间的线性相关性。
  • 数学公式: 给定两个变量 XXYY 的样本数据,Pearson 相关系数 rXYr_{XY} 定义为: rXY=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2 r_{XY} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n (y_i - \bar{y})^2}}
  • 符号解释:
    • xi,yix_i, y_i: 第 ii 个样本的 XXYY 值。
    • xˉ,yˉ\bar{x}, \bar{y}: 样本 XXYY 的均值。
    • nn: 样本数量。

5.3. 对比基线

论文将 C2S-Scale 的性能与以下模型进行了比较:

  • 专门单细胞模型 (Specialized Single-Cell Models):
    • scGen: 一种用于预测基因表达扰动效应的生成模型。
    • CellOT: 基于最优传输 (optimal transport) 理论的单细胞扰动模型。
    • scGPT [4]: 另一个单细胞基础模型,利用 Transformer 架构处理 scRNA-seq 数据。
    • Geneformer [5]: 另一个单细胞基础模型,也使用了 Transformer 架构。
    • scGeneT [7]: 专注于单细胞扰动建模。
  • 通用大型语言模型 (General-Purpose LLMs):
    • Llama [20, 21, 26]: Meta AI 开发的一系列开源 LLMs。

    • GPT-4o [22]: OpenAI 最先进的多模态 LLM。

    • Gemini [23]: Google DeepMind 开发的多模态 LLM。

    • Meditron [27]: 适用于医疗领域的 LLM。

    • BioMistral [28]: 适用于生物医学领域的开源 LLM。

      这些基线模型代表了单细胞分析和自然语言处理领域的最新技术水平,涵盖了专门的生物学模型和通用的 LLMs,为 C2S-Scale 的性能评估提供了全面的比较框架。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 性能扩展定律 (Scaling Laws)

论文展示了 C2S-Scale 模型在单细胞分析中也遵循 LLM 的性能扩展定律。随着模型参数从 4.1 亿增加到 270 亿,模型在预测和生成任务上的性能持续提升。

  • 模型容量扩展: Figure 4C 展示了 C2S-Scale 模型家族(从 4.1 亿到 270 亿参数)在无条件采样、细胞类型注释、组织样本注释和数据集解释等任务上的性能扩展。大型模型(如 270 亿参数)在所有任务上都表现出卓越的性能,证明了增加模型容量的有效性。

  • 参数高效微调 (Parameter-efficient Fine-tuning) 的扩展: Figure 4D 表明,即使在参数高效的微调方式 (LoRA) 下,C2S-Scale-2B 和 C2S-Scale-27B 模型也展现出随着模型容量增加而提升的性能。这对于计算资源有限的实际应用具有重要意义。

  • 训练数据规模的扩展: Figure 4E 展示了 C2S-Scale-27B 模型性能随训练样本数量的增加而提高。这与 NLP 领域观察到的现象一致,即更大的模型和更多的数据都能带来性能增益。

    该图像是示意图,展示了基于Cell2Sentence(C2S)框架的单细胞RNA测序数据建模流程。图中左侧描述了细胞句子生成及其任务,包括细胞类型识别和生物摘要,要点涉及不同细胞样本和对应的基因表达信息。右侧展示了样本生成的效果,包括来自不同组织条件与数据集摘要的生成。中部的图表(C、D、E)展示了不同参数数量的模型在BERT得分上的表现,反映了模型在多任务中的潜力。 该图像是示意图,展示了基于Cell2Sentence(C2S)框架的单细胞RNA测序数据建模流程。图中左侧描述了细胞句子生成及其任务,包括细胞类型识别和生物摘要,要点涉及不同细胞样本和对应的基因表达信息。右侧展示了样本生成的效果,包括来自不同组织条件与数据集摘要的生成。中部的图表(C、D、E)展示了不同参数数量的模型在BERT得分上的表现,反映了模型在多任务中的潜力。 图 4 描述: 该图展示了基于 Cell2Sentence (C2S) 框架的单细胞 RNA 测序数据建模流程和性能扩展。

  • (A) 描绘了单细胞 RNA 测序数据如何通过基因排序转换为“细胞句子”,这些句子随后被 LLM 处理以执行多样化的单细胞分析任务(如细胞类型预测、扰动预测、条件细胞生成、问答等)。

  • (B) 展示了 C2S 如何桥接 scRNA-seq 数据与自然语言,通过大规模多模态语料库训练 LLMs 来执行各种单细胞分析任务,例如细胞类型识别、生物摘要和问答。

  • (C) 描绘了 C2S 模型在无条件采样、细胞类型注释、组织样本注释和数据集解释等任务上的性能扩展,显示了性能随模型容量的增加而提高。

  • (D) 显示了 LoRA 微调的 C2S-Scale-2B 和 27B 模型在参数高效情境下,随着模型容量增加而表现出的性能扩展。

  • (E) 展示了 C2S-Scale-27B 模型性能随训练样本数量的增加而提高,进一步证实了在单细胞分析中,模型的扩展定律与自然语言处理领域具有相似性。

6.1.2. 自然语言解释 (Natural Language Interpretation)

C2S-Scale 在多尺度生物学上的自然语言解释能力是其显著优势之一。

  • 超越现有模型: C2S-Scale 在聚类标题生成、数据集解释和问答任务中超越了最先进的 (SOTA) 和开源 LLMs(如 Llama, GPT-4o, Gemini)。

  • 聚类标题生成: 模型能够为来自同一组织和批次的细胞群生成生物学上有意义的自然语言描述。通过 BioBERTScore [25] 评估,C2S-Scale 的性能表现出色,能够准确地概括聚类水平的表达模式。

  • 数据集解释: 模型接收来自 scRNA-seq 数据集的多个细胞句子,并生成高级别的摘要。C2S-Scale 在此任务中取得了最高的 BERTScore,即使对于完全未见的数据集也能生成相关且信息丰富的摘要,这凸显了其对 scRNA-seq 数据的强大自然语言理解能力 (Figure 5E)。

  • 多尺度应用: C2S-Scale 能够在细胞水平、聚类水平和数据集水平上进行自然语言解释,例如预测细胞类型 (Figure 5B)。

    该图像是一个示意图,展示了生物学的不同层级以及与单细胞分析相关的多种实验结果,包括细胞类型注释、聚类标题和数据集解释等。在 B 部分,展示了真实细胞类型与预测细胞类型之间的准确性对比。C、D、E 部分则展示了不同大型语言模型在特定任务中的表现,用 BERT 分数进行比较。 该图像是一个示意图,展示了生物学的不同层级以及与单细胞分析相关的多种实验结果,包括细胞类型注释、聚类标题和数据集解释等。在 B 部分,展示了真实细胞类型与预测细胞类型之间的准确性对比。C、D、E 部分则展示了不同大型语言模型在特定任务中的表现,用 BERT 分数进行比较。 图 5 描述: 该图展示了 C2S-Scale 模型在多尺度生物学自然语言解释方面的能力。

  • (A) 示意图展示了生物学的不同尺度(从细胞到组织)以及 C2S-Scale 在这些尺度上进行自然语言解释(如细胞类型注释、聚类标题、数据集解释)的应用。

  • (B) 展示了从 6 种不同组织的人类肿瘤数据集中提取的细胞类型注释的真实值和预测值,显示了 C2S-Scale 在细胞水平注释的有效性。

  • (C) (C) 和 (D) 部分展示了 C2S-Scale 在未见 scRNA-seq 数据聚类上的标题生成性能,通过 BERTScore 衡量。模型在给定未见数据聚类的多细胞上下文后被要求生成标题。

  • (E) 展示了 C2S-Scale 在数据集解释任务上的性能,与其他领先的 LLM(如 Llama、Meditron、BioMistral、Gemini、GPT-4o)进行比较。C2S-Scale 取得了最高的 BERTScore,表明其在理解和总结 scRNA-seq 数据方面的优越能力,即使面对完全未见的数据集也能生成相关且信息丰富的摘要。

6.1.3. 空间推理 (Spatial Reasoning)

C2S-Scale 能够从多细胞上下文和相互作用数据中学习空间推理,而无需架构修改。

  • 任务设计: 论文设计了细胞生态位标签预测、条件邻居生成和空间邻居预测等任务,以评估模型的空间推理能力。

  • 优于基线: C2S-Scale 在邻域预测任务中显著优于 scGPT 和 GPT-4o (Figure 6C)。

  • 整合外部知识: 模型能够通过整合基因相互作用网络(如 CellPhoneDB [36] 和 BioGRID [37])等外部生物学知识,进一步增强空间推理能力。这表明 C2S-Scale 具有灵活整合多模态生物数据的潜力,而无需预定义规则。

    该图像是示意图,展示了用于单细胞分析的不同任务,包括细胞生态位预测、邻居生成和邻里预测等。此外,B部分列出了基因表达和蛋白质相互作用的数据库,C部分则表现了空间预测的准确性比较。公式为 \(Spatial\\,Prediction\\,Accuracy\)。 该图像是示意图,展示了用于单细胞分析的不同任务,包括细胞生态位预测、邻居生成和邻里预测等。此外,B部分列出了基因表达和蛋白质相互作用的数据库,C部分则表现了空间预测的准确性比较。公式为 SpatialPredictionAccuracySpatial\,Prediction\,Accuracy 图 6 描述: 该图展示了 C2S-Scale 在解释多细胞空间上下文和预测生态位方面的能力。

  • (A) 示意图展示了用于训练 C2S-Scale 的各种单细胞和多细胞空间任务,旨在使模型能够执行空间推理。这些任务包括生态位标签预测、条件邻居生成和空间邻居预测等。

  • (B) 展示了整合外部生物学知识(如 BioGRID 和 CellPhoneDB 的基因相互作用数据)如何增强模型在空间推理任务中的性能。

  • (C) 比较了 C2S-Scale 与 scGPT 和 GPT-4o 在空间邻域识别准确性上的表现。C2S-Scale 显著优于其他模型。此外,整合来自 BioGRID 和 CellPhoneDB 的基因相互作用数据进一步提高了性能,并且两者结合提供了最大的提升。这结果强调了 C2S-Scale 在空间感知的生物学建模中的多任务训练潜力和潜力。

6.1.4. 问答 (Question Answering, QA)

C2S-Scale 在单细胞问答任务中表现出色,并通过强化学习 (RL) 得到进一步增强。

  • 超越 SOTA LLMs: C2S-Scale 在单细胞问答任务中超越了最先进的 LLMs (Figure 7C),展现了其在领域特定推理方面的优势。

  • GRPO 的提升: 通过组相对策略优化 (GRPO) 进行微调后,C2S-Scale 的问答能力显著提升。GRPO 利用 BioBERT Score 作为奖励函数,引导模型生成更高质量、更符合生物学见解的答案。

    该图像是示意图,展示了 C2S 框架用于单细胞 RNA 测序数据的分析。图 A 提供了背景及示例细胞句子,图 B 描述了组相对策略优化的过程,图 C 则比较了 C2S-Scale 与其他语言模型的表现。 该图像是示意图,展示了 C2S 框架用于单细胞 RNA 测序数据的分析。图 A 提供了背景及示例细胞句子,图 B 描述了组相对策略优化的过程,图 C 则比较了 C2S-Scale 与其他语言模型的表现。 图 7 描述: 该图展示了 C2S-Scale 在单细胞问答 (QA) 任务中相较于最先进 (SOTA) LLM 的卓越性能。

  • (A) 展示了一个基于 scRNA-seq 数据的示例问答场景,说明了任务的性质和输入输出格式。

  • (B) 概述了 GRPO 框架 [17],它利用 SFT 模型生成的候选响应与专家或自动化评估的排名进行比较,以优化模型策略。

  • (C) 比较了 C2S-Scale 与 SOTA LLM 在单细胞 QA 任务上的表现,突出了 C2S-Scale 在领域特定推理中的优势。误差条代表测试集 QA 样本的标准差。

6.1.5. 扰动响应预测 (Perturbation Response Prediction)

C2S-Scale 在预测细胞对扰动的响应方面显著优于现有方法。

  • 准确性与泛化性: 模型能够准确预测细胞在未见扰动下的基因表达谱,并有效泛化到细胞类型、细胞因子和暴露时间的新组合。

  • 优于基线: C2S-Scale 在完全未见的组合扰动条件下,以及不同细胞类型下的特定扰动预测中,其性能优于 scGen 和 scGPT (Figure 8F)。模型在 MMD、Wasserstein 距离和 scFID 分数上均表现出卓越性能。

  • GRPO 增强: GRPO 进一步提高了模型在 L1000 凋亡响应和细胞因子刺激(干扰素响应)等任务上的性能,提升了 Kendall's τ\tau、Pearson's rr 和 scFID 分数,增强了模型在免疫通路上的生物学保真度 (Figure 8G)。这表明 GRPO 不仅提高了生物学意义上的预测准确性,还增强了模型对训练分布之外扰动的泛化能力。

    该图像是图8,展示了C2S-Scale模型在预测细胞对未见扰动响应方面超越现有方法的结果。图中包含多个细胞模型的对比,包括Ground Truth、C2S、scGen、scGPT和CellOT,指标评分如scFID和Wasserstein Score等被用于评估模型性能。 该图像是图8,展示了C2S-Scale模型在预测细胞对未见扰动响应方面超越现有方法的结果。图中包含多个细胞模型的对比,包括Ground Truth、C2S、scGen、scGPT和CellOT,指标评分如scFID和Wasserstein Score等被用于评估模型性能。 图 8 描述: 该图展示了 C2S-Scale 扰动预测框架的概述,该框架支持多种扰动类型。

  • (A) 示意图展示了计算机视觉中 LLM 的通用预测框架,类比到单细胞扰动预测。

  • (B) 提供了扰动预测的提示和响应示例。

  • (C) 比较了 C2S-Scale 与其他模型在未见扰动下预测响应与真实响应的对齐情况。行显示:(1) 所有组合扰动,(2) 在 IFN-γ\gamma 刺激下的 CD4 T 细胞,(3) 在未见的 IFN-β\beta + IL-6 刺激下的 B 细胞。C2S-Scale 在所有情况下都与真实值紧密对齐。

  • (D) 性能基准指标显示 C2S-Scale 在扰动预测中优于 Geneformer、scGPT 和 CellOT。

  • (E) 示意图展示了 GRPO 在扰动预测中的应用,模型生成扰动响应并根据基因程序相似性接收奖励。

  • (F) 定量结果显示,C2S-Scale 在 Dong et al. 数据集上(预测未见扰动响应)的表现优于现有方法,在 MMD、Wasserstein 和 scFID 分数上表现出色。

  • (G) GRPO 在 L1000 (凋亡响应) 和细胞因子刺激 (干扰素响应) 任务上改进了 SFT,在 Kendall's τ\tau、Pearson's rr 和 scFID 上都有所提升。

6.2. 数据呈现 (表格)

在提供的论文文本中,没有明确以表格形式呈现的实验结果。所有的量化结果都是通过图表(如雷达图、柱状图、散点图)和文本描述来呈现的。

6.3. 消融实验/参数分析

论文中没有明确标题为“消融实验”的部分。然而,以下内容可以被视为对模型组件或训练策略有效性的分析:

  • 模型规模扩展分析: 通过比较不同参数规模(4.1 亿到 270 亿)的 C2S-Scale 模型在各种任务上的性能,隐式地展示了模型容量对性能的影响,这类似于一种消融分析,验证了“更大模型更好”的假设 (Figure 4C)。

  • 数据规模扩展分析: 论文展示了 C2S-Scale-27B 模型的性能随训练样本数量的增加而提高 (Figure 4E),验证了训练数据量对模型性能的重要性。

  • GRPO 的影响: 论文明确指出,通过引入 GRPO 强化学习技术,在问答任务 (Figure 7C) 和扰动响应预测任务 (Figure 8G) 上的性能得到了显著提升。这可以视为对 GRPO 模块有效性的验证,它证明了这种后训练方法能够进一步优化模型的生物学保真度和任务性能。

  • 外部生物学知识整合: 在空间推理任务中,整合 CellPhoneDB 或 BioGRID 数据分别以及两者结合都提高了性能 (Figure 6C),这验证了外部知识对模型空间推理能力的贡献。

    这些分析虽然没有采用标准的消融实验格式,但都提供了关于 C2S-Scale 各方面(规模、数据、训练策略、知识整合)如何影响最终性能的重要见解。

7. 总结与思考

7.1. 结论总结

这篇论文介绍的 C2S-Scale 模型家族,通过将单细胞 RNA 测序数据转换为“细胞句子”,并利用大型语言模型 (LLMs) 的强大能力,为下一代单细胞分析开辟了新途径。核心贡献包括:

  1. 开创性地实现了 LLM 在单细胞分析中的大规模应用,通过参数规模和训练数据量的多维度扩展,显著提升了预测和生成能力。
  2. 成功整合了转录组数据与生物学文本,使得模型能够理解和解释多尺度生物学信息,并超越了现有专业单细胞模型和通用 LLMs。
  3. 引入强化学习技术 (GRPO) 进一步优化模型性能,特别是在复杂的问答和扰动响应预测任务中。
  4. 提出单细胞 Fréchet Inception 距离 (scFID) 作为新的评估指标,为单细胞生成模型的质量评估提供了更生物学意义的度量。 总而言之,C2S-Scale 通过其创新的数据转换、大规模多模态学习和先进的微调策略,建立了一个功能强大的平台,能够生成“虚拟细胞”,并加速生物学发现和精准医学的发展。

7.2. 局限性与未来工作

论文作者也坦诚地指出了 C2S-Scale 存在的局限性,并提出了未来可能的研究方向:

7.2.1. 因果注意力 (Causal Attention) 在基因表达建模中的局限性

  • 现有问题: LLM 中传统的因果注意力 (causal attention) 机制本质上是自回归的,倾向于从高表达基因到低表达基因建立依赖关系。这可能理论上限制了模型捕捉真实的生物学因果相互作用(其中低表达基因也可能影响高表达基因)的能力。
  • 作者辩护: 作者认为,这种限制并未显著阻碍其模型在关键生物学分析任务中的预测能力。这与计算机视觉-语言模型中,即使是因果注意力,也能捕捉复杂模式类似。模型在多细胞上下文中的推理能力可以作为一种纠正机制。
  • 未来改进方向:
    1. 双向注意力 (Bidirectional Attention): 允许模型同时关注序列中所有词元,无论其位置。
    2. 图形神经网络 (Graph Neural Networks, GNNs) 集成: 引入 GNN 来明确建模基因之间的结构化相互作用。
    3. 混合注意力架构 (Hybrid Attention Architectures): 结合因果和非因果注意力机制,以平衡序列建模和结构化依赖捕捉。

7.2.2. 幻觉 (Hallucination) 和可解释性 (Interpretability)

  • 幻觉问题: 像所有 LLMs 一样,C2S-Scale 在某些任务中可能产生“幻觉”,即生成看似合理但实际上是虚假或不准确的信息。在生物学任务中,这可能导致错误的生物学解释。论文承认,在更开放式的解释任务(如摘要生成、聚类标题)中,幻觉的风险更高。
  • 可解释性问题: LLMs 通常被视为“黑箱”模型,其决策过程难以完全理解。在生物医学领域,模型的可解释性至关重要,因为错误的预测或缺乏透明度可能带来严重后果。
  • 未来工作: 作者提到将利用增强检索 (retrieval-augmented)、事实性评估 (factuality evaluation) 和可信度校准 (trustworthiness calibration) 等方法来解决幻觉问题。对于可解释性,可能需要开发新的归因方法来揭示模型做出特定生物学预测的依据。

7.3. 个人启发与批判

C2S-Scale 论文提供了一个非常令人兴奋的范式转变,将 LLMs 的强大能力引入单细胞生物学领域。

个人启发:

  1. 数据模态转换的潜力: C2S 框架的核心思想是将高维生物学数据转化为文本序列,这是一种通用的数据工程策略,可能适用于其他非文本领域,使得 LLM 能够处理更多样化的数据类型。这种“语言化”生物学数据的思路极具创新性,为 LLM 跨领域应用提供了新的视角。
  2. 多模态融合的深度: C2S-Scale 不仅仅是处理两种模态,而是试图通过共同的语言框架,在底层语义上对齐转录组和文本信息。这可能揭示出纯粹基于表达数据或纯粹基于文本分析所无法获得的深层生物学规律。
  3. 强化学习在科学发现中的作用: 将 GRPO 引入生物学任务,并通过生物学指标(如 BioBERT Score)作为奖励信号,这表明强化学习不仅仅用于用户体验优化,也能在科学研究中引导模型走向更“正确”或更“有意义”的科学发现方向。
  4. “虚拟细胞”的愿景: 论文提出的“虚拟细胞”概念是激动人心的。如果模型能精确地模拟细胞行为和对扰动的响应,将极大加速药物发现、疾病机制研究,并减少对昂贵和耗时实验的依赖。

批判与潜在改进:

  1. “细胞句子”的表达损失: 尽管论文声称转换是可逆且损失最小 (R2=85%R^2=85\%),但剩余的 15% 信息损失可能在某些精细的生物学任务中变得关键。例如,低表达基因但具有重要调控功能的基因(如转录因子)可能在固定 KK 个高表达基因的策略中被忽略。未来的工作可以探索动态选择基因策略,或将低表达基因编码为特殊的“稀疏”词元。

  2. 因果注意力局限性: 论文虽然承认了因果注意力可能无法捕捉低表达基因对高表达基因的因果关系,并提出了一些未来改进方向。但我认为这不仅仅是“理论上”的限制,而是生物学系统中的一个核心挑战。基因调控网络并非简单的线性序列,而是复杂的图结构。仅仅依靠序列建模可能不足以完全捕获这些复杂的相互作用。集成 GNNs 可能是更根本的解决方案。

  3. 幻觉与生物学谬误: LLM 的幻觉问题在生物学领域尤为危险,可能导致错误的生物学假设和实验方向。论文提到将通过检索增强等方式缓解,但如何在复杂的生物推理中确保事实性仍是一个重大挑战。需要开发更严格、领域特异性的事实性评估框架,甚至引入人类专家进行反馈回路。

  4. 可解释性的深度: 尽管 LLMs 表现强大,但其黑箱特性在临床和基础研究中是一个障碍。生物学家不仅需要知道“什么”会发生,还需要知道“为什么”会发生。未来工作应更深入地研究如何从 C2S-Scale 中提取可解释的生物学规则或机制,例如通过注意力权重分析、特征归因方法等,以增强模型的科学价值。

  5. 计算资源可及性: 270 亿参数的模型需要巨大的计算资源进行训练和推理,这可能限制了中小型实验室或个人研究者的使用。尽管引入了 LoRA,但大规模预训练的门槛依然很高。开源模型和资源是积极的一步,但如何进一步降低模型的使用成本是一个实际问题。

    C2S-Scale 代表了生物学与人工智能交叉领域的一个重要进展,它不仅展示了 LLM 在处理非传统数据方面的巨大潜力,也为“AI for Science”的未来描绘了激动人心的图景。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。