ATOMAS: Hierarchical Adaptive Alignment on Molecule-Text for Unified Molecule Understanding and Generation
TL;DR 精炼摘要
本文提出了Atomas,一个分层的分子表征学习框架,联合学习SMILES字符串和文本的表征。通过分层自适应对齐模型,Atomas能够自动捕捉细粒度片段的对应关系并在三个语义级别进行对齐。实验表明,该方法在各项任务中表现优异,凸显了其有效性和适用性。
摘要
Molecule-and-text cross-modal representation learning has emerged as a promising direction for enhancing the quality of molecular representation, thereby improving performance in various scientific fields. However, most approaches employ a global alignment approach to learn the knowledge from different modalities that may fail to capture fine-grained information, such as molecule-and-text fragments and stereoisomeric nuances, which is crucial for downstream tasks. Furthermore, it is incapable of modeling such information using a similar global alignment strategy due to the lack of annotations about the fine-grained fragments in the existing dataset. In this paper, we propose Atomas, a hierarchical molecular representation learning framework that jointly learns representations from SMILES strings and text. We design a Hierarchical Adaptive Alignment model to automatically learn the fine-grained fragment correspondence between two modalities and align these representations at three semantic levels. Atomas’s end-to-end training framework supports understanding and generating molecules, enabling a wider range of downstream tasks. Atomas achieves superior performance across 12 tasks on 11 datasets, outperforming 11 baseline models thus highlighting the effectiveness and versatility of our method. Scaling experiments further demonstrate Atomas’s robustness and scalability. Moreover, visualization and qualitative analysis, validated by human experts, confirm the chemical relevance of our approach. Codes are released on https://github.com/yikunpku/Atomas .
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
ATOMAS: Hierarchical Adaptive Alignment on Molecule-Text for Unified Molecule Understanding and Generation
1.2. 作者
Yikun Zhang, Geyan Ye, Chaohao Yuan, Bo Han, Long-Kai Huang, Jianhua Yao, Wei Liu, Yu Rong 隶属机构: Tencent AI Lab (腾讯 AI Lab) Peking University (北京大学) DAMO Academy, Alibaba Group (阿里巴巴达摩院) Tsinghua University (清华大学) Hong Kong Baptist University (香港浸会大学) ( 通讯作者, 通讯作者)
1.3. 发表期刊/会议
国际学习表征会议 (International Conference on Learning Representations, ICLR) 该会议在机器学习和人工智能领域享有极高声誉,是顶级会议之一,影响力巨大。
1.4. 发表年份
2024年 (根据论文提供的参考文献和致谢中提及的 ICLR 发表信息推断)
1.5. 摘要
分子-文本跨模态表征学习 (Molecule-and-text cross-modal representation learning) 已成为提高分子表征质量,进而改善各种科学领域性能的一个有前景的方向。然而,大多数方法采用全局对齐 (global alignment) 方法从不同模态学习知识,这可能无法捕捉细粒度信息 (fine-grained information),例如分子和文本片段 (molecule-and-text fragments) 以及立体异构细微差别 (stereoisomeric nuances),而这些信息对下游任务至关重要。此外,由于现有数据集中缺乏关于细粒度片段的标注,使用类似的全局对齐策略也无法对此类信息进行建模。在本文中,我们提出了 Atomas,一个分层分子表征学习框架 (hierarchical molecular representation learning framework),它联合学习 SMILES 字符串 (SMILES strings) 和文本的表征。我们设计了一个分层自适应对齐模型 (Hierarchical Adaptive Alignment model),以自动学习两种模态之间的细粒度片段对应关系,并在三个语义级别对这些表征进行对齐。Atomas 的端到端训练框架 (end-to-end training framework) 支持分子的理解和生成,从而实现更广泛的下游任务。Atomas 在 11 个数据集上的 12 个任务中取得了卓越性能,超越了 11 个基线模型,这突显了我们方法的有效性和多功能性。扩展实验进一步证明了 Atomas 的鲁棒性和可扩展性。此外,经过人类专家验证的可视化和定性分析证实了我们方法的化学相关性。代码已在 https://github.com/yikunpku/Atomas 发布。
1.6. 原文链接
/files/papers/69322acb34ef7f69efdb476d/paper.pdf
2. 整体概括
2.1. 研究背景与动机
分子表征学习 (Molecular representation learning) 在药物发现 (drug discovery)、虚拟筛选 (virtual screening) 和分子设计 (molecular design) 等领域至关重要。近年来,分子-文本跨模态模型 (molecule-and-text cross-modal models) 通过整合内部结构数据(如 SMILES 字符串、结构数据)和外部领域知识(如文本描述、知识图谱)来增强分子表征的泛化能力。
然而,当前的方法面临三个主要挑战:
-
细粒度对应关系 (Fine-Grained Correspondence): 现有的分子-文本对齐方法大多采用全局对齐策略,难以有效捕捉不同模态中局部部分之间的细粒度对应关系。例如,全局对齐生成的分子描述往往无法区分“D-谷氨酸”和“L-谷氨酸”等对映异构体 (enantiomers) 的细微差别,这在化学分析中可能导致不准确。现有数据集中缺乏细粒度片段的显式标注,使得全局对齐方法难以学习和处理细粒度信息。
-
分子模态焦点 (Molecular Modality Focus): 当前的细粒度对齐方法(如
UniMAP,MOLEBLEND)主要关注分子内部模态(如SMILES、图结构、3D 结构)的对齐,而忽略了分子片段与文本描述之间的跨模态对齐。现有文本和SMILES的分割工具在复杂性和专业性方面存在挑战,难以构建分层的文本-分子对。 -
生成任务优化 (Generative Task Optimization): 大多数现有方法主要为预测任务 (prediction tasks) 设计,并未针对生成任务 (generative tasks) 优化对齐的表征。
论文旨在解决这些挑战,通过引入一种能够自动学习细粒度对应关系并支持分子理解和生成的框架来弥补现有方法的不足。
2.2. 核心贡献/主要发现
本文提出了 Atomas 框架,其核心贡献和主要发现包括:
- 首个细粒度跨模态对齐框架: Atomas 是第一个无需文本片段和分子子结构之间显式标注,即可解决局部信息对齐挑战的分子-文本表征学习框架。
- 分层自适应对齐模型 (Hierarchical Adaptive Alignment): 引入了层次自适应对齐概念,能够从粗到细三个语义级别(原子级、片段级、分子级)自动学习分子和文本之间的细粒度对应关系。
- 卓越的性能: Atomas 在广泛的分子-文本任务上实现了最先进的性能,包括分子和文本检索、基于文本的从头分子生成 (text-based de novo molecule generation) 和分子描述生成 (molecule captioning)。
- 统一编码器优势: 在数据稀缺的情况下,采用统一编码器 (unified encoder) 比分离编码器 (separate encoder) 具有优势,这为数据稀缺的分子设计领域提供了新思路。
- 对分子生成任务的新见解:
- 在生成之前进行对齐 (Aligning before generation) 能够提高分子条件生成任务的效率。
- 细粒度的分层对齐增强了可控分子生成 (controllable molecule generation) 的质量。
- 统一训练框架内的联合优化 (Joint optimization) 超越了两阶段方法在分子生成任务中的效率。
- 鲁棒性和可扩展性: 扩展实验证明了 Atomas 的鲁棒性 (robustness) 和可扩展性 (scalability)。
- 化学相关性: 可视化和定性分析(经人类专家验证)证实了该方法在化学上的相关性。
3. 预备知识与相关工作
3.1. 基础概念
- 分子-文本跨模态表征学习 (Molecule-Text Cross-Modal Representation Learning): 这是一种机器学习范式,旨在学习分子结构(如
SMILES字符串、图结构)和其文本描述(如分子名称、性质描述)之间共享的、互相补充的信息。目标是使模型能够理解这两种不同模态的数据,并能在这两者之间进行信息转换、检索或生成。 - SMILES 字符串 (Simplified Molecular Input Line Entry System, SMILES): 一种用于以文本字符串形式表示分子结构的方法。它将分子的三维结构编码成一维的字符序列,例如苯环可以表示为 。
SMILES字符串是分子领域常用的标准化表示。 - Transformer 模型 (Transformer Model): 一种基于自注意力机制 (self-attention mechanism) 的深度学习模型架构,最初为自然语言处理设计。它能够处理序列数据,并捕捉序列中元素之间的长距离依赖关系。
Transformer模型通常包含编码器 (encoder) 和解码器 (decoder) 两部分,各自由多层自注意力机制和前馈网络组成。 - 编码器-解码器架构 (Encoder-Decoder Architecture): 深度学习中常见的一种模型架构,其中编码器将输入序列(如文本、
SMILES)转换为一个固定长度的上下文向量或一系列隐藏状态,解码器则根据这个上下文向量或隐藏状态生成目标序列(如另一种语言的文本、目标SMILES)。 - T5 (Text-to-Text Transfer Transformer): 一种统一的编码器-解码器
Transformer模型,将所有自然语言处理任务都视为“文本到文本”的任务。它通过统一的文本输入和输出格式,在大量无监督文本数据上进行预训练,然后可以针对各种下游任务进行微调。 - 对比学习 (Contrastive Learning): 一种自监督学习方法,旨在通过将“正样本对”(相似的数据点)在嵌入空间中拉近,同时将“负样本对”(不相似的数据点)推远,来学习数据的有效表征。
- 密度峰值聚类算法 (Density Peaks Clustering Algorithm, DPC): 一种非参数聚类算法,能够自动识别簇的数量和簇中心。其基本思想是:簇中心点的局部密度 (local density) 高于其邻居,并且与更高密度点的距离相对较大。它通过计算每个数据点的局部密度 和到更高密度点的距离 来识别簇中心。
- 局部密度 (Local Density, ): 反映了数据点在其邻域内的密集程度。
- 距离指示器 (Distance Indicator, ): 反映了数据点与其最近的、密度更高的点之间的距离。
3.2. 前人工作
- 全局对齐方法 (Global Alignment Methods): 许多现有的分子-文本跨模态模型,如
CLIP(Radford et al., 2021b) 和BLIP(Li et al., 2022) 在视觉领域取得了成功,并被推广到生命科学领域,包括小分子 (Liu et al., 2023c)、蛋白质 (Yuan et al., 2024) 和材料 (Ock et al., 2024)。在分子领域,MoMu(Su et al., 2022)、MoleculeSTM(Liu et al., 2023c)、MolCA(Liu et al., 2023e)、MolFM(Luo et al., 2023) 等模型主要通过对比学习来对齐分子和文本的全局表征。这些方法能够捕捉整体的相似性,但往往忽略了细粒度的局部对应关系。 - 专注于分子内部模态的细粒度对齐 (Fine-Grained Alignment within Molecular Modalities):
UniMAP(Feng et al., 2023)、MOLEBLEND(Yu et al., 2024)、ReLMole(Ji et al., 2022)、GraphMVP(Liu et al., 2022) 等方法专注于对齐分子内部的不同表征形式,例如1D SMILES、2D分子图和3D结构。它们利用RDKit等工具进行SMILES到图的转换,便于进行模态间的对齐。然而,这些方法通常不涉及分子结构与自然语言文本之间的细粒度对齐。 - 文本引导的条件分子生成 (Text-Guided Conditional Molecule Generation):
- 仅解码器
Transformer架构 (Decoder-Only Transformer Architecture): 如MolXPT(Liu et al., 2023d),它是一个GPT类的模型,在文本封装的SMILES序列上预训练,直接生成分子。 - 编码器-解码器
Transformer架构 (Encoder-Decoder Transformer Architecture): 如MolT5(Edwards et al., 2022) 和Text+Chem T5(Christofidellis et al., 2023),它们将文本和分子字符串联合编码,然后使用文本描述生成分子字符串。这些方法通常将条件生成任务视为翻译任务,但大多没有显式建立模态间的对齐。
- 仅解码器
- 两阶段训练策略 (Two-Stage Training Strategies): 许多方法,如
MolT5、MolFM、MoleculeSTM,采用两阶段训练,先进行预训练学习表征,再针对下游任务进行微调。这种策略在信息交换和细粒度交互方面可能受到限制,且可能无法最优地服务于生成任务。
3.3. 技术演进
领域技术演进经历了从仅关注单一模态(如仅文本或仅分子结构)到跨模态表征学习的转变,以期整合多源信息。早期的跨模态方法主要侧重于全局特征的对齐,通过对比学习在宏观层面建立分子与文本的联系。然而,随着对分子科学复杂性理解的加深,人们发现全局对齐不足以捕捉分子结构中关键的细粒度信息,例如特定官能团或立体化学细节与文本描述中相应短语的对应关系。这种认知推动了对细粒度对齐技术的需求。同时,模型架构也从最初的独立编码器处理不同模态,发展到尝试使用统一编码器以促进模态间更深层次的交互。在任务类型上,从最初的检索和属性预测,逐渐扩展到对生成任务(如分子生成和描述生成)的关注,这要求模型不仅能理解,还能创造。Atomas 正是在这一演进脉络中,通过引入分层自适应对齐,解决了细粒度对应关系缺失的挑战,并优化了生成任务,代表了该领域的一个重要进展。
3.4. 差异化分析
Atomas 与现有方法的核心区别和创新点在于:
- 分层自适应对齐 (Hierarchical Adaptive Alignment): 与大多数仅进行全局对齐的方法不同,Atomas 能够自动学习并对齐分子和文本在原子、片段和分子三个语义层级的细粒度对应关系,无需显式标注。这使得模型能捕捉到立体异构体等微小但关键的细节。
- 统一编码器 (Unified Encoder): Atomas 采用一个统一的编码器来处理
SMILES字符串和文本,而非使用分离的编码器。这促进了两种模态之间更同构的表征,从而简化了后续的对齐任务,并且在数据稀缺场景下表现出显著优势。 - 端到端联合优化 (End-to-End Joint Optimization): Atomas 将全局对齐、分层自适应对齐和条件生成 (conditional generation) 损失函数进行联合优化。这种端到端训练框架不仅支持理解任务(如检索),还专门优化了生成任务(如分子生成和描述生成),这与许多主要为预测任务设计的或采用两阶段训练的方法形成对比。实验证明,先对齐再生成的策略以及联合优化显著提高了生成性能。
- 自适应聚合 (Adaptive Polymerization): 针对缺乏细粒度标注的挑战,Atomas 设计了自适应聚合模块,通过无监督聚类将低级词元(如原子、单词)聚合成高级语义单元(如官能团、短语),从而构建分层表征,解决了传统方法难以构建层次化文本-分子对的问题。
4. 方法论
本节详细阐述 Atomas 框架的各个组成部分,如图 2 所示。Atomas 旨在通过联合学习 SMILES 和文本的表征,并引入分层自适应对齐机制,实现分子理解和生成任务的优化。
该图像是Atomas框架的示意图,展示了其四个主要组件:统一编码器、全局对齐模块、分层自适应对齐和条件解码器。框架支持对分子和文本的联合表示学习,并在三个语义层次上对齐两种模态。描述中提到的分子结构为 C1=CC=C(C=C1)C(=O)O。
4.1. 方法原理
Atomas 的核心思想是,为了更精确地理解和生成分子,模型不仅需要捕捉分子和文本的全局对应关系,还需要深入到细粒度层面,如分子中的特定原子或官能团与文本描述中的具体词语或短语之间的对应关系。由于缺乏细粒度标注,传统的监督学习方法难以实现这一点。因此,Atomas 提出了一个分层自适应对齐模型 (Hierarchical Adaptive Alignment, HAA),它能够自动地在原子级、片段级和分子级三个语义层次上发现并对齐两种模态的细粒度特征。此外,通过采用统一编码器处理 SMILES 和文本,可以生成更同构的表征,进一步促进对齐。最后,将条件生成任务与对齐过程结合,通过端到端训练,使得对齐后的表征能够直接用于优化分子生成任务。
4.2. 核心方法详解
Atomas 主要由四个组件构成:
- 统一编码器 (Unified Encoder): 编码输入分子 (
SMILES) 及其对应的文本描述。 - 全局对齐模块 (Global Alignment Module): 投影并对齐分子和文本的全局特征。
- 分层自适应对齐 (Hierarchical Adaptive Alignment): 在三个层级(原子、片段、分子)上对齐分子和文本。它包含两个子模块:自适应聚合模块 (Adaptive Polymerization Module, APM) 用于聚类原始词元特征,以及加权对齐模块 (Weighted Alignment Module, WAM) 用于进行集合级对齐。
- 条件解码器 (Conditional Decoder): 以对齐后的分子和文本嵌入作为输入,生成目标模态。
4.2.1. 分子-文本统一编码 (Molecule-Text Unified Encoding)
对于一个 SMILES-文本对 ,其中 是 SMILES 字符串, 是文本描述,它们都被送入统一编码器 。
输入的文本 包含 个词元,被编码为特征序列 ,其中 是第 个文本词元的特征向量。
输入的 SMILES 包含 个词元,被编码为特征序列 ,其中 是第 个 SMILES 词元的特征向量。
为了获得全局特征,我们首先聚合 和 中的所有词元特征,并通过一个投影模块 proj(·) 得到全局特征 和 :
其中 和 是学习到的权重矩阵, 和 是偏置项。
接下来,我们通过跨模态对比学习 (cross-modal contrastive learning) 对全局表征对 进行对齐。为了确保有足够的负样本对和两种模态间特征表征的一致性,本文引入了动量统一编码器 (momentum unified encoder) 和用于文本 和 SMILES 的两个队列 和 。动量统一编码器 按以下方式由 更新:
其中 是动量系数参数,只有 的参数通过反向传播进行更新。
和 存储由 生成的全局特征 和 ,从而创建了两个庞大且一致的字典,涵盖了丰富的负样本。通过这种方式,我们在指定的队列范围内(而不是在一个 mini-batch 内)计算文本到 SMILES 的全局相似性分数:
其中 是一个可学习的温度参数, 是相似性度量函数,此处使用余弦相似度 (cosine similarity) 函数。类似地,我们可以获得全局 SMILES 到文本的相似性分数 。受 (Li et al., 2021; 2022) 启发,通过动量编码器 生成软标签 (soft labels),全局对齐损失 可以表示为:
其中 是控制标签平滑度 (label smoothness) 的超参数。 和 表示真实相似性,其中负样本对的概率为 0,正样本对的概率为 1。
4.2.2. 分层自适应对齐 (Hierarchical Adaptive Alignment, HAA)
给定编码后的 SMILES-文本对 ,从 和 中显式提取对应的细粒度信息(例如,SMILES 中的官能团和文本中的短语)具有挑战性。为了解决这个问题,本文提出了一个自适应聚合模块 (Adaptive Polymerization Module, APM),它将词元级特征聚类成解耦的表征集合。随后,引入加权对齐模块 (Weighted Alignment Module, WAM) 来估计两种模态之间的相关性,并以集合级 (set-wise) 方式识别潜在的活跃单元。通过堆叠这两个模块,将 SMILES 和文本之间的细粒度对齐扩展到分层交互。
具体而言,分层自适应对齐在三个级别进行:
-
原子级 (Atom level): 原子与单词对齐。
-
片段级 (Fragment level): 官能团与短语对齐。
-
分子级 (Molecule level): 分子与段落对齐。
该过程以级别为单位,交替进行三个步骤:分配步骤、合并步骤和对齐步骤。
4.2.2.1. 分配步骤 (Assignment Step)
我们利用一个可学习的词元聚合模块来实现自适应聚合。该模块使用基于密度峰值 (density peak-based) 的聚类算法与 最近邻 (Du et al., 2016) 对 进行处理。
首先,对 SMILES 词元特征进行归一化和卷积操作:
然后,计算每个原子词元特征 的局部密度 及其 最近邻:
其中 和 是它们对应的 SMILES 词元特征。 是 SMILES 词元特征的通道数。 表示原子词元 的 最近邻。 是一个在 [0, 1) 区间内均匀采样的随机噪声,确保没有词元具有相同的密度。
接下来,为每个词元特征 计算距离指示器 。 定义为它与所有密度高于其自身的词元之间的最小距离。对于具有最高局部密度的词元,其距离指示器定义为它与所有其他词元之间的最大距离:
这里, 作为词元局部密度的指标,反映了位于 附近的词元数量。 表示词元与其他高密度词元之间的距离,衡量了它与也位于高密度区域的其他词元有多远。 和 共同提供了关于词元 分布和接近度的有价值信息。
我们识别出 值相对较高的词元作为簇中心,然后将所有其他词元根据欧几里得距离 分配到它们最近的簇中心。这种聚类方法使我们能够将输入词元解码为连贯的语义单元,为词序列 和原子序列 提供更结构化和有意义的表征。
4.2.2.2. 合并步骤 (Merge Step)
具有相似语义的词元可能重要性不同,因此在合并步骤中,我们首先为每个词元特征分配一个权重,并计算每个簇的加权平均词元特征来表示相应的簇:
其中 是 中每个词元特征的权重, 表示片段级别上第 个簇中的特征数量, 是 的第 个词元特征, 是相应的权重分数。 是第 个加权平均词元特征。
然后,我们在合并后的词元特征上应用注意力机制。 用作查询 和键 ,值 对应于原始词元特征 。我们将注意力机制的输出作为合并后的片段特征 ,其中 。对于文本模态,也进行类似的操作,得到 ,其中 。
4.2.2.3. 对齐步骤 (Alignment Step)
在分配和合并步骤之后,词元被聚合为语义单元。我们在每个级别上对 SMILES 和文本之间执行加权对齐模块 (Wang et al., 2022) 以获得加权平均最大对齐分数。从原子级别开始,我们可以获得文本到 SMILES 的相似性分数:
其中 表示每个文本词元的可学习权重。归一化对齐分数 捕捉了第 个描述词元特征和第 个 SMILES 词元特征之间的相似性。然后,原子级别的分层自适应对齐损失可以计算为:
其中 是批大小 (batch size), 是温度参数。类似的对齐操作也应用于片段级别和分子级别,分别产生损失 和 。
4.2.3. 基于对齐表征的条件生成 (Conditional Generation Based on Aligned Representation)
我们采用条件生成方法,根据对齐后的表征 和 生成目标模态。对于文本到 SMILES 的生成任务,解码器以对齐后的文本描述 作为输入。解码器通过自注意力机制 (self-attention) 迭代地关注先前生成的词元 ,并通过交叉注意力机制 (cross-attention) 关注输入条件 。利用这些注意力表征,解码器预测未来 SMILES 词元的概率 。然后,解码器可以通过最小化给定文本描述 下真实 SMILES 词元 的负对数似然 (negative log-likelihood) 进行优化,同样的操作也应用于分子描述生成任务:
4.2.4. 训练目标 (Training Objectives)
Atomas 的目标是在不同粒度级别上对齐分子和文本,同时有条件地重建分子或文本描述。我们以端到端的方式联合优化全局对齐损失 、分层自适应对齐损失 和语言模型损失 。Atomas 的整体损失函数为:
其中 是模型参数。 , , 分别在原子级、片段级和分子级上运行。
5. 实验设置
5.1. 数据集
实验使用了多个数据集来评估 Atomas 在不同任务上的性能。
-
初始训练数据集 (Initial Training Dataset):
- 来源与构建: 遵循 MoleculeSTM 的流程 (Liu et al., 2023c),从 PubChem 网站收集分子
SMILES-文本对。将具有相同 PubChem ID 且描述少于 18 个字符的对合并,并从下游任务数据集中移除重复项以防止数据泄露。 - 名称: PubchemSTM-distl。
- 规模: 51,340 个独特的分子-文本对。
- 用途: 仅用于初始训练阶段,不用于划分训练、验证和测试集。
- 来源与构建: 遵循 MoleculeSTM 的流程 (Liu et al., 2023c),从 PubChem 网站收集分子
-
分子-文本检索任务 (Molecule-Text Retrieval Task):
- 数据集: PCdes (Zeng et al., 2022b)。
- 规模: 15,000 个分子对。
- 划分: 采用支架分裂 (scaffold splitting) 方式,按 7:1:2 的比例划分为训练集、验证集和测试集。
- 特点: 用于评估模型在未进行微调情况下的泛化能力和检索效率。
-
基于文本的从头分子生成任务 (Text-Based de Novo Molecule Generation) 和分子描述生成任务 (Molecule Captioning Task):
- 数据集: ChEBI-20 (Edwards et al., 2022)。
- 规模: 33,010 个分子-描述对。
- 划分: 按 80/10/10% 的比例划分为训练集、验证集和测试集。
- 特点: ChEBI-20 是分子生成任务的金标准数据集。
-
分子属性预测任务 (Molecular Property Prediction Task):
- 数据集: MoleculeNet 中的八个二分类数据集。
- 划分: 采用支架分裂 (scaffold split) 方式,与 MoleculeSTM (Liu et al., 2023c) 保持一致。
数据集示例:
原文 Figure 8 展示了部分数据集的例子,以帮助理解 SMILES 字符串和文本描述之间的对应关系。为了更直观地理解,SMILES 字符串被转换为 2D 分子图。图中以相同颜色高亮显示了文本描述和分子结构中对应的部分。

示例解读:
图 8 展示了三种分子及其描述。例如,第一个分子是 3,7,4'-三羟基黄酮 (3,7,4'-trihydroxyflavone)。其 SMILES 字符串和描述中,3,7,4'-trihydroxyflavone 对应于分子结构中的特定羟基位置,而 flavone 对应于分子核心的黄酮骨架。这些例子强调了文本描述中包含的细粒度局部信息,以及将其与分子结构中的相应部分对齐的重要性。
5.2. 评估指标
对论文中使用的每个评估指标进行详细说明:
5.2.1. 分子-文本检索任务 (Molecule-Text Retrieval)
- Recall@K (R@K):
- 概念定义: 衡量在检索结果的前 个项中,有多少比例的相关项目被召回。它反映了模型在检索顶部结果中的完整性,即查全率。
- 数学公式:
- 符号解释:
Number of relevant items in top K: 在检索到的前 个结果中,与查询相关的项目数量。Total number of relevant items: 所有与查询相关的项目总数。
- Mean Reciprocal Rank (MRR):
- 概念定义: 衡量搜索引擎或推荐系统等信息检索模型的性能,通过计算多个查询中第一个相关结果位置的倒数平均值来评估模型在相关项目排序方面的有效性。排名越靠前,MRR 值越高。
- 数学公式:
- 符号解释:
- : 查询的总数量。
- : 第 个查询的第一个相关文档的排名位置。如果查询没有相关文档,则该项为 0。
5.2.2. 分子描述生成任务 (Molecule Captioning)
- BLEU (Bilingual Evaluation Understudy):
- 概念定义: 一种评估机器翻译文本质量的度量标准,通过计算生成文本与一组参考文本之间 n-gram(连续的 n 个词)重叠的几何平均来衡量。BLEU 分数越高表示生成文本与参考文本越相似。BLEU-n 指的是使用 n-gram 的 BLEU 指标。
- 数学公式: 其中, 是简短惩罚因子 (Brevity Penalty),用于惩罚过短的生成文本。 是修改后的 n-gram 精度 (modified n-gram precision), 是 n-gram 权值(通常设为 )。
- 符号解释:
- : 考虑的最大 n-gram 长度(例如,BLEU-4 表示 )。
- : 第 个 n-gram 的权重。
- : 第 个 n-gram 的精度,即生成文本中与参考文本匹配的 n-gram 数量除以生成文本中总的 n-gram 数量。
- : 生成文本的总词数。
- : 参考文本的总词数。
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation):
- 概念定义: 一组用于评估文本摘要和机器翻译的指标。ROUGE-N 衡量生成文本与参考文本之间 n-gram 的重叠程度(主要关注召回率)。ROUGE-L 基于最长公共子序列 (Longest Common Subsequence, LCS) 衡量,捕捉文本的整体连贯性和流畅性。
- 数学公式 (ROUGE-N):
- 符号解释:
References: 参考摘要的集合。- : n-gram。
- : 生成摘要和参考摘要之间匹配的 n-gram 计数。
- : 参考摘要中 n-gram 的计数。
5.2.3. 基于文本的从头分子生成任务 (Text-based de Novo Molecule Generation)
- Exact Match (Exact):
- 概念定义: 衡量生成
SMILES字符串与真实SMILES字符串完全匹配的百分比。 - 数学公式:
- 符号解释:
Number of exactly matched SMILES: 生成的SMILES字符串与真实标签完全一致的数量。Total number of generated SMILES: 生成SMILES字符串的总数量。
- 概念定义: 衡量生成
- Levenshtein Distance (Levenshtein):
- 概念定义: 也称为编辑距离 (edit distance),衡量将一个字符串转换成另一个字符串所需的最少单字符编辑(插入、删除或替换)次数。值越低表示两个字符串越相似。
- 数学公式:
Levenshtein(a, b): 给定两个字符串 和 ,Levenshtein(a, b)是将 转换为 所需的最小编辑操作数。 - 符号解释:
- : 源字符串(例如,生成的
SMILES)。 - : 目标字符串(例如,真实的
SMILES)。
- : 源字符串(例如,生成的
- MACCS FTS, RDK FTS, Morgan FTS (Molecule Fingerprint Similarities):
- 概念定义: 这些指标衡量生成分子与真实分子之间基于分子指纹 (molecular fingerprints) 的相似性。分子指纹是分子结构特征的二进制或计数向量表示,用于快速比较分子。FTS 通常指指纹的 Jaccard 相似度。
- 数学公式 (Jaccard 相似度):
- 符号解释:
- : 第一个分子的指纹集合(通常是二进制向量中为 1 的特征索引集合)。
- : 第二个分子的指纹集合。
- : 两个指纹共同具有的特征数量。
- : 两个指纹的总独特特征数量。
- Validity (有效性):
- 概念定义: 衡量生成分子中能够被化学工具包(如
RDKit)成功解析为有效分子结构的百分比,反映了生成分子的语法正确性。 - 数学公式:
- 符号解释:
Number of valid generated molecules: 成功解析为有效分子结构的生成SMILES字符串数量。Total number of generated molecules: 生成SMILES字符串的总数量。
- 概念定义: 衡量生成分子中能够被化学工具包(如
5.2.4. 分子属性预测任务 (Molecular Property Prediction)
- ROC-AUC (Area Under the Receiver Operating Characteristic Curve):
- 概念定义: 衡量二分类模型性能的指标。ROC 曲线描绘了在不同分类阈值下真阳性率 (True Positive Rate, TPR) 与假阳性率 (False Positive Rate, FPR) 之间的关系。AUC 值越大表示模型区分正负样本的能力越强,即性能越好。
- 数学公式: AUC 是 ROC 曲线下方区域的面积。其数学定义通常涉及积分,但在实际计算中常通过对排序的样本对进行计数来近似。
- 符号解释:
- : 真阳性率,又称召回率或敏感度,。
- : 假阳性率,。
- : 真阳性 (True Positive),实际为正类且被预测为正类的样本数。
- : 真阴性 (True Negative),实际为负类且被预测为负类的样本数。
- : 假阳性 (False Positive),实际为负类但被预测为正类的样本数。
- : 假阴性 (False Negative),实际为正类但被预测为负类的样本数。
5.3. 对比基线
论文将 Atomas 与以下基线模型进行了比较:
-
分子-文本检索任务:
- MoMu (Su et al., 2022): 一个预训练模型,使用对比学习将分子图与其对应的文本描述对齐。
- MolCA (Liu et al., 2023e): 通过跨模态投影器,使语言模型能够理解基于文本和基于图的分子内容。
- MolFM (Luo et al., 2023): 一个多模态分子基础模型,联合训练三个单模态编码器,分别编码分子结构、生物医学文本和知识图谱,以学习联合表征。
- MoleculeSTM (Liu et al., 2023c): 设计了一个多模态对比学习模型,结合分子结构信息和文本知识进行分子理解。
-
分子描述生成任务:
- MoMu (Su et al., 2022): 同上。
- MolXPT (Liu et al., 2023d): 一个
GPT类的模型,基于 配置,在文本封装的SMILES序列上预训练。 - GIT-Mol (Liu et al., 2024): 使用基于
BLIP2中QFormer架构的GIT-Former,将分子图、图像和文本SMILES模态映射到统一的潜在空间。 - MolFM (Luo et al., 2023): 同上。
- MolT5 (Edwards et al., 2022): 一个基于
T5的文本到文本模型,在大型自然语言和分子单模态语料库上预训练,获取了两个领域的先验知识。 - MolReGPT (Li et al., 2023a): 使用
GPT-3.5-turbo和GPT-4-0314,通过上下文学习设计了基于检索的提示范式,以在无需额外训练的情况下改进分子发现。 - Text+Chem T5 (Christofidellis et al., 2023): 开发了一个多任务、多领域模型,用于处理自然语言和化学语言。
- InstructMol (Cao et al., 2023): 通过两阶段训练对大型语言模型 (LLMs) 进行指令微调。 指同时使用分子图词元和
SMILES词元作为输入。 - MolCA (Liu et al., 2023e): 同上。
-
基于文本的从头分子生成任务:
- 与分子描述生成任务的基线类似,但排除了
InstructMol方法,因为它不直接适用于分子生成任务。 - ICMA (Li et al., 2024a): 在额外的实验中,与
ICMA进行了比较,该模型在PubChem324K数据集上与Atomas进行了对标。
- 与分子描述生成任务的基线类似,但排除了
-
分子属性预测任务:
- MoleculeSTM-SMILES (Liu et al., 2023c): 使用
SMILES作为输入的MoleculeSTM版本。 - MolFM (Luo et al., 2023): 同上。
- MoMu (Su et al., 2022): 同上。
- MolCA-SMILES (Liu et al., 2023e): 使用
SMILES作为输入的MolCA版本。
- MoleculeSTM-SMILES (Liu et al., 2023c): 使用
6. 实验结果与分析
本节将对 Atomas 的定量和定性实验结果进行深入分析,展示其在多项任务上的优越性能,并探讨其模块的有效性、可扩展性、鲁棒性以及化学相关性。
6.1. 核心结果分析
6.1.1. 分子-文本检索任务 (Molecule-Text Retrieval)
表 1 展示了 Atomas 在分子-文本检索任务上的性能。
以下是原文 Table 1 的结果:
| Model (No Fine-tuning) | Text to Molecule | Molecule to Text | ||||||
| R@1 | R@5 | R@10 | MRR | R@1 | R@5 | R@10 | MRR | |
| 1 SMILES + 2D Graph | ||||||||
| MoMu | 4.90 | 14.48 | 20.69 | 10.33 | 5.08 | 12.82 | 18.93 | 9.89 |
| MolCA | 35.09 | 62.14 | 69.77 | 47.33 | 37.95 | 66.81 | 74.48 | 50.80 |
| 1D SMILES + 2D Graph + Knowledge Graph | ||||||||
| MolFM | 16.14 | 30.67 | 39.54 | 23.63 | 13.90 | 28.69 | 36.21 | 21.42 |
| 1D SMILES | ||||||||
| MoleculeSTM | 35.80 | - | - | 39.50 | - | - | ||
| Atomas-base (Ours) | 39.08 | 59.72 | 66.56 | 47.33 | 37.88 | 59.22 | 65.56 | 47.81 |
| Atomas-large (Ours) | 49.08 | 68.32 | 73.16 | 57.79 | 46.22 | 66.02 | 72.32 | 55.52 |
分析:
从 Table 1 可以看出,Atomas 在文本到分子的 R@1 和 MRR 指标上显著优于所有基线模型,并且在分子到文本的 R@1 和 MRR 指标上也表现出色。特别是 Atomas-large 模型,在所有指标上均达到了最先进的水平。这表明 Atomas 所采用的多层次细粒度交互和对齐机制能够有效提升模型在检索任务中的性能。与仅依赖粗粒度表征的方法相比,Atomas 能够更精确地捕捉分子和文本之间的语义联系,即使在不进行微调的情况下,也能展现出强大的泛化能力。例如,Atomas-large 在文本到分子的 R@1 达到了 49.08,远超次优的 MoleculeSTM (35.80) 和 MolCA (35.09)。
6.1.2. 基于文本的从头分子生成任务 (Text-Based de Novo Molecule Generation)
表 2 展示了 Atomas 在基于文本的从头分子生成任务上的性能。
以下是原文 Table 2 的结果:
| Model | BLEU↑ | Exact↑ | Levenshtein↓ | MACCS FTS↑ | RDK FTS↑ | Morgan FTS↑ | Validity↑ |
| SMES + 2D Graph + 2D Image | |||||||
| GIT-Mol | 0.756 | 0.051 | 26.32 | 0.738 | 0.582 | 0.519 | 0.928 |
| 1D SMILES + 2D Graph + Knowledge Graph | |||||||
| MolFM-small | 0.803 | 0.169 | 20.868 | 0.834 | 0.721 | 0.662 | 0.859 |
| MolFM-base | 0.822 | 0.210 | 19.45 | 0.854 | 0.758 | 0.758 | 0.892 |
| 2D Graph | |||||||
| ICMA(Galactica-125M)4,2048 | 0.836 | 21.480 | 0.893 | 0.809 | 0.743 | 0.825 | |
| ICMA(Mistral-7B)4,2048 | 0.855 | 18.73 | 0.916 | 0.837 | 0.789 | 0.891 | |
| 1D SMILES | |||||||
| MolT5-small | 0.749 | 0.082 | 28.816 | 0.780 | 0.654 | 0.601 | 0.725 |
| MolT5-base | 0.779 | 0.082 | 25.19 | 0.788 | 0.662 | 0.602 | 0.787 |
| MolT5-large | 0.854 | 0.318 | 16.32 | 0.889 | 0.813 | 0.750 | 0.958 |
| Text+Chem T5-augm | 0.853 | 0.322 | 16.87 | 0.901 | 0.816 | 0.757 | 0.943 |
| MolXPT | 0.215 | 0.859 | 0.757 | 0.667 | 0.983 | ||
| MolReGPT (GPT-3.5-turbo) | 0.790 | 0.139 | 24.91 | 0.847 | 0.708 | 0.624 | 0.887 |
| MolReGPT (GPT-4-0413) | 0.857 | 0.280 | 17.14 | 0.903 | 0.805 | 0.739 | 0.899 |
| Atomas-base (Ours) | 0.868 | 0.343 | 13.76 | 0.908 | 0.827 | 0.773 | 0.971 |
| Atomas-large (Ours) | 0.874±.003 | 0.387±.008 | 12.70±.28 | 0.914±.004 | 0.841±.002 | 0.788±.002 | 0.980±.003 |
分析:
在基于文本的从头分子生成任务中,Atomas 在所有指标上均超越了所有基线模型。Atomas-large 的 Exact 匹配率达到 0.387,远高于其他模型,Levenshtein 距离也最低(12.70),表明其生成的分子与目标分子结构高度相似。此外,在分子指纹相似度(MACCS FTS, RDK FTS, Morgan FTS)和 Validity 方面也表现最佳。这进一步验证了 Atomas 提出的分层自适应对齐和联合优化策略在生成任务中的优越性。特别是,它强调了在生成之前进行初步对齐的有效性,以及细粒度分层对齐对可控分子生成质量的提升作用。
6.1.3. 分子描述生成任务 (Molecule Captioning)
表 3 展示了 Atomas 在分子描述生成任务上的性能。
以下是原文 Table 3 的结果:
| Model | #Params | BLEU-2 | BLEU-4 | ROUGE-1 | ROUGE-2 | ROUGE-L |
| 1D SMILES + 2D Graph | ||||||
| MoMu-small | 82M | 0.532 | 0.445 | 0.564 | ||
| MoMu-base | 252M | 0.549 | 0.462 | 0.575 | ||
| MoMu-large | 782M | 0.599 | 0.515 | - | - | 0.593 |
| InstructMol-GS | 6.9B | 0.475 | 0.371 | 0.566 | 0.394 | 0.502 |
| MolCA, Galac1.3B | 1.3B | 0.620 | 0.531 | 0.681 | 0.537 | 0.618 |
| D SMILES + 2D Graph + Image | ||||||
| GIT-Mol-GS | 700M | 0.352 | 0.263 | 0.575 | 0.485 | 0.560 |
| 1D SMILES + 2D Graph + Knowledge Graph | ||||||
| MolFM-small | 136.2M | 0.542 | 0.452 | 0.623 | 0.469 | 0.562 |
| MolFM-base | 296.2M | 0.585 | 0.498 | 0.653 | 0.508 | 0.594 |
| 1D SMILES | ||||||
| MolT5-small | 77M | 0.519 | 0.436 | 0.620 | 0.469 | 0.563 |
| MolT5-base | 248M | 0.540 | 0.457 | 0.634 | 0.485 | 0.578 |
| MolT5-large | 783M | 0.594 | 0.508 | 0.654 | 0.510 | 0.594 |
| Text+Chem T5-augm | 220M | 0.625 | 0.542 | 0.682 | 0.543 | 0.622 |
| MolXPT | 350M | 0.594 | 0.505 | 0.660 | 0.511 | 0.597 |
| MolReGPT (GPT-3.5-turbo) | >175B | 0.565 | 0.482 | 0.450 | 0.543 | 0.585 |
| MolReGPT (GPT-4-0314) | - | 0.607 | 0.525 | 0.634 | 0.476 | 0.562 |
| Atomas-base w/o initial training (Ours) | 271M | 0.6045±.003 | 0.5185±.004 | 0.6745±.006 | 0.5315±.007 | 0.6155±.004 |
| Atomas-base (Ours) | 271M | 0.632±.005 | 0.549±.002 | 0.685±.003 | 0.545±.004 | 0.626±.003 |
分析:
在分子描述生成任务中,Atomas 在所有评估指标上均超越了所有基线方法。值得注意的是,Atomas-base 模型(参数量 271M)在性能上优于参数量更大的 MolT5-large 模型(参数量 783M),且无需初始训练的 Atomas-base 也能取得优异成绩,这突显了 Atomas 框架的有效性和参数效率。例如,Atomas-base 在 BLEU-4 上的得分为 0.549,高于 MolT5-large 的 0.508。这再次强调了 Atomas 的分层对齐机制在生成高质量、准确和流畅的分子描述方面的优势。
6.1.4. 分子属性预测任务 (Molecular Property Prediction)
表 4 展示了 Atomas 在 MoleculeNet 数据集上的分子属性预测性能。
以下是原文 Table 4 的结果:
| Method | BBBP | Tox21 | ToxCast | Sider | ClinTox | MUV | HIV | Bace | Avg |
| MoleculeSTM-SMILES | 70.75±1.90 | 75.71±0.89 | 65.17±0.37 | 63.70±0.81 | 86.60±2.28 | 65.69±1.46 | 77.02±0.44 | 81.99±0.41 | 73.33 |
| MolFM | 72.9±0.1 | 77.2±0.7 | 64.4±0.2 | 64.2±0.9 | 79.7±1.6 | 76.0±0.8 | 78.8±1.1 | 83.9±1.1 | 74.62 |
| MoMu | 70.5±2.0 | 75.6±0.3 | 63.4±0.5 | 60.5±0.9 | 79.9±4.1 | 70.5±1.4 | 75.9±0.8 | 76.7±2.1 | 71.63 |
| MolCA-SMILES | 70.8±0.6 | 76.0±0.5 | 56.2±0.7 | 61.1±1.2 | 89.0±1.7 | - | - | 79.3±0.8 | 72.1 |
| Atomas | 73.72±1.67 | 77.88±0.36 | 66.94±0.9 | 64.40±1.9 | 93.16±0.5 | 76.30±0.7 | 80.55±0.43 | 83.14±1.71 | 77.01 |
分析:
在分子属性预测任务中,Atomas 在八个任务中的七个上取得了持续改进,总体性能超过了所有基线模型。Atomas 的平均 ROC-AUC 达到了 77.01,高于 MolFM 的 74.62 和 MoleculeSTM-SMILES 的 73.33。这表明 Atomas 学习到的跨模态表征,即使主要通过生成和检索任务进行优化,也具有很强的泛化能力,能够有效地应用于分子理解的下游任务,如属性预测。这可能是因为细粒度对齐使得 Atomas 能够捕获到分子结构中对属性预测至关重要的微小特征。
6.1.5. 基于文本的从头分子生成任务 (Text-based de Novo Molecule Generation) 补充实验
表 14 展示了 Atomas 在 PubChem324k 测试数据集上的补充实验结果,与 ICMA 模型进行比较。
以下是原文 Table 14 的结果:
| Model | Model sizes | BLEU↑ | Levenshtein↓ | MACCS FTS↑ | RDK FTS↑ | Morgan FTS↑ | Validity↑ |
| ICMA(Galactica-125M)4,2048 | 125M | 0.569 | 52.75 | 0.719 | 0.579 | 0.652 | 0.825 |
| ICMA(Mistral-7B)4,2048 | 7B | 0.450 | 77.01 | 0.764 | 0.624 | 0.504 | 0.891 |
| Atomas-large | 825M | 0.734 | 28.186 | 0.773 | 0.637 | 0.535 | 0.945 |
分析:
即使在不使用预训练数据、仅使用 PubChem324k 训练集的情况下,Atomas-large 仍然显著优于 ICMA 模型。例如,Atomas-large 在 BLEU 指标上取得了 0.734 的分数,比 ICMA(Galactica-125M) 高出 63.11%,比 ICMA(Mistral-7B) 高出 0.284。在 Levenshtein 距离上,Atomas-large 取得了 28.186 的最低分数,比 ICMA(Galactica-125M) 低 46.54%。这再次证明了 Atomas 强大的泛化能力和在分子生成任务上的卓越性能,尤其是在大型数据集上。
6.1.6. 定性分析与可视化
分子描述生成定性分析 (Qualitative Analysis of Molecule Caption): Figure 6 对比了 Atomas 与全局对齐方法在分子描述生成任务上的表现。

分析:
全局对齐方法如 MolCA 和 MolFM 在生成分子描述时,难以区分“D-谷氨酸”和“L-谷氨酸”等对映异构体,说明它们对细微的立体化学细节不敏感。而 Atomas 能够生成更准确、更详细的分子描述,例如能正确识别立体异构体,这证明了其分层对齐模型在捕捉和表达细粒度化学信息方面的有效性。
分子生成定性分析 (Qualitative Analysis of Molecule Generation): Figure 7 对比了 Atomas 与全局对齐方法在分子生成任务上的表现。

分析:
全局对齐方法如 MolT5 虽然能生成“AMP”的基本结构,但往往会遗漏“2-羟基”等细粒度细节。相反,Atomas 能够成功生成包含这些细微结构的正确分子,这进一步强调了分层自适应对齐在实现高精度可控分子生成中的关键作用。
自适应聚合模块可视化 (Visualization of Adaptive Polymerization Module): Figure 5 展示了自适应聚合模块的可视化过程。

分析: 该图展示了 Atomas 如何将原子(词)聚合成功能团(短语),再进一步聚合成分子(段落)的过程。在原子级别,所有原子都是独立的。在片段级别,原子被聚类成不同的功能团。在分子级别,特定的片段(如位置 0-13 和 15 的原子)被聚类在一起形成类似单体的结构。可视化结果证实,Atomas 能够有效地将低级词元聚合成高级语义单元,并且随着层级的提升,模型倾向于关注宏观信息。这种能力对于在没有显式标注的情况下,自动学习细粒度对应关系至关重要。
人类专家评估 (Human Evaluation): 表 9 展示了人类专家对分子描述任务的评估结果。
以下是原文 Table 9 的结果:
| Method | Novelty↑ | Average Ranking of Human Expert Evaluation ↓ |
| Text+Chem T5-augm | 0.84 | 2.2(1/2/2) |
| MolT5-large | 0.76 | 2.6(0/2/3) |
| Atomas-large | 0.85 | 1.2(4/1/0) |
分析: 在人类专家评估中,Atomas 取得了最低的平均排名(1.2),这意味着它生成的分子描述被人类专家认为质量最高。在五个随机选择的分子描述中,Atomas 在其中四份中获得了第一名。这为主观评价提供了强有力的支持,证实了 Atomas 生成描述的化学准确性和自然语言流畅性。
6.2. 数据呈现 (表格)
6.2.1. 分子-文本检索任务性能 (Table 1)
已在 6.1.1 节展示。
6.2.2. 基于文本的从头分子生成任务性能 (Table 2)
已在 6.1.2 节展示。
6.2.3. 分子描述生成任务性能 (Table 3)
已在 6.1.3 节展示。
6.2.4. 分子属性预测任务性能 (Table 4)
已在 6.1.4 节展示。
6.2.5. 初始训练数据集扩展性 (Table 5)
以下是原文 Table 5 的结果:
| Model | Data sizes | Exact↑ | Levenshtein↓ | RDK FTS↑ |
| MolFM-base | 15k | 0.210 | 19.45 | 0.758 |
| Atomas-base | 0 | 0.298 | 15.47 | 0.809 |
| Atomas-base | 15k | 0.318 | 14.68 | 0.817 |
| Atomas-base | 51k | 0.343 | 13.76 | 0.827 |
6.2.6. 模型规模扩展性 (Table 6)
以下是原文 Table 6 的结果:
| Model | Model sizes | Exact↑ | Levenshtein↓ | RDK FTS↑ |
| MolReGPT(GPT-4-0413) | >175B | 0.280 | 17.14 | 0.805 |
| MolT5-large | 783M | 0.318 | 16.32 | 0.813 |
| Atomas-base | 271M | 0.343 | 13.76 | 0.827 |
| Atomas-large | 825M | 0.387 | 12.70 | 0.841 |
6.2.7. 组件有效性和时间消耗消融研究 (Table 7)
以下是原文 Table 7 的结果:
| Global Alignmnet Lga | Hierarchical Alignment Lhaa | Conditional Generation Llm | Exact↑ | Levenshtein↓ | Morgan FTS↑ | Training Time(s/sample) |
| ✓ | 0.082 | 24.846 | 0.602 | 0.0112 | ||
| N | ✓ | 0.223 | 16.946 | 0.716 | 0.0119 | |
| ✓ | ✓ | 0.266 | 16.675 | 0.736 | 0.0132 | |
| √ | √ | √ | 0.298 | 15.472 | 0.750 | 0.0145 |
6.2.8. 联合优化有效性消融研究 (Table 8)
以下是原文 Table 8 的结果:
| Training Strategy | Text to Molecule | |||
| R@1 | R@5 | R@10 | MRR | |
| 2Stages | 37.74 | 58.01 | 65.02 | 47.20 |
| Joint optimization | 39.08 | 59.72 | 66.56 | 48.47 |
| Training Strategy | Molecule to Text | |||
| R@1 | R@5 | R@10 | MRR | |
| 2Stages | 36.54 | 57.31 | 63.58 | 46.10 |
| Joint optimization | 37.88 | 59.22 | 65.56 | 47.81 |
6.2.9. 分子新颖性与人类专家评估 (Table 9)
已在 6.1.6 节展示。
6.2.10. 基于 PubChem324k 的文本从头分子生成任务补充实验 (Table 14)
已在 6.1.5 节展示。
6.2.11. 复杂结构下的性能比较 (Table 15)
以下是原文 Table 15 的结果:
| Mol-Len | -BLLBLEUOUGEOUGEROUGEOUGEROUGE | |||||||
| BLEU-2 | BLEU-4 | ROUGE-1 | ROUGE-2 | ROUGE-L | BLEU-2 | BLEU-4 | ROUGE-1 | |
| 100 | 0.712 | 0.629 | 0.745 | 0.691 | 0.702 | 0.693 | 0.640 | |
| 0.679 | 0.588 | 0.653 | 0.603 | 0.722 | 0.611 | 0.669 | 0.659 | |
| 0.599 | ||||||||
| 0.42 | 0.6692 | 0.607 | 0.464 | 0.6999 | 0.785 | 0.49 | 0.521 | |
| M0 | 0.612 | 0.011 | 0.688 | |||||
| 500 | 0.760 | 0.639 | 0.736 | 0.7566 | 0.726 | 0.768 | 0.686 | |
| 0 | 0.811 | 0.5160 | 0.63 | 0.842 | 0.662 | 0.793 | ||
| 0.38 | 0.583 | 0.675 | 0.2 | O.G | 0.637 | CO | ||
| 0.352 | 0.30 | 0.057 | 0.560 | 0.31 | 0.488 | 0.494 | 0.263 | |
6.2.12. 复杂文本描述下的性能比较 (Table 16)
以下是原文 Table 16 的结果:
| Text-Len | s. | |||||||
| 0.842 | 10.218 | 17.140 | 13.084 | |||||
| 0.867 | 0.888 | 0.783 | 0.871 | 10.234 | 16.455 | 0.902 | 0.849 | |
| 0.883 | 0.849 | 0.867 | 0.61 | 13.236 | 0.921 | 0.901 | ||
| 0.861 | 0.793 | 0.832 | 17.463 | 13.1377 | 0.910 | 0.882 | ||
| 0.858 | 0.845 | 22.127 | 26.49 | 0.874 | 0.831 | |||
| 0.793 | 0.800 | 35.789 | 1. | 0.805 | 0.818 | |||
| 2 | 0.667 | 0.60 | 58.89 | 0.59 | 61.02 | 0.817 | 0.786 | |
| 90 0 | 0.878 | 0.809 | 0.02 | 0.845 | 0.549 | 0.820 | 0.528 | 36.857 |
6.2.13. 初始训练数据集扩展性完整结果 (Table 17)
以下是原文 Table 17 的结果:
| Model | Data sizes | BLEU↑ | Exact↑ | Levenshtein↓ | MACCS FTS↑ | RDK FTS↑ | Morgan FTS↑ | Validity↑ |
| Atomas-base | 0 | 0.854 | 0.298 | 15.47 | 0.898 | 0.809 | 0.750 | 0.947 |
| Atomas-base | 15k | 0.861 | 0.318 | 14.68 | 0.902 | 0.817 | 0.757 | 0.965 |
| Atomas-base | 51k | 0.868 | 0.343 | 13.76 | 0.908 | 0.827 | 0.773 | 0.971 |
6.2.14. 模型规模扩展性完整结果 (Table 18)
以下是原文 Table 18 的结果:
| Model | Model sizes | BLEU↑ | Exact↑ | Levenshtein↓ | MACCS FTS↑ | RDK FTS↑ | Morgan FTS↑ | Validity↑ |
| MolReGPT (GPT-3.5-turbo) | >175B | 0.790 | 0.139 | 24.91 | 0.847 | 0.708 | 0.624 | 0.887 |
| MolReGPT (GPT-4-0413) | >175B | 0.857 | 0.280 | 17.14 | 0.903 | 0.805 | 0.739 | 0.899 |
| MolT5-base | 248M | 0.779 | 0.082 | 25.19 | 0.788 | 0.662 | 0.602 | 0.787 |
| MolT5-large | 783M | 0.854 | 0.318 | 16.32 | 0.889 | 0.813 | 0.750 | 0.958 |
| Atomas-base | 271M | 0.868 | 0.343 | 13.76 | 0.908 | 0.827 | 0.773 | 0.971 |
| Atomas-large | 825M | 0.874 | 0.387 | 12.70 | 0.914 | 0.841 | 0.788 | 0.980 |
6.2.15. 统一编码器与分离编码器消融研究 (Table 19)
以下是原文 Table 19 的结果:
| Method | BLEU↑ | Exact↑ | Levenshtein↓ | MACCS FTS↑ | RDK FTS↑ | Morgan FTS↑ | Validity↑ |
| Baseline | 0.783 | 0.082 | 24.846 | 0.788 | 0.661 | 0.602 | 0.787 |
| Sep-encoder | 0.853 | 0.278 | 15.72 | 0.895 | 0.805 | 0.745 | 0.945 |
| Uni-encoder | 0.854 | 0.298 | 15.472 | 0.898 | 0.809 | 0.750 | 0.947 |
6.2.16. 组件有效性消融研究完整结果 (Table 20)
以下是原文 Table 20 的结果:
| Lga | Lhaa | Llm | BLEU↑ | Exact↑ | Levenshtein↓ | MACCS FTS↑ | RDK FTS↑ | Morgan FTS↑ | Validity↑ |
| ✓ | ✓ | 0.783 | 0.082 | 24.846 | 0.788 | 0.661 | 0.602 | 0.787 | |
| ✓ | 0.841 | 0.223 | 16.946 | 0.886 | 0.784 | 0.716 | 0.954 | ||
| ✓ | ✓ | 0.844 | 0.266 | 16.675 | 0.893 | 0.799 | 0.736 | 0.952 | |
| √ | √ | √ | 0.854 | 0.298 | 15.472 | 0.898 | 0.809 | 0.750 | 0.947 |
6.2.17. 联合优化有效性消融研究完整结果 (Table 21)
以下是原文 Table 21 的结果:
| Method | BLEU↑ | Exact↑ | Levenshtein↓ | MACCS FTS↑ | RDK FTS↑ | Morgan FTS↑ | Validity↑ |
| Baseline | 0.783 | 0.082 | 24.846 | 0.788 | 0.661 | 0.602 | 0.787 |
| 2Stages | 0.782 | 0.106 | 26.029 | 0.812 | 0.689 | 0.602 | 0.910 |
| Jointly optimization | 0.841 | 0.223 | 16.946 | 0.886 | 0.784 | 0.716 | 0.954 |
6.2.18. 不同分层对齐级别数量有效性消融研究 (Table 22)
以下是原文 Table 22 的结果:
| Level Num | BLEU↑ | Exact↑ | Levenshtein↓ | MACCS FTS↑ | RDK FTS↑ | Morgan FTS↑ | Validity↑ |
| 0 | 0.841 | 0.223 | 16.946 | 0.886 | 0.784 | 0.716 | 0.954 |
| 2 | 0.854 | 0.289 | 15.506 | 0.896 | 0.805 | 0.746 | 0.950 |
| 3 | 0.854 | 0.298 | 15.472 | 0.898 | 0.809 | 0.750 | 0.947 |
| 4 | 0.852 | 0.287 | 15.580 | 0.897 | 0.808 | 0.746 | 0.952 |
6.3. 消融实验/参数分析
6.3.1. Atomas 的可扩展性和鲁棒性 (The Scalability and Robustness of Atomas)
- 初始训练数据集规模扩展 (Table 5 & 17):
Table 5 和 Table 17 显示,即使在有限的数据量下(如 15k),
Atomas-base模型的性能也优于MolFM-base。随着训练数据规模的增加(从 0 到 51k),Atomas 的性能(如Exact匹配率、Levenshtein距离、RDK FTS)持续提升。这表明 Atomas 在数据稀缺和数据量充足的环境下都具有良好的可扩展性和有效性。 - 模型规模扩展 (Table 6 & 18):
Table 6 和 Table 18 证明,增加 Atomas 的模型参数(从
Atomas-base的 271M 到Atomas-large的 825M)可以进一步提高分子生成性能。例如,Atomas-large在Exact匹配率上达到 0.387,显著高于Atomas-base的 0.343,且Levenshtein距离更低。这说明 Atomas 能够从更大的模型容量中受益,展现出良好的可扩展性。 - 复杂分子结构和文本描述的鲁棒性 (Table 15 & 16):
Table 15 和 Table 16 探索了 Atomas 在复杂分子结构 (
Mol_len) 和技术性文本描述 (Text_len) 下的性能。结果表明,Atomas 在这些复杂场景下的性能优于基线方法,例如在Mol_len 100和Text_len 100的情况下,Atomas 依然保持了更鲁棒的性能。这验证了 Atomas 处理复杂化学信息和丰富文本的能力。
6.3.2. 统一编码器与分离编码器对比 (Unified Encoder Better than Separate Encoders)
-
Table 19 比较了统一编码器 (Uni-encoder) 和分离编码器 (Sep-encoder) 在分子生成任务中的性能。统一编码器在所有指标上均表现出更优异的性能。例如,
Uni-encoder的Exact匹配率为 0.298,高于Sep-encoder的 0.278。 -
Figure 3 展示了在不同训练数据集规模下(75%、50%、25% 原始数据),统一编码器和分离编码器的性能变化趋势。
该图像是图表,展示了统一编码器(Uni-Encoder)与分离编码器(Sep-Encoder)在分阶段评估分子生成任务中的性能对比。图中包含三个子图,分别表示BLEU得分、有效性(Validity)和精确度(Exact)的变化趋势,X轴表示数据减少的比例(100%、75%、50%、25%)。统一编码器在各项指标上均优于分离编码器,表明其在分子生成任务中的优势。
分析: 从 Figure 3 可以看出,当训练数据集减少时,分离编码器的性能显著下降,而统一编码器能够更好地保持性能。这提供了重要的洞察:在数据稀缺的分子设计场景中,统一编码器可能更具优势,因为它能更好地在两种模态之间共享知识并学习更同构的表征。 -
Figure 10a-d 和 Figure 11a-d(原文中图号有误,应为 Figure 11, 12, 13, 14)展示了在不同加权采样比例下
ChEBI-20训练数据集的文本长度分布。这些图旨在验证统一编码器在数据受限情况下的优势。
该图像是一个直方图,展示了文本长度的频率分布。图中显示大多数文本的长度集中在25到50之间,频率逐渐下降,反映出文本长度的统计特征。
该图像是一个直方图,展示了文本长度的频率分布。横轴表示文本长度,单位为字符,纵轴表示频率,说明了不同长度文本的数量分布情况。
该图像是一个直方图,展示了文本长度的频率分布。横轴表示文本长度,纵轴表示对应的频率,数据呈现出正偏斜且在约50字符处达到峰值,显示出大多数文本长度集中在25到50之间。
该图像是一个直方图,展示了文本长度的频率分布。可以看到,文本长度主要集中在25到50之间,随着文本长度增加,频率逐渐减小,呈现出右偏的趋势。
6.3.3. 分层对齐的有效性 (The Effectiveness of Hierarchical Alignment)
-
组件消融 (Table 7 & 20): Table 7 和 Table 20 提供了关于细粒度对齐有效性的清晰见解。
- 第一行(仅
Llm)代表没有对齐的基线模型,其Exact匹配率仅为 0.082。 - 第二行(仅全局对齐
Lga和Llm)将Exact匹配率提升到 0.223。 - 第三行(仅分层对齐
Lhaa和Llm)进一步将Exact匹配率提升到 0.266。 - 最后一行(包含所有组件
Lga,Lhaa,Llm)取得了最佳性能,Exact匹配率达到 0.298。 这表明分层自适应对齐 (Lhaa) 模块独立于全局对齐,能够显著提升模型性能,并且与全局对齐共同作用时效果最佳。
- 第一行(仅
-
对齐级别数量 (Table 22 & Figure 4 (right)): Table 22 和 Figure 4 (right) 研究了不同分层对齐级别数量对性能的影响。
该图像是图表,展示了联合优化(左)和层次对齐层级数量(右)的消融研究结果。左侧的柱状图比较了三个方法在 BLEU 和 RDK FTS 指标上的性能。右侧折线图显示了不同层级下的 Exact、Morgan FTS 和 Levenshtein 指标的变化。
分析: 结果表明,模型在 3 个对齐级别时(原子级、片段级、分子级)取得了最佳性能。少于 3 个级别可能无法捕捉足够的细粒度信息,而多于 3 个级别可能引入噪声或增加复杂性而无显著收益。
6.3.4. 计算效率 (The Computational Efficiency)
Table 7 还报告了在 ChEBI-20 数据集上使用 NVIDIA A100 40GB GPU 的平均训练时间。
分析:
虽然分层对齐 (Lhaa) 模块使每个样本的训练时间略微增加(仅 0.0026 秒),但它显著提升了 Atomas 的整体性能。推理时间的增加几乎可以忽略不计。这突出了 Atomas 设计的效率,即在引入关键的细粒度对齐能力的同时,保持了合理的计算开销。
6.3.5. 联合优化对学习表征质量和生成任务性能的益处 (Joint Optimization Benefits Both Learned Representation Quality and Generation Task Performance)
- 消融研究 (Table 8 & 21, Figure 4 (left)):
Table 8 和 Table 21,以及 Figure 4 (left) 展示了不同训练策略在分子检索和生成任务上的消融研究结果。
分析:
“2 阶段 (2Stages)”训练策略(首先预训练表征,然后微调生成器)的性能不如“联合优化 (Joint optimization)”策略。联合优化在检索和生成任务上都取得了更好的结果。例如,在分子到文本检索任务中,联合优化的
R@1为 37.88,高于 2 阶段的 36.54。在分子生成任务中,联合优化的Exact匹配率为 0.223,高于 2 阶段的 0.106。这支持了联合优化的核心理念:生成任务(如分子描述生成或分子生成)和分子表征学习(如检索任务)之间存在相互促进的作用。基于注意力机制的生成任务本质上执行了一种软对齐,强化了文本和SMILES之间的语义一致性。同时,表征学习缩小了文本和SMILES之间的领域差距,提升了生成任务的性能。
6.3.6. 合并方法比较 (Merging Methods Comparison)
论文提到与 BRICS 分解方法进行了比较。
分析:
BRICS 等传统分子分解方法(如 BRICS)虽然能生成分子片段,但通常会引入额外的字符(如 )并且不支持分层分解,这限制了它们直接替代 Atomas 中的自适应聚合模块。这强调了 Atomas 自适应、无监督地构建分层语义单元的独特优势。
6.4. 可视化和定性分析
已在 6.1.6 节详细讨论。
7. 总结与思考
7.1. 结论总结
本文提出了 Atomas,一个用于统一分子理解和生成的层次自适应对齐框架。该框架通过一个分层自适应对齐模型,在原子级、片段级和分子级三个语义层次上自动学习并对齐 SMILES 字符串与文本描述之间的细粒度对应关系。Atomas 采用统一编码器处理两种模态,并在端到端训练框架中联合优化了全局对齐、分层对齐和条件生成损失。实验结果表明,Atomas 在分子-文本检索、基于文本的从头分子生成和分子描述生成等 12 项任务上均达到了最先进的性能,并超越了 11 个基线模型。此外,Atomas 表现出卓越的鲁棒性和可扩展性,并通过可视化和人类专家评估证实了其化学相关性。论文还强调了在生成前进行对齐、细粒度分层对齐以及联合优化对分子生成任务的显著益处。
7.2. 局限性与未来工作
- 数据稀缺性: 论文指出,在分子研究领域数据稀缺是一个常见挑战。尽管 Atomas 通过统一编码器在一定程度上缓解了这个问题,但它仍然依赖于一定量的标注数据进行训练。
- 细粒度标注的缺乏: 现有数据集中缺乏文本片段和分子子结构之间显式细粒度标注的难题,是 Atomas 提出自适应聚合模块的直接动机。虽然 Atomas 能够自动学习这种对应关系,但如果未来能有高质量的细粒度标注数据集,可能会进一步提升模型性能。
- OOD 泛化能力: 论文在附录中提到了对 OOD (Out-of-Distribution) 数据集的泛化能力进行了验证(PCdes 数据集上的检索任务),并声称 Atomas 表现出强大的泛化能力。然而,更全面的 OOD 评估(例如在不同化学空间或生物活性类型上的生成任务)仍有待进一步探索。
- 更复杂的分子结构和文本: 尽管论文通过实验证明了在复杂分子结构和技术性文本描述下的鲁棒性,但未来工作可以探索模型在处理极端复杂或罕见化学实体时的表现,以及与更专业的化学文本(如专利文本)的对齐。
- 更深入的模态融合: 尽管 Atomas 已经实现了深度的跨模态对齐,但仍可能探索其他更复杂的模态融合策略,例如结合 3D 分子结构信息,或者集成外部知识图谱以提供更丰富的语义上下文。
- 可控生成粒度: 论文展示了细粒度对齐对可控分子生成的益处,未来可以进一步研究如何更精确地控制生成过程,以满足特定化学性质或结构要求。
7.3. 个人启发与批判
- 细粒度对齐的重要性: 这篇论文最重要的启发在于强调了细粒度对齐在分子-文本跨模态学习中的关键作用。过去许多方法止步于全局对齐,但化学的本质在于其精微的结构和功能对应。Atomas 证明了捕捉这些“微小但关键”的细节(如立体异构体)对于提高分子理解和生成质量至关重要。这种思想不仅适用于分子领域,在其他需要精细语义对应的跨模态任务中也可能具有普适性。
- 无监督细粒度聚类: 面对缺乏细粒度标注的现实挑战,Atomas 提出的自适应聚合模块 (APM) 通过基于密度峰值的聚类方法,无监督地将低级词元聚合成语义单元,这是一个非常巧妙且实用的解决方案。它避免了昂贵的人工标注,使得模型能够从现有数据中自发学习层次化的知识,这对于许多专业领域的数据集构建都具有借鉴意义。
- 统一编码器的优势: 统一编码器的设计不仅简化了模型架构,更重要的是,它在数据稀缺场景下展现出的优越性令人印象深刻。通过强制两种模态共享同一编码空间,模型能够更有效地利用有限数据中的知识,减少过拟合风险。这对于生命科学等数据获取成本高昂的领域具有重要的指导价值。
- 联合优化的力量: 论文明确指出,生成任务与表征学习之间的联合优化能够相互促进。这与许多现有“先学习表征,再应用生成”的两阶段方法形成鲜明对比。这种端到端的联合训练范式能够让模型在学习对齐的同时,直接优化生成能力,确保了学习到的表征更适合生成任务。
- 潜在改进和未来思考:
-
动态层级调整: Atomas 固定了三个对齐层级。未来可以探索自适应地确定最佳对齐层级数量,或者让模型在不同输入下动态调整对齐的粒度。
-
更复杂的语义关系: 目前的对齐主要集中在结构和文本片段的对应。可以考虑融入更复杂的化学语义关系,例如反应条件、合成路径等,以实现更高级别的分子设计和理解。
-
多模态输入: 虽然本文专注于
SMILES和文本,但分子领域还包含 2D 图、3D 结构、蛋白质序列等多种模态。如何将 Atomas 的层次对齐思想扩展到更多模态的融合,是值得探索的方向。 -
解释性: 尽管论文提供了可视化来展示聚合过程,但对于更复杂的生成结果,如何提供更强的解释性,例如哪些文本片段触发了哪些分子结构的变化,将有助于人类专家更好地理解和信任模型。
-
计算成本: 尽管作者声称分层对齐的额外计算成本很低,但在超大规模模型和数据集上,如何进一步优化效率仍然是实际应用中需要考虑的问题。
总的来说,Atomas 为分子-文本跨模态学习提供了一个新颖且高效的解决方案,特别是在细粒度对齐和生成任务方面取得了显著突破,为未来的药物发现和材料科学研究开辟了新的途径。
-
相似论文推荐
基于向量语义检索推荐的相关论文。