论文状态：已完成

Fine-tuning is Not Enough: Rethinking Evaluation in Molecular Self-Supervised Learning

发表：2025/10/08

分子自监督学习评估框架 (1)分子图神经网络预训练 (1)线性探测器评估方法 (1)预训练收益分析 (1)微调遗忘现象研究 (1)

价格：0.100000

已有 8 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

该研究指出分子自监督学习（SSL）现有评估方法（仅依赖微调）不足以衡量模型泛化能力。为此，论文提出了一个多视角评估框架，通过线性探测评估表征质量、量化预训练增益、分析微调过程中的遗忘现象以及探索模型可扩展性。出乎意料的是，实验发现部分模型在线性探测中预训练增益较低甚至为负；图神经网络模型在微调中参数变化显著；且大多数模型并未从大规模预训练数据中获得显著收益，揭示了当前分子SSL评估的局限与挑战。

摘要

000 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 Under review as a conference paper at ICLR 2026 F INE - TUNING IS N OT E NOUGH : R ETHINKING E VALUA - TION IN M OLECULAR S ELF -S UPERVISED L EARNING Anonymous authors Paper under double-blind review A BSTRACT Self-Supervised Learning (SSL) has shown great success in language and vision by using pretext tasks to learn representations without manual labels. Motivated by this, SSL has also emerged as a promising methodology in the molecular domain, which has unique challenges such as high sensitivity to subtle structural changes and scaffold splits, thereby requiring strong generalization ability. However, existing SSL-based approaches have been predominantly evaluated by naïve fine-tuning performance. For a more diagnostic analysis of generalizability beyond fine- tuning, we introduce a multi-perspective evaluation framework for molecular SSL under a unified experimental setting, varying only the pretraining strategies. We assess the quality of lear

思维导图

论文精读

中文精读约 22 分钟读完 · 11,402 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): Fine-tuning is Not Enough: Rethinking Evaluation in Molecular Self-Supervised Learning (微调是不够的：反思分子自监督学习中的评估方法)
作者 (Authors): Anonymous authors (匿名作者)。由于论文处于双盲评审 (double-blind review) 状态，作者信息未公开。
发表期刊/会议 (Journal/Conference): 论文提交至 OpenReview 平台，通常用于顶级会议（如 ICLR, NeurIPS 等）的评审。根据链接格式，这很可能是提交给 ICLR (International Conference on Learning Representations) 的一篇论文。ICLR 是深度学习领域的顶级会议之一，以其高质量和前沿性著称。
发表年份 (Publication Year): 论文提交时间戳显示为 2023 年，通常对应 2024 年的会议。
摘要 (Abstract): 自监督学习 (SSL) 在语言和视觉领域取得了巨大成功，并被引入到分子领域。分子领域面临独特的挑战，如对微小结构变化的高敏感性和对支架划分 (scaffold splits) 的泛化要求。然而，现有的分子 SSL 方法主要通过简单的微调性能进行评估。为了对泛化能力进行更具诊断性的分析，本文提出了一个多视角的评估框架。该框架在统一的实验设置下，仅改变预训练策略，通过以下四个维度进行评估：1) 通过对冻结编码器进行线性探测 (linear probing) 来评估表征质量；2) 通过与随机初始化对比来衡量预训练增益 (Pretrain Gain)；3) 量化微调过程中的遗忘现象；4) 探索模型的可扩展性。实验结果令人惊讶地发现，一些模型在线性探测中表现出很低甚至负的预训练增益；基于图神经网络的模型经历了显著的参数变化；大多数模型从更大的预训练数据集中获益甚微。这些重新评估为当前分子 SSL 的现状和挑战提供了新的见解。
原文链接 (Source Link):
- 官方页面: https://openreview.net/forum?id=PNsYrA6CW2
- PDF 链接: https://openreview.net/pdf?id=PNsYrA6CW2
- 发布状态: 论文处于匿名评审阶段（预印本状态）。

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题： 在分子自监督学习 (SSL) 领域，研究者普遍使用下游任务的微调 (Fine-tuning) 性能作为评估模型好坏的“黄金标准”。然而，这种单一的评估方法可能具有误导性，无法真实反映预训练模型学习到的表征 (representations) 的内在质量和泛化能力。
- 重要性与挑战： 分子性质预测任务对模型的泛化能力要求极高。首先，分子的生物活性或化学性质对微小的结构变化（如一个原子或化学键的改变）非常敏感。其次，为了评估真正的泛化能力，学术界广泛采用 scaffold splitting 的方式划分数据集，确保训练集和测试集的分子核心结构不同，这比随机划分更具挑战性。现有的评估方法（即微调）会更新所有模型参数，这使得我们无法区分最终性能的提升是源于预训练表征的质量，还是仅仅因为模型在下游数据上被“重新训练”得很好。此外，不同研究的实验设置（如模型大小、数据集规模、预测头结构）各不相同，导致无法进行公平比较。
- 切入点与创新思路： 本文的创新点不在于提出一个新的 SSL 模型，而在于提出一个新的、更全面的评估框架。作者认为，为了真正理解分子 SSL 的效果，必须超越微调，从多个维度系统地剖析预训练模型。他们建立了一个统一的实验平台，控制所有非预训练相关的变量，然后设计了一套多视角评估指标来“拷问”现有的 SSL 模型。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 主要贡献：
  1. 统一的实验设置： 建立了一个公平的比较平台，标准化了模型隐藏维度、下游任务预测头和数据集等变量，使得比较的焦点完全集中在不同的预训练策略上。
  2. 多视角评估框架： 提出了一个包含四个核心维度的新评估框架：
    - 线性探测 (Linear Probing): 评估预训练表征的内在质量。
    - 预训练增益 (Pretrain Gain): 量化预训练相比于随机初始化的真实收益。
    - 参数偏移 (Parameter Shift): 衡量微调过程中的“灾难性遗忘”程度。
    - 可扩展性 (Scalability): 探究模型性能是否随预训练数据量的增加而提升。
- 关键发现：
  1. 微调性能具有欺骗性： 微调性能最高的模型（如 KANO）在其他指标上（如预训练增益和可扩展性）表现平平，说明高微调性能不等于高质量的预训练。
  2. 预训练并非总是有效： 许多模型在线性探测中的 Pretrain Gain 很低，甚至为负，意味着在不调整编码器的情况下，预训练的表征有时还不如随机初始化的表征。
  3. GNN 模型存在严重遗忘问题： 基于图神经网络 (GNN) 的模型在微调时参数变化巨大，表明它们为了适应下游任务而大量遗忘了预训练阶段学到的知识。
  4. 模型普遍缺乏可扩展性： 与自然语言处理和计算机视觉领域不同，大多数分子 SSL 模型性能并没有随着预训练数据集的增大而显著提升，呈现出“扁平”的趋势。

基础概念 (Foundational Concepts):
- 自监督学习 (Self-Supervised Learning, SSL): 一种机器学习范式，它不依赖于人工标注的标签，而是通过设计“借口任务”(pretext task) 从大规模无标签数据中自动生成监督信号来学习数据本身的内在表征。例如，在图像中随机遮挡一部分，让模型去预测被遮挡的内容。
- 预训练-下游 (Pretrain-Downstream) 范式: 这是 SSL 的典型应用流程。
  1. 预训练 (Pretraining): 在大规模无标签数据集上，使用 SSL 的 pretext task 训练一个深度学习模型（通常称为编码器 Encoder）。这个过程旨在让模型学习到通用的、可迁移的知识。
  2. 下游任务 (Downstream Task): 将预训练好的编码器应用于具体的、有标签的任务（如分子毒性预测）。通常会在编码器之上增加一个简单的预测头 (Prediction Head)，然后用少量标签数据进行训练。
- 微调 (Fine-tuning): 在下游任务训练阶段，同时更新预训练编码器和新加的预测头的所有参数。这种方式灵活度高，但可能导致预训练学到的通用知识被遗忘，这个现象被称为“灾难性遗忘”(catastrophic forgetting)。
- 线性探测 (Linear Probing): 一种更严格的评估预训练表征质量的方法。在下游任务训练阶段，冻结 (freeze) 预训练编码器的参数，只训练新加的预测头（通常是一个线性层）。如果线性探测性能好，说明预训练的表征本身就具有很强的区分能力，是高质量的。
- 分子表征方式：
  - SMILES (Simplified Molecular-Input Line-Entry System): 一种用 ASCII 字符串来表示分子结构的文本格式。例如，水的 SMILES 是 O。这种序列化的表示方法使得可以直接应用自然语言处理中的 Transformer 模型。
  - 分子图 (Molecular Graph): 将分子表示为一个图，其中原子是节点 (nodes)，化学键是边 (edges)。这种表示方法更自然地捕捉了分子的拓扑结构，通常使用图神经网络 (GNN) 进行处理。
- 图神经网络 (Graph Neural Network, GNN): 一类专门处理图结构数据的深度学习模型。其核心思想是消息传递 (message passing)，即每个节点通过聚合其邻居节点的信息来更新自身的表示。
- Transformer: 一种基于自注意力机制 (self-attention mechanism) 的深度学习模型，最初在自然语言处理领域取得巨大成功。它能有效捕捉序列数据中的长距离依赖关系。
- 随机划分 vs. 支架划分 (Random Split vs. Scaffold Split):
  - 随机划分: 简单地将数据集随机分成训练、验证和测试集。在分子领域，这可能导致训练集和测试集中存在结构非常相似的分子，从而高估模型的泛化能力。
  - 支架划分: 根据分子的核心化学结构（即“支架”）对分子进行聚类，然后将不同的支架类别分配到不同的数据集中。这确保了模型在测试时会遇到训练阶段未见过的核心结构，是评估分子模型泛化能力更可靠的方法。
前人工作 (Previous Works): 论文将现有的分子 SSL 方法按其 pretext task 分为四类：
1. 生成式 (Generation-based): 类似 BERT 的掩码语言模型，通过重建分子数据中被遮蔽的部分（如原子、化学键或 SMILES 中的 token）来学习。
  - AttributeMask: 预测被掩码的原子属性。
  - EdgePred: 预测图中是否存在边（即化学键）。
  - ChemBERTa: 在分子的 SMILES 字符串表示上进行掩码 token 预测。
2. 辅助属性预测式 (Auxiliary property-based): 预测分子的某些固有化学或结构属性，如原子度数、芳香性等。
  - ContextPred: 预测一个子图（邻域）和一个上下文图是否属于同一个中心节点，通过负采样进行分类学习。
3. 对比式 (Contrast-based): 通过数据增强生成一个分子的多个“视图”(view)，然后让模型学习拉近同一分子不同视图的表征，推远不同分子视图的表征。
  - GraphCL: 通过对节点和边进行掩码来生成图的增强视图。
  - GraphLoG: 在局部实例和它们的聚类原型之间进行对比学习。
  - KANO: 结合知识图谱中的原子信息进行图增强，并引入提示 (prompt) 机制来缩小预训练和下游任务之间的差距。
4. 混合式 (Hybrid): 结合多种 pretext task。
  - GROVER: 结合了生成式任务（子图掩码）和辅助属性预测任务（化学基序预测）。
技术演进 (Technological Evolution): 分子 SSL 的发展深受 NLP 和 CV 领域 SSL 成功的启发，将掩码、对比学习等思想迁移到了分子图或 SMILES 序列上。早期的工作主要集中在设计新颖的 pretext task，并展示其在下游任务微调上的优越性。本文的工作标志着该领域开始进入一个更成熟的反思阶段，即从“提出新模型”转向“如何科学地评估模型”，强调了建立公平比较基准和深度诊断分析的重要性。
差异化分析 (Differentiation): 本文与之前所有工作的核心区别在于，它不提出新模型，而是提出一套新的评估体系。之前的工作各自为战，在不同的数据集、模型大小和评估设置下报告微调性能，形成了“苹果和橘子”无法比较的局面。本文则通过统一实验环境和引入线性探测、预训练增益、参数偏移等新颖的诊断工具，对现有方法进行了一次系统性的“横向评测”，揭示了仅依赖微调评估的局限性。

4. 方法论 (Methodology - Core Technology & Implementation Details)

本文的核心贡献是其提出的多视角评估框架。该框架旨在从不同角度深入剖析分子 SSL 模型的泛化能力。其设计如下图所示：

该图像是一个图表，展示了基于ZINC15数据集的不同训练和评估流程比较。图中区分了Fine-tuning和Linear Probing两种评估方式，分别用火焰图标表示训练状态，用雪花图标表示参数冻结状态。通过比较预训练编码器与随机初始化编码器在两种方式下的表现，定义了“Pretrain Gain”和“Performance Gap”指标，用于衡量预训练效果和模型性能差距。

方法原理 (Methodology Principles): 该框架的核心思想是：一个好的预训练模型应该学习到通用且鲁棒的分子表征。这种表征的质量不应仅仅通过能够被微调到多高的性能来衡量，还应体现在其本身的线性可分性、相对于从零开始训练的优势、在微调过程中的稳定性和随数据增长的可扩展性上。
方法步骤与流程 (Steps & Procedures): 框架包含四个主要的评估维度：

1. 通过线性探测评估表征质量 (Quality of Learned Representations via Linear Probing)
- 目的： 评估预训练编码器产生的表征本身的质量，剥离微调过程中编码器参数更新带来的影响。
- 流程： 将预训练好的编码器参数冻结，在其后连接一个（或多个）线性层作为预测头。然后，仅使用下游任务的有标签数据来训练这个预测头。
- 解读： 如果在线性探测下依然能取得很高的性能，说明预训练表征已经很好地捕捉了任务相关的特征，具有很强的线性可分性，是高质量的通用表征。
2. 通过预训练增益衡量预训练的贡献 (Pretrain Gain Against Random Initialization)
- 目的： 定量地衡量预训练到底带来了多大的好处。
- 流程： 为每个模型设置一个对照组：使用完全相同的模型架构和下游任务训练设置，但编码器的初始权重是随机初始化的，而非加载预训练权重。Pretrain Gain 通过比较预训练模型和随机初始化模型的最终性能来计算。
- 解读： 一个正的 Pretrain Gain 表明预训练是有效的。如果增益很小甚至为负，则说明预训练在这个设置下没有提供帮助，甚至起到了反作用。
3. 通过参数偏移量化遗忘 (Quantifying Forgetting Through Parameter Shift)
- 目的： 衡量在微调过程中，预训练编码器的参数发生了多大程度的改变。这个改变可以被视为对预训练知识的“遗忘”。
- 流程： 记录微调前的编码器参数 $\theta_{before}$ 和微调后的编码器参数 $\theta_{after}$ ，然后计算它们之间的 L2 距离。
- 解读： 一个较小的参数偏移值是理想的，它表明预训练的表征已经与下游任务很好地对齐，只需微小的调整即可。一个巨大的参数偏移值则意味着编码器为了适应新任务而发生了剧烈变化，大量预训练知识可能已被遗忘。
4. 评估可扩展性 (Scalability in Molecular SSL)
- 目的： 探究 SSL 模型的性能是否像在 NLP 和 CV 领域那样，随着预训练数据量的增加而持续提升。
- 流程： 使用不同规模的预训练数据集（从 2 万到 200 万个分子）来训练每个模型，然后在固定的下游任务上评估它们的性能。
- 解读： 一个理想的可扩展模型应该在性能-数据量曲线上呈现出持续上升的趋势。如果曲线非常平坦，则说明该模型无法有效利用更多的数据，可扩展性差。
数学公式与关键细节 (Mathematical Formulas & Key Details):
- 预训练增益 (Pretrain Gain): $\mathrm { Pretrain Gain } = \frac { \mathrm { Score } _ { \mathrm { pretrain } } - \mathrm { Score } _ { \mathrm { random } } } { \mathrm { Score } _ { \mathrm { random } } } \times 100$
  - 符号解释:
    - $Score_{pretrain}$ : 使用预训练权重的模型在下游任务上的性能得分（如 ROC-AUC）。
    - $Score_{random}$ : 使用随机初始化权重的模型在下游任务上的性能得分。这个公式计算的是预训练模型相对于随机初始化基线的性能相对提升百分比。
- 参数偏移 (Parameter Shift): $\Delta _ { \mathrm { param } } = \sum _ { i = 1 } ^ { N } { { { \left\| { \theta _ { i } ^ { \mathrm { before } } - \theta _ { i } ^ { \mathrm { after } } } \right\| } ^ { 2 } } }$
  - 符号解释:
    - $\theta_{before}$ : 微调前编码器的参数。
    - $\theta_{after}$ : 微调后编码器的参数。
    - $\|\cdot\|^2$ : L2 范数的平方，即向量各元素平方和。
    - $N$ : 模型的总层数或参数块数。这个公式计算的是微调前后编码器参数向量的欧几里得距离的平方，衡量了参数空间中的总位移。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):

预训练数据集: ZINC15 数据集，一个包含大量商业可购买化合物的免费数据库。实验中使用了其不同规模的子集，从未标记的 2.5 万 (0.025M) 到 200 万 (2M) 个分子不等。
下游任务数据集: 使用了 MoleculeNet 基准测试中的六个分类数据集。这些数据集涵盖了药物发现中的多种重要任务，如预测生物活性、血脑屏障通透性、毒性等。所有数据集均采用支架划分。
- BACE: 预测β-分泌酶1抑制剂。
- BBBP: 预测分子是否能穿过血脑屏障。
- ClinTox: 预测药物是否因毒性导致临床试验失败。
- Tox21: 预测化合物对 12 种不同生物通路的毒性效应。
- ToxCast: 包含超过 600 种毒性测试的详细数据。
- SIDER: 预测药物的副作用。

数据集特征总结 (转录自原文 Table 3):

DATASET	# TASKS	# GRAPHS	# Atoms (Avg)	# BONDS (Avg)
BACE	1	1,513	34.1	36.9
BBBP	1	2,039	24.1	26.0
CLINToX	2	1,478	26.3	28.1
Tox21	12	7,831	18.6	19.3
SIDER	27	1,478	34.3	36.1
ToxCaST	617	8,575	18.8	19.3

注意：此表格为根据原文数据转录，非原始图像。

评估指标 (Evaluation Metrics):
- ROC-AUC (Receiver Operating Characteristic - Area Under Curve):
  1. 概念定义: ROC-AUC，即受试者工作特征曲线下面积，是评估二分类模型性能的一种重要指标。ROC 曲线的横坐标是假阳性率 (False Positive Rate, FPR)，纵坐标是真阳性率 (True Positive Rate, TPR)。AUC 的值介于 0 到 1 之间，值越接近 1，表示模型区分正负样本的能力越强。AUC 为 0.5 意味着模型的表现等同于随机猜测。该指标的一个主要优点是对类别不平衡问题不敏感。
  2. 数学公式: TPR 和 FPR 的定义如下： $\mathrm{TPR} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FN}}$ $\mathrm{FPR} = \frac{\mathrm{FP}}{\mathrm{FP} + \mathrm{TN}}$ AUC 是 ROC 曲线下的积分面积。对于多标签或多任务分类问题（如 Tox21, SIDER），通常计算每个任务的 ROC-AUC，然后取平均值。
  3. 符号解释:
    - TP (True Positive): 真正例，实际为正，预测也为正。
    - FN (False Negative): 假反例，实际为正，预测为负。
    - FP (False Positive): 假正例，实际为负，预测为正。
    - TN (True Negative): 真反例，实际为负，预测也为负。
对比基线 (Baselines):
- 本文比较了 8 种主流的分子 SSL 方法，涵盖了不同的预训练策略和模型架构。这些模型包括：
  - 混合式: GROVER
  - 生成式/辅助属性: AttributeMask, ContextPred, EdgePred, ChemBERTa
  - 对比式: GraphLoG, GraphCL, KANO
- 对于每种方法，都设置了一个随机初始化的对照组，以计算 Pretrain Gain。

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (泛化能力与预训练增益):
- 微调 vs. 线性探测性能 (Table 2):
  - 微调 (Fine-tuning, FT): KANO (80.45) 和 GROVER (80.20) 的平均 ROC-AUC 最高，符合人们对它们的普遍认知。
  - 线性探测 (Linear Probing, LP): GROVER (77.02) 排名第一，而 KANO (73.51) 降至第二。这表明 GROVER 学习到的表征本身更具通用性，无需大幅调整即可适应新任务。
  - 性能差距 (Performance Gap):
    
    该图像为条形图，比较了不同分子自监督学习模型在ROC-AUC指标上的表现。蓝色条表示线性探测（Linear probing）性能，红色条表示微调（Fine-tuning）性能，灰色区域代表两者之间的性能差距（Performance Gap）。图中显示各模型微调均优于线性探测，且性能差距在不同模型间差异显著。
    
    如上图所示 (Figure 6 in Appendix)，GROVER、GraphLoG 和 GraphCL 的性能差距较小（<5），说明它们的预训练表征质量较高。而 ContextPred 和 ChemBERTa 的差距巨大（>10），表明它们的强大微调性能在很大程度上依赖于对编码器的重新训练，其原始表征的通用性较差。
- 预训练增益 (Pretrain Gain):
  
  该图像为图表，展示了不同自监督预训练方法在分子任务中微调（Fine-tuning）与线性探测（Linear Probing）两种评估方式下的ROC-AUC表现对比。横轴为ROC-AUC分数，蓝色代表随机初始化基线，红色为预训练后表现，橙色和绿色分别表示性能提升（Positive Gain）和下降（Negative Gain）。图(A)显示多数方法微调后有明显提升，图(B)则显示部分方法在线性探测时性能反而下降，反映预训练效果在不同评估方式下存在显著差异。
  
  上图 (Figure 2) 展示了惊人的结果：
  - 微调下的增益 (A): 大多数模型显示出正增益，符合预期。但值得注意的是，微调性能最高的 KANO 的增益几乎为零 (0.34)，这意味着其高性能可能并非来自预训练，而是其强大的模型架构本身。这颠覆了“微调性能高 = 预训练好”的传统观念。
  - 线性探测下的增益 (B): 结果更加严峻。大多数模型的增益都远小于微调时的增益。EdgePred、KANO 和 ChemBERTa 甚至出现了显著的负增益，意味着预训练的表征反而不如随机初始化的表征！这强烈表明，某些预训练任务可能学习到了对下游任务有害的偏见。
遗忘与参数偏移分析:

该图像为图表，展示了不同分子自监督学习预训练方法在多个下游任务（如BBBP、BACE、ClinTot、Tox21、ToxCast、SIDER）及平均表现上的性能对比。图中以气泡大小和颜色深浅表示性能值，Tox21和ToxCast任务中多数方法表现较好，部分方法在平均指标上表现明显优于其他。

上图 (Figure 3) 可视化了微调过程中的参数偏移量，颜色越深、圆圈越大代表偏移越大。
- 架构差异: 基于 Transformer 的 GROVER 和 ChemBERTa 参数偏移量相对较小，表明它们的表征较为通用，微调时改动不大。
- GNN 的不稳定性: 绝大多数基于 GNN 的模型 (AttributeMask, ContextPred, EdgePred 等) 都表现出巨大的参数偏移，尤其是在任务更复杂、数据量更大的 Tox21 和 ToxCast 数据集上。这说明它们的预训练表征与下游任务之间存在较大差距 (discrepancy)，需要剧烈调整参数才能适应，从而导致严重的知识遗忘。
- KANO 是一个例外，尽管是 GNN 模型，但其参数偏移相对较小，作者推测这得益于其引入知识图谱和提示机制的设计，缓解了预训练与下游任务的差距。
  
  该图像为二维散点图，横轴表示“Performance Gap”，纵轴表示“Parameter Shift”。图中展示了多个分子自监督学习模型在这两个指标上的表现，带有一条斜率为1的虚线。大部分模型点分布在虚线上下，显示模型性能差距与参数变化之间的关系，且不同预训练策略模型表现出差异性的参数变动与性能改进。
上图 (Figure 7 in Appendix) 进一步验证了参数偏移和性能差距之间存在正相关关系。参数偏移越大的模型，其微调和线性探测的性能差距也越大，这从另一个角度印证了参数偏移是衡量表征通用性的一个有效间接指标。
可扩展性分析:

该图像为图表，展示了不同分子自监督学习模型在两种评估方式下随预训练数据集规模变化的Pretrain Gain。左图(A)为微调（Fine-tuning）结果，多数模型呈现正向且相对稳定的增益；右图(B)为线性探测（Linear Probing）结果，模型表现更为分散，部分模型甚至出现负增益，显示预训练效果在不同评估策略下差异显著。

上图 (Figure 4) 展示了模型性能随预训练数据集规模（从 0.02M 到 2.0M）的变化趋势。
- 普遍缺乏可扩展性: 无论是在微调 (A) 还是线性探测 (B) 中，绝大多数模型的性能曲线都非常平坦。这意味着简单地增加预训练数据量并不能带来显著的性能提升。
- 与 NLP/CV 的差异: 这与 NLP 和 CV 领域中“模型性能随数据量和参数量增长而稳定提升”的“缩放法则”(scaling law) 形成鲜明对比。作者推测，这可能是因为现有的基于结构的 pretext task 不足以捕捉对下游任务至关重要的化学性质，导致模型无法从更多样化的结构数据中学习到更深层次的化学知识。
综合评估:

该图像为图表，是一个雷达图，展示了不同分子自监督学习模型在多项指标上的表现，包括线性探测增益（Pretrain Gain LP）、微调增益（Pretrain Gain FT）、性能差距（Performance Gap(R)）、微调和线性探测的可扩展性（FT Scalability、LP Scalability）、参数变化（Parameter Shift(R)）以及线性探测（LP）和微调（FT）性能。图中七个模型（如GROVER、AttributeMask等）在各指标的相对表现以不同颜色区域展示，反映模型在预训练效果、泛化能力和参数稳定性方面的差异。

上图 (Figure 5) 的雷达图对所有模型的八个指标进行了综合展示（面积越大越好）。
- 没有全能冠军: 没有任何一个模型能在所有指标上都表现出色，这凸显了当前分子 SSL 方法的局限性。
- 综合最佳: GROVER 表现最为均衡和强大，在除 Pretrain Gain FT 和 FT Scalability 外的大多数指标上都处于领先地位。
- 微调的误导性: KANO 虽然在传统微调指标 (FT) 上拔得头筹，但在 Pretrain Gain 和 Scalability 方面表现不佳，综合排名仅为第四。这再次证明了单一微调评估的片面性。
- 架构与策略总结: 整体来看，基于 Transformer 的架构 (GROVER, ChemBERTa) 表现更优。在 GNN 模型中，先进的对比学习策略 (GraphLoG, KANO) 似乎比基础的对比学习 (GraphCL) 或生成式/辅助属性预测 (AttributeMask) 更有效。

7. 总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary): 本文有力地论证了在分子自监督学习领域，仅依赖微调性能进行评估是不足够且具有误导性的。通过引入一个包含线性探测、预训练增益、参数偏移和可扩展性分析的多视角评估框架，作者揭示了当前主流分子 SSL 方法的几个关键问题：1) 高微调性能不等于高质量的预训练表征；2) 许多 GNN 模型在微调中存在严重的知识遗忘问题；3) 大多数模型缺乏利用大规模数据的能力。研究结论呼吁学术界应采用更全面的评估框架，超越对微调精度的单一追求，以推动分子 SSL 领域更健康地发展。
局限性与未来工作 (Limitations & Future Work):
- 作者提及的未来方向: 作者暗示未来的研究需要设计出能够缩小预训练和下游任务差距的新型 pretext task，例如结合更多化学知识，以解决可扩展性差和知识遗忘的问题。
- 潜在的局限性:
  1. 评估任务的局限性: 实验主要集中在分类任务上，尽管附录中补充了回归任务，但可能仍无法完全覆盖分子科学中更多样化的任务类型（如生成、对接等）。
  2. 模型规模的局限性: 可扩展性分析仅限于数据集大小，未探讨模型参数规模的影响，而“缩放法则”通常是数据和模型规模共同作用的结果。
  3. 统一设置的利弊: 虽然统一的超参数设置保证了公平性，但也可能对某些模型不公平，因为每个模型的最优超参数可能不同。
个人启发与批判 (Personal Insights & Critique):
- 启发:
  1. 评估方法论的重要性: 这篇论文是一篇典范性的“元研究”(meta-research)，它提醒我们，在一个领域快速发展时，建立科学、严谨、全面的评估标准与提出新模型同样重要，甚至更为关键。
  2. Pretrain Gain 的价值: Pretrain Gain 是一个非常简单但极其有效的诊断工具。通过与随机初始化基线进行比较，它可以帮助我们剥离模型架构本身的性能，真正聚焦于预训练所带来的价值。这个思想可以被广泛迁移到其他领域的 SSL 研究中。
  3. 对分子 SSL 的深刻洞察: 论文的发现为分子 SSL 的未来指明了方向。单纯在图结构上做文章（如掩码节点/边）可能已经达到了瓶颈。未来的突破可能需要更深入地融合化学领域的先验知识，例如通过知识图谱、量子化学计算或更复杂的化学信息来设计 pretext task，从而学习到真正与分子功能相关的化学语义表征。
- 批判性思考:
  1. 对“负增益”的深入探究不足: 论文观察到线性探测中的负增益现象，并归因于预训练学习到了有害的偏见，但未能深入剖析这些偏见具体是什么。未来的工作可以尝试可视化或分析这些预训练表征，以理解为什么它们会比随机表征更差。
  2. 解决方案的缺失: 作为一篇诊断和批判性的论文，它成功地指出了问题，但并未提供具体的解决方案。虽然这超出了本文的范围，但读者会自然地期待后续研究能针对这些发现提出改进的模型或预训练策略。例如，设计能够最小化参数偏移的正则化项，或者开发对数据规模更敏感的 pretext task。
    
    总之，这篇论文通过其严谨、系统、多维度的评估框架，对分子自监督学习领域进行了一次深刻的“体检”，揭示了隐藏在光鲜的微调性能下的深层问题，为该领域的未来发展提供了宝贵的见解和警示。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。