论文状态：已完成

GraphBench: Next-generation graph learning benchmarking

发表：2025/12/04

图神经网络 (2)图学习基准化 (1)消息传递神经网络 (1)标准化评估协议 (1)生成式图学习 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了GraphBench，一个全面的图学习基准测试套件，旨在解决现有基准测试分散的问题，促进可复现性。GraphBench涵盖节点、边、图和生成式任务，提供标准化评估协议、数据集划分和超参数调优框架，且对消息传递神经网络和图Transformer模型进行了基准测试，建立了基准性能。

摘要

Machine learning on graphs has recently achieved impressive progress in various domains, including molecular property prediction and chip design. However, benchmarking practices remain fragmented, often relying on narrow, task-specific datasets and inconsistent evaluation protocols, which hampers reproducibility and broader progress. To address this, we introduce GraphBench, a comprehensive benchmarking suite that spans diverse domains and prediction tasks, including node-level, edge-level, graph-level, and generative settings. GraphBench provides standardized evaluation protocols -- with consistent dataset splits and performance metrics that account for out-of-distribution generalization -- as well as a unified hyperparameter tuning framework. Additionally, we benchmark GraphBench using message-passing neural networks and graph transformer models, providing principled baselines and establishing a reference performance. See www.graphbench.io for further details.

思维导图

论文精读

中文精读约 41 分钟读完 · 31,616 字

1. 论文基本信息

1.1. 标题

GraphBench: Next-generation graph learning benchmarking

1.2. 作者

Timo Stoll, Chendi Qian, Ben Finkelshtein, Ali Parviz, Darius Weber, Fabrizio Frasca, Hadar Shavit, Antoine Siraudin, Arman Mielke, Marie Anastacio, Erik Müller, Maya Bechler-Speicher, Michael Bronstein, Mikhail Galkin, Holger Hoos, Mathias Niepert, Bryan Perozzi, Jan Tönshoff, and Christopher Morris。

1.3. 隶属机构

主要作者来自 RWTH Aachen University、University of Oxford、Mila Quebec AI Institute、Technion - Israel Institute of Technology、ETAS Research、University of Stuttgart、Meta、AITHYRA、Google Research 和 Microsoft Research 等学术界和工业界知名机构。

1.4. 发表年份

2025年（根据 Published at (UTC) 信息）

1.5. 摘要

图上的机器学习 (Machine Learning on Graphs) 近期在分子性质预测 (molecular property prediction) 和芯片设计 (chip design) 等多个领域取得了令人瞩目的进展。然而，当前的基准测试实践却支离破碎，通常依赖于狭窄的、任务特定的数据集和不一致的评估协议，这阻碍了可复现性 (reproducibility) 和更广泛的进展。为解决这一问题，本文引入了 GraphBench，一个全面的基准测试套件，涵盖了包括节点级 (node-level)、边级 (edge-level)、图级 (graph-level) 和生成式 (generative) 设置在内的多样化领域和预测任务。GraphBench 提供了标准化的评估协议——包括一致的数据集划分 (dataset splits) 和考虑了 分布外泛化 (out-of-distribution generalization) 的性能指标——以及一个统一的超参数调优 (hyperparameter tuning) 框架。此外，作者还使用 消息传递神经网络 (Message-Passing Neural Networks, MPNNs) 和 图Transformer (Graph Transformer) 模型对 GraphBench 进行了基准测试，提供了有原则的基线 (principled baselines) 并建立了参考性能。更多详情可访问 www.graphbench.io。

1.6. 原文链接

预印本链接: https://arxiv.org/abs/2512.04475
PDF 链接: https://arxiv.org/pdf/2512.04475v1.pdf
发布状态: 预印本 (ArXiv preprint)，计划于 2025 年 12 月 4 日发布。

2. 整体概括

2.1. 研究背景与动机

图机器学习 (Graph Machine Learning, GML)，特别是使用 图神经网络 (Graph Neural Networks, GNNs) 如 消息传递神经网络 (MPNNs) 和 图Transformer (GTs)，已成为现代机器学习研究的基石，并在药物设计、推荐系统、芯片设计和组合优化等领域展现出广泛的应用前景。

然而，该领域的基准测试实践存在严重碎片化 (fragmented)。现有的基准测试，如 TUDatasets 和 Open Graph Benchmark (OGB)，虽然推动了领域发展，但普遍存在以下局限性：

数据集狭窄且任务特定 (Narrow, task-specific datasets): 许多基准测试专注于特定领域（如 2D 分子图），忽视了更具影响力的实际应用（如关系型数据库、芯片设计、组合优化）。
评估协议不一致 (Inconsistent evaluation protocols): 缺乏标准化的评估方法，导致不同研究之间的结果难以比较，阻碍了研究的可复现性 (reproducibility) 和整体进展。
对 分布外泛化 (Out-of-Distribution, OOD generalization) 评估不足: 现有基准往往过度强调准确性，鼓励模型过拟合训练数据，而非培养泛化性强的模型。对于 OOD 泛化能力的评估非常有限。
计算资源需求高昂: 某些大型数据集（如 OGB）需要大量计算资源，对研究人员构成障碍。
图生成基准发展不足: 图生成任务的基准测试仍不完善，多依赖于实用价值存疑的 2D 分子数据集或合成数据。

这些限制严重阻碍了图学习领域的进步。论文旨在解决这些核心痛点，提供一个更全面、标准化、且面向实际应用的基准测试平台。

2.2. 核心贡献/主要发现

GraphBench 的主要贡献在于其作为一个“下一代”的基准测试套件，全面提升了图学习研究的评估标准：

多样化的任务和领域覆盖 (Diverse tasks and domains): GraphBench 涵盖了社交网络、芯片设计、组合优化、SAT 求解、天气预报等多个领域，并支持节点级、边级、图级预测以及图生成等多种任务类型。
标准化评估协议 (Standardized evaluation protocols): 提供了统一的数据集划分、领域特定且有意义的评估指标，并明确包含了对 OOD 泛化能力的测试，确保了评估的公平性和可复现性。
统一的超参数调优框架 (Unified hyperparameter tuning framework): 集成了自动化超参数调优功能，简化了模型优化过程，提高了研究效率和结果质量。
提供强有力的基线 (Principled baselines): 使用 MPNNs 和 图Transformer 等现代图学习模型对所有任务进行了基准测试，为后续研究提供了可靠的性能参考。
强调真实世界影响 (Real-world impact): 相较于以往基准，GraphBench 更侧重于具有实际应用价值和大规模特性的数据集，旨在推动图学习在工业界和新兴研究领域的发展。
软件和可访问性 (Software and accessibility): GraphBench 作为开源 Python 包发布，提供便捷的数据加载器、预定义的数据划分、以及现成的超参数调优脚本，极大地降低了使用门槛。

主要发现方面，论文通过基准测试揭示了当前方法面临的挑战，包括：处理时间序列分布偏移 (temporal distribution shifts)、在大规模图数据上训练的效率问题、以及捕获特定领域复杂结构的能力。结果也表明，虽然 GNNs 在某些任务上优于连接无关模型，但在许多复杂任务上，现有模型的 $R^2$ 和 Spearman 相关系数仍然较低，表明仍有很大的提升空间。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 GraphBench 及其所涵盖的任务和方法，读者需要了解以下基础概念：

图 (Graph): 一种由节点 (nodes) 和连接这些节点的边 (edges) 组成的数据结构。形式上，一个图 $G = (V, E)$ $G = (V, E)$ ，其中 $V$ $V$ 是节点的集合， $E$ $E$ 是边的集合。
- 有向图 (Directed Graph): 边具有方向性的图，如社交网络中的“关注”关系。
- 无向图 (Undirected Graph): 边没有方向性的图，如社交网络中的“朋友”关系。
- 节点特征 (Node Features): 描述节点属性的向量或数据。
- 边特征 (Edge Features): 描述边属性的向量或数据。
图神经网络 (Graph Neural Networks, GNNs): 一类专门处理图结构数据的深度学习模型。它们通过在图上聚合邻居信息来学习节点的表示 (representations)。
- 消息传递神经网络 (Message-Passing Neural Networks, MPNNs): 一种常见的 GNN 框架，通过迭代地聚合邻居节点的消息来更新节点状态。其核心思想是，每个节点从其邻居接收消息，然后结合自身状态进行更新。
- 图Transformer (Graph Transformers, GTs): 将 Transformer 架构应用于图数据，通常通过自注意力机制 (self-attention mechanism) 来捕捉节点之间的复杂关系，而不仅仅是局部邻居。
机器学习任务类型 (Machine Learning Task Types):
- 节点级预测 (Node-level Prediction): 预测图中每个节点的属性，如节点分类 (node classification) 或节点回归 (node regression)。
- 边级预测 (Edge-level Prediction): 预测图中边的属性或是否存在边，如链接预测 (link prediction) 或边分类 (edge classification)。
- 图级预测 (Graph-level Prediction): 预测整个图的属性，如图分类 (graph classification) 或图回归 (graph regression)。
- 图生成 (Graph Generation): 根据特定条件生成新的图结构。
分布外泛化 (Out-of-Distribution, OOD Generalization): 模型在训练数据分布之外的数据上的泛化能力。在 GraphBench 中，这通常通过时间划分或问题规模划分来实现，以测试模型对未见过数据特性的适应能力。
超参数调优 (Hyperparameter Tuning): 优化机器学习模型训练过程中非学习得到的参数（如学习率、网络层数、dropout 比率等）的过程，以提高模型性能。
PyTorch Geometric (PyG): 一个基于 PyTorch 的图神经网络库，提供了丰富的 GNN 模型实现、数据集加载器和工具。
SMAC3: 一个用于贝叶斯优化 (Bayesian Optimization) 和多保真度 (multi-fidelity) 优化的库，常用于自动化超参数调优。

3.2. 前人工作

GraphBench 的提出建立在现有图基准测试的经验和不足之上：

TUDatasets (Morris et al., 2020):
- 背景: 最早且广泛使用的图级任务数据集集合，涵盖了许多图级分类和回归任务。
- 局限性: 多数数据集规模较小，主要集中在分子图领域，缺乏统一的度量标准，限制了可比性。
Open Graph Benchmark (OGB) (Hu et al., 2020a) 及其扩展 (Hu et al., 2021):
- 背景: 提供了大规模的图数据集，旨在推动大规模图学习研究。
- 局限性: 仍然高度侧重于分子图，需要大量计算资源，且其在更广泛的实际应用中的相关性不明确。
Dwivedi et al. (2020) 和 Long-range Graph Benchmark (LRGB) (Dwivedi et al., 2022a):
- 背景: 旨在解决 GNN 在长距离依赖学习上的挑战。
- 局限性: 强调狭窄的预测范围、小规模数据和受限的模型大小，对 OOD 泛化评估不足。
图生成基准 (Benchmarks for graph generation):
- 背景: 旨在评估图生成模型的性能。
- 局限性: 发展不充分，常依赖于 2D 分子图（实用价值受质疑）或合成数据（适用性有限），未能解决生成大型或结构受限图的挑战。
近期工作:
- Coupette et al. (2025) 试图形式化数据集质量评估。
- GraphLand (Bazhenov et al., 2025) 扩展了节点级任务，但可扩展性和覆盖范围仍有待提升。
  
  这些前人工作在推动图学习领域发展的同时，也暴露出现有基准测试在多样性、标准化、泛化能力评估和实际应用相关性方面的不足，这正是 GraphBench 旨在弥补的空白。

3.3. 技术演进与差异化分析

图学习领域从早期的 图核 (Graph Kernels) 到后来的 图神经网络 (GNNs) 经历了显著演进。GNNs 的出现，特别是 MPNNs 框架，使得深度学习能够直接处理图结构数据，并在各种任务上取得了突破。随后，为了解决 MPNNs 在捕获长距离依赖和表达能力方面的局限性，图Transformer 应运而生，借鉴了自然语言处理领域的 Transformer 架构，通过自注意力机制增强了模型的表达能力。

GraphBench 的工作处于这一技术演进的最新阶段，它不仅将 MPNNs 和 图Transformer 作为基线模型进行测试，更重要的是，它通过以下方式与现有工作进行差异化分析：

从领域单一到多样化 (From Domain-Specific to Diverse): 现有基准如 OGB 集中于分子图，而 GraphBench 扩展到社交科学、硬件设计、组合优化、SAT 求解、天气预报等多个新颖且具有挑战性的领域，极大地拓宽了图学习的应用场景。
从碎片化到标准化 (From Fragmented to Standardized): GraphBench 强制推行统一的数据集划分、评估指标和超参数调优框架，解决了现有基准测试中评估协议不一致的问题，从而提高了研究结果的可比性和可复现性。
强调 OOD 泛化 (Emphasis on OOD Generalization): GraphBench 明确设计了时间或规模上的数据集划分，用于测试模型在训练分布之外的泛化能力，这对于开发更鲁棒、更具通用性的图基础模型至关重要，是现有基准普遍缺乏的。
关注真实世界影响 (Focus on Real-World Impact): 论文强调数据集和任务与实际应用的对齐，例如大规模芯片设计、天气预报等，旨在推动图学习在工业界和新兴领域的落地。
提供更全面的任务类型 (Comprehensive Task Types): 除了常见的节点/边/图级预测任务，GraphBench 还包含了图生成任务，并特别关注了在严格约束下（如芯片设计中的功能等效性）的生成挑战。

总而言之，GraphBench 并非提出新的模型或算法，而是通过构建一个更具挑战性、标准化和多样化的评估环境，旨在成为推动下一代图学习研究，特别是图基础模型发展的催化剂。

4. 方法论

4.1. 方法原理

GraphBench 的核心原理是通过提供一个统一的、多领域、多任务的基准测试套件，来解决现有图学习基准测试的碎片化和局限性。其设计理念围绕以下五个核心原则：

多样化的任务和领域 (Diverse tasks and domains): GraphBench 支持节点级、边级、图级预测以及生成任务。数据集横跨社交网络、芯片和模拟电路设计、算法性能预测、天气预报等不同领域。这种多样性使得模型能够在传统和新兴的图学习应用中得到评估。
真实世界影响 (Real-world impact): 与许多现有基准测试专注于小规模图或应用有限的领域不同，GraphBench 强调更具代表性的现代真实世界用例，如大规模芯片设计、天气预报和组合优化。通过超越以往基准中以引用网络和分子图为主的领域，GraphBench 提供了更符合行业和新兴研究需求的场景。
分布外泛化 (OOD generalization): GraphBench 中的多个数据集明确通过时间或问题规模进行划分，以测试模型超越训练分布的泛化能力。例如，社交网络基准使用过去数据预测未来交互，而电路基准则评估不同电路尺寸间的泛化能力。
有意义的评估 (Meaningful evaluation): GraphBench 提供评估划分、有意义的领域特定评估指标，以及最先进的超参数调优脚本。此外，它还为选定的数据集提供 OOD 泛化评估，重点关注规模泛化能力，为图基础模型铺平道路。
任务相关评估指标 (Task-relevant evaluation metric): GraphBench 提供针对每个任务定制的指标，以捕捉模型在真实世界中的表现。这些度量超越了均方误差 (mean-squared error) 和准确率 (accuracy) 等传统指标，因为这些指标可能无法准确反映在实际场景中的实用价值。

4.2. 核心方法详解

GraphBench 作为一个基准测试套件，其方法论主要体现在其统一的评估协议、多样化的数据集和自动化工具上。

4.2.1. 统一评估协议

GraphBench 为每个数据集提供了一个全面的基准测试协议，包括：

明确定义的任务 (Clearly defined task): 例如，节点、链接、图级别的分类/回归，或图生成。
现实且适合领域的数据划分策略 (Realistic and domain-appropriate data split strategy): 例如，社交网络使用时间划分，电子电路使用跨尺寸划分。
标准化输入特征和标签 (Standardized input features and labels): 确保模型间的一致性。
实现任务特定指标的评估脚本 (Evaluation scripts implementing task-specific metrics): 例如，均方根误差 (RMSE)、ROC-AUC、闭合差距 (closed gap) 等，并提供最先进的超参数调优脚本。

这种标准化设置使得研究人员能够在真实条件下比较方法，同时减少数据集整理和预处理的负担。

4.2.2. 软件接口和可访问性

GraphBench 以一个开源、用户友好的 Python 包 graphbench-lib 发布，旨在易于采用和扩展。它提供了简化的数据加载器和基于 PyTorch Geometric 的数据对象，为每个数据集预定义了训练、验证和测试划分，并提供了即用的最先进超参数调优脚本。其模块化设计允许从业者和研究人员快速原型开发、基准测试和部署新的图学习模型，同时遵循统一的评估协议。

示例代码 (Pseudocode for GraphBench usage): 以下伪代码展示了 GraphBench 的接口，用于加载数据集和进行下游任务：

import graphbench
# your torch model
model = # ... 
dataset_name = # name of the task or list of tasks 
pre_filter = # PyTorch Geometric filter matrix 
pre_transform = # PyTorch Geometric-like transform during loading
transform = # PyTorch Geometric-like transform at computation time

# Setting up the components of graphbench
Evaluator = graphbench.Evaluator(dataset_name) 
Optimizer = graphbench.Optimizer(optimization_args, training_method) 
Loader = graphbench.Loader(dataset_name, pre_filter, pre_transform, transform) 

# load a GraphBench dataset and get splits
dataset = Loader.load() 

# optimize your model
opt_model = Optimizer.optimize() 

# use graphbench evaluator with targets y_true and predictions y_pred
results = Evaluator.evaluate(y_true, y_pred)

符号解释:

graphbench: GraphBench 库的入口。
model: 待训练的 PyTorch 模型。
dataset_name: 任务名称或任务列表，用于指定要加载的数据集。
pre_filter: PyTorch Geometric 的过滤矩阵，在数据加载前对图进行过滤。
pre_transform: PyTorch Geometric 风格的变换，在数据加载时应用。
transform: PyTorch Geometric 风格的变换，在计算时应用。
Evaluator: GraphBench 提供的评估器，用于加载相应指标并评估模型性能。
Optimizer: GraphBench 提供的优化器，用于执行超参数优化。
Loader: GraphBench 提供的加载器，用于加载数据集。
dataset: 加载后的 GraphBench 数据集对象。
opt_model: 经过优化的模型。
y_true: 真实标注值。
y_pred: 模型预测值。
results: 评估结果。

4.2.3. 自动化超参数优化 (Automated Hyperparameter Optimization, HPO)

GraphBench 集成了自动化 HPO 功能，基于 SMAC3 库。SMAC3 利用多保真度调度 (multi-fidelity scheduling) 方法，在较低预算下评估大量配置，并淘汰表现不佳的配置。这对于训练成本高昂的图学习方法来说，能够节省计算资源。此外，SMAC3 使用代理模型 (surrogate model) 提出新的配置，从而从之前的经验中学习，进一步减少计算负担。

通过自动化 HPO，GraphBench 旨在：

简化新模型的调优过程。
提升模型性能。
增强实验的可复现性。

4.2.4. 基线模型架构 (Baseline Architectures)

论文采用了一种通用的编码器-处理器-解码器 (encoder-processor-decoder) 架构，以在所有任务上评估选定的基线模型。

1. 编码器 (Encoder):

为每个任务提供一个任务特定的编码器，用于从节点和边特征中提取固定维度 $d$ 的编码。
这些编码随后传递给处理器。
对于需要标记化输入的模型，提供节点级标记。
如果缺少节点或边特征，则使用可学习的维度为 $d$ 的向量代替。
对于 GT 基线，会添加一个 [CLS] 标记用于图级表示。

2. 处理器 (Processor):

处理器可以是以下四种基线模型之一：
- MLP (多层感知机)
- DeepSet
- GNN (通过 GIN 架构实现)
- GT (图 Transformer)
无论选择哪种基线，处理器都会按以下方式在每个层更新节点和图表示：

$X = \phi ( \mathsf { L a y e r N o r m } ( X ) , G )$ $X = X + { \mathsf { M L P } } ( \mathsf { L a y e r N o r m } ( X ) )$ 其中，MLP 层定义为： $\mathsf { F N N } ( x ) : = \sigma ( \mathsf { L a y e r N o r m } ( x ) W _ { 1 } ) W _ { 2 }$

符号解释:
- $X$ : 节点的表示矩阵。
- $\phi$ : 所选的基线模型（如 GT 或 GIN 层）。
- $\mathsf{LayerNorm}$ : 层归一化操作。
- $G$ : 图结构。
- $\mathsf{MLP}$ (或 $\mathsf{FNN}$ ): 一个两层的前馈神经网络。
- $\sigma$ : GELU 非线性激活函数。
- $W_1$ , $W_2$ : 权重矩阵。
- 图Transformer (GT) 架构:
  - 采用 Bechler-Speicher et al. (2025) 中描述的实现。
  - 大多数任务使用节点级标记化，将每个图节点视为 GT 的单个输入标记。
  - 对于边级任务，使用一种转换方式，允许在修改后的图 $G'$ 上使用边级标记，其中 $V(G') := \{(\nu, \nu) \mid \nu \in V(G)\} \cup E(G)$ ， E(G') := \{((u, \nu), (w, z)) \mid u=w \lor u=z \lor \nu=w \lor \nu=z\}。
  - 将 相对随机游走结构编码 (Relative Random Walk Structural Encodings, RWSE) (Dwivedi et al., 2022b) 和 局部位置编码 (Local Positional Encodings, LPE) (Müller & Morris, 2024) 作为节点位置编码添加到节点嵌入中。
  - GT 层使用偏置注意力 (biased attention) 计算多头缩放点积注意力： ${ \mathsf { A t t e n t i o n } } ( Q , K , V , B ) : = { \mathsf { s o f t m a x } } { \big ( } d ^ { - { \frac { 1 } { 2 } } } \cdot Q K ^ { T } + B { \big ) } V$ 其中 $Q, K, V \in \mathbb{R}^{L \times d}$ 是查询、键、值矩阵， $B \in \mathbb{R}^{L \times L}$ 是注意力偏置矩阵， $L$ 是标记数量， $d$ 是嵌入维度。
  - GT 层在实际中计算多个注意力头，允许不同的注意力偏置添加到注意力矩阵中。
- GIN 架构 (Graph Isomorphism Network):
  - 使用 GINE (Graph Isomorphism Network with Edge features) 变体作为 GNN 基线处理器。
  - 根据 $Hu et al. (2020b)$ ，GINE 层通过以下方式更新节点表示 $h_\nu^{(t)}$ ： $\boldsymbol { h } _ { \nu } ^ { ( t + 1 ) } = \mathsf { F N N } \Big ( ( 1 + \epsilon ) \boldsymbol { h } _ { \nu } ^ { ( t ) } + \sum _ { u \in N ( \nu ) } \mathsf { R e L U } ( \boldsymbol { h } _ { \nu } ^ { ( t ) } + \boldsymbol { e } _ { u \nu } ) \Big )$ 其中 $N(\nu)$ 是节点 $\nu$ 的邻居集合， $\epsilon$ 是一个可学习参数， $e_{u\nu}$ 是边 $(u, \nu)$ 的特征， $\mathsf{FNN}$ 是一个前馈神经网络。
  - 在社交网络任务中，对于高节点数和高平均度的数据集，GraphBench 选择了 GraphConv 的变体，采用均值聚合 (mean aggregation) 而非 GIN 中的求和聚合： ${ \bf \nabla } { { h } } _ { \nu } ^ { ( t + 1 ) } = \sigma \Big ( W _ { 1 } ^ { ( t ) } { h } _ { \nu } ^ { ( t ) } + \frac { 1 } { \deg _ { \mathrm { i n } } ( \nu ) } \sum _ { u : \ u \to \nu } W _ { 2 } ^ { ( t ) } { h } _ { u } ^ { ( t + 1 ) } \Big )$ 其中 $\sigma$ 为 ReLU 激活函数， $\deg_{\mathrm{in}}(\nu)$ 是节点 $\nu$ 的入度， $W_1^{(t)}$ 和 $W_2^{(t)}$ 是权重矩阵。

3. 解码器 (Decoder):

每个任务都需要特定的预测，因此解码器也是任务特定的。
采用一个两层的 多层感知机 (MLP) 作为解码器： $W _ { 2 } ( \mathsf { L a y e r N o r m } ( \mathsf { G E L U } ( W _ { 1 } x ) ) )$ 符号解释:
- $W_1 \in \mathbb{R}^{d \times d}$ , $W_2 \in \mathbb{R}^{d \times o}$ : 权重矩阵，其中 $o$ 是任务特定的输出维度。
- $\mathsf{GELU}$ : GELU 非线性激活函数。
- $\mathsf{LayerNorm}$ : 层归一化。
- $x$ : 输入特征。
解码器可以选择性地添加偏置项。

5. 实验设置

5.1. 数据集

GraphBench 涵盖了四大领域的多种数据集，强调真实世界场景和 OOD 泛化能力。

预测 BlueSky 上的用户参与度 (Predicting engagements on BlueSky):
- 数据源: 基于 BlueSky 公开数据集 (Failla & Rossetti, 2024)。
- 图结构: 包含基于引用 (quotes)、回复 (replies) 和转发 (reposts) 的三种有向图结构。节点代表用户，边代表交互。
- 节点特征: 使用 SENTENCE-TRANSFORMERS/ALLMinLM-L6-v2 语言模型嵌入用户文本内容。
- 节点目标: 预测用户在未来帖子中获得的平均点赞、回复、转发数量 (取中位数并进行对数变换)。
- 划分策略: 时间划分 (Temporal split)，训练集、验证集、测试集分别基于 $(t_{start}, t_A], (t_B, t_C], (t_C, t_{end}]$ $(t_{s t a r t}, t_{A}], (t_{B}, t_{C}], (t_{C}, t_{e n d}]$ 时间段。数据分布为 $55%/15%/15%/15%$ $55$ (_start,A, A,B, B,C, C,D)。
  - 训练: $t_0 = t_{start}, t_1 = t_A, t_2 = t_B$
  - 验证: $t_0 = t_{start}, t_1 = t_B, t_2 = t_C$
  - 测试: $t_0 = t_{start}, t_1 = t_C, t_2 = t_{end}$
  - 具体时间点： $t_{start}$ (2023年2月17日), $t_{end}$ (2024年3月18日), $t_A$ (2023年12月11日), $t_B$ (2024年1月22日), $t_C$ (2024年2月20日)。
- 特点: 强调处理有向边、结构多样性和时间依赖性。

5.1.2. 硬件设计 (Hardware Design)

芯片设计：学习生成小型电路 (Learning to generate small circuits):
- 任务: 条件图生成问题，生成实现给定布尔函数 (Boolean function) 且门数量最少的电路。
- 数据源: 120 万个随机生成的真值表 (truth tables)，每个有 6-8 个输入和 1-2 个输出。
- 图结构: 真值表通过 ABC 工具编译成 与反相器图 (And-Inverter Graphs, AIGs)。AIGs 是有向无环图 (Directed Acyclic Graphs, DAGs)。
- 划分策略: 固定 $80/10/10$ 训练/验证/测试划分。
- 特点: 挑战在于生成功能正确且结构高效的 DAGs，一个严格的约束图生成任务。
电子电路：预测电压转换率 (Predicting voltage conversion ratio):
- 任务: 预测模拟电路的电压转换率 (voltage conversion ratio) 和功率转换效率 (power conversion efficiency)。
- 数据源: 随机生成的 5、7、10 个元件组成的电源转换器拓扑结构。
- 图结构: 节点代表元件（电容、电感、开关、输入/输出/地端口），边代表电连接。
- 划分策略: 随机 $70/10/20$ 划分。
- 特点: 测试模型对结构敏感性和处理极端类别不平衡的能力，OOD 泛化通过不同尺寸电路评估。

5.1.3. 推理与优化 (Reasoning and Optimization)

SAT 求解：算法选择和性能预测 (Algorithm selection and performance prediction):
- 任务: 预测 SAT 求解器在未见实例上的计算时间（回归任务），或选择最佳求解器（多分类任务）。
- 数据源: 包含来自 SAT Competition、AClib 和三个生成器 (FuzzSAT, Cryptography, Community attachment) 的超过 10 万个 SAT 实例。
- 图结构: 提供三种图表示：变量-子句图 (Variable-Clause Graph, VCG)、变量图 (Variable Graph, VG)、子句图 (Clause Graph, LCG)。
- 划分策略: 固定 $70/15/15$ 划分，并提供 Small, Medium, Large 三种规模的数据集，用于 OOD 泛化测试。
- 特点: 迄今为止最大的 SAT 求解器算法选择基准，旨在推动 GNNs 在符号推理和算法选择中的应用。
组合优化：学习预测最优解目标 (Learning to predict optimal solution objectives):
- 任务: 预测图上 最大独立集 (Maximum Independent Set, MIS)、最大割 (Max-Cut) 和 图着色 (Graph Coloring) 问题的最优目标值（监督学习），或直接生成近似最优解（无监督学习）。
- 数据源: 5 万个实例，通过 RB 图、Erdős-Rényi (ER) 图和 Barabási-Albert (BA) 图模型生成，包括小规模和大规模变体。
- 图结构: 仅包含邻接矩阵，无节点特征。
- 划分策略: 固定划分。
- 特点: 统一的图数据集，用于多个组合优化任务，支持监督和无监督学习，提供了一个衡量 GNNs 解决 NP-hard 问题的能力。
算法推理：学习模拟算法 (Learning to simulate algorithms):
- 任务: 模拟七种经典图算法的输出：拓扑排序 (Topological Sorting)、找桥 (Bridges)、最小生成树 (Minimum Spanning Tree, MST)、最大流 (Max Flow)、最大团 (Max Clique)、Steiner 树 (Steiner Trees)、最大匹配 (Max Matching)。
- 数据源: 100 万训练图，1 万验证/测试图，通过多种图生成器 (ER, SBM, PC, NWS, BA, DBA) 生成。
- 图结构: 针对不同算法，包含节点特征（如拓扑排序、Steiner 树、二分匹配）或边权重（如 MST、最大流、Steiner 树）。
- 划分策略: 训练图节点数固定为 16，验证/测试图节点数为 128，用于规模泛化 (size generalization) 测试。
- 特点: 大规模合成数据集，旨在评估 GNNs 学习和泛化图算法的能力，涵盖节点级、边级和图级输出。

5.1.4. 地球系统 (Earth Systems)

天气预报：中期大气状态预测 (Medium-range atmospheric state prediction):
- 任务: 预测 12 小时大气状态的残差变化。
- 数据源: ERA5 再分析数据，通过 WeatherBench2 管道预处理，分辨率为 $64 \times 32$ 。
- 图结构: 包含一个 3D 网格图 (grid graph) 和一个二十面体网格图 (icosahedral mesh graph)，以及两者之间的映射边。共有 4610 个节点和 59667 条边。每个网格节点包含 5 个地表变量和 13 个压力层上的 6 个大气变量。
- 划分策略: 时间划分 (Temporal split)， $86/5/9$ 训练/验证/测试划分。
- 特点: 测试图模型整合异构特征、捕获长距离依赖以及在时间和空间上泛化以进行环境决策的能力。

以下是原文 Table 1 总结的当前可用 GraphBench 数据集：

Category	Name	Node Feat.	Edge Feat.	Directed	Hetero	#Tasks	Split Scheme	Split Ratio	Task Type	Metric
Social networks	BlueSky - quotes	✓		✓		3	Temporal	(55/15)/15/15	Node regression	MAE / R2 / Spearman corr.
	BlueSky replies	✓ ✓		✓		3	Temporal	(55/15)/15/15	Node regression	MAE / R2 / Spearman corr.
	BlueSky reposts			✓		3	Temporal	(55/15)/15/15	Node regression	MAE /R2 / Spearman corr.
Chip design	AIG	✓	✓	✓		1	Fixed	80/10/10	Generation	Ad-hoc Score
	5 Components	✓				1	Random	70/10/20	Regression	RSE
	7 Components					1	Random	70/10/20	Regression	RSE
	10 Components					1	Random	70/10/20	Regression	RSE
	SmaLL				✓\	5	Fixed	80/10/10	Classification / Regression	Closed Gap / RMSE
	MEDIUM				¸\	5	Fixed	80/10/10	Classification / Regression	Closed Gap / RMSE
	Large				✓\	5	Fixed	80/10/10	Classification / Regression	Closed Gap / RMSE
	RB Small					6	Fixed	70/15/15	Regression / Unsupervised	MAE/CO
	RB-Large					6	Fixed	70/15/15	Regression / Unsupervised	MAE/CO
	ER Small					6	Fixed	70/15/15	Regression / Unsupervised	MAE/CO
	ER - Large					6	Fixed	70/15/15	Regression / Unsupervised	MAE/CO
	BA Small					6	Fixed	70/15/15	Regression / Unsupervised	MAE/CO
Algorithmic reasoning	BA-Large					6	Fixed	70/15/15	Regression / Unsupervised	MAE/CO
	Topological Sorting	✓	✓	✓		3	Fixed	98/1/1	Node regression	MAE
	MST		✓			3	Fixed	98/1/1	Edge classification	Accuracy / F1
	Bridges	✓				3	Fixed	98/1/1	Edge classification	Accuracy / F1
	Steiner Trees		✓			3 3	Fixed Fixed	98/1/1 98/1/1	Edge classification	Accuracy / F1
	Max Clique		✓	✓		3	Fixed	98/1/1	Node classification	Accuracy / F1
	Flow Max Matching						Fixed	98/1/1	Regression	MAE
Weather forecasting	ERA5 64x32	✓	✓ ✓	✓\		3 1	Temporal	86/5/9	Edge classification Node regression	Accuracy / F1 MSE

5.2. 评估指标

论文针对不同任务使用了多样化的评估指标，以准确反映模型在实际场景中的性能。

平均绝对误差 (Mean Absolute Error, MAE):
1. 概念定义: MAE 衡量的是预测值与真实值之间绝对误差的平均值。它提供了预测误差的平均大小，对异常值不敏感。
2. 数学公式: $\mathrm{MAE} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|$
3. 符号解释:
  - $N$ : 样本总数。
  - $y_i$ : 第 $i$ 个样本的真实值。
  - $\hat{y}_i$ : 第 $i$ 个样本的预测值。
决定系数 ( $R^2$ ):
1. 概念定义: $R^2$ 衡量的是模型对因变量变化的解释程度，取值范围通常在 0 到 1 之间（也可以为负值）。 $R^2=1$ 表示模型完美地解释了所有变异，而 $R^2=0$ 表示模型未能解释任何变异。
2. 数学公式: $R^2 = 1 - \frac{\sum_{i=1}^{N} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{N} (y_i - \bar{y})^2}$
3. 符号解释:
  - $N$ : 样本总数。
  - $y_i$ : 第 $i$ 个样本的真实值。
  - $\hat{y}_i$ : 第 $i$ 个样本的预测值。
  - $\bar{y}$ : 所有真实值的平均值。
斯皮尔曼相关系数 (Spearman Correlation, $\sigma$ 或 $\rho$ ):
1. 概念定义: 斯皮尔曼相关系数衡量两个变量之间排序关系的一致性，即它们的等级相关性。它是一个非参数指标，适用于衡量变量间单调关系，而不要求关系是线性的。在社交网络中，它用于评估预测结果是否能正确地反映用户未来参与度的相对排名。
2. 数学公式: $\sigma = 1 - \frac{6 \sum_{i=1}^{N} d_i^2}{N(N^2 - 1)}$
3. 符号解释:
  - $N$ : 样本总数。
  - $d_i$ : 第 $i$ 个样本在两个变量（真实值和预测值）的排序等级之间的差值。

5.2.2. 硬件设计 (Hardware Design)

芯片设计 (AIG):
- 特定得分函数 (Ad-hoc Score): 旨在评估生成的 AIG 的功能正确性和结构效率。
1. 概念定义: 该得分函数鼓励生成内部节点数量较少的 AIG，同时惩罚功能不正确的解决方案。它通过计算相对于基线 AIG（由 ABC 生成）的内部节点比例来评估结构效率，并乘以一个指示函数来确保功能正确性。
2. 数学公式: $\mathrm { s c o r e } ( \tilde { C } ) : = \frac { 1 0 0 } { N } \sum _ { i = 1 } ^ { N } \frac { \# C _ { i } ^ { \mathrm { r e f } } } { \# \tilde { C } _ { i } } \cdot \mathbb { 1 } _ { \tilde { C } _ { i } \equiv f _ { i } }$
3. 符号解释:
  - $\tilde{C}$ : 生成的 AIG 集合。
  - $N$ : 布尔函数的总数。
  - $\# \tilde{C}_i$ : 第 $i$ 个生成的电路的内部节点数量。
  - $\# C_i^{\mathrm{ref}}$ : 对应基线 ABC 生成的 AIG 的内部节点数量。
  - $\mathbb{1}_{\tilde{C}_i \equiv f_i}$ : 指示函数，如果 $\tilde{C}_i$ 与布尔函数 $f_i$ 功能等效，则为 1，否则为 0。
电子电路 (Components):
- 相对平方误差 (Relative Squared Error, RSE):
1. 概念定义: RSE 衡量的是模型预测误差的平方和相对于真实值总平方差的比例。它用于评估回归模型的准确性，其中较低的值表示更好的性能。
2. 数学公式: $\mathrm { R S E } ( y , \hat { y } ) : = \frac { \sum _ { i = 1 } ^ { N } ( y _ { i } - \hat { y } _ { i } ) ^ { 2 } } { \sum _ { i = 1 } ^ { N } ( y _ { i } - \bar { y } ) ^ { 2 } }$
3. 符号解释:
  - $N$ : 样本总数。
  - $y_i$ : 第 $i$ 个样本的真实值。
  - $\hat{y}_i$ : 第 $i$ 个样本的预测值。
  - $\bar{y}$ : 所有真实值的平均值。

5.2.3. 推理与优化 (Reasoning and Optimization)

SAT 求解 (SAT Solving):
- 性能预测 (Performance Prediction):
  - 均方根误差 (Root Mean Squared Error, RMSE): 用于衡量预测值与真实值（此处为 $\log_{10}$ 变换后的计算时间）之间的差异。RMSE 对大误差更敏感。
  1. 概念定义: RMSE 衡量的是预测值与真实值之间差的平方的平均值的平方根。它表示预测值偏离真实值的标准差。
  2. 数学公式: $\mathrm{RMSE} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2}$
  3. 符号解释:
    - $N$ : 样本总数。
    - $y_i$ : 第 $i$ 个样本的真实值（此处为 $\log_{10}$ 变换后的计算时间）。
    - $\hat{y}_i$ : 第 $i$ 个样本的预测值。
- 算法选择 (Algorithm Selection):
  - 惩罚平均计算时间 (Penalized Average Runtime, $\mathrm{PAR}_k$ ):
  1. 概念定义: $PAR_k$ 是衡量求解器性能的常用指标，尤其是在有截止时间 (cutoff time) 的情况下。它计算求解器在所有实例上的平均运行时间，对于未在截止时间前解决的实例，其运行时间会被惩罚性地记为 $k$ 倍的截止时间。较低的 $PAR_k$ 值表示更好的性能。
  2. 数学公式: 无直接公式给出，但其定义为： $\mathrm { P A R } _ { k } ( s , \varPi ) = \frac{1}{|\varPi|} \sum_{\pi \in \varPi} \left( t(s, \pi) \text{ if solved, else } k \cdot c \right)$
  3. 符号解释:
    - $s$ : 求解器。
    - $\varPi$ : 实例集合。
    - $t(s, \pi)$ : 求解器 $s$ 在实例 $\pi$ 上的计算时间。
    - $k$ : 惩罚因子。
    - $c$ : 截止时间。
  - 闭合差距 (Closed Gap, CG):
  1. 概念定义: CG 衡量算法选择器 (algorithm selector) 的性能与理想的虚拟最佳求解器 (Virtual Best Solver, VBS) 性能之间的差距，相对于单最佳求解器 (Single Best Solver, SBS) 的性能。它量化了选择器在多大程度上弥补了 SBS 与 VBS 之间的性能差距。 $CG = 1$ 对应 VBS 性能， $CG = 0$ 对应 SBS 性能，更高的 CG 值表示更强的选择性能。
  2. 数学公式: $\mathbf { C G } ( \varPi ) = \frac { \mathrm { P A R } _ { 1 0 } ( \mathbf { S B S } , \varPi ) - \mathrm { P A R } _ { 1 0 } ( s , \varPi ) } { \mathrm { P A R } _ { 1 0 } ( \mathbf { S B S } , \varPi ) - \mathrm { P A R } _ { 1 0 } ( \mathbf { V B S } , \varPi ) }$
  3. 符号解释:
    - $\varPi$ : 实例集合。
    - $\mathrm{PAR}_{10}(\mathbf{SBS}, \varPi)$ : 单最佳求解器 (SBS) 在实例集合 $\varPi$ 上的 $PAR_10$ 值。
    - $\mathrm{PAR}_{10}(s, \varPi)$ : 所选算法选择器 $s$ 在实例集合 $\varPi$ 上的 $PAR_10$ 值。
    - $\mathrm{PAR}_{10}(\mathbf{VBS}, \varPi)$ : 虚拟最佳求解器 (VBS) 在实例集合 $\varPi$ 上的 $PAR_10$ 值。
组合优化 (Combinatorial Optimization, CO):
- 监督学习 (Supervised Learning):
  - 平均绝对误差 (Mean Absolute Error, MAE): 同社交网络部分的定义，用于预测最优目标值。
- 无监督学习 (Unsupervised Learning):
  - 目标函数值 (Objective Value): 通过解码器将模型输出分数转换为可行解后，计算该可行解对应的组合优化问题的目标函数值。目标是最小化或最大化此值，具体取决于问题定义。

5.2.4. 算法推理 (Algorithmic Reasoning)

回归任务 (Regression Tasks): (例如拓扑排序、最大流)
- 平均绝对误差 (Mean Absolute Error, MAE): 同社交网络部分的定义，用于衡量预测值与真实算法输出之间的差异。
二分类任务 (Binary Classification Tasks): (例如找桥、最小生成树、Steiner 树、最大团、最大匹配)
- F1 分数 (F1 Score):
1. 概念定义: F1 分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值，用于评估分类模型的性能，特别是在类别不平衡的情况下。它平衡了假正例和假负例的影响。
2. 数学公式: $\mathrm{F1} = 2 \cdot \frac{\mathrm{Precision} \cdot \mathrm{Recall}}{\mathrm{Precision} + \mathrm{Recall}}$ 其中， $\mathrm{Precision} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FP}}$ $\mathrm{Recall} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FN}}$
3. 符号解释:
  - $\mathrm{TP}$ (True Positives): 真阳性，模型正确预测为正例的数量。
  - $\mathrm{FP}$ (False Positives): 假阳性，模型错误预测为正例的数量。
  - $\mathrm{FN}$ (False Negatives): 假阴性，模型错误预测为负例的数量。
- 准确率 (Accuracy):
1. 概念定义: 准确率是正确预测样本数占总样本数的比例。在分类任务中，它衡量模型正确分类所有样本的能力。
2. 数学公式: $\mathrm{Accuracy} = \frac{\mathrm{Number of Correct Predictions}}{\mathrm{Total Number of Predictions}}$
3. 符号解释:
  - $\mathrm{Number of Correct Predictions}$ : 模型正确分类的样本数。
  - $\mathrm{Total Number of Predictions}$ : 总样本数。

5.2.5. 地球系统 (Earth Systems)

天气预报 (Weather Forecasting):
- 加权均方误差 (Weighted Mean Squared Error, WMSE): 这是 GraphCast (Lam et al., 2023) 中使用的训练目标，用于预测 12 小时大气变量的残差变化。
1. 概念定义: WMSE 是一种定制的均方误差，对不同地理位置（基于纬度）、不同变量和不同压力层应用不同的权重，以反映其在天气预报中的相对重要性。这使得损失函数能够更好地引导模型关注关键区域和变量。
2. 数学公式: $\mathcal { L } ( \boldsymbol { x } ^ { d } , \hat { \boldsymbol { x } } ^ { d } ) = \frac { 1 } { | D | | G | \sum _ { j \in J } | L _ { j } | } \sum _ { d \in D } \sum _ { i \in G } \sum _ { j \in J } \sum _ { \ell \in L _ { j } } a _ { i } w _ { j } s _ { j , \ell } \big ( \hat { x } _ { i , j , \ell } ^ { d } - x _ { i , j , \ell } ^ { d } \big ) ^ { 2 }$ 其中，层权重 $s_{j, \ell}$ 定义为： $s _ { j , \ell } = \left\{ \begin{array} { l l } { \frac { P _ { \ell } } { | L _ { j } | } \sum _ { m \in L _ { j } } P _ { m } } & { \mathrm { i f ~ } j \mathrm { ~ i s ~ m u l t i - l e v e l ,e . g . ~ a t m o s p h e r i c ~ v a r i a b l e s , } } \\ { 1 , } & { \mathrm { i f ~ } j \mathrm { ~ i s ~ s i n g l e - l e v e l ,e . g . ~ s u r f a c e ~ v a r iab l e s , } } \end{array} \right.$
3. 符号解释:
  - $D$ : 预测日期-时间集合。
  - $G$ : 网格单元集合。
  - $J$ : 变量集合。
  - $L_j$ : 变量 $j$ 的压力层集合。
  - $a_i$ : 纬度权重，mean-normalized latitude weights。 $a _ { i } = \frac { \cos ( \mathrm { l a t } _ { i } ) } { \frac { 1 } { | G | } \sum _ { k \in G } \cos ( \mathrm { l a t } _ { k } ) }$ 其中 $\mathrm{lat}_i$ 是第 $i$ 个网格单元的纬度。
  - $w_j$ : 变量权重。
  - $s_{j, \ell}$ : 压力层权重。
  - $P_\ell$ : 压力层值。
  - $\hat{x}_{i,j,\ell}^d$ : 在日期 $d$ 、网格单元 $i$ 、变量 $j$ 、压力层 $\ell$ 上的预测值。
  - $x_{i,j,\ell}^d$ : 对应的真实值。
- 无加权均方误差 (Unweighted Mean Squared Error, MSE): 用于评估每个变量和所有变量的最终性能。
1. 概念定义: 同 MAE 部分的定义，但此处用于评估天气预报模型，且可以针对单个变量或所有变量进行计算。
2. 数学公式:
  - 对于每个变量 $j$ : $\mathrm { M S E } _ { j } ( x ^ { d } , \hat { x } ^ { d } ) = \frac { 1 } { \left| D \right| \left| G \right| \left| L _ { j } \right| } \sum _ { d \in D } \sum _ { i \in G } \sum _ { \ell \in L _ { j } } \big ( \hat { x } _ { i , j , \ell } ^ { d } - x _ { i , j , \ell } ^ { d } \big ) ^ { 2 }$
  - 对于所有变量: $\mathrm { M S E } _ { \mathrm { a l l } } ( x ^ { d } , \hat { x } ^ { d } ) = \frac { 1 } { | D | \left| G \right| \sum _ { j \in J } \left| L _ { j } \right| } \sum _ { d \in D } \sum _ { i \in G } \sum _ { j \in J } \sum _ { \ell \in L _ { j } } \big ( \hat { x } _ { i , j , \ell } ^ { d } - x _ { i , j , \ell } ^ { d } \big ) ^ { 2 }$
3. 符号解释: 同 WMSE 部分的解释。

5.3. 对比基线 (Baselines)

GraphBench 针对其所涵盖的各类任务，选择了有代表性的基线模型进行性能比较：

5.3.1. 图学习基线 (Graph Learning Baselines)

消息传递神经网络 (Message-Passing Neural Networks, MPNNs):
- GIN (Graph Isomorphism Network): 一种强大的 GNN 模型，理论上与 Weisfeiler-Leman (WL) 检验同样强大，能够有效区分不同图结构。在许多图分类和回归任务中表现出色。
- GCN (Graph Convolutional Network): 经典的图卷积网络，通过聚合邻居信息进行节点表示学习。
- GAT (Graph Attention Network): 引入注意力机制的图神经网络，允许模型为不同邻居分配不同的重要性权重。
- GraphConv (Mean Aggregation): 论文在社交网络任务中使用的 GraphConv 变体，采用均值聚合策略，适用于节点数多、平均度高的图。
图Transformer (Graph Transformers, GTs): 利用自注意力机制捕获图中的长距离依赖，通常在复杂图任务中表现出更强的表达能力。
连接无关基线 (Connectivity-Agnostic Baselines):
- MLP (Multi-Layer Perceptron): 多层感知机，作为忽略图结构信息的最基本神经网络基线。
- DeepSets: 能够处理无序集合数据，通过对所有元素特征求和或平均来聚合信息。它不考虑元素之间的连接关系，但在聚合全局特征信息方面比 MLP 更强。

5.3.2. 领域特定基线 (Domain-Specific Baselines)

芯片设计 (AIG Generation):
- ABC 变体: 针对 AIG 生成任务，使用了四种标准的 ABC (一个著名的逻辑综合工具) 变体作为基线：
  - STRASH: 最简单的 AIG 转换和结构哈希。
  - RESYN: 轻量级综合脚本，交替进行平衡和重写。
  - COMPRESS2: 更复杂的优化，包含平衡、重写、重构和零成本替换。
  - RESYN2RS: 最重量级的优化脚本，多轮平衡、重写、重构和重替换。
- 注: 论文指出，由于 DAG 生成的挑战和现有学习方法的局限性，未包含学习型基线。
SAT 求解 (Algorithm Selection and Performance Prediction):
- 传统经验性能模型 (Empirical Performance Models, EPM):
  - 随机森林 (Random Forest, RF): 一种集成学习方法，常用于回归和分类，在经验性能预测中表现良好。
  - XGBoost: 一种梯度提升树算法，以其高性能和效率而闻名。
  - SATzilla 特征: 这些模型使用 SATzilla 2024 的手调特征，包括结构属性、图描述符和探测特征。
- 算法选择方法:
  - 成对回归 (Pairwise Regression, PR): 预测每对求解器之间的性能差异，然后选择总和最佳的求解器。
  - 成对分类 (Pairwise Classification, PC): 预测每对求解器中哪个更好，然后通过多数投票选择最终求解器。
  - 简单多分类 (Multi-Class Classification, MC): 直接预测最佳求解器。
- 注: AutoFolio 和 ASAP 等其他算法选择基线因数据集规模或实现限制而未被包含。
天气预报 (Weather Forecasting):
- Persistence (持久性模型): 一个简单的基线，假设未来 12 小时的大气变量值保持不变（与初始时刻相同）。
- GraphCast: $Lam et al. (2023)$ 提出的最先进的、基于 MPNN 的中期全球天气预报模型。

5.4. 实验评估协议

GraphBench 的实验评估协议旨在确保公平性和可复现性：

多随机种子评估: 所有基线模型都在每个任务上使用多个随机种子进行评估（例如，至少 3 个），以评估结果的鲁棒性，并报告平均性能及标准差。
预训练模型支持: 对于 OOD 泛化任务，支持使用预训练模型进行评估。
资源利用率报告: 除了性能指标，还报告内存使用、训练墙钟时间 (training wall-clock time) 和推理延迟 (inference latency)，以提供模型在实际应用中的可行性洞察。
超参数调优: 尽可能使用自动化 HPO (基于 SMAC3) 来优化模型性能，确保基线结果尽可能强。

6. 实验结果与分析

本节将详细分析 GraphBench 中各项任务的实验结果，并对基线模型表现进行对比。

6.1. 社交网络：BlueSky 用户参与度预测

核心任务: 预测用户未来帖子获得的互动量（点赞、回复、转发）。

主要发现: 以下是原文 Table 3 的结果：

Dataset	Model	MAE	ks			likes	replies	reposts
quotes	DeepSets	0.810± 0.005	0.140± 0.002	0.102± 0.002	0.138± 0.002	0.307± 0.004	0.178± 0.002	0.334± 0.003
	GNN	0.768± 0.002	0.165± 0.002	0.134± 0.002	0.175± 0.002	0.330± 0.003	0.192± 0.002	0.337± 0.022
	MLP	0.784±0.001	0.145± 0.001	0.107± 0.001	0.141± 0.001	0.308± 0.003	0.176± 0.002	0.335± 0.002
replies	DeepSets	0.789± 0.033	0.086± 0.033	0.061 ± 0.024	0.104± 0.014	0.253± 0.003	0.130± 0.001	0.240± 0.006
	GNN	0.694± 0.002	0.158± 0.003	0.119± 0.002	0.159± 0.002	0.258± 0.009	0.132± 0.006	0.247± 0.011
	MLP	0.725± 0.004	0.131± 0.003	0.087± 0.003	0.122± 0.003	0.249± 0.004	0.127± 0.005	0.243± 0.003
reposts	DeepSets	0.918± 0.013	0.049± 0.005	0.031 ± 0.012	0.050± 0.009	0.229± 0.004	0.129± 0.007	0.205 ± 0.009
	GNN	0.832± 0.009	0.131± 0.017	0.111± 0.022	0.128± 0.008	0.284± 0.044	0.143± 0.032	0.260± 0.051
	MLP	0.874± 0.003	0.087± 0.002	0.051 ± 0.003	0.066± 0.002	0.234± 0.008	0.123± 0.006	0.206± 0.010

GNNs 优于非图模型: 在所有交互类型（引用、回复、转发）上，GNN (在此处指 GraphConv 变体) 模型的 MAE 最低， $R^2$ 和 Spearman 相关系数最高，表现明显优于 MLP 和 DeepSets。这表明局部、有向的关系结构对于预测短期内的用户参与度是信息丰富的。
DeepSets 表现不佳: DeepSets 虽然能获取全局特征信息，但在大多数情况下表现劣于 MLP。这可能暗示在这些任务中，简单地聚合全局特征而不考虑结构或方向性，反而可能带来负面影响。
仍有巨大提升空间: 尽管 GNN 表现最佳，但 $R^2$ 和 Spearman 相关系数的绝对值仍然相对较低。例如，最高 $R^2$ 仅为 0.175 (quotes 任务)。这表明当前任务远未被“解决”，未来先进的、任务特定的 MPNNs 仍有很大的改进空间。

6.2. 硬件设计：芯片设计与电子电路

6.2.1. 芯片设计：AIG 生成

核心任务: 生成功能正确且门数量最少的 AIG。

主要发现: 以下是原文 Table 5 的结果：

	Number of (inputs, outputs)
Method	(6,1)	(6,2)	(7,1)	(7,2)	(8,1)	(8,2)	Overall
STRaSH	73.90	74.23	76.55	75.71	77.63	76.52	75.76
ReSyN	86.79	88.16	89.28	89.05	90.45	89.78	88.92
Compress2	92.53	93.57	93.18	92.79	93.28	92.49	92.97
Resyn2rs	93.30	95.24	95.15	95.64	96.24	96.11	95.28

复杂度与性能一致性: ABC 的四种变体在所有设置下，其性能（Ad-hoc Score，越高越好）与它们的复杂度呈一致排序。最简单的 STRASH 表现最差，而最复杂和昂贵的 Resyn2rs 表现最佳。
学习型基线缺失: 论文特别指出，由于 DAG 生成的特性和现有图生成模型（例如 LayerDAG 和 Directo）无法保证功能等效性，因此未包含学习型基线。这揭示了图生成领域的一个重要未探索方向：开发能够强制执行严格约束（如与给定真值表的功能等效性）的条件 DAG 生成模型。

6.2.2. 电子电路：电压转换率预测

核心任务: 预测模拟电路的电压转换率和功率转换效率。

主要发现: 以下是原文 Table 6 的结果：

Task	Method	Size
Task	Method	5 comp	7 comp	10 comp
Efficiency	GT	0.07 ± 0.03	0.18± 0.06	0.29± 0.03
	GIN	0.09± 0.06	0.21 ± 0.04	0.44± 0.13
	GAT	0.11 ± 0.05	0.22± 0.05	0.38± 0.05
	GCN	0.13± 0.07	0.30± 0.04	0.53± 0.06
Voltage	GT	0.12± 0.02	0.31± 0.05	0.39± 0.05
	GIN	0.14± 0.05	0.35± 0.03	0.54± 0.12
	GAT	0.17± 0.13	0.34± 0.12	0.48± 0.02
	GCN	0.18± 0.07	0.46± 0.08	0.61± 0.07

GT 表现最佳: 图Transformer (GT) 在所有电路尺寸（5、7、10 个元件）和预测目标（效率、电压）上，始终比其他基线模型 (GIN, GAT, GCN) 取得了更高的预测准确性（更低的 RSE）。这表明 GT 捕获电路复杂性的能力更强。
电路复杂度增加导致性能下降: 随着电路尺寸的增加，所有模型的 RSE 都呈现上升趋势。这主要是由于高保真模拟训练数据的减少，以及电路空间组合爆炸导致学习难度增加。
GCN 表现最差: 经典的 GCN 模型在所有情况下表现最差，这可能与其表达能力相比 GIN, GAT 和 GT 较弱有关。

6.3. 推理与优化：SAT 求解与组合优化

6.3.1. SAT 求解：算法选择与性能预测

核心任务: 预测 SAT 求解器运行时间（性能预测）和选择最佳 SAT 求解器（算法选择）。

主要发现:

性能预测结果: 以下是原文 Table 8 的结果：

Solver	Method	VG	VCG	LCG	SATZILLA
Kissat	GIN	1.36± 0.15	1.15± 0.03	1.49± 0.02
	RF				0.61 ± 0.00
	XGB	−	−	−	0.63± 0.00
BrEAKIDKissAT	GIN	1.29± 0.03	1.33± 0.15	1.52± 0.01
	RF	,	−	−	0.65± 0.00
	XGB	−	−	−	0.68± 0.01
KissatMABDC	GIN	1.27± 0.00	1.43± 0.24	1.60± 0.01
	RF	−	−	−	0.70± 0.00
	XGB	−	−	−	0.74± 0.00
AMSAT	GIN	1.43± 0.01	1.45± 0.09	1.54± 0.00
	RF	−		−	0.68± 0.00
	XGB	−	−	−	0.72± 0.01

传统模型优势明显: 使用手调 SATzilla 特征的传统经验性能预测器（随机森林 RF 和 XGBoost）在 small 规模 SAT 实例上的 RMSE 远低于 MPNNs (GIN)。这表明，虽然图结构信息有用，但经过精心设计的特征仍然是预测 SAT 求解器性能的强大工具。
图表示选择的重要性: 不同的图表示对 GIN 的性能有显著影响。VCG（变量-子句图）在性能预测上通常优于 VG（变量图）和 LCG（子句图），这表明 VCG 可能捕获了更相关的结构信息。
MPNNs 局限性: 论文提到，由于计算成本和内存限制，MPNNs 无法在 medium 和 large 规模实例上进行评估，甚至对于 clause graphs 也存在内存溢出问题。

以下是原文 Table 9a 和 Table 9b 的结果：

Table 9a: Medium-size SAT instances

Solver	Method	SATZILLA
Kissat	RF	0.59± 0.00
Kissat	XGB	0.62± 0.00
BreakIDKissat	RF	0.64± 0.00
BreakIDKissat	XGB	0.67 ± 0.00
KissatMaBDC	RF	0.68± 0.00
KissatMaBDC	XGB	0.72± 0.00
AMSAT	RF	0.64± 0.00
AMSAT	XGB	0.67± 0.00

Table 9b: Large SAT instances

Solver	Method	SATZILLA
Kissat	RF	0.58± 0.00
Kissat	XGB	0.63± 0.00
BreakIDKissaT	RF	0.62± 0.00
BreakIDKissaT	XGB	0.67± 0.00
KissatMaBDC	RF	0.66± 0.00
KissatMaBDC	XGB	0.70± 0.00
AMSAT	RF	0.62± 0.00
AMSAT	XGB	0.66± 0.00

RF 持续领先: 在 medium 和 large 规模的 SAT 实例上，随机森林 RF 仍然是表现最佳的 EPM。这些结果为未来图机器学习解决方案提供了比较基准。

算法选择结果: 以下是原文 Table 10 的结果：

Instances	Method	VG	VCG	LCG
SmaLL	GIN	0.05± 0.00	0.00± 0.00	-0.02± 0.02
	PC		0.03± 0.02
	PR		0.48± 0.03
	MC		-0.32± 0.02
MEDIUM	GIN
	PC		0.13± 0.02
	PR		0.44± 0.02
	MC		-0.13± 0.02
LARGE	GIN
	PC		0.33± 0.01
	PR		0.54± 0.02
	MC		0.23± 0.02

PR 表现最佳: 成对回归 (PR) 在算法选择任务中表现最佳，尤其是在 small 实例上实现了 0.48 的 closed gap。
GIN 仍落后: 即使是 GIN 配合 VG 表示，其 closed gap (0.05) 仍然远低于传统方法。LCG 甚至导致了负的 closed gap，表明其性能不如 单最佳求解器 (SBS)。
多分类的局限性: 多分类 (MC) 方法在 small 和 medium 实例上表现不佳，甚至获得负的 closed gap，这突出了算法选择并非简单的多分类问题，因为它失去了关于非最佳算法性能的宝贵信息。
规模与益处: 在 large 实例上，所有基线都实现了更高的 closed gap，表明算法选择的益处随实例难度增加而增加。

6.3.2. 组合优化：预测最优解目标

核心任务: 在 最大独立集 (MIS)、最大割 (Max-Cut) 和 图着色 (Graph Coloring) 问题上，进行监督学习（预测目标值）和无监督学习（寻找近似最优解）。

主要发现:

监督学习 (MIS 预测目标值): 以下是原文 Table 12 的结果：

Dataset	Method	Size
Dataset	Method	Small	Large
RB graph	GIN	0.491± 0.099	2.125± 0.484
	GT	4.112± 2.353	0.915± 0.235
	MLP	1.583± 0.052	1.437± 0.520
	DeepSet	0.918± 0.186	1.427± 0.224
ER graph	GIN	0.234± 0.191	0.352± 0.265
	GT	6.486± 8.101	9.641± 15.335
	MLP	0.751± 0.767	0.914± 0.307
	DeepSet	0.756± 0.711	2.244± 0.364
BA graph	GIN	0.292± 0.041	0.111± 0.016
	GT	3.481 ± 3.446	1.829± 1.383
	MLP	2.825± 0.949	3.383± 0.504
	DeepSet	2.304± 0.262	3.362± 1.491

GIN 表现最佳: 在大多数数据集上，GIN 实现了最佳性能（最低 MAE）。这归因于 MPNNs 强大的归纳偏置 (inductive bias)，与基于图的组合优化问题的结构良好契合。
DeepSet 优于 MLP: 除了 ER 图之外，DeepSet 通常优于 MLP，这表明全局信息聚合对该任务有益。
GT 性能波动大: GT 在某些数据集上表现不佳，例如 ER 图，其 MAE 显著高于其他模型，且标准差很大。这可能与训练困难有关。

无监督学习 (MIS, Max-Cut, Graph Coloring): 以下是原文 Table 13 的结果：

			Size
Problem	Dataset	Method	Small	Large
MIS (MIS size ↑)	RB	GIN	17.294± 0.328	13.999± 0.321
		GT MLP	16.542± 0.477 16.105± 0.097	13.406± 0.140 13.040± 0.214
		DeepSet	16.021± 0.032	13.183± 0.035
		Solver	20.803± 1.817	42.547± 4.449

	ER	GIN	25.418± 0.407	26.276± 0.408
		GT	22.984± 0.473 23.183± 0.016	24.980± 0.292
		MLP		24.259± 0.449
		DeepSet Solver	23.050± 0.061 33.604± 1.428	24.220± 0.056
				45.637± 0.631
			GIN 100.16± 3.674	135.00± 0.720
		GT	99.579± 6.448	114.26± 0.601
		MLP DeepSet	95.108± 2.042 95.076± 0.173	114.49± 0.758
		Solver	142.86± 16.54	114.89± 0.016 433.77± 19.17
GIN		2106.7± 14.62
GT		1925.7± 32.75	24748.± 87.76
MLP		1727.7± 165.1	21524.± 184.0 20357.± 249.6
		140.02± 155.5
Maximum Cut (maximum cut size ↑) ER		DeepSet	2920.1 ± 97.23	3575.9± 730.0
		Solver		33914.± 7861.
		GIN	2327.9± 24.78 2172.7± 91.75	20878.± 107.9
		GT MLP	1866.7± 67.64	16534.± 278.0 7335.4± 57.49
		33.634± 20.84	27.663± 6.763
		DeepSet Solver	2835.5± 607.6	23884.± 1809.
		GIN	397.00± 0.605	1044.1± 0.649
	BA	GT	363.76± 0.639	986.93± 3.128
MLP		308.73± 0.224	929.20± 4.060
DeepSet		1.0669± 0.800	154.31± 151.5
Solver		460.91± 50.13	1260.4± 48.81

Graph Coloring (number of colors used ↓)	RB	GIN GT	25.166± 0.288 25.146± 0.253	55.513± 0.526 55.562± 0.648
		MLP	24.733± 0.667
		DeepSet		55.558± 0.557
		Solver	26.723± 0.189	71.051± 0.604
			19.970± 3.465	41.480± 6.634
	ER	GIN	16.182± 0.202	34.587± 0.545
		GT	16.188± 0.201	34.385± 0.413
		MLP	17.110± 0.144	34.658± 0.394
		DeepSet Solver	18.266± 0.018 10.235± 0.836	55.345± 0.551
	BA			22.933± 0.772
		GIN	5.1318± 0.114	6.2028± 0.283
		GT	5.0939± 0.070	6.1167± 0.086
		MLP	5.9900± 0.127	9.4215± 0.186
		DeepSet	3.2780± 0.122	3.1981± 0.239



		Solver	3.0000± 0.000	3.0000± 0.000

GIN 再次领先: 在无监督 CO 任务中，GIN 在大多数情况下表现最佳。
图模型优于非图模型: 图模型 (GIN, GT) 通常优于非图模型 (MLP, DeepSet)，这表明图结构对于解决这些问题至关重要。
稀疏图的例外: 在非常稀疏的 BA 图的图着色任务中，DeepSet 甚至优于其他两个图模型，这可能是因为在连接非常稀疏的情况下，聚合全局信息可能比复杂的局部消息传递更有效。
学习方法与传统求解器差距: 论文明确指出，当前的学习型基线在解决方案质量上通常无法与精确求解器或某些手工启发式算法竞争，但它们通常更快。

6.3.3. 算法推理：模拟算法

核心任务: 学习模拟各种图算法的输出。

主要发现:

F1 分数结果 (分类任务): 以下是原文 Table 16 的结果：

Task	Difficulty	Model	F1
MST	EASY	GIN	0.6906± 0.1655
		GT	0.8566± 0.0068
		GIN	0.7288± 0.0894
	MEDIUM	GT	0.8504± 0.0148
		GIN	0.6107± 0.2015
	HARD	GT	0.8421 ± 0.0115
	EASY	GIN	0.9831± 0.0184
		GT	0.9269± 0.0103
		GIN	0.9622± 0.0077
	MEDIUM	GT	0.8762± 0.0258
	HARD	GIN	0.968± 0.0178
		GT	0.8897± 0.0304
		GIN	0.6691± 0.0288
	EASY	GT	0.6691± 0.0112
			0.5628± 0.1100
	MEDIUM	GIN GT	0.5672± 0.0790
		GIN	0.5516± 0.2368
	HARD	GT	0.5212± 0.0219

	EASY	GIN	0.4584± 0.0101
Max Clique		GT	0.5407± 0.0088
	MEDIUM	GIN	0.3996± 0.0852
		GT	0.4859± 0.0017
		GIN	0.4102± 0.0820
	HARD	GT	0.4868± 0.0013
Max Matching	EASY	GIN	0.7527 ± 0.0051
		GT	0.7402± 0.0172
	MEDIUM	GIN	0.6399± 0.0231
		GT	0.6915± 0.009
		GIN	0.6595± 0.0164
	HARD	GT	0.6743± 0.0038

GT 在部分任务上表现更好: GT 在 MST (最小生成树)、Max Clique (最大团) 和 Max Matching (最大匹配) 上表现优于 GIN。
GIN 在部分任务上表现更好: GIN 在 Bridges (找桥) 和 Steiner Trees (Steiner 树) 任务上表现更好。
难度增加导致性能下降: 随着任务难度的增加（EASY 到 HARD），F1 分数普遍下降，这反映了训练数据中生成器选择的变化带来的挑战。
不一致的鲁棒性: GIN 在 MST 和 Steiner Trees 任务上表现出跨种子的不一致性，而 GT 则没有。
Steiner Trees 和 Max Clique 最具挑战性: 这两个任务的基线模型性能最低，表明它们对图学习模型来说更复杂。

MAE 结果 (回归任务): 以下是原文 Table 17 的结果：

Task	Difficulty	Model	MAE
Topological Sorting	EASY	GIN GT	0.1001 ± 0.0089 0.116± 0.0058
	MEDIUM	GIN GT	0.1537 ± 0.0031 0.1305± 0.0094
	HARD	GIN GT	0.1301 ± 0.0046 0.1532± 0.0214
Flow	EASY	GIN GT	3.4387± 0.0631 4.2737± 0.0646
	MEDIUM	GIN GT	9.5960± 0.1707 6.3786± 0.4262
	HARD	GIN GT	9.5061 ± 0.1265 6.4833± 0.0869

GIN 和 GT 在回归任务上各有优势: 在 Topological Sorting 任务中，GIN 在 EASY 和 MEDIUM 难度下表现稍好，而在 HARD 难度下 GT 表现稍好。在 Flow 任务中，GT 在 MEDIUM 和 HARD 难度下显著优于 GIN。
挑战依然存在: 尽管在这些任务上取得了进展，但 MAE 值仍显示出模型需要进一步改进。

规模泛化 (Size Generalization) 结果: 以下是原文 Table 18 的结果：

Dataset (Score)	Model	128	192	256	384	512
Topological Sorting (MAE)	GT	0.1346	0.1730	0.1827	0.2018	0.2071
Topological Sorting (MAE)	GIN	0.1492	0.181	0.1981	0.2015	0.2179
MST (F1)	GT	0.8720	0.8773	0.8891	0.8874	0.8817
MST (F1)	GIN	0.6103	0.8132	0.8605	0.8765	0.8823
Bridges (F1)	GT	0.8799	0.8842	0.8959	0.9049	0.9118
Bridges (F1)	GIN	0.9579	0.9213	0.9190	0.9203	0.9212
Steiner Trees (F1)	GT	0.5160	0.5322	0.5221	0.5762	0.5578
Steiner Trees (F1)	GIN	0.5499	0.5739	0.6338	0.6651	0.6502
Max Clique (F1)	GT	0.4877	0.4849	0.4890	0.4915	0.4931
Max Clique (F1)	GIN	0.3496	0.3112	0.3148	0.2926	0.2673
Max Matching (F1)	GT	0.7010	0.6552	0.6206	0.5770	OOT
Max Matching (F1)	GIN	0.6271	0.6326	0.6372	0.6382	OOT

基线模型对规模变化的鲁棒性: 总体而言，两种基线模型对测试图尺寸的扩展相对鲁棒。
任务依赖性: 泛化能力因任务而异。MST 和 Steiner Trees 任务的性能随图尺寸增大而改善，这可能与平均度数和节点连接性随尺寸变化而变化有关。
性能下降的任务: Topological Sorting、Max Matching 和 Max Clique 任务的性能随着图尺寸的增大而下降，这表明当前基线模型在这类任务上不具备尺寸不变的泛化能力。
计算限制: Max Matching 在 512 节点图上出现 OOT (Out-Of-Time) 现象，表明在更大规模图上仍存在计算挑战。

6.4. 地球系统：天气预报

核心任务: 预测 12 小时中期大气状态的残差变化。

主要发现: 以下是原文 Table 19 的结果：

Pressure Level	Variable	GT	Persistence	GraphCast
All	All variables	179.629k
Surface	2-m temperature (2T)	7.572	7.123	0.068
	10-m u wind component (10U)	5.072	2.166	0.012
	10-m v wind component (10V)	6.102	3.266	0.013
	Mean sea level pressure (MSL)	102.551k	60.056k	240.832
	Total precipitation (TP)	0.009	714.517n	52.377n
500	Temperature (T)	2.751	1.120	0.007
	U component of wind (U)	15.026	6.658	0.048
	V component of wind (V)	27.003	12.988	0.053
	Geopotential (Z)	86.250k	48.637k	155.057
	Specific humidity (Q)	0.010	66.211n	1.090n
	Vertical wind speed (W)	0.032	6.242	0.050
700	Temperature (T)	2.406	1.051	0.006
	U component of wind (U)	8.716	3.951	0.025
	V component of wind (V)	14.156	6.754	0.027
	Geopotential (Z)	51.669k	32.773k	141.296
	Specific humidity (Q)	0.009	250.556n	3.304n
	Vertical wind speed (W)	0.024	3.352	0.027
850	Temperature (T)	2.832	1.351	0.009
	U component of wind (U)	9.151	4.015	0.022
	V component of wind (V)	12.289	6.565	0.023
	Geopotential (Z)	51.542k	32.453k	139.716
	Specific humidity (Q)	0.010	354.058n	4.881n
	Vertical wind speed (W)	0.016	3.517	0.024
All	Temperature (T)	2.805
	U component of wind (U)	13.855
	V component of wind (V)	21.501
	Geopotential (Z)	77.020k	-
	Specific humidity (Q)	0.010
	Vertical wind speed (W)	0.018

基线模型表现不佳: GraphBench 的基线模型（GT）在中期天气预报任务中，性能远低于 Persistence 基线和最先进的 GraphCast 模型。例如，在 2 米温度 (2T) 预测上，GT 的 MSE 为 7.572，而 Persistence 为 7.123，GraphCast 仅为 0.068。
预期结果: 这种性能差距是预期的，原因在于：
- 架构简化: GraphBench 的基线模型为了透明性和可复现性，采用了更简单的架构。
- 训练资源和时长: 训练迭代次数、计算资源和超参数优化远少于专门系统。
- 缺乏领域特定优化: 未整合领域特定的优化（如位置边特征）。
- 任务难度: 中期天气预报本身就是一项要求极高的任务。
参考价值: GraphBench 在此任务的主要贡献是提供一个透明、可复现的性能下限，作为未来图学习方法进行比较的精确参考点，而非追求最先进的性能。

6.5. 自动化超参数优化 (HPO) 效果

核心任务: 评估自动化 HPO 对模型性能的提升作用。

主要发现: 以下是原文 Table 21 的结果：

Solver	Method	VG
Kissat	GIN	1.36± 0.15
Kissat	GIN (tuned)	1.26± 0.03

显著性能提升: 对 GIN 模型在 sMALL SAT 数据集 (使用 VG 表示) 上进行自动化 HPO 后，RMSE 从手动调优版本的 $1.36 \pm 0.15$ 降低到 $1.26 \pm 0.03$ ，实现了 $7.3\%$ 的性能提升。
证明 HPO 有效性: 这证明了 GraphBench 中包含的自动化 HPO 框架能够有效提高模型性能，并有助于实现更好的结果。

7. 总结与思考

7.1. 结论总结

GraphBench 的推出旨在解决当前图学习基准测试的碎片化、局限性和缺乏标准化问题。它通过以下几个核心方面，为下一代图学习研究提供了一个全面的、有原则的评估框架：

多样性与现实性: GraphBench 涵盖了从社交网络、硬件设计到组合优化和天气预报等多个领域，并支持节点、边、图级预测及图生成任务，显著拓宽了图学习的应用范围，并侧重于具有真实世界影响的大规模任务。
标准化与可复现性: 提供了统一的数据集划分、领域特定评估指标和超参数调优框架，确保了不同研究之间结果的公平比较和可复现性。
强调 OOD 泛化: 通过时间或规模划分数据集，明确测试模型在训练数据分布之外的泛化能力，这是开发鲁棒和通用图基础模型的关键。
提供强基线: 使用 MPNNs 和 图Transformer 等现代图学习模型在所有任务上建立了坚实的基线，为未来的研究提供了明确的性能参考点。
易用性: 作为开源 Python 包发布，提供了便捷的数据加载、预定义划分和自动化 HPO 工具，降低了研究门槛。

实验结果揭示了当前图学习方法面临的持续挑战，包括：处理时间分布偏移、在大规模图上训练的效率问题、以及捕获复杂领域特定结构的能力。同时，自动化 HPO 的有效性也得到了验证。

7.2. 局限性与未来工作

论文作者在不同章节中指出了现有方法和基准的局限性，并展望了未来的研究方向：

现有图生成模型的局限性: 在芯片设计（AIG 生成）任务中，现有图生成方法（如 LayerDAG, Directo）无法保证功能等效性等严格约束，这表明需要开发新的条件 DAG 生成模型来解决此类挑战。
MPNNs 在大规模图上的可扩展性问题: 在 SAT 求解任务中，MPNNs 面临高计算成本和内存限制，无法处理 medium 和 large 规模的实例。这限制了它们在真实世界复杂问题中的应用。
图学习方法与传统求解器之间的性能差距: 在组合优化任务中，尽管图学习方法速度更快，但在解决方案质量上通常无法与精确求解器或手工启发式算法竞争。未来的工作可以探索如何弥合这一质量差距。
天气预报基线的简化: 论文承认其天气预报基线为了透明度和可复现性而简化，性能远低于专门系统。未来的工作可以引入更复杂的架构和领域特定优化，以提高性能。
GNNs 对某些任务的鲁棒性不足: 在算法推理任务中，GIN 在某些任务（如 MST, Steiner Trees）上表现出跨种子的不一致性，且在 Topological Sorting, Max Matching, Max Clique 任务上，性能随图尺寸增大而下降，这表明模型在这些任务上缺乏尺寸不变的泛化能力。
图Transformer 的训练困难: 在组合优化监督任务中，GT 性能波动大，可能与训练困难有关。
未来扩展: 展望未来，GraphBench 计划持续扩展，纳入新的领域、任务和评估范式，并提供对训练下一代多模态图基础模型 (multi-modal graph foundation models) 的支持。

7.3. 个人启发与批判

GraphBench 的发布对于图学习领域具有重要的战略意义，其提供的标准化和多样化基准测试，有望成为推动领域发展的重要基础设施。

个人启发:

标准化评估的必要性: GraphBench 深刻地启发了标准化评估在推动研究进展中的关键作用。通过统一的数据集划分、评估指标和 HPO 流程，它解决了以往研究中结果不可比、可复现性差的问题，这对于任何快速发展的 AI 子领域都具有借鉴意义。
OOD 泛化是核心挑战: 论文对 OOD 泛化的强调是极其前瞻的。在真实世界应用中，模型很少能保证测试数据与训练数据同分布。GraphBench 明确将 OOD 泛化纳入评估，迫使研究人员思考如何构建更鲁棒、更具通用性的图模型，这对于实现真正的“图基础模型”至关重要。
多领域交叉的潜力: GraphBench 涵盖的领域多样性令人印象深刻。它展示了图学习在芯片设计、组合优化和天气预报等传统上由物理或数学方法主导的领域的巨大潜力。这种交叉融合不仅能为图学习带来新的挑战和突破，也能为这些传统领域提供创新的解决方案。
工程实践的重要性: GraphBench 作为开源 Python 包的发布，以及其提供的易用工具（数据加载器、HPO 脚本），极大地降低了研究门槛。这表明在学术研究中，好的工程实践和工具开发同样重要，能够加速整个社区的进步。
图表示的灵活性: SAT 求解任务中不同图表示 (VG, VCG, LCG) 对模型性能的显著影响，强调了针对特定问题选择或设计合适图表示的重要性。这提醒我们，在应用图学习时，领域知识与图表示的结合是关键。

批判和改进之处:

当前基线模型的局限性: 尽管 GraphBench 提供了基线，但它们在许多任务上的表现仍远未达到最优，尤其是在 SAT 求解和天气预报等复杂任务中，甚至不如传统方法或简单 Persistence 模型。这固然为未来研究留下了巨大空间，但也可能导致初学者误认为图学习在这些领域效果不佳。在未来的版本中，可以考虑引入一些更先进但仍具代表性的SOTA模型作为更强的基线，或者提供更详细的基线模型分析，解释其性能受限的原因（例如，是否是由于计算资源限制）。
OOD 泛化机制的深入探讨: 论文提出了 OOD 泛化测试，但对模型如何实现 OOD 泛化或为何在某些任务上失败的深入分析可以更丰富。例如，可以探讨不同 GNN 架构在捕捉结构不变性或因果机制方面的差异，这对于开发真正的 OOD 泛化模型至关重要。
计算资源的需求: 论文提到 MPNNs 在 SAT 求解和算法推理的大规模图上存在内存溢出和计算时间过长的问题。这表明 GraphBench 虽然提供了大规模数据集，但在实际应用中，计算效率仍然是图学习方法面临的巨大挑战。未来的基准测试可以考虑将模型的可扩展性和资源效率作为关键评估指标，甚至可能需要引入轻量级或近似算法作为额外基线。
多模态数据集成: 虽然论文提到了未来可能支持多模态图基础模型，但当前数据集主要关注单一模态（例如，社交网络中的文本特征，芯片设计中的图结构）。未来的 GraphBench 可以更积极地探索异构图和多模态特征融合的场景，以反映真实世界数据更复杂的特点。
对“图基础模型”的引导: 论文在标题和展望中多次提及“下一代图学习”和“图基础模型”。GraphBench 为此奠定了基础，但可以进一步明确如何通过其提供的基准测试来直接引导和评估“图基础模型”的关键特性，例如预训练策略、迁移学习能力、少样本学习等。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

GraphBench: Next-generation graph learning benchmarking

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 41 分钟读完 · 31,616 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 隶属机构

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.3. 技术演进与差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 统一评估协议

4.2.2. 软件接口和可访问性

4.2.3. 自动化超参数优化 (Automated Hyperparameter Optimization, HPO)

4.2.4. 基线模型架构 (Baseline Architectures)

5. 实验设置

5.1. 数据集

5.1.1. 社交科学 (Social Sciences)

5.1.2. 硬件设计 (Hardware Design)

5.1.3. 推理与优化 (Reasoning and Optimization)

5.1.4. 地球系统 (Earth Systems)

5.2. 评估指标

5.2.1. 社交网络 (Social Networks)

5.2.2. 硬件设计 (Hardware Design)

5.2.3. 推理与优化 (Reasoning and Optimization)

5.2.4. 算法推理 (Algorithmic Reasoning)

5.2.5. 地球系统 (Earth Systems)

5.3. 对比基线 (Baselines)

5.3.1. 图学习基线 (Graph Learning Baselines)

5.3.2. 领域特定基线 (Domain-Specific Baselines)

5.4. 实验评估协议

6. 实验结果与分析

6.1. 社交网络：BlueSky 用户参与度预测

6.2. 硬件设计：芯片设计与电子电路

6.2.1. 芯片设计：AIG 生成

6.2.2. 电子电路：电压转换率预测

6.3. 推理与优化：SAT 求解与组合优化

6.3.1. SAT 求解：算法选择与性能预测

6.3.2. 组合优化：预测最优解目标

6.3.3. 算法推理：模拟算法

6.4. 地球系统：天气预报

6.5. 自动化超参数优化 (HPO) 效果

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐