A physics-informed transformer neural operator for learning generalized solutions of initial boundary value problems

Deepak Subramani

论文状态：已完成

A physics-informed transformer neural operator for learning generalized solutions of initial boundary value problems

发表：2024/12/12

跨注意力机制 (2)物理驱动神经算子 (1)初边值问题求解 (1)非线性偏微分方程 (1)无仿真数据训练 (1)

原文链接 PDF 下载

价格：0.10

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种物理信息变压器神经算子（PINTO），解决初边值问题中的非线性偏微分方程。该方法通过迭代核积分算子单元和交叉注意力结构，能够在无模拟数据的情况下，仅依赖物理损失进行训练，从而有效应对未见初始和边界条件，提高了求解效率和准确性。

摘要

Initial boundary value problems arise commonly in applications with engineering and natural systems governed by nonlinear partial differential equations (PDEs). Operator learning is an emerging field for solving these equations by using a neural network to learn a map between infinite dimensional input and output function spaces. These neural operators are trained using a combination of data (observations or simulations) and PDE-residuals (physics-loss). A major drawback of existing neural approaches is the requirement to retrain with new initial/boundary conditions, and the necessity for a large amount of simulation data for training. We develop a physics-informed transformer neural operator (named PINTO) that efficiently generalizes to unseen initial and boundary conditions, trained in a simulation-free setting using only physics loss. The main innovation lies in our new iterative kernel integral operator units, implemented using cross-attention, to transform the PDE solution's domain points into an initial/boundary condition-aware representation vector, enabling efficient learning of the solution function for new scenarios. The PINTO architecture is applied to simulate the solutions of important equations used in engineering applications: advection, Burgers, and steady and unsteady Navier-Stokes equations (three flow scenarios). For these five test cases, we show that the relative errors during testing under challenging conditions of unseen initial/boundary conditions are only one-fifth to one-third of other leading physics informed operator learning methods. Moreover, our PINTO model is able to accurately solve the advection and Burgers equations at time steps that are not included in the training collocation points. The code is available at https://github.com/quest-lab-iisc/PINTO

论文精读

中文精读约 41 分钟读完 · 25,127 字

1. 论文基本信息

1.1. 标题

A physics-informed transformer neural operator for learning generalized solutions of initial boundary value problems 中文翻译: 用于学习初边值问题广义解的物理信息变压器神经算子

1.2. 作者

Sumanth Kumar Boya, Deepak N. Subramani 所属机构: 印度科学理工学院计算与数据科学系 (Department of Computational and Data Sciences, Indian Institute of Science, Bangalore)

1.3. 发表期刊/会议

该论文以预印本 (arXiv preprint) 形式发布，尚未在正式期刊或会议上发表。

1.4. 发表年份

2024年 (发布于 2024-12-12T07:22:02.000Z)

1.5. 摘要

初边值问题 (IBVPs, Initial Boundary Value Problems) 在由非线性偏微分方程 (PDEs, Partial Differential Equations) 控制的工程和自然系统应用中普遍存在。算子学习 (Operator Learning) 是一个新兴领域，通过使用神经网络学习无限维输入和输出函数空间之间的映射来解决这些方程。这些神经算子 (Neural Operators) 使用数据（观测或模拟）和 PDE 残差（物理损失, Physics-loss）的组合进行训练。现有神经方法的主要缺点是需要针对新的初始/边界条件进行重新训练，并且需要大量的模拟数据进行训练。本文开发了一种物理信息变压器神经算子 (Physics-informed transformer neural operator)，名为 PINTO，它能够有效地泛化到未见的初始和边界条件，并且仅使用物理损失在无模拟数据 (simulation-free) 的设置下进行训练。其主要创新在于新的迭代核积分算子单元 (iterative kernel integral operator units)，通过交叉注意力 (cross-attention) 实现，将 PDE 解的域点转换为初始/边界条件感知的表示向量 (initial/boundary condition-aware representation vector)，从而能够高效地学习新场景下的解函数。PINTO 架构被应用于模拟工程应用中重要方程的解：对流方程 (advection)、Burgers 方程 (Burgers)、以及稳态和非稳态 Navier-Stokes 方程（三种流场场景）。对于这五个测试案例，结果表明，在未见初始/边界条件的挑战性条件下，测试期间的相对误差仅为其他领先物理信息算子学习方法的五分之一到三分之一。此外，PINTO 模型能够准确求解训练配置点中未包含的时间步的对流方程和 Burgers 方程。代码已在 GitHub 上开源。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2412.09009v2 PDF 链接: https://arxiv.org/pdf/2412.09009v2.pdf 发布状态: 预印本 ( $v2$ 版本)。

2. 整体概括

2.1. 研究背景与动机

核心问题: 求解具有不同初始和边界条件的偏微分方程 (PDEs, Partial Differential Equations) 是工程和自然科学领域的核心挑战。传统的数值方法，如有限元法或有限差分法，通常需要针对每个新的初始或边界条件进行重新计算，这在需要快速推断（例如实时控制、参数探索）的应用中计算成本极高。

现有挑战与空白:

传统深度学习方法的局限性: 物理信息神经网络 (PINNs, Physics-Informed Neural Networks) 虽然能够结合物理定律进行训练，但它们本质上是针对特定问题实例进行训练的，即对于每一个新的初始或边界条件，PINN 模型需要完全重新训练，这限制了其泛化能力和实用性。
现有神经算子的数据依赖性: 神经算子 (Neural Operators) 旨在学习从函数空间到函数空间的映射，从而能够泛化到不同的函数输入。然而，大多数现有的神经算子（如 FNO、DeepONet 等）在训练时高度依赖大量的模拟数据（由传统数值求解器生成），这在某些领域可能难以获取，且模拟本身也耗时。
初边值条件泛化不足: 尽管一些神经算子能够泛化到未见的源函数或 PDE 参数，但它们在对未见的初始和边界条件进行泛化时，往往表现不佳或需要大量数据进行专门训练。

本文的切入点/创新思路: 本文旨在开发一种新的神经算子架构，它能够克服上述挑战：
实现对未见的初始和边界条件的高效泛化，而无需重新训练。
仅依赖 PDE 残差（即物理损失），而无需任何模拟数据进行训练。
通过引入 Transformer 架构中的 cross-attention 机制，使模型能够有效地编码和利用初始/边界条件信息，从而实现“边界感知”的解函数学习。

2.2. 核心贡献/主要发现

本文的核心贡献和主要发现可以总结如下：

提出了 PINTO 模型架构: 引入了一种名为 PINTO (Physics-informed transformer neural operator) 的新型物理信息变压器神经算子。这是首个能够在无模拟数据训练 (simulation-free setting) 且仅通过物理损失 (physics loss) 的情况下，有效泛化到未见初始和边界条件的神经算子模型。
创新性的迭代核积分算子单元 (iterative kernel integral operator units): PINTO 的核心创新在于其新的迭代核积分算子单元，该单元通过交叉注意力 (cross-attention) 机制实现。这个机制能够将 PDE 解域中的查询点 (query points) 转换为“初始/边界条件感知”的表示向量 (initial/boundary condition-aware representation vector)，从而显著提升模型对新场景的泛化能力。
卓越的泛化能力: PINTO 在多个具有挑战性的工程 PDE 实例中（包括一维对流方程、一维 Burgers 方程、二维稳态和非稳态 Navier-Stokes 方程的三个流场场景，即 Kovasznay Flow、Beltrami Flow 和 Lid Driven Cavity Flow），对未见初始和边界条件表现出卓越的泛化性能。
显著降低相对误差: 在这些测试案例中，PINTO 模型在未见条件下的相对误差仅为其他领先物理信息算子学习方法（如 PI-DeepONet）的五分之一到三分之一，证明了其优越性。
时间步泛化能力: PINTO 模型不仅能泛化到未见的初始/边界条件，还能准确求解在训练配置点中未包含的时间步 (time steps) 的 Advection 和 Burgers 方程，这进一步展示了其强大的泛化能力。
无模拟数据训练: PINTO 仅通过最小化 PDE 残差（物理损失）进行训练，无需预先生成大量的模拟数据，这大大降低了训练成本和数据依赖性。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 PINTO 模型的创新性和优势，我们需要回顾一些核心的基础概念。

3.1.1. 偏微分方程 (Partial Differential Equations, PDEs)

概念定义: 偏微分方程是包含未知函数及其多个自变量的偏导数的数学方程。它们广泛用于描述自然界和工程中的各种物理现象，如流体动力学、热传导、电磁学、量子力学等。

例子:

热传导方程: $\frac{\partial u}{\partial t} = \alpha \left( \frac{\partial^2 u}{\partial x^2} + \frac{\partial^2 u}{\partial y^2} + \frac{\partial^2 u}{\partial z^2} \right)$
Navier-Stokes 方程: 描述流体运动的基本方程组。

3.1.2. 初边值问题 (Initial Boundary Value Problems, IBVPs)

概念定义: IBVP 指的是一个 PDE 在给定初始条件 (Initial Conditions) 和边界条件 (Boundary Conditions) 下的求解问题。

初始条件: 指定系统在某个初始时间状态（通常是 $t=0$ ）的分布。
边界条件: 指定系统在空间边界上的行为，例如边界上的值（Dirichlet 条件）、边界上的法向导数（Neumann 条件）或两者的组合（Robin 条件）。 IBVP 的解通常是随时间和空间变化的函数。

3.1.3. 神经算子 (Neural Operators)

概念定义: 神经算子是一类新型的神经网络架构，旨在学习从一个无限维函数空间到另一个无限维函数空间的映射，而不是像传统神经网络那样学习从有限维向量到有限维向量的映射。这意味着一旦训练完成，神经算子可以处理任意离散化（即不同分辨率的网格）的输入函数，并输出相应的函数。这与传统的基于网格的数值求解器形成对比，后者需要固定网格。

与 PINN 的区别: PINN 学习的是一个特定的 PDE 实例的解（一个函数），而神经算子学习的是一个 PDE 族的解（一个算子），能够泛化到不同的输入函数（例如不同的初始条件或力项）。

3.1.4. 物理信息神经网络 (Physics-Informed Neural Networks, PINNs)

概念定义: PINN 是一种将神经网络与物理定律（通常表示为 PDEs）相结合的深度学习模型。它通过在损失函数中加入 PDE 残差项来强制神经网络的输出满足物理定律，而不仅仅是拟合数据。PINN 的损失函数通常包括数据拟合损失和物理损失。

PINN 的局限性: PINN 的主要局限在于，它们通常是针对单个 PDE 实例（即特定的初始条件、边界条件和 PDE 参数）进行训练的。如果初始或边界条件发生变化，通常需要从头开始重新训练模型。

3.1.5. 物理损失 (Physics Loss) / PDE-残差 (PDE-residuals)

概念定义: Physics Loss 是 PINN 和物理信息神经算子中使用的损失函数的一个组成部分。它量化了神经网络的输出在多大程度上未能满足 PDE 本身。对于一个 PDE $N(u) = f$ ，如果神经网络预测的解是 $u_{NN}$ ，那么 Physics Loss 通常计算为 $|N(u_{NN}) - f|^2$ 在域内采样点上的平均值。通过最小化这个损失，模型被强制学习满足物理定律的解。

3.1.6. 注意力机制 (Attention Mechanism) 与交叉注意力 (Cross-Attention)

概念定义:

注意力机制: 深度学习中一种重要的机制，允许模型在处理序列数据时，动态地权衡输入序列中不同部分的重要性。它通过计算查询 (Query) 和键 (Key) 之间的相似度来获得注意力分数，然后将这些分数应用于值 (Value) 的加权和，从而生成输出。
交叉注意力 (Cross-Attention): Transformer 模型中的一种注意力机制变体，它允许模型在处理一个序列（作为查询）时，关注另一个不同的序列（作为键和值）。在 PINTO 中，这被用于将 PDE 域内的查询点与边界条件信息（键和值）关联起来，从而使查询点“感知”边界信息。

核心公式 (Attention Mechanism): 虽然原文没有直接给出通用的注意力公式，但考虑到初学者的友好性，在此补充最基本的 Scaled Dot-Product Attention 公式，它是 Transformer 中所有注意力机制的基础： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释:

$Q$ (Query): 查询矩阵，代表当前要处理的信息。
$K$ (Key): 键矩阵，代表序列中每个元素的信息。
$V$ (Value): 值矩阵，代表序列中每个元素的内容。
$d_k$ : 键向量的维度，用于缩放点积，防止梯度过大。
$QK^T$ : 查询与键的点积，衡量查询与每个键的相似度。
$\mathrm{softmax}(\cdot)$ : 归一化函数，将相似度转换为权重分布。
$V$ : 值矩阵，通过注意力权重进行加权求和。

3.1.7. 变压器 (Transformer)

概念定义: Transformer 是一种基于注意力机制的深度学习模型架构，最初为自然语言处理任务而设计。它完全放弃了循环神经网络 (RNN) 和卷积神经网络 (CNN)，仅依赖自注意力 (Self-Attention) 和前馈神经网络 (Feed-Forward Networks)。其核心优势在于能够并行处理输入序列，并有效地捕捉长距离依赖关系。

3.2. 前人工作

3.2.1. `PINN` 及其局限性

如前所述，PINN (Physics-Informed Neural Networks) 能够通过物理损失项直接从 PDE 约束中学习解。然而，它们通常是针对特定 PDE 实例（即特定的初始/边界条件和 PDE 参数）进行训练的。这意味着，如果初始或边界条件发生变化，PINN 需要从头开始重新训练，这大大限制了它们在需要泛化到不同场景的应用中的实用性。

3.2.2. 神经算子 (Neural Operators) 的发展

为了解决 PINN 泛化能力不足的问题，神经算子应运而生。它们旨在学习从一个函数空间到另一个函数空间的映射，从而可以处理不同输入函数和离散化。

DeepONet (Deep Operator Network): 是一种早期的神经算子架构，它通过一个“分支网络”和一个“主干网络”来学习算子。分支网络处理输入函数，主干网络处理查询点。DeepONet 已经被扩展到物理信息版本，即 PI-DeepONet，通过添加 PDE 残差损失进行训练。
FNO (Fourier Neural Operator): 是一种离散化不变的神经算子，它在傅里叶空间中进行学习，能够有效地捕捉长程依赖关系。FNO 在许多 PDE 求解任务中取得了显著成功，但通常需要大量的模拟数据进行训练。
其他神经算子: 还包括 PINO (Physics-informed Neural Operators)、GNO (Graph Neural Operators)、Convolutional neural operators 等，它们各自在不同的方面进行改进，但许多仍然需要大量的模拟数据。

3.2.3. `Transformer` 在神经算子中的应用

Transformer 架构因其强大的序列处理能力和泛化能力，也被引入到神经算子领域。一些工作探索了如何使用 Transformer 处理不规则或变化的离散化网格，并利用其注意力机制来捕捉 PDE 中的复杂关系。例如，OperatorFormer 和 Operator Transformer 等模型。

3.3. 技术演进

从 PINN 到 PINTO 的技术演进可以看作是逐步解决 PDE 求解中泛化性和数据依赖性的过程：

PINN: 解决了在缺乏标签数据时利用物理信息进行 PDE 求解的问题，但牺牲了对不同初始/边界条件的泛化能力。
Neural Operators (例如 DeepONet, FNO): 旨在实现函数级别的泛化，但大多需要大量模拟数据进行训练。
Physics-informed Neural Operators (例如 PI-DeepONet): 结合了 PINN 的物理信息约束和 Neural Operators 的泛化理念，但仍面临在初边值条件泛化方面的挑战，且通常在实践中需要一定的模拟数据（或通过对数据进行预训练再微调）。
PINTO (本文): 在 Physics-informed Neural Operators 的基础上，引入了 Transformer 的 cross-attention 机制，专门设计用于高效地将初始/边界条件信息融入到解的表示中，从而在完全无模拟数据的情况下，实现了对未见初边值条件的卓越泛化。这代表了在数据效率和泛化能力之间取得更好平衡的一个重要进展。

3.4. 差异化分析

PINTO 模型与相关工作的核心区别和创新点如下：

初边值条件泛化能力:
- PINNs: 需要针对每个新的初始/边界条件重新训练。
- DeepONet / PI-DeepONet: 旨在学习算子，但其初始/边界条件泛化能力有限，通常需要大量模拟数据或对模型进行修改才能实现一定程度的泛化。
- PINTO: 专门设计了 cross-attention 机制来处理和编码初始/边界条件信息，使其能够高效地泛化到未见的初始和边界条件，而无需重新训练。实验结果表明其在此方面的性能远超 PI-DeepONet。
训练数据依赖性:
- FNO 和许多其他神经算子: 通常需要大量模拟数据进行监督学习训练。
- PINNs 和 PINTO: 仅依赖 PDE 残差（物理损失）进行训练，可以在无模拟数据的情况下工作。这是 PINTO 相较于数据驱动神经算子的一大优势。
核心机制 - Cross-Attention:
- DeepONet: 使用分支网络和主干网络，通过简单的 Hadamard product（哈达玛积）或拼接来融合信息。
- PINTO: 引入了迭代核积分算子单元，其核心是交叉注意力机制。这种机制允许解域的查询点动态地、自适应地“感知”并整合来自初始/边界条件序列的信息，从而生成一个“边界感知”的表示向量。这种方式比简单的拼接或乘法更能捕捉复杂的函数依赖关系。
对时间步的泛化:
- PINTO 能够准确预测训练配置点中未包含的时间步的解，这在许多现有方法中并不常见，进一步体现了其强大的泛化能力。
  
  总而言之，PINTO 的创新之处在于将物理信息训练与 Transformer 的 cross-attention 机制巧妙结合，专门解决了现有方法在初边值条件泛化方面的痛点，同时保持了无模拟数据训练的优势。

4. 方法论

本文提出的 PINTO 模型旨在学习从初始/边界条件函数空间到 PDE 解函数空间的映射，其核心在于结合了物理损失和 Transformer 架构中的 cross-attention 机制。

4.1. 方法原理

PINTO 的核心思想是将 PDE 的求解问题视为一个算子学习问题。它学习一个参数化的神经算子 $G_\theta$ ，该算子能够接收一个初始/边界条件函数 $b$ 作为输入，并输出对应的 PDE 解函数 $h$ 。为了实现对未见初始/边界条件的高效泛化，PINTO 引入了一种新的迭代核积分算子单元 (iterative kernel integral operator units)，该单元利用交叉注意力 (cross-attention) 机制。通过这种机制，模型能够将 PDE 解域中的查询点（即我们想要预测解的特定时空坐标）转换为一个“边界感知”的表示向量，从而使模型能够有效地学习任何新的初始/边界条件下的解函数。整个训练过程仅依赖于 PDE 的物理损失，无需任何预先生成的模拟数据。

4.2. 核心方法详解

PINTO 的开发遵循神经算子的经典范式，将算子学习分解为提升 (lifting)、迭代核积分 (iterative kernel integration) 和投影 (projection) 三个阶段。

4.2.1. 神经算子定义与损失函数

首先，我们考虑一个通用形式的偏微分方程 (PDE) 初边值问题 (IBVP)： $\begin{array}{r} N\left(h, X ; \alpha\right) = f \mathrm{on} \Omega, \\ \mathcal{B}\left(h, X_b\right) = b \mathrm{on} \partial \Omega, \end{array}$ 符号解释:

$h \in \mathcal{H} \subseteq \mathbb{R}^s$ : $s$ 维的解场 (solution field)，来自解空间 $\mathcal{H} \subset L^2(\Omega, \mathcal{R}^s)$ 。
$N$ : 一个通用的非线性微分算子 (nonlinear differential operator)，包含空间和时间偏导数。
$X \in \Omega \subseteq \mathbb{R}^d$ : $d$ 维的坐标，来自时空域 (spatiotemporal domain) $\Omega$ 。
$\alpha$ : PDE 的参数向量。
$f$ : 强加的力项 (forcing term)。
$\mathcal{B}$ : 初始/边界算子 (initial/boundary operator)。
$X_b \in \partial \Omega \subseteq \mathcal{R}^d$ : $d$ 维的初始/边界坐标，来自域的边界 (boundary) $\partial \Omega$ 。
$b$ : 强加的初始/边界条件向量 (imposed initial/boundary condition vector)。

IBVP 的目标是找到一个映射 $\mathcal{G}: \mathcal{A} \to \mathcal{H}$ ，使得对于每个初始/边界条件 $b \in \mathcal{A}$ ，都存在一个满足 PDE (1) 的解 $h \in \mathcal{H}$ ，即 $h = \mathcal{G}(b)$ 。解场 h(X) 可以在域内任何点 $X$ 处访问，表示为 $h(X) = \mathcal{G}(b)(X)$ 。

本文的目标是开发一个参数化的神经算子 $G_\theta(X, b; \Theta^*)$ ，它能够近似 $\mathcal{G}$ 并泛化以预测任何 $b \in \mathcal{A}$ 的正确 h(X)。其中 $\Theta^* \in \mathbb{R}^p$ 是神经网络的参数向量。

PINTO 模型采用 PDE 残差（即物理损失, physics-loss）来训练 $G_\theta$ 。模型必须满足的方程组如下： $\begin{array}{r} N ( \mathcal{G}_\theta ( X, b; \Theta^* ) , X ; \alpha ) = f \mathrm{on} \Omega, \\ \\ \mathcal{B} ( \mathcal{G}_\theta ( X, b; \Theta^* ) , X_b ) = b \mathrm{on} \partial \Omega \forall b \in \mathcal{B} . \end{array}$ 符号解释:

$N$ : 非线性微分算子。
$\mathcal{G}_\theta (X, b; \Theta^*)$ : 参数化神经算子，接收查询点 $X$ 和边界条件 $b$ 作为输入，输出预测解。
$X$ : 域内查询点。
$b$ : 初始/边界条件向量。
$\Theta^*$ : 神经网络的优化参数。
$\alpha$ : PDE 参数向量。
$f$ : 强加的力项。
$\mathcal{B}$ : 初始/边界算子。
$X_b$ : 边界上的坐标点。

因此，计算最优参数 $\Theta^*$ 的训练目标（通过经验风险最小化）可以表示为： $\operatorname*{min}_{\Theta} \sum_{k=1}^{K} \{ \frac{\lambda_1}{N_c} \sum_{j=1}^{N_c} |f_{c,k}^j - N(\mathcal{G}(\Theta; X_{c,k}^j); \alpha)|^2 + \frac{\lambda_2}{N_{ib}} \sum_{j=1}^{N_{ib}} |b_{ib,k}^j - \mathcal{B}(\mathcal{G}(\Theta; X_{ib,k}^j))|^2 \}$ 符号解释:
$\operatorname*{min}_{\Theta}$ : 优化目标是最小化神经网络的参数 $\Theta$ 。
$\sum_{k=1}^{K}$ : 对 $K$ 个离散采样的边界条件进行求和。
$\lambda_1, \lambda_2$ : 权重系数 (hyperparameters)，用于平衡 PDE 残差损失和边界条件损失。
$\frac{1}{N_c} \sum_{j=1}^{N_c} |f_{c,k}^j - N(\mathcal{G}(\Theta; X_{c,k}^j); \alpha)|^2$ : 这是域内 PDE 残差损失。
- $N_c$ : 域内配置点 (collocation points) 的数量。
- $X_{c,k}^j$ : 第 $k$ 个边界条件下，第 $j$ 个域内配置点。
- $f_{c,k}^j$ : 在 $X_{c,k}^j$ 处强加的力项。
- $N(\mathcal{G}(\Theta; X_{c,k}^j); \alpha)$ : 模型预测解在 $X_{c,k}^j$ 处代入 PDE 算子 $N$ 的结果。
$\frac{1}{N_{ib}} \sum_{j=1}^{N_{ib}} |b_{ib,k}^j - \mathcal{B}(\mathcal{G}(\Theta; X_{ib,k}^j))|^2$ : 这是边界条件损失。
- $N_{ib}$ : 初始/边界配置点 (initial/boundary collocation points) 的数量。
- $X_{ib,k}^j$ : 第 $k$ 个边界条件下，第 $j$ 个初始/边界配置点。
- $b_{ib,k}^j$ : 在 $X_{ib,k}^j$ 处强加的初始/边界条件值。
- $\mathcal{B}(\mathcal{G}(\Theta; X_{ib,k}^j))$ : 模型预测解在 $X_{ib,k}^j$ 处代入初始/边界算子 $\mathcal{B}$ 的结果。

4.2.2. 交叉注意力神经算子理论

PINTO 将参数化映射 $\mathcal{G}_\Theta \colon \mathcal{A} \to \mathcal{H}$ 构建为提升 (lifting)、迭代核积分 (iterative kernel integration) 和投影 (projection) 等神经层组合： $\mathcal{G}_{\boldsymbol \theta} := \boldsymbol{Q} \circ \sigma(\mathcal{W}_T + \mathcal{K}_T + b_T) \circ \cdot \cdot \cdot \circ \sigma(\mathcal{W}_1 + \mathcal{K}_1 + b_1) \circ \mathcal{P},$ 符号解释:

$\mathcal{P}$ : 提升算子 (lifting operator)，将输入数据映射到更高维的表示空间。
$\boldsymbol{Q}$ : 投影算子 (projection operator)，将隐藏表示映射回输出函数空间。
$\sigma$ : 逐点非线性激活函数。
$\mathcal{W}_t$ : 局部线性算子 (local linear operator)。
$\mathcal{K}_t$ : 非线性核积分算子 (nonlinear kernel integral operator)。
$b_t$ : 偏置函数 (bias function)。
$t = 1, \cdots, T$ : 表示 $T$ 个隐藏层，执行迭代核积分。

这些层将每个隐藏表示 $\nu_t \colon D_t \to \mathbb{R}^{d_{\nu_t}}$ 映射到下一个隐藏表示 $\nu_{t+1} \colon D_{t+1} \to \mathbb{R}^{d_{\nu_{t+1}}}$ ，其更新规则如下： $\nu_{t+1}(x) = \sigma_{t+1} \left( W_t \nu_t(x) + \int_{D_t} \left( \kappa^{(t)}(x, y) \nu_t(y) \right) d\nu_t(y) + b_t(x) \right) \forall x \in D_{t+1}.$ 符号解释:
$\nu_t(x)$ : 在第 $t$ 层，点 $x$ 处的隐藏表示。
$\sigma_{t+1}$ : 第 $t+1$ 层的非线性激活函数。
$W_t$ : 第 $t$ 层的线性变换矩阵。
$\int_{D_t} \left( \kappa^{(t)}(x, y) \nu_t(y) \right) d\nu_t(y)$ : 这是一个积分项，表示一个非线性核积分算子，其中 $\kappa^{(t)}(x, y)$ 是一个核函数，捕捉了点 $x$ 和 $y$ 之间的相互作用。
$b_t(x)$ : 第 $t$ 层的偏置函数。

本文提出使用编码层 $\mathcal{S} = W_{qpe}X$ 作为提升算子 $\mathcal{P}$ ，其中 $W_{qpe}$ 是一个查询点编码矩阵；使用多层感知机 (MLP, Multi-Layer Perceptron) $Q = \mathrm{MLP}(\nu_T(X))$ 作为投影算子 $\boldsymbol{Q}$ 。

核心创新在于，对于非线性核积分算子 $\mathcal{K}_t$ ，PINTO 提出了一种交叉注意力核积分算子： $\mathcal{K}_t = \int_{\partial \Omega} \frac{\exp \Big( \frac{\langle A_h \nu_t(X) , B_h W_{bpe} X_b \rangle}{\sqrt{m}} \Big)}{\int_{\partial \Omega} \exp \Big( \frac{\langle A_h \nu_t(X) , B_h W_{bpe} X_b \rangle}{\sqrt{m}} \Big) \mathrm{d} \mathbf{X_b}} R_h W_{b\nu e} b \mathrm{d} \mathbf{X_b},$ 符号解释:

$\nu_t(X)$ : 边界域查询点 (query point) $X$ 的隐藏表示。
$W_{bpe}$ : 边界位置编码 (Boundary Position Encoding, BPE) 矩阵，用于编码初始/边界域的坐标 $X_b$ 。
$W_{b\nu e}$ : 边界值编码 (Boundary Value Encoding, BVE) 矩阵，用于编码边界条件函数值 $b$ 。
$A_h$ : 线性变换，用于编码查询点 $\nu_t(X)$ ，使其成为注意力机制中的 query (查询)。
$B_h$ : 线性变换，用于编码边界点 $W_{bpe} X_b$ ，使其成为注意力机制中的 key (键)。
$R_h$ : 线性变换，用于编码边界函数值 $W_{b\nu e} b$ ，使其成为注意力机制中的 value (值)。
$m$ : 编码向量的维度 (hyperparameter)，也用于缩放 dot product ( $\sqrt{m}$ )。
$\langle \cdot , \cdot \rangle$ : 欧氏内积 (Euclidean inner product) 在 $\mathbb{R}^m$ 空间中。
$\exp(\cdot)$ : 指数函数。
分母部分：是 softmax 归一化操作的连续形式，确保注意力权重总和为 1。
$\int_{\partial \Omega} \dots \mathrm{d} \mathbf{X_b}$ : 表示对边界域 $\partial \Omega$ 上的积分。

这个公式实现了将查询点 $X$ 与整个边界 $\partial \Omega$ 上的所有初始/边界条件 $b$ 进行交叉注意力计算。它通过计算查询点 $X$ 的表示与边界点 $X_b$ 的表示之间的相似度，来加权求和边界函数值 $b$ 的编码表示，从而生成一个“边界感知”的隐藏表示。

4.2.3. 实践实现 (`PINTO` 架构)

下图（原文 Figure 1）展示了 PINTO 模型的架构示意图：

该图像是示意图，展示了一种物理信息驱动的变压器神经算子模型的架构。图中包含。通过“查询点编码”、“边界位置编码”和“边界值编码”输入信息，随后进入交叉注意力单元进行处理。模型的输出为通过多层密集层和交叉注意力机制计算得出的结果。该结构旨在优化对初始和边界条件的学习，以有效解决非线性偏微分方程。

VLM 描述: 该图像是示意图，展示了一种物理信息驱动的变压器神经算子模型的架构。图中包含。通过“查询点编码”、“边界位置编码”和“边界值编码”输入信息，随后进入交叉注意力单元进行处理。模型的输出为通过多层密集层和交叉注意力机制计算得出的结果。该结构旨在优化对初始和边界条件的学习，以有效解决非线性偏微分方程。

PINTO 架构主要包括三个阶段的操作：

编码阶段 (Input Encoding):
- 边界函数编码: 边界函数 $\mathcal{B}(X_b^i)$ 在 $L$ 个离散点 $X_b^i$ , $i = 1, \cdots, L$ 处被采样，并使用边界值编码 (BVE, Boundary Value Encoding) 和边界位置编码 (BPE, Boundary Position Encoding) 单元进行编码。这些单元将边界值和其位置信息转换为维度为 $m$ 的向量。
- 查询点编码: 解决方案域的查询点坐标 $X$ 也使用查询点编码 (QPE, Query Point Encoding) 单元进行编码，生成维度为 $m$ 的向量。
- QPE、BPE 和 BVE 单元通常使用密集层 (dense layers) 实现，但也可以使用卷积 (convolution) 或循环 (recurrent) 层。
交叉注意力单元 (Cross-Attention Units, CAUs) 阶段:
- 这是 PINTO 的核心。网络通过多个交叉注意力单元来获取一个边界感知的查询点编码向量。
- 在每个 CAU 中，边界的键 (key) 和值 (value) 是共享的，以确保初始/边界条件信息被整合到查询点的隐藏表示中。
- 首先，编码查询点 $\nu_t(\boldsymbol{X})$ $ν_{t} (X)$ 与每个离散的初始/边界点及其值之间的注意力分数 $\zeta_i$ $ζ_{i}$ 计算如下： $\zeta_i = \left( \sum_{l=1}^{L} \exp \left( \frac{\langle A_h \nu_t(\boldsymbol{X}) , B_h W_{bpe}(X_b^l) \rangle}{\sqrt{m}} \right) \right)^{-1} \exp \left( \frac{\langle A_h \nu_t(\boldsymbol{X}) , B_h W_{bpe}(X_b^i) \rangle}{\sqrt{m}} \right).$ 符号解释:
  - $\nu_t(\boldsymbol{X})$ : 在第 $t$ 层，编码后的查询点 $\boldsymbol{X}$ 的隐藏表示。
  - $A_h$ : 线性变换，用于将 $\nu_t(\boldsymbol{X})$ 转换为 query。
  - $B_h$ : 线性变换，用于将边界位置编码 $W_{bpe}(X_b^l)$ 转换为 key。
  - $W_{bpe}(X_b^l)$ : 第 $l$ 个离散边界点 $X_b^l$ 的位置编码。
  - $m$ : 编码向量维度，用于缩放点积。
  - $\langle \cdot , \cdot \rangle$ : 欧氏内积。
  - $\sum_{l=1}^{L} \exp(\dots)$ : 对应于 softmax 函数中的分母，对所有边界点求和。
  - $\exp(\dots)$ : 对应于 softmax 函数中的分子。
- 接着，CAU 的输出 $\nu_{t+1}(X)$ $ν_{t + 1} (X)$ ，结合了 $H$ $H$ 个注意力头 (attention heads)、残差连接 (residual connection) 和 Swish 非线性激活函数，计算如下： $\nu_{t+1}(X) = \sigma \left( A_h \nu_t(X) + \left( \sum_{h=1}^{H} \sum_{i=1}^{L} \zeta_i \cdot R_h W_{b\nu e} (\mathcal{B}(X_b^i)) \right) \right).$ 符号解释:
  - $\sigma$ : Swish 非线性激活函数。
  - $A_h \nu_t(X)$ : 残差连接项，直接添加了查询点自身的变换。
  - $\sum_{h=1}^{H}$ : 对 $H$ 个注意力头的结果进行求和或拼接（通常是拼接后线性投影）。
  - $\sum_{i=1}^{L} \zeta_i \cdot R_h W_{b\nu e} (\mathcal{B}(X_b^i))$ : 交叉注意力机制的输出，其中 $\zeta_i$ 是注意力分数， $R_h$ 是线性变换，用于将边界值编码 $W_{b\nu e} (\mathcal{B}(X_b^i))$ 转换为 value。
  - $W_{b\nu e} (\mathcal{B}(X_b^i))$ : 第 $i$ 个离散边界点 $X_b^i$ 处的边界条件值 $\mathcal{B}(X_b^i)$ 的值编码。
- 模型可以堆叠多个这样的 CAU 来进行迭代处理，深化边界信息的整合。
投影阶段 (Projection):
- 最终的边界感知查询点编码向量通过一系列密集层 (dense layers) 映射到最终的解函数。

训练数据准备:

训练过程中，数据必须进行预处理，以包含域内的配置点（用于应用 PDE 损失）以及边界点（用于应用边界条件损失和 PDE 损失）。
对于 Dirichlet 边界条件 (Dirichlet boundary conditions)，边界值直接作为输入提供给 BVE 单元。
对于 Neumann 边界条件 (Neumann boundary conditions)，则需要将导数值编码到 BVE 单元中。

5. 实验设置

PINTO 模型在五个不同的偏微分方程 (PDE) 测试案例中进行了评估，以展示其在模拟 PDE 解以及泛化到未见初始和边界条件方面的性能。所有模型均在 GitHub 上开源的代码 quest-lab-iisc/pinto 上进行训练。

5.1. 数据集

实验使用了多种 PDE，涵盖了从简单到复杂的不同特性，以全面评估 PINTO 的性能。

5.1.1. 1D 对流方程 (1D Advection Equation)

来源与特点: 对流方程是一种双曲方程，广泛用于模拟流场中保守标量（例如污染物浓度、热量等）的输运过程。
方程形式: $\begin{array}{l} \displaystyle \frac{\partial u}{\partial t} + \beta \frac{\partial u}{\partial x} = 0, \mathrm{in} \Omega = \{ (x, t) : x \in [0, 1], t \in (0, \infty) \} \\ \displaystyle u(0, x) = \sum_{k_i = k_1, \cdots, k_N} \left( A_i \sin k_i x + \phi_i \right), \mathrm{in} \partial \Omega \end{array}$ 符号解释:
- $u$ : 待求解的标量场。
- $x$ : 空间坐标。
- $t$ : 时间坐标。
- $\beta$ : 常数对流速度，实验中设置为 0.1。
- $\Omega$ : 时空域。
- $u(0, x)$ : 初始条件。
- $k_i = 2\pi\{n_i\}/L_x$ : 波数值，其中 $\{n_i\}$ 是 $[1, n_{max}]$ 中的随机整数， $N$ 是波的数量， $L_x$ 是域大小。
- $A_i$ : 振幅，在 [0, 1] 之间随机选择。
- $\phi_i$ : 相位，在 $(0, 2\pi)$ 之间随机选择。
训练与测试: 随机生成 100 个初始条件，其中 80 个用于训练 PINTO 和 PI-DeepONet，20 个用于测试泛化能力。
验证: 使用 PDEBENCH 数据集中的高精度数值解（采用 2 阶迎风方案和 1024 个空间网格点）进行验证。PINTO 模型并未在 PDEBENCH 数据集上训练。
训练参数: 2000 个域内配置点，250 个初始/边界点，域为 $[0, 1] \times [0, 1]$ 。

5.1.2. 1D Burgers 方程 (1D Burgers Equation)

来源与特点: Burgers 方程是一个非线性 PDE，常用于模拟湍流、流体流动、气体动力学和交通流等现象。它包含对流项和耗散项，能够产生激波等复杂行为。
方程形式: $\begin{array}{l} \displaystyle { \frac{\partial u}{\partial t} + u \frac{\partial u}{\partial x} = \nu \frac{\partial^2 u}{\partial x^2}, } \\ \displaystyle { u(0, x) = u_0(x), } \end{array}$ 符号解释:
- $u$ : 待求解的标量场（速度）。
- $\nu$ : 粘性系数，实验中设置为 0.01。
- $u_0(x)$ : 初始条件，从均值为零、协方差由拉普拉斯算子确定的 Gaussian random field (高斯随机场) 中采样。
训练与测试: 训练 PINTO 学习多个初始条件到其解的映射。
验证: 使用现成的求解器 (off the shelf solver) 获得的数值解进行验证。
训练参数: 2000 个域内配置点，250 个初始/边界点，域为 $[0, 1] \times [0, 1]$ 。测试了 20 个未见初始条件。

5.1.3. Navier-Stokes 方程 (Navier-Stokes Equation)

Navier-Stokes 方程是一组描述不可压缩牛顿流体动量的非线性 PDEs。

方程形式: $\begin{array}{r} \displaystyle \frac{\partial {\bf u}}{\partial t} + ( {\bf u} \cdot \nabla ) {\bf u} = - \nabla p + \frac{1}{Re} ( \nabla^2 {\bf u} ), \\ \nabla \cdot {\bf u} = 0, \mathrm{in} \Omega, \\ {\bf u} = {\bf g}, \mathrm{on} \partial \Omega, \end{array}$ 符号解释:
- $\mathbf{u}$ : 速度向量。
- $p$ : 压力。
- Re: 雷诺数 (Reynolds number)，一个无量纲参数，描述了流体惯性力与粘性力之比。
- $\mathbf{g}$ : 初始/边界条件。
- $\nabla \cdot \mathbf{u} = 0$ : 不可压缩性条件。
  
  本文针对 Navier-Stokes 方程测试了三种流场场景：

5.1.3.1. Kovasznay Flow (Kovasznay 流动)

来源与特点: Kovasznay Flow 是稳态 Navier-Stokes 方程的一个解析解，用于描述流过无限多圆柱体的流场。
解析解: $\begin{array}{l} { \displaystyle u(x, y) = 1 - e^{\zeta x} \cos(2\pi y), } \\ { \displaystyle \nu(x, y) = \frac{\zeta}{2\pi} e^{\zeta x} \sin(2\pi y), } \\ { \displaystyle p(x, y) = \frac{1}{2} (1 - e^{2\zeta x}), } \end{array}$ 其中 $\zeta = 0.5 \mathrm{Re} - \sqrt{0.25 (\mathrm{Re})^2 + 4\pi^2}$ 。
训练与测试: 域为 $[-0.5, 1.0] \times [-0.5, 1.5]$ 。边界条件通过解析解在边界处评估得到。改变 Reynolds number ( $\mathrm{Re}$ ) 会改变边界条件。
训练参数: 2000 个域内配置点，254 个边界点。BPE 和 BVE 序列长度为 80。
模型输出: 由于输出是向量 $(u, \nu, p)$ ，PINTO 有三个独立的输出单元，每个单元包含 2 个隐藏密集层（64 个神经元）。

5.1.3.2. Beltrami Flow (Beltrami 流动)

来源与特点: Beltrami Flow 是非稳态 Navier-Stokes 方程的一个解析解。
解析解: $\begin{array}{l} { u(x, y, t) = - \cos \pi x \sin \pi y e^{-2\pi^2 \nu t}, } \\ { \nu(x, y, t) = sin \pi x \cos \pi y e^{-2\pi^2 \nu t}, } \\ { p(x, y, t) = - \displaystyle \frac{\cos 2\pi x + \cos 2\pi y}{4} e^{-4\pi^2 \nu t}, } \end{array}$ 其中 $\nu = 1 / \mathrm{Re}$ 。
训练与测试: 初始和边界条件通过解析表达式提供。改变 Reynolds number ( $\mathrm{Re}$ ) 会产生不同的初始和边界条件。
训练参数: 5000 个时空域配置点，1000 个边界条件点（每侧 50 个），500 个初始条件点。模型配置和超参数选择与 Kovasznay Flow 相同。

5.1.3.3. Lid Driven Cavity Flow (盖驱动腔流)

来源与特点: Lid Driven Cavity Flow 是一个经典的流体力学问题，描述了在一个封闭腔体中，顶盖以恒定速度移动所产生的流场。这是一个稳态 Navier-Stokes 方程问题。
训练与测试: 域为 $[0, 1] \times [0, 1]$ ，Reynolds number 为 50。模型旨在学习盖速度与流场之间的映射。
验证: 使用有限体积求解器 (FiVo code) 生成的数值解进行验证。
训练参数: 2000 个域内配置点，400 个边界点（每侧 100 个）。

5.2. 评估指标

本文主要使用相对误差 (Relative Error) 作为评估模型性能的指标。

5.2.1. 相对误差 (Relative Error)

概念定义: 相对误差是一个无量纲的指标，用于衡量模型预测值与真实值之间的相对偏差。它表示预测结果偏离真实值的百分比或比例，能够有效地评估模型在不同尺度问题上的准确性，因为它不受解的绝对大小影响。

数学公式: $\text{Relative Error} = \frac{\sum_j |u_{\text{pred},j} - u_{\text{true},j}|}{\sum_j |u_{\text{true},j}|}$ 符号解释:

$u_{\text{pred},j}$ : 模型在第 $j$ 个空间-时间点预测的解值。
$u_{\text{true},j}$ : 在第 $j$ 个空间-时间点真实的解值（来自解析解或高精度数值解）。
$\sum_j$ : 对所有评估点的求和。
$|\cdot|$ : 绝对值。

5.3. 对比基线

本文将 PINTO 模型的性能与物理信息 DeepONet (PI-DeepONet, Physics-informed DeepONet) 进行了比较。

5.3.1. 物理信息 DeepONet (PI-DeepONet)

DeepONet 是一种流行的神经算子架构，旨在学习算子（函数到函数的映射）。PI-DeepONet 是 DeepONet 的一个变体，它在训练过程中结合了 PDE 残差损失，使其能够利用物理信息。虽然 PI-DeepONet 最初并非专门为泛化到不同的初始/边界条件而设计，但其算子学习的特性使其可以尝试用于此类任务。论文将 PI-DeepONet 作为基线，以评估 PINTO 在初边值条件泛化方面的优越性。PI-DeepONet 的代码和数据也已开源。

6. 实验结果与分析

本节详细分析 PINTO 模型在五个测试案例上的实验结果，并将其与 PI-DeepONet 进行比较，重点关注模型对未见初始和边界条件的泛化能力。

6.1. 核心结果分析

以下是原文 Table 1 的结果，总结了 PINTO 和 PI-DeepONet 在不同测试案例下的相对误差。括号中的值是标准差。

以下是原文 Table 1 的结果：

Test Case	Seen Conditions	Unseen Conditions	Seen Conditions	Unseen Conditions
	PINTO	PINTO	PI-DeepONet	PI-DeepONet
1D Advection equation	2.11% (4.01%)	2.85% (4.73%)	1.35% (3.75%)	11.26% (11.42%)
1D Burgers equation	4.81% (4.43%)	5.24% (4.51%)	12.81% (11.85%)	15.03% (10.78%)
Kovasznay Flow	0.037% (0.0325%)	0.41% (2.55%)	0.08% (0.066%)	2.26% (6.54%)
Beltrami Flow	0.53% (0.1%)	0.6% (0.92%)	2.62% (4.19%)	4.89% (12.14%)
Lid Driven Cavity Flow	1.36% (1.44%)	2.78%(2.49%)	1.96% (2.31%)	6.08% (6.61%)

综合分析: 从 Table 1 可以看出，PINTO 模型在所有五个测试案例中，尤其是在处理未见初始/边界条件 (Unseen Conditions) 时，表现出显著优于 PI-DeepONet 的泛化能力。PINTO 在未见条件下的相对误差通常仅为 PI-DeepONet 的五分之一到三分之一，这强有力地验证了 PINTO 架构（特别是其 cross-attention 单元）在编码和利用边界信息以实现泛化方面的有效性。即使在“已见条件”下，PINTO 的性能也与 PI-DeepONet 相当或更优。

6.1.1. 1D 对流方程 (Advection Equation)

性能提升: PINTO 在未见初始条件下的相对误差为 2.85%，而 PI-DeepONet 则高达 11.26%。这表明 PINTO 对未见初始条件的泛化能力是 PI-DeepONet 的约四倍。
时间泛化: 如下图（原文 Figure 3）所示，PINTO 能够准确预测训练时间步之外的解（ $t > 1$ ），甚至在未见初始条件下也能保持准确性。PI-DeepONet 在未见初始条件和未来时间步上则表现出较大偏差。

以下是原文 Figure 3 的结果：

$该图像是一个示意图，展示了使用PINTO模型和其他方法在已见和未见初始条件下的性能比较。图中横坐标为 $x$，纵坐标为 `u(t, x)`，分为三个时间点 ($t=0.01, 1.0, 2.0$) 的数据。从左到右分别为已见初始条件（Seen ICs）和未见初始条件（Unseen ICs）。蓝线表示PINTO模型，橙虚线表示数值解，黄虚线表示PI-DeepONet。不同颜色的曲线展示了模型在相同条件下的预测结果和真实情况的对比。$ 该图像是一个示意图，展示了使用PINTO模型和其他方法在已见和未见初始条件下的性能比较。图中横坐标为 $x$ ，纵坐标为 u(t, x)，分为三个时间点 ( $t=0.01, 1.0, 2.0$ ) 的数据。从左到右分别为已见初始条件（Seen ICs）和未见初始条件（Unseen ICs）。蓝线表示PINTO模型，橙虚线表示数值解，黄虚线表示PI-DeepONet。不同颜色的曲线展示了模型在相同条件下的预测结果和真实情况的对比。

VLM 描述: 该图像是一个示意图，展示了使用PINTO模型和其他方法在已见和未见初始条件下的性能比较。图中横坐标为 $x$ ，纵坐标为 u(t, x)，分为三个时间点 ( $t=0.01, 1.0, 2.0$ ) 的数据。从左到右分别为已见初始条件（Seen ICs）和未见初始条件（Unseen ICs）。蓝线表示PINTO模型，橙虚线表示数值解，黄虚线表示PI-DeepONet。不同颜色的曲线展示了模型在相同条件下的预测结果和真实情况的对比。

可视化分析: 从 Figure 3 可以清晰地看到，对于已见初始条件 (Seen ICs)，两个模型都能很好地预测未来时间步。然而，对于未见初始条件 (Unseen ICs)，PINTO 的预测曲线与数值解（Numerical solution）高度吻合，即使在 $t=2.0$ 这样的未来时间步也能保持准确。相比之下，PI-DeepONet 的预测曲线在未见初始条件下，特别是随着时间推移，与数值解的偏差明显增大。
相对误差图: 如下图（原文 Figure 2）所示，PINTO 的相对误差在整个域内都较低且分布均匀，而 PI-DeepONet 的误差在未见初始条件下更为显著。

以下是原文 Figure 2 的结果：

$该图像是一个数据可视化图，展示了在不同初始条件（ICs）下，PINTO模型的解与数值解的比较，包括相对误差。左侧为已见初始条件，右侧为未见初始条件，包含在$x$轴上的真实值与相对误差。图中信息展示了模型在不同条件下的预测准确性。$ 该图像是一个数据可视化图，展示了在不同初始条件（ICs）下，PINTO模型的解与数值解的比较，包括相对误差。左侧为已见初始条件，右侧为未见初始条件，包含在 $x$ 轴上的真实值与相对误差。图中信息展示了模型在不同条件下的预测准确性。

VLM 描述: 该图像是一个数据可视化图，展示了在不同初始条件（ICs）下，PINTO模型的解与数值解的比较，包括相对误差。左侧为已见初始条件，右侧为未见初始条件，包含在 $x$ 轴上的真实值与相对误差。图中信息展示了模型在不同条件下的预测准确性。

6.1.2. 1D Burgers 方程 (Burgers Equation)

性能提升: PINTO 在未见初始条件下的相对误差为 5.24%，而 PI-DeepONet 为 15.03%，相差近三倍。
时间泛化: 如下图（原文 Figure 6）所示，PINTO 即使在训练域之外的时间步（如 $t=2.0$ ）也能准确捕捉 Burgers 方程的非线性行为，而 PI-DeepONet 的偏差更大。

以下是原文 Figure 6 的结果：

$该图像是一个示意图，展示了在不同初始条件（ICs）下，PINTO模型与其它模型（如Pi-DeepONet和数值解法）在时间$t=0.5, 1.0, 2.0$时得到的解的对比。左侧部分为已见初始条件，右侧部分为未见初始条件。横轴为位置$x$，纵轴为解的值`u(t,x)`，不同颜色和线型代表不同模型的输出，表明PINTO在新情境下的优越表现。$ 该图像是一个示意图，展示了在不同初始条件（ICs）下，PINTO模型与其它模型（如Pi-DeepONet和数值解法）在时间 $t=0.5, 1.0, 2.0$ 时得到的解的对比。左侧部分为已见初始条件，右侧部分为未见初始条件。横轴为位置 $x$ ，纵轴为解的值u(t,x)，不同颜色和线型代表不同模型的输出，表明PINTO在新情境下的优越表现。

VLM 描述: 该图像是一个示意图，展示了在不同初始条件（ICs）下，PINTO模型与其它模型（如Pi-DeepONet和数值解法）在时间 $t=0.5, 1.0, 2.0$ 时得到的解的对比。左侧部分为已见初始条件，右侧部分为未见初始条件。横轴为位置 $x$ ，纵轴为解的值u(t,x)，不同颜色和线型代表不同模型的输出，表明PINTO在新情境下的优越表现。

可视化分析: 从 Figure 6 中可以看出，PINTO 模型对于已见和未见初始条件下的 Burgers 方程解的预测，在不同时间步（包括 $t=2.0$ 这一训练时间域外的时间步）上都与数值解吻合良好。PI-DeepONet 在未见初始条件和较晚时间步上，其预测与数值解的偏差更为明显。
相对误差图: 如下图（原文 Figure 5）所示，PINTO 在未见初始条件下的相对误差远低于 PI-DeepONet。

以下是原文 Figure 5 的结果：

该图像是一个展示初始条件（ICs）引起的不同模型解决方案的示意图。左侧展示了已知初始条件下的PINTO解决方案、数值解决方案及其相对误差，右侧则展示了未知初始条件下的相应结果。整体显示PINTO模型在未知条件下的表现比其他方法有显著优势。

VLM 描述: 该图像是一个展示初始条件（ICs）引起的不同模型解决方案的示意图。左侧展示了已知初始条件下的PINTO解决方案、数值解决方案及其相对误差，右侧则展示了未知初始条件下的相应结果。整体显示PINTO模型在未知条件下的表现比其他方法有显著优势。

6.1.3. Kovasznay Flow (Kovasznay 流动)

性能提升: PINTO 在未见条件（不同 Reynolds number）下的相对误差为 0.41%，而 PI-DeepONet 为 2.26%，PINTO 的误差仅为 PI-DeepONet 的约五分之一。
可视化分析: 如下图（原文 Figure 7）所示，PINTO 在已见和未见 Re 值下都能准确捕获流场结构，相对误差很小且分布均匀。

以下是原文 Figure 7 的结果：

该图像是一个示意图，展示了不同雷诺数（Re=20、50、15、25）下，PINTO预测与分析解的流场对比。上半部分为PINTO预测，底部为相对误差，右侧显示了流量的分布情况。

VLM 描述: 该图像是一个示意图，展示了不同雷诺数（Re=20、50、15、25）下，PINTO预测与分析解的流场对比。上半部分为PINTO预测，底部为相对误差，右侧显示了流量的分布情况。

6.1.4. Beltrami Flow (Beltrami 流动)

性能提升: PINTO 在未见初始条件下的相对误差为 0.6%，而 PI-DeepONet 为 4.89%，PINTO 的误差仅为 PI-DeepONet 的约八分之一。
可视化分析: 如下图（原文 Figure 8）所示，PINTO 模型能精确预测 Beltrami Flow 在不同 Re 值下的瞬态行为，尤其是在 $t=0.5$ 时刻的流线和速度场。

以下是原文 Figure 8 的结果：

该图像是一个示意图，展示了物理信息变换器神经算子（PINTO）在不同 Reynolds 数（Re）条件下的预测、分析解及相对误差。左侧显示了已见条件（Re=10和Re=50）的预测和分析解，而右侧展示了未见条件（Re=20和Re=30）的结果。相对误差的图像位于底部，表明在不同条件下的预测精度。

VLM 描述: 该图像是一个示意图，展示了物理信息变换器神经算子（PINTO）在不同 Reynolds 数（Re）条件下的预测、分析解及相对误差。左侧显示了已见条件（Re=10和Re=50）的预测和分析解，而右侧展示了未见条件（Re=20和Re=30）的结果。相对误差的图像位于底部，表明在不同条件下的预测精度。

6.1.5. Lid Driven Cavity Flow (盖驱动腔流)

性能提升: PINTO 在未见盖速度条件下的相对误差为 2.78%，而 PI-DeepONet 为 6.08%，PINTO 的误差是 PI-DeepONet 的不到一半。
可视化分析: 如下图（原文 Figure 9 和 Figure 10）所示，PINTO 在不同盖速度下都能准确模拟流场，包括涡流的形成和位置，而 PI-DeepONet 在高挑战性条件下可能出现较大误差。

以下是原文 Figure 9 的结果：

该图像是展示了PINTO模型的预测结果与数字解的比较，包括在已知和未知的边界速度下的相应流场。同时也展示了相对误差的分布，展示PINTO模型在新场景下的有效性和准确性。

VLM 描述: 该图像是展示了PINTO模型的预测结果与数字解的比较，包括在已知和未知的边界速度下的相应流场。同时也展示了相对误差的分布，展示PINTO模型在新场景下的有效性和准确性。

以下是原文 Figure 10 的结果：

该图像是图表，展示了在不同 lid 速度下，Pinto 模型和 PI-DeepONet 模型的预测、数值解和相对误差的对比。上层显示了预测的等高线图，中层为数值解，底层为相对误差，显示了 PINTO 在处理未见初始和边界条件方面的有效性。

VLM 描述: 该图像是图表，展示了在不同 lid 速度下，Pinto 模型和 PI-DeepONet 模型的预测、数值解和相对误差的对比。上层显示了预测的等高线图，中层为数值解，底层为相对误差，显示了 PINTO 在处理未见初始和边界条件方面的有效性。

6.1.6. 学习曲线 (Learning Curves)

如下图（原文 Figure B.1）所示，展示了 PINTO 和 PI-DeepONet 在五个测试案例中的损失函数变化趋势。

以下是原文 Figure 11 的结果：

该图像是一个训练曲线图，展示了PINTO与PI-DeepONet在解决不同流动问题（如Advection、Burgers、Beltrami Flow和Lid Driven Flow）的损失函数表现。图中包含初始与边界损失、残余损失和总损失的变化趋势，显示PINTO在未见初始/边界条件下的优越性。

VLM 描述: 该图像是一个训练曲线图，展示了PINTO与PI-DeepONet在解决不同流动问题（如Advection、Burgers、Beltrami Flow和Lid Driven Flow）的损失函数表现。图中包含初始与边界损失、残余损失和总损失的变化趋势，显示PINTO在未见初始/边界条件下的优越性。

分析: 从学习曲线可以看出，PINTO 在训练过程中能够有效地降低总损失、初始/边界损失和 PDE 残差损失。这表明模型能够同时满足物理定律和边界条件。

6.2. 消融实验/参数分析

本文在附录中提供了超参数选择和学习率对模型性能影响的实验。

6.2.1. 超参数调优示例 (Advection 和 Burgers 方程)

以下是原文 Table A.1 的结果，总结了超参数选择对 Advection 和 Burgers 方程性能的影响：

Expt.	CrossAttentionUnits	Epochs	Activation	Learning Rate	SequenceLength	RelativeError
Expt.	CrossAttentionUnits	Epochs	Activation	Learning Rate	SequenceLength	RelativeError	Advection Equation
1	1	40000	swish	5e-5	40	8%
2	1	40000	swish	1e-5	40	7.57%
3	1	40000	tanh	1e-4	40	7.98%
4	1	40000	tanh	5e-5	40	8.43%
5	1	40000	tanh	1e-5	40	7.21%
6	1	40000	tanh	1e-5	60	2.61%
7	1	40000	tanh	1e-5	80	2.534%
8	2	20000	swish	1e-5	40	4.88%
9	2	20000	tanh	1e-5	60	2.47%
Burgerss Equation
1	2	20000	tanh	1e-3	40	6.06%
2	3	20000	tanh	1e-3	40	5.58%
3	3	20000	tanh	Exponential Decaylearning_rate=le-3decay_rate = 0.9decay_steps = 10000	40	5.24%

学习率和序列长度: 如下图（原文 Figure 4）所示，较低的学习率和较长的序列长度通常会带来更低的验证损失。例如，在对流方程中，将序列长度从 40 增加到 60 或 80，相对误差显著下降。

以下是原文 Figure 4 的结果：

该图像是两个学习曲线图，分别展示了不同学习率和序列长度对模型训练效果的影响。图(a)显示了在不同学习率（1e-4、1e-5、5e-5）下的损失随训练轮数的变化。图(b)展示了在不同序列长度（20、40、60、80）下，损失的变化情况。

VLM 描述: 该图像是两个学习曲线图，分别展示了不同学习率和序列长度对模型训练效果的影响。图(a)显示了在不同学习率（1e-4、1e-5、5e-5）下的损失随训练轮数的变化。图(b)展示了在不同序列长度（20、40、60、80）下，损失的变化情况。

CAU 数量: 增加 Cross-Attention Units (CAUs) 的数量（例如从 1 个增加到 2 个）有时可以进一步降低误差，但通常伴随着计算成本的增加。
激活函数: Swish 和 tanh 激活函数在不同任务中表现略有差异，但都能够有效地训练模型。

这些实验表明，PINTO 模型的性能对超参数（如学习率、序列长度和 CAU 数量）敏感，需要进行适当调优以达到最佳性能。

6.2.2. 模型架构参数

以下是原文 Table B.3 的结果，总结了 PINTO 和 PI-DeepONets 的模型架构超参数：

TestCase	# Parameters		QPE,BPE, BVE		Cross-Attention Unit				Ouput
TestCase	PINTO	PIDeepONets	Layers	Units	MHAheads	key_dim	#CAUs	Layers(Units)	Ouput	Layers(Units)
AdvectionEquation	100289	109400	2	64	2	64	2	2(64)	2(64)
BurgersEquation	141825	208896	2	64	2	64	3	2(64)	2(64)
KovasznayFlow	75779	69568	2	64	2	64	1	1(64)	2(64)
BeltramiFlow	75779	69568	2	64	2	64	1	1(64)	2(64)
LidDrivenCavityFlow	112834	91264	2	64	2	64	1	2(64)	2(64)

参数数量: PINTO 和 PI-DeepONet 的参数数量相当，甚至在某些情况下 PINTO 的参数量更少，这表明 PINTO 并非通过增加模型复杂度来获得性能提升，而是通过更有效的架构设计。
CAU 数量: 不同的 PDE 需要不同数量的 CAUs，例如 Burgers 方程使用了 3 个 CAUs，而 Navier-Stokes 相关的流场仅使用 1 个。这可能反映了不同 PDE 对边界信息依赖的复杂程度。

6.2.3. 训练超参数

以下是原文 Table B.4 的结果，总结了 PINTO 和 PI-DeepONet 的训练超参数：

TestCase	Epochs	DomainPoints	Num.Batches	Optimizer		LR Scheduler	Sequence Length
TestCase	Epochs	DomainPoints	Num.Batches	Type	LearningRate	LR Scheduler	PINTO	PI- Deep-ONets
AdvectionEquation	20000	2000	10	Adam	1e-5	-	60	80
BurgersEquation	20000	2000	6	Adam	1e-3	Exponentialrate=0.9steps=10000	40	80
KovasznayFlow	40000	2000	5	Adam	5e-4	-	80	80
BeltramiFlow	40000	5000	5	Adam	1e-4	-	100	100
LidDrivenCavityFlow	50000	5000	5	AdamW	1e-3	PiecewiseConstantboundaries[5000, 10000]values[1e − 3, 1e − 4, 1e − 5]	40	40

训练时间: PINTO 和 PI-DeepONet 的训练 epochs 数量相似，但 PINTO 在泛化性能上表现更优。
学习率调度器: 对于一些更复杂的任务，如 Burgers 和 Lid Driven Cavity Flow，使用了学习率调度器 (LR Scheduler) 来优化训练过程。

6.3. 计算复杂性讨论

论文在讨论部分对 PINTO 的计算复杂性进行了说明。通常，基于 Transformer 的模型因注意力机制而计算密集。然而，PINTO 的设计使其具有相对较低的复杂度。

PINTO 的注意力机制复杂度: $O(N \times n_e^2)$ 。
通用注意力机制复杂度: $O(M N \times n_e^2)$ 。

符号解释:

$N$ : key 序列的长度（即边界点的数量）。
$M$ : query 序列的长度。
$n_e$ : 嵌入维度 (embedding dimension)。

在 PINTO 中，查询点是单个时空坐标，因此 query 序列的长度 $M=1$ 。这使得 PINTO 的注意力机制复杂度显著低于通用注意力机制，使其在处理单个查询点时更为高效。

7. 总结与思考

7.1. 结论总结

本文成功开发并提出了一种名为 PINTO (Physics-informed transformer neural operator) 的新型物理信息变压器神经算子。PINTO 的核心创新在于其迭代核积分算子单元，该单元巧妙地利用了交叉注意力机制，将 PDE 解域中的查询点有效地转化为“初始/边界条件感知”的表示向量。这一机制使得 PINTO 能够以卓越的性能泛化到未见的初始和边界条件，而无需重新训练，且仅通过物理损失进行训练，完全摆脱了对大量模拟数据的依赖。

通过在对流方程、Burgers 方程以及稳态和非稳态 Navier-Stokes 方程（包括 Kovasznay、Beltrami 和 Lid Driven Cavity Flow 场景）等五个具有挑战性的 PDE 测试案例上的验证，PINTO 均表现出显著优于现有领先的物理信息算子学习方法（如 PI-DeepONet）的泛化能力。在未见条件下的相对误差仅为对比模型的五分之一到三分之一。此外，PINTO 还展示了预测训练时间步之外解的能力，进一步证实了其强大的泛化和预测潜力。

7.2. 局限性与未来工作

7.2.1. 局限性

计算复杂性: 尽管 PINTO 的 cross-attention 机制通过将 query 序列长度设定为 1 降低了复杂度到 $O(N \times n_e^2)$ ，但 Transformer 架构本身对于大规模问题或更高维度的 PDE 求解，仍可能面临计算资源和训练时间的挑战。
超参数敏感性: 从附录的超参数调优结果来看，不同的 PDE 案例需要不同的超参数设置（如 CAU 数量、学习率、序列长度等），这可能意味着模型对超参数的敏感性较高，通用性调优仍需进一步探索。
几何泛化: 论文主要关注初始/边界条件函数层面的泛化，对于复杂的几何形状变化，现有 PINTO 架构的直接泛化能力可能仍有限。

7.2.2. 未来工作

更广泛的 PDE 应用: 将 PINTO 应用于更复杂、更高维度的 PDE，例如在 3D 流体动力学、多物理场耦合问题或涉及不确定性的问题中。
效率优化: 进一步优化 PINTO 的计算效率，例如探索更稀疏的注意力机制、知识蒸馏或与更高效的网络结构结合，以处理更大规模的问题。
几何泛化: 作者指出 cross-attention 单元的通用性使其可以作为其他算子架构的通用组件，未来可以将其应用于实现几何泛化 (geometry generalization)，即模型能够泛化到未见的 PDE 域几何形状。
实时应用: 探索 PINTO 在实时预测和控制系统中的应用潜力，例如在快速响应的工程设计或灾害预测中。

7.3. 个人启发与批判

7.3.1. 个人启发

物理信息与 Transformer 的强大结合: PINTO 成功地将物理信息训练（无需模拟数据）与 Transformer 的强大序列处理和泛化能力结合起来，提供了一种解决 IBVP 泛化难题的新范式。这种结合有望为科学机器学习 (Scientific Machine Learning) 领域带来新的突破，特别是在那些物理定律明确但模拟数据稀缺的领域。
Cross-Attention 的巧妙应用: 将 cross-attention 机制用于将查询点转换为“边界感知”的表示，是本文的一大亮点。这种机制提供了一种优雅且高效的方式来整合全局（边界）信息到局部（查询点）预测中，这对于 PDE 求解中边界条件的关键作用至关重要。这启发我们，注意力机制不仅可以用于序列内部的依赖，也可以用于多源信息的有效融合。
超越训练时间步的预测: PINTO 能够准确预测训练时间步之外的解，这对于需要长期预测或探索动态系统演化的应用具有巨大价值，例如气候建模或材料老化预测。这表明模型学习到的物理规律是足够鲁棒和深入的。

7.3.2. 批判

计算资源门槛: 尽管 PINTO 相较于一般 Transformer 注意力机制降低了复杂度，但 Transformer 模型的训练（尤其是在复杂的 PDE 上）仍然可能需要显著的计算资源。对于资源有限的研究者或实际应用，这可能是一个限制。论文中虽然展示了 2D 案例的成功，但未深入探讨 3D 或更高维 PDE 的性能和资源消耗，这在实际工程问题中是一个关键考量。
超参数调优的复杂性: 论文附录中的超参数表显示，不同 PDE 案例的最佳超参数组合差异较大（例如 CAU 数量、学习率调度器等），这暗示着 PINTO 可能对超参数比较敏感。在没有先验知识的情况下，为新问题找到最优超参数可能需要大量的试错，这会增加应用的复杂性和成本。
可解释性挑战: 深度学习模型普遍存在可解释性不足的问题，PINTO 也不例外。虽然它结合了物理信息，但内部 cross-attention 机制如何精确地捕捉和利用物理定律以及边界条件，仍是一个“黑箱”过程。理解模型为何在某些情况下表现优秀或失败，对于模型的可靠性验证和进一步改进至关重要。
PINTO 作为通用框架的潜力待验证: 论文提出 PINTO 的 cross-attention 单元可以增强其他神经算子。这虽是一个有前景的方向，但其通用性和在不同算子架构上的效果仍需未来研究的广泛验证。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

A physics-informed transformer neural operator for learning generalized solutions of initial boundary value problems

TL;DR 精炼摘要

摘要

论文精读

中文精读约 41 分钟读完 · 25,127 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 偏微分方程 (Partial Differential Equations, PDEs)

3.1.2. 初边值问题 (Initial Boundary Value Problems, IBVPs)

3.1.3. 神经算子 (Neural Operators)

3.1.4. 物理信息神经网络 (Physics-Informed Neural Networks, PINNs)

3.1.5. 物理损失 (Physics Loss) / PDE-残差 (PDE-residuals)

3.1.6. 注意力机制 (Attention Mechanism) 与 交叉注意力 (Cross-Attention)

3.1.7. 变压器 (Transformer)

3.2. 前人工作

3.2.1. PINN 及其局限性

3.2.2. 神经算子 (Neural Operators) 的发展

3.2.3. Transformer 在神经算子中的应用

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 神经算子定义与损失函数

4.2.2. 交叉注意力神经算子理论

4.2.3. 实践实现 (PINTO 架构)

5. 实验设置

5.1. 数据集

5.1.1. 1D 对流方程 (1D Advection Equation)

5.1.2. 1D Burgers 方程 (1D Burgers Equation)

5.1.3. Navier-Stokes 方程 (Navier-Stokes Equation)

5.1.3.1. Kovasznay Flow (Kovasznay 流动)

5.1.3.2. Beltrami Flow (Beltrami 流动)

5.1.3.3. Lid Driven Cavity Flow (盖驱动腔流)

5.2. 评估指标

5.2.1. 相对误差 (Relative Error)

5.3. 对比基线

5.3.1. 物理信息 DeepONet (PI-DeepONet)

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 1D 对流方程 (Advection Equation)

6.1.2. 1D Burgers 方程 (Burgers Equation)

6.1.3. Kovasznay Flow (Kovasznay 流动)

6.1.4. Beltrami Flow (Beltrami 流动)

6.1.5. Lid Driven Cavity Flow (盖驱动腔流)

6.1.6. 学习曲线 (Learning Curves)

6.2. 消融实验/参数分析

6.2.1. 超参数调优示例 (Advection 和 Burgers 方程)

6.2.2. 模型架构参数

6.2.3. 训练超参数

6.3. 计算复杂性讨论

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.2.1. 局限性

7.2.2. 未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判

相似论文推荐

3.1.6. 注意力机制 (Attention Mechanism) 与交叉注意力 (Cross-Attention)

3.2.1. `PINN` 及其局限性

3.2.3. `Transformer` 在神经算子中的应用

4.2.3. 实践实现 (`PINTO` 架构)