摘要

This paper proposes physics-informed neural operators (PINO) that integrate training data and physics constraints to learn the solution operator of parametric PDE families. The method addresses optimization challenges in existing models like PINNs and reduces data requirements in approaches such as FNO. Experiments demonstrate that the resulting PINO model accurately approximates ground-truth solution operators for various PDE families, outperforming previous ML methods while effectively solving complex flows.

1. 论文基本信息

1.1. 标题

Physics-Informed Neural Operator for Learning Partial Differential Equations (用于学习偏微分方程的物理信息神经算子)

1.2. 作者

Zongyi Li (李宗义), Hongkai Zheng (郑弘凯), Nikola Kovachki (尼古拉·科瓦奇基), David Jin (戴维·金), Haoxuan Chen (陈浩轩), Burigede Liu (布里格德·刘), Kamyar Azizzadenesheli (卡姆亚尔·阿齐扎德内舍利) 和 Anima Anandkumar (阿尼玛·阿南德库马尔)。作者均隶属于美国加州理工学院 (California Institute of Technology) 的计算与数学科学系，其中 Kamyar Azizzadenesheli 还与 NVIDIA 合作。Zongyi Li 和 Hongkai Zheng 对这项研究贡献相同。

1.3. 发表期刊/会议

ACM/IMS J. Data Sci. 1, 3, Article 9 (May 2024), 27 pages. 这是一篇发表在 ACM/IMS 数据科学期刊 (ACM/IMS Journal of Data Science) 上的文章。该期刊专注于数据科学领域，在机器学习和计算方法方面具有学术影响力。

1.4. 发表年份

2024年 (论文草稿于2021年11月6日发布)。ACM Reference Format 中给出的正式发表年份是 2024 年。

1.5. 摘要

这篇论文提出了一种名为 物理信息神经算子 (Physics-Informed Neural Operators - PINO) 的方法，它结合了训练数据和物理约束来学习参数化 偏微分方程 (Partial Differential Equations - PDE) 族（PDE families）的解算子 (solution operator)。该方法旨在解决现有模型（如 物理信息神经网络 - Physics-Informed Neural Networks - PINNs）中存在的优化挑战，并减少其他方法（如 傅里叶神经算子 - Fourier Neural Operator - FNO）对数据的需求。实验结果表明，PINO 模型能够准确地近似各种 PDE 族的 真实标注解算子 (ground-truth solution operators)，其性能超越了以往的机器学习方法，并能有效解决复杂的流动问题。

1.6. 原文链接

/files/papers/691b06b7110b75dcc59ae4ae/paper.pdf 发布状态：已正式发表。

2. 整体概括

2.1. 研究背景与动机

核心问题： 机器学习方法在解决科学与工程中的 偏微分方程 (PDE) 方面展现出巨大潜力，但现有方法存在显著局限性。主要有两种范式：

近似解函数 (Approximating the solution function)： 以 物理信息神经网络 (PINN) 为代表，直接学习单个 PDE 实例的解函数。
学习解算子 (Learning the solution operator)： 以 傅里叶神经算子 (FNO) 为代表，学习从输入函数（如初始条件、边界条件）到输出解函数（solution function）的映射关系，即 解算子 (solution operator)。

重要性： PDE 广泛应用于物理、工程、金融等领域，快速准确地求解 PDE 对于科学发现和工程设计至关重要。

现有挑战与空白：

PINN 的挑战： PINN 的优化过程极具挑战性，容易失败，尤其是在处理多尺度动态系统时。它通过最小化 PDE 残差来学习特定 PDE 实例的解，但不具备泛化能力。
FNO 的挑战： FNO 作为一种 算子学习 (operator learning) 方法，通过有监督学习在给定数据集上训练。然而，获取高质量、高分辨率的 PDE 训练数据通常非常昂贵甚至不可行，这限制了 FNO 的应用范围，尤其是在数据稀缺或仅有低分辨率数据的情况下。
数据分辨率限制： 现有的数据驱动 算子学习 方法在只有低分辨率训练数据时，难以学习到高保真度的模型，并且对训练数据分布之外的场景泛化能力差。

论文的切入点/创新思路： 本文旨在克服 PINN 的优化难题，同时缓解 FNO 对大量高质量数据的需求。论文提出了一种新的学习范式 物理信息神经算子 (PINO)，通过将训练数据与高分辨率的物理约束相结合，实现在数据稀缺或低分辨率场景下，依然能学习到高保真度的 解算子，并能泛化到更高分辨率的未知数据。

2.2. 核心贡献/主要发现

论文的主要贡献和发现可以总结如下：

提出 PINO 框架： 引入了一种新颖的混合学习框架 PINO，它创造性地将数据驱动的 算子学习 与物理信息约束结合起来。这使得 PINO 能够同时利用可用数据和 PDE 的物理定律，解决了 PINN 的优化难题和 FNO 的数据依赖问题。
双阶段学习范式： PINO 包含两个阶段：
1. 算子学习 (Operator Learning)： 在多个 PDE 实例上，利用训练数据（即使是低分辨率数据）和高分辨率的 物理约束 (physics constraints) 共同训练 解算子。
2. 实例级微调 (Instance-wise Fine-tuning)： 对于新的 PDE 实例，利用预训练的 算子 作为 解函数 的 初始猜测 (ansatz)，仅使用 物理约束 进行进一步优化，以达到更高的精度。
实现零样本超分辨率 (Zero-shot Super-resolution)： PINO 能够从低分辨率训练数据中学习，并在测试时以高精度外推到训练时未见的高分辨率数据，且性能无显著下降。这对于实际应用中数据分辨率受限的场景具有重要意义。
显著降低数据需求： 借助 PDE 约束，PINO 可以在极少甚至没有训练数据的情况下学习 Burgers、Darcy 和 Navier-Stokes 方程的 解算子，极大地扩展了 算子学习 的适用范围。
优越的性能和效率： PINO 在多个流行的 PDE 族（如 Burgers、Darcy、Navier-Stokes）上表现出超越现有机器学习方法的准确性，并保持了 FNO 相对于传统求解器 (solvers) 惊人的速度优势（例如，比 GPU 伪谱求解器快 400 倍）。
有效解决复杂流动问题： PINO 能够准确求解长期瞬态流动和混沌 Kolmogorov 流等复杂问题，这些问题是其他基线方法难以收敛的。
参数泛化能力： PINO 模型通过实例级微调，可以轻松地从一个 Reynolds 数（Reynolds number）迁移到另一个 Reynolds 数，展示了其在不同物理条件下的泛化能力。
应用于逆问题 (Inverse Problems)： PINO 也成功应用于逆问题，通过结合 PDE 损失，确保了逆向恢复结果的物理有效性，并且比传统 MCMC 方法快 3000 倍。

3. 预备知识与相关工作

3.1. 基础概念

偏微分方程 (Partial Differential Equations - PDEs)：
- 概念定义： PDE 是一种包含多个自变量（如空间坐标和时间）的未知函数及其偏导数的方程。它们是描述自然界中许多物理现象（如热传导、流体动力学、电磁学）和工程过程（如结构力学、化学反应）的基本数学工具。
- 本文中的分类：
  - 定常系统 (Stationary System)： 不随时间变化的系统，其 PDE 通常只包含空间偏导数，例如 Darcy 流。
  - 动力学系统 (Dynamical System)： 随时间演化的系统，其 PDE 包含时间偏导数和空间偏导数，例如 Burgers 方程和 Navier-Stokes 方程。
解函数 (Solution Function) 与解算子 (Solution Operator)：
- 解函数： 对于一个给定的 PDE 实例（即确定了所有参数、初始条件和边界条件），其对应的具体函数解 u(x, t)。PINN 学习的就是这个 解函数。
- 解算子： 更高层级的概念，它是一个映射，将 PDE 的参数（如初始条件、边界条件或系数函数）从一个函数空间映射到其 解函数 所在的另一个函数空间。例如，对于一个 PDE 族，解算子 $\mathcal{G}^\dagger$ 可以将不同的初始条件 $a$ 映射到其对应的解 $u$ 。神经算子 学习的就是这个 解算子。
机器学习 (Machine Learning - ML) 解决 PDE 的两种范式：
- 近似解函数： 将 PDE 的解 u(x, t) 直接建模为一个神经网络。例如 PINN。这种方法通常针对一个 PDE 的特定实例进行优化，不直接泛化到 PDE 族的其它实例。
- 学习解算子： 将 PDE 的输入函数（如初始条件）到输出解函数（solution function）的映射关系建模为一个神经网络。例如 FNO 和 DeepONet。这种方法旨在学习整个 PDE 族的行为，可以泛化到 PDE 族中未见的实例。
神经算子 (Neural Operators)：
- 概念定义： 神经算子 是 深度学习 (Deep Learning) 模型的一种泛化，旨在学习从一个函数空间到另一个函数空间的映射（即 算子），而不是像传统神经网络那样学习固定维度输入到固定维度输出的映射。这意味着 神经算子 可以处理任意分辨率的输入和输出函数，并且在理论上能够近似任何连续算子。
- 通用近似定理 (Universal Approximation Theorem) for Operators： 类似于标准神经网络的通用近似定理，神经算子 也被证明是任何连续算子的通用近似器 (universal approximator)。这意味着它们有能力近似任何 PDE 族的 解算子。
- 离散化收敛性 (Discretization Convergent)： 神经算子 在网格细化 (mesh refinement) 的极限下，能够收敛到连续的 算子。这意味着它们在推理时可以应用于任意分辨率的数据，而无需重新训练。
物理信息神经网络 (Physics-Informed Neural Network - PINN)：
- 概念定义： PINN 是一种利用神经网络来近似 PDE 解函数的方法。它通过构建一个损失函数，该损失函数包含两部分：一部分是 PDE 残差 (PDE residual)，即神经网络近似解代入 PDE 后产生的误差；另一部分是边界条件 (boundary conditions) 和/或初始条件 (initial conditions) 的误差。
- 核心机制： PINN 利用 自动微分 (automatic differentiation - autograd) 来计算神经网络输出对输入变量（如空间和时间）的导数，从而直接评估 PDE 残差。通过最小化这个损失函数，神经网络被“强制”学习到满足 PDE 及其条件的解。
- 优点： 无需大量标记数据，仅需 PDE 公式和边界/初始条件。
- 缺点： 优化挑战大，特别对于多尺度、高频率或长时间动态系统；每次只能解决一个 PDE 实例，无法泛化。
傅里叶神经算子 (Fourier Neural Operator - FNO)：
- 概念定义： FNO 是一种特定类型的 神经算子，它在 傅里叶空间 (Fourier space) 中执行大部分计算。它通过 傅里叶变换 (Fast Fourier Transform - FFT) 将函数从物理空间转换到傅里叶空间，在那里执行一个线性卷积操作，然后再通过 逆傅里叶变换 (Inverse Fast Fourier Transform - IFFT) 转换回物理空间。
- 优点： 利用 FFT 的高效性，能够快速处理和学习复杂的非线性 PDE 算子，并且在处理周期性问题时表现出色。它也是 离散化收敛 的。
- 缺点： 纯数据驱动，需要大量高质量的训练数据；对训练数据分布之外的 PDE 实例泛化能力有限。

3.2. 前人工作

PINN 及其变体：
- PINN (Raissi et al., 2019) 提供了无需数据即可求解 PDE 的强大框架，但其主要挑战在于优化。当 PDE 解具有高频或多尺度结构时，PINN 往往会失败，并且难以将信息从初始/边界条件传播到内部或未来时间。此外，PINN 只能学习单个 PDE 实例的解，不具备算子学习的能力。
- 为了改善 PINN 的优化问题，研究者们提出了许多变体，例如 LAAF-PINN (Locally Adaptive Activation Functions for PINN) 和 SA-PINN (Self-Adaptive PINN)，通过调整激活函数或损失权重来缓解优化难度。然而，这些方法并未从根本上改变 PINN 的单实例求解范式。
数据驱动的 神经算子 (如 FNO, DeepONet)：
- FNO (Li et al., 2021) 和 DeepONet (Lu et al., 2021) 是 算子学习 领域的代表性工作，它们能够学习整个 PDE 族的 解算子，并显著加速 PDE 求解过程。
- FNO 通过在 傅里叶空间 中进行高效的卷积操作，在湍流模拟等非线性问题上取得了 最先进的 (state-of-the-art) 结果。它具有 离散化收敛性，可以在不同分辨率下进行推理。
- DeepONet 基于通用近似定理，将算子分解为 分支网络 (branch net) 和 主干网络 (trunk net) 来学习。
- 局限性： 尽管这些方法强大，但它们高度依赖于大量高质量的训练数据。当数据稀缺、昂贵或只有低分辨率数据时，它们的性能会受到严重限制，且泛化到训练分布之外的能力较弱。
混合学习方法：
- 一些早期的工作尝试结合数据和物理约束，例如 Physics-informed DeepONet (Wang et al., 2021) 在 DeepONet 上施加 PDE 损失。
- 本文的独特之处： PINO 的独特之处在于其能够在不同分辨率下结合数据和 PDE 损失，特别是在利用高分辨率 PDE 约束来弥补低分辨率训练数据的不足方面，这是以前的工作未曾尝试的。这使得 PINO 能够更好地外推到更高分辨率。

3.3. 技术演进

PDE 求解方法的发展可以大致分为以下阶段：

传统数值求解器： 如有限差分法 (Finite Difference Methods - FDM)、有限元法 (Finite Element Methods - FEM)、谱方法 (Spectral Methods)。它们提供高精度解，但计算成本高昂，尤其对于复杂问题和高维问题。
机器学习增强的求解器： 旨在加速传统求解器，例如通过学习网格生成、稀疏化或多重网格策略。
纯神经网络求解器：
- PINN： 通过神经网络直接近似 PDE 解函数，无需网格离散化，利用自动微分计算物理约束。
- 算子学习： 进一步超越单实例求解，直接学习从输入函数空间到输出函数空间的 解算子。DeepONet 和 FNO 是其代表，旨在一次性学习整个 PDE 族的解。
  
  PINO 处于 算子学习 的前沿，它结合了 PINN 的物理信息优势和 FNO 的 算子学习 优势，并在处理数据效率、优化稳定性和跨分辨率泛化方面达到了新的高度。它代表了 PDE 求解中 数据驱动 和 物理驱动 方法融合的最新进展。

3.4. 差异化分析

PINO 与现有主要 ML 求解 PDE 方法的核心差异和创新点如下：

与 PINN 的区别：
- 学习目标： PINN 学习单个 PDE 实例的解函数 u(x,t)；PINO 学习整个 PDE 族的 解算子 $\mathcal{G}^\dagger: a \mapsto u$ 。
- 优化稳定性和效率： PINN 的优化通常非常困难，因为它需要从头开始寻找一个满足 PDE 的函数。PINO 通过 算子学习 阶段预训练了一个 算子 作为 解函数 的 初始猜测 (ansatz)，然后在 实例级微调 阶段利用这个 ansatz 进行优化，这使得优化过程更加稳定和高效。
- 泛化能力： PINN 无法泛化到新的 PDE 实例；PINO 学习到的 算子 可以泛化到 PDE 族中未见的新实例。
与 FNO (纯数据驱动 神经算子) 的区别：
- 数据依赖性： FNO 严重依赖大量高质量的训练数据；PINO 通过引入 PDE 约束，显著减少了对训练数据的需求，甚至可以在无数据场景下工作。
- 高保真度外推能力： FNO 在处理训练数据分辨率之外的 超分辨率 (super-resolution) 任务时，性能会下降。PINO 通过在更高分辨率上施加 PDE 约束，即使训练数据分辨率较低，也能实现对高分辨率的 真实标注解算子 的高保真度近似。
- 物理有效性： PINO 的 PDE 约束确保了学习到的解在物理上是有效的，这在 FNO 等纯数据驱动方法中没有明确保证，尤其是在泛化到训练分布之外时。
与 Physics-informed DeepONet 等混合方法的区别：
- 多分辨率约束： PINO 是首个在 算子学习 框架中，能够在不同分辨率下结合数据和 PDE 损失的方法。例如，使用低分辨率数据和高分辨率 PDE 约束进行训练，以实现 超分辨率 外推。
- 架构优势： PINO 以 FNO 为 主干网络 (backbone)，FNO 在处理复杂非线性问题和周期性边界条件方面具有计算效率和表达能力优势。
  
  简而言之，PINO 巧妙地融合了 PINN 的物理信息优势和 FNO 的 算子学习 优势，通过独特的多分辨率损失和双阶段学习策略，克服了各自的局限性，实现了数据效率、优化稳定性、跨分辨率泛化和物理有效性的全面提升。

4. 方法论

4.1. 方法原理

PINO (Physics-Informed Neural Operator) 的核心思想是结合数据驱动的学习和物理定律约束，以学习 参数化 PDE (parametric PDE) 族的 解算子 (solution operator)。它旨在解决 PINN 的优化挑战和 FNO 的数据依赖问题。

PINO 的原理基于两个关键阶段：

算子学习 (Operator Learning) 阶段： 在此阶段，PINO 利用 神经算子 模型（本文使用 FNO 作为 主干网络）来学习一个初步的 解算子 $\mathcal{G}_\theta$ 。训练过程中，模型同时考虑两种损失：
- 数据损失 (Data Loss)： 来自于有限的 PDE 实例的输入-输出对（例如，初始条件 $a$ 及其对应的解 $u$ ）。
- PDE 损失 (PDE Loss)： 直接根据 PDE 本身的形式构建，衡量 神经算子 预测的解在物理上是否满足 PDE。特别地，PINO 可以在高分辨率下施加 PDE 约束，即使训练数据是低分辨率的，也能通过物理定律指导模型学习高保真度信息。通过这种混合训练，PINO 学习到一个对 PDE 族有良好泛化能力的通用 算子，并且其优化过程比 PINN 更稳定，对数据的需求比 FNO 更低。
实例级微调 (Instance-wise Fine-tuning) 阶段： 当需要解决一个新的、特定的 PDE 实例时，PINO 会利用在 算子学习 阶段预训练好的 神经算子 $\mathcal{G}_\theta$ 作为 解函数 的 初始猜测 (ansatz)。这个 ansatz 包含了整个 PDE 族的通用知识。然后，通过仅使用该特定实例的 物理约束（即 PDE 损失）来对 ansatz 进行微调。可选地，还可以引入一个 锚定损失 (anchor loss)，将微调后的模型限制在原始学习到的 算子 附近，以防止过拟合或优化不稳定。这个阶段类似于 PINN 的优化，但由于有了良好的 ansatz 起点，优化变得更加容易和高效，能够实现更高的精度。

通过这两个阶段，PINO 能够有效地结合 数据 的具体监督和 物理定律 的普适性约束，在数据稀缺和需要高分辨率预测的场景下表现出色。

4.2. 核心方法详解

4.2.1. 问题设置

本文考虑两类 PDE 系统：

定常系统 (Stationary System)： $\begin{array}{rll} \mathcal{P}(u, a) = 0, & \qquad \mathrm{in} D \subset \mathbb{R}^d \\ u = g, & \qquad \mathrm{in} \partial D \end{array}$ 其中， $D$ 是有界域， $a \in \mathcal{A} \subseteq \mathcal{V}$ 是 PDE 的系数或参数， $u \in \mathcal{U}$ 是未知解， $\mathcal{P}: \mathcal{U} \times \mathcal{A} \to \mathcal{F}$ 是一个可能非线性的 偏微分算子 (partial differential operator)。 $(\mathcal{U}, \mathcal{V}, \mathcal{F})$ 是一组 Banach 空间。 $g$ 通常是固定的边界条件。这定义了一个 解算子 $\mathcal{G}^\dagger: \mathcal{A} \to \mathcal{U}$ ，将 $a$ 映射到 $u$ 。
动力学系统 (Dynamical System)： $\begin{array}{rll} \displaystyle \frac{d u}{d t} = \mathcal{R}(u), & \quad \mathrm{in} D \times (0, \infty) \\ u = g, & \quad \mathrm{in} \partial D \times (0, \infty) \\ u = a & \quad \mathrm{in} \bar{D} \times \{0\}, \end{array}$ 其中， $a = u(0) \in \mathcal{A} \subseteq \mathcal{V}$ 是初始条件， $u(t) \in \mathcal{U}$ 对于 $t > 0$ 是未知解， $\mathcal{R}$ 是一个可能非线性的 偏微分算子。这定义了一个 解算子 $\mathcal{G}^\dagger: \mathcal{A} \to C((0, T]; \mathcal{U})$ ，将初始条件 $a$ 映射到时间区间 [0, T] 内的解 $u$ 。

4.2.2. 物理信息损失函数 (Physics-Informed Loss Function)

PINO 借鉴了 PINN 的思想，通过最小化物理约束的残差来学习。对于一个给定的 PDE 实例 $a$ ，真实标注解 (ground truth solution) 为 $u^\dagger = \mathcal{G}^\dagger(a)$ 。PINN 类型的方法使用神经网络 $u_\theta$ 作为 解函数 的 初始猜测 (ansatz)。参数 $\theta$ 通过最小化 物理信息损失 (physics-informed loss) 来学习。

定常系统 (Stationary System) 的 PDE 损失： $\begin{array}{l} \displaystyle \mathcal{L}_{\mathrm{pde}}(a, u_\theta) = \Big\| \mathcal{P}(a, u_\theta) \Big\|_{L^2(D)}^2 + \alpha \Big\| u_\theta |_{\partial D} - g \Big\|_{L^2(\partial D)}^2 \\ \displaystyle \qquad = \int_D |\mathcal{P}(u_\theta(x), a(x))|^2 \mathrm{d}x + \alpha \int_{\partial D} |u_\theta(x) - g(x)|^2 \mathrm{d}x. \end{array}$ 此损失包含两部分：
- PDE 残差项： $\Big\| \mathcal{P}(a, u_\theta) \Big\|_{L^2(D)}^2$ ，衡量神经网络解 $u_\theta$ 代入 PDE 方程 $\mathcal{P}(u, a)=0$ 后在域 $D$ 上的残差，使用 $L^2$ 范数。
- 边界条件项： $\alpha \Big\| u_\theta |_{\partial D} - g \Big\|_{L^2(\partial D)}^2$ ，衡量神经网络解在边界 $\partial D$ 上与给定边界条件 $g$ 的差异，使用 $L^2$ 范数， $\alpha > 0$ 是权重超参数。
动力学系统 (Dynamical System) 的 PDE 损失： $\begin{array}{l} \displaystyle \mathcal{L}_{\mathrm{pde}}(a, u_\theta) = \left\| \frac{d u_\theta}{d t} - \mathcal{R}(u_\theta) \right\|_{L^2(T; D)}^2 + \alpha \Big\| u_\theta |_{\partial D} - g \Big\|_{L^2(T; \partial D)}^2 + \beta \Big\| u_\theta |_{t=0} - a \Big\|_{L^2(D)}^2 \\ \displaystyle \ = \int_0^T \int_D \big| \frac{d u_\theta}{d t}(t, x) - \mathcal{R}(u_\theta)(t, x) \big|^2 \mathrm{d}x \mathrm{d}t \\ \displaystyle \qquad + \alpha \int_0^T \int_{\partial D} |u_\theta(t, x) - g(t, x)|^2 \mathrm{d}x \mathrm{d}t \\ \displaystyle \qquad + \beta \int_D |u_\theta(0, x) - a(x)|^2 \mathrm{d}x. \end{array}$ 此损失包含三部分：
- PDE 残差项： $\left\| \frac{d u_\theta}{d t} - \mathcal{R}(u_\theta) \right\|_{L^2(T; D)}^2$ ，衡量神经网络解 $u_\theta$ 代入 PDE 方程 $du/dt = \mathcal{R}(u)$ 后在时空域 $D \times (0, T]$ 上的残差。
- 边界条件项： $\alpha \Big\| u_\theta |_{\partial D} - g \Big\|_{L^2(T; \partial D)}^2$ ，衡量神经网络解在边界 $\partial D$ 上与给定边界条件 $g$ 的差异， $\alpha > 0$ 是权重超参数。
- 初始条件项： $\beta \Big\| u_\theta |_{t=0} - a \Big\|_{L^2(D)}^2$ ，衡量神经网络解在初始时刻 $t=0$ 与给定初始条件 $a$ 的差异， $\beta > 0$ 是权重超参数。
  
  PINO 在 算子学习 阶段会使用 算子 PDE 损失 (operator PDE loss)，它是对所有可能的输入 $a$ 取期望的 PDE 损失： $\begin{array}{r} \mathcal{T}_{\mathrm{pde}}(\mathcal{G}_\theta) = \mathbb{E}_{a \sim \mu} [ \mathcal{L}_{\mathrm{pde}}(a, \mathcal{G}_\theta(a)) ] . \end{array}$ 其中， $\mathcal{G}_\theta(a)$ 是 神经算子 对输入 $a$ 的预测。

4.2.3. 数据损失函数 (Data Loss Function)

在有监督 算子学习 场景中，给定数据集 $\{a_j, u_j\}_{j=1}^N$ ，其中 $u_j = \mathcal{G}^\dagger(a_j)$ 是 真实标注解。PINO 使用以下数据损失来训练 神经算子 $\mathcal{G}_\theta$ ： $\mathcal{L}_{\mathrm{data}}(u, \mathcal{G}_\theta(a)) = \|u - \mathcal{G}_\theta(a)\|_{\mathcal{U}}^2 = \int_D |u(x) - \mathcal{G}_\theta(a)(x)|^2 \mathrm{d}x,$ 其中 $u$ 是 真实标注解， $\mathcal{G}_\theta(a)$ 是 神经算子 的预测解， $\|\cdot\|_{\mathcal{U}}^2$ 是在 Banach 空间 $\mathcal{U}$ 上的平方范数（例如 $L^2$ 范数）。

算子数据损失 (operator data loss) 是对所有可能输入 $a$ 取期望的误差： $\mathcal{J}_{\mathrm{data}}(\mathcal{G}_\theta) = \Vert \mathscr{G}^\dagger - \mathcal{G}_\theta \Vert_{L_\mu^2(\mathcal{R}; \mathcal{U})}^2 = \mathbb{E}_{a \sim \mu} [ \mathcal{L}_{\mathrm{data}}(a, \theta) ] \approx \frac{1}{N} \sum_{j=1}^N \int_D |u_j(x) - \mathcal{G}_\theta(a_j)(x)|^2 \mathrm{d}x.$ 其中， $a \sim \mu$ 表示输入 $a$ 采样自某种分布 $\mu$ 。

4.2.4. 神经算子架构 (Neural Operator Architecture - FNO backbone)

PINO 以 神经算子 为基础模型，本文主要使用 傅里叶神经算子 (FNO) 作为 主干网络。神经算子 通过组合线性积分算子 $\mathcal{K}$ 和逐点非线性激活函数 $\sigma$ 来近似高度非线性的算子。

定义 1 (神经算子 $\mathcal{G}_\theta$ )： 神经算子定义为： $\mathcal{G}_{\boldsymbol{\theta}} := \mathcal{Q} \circ (\mathcal{W}_L + \mathcal{K}_L) \circ \dots \circ \sigma (\mathcal{W}_1 + \mathcal{K}_1) \circ \mathcal{P},$ 其中：

$\mathcal{P}$ 和 $\mathcal{Q}$ 是逐点算子 (pointwise operators)，由神经网络 $P: \mathbb{R}^{d_a} \to \mathbb{R}^{d_1}$ 和 $Q: \mathbb{R}^{d_L} \to \mathbb{R}^{d_u}$ 参数化。 $\mathcal{P}$ 将低维函数提升到高维空间， $\mathcal{Q}$ 将高维函数投影回低维空间。
模型堆叠了 $L$ 层 $\sigma(\mathcal{W}_l + \mathcal{K}_l)$ ，其中 $\mathcal{W}_l$ 是逐点线性算子 (pointwise linear operators)，由矩阵 $W_l \in \mathbb{R}^{d_{l+1} \times d_l}$ 参数化。
$\mathcal{K}_l: \{D \to \mathbb{R}^{d_l}\} \to \{D \to \mathbb{R}^{d_{l+1}}\}$ 是积分核算子 (integral kernel operators)。
$\sigma$ 是固定的激活函数。
参数 $\theta$ 包含 $\mathcal{P}, \mathcal{Q}, \mathcal{W}_l, \mathcal{K}_l$ 中的所有参数。

定义 2 (核积分算子 - Kernel Integral Operators)： 核积分算子 $\mathcal{K}$ 定义为： $(\mathcal{K} v_l)(x) = \int_D \kappa^{(l)}(x, y) v_l(y) \mathrm{d}\nu(y) \qquad \forall x \in D.$ 其中 $\kappa^{(l)} \in C(D \times D; \mathbb{R}^{d_{l+1} \times d_l})$ 是核函数， $\nu$ 是 Borel 测度。在离散化时，它可以实现为 图神经网络 (graph neural networks) 中的求和形式： $(\mathcal{K} v_l)(x) = \sum_{B(x)} \kappa^{(l)}(x, y) v_l(y) \qquad \forall x \in D,$ 其中 B(x) 是以 $x$ 为中心的球。

定义 3 (傅里叶卷积算子 - Fourier Convolution Operator)： FNO 将积分算子 $\mathcal{K}$ 限制为卷积，从而可以通过 快速傅里叶变换 (Fast Fourier Transform - FFT) 高效计算。傅里叶卷积算子定义为： $(\mathcal{K} v_l)(x) = \mathcal{F}^{-1} \Big( R \cdot (\mathcal{F} v_l) \Big) (x) \qquad \forall x \in D,$ 其中 $\mathcal{F}$ 和 $\mathcal{F}^{-1}$ 分别是 FFT 及其逆变换； $R$ 是需要学习的参数 $\theta$ 的一部分。

4.2.5. PINO 框架

PINO 框架结合了 算子学习 和 实例级微调 两个阶段。

物理信息算子学习 (Physics-Informed Operator Learning)： 在此阶段，PINO 使用 物理约束 $\mathcal{T}_{\mathrm{pde}}$ 和来自数据的监督 $\mathcal{J}_{\mathrm{data}}$ 来训练 神经算子 $\mathcal{G}_\theta$ 。其优势在于，可以通过采样不同的初始条件或系数条件 $a_j \sim \mu$ 来生成无限量的虚拟 PDE 实例进行训练，从而减少对真实数据集的依赖。数据损失 $\mathcal{J}_{\mathrm{data}}$ 提供了强监督，可以使优化更容易。一个特殊且重要的应用场景是，PINO 可以结合粗分辨率训练数据与更高分辨率的 PDE 约束。通过在高分辨率下施加 PDE 约束，即使训练数据分辨率不高，也能迫使 算子 学习到高保真度的信息，从而实现 零样本超分辨率。
训练算子 初始猜测 (Ansatz) 的实例级微调 (Instance-Wise Fine-Tuning of Trained Operator Ansatz)： 在 算子学习 阶段得到预训练的 算子 $\mathcal{G}_\theta$ 后，对于一个新的查询实例 $a$ ，PINO 使用 $\mathcal{G}_\theta(a)$ 作为 解函数 的 初始猜测 (ansatz) 来求解该特定 PDE 实例。这个过程类似于 PINN，通过最小化 PDE 损失 $\mathcal{L}_{\mathrm{pde}}(a, \mathcal{G}_\theta(a))$ 来优化 $\mathcal{G}_\theta$ 的参数 $\theta$ 。为了进一步改善优化过程并防止 ansatz 偏离预训练的 算子 太远，可以添加一个可选的 算子损失 (operator loss) 或 锚定损失 (anchor loss)： $\mathcal{L}_{\mathrm{op}}\left(\mathcal{G}_{\theta_i}(a), \mathcal{G}_{\theta_0}(a)\right) := \|\mathcal{G}_{\theta_i}(a) - \mathcal{G}_{\theta_0}(a)\|_{\mathcal{U},}^2$ 其中 $\mathcal{G}_{\theta_i}(a)$ 是第 $i$ 次迭代的模型， $\mathcal{G}_{\theta_0}(a)$ 是初始预训练的 算子。微调时更新 $\mathcal{G}_\theta$ 的损失函数为 $\mathcal{L}_{\mathrm{pde}} + \alpha \mathcal{L}_{\mathrm{op}}$ 。

优点：
1. 函数空间优化： 区别于 PINN 的逐点优化，PINO 在函数空间中进行优化，通过 算子 参数化解函数为基函数的和，优化系数和基函数比直接优化单个函数更容易。
2. 预学习基函数： 算子学习 阶段已经学习了这些基函数，使得 实例级微调 更加容易。
3. 信息传播： PINO 不需将信息从初始/边界条件传播到内部，只需微调 解算子 参数化的 解函数。

4.2.6. 神经算子的导数计算 (Derivatives of Neural Operators)

为了计算 PDE 损失 $\mathcal{L}_{\mathrm{pde}}$ ，需要高效地计算 神经算子 输出的导数 $D(\mathcal{G}_\theta a) = \partial (\mathcal{G}_\theta a) / \partial x$ 和 $\partial (\mathcal{G}_\theta a) / \partial t$ 。本文讨论了三种方法：

数值微分 (Numerical Differentiation)：
- 方法： 使用传统的数值方法，如有限差分 (finite difference) 或傅里叶微分 (Fourier differentiation)。
- 优点： 快速且内存高效 ( $O(n)$ 用于有限差分， $O(n \log n)$ 用于傅里叶方法)。对底层神经网络架构不敏感。
- 缺点： 存在数值误差，误差会在输出解上放大。有限差分需要细分辨率均匀网格，谱方法需要平滑度和均匀网格。
自动微分 (Pointwise Differentiation with Autograd)：
- 方法： 类似于 PINN，使用神经网络的 自动微分库 (autograd) 计算精确导数。然而，对于直接输出网格上数值解的 神经算子 (尤其是使用 FFT 的 FNO)，直接应用 autograd 并不简单。
- 实现： 需要设计一个查询函数 u(x)，将 $x$ $x$ 作为输入，输出 u(x)。回想 神经算子 架构 $\mathcal{G}_{\boldsymbol{\theta}} := \mathcal{Q} \circ (\mathcal{W}_L + \mathcal{K}_L) \circ \cdots \circ \sigma (\mathcal{W}_1 + \mathcal{K}_1) \circ \mathcal{P}$ $G_{θ} := Q \circ (W_{L} + K_{L}) \circ \dots \circ σ (W_{1} + K_{1}) \circ P$ ，且 $u = \mathcal{G}_{\boldsymbol{\theta}} a = \mathcal{Q} v_L = \mathcal{Q} (\mathcal{W}_L + \mathcal{K}_L) v_{L-1} \ldots$ $u = G_{θ} a = Q v_{L} = Q (W_{L} + K_{L}) v_{L - 1} \dots$ 。由于 $\mathcal{Q}$ $Q$ 是逐点算子， $u(x) = \mathcal{Q}(v_L)(x) = \mathcal{Q}(v_L(x)) = \mathcal{Q} \big( (\mathcal{W}_L v_{L-1})(x) + \mathcal{K}_L v_{L-1}(x) \big).$
  - 对于核积分算子 (见 4.2.4. 定义 2)，核函数可以直接以查询点为输入，所以查询函数为： $u(x) = \mathcal{Q} \left( \sum_{B(x)} \kappa^{(l)}(x, y, v_{L-1}(y)) \right),$ 然后可以应用 自动微分 计算导数 u'(x)。
  - 对于傅里叶卷积算子 (见 4.2.4. 定义 3)，需要将输出函数写成 傅里叶级数 (Fourier series) 形式与 $\mathcal{Q}$ 组合，以在查询点 $x$ 处评估： $u(x) = \mathcal{Q} \circ \mathcal{F}^{-1} \Big( R \cdot (\mathcal{F} v_{L-1}) \Big) (x) = \mathcal{Q} \left( \frac{1}{k_{max}} \sum_{k=0}^{k_{max}} \left( R_k (\mathcal{F} v_{L-1})_k \right) \exp \frac{i 2\pi k}{D} (x) \right).$ 其导数 u'(x) 可以通过 自动微分 获得。当 $x$ 是均匀网格时，导数可与 FFT 高效计算。
- 缺点： 通常比数值方法慢且占用内存大，因为参数数量 $| \theta |$ 通常远大于网格大小 $n$ 。
函数式微分 (Function-wise Differentiation)：
- 方法： 基于 神经算子 架构开发的精确高效的导数计算方法，可以在函数级别计算完整梯度场，而不是逐点计算。它通过显式地在 傅里叶空间 中写出导数并应用 链式法则 (chain rule)。
- 实现： 对于 傅里叶卷积算子，一阶导数 $u'$ 可以直接在 傅里叶空间 中计算： $u' = \mathcal{Q}' (v_L) \cdot \mathcal{F}^{-1} \left( \frac{i 2\pi}{D} K \cdot (\mathcal{F} v_L) \right).$ 其中 $K$ 是一个对角矩阵，对傅里叶系数进行乘法运算。因此，精确计算 FNO 的导数只需运行数值 傅里叶微分。对于更高阶导数，可以直接应用 链式法则。例如，二阶导数 $u'' = (Q v_L)'' = v_L^{\prime 2} \cdot Q''(v_L) + Q'(v_L) \cdot v_L''$ 。 $Q$ 通常参数化为两层神经网络 $Q(x) = (A_2 \sigma (A_1 x + b_1) + b_2)$ ，其导数 $Q'(x) = A_2 \sigma'(A_1 x + b_1) A_1$ 可以显式计算。
- 优点： 高效且精确，尤其适用于均匀网格上的 傅里叶微分。

傅里叶延续 (Fourier Continuation)：
- 背景： 傅里叶方法 在处理周期性问题时性能最佳。当目标函数非周期性或非光滑时，傅里叶微分 可能不准确。
- 方法： 通过将问题域嵌入一个更大的、周期性的空间来解决。可以简单地通过在输入中 补零 (padding zeros) 来实现。损失函数在训练期间仅在原始空间中计算。FNO 会自动生成一个平滑的扩展。这使得 PINO 能够处理非周期性边界条件（如 Darcy 流、时间维度）和 Lid-cavity 流。

4.2.7. 逆问题 (Inverse Problem)

PINO 还可以用于解决 逆问题，即给定输出函数 $u$ 来恢复（或估计分布）输入函数 $a$ 。通过施加约束 $\mathcal{P}(u, a) = 0$ ，可以将 $a$ 限制在物理有效的 流形 (manifold) 上。论文提出了两种基于优化的 PINO 逆问题公式：

正向算子模型 (Forward Operator Model)：
- 方法： 首先学习正向 算子 $\mathcal{G}_\theta: a \mapsto u$ 。然后初始化 $\hat{a}$ 来近似 真实标注输入 $a^\dagger$ ，并通过最小化以下损失函数来优化 $\hat{a}$ ： $\mathcal{T}_{\mathrm{forward}} := \mathcal{L}_{\mathrm{pde}}( \hat{a}, u^\dagger ) + \mathcal{L}_{\mathrm{data}}( \mathcal{G}_\theta(\hat{a}) ) + R(\hat{a}).$ 其中， $\mathcal{L}_{\mathrm{pde}}(\hat{a}, u^\dagger)$ 确保恢复的 $\hat{a}$ 和给定的 $u^\dagger$ 满足 PDE； $\mathcal{L}_{\mathrm{data}}(\mathcal{G}_\theta(\hat{a}))$ 确保由恢复的 $\hat{a}$ 经正向 算子 $\mathcal{G}_\theta$ 生成的解与 $u^\dagger$ 匹配； $R(\hat{a})$ 是正则化项 (regularization term)。
- 作用： 确保恢复的 $\hat{a}$ 产生与观察到的 $u^\dagger$ 匹配的输出，并且 PDE 损失确保了物理有效性。
逆向算子模型 (Inverse Operator Model)：
- 方法： 直接学习逆向 算子 $\mathcal{F}_\theta: u \mapsto a$ 。使用 $\mathcal{F}_\theta(u^\dagger)$ 来近似 真实标注输入 $a^\dagger$ 。通过最小化以下损失函数来优化 $\mathcal{F}_\theta$ ： $\mathcal{T}_{\mathrm{backward}} := \mathcal{L}_{\mathrm{pde}}( \mathcal{F}_\theta(\boldsymbol{u}^\dagger), \boldsymbol{u}^\dagger ) + \mathcal{L}_{\mathrm{op}}( \mathcal{F}_\theta(\boldsymbol{u}^\dagger), \mathcal{F}_{\theta_0}(\boldsymbol{u}^\dagger) ) + R( \mathcal{F}_\theta(\boldsymbol{u}^\dagger)).$ 其中， $\mathcal{L}_{\mathrm{pde}}(\mathcal{F}_\theta(\boldsymbol{u}^\dagger), \boldsymbol{u}^\dagger)$ 确保学习到的逆向 算子 输出的 $a$ 与输入的 $u^\dagger$ 满足 PDE； $\mathcal{L}_{\mathrm{op}}(\mathcal{F}_\theta(\boldsymbol{u}^\dagger), \mathcal{F}_{\theta_0}(\boldsymbol{u}^\dagger))$ 是一个 算子损失 或 锚定损失，将微调后的逆向 算子 限制在预训练的 算子 附近； $R(\mathcal{F}_\theta(\boldsymbol{u}^\dagger))$ 是正则化项。
- 作用： 直接学习从观测 $u$ 到参数 $a$ 的映射，并且 PDE 损失和 锚定损失 共同保证了恢复结果的物理有效性和优化稳定性。论文发现，在 Darcy 流中，逆向 算子 模型在恢复系数函数方面更准确。

以下是 PINO 的结构示意图：

$该图像是示意图，展示了物理信息神经算子（PINO）的工作机制。左侧表示空间域 $x \\in D$，其中显示了解决方程 `u(x)` 的过程；右侧展示了输入函数空间 $a \\in A$ 和输出函数空间 $u \\in U$ 之间的映射关系，通过学习函数 $G: A \\to U$，实现对不同输入的函数输出。图中通过箭头指示了输入与输出之间的联系。$ 该图像是示意图，展示了物理信息神经算子（PINO）的工作机制。左侧表示空间域 $x \in D$ ，其中显示了解决方程 u(x) 的过程；右侧展示了输入函数空间 $a \in A$ 和输出函数空间 $u \in U$ 之间的映射关系，通过学习函数 $G: A \to U$ ，实现对不同输入的函数输出。图中通过箭头指示了输入与输出之间的联系。

图 3：左侧表示解决方程 u(x) 的过程；右侧展示了输入函数空间 $a \in \mathcal{A}$ 和输出函数空间 $u \in \mathcal{U}$ 之间的映射关系，通过学习函数 $\mathcal{G}: \mathcal{A} \to \mathcal{U}$ ，实现对不同输入的函数输出。

Fig. . PINO trains neural operator with both training data and PDE loss function. The figure shows the neural oerator rchitecture with the lig point-wisoperator that receives inputfnction an outputs… 该图像是示意图，展示了物理信息神经算子（PINO）的结构。图中输入为多个函数，经过提升、线性积分算子和非线性处理，输出中间结果 $v_1$ ，再通过 $L$ 个线性积分算子生成最终输出 $u$ 。此外，图中还展示了如何在查询点 $x$ 处计算 $u$ 的导数 Du，并涉及数据损失和方程损失的计算。

图 2：PINO 训练 神经算子 同时使用训练数据和 PDE 损失函数。该图显示了 神经算子 架构，其中 lift pointwise operator 接收输入函数并输出维度更大的函数 $v_0$ 。接着是 $L$ 个块，每个块计算线性积分算子后接非线性激活。最后一个块的输出是函数 $v_L$ 。逐点投影算子 (pointwise projection operator) 将 $v_L$ 投影到输出函数 $u$ 。 $v_L$ 和 $u$ 都是函数，它们在任何查询点 $x$ 的所有导数（例如 $D v_L$ , Du）都可以以精确形式计算。

5. 实验设置

5.1. 数据集

本文在三种不同类型的 PDE 上验证了 PINO 的性能：

Burgers 方程 (Burgers' Equation)：
- 类型： 1-D 非线性 PDE。
- 方程： $\begin{array}{rll} \partial_t u(x, t) + \partial_x (u^2(x, t) / 2) = \nu \partial_{xx} u(x, t), \qquad & x \in (0, 1), t \in (0, 1] \\ u(x, 0) = u_0(x), & x \in (0, 1). \end{array}$
- 参数： 周期性边界条件，初始条件 $u_0 \in L^2_{\mathrm{per}}((0, 1); \mathbb{R})$ ，粘度系数 $\nu = 0.01$ 。
- 学习目标： 解算子 $\mathcal{G}^\dagger: u_0 \mapsto u|_{[0,1]}$ 。
- 训练数据： 1000 个初始条件 $u_0 \sim \mathcal{N}(0, 625(-\Delta + 25I)^{-2})$ 。
- 分辨率： 训练数据为 $32 \times 25$ (时空)，PDE 损失施加在 $128 \times 100$ 分辨率。
Darcy 流 (Darcy Flow)：
- 类型： 2-D 定常态 (steady-state) 线性椭圆 PDE。
- 方程： $\begin{array}{rll} - \nabla \cdot (a(x) \nabla u(x)) = f(x) \quad & x \in (0, 1)^2 \\ u(x) = 0 \quad & x \in \partial (0, 1)^2. \end{array}$
- 参数： 狄利克雷边界条件 (Dirichlet boundary)， $a \in L^\infty((0, 1)^2; \mathbb{R}_+)$ 是分段常数扩散系数，固定力函数 $f=1$ 。
- 学习目标： 解算子 $\mathcal{G}^\dagger: a \mapsto u$ 。虽然 PDE 是线性的，但 算子 $\mathcal{G}^\dagger$ 是非线性的。
- 损失函数： 同时考虑强形式 PDE 损失 $\mathcal{L}_{\mathrm{pde}}(u) = \nabla \cdot (a \nabla u) - f$ 和弱形式 PDE 损失 $\mathcal{L}_{\mathrm{pde}}(u) = - \frac{1}{2}(a \nabla u, \nabla u) - (u, f)$ ，实验表明强形式表现更好。
- 训练数据： 1000 个系数条件 $a \sim \psi_{\#}\mathcal{N}(0, (-\Delta + 9I)^{-2})$ ，其中 $\psi(a(x)) = 12$ 如果 $a(x) \geq 0$ ， $\psi(a(x)) = 3$ 如果 $a(x) < 0$ 。
- 分辨率： 训练数据为 $11 \times 11$ (空间)，PDE 损失施加在 $61 \times 61$ 分辨率。
Navier-Stokes 方程 (Navier-Stokes Equation)：
- 类型： 2-D 粘性、不可压缩流体的涡度形式 PDE。
- 方程： $\begin{array}{rll} \partial_t w(x, t) + u(x, t) \cdot \nabla w(x, t) = \nu \Delta w(x, t) + f(x), & & x \in (0, l)^2, t \in (0, T] \\ \nabla \cdot u(x, t) = 0, & & x \in (0, l)^2, t \in [0, T] \\ w(x, 0) = w_0(x), & & x \in (0, l)^2. \end{array}$
- 参数： 速度场 $u \in C([0, T]; H^r_{\mathrm{per}}((0, l)^2; \mathbb{R}^2))$ ，涡度 $w = \nabla \times u$ ，初始涡度 $w_0 \in L^2_{\mathrm{per}}((0, l)^2; \mathbb{R})$ ，粘度系数 $\nu \in \mathbb{R}_+$ ，力函数 $f \in L^2_{\mathrm{per}}((0, l)^2; \mathbb{R})$ 。
- 学习目标： 解算子 $\mathcal{G}^\dagger: w_0 \mapsto w|_{[0,T]}$ 。
- 问题设置：
  - 长期瞬态流动 (Long temporal transient flow)： 模拟从接近零速的初始条件到 遍历态 (ergodic state) 的流动构建。参数： $t \in [0, 50]$ ， $l=1$ ， $Re=20$ 。主要挑战是预测长时间间隔。
  - 混沌 Kolmogorov 流 (Chaotic Kolmogorov flow)： 模拟处于 吸引子 (attractor) 上的流动，从任意起始时间 $t_0$ 开始。参数： $t \in [t_0, t_0+0.5]$ 或 $[t_0, t_0+1]$ ， $l=2\pi$ ， $Re=500$ 。主要挑战是捕捉混沌演化中的小细节。
  - Lid cavity 流 (Lid cavity flow)： 假设无滑移边界条件 (no-slip boundary condition)，底部、左侧和右侧壁面 $u(x,t)=(0,0)$ ，顶部 $u(x,t)=(1,0)$ 。参数： $t \in [5, 10]$ ， $l=1$ ， $Re=500$ 。主要挑战是使用速度-压力 (velocity-pressure) 公式处理边界。
- 训练数据： Kolmogorov 流训练数据为 $64 \times 64 \times 33$ (时空)，PDE 损失施加在 $256 \times 256 \times 65$ 分辨率。

5.2. 评估指标

论文主要使用以下指标来评估模型的性能：

相对 $L_2$ 误差 (Relative $L_2$ Error)：
- 概念定义： 衡量预测解与真实解之间的 L2 范数差异，并相对于真实解的 L2 范数进行归一化。这个指标能够量化模型预测的整体准确性，特别是在函数空间中，它反映了预测函数与真实函数之间的平均平方误差。值越低表示模型性能越好。
- 数学公式： $\text{Relative } L_2 \text{ Error} = \frac{\|u_{\text{pred}} - u_{\text{true}}\|_{L_2}}{\|u_{\text{true}}\|_{L_2}}$
- 符号解释：
  - $u_{\text{pred}}$ ：模型的预测解函数 (predicted solution function)。
  - $u_{\text{true}}$ ：真实标注解函数 (ground truth solution function)。
  - $\|\cdot\|_{L_2}$ ：函数的 L2 范数 (L2 norm)。对于一个在域 $D$ 上定义的函数 f(x)，其 L2 范数定义为 $\|f\|_{L_2} = \sqrt{\int_D |f(x)|^2 \mathrm{d}x}$ 。它衡量了函数的大小或能量。
分类准确率 (Classification Accuracy)：
- 概念定义： 在 Darcy 流的逆问题中，系数函数 $a$ 被建模为分段常数（代表两种介质），因此逆问题可以看作一个分类任务。分类准确率衡量模型正确识别出 真实标注输入 $a^\dagger$ 中每个区域介质类型的比例。
- 数学公式： $\text{Accuracy} = \frac{\text{正确分类的样本数}}{\text{总样本数}}$
- 符号解释：
  - 正确分类的样本数：模型对输入函数 $a$ 的各个离散点进行分类时，与 真实标注 $a^\dagger$ 匹配的点的数量。
  - 总样本数：输入函数 $a$ 的所有离散点的数量。
时间成本/加速比 (Time Cost/Speedup)：
- 概念定义： 衡量模型训练或推理所需的计算时间，以及相对于传统数值求解器或基线方法的加速倍数。这反映了 PINO 在实际应用中的效率。

5.3. 对比基线

本文将 PINO 方法与以下几种 ML 方法和传统数值求解器进行了比较：

FNO (Fourier Neural Operator)：
- 代表性： 作为 PINO 的 主干网络，是目前 算子学习 领域的 最先进的 (state-of-the-art) 数据驱动方法。
- 目的： 主要用于展示 PINO 引入物理约束后在数据效率、泛化能力（特别是 超分辨率）上的优势。
DeepONet (Deep Operator Network)：
- 代表性： 另一种著名的 神经算子 模型，基于通用近似定理。
- 目的： 与 PINO (基于 FNO 主干网络) 进行 算子学习 性能对比。
PINN (Physics-Informed Neural Network)：
- 代表性： 纯物理信息的方法，无需数据。
- 目的： 主要用于展示 PINO 在优化稳定性和求解复杂 PDE 实例（尤其是长时间动态系统）方面的优势，以及 PINO 作为 算子 初始猜测 进行微调的加速效果。
LAAF-PINN (Locally Adaptive Activation Functions for PINN)：
- 代表性： PINN 的改进版本，通过局部自适应激活函数来缓解优化挑战。
- 目的： 与 PINO 进行优化性能和精度对比，展示 PINO 算子 初始猜测 带来的根本性改进。
SA-PINN (Self-Adaptive PINN)：
- 代表性： 另一种 PINN 的改进版本，通过自适应加权 PDE 损失的不同部分来改善优化。
- 目的： 同 LAAF-PINN，进行优化性能和精度对比。
UNet (加三线性插值)：
- 代表性： 计算机视觉领域常用的 卷积神经网络 (Convolutional Neural Network - CNN) 架构，常用于图像分割和 超分辨率。
- 目的： 在 零样本超分辨率 任务中与 PINO 进行对比，展示 神经算子 模型的 离散化收敛性 优势。
GPU 伪谱求解器 (GPU-based Pseudo-spectral Solver)：
- 代表性： 传统高性能数值求解器，以高精度和并行计算能力著称。
- 目的： 衡量 PINO 在计算速度上的优势。
加速 马尔可夫链蒙特卡洛 (Markov Chain Monte-Carlo - MCMC) 方法：
- 代表性： 传统贝叶斯推理方法，常用于 逆问题 的不确定性量化。
- 目的： 衡量 PINO 在 逆问题 求解速度上的巨大优势。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 算子学习与物理约束 (Operator Learning with Physics Constraints)

高分辨率泛化能力与零样本超分辨率： 实验结果（Table 1）表明，将 PDE 约束纳入 算子学习 阶段，可以显著提升 神经算子 在高分辨率未见数据上的泛化能力。
- 对于 Burgers 方程，仅用数据训练的模型在 2x 和 4x 分辨率下误差急剧增加（从 0.32% 到 3.32% 和 3.76%），而结合 数据和 PDE 损失 的 PINO 误差仅略微增加（从 0.17% 到 0.28% 和 0.38%）。
- 对于 Darcy 流，类似地，PINO 在 2x 和 4x 分辨率下表现出更强的泛化能力，将误差从 9.01% 降至 1.56%，从 9.46% 降至 1.58%。
- Kolmogorov 流也展示了类似趋势。这证明 PINO 能够实现 零样本超分辨率，即在训练数据分辨率之上进行预测。
下图（原文 Figure 1）展示了 PINO 在 Kolmogorov 流的谱外推能力：

该图像是一个图表，展示了Kolmogorov流动的谱能量分布。不同曲线分别代表了NN+插值（红色）、FNO（蓝色）和PINO（绿色，结合了数据与PDE）的结果，同时显示了真实值（虚线）。训练和测试区域通过箭头标识，说明模型性能的变化。

图 1：PINO 使用训练数据和 PDE 损失函数，能够完美地外推到 Kolmogorov 流中未见的频率。FNO 仅使用训练数据，缺乏高频信息，但仍遵循 真实标注谱 (ground-truth spectrum) 的总体趋势。相比之下，使用训练过的 UNet 模型进行三线性插值 ( $NN+Interpolation$ ) 在高频处出现严重的失真。

PINO 结合了 数据 和 PDE 损失，其谱线与 真实标注 几乎完全重叠，尤其是在训练频率范围之外（超分辨率 区域），表现出卓越的 外推 (extrapolation) 能力。这得益于高分辨率 PDE 约束对模型物理行为的指导。
数据效率与精度提升： PINO 在数据稀缺或无数据场景下，仍能学习到准确的 解算子。
- Burgers 方程和 Darcy 流： PINO 即使在没有数据的情况下，也能在这些相对简单的 PDE 上学习 解算子，并取得 0.38% (Burgers) 和 1.50% (Darcy) 的误差（Table 2）。这优于 PI-DeepONet (1.38%) 和纯数据驱动的 FNO。
- Kolmogorov 流： 即使没有训练数据，PINO 也能实现 6.22% 的误差（Table 3）。增加低分辨率数据能够进一步提高准确性，证明 PINO 能够灵活地结合物理约束和任何可用数据。这表明 PDE 约束提供了强大的正则化和信息来源，使得 PINO 能够以更少的数据获得更好的泛化能力。
在极低分辨率训练数据上的表现： Table 6 比较了仅使用数据训练的 FNO 和结合 数据+PDE 损失的 PINO，在训练分辨率为 $32 \times 32 \times 17$ (极低) 时，于更高分辨率的测试集上的表现。 PINO 在所有测试分辨率（ $64 \times 64 \times 33$ ， $128 \times 128 \times 33$ ， $256 \times 256 \times 65$ ）上均显著优于 FNO，误差降低了约 3.5%。这再次强调了 PINO 即使在训练数据分辨率极低的情况下，也能通过高分辨率 PDE 约束，学习到更准确和泛化能力更强的 解算子。

6.1.2. 使用 `算子` `初始猜测 (Ansatz)` 求解方程 (Solve Equation Using Operator Ansatz)

长期瞬态流动 (Long Temporal Transient Flow)： 对于 Navier-Stokes 方程的长期瞬态流动 ( $T=[0,50]$ )，PINN 和从零开始的 PINO 均无法处理（误差 > 50%）。然而，当 PINO 可用数据时，通过 算子学习 阶段学习 算子，并在测试时结合 锚定损失 $\mathcal{L}_{\mathrm{op}}$ 进行微调，误差从 FNO 的 3.04% 降至 PINO 的 2.87% (无微调)，再到微调后的 1.84%。同时，PINO 保持了 FNO 相比 GPU 伪谱求解器 400x 的加速比。这表明 锚定损失 作为一个硬约束，极大地简化了优化，并提升了长期预测的精度。
混沌 Kolmogorov 流 (Chaotic Kolmogorov Flow)： 下图（原文 Figure 4）比较了 PINO 与 PINN 及其改进版本 (LAAF-PINN, SA-PINN) 在混沌 Kolmogorov 流上的性能。

该图像是图表，展示了PINO在Kolmogorov流与Lid-cavity流上的表现，上方分别为Kolmogorov流的涡度和Lid-cavity流的速度场。左侧是Kolmogorov流的涡度，右侧是Lid-cavity流在x, y方向上的速度分布。

图 4：Kolmogorov 流在 Re=500, T=0.5s 下的测试相对 $L_2$ 误差与运行时间步长的关系。左侧：分辨率 $64 \times 64 \times 65$ ；右侧：分辨率 $128 \times 128 \times 129$ 。结果对 20 个实例进行平均。LAAF-PINN：带有局部自适应激活函数的 PINN。SA-PINN：自适应 PINN。

PINO 在 实例级微调 中，通过使用预训练的 算子 初始猜测，比 PINN 及其变体 (LAAF-PINN, SA-PINN) 实现了显著更低的误差和更快的收敛速度（Table 4 和 Figure 4）。PINO 的误差比 PINN 小 20 倍，速度快 25 倍。即使在没有数据的情况下，PINO 仅用 PDE 实例进行 算子学习，然后进行微调，也能达到 0.9% 的误差，远低于 PINN 的 18.7%。这验证了 算子 初始猜测 能够提供一个更好的优化起点，从而加速收敛并提高精度。
Reynolds 数迁移 (Transfer Reynolds numbers)： Table 8 和 Figure 8 展示了 PINO 在不同 Reynolds 数之间的迁移学习能力。
- 方法： 在一个 Reynolds 数下训练源 算子 模型，然后通过 实例级微调 迁移到另一个 Reynolds 数。
- 结果： PINO 可以轻松地在 Reynolds 数 100 到 500 之间进行迁移。预训练的 算子 初始猜测 显著提高了微调的收敛速度和精度，优于从零开始训练。这表明 PINO 学习到了跨 Reynolds 数共享的动力学特性，具有很强的泛化性。
Lid cavity 流 (Lid cavity flow)： PINO 成功解决了具有非周期性边界条件和多个输出场 (velocity-pressure formulation) 的 Lid cavity 流问题。在没有 算子学习 阶段，仅进行 实例级微调 的情况下，PINO 在 2 分钟内达到了 14.52% 的相对误差。下图（原文 Figure 5）展示了其准确的预测。

$Fig. 6. In the above figures, (6(a)) represents the ground truth input function $a ^ { \\dagger }$ , and (6(d)) demonstrates the corresponding solution $u ^ { \\dagger }$ , that is, the output function…$ 该图像是图表，展示了逆推过程。其中(6(a))为真实输入函数 $a^{ullet}$ ，(6(b))是仅使用数据约束的逆推结果，(6(c))则是结合数据和PDE约束的逆推结果。底部(6(d))为观察到的输出函数，(6(e))和(6(f))分别展示了这两种逆推方法的输出函数。

图 6：PINO 在 Kolmogorov 流（左）和 Lid-cavity 流（右）上的涡度场和速度场预测。PINO 准确预测了 真实标注。
收敛精度与分辨率： Table 5 展示了 PINO 在 实例级优化（仅最小化 PDE 损失，无数据）场景下的收敛率。PINO 继承了其微分方法（空间维度傅里叶方法，时间维度有限差分法）的收敛率，即空间呈指数收敛，时间呈一阶收敛 ( $err = O(exp(dx)) + O(dt)$ )。这说明 PDE 约束能够以合理的计算成本实现高精度，并且虚拟实例几乎与求解器生成的数据实例一样有效。

6.1.3. 逆问题 (Inverse Problem)

PDE 约束的重要性： 在 Darcy 流的逆问题中，目标是从给定的 解函数 $u^\dagger$ 恢复系数函数 $a^\dagger$ 。PDE 损失对逆问题的预测至关重要。
- 仅使用数据约束的 神经算子 容易受到输入扰动和偏移的影响，导致恢复的 $a$ 不准确，尽管其产生的输出 $u$ 可能与目标 $u^\dagger$ 相似（Figure 6 (b) vs (e)）。
- 通过添加 PDE 约束，可以限制预测的 $a$ 在物理有效的 流形 上。Figure 6 (c) 显示，结合数据和 PDE 约束后，恢复的 $a$ 非常接近 真实标注，且产生的 $u$ 也与 $u^\dagger$ 匹配（Figure 6 (f)）。
  
  下图（原文 Figure 6）展示了 PDE 约束在逆问题中的重要性：
  
  该图像是一个示意图，展示了不同方法生成的解的比较，包括真实解、前向PINO、逆向PINO 和求解器+MCMC。通过这些图像可以观察到，前向和逆向PINO相对于真实解在图形变化上存在一定差异，且后续方法结合MCMC进一步改善了解的精确性。
图 7：在上述图中，(6(a)) 表示 真实标注输入函数 $a^\dagger$ ，(6(d)) 展示了相应的 解函数 $u^\dagger$ （即输出函数）。给定输出 $u^\dagger$ ，我们的目标是恢复能够生成 $u^\dagger$ 的 $a$ 。仅使用数据约束时，(6(b)) 显示我们的方法可以找到一个 $a$ ，其产生的输出函数与 真实标注 $u^\dagger$ (6(e)) 非常接近。然而，恢复的 $a$ 远不能满足 PDE 方程。使用数据和 PDE 约束，(6(c)) 显示我们的 物理信息 方法可以找到一个 $a$ ，它不仅产生的输出函数与 真实标注 $u^\dagger$ (6(f)) 非常接近，而且恢复的 $a$ 也满足 PDE 约束并接近底层 $a^\dagger$ 。
正向模型 vs. 逆向模型： 在 Darcy 流逆问题中，逆向模型 $\mathcal{F}_\theta: u \mapsto a$ (Equation (17)) 表现最佳。逆向模型在输出 $u$ 上的相对 L2 误差为 2.29%，在输入 $a$ 上的分类准确率为 97.10%。而正向模型在输出上的误差为 6.43%，在输入上的准确率为 95.38%。逆向模型的主要优势在于它使用 神经算子 $\mathcal{F}_\theta(u^\dagger)$ 作为系数函数 $a$ 的 初始猜测 (ansatz)，并作为正则化项 $\mathcal{L}_{\mathrm{op}}$ 。
与传统求解器的对比： 与使用加速 MCMC 方法的传统求解器相比，PINO 逆向模型快 3000x。MCMC 后验均值的误差为 4.52%，准确率为 90.30%。PINN 在此情况下未能收敛。这凸显了 PINO 在逆问题求解方面巨大的效率优势。

6.2. 数据呈现 (表格)

以下是原文中的表格结果：

以下是原文 Table 1 的结果：

PDE Training setting	Error at lowdata resolution	Error at 2xdata resolution	Error at 4xdata resolution
DataBurgersData and PDE loss	0.32±0.01%0.17±0.01%	3.32±0.02%0.28±0.01%	3.76±0.02%0.38±0.01%
DataDarcy Data and PDE loss	5.41±0.12%5.23±0.12%	9.01±0.07%1.56±0.05%	9.46±0.07%1.58±0.06%
DataKolmogorov flowData and PDE loss	8.28%±0.15%6.04%±0.12%	8.27%±0.15%	8.30%±0.15%
DataKolmogorov flowData and PDE loss	8.28%±0.15%6.04%±0.12%	6.02%±0.12%	6.01%±0.12%

以下是原文 Table 2 的结果：

Method	Solution error
DeepONet with data [4]PINO with data	6.97 ± 0.09%1.22 ± 0.03%
PINO w/o data	1.50 ± 0.03%

以下是原文 Table 3 的结果：

# data samples # PDE instances	Solution error
0 2,200	6.22%±0.11%
800 2,200	6.01%±0.12%
2,200 2,200	5.04%±0.11%

以下是原文 Table 4 的结果：

Method	# data samples	# PDE instances	Solution error (w)	Time cost
PINNs	-	-	18.7%	4,577 s
PINO	0	0	0.9%	608 s
PINO	0.4 k	0	0.9%	536 s
PINO	0.4 k	160 k	0.9%	473 s

以下是原文 Table 5 的结果：

dtdx	2-6	2-7	2-8	2-9	2-10
2-4	0.4081	0.3150	0.3149	0.3179	0.3196
$2-frac5}$	0.1819	0.1817	0.1780	0.1773	0.1757
2-6	0.0730	0.0436	0.0398	0.0386	0.0382
2-7	0.0582	0.0234	0.0122	0.0066	0.0034

以下是原文 Table 6 的结果：

Test resolution	FNO	PINO
64x64x33	9.73± 0.15%	6.30±0.11%
128x128x33	9.74± 0.16%	6.28±0.11%
256x256x65	9.84± 0.16%	6.22±0.11%

以下是原文 Table 7 的结果：

# data samples	# data samples # additional PDE instances	Resolution	Solution error	Equation error
400	0	128 × 128 × 6564 × 64 × 6532 × 32 × 33	33.32%33.31%30.61%	1.87791.88301.8421
400	40 k	128 × 128 × 6564 × 64 × 6532 × 32 × 33	31.74%31.72%29.60%	1.81791.82271.8296
400	160 k	128 × 128 × 6564 × 64 × 6532 × 32 × 33	31.32%31.29%29.28%	1.78401.78641.8524
4 k	0	128 × 128 × 6564 × 64 × 6532 × 32 × 33	25.15%25.16%21.41%	1.82231.82571.8468
4 k	100 k	128 × 128 × 6564 × 64 × 6532 × 32 × 33	24.15%24.11%20.85%	1.61121.61591.8251
4 k	400 k	128 × 128 × 6564 × 64 × 6532 × 32 × 33	24.22%23.95%20.10%	1.45961.46561.9146
0	100 k	128 × 128 × 6564 × 64 × 6532 × 32 × 33	74.36%74.38%74.14%	0.37410.38990.5226

以下是原文 Table 8 的结果：

Testing Re	From scratch	100	200	250	300	350	400	500
500	0.0493	0.0383	0.0393	0.0315	0.0477	0.0446	0.0434	0.0436
400	0.0296	0.0243	0.0245	0.0244	0.0300	0.0271	0.0273	0.0240
350	0.0192	0.0210	0.0211	0.0213	0.0233	0.0222	0.0222	0.0212
300	0.0168	0.0161	0.0164	0.0151	0.0177	0.0173	0.0170	0.0160
250	0.0151	0.0150	0.0153	0.0151	0.016	0.0156	0.0160	0.0151
200	0.00921	0.00913	0.00921	0.00915	0.00985	0.00945	0.00923	0.00892
100	0.00234	0.00235	0.00236	0.00235	0.00239	0.00239	0.00237	0.00237

6.3. 消融实验/参数分析

虽然论文没有明确的“消融实验”章节，但通过不同配置的实验对比，我们可以分析关键组件和策略的有效性：

PDE 约束在算子学习中的作用 (Table 1, 2, 3, 6, 7)：
- 低分辨率数据+高分辨率 PDE 约束： Table 1 明确展示了，即使在低分辨率数据下训练，高分辨率 PDE 约束也能显著提高模型对高分辨率未见数据的泛化能力。这等同于一个重要的消融实验，证明了多分辨率 PDE 约束对实现 零样本超分辨率 至关重要。
- 数据量与 PDE 实例数量的影响： Table 3 和 Table 7 比较了在 Kolmogorov 流上不同数据样本数量和 PDE 实例数量对 PINO 性能的影响。结果显示，即使没有数据，仅靠 PDE 约束 PINO 也能达到一定精度；增加数据和 PDE 实例都能持续提高准确性。这表明 PINO 能够灵活地利用两种信息来源，并且 PDE 约束在数据稀缺时提供了强有力的替代监督。
- PINO w/o data (无数据 PINO)： Table 2 中 Darcy 流的结果 1.50%，与 DeepONet with data 的 6.97% 形成鲜明对比，证明 PINO 即使完全没有训练数据，仅靠 PDE 约束也能学习到准确的 解算子，这是纯数据驱动方法无法做到的。
实例级微调 (Instance-wise Fine-tuning) 的作用 (Table 4)：
- Table 4 比较了 PINN 和 PINO (不同配置) 在 Kolmogorov 流 实例级微调 上的表现。结果显示，使用 算子 初始猜测 进行微调的 PINO 相比 PINN 有巨大的性能提升（误差从 18.7% 降至 0.9%），且收敛速度快得多。
- 锚定损失 $\mathcal{L}_{\mathrm{op}}$ (Equation (12))：虽然没有直接的消融实验来量化 锚定损失 的具体影响，但论文强调它作为一个“硬约束”，使得优化更容易。在长期瞬态流动实验中，PINO 结合 锚定损失 和 PDE 损失，将误差从 2.87% 进一步降低到 1.84%。这暗示了 锚定损失 在稳定微调过程和提高最终精度方面的积极作用。
预训练 算子 初始猜测 的影响 (Figure 8, Table 8)：
- 在 Reynolds 数迁移实验中，Figure 8 和 Table 8 清楚地展示了使用在不同 Reynolds 数下预训练的 算子 初始猜测，比从零开始训练具有更快的收敛速度和更好的最终精度。这证明了 算子学习 阶段捕捉到的通用动力学知识对于特定实例的求解（即使参数发生变化）具有巨大的价值。
微分方法的影响： 论文探讨了数值微分、自动微分和函数式微分三种导数计算方法。虽然没有直接给出不同微分方法在所有 PDE 上的性能对比表格，但强调了函数式微分在精确性和效率上的优势，特别是在 傅里叶空间 中进行计算时。这表明微分方法的选择对 PDE 损失的准确计算和训练效率至关重要。

这些结果共同证明了 PINO 框架中 物理约束 和 算子 初始猜测 这两个核心组件的有效性，以及它们在提高数据效率、泛化能力、优化稳定性和最终精度方面的关键作用。

7. 总结与思考

7.1. 结论总结

本文提出了 物理信息神经算子 (PINO)，一个将 数据驱动的算子学习 与 物理信息优化 巧妙结合的框架。PINO 通过引入双阶段学习范式（算子学习 和 实例级微调），有效地解决了现有 ML 求解 PDE 方法的局限性：

克服 PINN 优化挑战： PINO 利用预训练的 神经算子 作为 解函数 的 初始猜测 (ansatz)，使得 实例级微调 阶段的优化过程更加稳定和高效，能够处理 PINN 难以收敛的复杂多尺度动态系统。
缓解 FNO 数据需求： PINO 结合了 PDE 约束，可以在数据稀缺甚至无训练数据的情况下学习 解算子，极大地降低了数据获取成本。
实现 零样本超分辨率： PINO 的一个关键创新点在于能够利用低分辨率数据和高分辨率 PDE 约束进行训练，从而在测试时高精度地外推到训练时未见的高分辨率数据。
卓越的性能和泛化能力： 实验证明，PINO 在 Burgers、Darcy 和 Navier-Stokes 等多种 PDE 上均超越了传统 ML 基线方法，并保持了 FNO 相对于数值求解器的高速优势。此外，PINO 展现了良好的跨参数 (Reynolds 数) 迁移能力。
应用于逆问题： PINO 成功应用于 Darcy 流的逆问题，通过 PDE 损失确保恢复结果的物理有效性，并实现了相对于传统 MCMC 方法 3000 倍的加速。

7.2. 局限性与未来工作

作者指出了 PINO 及其相关工作的现有局限性，并展望了未来的研究方向：

高维问题扩展性： 由于 PINO 当前以 FNO 作为 主干网络，并依赖 FFT，将其扩展到更高维度的 PDE 问题可能面临挑战。FFT 在高维空间中的计算成本和内存消耗会显著增加。
优化收敛速度： 尽管 PINO 的 实例级微调 优于从零开始的 PINN，但 Figure 9 所示，通过梯度下降方法对 PINO 进行微调的收敛速度，仍不如直接使用更精细的网格带来的精度提升。这表明在优化技术方面仍有改进空间。
精度与复杂性权衡： 如何在保证精度的同时，进一步降低模型的复杂性和计算成本，是未来的研究方向。
跨几何体迁移： PINO 已经展示了跨 Reynolds 数的迁移能力，但将其泛化到不同边界条件或复杂几何体上的 PDE 族，仍是一个开放且具有挑战性的问题。傅里叶延续 (Fourier continuation) 提供了处理非周期性边界的方法，但对于任意复杂几何体可能还需要更通用的 神经算子 架构（例如 Graph Neural Operator）。
预训练模型库： 开发 PDE 领域的预训练模型库是一个有前景的方向，PINO 优秀的 外推 (extrapolation) 特性使其非常适合作为这些模型的骨干。

7.3. 个人启发与批判

个人启发：

数据-物理融合的强大潜力： PINO 再次有力地证明了 数据驱动 和 物理信息 方法并非互相排斥，而是可以相互增强。在数据稀缺或需要高泛化能力的场景下，物理定律可以作为强大的正则化和信息来源。
算子 初始猜测 的价值： 将 算子学习 阶段学习到的通用知识作为特定实例求解的 初始猜测，是一个非常优雅且高效的策略。它将 PDE 族层面的知识有效传递到 PDE 实例层面的求解中，显著改善了优化的起点和稳定性。这对于各种工程和科学问题中需要快速定制化求解的场景具有启发意义。
多分辨率学习的重要性： 能够以低分辨率数据训练模型，但利用高分辨率 PDE 约束来指导学习，并实现 零样本超分辨率，这是对传统 ML 范式的一个突破。它为在现实世界中数据采集成本高昂或分辨率受限的应用（如天气预报、材料科学、生物医学成像）提供了新的思路。
效率与精度兼得： PINO 在保持 FNO 惊人速度优势的同时，通过物理约束进一步提升了精度和泛化性，这使其在实时模拟和优化等领域具有巨大的应用潜力。

批判：

FNO 主干网络 的局限性继承： 尽管 PINO 弥补了 FNO 的许多不足，但其对 FFT 的依赖可能限制其在非均匀网格、复杂几何体和极高维问题上的直接应用。虽然 傅里叶延续 有助于处理非周期性问题，但对于任意拓扑结构的域，可能需要更通用的 神经算子 形式（如 Graph Neural Operator 或 Multipole Graph Neural Operator），这可能会增加模型的复杂性。
PDE 约束的准确性与计算成本： PDE 约束的有效性高度依赖于导数计算的准确性。尽管论文提出了函数式微分等高效方法，但在实际应用中，复杂 PDE 的高阶导数计算仍然可能面临数值稳定性和计算资源消耗的挑战，尤其是在高分辨率下。
超参数敏感性： PINO 引入了更多的损失项和超参数（如 PDE 损失权重 $\alpha, \beta$ ，锚定损失 权重），这些超参数的调优可能是一个复杂的过程，并可能影响模型的性能和稳定性。
“表现等效性”与“离散化收敛性”的讨论：论文在附录中解释了 PINO 遵循“离散化收敛性”而非“表现等效性”。“表现等效性”要求零混叠误差，通常导致线性近似方法，可能限制模型的表达能力。PINO 通过非线性变换和 PDE 约束，实现了在 超分辨率 场景下的良好泛化。然而，对于初学者来说，理解混叠误差和两种收敛性概念的细微差别及其对实际性能的影响，可能需要更深入的背景知识。这表明 PINO 放弃了某些理论上的严格性质，以换取更强的实践泛化能力，这种权衡是值得注意的。
实例级微调 的额外成本： 尽管微调比从零开始训练快得多，但对于每个新的 PDE 实例都需要额外的优化步骤，这在某些极度实时或大规模并行推理场景中，仍可能是一个需要权衡的额外计算成本。

Physics-Informed Neural Operator for Learning Partial Differential Equations

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 40 分钟读完 · 26,822 字