摘要

Computer Methods in Applied Mechanics and Engineering 418 (2024) 116546 Available online 30 October 2023 0045-7825/© 2023 Elsevier B.V. All rights reserved. Contents lists available at ScienceDirect Comput. Methods Appl. Mech. Engrg. journal homepage: www.elsevier.com/locate/cma Physics informed WNO Navaneeth N. a , ∗ , Tapas Tripura a , Souvik Chakraborty a , b , ∗ a Department of Applied Mechanics, Indian Institute of Technology Delhi, Hauz Khas 110016, India b Yardi School of Artificial Intelligence, Indian Institute of Technology Delhi, Hauz Khas 110016, India A R T I C L E I N F O Dataset link: https://github.com/csccm-iitd/Ph ysics-informed-WNO Keywords: Operator learning Wavelet neural operator Physics informed learning Stochastic projection A B S T R A C T D…

1. 论文基本信息

1.1. 标题

Physics informed WNO (物理信息引导的WNO)

1.2. 作者

Navaneeth N. $^a$ , Tapas Tripura $^a$ , Souvik Chakraborty $^a,b$

$^a$ 印度理工学院德里应用力学系
$^b$ 印度理工学院德里Yardi人工智能学院

1.3. 发表期刊/会议

Computer Methods in Applied Mechanics and Engineering (计算机方法在应用力学和工程中的应用)

声誉与影响力： 该期刊是计算力学和工程领域内极具声望的顶级期刊，专注于发表先进的数值方法、计算模型和仿真技术。在应用数学、计算科学和工程学界拥有广泛的影响力。

1.4. 发表年份

2024年 (在线发布于2023年10月30日)

1.5. 摘要

深度神经算子 (Deep neural operators) 被认为是学习复杂偏微分方程 (PDEs) 解算子的有效工具。与耗时费力的解析和计算工具相比，单个神经算子可以预测在不同初始或边界条件及不同输入下的PDE解，而无需从头开始重复独立运行。最近提出的小波神经算子 (Wavelet Neural Operator, WNO) 就是这样一种算子，它利用小波的时频局部化优势，有效捕捉空间域中的流形 (manifolds)。尽管WNO已被证明是一种有前途的算子学习方法，但该框架对数据量的需求 (data-hungry nature) 是其主要缺点。完全依赖传统求解器生成数据，并随后使用生成的数据训练算子，导致在实际应用中算子的实现耗时且具有挑战性。在这项工作中，我们提出了一种物理信息引导的WNO (Physics-informed WNO, PIWNO)，用于学习参数化PDE族 (families of parametric PDEs) 的解算子，而无需标注的训练数据。该框架的有效性通过四个与工程和科学各个领域相关的非线性时空系统进行了验证和说明。

1.6. 原文链接

/files/papers/6926f11f83c593e836d1a865/paper.pdf

发布状态： 已正式发表于《Computer Methods in Applied Mechanics and Engineering》期刊。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题：
1. 传统方法求解偏微分方程 (PDEs) 解算子 (solution operators) 计算成本高昂，且每次都需要针对新的初始/边界条件或参数重新求解。
2. 现有的数据驱动型神经算子 (Neural Operators, NOs)，特别是小波神经算子 (Wavelet Neural Operator, WNO)，虽然在学习函数映射方面表现出色，但严重依赖大量的标注训练数据。这些标注数据通常需要通过传统的数值求解器（如有限元法 FEM 或有限差分法 FDM）来生成，这一过程本身就非常耗时且计算量大，限制了这些算子在实际应用中的可扩展性。
为什么这个问题在当前领域是重要的：
- PDEs 广泛应用于物理、工程、生物等多个科学领域，能够描述各种复杂系统的行为。快速、准确、可泛化的PDE解对于科学发现、工程设计和实时控制至关重要。
- 数据驱动方法在许多领域取得了巨大成功，但其“数据饥饿”的特性在PDE求解这类数据生成成本高的任务中成为瓶颈。解决这一问题将极大地拓宽神经算子在实际科学计算中的应用范围。
现有研究存在的具体挑战或空白 (Gap)：
- 数据依赖性： 传统的WNO虽然利用小波变换的优势捕捉了空间域的流形特征，但其本质上仍是一种纯数据驱动模型，需要大量的输入-输出配对数据进行训练。
- 计算成本： 标注数据的生成过程（通过传统求解器）是计算密集型的，这使得WNO的实现和部署变得困难。
- 泛化能力： 传统的物理信息神经网络 (Physics-informed Neural Networks, PINNs) 通常学习的是特定PDE的单个解，而非能够泛化到不同初始/边界条件或参数的算子。
这篇论文的切入点或创新思路：
- 将物理信息融合到小波神经算子 (WNO) 的训练过程中，提出了 Physics-informed WNO (PIWNO)。
- 通过引入物理定律作为损失函数的一部分，使得模型能够在没有标注训练数据的情况下进行训练，从而解决了数据饥饿问题。
- 与其他物理信息神经网络不同，PIWNO 旨在学习一个从输入函数空间到输出解函数空间的算子，这意味着它能对一整族参数化PDEs进行预测，而不仅仅是单个解。
- 为了在WNO的复杂卷积架构中计算PDE残差所需的导数，论文提出了一种基于 stochastic projection（随机投影）的梯度估计方法。

2.2. 核心贡献/主要发现

提出了 Physics-informed WNO (PIWNO) 框架： 成功地将物理信息引入到 WNO 模型中，使其能够在无需标注解数据的情况下学习参数化 PDEs 的解算子，从而实现了“100%数据效率”（指无需预先计算好的解作为标签数据）。
引入 stochastic projection 梯度计算方法： 针对 WNO 卷积结构中导数计算的复杂性，提出并应用了基于 stochastic projection 的梯度估计方案，有效计算了 PDE 损失和边界损失所需的导数。
算子学习而非单点求解： 与传统的 PINNs 学习特定 PDE 的单个解不同，PIWNO 学习一个算子，能够泛化到不同的初始条件、边界条件和源项，而无需重新训练。
广泛的验证： 通过四个非线性时空 PDEs (Burgers'方程、Nagumo方程、非齐次泊松方程和Allen-Cahn方程) 对 PIWNO 的有效性进行了全面验证，这些 PDEs 涵盖了工程和科学中的多种复杂现象。
性能提升： 实验结果表明，PIWNO 在纯物理信息驱动的情况下，其预测精度通常优于或与纯数据驱动的 WNO 相当（在某些情况下甚至更好），并且当结合数据和物理信息进行混合训练时，模型泛化能力和预测精度达到最佳。
计算效率显著提升： 与传统数值求解器相比，训练好的 PIWNO 在推理阶段能够大幅减少预测时间。

3. 预备知识与相关工作

3.1. 基础概念

偏微分方程 (Partial Differential Equations, PDEs): PDEs 是数学中描述自变量、因变量及其偏导数之间关系的方程。它们是科学和工程领域中用于建模各种现象（如热传导、流体力学、波传播、量子力学等）的基本工具。例如，热传导方程描述了温度随时间和空间的变化，而纳维-斯托克斯方程则描述了流体的运动。解决 PDEs 通常是为了理解和预测这些物理系统的行为。
算子学习 (Operator Learning): 传统的机器学习模型通常学习的是从有限维输入空间到有限维输出空间的映射（函数）。而算子学习则更进一步，旨在学习从一个无限维函数空间到另一个无限维函数空间的映射，即学习一个算子。这意味着一旦模型被训练，它不仅能处理特定的离散数据点，还能处理整个函数作为输入，并输出一个函数作为解。这对于 PDEs 的求解至关重要，因为 PDEs 的输入（如初始条件、边界条件或源项）和输出（解）本身都是函数。
小波神经算子 (Wavelet Neural Operator, WNO): WNO 是一种特殊的神经算子，它将小波变换的原理融入到神经网络结构中。小波变换在时频分析中具有优越的局部化特性，能够有效捕捉信号或函数中的局部特征（例如，PDEs 解中的陡峭梯度或多尺度结构）。WNO 利用小波变换在不同尺度和位置上分解和重构函数的能力，从而更有效地学习 PDEs 的解算子。它通过在小波域进行卷积操作来捕捉函数之间的非局部依赖关系，并结合传统神经网络的非线性激活。
物理信息神经网络 (Physics-informed Neural Networks, PINNs): PINNs 是一种神经网络，其训练过程不仅依赖于数据，还直接将物理定律（通常以 PDEs 的形式表示）编码到损失函数中。具体来说，PINNs 的损失函数由两部分组成：
1. 数据损失 (Data Loss): 衡量神经网络预测值与任何可用标注数据之间的误差。
2. 物理损失 (Physics Loss) / 残差损失 (Residual Loss): 衡量神经网络预测的解在物理定律（PDE 表达式）中产生的残差。如果神经网络预测的解满足 PDE，则残差应为零。通过最小化总损失，PINNs 能够学习到既符合数据又遵守物理定律的解。这使得 PINNs 能够在数据稀缺的情况下，利用物理知识进行有效的训练，并具有更好的泛化能力。然而，传统的 PINNs 通常学习的是特定 PDE 的一个解，而不是一个泛化的算子。
随机投影 (Stochastic Projection): Stochastic projection 是一种用于估计函数导数的方法，尤其适用于那些通过神经网络前向传播得到的函数。在 PINNs 或 PIWNO 中，为了计算 PDE 残差，我们需要获取神经网络输出对输入空间变量（如 x, y, t）的导数。传统的自动微分 (Automatic Differentiation) 可以计算这些导数，但在某些复杂的网络架构（如卷积层）或大规模问题中，直接计算高阶导数可能会面临效率或稳定性问题。 Stochastic projection 通过在邻域内采样点并利用统计学方法（如局部线性回归）来近似估计导数，提供了一种替代方案。本文中，这种方法被用于在 WNO 这样复杂的卷积架构中，更稳定地计算 PDE 损失所需的空间导数。

3.2. 前人工作

传统PDE求解器： 论文提及了有限元法 (Finite Element Method, FEM) 和有限差分法 (Finite Difference Method, FDM)。这些是经典的数值方法，通过将连续域离散化为有限个单元或网格点来近似求解 PDEs。它们在精度和鲁棒性方面表现良好，但缺点是计算成本高昂，且每次改变初始/边界条件或系统参数时都需要重新进行计算。
数据驱动的神经算子： 随着深度学习的发展，神经算子（例如 FNO (Fourier Neural Operator)、LNO (Laplacian Neural Operator) 等）被提出，旨在学习从函数空间到函数空间的映射。它们可以一次性训练后，快速预测不同输入函数的 PDE 解，具有很好的泛化能力。
小波神经算子 (WNO)： 论文特别提到了 WNO，它结合了小波变换的多尺度分析能力，能够更有效地捕捉 PDE 解中的局部和非局部特征。WNO 在处理具有复杂空间结构的问题上展现出潜力。
物理信息神经网络 (PINNs)： 物理信息神经网络通过将物理定律（PDEs）编码到损失函数中，可以在数据稀缺的情况下进行训练。然而，大多数 PINNs 专注于学习特定 PDE 的一个解，而非能够泛化到不同初始/边界条件的算子。

3.3. 技术演进

该领域的技术演进大致经历了从基于物理原理的数值方法到基于数据驱动的学习方法，再到结合物理与数据的混合方法：

传统数值方法 (FEM, FDM)： 精度高，但计算开销大，缺乏泛化能力。
纯数据驱动的神经算子 (FNO, WNO等)： 泛化能力强，推理速度快，但严重依赖大量高质量的标注数据，且数据生成本身是一个瓶颈。
物理信息神经网络 (PINNs)： 解决数据稀缺问题，将物理定律作为正则化项，但通常学习特定解而非算子。
物理信息引导的神经算子 (本文的PIWNO)： 本文的工作处于这一技术脉络中。它结合了 WNO 的算子学习能力和 PINNs 的物理信息约束，旨在克服 WNO 的数据饥饿问题，同时保持其泛化到函数空间的能力，并且利用 stochastic projection 解决了 WNO 复杂架构中导数计算的挑战。

3.4. 差异化分析

与传统数值求解器 (FEM/FDM) 的区别：
- 泛化能力： PIWNO 学习的是一个算子，一旦训练完成，可以即时预测一系列不同初始/边界条件下的 PDE 解，而 FEM/FDM 每次都需要从头计算。
- 计算效率： PIWNO 在推理阶段速度远超 FEM/FDM。
- 数据需求： FEM/FDM 是“第一性原理”方法，不需要数据训练；PIWNO 虽然不需要标注解数据，但需要无标签的输入条件进行物理损失计算。
与纯数据驱动的神经算子 (WNO) 的区别：
- 数据依赖性： 纯数据驱动 WNO 严重依赖大量的输入-输出（输入函数-解函数）配对数据进行训练。PIWNO 则通过引入物理损失，可以在没有这些标注解数据的情况下进行训练，大大降低了数据生成的成本和时间。
- 鲁棒性与泛化： 物理信息的引入可以提高模型的鲁棒性，使其在训练数据分布稀疏或有噪声的情况下，依然能预测出符合物理定律的解，并可能提高对 out-of-distribution (OOD) 样本的泛化能力。
与传统物理信息神经网络 (PINNs) 的区别：
- 学习目标： 传统的 PINNs 通常学习的是特定 PDE 的单个解（即从空间坐标 (x, t) 到解 u(x,t) 的映射）。PIWNO 则学习一个算子，它能够从一个输入函数（如初始条件 $u_0(x)$ ）映射到输出解函数（如时空解 u(x,t)），从而可以泛化到一族 PDEs。
- 架构选择： PIWNO 基于 WNO 的架构，利用了小波变换的优势来处理函数空间数据；PINNs 通常使用多层感知机 (Multilayer Perceptrons, MLPs) 或其他标准神经网络。
- 导数计算： PIWNO 针对其 WNO 架构的特点，采用了 stochastic projection 来计算导数，这可能是其在复杂卷积结构中处理高阶导数的一种优化。

4. 方法论

本节将详细阐述 PIWNO 的方法论，包括问题陈述、小波神经算子 (WNO) 的核心架构，以及物理信息引导的关键组成部分——基于 stochastic projection 的梯度计算。

4.1. 问题陈述

论文首先定义了 PIWNO 旨在解决的 PDE 算子学习问题。

函数空间定义： 考虑输入函数空间 $\mathcal{A}$ 和输出函数空间 $\mathcal{V}$ ，其中包含所有的输入 $\pmb{a} \in \mathcal{A}$ 和输出 $\pmb{u} \in \mathcal{V}$ 。存在一个微分算子 $\mathcal{N}$ ，它将这些函数空间映射到零空间 $\mathcal{O}$ ，即 $\mathcal{N}: \mathcal{A} \times \mathcal{V} \mapsto \mathcal{O}$ 。
参数化PDE家族： 在这个框架下，一个参数化的 PDE 家族可以表示为： $\mathcal{N}(\pmb{a}, \pmb{u}) = \pmb{0}, \quad \mathrm{in} ~ D \subset \mathbb{R}^d$ 其中， $D$ 是 $d$ 维有界域，其边界表示为 $\partial D$ 。
边界条件： 边界条件表示为： $\pmb{u} = \pmb{g}, \quad \mathrm{in} ~ \partial D$ 参数 $\pmb{a} \in \mathbb{R}^a$ 表示输入函数空间，而 $\pmb{u} \in \mathbb{R}^u$ 表示参数化 PDE 的解空间。对于一个固定的域点 $\boldsymbol{x} \in D$ ，算子的输入函数空间可以包含源项 $f(\boldsymbol{x}, t): D \mapsto \mathbb{R}$ 、初始条件 $u(\boldsymbol{x}, 0): D \mapsto \mathbb{R}$ 和边界条件 $u(\partial D, t): \partial D \mapsto \mathbb{R}$ 。输出函数空间则包含参数化 PDE 的解 $u(\boldsymbol{x}, t): D \mapsto \mathbb{R}$ ，其中 $t$ 是时间坐标。
积分算子表示： 对于微分算子 $\mathcal{N}$ 和上述输入特征，存在一个积分算子 $\mathcal{D}: \mathcal{A} \mapsto \mathcal{V}$ ，它将输入函数映射到解空间。与数据驱动的 WNO 类似，这个算子可以被一个神经网络 $\mathcal{D}$ 近似为： $\mathcal{D}: \mathcal{A} \times \boldsymbol{\theta}_{NN} \mapsto \mathcal{V}$ 其中 $\boldsymbol{\theta}_{NN}$ 是神经网络的参数。目标是学习这个算子，使得对于任何输入 $\boldsymbol{a} \in \mathcal{A}$ ，都能得到唯一的解 $\pmb{u} = \mathcal{D}(\pmb{a}) \in \mathcal{V}$ 。
数据驱动损失 (Data-driven Loss)： 对于包含 $N$ 个输入-输出配对数据 $\{ \boldsymbol{a}_j, \boldsymbol{u}_j \}_{j=1}^N$ 的情况，纯数据驱动框架的损失函数可以表示为： $\mathcal{L}_{\mathrm{data}}\left(\boldsymbol{u}, \mathcal{D}(\boldsymbol{a})\right) = \left\| \boldsymbol{u} - \mathcal{D}(\boldsymbol{a}) \right\|_{\mathcal{V}}^{2} = \int_{D}\left|\boldsymbol{u}\left(\boldsymbol{x}\right)-\mathcal{D}(\boldsymbol{a})\left(\boldsymbol{x}\right)\right|^{2} ~ \mathrm{d}\boldsymbol{x}$ 在离散化空间中，通过对所有可能的输入和 $n_d$ 个空间离散点上的平均误差，该算子损失函数被表达为： $\mathcal{L}_{\mathrm{data}}\left(\boldsymbol{u}, \boldsymbol{\theta}_{N N}(\boldsymbol{a})\right) = \frac{1}{N} \sum_{j=1}^{N} \sum_{i=1}^{n_{d}}\left|u_{j}\left(\boldsymbol{x}_{i}\right)-\mathcal{D}\left(\boldsymbol{a}_{j}, \boldsymbol{\theta}_{N N}\right)\left(\boldsymbol{x}_{i}\right)\right|^{2}$ 通过优化该损失函数，可以得到最优的网络参数： $\pmb{\theta}_{N N}^{*} = \underset{\pmb{\theta}_{N N}}{\mathrm{argmin}} \ \mathcal{L}_{\mathrm{data}}\left(\pmb{u}, \pmb{\theta}_{N N}(\pmb{a})\right)$
物理信息损失 (Physics-informed Loss)： 为了实现物理信息学习，引入了对应于方程 (1) 的微分算子 $\mathcal{N}$ 的残差形式： $\mathcal{N}(\pmb{a}, \pmb{u}; \pmb{\theta}_{N N}) = 0$ 其中 $\mathcal{N}$ 包含空间和时间的所有导数、关于 $\boldsymbol{x}, t$ 和 $\pmb{u}$ 的函数以及输入参数 $\gamma$ 。因此，方程 (7) 可以重写为： $\mathcal{N}\left(\mathbf{x}, t, \boldsymbol{u}, \partial_{\mathbf{t}} \boldsymbol{u}, \partial_{\mathbf{t}}^{2} \boldsymbol{u} \ldots, \partial_{\boldsymbol{x}} \boldsymbol{u}, \partial_{t}^{n} \boldsymbol{u}, \ldots, \partial_{\boldsymbol{x}}^{n} \boldsymbol{u}, \gamma\right) = 0$ 基于平方损失函数，PDE 损失 $\mathcal{L}_{\mathrm{pde}}$ 的表达式如下： $\mathcal{L}_{\mathrm{pde}} ~ (\mathcal{D}(\boldsymbol{a}, \boldsymbol{\theta}_{N N})) = \underbrace{ {\| \mathcal{N}(\boldsymbol{a}, \mathcal{D}(\boldsymbol{a}, \boldsymbol{\theta}_{N N})) \|}_{D}^{2} }_{\mathrm{physics ~ Loss}} + \alpha \underbrace{ {\| \mathcal{D}(\boldsymbol{a}, \boldsymbol{\theta}_{N N})|_{\partial D} - g \|}^{2} }_{\mathrm{Boundary ~ Loss}}$ 其中 $\alpha \in \mathbb{R}$ 是边界点近似误差在总 PDE 损失中的参与因子。对于 $N$ 个训练输入样本， $n_d$ 个空间离散点和 $n_b$ 个边界点，方程 (9) 可以重写为： $\mathcal{L}_{\mathrm{pde}}\left(\boldsymbol{D}(\boldsymbol{a}, \boldsymbol{\theta}_{N N})\right) = \frac{1}{N} \sum_{j=1}^{N} \sum_{i=1}^{n_{d}}\left|\mathcal{N}(a_{j}, u_{j} ; \boldsymbol{\theta}_{N N})(x_{i})\right|^{2} + \alpha \sum_{j=1}^{N} \sum_{i=1}^{n_{b}}\left|u_{j}(x_{i} ; \boldsymbol{\theta}_{N N}) - g(x_{i})\right|^{2}$ 在 PIWNO 中，目标是最小化 $\mathcal{L}_{\mathrm{pde}}$ ，这要求计算网络输出 $\pmb{u}$ 的导数。

4.2. 小波神经算子 (Wavelet Neural Operator, WNO)

WNO 旨在学习非线性积分算子 $\mathcal{D}: a(x) \mapsto u(x)$ ，它将输入函数空间 $a(x) \in d_a$ 映射到解空间 $u(x) \in d_u$ 。

网络结构概述：
1. 提升 (Lift) 操作： 输入 a(x) 首先通过一个局部变换 $\mathrm{\bf ~ P}: a(x) \mapsto v_0(x)$ 提升到一个高维空间 $d_v$ 。这个 $\mathrm{\bf ~ P}$ 可以是一个浅层全连接神经网络 (FNN) 或一个 $1 \times 1$ 卷积。
2. 迭代更新： 在提升后的空间中，执行 $l$ 次迭代更新，每次迭代由一个变换 $G: \mathbb{R}^{d_v} \mapsto \mathbb{R}^{d_v}$ 定义，即 $v_{j+1} = G(v_j)$ 。这些迭代步骤借鉴了泛函分析中的算子理论。
3. 投影 (Project) 操作： 在 $l$ 次迭代结束后，应用第二个局部变换 $\mathrm{\bf ~ Q}: v_l(x) \mapsto u(x)$ ，将结果投影回最终的解空间 $u(x) \in \mathbb{R}^{d_u}$ 。
迭代更新 $G(\cdot)$ 的细节： 受到 Urysohn 型积分方程的启发，每次迭代的更新 $G(\cdot)$ 定义为： $G(v_j)(x) := \varphi\left(\left(K(a ; \phi) * v_j\right)(x) + W v_j(x)\right) ; \quad x \in D, \quad j \in [1, l]$ 其中：
- $\varphi(\cdot): \mathbb{R} \mapsto \mathbb{R}$ 是一个非线性激活函数。
- $\phi \in \boldsymbol{\theta}_{NN}$ 是核参数 (kernel parameters)。
- $W: \mathbb{R}^{d_v} \mapsto \mathbb{R}^{d_v}$ 是一个线性变换。
- $K$ 是非线性积分算子，其定义为： $\left(K(a ; \phi) * v_j\right)(x) := \int_D k\left(a(x), x, \xi ; \phi\right) v_j(\xi) \mathrm{d}\xi ; \quad x \in D, \quad j \in [1, l]$ 这里 $k\left(a(x), x, \xi ; \phi\right)$ 表示非线性积分方程中核 (kernel) 的函数形式。WNO 的目标就是学习这个核函数。
小波域卷积： 为了高效地学习核函数，WNO 在小波空间中进行操作。首先对提升后的输入 $v_j(x)$ 进行小波变换，然后在小波域进行核卷积，最后通过逆小波变换回到原始空间。
- 小波变换 $\mathcal{W}(\cdot)$ 和逆小波变换 $\mathcal{W}^{-1}(\cdot)$ ： $\begin{array}{rl} & (\mathcal{W} v_j)(s, \tau) = \displaystyle \int_D \mathcal{T}(x) \frac{1}{|s|^{1/2}} \psi\left(\frac{x - \tau}{s}\right) d x \\ & (\mathcal{W}^{-1}((v_j)_w))(x) = \displaystyle \frac{1}{C_{\psi}} \displaystyle \int_0^\infty \int_D ((v_j)_w)(s, \tau) \frac{1}{|s|^{1/2}} \tilde{\psi}\left(\frac{x - \tau}{s}\right) d \tau \frac{d s}{s^2} \end{array}$ 其中 $\psi(x)$ 表示正交母小波 (orthonormal mother wavelet)， $s$ 和 $\tau$ 是小波分解的尺度 (scaling) 和平移 (translational) 参数。 $(v_j)_w$ 是 $v_j(x)$ 的小波分解系数， $\tilde{\psi}(\cdot)$ 是缩放和平移后的母小波， $0 < C_{\psi} < \infty$ 。
- 小波域的核函数： 核函数 $k_{\phi}$ 直接在小波空间中定义，表示为 $R_{\phi} = \mathcal{W}(k_{\phi})$ 。
- 小波域卷积操作： $\left(K(\phi) * v_j\right)(x) = \mathcal{W}^{-1}\left(R_{\phi} \cdot \mathcal{W}(v_j)\right)(x) ; \quad x \in D$ 这里使用了双树复小波变换 (Dual-Tree Complex Wavelet Transform, DTCWT)，它提供实部和虚部的小波系数，粗略代表 $15^\circ, 45^\circ, 75^\circ, 105^\circ, 135^\circ, 165^\circ$ 方向的小波。
- 核卷积的具体实现： 如果 $d_l$ 是 DTCWT 最后一层每个小波系数的维度，对于输入 $v_j(x)$ ，分解输出 $\boldsymbol{\mathcal{W}}\left(\boldsymbol{v}_j ; \boldsymbol{\ell}\right)$ 将具有维度 $d_l \times d_v$ 。然后，权重张量 $R_{\phi}(\ell)$ 的大小为 $d_l \times d_v \times d_v$ 。核卷积 $( \boldsymbol{R}_{\phi} \cdot \mathcal{W}(\boldsymbol{v}_j) ) (x)$ 遵循以下形式： $\big ( R \cdot \mathcal{W}(v_j ; \ell) \big )_{t_1, t_2} = \sum_{t_3 = 1}^{d_v} R_{t_1, t_2, t_3} \mathcal{W}(v_j ; \ell)_{t_1, t_3} ; \quad I_1 \in [1, d_l], \quad I_2, I_3 \in d_v$ 由于 DTCWT 产生12个系数（6个方向的实部和虚部），因此需要12个权重张量和12个卷积操作来学习参数空间。
PIWNO 架构图： 下图（原文 Figure 1）展示了 PIWNO 的架构。它描绘了输入函数如何通过提升层、多层小波域内的迭代卷积、非线性激活，最终通过投影层生成输出解。同时，图中清晰展示了物理信息损失 (Physics Loss) 和边界损失 (Boundary Loss) 如何计算并反馈到模型训练中。

$该图像是示意图，展示了Wavelet Neural Operator（WNO）的结构和工作流程。图中包括输入组件、向上提升和向下提升的Wavelet块，以及与物理相关的损失计算。主要步骤包括通过Wavelet核积分进行数据处理，计算PDE损失和边界条件与初始条件损失，并最终最小化损失以优化模型参数 $\\theta_{WN}$。$ 该图像是示意图，展示了Wavelet Neural Operator（WNO）的结构和工作流程。图中包括输入组件、向上提升和向下提升的Wavelet块，以及与物理相关的损失计算。主要步骤包括通过Wavelet核积分进行数据处理，计算PDE损失和边界条件与初始条件损失，并最终最小化损失以优化模型参数 $\theta_{WN}$ 。

Figure 1. PIWNO架构示意图

4.3. 基于随机投影的导数计算 (Derivatives through Stochastic Projection)

在 PIWNO 中，计算 PDE 损失 $\mathcal{L}_{\mathrm{pde}}$ 需要神经网络输出对空间和时间的导数。由于 WNO 架构中包含卷积操作，直接计算这些导数可能不那么直接。因此，论文采用了基于 stochastic projection 的梯度估计方案。

背景： 设 $\pmb{u}(\pmb{x})$ 是一个宏观场变量。为了通过邻域信息表征这个变量，向 $\pmb{u}(\pmb{x})$ 添加一个零均值噪声项，产生在 $\pmb{z}$ 处的场测量 $\pmb{u}(\pmb{z})$ ，其中 $\pmb{z} \neq \pmb{x}$ ： $\pmb{u}(\pmb{z}) = \pmb{u}(\pmb{x}) + \pmb{\Delta}\eta$ 这里， $\pmb{\Delta}\eta$ 代表由于微观层面未解释的波动引起的噪声。
随机过程建模： 宏观层面的噪声观测，在约束了微观信息后，在时间 $\mathbf{t}$ 采样时可以写成以下形式： $d Z_t = h(\boldsymbol{x}_t, \boldsymbol{z}_t) dt + \sigma dW_t$ 其中 $h(\cdot, \cdot)$ 是一个函数，给出宏观层面观察到的场变量值在相隔一定距离的点上的差异。 $\sigma dW_t$ 表示噪声，它依赖于微观对应物。 $Z_t$ 是微观采样函数， $W_t$ 是一个布朗运动，独立于 $\pmb{\eta}_t$ 。
条件期望与空间差异： 为了获得场变量的微观信息空间变化，使用了 $\pmb{u}$ 的条件期望。通过在给定概率空间 $\mathcal{P}$ 上对微观采样函数 $Z_t$ 应用随机滤波的类比，并进一步利用 Kallianpur-Striebel 公式和 Radon-Nikodym 导数进行测度变换，得到 $(z_t - x_t)$ 的以下形式： $(z_t - x_t) = (z_{t_0} - x_{t_0}) + \int_{\hat{t_0}}^{\hat{t}} \left(\pi_s\left((z - x) h^T\right) - \pi_s(h)^T \pi_t(z - x)\right) \cdot \left(\sigma \sigma^T\right)^{-1} \left(d z_t\right)$ 其中 $\boldsymbol{z}_{t_0} - \boldsymbol{x}_{t_0} = \boldsymbol{\Delta}$ ， $t_0$ 是初始时间。 $\pi_t(\boldsymbol{z} - \boldsymbol{x})$ 表示在给定概率空间 $\mathcal{P}$ 下的条件期望，即 $\Pi_t(\pmb{u}) = E_{\mathcal{P}} [ \pmb{u}(\pmb{x}) | \mathcal{F}_t ]$ ，其中 $\mathcal{F}_t$ 是由 $Z_t$ 序列构成的。函数 $\pmb{h}(\pmb{x}, z)$ 足够平滑并满足： $h(x, z) = \left\{ \begin{array}{ll} 0, & \mathrm{if ~ } |z - x| \leq 0 \\ Nonzero, & \mathrm{otherwise.} \end{array} \right.$ $Z_t$ 在方程 (23) 中表示特定观测，即 $Z_t = Z_{t'} + \int_{\delta \hat{t}} \Delta d \hat{s}$ ，其中 $t'$ 是先前采样的宏观时间。微观观测的方差可以替换为 $\boldsymbol{\sigma} \boldsymbol{\sigma}^T \equiv \pi_t\left(\boldsymbol{h} \boldsymbol{h}^T\right) \delta \boldsymbol{\hat{t}}$ 。由于积分在最小可分辨微观时间段 $t_{\perp}$ 内进行，积分项中的宏观时间变化无法求解。因此， $\boldsymbol{z}_t - \boldsymbol{x}_t$ 被认为是无漂移的，可以近似为： $(\pmb{z}_t - \pmb{x}_t) \sim \pmb{\varDelta} + \pmb{\mathrm{G}} \pmb{\varDelta}$ 其中 $\mathbf{G}$ 的表达式由下式给出： $\mathbf{G} = \left(\pi_t\left((z - x) h^T\right) - \pi_t(z - x)\right) \boldsymbol{\pi}_t(h)^T (\operatorname{Var}(h))^{-1}$
导数计算： 为了计算域中给定点 $\bar{\pmb{x}} = \{x_p, y_p\}$ 处的梯度，首先定义一个半径为 $r_n$ 的邻域。在该邻域内选择 $N_t$ 个搭配点 (collocation points)。然后，通过以下公式计算输出 $\boldsymbol{u}$ 相对于输入变量在 $\bar{\pmb{x}}$ 处的梯度： $\hat{\mathbf{G}}(x = \bar{x}) = \frac{\partial u(\bar{x}, w)}{\partial x} = \frac{\frac{1}{N_t} \sum_{i=1}^{N_b} (u(x_i, w) - u(\bar{x}, w)) (x_i - \bar{x})^T}{\frac{1}{N_t} \sum_{i=1}^{N_b} (x_i - \bar{x}) (x_i - \bar{x})^T}$ 其中 $\pmb{x}_i = \{x_i, y_i\}$ 被认为是通用邻域点， $N_b$ 表示邻域点的数量。这个公式本质上是基于邻域点信息进行的一种局部线性回归或有限差分近似，用于估计函数在某一点的导数。
算法流程 (Algorithm 1)： Algorithm 1: Stochastic Projection based physics Informed Wavelet Neural Operator 详细描述了 PIWNO 的实现步骤：
1. 要求： 边界条件、初始条件和描述物理约束的 PDE。
2. 初始化： 初始化 WNO 的网络参数 $\pmb{w} = \{w_i^s, b_i^s\}$ ，即 $\boldsymbol{\theta}_{NN}$ 。
3. 收集域内输出： 收集 WNO 输出 $(\mathscr{V})$ 及其在域 $\Omega$ 上的网格点坐标 $\{x_f^i, y_f^i\}$ 。
4. 收集边界输出： 收集 WNO 输出 $(\mathscr{V})$ 及其在域边界 $\partial \Omega$ 上的网格点坐标 $\{x_b^i, y_b^i\}$ 。
5. 梯度计算 (一阶)： 对于所有域内点和边界点，使用方程 (27) 获得一阶梯度，并存储这些梯度。
6. 梯度计算 (高阶)： 使用相同的公式计算二阶梯度（原文此处有笔误，应为 "second order gradients"）。
7. 定义PDE损失： 根据梯度分量定义 PDE 损失 $\mathcal{L}_{PDE}$ 。
8. 定义边界损失： 定义边界条件损失 $\mathcal{L}_{BC}$ 和总损失 $\mathcal{L}_{total} = \mathcal{L}_{PDE} + \mathcal{L}_{BC}$ 。
9. 训练循环： 在总损失 $\mathcal{L} > \epsilon$ $L > ϵ$ 的条件下，循环训练网络。
  - 更新网络参数： $\{w_i^s, b_i^s\} \gets \{w_i^s, b_i^s\} - \delta \nabla_{w,b} L(\pmb{w}, b)$ ，其中 $\delta$ 是学习率。
  - 更新 epoch 计数。
10. 返回： 返回经过优化的 PINN 参数。
11. 获取预测： 获取场变量/PDE 解的预测。
12. 输出： 场变量/PDE 解的预测。

5. 实验设置

本节详细描述了 PIWNO 模型的实验设置，包括所使用的 PDEs、数据集生成方法、评估指标和对比基线。

5.1. 数据集

论文选择了四个具有代表性的非线性时空 PDEs 来验证 PIWNO 的性能，这些 PDEs 涵盖了不同的物理现象和数学特性。

5.1.1. Burgers' 方程 (Burgers' Diffusion Dynamics)

方程形式： $\begin{array}{r l} \partial_t u(x, t) + \displaystyle \frac{1}{2} \partial_x u^2(x, t) = \nu \partial_{xx} u(x, t), & \quad x \in [0, 1], t \in [0, 1] \\ u(x = 0, t) = u(x = 1, t) = 0, & \quad t \in [0, 1] \\ u(x, 0) = u_0(x), & \quad x \in [0, 1] \end{array}$
- 描述： Burgers' 方程是流体力学中的一个基本模型，常用于描述冲击波的形成和耗散。
- 参数： $\nu = 0.1$ (流体粘度)。
- 初始条件 $u_0(x)$ ： $u_0(x) = \cos(\zeta \pi x) + \sin(\eta \pi x)$ 。为了生成多个不同的初始条件，参数 $\zeta$ 和 $\eta$ 从均匀分布中采样： $\zeta \sim \mathrm{Unif}(0.5, 1.5)$ 和 $\eta \sim \mathrm{Unif}(0.5, 1.5)$ 。
- 目标： 学习算子 $\mathcal{D}: u_0(x) \mapsto u(x, t)$ ，即从初始条件映射到时空解。
- 解空间分辨率： $81 \times 81$ 。
- 训练样本数 $N_s$ ： 300 (对于数据驱动和混合模型)。

5.1.2. Nagumo 方程 (Nagumo Equation)

方程形式： $\begin{array}{r l r} \partial_t u - \varepsilon \partial_{xx} u = u(1 - u)(u - \alpha), & { } x \in [0, 1], t \in [0, 1] \\ u(x = 0, t) = u(x = 1, t) = 0, & { } t \in [0, 1] \\ u(x, 0) = u_0(x), & { } x \in [0, 1] \end{array}$
- 描述： Nagumo 方程是一个反应-扩散方程，常用于神经科学中模拟神经冲动的传播。
- 参数： $\varepsilon = 1$ (扩散率)， $\alpha = -1/2$ (模型参数，决定波速)。
- 初始条件 $u_0(x)$ ： 使用高斯随机场 (Gaussian Random Field, GRF) 生成，其核函数形式为 $K(x, y) = \sigma^2 \exp\left( \frac{ - (\mathbf{x} - \mathbf{x'})^2 }{ 2 l^2 } \right)$ 。参数选择为 $\sigma = 0.1$ 和 $l = 0.1$ 。
- 目标： 学习算子 $\mathcal{D}: u_0(x) \mapsto u(x, t)$ ，即从初始条件映射到时空解。
- 解空间分辨率： $65 \times 65$ 。
- 训练样本数 $N_s$ ： 800 (对于数据驱动和混合模型)。

5.1.3. 非齐次泊松方程 (Non-homogeneous Poisson's Equation)

方程形式： $\begin{array}{r l} & \partial_{xx} u + \partial_{yy} u = f(x, y), \quad x, y \in [-1, 1] \\ & u(x = -1, y) = u(x = 1, y) = u(x, y = -1) = u(x, y = 1) = 0 \end{array}$
- 描述： Poisson 方程描述了静电势与电荷密度之间的关系，这里是一个静态问题。
- 目标： 学习算子 $\mathcal{D}: f(x, y) \mapsto u(x, y)$ ，即从源函数映射到解。
- 分析解： 论文使用了一个分析解 $\boldsymbol{u}(x, y) = \alpha \sin(\pi x)(1 + \cos(\pi y)) + \beta \sin(2\pi x)(1 - \cos(2\pi y))$ 来生成 f(x, y)。其中 $\alpha \sim \mathrm{Unif}(-2, 2)$ 和 $\beta \sim \mathrm{Unif}(-2, 2)$ 。
- 解空间分辨率： $65 \times 65$ 。
- 训练样本数 $N_s$ ： 500 (对于数据驱动和混合模型)。

5.1.4. Allen-Cahn 方程 (Allen-Cahn Equation)

方程形式： $\begin{array}{r l r} & \partial_t u(x, y, t) = \epsilon \varDelta u(x, y, t) + u(x, y, t) - u(x, y, t)^3, \ & x, y \in [0, 1] \\ & u(x, y, 0) = u_0(x, y) \ & x, y \in [0, 1] \end{array}$
- 描述： Allen-Cahn 方程是一个反应-扩散方程，常用于模拟相分离过程。
- 参数： $\epsilon = 1 \times 10^{-3}$ (粘度系数)。
- 初始条件 $u_0(x, y)$ ： 使用 GRF 生成，其核函数形式为 $K(x, y) = \tau^{(\alpha - 1)} (\pi^2(x^2 + y^2) + \tau^2)^{\frac{\alpha}{2}}$ 。参数选择为 $\tau = 15$ 和 $\alpha = 1$ 。
- 目标： 学习算子 $\mathcal{D}: u|_{[0, 1]^2 \times [0, 10]} \mapsto u|_{[0, 1]^2 \times [10, T]}$ ，即从前10个时间步的解映射到未来10个时间步的解 ( $T=20$ )。
- 解空间分辨率： $65 \times 65$ 。
- 训练样本数 $N_s$ ： 600 (对于数据驱动和混合模型)。

5.2. 评估指标

论文使用 Relative Mean Squared Error (MSE) 来评估模型的预测性能。

概念定义 (Conceptual Definition): Relative Mean Squared Error (MSE) 是一种衡量模型预测值与真实值之间差异的指标，并将其标准化，通常是相对于真实值的平方范数。它量化了预测值与真实值之间的平均平方差异，并提供了一个相对于真实值大小的相对误差度量。当评估 PDE 求解器时，我们关心预测解与真实解之间的整体拟合程度，Relative MSE 能够提供一个直观的百分比误差，便于比较。
数学公式 (Mathematical Formula): 虽然论文中没有直接给出 Relative MSE 的数学公式，但根据其在表格中以百分比形式呈现的惯例，其计算方式通常定义为： $\text{Relative MSE} = \frac{\sum_{i=1}^{N_p} (u_{pred,i} - u_{true,i})^2}{\sum_{i=1}^{N_p} (u_{true,i})^2} \times 100\%$
符号解释 (Symbol Explanation):
- $N_p$ : 样本点总数（例如，空间和时间离散点的总数）。
- $u_{pred,i}$ : 在第 $i$ 个点上的模型预测解。
- $u_{true,i}$ : 在第 $i$ 个点上的真实解（Ground Truth）。
- $\sum_{i=1}^{N_p} (u_{pred,i} - u_{true,i})^2$ : 预测解与真实解之间的 Mean Squared Error (MSE) 的非平均形式，即平方差的总和。
- $\sum_{i=1}^{N_p} (u_{true,i})^2$ : 真实解的平方范数。

5.3. 对比基线

论文将 PIWNO 的性能与以下三种设置进行了比较：

PIWNO (Physics-informed WNO): 纯粹由物理信息损失驱动的模型，不使用标注的解数据进行训练。
Data-driven WNO (数据驱动 WNO): 纯粹由数据损失驱动的模型，使用标注的解数据进行训练。这是传统的 WNO 训练方式。
Data + Physics (数据 + 物理混合训练): 同时使用数据损失和物理损失进行训练的模型，结合了数据驱动和物理信息两种方法的优势。

6. 实验结果与分析

本节将详细展示并分析 PIWNO 在四个 PDE 任务上的实验结果，包括核心性能比较、推理时间对比以及 out-of-distribution (OOD) 泛化能力。

6.1. 核心结果分析

以下是原文 Table 1 的结果，总结了 PIWNO、数据驱动 WNO 和数据+物理混合训练模型在不同 PDEs 上的 Relative MSE (相对均方误差)。

PDEs	PIWNO	Data-driven WNO	Data + physics
Burger's	0.0518 ± 0.041%	0.1552 ± 0.17% (300 Ns)	0.0362 ± 0.028% (300 Ns)
Nagumo	0.0778 ± 0.088%	0.0254 ± 0.023% (800 Ns)	0.0202 ± 0.020% (800 Ns)
Non-homogeneous Poisson's	0.0469 ± 0.015%	0.0549 ± 0.020% (500 Ns)	0.0371 ± 0.020% (500 Ns)
Allen-Cahn	2.73 ± 0.98%	2.98 ± 0.83% (600 Ns)	2.37 ± 0.70% (600 Ns)

对 Burgers' 方程的分析：
- PIWNO (0.0518%) 显著优于纯数据驱动 WNO (0.1552%)，尽管 PIWNO 没有使用任何标注的解数据进行训练。这证明了物理信息约束在解决数据稀缺问题时的强大有效性。
- 数据+物理混合训练模型 (0.0362%) 取得了最佳性能，进一步表明结合数据和物理信息能够实现最高的预测精度。
- 下图 (原文 Figure 2) 展示了 Burgers' 方程在不同初始条件下的真实值、预测值和误差，直观地支持了上述定量结果。
  
  该图像是表示不同初始条件下的真实值、预测值和误差的比较，其中包括四个初始条件 (IC-1 至 IC-4) 的波动情况通过色图展示，顶部是初始条件的曲线，下面依次为真实值、预测值和误差的二维图。
Figure 2. Burgers' 方程的预测结果
对 Nagumo 方程的分析：
- 与 Burgers' 方程不同，Nagumo 方程的纯数据驱动 WNO (0.0254%) 表现优于纯 PIWNO (0.0778%)。这可能表明 Nagumo 方程的解在某些方面对数据模式的学习更为敏感，或者其物理约束形式（即 stochastic projection 的导数估计）在这一特定 PDE 上不如直接从数据中学习有效。
- 尽管如此，数据+物理混合训练模型 (0.0202%) 再次取得了最佳性能，验证了混合方法的普遍优势。
- 下图 (原文 Figure 3) 提供了 Nagumo 方程的视觉化结果。
  
  $该图像是一个示意图，展示了不同初始条件（IC-1至IC-4）的预测结果。每个初始条件的上方显示了对应的初始状态曲线，分别标记为“Initial Condition”。下方分别为“Truth”“Prediction”和“Error”三行，展示了真实值、模型预测值和误差的二维热力图。每个热力图的坐标为$x$与$t$，用不同颜色表示数值范围，底部误差图显示接近于零的误差，表明预测效果较好。$ 该图像是一个示意图，展示了不同初始条件（IC-1至IC-4）的预测结果。每个初始条件的上方显示了对应的初始状态曲线，分别标记为“Initial Condition”。下方分别为“Truth”“Prediction”和“Error”三行，展示了真实值、模型预测值和误差的二维热力图。每个热力图的坐标为 $x$ 与 $t$ ，用不同颜色表示数值范围，底部误差图显示接近于零的误差，表明预测效果较好。
Figure 3. Nagumo 方程的预测结果
对非齐次泊松方程的分析：
- PIWNO (0.0469%) 再次优于纯数据驱动 WNO (0.0549%)。对于这个静态 PDE 问题，物理约束的有效性再次得到凸显。
- 数据+物理混合训练模型 (0.0371%) 再次表现最佳，提供了最高的预测精度。
- 下图 (原文 Figure 4) 展示了泊松方程的源函数、真实解、预测解和误差。
  
  该图像是一个多张热图的组合，展示了源函数、真实值、预测值和误差。第一行展示源函数，第二行展示真实值，第三行为预测值，最后一行显示误差。这些图表通过 x 和 y 坐标轴表示不同的数值范围，调色板从蓝色到红色显示了不同的数值强度。
Figure 4. 非齐次泊松方程的预测结果
对 Allen-Cahn 方程的分析：
- Allen-Cahn 方程的 Relative MSE 值普遍较高（PIWNO 为 2.73%，数据驱动 WNO 为 2.98%），这可能表明该方程的非线性程度更高，或者其解的复杂性对模型来说更具挑战性。
- 在这种情况下，PIWNO (2.73%) 仍然略优于纯数据驱动 WNO (2.98%)，再次展示了物理信息在复杂系统中的价值。
- 数据+物理混合训练模型 (2.37%) 依然是表现最好的。
- 下图 (原文 Figure 5) 展示了 Allen-Cahn 方程在不同时间步长的预测结果。
  
  该图像是一个示意图，展示了在不同时刻（10s, 13s, 16s, 19s）的初始条件、真实值、预测值和误差。每个时间点的图像通过颜色深浅显示了数据的变化，整体呈现波浪神经算子的性能分析。
Figure 5. Allen-Cahn 方程的预测结果
总体观察：
- 混合训练的优越性： 在所有四个 PDE 任务中，结合数据损失和物理损失进行训练的模型（Data + physics）始终取得了最低的 Relative MSE，表明了两种训练范式结合的强大协同效应。
- PIWNO 的数据效率： 在大部分情况下（Burgers'、非齐次 Poisson' 和 Allen-Cahn），即使没有标注解数据，纯 PIWNO 的性能也优于或与需要标注数据训练的纯数据驱动 WNO 相当。这突出强调了 PIWNO 解决数据饥饿问题的能力。
- 对不同 PDEs 的敏感性： 模型的相对表现因 PDE 而异，例如在 Nagumo 方程上，纯数据驱动 WNO 优于纯 PIWNO，这可能暗示了不同 PDEs 的内在性质（如非线性程度、解的平滑度等）对模型结构和训练方法的敏感性。

6.2. 预测时间对比

以下是原文 Table A.2 的结果，比较了传统求解器与训练好的 PIWNO 在 Burger's 和 Allen-Cahn 方程上的预测时间。

	Prediction time	Prediction time
	Burger's equation	Allen-Cahn
Traditional solvers	337.54	2638.38
Trained WNO	23.76	72.76

分析：
- 训练好的 WNO（这里指 PIWNO 或混合训练的 WNO）在预测时间上相较于传统求解器展现出巨大的优势。对于 Burgers' 方程，WNO 的预测时间仅为传统求解器的约 7% ( $23.76 / 337.54 \approx 0.07$ )。对于 Allen-Cahn 方程，这一优势更为显著，WNO 仅需传统求解器约 2.7% ( $72.76 / 2638.38 \approx 0.027$ ) 的时间。
- 这强调了神经算子在部署和实时应用中的巨大潜力，一旦模型训练完成，其推理速度远超迭代式的传统数值方法。

6.3. Out-of-Distribution (OOD) 预测结果

论文还评估了 PIWNO 在 out-of-distribution (OOD) 数据上的泛化能力。

6.3.1. Burgers' 方程的 OOD 预测

以下是原文 Table A.3 的结果，展示了 Burgers' 方程在不同 OOD 分布下的 Relative MSE。测试数据中的 $\zeta$ 和 $\eta$ 参数从截断正态分布中采样，而不是训练时使用的均匀分布。

	Distributions(ζ, η)	Range	Relative MSE
	(a) Out of distribution	Truncated Normal	(0.5,1.5)	0.5556 ± 1.0310%
(b) Out of distribution	Truncated Normal	(0.4,1.6)	0.9058 ± 1.6470%

分析：
- 当 $ζ$ 和 $η$ 参数从训练范围内的截断正态分布 (0.5, 1.5) 中采样时，Relative MSE 为 0.5556%。
- 当 $ζ$ 和 $η$ 参数从更宽泛的截断正态分布 (0.4, 1.6) 中采样时，Relative MSE 略微增加到 0.9058%。
- 这些结果表明，尽管 PIWNO 是在特定分布下训练的，但在 OOD 情况下，其性能有所下降，但仍然能够提供相对合理的预测，这对于算子学习模型的鲁棒性而言是重要的。

6.3.2. Nagumo 方程的 OOD 预测

以下是原文 Table A.4 的结果，展示了 Nagumo 方程在不同 OOD 参数设置下的 Relative MSE。测试数据是根据 GRF 核参数 $\sigma$ 和 $l$ 的不同值生成的。

	σ	l	Relative MSE
	Kernal parameters		Relative MSE
(a) Out of distribution	0.08	0.08	1.3528 ± 0.4139%
(b) Out of distribution	0.12	0.12	0.6864 ± 0.2920%

分析：
- 当 GRF 核参数设置为 $\sigma = 0.08, l = 0.08$ 时，Relative MSE 为 1.3528%。
- 当 GRF 核参数设置为 $\sigma = 0.12, l = 0.12$ 时，Relative MSE 降低到 0.6864%。
- 对于 Nagumo 方程的 OOD 预测，有趣的是，在某些 OOD 参数下（如 $\sigma=0.12, l=0.12$ ），模型的性能反而优于其他 OOD 情况。这可能与 GRF 参数对初始条件函数形状的影响以及模型对这些形状的泛化能力有关。
- 下图 (原文 Figure A.6) 和 Figure A.7 (原文 Figure A.7) 进一步可视化了 Burgers' 和 Nagumo 方程在 OOD 条件下的预测情况，展示了模型在面对训练分布之外的数据时的具体表现。
  
  该图像是一个示意图，展示了不同初始条件（IC-1至IC-4）下的真实值、预测值和误差。每列分别对应不同的初始条件，第一行为初始条件，第二行为真实值，第三行为预测结果，第四行为预测误差。
Figure A.6. Burgers'方程在OOD条件下的预测结果

该图像是一个展示初始条件、真实数据、预测结果及误差的对比图，包含四个初始条件 (IC-1、IC-2、IC-3、IC-4)。第一行显示初始条件，第二行展示真实数据，第三行为预测结果，第四行为误差信息。

Figure A.7. Nagumo方程在OOD条件下的预测结果

7. 总结与思考

7.1. 结论总结

这篇论文成功地提出了一种物理信息引导的小波神经算子 (Physics-informed Wavelet Neural Operator, PIWNO) 框架，用于高效、准确地学习参数化偏微分方程 (PDEs) 的解算子。其核心贡献在于将物理定律直接整合到小波神经算子 (WNO) 的训练损失中，从而解决了传统数据驱动 WNO 对大量标注训练数据的依赖，实现了在没有标注解数据的情况下进行训练的能力。

通过在 Burgers'、Nagumo、非齐次泊松和 Allen-Cahn 等四个非线性时空 PDEs 上的广泛验证，论文得出了以下关键结论：

数据效率： PIWNO 在没有标注训练数据的情况下，能够有效学习 PDE 算子，并在多数情况下优于或与需要标注数据训练的纯数据驱动 WNO 表现相当。
混合方法的优越性： 当结合少量标注数据和物理信息进行混合训练时，模型的预测精度和泛化能力达到最佳，这表明数据和物理知识的协同作用至关重要。
算子学习的泛化： PIWNO 学习的是一个算子，能够泛化到不同初始条件、边界条件或源项的 PDE 解，而无需重新训练，这与传统 PINNs 学习特定解形成了鲜明对比。
计算效率： 训练好的 PIWNO 在推理阶段能够大幅度加速 PDE 求解过程，比传统数值求解器快数十倍。
OOD 泛化能力： 尽管在 out-of-distribution (OOD) 条件下性能有所下降，但 PIWNO 仍能提供相对合理的预测，展示了一定的鲁棒性。

总而言之，PIWNO 为解决复杂 PDEs 的数据稀缺问题提供了一条有前景的途径，并在算子学习和科学机器学习领域迈出了重要一步。

7.2. 局限性与未来工作

论文中没有明确的“局限性与未来工作”章节，但可以从其方法和结果中推断出一些潜在的局限性以及可能的研究方向：

Stochastic Projection 的复杂性与计算成本： 尽管 stochastic projection 解决了 WNO 复杂架构中导数计算的挑战，但其本身的理论基础（涉及随机过程、条件期望等）较为复杂，实现起来可能也并非易事。相比于自动微分，其在计算精度、收敛性或计算效率方面是否始终具有优势，需要更深入的理论和实证分析。
泛化到更复杂的物理系统： 论文验证的 PDEs 虽然涵盖了非线性时空系统，但对于更高维、更复杂几何形状、多尺度现象或强对流问题的 PDEs，PIWNO 的表现如何尚待探索。
超参数敏感性： PIWNO 包含多个超参数（例如 alpha 值用于平衡物理损失和边界损失、WNO 架构参数、stochastic projection 中的邻域大小 $r_n$ 和点数 $N_t$ 等）。这些超参数的调优可能对模型性能产生显著影响，且调优过程可能很耗时。
OOD 泛化能力的提升： 尽管展示了在 OOD 上的表现，但 Relative MSE 的增加表明其在训练分布之外的泛化能力仍有提升空间。如何进一步提高 PIWNO 对未见过的物理参数或初始条件的鲁棒性是一个重要的研究方向。
理论收敛性分析： 论文主要侧重于实证验证，对于 PIWNO 的理论收敛性、近似能力以及 stochastic projection 估计梯度的误差界限等方面的深入理论分析相对较少。

未来的工作可以围绕以下几点展开：
探索更高效、更稳定的 physics-informed 梯度计算方法，或将其与最新的自动微分技术相结合。
将 PIWNO 扩展到更广泛、更具挑战性的 PDE 家族，例如涉及多物理场耦合、不确定性量化或复杂几何形状的问题。
深入研究 PIWNO 的超参数敏感性，并开发自适应或更鲁棒的超参数调优策略。
结合领域自适应技术，进一步提升 PIWNO 在 OOD 任务上的泛化能力。
进行严格的理论分析，以理解 PIWNO 的收敛性和误差特性。

7.3. 个人启发与批判

个人启发：
- 解决数据瓶颈的优雅方案： PIWNO 提供了一个非常优雅且实用的方案来解决神经算子在 PDE 求解中面临的“数据饥饿”问题。通过将物理定律编码为损失函数，它允许模型在没有昂贵标注数据的情况下学习，这对于许多科学和工程应用来说是一个巨大的进步。
- 混合范式是王道： 实验结果清晰地表明，结合数据驱动和物理信息这两种范式（Data + Physics 混合训练）总能带来最佳性能。这进一步巩固了在科学机器学习中“数据-物理融合”的强大力量，提示我们不应局限于单一范式。
- 算子学习的巨大潜力： 学习一个能够泛化到整个函数空间的算子，而非仅仅是特定输入下的一个解，是 PDE 求解的未来方向。这使得模型具有极高的效率和泛化能力，对于构建通用 PDE 求解器至关重要。
- 梯度计算的创新思路： 在像 WNO 这样复杂的网络架构中，如何有效地计算 PDE 残差的导数是一个关键挑战。论文提出的 stochastic projection 提供了一种新颖的解决方案，这对于处理非标准或复杂网络架构的 PINNs 具有普遍的参考价值。
批判：
- Stochastic Projection 的可解释性和易用性： 虽然 stochastic projection 解决了梯度计算问题，但其理论推导和实现细节对于非专业人士而言可能较为晦涩。与自动微分的“黑盒”便利性相比，stochastic projection 的选择和参数（如邻域大小、采样点数）可能需要更多的领域知识和经验。这可能限制了其在更广泛研究社区中的应用和推广。
- “100% 数据效率”的语境限定：论文强调“100% 数据效率”，这指的是不需要标注的 PDE 解数据。然而，PIWNO 仍然需要大量的无标签输入函数（如初始条件、边界条件或源项）来计算物理损失。这些输入函数的生成或获取本身也可能需要一定的计算或实验成本。所以，所谓的“数据效率”应在“无需标注解数据”的语境下理解，而非完全脱离数据。
- 性能波动与 PDE 特性： 在 Nagumo 方程的实验中，纯 PIWNO 的性能劣于纯数据驱动 WNO，这提醒我们，物理信息约束并非在所有 PDE 上都能无条件地带来提升。模型的架构、PDE 的非线性程度、解的性质以及 stochastic projection 的适用性都可能影响最终表现。针对不同的 PDEs，可能需要定制化的物理损失权重或梯度估计策略。
- WNO 架构本身的复杂性： WNO 结合了小波变换，这使得网络结构相对复杂。如何平衡小波变换的特性与神经网络的表达能力，以及 DTCWT 等特定小波选择对性能的影响，是一个值得深思的问题。

Physics informed WNO

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 34 分钟读完 · 21,111 字