论文状态：已完成

NSNO: Neumann Series Neural Operator for Solving Helmholtz Equations in Inhomogeneous Medium

发表：2024/01/25

Neumann级数神经算子 (1)Helmholtz方程求解 (1)嵌入U-Net网络架构 (1)偏微分方程深度学习 (1)逆散射问题模型 (1)

原文链接

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了诺依曼级数神经算子（NSNO），旨在通过非均匀系数和源项学习亥姆霍兹方程的解算子。该方法在高波数情况下显著提高了解的准确性，较先进方法降低了60%的相对$L^2$误差，同时计算成本降低50%，并能作为逆散射问题的替代模型。

摘要

In this paper, the authors propose Neumann series neural operator (NSNO) to learn the solution operator of Helmholtz equation from inhomogeneity coefficients and source terms to solutions. Helmholtz equation is a crucial partial differential equation (PDE) with applications in various scientific and engineering fields. However, efficient solver of Helmholtz equation is still a big challenge especially in the case of high wavenumber. Recently, deep learning has shown great potential in solving PDEs especially in learning solution operators. Inspired by Neumann series in Helmholtz equation, the authors design a novel network architecture in which U-Net is embedded inside to capture the multiscale feature. Extensive experiments show that the proposed NSNO significantly outperforms the state-of-the-art FNO with at least 60% lower relative L2-error, especially in the large wavenumber case, and has 50% lower computational cost and less data requirement. Moreover, NSNO can be used as the surrogate model in inverse scattering problems. Numerical tests show that NSNO is able to give comparable results with traditional finite difference forward solver while the computational cost is reduced tremendously.

思维导图

论文精读

中文精读约 40 分钟读完 · 23,474 字

1. 论文基本信息

1.1. 标题

NSNO: Neumann Series Neural Operator for Solving Helmholtz Equations in Inhomogeneous Medium (NSNO: 用于求解非均匀介质亥姆霍兹方程的诺依曼级数神经算子)

1.2. 作者

CHEN Fukai $\cdot$ LIU Ziyang $\cdot$ LIN Guochang $\cdot$ CHEN Junqing $\cdot$ SHI Zuoqiang

1.3. 发表期刊/会议

The paper is published in an academic journal, indicated by "DOI: 10.1007/s11424-024-3294-x Received: 31 July 2023 / Revised: 14 October 2023 $\textcircled{c}$ The Editorial Office of JSSC & Springer-Verlag GmbH Germany 2024". While the specific journal name is not explicitly provided in the excerpt, the DOI suggests it is a Springer journal, likely related to scientific computing or applied mathematics. Springer-Verlag是国际知名的学术出版商，其期刊在相关领域具有良好的声誉和影响力。

1.4. 发表年份

2024年1月25日 (UTC)

1.5. 摘要

本文提出了一种名为诺依曼级数神经算子（NSNO, Neumann Series Neural Operator）的新方法，旨在学习亥姆霍兹方程（Helmholtz equation）的解算子（solution operator），该算子能够从非均匀性系数（inhomogeneity coefficients）和源项（source terms）直接映射到方程的解。亥姆霍兹方程是一种重要的偏微分方程（PDE, Partial Differential Equation），在多个科学和工程领域都有广泛应用。然而，高效求解亥姆霍兹方程，尤其是在高波数（high wavenumber）情况下，仍然是一个巨大的挑战。近年来，深度学习在解决偏微分方程，特别是学习解算子方面展现出巨大潜力。受亥姆霍兹方程中诺依曼级数（Neumann series）的启发，作者设计了一种新颖的网络架构，其中嵌入了 U-Net 以捕捉多尺度特征（multiscale feature）。大量的实验表明，所提出的 NSNO 在相对 $L^2$ 误差（relative $L^2$ -error）方面显著优于最先进的傅里叶神经算子（FNO, Fourier Neural Operator），至少降低了60%，尤其是在大波数情况下。此外，NSNO 还具有50%的计算成本降低和更少的数据需求。更重要的是，NSNO 可以用作逆散射问题（inverse scattering problems）中的替代模型（surrogate model）。数值测试表明，NSNO 能够提供与传统有限差分正演求解器（finite difference forward solver）相当的结果，同时计算成本大幅降低。

1.6. 原文链接

/files/papers/69344a0c0a9b802059199f0b/paper.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

论文的核心问题是高效求解非均匀介质中的亥姆霍兹方程（Helmholtz equation），并学习其解算子。具体来说，是构建一个映射，能够将非均匀性系数 q(x) 和源项 f(x) 作为输入，直接输出亥姆霍兹方程的解 u(x)。

2.1.2. 问题重要性与现有挑战

亥姆霍兹方程在声学、电磁学和医学成像等领域描述波传播，是物理和工程中的关键偏微分方程。然而，求解该方程面临以下挑战：

高波数下的计算效率: 当波数（wavenumber）较高时，传统数值方法（如有限差分法 FDM 和有限元法 FEM）需要非常精细的网格或网格划分来捕获解中的高频分量，导致生成大规模不定线性系统。
迭代求解器收敛缓慢: 解决这些大型不定线性系统的Krylov子空间方法对于亥姆霍兹问题，尤其是在非均匀介质中，收敛速度很慢。
逆问题中的重复计算: 在逆散射问题（inverse scattering problems）等应用中，亥姆霍兹方程需要针对不同的系数 $q$ 和源项 $f$ 反复求解。如果每次都独立求解，计算成本将是巨大的且难以承受的。

2.1.3. 现有深度学习方法的局限

尽管深度学习在求解偏微分方程和学习解算子方面显示出潜力，但现有方法在处理亥姆霍兹方程时存在两个主要问题：

输入耦合问题: 大多数现有解算子要么只处理微分算子中的系数，要么只处理源项，而不能同时处理两者。由于亥姆霍兹方程中的非均匀性系数 $q$ 和源项 $f$ 属于不同的函数空间，学习一个同时映射 $q$ 和 $f$ 到解 $u$ 的算子是一个非平凡任务。
多尺度特征捕获不足: 面对高波数下亥姆霍兹方程解的高度振荡特性，现有网络架构（如 FNO）难以稳定且准确地捕捉这些多尺度特征，往往导致训练不稳定或结果发散。

2.1.4. 论文的切入点与创新思路

为了解决上述问题，本文提出了诺依曼级数神经算子（NSNO）。其创新思路和切入点在于：

利用诺依曼级数解耦 $q$ 和 $f$ : 将亥姆霍兹方程的解重写为诺依曼级数形式。这种形式巧妙地将 $q$ 和 $f$ 解耦开来，使得每个级数项都对应于一个齐次介质（homogeneous medium）中的亥姆霍兹方程，但源项不同。这样，问题就转化为学习一个仅从源项到齐次亥姆霍兹方程解的算子 $G$ 。
设计新型网络架构 UNO 捕捉多尺度特征: 针对高波数下解的多尺度和高振荡特性，作者没有直接使用 FNO，而是提出了一个结合了 FNO 和 U-Net 结构的新型网络架构，称为 U-shaped Neural Operator (UNO)。U-Net 的编码器-解码器结构和跳跃连接（skip connections）能够有效地捕获和融合不同尺度的信息。

2.2. 核心贡献/主要发现

论文的主要贡献可以总结如下：

提出了 NSNO 框架： 提出了一个基于诺依曼级数的新型神经算子框架 NSNO，用于同时映射非均匀性系数 $q$ 和源项 $f$ 到亥姆霍兹方程的解。这是对现有神经算子处理输入耦合问题的重要改进。
引入了 UNO 网络架构： 为了捕获亥姆霍兹方程解的多尺度特性，设计了新颖的网络架构 UNO，它结合了傅里叶神经算子（FNO）和 U-Net 结构，作为 NSNO 的构建块。
显著提升了求解精度和效率： 广泛的数值实验表明，NSNO 在相对 $L^2$ 误差上显著优于最先进的 FNO，至少降低了60%，尤其是在大波数情况下。同时，NSNO 具有50%的计算成本降低和更少的数据需求。
验证了在逆问题中的应用潜力： 成功将 NSNO 作为逆散射问题中的正演算子（forward operator）的替代模型。数值测试显示，NSNO 能够提供与传统有限差分正演求解器相当的结果，并且计算成本大幅降低了20倍以上。
超出了诺依曼级数理论收敛限制： 实验发现，即使在理论上诺依曼级数发散的情况下，NSNO 仍能给出合理的结果，表明其学习能力超越了传统理论的限制。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 亥姆霍兹方程 (Helmholtz Equation)

亥姆霍兹方程是一个二阶线性偏微分方程，通常出现在波传播问题的频域分析中。它是一个椭圆型方程，形式上与拉普拉斯方程（Laplace equation）相似，但包含了一个频率相关的项。在本文中，亥姆霍兹方程描述了在非均匀介质中波的传播。在本文中，2维亥姆霍兹方程的形式为： $\Delta u + k^2(1+q(x))u = f(x)$ 其中：

u(x) 是波场（scalar field），表示波的幅度或相位。
$\Delta$ 是拉普拉斯算子（Laplacian operator），在2维直角坐标系下为 $\frac{\partial^2}{\partial x^2} + \frac{\partial^2}{\partial y^2}$ 。
$k$ 是波数（wavenumber），与波的频率和介质性质有关， $k = \omega/c_0$ ，其中 $\omega$ 是角频率， $c_0$ 是参考声速。波数越大，波的振荡越剧烈。
q(x) 是非均匀性系数（inhomogeneity coefficient），表示介质的局部变化，通常是紧支集（compactly supported）的。当 $q(x)=0$ 时，介质是均匀的。
f(x) 是源项（source term），表示波的产生位置。
方程通常伴随索默菲尔德辐射条件（Sommerfeld radiation condition）或吸收边界条件（absorbing boundary condition），以确保波在无穷远处是外向传播且衰减的。

3.1.2. 偏微分方程（Partial Differential Equation, PDE）

偏微分方程是包含一个或多个自变量的函数及其偏导数的数学方程。它们是描述自然界中许多物理现象（如波传播、热传导、流体力学）的基本工具。求解 PDE 意味着找到满足方程和给定边界/初始条件的函数。

3.1.3. 解算子 (Solution Operator)

解算子是一个数学映射，它将偏微分方程的输入（如系数、源项、边界条件）映射到方程的解。例如，对于亥姆霍兹方程，解算子 $S: (q, f) \mapsto u$ 就是一个将非均匀性系数 $q$ 和源项 $f$ 映射到解 $u$ 的函数。学习解算子是深度学习在 PDE 领域的一个重要方向，目标是训练一个神经网络来近似这个复杂的非线性映射。

3.1.4. 诺依曼级数 (Neumann Series)

诺依曼级数是一种数学工具，用于表示某些线性算子的逆或解。在本文中，诺依曼级数被用来解耦亥姆霍兹方程中的非均匀性系数 $q$ 和源项 $f$ 。对于一个形如 $u = g + K u$ 的方程（其中 $K$ 是一个线性算子），如果 $\|K\| < 1$ ，其解 $u$ 可以表示为诺依曼级数： $u = \sum_{n=0}^{\infty} K^n g = g + K g + K^2 g + \dots$ 在本文中，作者将亥姆霍兹方程 \Delta u + k^2(1+q(x))u = f(x) 重写为 $\Delta u + k^2 u = f - k^2 q u$ 。这可以看作一个迭代形式 $u_{n+1} = G(f - k^2 q u_n)$ ，其中 $G$ 是齐次亥姆霍兹方程（即 $q=0$ 时）的解算子。通过迭代，解 $u$ 可以表示为涉及算子 $G$ 和 $q$ 的级数形式。

3.1.5. $L^2$ 误差 (L2-error)

$L^2$ 误差是衡量两个函数（或离散数据）之间差异的常用指标，表示在函数空间中的平均平方误差的平方根。其数学公式通常定义为： $\|u - \hat{u}\|_{L^2(\Omega)} = \sqrt{\int_{\Omega} |u(x) - \hat{u}(x)|^2 dx}$ 其中：

u(x) 是真实解（或参考解）。
$\hat{u}(x)$ 是近似解（例如由神经网络得到的解）。
$\Omega$ 是函数定义的区域。
$| \cdot |$ 表示复数的模。在离散情况下，相对 $L^2$ 误差定义为： $\frac{\|u - \hat{u}\|_{L^2(\Omega)}}{\|u\|_{L^2(\Omega)}} = \frac{\sqrt{\sum_i |u_i - \hat{u}_i|^2}}{\sqrt{\sum_i |u_i|^2}}$ $L^2$ 误差越小，表示近似解越接近真实解。相对 $L^2$ 误差则消除了量纲的影响，更方便不同问题之间的比较。

3.1.6. U-Net

U-Net 是一种卷积神经网络架构，最初设计用于医学图像分割。其特点是采用了对称的编码器-解码器结构（encoder-decoder architecture）和跳跃连接（skip connections）。

编码器（下采样路径）： 逐步进行卷积和池化操作，提取特征并减小空间维度，捕捉上下文信息。
解码器（上采样路径）： 逐步进行上采样和卷积操作，恢复空间维度，并精确地定位。
跳跃连接： 将编码器中对应层级的特征图直接连接到解码器中，有助于保留图像的细节信息，避免在下采样过程中丢失细粒度特征。这使得 U-Net 在处理需要多尺度特征的问题（如图像分割、波场模拟）时表现出色。

3.1.7. 傅里叶神经算子 (Fourier Neural Operator, FNO)

傅里叶神经算子（FNO）是一种学习从一个函数空间到另一个函数空间映射（即算子）的深度学习模型。它通过在傅里叶空间中对积分核进行参数化来实现。其核心思想是将传统的卷积核替换为在傅里叶变换域中定义的乘法操作，从而能够捕获函数之间的全局依赖关系。

提升层（Lifting layer）： 将输入函数提升到更高维度的特征空间。
傅里叶层（Fourier layers）： 核心部分，通过傅里叶变换将特征映射到频域，进行模式过滤（即在低频部分进行乘法操作，高频部分置零或截断），然后通过逆傅里叶变换回到空间域。这相当于在频域进行全局卷积。
投影层（Projection layer）： 将高维特征空间中的输出投影回所需的输出函数空间。 FNO 在处理各种参数化偏微分方程（parametric PDE）和学习算子方面取得了显著成功，因为它能够有效地处理不同分辨率的输入和输出，并且具有对函数空间的通用逼近能力。

3.1.8. 物理信息损失 (Physics-informed Loss)

物理信息损失是一种在深度学习模型训练中引入物理定律约束的方法。它将偏微分方程的残差作为损失函数的一部分，促使神经网络的输出不仅要拟合训练数据（数据损失），还要满足物理方程（物理损失）。对于亥姆霍兹方程： $\Delta \hat{u} + k^2(1+q)\hat{u} - f = 0$ 物理信息损失通常定义为残差的 $L^2$ 范数： $\mathcal{L}_{pde} = \|\Delta \hat{u} + k^2(1+q)\hat{u} - f\|_{L^2(\Omega)}$ 其中 $\hat{u}$ 是神经网络预测的解。通过最小化这个损失，模型被强制学习满足物理定律的解，从而提高模型的泛化能力和物理一致性，尤其在数据稀缺时效果显著。

3.2. 前人工作

PINN (Physics-informed Neural Network): [13] 提出了 PINN，它通过将偏微分方程的残差作为损失函数来训练神经网络，从而求解单个 PDE。
- 在亥姆霍兹方程上的应用: [14] 基于 PINN 提出了用于齐次背景下亥姆霍兹方程的求解器，[15] 进一步引入平面波激活函数以提高精度。
PDE 算子学习器:
- DeepONet: [16-18] 提出了 DeepONet，它通过分别使用分支网络（branch net）提取空间坐标和微分方程参数的特征，然后通过点积组合它们来学习算子。
- FNO (Fourier Neural Operator): [17] 提出了 FNO，它将从参数空间到解空间的映射公式化为一个迭代积分，并通过傅里叶空间中的核函数进行参数化。
- 物理信息算子学习: [19] 和 [20] 分别将物理信息损失整合到 DeepONet 和 FNO 中，探索无监督算子学习的可能性。
- 迭代方案下的异构亥姆霍兹方程求解: [21] 通过迭代方案，利用神经网络近似从声速分布到声波场的解算子。

3.3. 技术演进

PDE 求解和算子学习的技术演进主要经历了从传统数值方法到基于神经网络的方法的转变：

传统数值方法: FDM 和 FEM 是求解 PDE 的基石，但它们在高波数等复杂场景下计算成本高昂，且难以适应参数变化。
早期神经网络方法: 最初，神经网络主要用于逼近函数 [8]，然后逐渐被应用于求解单个 PDE，例如 PINN [13]。这些方法通常将神经网络视为一个万能函数逼近器，通过最小化 PDE 残差来找到解。
神经算子 (Neural Operators): 随着研究的深入，人们意识到不仅要解决单个 PDE，更要学习从函数空间到函数空间的映射，即解算子。DeepONet [16] 和 FNO [17] 是这一领域的里程碑，它们旨在学习函数之间的映射，而不是点对点的映射。这使得模型可以处理不同分辨率的网格，并且能快速预测新参数下的解。
物理信息融合: 为了提高模型的泛化能力和物理一致性，物理信息损失被引入到神经算子中 [19, 20]，结合了数据驱动和物理驱动的优势。
多尺度与高频问题: 针对高波数亥姆霍兹方程等具有多尺度和高振荡特性的问题，传统的 FNO 可能会出现过平滑（over-smooth）或捕获能力不足的问题。这促使研究者探索更复杂的网络架构，例如本文的 UNO，通过结合 U-Net 来提升对多尺度特征的捕获能力。

3.4. 差异化分析

本文的 NSNO 与现有方法的关键区别和创新点在于：

同时处理非均匀性系数 $q$ 和源项 $f$ : 现有神经算子（如 FNO）通常只处理微分算子中的系数或源项中的一个。NSNO 通过诺依曼级数将 $q$ 和 $f$ 解耦，使得每个级数项可以由一个统一的算子 $G$ 处理，从而实现了同时对二者的端到端学习，解决了输入耦合的难题。
新颖的 UNO 架构： 针对亥姆霍兹方程在高波数下解的高度振荡和多尺度特性，本文提出的 UNO 架构结合了 FNO 的傅里叶层进行全局信息捕获和 U-Net 的编码器-解码器结构及跳跃连接进行多尺度特征融合。这使得 UNO 在处理多尺度问题时比纯 FNO 更有效，避免了 FNO 可能出现的过平滑问题。
显著的性能提升： NSNO 在精度上显著优于最先进的 FNO（至少60%的相对 $L^2$ 误差降低），尤其是在大波数情况下。同时，它在计算成本和数据需求方面也表现出优势。
超越理论收敛限制： 实验结果表明，NSNO 即使在诺依曼级数理论上发散的情况下，仍能给出合理且准确的解，这暗示了神经网络学习能力的强大和其超越传统数学工具在特定场景下的潜力。

4. 方法论

本文提出的诺依曼级数神经算子（NSNO, Neumann Series Neural Operator）旨在学习将非均匀性系数 $q$ 和源项 $f$ 同时映射到亥姆霍兹方程解 $u$ 的算子。其核心思想是利用诺依曼级数将 $q$ 和 $f$ 解耦，并通过一个新型的 U 型神经算子（UNO, U-shaped Neural Operator）来近似核心算子 $G$ 。

4.1. 方法原理

4.1.1. 亥姆霍兹方程的变分形式与算子 $G$ 的定义

首先，考虑在域 $\Omega \subset \mathbb{R}^2$ 内的齐次亥姆霍兹方程（即 $q=0$ 的情况）： $\Delta u + k^2 u = g(x), \quad \text{in } \Omega \\ \frac{\partial u}{\partial n} - \mathrm{i}k u = 0, \quad \text{on } \partial\Omega$ 其中 g(x) 是源项。其变分形式（variational formulation）定义为：找到 $u \in H^1(\Omega)$ 使得对所有 $v \in H^1(\Omega)$ ，有 $a(u, v) = (g, v)$ 其中双线性形式 a(u,v) 定义为： $a(u,v) = (\nabla u, \nabla v) - k^2(u,v) - \mathrm{i}k\langle u,v \rangle$ 这里 $(\cdot, \cdot)$ 和 $\langle \cdot, \cdot \rangle$ 分别表示在 $\Omega$ 和 $\partial\Omega$ 上的 $L^2$ 内积。

根据定理 3.1（其证明可在 [25] 中找到），当波数 $k > 1$ 时，上述变分问题存在唯一解，并且满足稳定性估计 $k \|u\|_{L^2(\Omega)} \leq C \|g\|_{L^2(\Omega)}$ 。基于此，可以定义一个线性有界算子 $G$ ： $G: L^2(\Omega) \to H^1(\Omega) \subset L^2(\Omega) \\ g \mapsto u$ 其中 $u$ 是上述变分问题的解。该算子 $G$ 将齐次亥姆霍兹方程的源项 $g$ 映射到其解 $u$ ，并且其范数满足 $\|G\|_{L^2(\Omega)} \leq C/k$ 。

4.1.2. 诺依曼级数重构与解耦

原始的非均匀介质亥姆霍兹方程为： $\Delta u + k^2(1+q(x))u = f(x)$ 可以将其改写为： $\Delta u + k^2 u = f(x) - k^2 q(x) u(x)$ 这个形式启发了以下迭代方案： $u_{n+1} = G(f - k^2 q u_n)$ 通过算子 $G$ 的线性性，可以进一步展开： $u_{n+1} = G(f) + G(-k^2 q u_n) = u_0 - (k^2 G q) u_n$ 其中 u_0 = G(f) 是当 $q=0$ 时，仅由源项 $f$ 产生的解。

将上述迭代方案递归地进行 $N$ 步，可以得到诺依曼级数（Neumann series）形式的解： $u_N = u_0 - (k^2 G q) u_0 + (k^2 G q)(k^2 G q) u_0 + \dots + (-k^2 G q)^N u_0$ 或者更紧凑地表示为： $u_N = \sum_{n=0}^{N} (-k^2 G q)^n u_0$ 这里 $(-k^2 G q)^n u_0$ 表示算子 $(-k^2 G q)$ 作用在 $u_0$ 上 $n$ 次。根据定理 3.2，当 $\|q\|_{L^\infty(\Omega)}$ 足够小（具体为 $\|q\|_{L^\infty(\Omega)} < \frac{1}{Ck}$ ）时，此诺依曼级数在 $L^2(\Omega)$ 空间中收敛。

这个诺依曼级数重构的关键在于，它将原始问题中 $q$ 和 $f$ 的耦合，转化为了对算子 $G$ 的重复应用。现在，学习将 (q, f) 映射到 $u$ 的复杂算子 $S$ 的问题，被分解为学习一个相对简单的算子 $G$ （从源项到齐次亥姆霍兹方程解）以及其迭代应用。

4.2. 核心方法详解 (NSNO 网络架构)

NSNO 的整体架构是基于上述诺依曼级数展开的，并通过 $N+1$ 个神经网络来近似算子 $G$ 。

4.2.1. NSNO 整体网络架构

下图（Figure 1）展示了 NSNO 的整体网络架构，诺依曼级数被截断为 $N+1$ 项。

Figure 1 Overall network architecture of NSNO 该图像是NSNO网络架构的示意图。图中展示了输入参数 $q$ 和 $f$ 通过多个模块 $G_{ heta_n}$ 处理后，经过结合得到输出Neumann级数 $u_N$ 的过程，公式为 $u_N = rac{1}{N} extstyle{ ext{ extsum}}_{n=0}^{N} v_N$ 。

图 1 NSNO 整体网络架构

算子 $G$ 的近似： 算子 $G$ 由 $N+1$ 个独立的神经网络 $G_{\theta} = \{G_{\theta_0}, G_{\theta_1}, \dots, G_{\theta_N}\}$ 来近似，每个网络都有可学习的参数 $\pmb{\theta} = \{\theta_0, \theta_1, \dots, \theta_N\}$ 。尽管这些神经网络都近似同一个算子 $G$ ，但使用不同的参数集可以赋予网络更强的表示能力。
输入与数据流：
- 第一个神经网络 $G_{\theta_0}$ 接收原始源项 $f$ 作为输入，输出诺依曼级数的第一项 v_0 \approx u_0 = G(f)。
- 对于接下来的 $N$ 个神经网络 $G_{\theta_n}$ ，其输入是前一个神经网络输出 $v_{n-1}$ 与 $-k^2 q$ 的乘积。具体来说， $G_{\theta_n}$ 接收 $-k^2 q v_{n-1}$ 作为输入，并输出诺依曼级数的第 $(n+1)$ 项 $v_n \approx (-k^2 G q)^n u_0$ 。
解耦 $q$ 和 $f$ ： 在这种设计下， $f$ 只输入到 $G_{\theta_0}$ 中，而 $-k^2 q$ 则与 $G_{\theta_0}, G_{\theta_1}, \dots, G_{\theta_{N-1}}$ 的输出相乘。这实现了 $q$ 和 $f$ 在网络结构上的完全解耦。
输出： NSNO 的最终输出是所有 $N+1$ 个神经网络 $G_{\theta}$ 输出的总和，即 $u_N = \sum_{n=0}^{N} v_n$ 。

离散化细节：

在实际应用中，域 $\Omega$ 被离散为一个 $H \times W$ 的笛卡尔网格。
$G_{\theta}$ 的输入和输出具有相同的空间维度，并且通常有2个通道，分别代表复数值的实部和虚部。
对于 $G_{\theta_0}$ ，如果源项 $f$ 是实数，则输入可能只有一个通道。

4.2.2. $G_{\theta}$ 的网络架构：UNO (U-shaped Neural Operator)

本文提出了一种结合 U-Net [23] 和 FNO 的新颖架构，称为 UNO，用于近似算子 $G$ 。

4.2.2.1. 傅里叶神经算子 (FNO)

作为对比和组成部分，先回顾 FNO 的架构。如下图（Figure 2）所示，FNO 包含三个主要部分：

Figure 2 Network architecture of FNO 该图像是FNO的网络架构示意图，其中展示了输入层、Fourier层及输出层的结构和连接。关键部分的公式为 $z_l = W_l z_{l-1} + b_l$ ，以及核积分在Fourier空间参数化的示意。

图 2 FNO 网络架构

提升层 (Lifting Layer): 使用一个全连接神经网络 $P$ 将输入提升到更高维度的特征空间 $\mathbb{R}^C$ 。
傅里叶层 (Fourier Layers): 这是一个系列迭代的傅里叶层，输入为 $z_0 \in \mathbb{R}^C$ $z_{0} \in R^{C}$ ，输出为 $z_L \in \mathbb{R}^C$ $z_{L} \in R^{C}$ 。迭代方案如下： $z_{l+1}(x) = \sigma \left( \int_{\Omega} \kappa_l(x, y) z_l(y) dy + W_l z_l(x) + b_l \right), \quad l = 0, 1, \dots, L-1$ 其中：
- $\kappa_l$ 是一个积分核（integral kernel）。
- $W_l$ 是一个线性变换。
- $b_l$ 是偏置（bias）。
- $\sigma$ 是非线性激活函数。通过卷积定理，核积分可以改写为傅里叶空间中的乘法： $\int_{\Omega} \kappa_l(x, y) z_l(y) dy = \mathcal{F}^{-1} \left( \mathcal{F}(\kappa_l) \cdot \mathcal{F}(z_l) \right)(x) := \mathcal{F}^{-1} \left( R_{\phi} \cdot \mathcal{F}(z_l) \right)(x)$ 这里：
- $\mathcal{F}$ 和 $\mathcal{F}^{-1}$ 分别是傅里叶变换及其逆变换。
- $R_{\phi} := \mathcal{F}(\kappa_l)$ 是在傅里叶空间中核函数 $\kappa_l$ 的参数化表示，参数为 $\phi$ 。在离散情况下，傅里叶级数被截断，只保留 $k_{\max}$ 个模式，因此 $R_{\phi}$ 可以直接参数化为一个复数值的 $k_{\max} \times C \times C$ 张量。
投影层 (Projection Layer): 使用另一个全连接神经网络 $Q$ 将 $z_L$ 投影回所需的输出空间。

4.2.2.2. U-Shaped Neural Operator (UNO) 架构

由于 FNO 在处理高波数亥姆霍兹方程解中固有的多尺度特征时可能出现过平滑（over-smooth）问题，UNO 被设计来解决这一挑战。UNO 结合了 U-Net 和 FNO 的优点，如下图（Figure 3）所示：

Figure 3 Network architecture of UNO 该图像是一个网络架构示意图，展示了多输入多输出（MIMO）编码器、傅里叶层和多输入单输出（MISO）解码器的组成部分。图中详细标出了编码块（EB）、傅里叶层（FL）、卷积和转置卷积的工作流程，显示了输入到输出的处理过程。

图 3 UNO 网络架构

UNO 由三个主要模块组成：

多输入多输出 (MIMO) 编码器 (Multiple-Input Multiple-Output Encoder)
- 该模块接收原始输入（分辨率 $H \times W$ ）以及两次下采样后的输入（分辨率分别为 $\frac{H}{2} \times \frac{W}{2}$ 和 $\frac{H}{4} \times \frac{W}{4}$ ）。
- 这些不同尺度的输入分别送入三个编码块（Encoding Blocks, EB）以提取多尺度特征。
- 编码块 (Encoding Block, EB): 如下图（Figure 4）所示，一个编码块的输入首先经过一个双卷积模块（Double Convolution Module），该模块包含两个 $3 \times 3$ 卷积层，中间夹着 GELU 激活函数 [29]。双卷积模块的输出与位置编码（Positional Encoding，即网格的笛卡尔坐标）拼接，然后送入一个浅卷积模块（Shallow Convolution Module, SCM），该模块由两层 $3 \times 3$ 和 $1 \times 1$ 卷积层组成 [30]。
  
  该图像是双卷积模块与浅卷积模块（SCM）的网络架构示意图。图中展示了输入、双卷积、位置编码与输出之间的连接关系，以及GELU激活和拼接的说明。
图 4 UNO 中编码块的网络架构
- 多尺度特征融合： 在编码器中，较低层级的编码块输出 $\mathrm{EB}_{k-1}^{\text{out}}$ 会经过一个步长为2的卷积层进行下采样 $( \mathrm{EB}_{k-1}^{\text{out}} )^{\downarrow}$ ，然后与当前层级的编码块输出 $\mathrm{EB}_k^{\text{out}}$ 拼接，再经过一个 $1 \times 1$ 卷积层进行整合。这实现了不同尺度特征的融合。
傅里叶层 (Fourier Layers) 作为跳跃连接
- 三个独立的傅里叶层（如 FNO 中的傅里叶层）作为 UNO 中的跳跃连接。它们将 MIMO 编码器在不同尺度下提取的特征从源项空间转换到解空间。
- 通道维度： 不同尺度的傅里叶层具有不同的通道维度 $C$ 。精细网格（finer mesh）对应的傅里叶层通道数较少（例如 $C=8$ ），粗糙网格（coarser mesh）对应的通道数较多（例如 $C=32$ ）。这样做可以提高效率，减少在大尺度下的内存使用和计算成本。
多输入单输出 (MISO) 解码器 (Multiple-Input Single-Output Decoder)
- MISO 解码器接收来自傅里叶层的三个不同尺度的输出作为输入。
- 较低层级的傅里叶层输出 $\mathrm{FL}_k^{\text{out}}$ 会经过一个步长为2的转置卷积层进行上采样 $( \mathrm{FL}_k^{\text{out}} )^{\uparrow}$ ，然后与较高层级的傅里叶层输出 $\mathrm{FL}_{k-1}^{\text{out}}$ 拼接，再经过一个 $1 \times 1$ 卷积层进行整合。
- 最终，融合后的特征经过一个解码块（Decoding Block），在本文中是一个简单的 $3 \times 3$ 卷积层，输出最终的解。

4.3. 训练过程

NSNO 的训练过程结合了数据损失（Data Loss）和物理信息损失（Physics-informed Loss），以提高模型的准确性和泛化能力。

数据损失函数 ( $\mathcal{L}_{\text{data}}$ ): 用于衡量 NSNO 预测解与真实解之间的差异。 $\mathcal{L}_{\mathrm{data}} = \frac{1}{N_{\mathrm{train}}} \sum_{i=1}^{N_{\mathrm{train}}} \|u_i - \widehat{u}_i\|_{L^2(\Omega)}$ 其中：
- $N_{\mathrm{train}}$ 是训练集中的样本数量。
- u_i = S(q_i, f_i) 是对应于输入 $(q_i, f_i)$ 的精确解（Ground Truth）。
- $\widehat{u}_i = \mathrm{NSNO}(q_i, f_i)$ 是由 NSNO 预测的数值解。
- $\|\cdot\|_{L^2(\Omega)}$ 是 $L^2$ 范数。
物理信息损失函数 ( $\mathcal{L}_{\mathrm{pde}}$ ): 用于最小化 NSNO 预测解对亥姆霍兹方程的违反程度，有助于避免过拟合（overfitting）并提高泛化能力（generalization ability）。 $\mathcal{L}_{\mathrm{pde}} = \frac{1}{N_{\mathrm{train}}} \sum_{i=1}^{N_{\mathrm{train}}} \|\Delta \widehat{u}_i + k^2(1 + q_i) \widehat{u}_i - f_i\|_{L^2(\Omega)}$ 其中：
- $\Delta \widehat{u}_i$ 是通过五点有限差分方案（five-point finite difference scheme）计算得到的 $\widehat{u}_i$ 的拉普拉斯算子。
总损失函数 ( $\mathcal{L}_{\mathrm{total}}$ ): 总损失函数是数据损失和物理信息损失的加权和： $\mathcal{L}_{\mathrm{total}} = \mathcal{L}_{\mathrm{data}} + \lambda \mathcal{L}_{\mathrm{pde}}$ 其中 $\lambda$ 是平衡两种损失的权重超参数。

训练流程：

数据准备： 准备包含 (q, f, u) 元组的训练集，其中 $u$ 是通过传统数值方法（如 MUMPS 求解的有限差分法）计算的精确解。
网络初始化： 初始化 NSNO 中的所有神经网络参数。
迭代优化： 使用 Adam 优化器 [31] 训练模型，在每个 epoch 中：
- 对一批（batch）训练数据 $(q_i, f_i)$ ，通过 NSNO 预测 $\widehat{u}_i$ 。
- 计算数据损失 $\mathcal{L}_{\mathrm{data}}$ 和物理信息损失 $\mathcal{L}_{\mathrm{pde}}$ 。
- 计算总损失 $\mathcal{L}_{\mathrm{total}}$ 。
- 通过反向传播（backpropagation）更新网络参数。
学习率调度： 学习率通常会随着训练的进行而衰减。

5. 实验设置

5.1. 实验环境

空间域离散化： 空间域 $\Omega = [0, 1]^2$ 被均匀离散为 $256 \times 256$ 的网格。
模型超参数：
- FNO (用于对比基线和 NS-FNO)： $k_{\max} = 12$ （傅里叶模式数），通道维度 $C = 32$ ，迭代层数 $L = 4$ 。
- UNO (用于 NS-UNO)： 傅里叶层在不同尺度下的 $k_{\max} = 12$ 。通道维度从精细到粗糙分别为 $C = 8, 16, 32$ 。迭代层数 $L = 3$ （确保 UNO 与 FNO 参数量相似）。
- 诺依曼级数项数： 实验发现，使用三步诺依曼迭代足以获得满意结果。
训练超参数：
- 训练集规模： 1000 个实例。
- 测试集规模： 100 个实例。
- 优化器： Adam 优化器 [31]。
- 训练轮次 (Epochs)： 500。
- 初始学习率： 0.001，每 100 epoch 减半。
- 批次大小 (Batchsize)： 20。
- 物理信息损失权重 $\lambda$ ： 0.05。
- 硬件： 单块 Nvidia V100 GPU (32 GB 显存)。
性能评估指标： 平均相对 $L^2$ 误差（Average relative $L^2$ -error），定义如下： $\text{Average relative } L^2 \text{-error} = \frac{1}{N_{\mathrm{test}}} \sum_{i=1}^{N_{\mathrm{test}}} \frac{\|u_i - \widehat{u}_i\|_{L^2(\Omega)}}{\|u_i\|_{L^2(\Omega)}}$ 其中 $N_{\mathrm{test}}$ 是测试集中的样本数量，u_i = S(q_i, f_i) 是精确解， $\widehat{u}_i = \mathrm{NSNO}(q_i, f_i)$ 是数值解。

5.2. 基准模型 (Benchmark Models)

为了全面评估，论文考虑了四种模型组合，涵盖了是否使用诺依曼级数解耦和是否使用 UNO 架构：

FNO： 直接使用 FNO 学习从 (q, f) 到 $u$ 的映射。
UNO： 直接使用 UNO 学习从 (q, f) 到 $u$ 的映射。
NS-FNO： 采用 NSNO 框架，其中算子 $G_{\theta}$ 使用 FNO 实现。
NS-UNO： 采用 NSNO 框架，其中算子 $G_{\theta}$ 使用 UNO 实现。

5.3. 数据集

论文生成了多种系数 $q$ 和源场 $f$ 的数据集，以进行全面的评估。对于每个数据集， $q$ 和 $f$ 分别从以下分布中生成。精确解通过有限差分法（FDM）结合 MUMPS [35] 求解大规模线性系统获得。

5.3.1. 系数 $q$ 的分布

$q$ 的三个分布如下，图 5 展示了每个分布的样本：

$Figure 5 Examples of $q$ . (a)(c): T-shaped distribution. (d)(f): Random circle distribution with the number of circles from 1 to 3. (g)(i): Smoothed random circle distribution with the number of circles from 1 to 3$ 该图像是图表，展示了不同随机圆形分布的示例，包括未平滑的随机圆形（示例1至3）和经过平滑处理的随机圆形（示例1至3）。其中包括 T 形分布和随机圆形的示例。

图 5 $q$ 的示例。（a）（c）：T 形分布。（d）（f）：随机圆形分布，圆的数量从1到3。（g）（i）：平滑随机圆形分布，圆的数量从1到3

T-shaped (T 形):
- $q$ 具有随机生成的 T 形紧支集。
- T 形的边界点通过均匀采样 [0.05, 0.95] 生成。
- 通过随机角度 $\left\{0, \frac{\pi}{2}, \pi, \frac{3\pi}{2}\right\}$ 旋转。
- T 形支集内的函数值固定为 0.1。
Random circle (随机圆形): [32]
- $q$ 是分段常数，其支集是 1-3 个随机圆形的并集。
- 数学公式： $q = \sum_{i=1}^{N_c} \mu_i \chi_{D_i}, \quad D_i = \{(x,y): (x-x_i)^2 + (y-y_i)^2 \leq r_i^2\}, \quad N_c \in \{1, 2, 3\}$ 其中：
  - $\chi_{D_i}$ 是指示函数，当点 (x,y) 在圆形区域 $D_i$ 内时取 1，否则取 0。
  - $x_i, y_i \sim U[0.2, 0.8]$ ：圆形中心坐标在 [0.2, 0.8] 之间均匀采样。
  - $r_i \sim U[0.05, 0.2]$ ：圆形半径在 [0.05, 0.2] 之间均匀采样。
  - $\mu_i \sim U[-1, 1]$ ：圆形内的函数值在 $[-1, 1]$ 之间均匀采样。
  - $N_c$ 是圆形的数量，取值为 1, 2 或 3。
- 圆形允许相互重叠。
- 最后， $q$ 被归一化，使得 $\|q\|_{L^\infty(\Omega)} = 0.1$ 。
Smoothed circle (平滑圆形):
- 是随机圆形分布的平滑版本，使得 $q \in C_0^\infty(\Omega)$ （表示具有紧支集的无限可微函数）。
- 数学公式： $q = \sum_{i=1}^{N_c} \mu_i \chi_{D_i} \exp \left[ - \frac{1}{1 - \frac{(x-x_i)^2 + (y-y_i)^2}{r_i^2}} \right]$ 其中 $D_i, N_c, \chi_{D_i}, x_i, y_i, r_i, \mu_i$ 的定义与随机圆形分布相同。
- 最后， $q$ 也被归一化，使得 $\|q\|_{L^\infty(\Omega)} = 0.1$ 。

5.3.2. 源项 $f$ 的分布

$f$ 的三个分布如下，图 6 展示了每个分布的样本：

$Figure 6 Examples of $f$ . (a)(c): Gaussian distribution with different rates of decay. (d): One example sampled from the Gaussian random field (GRF) distribution. (e)(f): Two examples sampled from the wave distribution$ 该图像是图6，展示了不同类型的分布情况，包括(a)(c)的高斯分布在不同衰减速率下的表现，以及(d)的高斯随机场(GRF)分布样本，和(e)(f)的波动分布样本。

图 6 $f$ 的示例。（a）（c）：具有不同衰减率的高斯分布。（d）：高斯随机场（GRF）分布的一个样本。（e）（f）：波分布的两个样本

Gaussian(R) (高斯分布): [33]
- $f$ 是九个高斯函数的和。
- 高斯函数的中心固定为 $c_{i,j} = \left(\frac{3i-1}{10}, \frac{3j-1}{10}\right)$ , $i,j=1,2,3$ 。
- 高斯函数的衰减率从 [R, 2R] 中均匀采样，其中 $R$ 是可调节的超参数。
- $R$ 越小，高斯函数衰减越慢，相互重叠越多，导致更多的多尺度特征。
GRF (高斯随机场): [17]
- $f$ 根据高斯随机场 $\mathcal{N}(0, (-\Delta + 9I)^{-2})$ 生成，并在拉普拉斯算子上具有零诺依曼边界条件。
Wave (波分布):
- 波分布是六个不同频率平面波的加权和。
- 数学公式： $f(x, y) = \sum_{i=1}^{6} \frac{1}{\mu_i} \cos[\pi \mu_i (x \cos \theta_i + y \sin \theta_i)]$ 其中：
  - $\mu_i \sim U[2^{i-1}, 1.5 \times 2^{i-1}]$ ：频率参数在指定区间内均匀采样。
  - $\theta_i \sim U[0, 2\pi]$ ：波传播方向在 $[0, 2\pi]$ 之间均匀采样。
- 这种分布通过不同频率波的叠加，具有明显的多尺度特性。
  
  所有生成的 $f$ 都被归一化，使得 $\|f\|_{L^\infty(\Omega)} = 1$ 。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 基准结果 ( $k=20$ )

将 $q$ 和 $f$ 的分布结合，论文在六个数据集上展示了基准结果。波数 $k=20$ 。

以下是原文 Table 1 的结果：

q	f	FNO	UNO	NS-FNO	NS-UNO
T-shaped	Gaussian(50)	3.22	2.80	1.34	1.26
	Gaussian(30)	4.78	3.10	1.72	1.30
	Gaussian(10)	10.23	3.36	4.82	1.36
T-shaped	GRF	16.80	15.94	4.87	2.04
Random circle	GRF	14.43	11.27	5.48	1.54
Smoothed circle	Waves	7.68	6.15	3.08	1.43

分析：

NSNO 框架的有效性： 与 FNO 和 UNO 相比，NS-FNO 和 NS-UNO 在所有数据集上都获得了更低的相对 $L^2$ 误差，这表明所提出的基于诺依曼级数的框架是有效的。
UNO 架构的优势： 在所有模型中，NS-UNO 在所有数据集上都达到了最高的准确性。特别是在 $f$ 具有强多尺度特征的数据集上（如 GRF 分布），NS-UNO 表现出显著优势。与最先进的 FNO 相比，NS-UNO 实现了至少 60% 的相对误差降低。这验证了 UNO 架构在捕获亥姆霍兹方程解的多尺度特征方面的卓越能力。
高斯衰减率的影响： 随着高斯分布中衰减率的降低（例如从 Gaussian(50) 到 Gaussian(10)），FNO-based 方法的 $L^2$ 误差显著增加，而 UNO-based 方法的误差仅略微增加。这是因为较低的衰减率导致高斯函数重叠更多，增加了 $f$ 的多尺度特性，而 UNO 更擅长处理这类问题。

下图（Figure 7）展示了 T 形 $q$ 和 GRF $f$ 数据集下，不同模型的解和误差示例 ( $k=20$ )。

$Figure 7 Examples of exact solution, numerical solutions and absolute error for dataset with T-shaped $q$ and GRF $f$ when $k = 2 0$$ 该图像是图表，其中展示了 NS-UNO 模型的实部（m）、虚部（n）以及误差（o）。实部和虚部的色彩图分别呈现了不同的数值范围，误差图则呈现了该模型在计算中的相对误差为 1.94%。

图 7 T 形 $q$ 和 GRF $f$ 数据集下，精确解、数值解和绝对误差的示例， $k=20$

下图（Figure 8）展示了平滑圆形 $q$ 和波 $f$ 数据集下，不同模型的解和误差示例 ( $k=20$ )。

$Figure 8 Examples of exact solution, numerical solutions and absolute error for dataset with smooth circle $q$ and waves $f$ when $k = 2 0$$ 该图像是插图，展示了使用NS-FNO和NS-UNO两种方法计算的结果。图中包含四个子图：上方左侧显示了NS-FNO的实部，右侧为其虚部；下方左侧为NS-UNO的实部，右侧为其虚部。每个方法的计算误差也被展示，NS-FNO的误差为2.70%，而NS-UNO的误差为1.32%。这些结果表明两种网络架构在解决Helmholtz方程中的表现。

图 8 平滑圆形 $q$ 和波 $f$ 数据集下，精确解、数值解和绝对误差的示例， $k=20$

分析：

从 Figure 7 和 Figure 8 可以看出，NS-UNO 在这两个数据集上都表现出最佳精度。与其他三个模型相比，NS-UNO 的误差分布均匀且较小，这意味着它在大多数点上都能准确预测解，进一步证实了其有效性。

6.1.2. 更高波数场景 ( $k=40, 60$ )

为了进一步测试模型在多尺度问题上的性能，论文给出了 $k=40$ 和 $k=60$ 时的结果。

该图像是一个比较不同方法相对误差的图表，其中左侧(a)显示了在高斯源下的相对误差，右侧(b)则是在GRF源下的相对误差。可以看到，NSNO方法在各个波数下均表现出更优的准确性。

$Figure 9 Relative $L ^ { 2 }$ -error of FNO, UNO, NS-FNO and NS-UNO on four datasets specified in the subcaptions for wavenumber $k = 2 0 , 4 0 , 6 0$$ 该图像是图表，展示了在不同波数下，FNO、UNO、NS-FNO和NS-UNO的相对 $L^2$ 误差。左侧子图(c)展示了在随机圆形背景中以及右侧子图(d)展示了在平滑圆形背景中各方法的表现。随着波数的增加，相对误差的变化趋势被清晰地记录下来。

图 9 FNO、UNO、NS-FNO 和 NS-UNO 在四个数据集上，波数 $k = 20, 40, 60$ 时的相对 $L^2$ 误差

分析：

NS-UNO 的持续领先： 在所有波数情况下（包括 $k=40, 60$ ），NS-UNO 始终保持最低的相对误差，其次是 NS-FNO，这进一步证明了 NSNO 框架的有效性。
多尺度问题中的显著优势： 对于从高斯随机场或平面波叠加采样得到的 $f$ 的数据集（具有显著多尺度特性），NS-UNO 的相对误差比其他模型低近一个数量级。这揭示了 UNO 架构在处理多尺度问题方面的卓越能力。
对高波数的鲁棒性： 即使在 $k=60$ 这样的高波数下，NS-UNO 依然能保持较低的误差，表明其能够有效地捕获高度振荡的解。

下图（Figure 10）展示了平滑圆形 $q$ 和波 $f$ 数据集下，一个 $k=60$ 的示例。

$Figure 10 Examples of exact solution, numerical solutions and absolute error for dataset with T-shaped $q$ and GRF $f$ when $k = 6 0$$ 该图像是图表，展示了 NS-FNO 和 NS-UNO 的实部、虚部及误差情况。第一行包括 NS-FNO 的实部（图(j)）、虚部（图(k)）及误差（图(l)），误差为 17.82%。第二行包含 NS-UNO 的实部（图(m)）、虚部（图(n)）及误差（图(o)），误差为 5.40%。

图 10 T 形 $q$ 和 GRF $f$ 数据集下，精确解、数值解和绝对误差的示例， $k=60$

分析：

图 10 显示，相比 $k=20$ 的情况， $k=60$ 时的解更加复杂和振荡。然而，NS-UNO 仍然能够以均匀的小误差学习这些解，展示了其在捕获亥姆霍兹方程解多尺度特征方面的强大能力。

6.1.3. 数据量需求 (Less Training Data)

论文测试了训练数据量对模型性能的影响，将训练集大小减少到 800、600 和 400。

$Figure 11 Relative $L ^ { 2 }$ -error of FNO, UNO, NS-FNO and NS-UNO on two datasets specified in the subcaptions with the number of training samples $N =$ 400, 600, 800, 1000$ 该图像是图表，展示了 FNO、UNO、NS-FNO 和 NS-UNO 在两个数据集上的相对 $L^2$ 误差与训练样本数量的关系。左侧子图 (a) 针对 T 形和 Gaussian 函数进行分析，右侧子图 (b) 介绍平滑圆形和波动函数的结果。误差随着训练样本数量的增加而降低，NS-UNO 展现出最优的性能。

图 11 FNO、UNO、NS-FNO 和 NS-UNO 在两个数据集上，训练样本数 $N = 400, 600, 800, 1000$ 时的相对 $L^2$ 误差

分析：

NS-UNO 的数据效率： 即使在数据量减少的情况下，NS-UNO 仍然显著优于其他三个模型，表明它具有良好的数据效率（data efficiency）。
UNO 与 NS-FNO 的对比： 当数据量不足时，UNO 的相对误差低于 NS-FNO。然而，随着训练样本的增加，NS-FNO 的性能超越了 UNO。这表明处理多尺度问题的困难可以通过增加训练数据来缓解。

6.1.4. 训练计算成本 (Training Computational Cost)

对比了 NS-FNO 和 NS-UNO 的训练计算成本。

以下是原文 Table 2 的结果：

Model	Iters/sec	Memory (GB)	# of param (M)
NS-FNO	26	12.64	3.56
NS-UNO	12	5.94	3.55

分析：

NS-UNO 的计算效率： 尽管 NS-UNO 的迭代速度 (Iters/sec) 较低（12 vs 26），但它与 NS-FNO 具有相似的参数量（约 3.55M），而计算成本（通过内存使用衡量）却降低了 50%。
内存优化原因： 这是因为 UNO 在最精细层中的通道数是 FNO 的四分之一，这大大减少了张量的大小，从而降低了内存使用和训练时间。
结论： NS-UNO 能够在更低的计算成本下提供更准确的结果。

6.1.5. 物理信息损失的必要性 (Necessity of Physics-Informed Loss)

论文测试了物理信息损失权重 $\lambda$ 对 NS-UNO 性能的影响。

以下是原文 Table 3 的结果：

λ	0	0.01	0.05	0.1	0.15	0.2
Training error	3.09	1.10	1.07	1.24	1.89	1.96
Test error	8.85	1.73	1.54	1.68	2.21	2.29
Generalization error	11.64	2.57	2.42	2.65	3.01	3.07

分析：

物理信息损失的重要性： 当 $\lambda = 0$ 时（即没有物理信息损失），训练误差和测试误差都显著高于有物理信息损失的情况，这表明物理信息损失是必要的。
最佳 $\lambda$ 值： 最优的 $\lambda$ 值为 0.05，与实验设置中的选择一致。
改善泛化能力： 引入物理信息损失显著缩小了训练误差和测试误差之间的差距，表明它能提高模型的泛化能力。
跨数据集泛化： 在一个新数据集（ $f \sim \mathcal{N}(0, (-\Delta + 9I)^{-3/2})$ ）上测试泛化误差。虽然泛化误差普遍高于测试误差，但在没有物理信息损失的情况下，从测试误差到泛化误差的增幅更大。这进一步强调了物理信息损失在提高模型在未见过数据上的表现方面的重要性。

6.1.6. 诺依曼级数项数的影响 (Influence of the Number of Items in Neumann Series)

论文探究了诺依曼级数中项数对相对 $L^2$ 误差的影响。

$Figure 12 Relative $L ^ { 2 }$ -error versus the number of items in Neumann series$ 该图像是图表，展示了在 Neumann 系列中项目数量与相对 $L ^ { 2 }$ -误差之间的关系。不同颜色和样式的线条代表了不同的测试场景，图中显示对于多个项目数量，误差的变化趋势明显，尤其在大型数据案例中， NSNO 显示出其优越性。

图 12 诺依曼级数项数与相对 $L^2$ 误差的关系

分析：

项数的收敛性： 从图 12 可以看出，使用三项诺依曼级数足以获得准确的结果。使用四项的模型与三项模型的相对误差几乎相同。
梯度消失问题： 这一结果表明，增加网络深度（即增加诺依曼级数的项数）不一定会带来精度上的线性提升，反而可能由于梯度回传路径变长而导致梯度消失问题 [34]。
网络块与理论步数的差异： 结果还暗示，神经网络中的一个诺依曼级数块实际上并不完全对应于精确诺依曼级数中的一个步骤。神经网络的非线性特征和学习能力可能使其在更少的迭代中捕捉到足够的信息。

6.1.7. 超越诺依曼级数收敛限制 (Beyond Convergence of Neumann Series)

诺依曼级数的收敛性取决于算子 $-k^2 G q$ 的范数，该范数与 $k$ 和 $\|q\|_{L^\infty(\Omega)}$ 成正比。过大的 $k$ 和 $\|q\|_{L^\infty(\Omega)}$ 可能导致收敛缓慢甚至发散。论文探讨了 NS-UNO 在理论上级数发散情况下的表现。

以下是原文 Table 4 的结果：

wavenumber	\|\|q\|\|_L^∞(Ω)	NS (3 terms)	NS (10 terms)	FNO	NS-UNO
k = 20	0.35	24.39	6.85	10.56	6.42
k = 20	0.4	44.11	57.12	17.90	9.83
k = 40	0.2	12.42	3.10	17.27	2.92
k = 40	0.25	25.16	35.52	20.19	4.28

分析：

诺依曼级数理论限制：
- 对于 k=20, \|q\|_{L^\infty(\Omega)} = 0.35 和 k=40, \|q\|_{L^\infty(\Omega)} = 0.2，精确诺依曼级数显示出缓慢收敛（10 项结果优于 3 项）。
- 对于 k=20, \|q\|_{L^\infty(\Omega)} = 0.4 和 k=40, \|q\|_{L^\infty(\Omega)} = 0.25，精确诺依曼级数发散（10 项结果劣于 3 项，且误差非常大），这与第 3.2 节的理论分析一致。
NS-UNO 的突破性表现：
- 在诺依曼级数收敛缓慢的情况下（例如 k=20, \|q\|_{L^\infty(\Omega)} = 0.35），NS-UNO 仅用三步迭代就超越了精确诺依曼级数（10 项）。
- 更令人惊讶的是，即使在理论上诺依曼级数发散的情况下（例如 k=20, \|q\|_{L^\infty(\Omega)} = 0.4 和 k=40, \|q\|_{L^\infty(\Omega)} = 0.25），NS-UNO 仍然能够保持相对较低的 $L^2$ 误差，并远优于 FNO。
结论： 这表明 NS-UNO 能够突破传统诺依曼级数的理论收敛限制，其强大的学习能力使其在物理参数超出理论收敛范围时也能提供准确的近似解。NS-UNO 在大 $k$ 和大 $\|q\|_{L^\infty(\Omega)}$ 值下仍然优于 FNO，进一步凸显了其在实际应用中的鲁棒性。

6.2. 逆散射问题中的应用

6.2.1. 问题设置

目标： 使用学习到的 NSNO 作为正演求解器来解决逆散射问题（Inverse Scattering Problem），即从散射场数据重建散射体 $q$ 。
入射场 (Incident Field)： 平面波 $u^{in} = e^{ikx \cdot d}$ ，其中 $d$ 是入射方向。
散射场方程： 散射场 $u^s$ 满足： $\Delta u^s + k^2(1+q(x))u^s = -k^2 q(x) u^{in}$ 这个方程的解算子可以表示为 $q \mapsto S(q, -k^2 q u^{in})$ 。
数据测量：
- 域 $\Omega$ 离散为 $128 \times 128$ 网格。
- 从 $M=32$ 个均匀分布的不同方向生成平面波。
- 传感器放置在 $\Omega = [0, 1]^2$ 边界上的每个网格点，收集每个入射波 $u_m^{in}$ 对应的波场数据 $d_m$ 。
正演算子 $\mathcal{F}_m(q)$ ： 将散射体 $q$ 映射到边界上的测量数据： $\mathcal{F}_m(q) = T \circ S(q, -k^2 q u_m^{in})$ 其中 $T$ 是将波场限制在边界上的迹算子（trace operator）。
逆问题： 从测量数据中重建散射体 $q$ 。为避免“逆犯罪”（inverse crime），测量数据是使用精细网格生成的。

6.2.2. 求解逆问题

逆问题通过优化方法求解，即寻找一个近似的 $q$ 来最小化以下目标函数： $\underset{q}{\mathrm{argmin}} J(q) = \sum_{m=1}^{M} J_j(q) = \sum_{m=1}^{M} \frac{1}{2} \|\mathcal{F}_m(q) - d_m\|_2^2$

优化算法： 使用 L-BFGS 算法 [36] 解决最小化问题，初始值设为 0。
梯度计算： 损失函数对模型的梯度通过伴随状态法（adjoint state method）[37] 计算（具体推导在附录中给出）。
- 伴随状态法推导： 考虑一个入射波 $u_0$ $u_{0}$ ，优化问题为： $\underset{\boldsymbol{q}}{\mathrm{min}} \quad J(\boldsymbol{q}) = \frac{1}{2} \|\boldsymbol{T}\boldsymbol{u}(\boldsymbol{q}) - \boldsymbol{d}\|_2^2 \\ \text{s.t.} \quad \Delta \boldsymbol{u} + k^2(1+\boldsymbol{q})\boldsymbol{u} = -k^2 q \boldsymbol{u}_0, \quad \text{in } \Omega \\ \frac{\partial \boldsymbol{u}}{\partial \boldsymbol{n}} = \mathrm{i}k \boldsymbol{u}, \quad \text{on } \partial\Omega$ 引入拉格朗日函数 $\mathcal{L}(u, \lambda, q)$ $L (u, λ, q)$ ： $\mathcal{L}(u, \lambda, q) = J(q) - (\lambda, \Delta u + k^2(1+q)u + k^2 q u_0)$ 其中 $(f, g) = \mathrm{Re} \int_\Omega f \overline{g}$ $(f, g) = Re \int_{Ω} f \overline{g}$ 。经过两次分部积分，并考虑边界条件，得到： $\mathcal{L}(u, \lambda, q) = J(q) + \left\langle \frac{\partial \lambda}{\partial n} + \mathrm{i}k \lambda, u \right\rangle - (\Delta \lambda + k^2(1+q)\lambda, u) - (\lambda, k^2 q u_0)$ 其中 $\langle f, g \rangle = \mathrm{Re} \int_{\partial\Omega} f \overline{g}$ $⟨ f, g ⟩ = Re \int_{\partial Ω} f \overline{g}$ 。为了消除 $\frac{\partial u}{\partial q}(q)$ $\frac{\partial u}{\partial q} (q)$ 项，选择伴随变量 $\lambda$ $λ$ 满足伴随方程： $\Delta \lambda + k^2(1+q)\lambda = T^*(Tu - d), \quad \text{in } \Omega \\ \frac{\partial \lambda}{\partial n} + \mathrm{i}k \lambda = 0, \quad \text{on } \partial\Omega$ 等价地，求解 $\overline{\lambda}$ $\overline{λ}$ 满足： $\Delta \overline{\lambda} + k^2(1+q)\overline{\lambda} = \overline{T^*(Tu - d)}, \quad \text{in } \Omega \\ \frac{\partial \overline{\lambda}}{\partial \boldsymbol{n}} = \mathrm{i}k \overline{\lambda}, \quad \text{on } \partial\Omega$ 此时，目标函数 $J$ $J$ 对 $q$ $q$ 的梯度可以表示为： $\frac{\partial J(q)}{\partial q} = \frac{\partial \mathcal{L}(q)}{\partial q} = -k^2 (\overline{\lambda}, u + u_0)$ 计算梯度的过程包括两次正向求解器调用：
  1. 求解 $u$ (正演问题)。
  2. 求解 $\overline{\lambda}$ (伴随问题)。
  3. 计算梯度。
对比方法：
- 传统方法： 有限差分法（FDM）作为正演求解器，使用 MUMPS [35] 作为直接求解器。
- 神经网络方法： 使用预训练的 NS-UNO 作为正演求解器。
神经网络训练：
- 数据集： 散射体 $q$ 样本从 MNIST 数据集 [38, 39] 中提取。图像被调整为 $112 \times 112$ 并填充到 $128 \times 128$ 。
- 训练/测试集： 每个数字 0-9 选取 100/10 个样本。
- 训练过程： 仅使用四个平面波（方向为 $0, \frac{\pi}{2}, \pi, \frac{3\pi}{2}$ ）进行训练。学习率初始化为 0.001，每 200 epochs 减半。损失函数中的 $\lambda$ 设为 0.1。
- 性能： 训练完成后，在测试集上平均相对 $L^2$ 误差为 1.34%。

6.2.3. 重建结果

下图（Figure 13）展示了使用 FDM 和 NS-UNO 作为正演求解器时散射体 $q$ 的重建结果。

$Figure 13 Relative $L ^ { 2 }$ -error and reconstruction time of scatterer $q$ using FDM and NSUNO as the forward solver$ 该图像是图表，展示了通过FDM和NS-UNO作为正向求解器计算的多个散射体的相对 $L^2$ -误差和重建时间。图中包含真值和各自方法的结果，展示了不同方法在计算时间和精度上的表现。

图 13 使用 FDM 和 NS-UNO 作为正演求解器时散射体 $q$ 的相对 $L^2$ 误差和重建时间

分析：

精度对比： NS-UNO 重建结果在视觉上与 FDM 相当，相对 $L^2$ 误差仅略微增加约 2%（由于神经网络在求解正演问题时固有的误差）。
速度优势： NS-UNO 的关键优势在于速度的大幅提升。由于神经网络能够同时解决梯度计算所需的所有正演问题，NS-UNO 比使用 MUMPS 的 FDM 快 20 倍以上。
结论： NS-UNO 作为正演问题的替代模型，在不显著牺牲精度的情况下，大大提高了计算效率。

为了进一步展示 NS-UNO 的泛化能力，论文直接使用在 MNIST 数据集上训练的网络来重建 T 形和随机圆形数据集中的 $q$ 。下图（Figure 14）展示了从 T 形和随机圆形数据集重建散射体 $q$ 的结果。

$Figure 14 Relative $L ^ { 2 }$ -error and reconstruction time of scatterer $q$ from T-shaped and random circle datasets using MUMPS and NS-UNO trained with MNIST dataset as the forward solver$ 该图像是图表，展示了 T 形和随机圆形数据集上散射体 $q$ 的重建结果。图中包含了真实值以及利用 FDM 和 NS-UNO 进行的重建结果，分别标注了相对 $L^{2}$ 误差和重建时间。图 (a) 和 (d) 为真实值，(b) 和 (e) 为 FDM 重建结果，(c) 和 (f) 为 NS-UNO 重建结果。

图 14 使用 MNIST 数据集训练的 NS-UNO 作为正演求解器时，从 T 形和随机圆形数据集重建散射体 $q$ 的相对 $L^2$ 误差和重建时间

分析：

泛化能力： NS-UNO 能够准确重建 T 形和随机圆形等与 MNIST 数据集不同的散射体形状，表明其具有良好的泛化能力。
误差对比： 在这些新数据集上的相对误差与 FDM 的误差相当。
效率保持： 速度优势依然显著，NS-UNO 比 FDM 快 20 倍以上。

7. 总结与思考

7.1. 结论总结

本文提出了诺依曼级数神经算子（NSNO），一个用于求解非均匀介质中亥姆霍兹方程解算子的新颖框架。

诺依曼级数解耦： 通过诺依曼级数表示，NSNO 成功地将非均匀性系数 $q$ 和源项 $f$ 解耦，将复杂问题简化为学习一个从源项到齐次亥姆霍兹方程解的算子。
UNO 架构： 设计了一种结合 U-Net 和 FNO 的新型网络架构 UNO，以有效捕获亥姆霍兹方程解的多尺度特征。
卓越性能： 实验证明，NSNO 在精度上显著优于最先进的 FNO（至少 60% 的相对 $L^2$ 误差降低），尤其是在高波数情况下。同时，它展现出更低的计算成本和数据需求。
逆问题应用： NSNO 成功用作逆散射问题中的替代正演模型，实现了与传统有限差分求解器相当的精度，但计算速度提升了 20 倍以上。
突破理论限制： 实验发现 NSNO 即使在诺依曼级数理论上发散的情况下，仍能给出合理准确的结果，展示了深度学习超越传统数学工具在特定场景下的潜力。

7.2. 局限性与未来工作

非均匀性系数的最大值限制： 诺依曼级数的收敛性依赖于非均匀性系数的最大值 $\|q\|_{L^\infty(\Omega)}$ 。在理论上，过大的 $\|q\|_{L^\infty(\Omega)}$ 会导致级数发散，这限制了 NSNO 在高对比度介质（high-contrast medium）中的应用。
对亥姆霍兹方程的特异性： 提出的诺依曼级数基于亥姆霍兹方程的特定形式。将其推广到其他类型的偏微分方程仍然是一个挑战。

未来的工作将集中于：
探索更高效的网络架构，以扩大 NSNO 的应用范围，例如处理更高对比度的介质。
开发替代的迭代方案，以将 NSNO 的思想推广到其他偏微分方程的解算子学习中。

7.3. 个人启发与批判

解耦复杂输入： 这篇论文最重要的启发在于其巧妙地利用诺依曼级数来解耦复杂 PDE 中的多变输入参数（如 $q$ 和 $f$ ）。在处理多物理场耦合或多参数依赖的复杂系统时，这种“先解耦，再学习基础算子”的策略可能比直接学习高维复杂映射更有效。这为其他涉及复杂输入空间的算子学习问题提供了新的思路。
U-Net与FNO的协同： UNO 架构的成功展示了将不同神经算子和传统神经网络架构（如 U-Net）结合的强大潜力。FNO 擅长全局特征捕获，而 U-Net 擅长多尺度细节保留。这种优势互补的设计模式在处理具有复杂尺度特征的问题时（如高频波传播、湍流模拟）具有普遍适用性。未来可以探索更多这种“混合”算子架构。
超越理论限制的现象： 论文中 NS-UNO 在诺依曼级数理论发散情况下依然能给出合理结果的发现非常引人深思。这表明神经网络不仅仅是在近似一个已知的数学过程，它可能在某种程度上学习到了一种更鲁棒的、非线性的“求解策略”，这种策略可能包含了对物理过程更深层次的理解，或者说其“误差校正”能力远超预期。这促使我们重新思考神经网络在数值方法中的角色，它们可能不仅仅是加速器，也可能是新型求解器的发现者。
物理信息约束的价值： 物理信息损失的重要性再次被强调。在复杂的物理问题中，仅靠数据驱动容易出现泛化性差、物理不一致的问题。将物理定律融入损失函数，不仅能提高模型精度和泛化能力，还能在数据稀缺时提供强大的正则化效果。
潜在的局限性批判：
- 诺依曼级数近似的精确性： 尽管 NS-UNO 表现出色，但其本质仍是对诺依曼级数的截断和近似。在高波数或强非均匀性介质中，理论上截断误差会更大。虽然神经网络表现出超越理论限制的能力，但这种“超越”的机理是否可控、可解释，以及在更极端情况下的稳定性如何，仍需深入研究。
- $G$ 算子的复杂性： 尽管将问题分解为学习 $G$ 算子，但 $G$ 算子本身仍然是一个将任意源项映射到齐次亥姆霍兹方程解的算子，其复杂性不容小觑。UNO 的设计虽然强大，但其在不同 PDE 类型上的通用性是否需要大量定制仍是一个问题。
- 计算成本的权衡： 尽管 NS-UNO 相较于 FDM 具有速度优势，但相比于纯 FNO，UNO 引入了更多的结构复杂性（MIMO 编码器、MISO 解码器等），这可能在某些简单问题上带来额外的计算开销。如何在复杂性和效率之间找到最佳平衡点，仍是神经算子设计中的一个持续挑战。
- 高对比度介质： 论文明确指出了高对比度介质（即 $\|q\|_{L^\infty(\Omega)}$ 较大）是其主要限制。这在地球物理勘探、材料科学等领域是常见的，如何扩展到这些场景是关键。可能需要引入多重网格方法、域分解（domain decomposition）或其他多尺度技术与神经算子结合。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

NSNO: Neumann Series Neural Operator for Solving Helmholtz Equations in Inhomogeneous Medium

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 40 分钟读完 · 23,474 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

2.1.2. 问题重要性与现有挑战

2.1.3. 现有深度学习方法的局限

2.1.4. 论文的切入点与创新思路

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 亥姆霍兹方程 (Helmholtz Equation)

3.1.2. 偏微分方程（Partial Differential Equation, PDE）

3.1.3. 解算子 (Solution Operator)

3.1.4. 诺依曼级数 (Neumann Series)

3.1.5. L2L^2L2 误差 (L2-error)

3.1.6. U-Net

3.1.7. 傅里叶神经算子 (Fourier Neural Operator, FNO)

3.1.8. 物理信息损失 (Physics-informed Loss)

3.2. 前人工作

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.1.1. 亥姆霍兹方程的变分形式与算子 GGG 的定义

4.1.2. 诺依曼级数重构与解耦

4.2. 核心方法详解 (NSNO 网络架构)

4.2.1. NSNO 整体网络架构

4.2.2. GθG_{\theta}Gθ​ 的网络架构：UNO (U-shaped Neural Operator)

4.2.2.1. 傅里叶神经算子 (FNO)

4.2.2.2. U-Shaped Neural Operator (UNO) 架构

4.3. 训练过程

5. 实验设置

5.1. 实验环境

5.2. 基准模型 (Benchmark Models)

5.3. 数据集

5.3.1. 系数 qqq 的分布

5.3.2. 源项 fff 的分布

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 基准结果 (k=20k=20k=20)

6.1.2. 更高波数场景 (k=40,60k=40, 60k=40,60)

6.1.3. 数据量需求 (Less Training Data)

6.1.4. 训练计算成本 (Training Computational Cost)

6.1.5. 物理信息损失的必要性 (Necessity of Physics-Informed Loss)

6.1.6. 诺依曼级数项数的影响 (Influence of the Number of Items in Neumann Series)

6.1.7. 超越诺依曼级数收敛限制 (Beyond Convergence of Neumann Series)

6.2. 逆散射问题中的应用

6.2.1. 问题设置

6.2.2. 求解逆问题

6.2.3. 重建结果

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐

3.1.5. $L^2$ 误差 (L2-error)

4.1.1. 亥姆霍兹方程的变分形式与算子 $G$ 的定义

4.2.2. $G_{\theta}$ 的网络架构：UNO (U-shaped Neural Operator)

5.3.1. 系数 $q$ 的分布

5.3.2. 源项 $f$ 的分布

6.1.1. 基准结果 ( $k=20$ )

6.1.2. 更高波数场景 ( $k=40, 60$ )