MscaleFNO: Multi-scale Fourier Neural Operator Learning for Oscillatory Function Spaces

Wei Cai

论文状态：已完成

MscaleFNO: Multi-scale Fourier Neural Operator Learning for Oscillatory Function Spaces

发表：2024/12/28

多尺度傅里叶神经算子 (1)高频映射学习 (1)海尔姆霍兹方程非线性映射 (1)谱偏差降低 (1)波散射问题 (1)

原文链接 PDF 下载

价格：0.10

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种多尺度傅里叶神经算子（MscaleFNO），旨在解决傅里叶神经算子在学习高频振荡函数映射时的光谱偏差问题。通过并行的缩放FNO，MscaleFNO能有效捕捉映射中的高频成分，在高频波散射问题上展示出显著的性能提升。

摘要

In this paper, a multi-scale Fourier neural operator (MscaleFNO) is proposed to reduce the spectral bias of the FNO in learning the mapping between highly oscillatory functions, with application to the nonlinear mapping between the coefficient of the Helmholtz equation and its solution. The MscaleFNO consists of a series of parallel normal FNOs with scaled input of the function and the spatial variable, and their outputs are shown to be able to capture various high-frequency components of the mapping's image. Numerical methods demonstrate the substantial improvement of the MscaleFNO for the problem of wave scattering in the high-frequency regime over the normal FNO with a similar number of network parameters.

思维导图

论文精读

中文精读约 38 分钟读完 · 22,297 字

1. 论文基本信息

1.1. 标题

MscaleFNO: Multi-scale Fourier Neural Operator Learning for Oscillatory Function Spaces (MscaleFNO: 针对振荡函数空间的尺度傅里叶神经算子学习)

1.2. 作者

Zhilin You $^ { 1 }$
Zhenli Xu $^ { 1 }$
Wei Cai $^ *$ 2

$^ { 1 }$ 上海交通大学数学科学学院，MOE-LSC 和 CMA-上海，上海，中国 $^ 2$ 南卫理公会大学数学系，达拉斯，德克萨斯州，美国

1.3. 发表期刊/会议

预印本（arXiv），尚未正式发表。

1.4. 发表年份

2024年12月28日（UTC）发布。

1.5. 摘要

本文提出了一种多尺度傅里叶神经算子（MscaleFNO），旨在减少傅里叶神经算子（FNO）在学习高度振荡函数之间映射时的光谱偏差（spectral bias），并将其应用于亥姆霍兹方程（Helmholtz equation）系数与其解之间的非线性映射。MscaleFNO 由一系列并行的普通 FNO 组成，这些 FNO 的输入函数和空间变量都经过了缩放。结果表明，这些并行 FNO 的输出能够捕捉映射图像中的各种高频成分。数值方法表明，在具有相似网络参数量的情况下，MscaleFNO 在高频波散射问题上的性能相对于普通 FNO 有了显著提升。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2412.20183v1
PDF 链接: https://arxiv.org/pdf/2412.20183v1.pdf

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题是什么？ 论文旨在解决傅里叶神经算子 (FNO) 在学习高度振荡函数（highly oscillatory functions）之间映射时存在的“光谱偏差（spectral bias）”问题。光谱偏差是指深度神经网络 (DNN) 在训练过程中倾向于优先学习低频信息，而难以准确捕捉高频信息。在涉及物理系统（如波散射）的许多应用中，物理量（如介质属性、散射特性、地震激励）及其响应（如波场、建筑物响应）常常包含丰富的高频内容，这使得传统 FNO 难以有效学习这些复杂映射。
为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白（Gap）？ 在物理建模和科学计算领域，精确预测和模拟涉及高频振荡的现象至关重要，例如波传播、湍流等。传统的数值方法虽然精确，但对每个新的参数配置都需要重新计算，计算成本高昂。算子学习（operator learning）旨在学习一个通用的映射算子，以实现高效推理。然而，如果算子学习模型存在光谱偏差，它就无法准确地捕捉这些高频细节，导致预测结果失真或不精确。现有针对光谱偏差的解决方案，如多尺度深度神经网络 (MscaleDNN) 和相移深度神经网络 (Phase shift DNN)，主要集中于直接求解偏微分方程 (PDE) 的问题，即学习从输入到解的映射。而对于更通用的 算子学习（operator learning）问题，即学习从一个函数空间到另一个函数空间（例如，从介质系数到解）的映射，现有工作较少直接针对 FNO 的光谱偏差。虽然有工作提出了层次注意力神经算子（hierarchical attention neural operator）来解决算子学习中的光谱偏差，或将扩散模型与神经算子结合以改进湍流建模的频谱表示，但将 MscaleDNN 的多尺度思想系统地应用于 FNO 这一特定且广受欢迎的算子学习框架，以处理涉及高度振荡函数的映射，仍是一个重要的研究空白。
这篇论文的切入点或创新思路是什么？ 本文的创新点在于将 MscaleDNN 的多尺度概念扩展到 FNO，提出 MscaleFNO 来解决 FNO 的光谱偏差问题。其核心思路是：
1. 并行架构： 构建一个由多个并行普通 FNO 子网络组成的架构。
2. 尺度缩放输入： 每个子网络接收经过不同尺度缩放的输入函数和空间变量。这意味着不仅空间坐标 $x$ 被缩放，输入函数 a(x) 也被相应缩放，以捕捉输入函数自身的高频振荡。
3. 高频捕获： 通过这种多尺度输入，不同的子网络能够专门学习和捕获映射图像中不同频率范围的成分，尤其是高频成分。
4. 加权求和： 各个子网络的输出通过可学习的权重进行加权求和，以形成最终的预测。

2.2. 核心贡献/主要发现

论文最主要的贡献是什么？
1. 提出了 MscaleFNO： 创新性地将多尺度深度神经网络 (MscaleDNN) 的思想与傅里叶神经算子 (FNO) 相结合，构建了一种能够有效处理高度振荡函数之间映射的新型算子学习模型。
2. 解决了 FNO 的光谱偏差问题： 针对 FNO 在学习高频振荡函数时表现出的光谱偏差，MscaleFNO 通过并行子网络和对输入函数及空间变量进行多尺度缩放，显著提升了模型捕获高频信息的能力。
3. 双重高频处理能力： 提出的架构同时处理了相对于空间坐标 $x$ 的高频变化，以及相对于输入函数 a(x) 自身振荡的高频响应，这在物理系统建模中具有重要意义。
4. 验证了在波散射问题中的优越性： 将 MscaleFNO 应用于亥姆霍兹方程（Helmholtz equation）中介质系数与解之间的非线性映射学习，特别是在高频波散射场景下。
论文得出了哪些关键的结论或发现？这些发现解决了什么具体问题？
1. 显著的性能提升： 数值结果表明，在参数量相似的情况下，MscaleFNO 在处理高频波散射问题时，相比普通 FNO 取得了显著的精度提升，相对误差可降低一个数量级甚至更多。这解决了普通 FNO 在高频场景下精度不足的问题。
2. 精准捕捉高频振荡： MscaleFNO 能够准确地捕捉真实解中的精细波模式和高频振荡，而普通 FNO 往往产生平滑的近似，无法还原这些细节。这对于需要精确模拟高频物理现象的应用至关重要。
3. 有效的频谱分解： 通过对 MscaleFNO 子网络输出的频谱分析，发现不同尺度的子网络确实专注于捕捉不同频率范围的成分（小尺度捕获低频，大尺度捕获高频），共同实现了对整个频谱的全面表示。这印证了多尺度设计的有效性。
4. 良好的泛化能力： 在对亥姆霍兹方程的泛化能力测试中，即使面对与训练数据分布不同的测试样本，MscaleFNO 依然表现出鲁棒的预测能力，准确捕捉高频振荡和频谱模式，而普通 FNO 则彻底失效。这表明 MscaleFNO 具有更强的学习复杂函数关系并推广到未知情况的能力。

3. 预备知识与相关工作

3.1. 基础概念

算子学习 (Operator Learning): 算子学习是机器学习的一个新兴领域，旨在学习从一个函数空间到另一个函数空间的映射，而非传统机器学习中从欧几里得空间到欧几里得空间的映射。在许多科学和工程问题中，我们关注的是将一个输入函数（如物理参数场、初始条件）映射到另一个输出函数（如物理系统的解、响应场）。算子学习模型（如 FNO、DeepONet）通过学习这种无限维空间之间的映射，能够处理各种输入函数，并对新的输入函数进行高效推理，而无需像传统数值方法那样对每个新输入重新求解。
傅里叶神经算子 (Fourier Neural Operator, FNO): FNO 是一种专门为学习偏微分方程 (PDE) 算子而设计的深度学习架构。它通过将输入函数和中间特征表示转换到频域，并在频域中进行线性变换（乘法操作），从而实现对算子的学习。这种在频域操作的特点使其能够捕捉函数在不同频率上的信息，并且对平移具有一定的不变性。FNO 的核心在于利用快速傅里叶变换 (FFT) 和逆快速傅里叶变换 (IFFT) 在频域进行高效计算，并通过截断高频模式来控制模型的复杂性。
光谱偏差 (Spectral Bias) / 频率原理 (Frequency Principle): 光谱偏差是指深度神经网络在训练过程中，往往会优先学习数据中的低频成分，而对高频成分的学习速度较慢，或者需要更多的训练时间和数据才能达到同样的精度。这意味着神经网络更容易拟合平滑的函数，而难以捕捉快速变化的、振荡的细节。频率原理（Frequency Principle）是描述这种现象的另一种说法，它观察到神经网络在学习过程中，其函数逼近的傅里叶频谱会从低频向高频逐渐扩展。这种偏差在高频物理问题中是一个严重的挑战，因为物理现象的精细细节往往体现在高频成分中。
多尺度深度神经网络 (Multi-scale Deep Neural Network, MscaleDNN): MscaleDNN 是一种旨在克服深度神经网络光谱偏差的方法。它的核心思想是，将目标函数分解为不同频率范围的成分，并使用多个并行的子网络来分别学习这些成分。通过对输入数据进行不同尺度的缩放（例如，放大或缩小空间坐标），每个子网络被引导去关注特定频率范围的信息。最后，将这些子网络的输出组合起来，以重建完整的、包含高频细节的目标函数。这种并行处理不同尺度的策略有助于网络更有效地捕捉多尺度特征。
亥姆霍兹方程 (Helmholtz Equation): 亥姆霍兹方程是一个描述在齐次、各向同性介质中稳态波传播的偏微分方程。其一般形式为 $\Delta u + k^2 u = -f$ ，其中 $\Delta$ 是拉普拉斯算子， $u$ 是波场， $k$ 是波数， $f$ 是源项。在散射问题中， $k$ （或本文中的 $a(\pmb{x})$ ）通常与介质的性质（如折射率、声速）有关，其变化会引起波场的散射。由于波数 $k$ 可以在很大范围内变化，特别是在高频（大 $k$ ）情况下，解 $u$ 会表现出高度振荡的特性，这正是 FNO 面临光谱偏差挑战的典型场景。

3.2. 前人工作

论文提及并讨论了以下与算子学习和克服光谱偏差相关的前人工作：

算子学习模型：
- DeepOnet [11, 5]: 是一种通用的神经算子学习架构，基于通用逼近定理，通过将输入函数和离散采样点编码为深度神经网络的输入来学习算子。
- U-Net [14]: 是一种在图像分割领域广泛使用的卷积神经网络架构，其编解码器结构使其能够捕捉多尺度特征，虽然不是严格意义上的算子学习模型，但在处理函数映射时具有启发意义。
- Deep Green networks [6, 1]: 专注于学习格林函数（Green's Functions），通过深度学习方法来逼近格林函数以求解PDE。
- Fourier Neural Operator (FNO) [8]: 作为本文的基线和改进对象，FNO 通过在傅里叶空间中学习算子映射，对参数化偏微分方程表现出强大的能力。
克服光谱偏差的方法：
- MscaleDNN [10, 17]: 由 Cai, Xu 等人提出，通过使用不同尺度缩放的输入训练并行子网络来解决神经网络的光谱偏差，主要应用于直接求解 PDE 的函数逼近任务。本文的工作正是基于此思想扩展到算子学习。
- Phase shift DNN [4]: 另一种旨在提高深度神经网络在高频逼近和波动问题中性能的方法。
- Hierarchical attention neural operator [9]: 提出了一种分层注意力机制的神经算子，旨在解决多尺度算子学习中的光谱偏差问题。
- Diffusion model integrated with neural operators [12]: 将扩散模型与各种神经算子结合，以改善湍流流动的频谱表示能力，提升对高频成分的建模。

3.3. 技术演进

该领域的技术演进可以概括为以下几个阶段：

传统数值方法 (Traditional Numerical Methods for PDEs):
- 特点: 有限元方法 (FEM)、有限差分方法 (FDM) 等需要对每个新的参数配置进行重复离散化和计算。
- 局限性: 计算成本高昂，尤其是在需要大量参数扫描或实时推理的场景。
算子学习的兴起 (Emergence of Operator Learning):
- 代表: DeepONet [11, 5], FNO [8], Deep Green networks [6, 1]。
- 目标: 学习一个通用的算子，直接将输入函数空间映射到输出函数空间，从而实现对新参数配置的高效推理。
- 进展: FNO 通过在频域操作，展现了在处理参数化 PDE 方面的优越性。
识别并解决深度学习的光谱偏差 (Addressing Spectral Bias in Deep Learning):
- 问题: 深度神经网络（包括 FNO）普遍存在光谱偏差，即难以有效学习和捕捉高频信息。这在涉及高度振荡解的物理问题中成为瓶颈。
- 初期解决方案 (针对函数逼近): MscaleDNN [10, 17] 和 Phase shift DNN [4] 等方法被提出，主要用于直接学习 PDE 的解，而非算子。它们通过多尺度输入或特定网络结构来增强高频学习能力。
将光谱偏差解决方案应用于算子学习 (Extending Spectral Bias Solutions to Operator Learning):
- 需求: 鉴于算子学习的重要性及其在处理高频振荡函数时的挑战，亟需将克服光谱偏差的策略应用到算子学习模型中。
- 现有尝试: Hierarchical attention neural operator [9] 和结合扩散模型的神经算子 [12] 是这方面的探索。
- 本文工作 (MscaleFNO): 本文的工作处于这一技术演进的最新阶段。它将 MscaleDNN 的多尺度思想系统地应用于 FNO 这一强大的算子学习框架，不仅在空间维度上，还在输入函数本身进行多尺度缩放，从而有效解决了 FNO 在学习高度振荡函数空间映射时的光谱偏差问题。这代表了将函数逼近中的成功经验推广到更复杂的算子学习任务上的重要一步。

3.4. 差异化分析

本文提出的 MscaleFNO 与相关工作中的主要方法相比，其核心区别和创新点在于：

与 MscaleDNN 的区别：
- MscaleDNN [10, 17] 主要解决的是函数逼近问题，即学习一个函数 $f: \Omega \to \mathbb{R}$ 。它的目标是直接学习一个具有多尺度特征的函数。
- MscaleFNO 解决的是算子学习问题，即学习一个从函数空间到函数空间的映射 $G: \mathcal{A} \to \mathcal{U}$ 。它将 MscaleDNN 的多尺度思想扩展到了更复杂的算子层面，并且是针对 FNO 这种特定架构。这意味着 MscaleFNO 不仅要处理输出函数的高频内容，还要处理输入函数 a(x) 变化引起的高频响应。
与普通 FNO 的区别：
- 普通 FNO [8] 尽管在频域操作，但其单尺度的架构使其在学习高度振荡函数时容易受到光谱偏差的影响，难以有效地捕捉高频信息。
- MscaleFNO 通过引入并行的多尺度子网络，并对输入 a(x) 和空间变量 $x$ 进行多尺度缩放，主动将映射分解到不同的频率范围进行学习。这使得 MscaleFNO 能够显著增强对高频成分的捕获能力，从而克服了普通 FNO 的光谱偏差。
与其他解决算子学习光谱偏差方法的区别：
- Hierarchical attention neural operator [9] 通过引入注意力机制来处理多尺度问题，其机制与 MscaleFNO 的并行子网络和显式输入缩放不同。MscaleFNO 更直接地借鉴了 MscaleDNN 的频率分解思想。
- Diffusion model integrated with neural operators [12] 将扩散模型引入，这是一种生成模型，旨在改善频谱表示，但其与 MscaleFNO 基于并行网络和输入缩放的架构原理有本质不同。

总结来说，MscaleFNO 的核心创新在于：

首个系统性地将 MscaleDNN 的多尺度思想引入 FNO 算子学习框架。
在多尺度处理中，不仅对空间变量进行缩放，还对输入函数本身进行缩放。 这使得模型能够同时捕捉空间位置和输入函数值变化所导致的高频响应。
通过并行 FNO 子网络实现频率分解学习，每个子网络专注于特定尺度， 最终通过加权求和整合，有效克服了传统 FNO 在学习高度振荡函数空间映射时的光谱偏差。

4. 方法论

4.1. 方法原理

MscaleFNO 的核心原理是受 MscaleDNN（多尺度深度神经网络）的启发，旨在克服 FNO（傅里叶神经算子）在学习高度振荡函数之间映射时的光谱偏差。其直觉是，如果一个函数或算子的输出包含多种频率成分，那么与其让一个单一的网络尝试同时学习所有这些频率，不如将问题分解为多个子问题，每个子网络专注于学习特定频率范围内的信息。

具体来说，MscaleFNO 的方法原理基于以下几点：

频率分解 (Frequency Decomposition): 借鉴 MscaleDNN 的思想，假设一个复杂的、高频振荡的函数映射可以被分解为多个在不同频率范围内具有主导作用的子映射。
多尺度输入 (Multi-scale Inputs): 对于每个子网络，输入（包括空间坐标 $\pmb{x}$ 和输入函数 $a(\pmb{x})$ ）都经过特定的尺度缩放 $c_i$ 。根据频率原理，当输入被放大（即 $c_i$ 较大）时，网络更容易学习到原始函数中的高频成分；当输入被缩小（即 $c_i$ 较小）时，网络更容易学习到低频成分。通过提供一系列不同尺度缩放的输入，每个子网络自然地被引导去捕获不同的频率特征。
并行 FNO 子网络 (Parallel FNO Sub-networks): MscaleFNO 采用并行架构，每个分支是一个独立的普通 FNO 模型。每个 FNO 子网络负责处理其特定尺度下的输入，并生成一个相应的输出。
加权聚合 (Weighted Aggregation): 最终的输出是通过将所有并行子网络的输出进行加权求和得到的。这些权重 $\gamma_i$ 是可学习的参数，允许模型自适应地调整每个尺度对最终结果的贡献。

通过这种方式，MscaleFNO 能够有效地将学习复杂高频映射的任务分解为一系列更简单的子任务，每个子网络都能更高效地学习其负责的频率范围，从而显著减少了 FNO 的光谱偏差，提高了模型在高频问题上的精度和泛化能力。

4.2. 核心方法详解 (逐层深入)

4.2.1. 傅里叶神经算子 (FNO) 概述

傅里叶神经算子 (FNO) 是一种用于学习从一个函数空间到另一个函数空间映射的数据驱动模型。它区别于传统的数值方法，能够在不依赖于特定离散化的前提下，学习通用的物理算子。

问题定义： 假设我们有一个非线性映射 $G: \mathcal{A} \to \mathcal{U}$ ，它将输入函数 $a \in \mathcal{A}(D; \mathbb{R}^{d_a})$ 映射到输出函数 $u \in \mathcal{U}(D; \mathbb{R}^{d_u})$ ，即 $G(a) = u$ 。其中 $D \subset \mathbb{R}^d$ 是一个有界开集， $d_a$ 和 $d_u$ 分别是输入和输出函数的维度。给定 $N$ 个观测数据对 $\mathbb{S} = \{a_j, u_j\}_{j=1}^N$ ，目标是找到一个近似算子 $G_\theta$ （由参数 $\theta$ 参数化），使得 $G_\theta(a) \approx G(a)$ 。
优化目标： 通过最小化一个损失函数来找到最优参数 $\theta$ ： $\operatorname* { m i n } _ { \theta \in \mathbb { R } ^ { d _ { p } } } \frac { 1 } { | \mathbb { S } | } \sum _ { ( a , u ) \in \mathbb { S } } L \bigl ( G _ { \theta } ( a ) , u \bigr )$ 其中损失函数 $L$ 通常定义为相对 $L_2$ 损失： $L \big ( G _ { \theta } ( a ) , u \big ) : = \frac { \| G _ { \theta } ( a ) - u \| _ { L ^ { 2 } } } { \| u \| _ { L ^ { 2 } } }$ 在实际计算中，函数被离散化到 $n$ 个采样点 $D_n = \{ \pmb{x}_1, \cdots, \pmb{x}_n \}$ 上。因此，损失函数变为： $L \big ( G _ { \theta } ( a ) , u \big ) : = \frac { \sqrt { \sum _ { i = 1 } ^ { n } \left( G _ { \theta } ( a ) ( \pmb x _ { i } ) - u ( \pmb x _ { i } ) \right) ^ { 2 } } } { \sqrt { \sum _ { i = 1 } ^ { n } u ( \pmb x _ { i } ) ^ { 2 } } }$ 符号解释：
- $\theta$ : 模型的有限维参数。
- $|\mathbb{S}|$ : 训练数据集中样本的数量。
- $G_\theta(a)$ : 由参数 $\theta$ 定义的模型对输入 $a$ 的预测输出。
- $u$ : 真实输出。
- $\|\cdot\|_{L^2}$ : 函数的 $L_2$ 范数。
- $n$ : 离散采样点的总数。
- $\pmb{x}_i$ : 第 $i$ 个离散采样点。
神经算子框架： 神经算子框架是一个迭代架构，包含三个基本组件：
1. 提升算子 (Lifting Operator) $P$ : 将输入函数 $a(\pmb{x}) \in \mathbb{R}^{d_a}$ 提升到更高维度的特征空间 $v_0(\pmb{x}) \in \mathbb{R}^{d_v}$ 。
2. 迭代层 (Iterative Layers): 通过线性局部变换 $W_t$ 和积分算子 $\mathcal{K}$ 迭代更新特征表示 $v_t(\pmb{x})$ 。
3. 投影算子 (Projection Operator) $Q$ : 将最终的特征表示 $v_T(\pmb{x})$ 投影回所需的输出函数空间 $u(\pmb{x}) \in \mathbb{R}^{d_u}$ 。其数学表达为： $\begin{array} { r l } & { v _ { 0 } ( { \pmb x } ) = P ( a ) ( { \pmb x } ) , } \\ & { v _ { t } ( { \pmb x } ) = \sigma \Big ( W _ { t } v _ { t - 1 } ( { \pmb x } ) + \big ( K ( a ; \phi _ { t } ) v _ { t - 1 } \big ) ( { \pmb x } ) \Big ) , } \\ & { u ( { \pmb x } ) = Q ( v _ { T } ) ( { \pmb x } ) . } \end{array}$ 符号解释：
- $v_0(\pmb{x})$ : 初始特征表示。
- $v_t(\pmb{x})$ : 第 $t$ 步迭代的特征表示。
- $P$ : 线性提升算子，通常实现为全连接神经网络。
- $W_t$ : 线性局部变换。
- $\mathcal{K}(a; \phi_t)$ : 积分算子，其核函数 $k(\pmb{x}, \pmb{y}, a(\pmb{x}), a(\pmb{y}); \phi_t)$ 由参数 $\phi_t$ 参数化。
- $\sigma$ : 非线性激活函数。
- $Q$ : 投影算子，通常实现为神经网络。
- $T$ : 迭代的总步数。
FNO 的具体化： FNO 通过对积分算子的核函数施加平移不变性并去除对输入函数 $a$ 的依赖，简化了积分算子： $\big ( \mathcal { K } ( a ; \phi _ { t } ) v _ { t - 1 } \big ) ( \pmb { x } ) = \int _ { D } k _ { \phi _ { t } } ( \pmb { x } - \pmb { y } ) v _ { t - 1 } ( \pmb { y } ) d \pmb { y } .$ 根据卷积定理，上述卷积操作在傅里叶空间中可以简化为乘法： $\big ( \mathcal { K } ( a ; \phi _ { t } ) v _ { t - 1 } \big ) ( { \pmb x } ) = \mathcal { F } ^ { - 1 } \big ( R _ { t } \cdot \mathcal { F } ( v _ { t - 1 } ) \big ) ( { \pmb x } ) .$ 符号解释：
- $\mathcal{F}$ : 傅里叶变换算子。
- $\mathcal{F}^{-1}$ : 逆傅里叶变换算子。
- $R_t := \mathcal{F}(k_{\phi_t})$ : 核函数 $k_{\phi_t}$ 的傅里叶变换，表示为傅里叶系数张量。为了捕捉空间依赖性，FNO 将空间坐标 $\pmb{x}$ 和输入函数值 $a(\pmb{x})$ 作为初始提升算子 $P$ 的输入。因此，FNO 学习的映射可以表达为 $G[\mathrm{id}_D, a](\pmb{x}) = G[\pmb{x}, a(\pmb{x})](\pmb{x})$ 。 FNO 的完整架构表达为： $\begin{array} { r l } & { v _ { 0 } ( \pmb { x } ) = P \left( \pmb { x } , \boldsymbol { a } ( \pmb { x } ) \right) ( \pmb { x } ) , } \\ & { v _ { t } ( \pmb { x } ) = \sigma \Big ( W _ { t } v _ { t - 1 } ( \pmb { x } ) + \mathcal { F } ^ { - 1 } \big ( R _ { t } \cdot \mathcal { F } ( v _ { t - 1 } ) \big ) ( \pmb { x } ) \Big ) , } \\ & { u ( \pmb { x } ) = Q \left( v _ { T } \right) ( \pmb { x } ) . } \end{array}$ 其中 $P : \mathbb{R}^{d_a} \times \mathbb{R}^d \to \mathbb{R}^{d_v}$ 是一个扩展的线性提升算子。
- 截断机制： 在实际应用中，傅里叶谱会被截断，只保留 $k_{\max}$ 个最低频率模式，以提高计算效率。傅里叶系数张量 $R_t \in \mathbb{C}^{d_v \times d_v \times k_{\max}}$ 实现这一截断。
- MLP 后处理： 为了进一步增强模型的非线性能力，FNO 架构通常在傅里叶积分操作之后加入一个多层感知机 (MLP) $M : \mathbb{R}^{d_v} \to \mathbb{R}^{d_v}$ 。这样，迭代层 (12)(b) 被修改为： $v _ { t } ( \pmb { x } ) = \sigma \bigg ( W _ { t } v _ { t - 1 } ( \pmb { x } ) + M \Big ( \mathscr { F } ^ { - 1 } \big ( R _ { t } \cdot \mathscr { F } ( v _ { t - 1 } ) \big ) ( \pmb { x } ) \Big ) \bigg ) .$ MLP $M$ 通常由两层全连接网络构成，带有 GELU 激活函数。
FNO 的参数数量： 论文详细计算了标准 FNO 模型的参数数量。这里仅列出各层参数数量的总结公式，详细推导在原文中。
- 提升层 $P$ : $\mathrm{Num}_p = (d + d_a + 1)d_v$ .
- 线性变换 $W_t$ : $\mathrm{Num}_w = d_v^2 + d_v$ .
- 傅里叶积分操作 $R_t$ : $\mathrm{Num}_f = d_v \times d_v \times k_{\max}$ .
- 投影层 $Q$ : $\mathrm{Num}_q = 2d_v^2 + 2d_v \times d_u + 2d_v + d_u$ .
- MLP 层 $M$ : $\mathrm{Num}_m = 2d_v^2 + 2d_v$ . 对于包含 MLP 层的 FNO 架构，总参数量为： $\mathrm { N u m } = ( d + d _ { a } + 1 ) d _ { v } + T [ ( k _ { \operatorname* { m a x } } + 3 ) d _ { v } ^ { 2 } + 3 d _ { v } ] + [ 2 d _ { v } ^ { 2 } + ( 2 d _ { u } + 2 ) d _ { v } + d _ { u } ] .$ 符号解释：
- $d$ : 空间维度。
- $d_a$ : 输入函数 $a$ 的维度。
- $d_u$ : 输出函数 $u$ 的维度。
- $d_v$ : 通道维度（特征空间维度）。
- $k_{\max}$ : 保留的傅里叶模式数量。
- $T$ : 傅里叶层的数量。 Figure 1: The FNO architecture
  
  该图像是一个示意图，展示了多尺度傅里叶神经算子（MscaleFNO）的架构。图中包含输入 a(x) 和 $x$ ，经过处理模块 $P$ ，然后通过多个傅里叶层处理，最终生成输出 u(x)。该框架能够捕捉高频成分，适用于波散射问题。

4.2.2. MscaleDNN (多尺度深度神经网络)

MscaleDNN 是一种用于逼近具有丰富频谱内容的函数 $f: \Omega \to \mathbb{R}$ 的方法，它利用了深度神经网络的光谱偏差特性。

频率域分区： 首先，将目标函数 $f(\pmb{x})$ 的频率域分解为 $M$ 个不重叠的区域 $A_i$ ： $A _ { i } = \{ \pmb { k } \in \mathbb { R } ^ { d } , K _ { i - 1 } \leq | \pmb { k } | \leq K _ { i } \} , i = 1 , 2 , \cdots , M ,$ 其中 $0 = K_0 < K_1 < \cdot \cdot \cdot < K_M = k_{\max}$ 是频率区间的边界， $k_{\max}$ 是最高频率。因此，函数 $f$ 可以表示为具有不重叠频率信息的函数之和： $f ( \pmb { x } ) = \sum _ { i = 1 } ^ { M } f _ { i } ( \pmb { x } ) , \quad f _ { i } ( \pmb { x } ) = \int _ { A _ { i } } \hat { f } ( \pmb { k } ) e ^ { i \pmb { k } \cdot \pmb { x } } d \pmb { k } .$ 符号解释：
- $\pmb{k}$ : 频率向量。
- $\hat{f}(\pmb{k})$ : 函数 $f(\pmb{x})$ 的傅里叶变换。
- $A_i$ : 第 $i$ 个频率区间。
- $f_i(\pmb{x})$ : 在频率区间 $A_i$ 内的函数分量。
径向频率缩放： 对每个函数分量 $f_i$ 的傅里叶变换进行径向缩放： $\hat { f } _ { i } ^ { ( s c a l e ) } ( \pmb { k } ) = \hat { f } _ { i } ( \alpha _ { i } \pmb { k } ) ,$ 这等价于在物理空间中对函数进行缩放： $f_i(\pmb{x}) = \alpha_i^n f_i^{(\mathrm{scale})}(\alpha_i \pmb{x})$ 。如果缩放因子 $\alpha_i$ 足够大，那么缩放后的函数 $f_i^{(\mathrm{scale})}(\pmb{x})$ 可以被视为一个低频函数，其傅里叶变换的支撑集为： $\operatorname* { s u p p } \hat { f } _ { i } ^ { ( s c a l e ) } ( \pmb { k } ) \subset \Big \{ \pmb { k } \in \mathbb { R } ^ { d } , \frac { K _ { i - 1 } } { \alpha _ { i } } \leq | \pmb { k } | \leq \frac { K _ { i } } { \alpha _ { i } } \Big \} , \quad i = 1 , 2 , \cdots , M .$ 符号解释：
- $\alpha_i$ : 第 $i$ 个缩放因子。
- $\operatorname{supp} \hat{f}_i^{(\mathrm{scale})}(\pmb{k})$ : 缩放后傅里叶变换的支撑集。根据频率原理，低频函数可以被深度神经网络更快地学习。因此，每个 $f_i^{(\mathrm{scale})}(\pmb{x})$ 可以被一个由 $\theta_i$ 参数化的 DNN $f_{\theta_i}(\pmb{x})$ 快速学习，即 $f_i(\pmb{x}) \sim \alpha_i^n f_{\theta_i}(\alpha_i \pmb{x})$ 。
MscaleDNN 架构： 最终的 MscaleDNN 架构通过将多个带缩放输入的子网络输出求和来近似目标函数： $f ( \pmb { x } ) \sim \sum _ { i = 1 } ^ { M } \alpha _ { i } ^ { n } f _ { \theta _ { i } } ( \alpha _ { i } \pmb { x } ) .$ 其中，每个子网络 $f_{\theta_i}(\alpha_i \pmb{x})$ 接收缩放后的输入 $\alpha_i \pmb{x}$ 。较大的 $\alpha_i$ 值使得相应的子网络能够捕捉到目标函数的高频成分。

4.2.3. Multi-scale Fourier Neural Operator (MscaleFNO)

MscaleFNO 将 MscaleDNN 的多尺度思想扩展到算子学习，特别是针对 FNO 框架。它旨在同时解决空间坐标 $\pmb{x}$ 和输入函数 $a(\pmb{x})$ 引起的高频振荡。

MscaleFNO 架构： MscaleFNO 采用并行的架构，如图 2 所示。它由 $N$ 个并行分支组成，每个分支都是一个完整的 normal FNO 结构。这些分支处理的输入在尺度上是不同的。 Figure 2: The MscaleFNO architecture

该图像是MscaleFNO架构示意图，展示了多个并行的Fourier神经算子如何处理输入函数及其空间变量。不同的输入经过Fourier层后输出，并通过加法整合形成最终结果 u(x)。
数学表达式： MscaleFNO 模型的数学表达式如下： $u \left( \pmb { x } \right) = \sum _ { i = 1 } ^ { N } \gamma _ { i } \mathrm { F N O } _ { \theta _ { m } } \left[ c _ { i } \pmb { x } , c _ { i } a ( \pmb { x } ) \right] ( \pmb { x } ) .$ 符号解释：
- $u(\pmb{x})$ : 最终预测的输出函数。
- $N$ : 并行子网络的数量。
- $\gamma_i$ : 第 $i$ 个子网络的输出权重，是可学习参数。
- $\mathrm{FNO}_{\theta_m}[\cdot, \cdot](\pmb{x})$ : 第 $m$ 个（通常这里的 $m$ 应该指代每个子网络的独立参数，但原文用 $\theta_m$ 指代，可能意味着共享一部分参数或独立的参数集）FNO 子网络，其参数由 $\theta_m$ 决定。
- $c_i$ : 第 $i$ 个子网络的尺度缩放因子，是可学习参数。它同时作用于空间变量 $\pmb{x}$ 和输入函数 $a(\pmb{x})$ 。
- $c_i \pmb{x}$ : 缩放后的空间坐标。
- $c_i a(\pmb{x})$ : 缩放后的输入函数。
关键特性：
1. 并行处理： 多个 normal FNO 子网络并行运行，每个处理一个特定尺度下的输入。
2. 双重尺度缩放： 尺度因子 $c_i$ 同时应用于空间坐标 $\pmb{x}$ 和输入函数 $a(\pmb{x})$ 。这使得模型能够捕捉到由空间位置变化引起的高频振荡，以及由输入函数值本身变化引起的高频响应。
3. 可学习的缩放因子和权重： 缩放因子 $\{c_i\}_{i=1}^N$ 和组合权重 $\{\gamma_i\}_{i=1}^N$ 都是模型的可训练参数，允许模型在训练过程中自适应地调整多尺度分解和聚合。
4. 激活函数： 论文中指出，所有傅里叶层均采用 sine 激活函数 $\sigma(x) = \sin(x)$ 。
5. 参数数量： MscaleFNO 的总参数数量包括所有子网络的参数以及额外的 $N$ 个缩放参数 $\{c_i\}$ 和 $N$ 个组合权重 $\{\gamma_i\}$ 。 $\mathrm { N u m } ^ { ( m s c a l e ) } = N \times \mathrm { N u m } + 2 N ,$ 其中 Num 是单个 normal FNO 子网络的参数数量（见上文 FNO 参数数量部分）。

通过这种多尺度并行架构，MscaleFNO 使得每个子网络能够专注于捕获其对应尺度下的频率成分，从而实现对算子频谱的全面分解和更精确的学习，有效解决了 FNO 的光谱偏差问题。

4.2.4. 亥姆霍兹方程中的介质系数与解的映射

论文将 MscaleFNO 应用于亥姆霍兹方程中的波散射问题，学习介质的性质（散射体）与其解之间的非线性映射。

亥姆霍兹方程： 考虑以下亥姆霍兹方程，用于描述介质电导率 $a^2(\pmb{x})$ 下的散射场 $u$ （在入射波 $f(\pmb{x})$ 激发下）： $\Delta u + a ^ { 2 } ( { \pmb x } ) { \pmb u } = { \pmb f } ( { \pmb x } ) , \qquad { \pmb x } \in \Omega \subset \mathbb { R } ^ { d } ,$ 边界条件为： $u | _ { \partial \Omega } = g ( \pmb { x } ) , \quad \pmb { x } \in \partial \Omega ,$ 其中 $a(\pmb{x})$ 对应的散射体在 $\Omega$ 内部是紧支撑的。符号解释：
- $\Delta$ : 拉普拉斯算子。
- $u$ : 散射场（波场）。
- $a^2(\pmb{x})$ : 与介质电导率或波数平方相关的系数。
- $\pmb{f}(\pmb{x})$ : 外部波源引起的强迫项。
- $\Omega$ : 计算域。
- $\partial\Omega$ : 计算域的边界。
- $g(\pmb{x})$ : 边界条件函数。
格林函数形式： 对于齐次边界条件 $g(\pmb{x}) = 0$ ，亥姆霍兹方程的解可以通过格林函数 $G(\pmb{x}, \pmb{x}')$ 表示： $u ( { \pmb x } ) = \int _ { \Omega } G ( { \pmb x } , { \pmb x } ^ { \prime } ) f ( { \pmb x } ^ { \prime } ) d { \pmb x } ^ { \prime }$ 其中格林函数 $G(\pmb{x}, \pmb{x}')$ 由以下方程定义： $\Delta G ( { \pmb x } , { \pmb x } ^ { \prime } ) + a ^ { 2 } G ( { \pmb x } , { \pmb x } ^ { \prime } ) = - \delta ( { \pmb x } , { \pmb x } ^ { \prime } ) , \quad G ( { \pmb x } , { \pmb x } ^ { \prime } ) | _ { { \pmb x } \in \partial \Omega } = 0 .$ 格林函数 $G(\pmb{x}, \pmb{x}')$ 可以分解为自由空间格林函数 $G_0(\pmb{x}, \pmb{x}')$ 和一个光滑函数 $h(\pmb{x}, \pmb{x}')$ ： $G ( { \pmb x } , { \pmb x } ^ { \prime } ) = G _ { 0 } ( { \pmb x } , { \pmb x } ^ { \prime } ) + h ( { \pmb x } , { \pmb x } ^ { \prime } )$ 自由空间格林函数 $G_0$ 在不同维度下的形式包含了振荡项，例如：
- 1D: $G_0(x, x') = \frac{i}{2a} e^{ia|x-x'|}$
- 2D: $G_0(x, x') = \frac{i}{4} H_0^{(2)}(a|x-x'|)$
- 3D: $G_0(\pmb{x}, \pmb{x}') = \frac{e^{ia|\pmb{x}-\pmb{x}'|}}{4\pi|\pmb{x}-\pmb{x}'|}$ 这些振荡项的存在使得亥姆霍兹方程的解 $u$ 在高频情况下表现出高度振荡的特性，因此非常适合用 MscaleFNO 来学习从介质属性 $a(\pmb{x})$ 到解 $u(\pmb{x})$ 的映射。

5. 实验设置

5.1. 数据集

论文并未提供具体的数据集名称，而是描述了实验数据的生成方式，这是一种合成数据集。

通用设置：
- 生成方法： 通过精确的数学公式或数值求解 PDE 来生成输入函数 a(x)（或 $\omega(x)$ ）及其对应的输出函数 u(x)。
- 分辨率： 原始数据通常在较高分辨率网格上计算（例如，1001 点或 8001 点），然后下采样到较低分辨率（例如，1001 点）以平衡计算效率和精度。
- 数据集规模： 通常包含数千个样本用于训练、验证和测试。
1-D 函数映射问题（例如 4.1 和 4.2）：
- 问题类型： 学习非线性映射 $u(x) = \sin(ma(x))$ 或 $u(x) = \sum [A_m \sin(ma(x)) + B_m \cos(ma(x))]$ 。
- 空间域： $x \in [-1, 1]$ 。
- 输入函数 a(x) 的生成（例如 4.1）： $a ( x ) = \frac { \sum _ { n = 0 } ^ { 5 0 } a _ { n } \sin ( n \pi x ) } { \operatorname* { m a x } _ { x } \big \{ \sum _ { n = 0 } ^ { 5 0 } a _ { n } \sin ( n \pi x ) \big \} }$ 其中 $a_n \sim \mathrm{rand}(-1, 1)$ 。
- 输入函数 a(x) 的生成（例如 4.2）： $a ( x ) = \frac { \sum _ { n = 0 } ^ { 1 0 } [ a _ { n } \sin ( n \pi x ) + b _ { n } \cos ( n \pi x ) ] } { m a x _ { x } \{ \sum _ { n = 0 } ^ { 1 0 } [ a _ { n } \sin ( n \pi x ) + b _ { n } \cos ( n \pi x ) ] \} }$ 其中 $a_n, b_n \sim \mathrm{rand}(-1, 1)$ 。
- 数据集规模： 2,000 个样本，分为 1,000 个训练样本，500 个验证样本，500 个测试样本。 Figure 3 展示了示例输入函数 a(x) 及其 DFT。
  
  该图像是图表，展示了输入函数 a(x) 的概要和其离散傅里叶变换（DFT）。左侧为函数 a(x) 的图像，右侧为其 DFT，显示了不同模式的幅度。该图清晰地对比了输入函数及其频域特性。
亥姆霍兹方程映射问题（例如 4.3 - 4.5）：
- 问题类型： 学习从变量波数扰动 $\omega(x)$ 到散射场 u(x) 的映射。
- 空间域： $x \in [-L, L]$ ，其中 $L$ 可以在 $\{1, 2, 4, 8, 10\}$ 之间变化。
- 输入函数 $\omega(x)$ 的生成（例如 4.3）： $\omega ( x ) = \frac { \sum _ { n = 0 } ^ { 5 0 0 } [ a _ { n } \sin ( n \pi x ) + b _ { n } \cos ( n \pi x ) ] } { \operatorname* { m a x } _ { x } \left\{ \sum _ { n = 0 } ^ { 5 0 0 } [ a _ { n } \sin ( n \pi x ) + b _ { n } \cos ( n \pi x ) ] \right\} }$ 其中 $a_n, b_n \sim \mathrm{rand}(-1, 1)$ 。
- 输入函数 $\omega(x)$ 的生成（例如 4.4）： $\omega ( x ) = \frac { \sum _ { n = 0 } ^ { 5 0 } [ a _ { n } \sin ( n \pi x ) + b _ { n } \cos ( n \pi x ) ] } { \operatorname* { m a x } _ { x } \left\{ \sum _ { n = 0 } ^ { 5 0 } [ a _ { n } \sin ( n \pi x ) + b _ { n } \cos ( n \pi x ) ] \right\} }$ 其中 $a_n, b_n \sim \mathrm{rand}(-1, 1)$ 。
- 泛化能力测试的 $\omega(x)$ 生成（例如 4.5）： $\eta ( x ) = \sum _ { n = 1 } ^ { 5 0 } a _ { n } \sin ( k _ { n } x ^ { 3 } ) + b _ { n } \cos ( l _ { n } x ^ { 2 } ) , \omega ( x ) = { \frac { \eta ( x ) } { \operatorname* { m a x } _ { x } \left\{ \eta ( x ) \right\} } } ,$ 其中 $k_n \sim \mathrm{rand}(0, 30)$ , $l_n \sim \mathrm{rand}(40, 60)$ 。
- 数据集规模： 1,000 个样本，分为 800 个训练样本，100 个验证样本，100 个测试样本。 Figure 12 展示了示例输入函数 $\omega(x)$ 及其 DFT。
  
  $Figure 12: The profile of the input function $\\omega ( x )$ (left) and the DFT of $\\omega ( x )$ (right)$ 该图像是图表，展示了输入函数 $ω(x)$ 的轮廓（左）以及 $ω(x)$ 的离散傅里叶变换（DFT）（右）。左侧图显示了函数值在区间 $[-1, 1]$ 内的变化，右侧图则展示了各频率模式的幅度。
Figure 13 展示了其对应的精确解 u(x) 及其 DFT。

$Figure 13: The profile of the exact solution `u ( x )` from $\\omega ( x )$ in Fig. 12 (left) and the DFT of `u ( x )` (right)$ 该图像是图表，包含了精确解 u(x) 的曲线（左）和其离散傅立叶变换（DFT，右）。左侧展示了解的值与变量 $x$ 的关系，而右侧表示对应模态的幅度。图中揭示了高频成分的特征。
为什么选择这些数据集进行实验？ 这些合成数据集的设计旨在模拟物理系统中高度振荡的函数和解。通过调整参数（如 $m$ 或 $L$ ），可以系统地控制问题中的频率复杂性，从而直接测试模型在捕获高频成分方面的能力。特别是亥姆霍兹方程，其解在高频情况下自然呈现高度振荡，是验证克服光谱偏差方法有效性的理想测试平台。泛化测试则进一步验证了模型处理未见分布数据的能力。

5.2. 评估指标

论文主要使用相对 $L_2$ 损失 (Relative $L_2$ Loss) 作为评估指标。

概念定义 (Conceptual Definition): 相对 $L_2$ 损失用于衡量模型预测输出函数与真实输出函数之间差异的相对大小。它量化了预测值偏离真实值的欧几里得距离，并将其与真实值的欧几里得距离进行归一化。这个指标能够直观地反映模型预测的整体精度，尤其是在输出函数数值大小差异较大的情况下，相对误差比绝对误差更能公平地评估模型的性能。较低的相对 $L_2$ 损失值表示模型预测的函数与真实函数之间更接近，即模型精度更高。
数学公式 (Mathematical Formula): 在离散化的计算域中，相对 $L_2$ 损失的计算公式如下： $L \big ( G _ { \theta } ( a ) , u \big ) : = \frac { \sqrt { \sum _ { i = 1 } ^ { n } \left( G _ { \theta } ( a ) ( \pmb x _ { i } ) - u ( \pmb x _ { i } ) \right) ^ { 2 } } } { \sqrt { \sum _ { i = 1 } ^ { n } u ( \pmb x _ { i } ) ^ { 2 } } }$
符号解释 (Symbol Explanation):
- $L(G_\theta(a), u)$ : 模型预测 $G_\theta(a)$ 与真实值 $u$ 之间的相对 $L_2$ 损失。
- $G_\theta(a)$ : 由参数 $\theta$ 定义的神经算子模型对输入函数 $a$ 的预测输出函数。
- $u$ : 真实的输出函数。
- $n$ : 函数离散化后的总采样点数量。
- $\pmb{x}_i$ : 计算域中的第 $i$ 个离散采样点。
- $G_\theta(a)(\pmb{x}_i)$ : 模型预测函数 $G_\theta(a)$ 在采样点 $\pmb{x}_i$ 处的值。
- $u(\pmb{x}_i)$ : 真实函数 $u$ 在采样点 $\pmb{x}_i$ 处的值。
- $\sqrt{\sum_{i=1}^n (\cdot)^2}$ : 表示在离散采样点上计算的 $L_2$ 范数（欧几里得距离）。
- 分子：预测值与真实值之差的 $L_2$ 范数，代表绝对误差。
- 分母：真实值的 $L_2$ 范数，用于将绝对误差归一化，得到相对误差。

5.3. 对比基线

论文将 MscaleFNO 的性能与 普通傅里叶神经算子 (normal FNO) 进行了比较。

对比基线模型：
- 普通 FNO (normal FNO): 这是 Li 等人 [8] 提出的标准 Fourier Neural Operator 模型。它不包含本文提出的多尺度并行架构，而是以单一的 FNO 结构进行训练。
为什么选择普通 FNO 作为基线？
1. 直接相关性： MscaleFNO 是在 normal FNO 的基础上进行改进的，通过引入多尺度机制来解决 normal FNO 的光谱偏差问题。因此，normal FNO 是最直接、最合理的基线，能够清晰地展示 MscaleFNO 改进的有效性。
2. 相似的架构基础： 两者都基于傅里叶变换在频域学习算子，这使得比较更具针对性，能够突出多尺度组件带来的优势，而非其他架构变化。
3. 公平的参数比较： 论文特别强调，MscaleFNO 和 normal FNO 在进行比较时，会确保两者具有相似数量的网络参数。这保证了性能的提升不是简单地因为模型更大或更复杂，而是源于 MscaleFNO 架构设计上的创新。

6. 实验结果与分析

本节详细分析了 MscaleFNO 和 normal FNO 在不同场景下的数值实验结果，主要关注它们在处理高频振荡函数映射时的性能差异。

6.1. 核心结果分析

6.1.1. 学习非线性映射 $u = \sin(ma(x))$ (示例 4.1)

此示例旨在展示 MscaleFNO 捕捉输入函数 a(x) 相关的高频成分的能力。映射函数为 $u(x) = \sin(20a(x))$ ，其中 a(x) 是由 50 个正弦项叠加并归一化得到的复杂函数。

误差曲线分析 (Figure 4): Figure 4: Error curves of different models during the training process

该图像是图表，展示了不同模型在训练过程中的相对误差曲线。红色曲线表示MscaleFNO的表现，而蓝色曲线表示普通FNO。可以看到，随着训练轮次的增加，MscaleFNO的相对误差显著降低，表明其在高频问题上的优势。
- MscaleFNO: 相对测试误差在约 100 个 epochs 后迅速收敛到 $O(10^{-4})$ 的精度。
- Normal FNO: 相对测试误差始终保持在 $O(1)$ 的水平，未能有效学习该映射。
- 结论: MscaleFNO 在这个单频（高频）映射任务上表现出显著的优越性，而 normal FNO 完全失效。
预测解的对比 (Figure 5): Figure 5: Predicted solution by the normal FNO (left) and MscaleFNO (right) with zoomed-in inset for $x \in [ - 0 . 1 8 , - 0 . 1 2 ]$

$Figure 5: Predicted solution by the normal FNO (left) and MscaleFNO (right) with zoomed-in inset for $x \\in \[ - 0 . 1 8 , - 0 . 1 2 \]$$ 该图像是图表，展示了正常 FNO（左）与 MscaleFNO（右）在预测解的对比。图中包含了 x ext{ 的范围为 } [-0.18, -0.12] 的放大插图，能够更清晰地看出两者在捕捉高频成分方面的差异。
- Normal FNO (左图): 预测的解是一个平滑的近似，无法捕捉真实解中的高频振荡。
- MscaleFNO (右图): 准确地再现了真实解的精细波形，包括高频振荡。放大区域的插图清晰地显示了 MscaleFNO 捕获细节的能力。
- 结论: MscaleFNO 在物理空间中能够精确还原高频振荡的函数结构。
DFT 分析 (Figure 6): Figure 6: DFT of predicted solution by normal FNO (left) and MscaleFNO (right) with zoomed-in inset for modes $\in [ 0 , 2 0 ]$

$Figure 6: DFT of predicted solution by normal FNO (left) and MscaleFNO (right) with zoomed-in inset for modes $\\in \[ 0 , 2 0 \]$$ 该图像是图表，展示了正常 FNO（左侧）与 MscaleFNO（右侧）预测解的 DFT。横坐标为模态，纵坐标为幅度，包含了 0 到 20 的放大插图。正常 FNO 的预测结果与精确解相比存在明显偏差，而 MscaleFNO 在高频模态下的表现更加优越。
- Normal FNO (左图): 预测解的离散傅里叶变换 (DFT) 在高频区域显示出明显的衰减，未能保留真实解的高频成分。
- MscaleFNO (右图): 预测解的 DFT 与真实解的频谱非常接近，在高频区域也保持了较高的幅值。
- 结论: 从频域分析看，MscaleFNO 成功地匹配了真实解的高频成分，验证了其在高频学习方面的强大能力。

6.1.2. 学习多频非线性映射 $u = \sum [A_m \sin(ma(x)) + B_m \cos(ma(x))]$ (示例 4.2)

此示例通过增加 $M$ （频率项的数量）来测试模型在更复杂、多频振荡映射下的性能。

不同 $M$ 值下的精确解 DFT (Figure 8): Figure 8: DFT of representative exact solution u ( x ) for different $M$

$Figure 8: DFT of representative exact solution `u ( x )` for different $M$$ 该图像是图表，展示了不同 $M$ 值下代表性精确解 u(x) 的离散傅里叶变换（DFT）。图中分别显示了 $M=10$ , 20, 40, 80, 100, 和 200 的模态与幅度的关系，反映出随着 $M$ 的增加，高频成分的表现变化。
- 随着 $M$ 从 10 增加到 200，精确解的频谱从集中在低频区域逐渐扩展到更高频率。这表明解的复杂性和振荡性随 $M$ 增加而显著提升。
不同 $M$ 值下的误差曲线 (Figure 9): Figure 9: Error curves of different models during the training process under different values of $M$ (Epoch $- 9 0 0$ )

$Figure 9: Error curves of different models during the training process under different values of $M$ (Epoch $- 9 0 0$ )$ 该图像是图表，展示了不同模型在训练过程中相对误差的变化，横轴为训练轮次（epoch），纵轴为相对误差，分为六个子图，分别对应不同的 $M$ 值（10, 20, 40, 80, 100, 200）。通过比较，MscaleFNO（橙色曲线）显示出相较于普通FNO（蓝色曲线）有更低的相对误差。
- Normal FNO (蓝色曲线): 随着 $M$ 的增加，其相对测试误差显著增加。当 $M=200$ 时，误差高达 0.2。这表明 normal FNO 难以应对高频散射问题。
- MscaleFNO (橙色曲线): 持续优于 normal FNO，并且在所有 $M$ 值下，误差都能保持在 $10^{-2}$ 的水平，展现了其在多频高振荡问题上的鲁棒性。
- 结论: MscaleFNO 能够稳定地学习不同复杂度的多频振荡映射，而 normal FNO 的性能在高频区域急剧下降。
$M=200$ 时的预测解 (Figure 10): Figure 10: $M ~ = ~ 2 0 0$ : Predicted solution by the normal FNO (left) and MscaleFNO (right) with zoomed-in inset for $x \in [ - 0 . 1 8 , - 0 . 1 2 ]$

$Figure 10: $M ~ = ~ 2 0 0$ : Predicted solution by normal FNO (left) and MscaleFNO (right) with zoomed-in inset for $x \\in \[ - 0 . 1 8 , - 0 . 1 2 \]$$ 该图像是图表，展示了正常FNO（左）与MscaleFNO（右）在 $M = 200$ 条件下的预测解。图中包含了精确解和各自方法的结果，并在 $x ext{ \text{》} } [-0.18, -0.12]$ 区域进行了放大。
- Normal FNO (左图): 无法捕捉 $M=200$ 时的高度振荡模式，预测结果是高度平滑且不准确的。
- MscaleFNO (右图): 即使在 $M=200$ 这种极端高频情况下，也能精确捕捉解的精细振荡模式。
MscaleFNO 子网络的频谱贡献 (Figure 11): Figure 11: $M = 2 0 0$ : Spectral contributions of MscaleFNO subnetworks corresponding to differet initial scales

$Figure 11: $M = 2 0 0$ : Spectral contributions of MscaleFNO subnetworks corresponding to differet initial scales$ 该图像是图表，展示了不同初始尺度下MscaleFNO子网络的谱贡献。图中包括六个子图，分别标记为(a)到(f)，展示了在不同尺度下（如 $Scale = 1, 80, 100, 120, 180, 200$ ）的模式（modes）对应的幅度（Amplitude）。每个子图显示了模式数与对应幅度的关系，揭示了多尺度输入对高频成分的捕获能力。
- 此图展示了 MscaleFNO 中不同子网络的输出（ $\gamma_i \mathrm{FNO}_{\theta_m}[c_i x, c_i a(x)]$ ）的频谱（DFT）。
- 低尺度子网络 (e.g., Scale=1): 幅度集中在低频模式。
- 高尺度子网络 (e.g., Scale=200): 具有更广泛的频率分布，特别是能够捕捉到高频模式。
- 结论: 这证实了 MscaleFNO 的设计原理：每个子网络在频谱上扮演互补的角色，共同实现对目标函数完整频谱的分解和学习。

6.1.3. 亥姆霍兹方程的散射问题 (示例 4.3)

此示例将 MscaleFNO 应用于 1-D 亥姆霍兹方程，学习从波数扰动 $\omega(x)$ 到解 u(x) 的映射。

误差曲线分析 (Figure 14): Figure 14: Error curves of different models during the training process

该图像是图表，展示了不同模型在训练过程中的相对误差曲线。蓝色线条表示正常FNO，棕色线条表示MscaleFNO，数值结果显示MscaleFNO在高频误差处理上有明显优于正常FNO的表现。
- Normal FNO: 收敛到 $O(10^{-2})$ 的相对误差。
- MscaleFNO: 在训练过程中持续减少误差，最终达到 $O(10^{-3})$ 的相对误差。
- 结论: MscaleFNO 在实际的亥姆霍兹方程求解任务中，相对于 normal FNO 实现了量级上的精度提升。

6.1.4. 不同域长度 $L$ 下的亥姆霍兹方程 (示例 4.4)

此示例通过改变域长度 $L$ 来模拟更高频的散射问题，测试模型在不同高频场景下的鲁棒性。

特征解的复杂性 (Figure 15): Figure 15: Characteristic solutions of the Helmholtz equation in spatial space for different domain lengths $L$

$Figure 15: Characteristic solutions of the Helmholtz equation in spatial space for different domain lengths $L$$ 该图像是图表，展示了不同域长度 $L$ （分别为 2, 4, 8, 和 10）下的亥姆霍兹方程的特征解的空间分布。每个子图表示在不同的 $L$ 值下，函数在空间 $x$ 上的取值变化。
- 随着 $L$ 从 2 增加到 10，亥姆霍兹方程的解在空间域中呈现出越来越复杂的波模式，振荡频率更高，这代表了更具挑战性的高频问题。
不同 $L$ 值下的误差曲线 (Figure 16): Figure 16: Error curves under different values of $L$ (Epoch=100)

$Figure 16: Error curves under different values of $L$ (Epoch=100)$ 该图像是图表，展示了不同 $L$ 值下的相对误差曲线（Epoch=100）。曲线显示了正常 FNO 与 MscaleFNO 在不同训练轮次下的误差变化，让人对其在高频范围内的表现进行比较。
- Normal FNO (蓝色曲线): 随着 $L$ 的增加，其性能显著恶化。当 $L=10$ 时，相对测试误差达到约 0.7，表明其在高频区域几乎失效。
- MscaleFNO (橙色曲线): 在所有 $L$ 值下都表现出稳健的性能，始终优于 normal FNO，并且误差精度保持在 $10^{-2}$ 以下。
- 结论: MscaleFNO 在面对不同高频区域的散射问题时，展现出卓越的鲁棒性和一致的优越性。
$L=10$ 时的预测解 (Figure 17): Figure 17: $L = 1 0$ : Predicted solution by normal FNO (left) and MscaleFNO (right) with zoomed-in inset for $x \in [ - 0 . 2 , 0 . 2 ]$

$Figure 17: $L = 1 0$ : Predicted solution by normal FNO (left) and MscaleFNO (right) with zoomed-in inset for $x \\in \[ - 0 . 2 , 0 . 2 \]$$ 该图像是图表，展示了正常 FNO 和 MscaleFNO 的预测解。左侧为正常 FNO 的绘图，右侧为 MscaleFNO，二者均显示了精确解和对应方法的比较，包含一个放大插图，范围为 $x ext{ in } [-0.2, 0.2]$ 。
- Normal FNO (左图): 能够捕捉一般的波形模式，但在高频细节上明显失败。
- MscaleFNO (右图): 准确地再现了包含高频振荡的完整解结构。
$L=10$ 时的 DFT 分析 (Figure 18): Figure 18: $L = 1 0$ : DFT of predicted solution by normal FNO (left) and MscaleFNO (right) with zoomed-in inset for modes $\in [ 1 0 0 0 , 1 1 0 0 ]$

$Figure 18: $L = 1 0$ : DFT of predicted solution by normal FNO (left) and MscaleFNO (right) with zoomed-in inset for modes $\\in \[ 1 0 0 0 , 1 1 0 0 \]$$ 该图像是图表，展示了正常FNO和MscaleFNO在预测解的离散傅里叶变换（DFT）中的结果。左侧为正常FNO，右侧为MscaleFNO，图中标出了各模式的幅度，并显示在模式 $L = 1 0$ 的放大细节。
- Normal FNO (左图): 保留了低频成分，但在高频区域（如模式 1000-1100 的放大插图）出现显著失真。
- MscaleFNO (右图): 准确地重建了整个频谱，包括高频模式，与真实解高度吻合。
- 结论: MscaleFNO 在频域上全面且准确地捕捉了所有频率成分。

6.1.5. 泛化能力测试 (示例 4.5)

此示例测试了模型在 $L=10$ 时，对来自训练数据分布之外的、未见过的复杂扰动函数 $\omega(x)$ 的泛化能力。

Normal FNO 的预测 (Figure 19): Figure 19: $L = 1 0$ : (a) Predicted solution of normal FNO against exact solution with zoomed-in inset for $x \in [ - 0 . 2 , 0 . 2 ]$ and (b) The DFT of u ( x ) with zoomed-in inset for modes $\in [ 1 0 0 0 , 1 1 0 0 ]$

$Figure 19: $L = 1 0$ : (a) Predicted solution of normal FNO against exact solution with zoomed-in inset for $x \\in \[ - 0 . 2 , 0 . 2 \]$ and (b) The DFT of `u ( x )` with zoomed-in inset for modes $\\in \[ 1 0 0 0 , 1 1 0 0 \]$$ 该图像是一个图表，展示了常规傅里叶神经算子的预测解与精确解的比较，左侧 (a) 显示的是 u(x) 的值，横轴为 $x$ ，纵轴为值，包含放大的插图；右侧 (b) 显示 u(x) 的离散傅里叶变换 (DFT)，横轴为模态，纵轴为幅度，也带有放大的插图。图中包含精确解与常规 FNO 解的对比曲线。
- 结论: normal FNO 在未见过的测试函数上表现失败，在解的幅度和振荡模式上都存在显著的预测误差。其 DFT 也显示出高频模式的严重失真。
MscaleFNO 的预测 (Figure 20): Figure 20: $L = 1 0$ : (a) Predicted solution of MscaleFNO against exact solution with zoomed-in inset for $x \in [ - 0 . 2 , 0 . 2 ]$ and (b) The DFT of u ( x ) with zoomed-in inset for modes $\in [ 1 0 0 0 , 1 1 0 0 ]$

$Figure 20: $L = 1 0$ : (a) Predicted solution of MscaleFNO against exact solution with zoomed-in inset for $x \\in \[ - 0 . 2 , 0 . 2 \]$ and (b) The DFT of `u ( x )` with zoomed-in inset for modes $\\in \[ 1 0 0 0 , 1 1 0 0 \]$$ 该图像是图表，展示了MscaleFNO的预测解与精确解的对比。图(a)显示了u(x)的预测值，其中包含 $[-0.2, 0.2]$ 范围的缩放插图；图(b)展示了u(x)的离散傅里叶变换（DFT），并包含了模式范围[1000, 1100]的缩放插图。两部分均对比了精确解和MscaleFNO的结果。
- 结论: MscaleFNO 展现出强大的鲁棒预测能力。即使测试函数的形式与训练期间不同，模型仍能准确捕捉整个区域内的高频振荡，并在傅里叶频谱中精确预测低频和高频模式。这表明 MscaleFNO 具有出色的泛化能力。

6.2. 数据呈现 (表格)

原文中未提供表格数据，所有实验结果均通过图像（误差曲线、预测解对比图、DFT频谱图）进行展示。

6.3. 消融实验/参数分析

论文中没有进行明确标记的消融实验（如移除某个组件来验证其有效性）。然而，通过对比 MscaleFNO 和 normal FNO 的性能，以及分析 MscaleFNO 子网络的频谱贡献（Figure 11），可以间接视为对 MscaleFNO 多尺度架构有效性的验证。

多尺度架构的有效性：
- Figure 11 详细展示了 MscaleFNO 中不同子网络在 $M=200$ 案例下的频谱贡献。结果显示，具有较小缩放因子 $c_i$ 的子网络倾向于捕捉低频成分，而具有较大 $c_i$ 的子网络则专注于高频成分。这种系统性的频率分解模式证明了 MscaleFNO 的并行多尺度架构确实能够协同工作，共同覆盖并学习整个频率范围，从而提高了对高频振荡的捕捉能力。
- 这间接表明，MscaleFNO 的每个组件（即每个带有特定缩放因子的 FNO 子网络）都为最终的准确预测做出了独特的贡献，共同克服了光谱偏差。
参数量对比： 论文多次强调，在进行比较时，MscaleFNO 和 normal FNO 的参数数量是相似的，甚至 MscaleFNO 的参数量略小。
- 1-D 函数逼近问题：MscaleFNO (1,035,544 参数) vs normal FNO (1,164,001 参数)。
- 亥姆霍兹方程问题：MscaleFNO (4,127,128 参数) vs normal FNO (4,641,169 参数)。这表明 MscaleFNO 的性能提升不是通过增加模型容量实现的，而是通过更有效的架构设计来解决光谱偏差问题。

7. 总结与思考

7.1. 结论总结

本文成功提出了 MscaleFNO (Multi-scale Fourier Neural Operator)，一种旨在克服傅里叶神经算子 (FNO) 在学习高度振荡函数之间映射时光谱偏差的新模型。MscaleFNO 借鉴了 MscaleDNN 的多尺度思想，通过构建一系列并行的 normal FNO 子网络，并对每个子网络的输入（包括空间变量和输入函数）进行不同尺度的缩放。数值实验结果有力地证明了 MscaleFNO 的优越性：

显著的精度提升： 在多个涉及高度振荡函数映射（如 $\sin(ma(x))$ 和亥姆霍兹方程的解）的问题中，MscaleFNO 相对于参数量相似的 normal FNO 实现了显著的精度提升，相对误差降低了一个数量级甚至更多。
有效捕获高频成分： MscaleFNO 能够精确地捕捉真实解中的精细波模式和高频振荡，这在物理空间和傅里叶频谱分析中都得到了验证。通过分析 MscaleFNO 子网络的频谱贡献，证实了不同尺度的子网络确实专注于学习不同频率范围的信息。
强大的泛化能力： 在对亥姆霍兹方程的泛化能力测试中，MscaleFNO 即使面对训练数据分布之外的复杂测试样本，依然保持了鲁棒的预测能力，而 normal FNO 则完全失效。这些结果表明，MscaleFNO 提供了一个有效且高效的解决方案，用于学习涉及高频振荡的物理系统算子映射，尤其在波散射等领域具有重要应用潜力。

7.2. 局限性与未来工作

作者指出的局限性与未来工作： 作者在结论中明确指出，未来的工作将包括将 MscaleFNO 应用于：
1. 更高维度的亥姆霍兹方程： 本文所有实验均在 1D 空间中进行。将方法扩展到 2D 或 3D 空间，将面临更高的计算复杂度和更大的挑战，例如如何有效地处理高维傅里叶变换和多尺度缩放。
2. 高频波散射中的逆介质问题 (inverse medium problems)： 这类问题通常比正问题更具挑战性，需要从观测到的散射场推断介质的性质。这要求模型不仅能准确预测正向映射，还要具备良好的可逆性和对噪声的鲁棒性。

7.3. 个人启发与批判

个人启发：
1. 多尺度策略的普适性： 这篇论文进一步强调了多尺度方法在解决深度学习光谱偏差方面的强大和普适性。它不仅适用于传统的函数逼近，也可以有效地扩展到更复杂的算子学习任务。
2. 双重缩放的巧妙： MscaleFNO 不仅对空间坐标 $\pmb{x}$ 进行了缩放，还对输入函数 $a(\pmb{x})$ 进行了缩放，这是其区别于传统 MscaleDNN 的一个关键创新点。这使得模型能够同时捕捉由空间位置变化引起的高频振荡，以及由输入函数值本身变化引起的高频响应，这对于物理建模中输入条件本身就高度振荡的情况非常有效。
3. 傅里叶算子的自然契合： FNO 本身在频域操作，与多尺度方法通过频率分解来克服光谱偏差的思想天然契合，使得 MscaleFNO 能够高效地在频谱层面进行信息处理。
4. 实际应用潜力： 该方法在波散射等需要精确处理高频现象的领域展现出巨大潜力，为科学计算和工程领域的复杂系统建模提供了新的工具。
个人批判：
1. 尺度参数 $c_i$ 的选择： 论文中对 MscaleFNO 初始尺度参数 $\{c_i\}$ 的选择似乎是启发式的（例如 $\{1, 10, 20, \dots\}$ 或 $\{1, 4, 8, \dots\}$ ）。这种选择是否具有理论依据？是否存在一个最优的 $c_i$ 集合？或者，这些 $c_i$ 是否应该在训练过程中完全自适应地学习，而不仅仅是作为可训练参数从小范围初始化？对于初学者来说，如何选择这些初始尺度可能是一个挑战。
2. 并行子网络的计算成本： 虽然论文强调了 MscaleFNO 与 normal FNO 具有相似的参数数量，但这并不意味着计算成本也相似。由于 MscaleFNO 包含 $N$ 个并行子网络，其推理时间可能是单个 normal FNO 的 $N$ 倍（如果并行化不充分或硬件限制）。在实际部署时，这可能是一个需要权衡的问题。
3. 激活函数的选择： 论文提及在所有傅里叶层中使用 sine 激活函数。虽然 sine 激活函数在高频学习方面可能具有优势（如在 SIREN 网络中），但其选择背后的具体理论或实验依据在文中并未深入探讨。是否存在其他激活函数也能达到类似效果，或者 sine 函数在此特定架构中具有不可替代的优势？
4. 更高维度的挑战： 虽然论文展望了未来向更高维度（2D/3D）亥姆霍兹方程的扩展，但高维傅里叶变换的计算成本和内存需求会急剧增加。MscaleFNO 架构在高维情况下的效率和可扩展性将是关键挑战。
5. 损失函数的权重 $\gamma_i$ 的行为： 可学习的权重 $\gamma_i$ 如何在训练过程中演变？它们是否会自然地分配权重给那些成功捕捉到相应频率信息的子网络？可视化这些权重的演变可能会提供更深入的洞察。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

MscaleFNO: Multi-scale Fourier Neural Operator Learning for Oscillatory Function Spaces

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 38 分钟读完 · 22,297 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解 (逐层深入)

4.2.1. 傅里叶神经算子 (FNO) 概述

4.2.2. MscaleDNN (多尺度深度神经网络)

4.2.3. Multi-scale Fourier Neural Operator (MscaleFNO)

4.2.4. 亥姆霍兹方程中的介质系数与解的映射

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.3. 对比基线

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 学习非线性映射 u=sin⁡(ma(x))u = \sin(ma(x))u=sin(ma(x)) (示例 4.1)

6.1.2. 学习多频非线性映射 u=∑[Amsin⁡(ma(x))+Bmcos⁡(ma(x))]u = \sum [A_m \sin(ma(x)) + B_m \cos(ma(x))]u=∑[Am​sin(ma(x))+Bm​cos(ma(x))] (示例 4.2)

6.1.3. 亥姆霍兹方程的散射问题 (示例 4.3)

6.1.4. 不同域长度 LLL 下的亥姆霍兹方程 (示例 4.4)

6.1.5. 泛化能力测试 (示例 4.5)

6.2. 数据呈现 (表格)

6.3. 消融实验/参数分析

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐

6.1.1. 学习非线性映射 $u = \sin(ma(x))$ (示例 4.1)

6.1.2. 学习多频非线性映射 $u = \sum [A_m \sin(ma(x)) + B_m \cos(ma(x))]$ (示例 4.2)

6.1.4. 不同域长度 $L$ 下的亥姆霍兹方程 (示例 4.4)