论文状态：已完成

HT-Net: Hierarchical Transformer Based Operator Learning Model for Multiscale PDEs

自注意力机制 (2)多尺度偏微分方程模型 (1)层次变压器架构 (1)高效求解器学习 (1)谱偏差缓解方法 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种分层Transformer架构HT-Net，有效解决多尺度偏微分方程的解算子学习问题。其通过自适应的交互范围和层次化自注意力机制，优化特征计算，并采用经验$H^1$损失函数缓解谱偏差。在实验中，HT-Net显著优于现有最先进的方法。

摘要

Complex nonlinear interplays of multiple scales give rise to many interesting physical phenomena and pose significant difficulties for the computer simulation of multiscale PDE models in areas such as reservoir simulation, high-frequency scattering, and turbulence modeling. In this paper, we introduce a hierarchical transformer (HT) scheme to efficiently learn the solution operator for multiscale PDEs. We construct a hierarchical architecture with a scale-adaptive interaction range, such that the features can be computed in a nested manner and with a controllable linear cost. Self-attentions over a hierarchy of levels can be used to encode and decode the multiscale solution space across all scales. In addition, we adopt an empirical H1 loss function to counteract the spectral bias of the neural network approximation for multiscale functions. In the numerical experiments, we demonstrate the superior performance of the HT scheme compared with state-of-the-art (SOTA) methods for representative multiscale problems.

思维导图

论文精读

中文精读约 39 分钟读完 · 26,327 字

1. 论文基本信息

1.1. 标题

HT-Net: Hierarchical Transformer Based Operator Learning Model for Multiscale PDEs

1.2. 作者

匿名作者 (Anonymous authors)，论文处于双盲评审阶段 (Paper under double-blind review)。

1.3. 发表期刊/会议

根据论文的上下文和提供的 GitHub 链接 (VFMM-ICLR2023)，推断该论文是提交给 ICLR 2023 会议的稿件，当时处于审稿阶段。

1.4. 发表年份

2023年 (根据 ICLR 2023 推断)。

1.5. 摘要

多尺度偏微分方程 (Multiscale PDEs) 中复杂的非线性多尺度相互作用，导致许多有趣的物理现象，但也给诸如油藏模拟 (reservoir simulation)、高频散射 (high-frequency scattering) 和湍流建模 (turbulence modeling) 等领域中的多尺度 PDE 模型计算机模拟带来了显著困难。本文引入了一种分层 Transformer (Hierarchical Transformer, HT) 方案，以高效学习多尺度 PDE 的解算子 (solution operator)。我们构建了一个具有尺度自适应交互范围的分层架构，使得特征能够以嵌套方式计算，并具有可控的线性计算成本。跨多个层次的自注意力 (self-attentions) 可用于编码和解码所有尺度的多尺度解空间。此外，我们采用经验 $H^1$ 损失函数 (empirical $H^1$ loss function) 来抵消神经网络近似多尺度函数时的谱偏差 (spectral bias)。在数值实验中，我们展示了 HT 方案在代表性多尺度问题上优于最先进 (state-of-the-art, SOTA) 方法的卓越性能。

1.6. 原文链接

/files/papers/693955d755e2e128365dfca7/paper.pdf 该链接指向论文的 PDF 文件，状态为预印本 (pre-print) 或提交稿件 (submission)。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题： 该论文致力于解决复杂多尺度偏微分方程 (Multiscale PDEs) 的高效、准确和鲁棒的计算机模拟问题。这类方程在物理、工程等多个领域广泛存在，如油藏模拟、高频散射和大气环流。

为什么这个问题是重要的？现有研究存在哪些具体的挑战或空白？

计算成本高昂： 多尺度 PDEs 的特点是解中存在多个相互作用的特征尺度。传统的数值方法，如有限元法或有限差分法，为了捕捉所有尺度，通常需要极高的网格分辨率，导致计算成本随最小尺度参数呈几何级数增长（通常与 $1/\varepsilon$ 成比例，其中 $\varepsilon \ll 1$ ）。
传统多尺度方法局限性： 尽管已经发展出了一些精巧的多尺度数值方法（如渐近均匀化、数值均匀化、多级方法等），通过融入微观信息来降低计算成本，但这些方法大多是为固定输入参数的问题设计的，难以应对参数集合的变化。
现有算子学习方法的不足： 近年来，以傅里叶神经算子 (Fourier Neural Operator, FNO)、深度算子网络 (DeepONet) 等为代表的神经算子学习方法能够直接学习无限维空间之间的映射，在处理一系列输入参数方面展现出巨大潜力。然而，对于多尺度问题，这些方法主要倾向于捕捉解的平滑部分，在捕获内在的多尺度特征方面仍面临重大挑战。具体来说，神经网络在学习高频分量时存在所谓的谱偏差 (spectral bias) 问题，即它们倾向于优先学习低频信息。
长距离依赖与计算效率： Transformer 架构中的 self-attention 机制虽然在建模长距离依赖方面表现出色，但其计算复杂度通常与序列长度的平方成正比，对于高分辨率的物理问题来说是难以承受的。

这篇论文的切入点或创新思路是什么？ HT-Net 的创新点在于将 Transformer 的强大表达能力与多尺度数值方法中常见的层次结构（如分层矩阵、多重网格方法）相结合。通过构建一个分层的架构，它旨在：

高效处理多尺度信息： 允许在不同尺度上进行特征计算和交互，从而更有效地捕捉解的粗糙和高频细节。
降低计算成本： 通过限制注意力机制的交互范围在局部邻域内，并利用层次结构进行特征聚合，实现线性计算成本。
克服谱偏差： 引入一种新的损失函数——经验 $H^1$ 损失函数，以显式地鼓励模型学习高频信息，从而提升对多尺度函数振荡特征的捕捉能力。

2.2. 核心贡献/主要发现

本文的主要贡献可以总结如下：

提出了新颖的分层 Transformer (Hierarchical Transformer) 架构： 允许将输入-输出映射分解为多个层次，特征可以通过分层的局部自注意力聚合以嵌套方式更新，并具有线性计算成本。这种设计灵感来源于 $\mathcal{H}^2$ 矩阵等分层数值方法，能够有效地编码和解码跨所有尺度的多尺度解空间。
引入了经验 $H^1$ 损失函数： 该损失函数避免了传统 $L^2$ 损失在多尺度问题中可能导致的谱偏差，显著增强了模型捕捉多尺度解中振荡特征的能力。
展现出卓越的准确性和泛化能力： 与现有的最先进 (SOTA) 模型相比，HT-Net 在多个代表性多尺度 PDE 问题（如多尺度椭圆方程、Navier-Stokes 方程、Helmholtz 方程）上展示了显著更高的准确性和对多尺度输入参数的泛化性能。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 HT-Net 模型，需要了解以下基础概念：

偏微分方程 (Partial Differential Equations, PDEs)： 是指含有未知函数及其偏导数的方程。它们广泛用于描述自然界和工程中的各种现象，如热传导、流体力学、电磁学和量子力学。例如，Navier-Stokes 方程描述流体运动，Helmholtz 方程描述波的传播。
多尺度 PDEs (Multiscale PDEs)： 特指其系数或解在不同空间或时间尺度上存在快速变化的 PDEs。这意味着解的特征可能从宏观（粗糙）到微观（精细）跨越多个数量级。捕捉这些多尺度特征是数值模拟的关键挑战。
算子学习 (Operator Learning)： 是一种机器学习范式，旨在学习从一个函数空间到另一个函数空间的映射（即算子），而不是从有限维向量到向量的映射。例如，学习从 PDE 的系数函数到其解函数（都是无限维的）的映射。这与传统的神经网络学习点对点映射不同，使得模型能够直接处理函数作为输入和输出，并对离散化方式具有一定的不变性（如果设计得当）。
Transformer 架构 (Transformer Architecture)： 是一种基于自注意力 (self-attention) 机制的深度学习模型，最初为自然语言处理设计，后被广泛应用于计算机视觉等领域。它的核心是能够捕捉输入序列中任意两个位置之间的依赖关系，而无需像循环神经网络那样依赖顺序处理。
- 自注意力 (Self-Attention)： 是 Transformer 的核心组成部分，允许模型在处理序列中的一个元素时，同时考虑序列中所有其他元素的重要性。其基本计算公式为： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释：
  - $Q$ (Query)：查询矩阵，由输入特征向量通过线性变换得到，用于查询其他元素。
  - $K$ (Key)：键矩阵，由输入特征向量通过线性变换得到，用于被查询。
  - $V$ (Value)：值矩阵，由输入特征向量通过线性变换得到，包含要聚合的信息。
  - $QK^T$ : 查询与所有键的点积，表示每个查询对每个键的关注程度。
  - $\sqrt{d_k}$ : 缩放因子，其中 $d_k$ 是键向量的维度。用于防止点积结果过大，导致 softmax 函数梯度过小。
  - $\mathrm{softmax}(\cdot)$ : 归一化指数函数，将注意力分数转换为概率分布，确保所有值的和为1。
  - $V$ : 值矩阵，根据注意力分数对值进行加权求和，得到最终的注意力输出。
谱偏差 (Spectral Bias) / 频率原理 (Frequency Principle)： 是指深度神经网络在训练过程中，倾向于优先学习目标函数中的低频分量，而不是高频分量。这意味着神经网络在拟合平滑、低频的函数部分时表现良好，但在拟合快速振荡、高频的函数部分时效率较低，训练收敛更慢，或需要更多的参数和数据。这对于需要捕捉精细多尺度特征的 PDE 问题尤其不利。
H1 范数 (H1 Norm)： 在数学中，Sobolev 空间 $H^1(D)$ 包含那些本身及其一阶弱导数在区域 $D$ 上都是平方可积的函数。 $H^1$ 范数 $\|\cdot\|_{H^1}$ 是衡量函数平滑度和可导性的一个重要指标。
- 概念定义： $H^1$ 范数衡量的是函数值及其梯度（一阶导数）的整体大小。在物理问题中，它通常与能量相关。对于多尺度函数，高频分量在梯度中贡献更大，因此 $H^1$ 范数能够更好地捕捉函数的局部变化和振荡特征。
- 数学公式 (连续情况)： 对于函数 u(x) 在区域 $D \subset \mathbb{R}^d$ $D \subset R^{d}$ 上， $H^1$ $H^{1}$ 范数定义为： $\|u\|_{H^1(D)} = \sqrt{\int_D |u(x)|^2 dx + \int_D |\nabla u(x)|^2 dx}$ 符号解释：
  - u(x): 区域 $D$ 上的函数。
  - $\nabla u(x)$ : 函数 u(x) 的梯度向量。
  - $|u(x)|^2$ : 函数值的平方。
  - $|\nabla u(x)|^2$ : 梯度向量的模的平方（即所有偏导数平方和）。
  - $\int_D \dots dx$ : 在区域 $D$ 上的积分。
  - $\sqrt{\cdot}$ : 平方根。本文采用的是离散形式的 $H^1$ 范数，在实验设置部分会详细说明。
分层矩阵 (Hierarchical Matrices, $\mathcal{H}^2$ 矩阵)： 是一种用于高效存储和操作大型稠密矩阵的数值技术，尤其适用于由核函数（如 Green's function）定义的矩阵。其核心思想是，对于距离较远、交互较弱的块，可以用低秩矩阵乘积来近似表示，从而显著降低存储和计算复杂度（从 $O(N^2)$ 降到 $O(N \log N)$ 或 $O(N)$ ）。HT-Net 的分层架构就是受到了 $\mathcal{H}^2$ 矩阵中块结构和低秩近似思想的启发。

3.2. 前人工作

传统多尺度 PDE 求解器：
- 渐近均匀化 (Asymptotic Homogenization) 和数值均匀化 (Numerical Homogenization)： 针对具有尺度分离（如周期性结构 $a(x/\varepsilon)$ ）的 PDE，通过推导宏观有效的均匀化系数来简化问题。对于一般多尺度 PDE，数值均匀化构建局部基函数来适应多尺度算子。
- 多级和多分辨率方法 (Multilevel and Multiresolution Methods)： 包括多重网格方法 (Multigrid methods) 和小波 (wavelets) 方法，已成功应用于 PDEs。但对于多尺度问题，其收敛性可能受系数正则性的严重影响。gamblets (算子自适应小波) 是数值均匀化的一种多级扩展。
- 基于低秩分解的方法 (Low-rank Decomposition based methods)： 利用 Green's function 的低秩近似特性，发展出快速多极方法 (Fast Multipole Method, FMM)、分层矩阵 ( $\mathcal{H}$ 和 $\mathcal{H}^2$ 矩阵) 等近线性复杂度方法。
- 张量数值方法 (Tensor Numerical Methods)： 通过将低维多尺度 PDE 转化为高维 PDE，利用稀疏张量有限元或量子张量列车 (QTT) 方法找到多尺度解的低秩张量表示。
神经网络求解器和谱偏差：
- 针对固定参数的 PDE 求解器：PINNs (Physics-informed Neural Networks)、DGM 等。
- 谱偏差问题：Rahaman et al. (2019) 和 Ronen et al. (2019) 指出 DNN 倾向于学习低频分量。为克服此问题，发展了 Phase Shift DNN (Cai et al., 2020) 等算法。
PDE 算子学习：
- 有限维算子学习方法： 如 Zhu & Zabaras (2018)、 $Fan et al. (2019a;b)$ 、Khoo et al. (2020)，应用于固定离散化的问题。 $Fan et al. (2019a;b)$ 结合了 $\mathcal{H}$ 或 $\mathcal{H}^2$ 矩阵线性操作与非线性激活函数，但缺乏非线性几何交互/聚合，限制了表达能力。
- 无限维算子学习方法： FNO (Li et al., 2021)、MWT (Gupta et al., 2021) 等旨在学习无限维 Banach 空间之间的映射，利用傅里叶或小波变换参数化卷积。但这些方法对于多尺度 PDE 往往表现不佳，因为它们需要解的“额外平滑性”才能获得有意义的衰减率，而这对于多尺度 PDE 来说通常不具备或导致常数过大。
- Galerkin Transformer (GT) (Cao, 2021) 提出了线性化自注意力变体。
高效注意力机制：
- 传统的 multi-head self-attention (Vaswani et al., 2017) 复杂度为 $O(N^2)$ 。
- 为降低成本，提出了 kernel trick (Choromanski et al., 2020; Wang et al., 2020) 等方法。
- Galerkin Transformer 移除 softmax 归一化，使用 Petrov-Galerkin 投影归一化。
- 用于 NLP 和视觉的分层 Transformer (Liu et al., 2021b; Zhang et al., 2022) 使用局部窗口聚合。

3.3. 技术演进

PDE 求解领域从传统的数值方法（如有限元、有限差分）发展到专门处理多尺度问题的多尺度数值方法（如均匀化、多重网格、分层矩阵），再到近几年兴起的基于深度学习的 PDE 求解器。早期深度学习方法主要针对固定参数的 PDE 实例，而最近的算子学习方法则致力于学习泛化的算子映射，以处理参数集合。然而，现有算子学习方法在处理多尺度 PDE 时，由于谱偏差和难以捕捉高频特征而受限。HT-Net 正是站在这一演进路径上，旨在结合 Transformer 的表达能力和多尺度数值方法的层次化思想，克服现有算子学习方法在多尺度问题上的局限性。

3.4. 差异化分析

HT-Net 与相关工作的核心区别和创新点在于：

与传统多尺度方法相比： HT-Net 能够处理一系列输入参数，而传统多尺度方法大多针对固定参数问题设计。
与现有算子学习方法（如 FNO、DeepONet、MWT、GT）相比：
- HT-Net 采用了分层架构和尺度自适应交互范围，能够更有效地编码和解码多尺度解空间，捕捉高频振荡特征。而 FNO 等模型虽然具有通用近似能力，但对于多尺度 PDE 所需的“额外平滑性”不满足，导致性能受限，且易受 aliasing error 影响。
- HT-Net 的 V-cycle 特征更新机制，灵感来源于多重网格和分层矩阵，实现了所有层次特征的聚合来形成更新后的精细尺度特征，从而能够以线性成本恢复精细细节。而 Swin Transformer 等视觉 Transformer 中的分层方法，虽然也通过顺序降低分辨率并在每个级别执行注意力，但通常只在固定级别进行注意力，没有多级注意力聚合，粗尺度变量多用于分类/生成任务，可能在降采样过程中丢失精细信息。
- HT-Net 引入了经验 $H^1$ 损失函数，直接针对神经网络的谱偏差问题，强制模型关注高频分量，这在其他算子学习方法中通常没有或未充分强调。
与基于 $\mathcal{H}$ 或 $\mathcal{H}^2$ 矩阵的神经网络相比： HT-Net 引入了 self-attention 机制进行非线性几何交互/聚合，增强了模型的表达能力，而早期的结合 $\mathcal{H}$ \text{矩阵}$ 的神经网络通常只包含线性操作。 * **计算效率：** 通过局部注意力聚合和分层结构，`HT-Net` 实现了可控的线性计算成本 $O(N)$，避免了传统 `Transformer` 的 $O(N^2)$ 复杂度。 --- # 4. 方法论 ## 4.1. 方法原理 `HT-Net` 的核心思想是，对于多尺度 PDE 算子 $S: a \mapsto u$，其解 $u$ 的多尺度特征可以在不同层次上进行分解和聚合。灵感来源于多尺度数值方法中的分层矩阵 ($\mathcal{H}^2$ 矩阵) 和多重网格方法，`HT-Net` 构建了一个分层的 `Transformer` 架构，通过一系列 `Reduce` (降维/粗化)、`Multilevel Local Aggregation` (多级局部聚合) 和 `Decompose` (分解/细化) 操作，以 `V-cycle` (V 周期) 的方式迭代更新特征，从而高效且准确地学习多尺度解算子。这种设计使得模型能够： 1. **捕获多尺度依赖：** 通过在不同分辨率层次上执行 `self-attention`，模型可以同时捕捉长距离（粗尺度）和短距离（精细尺度）的相互作用。 2. **实现线性计算成本：** 局部注意力窗口和层次聚合的结合，避免了全局注意力带来的二次复杂度。 3. **应对谱偏差：** 结合经验 $H^1$ 损失函数，强制模型关注高频分量，提升对多尺度解中快速振荡部分的学习能力。 ## 4.2. 核心方法详解 (逐层深入) `HT-Net` 旨在学习一个从输入参数 $\pmb{a} \in \mathcal{A}$ 到解 $\pmb{u} \in \mathcal{U}$ 的算子映射 $\mathcal{N}: \mathcal{A} \times \Theta \to \mathcal{U}$。其主要步骤包括特征嵌入、分层离散化、V 周期特征更新（Reduce、多级局部聚合、Decompose）和解码器。 ### 4.2.1. 输入预处理与特征嵌入首先，输入的 PDE 参数（例如，系数函数 `a(x)`）通过 `patch embedding` (Dosovitskiy et al., 2020) 映射为特征向量 $\pmb{f}$。`patch embedding` 通常通过卷积神经网络 (CNN) 层将输入数据（如图像像素）转换为一系列具有特定通道数的特征令牌 (feature tokens)。 ### 4.2.2. 分层离散化本文引入了空间域 $D$ 的分层离散化，特别是在 2D 情况下采用了四叉树 (quadtree) 设置。 * **最精细级别索引集：** 设 $\mathcal{T}^{(r)}$ 是最精细级别的索引集，其中每个索引 $i = (i_1, \ldots, i_r) \in \mathcal{T}^{(r)}$ 表示最精细的空间对象（例如，图像像素、有限差分点）。 * **聚合级别索引集：** 对于任何 $i = (i_1, \ldots, i_r) \in \mathcal{I}^{(r)}$ 和 $1 \le m \le r$， $i^{(m)} = (i_1, \ldots, i_m)$ 表示 $i$ 在第 $m$ 级别上的聚合父节点。$\mathcal{T}^{(m)} := \{i^{(m)} : i \in \mathcal{T}^{(r)}\}$ 是第 $m$ 级别的索引集。 * **父子关系：** 自然的父子关系在粗粒度节点和细粒度节点之间建立，从而形成一个索引树 $\mathcal{T}$，以及各级索引集 $\mathcal{T}^{(m)}$。 * **令牌和特征向量：** 每个索引 $i \in \mathcal{T}^{(m)}$ 对应一个令牌 (token)，它具有一个空间位置 $\pmb{x}_i^{(m)}$ 和一个特征向量 $\pmb{f}_i^{(m)}$，后者具有 $\mathcal{C}^{(m)}$ 个通道数。下图（原文 Figure 3.1）展示了分层离散化和索引树的示例： ![Figure 3.1: Hierarchical discretization and index tree. In this example, the 2D unit square is hierarchically discretized into three levels which are indexed by $\\mathcal { T } ^ { ( 1 ) } , \\mathcal { T } ^ { ( 2 ) }$ and $\\boldsymbol { \\mathcal { T } ^ { ( 3 ) } }$ , respectively. For example, we denote by $( 1 ) ^ { ( 1 , 2 ) } =$ $\\{ ( 1 , 0 ) , ( 1 , 1 ) , ( 1 , 2 ) , ( 1 , 3 ) \\}$ the set of the second level child nodes of the node (1).](/files/papers/693955d755e2e128365dfca7/images/1.jpg) *该图像是示意图，展示了二维单位正方形的分层离散化。在图中，正方形被分为三个层次，分别标记为 $oldsymbol{I} ^ { ( 1 ) }$、$oldsymbol{I} ^ { ( 2 ) }$ 和 $oldsymbol{I} ^ { ( 3 ) }$。每个层次的索引节点展示了与子节点的关系。* Figure 3.1: Hierarchical discretization and index tree. In this example, the 2D unit square is hierarchically discretized into three levels which are indexed by $\mathcal { T } ^ { ( 1 ) } , \mathcal { T } ^ { ( 2 ) }$ and $\boldsymbol { \mathcal { T } ^ { ( 3 ) } }$ , respectively. For example, we denote by $( 1 ) ^ { ( 1 , 2 ) } =$ $\{ ( 1 , 0 ) , ( 1 , 1 ) , ( 1 , 2 ) , ( 1 , 3 ) \}$ the set of the second level child nodes of the node (1). ### 4.2.3. Reduce 操作 (降维/粗化) `Reduce` 操作定义了从精细级别特征到粗糙级别特征的映射。 * 对于 $i \in \mathcal{T}^{(m)}$，我们用 $i^{(m, m+1)}$ 表示 $i$ 的 $(m+1)$ 级子节点集合。在四叉树设置中，$i^{(m, m+1)} = \{(i,0), (i,1), (i,2), (i,3)\}$。 * 在时间步 $t$，第 $m$ 级的特征 $\pmb{f}_i^{(m),t}$ 通过聚合其 $(m+1)$ 级子节点的特征来计算：$ \pmb{f}_i^{(m),t} = \mathcal{R}^{(m)}({\pmb{f}j^{(m+1),t}}{j \in i^{(m,m+1)}}) $**符号解释：** * $\pmb{f}_i^{(m),t}$: 在时间步 $t$ 时，第 $m$ 级索引 $i$ 对应的特征向量。 * $\mathcal{R}^{(m)}$: 从 $(m+1)$ 级特征到 $m$ 级特征的 `Reduce` 操作。 * $\{\pmb{f}_j^{(m+1),t}\}_{j \in i^{(m,m+1)}}$: 索引 $i$ 的所有 $(m+1)$ 级子节点 $j$ 的特征集合。 * **实现细节：** 当前实现中，$\mathcal{R}^{(m)}$ 是一个线性操作，即加权和：$ \pmb{f}i^{(m),t} = \pmb{R}0^{(m)} \pmb{f}{(i,0)}^{(m+1),t} + \pmb{R}1^{(m)} \pmb{f}{(i,1)}^{(m+1),t} + \pmb{R}2^{(m)} \pmb{f}{(i,2)}^{(m+1),t} + \pmb{R}3^{(m)} \pmb{f}{(i,3)}^{(m+1),t} $**符号解释：** * $\pmb{R}_0^{(m)}, \pmb{R}_1^{(m)}, \pmb{R}_2^{(m)}, \pmb{R}_3^{(m)} \in \mathbb{R}^{\mathcal{C}^{(m-1)} \times \mathcal{C}^{(m)}}$: 是可学习的矩阵，用于将子节点的特征投影并相加，从而生成父节点的特征。 ### 4.2.4. 多级局部注意力聚合 (Multilevel Local Aggregation) 传统 `Transformer` 的全局自注意力计算成本为 $O(N^2)$。`HT-Net` 提出了一种基于自注意力机制的局部聚合方案，灵感来源于 $\mathcal{H}^2$ 矩阵。 * **最精细级别 $r$ 的局部注意力：** 在演化步 $t$ 时，最精细级别 $r$ 的特征 $\pmb{f}_i^{(r),t}$ 通过以下局部注意力公式更新：$ \mathrm{atten}{\mathrm{loc}}^{(r)}: \pmb{\mathcal{f}}i^{(r),t+1} = \sum{j \in \mathcal{N}^{(r)}(i)} \exp(\pmb{q}_i^{(r),t} \cdot \pmb{k}_j^{(r),t}) \pmb{\mathcal{v}}_j^{(r),t}, \mathrm{ for } i \in \mathcal{I}^{(r)} $**符号解释：** * $\pmb{\mathcal{f}}_i^{(r),t+1}$: 最精细级别 $r$ 上的更新后特征。 * $\mathcal{N}^{(r)}(i)$: 索引 $i \in \mathcal{T}^{(r)}$ 的第 $r$ 级邻居集合。这里采用的是局部窗口注意力 (window attention)。 * $\pmb{q}_i^{(r),t} := \hat{W}^Q \pmb{f}_i^{(r),t}$: 查询向量，由特征 $\pmb{f}_i^{(r),t}$ 线性变换得到。 * $\pmb{k}_j^{(r),t} := \hat{W}^K \pmb{f}_j^{(r),t}$: 键向量，由特征 $\pmb{f}_j^{(r),t}$ 线性变换得到。 * $\pmb{v}_j^{(r),t} := \hat{W}^V \pmb{f}_j^{(r),t}$: 值向量，由特征 $\pmb{f}_j^{(r),t}$ 线性变换得到。 * $\hat{W}^Q, \hat{W}^K, \hat{W}^V \in \mathbb{R}^{\mathcal{C}^{(r)} \times \mathcal{C}^{(r)}}$: 是可学习的矩阵。 * $\exp(\cdot)$: 指数函数，作为注意力权重计算的一部分（简化了 `softmax` 归一化）。 * **粗粒度级别 $m$ 的局部注意力：** 对于 $m = r-1, \ldots, 1$ (从次精细级别到最粗级别)，粗粒度级别的 `查询`、`键` 和 `值` 向量是通过对其子节点对应的 `查询`、`键` 和 `值` 向量执行 `Reduce` 操作来获得的：$ \pmb{q}_i^{(m),t} = \mathcal{R}^{(m)}({\pmb{q}j^{(m+1),t}}{j \in i^{(m,m+1)}}) \pmb{k}_i^{(m),t} = \mathcal{R}^{(m)}({\pmb{k}j^{(m+1),t}}{j \in i^{(m,m+1)}}) \pmb{v}i^{(m),t} = \mathcal{R}^{(m)}({\pmb{v}j^{(m+1),t}}{j \in i^{(m,m+1)}}) $然后，对于每个粗粒度级别 $m$，其特征的更新方式与最精细级别相似，但使用粗粒度级别的 `查询`、`键` 和 `值`：$ \mathrm{atten}{\mathrm{loc}}^{(m)}: \pmb{\mathcal{f}}i^{(m),t+1} = \sum{j \in \mathcal{N}^{(m)}(i)} \exp(\pmb{q}_i^{(m),t} \cdot \pmb{k}_j^{(m),t}) \pmb{v}j^{(m),t}, \mathrm{ for } i \in \mathbb{Z}^{(m)} $**符号解释：** * $\mathcal{N}^{(m)}(i)$: 索引 $i \in \mathcal{T}^{(m)}$ 的第 $m$ 级邻居集合。这种层次化的聚合过程确保了信息在不同尺度上的有效传递和融合。 ### 4.2.5. Decompose 操作 (分解/细化) 在所有层次的特征 $\pmb{f}_i^{(m),t+1}$ 被更新后，`Decompose` 操作将粗粒度特征反向传播到精细粒度，以恢复精细细节。 * `Decompose` 运算符 $\mathcal{D}^{(m)}$ 将第 $m$ 级索引 $i$ 的特征 $\pmb{f}_i^{(m),t+1}$ 映射到其 $(m+1)$ 级子节点 $j \in i^{(m,m+1)}$ 的特征：$ \pmb{f}{(i,s)}^{(m+1),t+\frac{1}{2}} = D_s^{(m),T} \pmb{f}i^{(m),t+1}, \quad s = 0,1,2,3 $**符号解释：** * $\pmb{f}_{(i,s)}^{(m+1),t+\frac{1}{2}}$: 索引 $i$ 的第 $s$ 个子节点在 $(m+1)$ 级上的中间特征。 * $D_s^{(m),T}$: 可学习矩阵 $D_s^{(m)}$ 的转置，将粗粒度特征分解并上采样到子节点。$D_s^{(m)} \in \mathbb{R}^{\mathcal{C}^{(m)} \times \mathcal{C}^{(m+1)}}$。 * 这些中间特征 $\pmb{f}_i^{(m+1),t+\frac{1}{2}}$ 会进一步聚合（通过加法）到最终的精细级别特征 $\pmb{f}_i^{(m+1),t+1}$。这意味着来自所有层次的特征更新最终都会贡献给最精细层次的输出。 ### 4.2.6. V-周期算法 (V-cycle Algorithm) `Reduce` 操作、多级局部聚合和 `Decompose` 操作共同构成了一个特征更新的 $V$ 周期，如下图（原文 Figure 3.2）所示。 ![Figure 3.2: One V-cycle of the feature update.](/files/papers/693955d755e2e128365dfca7/images/2.jpg) *该图像是示意图，展示了特征更新过程中的一个V周期。图中说明了不同尺度的特征 `f(r,t)` 通过局部注意力机制 $atten^{(r)}_{loc}$、降维（Reduce）和分解（Decompose）等步骤逐级处理，最终输出新的特征 $f(r,t+1)$。同时，其他尺度的特征也以相似方式更新，体现了分层自注意力的应用。* Figure 3.2: One V-cycle of the feature update. 算法 1: 一个 V-周期分层注意力 (Algorithm 1: One V-cycle of Hierarchical Attention) **输入：** 针对所有 $i \in \mathcal{T}^{(r)}$ 的特征 $\pmb{f}_i^{(r),t}$。 **步骤 0：** (初始化最精细级别的查询、键和值) 为所有 $i \in \mathcal{T}^{(r)}$ 计算 $\pmb{q}_i^{(r),t}$、$\pmb{k}_i^{(r),t}$ 和 $\pmb{v}_i^{(r),t}$。（例如，使用线性变换 $\hat{W}^Q, \hat{W}^K, \hat{W}^V$）。 **步骤 1：** (Reduce 操作和多级局部聚合 - 下行) 对于 $m = r-1, \ldots, 1$ (从次精细级别到最粗级别)： 1. 对 $\pmb{q}_i^{(m+1),t}$、$\pmb{k}_i^{(m+1),t}$ 和 $\pmb{v}_i^{(m+1),t}$ 执行 `Reduce` 操作，得到 $\pmb{q}_i^{(m),t}$、$\pmb{k}_i^{(m),t}$ 和 $\pmb{v}_i^{(m),t}$。（例如，$\pmb{q}_i^{(m),t} = \mathcal{R}^{(m)}(\{\pmb{q}_j^{(m+1),t}\}_{j \in i^{(m,m+1)}})$）。 2. 对所有 $i \in \mathcal{T}^{(m)}$，执行局部注意力聚合以更新特征 $\pmb{f}_i^{(m),t+1}$。（例如，$\pmb{\mathcal{f}}_i^{(m),t+1} = \sum_{j \in \mathcal{N}^{(m)}(i)} \exp(\pmb{q}_i^{(m),t} \cdot \pmb{k}_j^{(m),t}) \pmb{v}_j^{(m),t}$）。 **步骤 2：** (Decompose 操作 - 上行) 对于 $m = 1, \ldots, r-1$ (从最粗级别到次精细级别)： 1. 对所有 $i \in \mathcal{T}^{(m)}$，执行 `Decompose` 操作，将 $\pmb{f}_i^{(m),t+1}$ 分解到其 $(m+1)$ 级子节点，得到中间特征 $\{\pmb{f}_j^{(m+1),t+\frac{1}{2}}\}_{j \in i^{(m,m+1)}}$。（例如，$\pmb{f}_j^{(m+1),t+\frac{1}{2}} = D_s^{(m),T} \pmb{f}_i^{(m),t+1}$）。 2. 将这些中间特征加到对应的 $(m+1)$ 级特征上： $\pmb{f}_i^{(m+1),t+1} += \pmb{f}_i^{(m+1),t+\frac{1}{2}}$，对于所有 $i \in \mathcal{T}^{(m+1)}$。 **输出：** 针对所有 $i \in \mathcal{T}^{(r)}$ 的更新后特征 $\pmb{f}_i^{(r),t+1}$。 **复杂度分析：** 命题 3.1 (算法 1 的复杂度)： `Reduce` 操作、多级聚合和 `Decompose` 操作共同形成一个特征更新的 $V$ 周期。如果 $\mathcal{T}$ 是一个四叉树（如本文实现），一个 $V$ 周期的成本为 $O(N)$。 **证明：** 对于每个级别 $m$，计算公式 3.3 的成本为 $O(|\mathcal{T}^{(m)}| \mathcal{C}^{(m)})$, 因为每个 $i \in \mathcal{T}^{(m)}$ 的邻居集合 $\mathcal{N}^{(m)}(i)$ 被一个常数 $c$ 限制。`Reduce` 操作的成本最多为 $|\mathcal{T}^{(m)}| \mathcal{C}^{(m)} \mathcal{C}^{(m-1)}$。总的 $V$ 周期成本为 $\sum_{m=1}^r (c_1 |\mathcal{T}^{(m)}| \mathcal{C}^{(m)} + c_2 |\mathcal{T}^{(m)}| \mathcal{C}^{(m)} \mathcal{C}^{(m-1)})$. 当 $\mathcal{T}$ 是一个四叉树时，$\mathcal{T}^{(r)} = N, \mathcal{T}^{(r-1)} = N/4, \dots, \mathcal{T}^{(1)} = 4$。因此总和是一个收敛的几何级数，其复杂度为 $O(N)$。 ### 4.2.7. 解码器 (Decoder) 解码器负责将经过 `V-cycle` 更新后的最终特征 $\pmb{f}$ (在最后一个更新步骤) 映射到最终的 PDE 解 $\pmb{u}$。本文采用了 $Li et al. (2021)$ 中使用的 `spectral convolution layers` 作为解码器。这种选择通常基于对 PDE 解的先验知识。 ### 4.2.8. 经验 $H^1$ 损失函数 (Empirical $H^1$ Loss Function) 为了克服神经网络在学习多尺度函数时常见的谱偏差，`HT-Net` 采用了经验 $H^1$ 损失函数，而不是传统的 $L^2$ 损失函数。 * **$L^2$ 损失的局限性：** 传统的 $L^2$ 损失函数 $\mathcal{L}^L$ (详见实验设置部分) 倾向于关注解的低频部分，对高频振荡的捕捉能力较弱。 * **$H^1$ 损失的优势：** $H^1$ 损失通过考虑解的梯度信息，对高频分量赋予了更大的权重。这意味着模型在优化过程中会更积极地调整参数以匹配解的精细结构和局部变化。本文是在目标解空间上定义 $H^1$ 损失，衡量预测值 $\hat{\pmb{u}}$ 和真实值 $\pmb{u}$ 之间的距离。 * **实现细节：** $H^1$ 损失在频域中计算，通过对傅里叶系数加权 $| \xi |^2$ 来实现，这与真实空间中包含导数项的 $H^1$ 范数是等价的（详见实验设置部分）。 --- # 5. 实验设置 ## 5.1. 数据集实验在二维空间域 $D := [0,1]^2$ 上进行，并使用 $h=1/n$ 进行均匀离散化。数据集由函数对 $\{(\pmb{a}_j, \pmb{u}_j)\}_{j=1}^N$ 组成，其中 `\pmb{u}_j = S(\pmb{a}_j)`，$\pmb{a}_j$ 从某个概率测度 $\mu$ 中采样。实际的训练和测试数据是 $\pmb{a}_j$ 和 $\pmb{u}_j$ 在网格 $\mathsf{G}^2 := \{(x_i, x_j) = (ih, jh) \mid i,j=0,\dots,n-1\}$ 上的点值评估。 ### 5.1.1. 多尺度椭圆方程 (Multiscale Elliptic Equation) * **方程：**$ \begin{array}{cc} -\nabla \cdot (a(x) \nabla u(x)) = f(x) & x \in D \ u(x) = 0 & x \in \partial D \end{array} $其中 $0 < a_{\min} \le a(x) \le a_{\max}$。 * 两相系数模型 (Two-phase coefficient model)： 采用了 $Li et al. (2021)$ 中的模型。系数 `a(x)` 的生成遵循 $a \sim \mu := \psi_{\#} \mathcal{N}(0, (-\Delta + c I)^{-2})$，带有零 Neumann 边界条件。映射 $\psi: \mathbb{R} \to \mathbb{R}$ 在实数正半轴取 $a_{\max}$，负半轴取 $a_{\min}$。强迫项 (forcing term) $f(x) \equiv 1$。 * **参数控制：** $a_{\max}$ 和 $a_{\min}$ 控制系数的对比度 (contrast)。$c$ 控制系数的粗糙度 (roughness) 或振荡性；更大的 $c$ 值表示更粗糙的两相界面。 * **数据集变体：** 实验包括 `Darcy smooth` 和 `Darcy rough` 两种情况，通过调整 $a_{\max}, a_{\min}, c$ 参数来改变系数的光滑度和对比度。 * 多尺度三角函数系数 (Multiscale Trigonometric Coefficient)： 采用 `Owhadi (2017)` 中的模型， $D = [-1,1]^2$，$ a(x) = \prod{k=1}^6 \left(1 + \frac{1}{2}\cos(a_k \pi (x_1+x_2))\right) \left(1 + \frac{1}{2}\sin(a_k \pi (x_2-3x_1))\right) $其中 $a_k = \mathrm{uniform}(2^{k-1}, 1.5 \times 2^{k-1})$，固定 $f(x) \equiv 1$。参考解通过在 $1023 \times 1023$ 网格上使用 $\mathcal{P}_1$ 有限元方法 (FEM) 获得。 ### 5.1.2. Navier-Stokes 方程 (Navier-Stokes Equation) * **方程：** 2D 涡度形式，在单位环面 $(0,1)^2$ 上：$ \begin{array}{r l r} \partial_t w(x,t) + u(x,t) \cdot \nabla w(x,t) = \nu \Delta w(x,t) + f(x), & x \in (0,1)^2, t \in (0,T] \ \nabla \cdot u(x,t) = 0, & x \in (0,1)^2, t \in [0,T] \ w(x,0) = w_0(x), & x \in (0,1)^2 \end{array} $其中 $u$ 是速度， $w = \nabla \times u$ 是涡度， $w_0$ 是初始涡度， $\nu > 0$ 是粘度 (viscosity)， $f$ 是强迫项。 * **学习任务：** 学习算子 $S: w(\cdot, 0 \le t \le 10) \to w(\cdot, 10 \le t \le T)$，将前 10 个时间步的涡度映射到未来某个时间 $T$ 的涡度。 * **参数：** 粘度 $\nu = 1e-3, 1e-4, 1e-5$。分辨率 $64 \times 64$。 * **预测方式：** 采用 `rolled-out prediction` (滚动预测)，即模型递归地预测下一个时间步的解。 ### 5.1.3. Helmholtz 方程 (Helmholtz Equation) * **方程：** 声学 Helmholtz 方程，在域 $D = [0,1]^2$ 上：$ \left{ \begin{array}{r l} \left( -\Delta - \frac{\omega^2}{c^2(x)} \right) u = 0 & \mathrm{ in } \Omega, \ \frac{\partial u}{\partial n} = 0 & \mathrm{ on } \partial \Omega_1, \partial \Omega_2, \partial \Omega_4, \ \frac{\partial u}{\partial n} = 1 & \mathrm{ on } \partial \Omega_3, \end{array} \right. $其中 $\omega = 10^3$ 是频率， `c(x)` 是波速场 (wavespeed field)。 $\partial \Omega_3$ 是边界顶部，其他边为 $\partial \Omega_{1,2,4}$。 * **波速场生成：** $c(x) = 20 + \tanh(\tilde{c}(x))$，其中 $\tilde{c}$ 从高斯场 $\tilde{c} \sim \mathcal{N}(0, (-\Delta + \tau^2)^{-d})$ 中采样，参数 $\tau=3, d=2$ 控制粗糙度。 * **学习任务：** 学习从 $\pmb{c} \in \mathbb{R}^{100 \times 100}$ 到 $\pmb{u} \in \mathbb{R}^{100 \times 100}$ 的映射。 * **挑战：** `Helmholtz` 方程以其共振现象 (resonance phenomenon) 而闻名，当频率接近算子的本征频率时，求解变得异常困难。需要大型训练数据集 (N=10000)。下图（原文 Figure F.2）展示了 Helmholtz 方程的波速场 $c$ 和对应的激发场 $u$ 及 `HT-Net` 预测的 $\hat{u}$： ![Figure F.2: The mapping $\\mathbf c \\mapsto \\mathbf u$](/files/papers/693955d755e2e128365dfca7/images/8.jpg) *该图像是插图，展示了多尺度偏微分方程（PDEs）中的不同场。左侧（a）为波速场 $c$ 的可视化，中间（b）为激发场 $u$ 的表现，而右侧（c）展示了 HT-Net 对应的预测结果 $\hat{u}$。每个子图均配有颜色条，以指示不同数值的变化范围。* Figure F.2: The mapping $\mathbf c \mapsto \mathbf u$ ## 5.2. 评估指标对论文中出现的评估指标进行说明： ### 5.2.1. 经验 $L^2$ 损失函数 (Empirical $L^2$ Loss Function) * **概念定义：** 经验 $L^2$ 损失衡量的是模型预测的解与真实解之间的平均平方误差，通常归一化处理。它关注的是函数整体的相似性，对函数值的偏差敏感。 * **数学公式：**$ \mathcal{L}^L({(\pmb{a}j, \pmb{u}j)}{j=1}^N; \theta) := \frac{1}{N} \sum{j=1}^N \frac{| \pmb{u}_j - \mathcal{N}(\pmb{a}j; \theta) |{l^2}}{| \pmb{u}j |{l^2}} $* **\text{符号解释：}** * $N$: \text{训练或测试样本的总数。} * $\{(\pmb{a}_j, \pmb{u}_j)\}_{j=1}^N$: \text{包含} $N$ \text{对输入参数} $\pmb{a}_j$ \text{及其对应的真实解} $\pmb{u}_j$ \text{的数据集。} * $\theta$: \text{模型} $\mathcal{N}$ \text{的可学习参数。} * $\mathcal{N}(\pmb{a}_j; \theta)$: \text{模型对输入} $\pmb{a}_j$ \text{的预测解。} * $\| \cdot \|_{l^2}$: \text{规范的} $l^2$ \text{向量范数，表示离散函数在网格点上的欧几里得范数。} * $\frac{1}{N} \sum_{j=1}^N \dots$: \text{对所有样本的归一化误差取平均。} ### 5.2.2. \text{经验} $H^1$ \text{损失函数} (Empirical $H^1$ Loss Function) * **\text{概念定义：}** \text{经验} $H^1$ \text{损失在} $L^2$ \text{损失的基础上，额外考虑了解的梯度信息。它对函数的高频分量和局部变化更为敏感，因此特别适合评估多尺度函数，因为多尺度函数通常具有快速变化的细节。} * **\text{数学公式：}**$ \mathcal{L}^H({(\pmb{a}j, \pmb{u}j)}{j=1}^N; \theta) := \frac{1}{N} \sum{j=1}^N \frac{| \pmb{u}_j - \mathcal{N}(\pmb{a}_j; \theta) |_h}{| \pmb{u}j |h} $\text{其中，离散} $H^1$ \text{范数} $\|u\|_h$ \text{在频域中定义为：}$ |u|h := \sqrt{\sum{\xi \in \mathbb{Z}n^2} |\xi|^2 (\mathcal{F}(u)(\xi))^2} $\text{傅里叶变换} $\mathcal{F}(f)(\xi)$ \text{定义为：}$ \mathcal{F}(f)(\xi) := \frac{1}{\sqrt{n}} \sum{x \in \mathsf{G}^2} f(x) e^{-2i\pi x \cdot \xi} $* **\text{符号解释：}** * \text{其余符号与} $L^2$ \text{损失函数中解释相同。} * $\| \cdot \|_h$: \text{离散} $H^1$ \text{范数，在频域中计算。} * $\xi$: \text{频域中的波数向量，例如} $\xi = (\xi_1, \xi_2)$\text{。} * $\mathbb{Z}_n^2 := \{\xi \in \mathbb{Z}^2 \mid -n/2+1 \le \xi_j \le n/2, j=1,2\}$: \text{离散频率域的索引集。} * $|\xi|^2$: \text{波数向量} $\xi$ \text{的模的平方，即} $\xi_1^2 + \xi_2^2$\text{。它作为权重，在高频分量} ($\xi$ \text{较大}) \text{上赋予更大的惩罚。} * $\mathcal{F}(u)(\xi)$: \text{函数} $u$ \text{在频率} $\xi$ \text{处的离散傅里叶变换系数。} * $n$: \text{空间离散化网格的边长（例如，分辨率为} $n \times n$\text{）。} * $x$: \text{空间网格点。} * $i$: \text{虚数单位。} ### 5.2.3. \text{相对} $L^2$ \text{误差} (Relative $L^2$ Error) * **\text{概念定义：}** \text{衡量模型预测解与真实解之间在} $L^2$ \text{范数意义下的相对偏差，通常表示为误差的} $L^2$ \text{范数与真实解的} $L^2$ \text{范数之比。该指标是评估模型在整个解空间上平均性能的常用方法。} * **\text{数学公式：}**$ \text{Relative } L^2 \text{ Error} = \frac{| \hat{\mathbf{u}} - \mathbf{u} |{L^2}}{| \mathbf{u} |{L^2}} $$
符号解释：
- $\hat{\mathbf{u}}$ : 模型的预测解。
- $\mathbf{u}$ : 真实解（Ground Truth）。
- $\| \cdot \|_{L^2}$ : $L^2$ 范数（在离散情况下通常指 $l^2$ 范数）。

5.3. 对比基线

论文将 HT-Net 与以下最先进 (SOTA) 模型进行了比较：

FNO2D, FNO2D-48, FNO2D-96 (Fourier Neural Operator): 傅里叶神经算子，通过傅里叶变换在频域进行卷积，以捕捉长距离依赖。不同后缀表示使用了不同数量的傅里叶模式 (modes) 来尝试捕获高频信息（默认 FNO2D 使用 12 模式，-48 使用 48 模式，-96 使用 96 模式）。
MWT (Multiwavelet Neural Operator): 多小波神经算子，利用多小波变换在不同尺度上操作，也具有多分辨率结构。
GT (Galerkin Transformer): Galerkin Transformer，提出了一种线性化自注意力变体，结合了 Petrov-Galerkin 投影归一化。
SWIN (Swin Transformer): 视觉 Transformer，通过移位窗口 (shifted windows) 实现分层架构，并用于计算机视觉任务。论文中通过添加编码器-解码器架构将其改编为多尺度视觉 Transformer 的基线。
FNO-3D: 用于处理时空数据的三维傅里叶神经算子。
U-Net: 一种基于卷积神经网络的编码器-解码器架构，广泛用于图像分割和类似任务。
FDM (Finite Difference Method): 有限差分法，一种经典的数值求解 PDE 的方法。
GRPS (Generalized Rough Polyharmonic Splines): 广义粗糙多谐样条，一种典型的多尺度数值方法，用于解决具有粗糙系数的 PDE。

5.4. 训练细节

优化器： Adam 优化器。
学习率： 初始学习率为 1e-3。
权重衰减： 1e-4。
学习率调度： 采用 1-cycle 调度 (Cao, 2021)。
批大小 (Batch Size)： 对于 4.2 节和 4.3 节的实验，批大小为 8；对于附录 F.1 和 F.2 的实验，批大小为 4。
网络架构参数： HT-Net 的深度 (depth) 设为 $r=3$ 层。激活函数使用 GeLU。输入数据通过基于 CNN 的 patch embedding 模块转换为特征。
窗口注意力 (Window Attention)： 借鉴了 $Liu et al. (2021b)$ 中的窗口注意力方案来定义邻居集合 $\mathcal{N}^{(\cdot)}(\cdot)$ 。
数据划分：
- Darcy rough：训练集 1280 样本，验证集 112 样本，测试集 112 样本。
- Darcy smooth 和 Multiscale trigonometric：训练集 1000 样本，验证集 100 样本，测试集 100 样本。
- Navier-Stokes：训练样本数 $N=1000$ 或 $N=10000$ ；测试样本数分别为 100 和 1000。
运行环境： 所有实验均在 NVIDIA A100 GPU 上运行。基线模型的实现基于其公开提供的官方代码。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 多尺度椭圆方程 (Multiscale Elliptic Equation)

论文在 Darcy smooth、Darcy rough 和 Multiscale trigonometric 三种不同多尺度椭圆方程设置下评估了 HT-Net 的性能。

以下是原文 Table 1 的结果：

		Darcy smooth		Darcy rough		Multiscale trigonometric
Model	Runtime (s)	L2	H1	L2	H 1	L2	H1
FNO2D	7.278	0.620	3.883	1.646 ±0.021	11.955±0.088	1.794	12.605
FNO2D-48	8.062	0.619	2.620	1.220 ±0.018	5.138 ±0.093	1.565	11.093
FNO2D-96	10.969	0.575	2.437	1.216 ±0.024	5.140 ±0.281	1.518	10.106
MWT	19.715			1.138 ±0.010	4.107 ±0.008	1.021	7.245
GT	38.219	0.945	3.365	1.790 ±0.012	6.269 ±0.418	1.052	8.207
SWIN	41.417			1.622 ±0.047	6.796 ±0.359	1.489	13.385
HT-NET	33.375	0.291	0.815	0.571±0.001	1.371±0.001	0.603	2.633

分析：

卓越性能： HT-Net 在所有三种情况下，无论是相对 $L^2$ 误差还是相对 $H^1$ 误差，都显著优于所有对比的神经算子模型，误差降低了一个数量级。
对粗糙系数的鲁棒性： 对于 Darcy rough 和 Multiscale trigonometric 这类包含更多粗糙度和振荡特征的问题，HT-Net 的优势尤为明显。例如，在 Darcy rough 情况下，HT-Net 的 $L^2$ 误差为 $0.571 \times 10^{-2}$ ，而表现次优的 MWT 为 $1.138 \times 10^{-2}$ 。在 H1 误差上，HT-Net 更是遥遥领先。
高频捕捉能力： 传统的 FNO 模型通过增加傅里叶模式（FNO2D-48, FNO2D-96）来尝试捕捉高频输出，虽然有所改善，但仍远不如 HT-Net，这验证了 HT-Net 分层架构在处理多尺度特征方面的有效性以及 H1 损失的优势。
运行时长： HT-Net 的运行时长 (33.375s) 介于 FNO (7.278s) 和 GT (38.219s) / SWIN (41.417s) 之间，说明其在提供更高精度的同时，保持了合理的计算效率。

下图（原文 Figure 4.1）展示了光滑和粗糙系数下，HT-Net 与 FNO2D 的解决方案和绝对误差对比：

$Figure 3.1: Hierarchical discretization and index tree. In this example, the 2D unit square is hierarchically discretized into three levels which are indexed by $\\mathcal { T } ^ { ( 1 ) } , \\mathcal { T } ^ { ( 2 ) }$ and $\\boldsymbol { \\mathcal { T } ^ { ( 3 ) } }$ , respectively. For example, we denote by $( 1 ) ^ { ( 1 , 2 ) } =$ $\\{ ( 1 , 0 ) , ( 1 , 1 ) , ( 1 , 2 ) , ( 1 , 3 ) \\}$ the set of the second level child nodes of the node (1).$ 该图像是插图4.1，展示了不同系数下的多尺度PDEs解决方案。上部分为光滑系数（a），参考解（b），HT-Net的预测（c），绝对误差（d）；下部分为粗糙系数（a），参考解（b），HT-Net预测（c），绝对误差（d），以及FNO2D的绝对误差（e）。

Figure 4.1: Top: (a) smooth coefficient in Li et al. (2021), with $a _ { \mathrm { m a x } } = 1 2$ , $a _ { \mathrm { m i n } } = 3$ and $c = 9$ , (b), reerecesolution, (c) HT-Net solution, ) absolute error f HT-Net, )absolute error FNOD; Bottm: (a) rough coefficients with $a _ { \mathrm { m a x } } = 1 2$ , $a _ { \mathrm { m i n } } = 2$ and $c = 2 0$ , (b) reference solution, (c) HT-Net solution, (d) absolute error f HT-Net, ) absolute error FNO2D, Themaximalabsolute errorinBottom: isaround $9 0 0 \mu = 9 \mathrm { e } { - 4 }$ .

分析： 从 Figure 4.1 可以直观看出：

光滑系数： 在光滑系数情况下，HT-Net (d) 的绝对误差明显小于 FNO2D (e)，表明其预测更接近真实解。
粗糙系数： 在粗糙系数情况下，解的振荡性更强，对模型捕捉高频细节的能力要求更高。HT-Net (d) 的最大绝对误差约为 $9 \mathrm{e}{-4}$ ，而 FNO2D (e) 的误差明显更大且分布更广，这再次证明了 HT-Net 在处理多尺度粗糙问题上的优越性。HT-Net 能够更精确地捕捉解中的快速振荡特征。

6.1.2. 谱偏差研究 (Spectral Bias in Operator Learning)

论文通过比较 HT-Net 在使用 $H^1$ 损失和 $L^2$ 损失训练时的表现，验证了谱偏差现象以及 $H^1$ 损失对其的缓解作用。

下图（原文 Figure 4.2）展示了两种损失函数下误差的频率演变和损失曲线：

Figure 3.2: One V-cycle of the feature update. 该图像是一个图表，展示了HT-Net在不同损失函数下的训练过程。左侧图(a)和右侧图(b)分别展示了使用 $H^{1}$ 损失和 $L^{2}$ 损失时，各个频率下的损失演变，横轴为频率，纵轴为训练轮数，色条表示 $L^{2}$ 损失的对数幅度。图(c)和图(d)则展示了训练、测试及泛化误差的变化曲线，对于 $H^{1}$ 和 $L^{2}$ 损失分别用深色和浅色线条表示。

Figure 4.2: In (a) HT-Net trained with $H ^ { 1 }$ loss, and (b) HT-Net trained with $L ^ { 2 }$ loss, we show the evolution of errors with $\mathbf { X }$ -axis for frequency, y-axis for training epochs, and colorbar for the magnitude of $L ^ { 2 }$ error on each frequency in $\log _ { 1 0 }$ scale, the error for each frequency is normalized frequency-wise by the error at e The loss curves withtrainig, testing, and generalization erors are shown ) for HT-Net trained with $H ^ { 1 }$ loss, and in (d) for HT-Net trained with $L ^ { 2 }$ loss.

分析：

频率域误差演变 (a) vs (b)：
- 使用 $H^1$ 损失训练的 HT-Net (a) 显示，在训练过程中，所有频率（包括高频）的误差衰减更为均匀和迅速。颜色条表示 $L^2$ 误差的 $\log_{10}$ 尺度，越蓝表示误差越小。
- 使用 $L^2$ 损失训练的 HT-Net (b) 则显示出明显的谱偏差，即低频分量（X 轴左侧）的误差下降更快，而高频分量（X 轴右侧）的误差衰减明显较慢，长时间保持较高水平。
损失曲线 (c) vs (d)：
- 使用 $H^1$ 损失训练的 HT-Net (c) 在训练、测试和泛化误差方面都表现更好，曲线下降更稳定，最终误差更低。
- 使用 $L^2$ 损失训练的 HT-Net (d) 的误差曲线虽然也下降，但在高频捕捉方面存在明显劣势，导致整体测试和泛化误差更高。这些结果强有力地证明了 $H^1$ 损失能够有效地对抗谱偏差，使模型更好地捕捉多尺度函数的高频特征。

6.1.3. 泛化性能 (Generalization Performance)

论文还评估了 HT-Net 对分布外 (out-of-distribution) 数据的泛化能力。模型在 Table 4.1 中的粗糙两相数据集上训练，并在 $a_{\max}=12, a_{\min}=3, c=18$ 的不同分布数据上进行测试。

以下是原文 Table 2 的结果：

	FNO2D	FNO2D H 1	MWT	HT-NET
n = 256	20.27	11.49	21.901	3.182

分析：

HT-Net 在泛化误差方面表现出显著优势，其相对 $L^2$ 误差为 $3.182 \times 10^{-2}$ ，比其他模型低一个数量级。
即使是使用 $H^1$ 损失训练的 FNO2D (FNO2D H1)，其泛化能力也远不如 HT-Net，说明 HT-Net 的分层架构本身对于提升模型在多尺度问题上的泛化能力至关重要。

6.1.4. Navier-Stokes 方程 (Navier-Stokes Equation)

论文在 2D Navier-Stokes 方程上进行了实验，评估模型对涡度时间演化的预测能力。

以下是原文 Table 3 的结果：

	#Parameters	T = 50 ν = 1e − 3 N = 1000	T = 30 ν = 1e − 4 N = 1000	T = 30 ν = 1e − 4 N = 10000	T = 20 ν = 1e − 5 N = 1000
FNO-3D	6, 558, 537	0.0086	0.1918	0.0820	0.1893
FNO-2D	414,517	0.0128	0.1559	0.0834	0.1556
U-Net	24, 950, 491	0.0245	0.2051	0.1190	0.1982
HT-Net	10, 707, 204	0.0050	0.0517	0.0194	0.0690

分析：

HT-Net 在所有 Navier-Stokes 基准测试中都取得了最佳性能，相对 $L^2$ 误差显著低于其他模型。例如，在 $\nu=1e-5$ 且 $N=1000$ 样本的情况下，HT-Net 的误差为 0.0690，而 FNO-2D 为 0.1556，FNO-3D 为 0.1893，U-Net 为 0.1982。
随着粘度 $\nu$ 降低（雷诺数 Re 增加），流体动力学变得更加混沌和多尺度，这进一步凸显了 HT-Net 捕捉复杂多尺度动力学的能力。
即使 HT-Net 参数量 (10,707,204) 相对较大（比 FNO-2D 多，比 U-Net 少），但其性能提升非常显著。

6.1.5. Helmholtz 方程 (Helmholtz Equation)

Helmholtz 方程是多尺度波现象的代表，其解在高度异构介质中计算成本高昂。

以下是原文 Table 5 的结果：

Model	#Parameters	Evaluation time (ms)	L2 relative error (× 10 2)
FNO	3,282,068	5.8	2.301
UNet	17,261,825	0.1	42.90
HT-Net	47,632,003	3.0	0.687

分析：

HT-Net 在 Helmholtz 方程上再次展现了卓越的性能，其相对 $L^2$ 误差仅为 $0.687 \times 10^{-2}$ ，远低于 FNO ( $2.301 \times 10^{-2}$ ) 和 UNet ( $42.90 \times 10^{-2}$ )。这对于一个以难解著称的方程来说是非常显著的进步。
尽管 HT-Net 的参数量最大 (47,632,003)，但其评估时间 (3.0 ms) 仍然比 FNO (5.8 ms) 快，并且远低于传统的 PDE 求解器。UNet 虽然评估时间最快，但误差是 HT-Net 的 60 倍，说明其准确性不足。这表明 HT-Net 在保持高效性的同时，大幅提高了精度。

6.1.6. 与经典方法和多尺度方法比较 (Comparison with Classical Methods and Multiscale Methods)

论文还将 HT-Net 与经典的有限差分法 (FDM) 和多尺度方法 GRPS (Generalized Rough Polyharmonic Splines) 进行了比较。

以下是原文 Table 6 的结果：

Model	Evaluation time (s)	relative L 2 error (× 10
FDM	0.34	0.84
GRPS	18.9	0.02
HT-Net	0.003	0.58

分析：

效率对比： HT-Net 的评估时间仅为 0.003 秒，远快于 FDM (0.34 秒) 和 GRPS (18.9 秒)。这充分体现了深度学习算子学习模型在推理阶段的巨大速度优势。
精度对比： HT-Net 的相对 $L^2$ 误差为 $0.58 \times 10^{-2}$ ，与 FDM ( $0.84 \times 10^{-2}$ ) 相比具有可比甚至更好的精度。虽然 GRPS 达到了更高的精度 ( $0.02 \times 10^{-2}$ )，但其计算成本非常高昂。这表明 HT-Net 在速度和精度之间取得了非常好的平衡，为快速预测提供了更优的选择。

6.2. 数据呈现

以上已在核心结果分析中穿插展示了 Table 1, 2, 3, 5, 6 以及 Figures 3.1, 3.2, 4.1, 4.2, F.2。这里补充展示附录中 Multiscale trigonometric 的结果和图 F.1，以及 Table 4。

下图（原文 Figure F.1）展示了多尺度三角函数系数及其解的切片：

$Figure F.2: The mapping $\\mathbf c \\mapsto \\mathbf u$$ 该图像是图表，展示了多尺度三角函数系数及其解的切片。左侧(a)为多尺度系数的三维可视化，右侧(b)显示了解的切片在不同y值下的表现，比较了Exact、HT-net等方法的结果。

Figure F.1: (a) multiscale trigonometric coefficient, (b) slice of the solutions at $x = 0$ .

分析： Figure F.1 (a) 展示了具有复杂振荡结构的多尺度三角函数系数，其特点是快速变化的纹理。Figure F.1 (b) 则展示了在 $x=0$ 切片处，Exact (真实解)、HT-Net 和 FNO 解的对比。可以观察到，HT-Net 的解曲线与真实解曲线高度吻合，能够精确捕捉到解中的高频振荡。而 FNO 的解则显得过于平滑，未能很好地捕捉到这些精细细节，这再次印证了 HT-Net 在处理多尺度问题上的优势。

以下是原文 Table 4 的结果：

	epochs=300			epochs=600
	n=128	n=256	n=512	n=128	n=256	n=512
FNO	1.996	1.842	1.817	2.017	1.820	1.806
GT	1.524	1.070	1.093	1.448	0.938	0.970
MWT	1.115	1.007	1.006	1.112	0.985	0.977
SWIN	1.768	2.378	4.513	1.579	2.216	4.365
HT-net	0.581	0.671	0.659	0.537	0.614	0.631

分析：

分辨率和训练轮数的影响： HT-Net 在不同分辨率 ( $n=128, 256, 512$ ) 和不同训练轮数 (300 epochs, 600 epochs) 下，均持续保持最低的相对 $L^2$ 误差。这表明 HT-Net 对分辨率变化具有一定的鲁棒性，且能通过更多训练轮数进一步提升性能。
多分辨率结构的优势： MWT 作为同样具有多分辨率结构的模型，表现次优，但仍不如 HT-Net。这可能归因于 HT-Net 结合了 Transformer 的表达能力和更精细的分层聚合机制。
FNO 的局限： FNO 的误差相对较高且变化不大，再次说明其难以捕捉多尺度三角系数带来的高频振荡。

6.3. 消融实验/参数分析

6.3.1. 超参数研究 (Study For Hyperparameters)

论文对 HT-Net 的超参数进行了研究，包括层次深度 (number of hierarchical levels)、窗口大小 (window size) 和特征维度 (feature dimension)。

以下是原文 Table 7 的结果：

Model	H 1 relative error (× 10−2)	L2 relative error (×10−2)
HT-Net [3, 8, 80]	1.843	0.648
HT-Net [3, 8, 128]	1.761	0.688
HT-Net [3, 4, 80]	1.898	0.710
HT-Net [3, 4, 64]	1.909	0.695
HT-Net [3, 2, 80]	2.030	0.707
HT-Net [2, 8, 80]	1.903	0.701

分析：

超参数影响： HT-Net 的记法 [levels, window_size, feature_dimension]。结果表明，通常更大的层次深度、窗口大小和特征维度有助于降低误差（特别是 $H^1$ 误差）。例如，将特征维度从 80 增加到 128 ([3, 8, 80] vs [3, 8, 128])， $H^1$ 误差从 $1.843 \times 10^{-2}$ 降低到 $1.761 \times 10^{-2}$ 。
平衡考量： 考虑到模型大小、计算成本和性能之间的平衡，论文最终选择了 [3, 8, 80] 作为默认超参数配置。

6.3.2. 内存使用 (Memory Usage)

论文还报告了不同模型在 Darcy smooth (分辨率 $211 \times 211$ ) 和 Darcy rough (分辨率 $256 \times 256$ ) 基准测试中的内存使用情况。

以下是原文 Table 8 的结果：

	Darcy smooth (res=211×211)		Darcy rough (res=256× 256)
Model	Mem	CUDA Mem	Mem	CUDA Mem
FNO	1.80	1.19	2.53	1.72
GT	2.85	3.85	5.17	11.64
MWT	—	—	2.54	8.36
HT-NET	4.17	7.09	4.98	8.91

分析：

稳定性： HT-Net 的内存使用相对稳定。
比较： 对于 $256 \times 256$ 的分辨率，MWT 和 GT 消耗的 CUDA 内存与 HT-Net 相当或更高，但 HT-Net 提供了显著更好的准确性。FNO 的内存使用最低，但性能最差。这表明 HT-Net 在提供高精度的同时，其内存效率也具有竞争力。

7. 总结与思考

7.1. 结论总结

本文成功提出了 HT-Net，一个基于分层 Transformer 的算子学习模型，专门用于解决多尺度 PDE 问题。其核心贡献在于：

分层架构与线性成本： 构建了一个独特的层次结构，通过 Reduce、多级局部聚合和 Decompose 操作，以 $V$ 周期方式更新特征，实现了可控的线性计算成本，并有效捕捉多尺度解空间。
克服谱偏差： 引入了经验 $H^1$ 损失函数，有效缓解了神经网络在学习多尺度函数时遇到的谱偏差问题，显著增强了模型捕捉高频振荡特征的能力。
卓越的性能和泛化能力： 在多尺度椭圆方程、Navier-Stokes 方程和 Helmholtz 方程等多个代表性基准测试中，HT-Net 在准确性、鲁棒性和对分布外输入的泛化能力方面均显著超越了包括 FNO、MWT 和 GT 在内的最先进神经算子模型。此外，HT-Net 在推理速度上远超传统数值方法，同时保持了可比或更优的精度。

7.2. 局限性与未来工作

论文作者指出了以下局限性及未来的研究方向：

网格依赖性： 当前 HT-Net 的实现依赖于规则网格。将其扩展到非结构化数据点云 (data clouds) 和图神经网络 (graph neural networks) 将为利用层次表示提供更多机会，使其能处理更复杂的几何形状和不规则域。
分辨率泛化能力： 当前 HT-Net 的实现缺乏像 FNO 那样泛化到不同分辨率的能力（即离散化不变性）。尽管作者认为 FNO 和 MWT 在多尺度问题中的离散化不变性可能受到频域中的 aliasing error (混叠误差) 影响，但在实际应用中，处理不同分辨率的能力仍然非常重要。
理论分析： 现有算子学习方法的收敛性分析（如 Kovachki et al., 2021）通常依赖于解的平滑性，而多尺度 PDE 往往具有较低的正则性，不符合这些理论类别。
未来工作方向： 作者提出，通过使用适当的采样和插值模块，HT-Net 有可能实现（近似）离散化不变性，并期望一个完整的解决方案将是算子自适应的。

7.3. 个人启发与批判

个人启发：

跨学科融合的典范： HT-Net 将传统多尺度数值方法（如分层矩阵、多重网格）的精髓与深度学习的 Transformer 架构相结合，是跨学科融合的优秀范例。这种结合使得模型不仅具有 Transformer 强大的表达能力，也继承了传统方法处理多尺度信息的效率和物理直觉。
精准打击核心问题： 论文清晰地识别并解决了现有神经算子模型在处理多尺度 PDE 时的两大核心痛点：难以捕捉高频特征（通过分层架构）和谱偏差问题（通过 $H^1$ 损失）。这种有针对性的解决方案使得 HT-Net 在相关问题上取得了显著的领先优势。
V-cycle 的优雅应用： 将多重网格中的 V-cycle 思想引入 Transformer 的特征更新过程，以线性的计算成本实现信息在粗细尺度之间的有效传递和聚合，这种设计既高效又合理。
H1 损失的实际价值： 明确指出并应用 $H^1$ 损失来对抗谱偏差，为其他处理高频信息或多尺度数据的深度学习任务提供了重要的损失函数选择。

潜在问题、未经验证的假设或可以改进的地方：

规则网格的限制： HT-Net 目前仅限于规则网格，这在实际工程和科学计算中是一个很大的局限。许多复杂的物理系统涉及不规则几何和自适应网格。将其扩展到点云或图结构数据虽然是作者提到的未来工作，但将是实现更广泛应用的关键挑战。
离散化不变性问题： 尽管作者批判了 FNO 在多尺度问题中的离散化不变性可能受到 aliasing error 的影响，但 HT-Net 明确承认自身缺乏这种泛化到不同分辨率的能力。在实际应用中，一个模型如果能灵活处理不同分辨率的输入输出，将极大提升其可用性。未来的工作可能需要探索如何将 HT-Net 的分层优势与对分辨率变化的鲁棒性结合起来。
理论收敛性与近似能力： 论文在实验上展示了 HT-Net 的优越性能，但在理论层面，对于多尺度 PDE 的算子学习，HT-Net 的通用近似能力和误差界限仍有待深入研究。特别是在低正则性解的情况下，理论分析将更有挑战性，但也更具价值。
超参数调优的敏感性： 超参数研究表明，层次深度、窗口大小和特征维度对性能有影响。在实际部署中，如何系统地、自适应地确定这些超参数，以在不同问题和计算资源下达到最佳平衡，可能需要更精细的策略。
计算成本与模型规模： 尽管 HT-Net 实现了线性计算成本，但其参数量在某些情况下仍然较大 (例如 Helmholtz 方程)，这可能会影响其在资源受限环境下的部署。未来可以探索模型压缩或更参数高效的设计。

总而言之，HT-Net 为多尺度 PDE 的算子学习提供了一个强大且高效的新范式，通过巧妙地融合了传统数值方法和 Transformer 的优点，在解决长期存在的计算挑战方面迈出了重要一步。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。