论文状态:已完成

Complex-valued Neural Operator for Solving 2D Wave Equation Based on Graph Neural Network

发表:2025/01/01
原文链接
价格:0.100000
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种基于图神经网络的复杂值神经算子(CV-NeuralOp),用于求解二维波动方程。该方法启发于格林函数方法,通过迭代算法近似积分算子,展示了对不同域形状和网格密度的适应性。实验结果证明,CV-NeuralOp在计算精度和时间上优于矩量法,能加速电磁仿真。

摘要

In this work, we propose a complex-valued neural operator (CV-NeuralOp) based on graph neural networks (GNN) to solve 2D wave equation. Inspired by the Green’s function method for solving partial differential equations, CV-NeuralOp applies an iterative algorithmic framework to approximate the integral operator with Green’s function theory. Inherited from the Green’s function method and GNN, CV-NeuralOp demonstrates its proficiency in accommodating diverse domain shapes and grid densities. The efficacy of CV-NeuralOp is verified by solving 2D wave equations defined in both square and cruciform domains. Its generalization ability is further assessed in terms of various scatterer shapes and different grid densities. Numerical results substantiate that CV-NeuralOp attains commendable computational precision, accompanied by a reduction in computing time when compared to the method of moments (MoM). This work presents a deep learning-based approach to approximate an integral operator for accelerating EM simulation.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

复杂值神经算子 (Complex-valued Neural Operator) 基于图神经网络 (Graph Neural Network) 求解二维波动方程 (2D Wave Equation)

1.2. 作者

  • Tao Shan (IEEE 会员)
  • Maokun Li (IEEE 会士)
  • Fan Yang (IEEE 会士)
  • Shenheng Xu (IEEE 会员)
  • Donglin Su (IEEE 高级会员)

作者机构:

  • Tao Shan 和 Donglin Su: 北京航空航天大学 (Beihang University) 电子信息工程学院 (School of Electronics and Information Engineering), 中国北京 100191。
  • Maokun Li, Fan Yang 和 Shenheng Xu: 北京信息科学与技术国家研究中心 (BNRist) 电子工程系 (Department of Electronic Engineering), 清华大学 (Tsinghua University), 中国北京 100084。

1.3. 发表期刊/会议

论文的出版信息未在原文中明确提及,但根据作者的隶属关系和研究方向,该工作很可能发表在计算电磁学 (Computational Electromagnetics, CEM) 或机器学习相关的顶级期刊或会议上,如 IEEE Transactions on Antennas and Propagation, IEEE Journal on Emerging and Selected Topics in Circuits and Systems 等。

1.4. 发表年份

2025年

1.5. 摘要

这篇工作提出了一种基于图神经网络 (GNN) 的复杂值神经算子 (Complex-valued Neural Operator, CV-NeuralOp),用于求解二维波动方程。该方法受解决偏微分方程 (Partial Differential Equations, PDE) 的格林函数方法 (Green's function method) 启发,利用迭代算法框架来近似包含格林函数理论的积分算子 (integral operator)。得益于格林函数方法和图神经网络 (GNN) 的特性,CV-NeuralOp 展现出对不同域形状 (domain shapes)网格密度 (grid densities) 的出色适应性。论文通过求解定义在方形和十字形域中的二维波动方程验证了 CV-NeuralOp 的有效性,并进一步评估了其在各种散射体形状和不同网格密度下的泛化能力。数值结果证实,与矩量法 (Method of Moments, MoM) 相比,CV-NeuralOp 在实现令人满意的计算精度的同时,显著减少了计算时间。这项工作提出了一种基于深度学习 (Deep Learning) 的方法来近似积分算子,以加速电磁 (Electromagnetic, EM) 仿真。

1.6. 原文链接

/files/papers/69344a393183ab0eea09df94/paper.pdf (发布状态未知)

2. 整体概括

2.1. 研究背景与动机

计算电磁学 (Computational Electromagnetics, CEM) 的目标是高精度地模拟电磁现象,这通常通过严格求解麦克斯韦方程 (Maxwell's equations) 及各种边界条件来实现。然而,现有的数值算法,如有限差分法 (Finite Difference Method, FDM)有限元法 (Finite Element Method, FEM)矩量法 (Method of Moments, MoM),通常需要将麦克斯韦方程离散化到预定义的网格上,从而形成一个庞大的线性矩阵方程组。这些方程组往往包含大量未知数,导致求解过程计算密集且耗时,成为电磁仿真长期存在的挑战。

为了提高计算效率,深度学习 (Deep Learning) 技术被引入电磁学领域。虽然一些端到端 (end-to-end) 方法和物理启发 (physics-inspired) 方法在电磁建模、微波成像和器件设计中取得了成功,但它们普遍存在两个主要局限性:

  1. 网格依赖性 (mesh-dependent): 这些方法通常依赖于特定的网格密度,限制了其在不同网格分辨率下的适用性。

  2. 规则域限制 (regular domains): 它们大多局限于解决定义在规则几何域内的电磁问题,难以处理不规则或复杂形状的计算域。

    为了克服这些限制,神经算子 (Neural Operator) 的概念被提出,旨在构建深度神经网络 (DNN) 来学习无限维空间之间的映射。这种方法的一个显著优势是其独立于网格密度和域形状 (independent on mesh densities and domain shapes),从而在求解各类偏微分方程 (PDE) 方面提供了更大的灵活性和适用性。然而,现有的神经算子方法通常是实值 (real-valued) 的,可能无法直接有效地处理电磁学问题中固有的复杂值 (complex-valued) 数据。

格林函数方法 (Green's function method) 是计算电磁学中一个重要的基于算子 (operator-based) 的方法。它通过推导一个以格林函数为核的积分算子来求解麦克斯韦方程。当介质不均匀时,格林函数往往没有闭合形式 (closed-form expression),导致数值计算成本高昂。将神经算子与格林函数方法相结合,有望在不依赖网格配置的同时,显著加速电磁仿真。

本研究的动机正是针对这些挑战,旨在开发一种能够处理复杂值数据、适应不规则域和不同网格密度,并能加速电磁仿真的深度学习方法。

2.2. 核心贡献/主要发现

本文的核心贡献在于提出了复杂值神经算子 (CV-NeuralOp),并将其应用于二维波动方程的求解,以加速电磁仿真。具体而言,主要贡献和发现包括:

  1. 提出复杂值神经算子 (CV-NeuralOp): 首次将神经算子扩展到处理复杂值电磁问题,弥补了现有神经算子多为实值的局限性。CV-NeuralOp 基于图神经网络 (GNN) 构建,能够近似格林函数理论中的积分算子。

  2. 物理启发迭代框架: CV-NeuralOp 采用迭代算法框架来近似核积分 (kernel integral),这种设计与格林函数方法在数学上具有相似性,从而使得模型更具解释性和鲁棒性。

  3. 对域形状和网格密度的适应性: CV-NeuralOp 继承了格林函数方法和 GNN 的优点,能够有效处理方形和十字形等不同形状的计算域,并且在不同网格密度下表现出良好的性能。

  4. 卓越的泛化能力: 论文验证了 CV-NeuralOp 在训练过程中未曾见过的散射体形状、超出训练范围的对比值,以及不同网格分辨率下的泛化能力,展现了其在复杂电磁环境下的可靠性。

  5. 计算效率提升: 数值结果表明,与传统的矩量法 (MoM) 相比,CV-NeuralOp 在保持较高计算精度的同时,显著减少了计算时间,尤其是在 GPU 上运行且网格密度较高时,加速效果更为明显。

  6. 处理非均匀网格的能力: 经过微调 (fine-tuning) 后,CV-NeuralOp 也能有效地处理圆形域内的非均匀三角网格,进一步拓展了其应用范围。

  7. 应对不同激励源和强散射体: 通过微调,CV-NeuralOp 能够适应平面波激励 (plane wave excitation) 和强散射体 (strong scatterers) 的场景,并达到与 MoM 相当的预测精度。

    这些发现表明,CV-NeuralOp 提供了一种高效、精确且灵活的深度学习方法,有望显著加速复杂电磁结构的仿真,并克服传统方法在网格和域形状方面的限制。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 2D 波动方程 (2D Wave Equation)

概念定义: 波动方程是一种二阶线性偏微分方程,用于描述波在介质中的传播行为。在电磁学中,二维波动方程通常描述在二维空间中传播的电磁波,例如在平面上的电场或磁场的分布。它揭示了波的振幅、频率、传播速度以及与介质相互作用的物理规律。 在本文中的作用: 本文的目标就是求解散射场 Esca(ρ)E^{sca}(\rho) 满足的二维波动方程,该方程描述了散射体与入射波相互作用后产生的电磁场。

3.1.2. 格林函数方法 (Green's Function Method)

概念定义: 格林函数方法是一种求解非齐次线性微分方程的强大技术,特别适用于偏微分方程。格林函数 G(ρ,ρ)G(\rho, \rho') 被定义为一个点源(或脉冲响应)在空间中某一点 ρ\rho' 产生的效应在另一点 ρ\rho 的响应。通过将任意源项分解为一系列点源的叠加,并利用格林函数的线性叠加原理,可以将原方程的解表示为源项与格林函数的卷积积分。 在本文中的作用: 本文的核心思想就是受格林函数方法启发,通过近似其核心的积分算子来求解波动方程。当介质参数复杂(如不均匀介质)时,格林函数往往没有解析表达式,需要数值计算,这正是 CV-NeuralOp 试图加速的部分。

3.1.3. 矩量法 (Method of Moments, MoM)

概念定义: 矩量法是计算电磁学中一种广泛使用的数值技术,用于求解积分方程。其基本思想是将未知场(如电流分布)用一组基函数展开,然后通过伽辽金法 (Galerkin's method) 或其他加权残量法 (weighted residuals method) 将积分方程转化为一个线性代数方程组,最终通过矩阵求逆或迭代法求解。 在本文中的作用: MoM 被用作生成真实标注数据 (Ground Truth) 的方法,同时也是与 CV-NeuralOp 进行计算精度和效率对比的基线模型 (Baseline Model)。MoM 的主要缺点是矩阵方程规模大,求解成本高。

3.1.4. 神经算子 (Neural Operator)

概念定义: 神经算子是深度学习领域的一种新型架构,旨在学习从一个无限维函数空间到另一个无限维函数空间的映射。与传统的神经网络学习有限维向量之间的映射不同,神经算子能够直接学习函数之间的映射,这意味着它对离散化方式(如网格密度)不敏感,可以泛化到未见过的离散化网格和域形状。 在本文中的作用: CV-NeuralOp 是神经算子的一种特殊实现,它利用图神经网络 (GNN) 来近似积分算子,从而实现对网格和域形状的无关性。

3.1.5. 图神经网络 (Graph Neural Network, GNN)

概念定义: 图神经网络是一类专门处理图结构数据的神经网络模型。它通过在图的节点及其邻居之间传递和聚合信息(即消息传递 (message passing) 机制),来学习节点的表示或整个图的表示。每个节点的状态会根据其自身特征及其邻居节点的信息进行更新。 在本文中的作用: CV-NeuralOp 基于消息传递图神经网络 (message passing GNN) 来近似格林函数积分算子中的核函数。图中的每个离散化子域被视为一个节点,节点之间的信息聚合过程被设计来模拟积分操作。

3.1.6. 复杂值神经网络 (Complex-valued Neural Networks)

概念定义: 复杂值神经网络是一种能够直接处理和学习复杂值数据(即每个神经元的值是复数)的神经网络。与将复数分解为实部和虚部分别输入两个实值神经网络不同,复杂值神经网络的权重、激活函数和输入都是复数,能够更好地捕获复数数据中固有的相位和幅度信息。 在本文中的作用: 电磁场本身就是复杂值量(包含幅度和相位),因此,复杂值神经网络对于电磁问题的建模具有天然的优势。CV-NeuralOp 明确设计为复杂值,以适应电磁学领域的特性。

3.2. 前人工作

3.2.1. 传统计算电磁学 (Traditional CEM) 方法

  • 有限差分法 (FDM)有限元法 (FEM): 这两种方法通过将连续的微分方程离散化为有限个点的差分方程或有限个单元上的代数方程来求解。它们通常适用于规则域,并且在处理复杂几何和边界条件时可能需要精细的网格划分。
  • 矩量法 (MoM): 如前所述,MoM 广泛用于求解积分方程,特别是在天线设计、散射和电磁兼容性分析中。尽管其精度高,但由于需要构建和求解大型稠密矩阵,计算成本随问题规模的增加呈急剧上升趋势。
  • 挑战: 传统方法通常需要大量计算资源,且对网格划分敏感,难以适应多变的问题设置和不规则几何。

3.2.2. 深度学习在电磁学中的应用 (Deep Learning in EM)

  • 端到端 (End-to-end) 方法: 这类方法使用深度神经网络 (DNN) 直接学习输入(如结构参数、激励源)到输出(如电磁场、S参数)的非线性映射,从而构建代理模型 (surrogate models)。它们能够加速在线计算。
    • 局限性: 通常作为“黑盒”近似器,缺乏解释性,且往往是网格依赖 (mesh-dependent)规则域限制 (regular domain limited) 的。
  • 物理启发 (Physics-inspired) 方法: 将 DNN 与电磁物理定律和数值算法相结合,旨在提高模型的解释性和鲁棒性。
    • 局限性: 尽管有所改进,但仍普遍存在网格依赖性和域形状限制的问题。

3.2.3. 神经算子 (Neural Operators) 的发展

  • 初代神经算子 [40]: 最早通过将消息传递图神经网络 (message passing GNN) 应用于近似积分算子而提出,展现了其在求解偏微分方程方面的潜力。
  • DeepONet [41]: 通过构建两个子网络来近似两种类型的算子,进一步降低了泛化误差。
  • 傅立叶神经算子 (Fourier Neural Operator, FNO) [42]: 结合了快速傅立叶变换 (Fast Fourier Transform, FFT),能够高效地建模湍流等复杂物理现象。
  • 在电磁学中的应用 [43]: 神经算子也被应用于频域电磁数据正向建模。
  • 挑战: 现有神经算子在电磁学中应用时,主要集中于实值 (real-valued) 算子,对于处理电磁问题中固有的复杂值 (complex-valued) 域尚未有明确设计。

3.3. 技术演进

电磁仿真技术的发展经历了从早期的解析方法到数值方法(如 MoM、FDM、FEM),再到近年来深度学习的融合。传统数值方法在精度上表现优异,但在计算效率和灵活性(处理复杂几何、多尺度问题)上存在瓶颈。深度学习最初的尝试通过构建端到端 (end-to-end) 代理模型来加速仿真,但普遍受限于其黑盒 (black-box) 性质以及对特定网格和规则域的依赖。

神经算子 (Neural Operator) 的出现是这一领域的重大进步,它通过学习函数之间的映射,实现了对离散化(网格)的独立性 (independence),为处理多尺度和多几何问题提供了新思路。本文的工作在此基础上更进一步,针对电磁学领域数据的复杂值 (complex-valued) 特性,提出了复杂值神经算子 (CV-NeuralOp)。它不仅保留了神经算子对网格和域形状的适应性,还通过整合格林函数方法 (Green's function method) 的物理原理,增强了模型的解释性和针对性,从而克服了以往深度学习方法和实值神经算子在处理电磁问题时的局限。CV-NeuralOp 将 GNN 的消息传递 (message passing) 机制与格林函数积分的数学形式联系起来,形成一个物理启发的深度学习框架,代表了电磁仿真加速技术的一个重要演进方向。

3.4. 差异化分析

本文的 CV-NeuralOp 与相关工作的主要区别和创新点体现在以下几个方面:

  1. 复杂值处理能力 (Complex-valued capability):

    • 现有神经算子: 大多数现有的神经算子(如 [40]-[42])主要是为实值 (real-valued) 偏微分方程设计的,未明确考虑电磁场固有的复杂值特性。
    • CV-NeuralOp: 本文明确设计了复杂值神经算子 (CV-NeuralOp),能够直接处理和学习复杂值数据,这对于精确模拟电磁场(包含幅度和相位)至关重要。
  2. 物理启发与格林函数 (Physics-inspired with Green's function):

    • 传统深度学习方法: 许多端到端 (end-to-end) 方法是纯数据驱动的“黑盒”模型,缺乏物理可解释性。
    • CV-NeuralOp: 受到格林函数方法 (Green's function method) 的启发,通过迭代算法框架来近似包含格林函数理论的积分算子。这种设计将电磁学的基本物理原理(格林函数作为点源响应)融入模型,提高了模型的解释性和鲁棒性。
  3. 近似积分算子 (Approximating integral operator):

    • 传统数值方法 (如 MoM): 直接数值求解积分方程,涉及构建和操作大型矩阵,计算成本高。
    • CV-NeuralOp: 将核积分的数值计算与消息传递图神经网络 (message passing GNN) 关联起来。GNN 的信息聚合机制被设计来近似积分操作,从而避免了传统方法中耗时的矩阵构建和求解过程,实现了更快的推理速度。
  4. 对域形状和网格密度的泛化能力 (Generalization to domain shapes and grid densities):

    • 传统深度学习方法: 大多是网格依赖 (mesh-dependent)规则域限制 (regular domain limited) 的。
    • CV-NeuralOp: 继承了神经算子的核心优势,能够适应不同形状的计算域(如方形和十字形),并泛化到在训练中未见过的不同网格密度,甚至非均匀网格(通过微调)。这是其相较于传统深度学习方法的一个显著优势。
  5. 计算效率 (Computational efficiency):

    • MoM: 尽管精度高,但在线计算时间长,尤其是对于大型问题。

    • CV-NeuralOp: 经过离线训练后,在线推理速度显著提升,尤其是在 GPU 上,比 MoM 具有更优越的计算效率,同时保持了高精度。

      综上所述,CV-NeuralOp 的核心创新在于它是一个复杂值、物理启发、基于 GNN 的神经算子,能够高效、准确且灵活地解决电磁波动方程,并克服了现有方法在复杂值数据处理、物理可解释性、以及对网格和域形状泛化能力方面的局限。

4. 方法论

4.1. 方法原理

CV-NeuralOp 的核心原理是利用图神经网络 (Graph Neural Network, GNN) 来近似格林函数方法 (Green's function method) 中涉及的积分算子。在格林函数方法中,二维波动方程的散射场可以通过一个包含格林函数和源项的核积分来表示。当介质不均匀时,格林函数通常没有闭合形式 (closed-form expression),导致这个核积分难以高效计算。

CV-NeuralOp 观察到这个核积分的数值计算过程与消息传递图神经网络 (message passing GNN) 的信息聚合机制在数学上具有相似性。具体来说,积分操作可以看作是在整个域上对源项的加权求和,而 GNN 通过节点与其邻居之间的信息传递和聚合,也实现了局部信息的加权组合。

因此,CV-NeuralOp 的方法原理是:

  1. 将计算域离散化为一系列节点,每个节点代表一个子域。

  2. 通过一个多层迭代框架,模拟 GNN 的消息传递过程,其中每层迭代的核函数 κl\kappa_l 被一个深度神经网络 (DNN) 近似。这个核函数学习了格林函数在不同位置和对比度下的响应。

  3. 通过这种方式,整个 GNN 结构被训练来近似格林函数积分算子,直接从输入源项(结合对比度和入射场)映射到输出散射场。

  4. 由于电磁场是复杂值量,CV-NeuralOp 专门设计为复杂值,即其内部的权重、特征和激活函数都能处理复数。

    这种物理启发的设计使得 CV-NeuralOp 能够有效处理不同域形状和网格密度的电磁问题,并实现比传统方法更快的计算速度。

4.2. 核心方法详解 (逐层深入)

4.2.1. 2D 波动方程的数学表述

当一个任意形状的散射体位于域 DD 中时(如原文 Figure 1(a) 所示),散射场 Esca(ρ)E^{sca}(\rho) 和总场 Etot(ρ)E^{tot}(\rho) 满足以下波动方程: 2Esca(ρ)+k2Esca(ρ)=k2χ(ρ)Etot(ρ),ρD \nabla ^ { 2 } E ^ { s c a } ( \rho ) + k ^ { 2 } E ^ { s c a } ( \rho ) = - k ^ { 2 } \chi ( \rho ) E ^ { t o t } ( \rho ) , \rho \in D 其中:

  • Esca(ρ)E^{sca}(\rho): 散射场,是需要求解的复数值量。

  • Etot(ρ)E^{tot}(\rho): 总场。

  • ρ\rho: 空间位置矢量。

  • 2\nabla^2: 拉普拉斯算子 (Laplacian operator)。

  • kk: 波数 (wave number),与频率和介质有关。

  • χ(ρ)\chi(\rho): 对比度分布 (contrast distribution),定义为 ϵ(ρ)/ϵ0(ρ)1\epsilon(\rho) / \epsilon_0(\rho) - 1,表示介质与背景介质(如自由空间)的电介质常数差异。χ\chi 是一个复数值,可以为常数也可以是空间变化的函数。

    鉴于总场 Etot(ρ)=Einc(ρ)+Esca(ρ)E^{tot}(\rho) = E^{inc}(\rho) + E^{sca}(\rho)(其中 Einc(ρ)E^{inc}(\rho) 是入射场),散射场可以与入射场关联起来,得到: 2Esca(ρ)+k2(1+χ)Esca(ρ)=k2χEinc(ρ),ρD \nabla ^ { 2 } E ^ { s c a } ( \rho ) + k ^ { 2 } ( 1 + \chi ) E ^ { s c a } ( \rho ) = - k ^ { 2 } \chi E ^ { i n c } ( \rho ) , \rho \in D 这个方程描述了散射场 Esca(ρ)E^{sca}(\rho) 受到入射场 Einc(ρ)E^{inc}(\rho) 和对比度 χ(ρ)\chi(\rho) 影响的传播。

4.2.2. 格林函数积分算子表述

根据格林函数方法 (Green's function method) 的原理,散射场 Esca(ρ)E^{sca}(\rho) 可以通过格林函数表示为以下积分形式: Esca(ρ)=DGχ(ρ,ρ)(k2χEinc(ρ))dρ,ρD E ^ { s c a } ( \rho ) = \int _ { D } G _ { \chi } ( \rho , \rho ^ { \prime } ) ( - k ^ { 2 } \chi E ^ { i n c } ( \rho ^ { \prime } ) ) d \rho ^ { \prime } , \rho ^ { \prime } \in D 其中:

  • Gχ(ρ,ρ)G_{\chi}(\rho, \rho'): 格林函数,它是点源的基本解 (fundamental solution)。格林函数依赖于对比度 χ\chi,因此其解析计算通常不可行,特别是在不均匀介质中。

  • k2χEinc(ρ)-k^2 \chi E^{inc}(\rho'): 视为等效源项 (equivalent source term)。

    为了简化表达,定义积分算子 LG()\mathcal{L}_G(\cdot) 和源项 u(ρ)u(\rho')LG()=DGχ(ρ,ρ)()dρ,ρD \begin{array} { r } { \mathcal L _ { G } ( \cdot ) = \int _ { D } G _ { \chi } ( \rho , \rho ^ { \prime } ) ( \cdot ) d \rho ^ { \prime } , \rho ^ { \prime } \in D } \end{array} Esca(ρ)=LG(u(ρ)),ρD E ^ { s c a } ( \rho ) = \mathcal { L } _ { G } ( u ( \rho ^ { \prime } ) ) , \quad \rho ^ { \prime } \in D 其中 u(ρ)u(\rho') 表示 k2χEinc(ρ)-k^2 \chi E^{inc}(\rho'). 如果 u(ρ)u(\rho') 是一个复杂值向量(如 u(ρ)Cnu(\rho') \in \mathbb{C}^n),那么 LG(u(ρ))\mathcal{L}_G(u(\rho')) 可以通过神经算子近似为: LG(u(ρ))=σ(Wu(ρ)+Dκρ,ρ,χu(ρ)τρdρ) \mathcal { L } _ { G } ( u ( \boldsymbol { \rho } ^ { \prime } ) ) = \sigma \left( W u ( \boldsymbol { \rho } ^ { \prime } ) + \int _ { D } \kappa _ { \boldsymbol { \rho } , \boldsymbol { \rho } ^ { \prime } , \chi } u ( \boldsymbol { \rho } ^ { \prime } ) \tau _ { \boldsymbol { \rho } ^ { \prime } } d \boldsymbol { \rho } ^ { \prime } \right) 其中:

  • σ:CC\sigma: \mathbb{C} \to \mathbb{C}: 一个可训练的逐元素非线性激活函数 (trainable element-wise function)

  • WCn×nW \in \mathbb{C}^{n \times n}: 一个可训练的复杂值矩阵。

  • τρ\tau_{\rho'}: 一个固定的 Borel 测度 (Borel measure),对于每个 ρD\rho' \in D

  • κρ,ρ,χ:CdCn×n\kappa_{\rho, \rho', \chi}: \mathbb{C}^d \to \mathbb{C}^{n \times n}: 可训练的核函数 (kernel function),它本身是一个深度神经网络 (DNN) 的近似。其输入维度为 dd,并且依赖于 ρ,ρ\rho, \rho'χ\chi

    Borel 测度 τρ\tau_{\rho'} 可以选择为 Lebesgue 测度 Bρ,rB_{\rho', r},它表示以 ρ\rho' 为中心、半径为 rr 的区域。Lebesgue 测度与格林函数的衰减特性一致,并且计算效率高。于是,上式可以写为: LG(u(ρ))=σ(Wu(ρ)+Bρ,rκρ,ρ,χu(ρ)dρ) \mathcal { L } _ { G } ( u ( \rho ^ { \prime } ) ) = \sigma \left( W u ( \rho ^ { \prime } ) + \int _ { \mathcal { B } _ { \rho ^ { \prime } , r } } \kappa _ { \rho , \rho ^ { \prime } , \chi } u ( \rho ^ { \prime } ) d \rho ^ { \prime } \right) 如果域 DD 被离散化为 N×NN \times N 个子域,使用 Monte Carlo 求和方法,可以近似为: Esca(ρi)=σ(Wu(ρi)+1Njij=1Nκρ,ρ,χu(ρj)),i=1N E ^ { s c a } ( \rho _ { i } ) = \sigma \left( W u ( \rho _ { i } ^ { \prime } ) + \frac { 1 } { N } \sum _ { \stackrel { j = 1 } { j \neq i } } ^ { N } \kappa _ { \rho , \rho ^ { \prime } , \chi } u ( \rho _ { j } ^ { \prime } ) \right) , i = 1 \cdots N 这表明散射场在离散点 ρi\rho_i 可以通过对所有其他点 ρj\rho_j 的贡献进行加权求和来计算。

4.2.3. 与消息传递图神经网络 (Message Passing GNN) 的相似性

上述积分的离散化形式与消息传递图神经网络 (message passing GNN) 具有数学上的相似性。一个典型的消息传递 GNN 层定义为: vl+1(ρ)=σ(Wvl(ρ)+1NNρρNρκ(e(ρ,ρ))vl(ρ)) v _ { l + 1 } ( \rho ) = \sigma \left( W v _ { l } ( \rho ) + \frac { 1 } { N _ { N _ { \rho } } } \sum _ { \rho ^ { \prime } \in \mathcal { N } _ { \rho } } \kappa ( e ( \rho , \rho ^ { \prime } ) ) v _ { l } ( \rho ^ { \prime } ) \right) 其中:

  • ll: 层索引。

  • vl(ρ)Rnv_l(\rho) \in \mathbb{R}^n: 节点 ρ\rho 在第 ll 层的特征。

  • e(ρ,ρ)e(\rho, \rho'): 节点 ρ\rhoρ\rho' 之间的边特征 (edge feature)。

  • Nρ\mathcal{N}_\rho: 节点 ρ\rho 的邻居节点集合。

  • NNρN_{\mathcal{N}_\rho}: 邻居节点的数量。

  • WRn×nW \in \mathbb{R}^{n \times n}: 可训练矩阵。

  • κ\kappa: 一个神经网络,根据边特征 e(ρ,ρ)e(\rho, \rho') 生成一个矩阵 Rn×n\mathbb{R}^{n \times n}

    上述 GNN 表达式(方程 8)与核积分的离散化形式(方程 7)在结构上非常相似。它们都包含对当前节点特征的线性变换(Wvl(ρ)W v_l(\rho))以及对其邻居节点特征进行加权求和。主要区别在于,方程 7 累积所有子域的贡献,而方程 8 专注于邻居节点。为了弥补这个差异,并考虑到当节点数量庞大时 GNN 直接对所有节点进行聚合会变得计算繁重,本文采用了多层迭代框架。

4.2.4. CV-NeuralOp 的多层迭代算法框架

CV-NeuralOp 采用一个多层迭代框架来近似积分算子,其整体结构如下: u0(ρ)=Ur(Ir)+jUi(Ii)ul+1(ρ)=σ(Wlul(ρ)+1NNρρNρκl(e(ρ,ρ))ul(ρ))Esca=Dr(uLr)+jDi(uLi) \begin{array} { c } { { \displaystyle u _ { 0 } ( \rho ) = U ^ { r } ( I ^ { r } ) + j U ^ { i } ( I ^ { i } ) } } \\ { { \displaystyle u _ { l + 1 } ( \rho ) = \sigma \left( W _ { l } u _ { l } ( \rho ) + \frac 1 { N _ { N _ { \rho } } } \sum _ { \rho ^ { \prime } \in \mathcal { N } _ { \rho } } \kappa _ { l } ( e ( \rho , \rho ^ { \prime } ) ) u _ { l } ( \rho ^ { \prime } ) \right) } } \\ { { { } } } \\ { { { \displaystyle E ^ { s c a } = D ^ { r } ( u _ { L } ^ { r } ) + j D ^ { i } ( u _ { L } ^ { i } ) } } } \end{array} 这个框架是 CV-NeuralOp 的核心计算流程,它描述了从输入到输出的迭代信息处理。让我们逐一解释其中的部分:

  1. 初始特征映射 (u0(ρ)u_0(\rho)):

    • u0(ρ)=Ur(Ir)+jUi(Ii)u_0(\rho) = U^r(I^r) + j U^i(I^i)
    • 这是迭代的起始点。输入特征 Ir,iI^{r,i}(包括源项、对比度等)通过上采样 DNN (upsampling DNN) UrU^rUiU^i 分别映射到实部和虚部,然后组合成初始的复杂值节点特征 u0(ρ)u_0(\rho)
    • Ir,iI^{r,i}: 原始输入,包含实部 IrI^r 和虚部 IiI^i
    • Ur,Ui:RdiRnfU^r, U^i: \mathbb{R}^{d_i} \to \mathbb{R}^{n_f}: 分别是处理实部和虚部的上采样深度神经网络 (upsampling DNNs)。它们将原始输入特征从 did_i 维映射到更高的特征维度 nfn_f
    • nfn_f: 每个节点特征的维度 (dimension of each node feature)。
  2. 迭代层 (ul+1(ρ)u_{l+1}(\rho)):

    • ul+1(ρ)=σ(Wlul(ρ)+1NNρρNρκl(e(ρ,ρ))ul(ρ))u_{l+1}(\rho) = \sigma \left( W_l u_l(\rho) + \frac 1 { N_{\mathcal{N}_\rho} } \sum_{\rho' \in \mathcal{N}_\rho} \kappa_l ( e(\rho, \rho') ) u_l(\rho') \right)
    • 这是一个典型的消息传递 (message passing) 步骤,在 l=0,1,,L1l=0, 1, \ldots, L-1 之间进行。
    • ll: 层索引 (layer index)。LL 是总的层数。
    • ul(ρ)u_l(\rho): 节点 ρ\rho 在第 ll 层的复杂值特征。
    • σ:CC\sigma: \mathbb{C} \to \mathbb{C}: 逐元素的复杂值非线性激活函数。
    • WlCnf×nfW_l \in \mathbb{C}^{n_f \times n_f}: 第 ll 层的可训练复杂值线性变换矩阵。它对当前节点自身的特征进行变换。
    • Nρ\mathcal{N}_\rho: 节点 ρ\rho 的邻居节点集合。
    • NNρN_{\mathcal{N}_\rho}: 邻居节点的数量。
    • κl(e(ρ,ρ))\kappa_l (e(\rho, \rho')): 第 ll 层的可训练复杂值核函数 (kernel function),它是一个 DNN,根据边特征 e(ρ,ρ)e(\rho, \rho') 生成一个 nf×nfn_f \times n_f 的复杂值矩阵。这个矩阵对邻居节点特征 ul(ρ)u_l(\rho') 进行加权变换。
    • ρNρ\sum_{\rho' \in \mathcal{N}_\rho} \ldots: 对所有邻居节点的信息进行聚合。
  3. 最终输出 (EscaE^{sca}):

    • Esca=Dr(uLr)+jDi(uLi)E^{sca} = D^r(u_L^r) + j D^i(u_L^i)
    • 经过 LL 层迭代后,最终的节点特征 uL(ρ)u_L(\rho) 被分离为实部 uLru_L^r 和虚部 uLiu_L^i
    • uLr,uLiu_L^r, u_L^i: 最终迭代层 LL 的节点特征的实部和虚部。
    • Dr,Di:RnfRD^r, D^i: \mathbb{R}^{n_f} \to \mathbb{R}: 分别是处理实部和虚部的下采样深度神经网络 (downsampling DNNs),它们将高维节点特征映射回一维的散射场实部和虚部。

4.2.5. 输入特征和边特征

为了提供足够的信息给神经网络,输入和边特征被精心设计:

  • 输入特征 (Ir,iI^{r,i}): 维度为 di=5d_i=5 Ir,i=[k2χEinc(ρ)]r,iχr,i[Einc(ρ)]r,iρ \begin{array} { r } { I ^ { r , i } = [ - k ^ { 2 } \chi E ^ { i n c } ( \rho ) ] ^ { r , i } \oplus \chi ^ { r , i } \oplus [ E ^ { i n c } ( \rho ) ] ^ { r , i } \oplus \rho } \end{array} 其中:

    • [k2χEinc(ρ)]r,i[ -k^2 \chi E^{inc}(\rho) ]^{r,i}: 源项的实部和虚部。
    • χr,i\chi^{r,i}: 对比度 χ\chi 的实部和虚部。
    • [Einc(ρ)]r,i[ E^{inc}(\rho) ]^{r,i}: 入射场 Einc(ρ)E^{inc}(\rho) 的实部和虚部。
    • ρ\rho: 节点的位置(笛卡尔坐标下的 x, y 坐标)。
    • \oplus: 表示张量拼接操作 (concatenation of two tensors)。
  • 边特征 (e(ρ,ρ)e(\rho, \rho')): 维度为 de=8d_e=8 e(ρ,ρ)=ρρχr(ρ)χi(ρ)χr(ρ)χi(ρ) \begin{array} { r } { e ( \rho , \rho ^ { \prime } ) = \rho \oplus \rho ^ { \prime } \oplus \chi ^ { r } ( \rho ) \oplus \chi ^ { i } ( \rho ) \oplus \chi ^ { r } ( \rho ^ { \prime } ) \oplus \chi ^ { i } ( \rho ^ { \prime } ) } \end{array} 其中:

    • ρ,ρ\rho, \rho': 两个互连节点的位置(笛卡尔坐标)。
    • χr(ρ),χi(ρ)\chi^r(\rho), \chi^i(\rho): 节点 ρ\rho 处对比度 χ\chi 的实部和虚部。
    • χr(ρ),χi(ρ)\chi^r(\rho'), \chi^i(\rho'): 节点 ρ\rho' 处对比度 χ\chi 的实部和虚部。 边特征包含了两个互连节点的位置信息以及它们各自的介质属性,这对于核函数 κl\kappa_l 学习局部相互作用至关重要。

4.2.6. 复杂值参数的分解

为了在实值深度学习框架中实现复杂值操作,复杂值矩阵 WlW_l 和复杂值核函数 κl\kappa_l 被分解为实部和虚部: Wl=Wlr+jWli,κl=κlr+jκli, \begin{array} { c } { { W _ { l } = W _ { l } ^ { r } + j W _ { l } ^ { i } , } } \\ { { \kappa _ { l } = \kappa _ { l } ^ { r } + j \kappa _ { l } ^ { i } , } } \end{array} 其中 Wlr,WliRnf×nfW_l^r, W_l^i \in \mathbb{R}^{n_f \times n_f} 是实值矩阵,而 κlr,κli:RdeRnf×nf\kappa_l^r, \kappa_l^i: \mathbb{R}^{d_e} \to \mathbb{R}^{n_f \times n_f} 是两个独立的实值深度神经网络。这意味着,整个复杂值运算实际上是通过两个独立的实值运算(一个处理实部,一个处理虚部)来完成的,但它们在逻辑上是耦合的。

4.2.7. 深度神经网络架构

原文 Figure 2 展示了 Ur,Ui,Dr,Di,κr,κiU^r, U^i, D^r, D^i, \kappa^r, \kappa^i 的具体架构。它们都基于线性层 (linear layers)PReLU 非线性激活函数 (PReLU nonlinearities) 构建。值得注意的是,Ur,Dr,κrU^r, D^r, \kappa^rUi,Di,κiU^i, D^i, \kappa^i 共享相同的 DNN 结构,但它们拥有独立的参数。

Fig. 2. The architectures of the applied deep neural networks. (a), (b) and (c) are the upsampling DNN \(U ^ { r } / \\bar { U } ^ { i }\) , the downsampling DNN \(D ^ { r } / D ^ { i }\) , the kernel DNN \({ \\bar { \\kappa } _ { l } ^ { r } } / { \\bar { \\kappa } _ { l } ^ { i } }\) . The width of hidden layers in \(\\bar { \\kappa } _ { l } ^ { r } / \\bar { \\kappa } _ { l } ^ { i }\) is denoted as `_ w` .
该图像是插图,展示了应用的深度神经网络架构。其中,(a)、(b)和(c)分别表示上采样 DNN Ur/UˉiU^{r}/\bar{U}^{i}、下采样 DNN Dr/DiD^{r}/D^{i} 以及核 DNN κˉlr/κˉli\bar{\kappa}_{l}^{r}/\bar{\kappa}_{l}^{i}。每个模块包括线性层和 PReLU 非线性层,具体结构细节通过公式 Linear[di]n/2Linear-[d_i]^{{n/2}}PReLU Nonlinearity 等展示。

上图(原文 Figure 2)展示了所用深度神经网络的架构。(a)、(b)和(c)分别是上采样 DNN Ur/UˉiU^{r}/\bar{U}^{i}、下采样 DNN Dr/DiD^{r}/D^{i} 以及核 DNN κˉlr/κˉli{ \bar { \kappa } _ { l } ^ { r } } / { \bar { \kappa } _ { l } ^ { i } }。隐藏层的宽度在 κˉlr/κˉli\bar { \kappa } _ { l } ^ { r } / \bar { \kappa } _ { l } ^ { i } 中表示为 ww

4.2.8. 图的构建原则和信息聚合

为了将离散化的计算域 DD 转换为图结构,遵循以下原则:

  1. 节点定义: 每一个离散化的子域都被视为图中的一个节点。

  2. 邻居集合 (Nρ\mathcal{N}_\rho): 位于 ρ\rho 处的节点的邻居集合包括所有落在以 ρ\rho 为中心、半径为 rr 的 Lebesgue 测度 Bρ,rB_{\rho, r} 内的其他节点。

  3. 半径 rr: Lebesgue 测度 Bρ,rB_{\rho, r} 的半径 rr 对所有节点保持一致。

  4. 层数 LL: 迭代层数 LL 必须满足条件 L×rmax(dist(ρ,ρ))L \times r \ge max(dist(\rho, \rho')),其中 dist(ρ,ρ)dist(\rho, \rho') 是任意两个子域之间的距离。这个条件确保了经过 LL 层迭代后,所有子域的贡献都能被包含在内,从而准确近似积分算子。

    Fig. 3. Illustration depicting the node aggregation between the \(( l - 1 )\) -th and \(l\) -th iterations. The information from blue nodes is initially aggregated into the yellow nodes during the \(( l - 1 )\) -th iteration, which is subsequently further aggregated into the green nodes in the \(l\) -th iteration. 该图像是示意图,展示了节点聚合过程。在左侧的 (l1)(l - 1) 次迭代中,蓝色节点的信息首先聚合到黄色节点上,随后在右侧的 ll 次迭代中,这些黄色节点的信息进一步聚合到绿色节点。图中标注了“邻近节点”及两次迭代的区别。

上图(原文 Figure 3)描绘了 (l-1) 次迭代和 ll 次迭代之间的节点聚合过程。在 (l-1) 次迭代中,来自蓝色节点的信息首先聚合到黄色节点中,随后在 ll 次迭代中,这些信息进一步聚合到绿色节点中。

Figure 3 形象地展示了信息如何在不同层之间聚合。在 (l-1) 层,蓝色节点的信息(通过边)聚合到黄色节点。在 ll 层,这些黄色节点的信息进一步聚合到绿色节点。通过多层迭代,信息可以从远距离的节点传播到目标节点,从而模拟积分算子对整个域的依赖性。

5. 实验设置

5.1. 数据集

实验中,CV-NeuralOp 被用于求解在方形和十字形域中的二维波动方程。

  • 激励源 (Transmitter): 放置在半径为 1.67m 的圆形路径上。

  • 入射波 (Incident Wave): 由线源在 3GHz 的频率下产生。入射角在 [0,90,180,270][0^\circ, 90^\circ, 180^\circ, 270^\circ] 之间变化。

  • 散射体 (Scatterers):DD 内随机放置四个圆柱体。每个圆柱体具有不同的几何和电学参数,如表 I 所示。背景介质为自由空间。

    以下是原文 Table I 提供的散射体参数:

    CylinderχrχiRadius
    Cylinder 1[0, 1][−1, 0]0.015-0.035m
    Cylinder 2[0, 1][-2, −1]0.015-0.035m
    Cylinder 3[1, 2][-1, 0]0.015-0.035m
    Cylinder 4[1, 2][-2, −1]0.015-0.035m
  • 域形状 (Domain Shapes):

    • 方形域 (Square Domain): 尺寸为 0.15m \times 0.15m,离散化为 32×3232 \times 32 的正方形网格(如原文 Figure 1(a) 所示)。

    • 十字形域 (Cruciform Domain): 通过从方形域的每个角切除一个 0.0375m \times 0.0375m 的正方形部分而生成(如原文 Figure 1(b) 所示)。如果任何散射体部分位于被移除的角区域内,则这些部分也被移除。

      以下是原文 Figure 1 提供的模型配置示意图:

      Fig. 1. Model configuration for 2D wave equation. The computational domain \(D\) is centered at the origin \(^ o\) The scatterer immersed inside \(D\) is illuminated by the incident wave. 该图像是示意图,展示了2D波动方程求解中的模型配置,包括方形区域和十字形区域。在每个区域内,散射体的位置以 oo 表示,计算域 DD 也被标注出来,波源以箭头形状表示。

上图(原文 Figure 1)展示了2D波动方程的模型配置。计算域 DDoo 为中心。浸入 DD 中的散射体受到入射波的照射。

  • 数据生成: 10000 个数据样本使用矩量法 (Method of Moments, MoM) 生成,用于训练和测试。这些样本以 80%20%80\% - 20\% 的比例划分为训练集和测试集。

  • Lebesgue 测度半径: Lebesgue 测度 Bρ,rB_{\rho, r} 的半径 rr 设置为 0.02m

  • 迭代层数: 为确保 L×rmax(dist(ρ,ρ))L \times r \ge max(dist(\rho, \rho'))(即信息能从最远节点传播到目标节点),迭代层数 LL 固定为 10。

  • 节点特征维度和核 DNN 宽度: 节点特征 nfn_f 为 32,核 DNN κlr,i\kappa_l^{r,i} 的宽度 ww 为 128。

5.2. 评估指标

CV-NeuralOp 的目标函数是衡量预测值与真实标注数据 (Ground Truth) 之间的均方误差 (Mean Squared Error, MSE),定义如下:

5.2.1. 均方误差 (Mean Squared Error, MSE)

  • 概念定义: 均方误差是衡量预测值与真实值之间差异的常用指标。它计算预测误差的平方的平均值。MSE 的值越小,表示模型的预测精度越高。在本工作中,由于处理的是复杂值场,MSE 分别计算实部和虚部的误差平方和,然后求和。
  • 数学公式: MSE=Epsca,rEtsca,rF2N2+Epsca,iEtsca,iF2N2 M S E = \frac { | | E _ { p } ^ { s c a , r } - E _ { t } ^ { s c a , r } | | _ { F } ^ { 2 } } { N ^ { 2 } } + \frac { | | E _ { p } ^ { s c a , i } - E _ { t } ^ { s c a , i } | | _ { F } ^ { 2 } } { N ^ { 2 } }
  • 符号解释:
    • Epsca,rE_{p}^{sca,r}: 预测的散射场实部。
    • Etsca,rE_{t}^{sca,r}: 真实的散射场实部(由 MoM 产生)。
    • Epsca,iE_{p}^{sca,i}: 预测的散射场虚部。
    • Etsca,iE_{t}^{sca,i}: 真实的散射场虚部(由 MoM 产生)。
    • F||\cdot||_F: Frobenius 范数 (Frobenius norm)。对于矩阵 AA,其 Frobenius 范数定义为 AF=i=1mj=1naij2||A||_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n |a_{ij}|^2}。在这里,它衡量了预测场与真实场矩阵之间每个元素差的平方和的平方根。
    • N2N^2: 计算域中离散化网格的总节点数量(例如,对于 32×3232 \times 32 的网格,总节点数是 N×N=32×32=1024N \times N = 32 \times 32 = 1024)。除以 N2N^2 是为了对误差进行归一化,得到平均误差。

5.3. 对比基线

本文将 CV-NeuralOp 的性能与以下方法进行了比较:

  • 矩量法 (Method of Moments, MoM): MoM 被用作生成真实标注数据 (Ground Truth) 的方法,同时也是评估 CV-NeuralOp 计算精度和计算时间的主要基线 (Primary Baseline)。它代表了传统数值方法的精度标杆。
  • 卷积神经网络 (Convolutional Neural Network, CNN): 为了进一步验证 CV-NeuralOp 的有效性,将其与一个典型的卷积神经网络 (CNN) 模型进行比较。CNN 模型由十个层组成,每层包含一个卷积层(核大小 3×33 \times 3,填充为 1)和一个 PReLU 激活函数。CNN 代表了一种纯数据驱动的深度学习方法,其设计没有像 CV-NeuralOp 那样直接融入物理原理。

5.4. 训练细节

  • 实现框架: CV-NeuralOp 使用 PyTorch 实现。
  • 硬件: 训练在单个 Nvidia V100 GPU 上执行。
  • 优化器: 采用 Adam 优化器来优化 CV-NeuralOp 的参数。
  • 学习率: Adam 优化器的初始学习率设置为 0.001,每 5 个训练周期 (epochs) 学习率会下降 0.8 倍。
  • 训练周期: 总共训练 20 个周期,与 CNN 对比实验中 CNN 的训练周期一致。

5.5. 附加实验设置

  • 泛化能力测试:
    • 未见散射体形状: 在方形域内使用八种不同的散射体形状进行测试,这些形状与训练中使用的圆柱体不同。对比度实部和虚部在 [0, 2][2,0][-2, 0] 之间变化。每种形状生成 40 个数据样本。
    • 超出范围对比值: 测试对比值超出训练范围的散射体,例如 2.1j2.12.1 - j2.1, 2.3j2.32.3 - j2.3, 2.5j2.52.5 - j2.5
    • 不同网格密度:32×3232 \times 32 网格上训练后,测试在 48×4848 \times 4864×6464 \times 64 网格密度下的性能。每种网格密度生成 40 个数据样本。
  • 非均匀网格能力:
    • 计算域为半径 0.075m 的圆形,使用三角形元素进行离散化。
    • 嵌入三个形状不同的散射体,对比度随机分配在表 I 的范围内。
    • 使用在均匀网格上预训练的 CV-NeuralOp 模型进行微调 (fine-tuning)。生成 100 个 MoM 数据样本,80% 用于微调,20% 用于测试。微调 5 个周期。
  • 平面波激励和强散射体能力:
    • 将线源替换为平面波激励。
    • 考虑对比度在 [3j3,4j3.8][3-j3, 4-j3.8] 范围内的强散射体。
    • 生成 120 个数据样本,80% 用于微调,20% 用于测试。微调 20 个周期。
  • 计算性能比较:
    • MoM 的计算包括矩阵建立和求解两步。矩阵求解采用共轭梯度平方 (Conjugate Gradients Squared, CGS) 方法。CGS 的停止准则是相对残差 η<1×108\eta < 1 \times 10^{-8}
    • 计算平台:MoM 在 Intel(R) Xeon(R) Gold 6342 CPU 上运行,CV-NeuralOp 在 Nvidia RTX A6000 GPU 上运行。
    • 比较目标是在相同的波方程和相似的 MSE 级别下进行计算时间的比较。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 方形域中的求解

在尺寸为 0.15m \times 0.15m 的方形域(离散为 32×3232 \times 32 网格)中,CV-NeuralOp 求解波动方程的 MSE 收敛曲线如图 4 所示。训练和测试数据的 MSE 曲线都表现出快速下降,并在 20 个周期内趋于稳定。这表明 CV-NeuralOp 由于其物理启发结构,相对容易训练并达到良好性能。最终,训练和测试 MSE 分别收敛到 2.175×1052.175 \times 10^{-5}2.424×1052.424 \times 10^{-5}

Fig. 4. MSE convergence curves of CV-NeuralOp when solving 2D wave equations in both square and cruciform domains. In the legend, "S" and "C" denotes the square and cruciform domains respectively.
该图像是图表,展示了CV-NeuralOp在解决二维波动方程时的均方误差(MSE)收敛曲线,分别对应于方形和十字形域。在图例中,'S'和'C'分别代表方形和十字形域的训练及测试均方误差。

上图(原文 Figure 4)展示了 CV-NeuralOp 在求解方形和十字形域中的二维波动方程时的 MSE 收敛曲线。图例中的“S”和“C”分别表示方形和十字形域。

Figure 5(a) 显示了方形域训练和测试数据样本的 MSE 直方图。图中标记的均值和标准差与 MSE 收敛曲线的结果一致,均值和标准差都很小,表明模型预测误差集中在低水平。

Fig. 5. MSE histograms of the scattered fields computed by CV-NeuralOp when the domain is square and cruciform. The corresponding mean and std values are denotated in the figure.
该图像是两个均方误差(MSE)直方图,分别展示了在方形和十字形域中通过CV-NeuralOp计算的散射场。图(a)显示了方形域的训练和测试数据的MSE分布,图(b)则展示了十字形域的相应数据。每个直方图中,包括了训练和测试数据的均值与标准差。

上图(原文 Figure 5)展示了 CV-NeuralOp 计算的散射场在方形和十字形域中的 MSE 直方图。图中标记了相应的均值和标准差。

Figure 6 比较了 CV-NeuralOp 和 MoM 计算的方形域散射场。尽管不同情况下源项 k2χEinc(ρ)-k^2 \chi E^{inc}(\rho) 有所不同,CV-NeuralOp 的预测散射场 EpscaE_p^{sca}真实标注数据 (Ground Truth) EtscaE_t^{sca} 紧密匹配,绝对误差分布 ϵ(Esca,r)\epsilon(E^{sca,r}) 保持在较低水平,证明了其高计算精度。

Fig. 6. Comparison of scattered fields in square domain computed by CVNeuralOp and MoM. (a), (b) and (c) are three cases with different cylinder distributions. In each sub-figure, from left to right are \(- k ^ { 2 } \\chi E ^ { i n c } ( \\rho )\) , \(E _ { t } ^ { s c a }\) , \(E _ { p } ^ { s c a }\) and \(\\epsilon ( E ^ { s c a } )\) parts respectively.
该图像是图表,展示了使用 CV-NeuralOp 和 MoM 方法计算的在方形区域内不同圆柱分布下的散射场比较。图中的 (a),(b) 和 (c) 分别表示三种不同的圆柱分布情况。每个子图从左到右呈现了 k2χEinc(ρ)- k ^ { 2 } \chi E ^ { i n c } ( \rho )EtscaE _ { t } ^ { s c a }EpscaE _ { p } ^ { s c a }ϵ(Esca)\epsilon ( E ^ { s c a } ) 的场分布情况。

上图(原文 Figure 6)比较了 CV-NeuralOp 和 MoM 计算的方形域散射场。(a)、(b)和(c)是三种不同圆柱分布的情况。在每个子图中,从左到右依次是 k2χEinc(ρ)-k^2 \chi E^{inc}(\rho)EtscaE_t^{sca}EpscaE_p^{sca}ϵ(Esca)\epsilon(E^{sca}) 部分。

6.1.2. 十字形域中的求解

十字形域通过从方形域的四个角切除部分而得到。在此不规则域中,CV-NeuralOp 的 MSE 收敛曲线(Figure 4 中的“C”线)显示,在 20 个周期时,训练和测试 MSE 值分别为 3.435×1053.435 \times 10^{-5}4.055×1054.055 \times 10^{-5}。这些值略高于方形域的结果,表明不规则域可能带来轻微的挑战。

Figure 5(b) 描绘了十字形域的相应 MSE 直方图。其均值和标准差都略高于方形域的情况,与 MSE 收敛曲线结果一致。Figure 7 展示了 CV-NeuralOp 和 MoM 计算的十字形域散射场的三种比较情况。预测结果与真实标注数据高度吻合,绝对误差保持在低水平,证实了 CV-NeuralOp 在不规则十字形域中也能持续产生可靠的结果。

Fig. 7. Comparison of scattered fields in cruciform domain computed by CVNeuralOp and MoM. (a), (b) and (c) are three cases with different cylinder distributions. In each sub-figure, from left to right are \(- k ^ { 2 } \\chi E ^ { i n c } ( \\rho )\) , \(E _ { t } ^ { s c a }\) , \(E _ { p } ^ { s c a }\) and \(\\epsilon ( E ^ { s c a } )\) parts respectively.
该图像是图表,编号为图7,展示了CV-NeuralOp和MoM计算的十字形域中散射场的比较。图中分为三种情况((a)、(b)、(c)),每种情况的子图从左至右依次显示 k2χEinc(ρ)-k^2 \chi E^{inc}(\rho)EtscaE_{t}^{sca}EpscaE_{p}^{sca}ϵ(Esca)\epsilon(E^{sca}) 部分。不同的圆柱分布导致了散射场的显著差异。

上图(原文 Figure 7)比较了 CV-NeuralOp 和 MoM 计算的十字形域散射场。(a)、(b)和(c)是三种不同圆柱分布的情况。在每个子图中,从左到右依次是 k2χEinc(ρ)-k^2 \chi E^{inc}(\rho)EtscaE_t^{sca}EpscaE_p^{sca}ϵ(Esca)\epsilon(E^{sca}) 部分。

6.1.3. 与卷积神经网络 (CNN) 的比较

为了进一步验证 CV-NeuralOp 的有效性,论文将其与一个十层的 CNN 模型进行了比较。CNN 模型使用与 CV-NeuralOp 相同的训练数据进行训练,并在 20 个周期后停止。

Figure 8(a) 显示,CV-NeuralOp 的收敛 MSE 损失远低于 CNN 模型。Figure 8(b) 比较了测试数据集中随机选择的散射场。可以观察到,CV-NeuralOp 的预测结果 ECVNeuralOpscaE_{CV-NeuralOp}^{sca} 明显优于 CNN 的预测结果 ECNNscaE_{CNN}^{sca}

Fig. 8. Comparisons of MSE loss curves (a) and scattered fields (b) of CNN and CV-NeuralOp. In sub-figure (a), "CNN" and "GNN" denotes the CNN and CV-NeuralOp respectively. In sub-figure (b), from left to right are \(\\chi\) \(E _ { C V - N e u r a l O p } ^ { s c a }\) , true scattered field and CNN \(E _ { t } ^ { s c a }\) , the scattered field computed by CV-NeuralOp \(E _ { C N N } ^ { s c a }\) and imaginary parts respectively.
该图像是图表与散射场示意图,展示了CNN与CV-NeuralOp的对比结果。子图(a)为均方误差(MSE)损失曲线,纵轴为MSE,横轴为训练轮数,分别显示了CNN和CV-NeuralOp的训练和测试曲线。在子图(b)中,从左到右依次为散射场χECVNeuralOpsca\chi E_{CV-NeuralOp}^{sca}、真实散射场和CNN计算的散射场ECNNscaE_{CNN}^{sca}。整体上,CV-NeuralOp表现出更优的性能。

上图(原文 Figure 8)比较了 CNN 和 CV-NeuralOp 的 MSE 损失曲线(a)和散射场(b)。在子图(a)中,“CNN”和“GNN”分别表示 CNN 和 CV-NeuralOp。在子图(b)中,从左到右依次是 χ\chiECVNeuralOpscaE_{CV-NeuralOp}^{sca}、真实散射场和 CNN 计算的散射场 ECNNscaE_{CNN}^{sca} 以及虚部。

这种性能差异归因于 CV-NeuralOp 的构建基于消息传递图神经网络 (message passing GNN) 与积分算子之间的数学相似性。与完全数据驱动的 CNN 模型相比,融入电磁物理知识能够显著提升性能并简化训练过程。

6.1.4. 对未见散射体的泛化能力

CV-NeuralOp 的泛化能力在训练时未见过的散射体形状和对比度值上进行了验证。

  • 未见散射体形状: 论文测试了方形域中八种不同于训练所用圆柱体的散射体形状(如 Figure 9 所示)。对比度的实部和虚部在 [0, 2][2,0][-2, 0] 之间变化。最终的 MSE 值为 6.89×1056.89 \times 10^{-5}。尽管这些形状在训练时未曾出现,CV-NeuralOp 依然保持了高计算精度,证实了其泛化能力。

    Fig. 9. Generalization of CV-NeuralOp on unseen scatterer shapes. In each sub-figure, the first, second and third rows are scatterer, scattered fields solved by MoM and CV-NeuralOp. 该图像是图表,展示了CV-NeuralOp在未见散射体形状上的泛化能力。每个子图的第一、第二和第三行分别为散射体、由方法(MoM)求解的散射场和CV-NeuralOp求解的散射场。图中的(a)部分表示实部,(b)部分表示虚部。

上图(原文 Figure 9)展示了 CV-NeuralOp 在未见散射体形状上的泛化能力。在每个子图中,第一、第二和第三行分别为散射体、由 MoM 求解的散射场和 CV-NeuralOp 求解的散射场。

  • 超出范围对比值: CV-NeuralOp 对超出训练范围的对比值(如 2.1j2.12.1 - j2.1, 2.3j2.32.3 - j2.3, 2.5j2.52.5 - j2.5)的泛化能力也进行了考察。Figure 10 显示,即使输入对比度超出训练范围,CV-NeuralOp 的预测结果也与 MoM 的结果紧密匹配。这三个案例的相应 MSE 值分别为 2.21×1052.21 \times 10^{-5}, 2.88×1052.88 \times 10^{-5}, 3.74×1053.74 \times 10^{-5}

    Fig. 10. Generalization of CV-NeuralOp on out-of-range contrast values. The contrast value of each column is: (from left to right) \(2 . 1 - j 2 . 1 \) \(2 . 3 \\mathrm { - } j 2 . 3 \) and \(2 . 5 - j 2 . 5\) . In each sub-figure, from left to right are the the first, second and third rows are scatterer, scattered fields solved by MoM and CV-NeuralOp. 该图像是插图,展示了 CV-NeuralOp 在不同对比值下的推广效果。左侧 (a) 显示了实部的散射体和通过矩量法 (MoM) 及 CV-NeuralOp 求解的散射场,而右侧 (b) 则呈现了相应的虚部。对比值从左至右为 2.1j2.12.1 - j2.12.3j2.32.3 - j2.32.5j2.52.5 - j2.5,每列中包含散射体、MoM 解和 CV-NeuralOp 解的图像。

上图(原文 Figure 10)展示了 CV-NeuralOp 在超出范围对比值上的泛化能力。每列的对比值从左到右依次为:2.1j2.12.1 - j2.12.3j2.32.3 - j2.32.5j2.52.5 - j2.5。在每个子图中,从左到右依次是第一、第二和第三行:散射体、由 MoM 求解的散射场和 CV-NeuralOp 求解的散射场。

6.1.5. 对网格密度的泛化能力

CV-NeuralOp 的泛化能力在不同网格密度下进行了评估。模型在 32×3232 \times 32 网格密度的数据上训练,然后用于求解 48×4848 \times 4864×6464 \times 64 网格密度下的波动方程。尽管网格密度增加,但 Lebesgue 测度半径 r=0.02m 和迭代层数 L=10L=10 保持不变。

不同网格密度下的 MSE 值分别为:32×3232 \times 323.59×1053.59 \times 10^{-5}48×4848 \times 481.34×1041.34 \times 10^{-4}64×6464 \times 641.96×1041.96 \times 10^{-4}。MSE 随网格密度的增加而略微增加,但 CV-NeuralOp 仍能保持稳定的计算精度。Figure 11 展示了在不同网格密度下,CV-NeuralOp 计算的散射场与 MoM 结果的良好匹配,验证了其在网格密度方面的泛化能力。

Fig. 11. Comparison of scattered fields computed by CV-NeuralOp and MoM under different grid densities. In each sub-figure, the grid density of each column is \(3 2 \\times 3 2\) \(4 8 \\times 4 8\) and \(6 4 \\times 6 4\) respectively.
该图像是图表,展示了由CV-NeuralOp计算的散射场的实部和虚部在不同网格密度下的比较。图中分为两部分,左侧(a)显示实部,右侧(b)显示虚部。每一部分的上排和下排分别代表不同的网格密度情况,具体为 32×3232 \times 3248×4848 \times 4864×6464 \times 64。颜色条指示了场强度的变化。

上图(原文 Figure 11)比较了 CV-NeuralOp 和 MoM 在不同网格密度下计算的散射场。在每个子图中,每列的网格密度分别为 32×3232 \times 3248×4848 \times 4864×6464 \times 64

6.1.6. 对非均匀网格的处理能力

论文还考察了 CV-NeuralOp 处理非均匀网格的能力。在一个半径为 0.075m 的圆形计算域中,使用三角元素进行离散化。由于 CV-NeuralOp 最初是在均匀网格上训练的,直接应用于三角网格表现不佳。因此,采用微调 (fine-tuning) 策略:使用 MoM 生成 100 个数据样本,80% 用于微调,20% 用于测试。经过 5 个周期的微调后,训练和测试 MSE 分别收敛到 9.5×1059.5 \times 10^{-5}1.02×1041.02 \times 10^{-4}。Figure 12 展示了 CV-NeuralOp 和 MoM 获得的散射场之间的对比,显示出高度的准确性。

Fig. 12. Comparison of scattered fields computed by CV-NeuralOp and MoM within the circular domain with triangle meshes. From left to right are \(\\chi\) \(E _ { M o M } ^ { s c a }\) and CV-NeuralOp \(E _ { C V - N e u r a l O p } ^ { s c a }\) \(\\epsilon ( E ^ { s c a } )\) The first and second rows are the real and imaginary parts respectively.
该图像是图表,展示了在圆形区域内,使用三角网格计算的散射场的对比。图像分为上下两行,第一行显示了由方法的时刻(MoM)和CV-NeuralOp计算的散射场的实部,而第二行则展示了它们的虚部。左侧是 MoM 的散射字段 EMoMscaE_{MoM}^{sca},中间是 CV-NeuralOp 的散射字段 ECVNeuralOpscaE_{CV-NeuralOp}^{sca},右侧则是散射场的误差 ϵ(Esca)\epsilon(E^{sca}) 的可视化。

上图(原文 Figure 12)比较了 CV-NeuralOp 和 MoM 在具有三角网格的圆形域中计算的散射场。从左到右依次是 χ\chiEMoMscaE_{MoM}^{sca}ECVNeuralOpscaE_{CV-NeuralOp}^{sca} 以及 ϵ(Esca)\epsilon(E^{sca})。第一行和第二行分别是实部和虚部。

6.1.7. 平面波激励和强散射体能力

为了评估 CV-NeuralOp 在不同激励源下的能力,使用平面波激励取代了线源。对于这种修改,原始模型的性能有所下降,因此再次采用了微调 (fine-tuning) 策略。实验考虑了一个嵌入在域 DD 中的圆柱形散射体,其散射场存在解析解 [54]。考虑了对比度在 [3j3,4j3.8][3-j3, 4-j3.8] 范围内的强散射体,生成了 120 个数据样本,80% 用于微调,20% 用于测试。经过 20 个周期的微调后,训练和测试 MSE 分别收敛到 2.20×1052.20 \times 10^{-5}3.09×1053.09 \times 10^{-5}。作为比较,MoM 在相同样本集上的 MSE 值分别为 1.35×1061.35 \times 10^{-6}1.61×1061.61 \times 10^{-6}。这些结果表明,经过适当微调的 CV-NeuralOp 可以达到与 MoM 相当的预测精度。Figure 13 展示了来自解析解、MoM 和 CV-NeuralOp 的散射场比较,证明了所提方法的高精度。

Fig. 13. Comparison of the analytical solution, the scattered field computed by MoM and CV-NeuralOp. From left to right are \(E _ { a n a l y } ^ { s c a }\) ered d by MoM \(E _ { M o M } ^ { s c a }\) \(\\chi ,\) the analytical solution andl Ci ay pots \(E _ { C V - N e u r a l O p } ^ { \\bar { s } \\bar { c } \\bar { a } }\)
该图像是图表,展示了二维波动方程的散射场比较结果。左侧为由已有解析解得到的散射场 EanalyticalscE_{analytical}^{sc},接下来分别是通过MoM方法计算的散射场 EMoMscE_{MoM}^{sc},以及应用CV-NeuralOp方法得到的散射场 ECVNeuralOpscE_{CV-NeuralOp}^{sc}。图像上下分别呈现不同的场分布,以便于对比不同方法的计算结果和精度。

上图(原文 Figure 13)比较了分析解、MoM 和 CV-NeuralOp 计算的散射场。从左到右依次是 EanalyscaE_{analy}^{sca}、由 MoM 计算的散射场 EMoMscaE_{MoM}^{sca}χ\chi、分析解和 CV-NeuralOp 计算的散射场 ECVNeuralOpscaE_{CV-NeuralOp}^{sca}

6.1.8. 计算性能比较

论文进一步比较了 MoM 和 CV-NeuralOp 求解方形域波动方程的计算性能。MoM 的计算包括矩阵建立和求解两个主要步骤,其中矩阵求解采用共轭梯度平方 (CGS) 方法,停止准则为相对残差 η<1×108\eta < 1 \times 10^{-8}。MoM 在 Intel(R) Xeon(R) Gold 6342 CPU 上运行,CV-NeuralOp 在 Nvidia RTX A6000 GPU 上运行。

以下是原文 Table III 的结果:

MethodGrid DensityMSETime (CPU/GPU)
MoM32 × 322.778 × 10−50.185s/0.110s
CV-NeuralOp32 × 323.089 × 10−52.075s/0.026s
MoM48 × 481.895 × 10−50.548s/0.449s
CV-NeuralOp48 × 483.541 × 10-58.428s/0.123s
MoM64 × 642.233 × 10−51.482s/1.736s
CV-NeuralOp64 × 644.496 × 10−524.870s/0.387s
  • 网格密度影响: 随着网格密度从 32×3232 \times 32 增加到 64×6464 \times 64,未知数数量随之增长,导致 MoM 和 CV-NeuralOp 的计算时间均增加。
  • MoM 性能:
    • 32×3232 \times 3248×4848 \times 48 的网格分辨率下,GPU 上的 CGS 提供了适度的加速。
    • 然而,在 64×6464 \times 64 时,GPU 上的 CGS 由于在 GPU 和 CPU 之间传输大型数组的开销而变慢。
  • CV-NeuralOp 性能:
    • 在 CPU 上运行时,CV-NeuralOp 需要比 MoM 显著更多的时间。这可能是因为深度学习模型的计算图在 CPU 上并行性受限。
    • 然而,在 GPU 上运行时,CV-NeuralOp 表现出更显著的加速,尤其是在更高网格分辨率下,其计算时间远低于 MoM。例如,在 64×6464 \times 64 网格下,CV-NeuralOp 在 GPU 上仅需 0.387s,而 MoM 在 GPU 上需要 1.736s
  • 加速原因: CV-NeuralOp 在 GPU 上的加速可归因于两个主要因素:
    1. 它通过直接近似积分算子,绕过了 MoM 中耗时的矩阵建立过程。

    2. GPU 凭借其并行计算架构,能够高效地同时处理大量未知数。

      总体而言,CV-NeuralOp 在 GPU 上运行时展现出卓越的计算效率,尤其适用于高密度网格的电磁仿真问题,同时保持了与 MoM 相当的精度水平。

6.2. 训练数据准备和模型训练时间

以下是原文 Table II 提供的训练数据准备和模型训练时间:

Data PreparationModel Training
Square Domain≈ 0.6h≈ 21h
Cruciform Domain≈ 0.6h≈ 16h
  • 数据准备时间: 对于方形域和十字形域,数据准备(通过 MoM 生成 10000 个样本)大约需要 0.6 小时。
  • 模型训练时间: CV-NeuralOp 的模型训练时间相对较长,方形域大约需要 21 小时,十字形域大约需要 16 小时。这表明 CV-NeuralOp 模型的离线训练需要显著的计算资源和时间投入。

7. 总结与思考

7.1. 结论总结

本文成功提出了复杂值神经算子 (Complex-valued Neural Operator, CV-NeuralOp),这是一种基于图神经网络 (Graph Neural Network, GNN) 的深度学习方法,旨在高效准确地求解二维波动方程。该方法通过将消息传递图神经网络 (message passing GNN)格林函数方法 (Green's function method) 中的积分算子在数学上建立联系,从而实现了积分算子的近似学习。

通过在方形和十字形域中的二维波动方程求解,CV-NeuralOp 验证了其高计算精度。数值实验结果表明,与传统的矩量法 (Method of Moments, MoM) 相比,CV-NeuralOp 不仅达到了可观的计算精度,而且在 GPU 上运行时显著提高了计算效率,特别是在高网格密度下。

此外,CV-NeuralOp 展现了强大的泛化能力,能够适应训练过程中未曾见过的散射体形状、超出训练范围的对比值以及不同的网格分辨率。经过微调后,该方法还能够有效地处理非均匀三角网格,并应对平面波激励和强散射体等不同场景。

这项工作为电磁仿真提供了一种物理启发式的深度学习方法,通过近似复杂的核积分,绕过了传统方法中耗时的矩阵构建过程,为加速电磁仿真开辟了新途径。

7.2. 局限性与未来工作

作者指出的局限性:

  1. CPU 性能下降: 尽管 CV-NeuralOp 在 GPU 上展现出显著的加速优势,但在 CPU 平台上运行时,其加速效果会减弱,甚至可能比 MoM 慢。这主要是因为 CPU 的并行计算能力有限,无法充分发挥深度学习模型的并行处理优势。
  2. 离线资源需求大: CV-NeuralOp 需要大量的离线资源用于数据生成(通过 MoM 等传统方法)和模型训练。根据实验结果,模型训练时间可能长达数十小时。在某些应用场景中,这种预训练的成本可能会抵消部分在线推理的效率收益。

未来可能的研究方向(作者暗示及推断):

  1. 复杂结构和几何的电磁仿真: CV-NeuralOp 能够适应不规则域和各种网格密度,这为其应用于更复杂结构和几何的电磁仿真奠定了基础。
  2. 不均匀和各向异性目标的建模: 论文提到该方法有望用于不均匀和各向异性目标的高效建模,这可能涉及对核函数和特征表示的进一步拓展。
  3. 三维电磁问题: 本文专注于二维问题,未来工作可以探索将 CV-NeuralOp 扩展到更具挑战性的三维电磁仿真。
  4. 优化训练效率: 探索更高效的数据生成策略或更快的训练算法,以减少离线训练所需的资源和时间。

7.3. 个人启发与批判

个人启发:

  1. 物理启发深度学习的强大潜力: 这篇论文再次强调了将领域知识(如格林函数理论)与深度学习相结合的巨大优势。这种物理启发 (physics-inspired) 的方法不仅提高了模型的性能和泛化能力,还增强了模型的解释性和鲁棒性,使其在工程应用中更具吸引力。
  2. 神经算子在 CEM 中的前景: 神经算子能够学习无限维函数空间之间的映射,使其天生具备网格无关性 (mesh-independence)域形状适应性 (domain shape adaptability)。CV-NeuralOp 的成功应用证明了神经算子在计算电磁学中作为传统数值方法替代品或加速器的巨大潜力,有望突破现有深度学习方法在网格依赖和规则域限制方面的瓶颈。
  3. 复杂值网络的必要性: 电磁场是本质上的复杂值量。明确设计复杂值神经网络 (complex-valued neural networks) 而不是简单地将实部和虚部分开处理,能够更好地捕获电磁波的幅度和相位信息,提高模型的物理准确性。
  4. 微调策略的实用性: 论文通过微调 (fine-tuning) 预训练模型来适应非均匀网格、平面波激励和强散射体等新场景,这展示了一种非常实用的模型部署策略。对于多变的工程问题,一次性训练一个万能模型往往不现实,微调提供了一种在保持高效推理的同时,灵活适应新条件的有效途径。

批判:

  1. 离线训练成本的权衡: 尽管 CV-NeuralOp 在线推理速度快,但其“需要大量离线资源进行数据生成和训练”这一局限性不容忽视。对于那些需要频繁处理全新、多样化问题(如快速原型设计中不断变化的几何结构)的应用场景,每次问题变化都需要重新生成大量 MoM 数据并进行长时间训练,这可能会使其总成本甚至高于直接使用传统 MoM。因此,该方法的适用性可能更偏向于那些在特定物理参数或几何族中进行大量重复仿真的场景。
  2. 泛化能力的边界: 尽管论文展示了对未见散射体形状和超出范围对比值的泛化能力,但其泛化的“边界”仍需进一步探索。例如,如果散射体的复杂性或几何变化幅度更大,或者对比度范围扩展到极端情况,模型的性能会如何?是否需要更多元的数据或更复杂的模型结构来保持泛化能力?
  3. 网格无关性的严格性: 论文强调了网格无关性,但其在不同网格密度下的 MSE 略有增加。这表明虽然模型具有泛化能力,但在网格密度变化较大时,其精度仍受到一定影响。进一步研究如何实现更严格的网格无关性,或者如何通过自适应学习更好地处理网格密度的变化,将是一个有价值的方向。
  4. 核函数 κl\kappa_l 的可解释性: 尽管模型是物理启发的,但作为 GNN 中核心组件的 DNN 核函数 κl\kappa_l 仍然是一个“黑盒”。如果能深入分析 κl\kappa_l 学习到的权重和特征,揭示它如何近似格林函数或捕获物理相互作用,将进一步提升模型的可解释性和信任度。
  5. 与更先进 GNN 架构的结合: 本文基于传统的消息传递 GNN。未来可以探索将 CV-NeuralOp 与更先进的 GNN 架构(如基于注意力机制的 GNN、异构图 GNN 等)结合,以进一步提升模型的表达能力和效率。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。