RL-PINNs: Reinforcement Learning-Driven Adaptive Sampling for Efficient Training of PINNs

Zhenao Song

论文状态：已完成

RL-PINNs: Reinforcement Learning-Driven Adaptive Sampling for Efficient Training of PINNs

发表：2025/04/17

物理信息神经网络 (2)偏微分方程求解 (2)基于强化学习的自适应采样 (1)单轮采样训练 (1)马尔可夫决策过程 (1)

原文链接 PDF 下载

价格：0.10

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为RL-PINNs的强化学习驱动自适应采样框架，旨在提高物理信息神经网络(PINNs)的训练效率。通过将自适应采样形式化为马尔可夫决策过程，RL智能体能够在单轮采样中动态选择最佳训练点，避免了传统方法的多轮采样和冗余点问题。该方法显著提升了准确性和计算效率，尤其在高维和高阶问题中表现优秀。

摘要

Physics-Informed Neural Networks (PINNs) have emerged as a powerful framework for solving partial differential equations (PDEs). However, their performance heavily relies on the strategy used to select training points. Conventional adaptive sampling methods, such as residual-based refinement, often require multi-round sampling and repeated retraining of PINNs, leading to computational inefficiency due to redundant points and costly gradient computations-particularly in high-dimensional or high-order derivative scenarios. To address these limitations, we propose RL-PINNs, a reinforcement learning(RL)-driven adaptive sampling framework that enables efficient training with only a single round of sampling. Our approach formulates adaptive sampling as a Markov decision process, where an RL agent dynamically selects optimal training points by maximizing a long-term utility metric. Critically, we replace gradient-dependent residual metrics with a computationally efficient function variation as the reward signal, eliminating the overhead of derivative calculations. Furthermore, we employ a delayed reward mechanism to prioritize long-term training stability over short-term gains. Extensive experiments across diverse PDE benchmarks, including low-regular, nonlinear, high-dimensional, and high-order problems, demonstrate that RL-PINNs significantly outperforms existing residual-driven adaptive methods in accuracy. Notably, RL-PINNs achieve this with negligible sampling overhead, making them scalable to high-dimensional and high-order problems.

思维导图

论文精读

中文精读约 38 分钟读完 · 21,920 字

1. 论文基本信息

1.1. 标题

RL-PINNs: Reinforcement Learning-Driven Adaptive Sampling for Efficient Training of PINNs (RL-PINNs：强化学习驱动的自适应采样，用于高效训练物理信息神经网络)

1.2. 作者

ZHENAO SONG

1.3. 发表期刊/会议

预印本（arXiv），通常表示论文尚未经过正式同行评审，但已公开发布以供学术交流。

1.4. 发表年份

2025年

1.5. 摘要

本文提出了一种名为 RL-PINNs 的强化学习 (Reinforcement Learning, RL) 驱动自适应采样框架，旨在解决物理信息神经网络 (Physics-Informed Neural Networks, PINNs) 训练中，传统自适应采样方法（如基于残差的细化）因需要多轮采样、重复训练以及昂贵梯度计算而导致的计算效率低下问题。RL-PINNs 将自适应采样建模为马尔可夫决策过程 (Markov Decision Process, MDP)，通过一个 RL 智能体动态选择最优训练点，以最大化长期效用指标，实现了单轮高效采样。关键创新在于，它用计算效率更高的函数变异 (function variation) 替代了依赖梯度的残差度量作为奖励信号，从而消除了导数计算的开销。此外，引入了延迟奖励 (delayed reward) 机制，以优先考虑长期训练稳定性而非短期收益。在包括低正则、非线性、高维和高阶问题在内的多样化偏微分方程 (Partial Differential Equations, PDEs) 基准测试中，RL-PINNs 在准确性方面显著优于现有的残差驱动自适应方法，并且采样开销可忽略不计，使其能够扩展到高维和高阶问题。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2504.12949v1
PDF 链接: https://arxiv.org/pdf/2504.12949v1.pdf
发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

偏微分方程 (Partial Differential Equations, PDEs) 是描述物理现象的核心数学工具，广泛应用于工程、物理和应用数学领域。然而，传统的数值方法（如有限元和有限差分方案）在处理高维问题时，常常面临“维度诅咒” (curse of dimensionality) 的挑战，计算成本呈指数级增长。

近年来，科学机器学习 (scientific machine learning) 领域兴起，利用神经网络的高维近似能力以无网格 (mesh-free) 方式求解 PDEs。其中，物理信息神经网络 (Physics-Informed Neural Networks, PINNs) 通过将物理定律直接嵌入到神经网络的训练过程中（通过残差损失项），使得求解器能够自然地满足控制方程。

尽管 PINNs 具有诸多优势，但其性能很大程度上依赖于训练点（即配置点 (collocation points)）的选择策略。

现有挑战：
1. 均匀随机采样不足： 广泛采用的均匀或随机采样方法，通常无法有效捕捉解中存在剧烈梯度、不连续性或多尺度动力学的区域，导致收敛效率低下和解的准确性不佳。
2. 传统自适应采样方法的局限性： 诸如基于残差的自适应细化 (Residual-Based Adaptive Refinement, RAR) 和基于残差的自适应分布 (Residual-Based Adaptive Distribution, RAD) 等方法，通过在 PDE 残差误差大的区域动态分配更多点来改进采样，但它们存在以下主要限制：
  - 多轮训练开销大： 需要多轮采样和重复训练 PINNs，通常会带来 3-5 倍的计算开销。
  - 计算成本高昂： 残差评估涉及通过自动微分计算 PDE 残差的梯度，这对于高维或高阶 PDEs 来说计算成本过高。
  - 短期优化偏差： 基于瞬时残差的贪婪点选择，往往只关注短期误差减少，而忽视长期训练稳定性，可能导致对局部特征的过度采样和冗余点。
    
    鉴于上述挑战，本文旨在开发一种更高效、可扩展的自适应采样框架，以克服传统方法的限制，特别是在高维和高阶 PDEs 中的应用。

2.2. 核心贡献/主要发现

本文提出了 RL-PINNs，一个强化学习驱动的自适应采样框架，其核心贡献和主要发现如下：

单轮高效采样 (Single-Round Efficient Sampling):
- 将采样点选择问题建模为马尔可夫决策过程 (Markov Decision Process, MDP)，RL 智能体 (agent) 通过与 PDE 解空间交互，学习最优的采样策略。
- 这种方法消除了传统方法中多轮采样和重复训练 PINNs 的需求，使得在单个训练周期内即可实现全面的采样覆盖，显著降低了计算开销。
梯度无关的奖励设计 (Gradient-Free Reward Design):
- 引入了函数变异 (function variation) 作为奖励信号，这是一个计算效率高的解复杂度度量。
- 这取代了传统上依赖梯度的残差度量，从而避免了高维和高阶 PDEs 中昂贵的自动微分计算，提高了方法的可扩展性。
延迟奖励机制 (Delayed Reward Mechanism):
- 采用了一种半稀疏 (semi-sparse) 奖励策略，以优先考虑长期效用而非短期收益。
- 这种机制有助于避免选择冗余采样点，促进了更稳定的长期训练动态。

主要发现：

通过在多样化的 PDE 基准测试（包括低正则、非线性、高维和高阶问题）上进行广泛实验，RL-PINNs 在准确性方面显著优于现有的残差驱动自适应方法。
RL-PINNs 以可忽略不计的采样开销实现了这些性能提升，证明了其在高维和高阶问题上的可扩展性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 物理信息神经网络 (Physics-Informed Neural Networks, PINNs)

PINNs 是一种结合了深度学习和物理约束来求解偏微分方程 (PDEs) 的新兴范式。

PDEs 基础： 给定一个一般的 PDE 公式： $\left\{ \begin{array} { l l } { \mathcal { N } [ u ] ( \mathbf { x } ) = 0 , \quad \mathbf { x } \in \Omega , } \\ { \mathcal { B } [ u ] ( \mathbf { x } ) = 0 , \quad \mathbf { x } \in \partial \Omega , } \end{array} \right.$ 其中， $\mathcal { N }$ 表示微分算子 (differential operator)， $\mathcal { B }$ 表示边界算子 (boundary operator)， $\mathbf { x }$ 是空间或时空坐标， $\Omega$ 是问题域， $\partial \Omega$ 是其边界。 $u(\mathbf{x})$ 是待求解的解函数。
神经网络近似： PINNs 使用一个神经网络 $u_{\theta}(\mathbf{x})$ 来近似解 $u(\mathbf{x})$ ，其中 $\theta$ 是神经网络的参数。
损失函数： 学习目标通过一个复合损失函数来表示： $\mathcal { L } ( \theta ) = \lambda _ { r } \mathcal { L } _ { r } ( \theta ) + \lambda _ { b } \mathcal { L } _ { b } ( \theta ) ,$ 其中：
- PDE 残差损失 (PDE Residual Loss): $\mathcal { L } _ { r } = \frac { 1 } { N _ { r } } \sum _ { i = 1 } ^ { N _ { r } } \left| \mathcal { N } \left[ u _ { \theta } \right] ( \mathbf { x } _ { r } ^ { i } ) \right| ^ { 2 }$ 强制神经网络解在选定的 配置点 (collocation points) $\left\{ \mathbf { x } _ { r } ^ { i } \right\} _ { i = 1 } ^ { N _ { r } }$ 处满足 PDE。这里的 $\mathcal{N}[u_{\theta}](\mathbf{x}_r^i)$ 表示将神经网络的输出代入 PDE 算子后得到的值，理论上应为零。
- 边界条件损失 (Boundary Condition Loss): $\mathcal { L } _ { b } = \frac { 1 } { N _ { b } } \sum _ { j = 1 } ^ { N _ { b } } \left| \mathcal { B } \left[ u _ { \theta } \right] ( \mathbf { x } _ { b } ^ { j } ) \right| ^ { 2 }$ 确保神经网络解在边界点 $\left\{ \mathbf { x } _ { b } ^ { j } \right\} _ { j = 1 } ^ { N _ { b } }$ 处满足边界条件。
- 加权系数 (Weighting Coefficients): $\lambda_r$ 和 $\lambda_b$ 用于平衡不同损失项的贡献。
训练过程： 通过梯度下降优化算法（如 Adam 或 L-BFGS）最小化 $\mathcal { L } ( \boldsymbol { \theta } )$ ，从而训练神经网络。PINNs 利用自动微分 (Automatic Differentiation, AD) 技术计算损失函数对神经网络参数的梯度，以及神经网络输出对输入（空间/时间坐标）的导数，从而计算 PDE 残差。

3.1.2. 自适应采样 (Adaptive Sampling)

在 PINNs 中，配置点 (collocation points) 的选择至关重要。自适应采样的目标是动态、策略性地选择这些点，将其集中在解具有复杂行为（如大梯度、不连续性）的区域，以提高解的准确性和收敛效率，同时避免在平滑区域过度采样。

3.1.3. 强化学习 (Reinforcement Learning, RL)

RL 是一种机器学习范式，智能体 (agent) 通过与环境的交互来学习如何做出决策，以最大化长期累积奖励。

马尔可夫决策过程 (Markov Decision Process, MDP): RL 问题通常被形式化为一个 MDP，它由以下五元组定义：
- 状态空间 (State Space, $S$ ): 智能体所能观察到的所有可能状态的集合。
- 动作空间 (Action Space, $A$ ): 智能体在每个状态下可以执行的所有可能动作的集合。
- 奖励函数 (Reward Function, $R$ ): 智能体执行某个动作后，环境返回的即时奖励。
- 状态转移概率 (Transition Dynamics, $P(s'|s, a)$ ): 在给定当前状态 $s$ 和执行动作 $a$ 后，转移到下一个状态 $s'$ 的概率。
- 折扣因子 (Discount Factor, $\gamma$ ): 用于衡量未来奖励在当前时刻的价值， $\gamma \in [0, 1)$ 。
Q-学习 (Q-learning) / 深度Q网络 (Deep Q-Networks, DQN):
- Q-learning 是一种无模型 (model-free) 的 RL 算法，通过学习一个 $Q$ 函数 Q(s, a) 来估计在状态 $s$ 下执行动作 $a$ 之后，按照最优策略继续下去所能获得的期望累积奖励。
- DQN 将 $Q$ 函数用深度神经网络来近似，即 Q-Network $Q(s, a; \eta)$ ，其中 $\eta$ 是网络的参数。
- 目标网络 (Target Network): 为了稳定训练，DQN 使用一个单独的 目标网络 $Q_{tar}(s, a; \eta^-)$ ，其参数 $\eta^-$ 周期性地从 Q-Network 同步。
- 经验回放 (Experience Replay): 智能体与环境交互产生的 经验（即状态、动作、奖励、下一个状态的四元组）被存储在一个 回放缓冲区 (replay buffer) $\mathcal{P}$ 中。训练时，从缓冲区中随机采样 mini-batch 进行训练，以打破数据间的时序相关性，提高训练稳定性。
- Bellman 方程： $Q$ 函数的更新基于 Bellman 方程，其目标是最小化 Bellman 误差。

3.2. 前人工作

3.2.1. 传统数值方法

有限元方法 (Finite Element Method, FEM) 和有限差分方法 (Finite Difference Method, FDM): 这些是求解 PDEs 的经典数值方法。它们将问题域离散化为网格 (mesh)，并在网格点上近似解。
局限性： 它们的主要缺点是“维度诅咒” (curse of dimensionality)，即随着问题维度的增加，计算资源（如内存和计算时间）呈指数级增长。网格生成在高维空间中也变得异常复杂。

3.2.2. PINNs

PINNs 通过将物理定律嵌入神经网络训练，解决了传统方法在网格生成和高维问题上的部分挑战。它们以无网格方式工作，并利用神经网络的通用近似能力。

3.2.3. 传统自适应采样策略

为了解决 PINNs 中均匀或随机采样效率低下的问题，一些自适应采样策略被提出：

基于残差的自适应细化 (Residual-Based Adaptive Refinement, RAR):
- 机制： 迭代地通过添加 PDE 残差误差超过阈值的点来丰富训练集。在每次迭代中，从预定义网格或随机子集中评估候选点，并将残差最高的 $k$ 个点添加到配置点集中。
- 局限性： 这种方法依赖于对大量候选点的穷举评估，这在高维问题中变得计算成本极高，因为它需要频繁计算 PDE 残差的梯度。
基于残差的自适应分布 (Residual-Based Adaptive Distribution, RAD):
- 机制： 构建一个概率密度函数 $p(\mathbf{x}) \propto \frac{\mathcal{N}[u_{\theta}](\mathbf{x})}{\mathbb{E}[\mathcal{N}[u_{\theta}](\mathbf{x})] + 1}$ ，然后按照这个概率分布从候选点池中采样。这优先考虑了高误差区域，同时保持了一定的随机性。
- 局限性： 类似于 RAR，RAD 也需要频繁对大型候选池进行残差评估，这涉及昂贵的梯度计算，特别是对于高阶导数。
共同局限性：
1. 多轮训练开销： RAR 和 RAD 都需要多轮采样和 PINN 的重复训练，导致总训练时间显著增加（通常是 3-5 倍）。
2. 高计算成本： 残差评估需要通过自动微分计算神经网络输出对输入的梯度，这在处理高维或高阶 PDEs 时是主要的计算瓶颈。
3. 短期优化偏差： 这些方法通常基于瞬时残差进行贪婪点选择，可能导致过度关注局部特征，而忽视了对整体解的长期稳定性和准确性更重要的区域。

3.2.4. 强化学习在科学计算中的应用

近期研究表明，强化学习在科学计算中的自适应决策制定方面具有潜力，例如自适应网格细化 (adaptive mesh refinement, AMR)。然而，RL 驱动的 AMR 方法仍受限于其对基于网格离散化的依赖，这限制了它们在高维问题上的可扩展性。

3.3. 技术演进

PINNs 是传统数值方法在高维问题上瓶颈的解决方案之一，通过无网格和神经网络的通用近似能力来缓解维度诅咒。然而，PINNs 的性能又受到 配置点 采样策略的影响。早期的均匀或随机采样效率低下，导致 RAR 和 RAD 等基于残差的自适应采样方法出现。这些方法虽然有所改进，但其多轮训练、高计算成本（特别是梯度计算）和短期优化偏见限制了它们的效率和可扩展性。

本文的 RL-PINNs 框架正是在此基础上进行的技术演进，它将自适应采样的决策问题提升到 RL 的层面，通过学习一个最优策略来实现单轮采样，并引入梯度无关的奖励和延迟奖励机制，旨在解决现有自适应采样方法中的计算效率和长期稳定性问题，特别是在高维和高阶 PDEs 的背景下。

3.4. 差异化分析

RL-PINNs 与传统自适应采样方法（如 RAR 和 RAD）的核心区别和创新点体现在以下几个方面：

采样轮次与训练范式：
- RAR/RAD： 需要多轮采样和 PINN 的重复训练。每次采样后，PINN 需要重新训练一段时间以适应新的配置点集，这个过程通常需要 3-5 轮迭代，导致高昂的总计算成本。
- RL-PINNs： 实现了单轮采样。通过将采样过程建模为 MDP，RL 智能体在一个训练周期内学习并确定最终的配置点集，大大减少了整体训练时间。
奖励/度量信号的设计：
- RAR/RAD： 依赖 PDE 残差作为衡量误差和指导采样的核心度量。残差的计算需要对神经网络输出进行高阶自动微分，这对于高维或高阶 PDEs 来说计算成本极高。
- RL-PINNs： 用函数变异 (function variation) $\delta u = |u_{\theta}(\mathbf{x}^{(t+1)}) - u_{\theta}(\mathbf{x}^{(t)})|$ 作为奖励信号。这是一个梯度无关的度量，避免了昂贵的自动微分计算，使其在高维和高阶问题中更具计算效率和可扩展性。
决策制定与规划：
- RAR/RAD： 采用贪婪的、基于瞬时残差的采样策略。它们倾向于在当前残差最大的区域添加点，缺乏对长期训练动态的考虑，可能导致过度采样局部特征和冗余点。
- RL-PINNs： 采用延迟奖励机制 (delayed reward mechanism)。通过 RL 的长期规划能力，智能体学习到的策略能够平衡短期收益与长期稳定性，避免选择对最终解精度贡献不大的冗余点，从而实现更优化的点集分配。
计算开销与可扩展性：
- RAR/RAD： 高昂的梯度计算和多轮训练限制了它们在高维和高阶 PDEs 中的可扩展性。
- RL-PINNs： 由于单轮采样、梯度无关的奖励设计和对长期规划的优化，RL-PINNs 具有可忽略的采样开销，这使得它们能够更好地扩展到高维和高阶问题，显著提高了整体效率。
  
  综上所述，RL-PINNs 通过引入强化学习的序列决策能力，并创新性地设计了梯度无关的延迟奖励，从根本上解决了传统自适应采样方法在效率、成本和规划方面的局限性。

4. 方法论

4.1. 方法原理

RL-PINNs 的核心思想是将 PINNs 中的自适应采样问题重新定义为一个马尔可夫决策过程 (Markov Decision Process, MDP)。在这个 MDP 中，一个 强化学习 (Reinforcement Learning, RL) 智能体 (agent) 的任务是学习一个最优策略，以动态地选择最能提高 PINN 求解 PDE 精度和效率的 配置点 (collocation points)。与传统方法不同，RL-PINNs 旨在通过单轮采样完成这个任务，并且避免了传统方法中对昂贵梯度计算的依赖。其直觉是，智能体通过探索 PDE 解空间，识别出解函数变化剧烈的区域（通常是误差较大的区域），并优先在这些区域放置采样点，同时考虑到这些点对未来训练的长期影响。

4.2. 核心方法详解

RL-PINNs 框架主要分为三个阶段：预训练 (pre-training)、RL 驱动的自适应采样 (RL-driven adaptive sampling) 和最终 PINN 训练 (final PINN training)。以下将详细阐述 RL 驱动的自适应采样部分，它是整个框架的创新核心。

4.2.1. 马尔可夫决策过程 (MDP) 形式化

自适应采样任务被建模为一个 MDP，其组成部分如下：

状态空间 (State Space): 智能体当前所处的空间位置 $\mathbf{x}^{(t)}$ 被定义为状态 $s^{(t)} \in S$ 。这里的 $\Omega \subseteq \mathbb{R}^d$ 是问题域，表示解所在的物理或时空区域。这意味着智能体在探索过程中，其当前位置就是它所观察到的状态。
动作空间 (Action Space): 智能体在每个状态下选择离散动作 $a^{(t)} \in \mathcal{A}$ ，这些动作代表沿着每个空间维度的增量位移。例如，在二维 (2D) 域中，动作空间 $\mathcal{A}$ 可以定义为： $\mathcal{A} = \{ (\pm \Delta x, 0), (0, \pm \Delta y) \}$ 其中， $\Delta x$ 和 $\Delta y$ 是预定义的步长。这些动作允许智能体在解空间中进行局部移动，以探索不同区域。
奖励函数 (Reward Function): 为了优先考虑具有高解复杂度的区域，本文设计了一个延迟的半稀疏奖励机制。奖励 $R^{(t)}$ 的定义如下： $R^{(t)} = \left\{ { \begin{array} { l l } { \delta u^{(t)}, } & { { \mathrm { ~i f ~ } } \delta u^{(t)} \geq \varepsilon , } \\ { 0 , } & { { \mathrm { ~o t h e r w i s e } } } \end{array} } \right.$ 其中， $\delta u^{(t)} = |u_{\theta}(\mathbf{x}^{(t+1)}) - u_{\theta}(\mathbf{x}^{(t)})|$ 量化了连续状态之间函数值（即 PINN 预测的解值）的变异。 $\varepsilon$ 是一个预定义的阈值。
- 梯度无关： 这里的 函数变异 是通过比较神经网络在相邻位置的输出值来计算的，它不依赖于梯度计算。这与传统基于残差的方法形成鲜明对比，后者需要昂贵的自动微分来计算 PDE 残差。
- 延迟与半稀疏： 只有当函数变异 $\delta u^{(t)}$ 超过阈值 $\varepsilon$ 时，智能体才能获得正奖励；否则奖励为零。这种设计鼓励智能体寻找解变化显著的区域，并过滤掉变化不大的冗余点，从而实现“延迟”和“半稀疏”的效果，促进长期规划。
状态转移动力学 (Transition Dynamics): 下一个状态 $\mathbf{x}^{(t+1)}$ 是确定性地由当前状态 $\mathbf{x}^{(t)}$ 和智能体选择的动作 $a^{(t)}$ 更新而来： $\mathbf{x}^{(t+1)} = \mathbf{x}^{(t)} + a^{(t)}$

4.2.2. DQN 架构与训练

本文采用 DQN (Deep Q-Networks) 框架来学习最优采样策略：

Q 网络 (Q-Network): 一个神经网络 $Q(s, a; \eta)$ 用于近似动作-价值函数 (action-value function)，其中 $\eta$ 表示可训练的参数。该网络将当前状态 $\mathbf{x}^{(t)}$ 作为输入，并输出所有可能动作的 $Q$ 值。 $Q$ 值代表在给定状态下执行某个动作后所能获得的期望累积奖励。
目标网络 (Target Network): 为了稳定训练过程，使用一个单独的 目标网络 $Q_{tar}(s, a; \eta^-)$ 。它的参数 $\eta^-$ 会周期性地从 $Q$ 网络同步过来，但更新频率低于 $Q$ 网络，从而提供一个相对稳定的学习目标。
经验回放 (Experience Replay): 智能体与环境交互产生的 经验（即状态 $\mathbf{x}^{(t)}$ 、动作 $a^{(t)}$ 、奖励 $R^{(t)}$ 、下一个状态 $\mathbf{x}^{(t+1)}$ 的四元组）被存储在一个 回放缓冲区 $\mathcal{P}$ 中。在训练 $Q$ 网络时，会从 $\mathcal{P}$ 中随机采样 mini-batch 经验进行学习。这有助于打破数据间的时序相关性，提高训练的稳定性和效率。
Q 网络训练： $Q$ 网络通过最小化 Bellman 误差的均方差来训练： $\mathcal { L } ( \eta ) = \mathbb { E } _ { ( \mathbf { x } , a , R , \mathbf { x } ^ { \prime } ) \sim \mathcal { P } } \left[ \left( R + \gamma \operatorname* { m a x } _ { a ^ { \prime } } Q _ { t a r } \left( \mathbf { x } ^ { \prime } , a ^ { \prime } ; \eta ^ { - } \right) - Q ( \mathbf { x } , a ; \eta ) \right) ^ { 2 } \right]$ 其中， $\gamma \in [0, 1)$ 是折扣因子，它决定了未来奖励对当前决策的重要性。Bellman 误差衡量了当前 $Q$ 值的估计与目标 $Q$ 值之间的差距。

4.2.3. 算法工作流程 (DQN 驱动的自适应采样)

DQN 驱动的自适应采样 (Algorithm III) 的具体步骤如下：

Algorithm III: DQN-Driven Adaptive Sampling for PINNs
输入: $Q$ 网络 $Q(s, a; \eta)$ , 目标网络 $Q_{tar}(s, a; \eta^-)$ , 回放缓冲区 $\mathcal{P}$ , 折扣因子 $\gamma$ , 函数变异阈值 $\varepsilon$ , 连续满足条件的 episode 数 $k$ 。

初始化 $k$ 为 0。
初始化 $Q$ 和 Q_tar 网络，权重 $\eta = \eta^-$ 。
对于 episode $n = 1$ 到 $N$ 执行:
采样初始状态 $\mathbf{x}^{(0)}$ 。
对于 step $t = 1$ 到 $T$ 执行:
通过 $\epsilon$ $ϵ$ -greedy 策略选择动作 $a^{(t)}$ $a^{(t)}$ : $a ^ { ( t ) } = \left\{ \begin{array} { l l } { \mathrm { a r g } \operatorname* { m a x } _ { a } Q \left( \mathbf { x } ^ { ( t ) } , a ; \eta \right) , } & { \mathrm { ~ w i t h ~ p r o b a b i l i t y ~ } 1 - p , } \\ { \mathrm { r a n d o m ~ a c t i o n } ~ a \in \mathcal { A } , } & { \mathrm { ~ w i t h ~ p r o b a b i l i t y } ~ p = 0 . 5 / n , } \end{array} \right.$
- 这里使用了一个随 episode 逐渐减小的探索概率 $p=0.5/n$ ，以平衡探索 (exploration) 和利用 (exploitation)。早期 episode 更多探索，后期更多利用已学策略。
更新状态: $\mathbf{x}^{(t+1)} = \mathbf{x}^{(t)} + a^{(t)}$ 。
使用 $Eq.(3.1)$ 计算奖励 $R^{(t)}$ （即基于函数变异和阈值 $\varepsilon$ ）。
将转移四元组 $( \mathbf{x}^{(t)}, a^{(t)}, R^{(t)}, \mathbf{x}^{(t+1)} )$ 存储到回放缓冲区 $\mathcal{P}$ 中。
结束 for
计算本轮 episode 中高变异点（函数变异 $\ge \varepsilon$ ）的比例 $r$ : $r = \frac { \mathrm { Number } \{ \mathbf { x } \in \{ \mathbf { x } ^ { ( 0 ) } , \mathbf { x } ^ { ( 1 ) } , . . . , \mathbf { x } ^ { ( T ) } \} \mid \delta u \geq \varepsilon \} } { T }$
如果 $r \geq 50\%$ 则:
$k \gets k + 1$
否则:
$k \gets 0$
结束 if
使用 $Eq.(3.2)$ 更新 $\eta$ (通过对从 $\mathcal{P}$ 中采样的 mini-batch 进行梯度下降)。备注: 仅进行一次梯度下降。
每隔 5 个 episode 同步目标网络参数: $\eta^- \gets \eta$ 。
如果 $k \geq 5$ (即连续 5 个 episode 的高变异点比例超过 $50\%$ ) 则:
跳出循环。
结束 if
结束 for
返回回放缓冲区 $\mathcal{P}$ 中所有函数变异 $\delta u \geq \varepsilon$ 的高变异点集合。

4.2.4. 整体 RL-PINNs 训练流程

RL-PINNs 的整体工作流程 (Algorithm IV) 结合了 PINN 训练和 DQN 驱动的采样：

Algorithm IV: RL-PINNs
输入: 神经网络 $u_{\theta}(\mathbf{x})$ , 初始配置点 $\mathcal{N}_r$ , 边界点 $\mathcal{N}_b$ 。

对神经网络 $u_{\theta}(\mathbf{x})$ 进行一定次数的迭代预训练。这个阶段的目的是为 RL 智能体提供一个初步的 PINN 解，以便智能体能够估计函数变异并开始学习采样策略。
使用 Algorithm III 采样新的配置点集合 $S$ 。这一步是 RL-PINNs 的核心，它只进行一次，以单轮的方式生成优化后的采样点。
将新采样的点 $S$ 添加到当前的配置点集中: $\mathcal{N}_r \gets \mathcal{N}_r \cup \mathcal{S}$ 。
使用更新后的配置点集 $\mathcal{N}_r$ 和边界点 $\mathcal{N}_b$ 对神经网络 $u_{\theta}(\mathbf{x})$ 进行一定次数的迭代训练。这是最终的 PINN 训练阶段，利用 RL 优化后的点集来获得高精度的解。

通过这种方式，RL-PINNs 实现了高效的单轮采样，显著减少了计算开销。梯度无关 的奖励设计使其对高阶导数和高维问题更具扩展性。延迟奖励机制 则确保了采样的长期有效性，避免了冗余点的选择。

5. 实验设置

本节详细描述了 RL-PINNs 与基线方法进行比较的实验设置，包括网络架构、优化协议、评估指标以及软硬件环境。

5.1. PINN 和 DQN 网络架构

PINN ( $u_{\theta}$ ):
- 一个全连接神经网络 (Fully Connected Neural Network)。
- 包含七个隐藏层，每层的神经元数量分别为 [64, 128, 256, 512, 256, 128, 64]。
- 使用 Tanh 激活函数 (activation function)。
DQN ( $Q(s, a; \eta)$ ):
- 一个浅层网络 (shallow network)。
- 包含两个隐藏层，每层的神经元数量分别为 [128, 64]。
- 使用 ReLU 激活函数。

5.2. 优化协议

5.2.1. PINN 训练优化器

优化器: 所有案例均使用 Adam 优化器。
特殊情况: 对于 Burgers 方程 (Case 3)，在 Adam 训练之后额外应用 L-BFGS 优化器进行微调 (fine-tuning)。

5.2.2. PINN 采样前和最终训练参数 (针对所有方法)

下表总结了在预训练和最终训练阶段，以及基线方法（RAR 和 RAD）进行多轮采样时的关键参数：

Case	Learning rate	N (0)	iterations(0)	Tmax	S0	S
Single-Peak	1e-4	5000	5000	5	1000	200
Dual-Peak	1e-4	5000	5000	5	2000	400
Burgers'	1e-3	5000	5000	5	1000	200
Wave	1e-3	10000	10000	5	2000	400
High-Dimension	1e-3	10000	10000	5	5000	1000
High-Order	5e-5	2000	5000	5	1000	200

Learning rate: 学习率。
$N(0)$ : 初始配置点 (collocation points) 数量。
$iterations(0)$ : 预训练迭代次数。
Tmax: RAR 和 RAD 方法的最大自适应采样轮数。
S0: 每轮采样评估的候选点池 (candidate pool) 大小。
$S$ : 每轮添加到训练集中的点数。

5.2.3. DQN 训练参数 (仅针对 RL-PINNs)

下表总结了 $Q$ 网络 $Q(s, a; \eta)$ 的训练参数：

Case	x(0)	N	T	ε	A	P
Single-Peak	x, y ~ U(−0.1, 0.1)	100	200	0.005	±0.1	1000
Dual-Peak	x, y ∼ U(−0.1, 0.1)	100	400	0.01	±0.1	2000
Burgers'	x ∼ U (−0.1, 0.1), t ∼ U (0, 0.1)	100	200	0.1	±0.1	1000
Wave	x ∼ U (−0.5, 0.5), t ∼ U (0, 0.5)	100	400	0.05	±0.2	2000
High-Dimension	xi ∼ U (0.4, 0.6)	100	1000	0.0001	±0.1	5000
High-Order	x, y ∼ U(0.4, 0.6)	100	200	0.05	±0.1	1000

Learning rate: 1e-3。
Discount factor ( $\gamma$ ): 0.95。
$x(0)$ : 初始状态的采样分布。
$N$ : episode 数量。
$T$ : 每个 episode 的步数。
$ε$ (epsilon): 函数变异阈值，用于奖励计算。
$A$ : 动作空间，表示沿空间坐标的离散位移（例如，±0.1 或 ±0.2）。
$P$ : 回放缓冲区 (replay buffer) 的容量。

5.3. 评估指标

所有实验均使用相对 $L_2$ 误差 (relative $L_2$ error) 来量化解决方案的准确性。

概念定义: 相对 $L_2$ 误差衡量了预测解与精确解之间的整体偏差，并将其相对于精确解的幅值进行归一化。该指标可以直观地表示预测解与真实解之间的匹配程度，值越低表示精度越高。
数学公式: $\mathrm { e r r } _ { L _ { 2 } } = \frac { \sqrt { \sum _ { i = 1 } ^ { N } \left| \hat { u } \left( \mathbf { x } _ { i } \right) - u \left( \mathbf { x } _ { i } \right) \right| ^ { 2 } } } { \sqrt { \sum _ { i = 1 } ^ { N } \left| u \left( \mathbf { x } _ { i } \right) \right| ^ { 2 } } }$
符号解释:
- $N$ : 测试点的数量。
- $\hat { u } \left( \mathbf { x } _ { i } \right)$ : 在测试点 $\mathbf{x}_i$ 处的预测解。
- $u \left( \mathbf { x } _ { i } \right)$ : 在测试点 $\mathbf{x}_i$ 处的精确解。
- $|\cdot|$ : 绝对值。
- $\sum$ : 求和符号。
- $\sqrt{\cdot}$ : 平方根。

5.4. 对比基线

本文将 RL-PINNs 与三种基线方法进行了比较：

UNIFORM (均匀采样): 在问题域内均匀或随机分布采样点。
RAR (Residual-Based Adaptive Refinement，基于残差的自适应细化): 迭代地在 PDE 残差大的区域增加采样点。
RAD (Residual-Based Adaptive Distribution，基于残差的自适应分布): 根据 PDE 残差构建概率密度函数，并据此采样点。

5.5. 硬件和软件

硬件: 所有实验均在配备 NVIDIA RTX 4090 GPU (64GB 显存) 的云服务器上进行。
软件: 实验实现使用 PyTorch 2.4.0 进行神经网络训练和 深度Q学习 (Deep Q-Learning)。

6. 实验结果与分析

本节通过全面的数值实验验证了 RL-PINNs 在各种 PDE 基准测试中的有效性，并与 UNIFORM、RAR 和 RAD 三种基线方法在计算精度、效率和可扩展性方面进行了比较。

6.1. 二维泊松方程 (Two-dimensional Poisson equation)

6.1.1. 单峰案例 (Single-Peak Case)

问题描述： 泊松方程定义为： $\left\{ \begin{array} { l l } { - \Delta u ( x , y ) = f ( x , y ) , \quad \mathrm { i n } \Omega = [ - 1 , 1 ] ^ { 2 } , } \\ { u ( x , y ) = g ( x , y ) , \quad \mathrm { o n } \partial \Omega , } \end{array} \right.$ 其中精确解是一个尖锐的高斯函数： $u ( x , y ) = \exp ^ { - 5 0 0 \left[ ( x - 0 . 5 ) ^ { 2 } + ( y - 0 . 5 ) ^ { 2 } \right] } .$ 此解在 $(0.5, 0.5)$ 附近表现出陡峭的梯度。

下图（原文 Figure 1）展示了单峰函数精确解的分布：

FIGURE 1. Single-Peak: The exact solution.

实验设置：

RL-PINNs 执行一轮自适应采样，保留 667 个高变异点。
基线方法 (UNIFORM、RAR、RAD) 执行五轮采样，每轮增加 200 个配置点（总计 1000 个点）。
采样后训练：RL-PINNs 训练 25000 次迭代。基线方法每轮训练 5000 次迭代。

核心结果分析： 以下是原文 Table 1 的结果：

Sigle-Peak	Total sampling time	Total PINNs training time	L2
UNIFORM	6.35e-4 s	611.02 s	0.4242
RAR	0.14 s	613.70 s	0.2871
RAD	0.14 s	616.12 s	0.4045
RL-PINNs	3.32 s	588.36 s	0.1462

RL-PINNs 实现了 0.1462 的相对 $L_2$ 误差，显著优于 UNIFORM (0.4242)、RAR (0.2871) 和 RAD (0.4045)，分别提高了 $65.5\%$ 、 $49.1\%$ 和 $63.8\%$ 。这表明 RL-PINNs 在捕捉尖峰特征方面的卓越能力。
尽管 RL-PINNs 的采样时间 (3.32 s) 比 RAR 和 RAD (0.14 s) 更长，但采样开销仅占总运行时间 (591.68 s) 的 $0.56\%$ ，表明其采样成本相对于 PINN 的整体训练时间可忽略不计。

下图（原文 Figure 2）展示了不同采样方法的累积采样点分布：

该图像是图表，展示了不同采样策略的效果，包括均匀采样（UNIFORM）、随机加权采样（RAR）、自适应采样（RAD）和强化学习驱动的自适应采样（RL-PINNs）。可以看到，RL-PINNs 在采样点密集度上具有明显优势，能够有效聚焦于重要区域。

从图中可以看出，RL-PINNs 能够将采样点集中在尖峰区域附近，而基线方法则分布较为均匀或次优，导致在平滑区域存在冗余采样。

下图（原文 Figure 3）展示了预测解及其绝对误差：

FIGURE 3. Single-Peak: Above: The predicted solution. Below: The absolute error of the solution. 该图像是图表，展示了不同加权策略下的预测结果。左上角是UNIFORM策略，右上角是RAR策略，左下角是RAD策略，右下角是RL-PINNs策略。各子图显示了相应的预测解，颜色表示解的大小，体现了不同方法的效果差异。

RL-PINNs 在整个域内实现了更低的绝对误差，特别是在尖峰区域。

下图（原文 Figure 4）进一步可视化了在 $y=0.5$ 处的预测解与精确解的对比：

$FIGURE 4. Single-Peak: The predicted solution at $( x , 0 . 5 )$ .$ 该图像是图表，展示了不同采样方法在单峰问题下的预测结果。子图(a)至(d)分别对应UNIFORM、RAR、RAD和RL-PINNs方法的预测曲线，蓝色线为预测值，红色线为精确值，表现出RL-PINNs在精度上的优越性。

结果表明 RL-PINNs 的预测曲线与精确解高度吻合。

6.1.2. 双峰案例 (Dual-Peak Case)

问题描述： 将基准扩展到双峰解： $u ( x , y ) = \exp ^ { - 5 0 0 \big [ ( x + 0 . 5 ) ^ { 2 } + ( y + 0 . 5 ) ^ { 2 } \big ] - 5 0 0 \big [ ( x - 0 . 5 ) ^ { 2 } + ( y - 0 . 5 ) ^ { 2 } \big ] } ,$ 该解在 $(-0.5, -0.5)$ 和 $(0.5, 0.5)$ 处各有峰值。

下图（原文 Figure 5）展示了双峰函数的精确解：

FIGURE 5. Dual-Peak: The exact solution.

实验设置：

RL-PINNs 执行一轮自适应采样，保留 1271 个高变异点。
基线方法执行五轮采样，每轮增加 400 个配置点（总计 2000 个点）。
训练协议与单峰案例相同。

核心结果分析： 以下是原文 Table 2 的结果：

Dual-Peak	Total sampling time	Total PINNs training g time	L2
UNIFORM	6.59e-3 s	652.76 s	0.8624
RAR	0.26 s	663.94 s	0.3659
RAD	0.27 s	650.68 s	1.0889
RL-PINNs	8.68 s	614.29 s	0.1878

RL-PINNs 的相对 $L_2$ 误差为 0.1878，与 RAR (0.3659)、RAD (1.0889) 和 UNIFORM (0.8624) 相比，误差分别降低了 $48.7\%$ 、 $82.8\%$ 和 $78.2\%$ 。RAD 在此案例中表现异常差。
RL-PINNs 采样时间为 8.68 s，PINN 训练时间为 614.29 s。

下图（原文 Figure 6）展示了不同采样方法的累积采样点分布：

该图像是图表，展示了不同采样策略的比较，包括均匀采样（UNIFORM）、重新加权自适应采样（RAR）、随机适应采样（RAD）以及强化学习驱动的自适应采样（RL-PINNs）。图中红色点代表了各策略下的训练点分布，突显了RL-PINNs在集中采样方面的优势。

RL-PINNs 能够动态地将点分配到两个峰值附近，而 RAR 和 RAD 的采样点分布过于分散，无法有效捕捉双峰特征。

下图（原文 Figure 7）展示了预测解及其绝对误差：

FIGURE 7. Dual-Peak: Above: The predicted solution. Below: The absolute error of the solution. 该图像是一个图表，展示了不同采样策略下的预测解决方案和绝对误差。上方为四种方法（(a) UNIFORM、(b) RAR、(c) RAD 和 (d) RL-PINNs）的预测解决方案，底部为对应的绝对误差图。各个子图通过颜色变化反映了预测值和误差的分布情况，旨在比较不同方法的效果，从而展示RL-PINNs的优势。

RL-PINNs 在两个峰值区域均保持较低的绝对误差。

下图（原文 Figure 8）进一步可视化了在 $y=0.5$ 和 $y=-0.5$ 处的预测解与精确解的对比：

$FIGURE 8. Dual-Peak: The predicted solution at $( x , 0 . 5 )$ and $( x , - 0 . 5 )$ .$ 该图像是图表，展示了四种不同方法（UNIFORM、RAR、RAD 和 RL-PINNs）在位置 $x$ 处的预测解与精确解的对比。每个子图中，蓝色曲线表示预测解，红色曲线表示精确解。具体而言，图中的 (a) 显示了均匀采样的效果，(b) 为自适应重采样 (RAR)，(c) 为随机自适应分布 (RAD)，(d) 则展示了 RL-PINNs 方法的表现。通过比较，RL-PINNs 显示出更优的预测能力。

结果再次验证了 RL-PINNs 在多峰问题上的高精度。

6.2. Burgers' 方程 (Burgers' equation)

问题描述： 在一维粘性 Burgers 方程上评估 RL-PINNs，这是一个具有尖锐梯度演化的典型非线性 PDE。问题公式如下： $\left\{ \begin{array} { l l } { u _ { t } + u u _ { x } - \frac { 0 . 0 1 } { \pi } u _ { x x } = 0 , } \\ { u ( x , 0 ) = - \sin ( \pi x ) , } \\ { u ( t , - 1 ) = u ( t , 1 ) = 0 , } \end{array} \right.$ 其中 $(x, t) \in [-1, 1] \times [0, 1]$ 。该解在 $t \to 1$ 时，在 $x=0$ 附近形成陡峭的梯度（激波锋面），对传统自适应采样方法提出了严峻挑战。

下图（原文 Figure 9）展示了 Burgers' 方程的精确解：

FIGURE 9. Burgers': The exact solution.

实验设置：

RL-PINNs 执行一轮自适应采样，保留 634 个高变异点。
基线方法 (UNIFORM、RAR、RAD) 执行五轮采样，每轮增加 200 个配置点（总计 1000 个点）。
采样后训练：RL-PINNs 采用 25000 次 Adam 迭代，随后是 25000 次 L-BFGS 微调。基线方法每轮训练 5000 次 Adam 迭代和 5000 次 L-BFGS 微调。

核心结果分析： 以下是原文 Table 3 的结果：

Burgers'	Total sampling time	Total PINNs straining time	L2
UNIFORM	8.61e-4 s	1322.65 s	0.2896
RAR	0.18 s	1326.59 s	0.1323
RAD	0.18 s	1328.56 s	0.1474
RL-PINNs	16.18 s	1304.39 s	0.0534

RL-PINNs 实现了 0.0534 的相对 $L_2$ 误差，相较于 UNIFORM (0.2896)、RAR (0.1323) 和 RAD (0.1474)，误差分别降低了 $81.5\%$ 、 $59.6\%$ 和 $63.8\%$ 。
RL-PINNs 的采样时间为 16.18 s，PINN 训练时间为 1304.39 s。总运行时间与基线方法相当，但精度显著提升。

下图（原文 Figure 10）展示了不同采样方法的累积采样点分布：

该图像是图表，展示了不同采样方法在Burgers'方程中的效果，包括UNIFORM、RAR、RAD和RL-PINNs。图中红色点表示训练样本，背景为蓝色，显示了各方法在不同区域的采样分布。

RL-PINNs 能够将采样点集中在 $x=0$ 附近，即解的梯度随时间变化变得陡峭的区域，这对于激波锋面的高分辨率至关重要。基线方法的分布则不足以有效解析这一特征。

下图（原文 Figure 11）展示了预测解的绝对误差：

FIGURE 11. Burgers': The absolute error of the solution. 该图像是一个示意图，展示了不同采样方法在 Burgers' 方程解的绝对误差。图中包含四个子图：均匀采样（a）、残差自适应重采样（b）、径向自适应重采样（c）和 RL-PINNs 方法（d）。每个子图都显示了相应方法下的误差分布，颜色深浅表示误差的大小。

RL-PINNs 在 $x=0$ 附近表现出卓越的精度。

下图（原文 Figure 12）进一步可视化了在 $t=1$ 时刻的解剖面：

$FIGURE 12. Burgers': The predicted solution $t = 1$ .$ 该图像是图表，展示了不同采样方法下的预测结果与准确解的对比，分别为（a）均匀采样（UNIFORM），（b）RAR，（c）RAD 和（d）RL-PINNs。图中显示了 u(x) 在 $x$ 轴上的预测和真实值的差异。

结果表明 RL-PINNs 预测的解与精确解高度一致。

6.3. 时变波动方程 (Time-Dependent Wave Equation)

问题描述： 在具有多模态动力学和不连续传播特征的一维时变波动方程上验证 RL-PINNs。控制方程如下： $\left\{ \begin{array} { l l } { \frac { \partial ^ { 2 } u } { \partial t ^ { 2 } } - 3 \frac { \partial ^ { 2 } u ^ { 2 } } { \partial x } = 0 , } \\ { u ( x , 0 ) = \frac { 1 } { \cosh \left( 2 x \right) } - \frac { 0 . 5 } { \cosh \left( 2 \left( x - 1 0 \right) \right) } - \frac { 0 . 5 } { \cosh \left( 2 \left( x + 1 0 \right) \right) } , } \\ { \frac { \partial u } { \partial t } ( x , 0 ) = 0 , } \\ { u ( - 5 , t ) = u ( 5 , t ) = 0 , } \end{array} \right.$ 其中 $(x, t) \in [-5, 5] \times [0, 6]$ ，精确解为： $\begin{array} { c } { { u ( x , t ) = \displaystyle \frac { 0 . 5 } { \cosh ( 2 ( x - \sqrt { 3 } t ) ) } - \displaystyle \frac { 0 . 5 } { \cosh ( 2 ( x - 1 0 + \sqrt { 3 } t ) ) } } } \\ { { + \displaystyle \frac { 0 . 5 } { \cosh ( 2 ( x + \sqrt { 3 } t ) ) } - \displaystyle \frac { 0 . 5 } { \cosh ( 2 ( x + 1 0 - \sqrt { 3 } t ) ) } . } } \end{array}$ 该解包含四个以不连续过渡方式传播的波包（原文 Figure 13），对传统采样方法有效解析空间分离特征构成了重大挑战。

下图（原文 Figure 13）展示了波方程的精确解：

FIGURE 13. Wave: The exact solution.

实验设置：

RL-PINNs 执行一轮自适应采样，保留 1706 个高变异点。
基线方法 (UNIFORM、RAR、RAD) 执行五轮采样，每轮增加 400 个配置点（总计 2000 个点）。
采样后训练：RL-PINNs 训练 25000 次迭代。基线方法每轮训练 5000 次迭代。

核心结果分析： 以下是原文 Table 4 的结果：

Wave	Total sampling time	Total PINNs training time	L2
UNIFORM	9.98e-3 s	1557.33 s	0.0423
RAR	0.28 s	1570.68 s	0.0339
RAD	0.31 s	1566.51 s	0.0351
RL-PINNs	7.01 s	1512.33 s	0.0053

RL-PINNs 实现了 0.0053 的相对 $L_2$ 误差，相较于 UNIFORM (0.0423)、RAR (0.0339) 和 RAD (0.0351)，误差分别降低了 $87.5\%$ 、 $84.4\%$ 和 $84.9\%$ 。
RL-PINNs 的采样时间为 7.01 s，PINN 训练时间为 1512.33 s。

下图（原文 Figure 14）展示了不同采样方法的累积采样点分布：

该图像是图表，展示了不同采样方法：UNIFORM、RAR、RAD和一次性采样的RL-PINNs。不同的采样展示了在时间和空间的分布，RL-PINNs方法的样本集中在特定区域，显示出其在选取训练点上的优势。

RL-PINNs 能够将采样点集中在波锋面 (wavefronts) 上，有效地捕捉传播中的不连续性。相比之下，基线方法均匀分布点，或在低解变异区域聚集冗余点。

下图（原文 Figure 15）比较了预测解的绝对误差：

FIGURE 15. Wave: Above: The predicted solution. Below: The absolute error of the solution. 该图像是图表，展示了不同采样策略下的波动预测及其绝对误差。上方为预测解，包含均匀采样（a）、自适应重采样（b）、随机自适应（c）和强化学习驱动的自适应采样（d）；下方为对应的绝对误差图。通过比较可观察到，RL-PINNs方法在准确性上明显优于其他传统方法。

RL-PINNs 在波锋面附近保持了最小的误差，而 UNIFORM 和 RAD 由于关键区域欠采样而存在显著差异。RAR 虽部分解决了波锋面问题，但由于平滑区域的冗余采样而累积误差。

这些结果证明了 RL-PINNs 在处理具有不连续特征的多模态、时变 PDEs 方面的鲁棒性。

6.4. 高维泊松方程 (High-Dimensional Poisson Equation)

问题描述： 为了验证 RL-PINNs 在高维设置中的可扩展性，在 10 维椭圆方程上进行了评估： $- \Delta u ( \mathbf { x } ) = f ( \mathbf { x } ) , \quad \mathbf { x } \in [ - 1 , 1 ] ^ { 10 } ,$ 其精确解为： $u ( { \bf x } ) = e ^ { - 10 \| { \bf x } \| _ { 2 } ^ { 2 } } .$ 其中 $\| \mathbf { x } \|$ 表示欧几里得范数。该解在原点附近呈指数衰减，且梯度尖锐，对传统采样方法因维度诅咒而构成巨大挑战。

下图（原文 Figure 16）展示了高维泊松方程的精确解（投影到 2D 子空间）：

FIGURE 16. High-Dimension: The exact solution.

实验设置：

RL-PINNs 执行一轮自适应采样，保留 3266 个高变异点。
基线方法 (UNIFORM、RAR、RAD) 执行五轮采样，每轮增加 1000 个配置点（总计 5000 个点）。
采样后训练：RL-PINNs 训练 25000 次迭代。基线方法每轮训练 5000 次迭代。

核心结果分析： 以下是原文 Table 5 的结果：

High-Dimension	Total sampling time	Total PINNs training time	L2
UNIFORM	7.04e-3 s	2811.25 s	0.1426
RAR	0.82 s	2829.64 s	0.0956
RAD	0.83 s	2834.97 s	0.1250
RL-PINNs	35.45 s	2759.82	0.0394

RL-PINNs 实现了 0.0394 的相对 $L_2$ 误差，相较于 UNIFORM (0.1426)、RAR (0.0956) 和 RAD (0.1250)，误差分别降低了 $72.4\%$ 、 $58.8\%$ 和 $68.5\%$ 。
尽管 RL-PINNs 的采样时间 (35.45 s) 相对较高，但它仅占总运行时间 (2795.27 s) 的 $1.27\%$ ，采样开销仍可忽略不计。

下图（原文 Figure 17）可视化了投影到 2D 子空间的不同采样点分布：

该图像是图表，展示了四种不同采样方法在高维空间中的累积采样效果，包括均匀采样（UNIFORM）、自适应重加权（RAR）、随机自适应（RAD）以及强化学习驱动的一次性采样（RL-PINNs）。每种方法的采样点分布情况在不同的坐标系中展示，以便比较各自的采样效率和效果。

RL-PINNs 将采样点集中在原点附近（解急剧衰减的区域），而基线方法在整个域内均匀分布点。这种有针对性的采样确保了高维解尖锐特征的有效分辨率。

下图（原文 Figure 18）比较了测试点的绝对误差：

FIGURE 18. High-Dimension: Above: The predicted solution. Below: The absolute error of the solution. 该图像是图表，展示了不同采样方法下的预测解决方案和绝对误差。上方为预测的解决方案，下方为解决方案的绝对误差，其中包含四种方法：均匀采样（a）、RAR（b）、RAD（c）和RL-PINNs（d）。

RL-PINNs 在原点附近保持低误差，而 UNIFORM 和 RAD 由于关键区域采样不足而存在较大差异。RAR 虽略微提高了精度，但由于平滑区域的冗余点而未能达到 RL-PINNs 的精度。

这些结果验证了 RL-PINNs 在高维 PDEs 中的有效性，在减轻传统方法中固有的维度诅咒的同时，实现了卓越的精度。

6.5. 双调和方程 (Biharmonic Equation)

问题描述： 在四阶双调和方程上验证 RL-PINNs，以展示其处理高阶导数算子的能力。控制方程定义为： $\left\{ \begin{array} { l l } { \Delta ^ { 2 } u ( x , y ) = f ( x , y ) , \quad \mathrm { ~ i n ~ } \Omega = [ - 1 , 1 ] ^ { 2 } , } \\ { u ( x , y ) = g ( x , y ) , \quad \mathrm { ~ o n ~ } \partial \Omega , } \\ { \Delta u ( x , y ) = h ( x , y ) , \quad \mathrm { ~ o n ~ } \partial \Omega , } \end{array} \right.$ 其精确解为： $u ( x , y ) = e ^ { - 1 0 ( x ^ { 2 } + y ^ { 2 } ) } ,$ 其中 $f ( x , y ) = \left[ 1 6 0 0 0 0 ( x ^ { 2 } + y ^ { 2 } ) ^ { 2 } - 6 4 0 0 0 ( x ^ { 2 } + y ^ { 2 } ) + 3 2 0 0 \right] e ^ { - 1 0 ( x ^ { 2 } + y ^ { 2 } ) }$ 和 $h ( x , y ) = \left[ 4 0 0 ( x ^ { 2 } + y ^ { 2 } ) - 4 0 \right] e ^ { - 1 0 ( x ^ { 2 } + y ^ { 2 } ) }$ 。该解表现出径向对称的指数衰减，在原点附近曲率尖锐，对传统自适应方法因四阶算子对局部特征的敏感性而构成挑战。

下图（原文 Figure 19）展示了高阶双调和方程的精确解：

FIGURE 19. High-Order: The exact solution.

实验设置：

RL-PINNs 执行一轮自适应采样，保留 719 个高变异点。
基线方法 (UNIFORM、RAR、RAD) 执行五轮采样，每轮增加 200 个配置点（总计 1000 个点）。
采样后训练：RL-PINNs 训练 25000 次迭代。基线方法每轮训练 5000 次迭代。

核心结果分析： 以下是原文 Table 6 的结果：

Case1	Total sampling time	Total PINNs training time	L2
UNIFORM	6.78e-4 s	3657.54 s	0.3265
RAR	0.52 s	3655.36 s	0.1611
RAD	0.53 s	3664.73 s	0.2340
RL-PINNs	4.82 s	3591.44 s	0.0851

RL-PINNs 实现了 0.0851 的相对 $L_2$ 误差，相较于 UNIFORM (0.3265)、RAR (0.1611) 和 RAD (0.2340)，误差分别降低了 $73.9\%$ 、 $47.2\%$ 和 $63.3\%$ 。
RL-PINNs 的采样时间为 4.82 s，PINN 训练时间为 3591.44 s。

下图（原文 Figure 20）展示了不同采样方法的累积采样点分布：

该图像是图表，展示了不同采样方法的效果，包括均匀采样（UNIFORM）、自适应重采样（RAR）、随机自适应采样（RAD）以及 RL-PINNs 的一次性采样。在左上角的 UNIFORM 图中，样本分布均匀，而 RL-PINNs 图则展示了更为聚集的样本分布，表明其有效性。

RL-PINNs 密集采样原点 $(0, 0)$ 附近区域，即解的四阶导数占主导的区域。相比之下，基线方法均匀分布点，或在曲率可忽略的区域冗余分布点，未能有效解析尖锐衰减。

下图（原文 Figure 21）比较了预测解的绝对误差：

FIGURE 21. High-Order: Above: The predicted solution. Below: The absolute error of the solution. 该图像是一个包含四个部分的示意图，展示了不同采样方法下的解和绝对误差。上半部分为预测解，下半部分为绝对误差，分别对应UNIFORM、RAR、RAD和RL-PINNs方法。

RL-PINNs 在原点附近保持最小误差，而 UNIFORM 和 RAD 由于关键区域欠采样而存在显著误差。RAR 虽部分提高了精度，但由于平滑区域的冗余点而表现不佳。

这些结果强调了 RL-PINNs 在解决高阶 PDEs 方面的鲁棒性，在没有高昂计算成本的情况下实现了卓越的精度。

下图（原文 Figure 22）进一步可视化了在 $y=0$ 处的预测解与精确解的对比：

$FIGURE 22. High-Order: The predicted solution $( x , 0 )$ .$ 该图像是图表，展示了不同采样方法（UNIFORM、RAR、RAD和RL-PINNs）预测结果与真实解的比较。蓝色曲线表示预测结果，红色虚线表示真实解。在高维和高阶问题上，RL-PINNs方法明显优于其他方法。

结果表明 RL-PINNs 的预测曲线与精确解高度吻合。

6.6. 总结性分析

综合六个基准测试的结果，RL-PINNs 在准确性方面始终优于所有基线方法（UNIFORM、RAR 和 RAD），并且在大多数情况下将 $L_2$ 误差降低了显著的百分比。

精度提升： RL-PINNs 能够在各种挑战性 PDE 问题（包括具有尖锐梯度、不连续性、高维度和高阶导数的问题）中实现更高的解精度。这主要归功于其智能体能够通过 RL 学习到更有效的采样策略，将 配置点 集中在解变化剧烈的关键区域。
采样效率： 尽管 RL-PINNs 的 RL 采样阶段本身可能比 RAR 或 RAD 的单次采样迭代耗时更长，但由于 RL-PINNs 只需单轮采样，而基线方法需要多轮迭代和重复的 PINN 重新训练，导致 RL-PINNs 的总 PINN 训练时间与基线方法相当甚至更短，同时精度大幅提升。文章明确指出 RL-PINNs 的采样开销相对于总运行时间是可忽略不计的（例如，单峰案例中为 $0.56\%$ ，高维案例中为 $1.27\%$ ）。
可扩展性： RL-PINNs 引入的 梯度无关 的函数变异作为奖励信号，成功避免了在高维和高阶 PDEs 中昂贵的自动微分计算，这使得它比依赖残差梯度的 RAR 和 RAD 在这些复杂问题上更具可扩展性。
鲁棒性： 延迟奖励机制和 DQN 的长期规划能力，使得 RL-PINNs 能够避免对短期局部特征的过度采样，从而获得了更稳定和泛化的采样点分布，避免了冗余点，提升了整体解决方案的鲁棒性。

7. 总结与思考

7.1. 结论总结

本文提出了 RL-PINNs，一个基于强化学习驱动的自适应采样框架，用于高效训练物理信息神经网络 (PINNs)。该框架通过将自适应采样任务形式化为马尔可夫决策过程 (MDP)，并利用 DQN 智能体学习最优采样策略，成功克服了传统残差驱动自适应方法的局限性。其核心贡献包括：

梯度无关的奖励设计： 引入了 函数变异 作为奖励信号，有效避免了高维和高阶 PDEs 中昂贵的梯度计算，显著提升了计算效率和可扩展性。
延迟奖励机制： 采用半稀疏的延迟奖励策略，优先考虑长期训练稳定性而非短期收益，从而减少了冗余采样点，优化了 配置点 的分布。
序列决策能力： RL 智能体通过序列决策，能够在单轮采样中有效识别并集中在解变化剧烈的关键区域，大幅减少了多轮迭代和重复训练带来的计算开销。

实验结果在包括低正则、非线性、高维和高阶问题在内的多样化 PDE 基准测试中，一致表明 RL-PINNs 在准确性方面显著优于现有的 UNIFORM、RAR 和 RAD 等方法。同时，其采样开销可忽略不计，证明了该方法在复杂 PDE 问题中的高效性和可扩展性。

7.2. 局限性与未来工作

论文作者指出了以下潜在的局限性并提出了未来的研究方向：

多保真度模型集成： 未来可以探索将 RL-PINNs 与多保真度 (multi-fidelity) 模型相结合，以进一步提高效率和准确性。
随机偏微分方程 (Stochastic PDEs) 扩展： 将 RL-PINNs 框架扩展到解决 随机PDEs 领域。
高级强化学习算法： 研究更先进的 RL 算法（例如，actor-critic methods）是否能进一步提高采样效率和泛化能力。

7.3. 个人启发与批判

7.3.1. 个人启发

RL-PINNs 提供了一种极具启发性的思路，即如何将强化学习的序列决策和长期规划能力引入到传统的科学计算问题中。

问题重构的智慧： 将 PINNs 的自适应采样问题巧妙地重构为 MDP，是该工作的核心亮点。这种抽象能力使得一个看似复杂的采样优化问题，能够被 RL 智能体以数据驱动的方式自主学习。
梯度无关的奖励： 函数变异 作为奖励信号的设计非常巧妙且实用。它有效地规避了传统残差方法中计算高阶导数的巨大开销，特别是对于高维和高阶 PDEs，这极大地拓展了方法的适用性。这种“用更简单的度量替代复杂度量来指导学习”的思想，在其他计算密集型领域也可能有所应用。
单轮采样范式： 相比于传统的多轮迭代和重复训练，单轮采样极大提升了效率。这表明在一些计算任务中，通过更智能的预处理或信息收集，可以大幅减少后续迭代或训练的成本。
延迟奖励的有效性： 延迟奖励机制避免了贪婪的局部优化，促使智能体学习更有利于长期性能的策略，这对于许多涉及到“最优资源分配”的问题都具有借鉴意义。

7.3.2. 批判

尽管 RL-PINNs 取得了显著进展，但仍存在一些可以深入探讨或改进的方面：

DQN 训练的计算成本： 论文中强调 RL-PINNs 的采样开销可忽略不计。然而，DQN 智能体本身的训练也需要计算资源和时间。虽然这可能远低于多轮 PINN 训练的成本，但在非常高维或复杂的问题中，训练一个高效的 DQN 智能体本身可能成为瓶颈。例如，DQN 网络的参数量、episode 数量、每个 episode 的步数等都会影响 DQN 的训练时间和收敛性，这些成本在总时间中占比如何仍需更详细的分析。
超参数敏感性： DQN 模型通常对超参数（如学习率、折扣因子 $\gamma$ 、探索概率 $p$ 的衰减策略、函数变异阈值 $\varepsilon$ 、回放缓冲区大小 $P$ 以及终止条件中的 $k$ 值）非常敏感。论文中给出了这些参数的具体值，但并未深入探讨这些参数对 RL 训练稳定性、采样效率和最终 PINN 精度有多大影响，以及如何为新问题进行鲁棒的参数选择。
动作空间粒度： 动作空间中的离散位移步长 ( $\Delta x, \Delta y$ ) 是固定的。如果 PDE 解的特征尺度差异巨大，固定的步长可能不是最优选择。较小的步长会导致智能体探索效率低下，而较大的步长可能错过精细的特征。未来可以考虑引入自适应的动作空间或分层动作空间。
状态表示的局限性： 当前状态仅由空间位置 $\mathbf{x}^{(t)}$ 组成。对于一些 PDEs，仅仅依靠位置信息可能不足以完全捕捉解的复杂性。考虑在状态中加入更多上下文信息（如局部的解值、残差估计、解的梯度信息等）可能会帮助 RL 智能体学习更精细的策略，尽管这会增加状态空间的复杂度，对 DQN 带来更大挑战。
泛化能力： RL 智能体在一个 PDE 问题上学习到的采样策略，在多大程度上能够泛化到未见过的 PDE 问题或具有不同参数的同类 PDE 问题上，是一个值得研究的问题。这可能涉及到元强化学习 (meta-RL) 的思想。
函数变异的局限性： 尽管函数变异是梯度无关的，但在某些情况下，它可能无法像真实的 PDE 残差那样准确地指示所有类型的误差。例如，在解非常平滑但在某些区域有微小但重要的物理现象时，函数变异可能不够敏感。

总而言之，RL-PINNs 为 PINNs 的自适应采样开辟了一条新途径，具有巨大的潜力和启发性。未来的研究可以围绕 RL 训练效率、超参数鲁棒性、更精细的状态与动作空间设计，以及策略的泛化能力等方面进行拓展，使其在更广泛的科学计算问题中发挥作用。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。