AiPaper
论文状态:已完成

A survey on physics informed reinforcement learning: Review and open problems

发表:2023/01/01
原文链接
价格:0.10
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文回顾了物理信息强化学习(PIRL)的新兴领域,提出了一种基于强化学习流程的分类法,以便更好地理解现有方法,分析物理信息与强化学习架构的结合及其应用。综述还识别了关键挑战和未来研究方向,强调了该领域在提高强化学习算法的适用性和效率方面的潜力。

摘要

The fusion of physical information in machine learning frameworks has revolutionized many application areas. This work explores their utility for reinforcement learning applications. A thorough review of the literature on the fusion of physics information in reinforcement learning approaches, commonly referred to as physics-informed reinforcement learning (PIRL), is presented. A novel taxonomy is introduced with the reinforcement learning pipeline as the backbone to classify existing works, compare and contrast them, and derive crucial insights. Existing works are analyzed with regard to the representation/form of the governing physics modeled for integration, their specific contribution to the typical reinforcement learning architecture, and their connection to the underlying reinforcement learning pipeline stages. Core learning architectures and physics incorporation biases of existing PIRL approaches are identified and used to further categorize the works for better understanding and adaptation. By providing a comprehensive perspective on the implementation of the physics-informed capability, the taxonomy presents a cohesive approach to PIRL. It identifies the areas where this approach has been applied, as well as the gaps and opportunities that exist. Additionally, the review highlights unresolved issues and challenges, while also incorporating potential and emerging solutions to guide future research. This nascent field holds great potential for enhancing reinforcement learning algorithms by increasing their physical plausibility, precision, data efficiency, and applicability in real-world scenarios.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

物理信息强化学习综述:回顾与开放问题 (A survey on physics informed reinforcement learning: Review and open problems)

1.2. 作者

  • Chayan Banerjee 10a,\textcircled { 1 0 } \mathrm { a } , \ast

  • Kien Nguyen a

  • Clinton Fookes 10\textcircled { 1 0 } a

  • Maziar Raissi b

    a 昆士兰科技大学 (Queensland University of Technology),澳大利亚布里斯班 b 科罗拉多大学 (University of Colorado),美国博尔德

1.3. 发表期刊/会议

该论文以综述 (Review) 形式发表,通常意味着其旨在总结某一研究领域的最新进展、关键挑战和未来方向,对该领域具有重要的参考价值。虽然论文内容未直接指明具体期刊,但其深度和广度符合顶级期刊综述文章的标准,特别是在跨学科领域如物理信息机器学习和强化学习的交叉方向。Maziar Raissi 作为物理信息神经网络 (PINN) 的主要提出者之一,其参与也进一步提升了这篇综述的学术影响力。

1.4. 发表年份

2023年

1.5. 摘要

本文旨在深入探讨物理信息在强化学习 (Reinforcement Learning, RL) 应用中的效用。作者对物理信息与强化学习方法融合的文献进行了全面综述,这种融合通常被称为物理信息强化学习 (Physics-Informed Reinforcement Learning, PIRL)。论文提出了一种新颖的分类法,以强化学习流程为骨干,对现有工作进行分类、比较、对比并得出关键见解。对现有工作的分析侧重于建模物理信息(如控制物理定律)的表示/形式、其对典型强化学习架构的具体贡献,以及与底层强化学习流程阶段的联系。文中识别了现有 PIRL 方法的核心学习架构和物理融入偏差,并用于进一步细分工作,以便更好地理解和适应。通过提供物理信息能力的实施的全面视角,该分类法提出了一种连贯的 PIRL 方法。它识别了该方法的应用领域以及存在的空白和机遇。此外,该综述还强调了未解决的问题和挑战,并结合了潜在和新兴的解决方案来指导未来的研究。这个新兴领域在通过提高物理合理性、精度、数据效率和在现实世界场景中的适用性来增强强化学习算法方面具有巨大潜力。

1.6. 原文链接

/files/papers/6919fecd110b75dcc59ae34d/paper.pdf 本文发布状态:已发表。

2. 整体概括

2.1. 研究背景与动机

核心问题: 强化学习 (RL) 在解决决策制定和优化问题方面取得了显著成就,尤其是在自主驾驶、运动控制、机器人学等领域。然而,这些成功大多依赖于纯数据驱动的试错学习,在仿真环境中表现良好,但在处理真实世界数据时面临诸多挑战。

重要性与现有挑战:

  1. 样本效率 (Sample Efficiency): RL 方法通常需要大量的环境交互数据,这在真实世界中获取成本高昂甚至不切实际。

  2. 高维连续状态与动作空间 (High Dimensional Continuous State and Action Spaces): 复杂系统通常具有高维度的状态和动作空间,使 RL 训练变得低效。

  3. 安全探索 (Safe Exploration): 在安全关键应用中,不加约束的试错探索可能导致危险状态。

  4. 多目标与奖励函数定义 (Multi-objective and Well-defined Reward Function): 设计一个既能引导智能体有效学习又符合任务目标的多目标奖励函数极具挑战性。

  5. 仿真器与模型准确性 (Perfect Simulators and Learned Model): 完美的仿真器难以构建,而学习到的环境模型可能存在偏差,导致“仿真到现实”的迁移困难。

  6. 离线预训练策略迁移 (Policy Transfer from Offline Pre-training): 如何有效地将离线预训练的策略迁移到在线真实环境仍是难题。

    创新思路: 鉴于上述挑战,论文提出将物理信息 (Physical Information) 融入强化学习框架,即物理信息强化学习 (PIRL)。这种融合借鉴了物理信息机器学习 (PIML) 的思想,利用数学物理模型和观测数据共同指导学习过程。由于大多数 RL 问题涉及真实世界系统并具有可解释的物理结构,因此将物理信息纳入 RL 是一个自然且具有巨大潜力的方向。

2.2. 核心贡献/主要发现

本文通过对 PIRL 领域现有文献的全面回顾和分析,提出了以下核心贡献:

  1. 统一分类法 (Unified Taxonomy): 提出了一种新颖的分类法,以强化学习流程为骨干,系统性地分类和组织了 PIRL 研究。该分类法从三个维度进行:
    • 物理信息类型 (Physics Information Types): 建模的物理知识/过程形式(如微分/代数方程、障碍证书、物理参数等)。
    • PIRL 方法 (PIRL Methods): 物理信息如何增强 RL 方法(如状态设计、动作调节、奖励设计、策略/价值网络增强、仿真器/模型增强)。
    • RL 流程阶段 (RL Pipeline Stages): 物理信息在 RL 流程的哪个阶段被整合(如问题表示、学习策略、网络设计、训练、策略部署)。
  2. 算法综述 (Algorithmic Review): 提供了关于物理信息引导/增强 RL 方法的最新进展综述,使用了统一的符号表示、简化的功能图和对最新文献的讨论。
  3. 训练与评估基准综述 (Training and Evaluation Benchmark Review): 分析了文献中使用的评估基准,呈现了流行的评估和基准平台/套件,以便理解流行趋势和方便参考。
  4. 深入分析 (Analysis): 深入探讨了各种基于模型 (Model-based) 和无模型 (Model-free) 的 RL 应用,详细分析了物理信息如何整合到特定的 RL 方法中、哪些物理过程被建模和整合,以及使用了哪些网络架构或网络增强来整合物理。
  5. 开放问题与未来方向 (Open Problems): 总结了对 PIRL 领域挑战、开放研究问题和未来研究方向的展望。

关键结论/发现:

  • PIRL 通过显式地整合物理原理,与传统 RL 存在根本性差异。这种方法能够显著提高样本效率、模型准确性、泛化能力、减少模型偏差并生成符合物理规律的策略。
  • 物理信息以多种形式存在,并可以在 RL 流程的不同阶段通过多种方法进行整合。
  • 安全关键应用是 PIRL 的一个主要驱动力,通过障碍函数等机制确保安全探索。
  • PPO 及其变体是 PIRL 中最常用的 RL 算法。
  • 结合多种物理整合方法(如奖励设计与策略/价值网络编辑)可以实现更显著的效率提升和泛化能力。
  • PIRL 仍在快速发展,并已扩展到自主系统、能源系统、医疗保健和交通安全等新兴领域。

3. 预备知识与相关工作

本部分旨在为读者铺垫理解本文所需的强化学习和物理信息机器学习的基本概念,并分析 PIRL 领域的工作如何在此基础上发展。

3.1. 基础概念

3.1.1. 强化学习 (Reinforcement Learning, RL)

概念定义: 强化学习是一种通过试错 (trial-and-error) 学习的机器学习范式,智能体 (agent) 在一个环境 (environment) 中执行动作 (action),接收奖励 (reward) 信号作为反馈,并根据这些反馈调整其行为,以最大化长期累积奖励。

马尔可夫决策过程 (Markov Decision Process, MDP): RL 问题通常被建模为 MDP,由一个五元组 (S,A,R,P,γ)( S , \mathcal { A } , R , P , \gamma ) 构成:

  • SS: 环境的状态空间 (state space)。

  • A\mathcal { A }: 智能体可以采取的动作空间 (action space)。

  • R(st+1,at)R(s_{t+1}, a_t): 奖励函数 (reward function),表示从状态 sts_t 采取动作 ata_t 转移到 st+1s_{t+1} 所获得的即时奖励。

  • P(st+1st,at)P(s_{t+1} | s_t, a_t): 状态转移概率 (state transition probability),表示从状态 sts_t 采取动作 ata_t 转移到 st+1s_{t+1} 的概率。

  • γ[0,1]\gamma \in [0, 1]: 折扣因子 (discount factor),用于权衡即时奖励和未来奖励的重要性。

    核心目标: 智能体的目标是学习一个最优策略 πϕ(atst)\pi_{\phi}(a_t|s_t),该策略在给定状态 sts_t 时,选择动作 ata_t 以最大化期望的折扣累积奖励 I(ϕ)\mathcal{I}(\phi)ϕ=argmaxϕEτpϕ(τ)[t=1TγtR(at,st+1)]I(ϕ) \phi ^ { * } = \arg \operatorname* { m a x } _ { \phi } \underbrace { { \mathbf E } _ { \tau \sim p _ { \phi } ( \tau ) } \Big [ \sum _ { t = 1 } ^ { T } \gamma ^ { t } R ( \boldsymbol { a } _ { t } , \boldsymbol { s } _ { t + 1 } ) \Big ] } _ { \mathcal { I } ( \phi ) } 其中,τ=(s1,a1,s2,a2,,sT,aT,sT+1)\tau = (s_1, a_1, s_2, a_2, \cdots, s_T, a_T, s_{T+1}) 代表智能体与环境交互的轨迹 (trajectory), pϕ(τ)p_{\phi}(\tau) 是该轨迹的概率分布, TT 是时间范围。

RL 算法分类:

  • 基于模型 (Model-based RL, MBRL) 与无模型 (Model-free RL, MFRL):
    • MBRL: 在策略优化过程中,智能体可访问环境模型 P(st+1,rtst,at)P(s_{t+1}, r_t | s_t, a_t),能够预测状态转移和奖励。这允许智能体进行规划 (planning),通常具有更高的样本效率。但缺点是真实世界的环境模型通常难以完全获取,且学习到的模型可能存在偏差。
    • MFRL: 智能体直接从环境交互中学习策略,无需显式建模环境动力学。通常更灵活,但样本效率较低。
  • 在线 (Online) 与离线 (Offline):
    • 在线 RL: 算法使用从最新策略 (latest policy) 收集的数据来优化策略,例如 PPOTRPO
    • 离线策略 (Off-policy) RL: 算法使用存储在经验回放缓冲区 (experience replay buffer) 中的任何时间点收集的数据来更新策略和其他网络,例如 SACTD3
    • 离线 RL: 算法使用一个固定的数据集 DD(由某个策略 πζ\pi_{\zeta} 收集)来学习最优策略,允许利用大量预先收集的数据。

3.1.2. 物理信息机器学习 (Physics-informed Machine Learning, PIML)

概念定义: PIML 旨在将数学物理模型与观测数据无缝融合到机器学习的学习过程中。这种方法有助于在复杂、部分观测、不确定和高维的场景中,引导学习过程找到物理上一致的解决方案。

PIML 的优势:

  1. 物理一致性: 确保机器学习模型在物理和科学上是连贯的。

  2. 数据效率 (Data Efficiency): 提高模型训练的数据效率,用更少的数据输入也能训练模型。

  3. 训练加速: 加速模型训练过程,模型能更快收敛到最优解。

  4. 泛化能力 (Generalizability): 增强训练模型的泛化能力,对未见过场景也能做出更好预测。

  5. 透明度与可解释性 (Transparency and Interpretability): 提高模型的透明度和可解释性,使其更值得信赖。

    物理知识融合策略 (Bias): PIML 中整合物理知识或先验信息主要有三种策略:

  • 观测偏差 (Observational bias): 利用反映物理原理的多模态数据进行训练。深度神经网络 (DNN) 直接在观测数据上训练,旨在捕捉底层物理过程。数据可来源于直接观测、仿真、物理方程生成数据等。
  • 学习偏差 (Learning bias): 通过软惩罚约束 (soft penalty constraints) 来强化物理先验知识。这通常通过在损失函数中添加基于物理的额外项实现,例如物理信息神经网络 (PINN) 将偏微分方程 (PDE) 嵌入到神经网络的损失函数中。
  • 归纳偏差 (Inductive bias): 通过定制的神经网络架构引入“硬”约束,直接将先验知识编码到模型中。例如,哈密顿神经网络 (Hamiltonian NN) 和拉格朗日神经网络 (Lagrangian Neural Networks, LNNs) 旨在尊重精确的守恒定律。

3.2. 前人工作

本文作为一篇综述,广泛引用了该领域的前人工作。以下是一些在 PIRL 发展中具有代表性的工作类型和关键概念:

  • 物理信息神经网络 (PINN) (Karniadakis et al., 2021): 作为 PIML 的核心代表,PINN 将物理定律(通常是微分方程)嵌入到神经网络的损失函数中,使其能够在数据稀疏或噪声大的情况下,学习到满足物理规律的解。这为 PIRL 提供了将物理约束融入 RL 算法损失函数的基础。
  • 控制障碍函数 (Control Barrier Functions, CBF) (Ames et al., 2019): 在安全关键 RL 中,CBF 被广泛用于定义安全集,并设计控制律以确保系统状态保持在安全集内,从而避免危险的探索。与 控制李亚普诺夫函数 (Control Lyapunov Function, CLF) 结合,CBF 可以在保证稳定性的同时确保安全性。
  • 残差强化学习 (Residual Reinforcement Learning): 这种架构通常结合一个传统的人工设计控制器(或物理模型控制器)和一个学习到的 RL 策略。RL 策略学习“残差”控制量以优化性能或处理模型未捕获的复杂性,同时物理控制器提供基础的稳定性或安全性。
  • 微分仿真器 (Differentiable Simulators): 传统的物理仿真器通常不可微分,难以直接用于端到端的 RL 训练。微分仿真器能够提供关于仿真结果对控制动作的梯度信息,从而实现更高效的策略优化。
  • 模仿学习 (Imitation Learning): 在机器人运动控制中,通过模仿人类或专家示范的轨迹来训练 RL 智能体,结合物理信息可以使模仿动作更加符合物理规律。

3.3. 技术演进

PIRL 领域的技术演进可以概括为以下几个阶段:

  1. 早期尝试 (Pre-2018): 这一阶段的研究主要集中在将物理特性作为先验知识进行简单的特征工程 (feature engineering) 或作为硬编码规则辅助 RL。例如,Xieetal.(2016)Xie et al. (2016) 利用机器人形态学等物理特性进行模型识别。Chentanez et al. (2018) 开始尝试使用物理仿真器来增强运动捕捉的模仿学习。
  2. PIML 思想引入与损失函数整合 (2018-2020): 随着 PINN 等 PIML 方法的兴起,将物理定律作为软约束(通过损失函数)引入 RL 变得可行。同时,安全关键 RL 领域开始探索将 CBF 等控制理论概念与 RL 结合,以确保探索和策略部署的安全性。Cheng et al. (2019) 引入 CBF 实现安全 RL。Bahl et al. (2020) 将动力系统作为可微分层嵌入策略网络。
  3. 多模态物理信息与架构创新 (2020-2022): 研究开始探索更广泛的物理信息形式,如物理参数、动态运动基元 (Dynamic Movement Primitives, DMP) 等,并将其融合到 RL 流程的不同阶段。架构创新包括残差学习、分层 RL (Hierarchical RL) 以及利用物理信息增强世界模型 (world model) 的学习。Ramesh and Ravindran (2023) 利用 LNN 学习环境和奖励模型。Siekmann et al. (2021) 提出了基于物理周期成本的奖励设计框架。
  4. 安全保障与泛化能力提升 (2023至今): 随着应用复杂度的增加,PIRL 更加关注在不确定和复杂环境中的安全保证,以及策略的泛化能力。神经障碍证书 (Neural Barrier Certificate, NBC)、控制李亚普诺夫障碍函数 (Control Lyapunov Barrier Function, CLBF) 等技术被用于构建更鲁棒的安全过滤器。同时,组合多种物理信息整合方法成为趋势,以期在样本效率、准确性和泛化方面取得全面提升。新兴研究也开始探索 PIRL 在能源系统、医疗保健等领域的应用,并关注物理模型引导的抽样和领域知识集成,以在保持安全性的同时提高效率。

3.4. 差异化分析

本文与现有综述文章的主要区别在于其专注性和全面性

  • Karniadakis et al. (2021):该综述全面回顾了物理信息机器学习 (PIML) 的方法,但未深入讨论 RL 领域的具体应用。
  • Hao et al. (2022):同样概述了 PIML,但仅简要提及了 PIRL 这一主题
  • EEBerer, Bach, Jestel, Urbann, and Kerner (2022):聚焦于将先验知识引入机器人应用的 RL 算法,并将知识分为专家知识、世界知识和科学知识。其应用领域相对局限

本文的创新点在于:

  1. 聚焦 RL 领域: 本文专门且全面地回顾了利用过程/系统底层物理的结构、属性或约束的强化学习方法。

  2. 更广泛的应用领域: 论文的应用范围不限于机器人学,还涵盖了运动控制、分子结构优化、安全探索和机器人操作等。

  3. 新颖的分类法: 引入了以 RL 流程为骨干的统一分类法,系统性地揭示了物理知识的建模方式、表示形式以及如何整合到 RL 方法中。这为理解和比较 PIRL 工作提供了一个连贯的框架。

  4. 深入的实施层面分析: 详细分析了学习架构和物理融入偏差,更精确地解释了 PIRL 的实施细节。

    通过这些差异化分析,本文填补了现有综述在 PIRL 领域的空白,为研究人员提供了一个更具针对性和深度的参考。

4. 方法论

本章节将详细拆解物理信息强化学习 (PIRL) 的技术方案,从其核心原理、分类法到具体的实现方法。我们将首先介绍论文提出的 PIRL 分类法,然后根据分类中的 PIRL 方法 维度,结合 物理信息类型 (Physics Information Types)学习架构 (Learning Architecture)偏差 (Bias),对现有工作进行详细阐述,并融入论文中给出的关键公式和图示。

4.1. PIRL 分类法概览

论文提出了一种统一的 PIRL 分类法,如图 15 所示,该分类法由三个主要类别构成:

  1. 物理信息 (Physics Information, PI) 类型: 物理知识的表示形式。

  2. PIRL 方法 (PIRL Methods): 物理先验如何增强 RL 算法的具体策略。

  3. RL 流程 (RL Pipeline) 阶段: 物理信息在标准 RL 流程的哪个阶段被整合。

    此外,论文还引入了两个额外的分类维度来更精确地解释 PIRL 的实现:

  • 偏差 (Bias): 物理信息在机器学习模型中整合的方式(观测偏差、学习偏差、归纳偏差)。

  • 学习架构 (Learning Architecture): PIRL 算法对传统 RL 学习架构引入的特定修改(如安全过滤器、PI 奖励、残差学习、物理嵌入网络等)。

    下图 (原文 Figure 9) 可视化了 PIRL 分类法和不同类别之间的实现路径:

    该图像是多幅图表,展示了物理信息强化学习(PIRL)相关文献中不同强化学习算法的应用数量及相关方法的分类,包括模型学习、数据增强和物理变量等。图表展示了不同方法在研究中的使用情况及其应用领域,并指出了未来研究的机会与挑战。 该图像是多幅图表,展示了物理信息强化学习(PIRL)相关文献中不同强化学习算法的应用数量及相关方法的分类,包括模型学习、数据增强和物理变量等。图表展示了不同方法在研究中的使用情况及其应用领域,并指出了未来研究的机会与挑战。

以下我们将按照 PIRL 方法 维度,结合具体案例和图示,详细介绍 PIRL 的技术方案。

4.2. 物理信息 (PI) 类型:物理先验的表示

物理信息以多种形式存在,根据其表示方式,可分为以下几类:

  1. 微分与代数方程 (Differential and Algebraic Equations, DAE): 包括偏微分方程 (PDE)、常微分方程 (ODE) 和边界条件 (BC)。

    • 示例: 在瞬态电压控制中,Gaoetal.(2022)Gao et al. (2022) 使用瞬态过程的 PDE 训练 PINN,将其学到的物理约束传递给 RL 算法的损失项。
  2. 障碍证书与物理约束 (Barrier Certificate and Physical Constraints, BPC): 用于在安全关键 RL 应用中规范智能体探索。

    • 示例: 控制李亚普诺夫函数 (Control Lyapunov Function, CLF)障碍证书/函数 (Barrier Function, BF)控制障碍函数/证书 (Control Barrier Function/Certificate, CBF/CBC) (Cai et al., 2021; Cheng et al., 2019)。这些方法将系统动力学(部分已知或可学习)和安全集作为主要的物理信息。障碍函数有时通过神经网络学习 (Zhao et al., 2023)。
  3. 物理参数、基元与物理变量 (Physics Parameters, Primitives and Physical Variables, PPV): 直接从环境或系统中提取/导出的物理值。

    • 示例: Siekmann et al. (2021) 使用物理参数,Bahl et al. (2021) 使用动态运动(物理)基元 (Dynamic Movement Primitives, DMP),Jurj et al. (2021) 使用物理状态,Lietal.(2023)Li et al. (2023) 使用物理目标。
  4. 离线数据与表示 (Offline Data and Representation, ODR): 用于改进基于仿真器的训练,特别是仿真到现实 (sim-to-real) 迁移。

    • 示例: Golemo et al. (2018) 使用从真实机器人收集的非任务特定策略数据进行离线训练。Gokhale et al. (2022) 使用 PINN 学习物理相关的低维表示。
  5. 物理仿真器与模型 (Physics Simulator and Model, PS): 提供一个易于实验的 RL 测试平台,或用于数据生成、模型增强。

    • 示例: Chentanez et al. (2018) 使用刚体物理仿真器解决运动捕捉模仿问题。Ramesh and Ravindran (2023) 使用 Lagrangian NNs (LNNs) 学习环境和奖励模型。
  6. 物理属性 (Physical Properties, PPR): 关于系统物理结构或属性的基本知识。

    • 示例: 系统形态学 (morphology) (Xie et al., 2016),系统对称性 (symmetry) (Huang et al., 2023)。

4.3. PIRL 方法:物理先验对 RL 的增强

PIRL 方法关注于修改或增强典型 RL 范式的不同组件,如状态空间、动作空间、奖励函数以及智能体网络(策略和价值函数网络)。

4.3.1. 状态设计 (State Design)

此类别涉及对环境或模型观测到的状态空间的修改或扩展,使其更具指导性。

核心思想: 通过整合额外的物理信息、从鲁棒表示中提取特征,或施加状态约束,来创建更丰富、更有意义的状态表示,从而帮助 RL 智能体更好地理解环境和任务。

案例分析:

  • 互联自动驾驶车辆 (CAV) 的分布式控制 (Shi et al., 2023):

    • 物理信息类型: 物理状态 (PPV),通过周围车辆信息和路面几何形状。
    • 学习架构: 物理变量 (Physics Variable) 架构。
    • 偏差: 观测偏差 (Observational bias)。
    • 方法详解: Shietal.(2023)Shi et al. (2023) 提出一种通过状态融合(state fusion)将周围下游车辆和路面几何形状信息嵌入状态表示的方法,用于控制互联自动驾驶车辆 (CAV)。对于第 iiCAVDRL 状态被定义为: sit=[eit,ϕit,δqit,δdit,kit] s _ { i } ^ { t } = \left[ e _ { i } ^ { t } , { \phi } _ { i } ^ { t } , \delta { q } _ { i } ^ { - t } , \delta { d } _ { i } ^ { - t } , k _ { i } ^ { t } \right] 其中:
      • eite _ { i } ^ { t }:横向偏差 (lateral deviation)。
      • ϕit{\phi } _ { i } ^ { t }:角度偏差 (angular deviation)。
      • δqit\delta { q } _ { i } ^ { - t }:加权平衡间距偏差 (weighed equilibrium spacing deviation)。
      • δdit\delta { d } _ { i } ^ { - t }:速度偏差 (speed deviation)。
      • kitk _ { i } ^ { t }:路面曲率 (road curvature)。 这些偏差和曲率信息直接反映了车辆的物理位置、姿态及其与周围环境的物理关系,从而作为物理先验知识增强了状态表示。 下图 (原文 Figure 10) 展示了这种通过物理信息融合进行状态设计的示例:

    Fig. 2. Agent-environment framework, of RL paradigm. Here the reward generating function and the system/ plant is abstracted as the environment. And the control policy (e.g. a DNN) and the learning a… 该图像是强化学习范式中的代理-环境框架示意图。图中环境包含奖励函数和植物模块,代理则包括控制策略和学习算法。通过环境与代理的交互,代理根据环境反馈调整行为,以实现学习和优化。

  • 自适应巡航控制 (Adaptive Cruise Control) 中的防拥堵距离 (Jurj et al., 2021):

    • 物理信息类型: 物理参数 (PPV),基于速度和加速度约束的防拥堵距离。

    • 学习架构: 物理变量 (Physics Variable) 架构。

    • 偏差: 观测偏差 (Observational bias)。

    • 方法详解: 为了提高车辆的防撞性能,Jurj et al. (2021)RL 智能体的状态输入中增加了物理信息——防拥堵距离 (jam-avoiding distance)。该距离基于期望的物理参数,如速度和加速度约束,以及最小防拥堵距离。这个额外的状态变量为智能体提供了更丰富的物理情境,使其能够学习避免碰撞并保持更等距的行驶。 下图 (原文 Figure 5) 描绘了将防拥堵距离作为 RL 智能体额外状态变量的示例:

      Fig. 11. Example of action regulation, using physics priors. In Zhao et al. (2023), a barrier certification system receives RL control policy generated control actions and refines them sequentially u… 该图像是示意图,展示了一种基于物理先验的动作调节机制。图中描述了一个动态系统与强化学习控制器之间的关系,以及使用障碍证书和控制障碍函数保证约束的过程。

  • 交通控制中的数据增强 (Han et al., 2022):

    • 物理信息类型: 离线数据与表示 (ODR),来自物理交通流模型的合成数据。
    • 学习架构: 数据增强 (Data Augmentation) 架构。
    • 偏差: 观测偏差 (Observational bias)。
    • 方法详解: Hanetal.(2022)Han et al. (2022) 在匝道控制中,利用离线-在线策略训练过程。离线训练数据包含历史数据以及由物理交通流模型生成的合成数据。这种物理信息生成的合成数据增强了训练集,从而在 RL 智能体感知状态时,能够更好地理解交通流的物理规律。
  • 电力系统电压控制中的信息特征提取 (Cao et al., 2023a):

    • 物理信息类型: 离线数据与表示 (ODR),来自物理信息图表示网络的特征。
    • 学习架构: 数据增强 (Data Augmentation) 架构。
    • 偏差: 归纳偏差 (Inductive bias)。
    • 方法详解: Caoetal.(2023a)Cao et al. (2023a) 训练一个物理信息图表示网络 (Global Graph Attention, GGAT) 来建模潮流计算过程。从 GGAT 层中提取信息特征,这些特征作为物理信息被用于策略训练过程,帮助 RL 智能体更好地理解电力系统的物理状态。

4.3.2. 动作调节 (Action Regulation)

此类别涉及通过施加物理约束或其他信息来修改动作值,以确保安全协议的实施。

核心思想: 在智能体执行动作之前,通过一个安全过滤器或障碍函数对 RL 智能体生成的动作进行检查和调整,以确保动作不会导致系统进入不安全状态,从而实现安全探索和策略部署。

案例分析:

  • 电力系统稳定增强中的神经障碍证书 (Zhao et al., 2023):

    • 物理信息类型: 障碍证书与物理约束 (BPC),神经障碍证书 (NBC)。
    • 学习架构: 安全过滤器 (Safety Filter) 架构。
    • 偏差: 学习偏差 (Learning bias)。
    • 方法详解: Zhao et al. (2023) 提出一个框架,用于学习满足预定义安全区域的稳定控制器。该框架结合了无模型控制器和基于神经网络的障碍证书系统 (neural barrier certificate, NBC)。给定训练集,他们学习一个 NBC Bϵ(x)B _ { \epsilon } ( x ) 和过滤(调节)后的控制动作 Fuψ\mathcal { F } _ { u } ^ { \psi },共同满足以下条件: (xS0,Bϵ(x)0)(xSu,Bϵ(x)>0)(xxBϵ(x)=0,Lf(x,uRL)Bϵ(x)<0) \begin{array} { l } { ( \forall x \in S _ { 0 } , B _ { \epsilon } ( x ) \leq 0 ) \wedge ( \forall x \in S _ { u } , B _ { \epsilon } ( x ) > 0 ) } \\ { \wedge ( \forall x \in x | B _ { \epsilon } ( x ) = 0 , \mathcal { L } _ { f ( x , u _ { R L } ) } B _ { \epsilon } ( x ) < 0 ) } \end{array} 其中:
      • xx: 系统状态。
      • Bϵ(x)B _ { \epsilon } ( x ): 神经网络参数化(通过 ϵ\epsilon)的障碍证书。
      • S _ { 0 }: 初始状态集。
      • S _ { u }: 不安全状态集。
      • Lf(x,uRL)Bϵ(x)\mathcal { L } _ { f ( x , u _ { R L } ) } B _ { \epsilon } ( x ): Bϵ(x)B _ { \epsilon } ( x ) 关于系统动力学 f(x,uRL)f(x, u_{RL}) 的李导数 (Lie derivative)。
      • u _ { R L }: RL 智能体生成的原始控制动作。
      • Fuψ\mathcal { F } _ { u } ^ { \psi }: 过滤后的控制动作。 这个条件确保了初始状态在安全区域内,不安全状态在安全区域外,并且当状态位于安全边界时,系统会朝安全区域内部移动,从而满足操作约束。 下图 (原文 Figure 11) 展示了 Zhao et al. (2023) 中使用障碍证书进行动作调节的示例:

    Fig. 3. Typical RL architectures, based on model use and interaction with the environment. 该图像是图示,展示了四种典型的强化学习架构,包括在线RL、离线策略RL、离线RL和基于模型的离线策略RL。每种架构图示通过执行、学习和更新过程显示了状态、动作和奖励之间的关系。

  • 安全连续控制任务中的障碍函数 (Cheng et al., 2019):

    • 物理信息类型: 障碍证书与物理约束 (BPC),控制障碍函数 (CBF)。
    • 学习架构: 残差强化学习 (Residual RL) 架构。
    • 偏差: 学习偏差 (Learning bias)。
    • 方法详解: Cheng et al. (2019) 结合了无模型 RL 和基于模型的 RL,使用 CBF。该方法假设存在一组安全状态,CBF 用于在线学习未知系统动力学,并限制 RL 智能体的动作,以确保其始终保持在安全区域内。
  • 多智能体碰撞避免中的合作与非合作 CBF (Cai et al., 2021):

    • 物理信息类型: 障碍证书与物理约束 (BPC),控制障碍函数 (CBF)。
    • 学习架构: 安全过滤器 (Safety Filter) 架构。
    • 偏差: 学习偏差 (Learning bias)。
    • 方法详解: Caietal.(2021)Cai et al. (2021) 在多智能体 RL (MARL) 环境中,引入了合作和非合作 CBF 来解决碰撞避免问题,同时考虑了合作智能体和障碍物。CBF 确保了每个智能体在执行动作时都能避免与其他智能体或障碍物发生碰撞。
  • 具有屏蔽机制的光伏 (PV) 系统的有功电压控制器 (Chen et al., 2022):

    • 物理信息类型: 物理约束 (BPC)。
    • 学习架构: 安全过滤器 (Safety Filter) 架构。
    • 偏差: 学习偏差 (Learning bias)。
    • 方法详解: Chen et al. (2022) 提出了一种带有屏蔽机制的高效有功电压控制器,用于光伏 (PV) 系统,确保电池储能系统 (BESS) 在训练期间采取安全动作。物理约束被用于设计屏蔽机制,从而对动作进行调节。

4.3.3. 奖励设计 (Reward Design)

此类别关注通过有效的奖励设计或通过奖励函数附加奖惩项来引入物理信息。

核心思想: 将物理原理、目标或约束直接编码到奖励函数中,引导智能体学习符合物理规律、实现特定物理目标的策略,减少不必要的探索。

案例分析:

  • 机器人周期性步态的奖励规范框架 (Siekmann et al., 2021):

    • 物理信息类型: 物理参数 (PPV),基于基本力与速度的概率周期成本。
    • 学习架构: 物理变量 (Physics Variable) 架构。
    • 偏差: 学习偏差 (Learning bias)。
    • 方法详解: Siekmann et al. (2021) 提出了一个奖励规范框架,用于仿真到现实 (sim-to-real) 设置中,该框架基于对基本力和速度的概率周期成本组合。对于周期性机器人行为,绝对时间奖励函数被定义为周期时间变量 ϕ\phi(在 [0, 1] 周期内循环)的函数 R(s,ϕ)R(s, \phi)。更新后的奖励函数被定义为 nn 个奖励分量 Ri(s,ϕ)R_i(s, \phi) 的有偏和,每个分量捕捉期望的机器人步态特征: R(s,ϕ)=β+ΣRi(s,ϕ) R ( s , \phi ) = \beta + \Sigma R _ { i } ( s , \phi ) 其中: Ri(s,ϕ)=ci×Ii(ϕ)×qi(s) R _ { i } ( s , \phi ) = c _ { i } \times I _ { i } ( \phi ) \times q _ { i } ( s )
      • β\beta: 偏置项。
      • c _ { i }: 相位系数。
      • Ii(ϕ)I _ { i } ( \phi ): 相位指示器,在特定相位激活。
      • q _ { i } ( s ): 相位奖励测量,衡量系统状态 ss 在该相位下是否满足物理特征。 这个框架允许通过物理测量(如力、速度)来奖励或惩罚机器人行为,从而引导其学习符合物理规律的步态。 下图 (原文 Figure 12) 展示了 Siekmann et al. (2021) 中通过物理信息进行奖励设计的示例:

    Fig. 4. Map of physics incorporation (PI) in the conventional Reinforcement Learning (RL) framewo1 该图像是图表,展示了强化学习(RL)框架中的物理信息(PI)融合过程。图中描述了RL代理、环境、状态、奖励及行动之间的相互关系,同时标注了相关章节信息以供参考。

  • 肌肉骨骼模拟中的生物启发奖励 (Korivand et al., 2023):

    • 物理信息类型: 物理变量 (PPV),基于物理和实验信息的轨迹优化和生物启发奖励。
    • 学习架构: 物理变量 (Physics Variable) 架构。
    • 偏差: 学习偏差 (Learning bias)。
    • 方法详解: 为了更好地模拟自然人类运动,Korivand et al. (2023) 设计了基于物理和实验信息的奖励函数,包括轨迹优化奖励生物启发奖励。这些奖励通过编码肌肉活动、关节角度等物理特性,使 RL 智能体学习的动作更符合人体的生物力学原理。
  • 流场重建中的物理约束 (Yousif et al., 2023):

    • 物理信息类型: 物理约束 (BPC),动量方程、压力泊松方程和边界条件。
    • 学习架构: 物理嵌入网络 (Physics embedded network) 架构。
    • 偏差: 学习偏差 (Learning bias)。
    • 方法详解: Yousif et al. (2023) 提出了一种基于 DRL 的方法来重建噪声数据中的流场。物理约束,如动量方程、压力泊松方程和边界条件,被用于设计奖励函数,确保重建的流场满足流体力学的基本物理定律。
  • 多微电网能源管理中的物理目标 (Li et al., 2023):

    • 物理信息类型: 物理目标 (PPV),运营成本和自给自足能源。
    • 学习架构: 物理变量 (Physics Variable) 架构。
    • 偏差: 学习偏差 (Learning bias)。
    • 方法详解: Lietal.(2023)Li et al. (2023) 利用联邦多智能体深度强化学习 (MADRL) 进行多微电网能源管理。奖励函数被设计为满足两个物理目标:运营成本 (operation cost)自给自足能源 (self-energy sustainability),从而引导智能体学习符合能源物理平衡和经济效益的策略。

4.3.4. 增强策略或价值网络 (Augment Policy or Value N/W)

此类别 PIRL 方法通过调整策略或价值网络的更新规则和损失函数,或直接修改其底层网络结构来整合物理原理。

核心思想: 将物理定律或约束直接嵌入到 RL 智能体的核心学习组件(策略网络或价值网络)中。这可以通过定制损失函数、修改网络结构或利用特定层来实现,从而使网络输出的动作或评估的价值具有物理合理性。

案例分析:

  • 神经动态策略 (Neural Dynamic Policies, NDP) (Bahl et al., 2020):

    • 物理信息类型: 动态运动基元 (PPV)。
    • 学习架构: 物理嵌入网络 (Physics embedded network) 架构。
    • 偏差: 归纳偏差 (Inductive bias)。
    • 方法详解: Bahl et al. (2020) 提出了 NDP,将动力系统作为一个可微分层嵌入到策略网络中。在 NDP 中,神经网络 Φ\Phi 接收输入状态 sts_t,预测动力系统的参数 (w, g)。这些参数随后用于求解二阶微分方程 y¨=α(β(gy)(y)˙)+f(x)\ddot { y } = \alpha ( \beta ( g - y ) - \dot { ( y ) } ) + f ( x ),以获取系统状态 (y,y˙,y¨)(y, \dot{y}, \ddot{y}),这些状态代表了给定目标 gg 下动力系统的行为。
      • α,β\alpha, \beta: 允许系统临界阻尼的全局参数。
      • f(x): 非线性强制函数,主要捕捉轨迹的形状。 根据机器人的坐标系,还可能使用逆控制器将 yy 转换为 aa,即 a=Ω(y,y˙,y¨)a = \Omega ( y , \dot { y } , \ddot { y } )。因此,NDP 可以定义为: π(as;θ)Ω(DE(Φ(s;θ))),where DE(w,g){y,y˙,y¨} \pi ( a | s ; \theta ) \triangleq \Omega ( D E ( \Phi ( s ; \theta ) ) ) , \mathrm { w h e r e } \ D E ( w , g ) \to \{ y , \dot { y } , \ddot { y } \} 其中 DE(w, g) 表示微分方程的解。这种方法通过将物理动力学直接编码到策略网络的结构中,使得策略生成的动作自然地遵循物理规律。 下图 (原文 Figure 14) 描绘了 Bahl et al. (2020) 中通过物理信息增强策略网络的示例:

    该图像是示意图,展示了物理信息增强强化学习(PIRL)的关键步骤。这些步骤包括问题表示、学习策略、网络设计、训练以及训练后的策略部署。每个步骤下方列出了相应的设计和选择要素,强调了在强化学习流程中整合物理信息的必要性。 该图像是示意图,展示了物理信息增强强化学习(PIRL)的关键步骤。这些步骤包括问题表示、学习策略、网络设计、训练以及训练后的策略部署。每个步骤下方列出了相应的设计和选择要素,强调了在强化学习流程中整合物理信息的必要性。

  • 分层神经动态策略 (Hierarchical Neural Dynamic Policies, H-NDP) (Bahl et al., 2021):

    • 物理信息类型: 动态运动基元 (PPV)。
    • 学习架构: 分层强化学习 (Hierarchical RL) 架构。
    • 偏差: 归纳偏差 (Inductive bias)。
    • 方法详解: Bahl et al. (2021)NDP 扩展到分层深度策略学习框架,提出了 H-NDP。该方法通过在小状态空间区域学习局部基于动力系统的策略,然后将其精炼为全局基于动力系统的策略,从而形成课程。物理动力学被集成到所有策略(包括元策略和子策略)和价值网络中。
  • 结合 PINNRL 的哈密顿-雅可比-贝尔曼近端策略优化 (Hamilton-Jacobi-Bellman Proximal Policy Optimization, HJBPPO) (Mukherjee & Liu, 2023):

    • 物理信息类型: 微分与代数方程 (DAE),哈密顿-雅可比-贝尔曼 (HJB) 偏微分方程。
    • 学习架构: 物理嵌入网络 (Physics embedded network) 架构。
    • 偏差: 归纳偏差 (Inductive bias)。
    • 方法详解: Mukherjee and Liu (2023)PINNRL 结合,将价值函数视为一个 PINN 来求解 HJB PDE。这使得 RL 算法能够利用环境的物理以及最优控制原理来改进学习和收敛。
  • 瞬态电压控制中的 PINN 损失项 (Gao et al., 2022):

    • 物理信息类型: 微分与代数方程 (DAE),瞬态过程的 PDE。
    • 学习架构: PINN 损失 (PINN loss) 架构。
    • 偏差: 学习偏差 (Learning bias)。
    • 方法详解: Gaoetal.(2022)Gao et al. (2022) 提出了一种瞬态电压控制方法,通过整合电力系统的物理和数据驱动模型。一个使用瞬态过程 PDE 训练的 PINN 作为物理模型,其输出直接贡献给 RL 算法的损失项,从而对策略学习施加物理约束,加速收敛。

4.3.5. 增强仿真器或模型 (Augment Simulator or Model)

此类别涵盖通过整合底层物理知识来开发改进仿真器的工作,从而实现更准确的真实世界环境仿真,或在基于模型 (MBRL) 设置中增强系统模型的学习。

核心思想: 利用物理信息来提高仿真器或学习模型的准确性、鲁棒性和泛化能力,从而缩小仿真与现实之间的差距,或使模型对环境动力学的学习更符合物理规律。

案例分析:

  • 基于拉格朗日神经网络 (LNN) 的系统动力学学习 (Ramesh & Ravindran, 2023):

    • 物理信息类型: 物理仿真器与模型 (PS),遵循拉格朗日力学的物理模型。
    • 学习架构: 物理嵌入网络 (Physics embedded network) 架构。
    • 偏差: 归纳偏差 (Inductive bias)。
    • 方法详解:MBRL 设置中,Ramesh and Ravindran (2023) 借鉴了拉格朗日神经网络 (LNN) (Cranmer et al., 2020) 的结构,通过数据驱动方法学习系统模型。对于遵循拉格朗日力学的系统,状态由广义坐标 qq 和速度 q˙\dot{q} 组成。拉格朗日量 L\mathcal{L} 定义为动能 T\mathcal{T} 和势能 V\mathcal{V} 之差: L(q,q˙,t)=T(q,q˙)V(q) \mathcal { L } ( q , { \dot { q } } , t ) = \mathcal { T } ( q , { \dot { q } } ) - \mathcal { V } ( q ) 拉格朗日运动方程可以表示为: τ=M(q)q¨+C(q,q˙)q˙+G(q)q¨=M1(q)(τC(q,q˙)q˙G(q)) \begin{array} { r l } & { \tau = M ( q ) \ddot { q } + C ( q , \dot { q } ) \dot { q } + G ( q ) } \\ & { \ddot { q } = M ^ { - 1 } ( q ) ( \tau - C ( q , \dot { q } ) \dot { q } - G ( q ) ) } \end{array} 其中:
      • τ\tau: 电机扭矩。
      • M(q): 质量矩阵。
      • C(q,q˙)q˙C(q, \dot{q})\dot{q}: 科里奥利 (Coriolis) 项。
      • G(q): 重力项。 在神经网络实现中,使用单独的网络来学习 V(q)\mathcal{V}(q)L(q)\mathcal{L}(q),并利用它们生成加速度 (q¨)(\ddot{q})。然后,使用二阶 Runge-Kutta 方法(如 Ralston 方法)积分输出状态导数 (q˙,q¨)(\dot{q}, \ddot{q}) 来计算下一个状态。这种方法将物理定律(拉格朗日力学)硬编码到模型架构中,使得学习到的模型具有强大的物理一致性。 下图 (原文 Figure 13) 展示了 Ramesh and Ravindran (2023) 中使用 LNN 增强可学习模型的示例:

    Fig. 5. An illustrative example of physics incorporation in RL application, Jurj et al. (2021). Here the RL agent is fed with an additional state variable: jam avoiding distance, which is based on de… 该图像是一个示意图,展示了在强化学习应用中Jam-Avoiding Distance的计算。公式为 s(v,rianglev)=s0+extmax(0,vT+racvrianglev2extamb)s^*(v, riangle v) = s_0 + ext{max}(0, vT + rac{v riangle v}{2 ext{am}_b}),包含相对速度、车辆距离、雷达、速度和加速度等变量。图中还展示了Actor Network的作用。

  • 仿真器改进与仿真到现实迁移 (Golemo et al., 2018; Lowrey et al., 2018):

    • 物理信息类型: 离线数据与表示 (ODR),来自真实环境的硬件数据。
    • 学习架构: 仿真到现实 (Sim-to-Real) 架构。
    • 偏差: 观测偏差 (Observational bias)。
    • 方法详解: Golemo et al. (2018) 训练一个循环神经网络 (RNN) 来学习仿真机器人轨迹与真实环境轨迹之间的差异,从而改进仿真器。Lowrey et al. (2018) 收集硬件数据(位置和计算出的系统速度)来初始化仿真器,以训练控制策略,提高从仿真到现实的迁移性能。
  • 具有部分已知底层物理的动态系统控制 (Liu & Wang, 2021):

    • 物理信息类型: 微分与代数方程 (DAE),PDE/ODE 和边界条件。
    • 学习架构: PI 模型识别 (PI Model Identification) 架构。
    • 偏差: 学习偏差 (Learning bias)。
    • 方法详解: Liu and Wang (2021) 针对具有部分已知底层物理(控制定律)的动态控制问题,提出了一种物理信息学习架构,用于环境模型。ODEPDE 作为物理信息的主要来源,帮助减轻模型偏差问题和样本效率低下。

4.3.6. 物理变量 (Physics Variable)

此架构涵盖所有直接将物理参数、变量或基元作为 RL 框架的组件(如状态和奖励)进行增强的方法。

核心思想: 直接将可测量的或导出的物理量作为 RL 智能体感知或奖励的一部分,以提供更直接、更具物理意义的信号,引导智能体学习。这与状态设计和奖励设计有重叠,但这里强调的是这些物理量作为独立的变量被引入。

案例分析:

  • 自适应巡航控制中的防拥堵距离 (Jurj et al., 2021): (已在 4.3.1 状态设计中详述,此处不再重复)
  • 互联自动驾驶车辆的状态融合 (Shi et al., 2023): (已在 4.3.1 状态设计中详述,此处不再重复)
  • 机器人周期性步态的奖励设计 (Siekmann et al., 2021): (已在 4.3.3 奖励设计中详述,此处不再重复)

4.3.7. 安全过滤器 (Safety Filter)

此类别包括具有基于 PI 模块的方法,该模块调节智能体的探索以确保安全约束。

核心思想:RL 智能体生成动作后,但在执行之前,通过一个独立的模块(通常基于控制理论,如 CBF)对动作进行验证和修改,以确保动作满足预定义的安全约束。

案例分析:

  • 电力系统稳定增强中的神经障碍证书 (Zhao et al., 2023): (已在 4.3.2 动作调节中详述,此处不再重复)
  • 安全连续控制任务中的障碍函数 (Cheng et al., 2019): (已在 4.3.2 动作调节中详述,此处不再重复)

4.3.8. 残差强化学习 (Residual Learning)

残差 RL 架构通常包含两个控制器:一个人为设计的控制器和一个学习到的策略。在 PIRL 设置中,它由一个物理信息控制器 πψ\pi_{\psi} 和一个数据驱动的 DNN 策略 πφ\pi_{\varphi} 组成。

核心思想: 结合传统控制方法(如基于物理模型的控制器)和 RL 策略的优势。物理控制器提供基础的稳定性和安全性,而 RL 智能体学习额外的“残差”控制量,以处理复杂性、不确定性或优化传统控制器难以达到的性能。

案例分析:

  • 安全连续控制任务中的障碍函数 (Cheng et al., 2019): (已在 4.3.2 动作调节中详述,此处不再重复,但此处强调其残差学习架构。)
  • 自主智能体安全学习 (Cao et al., 2023b, c):
    • 物理信息类型: 物理仿真器与模型 (PS),物理模型。
    • 学习架构: 残差强化学习 (Residual RL) 架构。
    • 偏差: 学习偏差 (Learning bias) / 归纳偏差 (Inductive bias)。
    • 方法详解: Caoetal.(2023b)Cao et al. (2023b)(2023c)(2023c) 引入了多个基于物理的人工制品来确保自主智能体的安全学习。它们都使用了残差控制架构,将物理模型与数据驱动控制相结合。此外,它们还利用物理模型引导的奖励。Caoetal.(2023b)Cao et al. (2023b) 进一步扩展,引入了物理模型引导的策略和价值网络编辑。

4.3.9. 分层强化学习 (Hierarchical RL)

此类别包括分层 (Hierarchical) 和课程学习 (Curriculum Learning) 方法。在分层 RL (HRL) 设置中,一个长期的决策任务被自主分解为更简单的子任务。在课程学习中,通过解决一系列难度逐渐增加的任务来解决复杂任务。

核心思想: 利用分层结构或逐步增加任务难度的方式来管理复杂性,物理信息通常被整合到所有层级的策略和价值网络中,以确保整个学习过程的物理一致性。

案例分析:

  • 分层神经动态策略 (H-NDP) (Bahl et al., 2021): (已在 4.3.4 增强策略或价值网络中详述,此处不再重复。)

4.3.10. 数据增强 (Data Augmentation)

此类别包括将输入状态替换为不同或增强形式(例如低维表示)的方法,以便从中导出特殊且物理相关的特征。

核心思想: 通过对原始观测数据进行预处理或转换,生成更具物理意义或压缩的表示,以提高 RL 智能体的学习效率和性能。

案例分析:

  • 建筑控制中的 PINN 提取隐藏状态 (Gokhale et al., 2022):
    • 物理信息类型: 离线数据与表示 (ODR),建筑热力学 PDE。
    • 学习架构: PINN 损失 (PINN loss) / 数据增强 (Data Augmentation) 架构。
    • 偏差: 学习偏差 (Learning bias)。
    • 方法详解: Gokhale et al. (2022) 利用基于建筑物热力学 PDEPINN 来学习更好的加热控制策略。PINN 用于提取系统隐藏状态的物理相关信息,这些信息随后被用于学习 QQ 函数以进行策略优化。这有效地将高维观测转换为低维、物理相关的表示。

4.3.11. PI 模型识别 (PI Model Identification)

此架构表示那些 PIRL 方法,特别是在数据驱动的 MBRL 设置中,物理信息直接整合到模型识别过程中。

核心思想: 在学习环境动态模型时,利用物理定律或先验知识来指导模型的构建和训练,从而学习到一个更准确、更符合物理规律的环境模型。

案例分析:

  • 具有部分已知底层物理的动态系统控制 (Liu & Wang, 2021): (已在 4.3.5 增强仿真器或模型中详述,此处不再重复,但此处强调其模型识别架构。)

4.4. RL 流程 (RL Pipeline)

物理信息可以在 RL 流程的五个功能阶段中的任何一个或多个阶段被整合,如图 12 (原文 Figure 6) 所示。

下图 (原文 Figure 6) 展示了强化学习的典型流程:

Fig. 12. Example of physics incorporation in reward design. In Siekmann et al. (2021) a reward function design framework was introduced, that describe robot gaits as a periodic phase sequence such th… 该图像是图示,展示了机器人运动控制的行为规范及其策略网络的结构。图中包括了与相位比例、时钟输入及速度指令相关的内容,并呈现了使用LSTM网络处理观察状态的方式。

  1. 问题表示 (Problem Representation): 将真实世界问题建模为 MDP。物理信息可用于选择合适的观测向量 (state design)、定义奖励函数 (reward design) 和指定动作空间 (action regulation)。

    • 示例: Jurj et al. (2021) 在状态中加入防拥堵距离。Siekmann et al. (2021) 设计基于物理周期成本的奖励。
  2. 学习策略 (Learning Strategy): 决定智能体-环境交互类型、学习架构和 RL 算法选择。物理信息可用于增强模型学习 (augment model)、选择分层策略等。

    • 示例: Ramesh and Ravindran (2023) 使用 LNN 学习物理模型。Bahl et al. (2021) 采用分层 RL
  3. 网络设计 (Network Design): 决定学习框架的细节,包括策略和价值函数网络的构成单元。物理信息可用于修改网络结构 (augment policy/value N/W)、嵌入物理层 (physics embedded network) 或编辑网络权重。

    • 示例: Bahl et al. (2020) 将动力系统作为可微分层嵌入策略网络。
  4. 训练 (Training): 策略和相关网络的训练阶段。物理信息可用于训练增强,如 sim-to-real 迁移 (augment simulator)、引入物理损失项 (augment policy/value N/W)、或通过安全过滤器调节训练过程 (safety filter)。

    • 示例: Golemo et al. (2018) 利用物理信息改进仿真器进行 sim-to-real 训练。Zhao et al. (2023) 使用神经障碍证书进行安全训练。
  5. 训练后策略部署 (Trained Policy Deployment): 策略完全训练后,部署以解决任务。物理信息确保策略在现实世界中具有物理合理性和安全性。

    • 示例: Cheng et al. (2019) 使用 CBF 确保部署策略的安全性。

5. 实验设置

本章节将分析论文中回顾的 PIRL 文献所使用的实验设置,包括数据集、评估指标和对比基线。

5.1. 数据集

论文提供了一份 PIRL 训练/评估基准总结表格 (原文 Table 4),该表格显示了 PIRL 领域所使用的多样化环境和数据集。

以下是原文 Table 4 的结果:

Reference
OpenAI Gym Pusher, Striker, ErgoReacher Golemo et al. (2018)
OpenAI Gym Mountain Car, Lunar Lander (continuous) Jiang et al. (2022)
OpenAI Gym Cart-Pole, Pendulum (simple and double) Xie et al. (2016)
OpenAI Gym Cart-pole Cao et al. (2023c)
OpenAI Gym Cart-pole and Quadruped robot Cao et al. (2023b)
OpenAI Gym CartPole, Pendulum Liu and Wang (2021)
OpenAI Gym Inverted Pendulum (pendulum ν0) Cheng et al. (2019)
OpenAI Gym Mountain car (cont.), Pendulum, Cart pole Zhao et al. (2022)
OpenAI Gym Simulated car following (He, Jin, & Orosz, 2018) Mukherjee and Liu (2023)
MuJoCo Ant, HalfCheetah, Humanoid, Walker2d Humanoid standup, Swimmer, Hopper
MuJoCo Inverted and Inverted Double Pendulum (v4) Cassie-MuJoCo-sim (robotics, Year Published/ Last Updated) Duan et al. (2021); Siekmann et al. (2021)
6 DoF Kinova Jaco (Ghosh, Singh, Rajeswaran, Kumar, & Levine, 2017) Bahl et al. (2021, 2020)
MuJoCo HalfCheetah, Ant, CrippledHalfCheetah, and SlimHumanoid (Zhou et al., 2018) Lee et al. (2020)
MuJoCo Block stacking task (Janner et al., 2018) Veerapaneni et al. (2020)
OpenAI Gym CartPole, Pendulum
OpenSim-RL (Kidziski et al., 2018) L2M2019 environment Point, car and Doggo goal Korivand et al. (2023) Yang et al. (2023)
Safety gym (Yuan et al., 2021) Cart pole swing up, Ant Xu et al. (2022)
Humanoid, Humanoid MTU Chen et al. (2023b)
Deep control suite (Tassa et al., 2018) Autonomous driving system Pendulum, Cartpole, Walker2d Sanchez-Gonzalez et al. (2018)
Acrobot, Swimmer, Cheetah JACO arm (real world)
Deep control suite Reacher, Pendulum, Cartpole, Ramesh and Ravindran (2023)
Cart-2-pole, Acrobot, Cart-3-pole and Acro-3-bot
Rabbit (Chevallereau et al., 2003) Choi et al. (2020)
MARL env. (Lowe et al., 2017) ADROIT (Rajeswaran et al., 2017) Multi-agent particle env. Shadow dexterous hand Cai et al. (2021) (Garcia-Hernando et al., 2020)
First-Person Hand Action Benchmark (Garcia-Hernando, Yuan,
Baek, & Kim, 2018)
MuJoCo Door opening, in-hand manipulation, tool use and object relocation
SUMO (Lopez et al., 2018), (Han et al., 2022)
METANET (Kotsialos, Papageorgiou,
Pavlis, & Middelham, 2002) (Wang, 2022)
SUMO (Udatha et al., 2022)
CARLA (Dosovitskiy, Ros, Codevilla, Lopez, &
Koltun, 2017) (Huang et al., 2023)
Gazebo (Koenig & Howard, 2004) Quadrotor (I F750A)
IEEE Distribution IEEE 33-bus and 141-bus distr. N/W (Chen et al., 2022)
system benchmarks IEEE 33-node system (Cao et al., 2023a; Chen et al., 2022)
IEEE 9-bus standard system (Gao et al., 2022)
Custom (COMSOL based) (Alam et al., 2021)
Custom (DFT based) (Cho et al., 2019)
Custom (based on (Vrettos, Kara, MacDonald, Andersson, & Call- (Gokhale et al., 2022)
away, 2016)) (Jurj et al., 2021)
Custom (based on (Kesting, Treiber, Schönhof, Kranke, & Hel- bing, 2007))
Custom (Dang & Ishii, 2022; Li et al., 2023; Martin & Schaub, 2022)
Custom (Park et al., 2023; Shi et al., 2023; Yin et al., 2023)
Custom (Yousif et al., 2023; Yu et al., 2023; Zhao et al., 2023)
Custom (Cohen & Belta, 2023; Li & Belta, 2019; Lutter et al., 2021)
Custom (Chen et al., 2023b; Wang et al., 2023)
Open AI Gym Custom (Reactor geometries) Radaideh et al. (2021)
MATLAB-Simulink Custom (She et al., 2023; Zhang et al., 2022)
(Mora et al., 2021)
MATLAB Custom (Zimmermann, Poranne, Bern, & Coros, 2019)
Cruise control (Li et al., 2021)
Pygame Custom (Zhao & Liu, 2021)
Custom (Unicycle, Car-following) (Emam, Notomista, Glotfelter, Kira, & Egerstedt, 2022)
Brushbot, Quadrotor (sim) (Ohnishi et al., 2019)
Phantom manipulation platform (Lowrey et al., 2018)
Pybullet
2 finger gripper
gym-pybullet-drones(Panerati et al., 2021) (Du et al., 2023)
Pybullet
Franka Panda, Flexiv Rizon (Lv et al., 2022)
NimblePhysics(Werling, Omens, Lee, Exarchos, & Liu, 2021)

关键洞察:

  1. 通用 RL 基准: 大多数处理动态控制的工作使用了 OpenAI Gym (Pusher, Striker, Cart-Pole, Pendulum 等)、Safe Gym (Ant, Point, Car, Doggo goal 等)、MuJoCo (Ant, HalfCheetah, Humanoid 等)、PybulletDeepMind Control Suite 环境。这些是 RL 领域的标准基准,用于评估算法在连续控制任务中的性能。
  2. 交通管理特定平台: 专门处理交通管理的工作使用了 SUMOCARLA 等平台。这些平台提供了高度逼真的交通仿真环境,便于测试自动驾驶和交通流控制策略。
  3. 电力系统基准: 处理电力和电压管理问题的作品使用了 IEEE 配电系统基准 (IEEE 33-bus, 141-bus, 9-bus) 来评估其提出的算法。此外,MATLAB/SIMULINK 平台也被用于训练或评估 RL 智能体。
  4. 定制环境普遍: 一个重要观察是,大量工作使用了定制或改编的环境进行训练和评估,而没有使用传统的通用环境。这反映了 PIRL 应用的高度专业化和领域特定性,每个任务的物理特性和约束都可能导致需要特定的仿真设置。例如,COMSOL 基础定制环境用于制造,DFT 基础环境用于分子优化,Kesting et al. (2007) 基础环境用于自适应巡航控制。

数据集选择理由: 这些数据集和环境的选择通常是为了:

  • 模拟真实物理系统: 例如 MuJoCoPybullet 提供了高保真的物理仿真。
  • 测试特定应用场景: 例如 SUMOCARLA 专注于交通流,IEEE 系统专注于电力网络。
  • 验证安全关键特性: Safe Gym 和定制的障碍函数环境明确用于评估算法在安全约束下的性能。
  • 处理高维连续空间: OpenAI GymDeepMind Control Suite 中的许多环境是连续的,适合测试处理复杂状态和动作空间的 PIRL 方法。

5.2. 评估指标

论文中回顾的 PIRL 文献通常关注以下几个核心评估方面,这些方面直接反映了引入物理信息带来的优势。尽管论文没有给出这些指标的精确数学公式,但它们在 RL 领域有标准的概念和衡量方式。

5.2.1. 样本效率 (Sample Efficiency)

  • 概念定义: 衡量 RL 智能体在达到特定性能水平或收敛到最优策略所需的环境交互次数(或数据量)。 PIRL 方法通过引入物理先验来减少无效探索,从而提高样本效率。
  • 数学公式: 通常通过绘制累积奖励曲线 (cumulative reward curve) 与环境交互步数或回合数的关系图来衡量。没有单一的标准化公式,但通常涉及: Steps to Threshold=min{NPerformance(N)TargetThreshold} \text{Steps to Threshold} = \min \{N \mid \text{Performance}(N) \ge \text{TargetThreshold}\}
    • 符号解释:
      • NN: 环境交互步数或回合数。
      • Performance(N)\text{Performance}(N): 智能体在 NN 步后的平均累积奖励或其他性能指标。
      • TargetThreshold\text{TargetThreshold}: 预定义的性能目标。
      • min\min: 最小化操作,找到达到目标阈值的最小步数。

5.2.2. 模型准确性 (Model Accuracy)

  • 概念定义:MBRL 设置中,衡量学习到的环境模型对真实世界动力学的预测准确性。PIRL 方法通过物理约束引导模型学习,以减少预测误差。
  • 数学公式: 对于状态预测,通常使用均方误差 (Mean Squared Error, MSE) 或平均绝对误差 (Mean Absolute Error, MAE): MSE=1Tt=1Tst+1s^t+12 \text{MSE} = \frac{1}{T} \sum_{t=1}^{T} ||s_{t+1} - \hat{s}_{t+1}||^2
    • 符号解释:
      • TT: 预测时间步总数。
      • st+1s_{t+1}: 真实下一状态。
      • s^t+1\hat{s}_{t+1}: 模型预测的下一状态。
      • 2||\cdot||^2: 欧几里得范数的平方。

5.2.3. 泛化能力 (Generalizability)

  • 概念定义: 衡量训练好的策略或模型在未见过的新环境、新任务或新初始状态下的表现能力。PIRL 通过编码物理规律,使模型能够更好地推断和适应未知情况。
  • 数学公式: 通常通过在与训练环境有差异的测试环境中评估策略的平均累积奖励或成功率来衡量,没有单一公式。例如: Success Rate=Number of Successful EpisodesTotal Number of Episodes \text{Success Rate} = \frac{\text{Number of Successful Episodes}}{\text{Total Number of Episodes}}
    • 符号解释:
      • Number of Successful Episodes\text{Number of Successful Episodes}: 在测试环境中成功完成任务的回合数。
      • Total Number of Episodes\text{Total Number of Episodes}: 测试环境中总的回合数。

5.2.4. 物理合理性 (Physical Plausibility)

  • 概念定义: 衡量学习到的策略或模型输出的行为是否符合基本的物理定律和直觉。这对于机器人学、流体力学等应用至关重要,PIRL 直接通过物理约束来确保这一点。
  • 数学公式: 通常通过评估物理守恒定律(如能量守恒、动量守恒)的违反程度,或检查关键物理量(如力、速度、加速度)是否在合理范围内来衡量。例如,对于能量守恒: Energy Conservation Error=EnergyfinalEnergyinitial \text{Energy Conservation Error} = |\text{Energy}_{final} - \text{Energy}_{initial}|
    • 符号解释:
      • Energyfinal\text{Energy}_{final}: 系统最终能量。
      • Energyinitial\text{Energy}_{initial}: 系统初始能量。

5.2.5. 安全性 (Safety)

  • 概念定义: 衡量智能体在探索和执行过程中避免进入不安全状态的能力。PIRL 通过障碍函数、安全过滤器等机制严格限制智能体的行为。
  • 数学公式: 通常通过不安全事件(如碰撞、系统故障)的发生频率或在安全区域内停留的时间比例来衡量: Safety Violation Rate=Number of Safety ViolationsTotal Steps or Episodes \text{Safety Violation Rate} = \frac{\text{Number of Safety Violations}}{\text{Total Steps or Episodes}}
    • 符号解释:
      • Number of Safety Violations\text{Number of Safety Violations}: 发生不安全事件的次数。
      • Total Steps or Episodes\text{Total Steps or Episodes}: 总步数或总回合数。

5.2.6. 收敛速度 (Convergence Speed)

  • 概念定义: 衡量算法收敛到稳定策略所需的时间或训练迭代次数。PIRL 通过提供更强的先验信息,可以加速学习过程。
  • 数学公式: 通常与样本效率类似,衡量达到稳定性能所需的训练时间或迭代次数。

5.3. 对比基线

PIRL 论文通常会将其提出的方法与以下类型的基线模型进行比较:

  1. 传统无模型 RL 算法:

    • PPO (Proximal Policy Optimization)
    • DDPG (Deep Deterministic Policy Gradient)
    • SAC (Soft Actor-Critic)
    • TD3 (Twin Delayed DDPG)
    • DQN (Deep Q-Network) 这些算法是 RL 领域的标准基线,纯粹依赖数据驱动学习,不显式整合物理信息。对比这些基线可以突出 PIRL 在样本效率、稳定性和泛化能力方面的优势。
  2. 传统基于模型 RL 算法:

    • Dyna 架构
    • 各种学习环境模型的方法 这些基线用于展示 PIRL 在模型学习阶段引入物理信息后,模型准确性和仿真到现实迁移的改进。
  3. 无物理信息辅助的安全 RL 方法:

    • 仅使用奖励惩罚的安全 RL
    • 基于模型的安全 RL,但模型本身不包含物理先验。 对比这些基线可以验证 PIRL 在安全探索和策略部署中,物理信息(如 CBF)所带来的额外安全保障和效率提升。
  4. 纯控制理论方法:

    • MPC (Model Predictive Control)
    • LQR (Linear Quadratic Regulator)
    • PID (Proportional-Integral-Derivative) 控制器 在某些需要精确控制的领域,PIRL 方法可能会与传统的控制理论方法进行比较,以展示其在处理复杂非线性系统或学习未知动力学方面的优势。
  5. 不包含物理信息的残差 RL

    • 结合了通用基础控制器和 RL 策略,但基础控制器或 RL 策略不显式利用物理信息。 对比这些基线可以突出物理信息在残差学习架构中提供的额外指导。

通过与这些不同类型的基线进行比较,PIRL 论文能够全面展示其在性能、效率、安全性和泛化能力方面的优势,并验证物理信息整合的有效性。

6. 实验结果与分析

本章节将深入分析论文中综述的 PIRL 文献的实验结果,重点关注核心发现、统计洞察、PIRLRL 挑战的应对,并呈现相关的统计数据。

6.1. 核心结果分析

PIRL 方法通过将物理信息融合到 RL 框架中,在多个方面展现出显著优势,尤其是在样本效率、模型准确性、泛化能力、安全性和物理合理性方面。

6.1.1. 样本效率 (Sample Efficiency)

  • 分析: 不同的物理先验对学习效率的影响各异。
    • 障碍证书和控制约束 (BPC) (Cheng et al., 2019; Zhao et al., 2023): 通过将动作空间限制在物理安全区域,显著减少了探索需求,展示了 40-50% 的样本减少,同时确保了稳定性。
    • 微分与代数方程 (DAE) 方法 (Gao et al., 2022; Mukherjee & Liu, 2023): 表现出最强的样本效率,其中 PINN-HJB 实现 (Zhang et al., 2022) 相较于标准 RL 减少了高达 70% 的所需样本。
    • 物理仿真器 (PS) (Golemo et al., 2018; Lowrey et al., 2018): 显示出适度的初始效率提升,但在部署期间显著减少了真实世界样本(>85%)。
    • 物理参数和变量 (PPV) (Jurj et al., 2021; Shi et al., 2023): 提供了 20-30% 更快的收敛速度以及显著的鲁棒性提升。
  • 结论: 物理先验的选择应根据具体的效率目标来指导,而非采用一刀切的方法。

6.1.2. 模型准确性与泛化能力

  • 分析: PIRL 方法通过物理约束引导模型学习,显著提高了学习模型的准确性,并增强了策略向未见过场景的泛化能力。
    • Ramesh and Ravindran (2023) 利用 Lagrangian NNs 学习物理模型,其内置的物理结构确保了模型对动力学的准确捕获,减少了偏差。
    • Veerapaneni et al. (2020) 通过实体抽象和图模型整合,使 MBRL 智能体能够泛化到以前未遇到的物理任务。
  • 结论: 物理信息的引入,特别是通过归纳偏差(如物理嵌入网络),使模型能够学习更深层次的物理规律,从而在不同任务和环境中表现出更好的泛化性能。

6.1.3. 安全性与物理合理性

  • 分析: PIRL 在安全关键应用中表现出色,能够确保策略的物理合理性。
    • Zhao et al. (2023)Cheng et al. (2019) 使用 CBFNBC 创建安全过滤器,有效防止智能体进入不安全状态,这对于机器人控制、自动驾驶等领域至关重要。
    • Caoetal.(2023b)Cao et al. (2023b)Wang (2022) 结合多种物理整合方法(如奖励设计、动作调节),以确保自主智能体的安全学习和物理上可行的策略。
  • 结论: 物理信息为 RL 提供了强大的安全保障,使其能够在对错误零容忍的真实世界场景中得到应用。

6.1.4. 多重物理信息融合的优势

  • 分析: 结合多种物理整合方法的方法 (Cao et al., 2023b; Li & Belta, 2019) 在所有指标上都展示出卓越的效率提升。
    • 例如,Caoetal.(2023b)Cao et al. (2023b) 的混合方法实现了 65% 的样本减少,并增强了泛化能力。
  • 结论: 多方面整合物理信息而非仅关注单一方法,是 PIRL 领域的一个重要发展趋势。

6.2. 数据呈现 (表格)

6.2.1. PIRL 文献总结 - 无模型 (Model Free)

以下是原文 Table 2 的结果:

Ref. Year Context/ Application RL Algorithm Learning arch. Bias Physics information PIRL methods RL pipeline
Chentanez et al. (2018) 2018 Motion capture PPO Physics reward Learning Physics simulator Reward design Problem representation
Peng, Abbeel, Levine, and Van de Panne (2018) 2018 Motion control PPO (Schulman, Wolski, Dhariwal, Radford, & Klimov, Physics reward Learning Physics simulator Reward design Problem representation
Golemo et al. 2018 Policy 2017) PPO Sim-to-Real Observational Offline data Augment Training
(2018) Lowrey et al. (2018) 2018 optimization Policy optimization NPG (Williams, 1992) (C)a Sim-to-Real Observational Offline data simulator Augment simulator Training
Cho et al. (2019) 2019 Molecular structure optimization DDPG Physics reward Learning DFT (PS) Reward design Problem representation
Li and Belta (2019) 2019 Safe exploration PPO Residual RL Learning CBF, CLF, FSA/TL (BPC) Augment simulator Reward design Training Problem representation
Bahl et al. (2020) Dynamic system PPO Phy. embed. Inductive DMP (PPV) Augment policy Augment policy Learning strategy Network design
Garcia-Hernando 2020 control Dexterous PPO N/W Residual RL Observational Physics Reward design Problem
et al. (2020) Luo et al. (2020) 2020 manipulations 3D Ego pose PPO Physics reward Learning simulator Physics State, Reward representation Problem
Bahl et al. (2021) 2021 estimation Dynamic system PPO Hierarchical RL Inductive simulator DMP (PPV) design Augment policy representation Network design
Margolis et al. 2021 control Dynamic system PPO Hierarchical RL Learning WBIC (PPV) Augment policy Learning
(2021) Alam et al. (2021) 2021 control Manufacturing SARSA (Sutton & Sim-to-Real Observational Physics engine Augment strategy Training
Siekmann et al. 2021 Dynamic system Barto, 1998) PPO Phy. variable Learning Physics simulator Reward design Problem
(2021) Li et al. (2021) 2021 control Safe exploration NFQ (Riedmiller, Safety filter Learning parameters Physical Action representation Problem
Jurj et al. (2021) 2021 and control Safe cruise 2005) SAC Phy. variable Observational constraint Physical state regulation State design representation Problem
Mora et al. (2021) 2021 control Policy DPG (C) Diff. Simulator Learning (PPV) Physics Augment policy representation Learning
Radaideh et al. 2021 optimization Optimization, DQN, PPO Physics reward Learning bias simulator Physical Reward design strategy Problem
(2021) Zhao and Liu nuclear engineering Air-traffic control PPO Data properties (PPR) representation Problem
(2021) Wang (2022) 2021 2022 Motion planner PPO + AC (Konda & augmentation Safety filter Observational Learning Representation (ODR) CBF (BPC) State design Action representation Problem
Chen et al. (2022) 2022 Active voltage Tsitsiklis, 1999) TD3 (C) Safety filter Learning Physical regulation Reward design Penalty function representation Problem
Dang and Ishii control constraints Action regulation representation Problem
(2022) Gao et al. (2022) structure prediction Transient voltage representation
Gokhale et al. 2022 control Building control DQN PINN loss Learning PDE (DAE) Augment policy State design Learning strategy Problem
(2022) Han et al. (2022) 2022 Traffic control Q-learning (C) Data augment Observational Representation (ODR) representation Problem
Martin and Schaub 2022 Q-Learning Data augment Observational Physics model State design representation Training
(2022) Jiang, Fu, and Chen 2022 Safe exploration and control SAC Sim-to-Real Observational Physics model Augment simulator Problem
(2022) 2022 Dynamic system control SAC (etc.) Physics reward Learning Barrier function Reward design representation Learning
Xu et al. (2022) 2022 Policy Learning Actor-critic (C) Diff. Simulator Learning Physics simulator Augment policy strategy
Cao et al. (2023c) 2023 Safe exploration and control DDPG Residual RL Learning Physics model Reward design Problem representation

以下是原文 Table 2 (continued) 的结果:
Ref. Year Context/ Application RL Algorithm Learning arch. Bias Physics information PIRL methods RL pipeline
Cao et al. (2023b) 2023 Safe exploration and control DDPG Residual RL Inductive Physics model Reward design Action Problem representation
Cao et al. (2023a) Inductive N/W editing (Aug. pol.) Network design
Chen, Liu, and Di 2023 Robust voltage control SAC Data augment Observational Representation (ODR) State design Problem representation
(2023b) 2023 Mean field games DDPG Physics reward Learning Physics model Reward design Problem representation
Yang et al. (2023) 2023 Safe exploration and control PPO (C) Safety filter Learning NBC (BPC) Augment policy Training
Zhao et al. (2023) 2023 Power system stability enhancement Custom Safety filter Learning NBC (BPC) Action regulation Problem representation
Du et al. (2023) 2023 Safe exploration and control AC (C) Safety filter Learning CLBF (Dawson, Qin, Gao, & Fan, 2022; Romdlony & Jayawardhana, 2016) (BPC) Augment value N/W Training
Shi et al. (2023) 2023 Connected automated vehicles DPPO Physics variable Observational Physical state (PPV) State design Problem representation
Korivand et al. (2023) 2023 Musculoskeletal SAC (C) Physics variable Learning Learning Physical value Reward design Reward design Problem
Li et al. (2023) 2023 simulation Energy MADRL(C) Physics variable Learning Physical target Reward design representation Problem
Mukherjee and Liu 2023 management Policy PPO Phy. embed Inductive PDE (DAE) Augment value representation Network design
(2023) Yousif et al. (2023) 2023 optimization Flow field A3C N/W Physics reward Learning Physical N/W Reward design Problem
Park et al. (2023) 2023 reconstruction Freeform nanophotonic greedy Q Phy. embed Inductive constraints ABM Augment value representation Network design
Rodwell and Tallapragada 2023 devices Dynamic system control DPG N/W Curriculum Learning Physics model N/W Augment Training
(2023) She et al. (2023) 2023 Energy TD3 learning Sim-to-Real Physics model simulator Augment Learning
Yin et al. (2023) 2023 management Robot wireless PPO Physics reward Learning Physical value simulator Reward design strategy Problem
navigation representation

6.2.2. PIRL 文献总结 - 基于模型 (Model Based)

以下是原文 Table 3 的结果:

Ref. Year Context/ Application Algorithm Learning arch. Bias Physics information PIRL method RL pipeline
Xie et al. (2016) 2016 Exploration and control Model learning Observational Sys. morphology (PPR) Augment model Learning strategy
Sanchez-Gonzalez et al. (2018) 2018 Dynamic system control Model learning Inductive Physics model Augment model Learning strategy
Ohnishi et al. (2019) 2019 Safe navigation Safety filter Learning CBC (BPC) Action regulation Problem representation
Cheng et al. (2019) 2019 Safe exploration and control TRPO, DDPG Residual RL Learning CBF (BPC) Action regulation Problem representation
Veerapaneni et al. (2020) 2020 Control (visual RL) Model learning Observational Entity abstraction Augment model Learning strategy
Lee et al. (2020) 2020 Dynamic system Model learning Observational (ODR) Context encoding (ODR) Augment model Learning
Choi et al. (2020) 2020 control Safe exploration and control DDPG (Silver Safety filter Learning CBF, CLF, QP (BPC) augment policy strategy Learning strategy
Liu and Wang (2021) 2021 Dynamic system control et al., 2014) Dyna + TD3(C)a Model identification Learning PDE/ ODE, BC Augment model Learning
Duan et al. (2021) 2021 Dynamic system control PPO Residual-RL Learning (DAE) Physics model Action regulation strategy Problem representation
Cai et al. (2021) 2021 Multi agent collision MADDPG (C) Safety filter Learning CBF (BPC) Action regulation Problem representation
Lv et al. (2022) 2022 avoidance Dynamic system control TD3(C) Sim-to-Real Learning Physics Augment policy Learning
Udatha, Lyu, and Dolan (2022) 2022 Traffic control AC (Ma et al., 2021) Safety filter Learning simulator CBF (BPC) Augment model strategy Learning
Zhao et al. (2022) 2022 Safe exploration and control DDPG Safety filter Learning CBC (BPC) Augment policy strategy Learning strategy
Zhang et al. (2022) 2022 Distributed MPC AC (Jiang, Fan, Gao, Chai, & Safety filter Learning CBF (BPC) State design Problem representation
Ramesh and Ravindran (2023) 2023 Dynamic system control Lewis, 2020) Dreamer (Hafner, Lillicrap, Ba, & Phy. embed. N/W Inductive Physics model Augment model Network design
Cohen and Belta (2023) 2023 Safe exploration and control Norouzi, 2019) Safety filter Learning CBF (BPC) Augment model Learning
Huang et al. (2023) 2023 Attitude control Phy. embed N/W Inductive System symmetry (PPR) Augment model strategy Network design
Wang, Cao, Zhou, Wen, and Tan 2023 Data center cooling SAC Model identification Learning Physics laws (PPR) Augment model Learning strategy
(2023) Yu, Zhang, and Song (2023) 2023 Cooling system control DDPG Residual RL Learning CBF (BPC) Action regulation Problem representation

6.3. 统计洞察与趋势

6.3.1. PIRL 文献的统计分析 (Statistical analysis of PIRL literature)

下图 (原文 Figure 15) 展示了 PIRL 应用的统计洞察:

Fig. 7. PIRL taxonomy and further categories. Physics information (types), the RL methods that incorporate them and the underlying RL pipeline constitutes the PIRL Taxonomy, see Fig. 9. bias (sec. 3.… 该图像是图表,展示了物理信息与强化学习方法以及基础强化学习过程之间的分类关系。这一图表呈现了PIRL分类法的结构,强调了偏差和学习架构作为进一步分类的重要性。

  • RL 算法的使用 (Use of RL Algorithms, Figure 15a):

    • PPO (Proximal Policy Optimization) 及其变体是最受欢迎的 RL 算法。
    • 其次是 DDPG (Deep Deterministic Policy Gradient)
    • 在较新的算法中,SAC (Soft Actor-Critic)TD3 (Twin Delayed DDPG) 更受青睐。
    • 分析: PPO 作为一种在线、on-policy 算法,其稳定性、相对易于实现和良好性能使其成为研究人员的首选。DDPGSAC 作为 off-policy 算法,在连续控制任务中具有高样本效率,也受到广泛关注。
  • 使用的物理先验类型 (Types of physics priors used, Figure 15b):

    • 在大多数工作中,物理信息以物理仿真器、系统模型、障碍证书和物理约束的形式出现。
    • “障碍证书和物理约束”以及“物理仿真器和模型”在“动作调节”和“增强策略和价值网络”的 PIRL 方法中,占据了超过 60% 的主导地位。
    • 分析: 这表明研究者倾向于利用明确的物理定律和仿真模型来指导 RL,尤其是在需要安全保障或精确动力学建模的领域。
  • 学习架构与偏差 (Learning architecture and bias, Figure 15c):

    • 在“PI 奖励”和“安全过滤器”架构中,物理信息严格通过“学习偏差”整合,这意味着大量使用了约束、正则化器和专用损失函数。
    • “物理嵌入网络”架构则通过“归纳偏差”整合物理信息,即通过使用专用和定制的物理实体网络施加硬约束。
    • 分析: 这揭示了不同 PIRL 架构在整合物理信息时所依赖的基本原理:软约束(学习偏差)适用于灵活的奖惩机制和安全监管,而硬约束(归纳偏差)适用于将物理定律直接编码到模型结构中,以确保深层物理一致性。
  • PIRL 应用领域统计 (Application domains, Figure 15d):

    • 将近 85%PIRL 应用问题与控制器或策略设计相关。
    • “混合控制”包括能源管理、数据中心冷却等不同应用领域的优化策略/控制器学习方法,占应用的大多数。
    • “安全控制和探索”涉及安全关键系统,确保安全探索和策略学习,占 25%
    • “动态控制”包括动态系统(包括机器人系统)的控制,约占 23%
    • 其他特定应用包括优化/预测、运动捕捉/仿真以及通过物理信息改进通用策略优化方法。
    • 分析: 这表明 PIRL 的核心价值在于解决真实世界中的复杂控制和决策问题,特别是那些对安全性、效率和物理合理性有高要求的系统。

6.3.2. 对学习效率的影响 (Impact on learning efficiency)

  • 分析: 论文强调,结合多种物理整合方法(如 Cao et al., 2023b; Li & Belta, 2019)在所有指标上都展示出卓越的效率提升。例如,Caoetal.(2023b)Cao et al. (2023b) 的混合方法实现了 65% 的样本减少,并增强了泛化能力。
  • 结论: 这进一步证明了多维度融合物理信息可以带来更全面的性能提升,避免了单一方法可能存在的局限性。
  • 2018-2023 年研究趋势:
    • 自 2018 年以来,该领域呈现指数级增长 (Figure 1)。
    • 显著转向利用控制障碍函数和证书的安全关键应用。
    • PPO 作为首选算法框架的采用率增加。
    • 对动态控制问题的兴趣日益增长。
    • 越来越多的工作趋向于同时结合多种物理整合方法
  • 2024 年新兴趋势:
    • 自主系统和机器人学: 在控制优化任务中表现出卓越性能,应用范围从跟踪移动对象 (Faria et al., 2024) 到高级运动系统(如基于物理的肌肉骨骼模型,Ogum et al., 2024)和湍流环境中的游泳 (Koh et al., 2025)。
    • 能源系统: 利用 PIRL 进行电网中的鲁棒电压控制 (Wei et al., 2023)、物理引导的多智能体框架 (Chen et al., 2023a) 和概率风力发电预测 (Chen et al., 2024)。
    • 医疗保健: 通过 cokriging 调整优化手臂运动 (Liu et al., 2024) 和开发手-物体交互控制器 (Wannawas et al., 2024),增强康复效果。
    • 交通安全: 实时最优交通路由 (Ke et al., 2025) 和多智能体碰撞避免 (Feng et al., 2024)。
    • 先进建模技术: 混合规划模型 (Asri et al., 2024) 和复杂系统的物理信息深度迁移强化学习 (Zeng et al., 2024)。
    • 安全保障: 最有前途的新兴趋势在于安全保障,通过物理模型引导的最坏情况采样 (Cao et al., 2024) 和领域知识集成,在复杂动态环境中在保持安全性的同时提高效率。
    • 多智能体协作系统: 分布式能源管理中的多智能体协作系统 (Chen et al., 2024) 也是一个 PIRL 持续展示显著优势的领域。

6.4. RL 挑战的应对

PIRL 通过整合物理信息,显著解决了传统 RL 面临的多个核心挑战:

  1. 样本效率 (Sample efficiency):

    • 应对方式: PIRL 通过增强仿真器来减少仿真到现实的差距 (Alam et al., 2021; Lv et al., 2022),从而降低在线评估周期。在 MBRL 的系统识别或模型学习阶段,物理信息的整合有助于使用更少的训练样本学习更真实的模型,提高样本效率 (Sanchez-Gonzalez et al., 2018; Veerapaneni et al., 2020)。
  2. 维度灾难 (Curse of dimensionality):

    • 应对方式: PIRL 从高维观测或状态空间中学习物理相关的低维表示,提取底层物理信息 (Cao et al., 2023a; Gokhale et al., 2022)。例如,Gokhale et al. (2022) 利用 PINN 提取系统隐藏状态的物理相关信息,用于策略优化。
  3. 安全探索 (Safety exploration):

    • 应对方式: 在安全关键应用中,PIRL 采用 CLF (Choi et al., 2020; Li & Belta, 2019)、BFCBF/CBC (Cai et al., 2021; Cheng et al., 2019) 等控制理论概念来规范智能体探索。这些方法定义了安全状态和控制律,以确保系统状态保持在安全集内,防止危险探索。
  4. 部分可观测性或不完美测量 (Partial observability or imperfect measurement):

    • 应对方式: PIRL 通过修改或增强状态表示来提供更有用的信息,以应对信息缺失或不足的情况。这可能涉及状态融合,整合来自环境(如 Jurj et al., 2021 中的防拥堵距离)或其他智能体(如 Shi et al., 2023 中的周围车辆信息)的额外物理或地理信息。
  5. 奖励函数定义不足 (Under-defined reward function):

    • 应对方式: PIRL 通过有效的奖励设计或通过附加奖惩项来增强现有奖励函数,从而引入物理信息 (Dang & Ishii, 2022; Garcia-Hernando et al., 2020; Luo et al., 2020; Siekmann et al., 2021)。例如,Siekmann et al. (2021) 提出了一个框架,结合概率成本来规范机器人步态,确保奖励函数更好地引导智能体学习物理上可行的行为。

6.5. 消融实验/参数分析

论文作为一篇综述,并未详细展开具体工作的消融实验或参数分析细节。然而,通过对不同 PIRL 方法和物理信息类型对学习效率影响的讨论,间接反映了对不同组件有效性的验证:

  • 物理先验选择的影响: 论文指出,不同的物理先验对样本效率有不同的影响,例如 BPC 减少了 40-50% 的样本,而 DAE 方法可以减少 70%。这表明了对物理信息类型进行“消融”或比较选择的重要性。

  • 多方法融合的优势: 论文强调结合多种物理整合方法(如 Cao et al., 2023b)能够带来更显著的效率提升和泛化能力。这暗示了对不同 PIRL 方法进行组合,并观察其协同效应的研究,类似于一种高阶的消融分析。

    这些分析虽然不是具体的消融实验结果,但为未来研究提供了指导,即在设计 PIRL 方法时,应仔细考虑物理先验的类型、整合方法以及它们对整体性能的贡献。

7. 总结与思考

7.1. 结论总结

本文全面综述了物理信息强化学习 (PIRL) 这一新兴范式,它通过融合数据驱动技术和底层物理原理知识,显著提升了强化学习 (RL) 算法的有效性、样本效率和训练速度,为解决复杂问题和现实世界部署提供了强大支持。论文提出了一个统一的分类法,将 PIRL 方法根据物理先验/信息类型物理先验归纳(即 RL 方法) 以及底层 RL 流程阶段进行分类,为理解和比较现有工作提供了清晰的框架。通过对大量文献的深入分析,本文不仅揭示了 PIRL状态设计、动作调节、奖励设计、策略/价值网络增强和仿真器/模型增强等方面的具体实现,还探讨了这些方法如何有效应对 RL 面临的样本效率低下、维度灾难、安全探索、部分可观测性和奖励函数定义不足等核心挑战。总体而言,PIRL 领域在增强 RL 算法的物理合理性、精度、数据效率和现实世界适用性方面展现出巨大潜力。

7.2. 局限性与未来工作

论文作者指出了当前 PIRL 工作存在的以下局限性,并提出了未来可能的研究方向:

  1. 高维空间 (High Dimensional Spaces):

    • 局限性: 学习高维连续状态(或动作)中压缩、信息丰富的潜在空间仍是挑战,尤其是在确保物理相关性方面。
    • 未来方向:
      • 利用物理信息自编码器 (Physics-Informed Autoencoders)PDE 约束嵌入损失函数,并在训练过程中强制执行物理感知结构 (Yang et al., 2022; Vatellis, 2024)。
      • 利用潜在扩散模型 (Latent Diffusion Models) 生成结构化表示,然后通过物理定律对其进行约束 (Shmakov et al., 2023)。
  2. 复杂和不确定环境中的安全性 (Safety in Complex and Uncertain Environments):

    • 局限性: 当前 PIRL 安全方法(如 CBF)受限于系统近似模型和对安全状态集的先验知识。大多数工作在不同任务和环境中的泛化能力不佳。
    • 未来方向:
      • 发展模型无关的安全探索和控制,用于复杂、不确定环境中的 RL 智能体。
      • 开发将物理整合到数据驱动模型学习中的通用方法
      • 一种有前景的方向是 (Tayal et al., 2025),通过将安全性和性能的共同优化表述为状态约束最优控制问题,使用哈密顿-雅可比-贝尔曼 (HJB) 方程高效近似价值函数。
      • 引入基于共形预测 (conformal prediction) 的验证,以确保在复杂、高维环境中的泛化能力。
  3. 物理先验的选择 (Choice of Physics Prior):

    • 局限性: 物理先验的选择至关重要但极具挑战性,因为它需要广泛研究且在不同系统之间差异显著,即使在同一领域内也是如此,这会阻碍 PIRL 的效率。
    • 未来方向: 倾向于更全面的框架,能够整合物理信息以管理新型物理任务,而非单独处理任务。例如,使用物理引导基础模型 (Physics-Guided Foundation Models, PGFMs) (Farhadloo et al., 2025),它整合了广泛领域的物理知识,以增强模型在不同系统中的鲁棒性、泛化能力和预测可靠性。
  4. 评估和基准平台 (Evaluation and Benchmarking Platform):

    • 局限性: 目前 PIRL 缺乏全面的基准和评估环境,难以在引入新物理方法之前进行测试和比较,这使得评估新工作的质量和独特性变得困难。
    • 未来方向: 需要开发更标准化的、跨领域的基准测试套件,以促进公平比较和领域知识的共享。
  5. 大规模问题的可扩展性 (Scalability for Large-Scale Problems):

    • 局限性: 当前 PIRL 方法在应用于大型复杂系统时面临计算瓶颈,特别是当物理信息组件(如障碍证书、可微分仿真器)应用于高维状态空间时。
    • 未来方向:
      • 分层分解方法 (hierarchical decomposition approaches) (Bahl et al., 2021) 将复杂问题分解为可管理子问题。
      • 降阶建模技术 (reduced-order modeling techniques) (Veerapaneni et al., 2020) 抽象不必要的细节同时保留基本动力学。
      • 物理引导表示学习 (physics-guided representation learning) (Cao et al., 2023a; Gokhale et al., 2022) 用于降维。
      • 分布式 PIRL 架构 (distributed PIRL architectures) (Shi et al., 2023) 用于多智能体系统。
      • 自适应物理保真框架,如 Hyper-Low-Rank PINN 方法 (Torres et al., 2025),通过基于 SvD 的权重分解降低计算成本。
      • 增强混合自适应 PINN (Enhanced Hybrid Adaptive PINN) (Luo et al., 2025) 具有动态配点分配。
      • 难度感知任务采样器 (Difficulty-Aware Task Sampler, DATS) (Toloubidokhti et al., 2023) 通过元学习解决性能差异。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 物理世界的“免费午餐”: 这篇综述深刻启发了我,在 RL 领域,物理信息是尚未充分挖掘的“免费午餐”。它不仅仅是数据之外的另一种信息源,更是数据背后、更为根本的结构性知识。将物理规律融入 RL,就如同为智能体提供了一套关于世界如何运作的基本法则,使其不必从零开始学习所有现象,从而大幅减少了探索空间,提高了学习效率和可靠性。
  2. 跨学科融合的强大力量: PIRL 完美地展示了控制理论、机器学习和物理学等多学科交叉所能产生的巨大能量。传统的 RL 往往被视为“黑盒”,而 PIRL 通过引入物理信息,为 RL 提供了更高的可解释性和物理合理性,这在安全关键领域具有不可估量的价值。
  3. 从“数据饥渴”到“知识驱动”的范式转变: PIRL 代表了 RL 从纯粹的“数据饥渴型”向“知识驱动型”学习的转变。在数据稀缺或获取成本高昂的真实世界场景中,物理先验可以作为一种强大的正则化器和指导信号,使得有限的数据也能训练出高性能、鲁棒的策略。
  4. 提升工程实用性: PIRL 提出的多种物理信息整合方法(如安全过滤器、物理嵌入网络、奖励设计)为工程实践提供了丰富的工具箱。在开发机器人、自动驾驶或能源管理系统时,工程师可以根据具体任务需求和可用的物理知识,灵活选择和组合这些方法,从而构建更安全、高效、可靠的智能系统。

7.3.2. 批判与潜在改进

  1. 物理知识的获取和表征挑战: 论文虽然强调了物理先验的重要性,但如何高效、准确地获取和表征复杂系统的物理知识本身就是一个巨大挑战。对于高度非线性、多尺度的复杂系统,可能没有现成的 PDE/ODE,或者其参数难以精确确定。如何从少量数据中“逆向工程”出有效的物理模型,并将其转换为 PIRL 可用的形式,仍需深入研究。

  2. 泛化能力与特定性之间的权衡: 尽管 PIRL 旨在提高泛化能力,但其核心在于利用特定领域的物理知识。这可能导致方法在某个特定物理领域表现出色,但在跨领域或物理特性差异较大的任务上,其泛化能力仍可能受限。如何设计能够捕捉更通用物理原理的 PIRL 方法,或者在不同物理领域之间进行更有效的知识迁移,是一个值得探索的方向。

  3. 计算成本与实时性: 将复杂的物理模型(尤其是 PDE 或微分仿真器)集成到 RL 训练循环中,可能会显著增加计算成本和训练时间。对于需要实时决策的系统,如何平衡物理保真度与计算效率,是 PIRL 需要解决的实际问题。未来的研究可以探索更高效的物理模型近似、加速器技术或分布式计算框架来缓解这一问题。

  4. 安全约束的刚性与适应性: CBF 等安全约束虽然提供了强大的安全保障,但有时可能过于刚性,限制了智能体的探索和发现最优策略的能力。在不确定环境中,如果物理模型不完美或安全区域边界模糊,刚性约束可能导致过度保守或不可达的策略。未来的工作可以探索更具适应性的安全约束,例如,允许在一定风险水平下进行探索,或通过元学习 (meta-learning) 动态调整安全边界。

  5. 理论基础与可解释性深化: 尽管 PIRL 提升了可解释性,但其理论基础仍有待进一步深化。例如,如何量化物理信息对 RL 学习动态和收敛性的具体贡献?不同物理信息类型和整合方法如何影响策略空间的结构?回答这些问题将有助于指导更有效 PIRL 算法的设计。

    总而言之,PIRL 作为一个前景广阔的领域,其潜力在于将物理世界的内在规律与 RL 的强大决策能力相结合。解决上述挑战将是其从实验室走向更广泛现实世界应用的关键。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。