论文状态:已完成

Uncertainty-Aware Knowledge Transformers for Peer-to-Peer Energy Trading with Multi-Agent Reinforcement Learning

发表:2025/07/23
原文链接PDF 下载
价格:0.100000
价格:0.100000
价格:0.100000
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种新颖的点对点能源交易框架,将不确定性感知预测与多智能体强化学习结合。采用异方差概率预测模型KTU,量化不确定性以优化决策。实验证明,该方法在节能成本和电力销售收入方面均显著改善,展示了其在经济高效能源社区构建中的潜力。

摘要

This paper presents a novel framework for Peer-to-Peer (P2P) energy trading that integrates uncertainty-aware prediction with multi-agent reinforcement learning (MARL), addressing a critical gap in current literature. In contrast to previous works relying on deterministic forecasts, the proposed approach employs a heteroscedastic probabilistic transformer-based prediction model called Knowledge Transformer with Uncertainty (KTU) to explicitly quantify prediction uncertainty, which is essential for robust decision-making in the stochastic environment of P2P energy trading. The KTU model leverages domain-specific features and is trained with a custom loss function that ensures reliable probabilistic forecasts and confidence intervals for each prediction. Integrating these uncertainty-aware forecasts into the MARL framework enables agents to optimize trading strategies with a clear understanding of risk and variability. Experimental results show that the uncertainty-aware Deep Q-Network (DQN) reduces energy purchase costs by up to 5.7% without P2P trading and 3.2% with P2P trading, while increasing electricity sales revenue by 6.4% and 44.7%, respectively. Additionally, peak hour grid demand is reduced by 38.8% without P2P and 45.6% with P2P. These improvements are even more pronounced when P2P trading is enabled, highlighting the synergy between advanced forecasting and market mechanisms for resilient, economically efficient energy communities.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

不确定性感知的知识转换器结合多智能体强化学习用于点对点能源交易 (Uncertainty-Aware Knowledge Transformers for Peer-to-Peer Energy Trading with Multi-Agent Reinforcement Learning)

1.2. 作者

Mian Ibad Ali Shah, Enda Barrett, Karl Mason。 隶属机构:爱尔兰戈尔韦大学计算机科学学院。

1.3. 发表期刊/会议

该论文作为预印本发表于 arXiv,链接为 https://arxiv.org/abs/2507.16796。预印本平台在学术界广泛用于快速分享最新研究成果,但通常未经过正式的同行评审流程。

1.4. 发表年份

2025年。

1.5. 摘要

本文提出了一种新颖的P2P能源交易框架,该框架将不确定性感知的预测与多智能体强化学习 (MARL) 相结合,旨在解决当前文献中的关键空白。与以往依赖确定性预测的工作不同,该方法采用了一种名为“带不确定性的知识转换器” (Knowledge Transformer with Uncertainty, KTU) 的异方差概率转换器预测模型,以明确量化预测不确定性。这对于P2P能源交易这种随机环境中的鲁棒决策至关重要。KTU模型利用领域特定特征,并通过定制的损失函数进行训练,确保了对每次预测的可靠概率预测和置信区间。将这些不确定性感知的预测整合到MARL框架中,使智能体 (agents) 能够清晰地理解风险和变异性,从而优化交易策略。实验结果表明,不确定性感知的深度Q网络 (DQN) 在不进行P2P交易时将能源购买成本降低了5.7%,在进行P2P交易时降低了3.2%;同时,电力销售收入分别增加了6.4%和44.7%。此外,高峰时段电网需求在无P2P交易时减少了38.8%,在有P2P交易时减少了45.6%。这些改进在启用P2P交易时更加显著,凸显了先进预测和市场机制在构建弹性、经济高效能源社区方面的协同作用。

1.6. 原文链接

  • 官方来源/预印本链接: https://arxiv.org/abs/2507.16796
  • PDF 链接: https://arxiv.org/pdf/2507.16796v1.pdf 发布状态:预印本 (Preprint)。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 研究背景

全球能源格局正在经历深刻的变革,这主要得益于分布式能源 (Distributed Energy Resources, DERs) 的普及、脱碳的紧迫性以及促进去中心化市场参与的数字平台的兴起。点对点 (Peer-to-Peer, P2P) 能源交易作为一种有前景的范式迅速发展,它使产消者 (prosumers) 能够直接交换电力,优化本地可再生能源利用,并有助于减少电力系统中的碳排放。当前P2P交易框架的最新发展主要集中在整合可再生能源、电力与碳市场耦合以及利用区块链等先进数字基础设施以确保透明度和信任。

2.1.2. 核心问题与现有挑战

P2P能源市场运作中的一个核心挑战是可再生能源发电和动态负荷剖面固有的不确定性。太阳能和风能资源的波动性以及消费者需求的随机性引入了显著的风险,如果管理不当,这些风险可能会损害经济效率和系统可靠性。传统的确定性预测方法在这种情况下是不足的,因为它们未能捕捉未来场景的完整范围,从而导致次优或有风险的交易和调度决策。

2.1.3. 现有研究空白

现有的P2P能源交易研究虽然在多智能体强化学习 (MARL) 和深度学习方面取得了进展,但大多依赖于确定性预测,未能充分捕捉可再生能源系统固有的可变性。这导致预测误差显著影响市场效率,凸显了对不确定性感知的预测模型的需求。此外,虽然一些工作探索了不确定性感知,但缺乏将其与多智能体学习直接整合的框架。

2.1.4. 本文切入点与创新思路

本文的创新思路在于提出一个新颖的框架,将异方差概率转换器 (heteroscedastic probabilistic transformer) 预测模型——带不确定性的知识转换器 (KTU)——与MARL相结合,用于先进的P2P能源和碳交易。该方法明确地对负荷和可再生能源发电中的不确定性进行建模,并将这些信息传播到交易和调度决策中,从而评估对经济绩效和碳排放的影响。通过这种整合,该研究旨在推动弹性、高效和可持续P2P能源系统的发展。

2.2. 核心贡献/主要发现

2.2.1. 主要贡献

  • 引入不确定性感知的概率预测模型: 提出了 Knowledge Transformer with Uncertainty (KTU) 模型,这是一种异方差概率转换器,专门为P2P能源交易提供概率预测,能够量化预测不确定性。
  • 整合不确定性预测与多智能体强化学习: 创新性地将不确定性感知的预测直接整合到基于 DQN 的多智能体强化学习系统 (MARL) 中,从而使智能体能够做出风险敏感的交易决策。
  • 综合考虑经济与环境目标: 将碳核算和高峰时段电价管理纳入奖励函数,同时解决经济效益和环境可持续性目标。
  • 自动化超参数优化: 整合了自动化超参数优化,确保了预测和交易模块的最佳性能。

2.2.2. 关键结论与发现

  • 显著降低成本和提高收益: 不确定性感知的 DQN 显著降低了能源购买成本(无P2P交易时降低5.7%,有P2P交易时降低3.2%),并大幅增加了电力销售收入(无P2P交易时增加6.4%,有P2P交易时增加44.7%)。
  • 有效削减高峰需求: 显著降低了高峰时段电网需求(无P2P交易时降低38.8%,有P2P交易时降低45.6%)。
  • 加速收敛与高效电池管理: 提出的方法使智能体的学习收敛速度提高了50%,并实现了更有效的电池管理,智能体能够根据预测的发电量和负荷协调充放电。
  • P2P交易的放大效应: 当P2P交易启用时,所有性能指标的改进都更加显著,表明先进预测与市场机制之间存在强大的协同作用。
  • 超越基线模型的表现: 与传统的规则基线 (Rule-Based) 和 RB+QLRB+QL (Rule-Based + Q-Learning) 方法以及标准 DQN 相比,不确定性感知的 DQN 表现出卓越的经济成果和决策质量。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 点对点能源交易 (Peer-to-Peer, P2P Energy Trading)

P2P能源交易是一种去中心化的能源交换模式,允许产消者(既是消费者又是生产者,通常拥有太阳能电池板和储能系统)直接相互买卖多余的电力,而不是完全依赖传统的中心化电网。这种模式旨在提高本地可再生能源的利用率,减少对中心化电网的依赖,并促进社区内的能源自给自足和经济效益。

3.1.2. 多智能体强化学习 (Multi-Agent Reinforcement Learning, MARL)

MARL 是强化学习 (Reinforcement Learning, RL) 的一个分支,研究多个学习智能体 (agents) 在共享环境中如何通过与环境互动和接收奖励来学习最优策略。与单个智能体的RL不同,MARL面临额外的挑战,如非平稳环境(其他智能体的行为会改变环境)、信用分配问题以及需要协调或竞争的复杂策略。在P2P能源交易中,每个产消者都可以被视为一个智能体,通过MARL学习何时买卖、充放电以最大化自身利益。

3.1.3. 深度Q网络 (Deep Q-Networks, DQN)

DQN 是一种结合了深度学习和Q学习的强化学习算法。传统的Q学习使用Q表来存储每个状态-动作对的Q值,但在状态空间或动作空间很大时,Q表会变得过于庞大而无法管理。DQN通过使用深度神经网络来近似Q函数,即 Q(s,a;θ)Q(s, a; θ),其中 ss 是状态, aa 是动作,θ\theta 是神经网络的参数。这使得DQN能够在高维甚至连续的状态空间中有效学习。DQN引入了经验回放 (experience replay) 和目标网络 (target network) 等机制来稳定训练。

3.1.4. 转换器 (Transformer)

转换器是一种基于自注意力 (self-attention) 机制的神经网络架构,最初用于自然语言处理,但后来被广泛应用于时间序列预测等领域。其核心思想是,通过 multi-head self-attention 机制,模型可以捕捉输入序列中不同位置之间的依赖关系,无论它们在序列中的距离有多远。 Multi-head self-attention 机制的计算定义如下: H=MultiHead(Q,K,V)=Concat(head1,,headh)WO \mathbf { H } = \mathbf { M } \mathbf { u } \mathbf { l } \mathrm { t i } \mathbf { H } \mathrm { e a d } ( \mathbf { Q } , \mathbf { K } , \mathbf { V } ) = \mathbf { C } \mathrm { o n c a t } ( h e a d _ { 1 } , \dots , h e a d _ { h } ) \mathbf { W } ^ { O } 其中,Q\mathbf { Q }, K\mathbf { K }, 和 V\mathbf { V } 分别表示查询 (Query)、键 (Key) 和值 (Value) 矩阵,WO\mathbf { W } ^ { O } 是输出投影矩阵。每个注意力头 (attention head) h e a d _ { i } 的计算方式为: headi=Attention(QWiQ,KWiK,VWiV) h e a d _ { i } = \mathrm { A t t e n t i o n } ( \mathbf { Q } \mathbf { W } _ { i } ^ { Q } , \mathbf { K } \mathbf { W } _ { i } ^ { K } , \mathbf { V } \mathbf { W } _ { i } ^ { V } ) 这里,WiQ\mathbf { W } _ { i } ^ { Q }, WiK\mathbf { W } _ { i } ^ { K }, 和 WiV\mathbf { W } _ { i } ^ { V } 是第 ii 个头的可学习投影矩阵。 而 Attention 函数本身,通常是Scaled Dot-Product AttentionAttention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V 其中 QQKKVV 分别是查询、键和值矩阵,dkd_k 是键向量的维度,用于缩放点积以防止梯度过小。

3.1.5. 异方差概率预测 (Heteroscedastic Probabilistic Forecasting)

传统的预测模型通常提供单一的确定性点预测。异方差概率预测则更进一步,它不仅预测目标的均值,还预测其方差(或标准差),并且允许方差随输入数据的不同而变化(异方差)。这意味着模型可以根据输入数据的特性,提供不同程度的预测不确定性(即更宽或更窄的置信区间)。这对于P2P能源交易中风险敏感的决策至关重要,因为能源产消的波动性很大。

3.2. 前人工作

3.2.1. P2P能源交易的挑战

早期的P2P能源交易主要面临可扩展性、隐私、定价和不确定性方面的挑战。

  • Zhou et al. [41] 发现早期社区市场机制采用统一价格,限制了个性化激励。
  • Zheng et al. [38] 引入了基于拍卖的方法以实现特定交易者的定价,但这些方法难以应对交易者行为和能源供应的实际不确定性。

3.2.2. 强化学习在P2P能源交易中的应用

  • May et al. [19] 将MARL视为一种有前景的解决方案,展示了智能体如何学习动态环境中的最优策略。
  • Bhavana et al. [3] 指出在可扩展性和不确定性管理方面的技术挑战仍然存在。
  • Bassey et al. [2] 研究了人工智能在交易策略优化中的应用。 然而,大多数现有实现仍依赖于确定性预测,未能充分捕捉可再生能源系统固有的可变性。

3.2.3. 预测误差与不确定性

  • Zhang et al. [37] 表明预测误差显著影响市场效率,强调了不确定性感知的预测模型的必要性。
  • Liu et al. [17] 在转换器架构的能源预测中取得了有前景的结果,但主要关注单智能体设置或确定性输出。
  • Chen et al. [5] 开发了基于DQN的价格预测方法,但未量化不确定性。
  • El et al. [9] 研究了不确定性感知的产消者联盟博弈,但未将概率预测与多智能体学习相结合。
  • Yazdani et al. [36] 提出了实时交易的鲁棒优化。
  • Uthayansuthi et al. [32] 结合了聚类、预测和深度强化学习。 然而,这些方法要么缺乏先进的神经网络预测集成,要么主要关注经济优化而未充分考虑不确定性影响。

3.3. 技术演进与差异化分析

3.3.1. 技术演进

P2P能源交易领域从早期的统一价格和简单拍卖机制,逐步发展到基于强化学习的智能体决策。随着深度学习和多智能体系统的进步,MARL被广泛应用于解决高维、复杂环境下的P2P能源交易优化问题。同时,预测技术从传统的确定性方法向概率预测发展,以更好地应对可再生能源的固有不确定性。转换器架构的引入,进一步提升了时间序列预测的准确性和对长期依赖关系的捕捉能力。

3.3.2. 差异化分析

本文通过以下几个关键创新点超越了现有研究:

  • 不确定性感知的概率预测模型: 本文引入了 Knowledge Transformer with Uncertainty (KTU) 模型,专门针对P2P能源交易提供带有异方差不确定性的概率预测。这与大多数依赖确定性预测的现有方法形成对比。
  • 集成不确定性预测与MARL: 提出的框架直接将不确定性感知的预测整合到基于 DQN 的MARL系统中。这使得智能体能够做出风险敏感的交易决策,是当前研究中的一个重要空白。以往的工作要么孤立地研究不确定性预测,要么在MARL中未充分利用不确定性信息。
  • 综合经济与环境目标: 在奖励函数中纳入了碳核算和高峰时段电价管理,实现了经济效益和环境目标的双重优化。
  • 自动化超参数优化: 通过 Optuna 自动化超参数优化,确保了预测和交易模块的最佳性能,提高了模型的鲁棒性和易用性。

4. 方法论

本文提出了一种新颖的框架,将不确定性感知的预测与多智能体强化学习 (MARL) 相结合,用于P2P能源交易。整个系统由两个主要部分组成:一个异方差概率转换器预测模型 Knowledge Transformer with Uncertainty (KTU) 用于生成不确定性感知的负荷和发电预测,以及一个基于 DQN 的MARL框架,利用这些预测来优化智能体的交易策略。

4.1. 数据与特征工程

P2P能源交易社区由10个芬兰农村产消者组成,每个产消者都配备了光伏 (PV) 和电池系统:4个奶牛场(数据来自 Uski et al. [31])和6个家庭(基于芬兰剖面和季节乘数的合成负荷 [10, 29]),其中2个家庭拥有电动汽车 (EV)。光伏发电量使用 SAM [20] 进行模拟。与 [30] 一致,可再生能源容量设置为年负荷的40%。

4.1.1. 数据来源与聚合

多产消者数据被聚合和标准化。

4.1.2. 特征编码

  • 产消者规模被分类编码。
  • 时间 (cyclical) 和季节 (seasonal) 特征采用正弦/余弦以及独热 (one-hot) 编码 [15]。
  • 为了捕捉高纬度地区的太阳能模式,从赫尔辛基的天文数据中导出了自定义的daylight特征。

4.1.3. 监督学习序列构建

遵循基于转换器的时间序列最佳实践 [35],通过滑动窗口构建监督学习序列。

4.2. 不确定性感知的知识转换器 (KTU) 模型

KTU 模型是一个异方差概率转换器,用于能源预测,建立在最新的基于转换器的架构之上 [24, 33]。

4.2.1. 模型架构

模型架构如下图(原文 Figure 1)所示。

Figure 1. KTU-DQN Ensemble Architecture for P2P Energy Trading 该图像是KTU-DQN集成架构示意图,展示了用于P2P能源交易的框架。图中包括数据源、特征工程、知识转化器、概率预测、多智能体DQN及其交互,强调了各部分如何协同工作以实现优化与评估。

图 1. KTU-DQN 集成架构用于 P2P 能源交易

该架构包括一个带有可学习位置编码 [39] 的输入投影层,接着是一个转换器编码器,该编码器利用 multi-head self-attention 来建模时间依赖性 [40]。 具体而言,multi-head attention 机制的定义为: H=MultiHead(Q,K,V)=Concat(head1,,headh)WO \mathbf { H } = \mathbf { M } \mathbf { u } \mathbf { l } \mathrm { t i } \mathbf { H } \mathrm { e a d } ( \mathbf { Q } , \mathbf { K } , \mathbf { V } ) = \mathbf { C } \mathrm { o n c a t } ( h e a d _ { 1 } , \dots , h e a d _ { h } ) \mathbf { W } ^ { O } 其中,Q\mathbf { Q }, K\mathbf { K }, 和 V\mathbf { V } 分别表示查询 (Query)、键 (Key) 和值 (Value) 矩阵,WO\mathbf { W } ^ { O } 是输出投影矩阵。每个注意力头 h e a d _ { i } 的计算方式为: headi=Attention(QWiQ,KWiK,VWiV) h e a d _ { i } = \mathrm { A t t e n t i o n } ( \mathbf { Q } \mathbf { W } _ { i } ^ { Q } , \mathbf { K } \mathbf { W } _ { i } ^ { K } , \mathbf { V } \mathbf { W } _ { i } ^ { V } ) 这里,WiQ\mathbf { W } _ { i } ^ { Q }, WiK\mathbf { W } _ { i } ^ { K }, 和 WiV\mathbf { W } _ { i } ^ { V } 是第 ii 个头的可学习投影矩阵。这使得模型能够捕获跨多个表示子空间的复杂时间模式。

KTU 模型具有双输出头,分别预测每个目标的均值 μ\mu 和方差 σ2\sigma ^ { 2 }(通过 Softplus 激活函数),从而捕获任意不确定性 (aleatoric uncertainty) [22]。模型对产消者负荷 LL 和光伏 (PV) 发电量 PP 输出概率预测如下: p(Lt+kxt)=N(μL(xt),σL2(xt))p(Pt+kxt)=N(μP(xt),σP2(xt)) \begin{array} { r } { p ( L _ { t + k } | \mathbf { x } _ { t } ) = \mathcal { N } ( \mu _ { L } ( \mathbf { x } _ { t } ) , \sigma _ { L } ^ { 2 } ( \mathbf { x } _ { t } ) ) } \\ { p ( P _ { t + k } | \mathbf { x } _ { t } ) = \mathcal { N } ( \mu _ { P } ( \mathbf { x } _ { t } ) , \sigma _ { P } ^ { 2 } ( \mathbf { x } _ { t } ) ) } \end{array} 其中,xt\mathbf { x } _ { t } 表示时间 tt 的输入特征,Lt+kL _ { t + k }Pt+kP _ { { t + k } } 分别是预测时段 t+kt + k 的负荷和光伏发电量,μL(xt)\mu _ { L } ( \mathbf { x } _ { t } )σL2(xt)\sigma _ { L } ^ { 2 } ( \mathbf { x } _ { t } )μP(xt)\mu _ { P } ( \mathbf { x } _ { t } )σP2(xt)\sigma _ { P } ^ { 2 } ( \mathbf { x } _ { t } ) 分别是预测的负荷和光伏的均值和方差。

为了确保物理合理性,光伏平均预测通过基于日光和季节性的物理信息约束进行调制: μPfinal(xt)=softplus(μP(xt))xtdaylightxtnorm_daylight \mu _ { P } ^ { \mathrm { f i n a l } } ( \mathbf { x } _ { t } ) = \mathrm { s o f t p l u s } ( \mu _ { P } ( \mathbf { x } _ { t } ) ) \cdot x _ { t } ^ { \mathrm { d a y l i g h t } } \cdot x _ { t } ^ { \mathrm { n o r m \_d a yl i g h t } } 其中 xtdaylightx _ { t } ^ { \mathrm { d a y l i g h t } } 是一个二元特征(1表示白天,0表示夜晚),xtnorm_daylightx _ { t } ^ { \mathrm { n o r m \_d a y l i g h t } } 是针对给定季节归一化的日光特征 [14]。

4.2.2. 超参数优化与模型配置

模型使用 Optuna [1] 进行超参数调优,目标是预测产消者负荷和光伏发电量的未来三小时联合预测。架构实现了一个两层前馈网络,将输入投影到128维空间,并带有层归一化和 ReLU 激活 [35]。两个转换器编码器层,每个包含四个注意力头和512维前馈网络,以及0.1的丢弃率 (dropout),处理编码后的输入。双输出头使用 Softplus 激活函数进行方差预测,生成最终预测。关键超参数包括学习率 (learning rate)、批量大小 (batch size)、隐藏维度 (hidden dimensions)、注意力头数量 hh、丢弃率 (dropout rate) 和正则化权重。

4.2.3. 损失函数

模型采用一个复合损失函数,该函数结合了高斯负对数似然 (Gaussian negative log-likelihood) 和领域特定的正则化项: L=12i=1N[log(σi2+ϵ)+(yiμi)2σi2+ϵ] +αt=1T1μt+1μt +βt=1TPt(1xtdaylight) \begin{array} { l } { { \displaystyle { \mathcal { L } } = \frac { 1 } { 2 } \sum _ { i = 1 } ^ { N } \left[ \log ( \sigma _ { i } ^ { 2 } + \epsilon ) + \frac { ( y _ { i } - \mu _ { i } ) ^ { 2 } } { \sigma _ { i } ^ { 2 } + \epsilon } \right] } } \\ { { \displaystyle ~ + \alpha \sum _ { t = 1 } ^ { T - 1 } | \mu _ { t + 1 } - \mu _ { t } | } } \\ { { \displaystyle ~ + \beta \sum _ { t = 1 } ^ { T } P _ { t } ( 1 - x _ { t } ^ { \mathrm { d a y l i g h t } } ) } } \end{array} 其中,NN 是训练样本的数量,y _ { i } 是真实标注数据 (ground truth) 目标,μi\mu _ { i }σi2\sigma _ { i } ^ { 2 } 是样本 ii 的预测均值和方差,ϵ\epsilon 是一个小的常数,用于数值稳定性,α\alpha 控制时间平滑正则化项的强度,β\beta 惩罚物理上不可能的夜间光伏发电,TT 是序列长度,P _ { t } 是时间 tt 的预测光伏发电量。

4.2.4. 概率预测与评估

对于概率预测,从预测的均值和方差中抽取样本,以构建经验置信区间。评估指标包括预测区间覆盖概率 (Prediction Interval Coverage Probability, PICP)、平均预测区间宽度 (Mean Prediction Interval Width, MPIW) 和连续排序概率得分 (Continuous Ranked Probability Score, CRPS),这些指标用于评估概率预测的质量和校准。

4.3. 深度Q网络 (Deep Q-Networks, DQN)

传统的Q学习 (Q-learning) 使用Q表来学习最优策略,但对于大型或连续的状态-动作空间,由于内存限制和泛化能力差,这种方法不切实际。深度Q网络 (DQN) 通过使用深度神经网络来近似Q值来解决这个问题,从而在高维环境中实现有效的学习 [18]。

DQN 通过用神经网络替换Q表来扩展Q学习,该神经网络由 θ\theta 参数化,通过随机梯度下降 (stochastic gradient descent) 更新以最小化时间差分 (temporal-difference, TD) 误差: θt+1=θt+α[rt+γmaxaq(st+1,a;θTD)q(st,at;θt)]θtq(st,at;θt) \theta _ { t + 1 } = \theta _ { t } + \alpha \Big [ r _ { t } + \gamma \operatorname* { m a x } _ { a ^ { \prime } } q \big ( s _ { t + 1 } , a ^ { \prime } ; \theta _ { \mathrm { T D } } \big ) - q ( s _ { t } , a _ { t } ; \theta _ { t } ) \Big ] \nabla _ { \theta _ { t } } q ( s _ { t } , a _ { t } ; \theta _ { t } ) 这里,θTD\theta _ { \mathrm { T D } } 表示目标网络 (target network),定期更新以稳定训练。α\alpha 是学习率,rtr_t 是时间 tt 的奖励,γ\gamma 是折扣因子,sts_tata_t 分别是时间 tt 的状态和动作,st+1s_{t+1} 是下一个状态,aa' 是下一个状态下的可能动作。此框架使 DQN 能够有效地学习复杂、高维空间中的策略,而传统Q学习则无法做到。

4.4. 定价模型与双重拍卖 (Pricing Model and Double Auction)

系统采用分布式P2P能源交易模型,其中只有能源发电和负荷数据与中心化拍卖者 (auctioneer) 共享。市场清算集中进行,但每个参与者独立管理其负荷、发电和电池,通过不向外部实体提供额外信息来保护隐私。

4.4.1. 价格设定机制

参与者向一个充当拍卖者和顾问的中心化智能体报告其电力盈余或赤字。该智能体评估市场条件,并使用供需比 (Supply and Demand Ratio, SDR) 方法确定内部销售价格 (Internal Selling Price, ISP) 和内部购买价格 (Internal Buying Price, IBP) [16],从而实现基于当前系统需求和供应的实时价格设定。ISP 是在社区内销售多余能源的价格,而 IBP 是购买能源的价格,确保交易的公平和透明。 当 0SDR10 \leq \mathrm{SDR} \leq 1 时,计算 ISPIBP 如下: ISP=λsellλbuy(λbuyλsell)SDR+λsell \overline { { \mathrm { I S P } } } = \frac { \lambda _ { s e l l } \lambda _ { b u y } } { ( \lambda _ { b u y } - \lambda _ { s e l l } ) \mathrm { SDR } + \lambda _ { s e l l } } IBP=ISPSDR+λbuy(1SDR) \mathrm { IBP } = \overline { \mathrm { I S P } } \cdot \mathrm { SDR } + \lambda _ { b u y } \cdot ( 1 - \mathrm { SDR } ) 其中 λsell\lambda_{sell}λbuy\lambda_{buy} 分别是卖出和买入电力的基础价格, SDR\mathrm{SDR} 是供需比。

4.4.2. 双重拍卖机制

本研究采用双重拍卖 (double auction, DA) 机制,改编自 Qiu et al. [23]。拍卖者仅需要参与者的负荷、发电和定价数据,从而保护数据隐私。拍卖系统包括买方 β\beta 和卖方 σ\sigma。每个买方 bb 提交一个带有价格 Pβ,bP _ { \beta , b } 和数量 Qβ,bQ _ { \beta , b } 的出价 (bid),而每个卖方 ss 提交一个带有价格 Pσ,sP _ { \sigma , s } 和数量 Qσ,sQ _ { \sigma , s } 的报价 (offer)。拍卖者维护两个订单簿:买方订单簿 O _ { b } 和卖方订单簿 O _ { s },两者都按价格排序。根据 ISPIBP,每个智能体提交指定电力交易价格和数量的出价或报价。拍卖者使用拍卖算法清算市场,确保能源高效分配,并确保所有参与者的交易公平且隐私保护。

4.5. 提出的方法:不确定性感知的MARL P2P能源交易模型

不确定性感知的预测使能的MARL P2P能源交易模型使用 PettingZoo 框架模拟了10个产消者智能体超过200万个时间步。尽管P2P参与者是自私的,但MARL仍然是现实的,因为智能体独立训练以最大化自身效用,而无需明确协调。这使得每个智能体能够适应其他智能体的动态行动,有效地模拟去中心化、竞争性的P2P能源交易环境。

4.5.1. 智能体状态与动作空间

每个智能体的状态空间包括当前和预测的负荷、发电量、电池状态以及来自概率预测模型的不确定性估计。动作空间由离散动作组成,代表能源管理策略,例如购买、销售、充电、放电和自消费。

4.5.2. 奖励函数

奖励函数针对每个动作进行设计,以纳入预测不确定性、电价时段 (tariff periods) 和电池约束。 符号说明:

  • Gti,LtiG _ { t } ^ { i } , L _ { t } ^ { i }:智能体 ii 在时间 tt 的发电量和负荷。
  • SoCti\mathrm { SoC } _ { t } ^ { i }:智能体 ii 在时间 tt 的电池荷电状态 (State of Charge, %)。
  • TgridT _ { \mathrm { g r i d } }:电网电价,属于集合 {N(Normal),NP(Non-Peak),P(Peak),D(Dynamic)}\{ N (\text{Normal}), NP (\text{Non-Peak}), P (\text{Peak}), D (\text{Dynamic}) \}
  • G~t+ki,L^t+ki\tilde { G } _ { t + k } ^ { i } , \hat { L } _ { t + k } ^ { i }:智能体 ii 在未来 kk 时间步的发电量和负荷预测。
  • Δpeaki\Delta _ { \mathrm { p e a k } } ^ { i }:智能体 ii 的高峰期赤字预测。
  • αti\alpha _ { t } ^ { i }:智能体 ii 在时间 tt 的置信分数,通常与预测的不确定性相关,表示预测的可靠性。
  1. 充电和购买 (Charge and Buy) R={0.5+1.5αti+1.0,if ϕ10.5+αti,if ϕ20.5,if ϕ30,if Tgrid=P R = \left\{ \begin{array} { l l } { 0 . 5 + 1 . 5 \alpha _ { t } ^ { i } + 1 . 0 , } & { \mathrm { i f ~ } \phi _ { 1 } } \\ { 0 . 5 + \alpha _ { t } ^ { i } , } & { \mathrm { i f ~ } \phi _ { 2 } } \\ { 0 . 5 , } & { \mathrm { i f ~ } \phi _ { 3 } } \\ { 0 , } & { \mathrm { i f ~ } T _ { \mathrm { g r i d } } = P } \end{array} \right. 其中:

    • ϕ1:SoCti90%Tgrid=NPΔpeaki>0\phi _ { 1 } : \mathrm { SoC } _ { t } ^ { i } \le 9 0 \% \land T _ { \mathrm { g r i d } } = N P \land \Delta _ { \mathrm { p e a k } } ^ { i } > 0
    • ϕ2:SoCti90%Tgrid=N\phi _ { 2 } : \mathrm { SoC } _ { t } ^ { i } \le 9 0 \% \land T _ { \mathrm { g r i d } } = N
    • ϕ3:SoCti90%Gti<Lti\phi _ { 3 } : \mathrm { SoC } _ { t } ^ { i } \le 9 0 \% \land G _ { t } ^ { i } < L _ { t } ^ { i }
  2. 仅购买 (Buy Only) R={0.25,ifϕ1Tgrid=P0.5,ifϕ10,otherwise R = \left\{ \begin{array} { l l } { 0 . 2 5 , } & { \mathrm { i f } \phi _ { 1 } \wedge T _ { \mathrm { g r i d } } = P } \\ { 0 . 5 , } & { \mathrm { i f } \phi _ { 1 } } \\ { 0 , } & { \mathrm { o t h e r w i s e } } \end{array} \right. 其中 ϕ1:Gti<LtiSoCti<10%\phi _ { 1 } : G _ { t } ^ { i } < L _ { t } ^ { i } \land \mathrm { SoC } _ { t } ^ { i } < 1 0 \%

  3. 仅销售 (Sell Only) R={0.75,if ϕ1Tgrid=P0.5,if ϕ10,otherwise R = { \left\{ \begin{array} { l l } { 0 . 7 5 , } & { { \mathrm { i f ~ } } \phi _ { 1 } \wedge T _ { \mathrm { g r i d } } = P } \\ { 0 . 5 , } & { { \mathrm { i f ~ } } \phi _ { 1 } } \\ { 0 , } & { { \mathrm { o t h e r w i s e } } } \end{array} \right. } 其中 ϕ1:Gti>Lti(SoCti90%)\phi _ { 1 } : G _ { t } ^ { i } > L _ { t } ^ { i } \land ( \mathbf { S } \mathbf { o } C _ { t } ^ { i } \geq 9 0 \% )

  4. 放电和销售 (Discharge and Sell) R={(0.5+0.5αti)1.5,if ϕ10.5,if ϕ20,otherwise R = \left\{ \begin{array} { l l } { ( 0 . 5 + 0 . 5 \alpha _ { t } ^ { i } ) 1 . 5 , } & { \mathrm { i f ~ } \phi _ { 1 } } \\ { 0 . 5 , } & { \mathrm { i f ~ } \phi _ { 2 } } \\ { 0 , } & { \mathrm { o t h e r w i s e } } \end{array} \right. 其中:

    • ϕ1:Gti>LtiSoCti20%Tgrid=P\phi _ { 1 } : G _ { t } ^ { i } > L _ { t } ^ { i } \land \mathbf { S o C } _ { t } ^ { i } \ge 2 0 \% \land T _ { \mathrm { g r i d } } = P
    • ϕ2:Gti>LtiSoCti90%\phi _ { 2 } : G _ { t } ^ { i } > L _ { t } ^ { i } \land \mathbf { S o C } _ { t } ^ { i } \ge 9 0 \%
  5. 放电和购买 (Discharge and Buy) R={(0.5+0.5αti)1.5,if ϕ1Tgrid=P0.5,if ϕ10,otherwise R = \left\{ \begin{array} { l l } { ( 0 . 5 + 0 . 5 \alpha _ { t } ^ { i } ) 1 . 5 , } & { \mathrm { i f ~ } \phi _ { 1 } \wedge T _ { \mathrm { g r i d } } = P } \\ { 0 . 5 , } & { \mathrm { i f ~ } \phi _ { 1 } } \\ { 0 , } & { \mathrm { o t h e r w i s e } } \end{array} \right. 其中 ϕ1:Gti<LtiSoCti10%\phi _ { 1 } : G _ { t } ^ { i } < L _ { t } ^ { i } \land \mathrm { SoC } _ { t } ^ { i } \geq 1 0 \%

  6. 自消费 (Self-Consumption) R={1.2,ifϕ1Tgrid=P1.0,ifϕ10.5,ifϕ20,otherwise R = \left\{ \begin{array} { l l } { 1 . 2 , } & { \mathrm { i f } \phi _ { 1 } \wedge T _ { \mathrm { g r i d } } = P } \\ { 1 . 0 , } & { \mathrm { i f } \phi _ { 1 } } \\ { 0 . 5 , } & { \mathrm { i f } \phi _ { 2 } } \\ { 0 , } & { \mathrm { o t h e r w i s e } } \end{array} \right. 其中:

    • ϕ1:GtiLti0.1\phi _ { 1 } : | G _ { t } ^ { i } - L _ { t } ^ { i } | \leq 0 . 1
    • ϕ2:0.1<GtiLti0.2\phi _ { 2 } : 0 . 1 < | G _ { t } ^ { i } - L _ { t } ^ { i } | \leq 0 . 2
  7. 自消费和充电 (Self and Charge) R={0.5+2.0αti+1.0,if ϕ10.5+0.5αti,if ϕ20,if Tgrid=P R = \left\{ \begin{array} { l l } { 0 . 5 + 2 . 0 \alpha _ { t } ^ { i } + 1 . 0 , } & { \mathrm { i f ~ } \phi _ { 1 } } \\ { 0 . 5 + 0 . 5 \alpha _ { t } ^ { i } , } & { \mathrm { i f ~ } \phi _ { 2 } } \\ { 0 , } & { \mathrm { i f ~ } T _ { \mathrm { g r i d } } = P } \end{array} \right. 其中:

    • ϕ1:Gti>LtiSoCti90%Tgrid=NP\phi _ { 1 } : G _ { t } ^ { i } > L _ { t } ^ { i } \land \mathrm { SoC } _ { t } ^ { i } \le 9 0 \% \land T _ { \mathrm { g r i d } } = N P
    • ϕ2:Gti>LtiSoCti90%\phi _ { 2 } : G _ { t } ^ { i } > L _ { t } ^ { i } \land \mathrm { SoC } _ { t } ^ { i } \le 9 0 \%
  8. 自消费和放电 (Self and Discharge) R={(0.5+0.5αti)1.5,if ϕ1Tgrid=P0.5,if ϕ10,otherwise R = \left\{ \begin{array} { l l } { ( 0 . 5 + 0 . 5 \alpha _ { t } ^ { i } ) 1 . 5 , } & { \mathrm { i f ~ } \phi _ { 1 } \wedge T _ { \mathrm { g r i d } } = P } \\ { 0 . 5 , } & { \mathrm { i f ~ } \phi _ { 1 } } \\ { 0 , } & { \mathrm { o t h e r w i s e } } \end{array} \right. 其中 ϕ1:Gti<LtiSoCti20%\phi _ { 1 } : G _ { t } ^ { i } < L _ { t } ^ { i } \land \mathrm { SoC } _ { t } ^ { i } \geq 2 0 \%

4.5.3. 训练与市场清算

  • 智能体使用 DQN 单独训练,并在10个独立回合中评估其模型,结果取平均以确保鲁棒性。
  • 训练后,智能体动作被聚合以计算每小时的买/卖数量和电池电量。
  • 在每个时间步,通过双重拍卖机制清算市场:智能体根据自身需求和内部价格信号提交出价和要价,并匹配交易以最大化本地交换,然后才进行电网交易。
  • 动态定价由 SDR 和电网电价决定,确保现实的市场行为。

4.5.4. 算法流程

整体工作流程和系统架构如下图(原文 Figure 2)所示。

Figure 2. Process flow of Uncertainty-aware Forecasting DQN simulator 该图像是图示,展示了基于不确定性预测的DQN模拟器的流程,包括代理训练、P2P社区的市场拍卖和市场清算等步骤,体现了能源转移和数据传输的过程。图中标识了每个步骤及其相应的关键作用。

图 2. 不确定性感知的预测 DQN 模拟器流程图

该系统的逐步描述在算法1中给出:

算法1 不确定性感知的MARL P2P能源交易

1: 初始化:智能体集合 NN,电池容量 B _ { c a p },时间 t=0t = 0 2: while tTt \leq T (模拟周期) do 3: if 一天结束 then 4: 重置小时计数器并增加天数 5: end if 6: for each 智能体 iNi \in N do 7: 观察当前状态 ( L _ { i , t } , G _ { i , t } , B _ { i , t } ) 8: 获取预测 ( F L _ { i , t } , F G _ { i , t } ) 和不确定性 ( U _ { L , i , t } , U _ { G , i , t } ) 9: 形成状态向量 s _ { i , t } = [ L _ { i , t } , G _ { i , t } , B _ { i , t } , F L _ { i , t } , F G _ { i , t } , U _ { L , i , t } , U _ { G , i , t } ] 10: 使用 DQN 策略 π(si,t)\pi ( s _ { i , t } ) 选择动作 { { a } _ { i , t } } 11: 计算能量平衡 E _ { i , t } = G _ { i , t } - L _ { i , t } 12: if Ei,t<0E _ { i , t } < 0{ a } _ { i , t } 是购买 then 13: 添加到买方订单簿 k(i,Ei,t,pbid)\mathbf { k } ( i , | E _ { i , t } | , p _ { b i d } ) 14: else if Ei,t>0E _ { i , t } > 0{ a } _ { i , t } 是销售 then 15: 添加到卖方订单簿  ok(i,Ei,t,pask)\mathrm { { \ o k } } ( i , E _ { i , t } , p _ { a s k } ) 16: end if 17: end for 18: 市场清算: 19: 计算 SDR=\mathrm { SDR } = \sum 供应/ \scriptstyle \sum 需求 20: if 0SDR10 \leq \mathrm { SDR } \leq 1 then 21: 计算 ISP=λsellλbuy(λbuyλsell)SDR+λsell\begin{array} { r } { \overline { { \mathrm { I S P } } } = \frac { \lambda _ { s e l l } \lambda _ { b u y } } { ( \lambda _ { b u y } - \lambda _ { s e l l } ) \mathrm { SDR } + \lambda _ { s e l l } } } \end{array} 22: 计算 IBP=ISPSDR+λbuy(1SDR)\mathrm { IBP } = \overline { \mathrm { I S P } } \cdot \mathrm { SDR } + \lambda _ { b u y } \cdot ( 1 - \mathrm { SDR } ) 23: end if 24: 使用 ISPIBP 按价格优先级匹配买家和卖家 25: 更新奖励 R _ { i , t } 并推进时间 tt+1t \gets t + 1 26: end while

P2P网络由 NN 个智能体组成,每个智能体都有电池容量 B _ { c a p }。在时间 tt,智能体 ii 观察其当前负荷 (Li,t)( L _ { i , t } )、发电量 (Gi,t)( G _ { i , t } ) 和电池状态 (Bi,t)( B _ { i , t } )。知识转换器提供负荷和发电量预测 ( F L _ { i , t } , F G _ { i , t } ) 以及相关不确定性 ( U _ { L , i , t } , U _ { G , i , t } )。这些值构成状态向量 s _ { i , t },由 DQN 策略 π\pi 用于选择动作 { { a } _ { i , t } }。能量平衡 E _ { i , t } 决定智能体是充当买家(出价 p _ { b i d })还是卖家(要价 p _ { a s k })。在市场清算期间,计算 SDR 并用于确定 ISPIBP。产消者使用这些价格进行相应的要价或出价。最后,买家和卖家进行匹配,交易执行,并在进入下一个时间步之前更新智能体奖励 R _ { i , t }

5. 实验设置

5.1. 数据集

实验使用了来自10个芬兰农村产消者的数据,包括4个奶牛场和6个家庭(其中2个拥有电动汽车)。

  • 奶牛场数据: 来自 Uski et al. [31]。

  • 家庭数据: 基于芬兰的负荷特征和季节性乘数生成的合成数据 [10, 29]。

  • 光伏发电: 使用 SAM (System Advisor Model) [20] 进行模拟。

  • 可再生能源容量: 设置为年负荷的40% [30]。

  • 特征工程: 聚合和标准化多产消者数据,对产消者规模进行分类编码,对时间(正弦/余弦)和季节特征(独热编码)进行编码 [15]。针对高纬度太阳模式,从赫尔辛基天文数据中提取自定义 daylight 特征。

    选择这些数据集进行实验是因为它们代表了实际的P2P能源交易社区场景,包含了不同类型的产消者(农场、家庭、电动汽车),具有真实世界的负荷模式和光伏发电特性,能够有效验证方法在复杂、随机环境下的性能。

5.2. 评估指标

论文中提到了用于评估概率预测的指标以及用于评估MARL性能的KPI (Key Performance Indicators)。

5.2.1. 预测评估指标

  1. 预测区间覆盖概率 (Prediction Interval Coverage Probability, PICP)

    • 概念定义: PICP 衡量真实值落入预测区间(即置信区间)的百分比。一个高的 PICP 值通常表示预测区间是可靠和校准良好的。理想情况下,PICP 应该接近预设的置信水平(例如,90% 置信区间对应的 PICP 应该接近90%)。
    • 数学公式: PICP=1Ni=1NI(yi[Li,Ui])×100% \mathrm{PICP} = \frac{1}{N} \sum_{i=1}^{N} \mathbb{I}(y_i \in [L_i, U_i]) \times 100\%
    • 符号解释:
      • NN: 预测的总数量。
      • yiy_i: 第 ii 个实际观测值。
      • [Li,Ui][L_i, U_i]: 第 ii 个预测的置信区间(LiL_i 为下限, UiU_i 为上限)。
      • I()\mathbb{I}(\cdot): 指示函数,如果条件为真则返回1,否则返回0。
  2. 平均预测区间宽度 (Mean Prediction Interval Width, MPIW)

    • 概念定义: MPIW 衡量所有预测区间宽度的平均值。在 PICP 满足一定要求的前提下,更小的 MPIW 表示预测区间更窄,即预测更为精确或尖锐。单一的 MPIW 值不能完全反映预测质量,它需要与 PICP 结合起来看,避免因过度宽泛的区间而获得高的 PICP
    • 数学公式: MPIW=1Ni=1N(UiLi) \mathrm{MPIW} = \frac{1}{N} \sum_{i=1}^{N} (U_i - L_i)
    • 符号解释:
      • NN: 预测的总数量。
      • UiU_i: 第 ii 个预测区间的上限。
      • LiL_i: 第 ii 个预测区间的下限。
  3. 连续排序概率得分 (Continuous Ranked Probability Score, CRPS)

    • 概念定义: CRPS 是一种衡量概率预测质量的严格评分规则。它量化了预测的累计分布函数 (CDF) 与观测值的经验CDF之间的“距离”。CRPS 是均方误差 (Mean Squared Error, MSE) 或平均绝对误差 (Mean Absolute Error, MAE) 在概率预测领域的推广,能够同时评估预测的准确性和不确定性。 CRPS 值越小表示预测越准确、越尖锐且校准越好。
    • 数学公式: CRPS(F,y)=(F(x)I(xy))2dx \mathrm{CRPS}(F, y) = \int_{-\infty}^{\infty} (F(x) - \mathbb{I}(x \ge y))^2 dx 对于高斯分布 N(μ,σ2)\mathcal{N}(\mu, \sigma^2) 的预测,CRPS 可以解析计算: CRPS(N(μ,σ2),y)=σ(yμσ(2Φ(yμσ)1)+2ϕ(yμσ)1π) \mathrm{CRPS}(\mathcal{N}(\mu, \sigma^2), y) = \sigma \left( \frac{y-\mu}{\sigma} \left(2\Phi\left(\frac{y-\mu}{\sigma}\right)-1\right) + 2\phi\left(\frac{y-\mu}{\sigma}\right) - \frac{1}{\sqrt{\pi}} \right)
    • 符号解释:
      • F(x): 预测的累计分布函数。
      • yy: 实际观测值。
      • I(xy)\mathbb{I}(x \ge y): 指示函数,如果 xyx \ge y 则为1,否则为0。
      • μ\mu: 预测分布的均值。
      • σ\sigma: 预测分布的标准差。
      • Φ()\Phi(\cdot): 标准正态分布的累计分布函数。
      • ϕ()\phi(\cdot): 标准正态分布的概率密度函数。

5.2.2. MARL性能评估指标 (Key Performance Indicators, KPIs)

  1. 购电成本 (Electricity Cost (Bought)): 衡量智能体从电网或P2P市场购买能源的总成本。目标是最小化此成本。
  2. 售电收入 (Electricity Revenue (Sold)): 衡量智能体通过向电网或P2P市场销售多余能源获得的总收入。目标是最大化此收入。
  3. 高峰时段电网需求 (Peak Hour Demand (kW)): 衡量在电价较高或电网压力较大的高峰时段,智能体从电网获取的最大电力需求。目标是最小化此需求,以降低成本并减少对电网的负荷。

5.3. 对比基线

论文将提出的方法与以下基线模型进行了比较:

  • 规则基线 (Rule Based, RB): 一种基于预定义规则的能源管理策略,其规则和算法在 [27, 25] 中有描述。这种方法通常缺乏适应性和学习能力。

  • 规则基线+Q学习 (RB+QL): 结合了规则基线和Q学习的方法,其规则和算法也在 [27, 25] 中有描述。这代表了在规则基础上进行了一定程度的学习优化。

  • 深度Q网络 (Deep Q-Network, DQN): 标准的 DQN 模型,它使用深度神经网络近似Q值,但未集成不确定性感知的预测。这用于展示不确定性预测对 DQN 性能的提升。

  • DQN 预测 (DQN Forecasting): 这是指本文提出的“不确定性感知的 DQN”,即在 DQN 框架中集成了不确定性感知的预测模型 (KTU)。

    这些基线模型具有代表性,因为它们覆盖了从简单规则到先进强化学习的不同复杂程度和智能体行为类型。通过与这些基线进行比较,可以有效验证本文提出的不确定性感知的MARL方法的优越性。此外,论文提到还评估了其他MARL算法如 PPO (Proximal Policy Optimization),但 DQN 在本文的交易环境中表现最佳。

6. 实验结果与分析

6.1. 核心结果分析

不确定性感知的预测与 MARL DQN 框架的整合在P2P能源交易中相较于传统方法带来了显著改进。

6.1.1. 奖励收敛

下图(原文 Figure 3)展示了在180万个时间步内10个智能体的回合奖励轨迹。

Figure 3. Reward Convergence over 2M time steps 该图像是图表,展示了在2百万时间步内多个代理的奖励收敛情况。不同颜色的曲线代表不同代理的累计奖励,显示与时间步的关系,表明随着时间的推移,奖励逐渐趋于稳定,最终达到各自的最大值。

图 3. 2M 时间步内的奖励收敛情况

从图3可以看出,所有智能体在早期训练阶段回合奖励迅速增加,并在大约60万步时趋于收敛。值得注意的是,提出的不确定性感知的预测 DQN 比标准 DQN 的收敛速度快约50%,达到高性能所需的时间步减少了约25%。这种效率得益于模型能够利用概率预测来预测未来状态,从而缩小了探索空间,更有效地引导智能体找到最优策略。对于包含几十到几百个参与者的实际微电网,这种方法通过其模块化和并行化的环境(具有线性复杂度的拍卖和无通信的智能体)实现了直接的扩展。这种方法将去中心化的P2P负荷和电池管理与中心化拍卖相结合,优先考虑可扩展性和弹性,而非基于协商的MARL的最优性,同时利用不确定性感知的预测做出明智的决策。MARL训练还可以通过分布式或联邦学习支持更大规模的群体。

6.1.2. 电池管理

下图(原文 Figure 4)展示了电池管理方面的显著改进。

Figure 4. Daily Battery SOC, Load & Generation (Year Avg.) 该图像是一个图表,展示了日平均电池状态(SOC)、负载和发电量随时间变化的趋势。图中蓝线表示平均电池百分比,粉红线表示平均负载,橙线表示平均发电量,各项数据在一天24小时内呈现出明显的波动特征。

图 4. 每日电池SOC、负荷与发电量(年平均)

从图4可以看出,平均电池百分比从清晨开始稳步上升,在下午晚些时候达到峰值,然后随着存储能量的释放以满足夜间负荷而下降。电池通常在晚上高峰时段开始前预充电,这有助于降低高峰电价期间对电网的依赖,从而节省成本并减少与高峰时段发电相关的碳排放。这种模式表明,智能体在不确定性感知的预测指导下,能够协调在高可再生能源发电期间充电,并在高峰需求期间放电。这种预期行为与标准 DQN 和基于规则的方法的更被动策略形成对比,从而实现更有效和有利于社区的储能利用。

6.1.3. 关键绩效指标 (KPIs) 评估

以下是原文 Table 1 的结果:

Metric Scenario Rule Based RB+QL DQN DQN Forecasting % Diff (DQN vs DQN Forecasting)
Electricity Cost (Bought) (€) w/o P2P 125400 121300 105000 99100 -5.7%
with P2P 119500 116800 102100 96800 -3.2%
P2P vs w/o P2P (%) -4.7% -3.7% -2.8% -2.9%
Electricity Revenue (Sold) (€) w/o P2P 3600 3800 7850 8350 +6.4%
with P2P 4400 4650 14450 20900 +44.7 %
P2P vs w/o P2P (%) +22.2% +22.4% +84.1% +150.1%
Peak Hour Demand (kW) w/0 P2P 36000 34500 23200 14200 -38.8%
with P2P 28500 26600 21850 11900 -45.6%
P2P vs w/o P2P (%) -20.8% -22.9% -5.8% -16.2%

关键绩效指标 (KPI) 分析:

  • 购电成本 (Electricity Cost (Bought)):

    • 无P2P交易场景下,不确定性感知的 DQN (DQN Forecasting) 将成本从标准 DQN 的105,000欧元降至99,100欧元,降低了约 5.7%
    • 有P2P交易场景下,成本从标准 DQN 的102,100欧元降至96,800欧元,降低了约 3.2%
    • P2P交易本身对降低成本有显著贡献,将 DQN Forecasting 的成本从无P2P的99,100欧元降至有P2P的96,800欧元,尽管百分比变化不大,但绝对值仍有降低。
  • 售电收入 (Electricity Revenue (Sold)):

    • 无P2P交易场景下,不确定性感知的 DQN 将收入从标准 DQN 的7,850欧元提高到8,350欧元,增加了 6.4%
    • 有P2P交易场景下,收入从标准 DQN 的14,450欧元大幅提高到20,900欧元,增幅高达 44.7%
    • P2P交易对售电收入的提升作用尤为显著,在 DQN Forecasting 中,有P2P交易时的收入是无P2P交易时的 150.1%(即增加了150.1%)。
  • 高峰时段电网需求 (Peak Hour Demand (kW)):

    • 无P2P交易场景下,不确定性感知的 DQN 将高峰需求从标准 DQN 的23,200 kW降至14,200 kW,降低了 38.8%

    • 有P2P交易场景下,高峰需求从标准 DQN 的21,850 kW降至11,900 kW,降低了 45.6%

    • P2P交易本身也显著降低了高峰需求,在 DQN Forecasting 中,有P2P交易时比无P2P交易时进一步降低了 16.2%

      这些结果表明,当启用P2P交易时,所有指标的改进都更加显著,突显了先进预测与市场机制之间的协同作用。虽然基于规则和 RB+QLRB+QL 的方法提供了一定的改进,但它们缺乏基于 DQN 方法的适应性或预测能力。其他MARL算法(如 PPO)也进行了评估,但 DQN 在捕捉交易环境复杂性和实现卓越经济成果方面始终表现更优。降低电力成本、减少高峰时段需求和增加收入的最重要因素是P2P能源交易的实施,它放大了RL模型的优势。

总的来说,将不确定性感知的预测与 MARL DQN 相结合,不仅加速了收敛并提高了决策质量,还实现了更有效的电池管理和卓越的经济性能,为先进的P2P能源交易系统树立了新基准。

6.2. 消融实验/参数分析

论文中没有明确描述消融实验或详细的参数分析部分。但是,通过与不同基线的比较,可以间接看出一些组件的影响:

  • 不确定性感知的预测DQN Forecasting 相较于标准 DQN 的显著改进(如成本降低5.7%/-3.2%,收入增加6.4%/44.7%)直接证明了不确定性感知的预测(由 KTU 模型提供)是提高决策质量和经济效益的关键因素。

  • P2P交易机制:在所有模型中,启用P2P交易 (with P2P) 的性能均优于没有P2P交易 (w/o P2P) 的情况。这表明P2P市场机制本身对能源社区的经济和运营效率具有巨大的促进作用,并且与RL模型结合时,其效益会被放大。例如,DQN Forecasting 在有P2P交易时,售电收入比无P2P交易时增加了150.1%。

    Optuna 用于超参数调优,这暗示了模型对超参数的敏感性,并强调了通过自动化优化来确保最佳性能的重要性。

7. 总结与思考

7.1. 结论总结

本文提出了一个创新的框架,将不确定性感知的知识转换器预测模型与多智能体深度强化学习相结合,应用于P2P能源交易。通过使智能体能够做出风险敏感、具有前瞻性的决策,该方法实现了高达50%的收敛速度提升,并带来了更高效的电池管理,智能体能够根据预测的发电量和负荷智能地协调充放电行为。

关键绩效指标进一步凸显了该方法的实际优势:与标准 DQN 相比,不确定性感知的 DQN 能够将能源购买成本降低5.7%,在P2P交易下将电力销售收入提高44.7%,并将高峰时段电网需求降低45.6%。这些显著的改进源于先进预测技术与P2P市场机制的有效协同作用。

总而言之,这些结果为弹性、高效的P2P能源交易设定了新基准,有力证明了不确定性感知学习在去中心化能源系统中对于实现经济和运营效益至关重要。

7.2. 局限性与未来工作

论文作者指出了以下局限性和未来研究方向:

  • 集成更多市场机制: 未来工作可以探索集成额外的市场机制,以进一步提升系统的复杂性和效率。
  • 真实世界试点部署: 将该框架部署到真实世界的试点项目中,以验证其在实际操作环境中的性能和鲁棒性。
  • 优化预测 horizon: 进一步优化预测时间范围 (forecasting horizon),以更好地平衡预测精度和决策时效性。
  • 理论分析与收敛性保证: 对所提出方法的收敛特性进行理论分析或提供相关保证,以增强其学术严谨性。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一个非常重要的启发:在处理高度不确定性的真实世界系统(如能源交易)时,简单地依赖确定性预测是远远不够的。明确地对不确定性进行建模和量化,并将这些不确定性信息融入到决策过程中,能够显著提升系统的鲁棒性、经济效益和效率。将概率预测(如本文的 KTU 模型)与强化学习(如 DQN)相结合,为智能体提供了“风险感知”的能力,使其能够做出更明智、更具弹性的决策,这在其他具有相似不确定性特征的领域(如供应链管理、交通流量预测、金融交易)也可能具有广泛的应用前景。此外,P2P交易机制对强化学习模型效益的放大作用,也提示我们市场设计与智能决策算法的协同优化至关重要。

7.3.2. 批判

尽管本文提出了一个令人印象深刻的框架并取得了显著成果,但仍存在一些可以探讨的潜在问题或改进之处:

  1. 不确定性量化的准确性与泛化能力: 尽管 KTU 模型旨在量化不确定性,但其预测不确定性的质量(例如,在未见过的数据或极端事件下)如何,以及其在不同P2P社区(不同规模、不同地理位置、不同能源结构)之间的泛化能力,值得进一步深入分析。论文提到了PICP、MPIW、CRPS等评估指标,但未在结果部分提供 KTU 模型在这些指标上的具体数值,这使得我们无法直接评估其预测不确定性的校准程度和尖锐性。
  2. MARL的非平稳性与收敛性: 尽管论文提到智能体是独立训练以最大化自身效用,但多智能体环境本质上是非平稳的,一个智能体的最优策略会受到其他智能体策略的影响。虽然 DQN 的收敛速度快,但对于更复杂的MARL设置,其在理论上的收敛性仍然是一个挑战。未来工作可以考虑更先进的MARL算法,如 MADDPGMAPPO,它们旨在解决多智能体协作或竞争环境下的稳定学习问题。
  3. 奖励函数的设计复杂性: 论文中的奖励函数设计非常详细和复杂,包含了多种条件和权重。这种精心设计的奖励函数虽然能有效引导智能体行为,但也可能带来泛化问题:在不同的P2P环境或市场规则下,是否需要重新进行复杂的奖励函数工程?或者能否通过元学习 (meta-learning) 或自动奖励函数生成 (automatic reward function generation) 等方式降低这种人工设计的依赖?
  4. 中心化拍卖的局限性: 论文采用了中心化拍卖者来清算市场。虽然这简化了问题并提供了可扩展性,但在某些对隐私或去中心化要求极高的场景下,中心化实体可能是一个瓶颈或单点故障。探索完全去中心化的P2P交易机制(例如,基于区块链的智能合约或分布式共识机制)与不确定性感知的MARL结合,可能会是更具挑战但更有价值的未来方向。
  5. 模型的可解释性: 转换器模型本身虽然强大,但通常被认为是“黑箱”模型。在能源管理等关键基础设施领域,决策的可解释性对于信任和合规性至关重要。如何解释 KTU 模型预测的不确定性来源,以及 DQN 智能体在面对不确定性时做出特定交易决策的原因,是值得研究的方面。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。