论文状态:已完成

Mastering Diverse Domains through World Models

发表:2023/01/11
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究提出了DreamerV3,一种通用算法,能够在150多个任务中仅用单一配置超越专用方法。通过学习环境模型并想象未来场景,Dreamer实现了在Minecraft中首次不借助人类数据从零开始收集钻石,展示了在多样化领域中稳定学习的能力。

摘要

Developing a general algorithm that learns to solve tasks across a wide range of applications has been a fundamental challenge in artificial intelligence. Although current reinforcement learning algorithms can be readily applied to tasks similar to what they have been developed for, configuring them for new application domains requires significant human expertise and experimentation. We present DreamerV3, a general algorithm that outperforms specialized methods across over 150 diverse tasks, with a single configuration. Dreamer learns a model of the environment and improves its behavior by imagining future scenarios. Robustness techniques based on normalization, balancing, and transformations enable stable learning across domains. Applied out of the box, Dreamer is the first algorithm to collect diamonds in Minecraft from scratch without human data or curricula. This achievement has been posed as a significant challenge in artificial intelligence that requires exploring farsighted strategies from pixels and sparse rewards in an open world. Our work allows solving challenging control problems without extensive experimentation, making reinforcement learning broadly applicable.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

精通多样化领域:通过世界模型 (Mastering Diverse Domains through World Models)

论文标题直接点明了研究的核心:利用“世界模型”这一技术路径,实现一个能够跨越多种不同环境和任务的通用人工智能算法。

1.2. 作者

  • Danijar Hafner: 论文第一作者,是世界模型领域的领军人物,Dreamer系列算法的主要提出者。他隶属于 Google DeepMind 和多伦多大学。
  • Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap: 均为人工智能领域的知名学者。其中,Jimmy Ba 是 Adam 优化器的共同发明人之一,Timothy Lillicrap 是 DDPG 算法的提出者,两人均在深度学习和强化学习领域有深远影响。他们大多隶属于 Google DeepMind 或相关顶尖研究机构。

1.3. 发表期刊/会议

该论文最初于 2023 年 1 月在 arXiv 上作为预印本发布,后续经过同行评审,被接收为 Nature 杂志的论文。Nature 是全球最顶级的综合性科学期刊之一,这表明该研究成果具有极高的科学价值和影响力。

1.4. 发表年份

2023

1.5. 摘要

开发一种能够学习解决广泛应用领域任务的通用算法,是人工智能领域的一项根本性挑战。尽管当前的强化学习算法可以轻松应用于其开发时所针对的类似任务,但要将它们配置到新的应用领域,需要大量的人类专业知识和实验。

我们提出了 DreamerV3,这是一个通用算法,它在超过 150 个不同任务中,仅使用单一配置就超越了专门的优化方法。Dreamer 学习一个环境模型(即“世界模型”),并通过想象未来的场景来改进其行为。基于归一化 (normalization)平衡 (balancing)变换 (transformations) 的鲁棒性技术,使得跨领域的稳定学习成为可能。

在“开箱即用”的情况下,Dreamer 成为首个在没有任何人类数据或课程学习(curricula)的辅助下,从零开始在 Minecraft 中收集到钻石的算法。这一成就一直被视为人工智能领域的一大挑战,因为它要求在一个开放世界中,从像素输入和稀疏奖励中探索具有远见的策略。我们的工作使得解决具有挑战性的控制问题不再需要大量的实验,从而使强化学习得到更广泛的应用。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

传统的强化学习 (Reinforcement Learning, RL) 算法虽然在特定任务(如围棋、Dota)上取得了巨大成功,但它们通常是“专才”而非“通才”。将一个为 Atari 游戏设计的算法应用到机器人控制上,往往需要专家进行大量的超参数调优 (hyperparameter tuning),这个过程既耗时又昂贵,极大地限制了强化学习在更广泛实际问题中的应用。因此,如何开发一个通用 (general)鲁棒 (robust) 的强化学习算法,使其能够用一套固定的超参数“开箱即用”地解决来自不同领域的各种任务,是人工智能领域一个长期存在的根本性挑战。

2.1.2. 现有研究的挑战与空白 (Gap)

  • 脆弱性 (Brittleness): 现有算法(如 PPO、SAC)对超参数非常敏感。奖励的尺度、观测值的范围、动作空间的类型(连续或离散)等环境特性的变化,都可能导致算法性能急剧下降甚至完全失效。
  • 专业化 (Specialization): 为了在特定领域达到最佳性能,研究者们开发了许多专门的算法。例如,用于离散动作的 Rainbow、用于连续控制的 D4PG、用于视觉输入的 DrQ-v2。这些算法虽然在各自领域表现出色,但通用性很差。
  • 数据效率与探索难题: 在奖励稀疏(即智能体大部分时间得不到任何反馈)和探索空间巨大的环境中(如 Minecraft),传统 RL 算法很难学习到有效的策略。之前的成功案例往往依赖于大量的人类专家数据 (human expert data) 或精心设计的课程学习 (curriculum learning) 来引导智能体,而不是让其从零开始自主学习。

2.1.3. 本文的切入点与创新思路

本文的思路是基于“世界模型 (World Model)”来构建一个通用的决策框架。其核心思想是:与其直接在真实环境中反复试错来学习一个策略(模型无关方法,如 PPO),不如先让智能体学习一个关于“世界如何运转”的内部模型。这个世界模型可以在“想象”中预测采取不同动作可能导致的未来状态和奖励。一旦有了这个模型,智能体就可以在计算成本低廉的想象空间中高效地进行规划和策略学习,从而大大提升数据效率和性能。

为了让这个思路能够跨领域通用,作者引入了一系列精心设计的鲁棒性技术,解决了在不同数据尺度和信号强度下稳定学习的难题。

2.2. 核心贡献/主要发现

  1. 提出了 DreamerV3,一个具有里程碑意义的通用强化学习算法。 该算法使用一套固定不变的超参数 (fixed hyperparameters),在涵盖连续/离散动作、视觉/向量输入、密集/稀疏奖励等超过 150 个多样化任务上,其性能全面超越了为这些任务专门设计和调优的专家算法。

  2. 实现了在 Minecraft 中从零开始收集钻石的重大突破。 DreamerV3 是第一个不依赖任何人类先验知识(如专家演示数据、课程学习)而自主学会收集钻石的算法。这被认为是 AI 领域的一个重要里程碑,因为它证明了世界模型在解决具有长时程、稀疏奖励和巨大探索空间的开放世界问题上的强大潜力。

  3. 系统性地提出并验证了一套鲁棒性技术。 论文详细阐述了如何通过符号对数 (symlog) 变换、百分位回报归一化 (percentile return normalization)KL 散度平衡 (KL balancing) 等技术,有效解决了跨领域学习中因信号尺度差异巨大而导致的训练不稳定问题。这些技术是 DreamerV3 能够实现“通用性”的关键。

  4. 展示了模型规模的可预测扩展性。 实验证明,增加 DreamerV3 的模型大小或计算预算(重放比例),可以稳定地提升其性能和数据效率。这为通过增加计算资源来解决更复杂的问题提供了一条清晰且可靠的路径。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 强化学习 (Reinforcement Learning, RL)

强化学习是机器学习的一个分支,研究智能体 (agent) 如何在一个环境 (environment) 中通过与环境的交互来学习一个最优策略 (policy),以最大化其获得的累积奖励 (reward)。智能体在每个时间步 tt 观察到环境的状态 (state) sts_t,根据策略选择一个动作 (action) ata_t,环境接收到动作后会转移到一个新的状态 st+1s_{t+1},并反馈给智能体一个即时奖励 rtr_t。这个过程不断循环,智能体的目标是学习一个策略 π(atst)\pi(a_t|s_t),使得从开始到结束的累积奖励(通常是带折扣的)期望值最大。

3.1.2. 世界模型 (World Model)

世界模型是一种基于模型的强化学习(Model-Based RL)方法。与直接学习策略的“模型无关”(Model-Free)方法(如 PPO、DQN)不同,世界模型的核心是学习一个关于环境动态的内部模型。这个模型通常包含以下几个部分:

  • 表征模型 (Representation Model): 将高维的原始观测(如图像)压缩成一个低维、信息丰富的隐状态 (latent state)。

  • 转移模型 (Transition Model): 预测在当前隐状态下,执行某个动作后,下一个隐状态会是什么。

  • 奖励模型 (Reward Model): 预测在某个隐状态下会获得多少奖励。

    有了世界模型,智能体就可以在“想象”中进行推演 (rollout),生成大量模拟的交互数据,然后在这些想象出的轨迹上学习策略,从而极大地提高样本效率。本文的 Dreamer 系列就是世界模型的杰出代表。

3.1.3. 演员-评论家 (Actor-Critic)

这是一种结合了策略学习 (Policy-Based)价值学习 (Value-Based) 的强化学习框架。

  • 演员 (Actor): 负责学习和执行策略,即决定在特定状态下应该采取什么动作。它是一个策略网络 πθ(as)\pi_\theta(a|s)

  • 评论家 (Critic): 负责评估演员所选择的动作的好坏,即预测在某个状态下遵循当前策略能获得的未来累积奖励(价值函数 V(s) 或状态-动作价值函数 Q(s, a))。它是一个价值网络。

    训练过程中,演员根据评论家的“评价”来调整自己的策略方向(如果评论家给出高分,就增加该动作被选择的概率),而评论家则通过观察实际获得的奖励来提升自己评估的准确性。两者相互协作,共同优化。DreamerV3 就是在想象的世界模型中训练一个演员-评论家网络。

3.2. 前人工作

  • PPO (Proximal Policy Optimization): 一种非常流行且相对鲁棒的模型无关 (model-free) 强化学习算法。它通过在策略更新时施加一个约束,防止新旧策略差异过大,从而保证了训练的稳定性。PPO 因其实现简单、性能稳健而被广泛用作基线,但通常需要大量数据,且在稀疏奖励和复杂视觉任务上性能不如专门算法。
  • MuZero: 由 DeepMind 提出的一个强大的基于模型的算法,它通过在隐空间中进行蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS) 来进行规划。MuZero 在雅达利游戏和棋类游戏中取得了顶尖性能,但其算法结构复杂,包含 MCTS 模块,复现难度较大。
  • DreamerV1 & DreamerV2: 本文算法的前代版本。
    • DreamerV1 (2019): 首次证明了在纯粹由世界模型想象出的轨迹上学习行为是可行的,主要应用于连续控制任务。
    • DreamerV2 (2020): 将世界模型中的隐状态从连续值改为离散值,并引入了一些改进,使其在具有挑战性的 Atari 游戏基准上超越了纯模型无关的顶尖算法(如 Rainbow),展示了世界模型在复杂离散任务上的潜力。

3.3. 技术演进

强化学习的发展经历了从简单的表格方法,到基于深度神经网络的 DQN、策略梯度,再到更稳定和高效的 Actor-Critic 框架(如 A2C、PPO、SAC)。近年来,为了解决数据效率和长时程规划问题,基于模型的强化学习(特别是世界模型)重新成为研究热点。

  • 早期模型基于物理引擎或简单规则,适用范围有限。
  • 近年来,以 Dreamer 系列为代表的工作,利用深度学习(特别是循环神经网络和变分自编码器)来直接从高维数据(如像素)中学习一个通用的、端到端的隐空间世界模型,取得了巨大突破。
  • DreamerV3 正是站在 V1 和 V2 的肩膀上,通过引入一系列鲁棒性技术,将世界模型的适用范围从特定领域推广到了一个前所未有的广度,使其成为一个真正的“通用”算法。

3.4. 差异化分析

  • 与 PPO 等模型无关方法的区别:

    • 核心机制: DreamerV3 是基于模型的 (model-based),它先学习一个环境模型,然后在想象中学习策略。PPO 是模型无关的 (model-free),直接从与真实环境的交互中学习策略。
    • 数据效率: DreamerV3 通常具有更高的数据效率,因为它可以在想象中生成大量训练数据,而 PPO 需要与真实环境进行更多交互。
    • 通用性: 虽然 PPO 也被认为相对通用,但 DreamerV3 通过其鲁棒性设计,在更广泛、更多样化的任务上实现了单一超参数配置下的卓越性能,通用性更强。
  • 与 MuZero 的区别:

    • 规划方式: MuZero 在决策时使用计算密集的在线规划方法——蒙特卡洛树搜索。而 DreamerV3 采用的是离线学习一个演员网络,在决策时直接通过网络前向传播采样动作,无需在线规划,执行效率更高。
    • 实现复杂度: DreamerV3 的架构相对 MuZero 更为简洁,不涉及复杂的树搜索逻辑,更容易复现和扩展。
  • 与 DreamerV2 的区别:

    • 核心目标: V2 的目标是在 Atari 这个特定领域超越模型无关方法,而 V3 的目标是成为一个跨所有领域的通用算法。
    • 技术创新: V3 的核心创新在于引入了一整套鲁棒性技术(如 symlog、回报归一化、KL平衡等),这些是 V2 所没有的,也是 V3 实现通用性的关键。

4. 方法论

DreamerV3 的学习算法由三个并行训练的神经网络组成:世界模型 (World Model)评论家 (Critic)演员 (Actor)。智能体与环境交互,收集经验存入重放缓冲区 (replay buffer)。训练时,从缓冲区中采样数据,同时更新这三个组件。

下图(原文 Figure 3)清晰地展示了 Dreamer 的训练流程。

Figure 3: Training process of Dreamer. The world model encodes sensory inputs into discrete representations `z _ { t }` that are predicted by a sequence model with recurrent state `h _ { t }` given actions `a _ { t }` . The inputs are reconstructed to shape the representations. The actor and critic predict actions `a _ { t }` and values `v _ { t }` and learn from trajectories of abstract representations predicted by the world model. 该图像是示意图,展示了Dreamer的训练过程。左侧部分(a)描述了世界模型学习,其中环境输入通过编码器(enc)生成离散表示ztz_t,再由序列模型预测状态hth_t和动作ata_t,并通过解码器(dec)重建输入。右侧部分(b)展示了演员-评论家学习,演员和评论家根据离散表示ztz_t预测动作ata_t和价值vtv_t。该模型在不同学习阶段的交互关系被清晰地表现出来。

4.1. 世界模型学习 (World model learning)

世界模型的目标是学习环境的动态。它能从高维感官输入(如图像 xtx_t)中提取低维的、紧凑的隐状态 (latent state),并预测在给定动作 ata_t 的情况下,未来的隐状态和奖励 rtr_t

该模型采用了一种名为 循环状态空间模型 (Recurrent State-Space Model, RSSM) 的架构。RSSM 包含两个核心状态:

  • hth_t: 确定性的循环状态 (recurrent state),由 GRU(一种循环神经网络)实现,负责聚合历史信息,类似于系统的“记忆”。

  • ztz_t: 随机的离散隐状态 (stochastic representation),负责捕捉当前时间步的具体信息。

    模型具体工作流程如下:

  1. 编码 (Encoding): 首先,一个编码器(Encoder)将当前时刻的真实观测 xtx_t 和循环状态 hth_t 一起编码成一个随机隐状态 ztz_t 的后验分布。然后从中采样一个 ztz_tztqϕ(ztht,xt)(Encoder/Posterior) z_t \sim q_\phi(z_t | h_t, x_t) \quad \text{(Encoder/Posterior)}

  2. 动态预测 (Dynamics Prediction): 一个序列模型(Sequence modelDynamics predictor)根据上一时刻的循环状态 ht1h_{t-1}、上一时刻的隐状态 zt1z_{t-1} 和上一时刻的动作 at1a_{t-1},来更新循环状态,得到当前时刻的 hth_tht=fϕ(ht1,zt1,at1)(Sequence model) h_t = f_\phi(h_{t-1}, z_{t-1}, a_{t-1}) \quad \text{(Sequence model)} 同时,该模型还基于 hth_t 预测当前隐状态 ztz_t 的先验分布。 z^tpϕ(z^tht)(Dynamics predictor/Prior) \hat{z}_t \sim p_\phi(\hat{z}_t | h_t) \quad \text{(Dynamics predictor/Prior)}

  3. 预测与重建 (Prediction and Reconstruction): 基于模型状态(由 hth_tztz_t 拼接而成),三个不同的解码器/预测器分别进行预测:

    • 图像解码器 (Decoder): 重建原始的观测图像 x^t\hat{x}_t
    • 奖励预测器 (Reward predictor): 预测即时奖励 r^t\hat{r}_t
    • 继续符预测器 (Continue predictor): 预测当前回合是否结束 c^t\hat{c}_tct=1c_t=1 表示继续,ct=0c_t=0 表示结束)。 x^tpϕ(x^tht,zt)r^tpϕ(r^tht,zt)c^tpϕ(c^tht,zt) \begin{aligned} \hat{x}_t &\sim p_\phi(\hat{x}_t | h_t, z_t) \\ \hat{r}_t &\sim p_\phi(\hat{r}_t | h_t, z_t) \\ \hat{c}_t &\sim p_\phi(\hat{c}_t | h_t, z_t) \end{aligned} 下图(原文 Figure 4)展示了训练好的世界模型惊人的长期预测能力。

    Figure 4: Multi-step video predictions of a DMLab maze (top) and a quadrupedal robot (bottom). Given 5 context images and the full action sequence, the model predicts 45 frames into the future without access to intermediate images. The world model learns an understanding of the underlying structure of each environment.

    世界模型的损失函数 (Loss Function): 世界模型通过一个组合损失函数进行端到端训练,该函数由三部分组成: L(ϕ)Eqϕ[t=1T(βpredLpred(ϕ)+βdynLdyn(ϕ)+βrepLrep(ϕ))] \mathcal{L}(\phi) \doteq \mathrm{E}_{q_\phi} \left[ \sum_{t=1}^T (\beta_{\mathrm{pred}} \mathcal{L}_{\mathrm{pred}}(\phi) + \beta_{\mathrm{dyn}} \mathcal{L}_{\mathrm{dyn}}(\phi) + \beta_{\mathrm{rep}} \mathcal{L}_{\mathrm{rep}}(\phi)) \right] 其中,β\beta 是各项的权重,在论文中设为 βpred=1,βdyn=1,βrep=0.1\beta_{\mathrm{pred}}=1, \beta_{\mathrm{dyn}}=1, \beta_{\mathrm{rep}}=0.1

  4. 预测损失 (Lpred\mathcal{L}_{\mathrm{pred}}): 该损失的目标是让模型的预测尽可能准确。它由三项的负对数似然组成:重建观测 xtx_t、预测奖励 rtr_t 和预测继续符 ctc_tLpred(ϕ)lnpϕ(xtzt,ht)lnpϕ(rtzt,ht)lnpϕ(ctzt,ht) \mathcal{L}_{\mathrm{pred}}(\phi) \doteq -\ln p_\phi(x_t | z_t, h_t) - \ln p_\phi(r_t | z_t, h_t) - \ln p_\phi(c_t | z_t, h_t) 对于图像和向量观测,使用 symlog 平方损失 (symlog squared loss);对于奖励,使用 symexp twohot 损失 (symexp twohot loss)(详见 4.4 节);对于继续符,使用二元交叉熵。

  5. 动态损失 (Ldyn\mathcal{L}_{\mathrm{dyn}}) 和表征损失 (Lrep\mathcal{L}_{\mathrm{rep}}): 这两项损失共同构成了一个变分自编码器 (Variational Auto-Encoder, VAE) 的正则化项。它们通过最小化KL散度 (KL Divergence) 来约束隐状态。

    • 动态损失: 促使动态预测器 (prior) pϕ(ztht)p_\phi(z_t | h_t) 的预测结果,与给定真实观测后编码器 (posterior) qϕ(ztht,xt)q_\phi(z_t | h_t, x_t) 编码出的结果保持一致。这使得模型能够基于历史和动作来预测未来。

    • 表征损失: 促使编码器的输出,与动态预测器的预测结果保持一致。这使得隐状态 ztz_t 变得更“可预测”,从而简化了动态模型的学习。

      它们的公式如下,注意 sg(·) 表示停止梯度 (stop-gradient),意味着该部分的梯度不回传。 Ldyn(ϕ)max(1,KL[sg(qϕ(ztht,xt))pϕ(ztht)])Lrep(ϕ)max(1,KL[qϕ(ztht,xt)sg(pϕ(ztht))]) \begin{aligned} \mathcal{L}_{\mathrm{dyn}}(\phi) &\doteq \max\left(1, \mathrm{KL}\left[\operatorname{sg}(q_\phi(z_t | h_t, x_t)) \| p_\phi(z_t | h_t)\right]\right) \\ \mathcal{L}_{\mathrm{rep}}(\phi) &\doteq \max\left(1, \mathrm{KL}\left[q_\phi(z_t | h_t, x_t) \| \operatorname{sg}(p_\phi(z_t | h_t))\right]\right) \end{aligned} 这里的 max(1,...)max(1, ...) 是一种名为 自由位 (free bits) 的技术。它的作用是,当 KL 散度已经小于 1 nat (约 1.44 bits) 时,该项损失变为 0,不再提供梯度。这可以防止模型过分压缩隐状态,丢失对预测任务有用的信息,从而将学习的重心放在更重要的预测损失上。这个简单的技巧与一个较小的表征损失权重 βrep\beta_{\mathrm{rep}} 相结合,是 DreamerV3 无需为不同复杂度的环境调整超参的关键。

4.2. 评论家学习 (Critic learning)

评论家的目标是评估在世界模型想象出的状态 st{ht,zt}s_t \doteq \{h_t, z_t\} 下,遵循当前演员策略能获得的未来期望回报。DreamerV3 的评论家 vψ(Rtst)v_\psi(R_t|s_t) 学习预测回报的分布,而不仅仅是一个标量值。

  1. 想象轨迹生成: 首先,从真实数据中采样一个起始状态,然后利用训练好的世界模型和当前的演员策略,在“想象”中生成一段长度为 HH(论文中为15)的轨迹 {st,at,rt,ct}t=1...H\{s_t, a_t, r_t, c_t\}_{t=1...H}

  2. 回报计算 (λ\lambda-return): 为了估计一个状态的价值,我们需要考虑超出想象范围 HH 的未来奖励。这里采用了 λ\lambda-return 的方法,它结合了多步奖励预测和远期价值的引导估计 (bootstrap)。 Rtλrt+γct((1λ)vt+1+λRt+1λ) R_t^\lambda \doteq r_t + \gamma c_t \left( (1 - \lambda) v_{t+1} + \lambda R_{t+1}^\lambda \right)

    • RtλR_t^\lambda: 在时间步 ttλ\lambda-return 目标值。
    • rt,ctr_t, c_t: 世界模型预测的奖励和继续符。
    • vt+1E[vψ(st+1)]v_{t+1} \doteq \mathrm{E}[v_\psi(\cdot|s_{t+1})]: 评论家网络对下一状态的价值预测的期望值。
    • γ,λ\gamma, \lambda: 分别是折扣因子和 lambda 参数,用于平衡多步真实奖励和价值估计。
    • 在想象轨迹的最后一步 HH,价值用 vHv_H 来引导。
  3. 评论家损失函数: 评论家网络通过最大化似然来学习预测 λ\lambda-return RtλR_t^\lambda 的分布。 L(ψ)t=1Tlnpψ(Rtλst) \mathcal{L}(\psi) \doteq - \sum_{t=1}^T \ln p_\psi(R_t^\lambda | s_t) 为了处理不同环境中回报尺度差异巨大的问题,论文不使用常见的高斯分布,而是将回报的分布建模为一个离散的分类分布 (categorical distribution),并使用 symexp twohot 损失进行训练(详见 4.4 节)。这使得损失函数的梯度大小与回报目标的绝对值大小脱钩,训练更稳定。

4.3. 演员学习 (Actor learning)

演员的目标是学习一个策略 πθ(atst)\pi_\theta(a_t|s_t),以最大化评论家评估的期望回报。

回报归一化 (Return Normalization): 一个核心挑战是,不同环境的奖励尺度和稀疏度差异巨大。如果奖励很大,演员的梯度会很大,导致训练不稳定;如果奖励很稀疏,梯度又会很小,探索停滞。为了用一个固定的熵正则化系数 η\eta 适用于所有环境,作者提出了一种新颖的回报归一化方法。

演员的梯度由 Reinforce 算法计算,其优势函数 (advantage) 被归一化: L(θ)t=1Tsg(Rtλvψ(st)max(1,S))logπθ(atst)+ηH[πθ(atst)] \mathcal{L}(\theta) \doteq - \sum_{t=1}^T \operatorname{sg}\left( \frac{R_t^\lambda - v_\psi(s_t)}{\max(1, S)} \right) \log \pi_\theta(a_t | s_t) + \eta H[\pi_\theta(a_t|s_t)]

  • (Rtλvψ(st))(R_t^\lambda - v_\psi(s_t)): 这是优势函数的估计,表示当前动作带来的回报比平均预期要好多少。

  • ηH[]\eta H[\cdot]: 熵正则项,鼓励探索。

  • SS: 归一化的尺度因子。max(1,S)max(1, S) 的设计非常巧妙:只缩小大的回报,不放大小的回报。这可以防止在稀疏奖励(回报值小)环境下,因归一化而过度放大噪声。

    尺度因子 SS 是通过计算一批想象回报的第 95 百分位数第 5 百分位数之差得到的,并使用指数移动平均 (Exponential Moving Average, EMA) 进行平滑,以增强对异常值的鲁棒性。 SEMA(Per(Rtλ,95)Per(Rtλ,5),0.99) S \doteq \mathrm{EMA}(\mathrm{Per}(R_t^\lambda, 95) - \mathrm{Per}(R_t^\lambda, 5), 0.99)

4.4. 鲁棒性预测技术 (Robust predictions)

为了处理不同领域中输入、奖励和回报的巨大尺度差异,作者引入了两种关键的变换和损失函数。

4.4.1. symlog 变换

对于普通的回归任务(如图像重建或向量输入),直接使用均方误差损失会在目标值很大时产生巨大的梯度,导致训练不稳定。作者采用了 symlog 函数对目标值和输入值进行变换。 symlog(x)sign(x)ln(x+1) \operatorname{symlog}(x) \doteq \operatorname{sign}(x) \ln(|x| + 1) 其反函数为 symexp: symexp(x)sign(x)(exp(x)1) \operatorname{symexp}(x) \doteq \operatorname{sign}(x) (\exp(|x|) - 1) symlog 函数能够压缩大值的范围,同时保持符号不变,并且在 0 附近近似于恒等函数 f(x)=xf(x)=x。这样,神经网络的损失变为: L(θ)12(f(x,θ)symlog(y))2 \mathcal{L}(\theta) \doteq \frac{1}{2} (f(x, \theta) - \operatorname{symlog}(y))^2 其中 yy 是真实目标值,f(x,θ)f(x, \theta) 是网络预测的 symlog 变换后的值。这使得梯度不会因目标值过大而爆炸。

4.4.2. symexp twohot 损失

对于具有随机性的目标(如奖励和回报),作者更进一步,将其预测问题转化为一个分类问题

  1. 分桶 (Binning): 首先定义一组固定的、指数间隔的“桶”(bins),覆盖从大负数到大正数的范围。这些桶的位置由 symexp 函数生成,例如从 -20 到 +20 的等差序列通过 symexp 变换得到。 Bsymexp([20,,+20]) B \doteq \operatorname{symexp}([-20, \dots, +20])
  2. 网络输出: 神经网络(如奖励预测器或评论家)输出一个 softmax 分布的 logits,表示目标值落入每个桶的概率。
  3. 期望值预测: 最终的预测值 y^\hat{y} 是所有桶位置的加权平均。 y^softmax(f(x))TB \hat{y} \doteq \operatorname{softmax}(f(x))^T B
  4. twohot 编码与损失: 训练时,将真实的目标值 yy 通过 twohot 编码转换成一个软标签。twohot 编码将 yy 的值线性地分配到离它最近的两个桶上。例如,如果 yy 落在第 kkk+1k+1 个桶之间,那么 twohot 向量在第 kkk+1k+1 个位置上的值非零且和为 1,离哪个桶近,哪个桶的权重就更大。然后使用标准的交叉熵损失来训练网络。 L(θ)twohot(y)Tlogsoftmax(f(x,θ)) \mathcal{L}(\theta) \doteq - \operatorname{twohot}(y)^T \log \operatorname{softmax}(f(x, \theta)) 这种方法的核心优势在于,损失函数的梯度只依赖于网络分配的概率,而与桶的具体数值(即目标的尺度)无关,从而实现了对目标尺度的完全鲁棒性。

5. 实验设置

5.1. 数据集

论文在一个极其广泛的基准测试集上评估了 DreamerV3 的通用性,涵盖了强化学习的各种挑战。

  • Minecraft: 一个流行的开放世界 3D 沙盒游戏。任务是从零开始,通过探索、采集、合成等一系列复杂操作,最终获得钻石 (Diamond)。这是一个典型的硬探索 (hard-exploration)稀疏奖励 (sparse rewards) 问题。

  • Atari: 包含 57 个经典视频游戏,具有离散动作空间和像素输入。论文使用了 2 亿帧的训练预算,并采用了带有“粘性动作”的挑战性设置。

  • DMLab (DeepMind Lab): 包含 30 个 3D 第一人称视角的迷宫任务,需要空间和时间推理能力。

  • ProcGen (Procedural Content Generation): 包含 16 个程序化生成关卡的游戏,用于测试智能体的泛化能力。每个关卡的布局和视觉效果都是随机的,智能体必须学习到任务的本质,而不是记住特定关卡。

  • Atari100k: 一个数据效率基准,只允许在 26 个 Atari 游戏上进行 10 万次智能体决策(40 万环境帧),对算法的样本效率提出了极高要求。

  • DeepMind Control Suite (Proprioceptive & Visual): 一系列基于物理模拟的连续控制任务。

    • 本体感知控制 (Proprioceptive Control): 输入是低维的向量,如关节角度和速度。
    • 视觉控制 (Visual Control): 输入是高维的像素图像。
  • BSuite (Behaviour Suite): 包含 23 个环境,专门设计用来测试强化学习算法在信用分配、记忆、探索和对奖励尺度鲁棒性等核心方面的能力。

    下图(原文 Figure 2)直观展示了实验所用部分视觉环境的多样性。

    Figure 2: Diverse visual domains used in the experiments. Dreamer succeeds across these domains, ranging from robot locomotion and manipulation tasks over Atari games, procedurally generated ProcGen levels, and DMLab tasks, that require spatial and temporal reasoning, to the complex and infinite world of Minecraft. We also evaluate Dreamer on non-visual domains. 该图像是插图,展示了在不同视觉领域中进行实验的多样化场景,包括控制套件、Atari 游戏、ProcGen、DMLab 任务和 Minecraft。这些领域涵盖了机器人运动和操控任务,并展示了 Dreamer 算法如何在稀疏奖励和开放世界环境中成功完成任务。

5.2. 评估指标

论文主要使用任务特定的分数 (Score)回报 (Return) 作为评估指标。为了在不同任务间进行综合比较,通常会使用归一化分数。

5.2.1. 人类归一化分数 (Human-Normalized Score)

在 Atari 等基准中,为了横向比较算法在不同游戏上的表现,通常会将原始分数进行归一化。

  • 概念定义 (Conceptual Definition): 该指标将智能体的分数映射到一个相对区间,其中 0% 对应于随机策略的平均得分,100% 对应于人类游戏高手的平均得分。这使得我们可以直观地衡量一个算法达到了“超人水平”还是“逊于随机”。

  • 数学公式 (Mathematical Formula): Scorenormalized=ScoreagentScorerandomScorehumanScorerandom \text{Score}_{\text{normalized}} = \frac{\text{Score}_{\text{agent}} - \text{Score}_{\text{random}}}{\text{Score}_{\text{human}} - \text{Score}_{\text{random}}}

  • 符号解释 (Symbol Explanation):

    • Scoreagent\text{Score}_{\text{agent}}: 智能体获得的平均分数。

    • Scorerandom\text{Score}_{\text{random}}: 一个随机行动的策略获得的平均分数。

    • Scorehuman\text{Score}_{\text{human}}: 人类玩家的平均分数。

      在 ProcGen 等基准中,由于任务是程序生成的,没有固定的人类分数,因此归一化时会使用特定于任务的最大和最小分数。

5.3. 对比基线

为了证明 DreamerV3 的通用性和卓越性能,作者将其与一系列强大的基线模型进行了比较。

  • PPO (Proximal Policy Optimization): 作为最广泛使用的、以鲁棒性著称的 RL 算法,PPO 是衡量通用性的一个关键基准。作者使用了一个高质量的 PPO 实现,并精心选择了一套固定的超参数,使其在多个领域都具有较强的竞争力。
  • 领域专家算法 (Specialized Expert Algorithms):
    • Atari: MuZero, Rainbow, IQN

    • ProcGen: PPG (Phasic Policy Gradient)

    • DMLab: IMPALA, R2D2+

    • Atari100k: EfficientZero, IRIS, TWM, SPR, SimPLe

    • Control Suite (Proprio): D4PG, DMPO

    • Control Suite (Visual): DrQ-v2, CURL

    • BSuite: Bootstrapped DQN

    • Minecraft: IMPALA, Rainbow (作者自己调优的基线,因为之前没有从零学习成功的报道)

      这些基线通常都是为特定领域专门设计和精细调优的,代表了该领域的最先进水平 (state-of-the-art)

6. 实验结果与分析

6.1. 核心结果分析

实验结果有力地证明了 DreamerV3 的通用性和卓越性能。

6.1.1. 跨领域基准性能

下图(原文 Figure 1a)总结了 DreamerV3 在各大基准上的表现。

Figure 1: Benchmark summary. a, Using fixed hyperparameters across all domains, Dreamer outperforms tuned expert algorithms across a wide range of benchmarks and data budgets. Dreamer also substantially outperforms a high-quality implementation of the widely applicable PPO algorithm. b, Applied out of the box, Dreamer learns to obtain diamonds in the popular video game Minecraft from scratch given sparse rewards, a long-standing challenge in artificial intelligence for which previous approaches required human data or domain-specific heuristics.可以看到,使用单一固定超参数的 DreamerV3 在几乎所有领域都超越了那些经过精细调优的专家算法。更重要的是,它显著优于同样使用固定超参数的强大通用基线 PPO。这表明 DreamerV3 不仅性能高,而且鲁棒性极强,真正实现了“开箱即用”。 该图像是图表,展示了Dreamer在多个基准任务中的表现。图表分为两部分:部分 (a) 比较了Dreamer与其他调优算法在不同环境中的表现,部分 (b) 具体展示了Dreamer在Minecraft中获取钻石的成果,显示其在稀疏奖励下的优势。

6.1.2. Minecraft 钻石任务

这是论文最引人注目的成果。如下图(原文 Figure 1b 和 Figure 5)所示,DreamerV3 是第一个在不使用任何人类数据或课程指导的情况下,从零开始自主学会在 Minecraft 中采集钻石的算法。

Figure 5: Fraction of trained agents that discover each of the three latest items in the Minecraft Diamond task. Although previous algorithms progress up to the iron pickaxe, Dreamer is the only compared algorithm that manages to discover a diamond, and does so reliably. 该图像是图表,展示了不同算法在Minecraft钻石任务中发现三种最新物品的代理比例。Dreamer是唯一一个能可靠发现钻石的算法,而其他算法仅能达到铁镐的进度。

Figure 5 显示,在训练过程中,所有被训练的 DreamerV3 智能体最终都成功发现了钻石,而其他强大的基线(如 PPO, IMPALA, Rainbow)最多只能进展到制造出铁镐,没有任何一个能够发现钻石。这凸显了世界模型在解决具有长时程依赖和极度稀疏奖励的复杂探索问题上的独特优势。智能体能够在想象中预见采集木头、制作工具、挖掘石头、冶炼铁矿、并最终挖到钻石这一系列漫长步骤的价值。

以下是原文 Table 5 的 Minecraft 最终得分数据:

Method Return
Dreamer 9.1
IMPALA 7.1
Rainbow 6.3
PPO 5.1

Dreamer 的平均回报(每个里程碑奖励为+1)最高,表明它能更稳定地完成技术树的前期步骤。

6.1.3. 详细分数

论文附录提供了各个基准测试的详细分数表格,这里列举部分。

Atari (Table 6): DreamerV3 的平均表现超越了计算量巨大的 MuZero。 ProcGen (Table 7): DreamerV3 的归一化平均分 (66.01) 略高于精心调优的专家算法 PPG (64.89),远超 PPO (42.80)。 DMLab (Table 8): DreamerV3 仅用 1 亿步就达到了 IMPALA 和 R2D2+ 用 10 亿甚至 100 亿步才能达到的性能水平,显示了超过 10 倍的数据效率提升。 Control Suites (Table 11, 12): 在连续控制任务上,无论输入是向量还是图像,DreamerV3 都创造了新的最先进记录。

6.2. 消融实验/参数分析

作者通过消融实验(Ablation Studies)来验证其提出的各个组件的有效性。

6.2.1. 鲁棒性技术的重要性

下图(原文 Figure 6a)展示了移除不同鲁棒性技术后的性能影响。

Figure 6: Ablations and robust scaling of Dreamer. a, All individual robustness techniques contribute to the performance of Dreamer on average, although each individual technique may only affect some tasks. Training curves of individual tasks are included in the supplementary material. b, The performance of Dreamer predominantly rests on the unsupervised reconstruction loss of its world model, unlike most prior algorithms that rely predominantly on reward and value prediction gradients 7,5,8. . c, The performance of Dreamer increases monotonically with larger model sizes, ranging from 12M to 400M parameters. Notably, larger models not only increase task performance but also require less environment interaction. d, Higher replay ratios predictably increase the performance of Dreamer. Together with model size, this allows practitioners to improve task performance and data-efficiency by employing more computational resources. 该图像是图表,展示了Dreamer在不同鲁棒性技术、学习信号、模型规模和重放比例下的性能表现。图中显示了Dreamer相较于不同配置的回报变化,并强调了模型大小和重放比例对任务表现和数据效率的影响。

  • 从图中可以看出,所有技术都对平均性能有正面贡献
  • 移除世界模型的 KL 损失(即 dyn_lossrep_loss)对性能损害最大,说明 VAE 的结构是基石。
  • 移除回报归一化 (Return Norm)symexp twohot 损失 也会导致显著的性能下降,证明了这些技术对于处理不同奖励尺度的重要性。
  • 有趣的是,每项技术可能只在部分任务上起关键作用,但在其他任务上影响不大。这正是它们组合在一起能够实现广泛通用性的原因。

6.2.2. 学习信号的重要性

下图(原文 Figure 6b)探索了不同学习信号对模型表征的贡献。

  • No Task Gradients: 仅使用世界模型的重建损失(无监督信号)来塑造表征,而阻断来自演员和评论家的任务相关梯度(奖励和价值梯度)。

  • No Model Gradients: 仅使用任务相关梯度,而阻断重建损失的梯度。

    结果显示,DreamerV3 的性能主要依赖于其世界模型的无监督学习信号(即 No Task Gradients 的性能远高于 No Model Gradients)。这与大多数传统 RL 算法(如 PPO、DQN)主要依赖奖励和价值信号形成鲜明对比。这一发现意义重大,它暗示了未来可以通过在大量无标签视频数据上预训练 (pre-training) 世界模型,来赋予智能体通用的世界知识,然后再针对具体任务进行微调。

6.2.3. 模型扩展性分析

下图(原文 Figure 6c 和 6d)展示了 DreamerV3 对模型大小和计算预算的鲁棒性。

  • 模型大小 (Model Size): 如图 6c 所示,随着模型参数从 12M 增加到 400M,DreamerV3 的性能单调提升,并且没有出现不稳定的情况。值得注意的是,更大的模型不仅最终性能更高,而且学习速度更快(需要更少的环境交互来达到相同的性能水平)。

  • 重放比例 (Replay Ratio): 如图 6d 所示,增加重放比例(即对每条收集到的数据进行更多次的梯度更新)也能稳定地提高性能和数据效率。

    这两个实验结果表明,DreamerV3 提供了一条可预测的路径来提升性能:只要增加计算资源(更大的模型或更多的训练),就能获得更好的结果。这对于解决更复杂问题具有重要的实践指导意义。

7. 总结与思考

7.1. 结论总结

论文成功地提出了 DreamerV3,一个基于世界模型的通用强化学习算法。其核心贡献和结论可以总结为以下几点:

  1. 实现了前所未有的通用性: DreamerV3 以一套固定的超参数,在超过 150 个来自不同领域的任务上取得了超越领域专家算法的性能,证明了构建通用 RL 智能体的可行性。
  2. 攻克了 Minecraft 钻石难题: 作为首个无需任何人类先验知识即可从零开始在 Minecraft 中收集钻石的算法,DreamerV3 在解决长时程、稀疏奖励的硬探索问题上树立了新的标杆。
  3. 验证了世界模型方法的巨大潜力: 实验证明,通过在想象中学习,基于世界模型的方法可以在数据效率、最终性能和解决复杂规划问题上超越顶尖的模型无关方法。
  4. 提供了一套实用的鲁棒性工程实践: 论文中提出的 symlog 变换、symexp twohot 损失、百分位回报归一化等技术,为构建能在多样化环境中稳定学习的 RL 算法提供了宝贵的经验和工具。
  5. 揭示了无监督学习的核心作用: 消融实验表明,DreamerV3 的强大性能主要源于其世界模型的无监督重建任务,这为未来结合大规模无监督预训练开辟了新的可能性。

7.2. 局限性与未来工作

尽管 DreamerV3 取得了巨大成功,但论文也隐含了一些局限性和未来方向:

  • Minecraft 任务的完成率: 虽然所有训练的智能体都最终学会了获取钻石,但附录 Figure 9 显示,在 1 亿步的训练预算下,获取钻石的回合成功率仅为 0.4%。这表明虽然算法能够发现解决方案,但其稳定性和效率仍有很大的提升空间,为未来的研究留下了挑战。
  • 计算资源需求: 尽管决策时效率高,但训练一个大型的世界模型(如 200M 参数版本)仍然需要大量的计算资源(单个 A100 GPU 训练数天),这可能会限制其在资源受限环境下的应用。
  • 世界模型的准确性: 世界模型是近似的,对于具有混沌或高度随机动态的环境,想象的轨迹可能会随着时间的推移而与真实世界产生偏差,这可能会影响学习策略的有效性。
  • 未来方向: 作者在结论中明确指出了未来的研究方向,包括:
    • 利用互联网视频进行预训练: 让智能体从海量无标签视频中学习通用的世界知识。
    • 跨领域单一世界模型: 训练一个能够理解多个不同领域的单一世界模型,从而让智能体积累更通用的知识和能力。

7.3. 个人启发与批判

这篇论文堪称强化学习领域的一个里程碑,它不仅在技术上取得了突破,更在方法论上提供了深刻的启示。

  • “通用性”的胜利: 长期以来,AI 领域存在“通用模型”与“专用模型”的路线之争。DreamerV3 用无可辩驳的实验结果证明,一个精心设计的通用模型,其性能可以超越为特定任务量身定做的专用模型。这背后蕴含的思想是,通用模型能够从多样化的数据中学习到更本质、更可迁移的表征和规律。
  • 世界模型的力量: 这篇论文让我深刻认识到“学习一个模型”相比于“直接学习策略”的优势。人类之所以能够进行高效的学习和规划,正是因为我们脑中有一个关于世界如何运作的因果模型。DreamerV3 证明了在计算世界中模拟这一过程是通往更高级别人工智能的有效路径。特别是其“想象”机制,为解决需要远见和深思熟虑的难题提供了优雅的解决方案。
  • 鲁棒性设计的艺术: 论文中的 symlogtwohot 分类、百分位归一化等技术,看似是工程技巧,实则蕴含了深刻的设计哲学:解耦 (decoupling)。它们成功地将学习算法的梯度动态与环境数据(奖励、观测值)的绝对尺度解耦,这是实现跨领域鲁棒性的关键。这些思想完全可以被借鉴到其他机器学习领域,例如监督学习中处理标签或特征尺度差异巨大的问题。
  • 潜在的批判性思考:
    • “通用性”的定义: 论文的“通用性”是建立在现有 RL 基准测试集上的。这些基准虽然多样,但仍然是模拟的、有限的游戏或控制环境。DreamerV3 在更开放、更真实的物理世界(如真实机器人)中的表现如何,仍有待验证。真实世界的物理和交互比模拟环境复杂得多。

    • 对组合泛化的考验: Minecraft 任务虽然复杂,但其技术树是固定的。对于需要真正组合泛化 (compositional generalization) 的能力(例如,理解“拿起红色的球放到蓝色的盒子里”,并能泛化到“拿起绿色的方块放到黄色的篮子里”),DreamerV3 是否依然有效?其基于像素的自监督学习是否能学到这种抽象的、符号化的概念,是一个值得深入探究的问题。

    • 样本效率的相对性: 尽管相对于模型无关方法,DreamerV3 的样本效率很高,但数千万甚至上亿步的环境交互对于许多真实世界应用(如自动驾驶、机器人操作)来说,仍然是极其昂贵的。如何进一步提升样本效率,可能是未来需要解决的核心问题。

      总而言之,DreamerV3 不仅是一个性能强大的算法,更是一个优雅的、富有启发性的框架。它为我们描绘了一幅通往通用人工智能的、以世界模型为核心的蓝图,并将激励领域内的研究者们在预训练、泛化能力和真实世界应用等方向上进行更深入的探索。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。