论文状态:已完成

Evolution Strategies at the Hyperscale

发表:2025/11/21
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 6 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

该论文提出了进化引导的低秩学习优化方法(EGGROLL),旨在扩展无反向传播优化至大规模神经网络架构。通过生成低秩矩阵扰动,EGGROLL显著降低计算和内存成本,同时维持优化性能,相较传统方法在处理数十亿参数时更高效。

摘要

We introduce Evolution Guided General Optimization via Low-rank Learning (EGGROLL), an evolution strategies (ES) algorithm designed to scale backprop-free optimization to large population sizes for modern large neural network architectures with billions of parameters. ES is a set of powerful blackbox optimisation methods that can handle non-differentiable or noisy objectives with excellent scaling potential through parallelisation. Na{ï}ve ES becomes prohibitively expensive at scale due to the computational and memory costs associated with generating matrix perturbations ERm×nE\in\mathbb{R}^{m\times n} and the batched matrix multiplications needed to compute per-member forward passes. EGGROLL overcomes these bottlenecks by generating random matrices ARm×r, BRn×rA\in \mathbb{R}^{m\times r},\ B\in \mathbb{R}^{n\times r} with rmin(m,n)r\ll \min(m,n) to form a low-rank matrix perturbation ABA B^\top that are used in place of the full-rank perturbation EE. As the overall update is an average across a population of NN workers, this still results in a high-rank update but with significant memory and computation savings, reducing the auxiliary storage from mnmn to r(m+n)r(m+n) per layer and the cost of a forward pass from O(mn)\mathcal{O}(mn) to O(r(m+n))\mathcal{O}(r(m+n)) when compared to full-rank ES. A theoretical analysis reveals our low-rank update converges to the full-rank update at a fast O(1r)\mathcal{O}\left(\frac{1}{r}\right) rate. Our experiments show that (1) EGGROLL does not compromise the performance of ES in tabula-rasa RL settings, despite being faster, (2) it is competitive with GRPO as a technique for improving LLM reasoning, and (3) EGGROLL enables stable pre-training of nonlinear recurrent language models that operate purely in integer datatypes.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

超大规模进化策略 (Evolution Strategies at the Hyperscale)

1.2. 作者

Bidipta Sarkar*等(14位作者)。主要隶属机构包括牛津大学 FLAIR、WhiRL、MILA-魁北克 AI 研究所、英伟达 AI 技术中心和 CIFAR AI 主席。

1.3. 发表期刊/会议

预印本,发布于 arXiv。

1.4. 发表年份

2025年

1.5. 摘要

这篇论文介绍了 Evolution Guided General Optimization via Low-rank Learning (EGGROLL),这是一种进化策略 (ES) 算法,旨在将无反向传播 (backprop-free) 优化扩展到大规模神经网络架构,支持数十亿参数和大型种群规模。传统的 ES 在大规模应用时面临计算和内存成本高昂的问题,尤其是在生成全秩矩阵扰动 ERm×nE \in \mathbb{R}^{m \times n} 以及计算每个成员前向传播所需的批处理矩阵乘法时。EGGROLL 通过生成低秩矩阵扰动 ABA B^\top 来克服这些瓶颈,其中 ARm×rA \in \mathbb{R}^{m \times r}BRn×rB \in \mathbb{R}^{n \times r}rmin(m,n)r \ll \min(m,n)。虽然整体更新是 NN 个工作器 (workers) 的平均,仍能产生高秩更新,但显著节省了内存和计算量,将每层的辅助存储从 mn 减少到 r(m+n)r(m+n),前向传播成本从 O(mn)\mathcal{O}(mn) 降低到 O(r(m+n))\mathcal{O}(r(m+n))。理论分析表明,低秩更新以快速的 O(1r)\mathcal{O}\left(\frac{1}{r}\right) 速率收敛到全秩更新。实验结果显示:(1) 即使速度更快,EGGROLLtabula-rasa RL 设置中不影响 ES 的性能;(2) 在改进大型语言模型 (LLM) 推理能力方面,它与 GRPO 具有竞争力;(3) EGGROLL 能够稳定地预训练纯整数数据类型的非线性循环语言模型。

1.6. 原文链接

https://arxiv.org/abs/2511.16652 PDF 链接: https://arxiv.org/pdf/2511.16652v1.pdf 发布状态:预印本

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

进化策略 (Evolution Strategies, ES) 是一类强大的黑盒优化方法,能够处理不可微 (non-differentiable) 或带噪声的目标函数,并通过并行化实现卓越的扩展潜力。然而,在应用于现代大型神经网络架构(拥有数十亿参数)时,朴素 (Naïve) 的 ES 会变得极其昂贵。主要问题在于:

  1. 计算成本: 生成全秩矩阵扰动 ERm×nE \in \mathbb{R}^{m \times n}(其中 m, n 可能非常大)需要大量的计算。
  2. 内存成本: 存储这些全秩扰动矩阵以及在每个种群成员前向传播 (forward pass) 中进行批处理矩阵乘法,会导致巨大的内存开销。 这使得 ES 难以扩展到大规模模型或大规模种群 (population sizes)。

2.1.2. 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白(Gap)?

随着深度学习模型参数量的不断增长,尤其是大型语言模型 (LLM) 的出现,传统的基于梯度反向传播 (gradient backpropagation) 的优化方法面临诸多挑战:

  • 可微性 (Differentiability) 要求: 许多现实世界的优化问题(如涉及离散操作、噪声目标、或者端到端系统中的不可微组件)无法直接使用梯度。

  • 鲁棒性 (Robustness) 差: 梯度方法对噪声和病态 (ill-conditioned) 优化景观敏感,容易受到局部最小值、梯度消失或爆炸等问题的影响。

  • 并行化挑战: 反向传播 (backpropagation) 需要跨设备通信和聚合梯度,内存和计算成本高昂,且难以实现纯粹的线性加速。

  • 低精度数据类型 (Low-precision datatypes) 训练: 梯度方法在低精度数据类型下训练时需要特殊处理,而 ES 可以直接优化使用推理时相同数据类型的模型。

    ES 在理论上能够克服这些挑战,但在实际应用中,由于上述计算和内存瓶颈,其潜力未能在大规模模型上完全发挥。现有研究通常局限于小型网络或小种群,无法有效解决数十亿参数模型的优化问题。这在探索非梯度优化(如用于 LLM 预训练、强化学习 (RL) 中具有长时序依赖或离散动作空间的问题)时留下了巨大的空白。

2.1.3. 这篇论文的切入点或创新思路是什么?

论文的创新点在于借鉴了 LoRA (Low-Rank Adaptation) 在梯度优化中的思想,将其引入 ES,提出了 EGGROLL。核心思路是:

  • 低秩扰动 (Low-rank perturbations): 不再生成和存储全秩矩阵扰动 EE,而是生成两个小矩阵 ARm×rA \in \mathbb{R}^{m \times r}BRn×rB \in \mathbb{R}^{n \times r},通过它们的乘积 ABA B^\top 形成一个低秩扰动。当 rmin(m,n)r \ll \min(m,n) 时,这显著降低了存储和计算成本。
  • 硬件高效实现 (Hardware-efficient implementation): EGGROLL 通过批处理低秩适配器和共享基础激活,使得在一个前向传播中应用所有扰动,从而实现了 GPU 上的高效并行计算,其速度可接近纯批量推理。
  • 理论支撑: 提供了理论分析,证明低秩更新能够以 O(1r)\mathcal{O}\left(\frac{1}{r}\right) 的快速速率收敛到全秩更新,即使在极低的秩 rr 下也能保持准确性。

2.2. 核心贡献/主要发现

2.2.1. 论文最主要的贡献是什么?

  1. 提出了 EGGROLL 算法: 一种能够将无反向传播优化(特别是进化策略)扩展到数十亿参数的大规模神经网络和超大种群规模的高效算法。
  2. 引入低秩扰动概念至 ES: 通过使用低秩矩阵 ABA B^\top 代替全秩扰动 EE,显著降低了 ES 在大规模模型上的计算和内存开销。
  3. 硬件高效实现: 设计了独特的批处理前向传播机制,使得 EGGROLL 能够充分利用现代 GPU 的并行能力,实现接近纯批量推理的训练吞吐量。
  4. 理论收敛性分析: 提供了严谨的理论证明,表明 EGGROLL 的低秩更新以 O(1r)\mathcal{O}\left(\frac{1}{r}\right) 的快速速率收敛到全秩 ES 更新,解释了其在低秩条件下的有效性。
  5. 展示了 ES 在新领域的能力: 首次展示了 ES(通过 EGGROLL)能够稳定地预训练纯整数数据类型的非线性循环语言模型,并扩展到数十万的种群规模。

2.2.2. 论文得出了哪些关键的结论或发现?这些发现解决了什么具体问题?

  1. 性能与效率的平衡: EGGROLLtabula-rasa RL 设置中,即使速度更快,也能保持与传统 ES 算法相当甚至更好的性能。这解决了 ES 在大规模 RL 环境中性能与效率难以兼顾的问题。
  2. LLM 推理能力的提升: 在改进 LLM 推理任务上(如 CountdownGSM8K),EGGROLLGRPO 相比具有竞争力,甚至在某些情况下表现更优。这为 LLM 的微调提供了新的、非梯度优化途径。
  3. 纯整数预训练的实现: EGGROLL 使得纯整数数据类型的非线性循环语言模型 (language model) 的稳定预训练成为可能。这为开发更高效、节能的硬件友好型 AI 模型开辟了道路,解决了传统梯度方法在低精度训练中面临的挑战。
  4. 大规模种群的实用性: 实验证明 EGGROLL 可以将种群规模扩展到数十万(例如 218=2621442^{18} = 262144),远超现有 ES 方法的限制,且在更大种群规模下能带来性能提升。这解决了 ES 在探索空间和收敛性方面受限于小种群的问题。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 进化策略 (Evolution Strategies, ES)

ES 是一类黑盒优化算法,灵感来源于生物进化过程。与基于梯度的优化方法不同,ES 不依赖于目标函数的梯度信息,而是通过在参数空间中采样、评估这些样本的适应度 (fitness),然后根据适应度来更新参数分布。

  • 优点:
    • 无需梯度 (Gradient-free): 可以优化不可微、非连续或噪声的目标函数。
    • 并行性 (Parallelism): 每个种群成员的适应度评估是独立的,可以高度并行化,从而在多核心或分布式系统上实现近乎线性的加速。
    • 全局探索 (Global Exploration): 基于种群的搜索有助于跳出局部最优。
  • 工作原理:
    1. 采样 (Sampling): 从当前参数分布中采样一组参数扰动(即生成一个种群)。
    2. 评估 (Evaluation): 对每个扰动后的参数进行评估,计算其适应度(即目标函数值)。
    3. 更新 (Update): 根据所有成员的适应度,更新参数分布的均值和/或方差,使其偏向更高适应度的区域。

3.1.2. 低秩矩阵近似 (Low Rank Matrix Approximations)

低秩矩阵近似是一种用秩 (rank) 较低的矩阵来近似原始高秩矩阵的技术。一个 m×nm \times n 的矩阵 MM 的秩为 rr 意味着它可以表示为 rr 个秩为 1 的矩阵之和,或表示为两个矩阵 ARm×rA \in \mathbb{R}^{m \times r}BRn×rB \in \mathbb{R}^{n \times r} 的乘积 ABA B^\top,其中 rmin(m,n)r \ll \min(m,n)

  • 优点:
    • 参数量减少: 存储 AABB 所需的参数量为 m r + n r = r(m+n),远小于存储原始矩阵 MM 所需的 mn 个参数。
    • 计算效率提升: 涉及低秩矩阵的运算通常比全秩矩阵更快。
  • 应用: 在深度学习中,低秩近似常用于模型压缩、高效微调等任务,例如 LoRA

3.1.3. 矩阵高斯分布 (Matrix Gaussian Distribution)

矩阵高斯分布 N(M,U,V)\mathcal{N}(M, U, V) 是多元高斯分布在矩阵空间上的推广,定义在一个 m×nm \times n 的矩阵 XX 上。 N(M,U,V)=1(2π)mn2det(U)n2det(V)m2exp(12tr(V1(XM)U1(XM))) \mathcal{N}(M, U, V) = \frac{1}{(2\pi)^{\frac{mn}{2}} \det(U)^{\frac{n}{2}} \det(V)^{\frac{m}{2}}} \exp\left( - \frac{1}{2} \mathbf{tr}\left( V^{-1} (X-M)^\top U^{-1} (X-M) \right) \right) 其中:

  • MRm×nM \in \mathbb{R}^{m \times n} 是均值矩阵 (mean matrix)。
  • URm×mU \in \mathbb{R}^{m \times m} 是行协方差矩阵 (row covariance matrix)。
  • VRn×nV \in \mathbb{R}^{n \times n} 是列协方差矩阵 (column covariance matrix)。 从矩阵高斯分布中采样 XN(M,U,V)X \sim \mathcal{N}(M, U, V) 等价于从多元高斯分布中采样向量 vec(X)N(μ,Σ)\operatorname{vec}(X) \sim \mathcal{N}(\mu, \Sigma),其中 μ=vec(M)\mu = \operatorname{vec}(M)Σ=VU\Sigma = V \otimes U\otimes 表示克罗内克积 (Kronecker product))。对于各向同性 (isotropic) 矩阵高斯分布,即 U=σ2ImU = \sigma^2 I_mV=σ2InV = \sigma^2 I_n,等价的多元高斯分布也是各向同性的,协方差矩阵为 Σ=σ2Imn\Sigma = \sigma^2 I_{mn}

3.1.4. Frobenius 范数 (Frobenius Norm)

Frobenius 范数用于衡量矩阵的大小或两个矩阵之间的距离。对于矩阵 MM,其 Frobenius 范数定义为: MF:=i,jmi,j2 \Vert M \Vert _ { F } : = \sqrt { \sum _ { i , j } m _ { i , j } } ^ { 2 } 它提供了矩阵2-范数 (matrix 2-norm) 的一个上界。

3.2. 前人工作

3.2.1. 传统进化算法 (Evolutionary Algorithms)

  • 遗传算法 (Genetic Algorithms): 例如 Such 等人 (2018) 的工作,通过模拟自然选择和遗传机制进行优化。
  • 符号进化 (Symbolic Evolution): Koza (1994) 的工作,通过进化程序来解决问题。
  • 神经网络参数进化: Jaderberg 等人 (2017)、Hansen & Ostermeier (2001)、Salimans 等人 (2017) 等人的工作,将进化算法应用于神经网络参数优化,特别是自然进化策略 (NES)。Salimans et al. (2017)NES 应用于强化学习,证明了 ES 在大规模并行化方面的潜力,但其最大种群规模约为1440,远小于 EGGROLL
  • 持久进化策略 (Persistent Evolution Strategies): Vicol 等人 (2021, 2023) 提出的方法,通过在线更新网络(在轨迹生成过程中)来显著加速训练,并减少方差。这与 EGGROLL 关注扩展种群规模的方向是正交的。
  • 应用领域: ES 已被广泛应用于元学习 (meta-learning) (Lu et al., 2022; Metz et al., 2022; Lange et al., 2023; Goldie et al., 2024, 2025)、超参数调优 (Parker-Holder et al., 2021; Tani et al., 2021; Vincent & Jidesh, 2023) 和药物发现 (Towers et al., 2025)。

3.2.2. 大型语言模型 (LLM) 的进化策略

  • 零阶优化 (Zeroth-order Optimization): Zhang 等人 (2024) 综述了零阶优化,Malladi 等人 (2023) 将其应用于 LLM 微调,以实现内存效率。这可以看作是种群规模为 1 的 ES
  • 低秩扰动零阶优化: Yu 等人 (2025) 将扰动投影到低秩子空间,改进了零阶优化的收敛性。
  • 直接在 LoRA 矩阵上应用 ES: Jin 等人 (2024) 直接在 LoRA 矩阵上执行 ES
  • LLM 推理任务中的 ES:
    • Korotyshova 等人 (2025) 先通过监督微调 (SFT) 训练 LoRA 适配器,然后用 CMA-ES 优化 SVD 基上的奇异值,在数学推理基准上实现了与 GRPO 相当的性能,但墙钟时间显著减少。
    • Qiu 等人 (2025) 直接使用 ES 优化所有 LLM 参数来完成推理任务,在 Countdown 任务上表现优于 GRPO
    • 限制: 这些方法通常使用相对较小的种群规模(几十到几百个扰动),并通过重复评估每个扰动数百次来高效利用 GPU。这与 EGGROLL 允许所有代使用不同扰动,并支持更大种群规模的方法形成对比。

3.3. 技术演进

ES 最初起源于20世纪60年代,作为一种通用优化方法,主要用于解决工程设计问题。早期的方法如 Rechenberg (1978)Beyer (1995)Beyer & Schwefel (2002)。随着计算能力的提升,ES 开始被应用于更复杂的系统,尤其是神经网络的训练。Salimans et al. (2017) 证明了 ES 在强化学习中的可扩展性,并首次在大规模并行计算环境下展现了其潜力。

然而,即使是 Salimans et al. (2017),其种群规模也仅限于1440。当模型参数量达到数十亿时,即使是这种规模的 ES 也变得不可行,因为全秩扰动的生成和存储成本过高。

本文的工作处在怎样的技术脉络中?

EGGROLL 处于 ESLLM 高效微调技术的交汇点。它继承了 ES 无梯度、高度并行化的优势,同时借鉴了 LoRA 在参数效率方面的思想。通过将低秩近似引入 ES 的扰动生成环节,EGGROLL 打破了传统 ES 在处理大规模模型时面临的内存和计算瓶颈。这使得 ES 能够扩展到前所未有的种群规模和模型参数量,从而在 RLLLM 微调乃至纯整数预训练等新颖应用场景中发挥作用,推动了非梯度优化方法在超大规模 AI 模型中的应用。

3.4. 差异化分析

| 特征 | 传统 ES (如 Salimans et al., 2017OpenES) | LoRA (梯度优化) | GRPO (LLM 微调) | 零阶优化 (种群规模为 1 的 ES) | EGGROLL (本文) | 传统 LoRA | GRPO (梯度优化)

| :---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 扰动 (perturbation) EE 的生成导致了巨大的计算和内存成本。对于一个 m×nm \times n 矩阵,存储 EE 需要 O(mn)\mathcal{O}(mn) 内存,并且进行前向传播 (forward pass) 的成本也是 O(mn)\mathcal{O}(mn)。这使得在处理数十亿参数模型时,ES 的训练吞吐量 (training throughput) 极低。

3.4.2. 与 LoRA (梯度优化) 的区别与创新点

EGGROLL 的核心创新在于借鉴了 LoRA (Low-Rank Adaptation) 的思想,将低秩近似引入 ES 的扰动生成机制。

传统 LoRA

  • 用于梯度反向传播训练。

  • 通过将预训练模型的权重矩阵 WW 更新为 W+ABW + AB^\top,其中 ARm×rA \in \mathbb{R}^{m \times r}BRn×rB \in \mathbb{R}^{n \times r} 是可训练的低秩矩阵, rmin(m,n)r \ll \min(m,n)

  • 只训练 AABB 中的参数,而原始的 WW 保持冻结 (frozen)。

  • 目标是减少微调 (fine-tuning) 时的可训练参数数量和计算量,同时保持性能。

    EGGROLL 的创新点

  • EGGROLL 将低秩近似应用于 ES扰动 (perturbation) 生成,而不是直接用于模型的权重更新。

  • EGGROLL 中,每个种群成员的扰动 EiE_i 被替换为 1rAiBi\frac{1}{\sqrt{r}} A_i B_i^\top,其中 AiA_iBiB_i 是随机采样的低秩矩阵。

  • 整体更新(通过对所有种群成员的扰动进行加权平均)仍然是高秩的,因为它聚合了多个低秩扰动,其秩为 min(Nr,m,n)\min(Nr, m, n)(其中 NN 是种群大小)。

  • 解决了 ES 的规模化问题

    • 内存节省: 将每层的辅助存储从 mn 减少到 r(m+n)r(m+n)
    • 计算加速: 将前向传播的成本从 O(mn)\mathcal{O}(mn) 降低到 O(r(m+n))\mathcal{O}(r(m+n))
    • 超大规模并行: 通过批处理 (batching) 低秩适配器和共享基础激活 (base activations),实现高效的批处理矩阵乘法,使得在单个 GPU 上可以支持超大种群规模,训练吞吐量 (training throughput) 显著提高。

3.4.3. 与 GRPO (LLM 微调) 的区别与创新点

GRPO (Group Relative Policy Optimization) 是一种用于 LLM 微调的策略优化方法,它使用梯度信息。EGGROLLGRPO 的主要区别在于其优化范式和对梯度信息的依赖。

GRPO

  • 基于梯度反向传播的优化方法。

  • 通过计算策略梯度来更新模型参数,通常用于强化学习或基于奖励的 LLM 微调。

  • 需要目标函数是可微的,或者需要使用像 REINFORCE 这样的技术来估计梯度。

    EGGROLL 的创新点

  • EGGROLL无反向传播 (backprop-free) 的,这使得它能够处理不可微或噪声的目标函数,这是 GRPO 难以处理的场景。

  • LLM 推理任务中,EGGROLL 展现出与 GRPO 竞争甚至超越 GRPO 的性能,同时提供了更大的并行化和规模化潜力。例如,在 Countdown 任务中,EGGROLL 在相同硬件和墙钟时间下,验证准确率更高(35% 对 23%)。

  • EGGROLL 允许更大的并行世代 (parallel generations)(例如每个 GPU 1024个,而 GRPO 只有 32个),这表明其在探索更广阔参数空间方面的优势。

3.4.4. 与零阶优化 (种群规模为 1 的 ES) 的区别与创新点

零阶优化 (Zeroth-order Optimization) 可以被视为一种特殊情况的 ES,其种群规模为 1。

零阶优化

  • 每次迭代只评估一个扰动或少数几个扰动来估计梯度方向。

  • 优点是内存效率高,因为它不需要存储大量扰动。

  • 缺点是梯度估计的方差可能很高,收敛速度慢,并且探索能力有限。

  • Malladi 等人 (2023) 和 Yu 等人 (2025) 将其应用于 LLM 微调。

    EGGROLL 的创新点

  • EGGROLL 明确强调大种群规模的重要性,并设计了能够高效支持大种群的架构。

  • 论文实验(特别是 EGG Ablations 部分)明确指出,对于像预训练这样的任务,大种群规模对于性能至关重要,而零阶优化(种群规模为 2 的情况)会导致训练不稳定且性能不佳。这直接驳斥了零阶优化在所有场景下的普适性。

  • 通过低秩扰动和硬件优化,EGGROLL 克服了传统 ES 在大规模种群下的计算和内存瓶颈,从而能够充分利用大种群的优势(更稳定的梯度估计,更强的全局探索能力),这是零阶优化无法做到的。

    综上所述,EGGROLL 通过将低秩近似与 ES 相结合,并进行硬件优化,成功地将非梯度优化方法扩展到了超大规模模型和前所未有的种群规模,解决了传统 ES 的可扩展性问题,并在 LLM 微调和纯整数预训练等领域展现出独特的优势,与现有方法形成了清晰的差异化。

4. 方法论

本节将详细介绍 EGGROLL 的方法论,包括低秩进化策略的推导、分数函数近似以及硬件高效的实现。

4.1. 方法原理

EGGROLL 的核心思想是使用低秩矩阵扰动来近似传统 ES 中的全秩矩阵扰动,从而显著降低计算和内存成本。

4.1.1. 高斯矩阵 ES 目标与梯度

首先回顾高斯矩阵 ES 的目标函数 J(μ)J(\mu) 和其梯度 μJ(μ)\nabla_\mu J(\mu)。 对于一个参数为矩阵 MRm×nM \in \mathbb{R}^{m \times n} 的适应度函数 f(M),我们的目标是找到 M^\star = \arg \max_{M \in \mathbb{R}^{m \times n}} f(M)。 在 ES 中,我们优化一个参数分布 π(Mθ)\pi(M|\theta) 的参数 θ\theta,以最大化期望适应度 J(θ)=EMπ(Mθ)[f(M)]J(\theta) = \mathbb{E}_{M \sim \pi(M|\theta)}[f(M)]。 对于高斯策略 π(Mμ)=N(μ,Imσ2,Inσ2)\pi(M|\mu) = \mathcal{N}(\mu, I_m \sigma^2, I_n \sigma^2)ES 目标可以写为: J(μ)=EEP(E)[f(M=μ+σE)] J ( \mu ) = \mathbb { E } _ { E \sim P ( E ) } \left[ f ( M = \mu + \sigma E ) \right] 其中:

  • MM 是模型参数矩阵。

  • μ\mu 是高斯分布的均值矩阵,也是我们优化的目标。

  • σ\sigma 是标准差,通常被固定并吸收到学习率中。

  • EP(E)E \sim P(E) 是一个零均值标准正态扰动矩阵, p(E)=N(0,Im,In)p(E) = \mathcal{N}(0, I_m, I_n)

  • f(M) 是适应度函数。

    此目标函数相对于均值矩阵 μ\mu 的梯度为: μJ(μ)=1σEEP(E)[Ef(M=μ+σE)] \nabla _ { \mu } J ( \mu ) = - \frac { 1 } { \sigma } \mathbb { E } _ { E \sim P ( E ) } \left[ E \cdot f ( M = \mu + \sigma E ) \right] 这个梯度用于更新 μ\mu,即 μt+1=μt+αtμJ(μt)\mu_{t+1} = \mu_t + \alpha_t \nabla_\mu J(\mu_t),其中 αt\alpha_t 是学习率。

4.1.2. 低秩扰动的引入

EGGROLL 的核心思想是用低秩矩阵扰动来近似全秩扰动 EE扰动生成: 不再直接采样一个全秩矩阵 ERm×nE \in \mathbb{R}^{m \times n},而是采样两个小矩阵 ARm×rA \in \mathbb{R}^{m \times r}BRn×rB \in \mathbb{R}^{n \times r},其中 rmin(m,n)r \ll \min(m,n)。然后,通过它们的乘积 ABA B^\top 形成一个低秩扰动。为了保证扰动的方差 (variance) 随 rr 增加而有界,我们引入一个缩放因子 1r\frac{1}{\sqrt{r}}E=1rAB E = \frac { 1 } { \sqrt { r } } A B ^ { \top }

  • AABB 的元素 ai,ja_{i,j}bi,jb_{i,j} 被假设为连续、独立同分布 (i.i.d.) 的随机变量,服从零均值、对称、绝对连续的分布 p0()p_0(\cdot),且具有有限的 4 阶矩和方差 0<σ020 < \sigma_0^2 (Assumption 1)。通常,它们从高斯分布中采样。
  • 这种低秩扰动 EE 映射到秩为 rr 的矩阵流形 MrRm×n\mathbb{M}^r \subset \mathbb{R}^{m \times n}。直接定义其密度 p(E) 及其分数函数 (score function) 较为复杂。为了简化分析,论文引入了一个概念工具: Z=1rAB+ϵ Z = \frac { 1 } { \sqrt { r } } A B ^ { \top } + \epsilon 其中 ϵ\epsilon 是一个 m×nm \times n 的矩阵,其元素 ϵi,j\epsilon_{i,j} 是独立同分布的高斯随机变量,ϵi,jN(0,σϵ/r2)\epsilon_{i,j} \sim \mathcal{N}(0, \sigma_{\epsilon/r}^2)。当 σϵ\sigma_\epsilon 可以任意小, p(E) 可以任意接近 p(Z)
  • 通过将 p(E) 替换为 p(Z),我们可以推导出低秩 ES 目标函数 JLR(μ)J_{LR}(\mu)JLR(μ)=EZp(Z)[f(M=μ+σZ)] J _ { \mathrm { L R } } ( \mu ) = \mathbb { E } _ { Z \sim p ( Z ) } \left[ f \left( M = \mu + \sigma Z \right) \right] 其对应的低秩 ES 梯度 gLRg_{LR} 为: gLR:=μJLR(μ)=1σEZp(Z)[Zlogp(Z)f(M=μ+σZ)] g _ { L R } : = \nabla _ { \mu } J _ { L R } ( \mu ) = - \frac 1 { \sigma } \mathbb { E } _ { Z \sim p ( Z ) } \left[ \nabla _ { Z } \log p \left( Z \right) f ( M = \mu + \sigma Z ) \right] 此定理的关键在于 ZZ 的密度 p(Z) 是良好定义的,并且可以通过采样 A,B,ϵA, B, \epsilon 来生成 ZZ

4.2. 分数函数近似 (Score Function Approximation)

由于从 (A,B,ϵ)(A, B, \epsilon)ZZ 的映射是不可逆的,无法直接得到 p(Z) 的简单封闭形式。因此,需要近似分数函数 Zlogp(Z)\nabla_Z \log p(Z)EGGROLL 采用的是高斯近似分数函数 (Gaussian approximate score function)。

4.2.1. 高斯近似分数函数推导

根据中心极限定理 (Central Limit Theorem),当 rr 足够大时,ZZ 的分布会收敛到一个高斯分布。 首先,将 ϵ\epsilon 分解为 rr 个独立高斯矩阵之和: ϵ=1ri=1rϵi \epsilon = \frac { 1 } { \sqrt { r } } \sum _ { i = 1 } ^ { r } \epsilon _ { i } 其中每个 ϵip(ϵi)\epsilon_i \sim p(\epsilon_i) 的分布与 ϵ\epsilon 相同。 类似地,ABAB^\top 可以分解为 rr 个独立的、零均值向量外积之和: AB=i=1raibi A B ^ { \top } = \sum _ { i = 1 } ^ { r } a _ { i } b _ { i } ^ { \top } 其中 aia_ibib_i 分别是 AABB 的第 ii 列向量。 因此,ZZ 可以表示为 rr 个独立随机矩阵的标准和: Z=1ri=1r(aibi+ϵi) Z = { \frac { 1 } { \sqrt { r } } } \sum _ { i = 1 } ^ { r } \left( a _ { i } b _ { i } ^ { \top } + \epsilon _ { i } \right) 根据 Assumption 1,中心极限定理证明 p(Z) 在分布上收敛到高斯分布 N(0,Imσ04,Inσ04)\mathcal{N}(0, I_m \sigma_0^4, I_n \sigma_0^4)。 使用这个极限分布代替真实的 p(Z),得到高斯近似分数函数: S^(Z)=1σ04Z \hat { S } ( Z ) = - \frac { 1 } { \sigma _ { 0 } ^ { 4 } } Z 其中 σ02\sigma_0^2AABB 元素分布的方差。在实际应用中,通常将 1σ04\frac{1}{\sigma_0^4} 吸收到学习率中。

4.2.2. EGGROLL 更新规则

通过对期望进行蒙特卡洛 (Monte Carlo) 估计,使用 NworkersN_{workers} 个样本来优化参数 μ\mu。 对于每个工作器 (worker) ii,并行地采样 Ai,tp(Ai,t)A_{i,t} \sim p(A_{i,t})Bi,tp(Bi,t)B_{i,t} \sim p(B_{i,t}),并形成低秩扰动 Ei,t=1rAi,tBi,tE_{i,t} = \frac{1}{\sqrt{r}} A_{i,t} B_{i,t}^\top。 然后,使用以下公式更新模型参数 μ\muμt+1=μt+αtNworkersi=1NworkersEi,tf(M=μt+σEi,t) \mu _ { t + 1 } = \mu _ { t } + \frac { \alpha _ { t } } { N _ { \mathrm { w o r k e r s } } } \sum _ { i = 1 } ^ { N _ { \mathrm { w o r k e r s } } } E _ { i , t } f ( M = \mu _ { t } + \sigma E _ { i , t } )

  • αt\alpha_t 是学习率。
  • f(M) 是适应度函数。
  • 需要注意的是,尽管每个 Ei,tE_{i,t} 几乎总是秩为 rr,但通过 NworkersN_{workers} 个这样的矩阵求和,总体的参数更新矩阵的秩为 min(Nr,m,n)\min(Nr, m, n)。这意味着当 Nr>min(m,n)Nr > \min(m,n) 时,EGGROLL 的参数更新可以是全秩的,不会限制更新为低秩。

4.3. 硬件高效的 EGGROLL 实现

EGGROLL 的一个关键优势在于其硬件高效的实现,尤其适用于 GPU 上的大规模并行计算。

4.3.1. 批处理前向传播

考虑一个线性层,其均值参数为 μRdout×din\mu \in \mathbb{R}^{d_{out} \times d_{in}},输入为 xiRdinx_i \in \mathbb{R}^{d_{in}}

  • 传统 ES 的挑战: 直接计算 xi(μ+σEi)x_i (\mu + \sigma E_i)^\top 会导致批处理矩阵乘法,效率低下,因为 μ+σEi\mu + \sigma E_i 的每个元素只在一次乘法中使用,导致算术强度 (arithmetic intensity) 较低。
  • EGGROLL 的解决方案: 利用低秩扰动的结构,前向传播计算可以分解为: xi(μ+σEi)=xiμ+σr(xiBi)Ai x _ { i } ( \mu + \sigma E _ { i } ) = x _ { i } \mu + \frac { \sigma } { \sqrt { r } } ( x _ { i } B _ { i } ) A _ { i } ^ { \top }
  1. 基础计算: xiμx_i \mu 是标准的矩阵乘法,可以在 GPU 上高效地进行批处理计算。
  2. 扰动计算:
    • (xiBi)(x_i B_i):当 r=1r=1 时,这简化为不昂贵的批处理向量-向量点积 (batched vector-vector dot product),得到一批标量 (batch of scalars)。
    • (xiBi)Ai(x_i B_i) A_i^\top:然后是批处理标量-向量乘法 (batched scalar-vector multiplication)。 这种分解是高效批处理 LoRA 推理的关键,例如 vLLM (Kwon et al., 2023) 中使用的技术。因此,EGGROLL 能够实现与批处理 LoRA 推理系统相同的速度。

4.3.2. 更新过程优化

在计算 i=1NEifi\sum_{i=1}^N E_i f_i 时,EGGROLL 避免显式地实例化 (materializing) 单个 EiE_i 矩阵。

  • 重构扰动: 通过重构矩阵 ARN×doutA \in \mathbb{R}^{N \times d_{out}}BRN×dinB \in \mathbb{R}^{N \times d_{in}},并使用适应度 ff,更新过程可以表示为简单的矩阵乘法: E=(Af)BE = ( A \odot f ) ^ { \top } B 其中 \odot 表示 Hadamard 积 (element-wise product)。这进一步提高了计算效率。

4.4. 算法流程 (Algorithm 1)

以下是 EGGROLL 算法的伪代码:

Algorithm 1 EGGROLL(rr, α\alpha, σ\sigma, TmaxT_{max}, NworkersN_{workers})

  1. 初始化 (initialise) μ\mu (模型参数) 和工作器 (workers) (带有已知随机种子 ζ\zeta)。
  2. 对于 TmaxT_{max} 个时间步 (timesteps) 执行以下循环:
    1. 并行阶段 (Parallel Phase):
      • 对于每个工作器 i{1,,Nworkers}i \in \{1, \ldots, N_{workers}\} 并行执行:
        1. 采样 Aip(Ai)A_i \sim p(A_i), Bip(Bi)B_i \sim p(B_i) (例如从高斯分布)。
        2. 形成低秩扰动 Ei1rAiBiE_i \leftarrow \frac{1}{\sqrt{r}} A_i B_i^\top
        3. 计算扰动后的模型参数 Mi=μ+σEiM_i = \mu + \sigma E_i
        4. 评估适应度 fif(Mi)f_i \leftarrow f(M_i)
      • 工作器之间共享标量适应度 fif_i
    2. 更新阶段 (Update Phase):
      • 对于每个工作器 i{1,,Nworkers}i \in \{1, \ldots, N_{workers}\} 并行执行:
        1. 从随机种子 ζ\zeta 重构 EjE_j (对于所有 j{1,,Nworkers}j \in \{1, \ldots, N_{workers}\})。
      • 更新 μ\mu: μμ+αNworkersj=1NworkersEjfj \mu \leftarrow \mu + \frac{\alpha}{N_{workers}} \sum_{j=1}^{N_{workers}} E_j f_j
  • rr: 秩 (rank),决定低秩扰动的维度。
  • α\alpha: 学习率 (learning rate)。
  • σ\sigma: 扰动强度 (perturbation strength)。
  • TmaxT_{max}: 最大时间步数。
  • NworkersN_{workers}: 并行工作器数量,即种群大小。
  • random seeds ζ\zeta: 用于确定性地重构 (reconstruct) 噪声,减少内存占用。

4.5. 理论分析 (Approximation Analysis)

4.5.1. 收敛速率

EGGROLL 提供了一个严格的理论分析,量化了其高斯分数近似 (Gaussian score approximation) 如何收敛到真实的 Gaussian ES 矩阵梯度。

  • 假设 2 (Assumption 2): 适应度函数 f(M) 是有界的,即 supMf(M)<\sup_M |f(M)| < \infty

  • 定理 2 (Theorem 2):Assumption 1Assumption 2 成立且 σ0=1\sigma_0 = 1 的情况下,低秩更新的近似梯度 g^LRr\hat{g}_{LR}^r 与真实梯度 gTrueg_{True} 之间的 Frobenius 范数误差收敛速率为: g^LRrgTrueF=O(1r) \Vert \hat { g } _ { \mathrm { L R } } ^ { r } - g _ { \mathrm { T r u e } } \Vert _ { F } = \mathcal { O } \left( \frac { 1 } { r } \right)

  • 意义: 这个收敛速率比一般的参数化中心极限定理 (parametric central limit theorem) 所指示的 O(1r)\mathcal{O}\left(\frac{1}{\sqrt{r}}\right) 速率更快。这得益于在 Assumption 1 下,问题固有的对称性导致所有奇数阶累积量 (odd cumulants) 为零,使得误差由 4 阶累积量控制,从而带来更快的收敛。

  • 直观理解: 这表明即使在非常低的秩 rr 条件下(例如 r=1r=1),低秩近似也能很好地逼近全秩更新,为 EGGROLL 的实际效果提供了理论支持。

    下图(原文 Figure 3)通过绘制边际分数乘以密度 p(zi,j)zi,jp(z_{i,j})z_{i,j} 的曲线,直观地展示了随着 rr 增加,其快速收敛到极限高斯形式。

    Figure 3: Plot of Marginal Score Multiplied by Density for Increasing \(r\) 该图像是图表,展示了不同 rr 值(r=1,2,3,5,10,50,100r=1, 2, 3, 5, 10, 50, 100)下边际分数与密度的乘积 p(zi,j)zi,jp(z_{i,j})|z_{i,j}| 的变化趋势。随着 rr 的增加,曲线逐渐平滑并接近极限情况 roinftyr o \\infty

Figure 3: Plot of Marginal Score Multiplied by Density for Increasing rr

5. 实验设置

5.1. 数据集

5.1.1. 纯整数预训练 RNN 语言模型

  • Minipile 数据集 (Kaddour, 2023): 这是一个用于数据高效语言模型的字符级预测数据集。论文使用该数据集在字符级别上进行训练。

5.1.2. 强化学习任务

  • Navix (Pignatelli et al., 2024):
  • Craftax (Matthews et al., 2024):
  • Brax (Freeman et al., 2021):
  • Kinetix (Mathews et al., 2025):
  • Jumanji (Bone et al., 2024): 这些是不同领域的强化学习环境套件,共包含 16 个环境。选择这些环境是为了确保它们对于 PPO (Proximal Policy Optimization) 而言既不平凡 (not trivial) 也非不可能 (not impossible),并涵盖了不同类别(如 Kinetix 中的环境大小或 Jumanji 中的类别)。
  • 多智能体强化学习 (Multi-Agent Reinforcement Learning, MARL): 使用 JaxMARL (Rutherford et al., 2023) 实现的三个合作性 Multi Particle Environments (MPEs) (Lowe et al., 2017)。

5.1.3. LLM 推理任务

  • Countdown: 一个推理任务,具体细节在 Qiu et al. (2025) 中描述。
  • GSM8K: 一个数学文字问题推理任务。

5.2. 评估指标

5.2.1. 强化学习任务

1. 平均回报 (Average Return)

  • 概念定义: 智能体 (agent) 在环境中执行一系列动作后获得的累积奖励 (reward) 的总和。在强化学习中,通常目标是最大化长期回报。
  • 数学公式: Rt=k=0Tγkrt+k+1 R_t = \sum_{k=0}^T \gamma^k r_{t+k+1} 其中:
    • RtR_t: 在时间步 tt 的折扣累积回报 (discounted cumulative return)。
    • γ\gamma: 折扣因子 (discount factor),0γ10 \le \gamma \le 1,用于权衡即时奖励和未来奖励的重要性。
    • rt+k+1r_{t+k+1}: 在时间步 t+k+1t+k+1 获得的奖励。
    • TT: 轨迹 (trajectory) 的总长度或剧集 (episode) 的结束时间。
  • 符号解释:
    • RtR_t: 总回报。
    • γ\gamma: 折扣因子。
    • rr: 即时奖励。
    • tt: 当前时间步。
    • kk: 未来时间步的索引。
    • TT: 剧集长度。

2. 归一化回报 (Normalized Return)

  • 概念定义: 为了在不同环境中进行比较,将原始回报值归一化到一个标准范围,通常是相对于某个基线或最优性能进行归一化。这有助于比较不同任务下算法的相对表现。
  • 数学公式: 论文中未给出具体公式,但通常的归一化方式可能包括: Rnorm=RRminRmaxRmin R_{norm} = \frac{R - R_{min}}{R_{max} - R_{min}} Rnorm=RRbaselineRoptimalRbaseline R_{norm} = \frac{R - R_{baseline}}{R_{optimal} - R_{baseline}} 其中:
    • RR: 原始回报。
    • Rmin,RmaxR_{min}, R_{max}: 任务中可能的最小和最大回报。
    • Rbaseline,RoptimalR_{baseline}, R_{optimal}: 基线方法的回报和理论最优回报。
  • 符号解释:
    • RnormR_{norm}: 归一化回报。
    • RR: 原始回报。
    • RminR_{min}: 最小回报。
    • RmaxR_{max}: 最大回报。
    • RbaselineR_{baseline}: 基线回报。
    • RoptimalR_{optimal}: 最优回报。

3. 训练时间 (Training Time)

  • 概念定义: 完成训练过程所需的墙钟时间 (wall-clock time)。
  • 数学公式: 无标准公式,通常以秒、分钟或小时记录。
  • 符号解释: 无。

5.2.2. LLM 推理任务

1. 验证准确率 (Validation Accuracy)

  • 概念定义: 模型在未见过的验证集 (validation set) 上正确回答问题或完成任务的比例。
  • 数学公式: Accuracy=Number of Correct PredictionsTotal Number of Predictions Accuracy = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}
  • 符号解释:
    • Accuracy: 准确率。

2. 损失 (Loss)

  • 概念定义: 衡量模型预测与真实标签之间差异的度量。在语言模型预训练中,通常是负对数似然 (negative log-likelihood) 或交叉熵损失 (cross-entropy loss)。
  • 数学公式 (负对数似然): L=1Ni=1Nj=1TilogP(wi,jwi,<j,θ) \mathcal{L} = - \frac{1}{N} \sum_{i=1}^N \sum_{j=1}^{T_i} \log P(w_{i,j} | w_{i,<j}, \theta) 其中:
    • L\mathcal{L}: 平均损失。
    • NN: 样本数量。
    • TiT_i: 第 ii 个序列的长度。
    • P(wi,jwi,<j,θ)P(w_{i,j} | w_{i,<j}, \theta): 在给定历史词元 wi,<jw_{i,<j} 和模型参数 θ\theta 的情况下,预测下一个词元 wi,jw_{i,j} 的概率。
  • 符号解释:
    • L\mathcal{L}: 损失。
    • NN: 样本数量。
    • TiT_i: 第 ii 个序列的长度。
    • wi,jw_{i,j}: 第 ii 个序列的第 jj 个词元。
    • wi,<jw_{i,<j}: 第 ii 个序列的第 jj 个词元之前的词元。
    • θ\theta: 模型参数。

5.2.3. EGGROLL 的评分函数 (Scoring Function)

LLM 推理任务中,EGGROLL 使用了一种特定的评分函数,它与 GRPO 的组相对优势 (group relative advantage) 类似。 对于一组噪声方向 E{E1,,En}E \equiv \{E_1, \dots, E_n\},首先计算它们在 q=m|q|=m 个问题上的准确率 {s1,qi,,sn,qi}\{s_{1,q_i}, \dots, s_{n,q_i}\},从而得到一个分数矩阵 SRm×nS \in \mathbb{R}^{m \times n}。然后计算每个问题的 zz 分数,使用全局方差 σˉ\bar{\sigma},并平均所有问题来计算噪声方向 EiE_i 的最终分数: sˉi=1mj=1mzi,qj=1mj=1msi,jμqjσˉ \bar { s } _ { i } = \frac { 1 } { m } \sum _ { j = 1 } ^ { m } z _ { i , q _ { j } } = \frac { 1 } { m } \sum _ { j = 1 } ^ { m } \frac { s _ { i , j } - \mu _ { q _ { j } } } { \bar { \sigma } }

  • 概念定义: 这种评分函数旨在对同一批次 (batch) 内的所有问题给予相同的权重,确保种群成员之间的公平比较。
  • 符号解释:
    • sˉi\bar{s}_i: 噪声方向 EiE_i 的最终平均分数。
    • mm: 问题数量。
    • zi,qjz_{i,q_j}: 噪声方向 EiE_i 在问题 qjq_j 上的 zz 分数。
    • si,js_{i,j}: 噪声方向 EiE_i 在问题 jj 上的原始分数。
    • μqj\mu_{q_j}: 问题 qjq_j 的平均分数。
    • σˉ\bar{\sigma}: 全局方差。

5.3. 对比基线

5.3.1. 强化学习任务

  • OpenES (Salimans et al., 2017): 传统的全秩进化策略算法。论文将其作为 EGGROLL 的主要基线,特别是在网络规模较小、传统 ES 仍然可行的场景。
  • PPO (Proximal Policy Optimization): 一种流行的基于梯度的强化学习算法,作为常用的 RL 基线进行比较。

5.3.2. LLM 推理任务

  • GRPO (Shao et al., 2024): 一种用于 LLM 推理的策略优化方法,作为 EGGROLLLLM 微调任务上的主要基线。

6. 实验结果与分析

6.1. 纯整数预训练 RNN 语言模型

论文展示了 EGGROLL 在纯整数预训练 (pure integer pretraining) 一种非线性 RNN 语言模型 (EGG 模型) 上的能力。

EGG 模型架构特点:

  1. 纯整数训练 (Pure Integer Training): 所有权重和激活都保持 int8 或其他整数格式,从不转换为浮点数。这利用了 H100 系统上 int8 矩阵乘法与 int32 累加是速度最快的张量核心操作。
  2. 非线性 RNN (Nonlinear RNN): 采用 minGRU 模型的变体,所有操作都在整数格式下进行。由于 EGGROLL 不需要反向传播,可以训练具有更广阔复杂性类别的非线性 RNN,处理无界序列长度。
  3. 移除激活函数 (Removal of all Activation Functions): 由于 int8 数据类型中的饱和加法 (saturated addition) 提供了足够的非线性,隐式地将值裁剪 (clipping) 到 int8 动态范围,EGGROLL 可以利用这种非线性。

实验结果:

  • EGG 模型在 minipile 数据集上进行字符级预测。

  • 参数在每 100 个词元 (tokens) 后更新。

  • 稳定性: EGGROLL 成功地预训练了模型,避免了损失峰值 (loss spikes)、NaN 值和其他与低精度数据类型下反向传播训练相关的常见不稳定性。

    下图(原文 Figure 2b)展示了在纯整数预训练中测试损失随训练步骤的变化。

    该图像是一个包含两个子图的示意图,其中(a)展示了EGGROLL、PPO和OpenES的归一化训练速度,EGGROLL的速度为91;(b)描绘了纯整数预训练过程中的测试损失随训练步骤的变化。图中显示的损失值逐渐趋于平稳,右侧的颜色条表示种群大小的范围。 该图像是一个包含两个子图的示意图,其中(a)展示了EGGROLL、PPO和OpenES的归一化训练速度,EGGROLL的速度为91;(b)描绘了纯整数预训练过程中的测试损失随训练步骤的变化。图中显示的损失值逐渐趋于平稳,右侧的颜色条表示种群大小的范围。

  • 种群规模的影响: 论文测试了从 64 到 262144 (2182^18) 的种群规模。

  • 性能趋势: 随着种群规模增加 8 倍,损失大约下降 0.4。这表明更大的种群规模能带来更好的性能。

  • 超大规模种群: 最大的种群规模达到了 262144,比 Salimans et al. (2017) 报告的最大实验规模大两个数量级,且仅需一个 GPU 进行训练。

6.2. 强化学习任务

论文比较了 EGGROLL 和传统 OpenES 在多个强化学习任务上的性能。

实验设置:

  • 策略网络 (Policy networks) 采用 3 层 256 神经元。
  • 涵盖 NavixCraftaxBraxKinetixJumanji 等环境套件,共 16 个环境。
  • EGGROLLOpenES 分别进行了超参数优化 (HPO),每个算法-环境对进行 20 次随机搜索。
  • 使用最优配置运行 10 个独立的种子,报告均值和标准误差。

核心结果分析 (原文 Figure 4 和 Appendix G.1):

该图像是一个示意图,展示了不同算法在多个环境中进行训练时的归一化回报。图中分别展示了 Pendulum-v1、Brax Inverted Double Pendulum、Craftax Symbolic、Jumanji 2048、Kinetix Thrust Control Left 和 Navix DoorKey (8x8) 的训练结果,其中 EggRoll 与 OpenES 和 PPO 的性能对比明显。 该图像是一个示意图,展示了不同算法在多个环境中进行训练时的归一化回报。图中分别展示了 Pendulum-v1、Brax Inverted Double Pendulum、Craftax Symbolic、Jumanji 2048、Kinetix Thrust Control Left 和 Navix DoorKey (8x8) 的训练结果,其中 EggRoll 与 OpenES 和 PPO 的性能对比明显。

  • 性能对比:

    • EGGROLL 在 7/16 个环境中与 OpenES 具有竞争力。
    • 在 2/16 个环境中表现不佳。
    • 在 7/16 个环境中表现优于 OpenES
  • 速度优势: 重要的是,EGGROLL 在保持或超越性能的同时,提供了显著的速度提升。论文推测,对于大型网络,OpenES 难以优化,而低秩更新更适合。

  • 多智能体强化学习 (MARL):JaxMARL 实现的三个合作性 MPEs 环境中,EGGROLL (秩为 1) 训练速度比 OpenES 快 2.4 倍,同时保持了有竞争力的性能。这表明其在多智能体设置中的效率优势。

    下图(原文 Figure 10)展示了强化学习结果的比较:训练时间的均值和标准差。

    Figure 10: Comparison of reinforcement learning results: Mean and standard deviation of training time. 该图像是一个条形图,展示了EGGROLL与OpenES在多个强化学习任务中的训练时间比较。每个任务的条形显示了两种方法的训练时间,紫色代表EGGROLL,粉色代表OpenES。图中还标注了EGGROLL相对于OpenES的速度提升或下降倍数,例如在"Pendulum-v1"任务中EGGROLL快了7.81倍,而在"Brax Inverted Double Pendulum"任务中EGGROLL则慢了1.66倍。错误条表示标准差。

从中可以看到,在大多数环境中,EGGROLL 的训练时间显著低于 OpenES,显示出其速度优势。例如,在 Pendulum-v1 中,EGGROLL 快了 7.81 倍。

6.3. LLM 推理任务的微调

EGGROLL 被应用于 RWKV-7 (Peng et al., 2025) 模型在 CountdownGSM8K 两个推理任务上的微调。RWKV 是一种循环模型,其恒定的状态大小使其特别适合并行化。

实验设置:

  • 模型: RWKV-7 1.5B (用于 Countdown) 和 RWKV-7 7B (用于 GSM8K)。
  • 基线: GRPO
  • 超参数优化:GRPOEGGROLL 均进行了贝叶斯超参数搜索。
  • 评分函数: 使用论文中描述的 zz 分数平均评分函数。

核心结果分析 (原文 Figure 5):

该图像是包含两幅图表的对比图,左侧(a)表示在Countdown数据集(RWKV 7g1.5B)上,EGGROLL(蓝色线)与GRPO(红色线)在相对墙钟时间(小时)下的验证得分变化,右侧(b)展示在GSM8K数据集(RWKV 7g7B)上的比较。EGGROLL性能保持稳定且优于GRPO。 该图像是包含两幅图表的对比图,左侧(a)表示在Countdown数据集(RWKV 7g1.5B)上,EGGROLL(蓝色线)与GRPO(红色线)在相对墙钟时间(小时)下的验证得分变化,右侧(b)展示在GSM8K数据集(RWKV 7g7B)上的比较。EGGROLL性能保持稳定且优于GRPO。

  • Countdown 任务 (图 5a):

    • EGGROLL 在相同硬件和墙钟时间下,收敛到更高的验证准确率:35% (EGGROLL) vs. 23% (GRPO)
    • EGGROLL 允许每个 GPU 并行 1024 个世代,而 GRPO 仅为 32 个。这表明 EGGROLL 能够进行更广阔的探索。
  • GSM8K 任务 (图 5b):

    • EGGROLLGSM8K 微调中表现优于 GRPO
    • EGGROLL 使用 8 个 GPU 允许总共 8096 个并行世代(每个 GPU 1024 个),而 GRPO 仅为 256 个(每个 GPU 32 个)。

超大规模 Countdown 实验 (原文 Figure 12):

  • 进一步的实验在 8 个 GPU 上使用更大的 RWKV-7 7B 模型进行 Countdown 任务微调。

  • EGGROLL 训练的模型达到了 72.9% 的验证准确率。这显著优于 Qiuetal.(2025)Qiu et al. (2025) 报告的 GRPO (52.8%) 和 OpenES (66.8%) 的结果,尽管 EGGROLL 使用的是一个相对较弱的基线模型 (RWKV-7 7B vs. Qwen 2.5-7B)。

    Figure 12: Validation score training curve of an RWKV \(7 \\mathrm { g } 7 \\mathrm { B }\) model on countdown using 8 GPUS and a population size of 8096. Notably, we are able to outperform a stronger base model trained with GRPO and OpenES. 该图像是图表,展示了EGGROLL模型在Countdown上训练的验证得分变化情况。随着训练轮数的增加,EGGROLL模型的验证得分逐渐上升,最终超越了基于GRPO和OpenES的更强基线模型。模型分数分别为:OpenES: Qwen-2.5-7B (0.668),GRPO: Qwen-2.5-7B (0.528),Original: Qwen-2.5-7B (0.312)。

Figure 12: Validation score training curve of an RWKV 7g7B7 \mathrm { g } 7 \mathrm { B } model on countdown using 8 GPUS and a population size of 8096. Notably, we are able to outperform a stronger base model trained with GRPO and OpenES.

6.4. 数据呈现 (表格)

以下是原文附录中提供的超参数设置。

6.4.1. MPE 任务的超参数范围

以下是原文 Table 21 中 MPE 任务的超参数范围:

Hyperparameter Values
activation pqn, tanh
pop_size 128, 512, 1024, 2048, 4096
learning_rate 0.01, 0.05, 0.1, 0.5
lr_decay 0.3, 0.7, 1.0
sigma 0.1, 0.2, 0.3, 0.4, 0.5
rank_transform true, false

以下是原文 Table 22 中 MPE 任务的 IPPO 超参数范围:

Hyperparameter Values
activation relu, tanh
pop_size 128, 512, 1024, 2048, 4096
learning_rate 5e-5, 1e-4, 2.5e-4, 1e-3
entropy_coef 0.001, 0.005, 0.01

6.4.2. 特定 MPE 任务的超参数

以下是原文 Table 23 中 MPE Simple Spread v3 任务的超参数:

Hyperparameter eggroll open_es ippo
activation tanh tanh tanh
deterministic_policy true true false
learning_rate 0.01 0.01 0.001
lr_decay 0.7 0.7 linear
layer_size 64 64 64
n_layers 3 3 3
pop_size 128 128 128
optimizer adamw adamw adam
rank 1 1 -
rank_transform false false
sigma 0.5 0.5
n_minibatches - - 4
update_epochs - - 4
gamma 0.99
gae_lambda 0.95
epsilon_clip 0.2
entropy_coef 0.01
value_coef 0.5
max_grad_norm 0.5

以下是原文 Table 24 中 MPE Simple Speaker Listener v4 任务的超参数:

Hyperparameter eggroll open_es ippo
activation tanh tanh relu
deterministic_policy true true false
learning_rate 0.01 0.01 0.001
lr_decay 0.7 0.3 linear
layer_size 64 64 64
n_layers 3 3 64
pop_size 512 512 512
optimizer adamw adamw adam
rank 1 1
rank_transform true true
sigma 0.5 0.5
n_minibatches - - 4
update_epochs - 4
gamma 0.99
gae_lambda 0.95
epsilon_clip 0.2
entropy_coef 0.005
value_coef 0.5
max_grad_norm 0.5

以下是原文 Table 25 中 MPE Simple Reference v3 任务的超参数:

Hyperparameter eggroll open_es ippo
activation pqn tanh relu
deterministic_policy true true false
learning_rate 0.01 0.01 0.001
lr_decay 0.3 0.3 linear
layer_size 64 64 64
n_layers 3 3 3
pop_size 4096 4096 4096
optimizer adamw adamw adam
rank 1 1
rank_transform false true -
sigma 0.1 0.3
n_minibatches - - 4
update_epochs 4
gamma 0.99
gae_lambda 0.95
epsilon_clip 0.2
entropy_coef 0.01
value_coef 0.5
max_grad_norm 0.5

6.4.3. Countdown 任务的超参数

以下是原文 Table 26 中 Countdown 任务的 EGGROLL 关键超参数:

Hyperparameter Value
Model RWKV 7g1.5B
Optimizer Gradient descent
ES standard deviation σ\sigma 7×1047 \times 10^{-4}
Rank rr 1
Learning-rate scale JscaleJ_{scale} 0.125
Population size 256
Parallel generations per GPU 1536
Prompts per epoch 6
Generation / thinking length 1000 tokens
Train / val temperature 0/0
Parallel validations 128

以下是原文 Table 27 中 Countdown 任务的 GRPO 关键超参数:

Hyperparameter Value
Model RWKV 7g1.5B
Optimizer Radam
Learning rate η\eta 3×1063 \times 10^{-6}
Generations per prompt G 8
Parallel generations per GPU 64
Prompts per epoch 8
Generation length 1000 tokens
Number of minibatches 4
PPO clip parameter clip 0.2
Train / val temperature 1/0
Parallel validations 128

6.4.4. GSM8K 任务的超参数

以下是原文 Table 28 中 GSM8K 任务的 EGGROLL 关键超参数:

Hyperparameter Value
Model RWKV 7g7B
ES standard deviation σ\sigma 2×1032 \times 10^{-3}
Rank rr 1
Learning-rate scale scale 0.06
Generations per prompt G 512
Parallel generations per GPU 1024
Total parallel generations 8192
Prompts per epoch 16
Generation length 1000 tokens
Noise reuse factor 1
Freeze non-LoRA params True
Train / val temperature 0 /0
Parallel validations 128

以下是原文 Table 29 中 GSM8K 任务的 GRPO 关键超参数:

Hyperparameter Value
Model RWKV 7g7B
Learning rate η\eta 1×1061 \times 10^{-6}
Generations per prompt G 8
Parallel generations per GPU 32
Total parallel generations 256
Prompts per epoch 32
Generation length 1000 tokens
Number of minibatches 16
Number of workers (processes) 8
PPO clip parameter Eclip 0.2
Train / val temperature 1/0
Parallel validations 128

6.5. 消融实验/参数分析

6.5.1. 数据高效训练 (Data Efficient Training)

  • 实验目的: 评估重复使用训练序列 (training sequences) 对 EGGROLL 性能的影响。

  • 方法: 在主实验中,每个反向对 (antithetical pair) 使用唯一的训练序列。消融实验中,允许每个序列最多被 512 个种群成员重复使用。

  • 结果 (原文 Figure 6):

    该图像是测试损失的变化曲线图,展示了数据高效的纯整数预训练过程。图中损失(bits/byte)随着训练步骤的增加逐渐降低,体现了不同种群规模对性能的影响。此外,颜色渐变代表不同的种群大小,显示出更大的种群规模能够有效提高训练效率。 该图像是测试损失的变化曲线图,展示了数据高效的纯整数预训练过程。图中损失(bits/byte)随着训练步骤的增加逐渐降低,体现了不同种群规模对性能的影响。此外,颜色渐变代表不同的种群大小,显示出更大的种群规模能够有效提高训练效率。

    • 在大型种群规模(4096 及以上)下,尽管使用了少 26 倍的数据,但性能相似。
    • 在小型种群规模下,出现不稳定性,这可能是由于在整个种群中重复使用相同的训练序列导致模型“过拟合”到特定序列,而不是泛化 (generalizing)。
  • 结论: EGGROLL 可以在数据高效的设置下运行,尤其是在大种群规模下,通过数据复用,显著减少所需数据量。

6.5.2. 控制不同种群规模的数据量 (Controlling For Data Across Population Sizes)

  • 实验目的: 区分大种群规模带来的益处是由于接收了更多数据,还是由于更多独特的扰动 (unique perturbations)。

  • 方法: 调整小种群规模的设置,使其每步接收与默认 32768 种群规模相同的数据量。例如,对于种群规模为 2 的情况,虽然只有一对反向扰动,但每个扰动会在 16384 个数据序列上进行评估。理论上,这能使每个扰动获得更清晰的适应度估计。

  • 结果 (原文 Figure 7):

    Figure 7: Test losses when different population sizes receive the same amount of data. 该图像是一个图表,展示了数据控制的纯整数预训练中的测试损失。横轴为训练步骤,纵轴为损失(单位:bits/byte),不同颜色的曲线表示不同的人口规模。可以看出,损失随着训练步骤的增加而逐渐降低,显示了EGGROLL算法在大规模人群中的有效性。

    • 关键发现: 最大化独特扰动的数量对于预训练性能至关重要。
    • 在种群规模为 2 时(类似于零阶优化),训练极其不稳定,表明零阶优化方法不适合预训练任务。
    • 这与 Qiuetal.(2025)Qiu et al. (2025) 的方法形成对比,后者通过重复使用相同的扰动数百次来在推理任务中获得 satisfactory 的速度,但 EGGROLL 的实验表明这种策略不适用于从头开始的预训练。
  • 结论: EGGROLL 成功的关键在于其能够高效地支持并利用大规模的独特扰动,而不是仅仅增加数据评估量。

6.5.3. EGGROLL 速度 (EGGROLL Speed)

  • 实验目的: 评估 EGGROLL 的训练速度及其与 jax 噪声生成集成的影响。

  • 设置: 在单个 GH200 (相当于一个 H100) GPU 上进行计时,使用 bfloat16 维数为 8192 的线性模型,最大批次大小为 1024。

  • 结果 (原文 Figure 8):

    Figure 8: Relative speed of EGGROLL, when including jax noise regeneration. 该图像是一个条形图,展示了EGGROLL、PPO和OpenES模型的归一化训练速度。EGGROLL的速度为91(69),PPO的速度为34,OpenES的速度为0.41(0.054)。

    • 相对速度: EGGROLL (91) 比 PPO (34) 和 OpenES (0.41) 快得多。
    • 噪声生成影响: 深色区域和括号中的值表示在运行时 (on-the-fly) 重新生成噪声时的速度,而整个条形表示噪声已预生成时的速度。EGGROLL 在运行时生成噪声时仍能保持高速 (69),而 OpenES 则急剧下降 (0.054)。
  • 结论: EGGROLL 实现了显著的训练速度提升,即使在运行时生成噪声也能保持高效,这归因于其低秩扰动仅需要少量内存,与原始参数矩阵大小的平方根成比例。

7. 总结与思考

7.1. 结论总结

本文介绍了 Evolution Guided General Optimization via Low-rank Learning (EGGROLL),一种创新性的进化策略 (ES) 算法,旨在将无反向传播 (backprop-free) 优化扩展到数十亿参数的大型神经网络,并支持超大规模的种群 (population sizes)。

EGGROLL 的核心贡献在于将低秩矩阵扰动引入 ES 的参数更新机制,显著解决了传统 ES 在大规模模型上遇到的计算和内存瓶颈。通过生成 ARm×rA \in \mathbb{R}^{m \times r}BRn×rB \in \mathbb{R}^{n \times r} 矩阵来形成低秩扰动 ABA B^\top(其中 rmin(m,n)r \ll \min(m,n)),EGGROLL 将每层的辅助存储从 O(mn)\mathcal{O}(mn) 减少到 O(r(m+n))\mathcal{O}(r(m+n)),并将前向传播的成本从 O(mn)\mathcal{O}(mn) 降低到 O(r(m+n))\mathcal{O}(r(m+n))

理论分析表明,EGGROLL 的低秩更新以快速的 O(1r)\mathcal{O}\left(\frac{1}{r}\right) 速率收敛到全秩更新,即使在极低的秩 rr(例如 r=1r=1)下也能保持高精度。

实验结果强有力地支持了 EGGROLL 的有效性:

  1. tabula-rasa RL 环境中,EGGROLL 在提供显著速度提升的同时,保持了与传统 ES 算法相当甚至更优的性能。

  2. LLM 推理任务(CountdownGSM8K)中,EGGROLL 与基于梯度的 GRPO 方法相比具有竞争力,并在某些情况下表现更优,尤其是在并行世代 (parallel generations) 数量上。

  3. EGGROLL 实现了纯整数数据类型的非线性循环语言模型的稳定预训练,这展示了其在硬件高效 AI 模型开发方面的巨大潜力。

    总而言之,EGGROLL 通过巧妙地结合低秩近似和 ES 的并行化优势,成功地将非梯度优化推向了超大规模 AI 应用的前沿,为解决传统优化方法面临的挑战提供了强大的新工具。

7.2. 局限性与未来工作

7.2.1. 局限性

  • r=1r=1 成功的理论解释: 尽管理论分析表明收敛速率为 O(1r)\mathcal{O}\left(\frac{1}{r}\right),但论文指出对于秩 r=1r=1 的情况,仍需进一步的理论分析来解释其在实践中的成功。这暗示了当前理论模型可能未能完全捕捉到所有影响因素。
  • 整数训练的优化器状态: 目前的纯整数训练实现不包含动量 (momentum) 或其他优化器状态。这可能会影响收敛速度和稳定性,虽然 EGGROLL 已经实现了稳定训练,但仍有改进空间。
  • 与现有 ES 优化技术的结合: 论文提到 Persistent Evolution Strategies 等技术与 EGGROLL 的关注点是正交的,但并未在实验中探索将这些技术(如在线更新、方差减少)与 EGGROLL 结合的潜力。

7.2.2. 未来工作

  • 更深层次的理论分析: 深入研究为何 r=1r=1 也能取得优异性能,可能需要更精细的理论模型来理解低秩扰动在优化景观中的行为。
  • 结合其他 ES 优化技术:EGGROLLPersistent Evolution Strategies、方差减少技术等结合,以进一步提高训练效率和性能。
  • 应用于更广阔的问题领域:
    • 神经符号系统 (Neuro-symbolic systems): EGGROLL 可以训练具有不可微组件的端到端神经符号系统,例如直接与符号模块(用于记忆或计算)交互的神经网络。
    • 端到端 LLM 系统: 优化复杂的 LLM 系统,使其能够感知推理时期的利用 (inference-time harnesses) 以及与其他智能体在复杂系统中的交互。
    • 新型硬件友好模型: 进一步探索和开发纯整数或其他低精度数据类型的模型架构,以充分利用 EGGROLL 的硬件友好特性。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 非梯度优化的新范式: EGGROLL 证明了在超大规模模型时代,非梯度优化并非遥不可及,甚至能在特定场景下超越梯度方法。这为那些因不可微性而受限的问题带来了新的希望。
  2. 跨领域思想的借鉴: LoRA 在梯度优化中的成功被巧妙地迁移到 ES 领域,这种跨领域借鉴的思路非常有启发性。它提醒我们在面对现有技术的瓶颈时,可以从看似不相关的领域寻找灵感。
  3. 硬件-算法协同设计的重要性: EGGROLL 的设计充分考虑了现代 GPU 的硬件特性(如 int8 矩阵乘法、批处理效率),通过算法上的优化来最大化硬件吞吐量。这种硬件-算法协同设计是推动 AI 发展的重要方向。
  4. 低秩近似的强大潜力: 即使是极低的秩 r=1r=1,也能在复杂任务中取得良好表现,这再次强调了信息压缩和有效表示在深度学习中的核心地位。
  5. 大种群规模的价值: 实验清晰地表明,对于预训练等探索性任务,大规模独特扰动(即大种群规模)是性能提升的关键,而不仅仅是增加数据量。这对于理解种群方法的内在机制具有重要意义。

7.3.2. 批判

  1. r=1r=1 的泛化性挑战: 尽管论文提供了理论分析,但对于 r=1r=1 这种极端低秩情况的成功,仍有待更普适、更深入的理论解释。在更复杂的真实世界任务中,r=1r=1 是否总是足够,或者是否存在其固有的局限性(例如表达能力受限),仍需进一步验证。
  2. 整数数据类型和激活函数的选择: 论文在 EGG 模型中移除传统激活函数,并依赖 int8 饱和加法的非线性。这种设计虽然硬件友好,但其表达能力、泛化能力以及是否会在某些任务上引入不必要的限制,仍需更全面的评估和比较。例如,如果任务需要更精细的非线性,这种设计能否胜任?
  3. 超参数敏感性: ES 方法通常对超参数(如 sigma、学习率)敏感。虽然论文进行了 HPO,但在超大规模设置下,这些参数的鲁棒性和调优成本仍可能是实际部署的挑战。
  4. 与更高级 ES 变体的比较: 论文主要与 OpenES 进行了比较,但未深入探讨与更高级的 ES 变体(如 CMA-ES 或结合方差减少技术的 ES)在低秩设置下的结合和比较。这些方法可能带来额外的性能或效率提升。
  5. 能源效率的量化: 论文提到了整数数据类型在能源效率方面的优势,但缺乏具体的能源消耗量化数据,这会使“大规模节能”的主张缺乏更强的实证支持。

7.3.3. 潜在的问题、未经验证的假设或可以改进的地方

  • 低秩扰动与模型容量 (Model Capacity) 的关系: 如何在理论上更好地连接低秩扰动 rr 的选择与模型在特定任务上的学习能力和容量?是否存在一个“最优”的 rr 值范围,而不仅仅是“越低越好”?
  • 噪声分布的选择: EGGROLL 假设 AABB 的元素服从高斯分布,并基于此推导了分数函数近似。探索其他噪声分布(例如均匀分布、拉普拉斯分布)是否能带来更好的性能或不同的收敛特性,以及如何调整相应的分数函数近似,可能会是值得研究的方向。
  • 动态秩 (Dynamic Rank) 调整: 在训练过程中动态调整秩 rr,例如从高秩开始,逐渐降低秩以提高效率,或根据任务复杂度自适应调整,可能会是未来改进的方向。
  • 更广泛的 LLM 任务评估: 除了推理任务,EGGROLLLLM 的生成 (generation)、摘要 (summarization) 或问答 (question answering) 等任务上的表现如何,以及在这些任务中是否也能展现出优势,值得进一步探索。
  • 开源工具和社区支持: 论文提供了代码链接,但为了推动 EGGROLL 的广泛应用,需要更完善的开源工具、文档和社区支持,以降低初学者和研究人员的入门门槛。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。