论文状态：已完成

mHC: Manifold-Constrained Hyper-Connections

发表：2025/12/31

流形约束超连接 (1)残差连接优化 (1)拓扑架构设计 (1)大规模训练效率 (1)基础模型演化 (1)

原文链接 PDF 下载

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种流形约束的超连接 (mHC) 方法，通过将超连接的残差连接空间投影到特定流形来恢复恒等映射属性，解决了以往超连接导致的训练不稳定和可扩展性问题。实验证明，mHC在大规模训练中效率高，性能卓越，具有重要的理论和实践意义。

摘要

Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and diversifying connectivity patterns. While yielding substantial performance gains, this diversification fundamentally compromises the identity mapping property intrinsic to the residual connection, which causes severe training instability and restricted scalability, and additionally incurs notable memory access overhead. To address these challenges, we propose Manifold-Constrained Hyper-Connections (mHC), a general framework that projects the residual connection space of HC onto a specific manifold to restore the identity mapping property, while incorporating rigorous infrastructure optimization to ensure efficiency. Empirical experiments demonstrate that mHC is effective for training at scale, offering tangible performance improvements and superior scalability. We anticipate that mHC, as a flexible and practical extension of HC, will contribute to a deeper understanding of topological architecture design and suggest promising directions for the evolution of foundational models.

思维导图

论文精读

中文精读约 29 分钟读完 · 17,594 字

1. 论文基本信息

1.1. 标题

mHC: Manifold-Constrained Hyper-Connections

中文可译为：mHC：流形约束的超连接

论文标题直接点明了其核心内容：这是一种对“超连接”（Hyper-Connections, HC）的改进，其关键技术在于施加了“流形约束”（Manifold-Constrained）。这预示着本文将运用几何或拓扑学的概念（流形）来规范化一种神经网络的连接方式，以达到特定目的（如提升稳定性或性能）。

1.2. 作者

Zhenda Xie*, Yixuan Wei*, Huanqi Cao*, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang.

所有作者均隶属于 DeepSeek-AI。这是一个来自业界顶尖人工智能研究机构的团队。通常，来自这类机构的论文具有以下特点：

关注大规模应用： 研究成果通常针对或验证于非常大规模的模型（如本文中的 27B LLM），具有很强的实践导向性。
系统与算法协同设计： 不仅关注算法理论，还非常重视配套的系统级优化（如 Kernel Fusion、并行策略），以确保方法在实际训练中的高效可行。
资源密集： 实验部分通常依赖强大的计算资源，这在学术界很难复现。

1.3. 发表期刊/会议

论文的发表时间戳是一个未来的虚构日期（2025-12-31），其 arXiv ID 为 2512.24880。这表明该论文目前是一篇发布在 arXiv 上的预印本 (Preprint)。

arXiv 是一个开放获取的学术论文预印本平台，研究者可以在同行评审前将他们的工作公之于众。虽然它不是正式的期刊或会议，但它是计算机科学等领域快速传播最新研究成果的最重要渠道。一篇论文的质量最终需要通过后续在顶级会议（如 NeurIPS, ICML, ICLR）或期刊上发表来得到正式认可。

1.4. 发表年份

2025年（根据 arXiv ID 推断）。

1.5. 摘要

论文摘要概括了研究的核心脉络：

背景： 最近以 超连接 (Hyper-Connections, HC) 为代表的研究，通过扩展残差流的宽度和连接模式，改进了经典的残差连接范式，并取得了性能提升。
问题： 然而，HC 的这种设计破坏了残差连接固有的 恒等映射 (identity mapping) 属性，导致了严重的训练不稳定、可扩展性受限，并带来了显著的内存访问开销。
方法 (mHC)： 为解决这些问题，论文提出了 流形约束的超连接 (Manifold-Constrained Hyper-Connections, mHC)。这是一个通用框架，它将 HC 的残差连接空间投影到一个特定的 流形 (manifold) 上，以恢复恒等映射属性。同时，论文还结合了严格的基础设施优化来保证效率。
结果： 实验证明，mHC 在大规模训练中表现出色，不仅带来了切实的性能提升，还展示了卓越的可扩展性。
结论： 作为 HC 的一个灵活且实用的扩展，mHC 有望加深对网络拓扑结构设计的理解，并为基础模型的发展指明新的方向。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2512.24880
PDF 链接: https://arxiv.org/pdf/2512.24880v1.pdf
发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

论文旨在解决 超连接 (Hyper-Connections, HC) 这一新兴神经网络架构在实际应用中的两大核心缺陷：训练不稳定和系统效率低下。

2.1.2. 问题的重要性与现有挑战 (Gap)

残差连接 (Residual Connection) 是过去十年深度学习领域最成功的架构设计之一，它通过允许信号直接“跳过”某些层，实现了对极深网络的稳定训练，是现代大语言模型（LLMs）的基石。

近期，HC 等工作尝试通过加宽残差流（从单通道变成多通道）并引入可学习的连接矩阵来混合不同通道的信息，从而提升模型性能。然而，这种自由、无约束的连接方式带来了新的问题：

破坏恒等映射，导致训练不稳定： 标准残差连接的核心优势在于其“恒等映射”特性，保证了信号可以在网络中无损传播。HC 的可学习连接矩阵 $\mathcal{H}^{\mathrm{res}}$ 在多层堆叠后，其累积效应（矩阵连乘）会导致信号强度被无限放大（爆炸）或衰减（消失），这在需要极高稳定性的大规模模型训练中是致命的。
系统开销巨大： 加宽的残差流意味着需要读写更多的数据，这会显著增加内存访问成本 (Memory Access Cost)，在硬件层面造成“内存墙”瓶颈，拖慢训练速度。此外，它也增加了模型并行时的通信开销。

因此，HC 虽然在理论上展现了潜力，但其稳定性和效率问题使其难以扩展到当前动辄千亿参数的基础模型 (Foundation Models) 中。这就是本文试图填补的空白。

2.1.3. 创新思路

本文的切入点非常巧妙：不抛弃 HC 的多流混合思想，而是对其加以“约束”。

作者们认为 HC 的问题根源在于其残差连接矩阵 $\mathcal{H}^{\mathrm{res}}$ 是完全无约束的 (unconstrained)。他们的核心创新思路是，将这个矩阵投影 (project) 到一个具有良好数学性质的特定流形 (manifold) 上。他们选择的流形是双随机矩阵 (doubly stochastic matrices) 构成的空间。

这种约束既能像标准残差连接一样保证信号传播的稳定性，又能保留 HC 中不同残差流之间的信息交互能力，从而在稳定性和表达能力之间找到了一个绝佳的平衡点。同时，他们还通过一系列底层系统优化来解决效率问题，使该方法真正具备了大规模应用价值。

2.2. 核心贡献/主要发现

提出 mHC 框架： 提出了流形约束的超连接 (mHC)，一个通过将 HC 的残差连接矩阵投影到双随机矩阵流形上，来恢复信号传播稳定性的通用架构。
理论与实践上的稳定性验证： 从理论上分析了双随机矩阵的保范性和组合闭包性如何保证多层网络中的信号稳定。并通过实验（原文 Figure 7）证实，mHC 相比 HC 将信号增益幅度降低了三个数量级，极大地提升了训练稳定性。
高效的系统级实现： 设计并实现了一套包括核函数融合 (Kernel Fusion)、重计算 (Recomputing) 和通信计算重叠 (Overlapping Communication) 在内的基础设施优化方案，成功将 mHC 在大规模模型（ $n=4$ ）中的额外训练时间开销控制在 6.7%，解决了 HC 的效率瓶颈。
卓越的性能和可扩展性： 在最大 27B 参数的 MoE 语言模型上进行的实验表明，mHC 不仅训练过程稳定，而且在多个下游任务上取得了超越 HC 和基线模型的性能。缩放实验（原文 Figure 6）也证明了其优势在更大模型和更多数据下依然稳固。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 残差连接 (Residual Connection)

残差连接是 ResNet (He et al., 2016a) 提出的一种革命性网络结构。在一个标准的神经网络层中，输出 $y$ 是输入 $x$ 经过一个非线性变换 $\mathcal{F}(x)$ 得到的，即 $y = \mathcal{F}(x)$ 。而在一个残差块中，输出是输入与变换结果的和，即 $y = x + \mathcal{F}(x)$ 。

在论文中，第 $l$ 层的公式表示为： $\mathbf { x } _ { l + 1 } = \mathbf { x } _ { l } + \mathcal { F } ( \mathbf { x } _ { l } , \mathcal { W } _ { l } )$ 其中：

$\mathbf{x}_l$ 和 $\mathbf{x}_{l+1}$ 分别是第 $l$ 层的输入和输出。
$\mathcal{F}$ 是残差函数，例如包含卷积、注意力等操作的模块。
$\mathcal{W}_l$ 是 $\mathcal{F}$ 的参数。
$\mathbf{x}_l$ 这一项被称为 恒等映射 (identity mapping) 或“捷径连接”(shortcut connection)。

核心作用： 这个简单的“+”号操作，允许梯度在反向传播时可以直接流过恒等映射路径，而不经过 $\mathcal{F}$ 的权重层。这极大地缓解了梯度消失 (vanishing gradients) 问题，使得训练非常深的网络（如几百甚至上千层）成为可能。当多层堆叠时，深层 $L$ 的输入可以表示为浅层 $l$ 的输入加上一系列残差函数的和，信号可以无损地从浅层传播到深层： $\pmb { x } _ { L } = \mathbf { x } _ { l } + \sum _ { i = l } ^ { L - 1 } \mathcal { F } ( \mathbf { x } _ { i } , \mathcal { W } _ { i } )$

3.1.2. 双随机矩阵 (Doubly Stochastic Matrix)

这是理解 mHC 方法的关键数学概念。一个方阵 $A$ 如果满足以下三个条件，则被称为双随机矩阵：

非负性： 矩阵的所有元素都大于等于 0。
行和为1： 矩阵每一行的元素之和都等于 1。
列和为1： 矩阵每一列的元素之和都等于 1。

例如，一个 $2 \times 2$ 的双随机矩阵： $A = \begin{pmatrix} 0.8 & 0.2 \\ 0.2 & 0.8 \end{pmatrix}$

重要性质：

保范性 (Norm Preservation)： 双随机矩阵的谱范数（最大奇异值）小于或等于1。这意味着当它作用于一个向量时，不会放大向量的长度（欧几里得范数），从而可以防止信号爆炸。
组合闭包性 (Compositional Closure)： 两个双随机矩阵的乘积仍然是一个双随机矩阵。这个性质至关重要，因为它保证了即使在网络中堆叠多层 mHC，其累积效应（矩阵连乘）仍然是稳定的。
Birkhoff 多胞体 (Birkhoff Polytope)： 所有 $n \times n$ 双随机矩阵的集合构成一个凸多胞体，其顶点是所有的 $n \times n$ 置换矩阵 (permutation matrices)。这意味着任何双随机矩阵都可以表示为置换矩阵的凸组合。从直觉上看，它代表了一种对输入特征进行“柔性”置换和加权平均的操作。

3.1.3. 预归一化 (Pre-Norm) Transformer

Transformer 模型中的层归一化（Layer Normalization）位置有两种主流设计：Post-Norm（原始设计，在残差连接之后）和 Pre-Norm（在残差连接之前）。Pre-Norm 结构通常被认为训练更稳定，尤其是在深层网络中，因此在现代大语言模型中被广泛采用。本文的分析也是基于 Pre-Norm 架构。

3.2. 前人工作

3.2.1. 超连接 (Hyper-Connections, HC)

HC 是本文的直接前身和改进对象。它对标准残差连接进行了扩展，其核心思想是：

加宽残差流： 将原来维度为 $C$ 的单个残差流，扩展为 $n$ 个并行流，总维度变为 $n \times C$ 。
引入可学习映射： 引入三个可学习的矩阵/向量来控制这 $n$ 个流与主计算模块 $\mathcal{F}$ 之间的信息交互。

其单层传播公式为： $\pmb { x } _ { l + 1 } = \mathcal { H } _ { l } ^ { \mathrm { res } } \pmb { x } _ { l } + \mathcal { H } _ { l } ^ { \mathrm { p o s t } \top } \mathcal { F } ( \mathcal { H } _ { l } ^ { \mathrm { p r e } } \pmb { x } _ { l } , \mathcal { W } _ { l } )$ 其中：

$\pmb{x}_l, \pmb{x}_{l+1} \in \mathbb{R}^{n \times C}$ 是扩展后的多流残差状态。
$\mathcal{H}_{l}^{\mathrm{pre}} \in \mathbb{R}^{1 \times n}$ ：一个行向量，用于从 $n$ 个流中读取 (read-out) 信息，聚合成一个 $C$ 维向量送入主干模块 $\mathcal{F}$ 。
$\mathcal{H}_{l}^{\mathrm{post}} \in \mathbb{R}^{1 \times n}$ ：一个行向量，用于将 $\mathcal{F}$ 的输出写入 (write-in) 到 $n$ 个流中。
$\mathcal{H}_{l}^{\mathrm{res}} \in \mathbb{R}^{n \times n}$ ：一个方阵，用于在 $n$ 个残差流之间进行信息混合与更新。

当 HC 堆叠多层时，从浅层 $l$ 到深层 $L$ 的信号传播会受到一个累乘矩阵的影响，即 $\prod_{i=1}^{L-l} \mathcal{H}_{L-i}^{\mathrm{res}}$ 。由于 $\mathcal{H}^{\mathrm{res}}$ 是无约束的，这个连乘积的范数很容易变得非常大或非常小，从而导致信号的爆炸或消失，破坏了训练稳定性。

3.2.2. 其他宏观架构设计 (Macro Design)

DenseNet, FractalNet, DLA: 这些早期工作通过引入更密集的跨层连接或分形结构来增强网络的特征重用和信息流，旨在提升性能，其共同点是增加了网络拓扑的复杂性。
RMT, MUDDFormer 等: 这些是与 HC 同期的工作，同样探索了加宽或改进残差连接的设计，例如用外积矩阵存储信息，或使用动态密集连接。它们和 HC 一样，虽然提升了模型的表达能力，但也面临着破坏恒等映射属性、引入不稳定性的风险。

3.3. 技术演进

网络宏观架构的设计经历了从简单的线性堆叠，到引入“捷径”的 ResNet，再到探索更复杂拓扑的 DenseNet 等。近期，随着模型规模的急剧增长，研究焦点再次回到最根本的残差连接上，试图通过加宽残差流（如 HC, RMT）来在不显著增加计算量（FLOPs）的情况下提升模型的容量和性能。

本文的工作正处于这一技术脉络的最新阶段。它认识到了“加宽”带来的“不稳定”副作用，并创造性地引入了流形约束这一数学工具来解决此问题，标志着该方向从“野蛮生长”走向了“精细调控”。

3.4. 差异化分析

mHC vs. HC: 核心区别在于对残差连接矩阵 $\mathcal{H}^{\mathrm{res}}$ 的处理。HC 是无约束的，mHC 则强制其为双随机矩阵。这使得 mHC 在保留 HC 多流信息交互优势的同时，恢复了信号传播的稳定性。
mHC vs. 标准残差连接: 标准残差连接是 mHC 在 $n=1$ 时的特例。当 $n>1$ 时，mHC 允许在多个并行的残差流之间进行可学习的、稳定的信息融合，而标准残差连接只有一个流，且连接是固定的恒等映射。
mHC vs. 其他宏观设计: 相比于 DenseNet 等通过密集连接增加特征复用的方法，mHC 专注于在保持标准 Transformer 拓扑结构不变的前提下，增强单个残差块内部的信息容量和流动性。此外，mHC 包含了针对大规模训练的系统级优化，这是许多纯算法模型设计所缺乏的。

4. 方法论

本部分详细拆解 mHC 的技术方案，从其核心原理到具体的参数化和实现细节。

4.1. 方法原理

mHC 的核心思想是在 HC 的基础上，对起关键作用的残差映射矩阵 $\mathcal{H}_l^{\mathrm{res}}$ 施加约束，使其属于一个特定的数学空间——双随机矩阵流形。

动机： 标准残差连接的稳定性来源于 $\mathcal{H}_l^{\mathrm{res}} = \mathbf{I}$ （单位矩阵），但这完全禁止了多流之间的信息交换。而 HC 的无约束 $\mathcal{H}_l^{\mathrm{res}}$ 虽然允许信息交换，但会导致信号不稳定。
解决方案： 寻找一种既能保证稳定性，又能促进信息交互的约束。双随机矩阵（Doubly Stochastic Matrix）完美地满足了这些要求。

因此，mHC 将原始的 $\mathcal{H}_l^{\mathrm{res}}$ 投影到双随机矩阵流形 $\mathcal{M}^{\mathrm{res}}$ 上。这个流形的正式定义如下（原文 Eq. 8）： $\mathcal { P } _ { \mathcal { M } ^ { \mathrm { r e s } } } ( \mathcal { H } _ { l } ^ { \mathrm { r e s } } ) : = \left\{ \mathcal { H } _ { l } ^ { \mathrm { r e s } } \in \mathbb { R } ^ { n \times n } \ : | \ : \mathcal { H } _ { l } ^ { \mathrm { r e s } } \mathbf { 1 } _ { n } = \mathbf { 1 } _ { n } , \ : \mathbf { 1 } _ { n } ^ { \top } \mathcal { H } _ { l } ^ { \mathrm { r e s } } = \mathbf { 1 } _ { n } ^ { \top } , \ : \mathcal { H } _ { l } ^ { \mathrm { r e s } } \geqslant 0 \right\}$ 其中：
$\mathcal{H}_l^{\mathrm{res}} \in \mathbb{R}^{n \times n}$ ：表示这是一个 $n \times n$ 的实数矩阵。
$\mathcal{H}_l^{\mathrm{res}} \ge 0$ ：矩阵所有元素非负。
$\mathcal{H}_l^{\mathrm{res}} \mathbf{1}_n = \mathbf{1}_n$ ：矩阵的行和为1（ $\mathbf{1}_n$ 是一个全为1的 $n$ 维列向量）。
$\mathbf{1}_n^{\top} \mathcal{H}_l^{\mathrm{res}} = \mathbf{1}_n^{\top}$ ：矩阵的列和为1（ $\mathbf{1}_n^{\top}$ 是一个全为1的 $n$ 维行向量）。

这个约束带来了三个关键的理论保证：

保范性 (Norm Preservation): 双随机矩阵的谱范数（ $\|\cdot\|_2$ ）不大于1，这意味着它不会放大信号，从根本上防止了梯度爆炸。
组合闭包性 (Compositional Closure): 双随机矩阵的乘积依然是双随机矩阵。这保证了在深层网络中，累积的残差映射 $\prod \mathcal{H}^{\mathrm{res}}$ 仍然是稳定的，其范数不会爆炸。
几何解释： 双随机矩阵构成的 Birkhoff 多胞体是所有置换矩阵的凸包。这意味着 $\mathcal{H}_l^{\mathrm{res}}$ 的作用可以被理解为对 $n$ 个残差流进行了一次加权的、柔性的排列组合，是一种鲁棒的特征融合机制。

4.2. 核心方法详解 (逐层深入)

mHC 的完整计算流程分为两步：首先生成无约束的动态映射，然后将其投影到目标流形上。

4.2.1. 步骤一：生成无约束的映射

与 HC 类似，mHC 的映射矩阵也是动态生成的，即其数值依赖于当前层的输入。但 mHC 采用了更全局的上下文信息。

给定第 $l$ 层的输入隐状态矩阵 $\mathbf{x}_l \in \mathbb{R}^{n \times C}$ ，首先将其展平（flatten）为一个长向量 $\vec{\mathbf{x}}_l \in \mathbb{R}^{1 \times nC}$ 。然后，通过以下计算得到无约束的中间映射 $\tilde{\mathcal{H}}$ （原文 Eq. 10）： $\left\{ \begin{array} { l l } { \vec { \mathbf { x } } _ { l } ^ { \prime } = \mathbf { R M S N o r m } ( \vec { \mathbf { x } } _ { l } ) } \\ { \mathcal { \tilde { H } } _ { l } ^ { \mathrm { p r e } } = \alpha _ { l } ^ { \mathrm { p r e } } \cdot ( \vec { \mathbf { x } } _ { l } ^ { \prime } \boldsymbol { \varphi } _ { l } ^ { \mathrm { p r e } } ) + \mathbf { b } _ { l } ^ { \mathrm { p r e } } } \\ { \mathcal { \tilde { H } } _ { l } ^ { \mathrm { p o s t } } = \alpha _ { l } ^ { \mathrm { p o s t } } \cdot ( \vec { \mathbf { x } } _ { l } ^ { \prime } \boldsymbol { \varphi } _ { l } ^ { \mathrm { p o s t } } ) + \mathbf { b } _ { l } ^ { \mathrm { p o s t } } } \\ { \mathcal { \tilde { H } } _ { l } ^ { \mathrm { r e s } } = \alpha _ { l } ^ { \mathrm { r e s } } \cdot \mathrm { m a t } ( \vec { \mathbf { x } } _ { l } ^ { \prime } \boldsymbol { \varphi } _ { l } ^ { \mathrm { r e s } } ) + \mathbf { b } _ { l } ^ { \mathrm { r e s } } , } \end{array} \right.$ 符号解释：

$\vec{\mathbf{x}}_l' \in \mathbb{R}^{1 \times nC}$ ：对展平后的输入向量进行 RMSNorm 归一化后的结果。
$\boldsymbol{\varphi}_l^{\mathrm{pre}} \in \mathbb{R}^{nC \times n}$ , $\boldsymbol{\varphi}_l^{\mathrm{post}} \in \mathbb{R}^{nC \times n}$ , $\boldsymbol{\varphi}_l^{\mathrm{res}} \in \mathbb{R}^{nC \times n^2}$ ：可学习的线性投影权重矩阵。
$\mathbf{b}_l^{\mathrm{pre}} \in \mathbb{R}^{1 \times n}$ , $\mathbf{b}_l^{\mathrm{post}} \in \mathbb{R}^{1 \times n}$ , $\mathbf{b}_l^{\mathrm{res}} \in \mathbb{R}^{n \times n}$ ：可学习的偏置项。
$\alpha_l^{\mathrm{pre}}, \alpha_l^{\mathrm{post}}, \alpha_l^{\mathrm{res}}$ ：可学习的标量门控因子，初始化为小值，用于控制动态映射的强度。
$\mathrm{mat}(\cdot)$ ：将一个 $1 \times n^2$ 的向量重塑为一个 $n \times n$ 的矩阵。
$\tilde{\mathcal{H}}_l^{\mathrm{pre}}, \tilde{\mathcal{H}}_l^{\mathrm{post}} \in \mathbb{R}^{1 \times n}$ ， $\tilde{\mathcal{H}}_l^{\mathrm{res}} \in \mathbb{R}^{n \times n}$ ：生成的无约束中间映射。

4.2.2. 步骤二：流形投影

接下来，将上一步得到的无约束映射 $\tilde{\mathcal{H}}$ 投影到各自的目标流形上，得到最终的约束后映射 $\mathcal{H}$ （原文 Eq. 11）： $\left\{ \begin{array} { l l } { \mathcal { H } _ { l } ^ { \mathrm { p r e } } = \sigma ( \tilde { \mathcal { H } } _ { l } ^ { \mathrm { p r e } } ) } \\ { \mathcal { H } _ { l } ^ { \mathrm { p o s t } } = 2 \sigma ( \tilde { \mathcal { H } } _ { l } ^ { \mathrm { p o s t } } ) } \\ { \mathcal { H } _ { l } ^ { \mathrm { r e s } } = \mathrm { Sinkhorn–Knopp } ( \tilde { \mathcal { H } } _ { l } ^ { \mathrm { r es } } ) , } \end{array} \right.$ 符号解释：

$\sigma(\cdot)$ ：Sigmoid 函数。将 $\tilde{\mathcal{H}}_l^{\mathrm{pre}}$ 的元素映射到 $(0, 1)$ 区间，使其成为非负的权重。
$2\sigma(\cdot)$ ：将 $\tilde{\mathcal{H}}_l^{\mathrm{post}}$ 的元素映射到 $(0, 2)$ 区间。
$\mathrm{Sinkhorn–Knopp}(\cdot)$ ：Sinkhorn-Knopp 算法，这是实现双随机矩阵投影的核心。

4.2.3. Sinkhorn-Knopp 算法详解

该算法是一个迭代过程，可以将任意一个元素为正的方阵转换为一个双随机矩阵。

初始化： 首先，对输入的无约束矩阵 $\tilde{\mathcal{H}}_l^{\mathrm{res}}$ 应用指数函数，确保所有元素为正。 $\mathbf{M}^{(0)} = \exp(\tilde{\mathcal{H}}_l^{\mathrm{res}})$
迭代归一化： 然后，交替地对矩阵的行和列进行归一化，使其和为1。迭代过程如下（原文 Eq. 12）： $\mathbf { M } ^ { ( t ) } = \mathcal { T } _ { r } \left( \mathcal { T } _ { c } ( \mathbf { M } ^ { ( t - 1 ) } ) \right)$ 其中：
- $\mathcal{T}_c(\mathbf{M})$ ：列归一化。将 $\mathbf{M}$ 的每个元素除以其所在列的和。
- $\mathcal{T}_r(\mathbf{M})$ ：行归一化。将 $\mathbf{M}$ 的每个元素除以其所在行的和。
收敛： 这个过程会快速收敛到一个唯一的双随机矩阵。在实践中，不需要无限次迭代。论文中设置迭代次数 $t_{\mathrm{max}} = 20$ ，这足以在计算效率和精度之间取得良好平衡。最终得到的 $\mathcal{H}_l^{\mathrm{res}} = \mathbf{M}^{(t_{\mathrm{max}})}$ 就是一个近似的双随机矩阵。

4.3. 高效的基础设施设计

为了让 mHC 在大规模训练中实用，论文设计了三项关键的系统级优化。

4.3.1. 核函数融合 (Kernel Fusion)

问题： mHC 的计算过程涉及多个独立的 small-scale 操作（如 RMSNorm、矩阵乘法、Sigmoid 等），如果每个操作都调用一个独立的 GPU 核函数，会导致大量的内存读写（I/O）和核函数启动开销，成为效率瓶颈。
解决方案： 将多个连续的、共享内存访问的操作合并（fuse）到一个定制的 GPU 核函数中。例如，将 RMSNorm、权重为 $\varphi$ 的矩阵乘法、加偏置 $\mathbf{b}$ 、乘以 $\alpha$ 等操作融合为一个大核函数。
工具： 论文使用 TileLang 框架来实现这些复杂的融合核函数，该框架能以较少的工程量高效利用 GPU 的内存带宽和计算单元。

4.3.2. 重计算 (Recomputing)

问题： mHC 的 $n$ 流设计使得每一层的激活值（activations）是标准模型的 $n$ 倍，这会极大地增加 GPU 显存占用，在反向传播时尤其突出。
解决方案： 采用类似梯度检查点 (Gradient Checkpointing) 的策略。在前向传播时，计算完 mHC 相关的中间激活值后立即丢弃，不保存到显存中。在反向传播需要用到这些值时，再通过重新执行一遍（轻量的）mHC 前向计算来即时生成 (on-the-fly)。
优化块大小： 为了最小化总显存占用（持久存储的检查点 + 临时重计算的峰值），论文推导了最佳的重计算块大小 $L_r^*$ 的公式（原文 Eq. 20）： $L _ { r } ^ { * } = \arg \operatorname* { m i n } _ { L _ { r } } \left[ n C \times \left\lceil \frac { L } { L _ { r } } \right\rceil + ( n + 2 ) C \times L _ { r } \right] \approx \sqrt { \frac { n L } { n + 2 } }$ 其中 $L$ 是总层数， $n$ 是扩展率， $C$ 是隐藏层维度。这个公式平衡了存储检查点的开销和重计算一个块的临时开销。

4.3.3. 在 DualPipe 中重叠通信

下图（原文 Figure 4）展示了 mHC 在 DualPipe 流水线并行调度下的优化。

$Figure 4 | Communication-Computation Overlapping for mHC. We extend the DualPipe schedule to handle the overhead introduced by mHC. Lengths of each block are illustrative only and do not represent actual duration. (F), (B), (W) refers to forward pass, backward pass, weight gradient computation, respectively. $\\mathcal { F } ^ { \\mathrm { A } }$ and ${ \\mathcal { F } } ^ { \\mathrm { M } }$ represents kernels corresponded to Attention and MLP, respectively.$ 该图像是示意图，展示了mHC中的通信与计算重叠过程。图中分为正常计算流、通信流和高优先级计算流，分别表示MLP和ATTN的前向、反向及权重梯度计算（F、B、W）。注意到每个模块的长度仅为示意，并不代表实际持续时间。公式中， $\mathcal{F}^{\mathrm{A}}$ 和 $\mathcal{F}^{\mathrm{M}}$ 分别表示对应于注意力机制和多层感知机的核。

问题： 在流水线并行中，各阶段（Stage）之间需要传递激活值。mHC 的 $n$ 倍激活值导致通信量大增。同时，在每个阶段的边界，重计算本身也需要时间，可能阻塞流水线。
解决方案： 对 DualPipe 调度进行扩展，以更好地重叠 (overlap) 通信和计算。
1. 高优先级计算流： 将某些计算（如 MLP 层的 mHC 计算）放到一个专门的高优先级 CUDA Stream 上执行，确保它们能及时完成，不阻塞关键的通信路径。
2. 解耦依赖： 重计算过程依赖的初始激活值 $\mathbf{x}_{l_0}$ 已经在本地缓存，因此重计算本身可以与流水线的跨设备通信解耦，并行进行。
3. 抢占式计算： 避免在注意力层使用长时间运行的持久化核函数，允许通信任务在必要时抢占计算资源，从而提高 GPU 利用率和流水线效率。

5. 实验设置

5.1. 数据集

预训练数据集： 论文没有明确指出具体使用了哪些文本语料库进行预训练。但附录的 Table 5 提供了训练数据的规模，范围从 39.3B 到 1.05T 词元 (tokens)。这是工业界大模型论文中常见的做法，通常使用内部构建的、混合多种来源（网页、书籍、代码等）的庞大数据集。
下游评估数据集： 实验在多个公开的基准测试集上评估了模型的零样本（0-shot）和少样本（few-shot）能力，涵盖了常识推理、问答、数学和代码等多个方面。这些数据集包括：
- BBH (Big-Bench Hard): 一组挑战性的多任务基准。
- DROP: 一个需要对段落进行离散推理的阅读理解数据集。
- GSM8K: 小学水平的数学应用题。
- HellaSwag: 对句子结尾进行常识性选择。
- MATH: 具有挑战性的高中和大学水平数学竞赛题。
- MMLU: 一个涵盖57个学科的大规模多任务测试。
- PIQA: 物理常识推理问答。
- TriviaQA: 一个大规模知识问答数据集。
  
  选择这些多样化的数据集可以全面地评估模型在不同能力维度上的表现。

5.2. 评估指标

论文中使用了多种评估指标，这里对它们进行详细解释。

5.2.1. 训练损失 (Training Loss)

概念定义: 训练损失是模型在训练过程中的核心优化目标，通常是交叉熵损失（Cross-Entropy Loss）。它衡量了模型预测的下一个词元的概率分布与真实下一个词元之间的差异。损失值越低，代表模型的预测越准确。
数学公式: 对于一个词元序列，交叉熵损失计算如下： $L_{CE} = -\sum_{i=1}^{T} \log P(y_i | y_1, ..., y_{i-1}; \theta)$
符号解释:
- $T$ : 序列的长度。
- $y_i$ : 序列中第 $i$ 个真实词元。
- $P(y_i | ...; \theta)$ : 模型在给定前面的词元和模型参数 $\theta$ 的条件下，预测第 $i$ 个词元为 $y_i$ 的概率。

5.2.2. 精确匹配率 (Exact Match, EM)

概念定义: 该指标衡量模型生成的答案与标准答案完全一致的样本比例。它是一个非常严格的指标，要求答案在文本上逐字匹配，包括标点和大小写。常用于需要精确答案的任务，如 GSM8K 和 TriviaQA。
数学公式: $\text{EM} = \frac{1}{N} \sum_{i=1}^{N} \mathbb{I}(\text{pred}_i = \text{ans}_i)$
符号解释:
- $N$ : 样本总数。
- $\text{pred}_i$ : 模型对第 $i$ 个样本的预测答案。
- $\text{ans}_i$ : 第 $i$ 个样本的一个或多个标准答案中的一个。
- $\mathbb{I}(\cdot)$ : 指示函数，当条件为真时取1，否则取0。

5.2.3. F1 分数 (F1 Score)

概念定义: F1 分数是精确率（Precision）和召回率（Recall）的调和平均值。在文本任务（如 DROP）中，它被用来评估生成答案和标准答案之间在词元级别的重叠程度，比 EM 更具鲁棒性，因为它允许部分正确。
数学公式: $\text{Precision} = \frac{|\text{pred} \cap \text{ans}|}{|\text{pred}|}$ $\text{Recall} = \frac{|\text{pred} \cap \text{ans}|}{|\text{ans}|}$ $F_1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$
符号解释:
- pred: 模型预测答案中的词元集合。
- ans: 标准答案中的词元集合。
- $|\cdot|$ : 集合中元素的数量。
- $\cap$ : 集合的交集。

5.2.4. 准确率 (Accuracy, Acc.)

概念定义: 该指标衡量模型在分类或选择题任务中做出正确选择的样本比例。例如，在 MMLU 或 HellaSwag 中，模型需要从多个选项中选出正确的一个。
数学公式: $\text{Acc.} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$
符号解释:
- Number of Correct Predictions: 模型做出正确选择的样本数量。
- Total Number of Predictions: 总样本数量。

5.3. 对比基线

实验设置了三个主要的模型变体进行对比：

Baseline (基线模型): 一个基于 DeepSeek-V3 架构的 MoE (Mixture-of-Experts) Transformer 模型。该模型不包含任何 HC 或 mHC 结构，使用标准的单流残差连接。
HC 模型: 在基线模型的基础上，加入了原始的、无约束的 Hyper-Connections。
mHC 模型 (本文方法): 在基线模型的基础上，加入了本文提出的 Manifold-Constrained Hyper-Connections。

这组对比实验设计得非常干净，唯一的变量就是残差连接的方式，因此能够清晰地分离出 HC 和 mHC 各自带来的影响。所有实验中，HC 和 mHC 的残差流扩展率 $n$ 都被设置为 4。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 训练稳定性对比

下图（原文 Figure 5）直观地展示了 mHC 在解决 HC 稳定性问题上的决定性作用。

$Figure 5 | Training Stability of Manifold-Constrained Hyper-Connections $\\textstyle ( m \\mathbf { H } \\mathbf { C } )$ . This figure illustrates (a) the absolute training loss gap of mHC and HC relative to the baseline, and (b) the gradient norm of the three methods. All experiments utilize the 27B model. The results demonstrate that mHC exhibits improved stability in terms of both loss and gradient norm.$ 该图像是图表，展示了 mHC 和 HC 相较于基线的（a）绝对训练损失差距及（b）梯度范数随训练步骤变化的情况。实验结果表明，mHC 在损失和梯度范数上均展现了更好的稳定性。

训练损失 (图a):
- mHC（蓝色曲线）的损失曲线平滑下降，并且其损失值始终低于基线模型（mHC 的损失差距为负值），表明 mHC 带来了持续的性能增益。
- HC（橙色曲线）的损失在训练初期同样低于基线，但在约 12k 步时出现了剧烈的损失尖峰 (loss spike)，绝对损失差距突然飙升。这正是训练不稳定的典型表现。
梯度范数 (图b):
- 梯度范数直接反映了训练的稳定性。mHC 和基线模型的梯度范数都保持在一个平稳的范围内。
- HC 的梯度范数在损失出现尖峰的同一时间点也急剧增大，证实了其不稳定性源于梯度的剧烈波动，即梯度爆炸。
  
  结论： mHC 通过流形约束成功抑制了 HC 的不稳定性，实现了平稳且高效的训练过程。

6.1.2. 传播稳定性分析

为了从机理上验证 mHC 的有效性，论文分析了信号在网络中传播时的增益幅度。下图对比了 HC（原文 Figure 3）和 mHC（原文 Figure 7）的信号传播动态。

$Figure 3 | Propagation Instability of Hyper-Connections (HC). This figure illustrates the propagation dynamics of (a) the single-layer mapping $\\mathcal { H } _ { l } ^ { \\mathrm { r e s } }$ ad (b) the composite mapping $\\Pi _ { i = 1 } ^ { L - l } \\mathcal { H } _ { L - i } ^ { \\mathrm { r e s } }$ $\\mathbf { \\hat { x } } \\mathbf { \\cdot }$ block into two independent layers (Attention and FFN). The Amax Gain Magnitude (y-axis) is calculated as the maximum absolute row sum (for the forward signal) and column sum (for the backward gradient), averaged over all tokens in a selected sequence.$ 该图像是图表，展示了超连接（HC）传播的不稳定性。从左侧的图(a)中可以看到单层映射 $\mathcal{H}_{l}^{\text{res}}$ 的前向信号增益与反向梯度增益的变化；而右侧的图(b)展示了复合映射 $\Pi_{i=1}^{L-l} \mathcal{H}_{L-i}^{\text{res}}$ 的前向信号增益和反向梯度增益。y轴表示Amax增益幅度。

$Figure 7 | Propagation Stability of Manifold-Constrained Hyper-Connections $\\textstyle ( m \\mathbf { H } \\mathbf { C } )$ . This figure illustrates the propagation dynamics of (a) the single-layer mapping $\\mathcal { P } _ { M ^ { \\mathrm { r e s } } } ( \\mathcal { H } _ { l } ^ { \\mathrm { r e s } } )$ and (b) the composite mapping $\\Pi _ { i = 1 } ^ { L - l } { \\mathcal { P } } _ { M ^ { \\mathrm { r e s } } } ( { \\mathcal { H } } _ { L - i } ^ { \\mathrm { r e s } } )$ w h me Te sult demott mHC significantly enhances propagation stability compared to HC.$ 该图像是一个图表，展示了流形约束超连接（mHC）的传播稳定性。左侧（a）为单层映射 $\mathcal{P}_{M^{\mathrm{res}}}(\mathcal{H}_{l}^{\mathrm{res}})$ 的信号增益，而右侧（b）为复合映射 $\Pi_{i=1}^{L-l} \mathcal{P}_{M^{\mathrm{res}}}(\mathcal{H}_{L-i}^{\mathrm{res}})$ 的信号增益。图中显示，mHC 在前向信号增益和反向梯度增益方面均显著提升了传播稳定性。

Amax 增益幅度 (Amax Gain Magnitude): 该指标被定义为连接矩阵的最大绝对行和（代表前向信号增益）或最大绝对列和（代表反向梯度增益）。理想的恒等映射该值为1。
HC (上图):
- 单层映射 (图a) 的增益已经出现较大波动。
- 多层复合映射 (图b) 的增益则出现了高达 3000 的峰值，这意味着信号被放大了数千倍，证实了信号爆炸的发生。
mHC (下图):
- 单层映射 (图a) 的增益被严格控制在 1 附近。
- 多层复合映射 (图b) 的增益虽然略有累积偏差（因为 Sinkhorn-Knopp 是近似求解），但最大值仍被控制在 约 1.6。
结论： mHC 相比 HC 将信号传播的最大增益降低了三个数量级，从根本上保证了信号和梯度在深层网络中的稳定流动。

6.1.3. 下游任务性能

以下是原文 Table 4 的结果，展示了 27B 模型在多个下游基准上的性能。

Benchmark (Metric)	BBH (EM)	DROP (F1)	GSM8K (EM)	HellaSwag (Acc.)	MATH (EM)	MMLU (Acc.)	PIQA (Acc.)	TriviaQA (EM)
# Shots	3-shot	3-shot	8-shot	10-shot	4-shot	5-shot	0-shot	5-shot
27B Baseline	43.8	47.0	46.7	73.7	22.0	59.0	78.5	54.3
27B w/ HC	48.9	51.6	53.2	74.3	26.4	63.0	79.9	56.3
27B w/ mHC	51.0	53.9	53.8	74.7	26.0	63.4	80.5	57.6

分析：
- mHC 在所有八个基准上都显著优于基线模型。
- 更重要的是，mHC 在绝大多数任务上都超越了 HC。特别是在需要复杂推理的任务上，如 BBH（提升2.1%）和 DROP（提升2.3%），mHC 的优势更为明显。
结论： 这表明，mHC 带来的训练稳定性不仅避免了训练崩溃，还转化为了实实在在的模型能力提升，使其能够学习到比不稳定的 HC 更强大的表示。

6.1.4. 可扩展性分析

下图（原文 Figure 6）考察了 mHC 的优势是否随模型规模和数据量的增加而保持。

该图像是图表，展示了mHC与基线模型在计算和训练令牌的缩放特性。左侧的(a)计算缩放曲线显示了不同计算预算下的绝对损失差距，右侧的(b)令牌缩放曲线则表现了模型在不同训练令牌下的损失比率。

计算缩放曲线 (图a): 该图展示了在 3B、9B、27B 三个不同模型尺寸下，mHC 相对于基线的绝对损失差距。结果显示，随着模型规模和计算预算的增加，mHC 带来的性能优势保持稳健，仅有非常轻微的衰减。
词元缩放曲线 (图b): 该图展示了 3B 模型在训练 1T 词元过程中的性能轨迹。mHC 的优势从训练早期就已确立，并贯穿整个训练过程。

结论： mHC 不是一个只在小模型或短时训练中有效的技巧，它具有出色的可扩展性，能够稳定地应用于大规模基础模型的训练。

6.2. 消融实验/参数分析

论文在 Table 1 中进行了一项关键的消融实验，以探究 HC 中三个可学习映射（ $\mathcal{H}^{\mathrm{pre}}, \mathcal{H}^{\mathrm{post}}, \mathcal{H}^{\mathrm{res}}$ ）各自的贡献。

以下是原文 Table 1 的结果：

H_res	H_pre	H_post	Absolute Loss Gap
			0.0
✓			-0.022
✓	✓		-0.025
✓	✓	✓	-0.027

分析：
- 基线（全部禁用）的损失差距为0。
- 仅启用 $\mathcal{H}^{\mathrm{res}}$ 就带来了 -0.022 的巨大损失下降，占据了总收益（-0.027）的绝大部分。
- 在启用 $\mathcal{H}^{\mathrm{res}}$ 的基础上，再依次加入 $\mathcal{H}^{\mathrm{pre}}$ 和 $\mathcal{H}^{\mathrm{post}}$ ，带来的额外收益相对较小。
结论： 残差流内部的信息交换（由 $\mathcal{H}^{\mathrm{res}}$ 控制）是 HC 性能增益的最主要来源。 这个发现为本文将研究重点放在约束 $\mathcal{H}^{\mathrm{res}}$ 上提供了强有力的支持。

7. 总结与思考

7.1. 结论总结

本文的核心贡献可以概括为以下几点：

识别并诊断问题： 论文精准地指出了 Hyper-Connections (HC) 架构虽然有性能潜力，但其无约束的残差连接设计破坏了恒等映射属性，导致信号发散，从而引发训练不稳定和可扩展性差的根本问题。
提出优雅的解决方案 (mHC)： 创造性地引入流形约束的概念，将 HC 的残差连接矩阵投影到双随机矩阵流形上。这一方法在数学上保证了信号传播的稳定性（非扩张性、组合闭包性），同时保留了多残差流之间信息交互的能力，实现了稳定性和表达能力的平衡。
实现高效的工程落地： 通过核函数融合、重计算和通信优化等一系列系统级优化，将 mHC 的额外计算开销降至可接受的范围（6.7%），使其成为一种真正可以在工业界大规模部署的实用技术。
提供坚实的实验证据： 通过在高达 27B 参数的语言模型上进行的大量实验，证明了 mHC 不仅训练过程稳定、可扩展性强，而且在多项下游任务中取得了超越基线和原始 HC 的性能。

7.2. 局限性与未来工作

论文作者在文末也指出了未来值得探索的方向：

探索其他流形约束： 本文使用了双随机矩阵流形来保证稳定性，但理论上存在其他具有不同几何特性的流形。未来可以探索是否其他类型的流形（例如正交矩阵、Stiefel 流形等）能够在稳定性、表达能力和计算成本之间提供不同的、甚至更优的权衡。
复兴宏观架构设计： 作者希望 mHC 的成功能够重新激发社区对网络拓扑结构（宏观架构）设计的兴趣。深入理解拓扑结构如何影响优化过程和表示学习，可能为下一代基础模型的架构演进开辟新的道路。

7.3. 个人启发与批判

7.3.1. 个人启发

算法与系统协同设计的典范： 这篇论文是算法理论与系统工程紧密结合的绝佳案例。优雅的数学思想（流形约束）解决了理论瓶颈，而扎实的工程优化（核函数融合、重计算等）则使其在大规模场景下变得可行。这体现了在AI大模型时代，顶尖的研究越来越需要这种跨领域的综合能力。
“带镣铐跳舞”的艺术：面对 HC 这种“自由奔放”但易出问题的新设计，mHC 的思路不是全盘否定，也不是简单地增加正则化项，而是为其戴上一个精心设计的“数学镣铐”（流形约束）。这种在保持其核心优势（信息交互）的同时修复其根本缺陷（不稳定性）的思路，极具启发性。
对基础组件的再思考： 残差连接看似是一个已经“解决”了的问题，但本文表明，即使是这样基础的组件，在模型规模和范式发生变化的今天，仍然有被重新审视和创新的巨大空间。

7.3.2. 潜在问题与批判性思考

约束的最优性问题： 双随机矩阵约束在保证稳定性上是有效的，但它是否是性能最优的约束？这仍是一个开放问题。可能存在其他约束，虽然在理论上稳定性稍弱，但在实践中能带来更好的性能。论文对此也仅作为未来工作提及，缺乏更深入的探讨。
计算开销的权衡： 6.7% 的额外开销对于一个学术研究来说已经非常低了，但在动辄耗资数百万美元的真实大模型训练中，这仍然是一笔不小的成本。特别是 Sinkhorn-Knopp 算法的迭代过程，虽然迭代次数不多（20次），但仍然是 mHC 相比标准残差连接的一个关键开销来源。是否能用更低成本的非迭代方法来近似双随机矩阵投影？
参数化方式的探讨： mHC 在生成动态映射时，将整个 $n \times C$ 的隐状态展平后送入线性层。这种方式虽然能捕捉最全的上下文，但参数量较大（输入维度为 nC），且可能引入不必要的噪声。是否可以设计更轻量、更具结构性的方式来生成动态映射，例如仅使用每个流的池化特征？这方面论文没有进行消融研究。
可复现性挑战： 作为一篇工业界论文，其预训练数据集和具体的训练基础设施并未完全公开，这给学术界的第三方研究者进行严格的复现和公平比较带来了挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。