论文状态：已完成

S-SYNC: Shuttle and Swap Co-Optimization in Quantum Charge-Coupled Devices

发表：2025/05/02

量子电荷耦合器件 (1)调度启发式算法 (1)量子应用成功率优化 (1)量子计算编译器 (1)量子比特调度与交换 (1)

原文链接 PDF 下载

价格：0.100000

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了S-SYNC编译器，旨在共同优化量子电荷耦合器件（QCCD）中的穿梭和交换操作。该方法利用QCCD的独特特性，通过调度启发式算法有效减少3.69倍的穿梭次数，并将量子应用的成功率提高1.73倍，推动量子计算的实用化进程。

摘要

The Quantum Charge-Coupled Device (QCCD) architecture is a modular design to expand trapped-ion quantum computer that relies on the coherent shuttling of qubits across an array of segmented electrodes. Leveraging trapped ions for their long coherence times and high-fidelity quantum operations, QCCD technology represents a significant advancement toward practical, large-scale quantum processors. However, shuttling increases thermal motion and consistently necessitates qubit swaps, significantly extend execution time and negatively affect application success rates. In this paper, we introduce S-SYNC -- a compiler designed to co-optimize the number of shuttling and swapping operations. S-SYNC exploits the unique properties of QCCD and incorporates generic SWAP operations to efficiently manage shuttle and SWAP counts simultaneously. Building on the static topology formulation of QCCD, we develop scheduling heuristics to enhance overall performance. Our evaluations demonstrate that our approach reduces the shuttling number by 3.69x on average and improves the success rate of quantum applications by 1.73x on average. Moreover, we apply S-SYNC to gain insights into executing applications across various QCCD topologies and to compare the trade-offs between different initial mapping methods.

思维导图

论文精读

中文精读约 41 分钟读完 · 24,880 字

1. 论文基本信息

1.1. 标题

S-SYNC: Shuttle and Swap Co-Optimization in Quantum Charge-Coupled Devices

1.2. 作者

Chenghong Zhu, Xian Wu (香港科技大学（广州）人工智能与信息枢纽, 中国广东)
Jingbo Wang (北京量子信息科学研究院, 中国北京)
Xin Wang (香港科技大学（广州）人工智能与信息枢纽, 中国广东)

1.3. 发表期刊/会议

预印本（ArXiv）

1.4. 发表年份

2025年5月2日 (UTC)

1.5. 摘要

量子电荷耦合器件 (QCCD) 架构是一种模块化设计，旨在扩展囚禁离子量子计算机，其核心依赖于量子比特在分段电极阵列间的相干穿梭。囚禁离子因其长相干时间 (long coherence times) 和高保真度量子操作 (high-fidelity quantum operations) 而被利用，QCCD 技术代表着迈向实用化、大规模量子处理器 (large-scale quantum processors) 的重要进展。然而，穿梭操作会增加热运动并持续需要量子比特交换 (qubit swaps)，这显著延长了执行时间并对应用成功率产生负面影响。本文介绍了 S-SYNC —— 一款旨在共同优化穿梭 (shuttling) 和交换 (swapping) 操作数量的编译器。S-SYNC 利用 QCCD 的独特属性，并结合通用交换操作 (generic SWAP operations) 来有效同时管理穿梭和交换次数。基于 QCCD 的静态拓扑公式化，我们开发了调度启发式算法 (scheduling heuristics) 以提高整体性能。我们的评估表明，该方法平均将穿梭次数减少了 3.69 倍，并将量子应用的成功率平均提高了 1.73 倍。此外，我们应用 S-SYNC 以深入了解在各种 QCCD 拓扑上执行应用的情况，并比较了不同初始映射方法 (initial mapping methods) 之间的权衡。

1.6. 原文链接

预印本链接: https://arxiv.org/abs/2505.01316v1
PDF 链接: https://arxiv.org/pdf/2505.01316v1.pdf
发布状态：预印本

2. 整体概括

2.1. 研究背景与动机

量子计算是前沿技术领域，旨在利用量子力学原理增强信息处理能力。在众多量子硬件平台中，囚禁离子技术因其量子比特 (qubit) 长相干时间 (long coherence times) 和高保真度 (high-fidelity) 量子门操作而备受瞩目。然而，尽管小规模囚禁离子系统展现出诸多优势，但随着量子比特数量的增加，系统面临可扩展性 (scalability) 挑战，如声子频率拥挤 (phonon frequency crowding) 导致操作复杂性增加，以及独立寻址 (individual addressing) 困难。

为了克服这些可扩展性限制，研究人员提出了多种方案，其中量子电荷耦合器件 (Quantum Charge-Coupled Device, QCCD) 架构成为一个关键方法。QCCD 采用模块化设计，将囚禁离子芯片划分为操作区 (manipulation zones)、存储区 (storage zones) 和辅助区 (auxiliary zones)，并通过微电极精心编排离子在这些区域间的移动。这种设计有望实现大规模量子计算。

然而，QCCD 架构中离子移动（即穿梭操作）引入了新的挑战：

动态拓扑变化 (Dynamic Topology Changes): 穿梭操作会改变量子比特在 QCCD 中的位置，从而动态修改设备的拓扑结构。这使得针对超导架构设计的现有编译器无法直接应用。
伴随交换操作 (Accompanied SWAP Operations): 量子比特只能在离子阱 (trap) 的边缘进行分裂 (split)。当选定的穿梭量子比特不在边缘时，需要额外插入交换门 (SWAP gates) 来重新排序离子链，以实现穿梭。这些额外的交换门会增加两量子比特门的数量，进而影响应用的成功率 (success rates)。
空间利用效率低下 (Ineffective Spatial Utilization): 现有编译器在离子阱内的空间利用方面未进行优化，通常需要预留固定数量的空闲位置（例如两个）以防止穿梭过程中的阻塞，这降低了离子阱的有效容量。

鉴于上述挑战，迫切需要一种能够高效管理 QCCD 设备中离子移动和量子比特交换操作的编译框架，以提高量子算法的执行效率和成功率。

2.2. 核心贡献/主要发现

本文提出了 S-SYNC，一个针对量子电荷耦合器件 (QCCD) 的编译器，旨在共同优化穿梭 (shuttling) 和交换 (SWAP) 操作的数量，以提高量子应用的成功率。其核心贡献和主要发现包括：

通用交换公式化 (Generic Swap Formulation):
- S-SYNC 将 QCCD 的拓扑结构建模为一个加权连接图 (weighted connectivity graph)，其中权重表示穿梭和交换操作的附加成本。
- 引入了“通用交换 (generic swap)”这一统一操作，将 QCCD 设备中的交换和穿梭功能整合到更广泛的节点互换框架中，有效解决了穿梭操作动态改变拓扑图的问题。
可扩展算法设计 (Scalable Algorithm Design):
- 利用 QCCD 的静态拓扑公式化，S-SYNC 提出了一种基于通用交换操作的启发式搜索算法 (heuristic search algorithm)。该算法能够同时最小化穿梭成本和优化交换门的使用，实现了穿梭和交换操作的协同优化。
- 提出了几种专门为 QCCD 设备定制的初始量子比特映射 (initial qubit mapping) 方法。
性能显著提升 (Enhanced Performance):
- 通过与现有 QCCD 编译器支持进行比较，S-SYNC 在不同量子应用中展现出显著的性能提升。
- 实验结果表明，该方法平均将穿梭次数减少了 3.69 倍，并将量子应用的成功率平均提高了 1.73 倍。
- S-SYNC 能够深入了解在各种 QCCD 拓扑上执行应用的情况，并比较不同初始映射方法之间的权衡。

3. 预备知识与相关工作

3.1. 基础概念

理解本文的核心内容需要掌握以下关键概念：

量子计算 (Quantum Computation):
- 量子比特 (Qubit): 量子信息的基本单位，与经典比特不同，它可以处于 $|0\rangle$ 和 $|1\rangle$ 两种基态的叠加态 (superposition) 中，表示为 $|\psi\rangle = \alpha|0\rangle + \beta|1\rangle$ ，其中 $\alpha, \beta \in \mathbb{C}$ 且 $|\alpha|^2 + |\beta|^2 = 1$ 。
- 量子门 (Quantum Gates): 用于操纵量子比特状态的基本操作。
  - 单量子比特门 (Single-qubit gate): 作用于单个量子比特。
  - 两量子比特门 (Two-qubit gate): 例如受控非门 (CNOT gate) 和Mølmer-Sørensen门 (Mølmer-Sørensen gate)，用于生成纠缠 (entanglement)。这些门共同构成通用量子计算系统的基础。
囚禁离子量子计算 (Trapped-Ion Quantum Computing):
- 一种使用囚禁离子作为量子比特执行量子信息操作的平台。主要操作包括旋转单量子比特门和Mølmer-Sørensen门。
- 优势: 系统能级高稳定性、激光调制技术高精度，确保门操作高准确性。通过多普勒冷却 (Doppler cooling) 和边带冷却 (sideband cooling) 将离子冷却到基态。荧光检测 (Fluorescence detection) 实现高保真度量子态读出。
- 可扩展性挑战: 随着量子比特数量增加，独立寻址困难，量子门精度降低，阻碍了容错量子计算 (Fault-Tolerant Quantum Computing, FTQC) 的实现。
量子电荷耦合器件 (Quantum Charge-Coupled Device, QCCD):
- 架构: 一种模块化设计，将多维囚禁离子芯片分割成多个专门区域：
  - 操作区 (Manipulation zones): 用于执行量子门操作。
  - 存储区 (Storage zones): 用于存储量子比特。
  - 辅助区 (Auxiliary zones): 用于冷却等辅助功能。
- 离子移动 (Ion Movement): 通过微电极 (micro-electrodes) 精确控制离子在这些区域间的移动，实现量子信息的有效传输。
- 关键操作:
  - 分裂 (Split): 将一个离子从离子晶体中分离出来，使其不再与其他离子相互作用。
  - 合并 (Merge): 将一个单独的离子整合到一个离子晶体中，使其能够与其他离子进行两量子比特门操作。
  - 线性穿梭 (Linear Shuttling): 沿直线轨迹移动离子，通常包括分裂、移动 (move) 和合并操作。
  - 方向转弯 (Directional Turning) 或结口传输 (Junction Transport): 在非线性排列的 QCCD 结构中，改变离子运动路径的操作。
NISQ (Noisy Intermediate-Scale Quantum) 时代: 当前量子计算的阶段，设备规模有限且易受噪声影响。
QEC (Quantum Error Correction, 量子纠错): 旨在纠正量子计算过程中因噪声引起的错误的技术，是实现容错量子计算的关键。

3.2. 前人工作

本文在引言和相关工作部分回顾了以下与 QCCD 架构及量子比特调度相关的研究：

囚禁离子可扩展性方案:
- 图灵磁带机制 (Turing tape mechanism): [83] 提出通过固定激光作用区，整体移动或分裂线性离子晶体来突破固定激光通道的量子比特数量限制。
- 高维离子晶体 (Higher dimensions): [8] 探索使用二维离子晶体，利用局部声子模式实现量子纠缠。
- 光纤连接多芯片 (Optical fiber connection): [45] 提出通过光纤在多个囚禁离子芯片间交换光子，实现量子比特扩展。
QCCD 架构发展:
- Wineland [30, 81] 提出了 QCCD 模块化扩展协议后，QCCD 芯片的制造和实验演示迅速发展 [29, 35, 42, 46, 50, 58, 78]。
- Quantinuum [58] 在线性 QCCD 芯片上实现了 64 量子体积 (quantum volume)。随后，在二维赛道式 QCCD 芯片上将量子体积提升至 $2^{16}$ [46]。
- [14] 强调了 QCCD 模块设计在赛道式囚禁离子 QCCD 芯片上进行量子纠错的优势。
传统量子编译器与 QCCD 差异:
- 现有针对超导架构的编译器（如 [38, 73, 88]）无法适应 QCCD 穿梭操作带来的动态拓扑变化和交换操作的紧密结合。
现有 QCCD 编译方法:
- Murali et al. [48] 针对 QCCD 设备进行了微架构设计研究，关注不同门实现和离子阱容量对线性和 G- $2 \times 3$ QCCD 设备的影响。他们的量子比特映射 (qubit mapping) 技术基于贪婪启发式算法 (greedy heuristic algorithm)，并保留两个空位用于离子穿梭。
- Dai et al. [15] 提出了针对并行 QCCD 架构的先进穿梭策略。
- Saki et al. [64, 77] 专注于线性拓扑中穿梭操作的减少，并开发了相应的启发式方法。
- Schoenberger et al. [66] 探索了基于布尔可满足性 (Boolean satisfiability) 的穿梭精确解，但其可扩展性有限。 [65] 解决了无冲突穿梭问题，但重点与本文不同。
- Wu et al. [72, 82, 84, 85] 关注单离子阱设备的穿梭优化，使用整数线性规划 (integer linear programming) 和启发式函数，但这些方法不适用于 QCCD 架构。
未来 QCCD 设备与编译器:
- Akhtar et al. [1] 和 Chu and Fu [10] 等研究开始探索多 QCCD 模块系统连接和编译的挑战，例如通过离子-光子耦合纠缠实现的量子物质链路结构。
- [42] 提出了集成开关电子架构，用于千量子比特 QCCD 系统的布线。

3.3. 技术演进

囚禁离子量子计算技术从最初的小规模全连接系统发展到现在的模块化 QCCD 架构，其演进脉络主要体现在解决可扩展性问题上：

小规模全连接系统 (Small-scale Fully Connected Systems): 早期囚禁离子系统通常在一个单一离子阱中实现量子比特的全连接 (full connectivity)，这简化了复杂量子算法的执行。然而，这种方法随着量子比特数量的增加，很快遭遇瓶颈，如独立寻址困难和门操作精度下降。
模块化设计与离子移动 (Modular Design with Ion Movement): 为了突破单一离子阱的限制，研究者提出了 QCCD 架构，将芯片划分为不同的功能区域（操作、存储、冷却），并通过电极控制离子在这些区域间的穿梭。这使得量子比特可以在不同的区域进行操作，增加了系统的灵活性和可扩展性。
动态拓扑与交换操作挑战 (Dynamic Topology and SWAP Challenges): QCCD 引入的穿梭操作虽然解决了物理扩展问题，但带来了新的编译挑战。离子移动导致设备拓扑结构动态变化，且常伴随交换操作以满足物理执行条件，这增加了电路执行时间和错误率。
编译器优化 (Compiler Optimization): 随着 QCCD 硬件的发展，对穿梭和交换操作进行优化的编译器成为关键。早期的编译器主要关注穿梭操作的减少或特定拓扑的优化，但未能充分解决穿梭和交换的协同优化以及动态拓扑表示问题。

本文的 S-SYNC 正是在这一技术演进背景下提出的，它通过引入通用交换操作和静态拓扑公式化，旨在解决 QCCD 架构中穿梭和交换的协同优化问题，从而进一步提升大规模囚禁离子量子计算机的性能。

3.4. 差异化分析

S-SYNC 与现有 QCCD 编译器支持的主要区别和创新点体现在以下几个方面：

通用交换公式化 (Generic Swap Formulation):
- 现有工作: 大多数针对超导设备的编译器（如 [38, 73, 88]）假定静态拓扑，无法直接处理 QCCD 中穿梭操作导致的动态拓扑变化。一些 QCCD 特定编译器（如 [64, 77]）则侧重于减少线性拓扑中的穿梭操作，或在每次穿梭后重新构建拓扑图，这增加了复杂性。
- S-SYNC 的创新: S-SYNC 将 QCCD 拓扑建模为一个加权连接图，其中节点可以是已加载的量子比特或可用空间。穿梭和交换等所有 QCCD 特有操作都被统一表示为图中的“通用交换”。这种静态拓扑表示避免了穿梭后拓扑图频繁改变的问题，简化了调度。
穿梭和交换的协同优化 (Co-optimization of Shuttle and SWAP):
- 现有工作: 之前的研究通常将穿梭和交换操作视为独立的问题，或者只侧重于其中一个。例如，某些方法可能只关注减少穿梭，而忽略了由于穿梭引发的额外交换成本。
- S-SYNC 的创新: S-SYNC 明确指出穿梭操作常常需要伴随交换门，并提出了一个编译器框架来协同优化这两种操作。通过通用交换和启发式成本函数，S-SYNC 能够同时权衡和最小化穿梭和交换的总成本。
对空间利用率的考虑 (Consideration of Spatial Utilization):
- 现有工作: 例如 [48] 中，为了避免穿梭阻塞，每个离子阱通常需要保留一到两个固定空闲位。这限制了离子阱的实际容量。
- S-SYNC 的创新: S-SYNC 的启发式成本函数 Pen(g) 考虑了离子阱内没有内部空间节点的情况，并给予惩罚，从而鼓励算法维持离子阱中的可用空间，以提高穿梭效率，并可能更有效地利用离子阱容量，而无需固定预留。
更广泛的拓扑支持 (Broader Topology Support):
- 现有工作: 许多 QCCD 编译器工作（如 [48, 64]）可能专注于特定的拓扑结构，如线性或特定的网格配置。
- S-SYNC 的创新: S-SYNC 的通用交换公式化和启发式调度框架是基于加权连接图的，这使其能够更灵活地应用于各种 QCCD 拓扑结构，如线型 (L-type)、S型 (S-type) 和网格型 (G-type)，从而在更广泛的硬件设计上提供支持和洞察。
  
  图 3 清楚地说明了现有编译器面临的挑战，即穿梭操作会修改拓扑图，而图 4 则展示了现有方法为防止阻塞而预留固定空间的低效性。S-SYNC 通过上述创新点直接解决了这些问题。

4. 方法论

本节将详细阐述 S-SYNC 编译器管道的核心技术方案，包括预处理、基于通用交换的穿梭调度框架、启发式成本函数以及初始映射方法。图 1 提供了 S-SYNC 编译器整体概览。

Figure 1. Overview of this work. We propose S-SYNC with equipment of different initial mapping and searching framework for optimizing the success rate of running quantum application in QCCD devices.
该图像是示意图，展示了 S-SYNC 的工作流程，包括预处理、初始映射、搜索框架以及评估环节。通过优化 QCCD 设备中量子应用的成功率，S-SYNC 使得量子电路与实际硬件兼容，最终提升应用的成功率。

Figure 1. Overview of this work. We propose S-SYNC with equipment of different initial mapping and searching framework for optimizing the success rate of running quantum application in QCCD devices.

4.1. 方法原理

S-SYNC 的核心思想是，将量子电路中的两量子比特门操作映射到 QCCD 设备的物理拓扑上时，需要进行穿梭和交换操作来满足物理连通性。这些操作会引入额外的成本（时间、错误率）。为了优化这些成本，S-SYNC 提出了一种协同优化的策略。它将 QCCD 设备的动态物理操作抽象为静态加权连接图上的通用交换操作，并利用启发式搜索算法来寻找最小化这些操作总成本的调度方案。

直觉上，通用交换是 QCCD 设备中所有离子移动和排序操作的抽象。通过为这些抽象操作分配成本权重，S-SYNC 能够在调度过程中量化不同操作序列的“代价”，从而选择成本最低的路径。而初始映射策略则旨在为量子比特找到一个良好的初始物理位置，以减少后续穿梭和交换的需求。

4.2. 核心方法详解

4.2.1. 预处理 (Preprocessing)

4.2.1.1. 量子应用到 `DAG` (Mapping quantum application to DAG)

量子电路是按时间顺序排列的量子指令序列。S-SYNC 首先将输入的量子电路表示为一个有向无环图 (Directed Acyclic Graph, DAG)，记为 $\mathcal{G}$ 。

节点 (Node): 图中的每个节点代表量子电路中的一个门 (gate)。
有向边 (Directed Edge): 一条有向边 $(g_i, g_j)$ 表示依赖关系，即门 $g_j$ 只能在门 $g_i$ 执行之后才能执行。
可执行门 (Executable Gates): 入度为零的节点（即没有前置依赖的门）可以立即执行（如果满足拓扑约束）。
更新 DAG: 一个门执行后，它对应的节点会从图中移除，其出度指向的门的入度会相应减少，从而可能产生新的可执行门。
效率: 从量子电路到 DAG 的转换可以高效完成，时间复杂度为 $O(|\mathcal{G}|)$ ，其中 $|\mathcal{G}|$ 是电路中门的总数。

4.2.1.2. QCCD 到静态拓扑模型 (Mapping QCCD onto a static topology model)

针对输入的 QCCD 拓扑结构，S-SYNC 将其转换为一个加权连接图 (weighted connectivity graph) $G \in (V, E, W)$ 。这种建模方法将 QCCD 设备的动态特性（如离子移动）抽象为图上的静态节点互换，从而简化了调度问题。

顶点 (Vertex $v \in V$ ): 图中的每个顶点代表 QCCD 设备中的一个单元空间 (unit space)。
- 已加载量子比特 (Loaded Qubit): 用红色节点表示，即该空间已被一个量子比特占据。
- 可用空间 (Available Space): 用白色节点表示，即该空间当前是空的，可以容纳一个量子比特。
- 移动类比: 在两个离子阱之间移动一个量子比特，可以类比为图上这两个相应节点之间的互换。
边 (Edge $e \in E$ ): 连接两个节点的边表示这两个节点之间存在通过特定 QCCD 操作实现互换性 (interchangeability)。
权重 (Weight $w \in W$ ): 与每条边相关联的权重 $w$ 表示执行该节点互换操作的成本 (cost)。

互换性与成本定义 (Interchangeability and Cost Definitions):

两量子比特门 (Two-qubit gate): 只有当两个量子比特 u, v 之间存在边 $(u, v) \in E$ 且该边的权重 W(u, v) 小于或等于某个阈值 (threshold) 时，才能对它们应用两量子比特门。这通常意味着这两个量子比特位于同一个离子阱内。
交换操作 (SWAP operation): 如果要交换两个节点 u, v（它们都是量子比特节点），且它们之间存在边 $(u, v) \in E$ 并且 $W(u, v) \leq \text{threshold}$ ，则需要使用一个交换门。
穿梭操作 (Shuttle operation): 如果要交换两个节点 u, v 之间存在边 $(u, v) \in E$ 且 $W(u, v) > \text{threshold}$ ，则这表示其中一个节点 $u$ 或 $v$ 必须是可用空间节点。此操作等同于将一个量子比特传输到另一个离子阱，即穿梭操作。
离子阱内空间节点移动 (Shifting spatial node within a trap): 如果要交换两个节点 u, v 之间存在边 $(u, v) \in E$ 且 $W(u, v) \leq \text{threshold}$ ，并且其中一个节点是可用空间，这要求这两个节点相邻（即 $W(u, v) = \text{inner\_weight}$ ）。此操作不会改变量子比特的排列，但会将离子阱内的空间节点移动到其边缘，以便于穿梭。

权重确定 (Weight Determination):

权重通常由 QCCD 操作的成本决定。
阈值由离子重排 (ion reordering) 的成本决定。通常，离子重排的成本低于穿梭的成本，这可以作为判断离子是否在同一个离子阱内的指标。
通过这种公式化，特别是考虑到空间节点，量子比特的互换不再改变图的拓扑结构，因为图中的顶点集合是固定的，变化的只是顶点上承载的“内容”（量子比特或空间）。

下图（原文 Figure 5）展示了如何根据给定的 QCCD 创建图。

$Figure 5. A demonstration of creating a graph using a given QCCD. In (a), each dot stands for a unit space; a qubit is represented by a red dot, and a free space is denoted by a white dot. The corresponding graph of (a) is shown in (b), where the blue line indicates the potential ability to swap two nodes and each orange line between two red nodes indicates that we can place a two-qubit gate on these qubits. We set edge weight and denote them by `w _ { i }` to characterize the communication cost varies between nodes.$ 该图像是图示图，展示了如何根据给定的 QCCD 创建图形。在 (a) 中，每个点代表一个单元空间，红点表示量子比特，白点表示空闲空间。图 (b) 展示了 (a) 对应的图形，蓝色线条指示节点之间的交换能力，橙色线条则表明可以在两量子比特之间施加两量子比特门，边权用 $w_i$ 表示以描绘节点间的通信成本变动。

Figure 5. A demonstration of creating a graph using a given QCCD. In (a), each dot stands for a unit space; a qubit is represented by a red dot, and a free space is denoted by a white dot. The corresponding graph of (a) is shown in (b), where the blue line indicates the potential ability to swap two nodes and each orange line between two red nodes indicates that we can place a two-qubit gate on these qubits. We set edge weight and denote them by w _ { i } to characterize the communication cost varies between nodes.

4.2.2. 基于通用交换的穿梭调度 (Generic-Swap Based Shuttling Schedule)

在 QCCD 穿梭调度任务中，如果两个量子比特位于不同的离子阱中，就需要通过图中的边来交换它们的位置。S-SYNC 利用 QCCD 设备的静态拓扑表示和量子电路的 DAG 结构，引入了一个调度框架来最小化 QCCD 特定操作（特别是穿梭和交换）的成本。

通用交换 (Generic Swap): 论文将图中的节点互换统称为通用交换，它涵盖了 QCCD 设备的所有操作，包括穿梭、移动、合并和离子重排。
启发式算法 (Heuristic Algorithm): 考虑到 QCCD 设备可能扩展到数百个量子比特，找到精确的最优解不切实际，因此 S-SYNC 采用启发式算法来解决问题。

Algorithm 1: Generic-Swap based Shuttling Sched 的工作流程如下：

Algorithm 1: Generic-Swap based Shuttling Sched

Algorltiiil 1. Uenenc-Swap based Shutting Scned- ule Input: Circuit C, weighted graph G = (V, E, W), initial mapping π, initial space recorder space

Output: Gate execution list 1: Build the dependency graph G of input circuit C

wait_list = []

3: while G.frontier is not empty do 4: for gate g G.frontier do

5: if g is executable then

6: execute g

7: else 8: wait_list.append(g)

9: end if end for

10: 11: Get generic swap candidate S(wait_list)

12: sore = []

13: for swap S do

14: πtemp = π.update(swap)

15: spacetemp = space.update(swap)

16: score [swap] = H(G, πtemp, spacetemp) 17: end for Find the swap with minimal score(swap)

算法步骤解释:

构建依赖图 (Build Dependency Graph): 将输入电路 $C$ 转换为其依赖图 $G_{DAG}$ 。
初始化等待列表 (Initialize wait_list): 创建一个空列表 wait_list，用于存储暂时无法执行的门。
主循环 (Main Loop): 当依赖图的前沿 (frontier) 不为空时循环。前沿包含所有没有未满足依赖的门。
遍历前沿门 (Iterate Frontier Gates): 对于 G.frontier 中的每个门 $g$ :
- 检查可执行性 (Check Executability): 如果门 $g$ 的量子比特满足执行所需的条件（即它们位于同一个离子阱中，并且可以应用两量子比特门），则执行该门。
- 添加到等待列表 (Add to wait_list): 否则，将门 $g$ 添加到 wait_list 中。
获取通用交换候选 (Get Generic Swap Candidates): 当前沿中没有门可以直接执行时，算法进入启发式搜索阶段。它从 wait_list 中获取通用交换候选集 $S$ 。这包括检查当前图中的所有边，并选择有效的通用交换作为候选。
评估通用交换 (Evaluate Generic Swaps):
- 初始化一个空的得分列表 score。
- 对于候选集 $S$ $S$ 中的每个 swap:
  - 更新临时映射 $\pi_{temp} = \pi.\text{update}(\text{swap})$ 。
  - 更新临时空间记录 $space_{temp} = space.\text{update}(\text{swap})$ 。
  - 使用启发式函数 $H$ 计算该 swap 的得分： $score[\text{swap}] = H(G, \pi_{temp}, space_{temp})$ 。启发式函数将在下一小节详细讨论。
选择最优通用交换 (Select Optimal Generic Swap): 找到得分最低的 swap（得分越低表示成本越小），并用它来更新当前的量子比特物理映射 $\pi$ 。
继续循环 (Continue Loop): 算法返回主循环，继续执行门，直到前沿为空（所有门都被执行）。

下图（原文 Figure 6）是一个说明性的例子，展示了如何使用通用交换来调度电路：

$Figure 6. Illustration of the gate scheduling on QCCD devices. Consider the scenario where a two-qubit gate is required to be applied between $\\boldsymbol { \\mathrm { q 0 } }$ , q1 and q1, ${ \\mathfrak { q } } 2$ The scheduling process entails aligning the qubits to ensure that corresponding qubits are positioned within the same trap prior to gate application. Our algorithm evaluates each path using a heuristic function and selects the one with the lowest cost (highlighted in green), as it represents the least costly operation.$ 该图像是示意图，展示了量子电偶器设备中门调度的过程。图中显示了在应用两个量子位门时，量子位q0、q1与q2之间的相对位置关系以及调度策略。不同路径用不同的得分表示，其中绿色箭头所示路径（得分为 $h_1$ ）代表理想的低成本操作，而其他路径（得分为 $h_s$ ）则表示代价较高的选择。

Figure 6. Illustration of the gate scheduling on QCCD devices. Consider the scenario where a two-qubit gate is required to be applied between $\boldsymbol { \mathrm { q0 } }$ , q1 and q1, ${ \mathfrak { q } } 2$ The scheduling process entails aligning the qubits to ensure that corresponding qubits are positioned within the same trap prior to gate application. Our algorithm evaluates each path using a heuristic function and selects the one with the lowest cost (highlighted in green), as it represents the least costly operation. 图中展示了在 QCCD 设备上调度门的过程。假设需要对量子比特 $q0$ 和 $q1$ 应用两量子比特门，接着是 $q1$ 和 $q2$ 。最初， $q0$ 和 $q1$ 位于不同的离子阱中，这需要 QCCD 特定操作将它们带到同一个离子阱中。算法会探索所有可能的操作，并识别出将 $q1$ 移动到包含 $q0$ 的离子阱中成本最低的选项。绿色路径表示成本最小的穿梭操作。在成功执行 $q0$ 和 $q1$ 上的两量子比特门后，类似地，通过通用交换将 $q1$ 移动到包含 $q2$ 的离子阱中，以满足 QCCD 的操作约束。

4.2.3. 启发式成本函数 (Heuristic Cost Functions)

算法 1 中第 16 步使用的启发式函数 $H(\cdot)$ 用于评估一个通用交换是否值得应用。启发式函数的设计旨在预测执行某个通用交换后，未来执行量子门所需的总成本。

启发式函数 $H(\text{swap})$ 的定义如下： $H ( s w a p ) = \operatorname* { m i n } _ { g } \{ d e c a y ( g ) * s c o r e ( g ) \} + w ( s w a p )$ 其中：

$g \in G.\text{frontier}$ 表示依赖图 $G$ 当前前沿中的门。算法会考虑所有当前可执行的门中，经过swap后最小化成本的那个。
decay(g) 是一个衰减函数 (decay function)，用于惩罚冗余操作。
- 如果门 $g$ 中涉及的两个量子比特之一最近参与了通用交换，则 $decay(g) = 1 + \delta$ 。
- 否则， $decay(g) = 1$ 。
- $\delta$ 的值越大，算法就越倾向于在新量子比特上插入交换门，除非这样的交换门能显著降低总体成本。
score(g) 用于评估执行门 $g$ $g$ 的成本，较低的得分表示成本较低。 $\begin{array} { c } { s c o r e ( g ) = \operatorname* { m i n } \{ d i s ( \pi ( g . q _ { 1 } ) \to s _ { 1 } \to } \\ { { . . . \to s _ { m } \to \pi ( g . q _ { 2 } ) ) \} + P e n ( g ) } } \end{array}$ 其中：
- $\pi(g.q_1)$ 和 $\pi(g.q_2)$ 分别表示门 $g$ 所操作的两个量子比特 $q_1$ 和 $q_2$ 在物理设备上的当前位置。
- $\pi(g.q_1) \to s_1 \to \cdots \to s_m \to \pi(g.q_2)$ 表示从 $q_1$ 的位置到 $q_2$ 的位置之间的路径，其中 $s_i$ 是中间节点 (intermediate nodes)。这条路径需要一些通用交换操作，并根据是穿梭还是交换而具有不同的成本。
- $dis(\cdot)$ 表示路径的累积权重 (cumulative weight)，即沿着路径执行所有通用交换操作的总成本。
- $m$ 代表所有可能路径的最大长度 (maximal length)。
- Pen(g) 是一个惩罚函数 (penalty function)，表示没有内部空间节点 (space nodes) 的离子阱数量。
  - 动机: 如果一个离子阱不包含空间节点，它就无法参与穿梭操作，这可能导致其他离子被“阻塞”。因此，优先选择与较低得分相关的操作是有利的，因为它们可能更具成本效益。

4.2.4. 初始映射 (Initial Mapping)

量子电路调度问题通常包含两个主要组成部分：门调度和初始量子比特映射 (initial qubit mapping)。高质量的初始映射对最终电路性能有深远影响。S-SYNC 提出了两级层次映射 (Two-Level Hierarchy Mapping) 方法。

4.2.4.1. 第一级映射 (First-level Mapping)

第一级映射主要关注将物理量子比特分配到各个离子阱中的整体布局。S-SYNC 考虑了三种第一级映射技术：

均匀划分映射 (Even-divided Mapping):
- 思想: 考虑到 QCCD 的模块化设计，将物理量子比特均匀地分配到每个离子阱中。
- 优点: 简单直观，适用于负载均衡。
聚集映射 (Gathering Mapping):
- 思想: 将所有物理量子比特尽可能紧密地聚集在一起。
- 优点: 旨在促进在同一离子阱内直接应用两量子比特门，从而最小化量子比特在不同离子阱之间穿梭的需求。
- 实现细节: 在离子阱中故意保留一个单元空间以容纳进入的离子，保持系统灵活性。
STA 映射 (STA Mapping):
- 思想: 基于先前的研究 [48, 64]，将具有更强时空相关性 (spatio-temporal correlations) 的量子比特彼此放置得更近。
- 应用: 最初是为 QCCD 设备中的线性和环形拓扑提出的 [56]。

4.2.4.2. 第二级映射 (Second-level Mapping)

在完成第一级映射后，第二级映射旨在优化每个离子阱内部量子比特的排列，以最小化离子重排 (ion reordering) 和交换门的需求。

位置函数 (Location Function $l(q_i)$ ): 用于确定量子比特 $q_i$ 在离子阱中的理想位置。 $l ( q _ { i } ) = - \alpha E ( q _ { i } ) + \beta I ( q _ { i } )$ 其中：
- $I(q_i)$ 表示 DAG 前 $k$ 层中，需要量子比特 $q_i$ 与同一离子阱内其他量子比特交互的两量子比特门的总数。
- $E(q_i)$ 表示 DAG 前 $k$ 层中，需要量子比特 $q_i$ 与其他离子阱内量子比特交互的两量子比特门的总数。
- $\alpha$ 和 $\beta$ 是权重系数，用于平衡内部交互和外部交互的重要性。
- $k$ 代表前瞻能力 (look-ahead ability)，在仿真中设置为 8。
离子阱内排列 (Arrangement within the Trap):
- 使用一个队列 $Q$ 来表示离子阱内量子比特的位置。
- 队列两端的元素具有最低的得分，即 $l(Q[1]) \leq l(Q[2]) \leq \cdots \leq l(Q[k])$ 对于前半部分，以及 $l(Q[n]) \leq l(Q[n-1]) \leq \cdots \leq l(Q[n-k])$ 对于后半部分，其中 Q[k] 是离子阱中的第 $k$ 个量子比特， $n$ 是离子阱中量子比特的总数。
- “山形”结构 (Mountain-like structure): 这种排列使得队列中的得分分布呈现“山形”结构，即分数向中心增加，向边缘减少。
- 动机: 具有较低得分的量子比特更有可能需要穿梭到其他离子阱，而具有较高得分的量子比特更有可能与同一离子阱内的量子比特交互。因此，将得分较低的量子比特放置在边缘可以减少穿梭过程中交换门的开销，而将得分较高的量子比特放置在中心可以最小化两量子比特门操作的成本。

5. 实验设置

本节详细描述了 S-SYNC 编译器在各种 QCCD 拓扑和量子应用上的实验设置，包括模拟参数、基准选择和算法配置。

5.1. 模拟参数

5.1.1. 执行时间 (Execution Time)

量子门的操作时间是影响量子应用性能的关键因素。S-SYNC 考虑了不同调制技术实现的门操作时间成本：

频率调制门 (Frequency Modulation, FM gate):
- 执行时间 $\tau_{\mathrm{FM}}(N)$ 与离子链中离子总数 $N$ 成比例 [36]。
- 公式为： $\tau_{\mathrm{FM}}(N) = \mathrm{max}(13.33N - 54, 100)$ 微秒。
相位调制门 (Phase Modulation, PM gate):
- 执行时间 $\tau_{\mathrm{PM}}(d)$ 与两个纠缠离子之间离子数量 $d$ 相关 [43]。
- 公式为： $\tau_{\mathrm{PM}}(d) = 5 * d + 160$ 微秒。
幅度调制门 (Amplitude Modulation, AM gate):
- 有两种实现方式：
  - $\tau_{\mathrm{AM1}}(d) = 100 * d - 22$ 微秒 [86]。
  - $\tau_{\mathrm{AM2}}(d) = 38 * d + 10$ 微秒 [76]。
QCCD 特定操作时间: 离子在不同模块之间交换时会产生额外成本，这些数据来自实际实验。以下是原文 Table 1 所示的移动、分裂、合并和跨结口操作的执行时间：

Operations Time

Move 5 μs

Split 80 μs

Merge 80 μs

Cross n-path junction 40 + 20 × n µs

表 1. 移动、分裂、合并和跨结口操作的执行时间 [5, 21]。
- 跨 n 路径结口 (Cross n-path junction) 需要更多 DAC (数模转换器) 进行转向操作，其操作时间与结口通道数成比例。

Operations	Time
Move	5 μs
Split	80 μs
Merge	80 μs
Cross n-path junction	40 + 20 × n µs

5.1.2. 成功率 (Success Rate)

量子任务的成功率与量子电路中每个门的保真度 (fidelity) 直接相关。在囚禁离子量子计算中，保真度受多种因素影响，例如脉冲幅度/相位波动、环境热噪声、激光长期照射离子产生的加热效应 (heating effects)，以及绑定电极电压/电流的不稳定性。这些效应在离子数量增加时尤为显著，特别是对两量子比特门。

单量子比特门 (Single-qubit gates): 保真度通常很高，可达 $99.9999\%$ [23, 71]。
离子移动操作: 分裂、合并、交换和穿梭操作涉及离子移动。虽然离子内部状态的量子信息在空间移动期间保持不变，但用于连接离子的运动模式 (motional mode)（声子）会受到强烈影响。这些操作通过微电极控制离子的加速和减速，可能显著加热离子链，影响后续两量子比特门的精度。
相干时间 (Coherence time): 离子移动操作会产生时间成本，如果离子内部状态的相干时间较短，这些操作的额外时间会降低量子电路和操作的整体保真度。

保真度模型 (Fidelity Model): 离子链的能量主要由单个离子的动能 (kinetic energy) 和离子之间的库仑势能 (Coulomb potential energy) 构成。分裂和合并离子链不会改变总库仑势能，但会使离子链的总动能增加 $k_1$ 运动能量量子 (quanta of motional energy)。当量子比特从段中穿梭时，会增加 $k_2$ 运动能量量子。 $k_1$ 和 $k_2$ 的综合效应导致离子链中声子模式 (phonon modes) 的总占据数 (occupation number) $\bar{n}$ 增加。

$A\bar{n}$ 量化了传输对保真度的总体影响，其中 $A \propto N / \mathrm{ln}(N)$ 是一个缩放因子 (scaling factor)，代表热激光束不稳定性 (thermal laser beam instabilities)。
$N$ 是离子链中离子总数，随每次穿梭操作而变化。

因此，两量子比特门的保真度可以与离子链中的离子数量 $N$ 、操作时间 $\tau$ 和离子阱电极的背景加热效率 (background heating efficiency) $\Gamma$ 相关联。该模型将背景加热率视为常数。
总热量累积 (Total heat accumulation) 由 $\Gamma \tau$ 给出。
量子电路保真度的累积影响表示为： $F = 1 - \Gamma \tau - A ( 2 \bar { n } + 1 )$ 其中：
- $F$ 为保真度。
- $\Gamma$ 为背景加热效率。
- $\tau$ 为操作时间。
- $A$ 为缩放因子，与离子链中离子总数 $N$ 相关。
- $\bar{n}$ 为声子模式的总占据数。

5.2. 基准设置 (Benchmarks Settings)

5.2.1. 架构结构 (Architectural Structures)

为了评估算法在未来囚禁离子设备上的性能 [62]，S-SYNC 在各种架构结构上进行了评估，主要包括线性型 (linear-type) 囚禁离子设备和几种可扩展配置 (scalable configurations)。这些拓扑选择遵循 Quantinuum 的硬件路线图 [62]。

L-拓扑 (L-topology): 类似于 Quantinuum 的“H2”设备。
S-拓扑 (S-topology): 是“HEL IOS”的一个变体。
G-拓扑 (G-topology): 专为更高级设备（如“SOL”和“APOLL”）设计。

以下是原文 Figure 7 展示的不同类型的量子电路拓扑结构（L-1、L-2、L-4、G-2x2、G-2x3、S-4）在 QCCD 中的布局。

该图像是一个示意图，展示了不同类型的量子电路拓扑结构（L-1、L-2、L-4、G-2x2、G-2x3、S-4）在量子电荷耦合器件中的布局。图中显示了电极的排列及斗量子位的分布，表明不同结构的设计与连接方式。

l devices (G-series), and fully-connected devices (S-series). 图 7 展示了 L-系列（线性）、G-系列（网格）和 S-系列（全连接）设备。

具体配置:

S-4: 最大容量每阱 22 个离子。
G- $2 \times 2$ : 最大容量每阱 22 个离子。
G- $2 \times 3$ : 最大容量每阱 17 个离子。
G- $3 \times 3$ : 最大容量每阱 12 个离子。
L-4: 最大容量每阱 22 个离子。
L-6: 最大容量每阱 17 个离子。
总离子计数: 这些配置选择旨在使总离子计数接近 200。
模拟参数: 对于每个设备，背景加热率设置为 $\Gamma = 1$ ，能量差设置为 $k_1 = 0.1$ 和 $k_2 = 0.01$ ，与 [48] 相同。

5.2.2. 应用 (Applications)

S-SYNC 使用一系列基准进行评估，包括 24 到 66 量子比特的 QCCD 应用。这些基准考虑了两量子比特门和单量子比特门 (single-qubit gates)，单量子比特门的保真度设置为 $99.9999\%$ 。

Cuccaro 加法器 (Cuccaro adder-based circuit): [13]
Bernstein-Vazirani (BV) 算法: [3]
量子近似优化算法 (Quantum Approximate Optimization Algorithm, QAOA): [18]
量子傅里叶变换 (Quantum Fourier Transform, QFT): [3]，Shor 算法 [68] 和各种相位估计算法 (phase estimation algorithms) [31] 的关键组成部分。
交替分层安萨茨 (Alternating layered ansatz, ALT): [53]，常用的量子机器学习安萨茨。

Heisenberg Hamiltonian simulation (Heisenberg_48): [12, 20, 28, 75]

以下是原文 Table 2 所示的基准列表：

Application	#Qubits	#2Q Gates	Communication
Adder_32	66	545	Short-distance gates
QAOA_64	64	1260	Nearest-neighbor gates
ALT_64	64	1260	Nearest-neighbor gates
BV_64	65	64	Long-distance gates
QFT	2464	5524032	Long-distance gates
Heisenberg_48	48	13536	Long-distance gates

表 2. 基准列表。

5.2.3. 基准实现 (Benchmark Implementation)

S-SYNC 的性能与以下现有工作进行了比较：

Murali et al. (QCCDsim): [61]，其量子比特映射技术基于 [47] 的贪婪启发式算法。该方法将量子比特映射到离子阱中，并根据应用的使用序列对程序量子比特进行排序，同时确保离子阱不会被完全占用，只留下两个空位用于离子穿梭。
Dai et al.: [15]，最近提出的工作。

5.3. 算法配置 (Algorithm Configurations)

衰减率 (Decay rate): $\delta = 0.0001$ 。为了防止衰减效应累积过高，如果 decay(q_i) 在最近五次迭代中没有更新，其值将重置为 1。
内部权重 (Inner weight): 0.001。
穿梭权重 (Shuttle weight):
- 没有结口段的穿梭权重 $w = 1$ 。
- 通过 $j$ 个结口的路径权重设置为 $w(j+1)$ 。
- 权重示例: $w_1 = 0.001$ (内部权重), $w_2 = 0.002$ (2 离子距离), $w_3 = 2$ (穿过一个结口), $w_4 = 3$ (穿过两个结口)。
权重分配逻辑: 权重分配与穿梭成本直接相关。穿过的结口越多，分配的权重值越高，因为每次穿过结口都会导致离子加热 (ion heating)，从而降低保真度。相反，内部边分配较低的权重值，因为交换门的成本低于穿梭。此外，权重由量子比特链 (qubit chain) 的长度决定，因为作用于相距较远量子比特的门会产生更高的成本。
最大路径长度 (Maximal path length): 启发式函数评估每个潜在穿梭移动的计算复杂度可能为 $O(n^m)$ ，其中 $n$ 是量子比特数量， $m$ 是可能路径的最大长度。为了确保可管理的计算时间，将 $m$ 截断限制为 2。
初始映射: 在后续评估中，默认使用聚集映射 (gathering mapping)。

5.4. 仿真平台 (Simulation Platform)

所有评估都在一台配备 Intel Core i7 处理器 (1.4 GHz) 和 16GB RAM 的笔记本电脑上使用 Python 3.9 进行。

6. 实验结果与分析

本节详细分析了 S-SYNC 编译器在不同实验设置下的性能表现，包括与现有基准的比较、QCCD 拓扑和门实现的影响、初始映射的对比、超参数敏感性分析、可扩展性分析以及最优性分析。

6.1. 比较基准 (Comparison on benchmarks)

6.1.1. 穿梭次数 (Shuttle number counts)

S-SYNC 在穿梭操作数量方面表现优于 Murali et al. [48] 和 Dai et al. [15] 的算法。

24 量子比特电路: 平均提高了 25%。
64 量子比特电路: 相比于先前的框架，S-SYNC 也能实现更高效的穿梭。
Adder 应用: 穿梭次数减少高达 90.2%。
QAOA 和 ALT: 穿梭次数平均减少 21.6%。
QFT: 穿梭次数平均减少 10.9%。

以下是原文 Figure 8 展示的不同算法下的换位次数对比。

该图像是一个柱状图，展示了不同算法下的换位次数对比，包括 QFT_24、Adder_32、QAOA_64、ALT_64、QFT_64 和 BV_64 等实例。数据表明，采用本研究方法的换位次数明显减少，展现了 S-SYNC 的优化效果。

huc wor y Mu . 8 n ai. 5] Le 图 8. 与 Murali et al. [48] 和 Dai et al. [15] 近期工作对比的穿梭次数 (越低越好)。

6.1.2. `交换`门次数 (SWAP gate counts)

在大多数情况下，S-SYNC 的交换门操作数量低于先前的框架。

平均减少: 与 Dai et al. [15] 和 Murali et al. [48] 的框架相比，S-SYNC 的交换次数分别平均减少了 68.5% 和 54.9%。
QAOA 和 ALT: 对于最近邻门 (nearest-neighbor gates) 应用，交换次数分别减少高达 71.5% 和 61.7%。
例外情况: 对于 $BV_64$ 等少数应用，S-SYNC 在交换次数上并未超越 Dai et al. [15]。然而，在这种情况下，S-SYNC 的穿梭次数更低，这仍然是有利的。

以下是原文 Figure 9 展示的不同量子算法在不同映射方法下所需的交换次数。

该图像是一个条形图，展示了不同量子算法在不同映射方法下所需的SWAP次数，包括QFT_24、Adder_32、QAOA_64、ALT_64、QFT_64和BV_64六个案例。图中红色条形代表本文提出的方法，显示出显著降低的SWAP数量，验证了S-SYNC的有效性。

.8 图 9. 与 Murali et al. [48] 和 Dai et al. [15] 近期工作对比的交换次数 (越低越好)。

6.1.3. 成功率 (Success Rate)

成功率与穿梭操作次数、交换操作次数和电路执行时间呈负相关。S-SYNC 通过优化这些因素，显著提高了成功率（使用 FM gate 实现）。

整体提升: S-SYNC 在不同尺寸和 QCCD 拓扑的各种基准测试中，整体上优于 Murali et al. [48] 和 Dai et al. [15] 的现有最佳编译器。
显著提升案例: $Adder_32$ 的穿梭次数减少了 90.2%，其成功率提高了 2.3 倍。
下降案例: 在特定通信拓扑下，如 $QFT_64$ 的穿梭和交换操作数量虽已优化，但成功率略有下降。
ALT 应用的权衡: 对于 ALT 等应用，即使交换和穿梭操作数量较高，成功率也可能更高。这可能是因为噪声模型 (noise model)。具体来说，穿梭次数的减少可能导致离子在少量离子阱中高度集中，这种聚集效应 (gathering effect) 增加了每个离子阱的离子数量，进而延长了 FM gate 的执行时间，最终降低了整体成功率。

以下是原文 Figure 10 展示的与 Murali et al. [48] 和 Dai et al. [15] 的研究相比的成功率。

$Figure 10. Comparison of success rate with recent work by Murali et al. \[48\] and Dai et al. \[15\] (Higher the better).$ 该图像是一个柱状图，展示了与Murali et al.和Dai et al.的研究相比的成功率。不同的数据集（如QFT_24、Adder_32等）和不同的算法组合（如S-4、L-6、G-2×2等）被用来评估成功率，结果表明本研究的成功率有显著提高。

Figure 10. Comparison of success rate with recent work by Murali et al. [48] and Dai et al. [15] (Higher the better). 图 10. 与 Murali et al. [48] 和 Dai et al. [15] 近期工作对比的成功率 (越高越好)。

6.2. QCCD 拓扑分析 (QCCD topological analysis)

本文评估了不同拓扑结构如何影响量子电路编译结果。图中所示的总容量代表所有系统累积的容量。

6.2.1. 拓扑 (Topology)

拓扑影响: QCCD 拓扑对性能有显著影响。
- 对于 BV 和 Adder 应用，拓扑影响相对不显著，执行时间分别仅相差 1.05 倍和 3.6 倍。
- 对于 QFT 和 Heisenberg Hamiltonian 模拟，拓扑影响巨大。
网格和环形拓扑优势: 通常，网格拓扑 (grid topology)（如 G- $2 \times 3$ , G- $3 \times 3$ ）和环形拓扑 (circle topology) 在所有应用的执行时间 (execution time) 和成功率 (success rate) 方面都表现出更好的性能。
S-SYNC 偏好: S-SYNC 倾向于网格型拓扑，以在不同算法中获得更好的性能。

6.2.2. 陷阱容量 (Trap Capacity)

容量影响: 对于 L-6 和 G- $2 \times 3$ 拓扑，随着陷阱容量 (trap capacity) 的增加，性能趋势达到峰值后显著下降，这与先前的框架 [48] 关注 L-6 拓扑的结果一致。
最优容量: 在所有总陷阱容量中，G- $3 \times 3$ 拓扑显示出最低的执行时间。最合适的陷阱容量可以节省高达 4 倍 的执行时间，并且通常可以实现更好的成功率。
经验证据: 经验证据表明，在成功率方面，峰值性能通常在每个陷阱包含 10 到 15 个量子比特时实现，这与先前的工作 [48] 一致。
微架构变化: 微架构 (microarchitecture) 的变化会影响成功率，导致随着陷阱容量增加而波动。这些波动主要归因于应用中量子比特的排列，例如加法器电路，其中某些量子比特必须根据容量约束在陷阱之间移动。

以下是原文 Figure 11 展示了不同量子算法在成功率与执行时间方面的表现。

该图像是一个四个部分的图表，展示了不同量子算法在成功率与执行时间方面的表现。上半部分显示了 QFT、BV、加法器和海森堡哈密顿量四种算法的成功率与总容量的关系；下半部分则展示了相应的执行时间。每个子图中，各算法的表现通过不同颜色的曲线表示。 图 11. QCCD 拓扑分析：不同应用在不同 QCCD 拓扑下的成功率和执行时间。

6.3. QCCD 门实现分析 (QCCD gate implementation analysis)

S-SYNC 对使用 G- $2 \times 3$ 拓扑、陷阱容量为 16 的五种大规模应用的不同类型门实现进行了分析。

短程门应用: 对于 QAOA 和 ALT 等短程门 (short-range gates) 应用，AM2 (幅度调制门 2) 通常优于 PM (相位调制门) 和 FM (频率调制门)。
长程门应用: 对于 QFT 等需要长程门 (long-range gates) 的应用，FM 和 PM 更为合适，因为这些门对离子间距的依赖性较弱。
门类型适用性: 这表明 AM gate 更适用于近期应用 (near-term applications)，而 FM 和 PM gate 更适用于更复杂、需要长程纠缠 (long-range entanglement) 的应用。

以下是原文 Figure 13 展示了不同量子门实现下的成功率评估。

该图像是图表，展示了不同量子门实现（FM、AM1、AM2 和 PM）下的成功率评估。栏中分别显示了 Adder_32、QFT_64、BV_64、QAOA_64 和 ALT_64 应用的成功率，表明不同门实现对量子计算成功率的影响。

Figure 13. Evaluation on different applications with FM, AM1, AM2 and PM gate implementations. 图 13. 不同应用在 FM、AM1、AM2 和 PM 门实现下的评估。

6.4. 初始映射比较 (Comparison of Initial Mapping)

S-SYNC 还研究了不同初始量子比特映射 (initial qubit mapping) 方法的影响。以 64 量子比特的 $Adder_32$ 和 $QFT_64$ 为例，在 G- $2 \times 3$ 拓扑上测试了三种不同映射在不同应用规模下的性能。

以下是原文 Figure 12 展示了初始映射效果的分析。

$Figure 12. Analysis of initial mapping effects. We use the 64-qubit Adder and 64-qubit QFT as examples on a $\\mathrm { G } { - } 2 { \\times } 3$ topology. due to the nature of FM gates, this approach increases execution time, which in turn reduces the success rate.$
该图像是图表，展示了64量子比特加法器（Adder-64）和64量子比特量子傅里叶变换（QFT-64）在不同应用规模下的迁移次数、交换次数、执行时间及成功率的分析。数据反映了不同初始映射方法对执行时间的影响，整体趋势显示，较大的应用规模通常导致更长的执行时间和较低的成功率。

Figure 12. Analysis of initial mapping effects. We use the 64-qubit Adder and 64-qubit QFT as examples on a $\\mathrm { G } { - } 2 { \\times } 3$ topology. due to the nature of FM gates, this approach increases execution time, which in turn reduces the success rate. 图 12. 初始映射效果分析。以 64 量子比特加法器和 64 量子比特量子傅里叶变换为例，在 G- $2 \times 3$ 拓扑上进行。由于 FM gate 的性质，这种方法增加了执行时间，从而降低了成功率。

聚集映射 (Gathering Mapping) 的表现:
- 聚集映射通常能减少穿梭次数。
- 然而，在执行时间和成功率方面表现较差。
相关性缺乏的原因: FM gate 的执行时间与离子链中的离子总数成正比。聚集映射虽然将离子聚集在同一离子阱内以最小化穿梭，但这会增加离子链中离子总数，从而延长整体执行时间，最终导致成功率下降。
复杂应用的影响: 随着应用通信模式复杂性的增加，这种成功率下降的现象会更加明显。
启发: 这一观察结果为未来研究不同通信模式和初始映射之间的权衡提供了潜力。

6.5. 超参数敏感性分析 (Sensitivity Analysis of Hyperparameters)

S-SYNC 对超参数的影响进行了额外模拟，选择 G- $2 \times 2$ 拓扑，陷阱容量为 20。

6.5.1. 权重分析 (Weight Analysis)

参数: $r$ 代表穿梭权重与内部权重之比。
结果: 在 $r100$ 到 $r100000$ 范围内改变 $r$ 。结果表明，只要穿梭权重与内部权重保持正比例关系，算法的整体性能几乎保持一致。

6.5.2. 衰减率分析 (Decay rate analysis)

参数: $d$ 代表衰减率 $\delta$ 。
结果: 在 0 到 0.01 之间改变 $\delta$ 。
- 较高的 $\delta$ 会优先考虑通用交换的并行执行，但过高的值会过度强调并行性。
- 较低的 $\delta$ 增加了陷入局部最优 (local optima) 的风险，导致额外的交换操作。
最优值: 最佳值取决于应用和架构。在之前的基准测试中，设置为 $\delta = 0.001$ ，在大多数应用中表现良好。

以下是原文 Figure 14 展示了超参数敏感性分析。

$Figure 14. Hyperparameter sensitivity analysis. (Left) Weight Analysis. r represents the ratio of shuttle weight to inner weight. (Right) Decay rate analysis. d represents the decay rate $\\delta$ .$ 该图像是图表，展示了不同应用大小下的成功率分析。左侧显示了多种初始映射方法的比较，右侧则展示了不同衰减率 $d$ 对成功率的影响。

Figure 14. Hyperparameter sensitivity analysis. (Left) Weight Analysis. r represents the ratio of shuttle weight to inner weight. (Right) Decay rate analysis. d represents the decay rate $\\delta$ . 图 14. 超参数敏感性分析。(左) 权重分析。 $r$ 代表穿梭权重与内部权重之比。(右) 衰减率分析。 $d$ 代表衰减率 $\delta$ 。

6.6. 可扩展性分析 (Scalability Analysis)

编译时间 (compilation time) 是实现大规模应用执行的另一个关键点 [4]。S-SYNC 选择了 G- $2 \times 2$ 拓扑，陷阱容量为 20。

以下是原文 Figure 15 展示了不同应用大小下的编译时间。

Figure 15. Compilation time varies with the size of application.
该图像是图表，展示了不同应用大小下的编译时间。左侧数据显示了Murali等人的方法与本文所提方法的编译时间对比，右侧则比较了多种量子算法的编译时间，随着应用大小的增加，Murali的方法编译时间迅速上升，而本文方法的增加幅度较小。

Figure 15. Compilation time varies with the size of application. 图 15. 编译时间随应用大小的变化。

编译时间趋势: S-SYNC 的编译时间并不与应用大小近似线性增长 (linearly growth)。
- 最初，随着应用大小的增长，S-SYNC 的编译时间也会增加。这是因为空间节点 (space nodes) 数量的增加会创建更多的可能路径，从而增加了编译开销。
- 然而，随着应用规模的持续扩大，空间节点的减少导致调度算法的编译时间逐渐下降。
可扩展性提升: 这一特性增强了 S-SYNC 相较于先前方法的可扩展性。

6.7. 最优性分析 (Optimality Analysis)

S-SYNC 通过与三个理想化场景 (idealized scenarios) 进行比较，评估其最优性差距 (optimality gap)：

完美穿梭 (Perfect shuttle): 假设所有移动都完全兼容。
完美交换 (Perfect SWAP): 代表所有需要穿梭的离子都位于离子阱边缘的场景。
理想情况 (Ideal case): 结合了完美穿梭和完美交换，通过暴力搜索方法 (brute-force methods) 建立了成功率的上限 (upper bound)。

S-SYNC 采用了 G- $2 \times 2$ 拓扑，陷阱容量为 20，并使用五个基准进行评估。

以下是原文 Figure 16 展示了 S-SYNC 与理想、完美的穿梭和交换操作的成功率分析。

Figure 16. Optimal Analysis of S-SYNC compared to ideal, perfect shuttle and perfect SWAP.
该图像是图表，展示了S-SYNC与理想、完美的shuttle和SWAP操作的成功率分析。各条柱状图代表不同测试案例的成功率，结果表明S-SYNC在优化性能方面具有显著优势。

Figure 16. Optimal Analysis of S-SYNC compared to ideal, perfect shuttle and perfect SWAP. 图 16. S-SYNC 与理想、完美穿梭和完美交换相比的最优性分析。

结果:
- 对于通信模式简单的应用，S-SYNC 实现了接近最优 (near-optimal) 的结果。
- 然而，对于 $QFT_64$ ，由于其复杂的通信模式需要长程纠缠门 (long-distance entanglement gates)，增加了穿梭操作次数，最终影响了整体保真度，因此其最优性差距略大。
完美交换匹配度: S-SYNC 的性能与完美交换的性能非常接近。
完美穿梭差距: 与完美穿梭相比，仍然存在最优性差距，这表明在保持交换性能的同时，提高穿梭效率仍需进一步研究。

7. 总结与思考

7.1. 结论总结

量子电荷耦合器件 (QCCD) 上执行两量子比特门需要专门的设计来减少与电路转换相关的穿梭和交换门插入。为了解决这一挑战，本文引入了 S-SYNC 编译器，旨在协同优化 (co-optimize) 穿梭和交换操作的数量。S-SYNC 配备了一个中间层，将 QCCD 转换为一个带有拓扑输入的加权图 (weighted graph)，并统一考虑了穿梭和交换操作。模拟结果表明，S-SYNC 算法在各种拓扑结构上都超越了现有编译器支持的性能。它平均将穿梭次数减少了 3.69 倍，并将量子应用的成功率平均提高了 1.73 倍。此外，S-SYNC 还提供了关于在不同 QCCD 拓扑上执行应用以及比较不同初始映射方法之间权衡的见解。

7.2. 局限性与未来工作

论文作者指出了以下局限性并提出了未来的研究方向：

量子比特映射方法多样性: 建议在 S-SYNC 现有框架内，探索各种成功的量子比特映射方法 [34, 38, 70, 73, 87-89]。
噪声自适应编译策略 (Noise-adaptive compilation policies): 许多针对超导计算机的噪声自适应编译策略 [25, 47, 51, 57, 67, 79] 旨在为嘈杂的量子硬件定制应用。这些方法可以被应用于 S-SYNC 的上下文，以提供进一步的见解，并探索未来 QCCD 设备的噪声性能方面的权衡。

7.3. 个人启发与批判

7.3.1. 个人启发

抽象的力量：通用交换与静态拓扑建模：S-SYNC 最重要的启发在于它如何通过通用交换的概念和静态拓扑建模来抽象 QCCD 设备的复杂物理操作。将穿梭、分裂、合并、离子重排等一系列动态且复杂的物理过程统一建模为加权图上的节点通用交换，极大地简化了调度问题。这种将物理层复杂性抽象到逻辑层进行优化的思路，对于其他类似具有动态连接特性的量子硬件（如基于中性原子阵列的系统）也可能具有借鉴意义。
协同优化的必要性：论文明确指出穿梭和交换操作之间存在紧密联系，并成功地协同优化了二者。这强调了在设计量子编译器时，不能孤立地解决单个优化问题，而应考虑不同操作之间相互影响的协同效应，以避免局部最优。
性能与物理约束的精细平衡：启发式成本函数的设计，特别是 Pen(g) 项对离子阱内空间节点的考虑，以及 decay(g) 对冗余操作的惩罚，都体现了对 QCCD 物理约束的深刻理解。这表明在量子编译中，将硬件的物理特性和限制融入到优化算法中是至关重要的。
初始映射的重要性与权衡：聚集映射虽然减少了穿梭，但却增加了FM门的执行时间并降低了成功率。这一发现深刻揭示了初始映射策略对整体性能的非直观影响，以及不同优化目标（例如最小化穿梭 vs. 最小化门时间）之间可能存在的复杂权衡。这对于指导 QCCD 硬件架构设计和应用开发者具有重要意义。
可扩展性考量：编译时间并非线性增长，甚至在应用规模扩大到一定程度后有所下降，这表明 S-SYNC 在处理大规模量子电路方面具有良好的可扩展性潜力。

7.3.2. 批判与潜在改进

最优性差距的进一步缩小：尽管 S-SYNC 在完美交换方面表现出色，但与完美穿梭之间仍存在最优性差距。这表明 S-SYNC 在最小化实际离子移动成本方面仍有改进空间。未来的工作可以探索更复杂的路径搜索算法，或考虑多离子穿梭的优化策略，以进一步减少离子实际的物理移动成本。
噪声模型的精细化与集成：论文中提到了 ALT 应用的成功率受噪声模型影响，即使交换和穿梭次数较高，也可能因为离子集中导致 FM门时间延长而降低成功率。这暗示了当前噪声模型可能仍需更精细地集成到启发式函数中。未来的工作可以借鉴噪声自适应编译策略，更直接地将实时或预测的噪声图、相干时间等因素纳入调度决策。
最大路径长度 $m$ 的限制：论文中为了可管理计算时间，将最大路径长度 $m$ 截断为 2。虽然实验表明 $m=2$ 在大多数情况下已足够，但对于更复杂或特定通信模式的应用，增加 $m$ 可能会发现更好的全局路径。未来的研究可以在计算资源允许的情况下，探索动态调整 $m$ 或使用更高级的搜索技术来克服这一限制。
通用交换的粒度与并行性：通用交换将所有操作统一起来，这在简化建模的同时，可能忽略了某些操作的并行性潜力。例如，在不同的离子阱之间进行穿梭操作可能可以并行发生。未来的工作可以探索在通用交换框架下，如何更好地识别和利用 QCCD 操作的并行性。
实际物理实现中的复杂性：QCCD 设备中的离子加热、分离、合并过程在现实中远比模型复杂，涉及精细的电压脉冲序列和量子力学效应。模型中的 $k_1, k_2, \Gamma$ 等参数是简化后的近似值。在未来，更精确的物理模型集成可能进一步提升编译器的性能。
初始映射与调度策略的深度结合：当前 S-SYNC 的初始映射与调度是两阶段过程。未来的工作可以探索更紧密结合的联合优化 (joint optimization) 方案，例如将初始映射作为调度算法的一部分，以端到端的方式寻找全局最优解。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

S-SYNC: Shuttle and Swap Co-Optimization in Quantum Charge-Coupled Devices

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 41 分钟读完 · 24,880 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 预处理 (Preprocessing)

4.2.1.1. 量子应用到 DAG (Mapping quantum application to DAG)

4.2.1.2. QCCD 到静态拓扑模型 (Mapping QCCD onto a static topology model)

4.2.2. 基于通用交换的穿梭调度 (Generic-Swap Based Shuttling Schedule)

4.2.3. 启发式成本函数 (Heuristic Cost Functions)

4.2.4. 初始映射 (Initial Mapping)

4.2.4.1. 第一级映射 (First-level Mapping)

4.2.4.2. 第二级映射 (Second-level Mapping)

5. 实验设置

5.1. 模拟参数

5.1.1. 执行时间 (Execution Time)

5.1.2. 成功率 (Success Rate)

5.2. 基准设置 (Benchmarks Settings)

5.2.1. 架构结构 (Architectural Structures)

5.2.2. 应用 (Applications)

5.2.3. 基准实现 (Benchmark Implementation)

5.3. 算法配置 (Algorithm Configurations)

5.4. 仿真平台 (Simulation Platform)

6. 实验结果与分析

6.1. 比较基准 (Comparison on benchmarks)

6.1.1. 穿梭次数 (Shuttle number counts)

6.1.2. 交换门次数 (SWAP gate counts)

6.1.3. 成功率 (Success Rate)

6.2. QCCD 拓扑分析 (QCCD topological analysis)

6.2.1. 拓扑 (Topology)

6.2.2. 陷阱容量 (Trap Capacity)

6.3. QCCD 门实现分析 (QCCD gate implementation analysis)

6.4. 初始映射比较 (Comparison of Initial Mapping)

6.5. 超参数敏感性分析 (Sensitivity Analysis of Hyperparameters)

6.5.1. 权重分析 (Weight Analysis)

6.5.2. 衰减率分析 (Decay rate analysis)

6.6. 可扩展性分析 (Scalability Analysis)

6.7. 最优性分析 (Optimality Analysis)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判与潜在改进

相似论文推荐

4.2.1.1. 量子应用到 `DAG` (Mapping quantum application to DAG)

6.1.2. `交换`门次数 (SWAP gate counts)