摘要

Memory resident database systems (MMDB’s) store their data in main physical memory and provide very high-speed access. Conventional database systems are optimized for the particular characteristics of disk storage mechanisms. Memory resident systems, on the other hand, use different optimizations to structure and organize data, as well as to make it reliable. This paper surveys the major memory residence optimizations and briefly discusses some of the memory resident systems that have been designed or implemented.

1. 论文基本信息

1.1. 标题

主内存数据库系统：综述 (Main Memory Database Systems: An Overview)

1.2. 作者

Hector Garcia-Molina：电气工程学士（1974年，墨西哥蒙特雷科技学院），电气工程硕士（1975年，斯坦福大学），计算机科学博士（1979年，斯坦福大学）。1979年至1991年在普林斯顿大学计算机科学系任教，1991年同时担任普林斯顿松下信息技术实验室副主任。现为斯坦福大学计算机科学系教授。研究方向包括分布式计算系统和数据库系统。是 ACM 会员。
Kenneth Salem：电气工程与应用数学学士（1983年，卡内基梅隆大学），计算机科学博士（1989年，普林斯顿大学）。现为马里兰大学帕克分校计算机科学系助理教授，同时也是美国国家航空航天局戈达德太空飞行中心空间数据和信息科学卓越中心的工作人员科学家。研究方向包括数据库和操作系统以及事务处理。是 ACM 会员。

1.3. 发表期刊/会议

IEEE Transactions on Knowledge and Data Engineering (IEEE 知识与数据工程汇刊)，受邀论文 (Invited Paper)。该期刊是计算机科学领域，特别是数据库和知识工程方面，具有较高声誉和影响力的学术刊物。

1.4. 发表年份

1992年1月1日 (UTC)

1.5. 摘要

内存驻留数据库系统 (Main Memory Database Systems, MMDB) 将其数据存储在主物理内存中，并提供极高速的访问。传统数据库系统 (Conventional Database Systems) 针对磁盘存储机制的特定特性进行了优化。而内存驻留系统则采用不同的优化方法来组织数据结构、管理数据，并确保其可靠性。本文综述了主要的内存驻留优化技术，并简要讨论了一些已设计或实现的内存驻留系统。

1.6. 原文链接

/files/papers/6945193330201ec93b19af87/paper.pdf

2. 整体概括

2.1. 研究背景与动机

随着半导体存储器成本的降低和芯片密度的增加，将越来越大的数据库存储在主内存中变得可行，使得主内存数据库系统 (Main Memory Database Systems, MMDB) 成为现实。相较于传统的磁盘驻留数据库系统 (Disk Resident Database Systems, DRDB)，MMDB 可以提供显著更优的响应时间和事务吞吐量，这对于需要严格完成时限的实时应用（如电信、雷达追踪、证券交易）尤为重要。

论文指出，计算机的主内存 (Main Memory) 与磁性磁盘 (Magnetic Disks) 具有截然不同的特性，这些差异对数据库系统的设计和性能有着深远的影响。具体包括：

访问时间 (Access Time)：主内存的访问时间比磁盘存储少几个数量级。
易失性 (Volatility)：主内存通常是易失的（断电数据丢失），而磁盘存储是非易失的。
块导向 (Block-Oriented)：磁盘是块导向的存储设备，每次访问成本高且固定，不取决于检索数据量；主内存则不是。
数据布局 (Data Layout)：磁盘上的数据布局（如顺序访问）至关重要，而主内存中不那么重要。
直接可访问性 (Direct Accessibility)：主内存通常可被处理器直接访问，磁盘则不能，这使得内存数据更容易受到软件错误的影响。

这些差异影响着数据库管理的几乎所有方面，从并发控制 (Concurrency Control) 到应用接口 (Application Interfaces)。因此，论文旨在探讨这些影响，并概述已设计或实现的 MMDB。论文还回答了三个常见问题：

数据库是否能完全放入主内存？ 对于某些应用是可行的，特别是实时应用或数据量有限的场景。对于大型应用，可以将“热数据”(Hot Data)（访问频繁、低容量、时间要求严格）分区存储在内存中，而“冷数据”(Cold Data) 存储在磁盘上，形成多级数据库系统 (Multilevel Database Systems)。
MMDB 与带有大缓存的 DRDB 有何不同？ 即使 DRDB 的缓存足够大，数据可能常驻内存，但其内部优化（如索引结构、通过缓冲区管理器 (Buffer Manager) 访问数据）仍是针对磁盘设计的。MMDB 则通过直接内存地址引用数据（即内存指针化 (Swizzling)）和设计内存优化索引等方式，充分利用内存特性。
能否假设主内存是非易失和可靠的？ 虽然可以通过电池备用内存、不间断电源 (UPS) 等技术提高内存可靠性，但不能使其故障率为零。因此，仍需备份 (Backup)。由于内存直接受处理器访问，更容易受操作系统错误影响，且单块内存板故障通常导致整个机器停机，因此 MMDB 的备份频率和性能至关重要。

2.2. 核心贡献/主要发现

本文作为一篇综述，其核心贡献在于：

系统性地概述了内存驻留对数据库管理系统各个功能组件的影响：论文详细讨论了内存驻留如何改变并发控制 (Concurrency Control)、提交处理 (Commit Processing)、访问方法 (Access Methods)、数据表示 (Data Representation)、查询处理 (Query Processing)、恢复 (Recovery)、性能 (Performance)、应用编程接口 (Application Programming Interface, API) 以及数据聚类与迁移 (Data Clustering and Migration) 的设计和优化。
强调了 MMDB 与 DRDB 的根本区别：指出 MMDB 不仅仅是缓存更大的 DRDB，而是需要从底层设计上进行根本性改变以充分利用内存特性。
预测了 MMDB 的未来趋势：基于内存成本下降的趋势，预测 MMDB 将变得越来越普遍，其优化机制也将成为主流。
介绍了多种已设计或实现的 MMDB 系统：简要回顾了 OBE、MM-DBMS、IMS/VS Fast Path、MARS、HALO、TPK 和 System M 等代表性系统，展示了这些优化在实际系统中的应用。

论文的主要发现是，为了充分发挥主内存的性能优势，MMDB 必须在几乎所有数据库管理的核心功能上进行重新设计和优化，这些优化围绕着减少磁盘 I/O、利用直接内存访问 (Direct Memory Access)、适应内存易失性等核心挑战展开。

3. 预备知识与相关工作

3.1. 基础概念

理解本文需要掌握以下基本概念：

主内存数据库系统 (Main Memory Database System, MMDB)：一种将整个数据库（或其最核心、最常用的部分）永久存储在计算机主物理内存中的数据库管理系统。与传统数据库系统不同，它直接在内存中操作数据，而非主要依赖磁盘。
磁盘驻留数据库系统 (Disk Resident Database System, DRDB)：传统意义上的数据库系统，其主要数据存储介质是磁盘。数据在需要时从磁盘加载到内存缓存中，处理后再写回磁盘。
易失性 (Volatility)：指存储设备在断电后是否会丢失其存储的数据。主内存（RAM）通常是易失的，而磁盘存储（HDD、SSD）是非易失的。
稳定存储 (Stable Storage)：一种能够防止数据因系统崩溃或断电而丢失的存储机制。通常通过将数据复制到两个独立的磁盘，或使用带有备用电源的内存（如电池备用内存、不间断电源 UPS）来实现。在 MMDB 中，用于存储日志 (Log) 和备份 (Backup)。
缓冲区管理器 (Buffer Manager)：在 DRDB 中，负责管理内存中的数据页缓存，处理从磁盘到内存的数据块加载和从内存到磁盘的数据块写入。应用程序通过它间接访问数据。
内存指针化 (Swizzling)：将数据库对象或元组的磁盘地址（或逻辑标识符）转换为其在主内存中的直接指针（内存地址）的过程。这允许应用程序直接通过内存指针访问对象，从而提高访问效率。
并发控制 (Concurrency Control)：数据库管理系统确保多个事务同时执行时，数据库的一致性、隔离性和持久性得到维护的机制。
- 两阶段锁定 (Two-Phase Locking)：一种常见的并发控制协议。事务在增长阶段 (Growing Phase) 可以获取锁但不能释放锁，在收缩阶段 (Shrinking Phase) 可以释放锁但不能获取锁。
- 锁粒度 (Lock Granule)：事务获取锁的最小数据单元，可以是字段、记录、块、表甚至整个数据库。粒度越小，并发性越高，但锁管理开销越大；粒度越大，并发性越低，但锁管理开销越小。
提交处理 (Commit Processing)：数据库事务在所有操作成功完成后，将其修改永久化（持久化）到稳定存储的过程。
- 预提交 (Pre-committing)：事务的锁可以在其日志记录 (Log Record) 写入日志后立即释放，而无需等待日志信息传播到磁盘。这可以减少其他并发事务的阻塞延迟。
- 组提交 (Group Commit)：将多个事务的日志记录收集到内存中，当积累到一定数量（例如，填满一个页面）时，一次性批量写入到日志磁盘。这减少了日志磁盘的 I/O 操作总数，从而缓解日志瓶颈。
访问方法 (Access Methods)：数据库中用于高效检索和存储数据的结构和算法。
- B 树 (B-Trees)：一种平衡树结构，广泛用于磁盘驻留数据库的索引。其设计优化了磁盘 I/O，通过保持树的矮胖结构来减少磁盘块访问次数。
- 哈希 (Hashing)：通过哈希函数将关键字映射到存储位置，提供快速的精确匹配查询。
- T 树 (T-Trees)：一种为内存数据库专门设计的平衡二叉树变体，其节点可以存储多个数据值，旨在优化内存访问模式。
- 倒排索引 (Inverted Index)：一种索引结构，通常用于文本检索。在关系数据库中，它可以表示为基于某个属性值排序的元组指针列表，提供高效的范围查询和精确匹配查询。
查询处理 (Query Processing)：数据库管理系统解析、优化并执行用户查询的过程。
- 排序合并连接 (Sort-Merge Join)：一种关系数据库中的连接算法，通过先对两个关系进行排序，然后合并已排序的元组来执行连接。
恢复 (Recovery)：数据库管理系统在发生故障（如系统崩溃、介质故障）后，将数据库恢复到一致状态的机制。
- 日志 (Log)：记录所有数据库修改操作的顺序列表，用于回滚 (Rollback) 未提交事务和重做 (Redo) 已提交事务。
- 检查点 (Checkpointing)：定期将数据库的当前状态（或部分状态）写入稳定存储（通常是磁盘备份）的过程，以减少故障恢复时需要处理的日志量。
  - 事务一致性检查点 (Transaction-Consistent Checkpoint)：在执行检查点时，暂停所有事务或使用锁，确保磁盘上的数据库副本处于事务一致的状态。
  - 模糊转储 (Fuzzy Dumping)：在检查点操作期间，不暂停或不完全暂停事务处理。通过某种机制（如记录修改的页面）允许并发活动，但可能需要在恢复时额外处理以确保一致性。
磁盘条带化 (Disk Striping) 或 磁盘阵列 (Disk Arrays)：通过将数据分散存储在多个磁盘上，实现并行读写，从而提高 I/O 吞吐量和（在某些配置下）数据冗余的技术。

3.2. 前人工作

论文在介绍 MMDB 的背景和与 DRDB 的区别时，提到了以下重要的前人工作和相关系统：

IMS Fast Path [9]：这是 IBM 最早的数据库系统之一 IMS 的一个组成部分，早在大约 1970 年代末期就已经为内存驻留数据提供了专门的路径。它将数据库分为内存驻留数据（通过 Fast Path 管理）和常规磁盘驻留数据（通过传统 IMS 管理），这表明了对不同访问模式数据的区别对待。Fast Path 尤其以其为高频访问数据提供的优化（如 VERIFY/CHANGE 操作）和组提交机制而闻名。
Stonebraker [25] 关于多级存储中持久对象管理：Stonebraker 在其论文中讨论了在多级存储（即同时包含内存和磁盘等不同存储介质）中管理持久化对象的相关问题，包括数据迁移的议题。这与本文探讨的将“热数据”存储在内存、将“冷数据”存储在磁盘，以及数据在不同存储层级间迁移的思路高度一致。
Gray 和 Putzolu [10] 的“5 分钟规则”：这是一项关于内存与磁盘访问成本权衡的经验法则。它指出，如果一个磁盘块被访问的频率高于每 5 分钟一次，那么将其保存在内存中会比每次从磁盘读取更具成本效益。这项规则为 MMDB 的经济性提供了理论基础，也揭示了随着内存成本下降，更多数据将符合“内存驻留”的条件。
其他 MMDB 研究和原型系统：论文在第三章详细讨论了多个 MMDB 的设计和实现，包括：
- OBE [1], [2], [26]：IBM 的 Office-By-Example 项目中的一个内存数据库管理器，侧重于临时查询。
- MM-DBMS [15], [17]：威斯康星大学设计，广泛使用指针和 T-Tree 索引。
- MARS [6], [7], [12]：南方卫理公会大学设计，采用双处理器结构进行快速事务执行和恢复。
- HALO [8]：一种硬件日志记录设备，旨在透明地卸载事务日志活动。
- TPK [18]：普林斯顿大学实现的事务处理原型系统，侧重于快速执行借记/贷记类型事务。
- System M [24]：普林斯顿大学开发的事务处理测试平台，用于经验性比较恢复技术。

3.3. 技术演进

本文发表于 1992 年，正值主内存数据库 (MMDB) 概念从研究走向实际应用的早期阶段。在此之前，数据库系统主要围绕磁盘 I/O 优化 (Disk I/O Optimization) 进行设计，例如 $B$ 树 (B-Trees) 索引、预读 (Prefetching) 和复杂缓存管理等。随着半导体内存成本的持续下降和容量的飞速增长，研究者开始认识到，将整个甚至大部分数据库常驻内存已成为可能。

这种技术演进促使了对数据库核心组件的重新思考：

存储范式转变：从“以磁盘为中心”向“以内存为中心”转变。
性能瓶颈转移：从磁盘 I/O 瓶颈 (Disk I/O Bottleneck) 转移到CPU 处理瓶颈 (CPU Processing Bottleneck)。这意味着传统的 DRDB 优化手段在 MMDB 中可能不再适用，甚至可能成为性能障碍。
可靠性挑战：主内存的易失性 (Volatility) 成为 MMDB 必须面对的核心问题，催生了专门的提交处理 (Commit Processing) 和恢复 (Recovery) 机制研究。

本文的工作恰好处于这一技术演进的关键节点，它系统地总结了当时 MMDB 领域的研究进展，指出了 MMDB 的设计原则和面临的挑战，并展望了其发展前景。它为后续 MMDB 的深入研究和商业化产品（如 SAP HANA、VoltDB 等）奠定了理论基础和方向。

3.4. 差异化分析

本文的核心差异化在于其作为一篇全面的综述 (Overview) 性论文，系统地对比和分析了主内存数据库系统 (MMDB) 和磁盘驻留数据库系统 (DRDB) 的根本区别，并深入探讨了内存驻留数据对数据库管理系统各个核心组件的影响。

与相关工作相比，本文的差异化体现在：

超越“大缓存”的视角：论文明确指出 MMDB 并非简单地拥有一个非常大的缓存的 DRDB。它强调，即使 DRDB 的缓存能容纳所有数据，其内部的索引结构、数据访问路径（通过缓冲区管理器）等依然是为磁盘访问优化的。MMDB 的创新点在于从底层重新设计，例如采用直接内存指针（swizzling）、为内存优化的索引结构（如 $T$ 树），以及针对 CPU 处理成本而非磁盘 I/O (Disk I/O) 成本的查询优化。
全面涵盖 DBMS 组件：论文不局限于某个单一组件的优化，而是全面审视了并发控制 (Concurrency Control)、提交处理 (Commit Processing)、访问方法 (Access Methods)、数据表示 (Data Representation)、查询处理 (Query Processing)、恢复 (Recovery)、性能 (Performance)、应用编程接口 (API) 和数据聚类与迁移 (Data Clustering and Migration) 等几乎所有 DBMS 核心功能在内存驻留环境下的特殊需求和优化策略。这种宏观且深入的分析是其独特之处。
集成现有系统实践：论文不仅停留在理论分析，还简要讨论了当时已有的 MMDB 原型或商业系统（如 IMS/VS Fast Path、OBE、MARS 等），展示了这些理论优化如何在实际系统中得到应用。这使得论文更具实践指导意义。
前瞻性预测：论文基于内存成本下降的趋势，预测了 MMDB 将成为未来主流，并指出 DRDB 也将逐渐采纳 MMDB 的内存优化技术，预见了两类系统最终可能融合的趋势。

总而言之，本文并非提出某个新的具体方法或算法，而是通过对 MMDB 领域已有研究和系统实践的全面梳理和深入分析，构建了一个关于如何设计和优化 MMDB 的系统性框架。它清晰地界定了 MMDB 的独特挑战和机遇，为该领域的进一步发展提供了重要的理论指导。

4. 方法论

本文的方法论是作为一篇综述，系统地分析了内存驻留数据对数据库管理系统 (DBMS) 各个功能组件的影响，并讨论了为 MMDB 设计的相应优化策略。这些“优化”构成了 MMDB 的核心方法论。

4.1. 方法原理

MMDB 方法论的核心原理在于充分利用主内存的高速访问 (High-Speed Access) 特性，同时应对其易失性 (Volatility) 挑战。这意味着：

最小化甚至消除磁盘 I/O (Minimize/Eliminate Disk I/O)：由于数据常驻内存，传统的磁盘访问优化不再是首要任务，转而关注如何减少 CPU 处理开销。
利用直接内存访问 (Leverage Direct Memory Access)：通过直接使用内存指针来访问数据，避免缓冲区管理和地址转换的开销。
重新设计数据结构和算法 (Redesign Data Structures and Algorithms)：针对内存访问模式（非块导向、随机访问与顺序访问速度差异小）优化索引结构、数据表示和查询处理算法。
确保数据可靠性 (Ensure Data Reliability)：开发高效的提交处理 (Commit Processing) 和恢复 (Recovery) 机制，以应对主内存的易失性。

4.2. 核心方法详解 (逐层深入)

4.2.1. 并发控制 (Concurrency Control)

原理与优化：由于内存访问速度快，事务完成更快，锁的持有时间缩短，从而降低了锁争用 (Lock Contention)。这使得在 MMDB 中，大粒度锁（例如，对整个关系 (Relation) 或表 (Table) 加锁）变得更具吸引力，因为其可以显著减少并发控制 (Concurrency Control) 的开销。在极端情况下，可以对整个数据库进行串行执行，完全消除并发控制的成本，并减少 CPU 缓存刷新，但可能不适用于长事务或多处理器系统。
锁机制的实现优化：
- 内存对象内嵌锁状态：在传统 DRDB 中，锁信息通常存储在独立的哈希表中。而在 MMDB 中，由于数据常驻内存，可以在被锁对象本身中嵌入少量比特来表示其锁状态。例如，使用第一个比特指示对象是否被锁定，第二个比特指示是否有等待事务。
- 过程：
  1. 事务尝试锁定对象时，首先检查对象自身的锁比特。
  2. 如果锁比特未设置（对象空闲），事务直接设置该比特并完成锁定（需要使用测试并设置 (Test and Set) 指令来保证原子性）。
  3. 如果锁比特已设置（对象被锁定），且有其他事务希望等待，它会设置第二个比特，并将自身添加到传统锁哈希表中的等待事务列表中。
  4. 当原始事务释放锁比特时，它检查第二个比特。如果未设置，则没有等待事务，完成释放。如果设置，则执行唤醒等待事务的常规过程。
- 优势：在低争用情况下，大部分锁操作（锁定空闲对象并释放）可以仅通过少量机器指令完成，避免了昂贵的哈希表查找，显著提高了性能。
- 开销：每个记录需要额外存储少量比特。

4.2.2. 提交处理 (Commit Processing)

原理与挑战：由于主内存的易失性，为防止介质故障，必须有备份 (Backup) 并维护事务活动的日志 (Log)。此日志必须驻留在稳定存储 (Stable Storage)（例如，冗余磁盘）中。事务在提交前，其活动记录必须写入日志，这可能导致性能瓶颈和响应时间延迟，因为这是 MMDB 中唯一的磁盘操作。
解决方案：
- 稳定主内存作为日志尾部 (Stable Main Memory for Log Tail)：使用少量非易失性主内存 (Nonvolatile Main Memory) 来保存部分日志。事务通过将日志信息写入此稳定内存来提交，这是一个相对快速的操作。一个专门的进程或处理器负责将数据从稳定内存复制到日志磁盘。这消除了事务等待磁盘操作的响应时间问题。
- 预提交 (Pre-committing)：当稳定内存不可用时，事务的锁可以在其日志记录放入日志后立即释放，无需等待信息传播到磁盘。这可以减少其他并发事务的阻塞延迟，尽管不直接减少当前事务的响应时间。
- 组提交 (Group Commit)：事务的日志记录在提交后不立即发送到日志磁盘，而是积累在内存中。当积累足够多（例如，填满一个页面）时，所有记录在一个磁盘操作中批量刷新到日志磁盘。这减少了日志磁盘的总操作次数，缓解了日志瓶颈。

4.2.3. 访问方法 (Access Methods)

原理与优化：传统上为块导向存储（如磁盘）设计的索引结构（如 $B$ 树）在 MMDB 中失去了吸引力。在内存中，遍历更深的树结构比在磁盘上快得多，因此 MMDB 索引不一定需要 $B$ 树那样的矮胖结构。
适用的索引结构：
- 哈希 (Hashing)：提供快速的查找和更新，但不擅长范围查询，且可能不如树结构节省空间。
- $T$ 树 (T-Trees)：一种专门为内存驻留数据库设计的平衡二叉树，其节点可以存储多个有序值。
- 倒排索引 (Inverted Indexes)：最简单的索引方式之一，即直接在索引中存储指向实际数据值的指针列表，这些列表按索引字段的值排序。
- 指针使用：所有 MMDB 访问方法的一个共同特点是，索引中不必存储实际的数据值，而是存储指向被索引数据的指针 (Pointers)。由于随机内存访问速度快，可以快速跟随指针。这节省了空间（如果指针小于数据值），并简化了可变长度字段的处理。

4.2.4. 数据表示 (Data Representation)

原理与优化：MMDB 可以利用高效的指针跟随特性进行数据表示。
- 关系元组表示：关系元组 (Tuple) 可以表示为一组指向数据值的指针。当大型值在数据库中多次出现时，这种方式非常节省空间，因为实际值只需存储一次。
- 可变长度字段处理：指针简化了可变长度字段的处理，可以将可变长度数据存储在堆 (Heap) 中，并通过指针引用。

4.2.5. 查询处理 (Query Processing)

原理与优化：由于在内存数据库中，顺序访问 (Sequential Access) 不比随机访问 (Random Access) 快多少，因此利用顺序访问优势的查询处理技术（如排序合并连接 (Sort-Merge Join)）失去了其优势。MMDB 的查询处理器必须将重点放在处理成本 (Processing Costs) 上，而不是最小化磁盘访问。
高效的关系操作：
- 基于指针的连接：当关系元组被实现为一组指向数据值的指针时，某些关系操作（如连接）可以非常高效。例如，连接关系 $R$ $R$ 和 $S$ $S$ 的公共属性 $A$ $A$ 时：
  1. 扫描较小的关系 $R$ 。
  2. 对于 $R$ 中的每个元组，跟随其 $A$ 属性的指针到实际值 $a_i$ 。
  3. 从 $a_i$ 返回指针找到所有使用 $a_i$ 作为其 $A$ 属性值的 $S$ 元组。
  4. 将原始 $R$ 元组与这些 $S$ 元组连接，并添加到结果中。这种方法需要额外的存储来支持从值到元组的反向指针，但可以显著提高性能。
优化策略：MMDB 查询处理需要识别昂贵的操作（如创建索引或复制数据），并设计策略来减少其发生。由于操作成本在不同系统间差异很大，优化技术也需针对具体系统进行调整。

4.2.6. 恢复 (Recovery)

原理与挑战：为了防止易失性数据丢失，必须在磁盘或其他稳定存储上维护内存驻留数据库的备份 (Backup)。恢复包括在正常数据库操作期间保持备份最新以及在故障后恢复数据的过程。
优化与策略：
- 检查点 (Checkpointing)：用于限制故障恢复时必须处理的日志数据量。检查点使磁盘驻留的数据库副本保持最新，从而消除对最旧日志条目的需求。
- 磁盘 I/O 优化：由于应用程序事务不访问磁盘驻留数据，磁盘 I/O 可以专门为检查点过程进行优化，例如使用非常大的块大小进行写入，虽然写入时间更长，但只有检查点进程（系统进程）需要等待完成。
- 减少检查点干扰：
  - 事务一致性检查点 (Transaction-Consistent Checkpoints) 或动作一致性检查点 (Action-Consistent Checkpoints)：需要与事务进行一定同步（如加锁），以确保磁盘副本的一致性。
  - 模糊转储 (Fuzzy Dumping)：无需同步，但可能使日志记录和恢复过程更复杂。
- 故障恢复：
  - 按需加载 (On-Demand Loading)：在故障后，数据库管理器可以按需加载数据库块，直到所有数据都加载完毕，以加速恢复。
  - 磁盘条带化 (Disk Striping) 或磁盘阵列 (Disk Arrays)：将数据库分散存储在多个磁盘上，并行读取以加速数据传输，前提是磁盘到内存之间有独立的路径。

4.2.7. 性能 (Performance)

原理与关注点：除了提交处理 (Commit Processing) 外，MMDB 管理器的性能主要取决于处理时间 (Processing Time)，而非磁盘性能。即使涉及磁盘的恢复管理 (Recovery Management)，也主要通过处理器影响性能，因为磁盘操作通常在事务的关键路径 (Critical Paths) 之外执行。
分析模型的转变：MMDB 的性能分析模型通常关注处理成本 (Processing Costs)，而传统基于磁盘的系统则关注I/O 操作 (I/O Operations) 计数。
备份机制的重要性：在 DRDB 中，备份（即检查点）通常不影响正常系统运行时的性能，因此很少被仔细研究。但在 MMDB 中，由于备份频率更高，且涉及向比内存慢一个数量级的设备写入，因此备份 (Backup) 或检查点算法 (Checkpointing Algorithms) 的性能至关重要，需要更仔细地研究。

4.2.8. 应用编程接口 (Application Programming Interface, API) 和保护

传统 DRDB 模式：应用程序通过私有缓冲区与数据库管理系统交换数据。应用程序调用数据库系统，提供对象 ID 和缓冲区地址，系统将数据从磁盘复制到其缓冲区池，再复制到应用程序的私有缓冲区。写入时，应用程序修改私有缓冲区，系统将其复制回其缓冲区池，并进行日志记录和 I/O 操作。
MMDB 优化：
- 直接内存位置访问：应用程序可以直接获得对象的实际内存位置，而不是抽象的对象 ID。第一次访问时使用关系名和主键，后续访问直接使用内存地址。这避免了昂贵的地址转换。
- 直接访问对象：消除私有缓冲区，允许事务直接访问内存中的数据库对象。这可以显著减少数据复制开销，将事务执行指令数减少一半或更多。
- 潜在问题与解决方案：
  1. 未经授权访问 (Unauthorized Access)：事务可能读取或修改未经授权的部分。
  2. 修改日志缺失 (Missing Modification Logs)：系统无法知道哪些数据被修改，从而无法记录更改。 解决方案：只运行由专门的数据库系统编译器 (Compiler) 编译的事务。该编译器为每次数据库对象访问生成检查授权的代码，并记录每次对象修改。

4.2.9. 数据聚类与迁移 (Data Clustering and Migration)

传统 DRDB 模式：为了优化磁盘 I/O，通常将频繁一起访问的数据对象（如元组、字段）聚类 (Clustered) 存储在一起，例如将部门记录和其所有员工记录存储在同一磁盘页上。
MMDB 的不同：
- 在 MMDB 中，没有必要进行传统的磁盘聚类，因为随机内存访问速度快。事实上，一个对象的组件可能分散在内存中（如元组只包含指向实际数据值的指针）。
- 新问题：当一个对象需要迁移 (Migrate) 到磁盘（例如，从“热”数据变为“冷”数据）时，它应该如何以及存储在哪里？
- 解决方案：可以由用户指定迁移对象的聚类方式，或者系统根据访问模式自动确定并聚类。
- 独特组件：数据迁移 (Data Migration) 和动态聚类 (Dynamic Clustering) 是 MMDB 独有的组件，在传统数据库系统中没有直接对应。

5. 实验设置

本文是一篇综述性论文，主要目标是概述主内存数据库系统的设计原则和已有的系统实现，而非报告新的实验结果。因此，它没有传统意义上的“实验设置”部分，例如特定的数据集、评估指标或对比基线。

相反，本文的第三部分“III. SYSTEMS”简要介绍了当时已设计或实现的一些代表性 MMDB 系统。这些系统各自探索了不同的设计选择和优化策略。下文将基于论文对这些系统的描述进行总结。

5.1. 被调研的系统

本文调研了以下七个系统，并概述了它们在并发控制、提交处理、数据表示、访问方法、查询处理和恢复等方面的特点。

OBE (Office-By-Example)
- 设计目标：主要处理临时查询 (Ad Hoc Queries)，而非高更新负载。
- 数据表示：广泛使用指针。关系存储为元组链表，元组是属性值指针数组。
- 访问方法：索引实现为根据属性值排序的元组指针数组（即倒排索引 (Inverted Indexes)）。
- 查询处理：采用嵌套循环连接 (Nested-Loop Join)，因为排序合并连接在内存中无优势。支持“即时索引创建 (On-the-fly Index Creation)”以计算连接。查询优化侧重于减少处理器成本 (Processor Costs)。
MM-DBMS (Main-Memory Database Management System)
- 设计目标：关系数据模型，广泛使用指针。
- 数据表示：可变长度属性值通过指向堆 (Heap) 的指针表示。临时关系使用指向原始元组的指针。
- 访问方法：索引结构直接指向被索引元组，不存储数据值。使用线性哈希的变体进行无序数据索引，使用 $T$ 树 (T-Trees) 访问有序数据。
- 并发控制：采用两阶段锁定 (Two-Phase Locking)，使用大粒度锁（整个关系）。
- 提交处理：通过少量稳定内存 (Stable Memory) 存储日志记录，并有独立的恢复处理器 (Recovery Processor)。
- 恢复：内存分为自包含的块，作为与备份磁盘之间传输的单元。恢复处理器根据块对日志记录进行分组，实现独立恢复。检查点时，恢复处理器锁定块以确保事务一致性。故障后，块按需加载并用日志更新。
IMS/VS Fast Path
- 设计目标：IBM 的商业数据库产品，支持内存驻留数据和磁盘驻留数据，静态分类。尤其适用于高频访问数据。
- 并发控制：针对热点数据支持 VERIFY/CHANGE 操作。VERIFY 在事务早期执行，不设锁；实际更新在提交时使用极短持续时间的锁完成。锁请求服务高度优化以最小化并发控制成本。使用记录粒度锁。
- 提交处理：在提交时更新内存驻留数据。采用组提交 (Group Commit) 以支持高吞吐量。
MARS (Main Memory ARchitecture for Speed)
- 设计目标：使用一对处理器对内存驻留数据进行快速事务执行。
- 架构：包括数据库处理器 (Database Processor) 和恢复处理器 (Recovery Processor)，两者都可访问易失性主内存和非易失性内存 (Nonvolatile Memory)。恢复处理器还可访问日志和数据库备份磁盘。
- 并发控制：采用两阶段锁定 (Two-Phase Locking)，使用大粒度锁（整个关系）。
- 提交处理：数据库处理器在事务提交前将更新记录到非易失性内存。提交时，恢复处理器将更新记录从非易失性内存复制到数据库，并复制到非易失性日志缓冲区。恢复处理器负责将填满的日志缓冲区刷新到日志磁盘。
- 恢复：恢复处理器周期性执行检查点。检查点是修改部分易失性数据库的模糊转储 (Fuzzy Dumps)。
HALO (HArdware LOgging)
- 设计目标：一种特殊的硬件设备，用于透明地 (Transparently) 卸载事务日志记录活动，减轻处理器负担。
- 日志机制：
  - HALO 拦截处理器与内存控制器之间的通信，生成字级别日志 (Word-Level Log)。
  - 每次拦截到写入请求，HALO 创建一个日志条目，包含更新位置、新值和旧值（通过向内存控制器发出读取请求获取旧值）。
  - 这些日志条目保存在非易失性缓冲区 (Nonvolatile Buffers) 中，填满后刷新到磁盘。
  - HALO 转发写入请求到内存控制器。
- 事务管理：HALO 接受处理器的特殊命令来开始、结束和切换事务，并在每个日志记录中包含事务标识符。处理器还可以向 HALO 发出中止事务 (Abort Transaction) 命令来撤销事务的影响。
TPK (Transaction Processing Kernel)
- 设计目标：普林斯顿大学实现的多处理器主内存事务处理系统 (Multiprocessor Main-Memory Transaction Processing System) 原型，侧重于快速执行借记/贷记类型事务。支持具有唯一标识符的简单记录数据模型。
- 架构：由四种并发线程组成：输入、执行、输出和检查点。
  - 执行线程 (Execution Thread)：串行执行事务，从而无需事务并发控制 (Eliminates Transaction Concurrency Controls)。负责日志记录。
  - 检查点线程 (Checkpoint Thread)：更新稳定的备份数据库副本。
- 提交处理：执行线程将更新记录的副本放入日志。TPK 实施组提交 (Group Commit) 以减少每个事务的日志磁盘写入次数。
- 恢复：维护两个内存驻留数据库副本（主副本和次副本）。执行线程将每个日志记录的副本放入检查点进程的队列。检查点进程读取这些记录并更新次级内存数据库。次级数据库定期复制到磁盘以完成检查点。次级数据库的目的是消除检查点操作期间检查点线程与执行线程之间的数据争用。
System M
- 设计目标：普林斯顿大学开发的事务处理测试平台，用于主内存数据库，侧重于事务性工作负载而非临时查询。支持简单的记录导向数据模型。
- 架构：在 Mach 操作系统上实现为一组协作的服务器 (Servers)（线程）。包括消息服务器、事务服务器、日志服务器和检查点服务器。
- 并发控制：能够并发处理事务，但试图保持活跃事务数量较少。采用两阶段锁定 (Two-Phase Locking)。
- 提交处理：实现预提交 (Precommit) 和组提交 (Group Commit) 以实现高效日志处理。
- 数据表示：主数据库副本分为自包含的固定大小段 (Segments)，作为与备份磁盘之间传输的单元。记录包含在段内。可变长度字段使用指向每段堆 (Heap) 的指针实现。记录索引结构位于段外（不包含在备份数据库中，其更改也不记录日志）。
- 恢复：重点是经验性比较恢复技术，因此实现多种检查点和日志记录技术。可执行模糊 (Fuzzy) 和一致性检查点 (Consistent Checkpoints)（使用多种算法），以及物理 (Physical) 和逻辑日志记录 (Logical Logging)。备份数据库副本的物理组织也可控制。故障后，索引从头开始重建。

6. 实验结果与分析

本文作为一篇综述性论文，并未提出新的实验方法或报告具体的实验数据。因此，本节将通过总结论文第三章对各种主内存数据库系统 (MMDB) 设计和实现特点的讨论，来呈现其“结果与分析”。这些“结果”是不同系统在处理内存驻留数据 (Memory Resident Data) 挑战时所采取的策略和权衡。

以下是原文 Table I 的结果，总结了所调研系统在关键 MMDB 组件上的设计选择：

	Concurrency	Committ Processing	Data Representation	Access Methods	Query Processing	Recovery
MM-DBMS	two-pahse locking of relations	stable log tail by segment	self-contained segments, heap per segment, extensive pointer use	hashing, T-trees, pointers to values	merge, nested-loop, joins	segments recovered on demand, recovery processor
MARS	two-phase locking of relations	stable shadow memory, log tail				recovery processor, fuzzy checkpoints
HALO		in hardware, nearly transparent			nested loop-join,	physical, word-level log
OBE			extensive use of pointers	inverted indexes	on-the-fly-index creation, optimization focuses on processor costs
TPK	serial transaction execution	group committ, precommitt	arrays			two memory resident databases, fuzzy checkpoints
System M	two-phase locking, minimize concurrency	several alternatives	self-contained segments, heap per			various checkpointing,
Fast Path	VERIFY/CHANGE for hot spots	group committ	segment			logging options

6.1. 核心结果分析

通过对 Table I 和系统描述的分析，可以得出以下核心发现：

并发控制 (Concurrency Control)：
- 多数系统（MM-DBMS、MARS、System M）采用两阶段锁定 (Two-Phase Locking)，并倾向于使用大粒度锁 (Large Lock Granules)（如整个关系），这与论文第二章关于内存驻留数据减少锁争用的讨论一致。
- TPK 采取了极端策略，通过串行事务执行 (Serial Transaction Execution) 完全规避了并发控制的复杂性，以追求极致性能。
- IMS/VS Fast Path 针对热点数据引入了 VERIFY/CHANGE 操作，结合短时锁来优化并发性，显示了商业系统在特定场景下的精细优化。
提交处理 (Commit Processing)：
- 组提交 (Group Commit) 是一个普遍采用的优化技术（TPK、System M、Fast Path），用于减少日志磁盘写入次数，缓解日志瓶颈。
- 稳定内存 (Stable Memory) 的使用是另一个重要方向（MM-DBMS、MARS），用于快速提交日志尾部，消除事务等待磁盘操作的延迟。
- HALO 提出了硬件层面的解决方案，通过专门的硬件设备实现日志记录的透明卸载，这是一种更深层次的优化。
- 预提交 (Precommit) 也在 TPK 和 System M 中得到应用，以减少事务阻塞。
数据表示 (Data Representation)：
- 广泛使用指针 (Extensive Pointer Use) 是 MMDB 的一个显著特征（MM-DBMS、OBE、System M），用于表示元组、处理可变长度字段，并实现空间效率。这反映了论文第二章关于利用高效指针跟随的讨论。
- MM-DBMS 和 System M 都采用了自包含的段 (Self-contained Segments) 来组织数据，并在段内使用堆管理可变长度字段。
访问方法 (Access Methods)：
- MM-DBMS 结合使用哈希 (Hashing) 和 $T$ 树 (T-Trees)，利用 $T$ 树处理有序数据。
- OBE 采用了倒排索引 (Inverted Indexes)，这是一种空间高效且支持范围查询的内存索引。
- 这些选择证实了论文关于 $B$ 树在内存环境中吸引力下降，以及 MMDB 需要针对内存访问模式重新设计索引的观点。
查询处理 (Query Processing)：
- OBE 明确指出查询优化聚焦于处理器成本 (Processor Costs) 而非磁盘 I/O。它还支持即时索引创建 (On-the-fly Index Creation)。
- MM-DBMS 支持合并连接 (Merge Join) 和嵌套循环连接 (Nested-Loop Join)，这与论文指出顺序访问优势减弱的观点一致。
- HALO 提及了嵌套循环连接 (Nested Loop-Join)。
恢复 (Recovery)：
- 恢复处理器 (Recovery Processor) 是 MM-DBMS 和 MARS 的一个共同特征，专门负责日志记录和检查点操作，以减少对主事务处理的影响。
- 模糊检查点 (Fuzzy Checkpoints) 被 MARS 和 TPK 采用，以减少检查点对并发事务的干扰。System M 则提供了多种检查点算法选择。
- MM-DBMS 采用了按需加载 (On-Demand Loading) 的分段恢复策略。
- HALO 通过硬件实现物理、字级别日志 (Physical, Word-Level Log)，提供了极致的日志记录效率和细粒度。
- TPK 使用双内存驻留数据库 (Two Memory Resident Databases) 来支持并发检查点。
- System M 在恢复方面进行了广泛的研究，提供了多种日志记录和检查点选项。
  
  总体而言，这些系统设计和实现的“结果”表明，MMDB 领域的研究者们在以下几个方面取得了共识和进展：

性能瓶颈从 I/O 转向 CPU：所有系统都围绕减少 CPU 处理开销、优化内存访问路径进行设计。
数据可靠性是核心挑战：尽管内存速度快，但其易失性使得高效的提交处理和恢复机制成为 MMDB 不可或缺的一部分，并涌现出多种创新策略（如稳定内存、组提交、恢复处理器、硬件日志）。
数据结构和访问方法的重新设计：传统的磁盘优化不再适用，新的内存优化数据结构（如 $T$ 树、指针化表示）和访问方法是主流。
架构的专业化：一些系统（如 MARS、HALO、MM-DBMS）通过引入专用处理器或硬件来处理恢复和日志记录等任务，以进一步提高性能和可靠性。

6.2. 消融实验/参数分析

由于本文是一篇综述，其重点在于总结和分析已有系统的设计理念和特点，而非报告具体的实验结果。因此，论文中没有进行消融实验或参数分析的描述。各个系统（OBE, MM-DBMS, IMS/VS Fast Path, MARS, HALO, TPK, System M）本身可能在其各自的发表论文中包含此类分析，但本文并未汇总呈现。

7. 总结与思考

7.1. 结论总结

本文全面综述了主内存数据库系统 (MMDB) 的设计原理、关键优化和已实现系统。核心结论是，随着主内存成本的持续下降和容量的不断增加，将整个数据库（或其最关键部分）常驻内存变得越来越经济和可行。这使得 MMDB 在响应时间 (Response Time) 和事务吞吐量 (Transaction Throughput) 方面具有显著优势，特别适用于实时应用 (Real-Time Applications)。

论文强调，MMDB 的设计不能简单地将磁盘驻留数据库系统 (DRDB) 的缓存放大，而是需要针对主内存的特性（极快的访问速度、非块导向、易失性）进行根本性的重新思考和优化。这些优化涵盖了数据库管理系统的几乎所有方面：

并发控制：倾向于使用大粒度锁或串行化以减少争用开销。
提交处理：通过稳定内存 (Stable Memory)、组提交 (Group Commit) 和预提交 (Pre-committing) 等技术解决日志记录的 I/O 瓶颈。
访问方法和数据表示：采用内存优化的索引结构（如 $T$ 树、哈希、倒排索引），并广泛使用指针进行数据表示以提高效率和灵活性。
查询处理：优化重心从减少磁盘 I/O 转向降低 CPU 处理成本，并利用指针实现高效连接。
恢复：开发高效的检查点 (Checkpointing) 和按需加载 (On-Demand Loading) 策略，并利用专用硬件或处理器来加速日志记录和恢复过程。
性能评估：从关注 I/O 操作数转向关注 CPU 指令数和处理时间。
应用编程接口：通过直接内存地址和消除缓冲区复制来提高效率，同时解决保护和日志记录问题。
数据聚类与迁移：提出在内存中无需聚类，但需要为数据迁移到磁盘设计新的聚类和管理策略。

论文预测，MMDB 将在未来变得越来越普遍，并且 DRDB 也将逐渐采纳 MMDB 的内存优化技术，最终可能趋于融合。

7.2. 局限性与未来工作

作为一篇 1992 年的综述论文，其局限性主要体现在时代背景上：

硬件演进：论文讨论的许多假设和技术基于当时的硬件环境。例如，非易失性主内存 (Nonvolatile Main Memory) 在当时主要依赖电池备用等技术，而如今已有更先进的持久内存 (Persistent Memory, PMEM) 技术（如 Intel Optane），它模糊了内存和存储的界限，并可能根本性地改变 MMDB 的恢复和持久化设计。
存储介质发展：论文主要对比了 DRAM 和磁性磁盘 (Magnetic Disks)。固态硬盘 (SSD) 在 1992 年尚未普及，其高速随机访问特性改变了传统磁盘 I/O 模型的某些假设，可能影响 DRDB 采纳 MMDB 优化的方式。
分布式系统：论文主要关注单机 MMDB。然而，现代数据库系统常常是分布式 (Distributed) 的，分布式 MMDB (Distributed MMDB) 面临更复杂的一致性 (Consistency)、容错 (Fault Tolerance) 和分区 (Partitioning) 挑战，这些在文中未深入探讨。
内存容量与成本：虽然论文准确预测了内存容量的增长和成本的下降，但具体实现细节和优化策略会随着这些变化而演进。

论文自身指出的未来工作或隐含的研究方向包括：
数据迁移和动态聚类：当数据在内存和磁盘之间迁移时，如何自动或半自动地管理数据布局和聚类是一个开放问题。
MMDB 优化在 DRDB 中的应用：随着 DRDB 缓存的增大，如何将 MMDB 的优化（如 swizzling、内存优化索引）集成到 DRDB 中，并实现两类系统的融合。
性能建模与评估：持续改进 MMDB 的性能模型，更准确地衡量 CPU 成本，并对各种优化技术进行经验性比较。
非易失性内存的发展：随着非易失性内存技术的发展，如何利用它们进一步简化 MMDB 的恢复设计和提高性能。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇 1992 年的综述论文提供了几个深刻的启发：

前瞻性与远见：论文在 30 多年前就预见到了主内存成本下降带来的数据库技术变革，准确预测了 MMDB 的崛起及其对数据库设计理念的颠覆性影响。这提醒我们，关注底层硬件和经济趋势对于预测和引领技术发展至关重要。
系统性思维：论文没有孤立地讨论某个组件的优化，而是系统地分析了内存驻留对数据库管理系统各个方面的连锁反应。这种整体性的视角对于理解复杂系统和设计全面解决方案至关重要。一个微小的底层变化（如内存访问速度快）会如何影响上层（如并发控制粒度、查询优化策略），这展现了数据库系统设计的精妙之处。
性能瓶颈的转移：从磁盘 I/O 瓶颈 (Disk I/O Bottleneck) 转向 CPU 处理瓶颈 (CPU Processing Bottleneck) 的论述至今仍具指导意义。在许多现代高性能计算场景中，CPU 周期和缓存效率往往比 I/O 延迟更为关键。这促使我们重新审视算法的CPU 效率，例如内存指针化 (Swizzling) 和直接内存访问的重要性。
数据可靠性的权衡：MMDB 的性能优势伴随着数据易失性的挑战，这促使了对稳定存储 (Stable Storage)、日志 (Log) 和检查点 (Checkpointing) 技术的创新。这种对性能和可靠性之间权衡的深入探讨，对于任何高可用性系统设计都具有普适性。
领域特定翻译的重要性：论文中对于各种数据库专业术语的运用和其上下文语义，再次印证了在学术分析中，对专业术语进行领域特定翻译 (Domain-Specific Translation) 的必要性。例如，swizzling 不是简单的“旋转”，rollout 也不是“部署”。

7.3.2. 批判

尽管论文极具价值，但从当前的视角来看，也有一些可以批判和思考的地方：

对硬件技术发展的低估：虽然论文预测了内存的增长，但可能低估了固态硬盘 (SSD) 和持久内存 (Persistent Memory, PMEM) 等新型存储技术的出现及其对数据库架构的冲击。PMEM 技术的普及正在重新定义“稳定存储”和“易失性”，可能会彻底改变 MMDB 的恢复模型，使其无需复杂的日志和检查点机制。
分布式 MMDB 的缺失：论文主要关注单机 MMDB。然而，在云计算和大规模数据处理的时代，分布式 MMDB（如 VoltDB、Redis 集群）已成为主流。这些系统面临着额外的分布式一致性 (Distributed Consistency)、故障转移 (Failover) 和数据分片 (Data Sharding) 等复杂问题，这些在本文中没有讨论。
对多核/多处理器并行性的关注不足：虽然提到了串行事务执行 (Serial Transaction Execution) 作为一种优化策略，但在多核处理器普及的今天，如何高效地在 MMDB 中实现细粒度的并行并发控制 (Parallel Concurrency Control) 仍然是一个活跃的研究领域。论文中对大粒度锁的偏好可能在某些现代高并发场景下不再是最优解。
缺乏量化分析：作为一篇综述，论文侧重于概念和设计，但缺乏对各种优化策略（例如，内嵌锁比特与哈希表查找的性能对比、不同提交策略的吞吐量影响）的量化性能分析。这使得读者难以直观地比较不同方法的实际效益。当然，这对于一篇综述来说是正常的，但如果能引用更多具体实验数据，将更有说服力。
“5 分钟规则”的演变：论文提及的“5 分钟规则”是基于当时的硬件成本模型。这个规则的数值会随着内存与磁盘/SSD 成本、性能比的变化而动态调整。现在的“5 分钟”可能已经变成了“5 秒”甚至更短，这进一步推动了数据向内存迁移的趋势。

总体而言，这篇论文在 1992 年就为 MMDB 领域奠定了坚实的基础，其核心思想和许多讨论至今仍具有重要的参考价值。同时，结合当今的软硬件技术发展，我们也可以在此基础上进行批判性思考，展望 MMDB 在未来如何进一步演进。

Main Memory Database Systems: An Overview

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 35 分钟读完 · 19,443 字