论文状态：已完成

Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions

发表：2025/05/02

记忆表示分类 (1)记忆操作动态 (1)大语言模型的记忆系统 (1)长上下文记忆研究 (1)基于 LLM 的个性化记忆 (1)

价格：0.100000

已有 5 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本综述系统分析了人工智能中的记忆机制，提出了统一分类法，将记忆分为参数化和上下文形式，并定义了六种基本操作：巩固、更新、索引、遗忘、检索和压缩。这些操作映射到长期记忆与多源记忆等研究方向，为AI记忆系统提供了结构化和动态的视角，指明未来研究方向。

摘要

Memory is a fundamental component of AI systems, underpinning large language models (LLMs)-based agents. While prior surveys have focused on memory applications with LLMs (e.g., enabling personalized memory in conversational agents), they often overlook the atomic operations that underlie memory dynamics. In this survey, we first categorize memory representations into parametric and contextual forms, and then introduce six fundamental memory operations: Consolidation, Updating, Indexing, Forgetting, Retrieval, and Compression. We map these operations to the most relevant research topics across long-term, long-context, parametric modification, and multi-source memory. By reframing memory systems through the lens of atomic operations and representation types, this survey provides a structured and dynamic perspective on research, benchmark datasets, and tools related to memory in AI, clarifying the functional interplay in LLMs based agents while outlining promising directions for future research\footnote{The paper list, datasets, methods and tools are available at \href{https://github.com/Elvin-Yiming-Du/Survey_Memory_in_AI}{https://github.com/Elvin-Yiming-Du/Survey\_Memory\_in\_AI}.}.

思维导图

论文精读

中文精读约 11 分钟读完 · 6,067 字

1. 论文基本信息

1.1. 标题

Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions （重新思考人工智能中的记忆：分类、操作、主题与未来方向）

1.2. 作者

Yiming Du, Wenyu Huang, Danna Zheng, Zhaowei Wang, Sebastien Montella, Mirella Lapata, Kam-Fai Wong, Jeff Z. Pan 作者来自香港中文大学、爱丁堡大学、香港科技大学以及华为英国研发中心。

1.3. 发表期刊/会议

该论文发表于 arXiv 预印本平台（2025年5月1日更新），属于目前人工智能记忆机制领域非常系统且前沿的综述工作。

1.4. 发表年份

2025年

1.5. 摘要

记忆是人工智能系统的核心组件，是基于大语言模型（Large Language Models, LLMs）的智能体的基础。虽然之前的研究侧重于记忆在 LLMs 中的应用（如对话中的个性化记忆），但往往忽略了构成记忆动态变化的原子操作。本综述首先将记忆表示分为参数化 (Parametric) 和 上下文 (Contextual) 两种形式，并引入了六种基础记忆操作：巩固 (Consolidation)、更新 (Updating)、索引 (Indexing)、遗忘 (Forgetting)、检索 (Retrieval) 和 压缩 (Compression)。通过这些原子操作，本文系统分析了长期记忆、长上下文、参数修改和多源记忆等关键研究方向，为 AI 记忆系统提供了一个结构化且动态的视角。

1.6. 原文链接

PDF 链接: https://arxiv.org/pdf/2505.00675v2.pdf
代码与论文列表: https://github.com/Elvin-Yiming-Du/Survey_Memory_in_AI

2. 整体概括

2.1. 研究背景与动机

随着大语言模型（LLMs）驱动的智能体（Agents）快速发展，如何让模型像人类一样拥有记忆成为了关键。记忆能让模型在多轮对话中保持连贯，并根据历史经验进行个性化互动。然而，现有的综述往往只关注单一的子领域（如长文本处理或知识编辑），缺乏一个统一的架构来描述记忆是如何产生、存储、更新和消亡的。“原子操作” (Atomic Operations) 的缺失导致研究者很难从全局视角审视记忆系统的生命周期。

2.2. 核心贡献/主要发现

统一的记忆分类法: 明确了参数化记忆（隐式存储在模型权重中）与上下文记忆（显式存储在外部，包含结构化和非结构化）的区别。
定义的六大原子操作: 提出了巩固、索引、更新、遗忘、检索、压缩这六个核心步骤，构建了记忆处理的完整闭环。
大规模文献分析: 利用 GPT 驱动的流水线对超过 30,000 篇论文进行了筛选，最终保留了 3,923 篇高相关论文。
提出相对引用指数 (Relative Citation Index, RCI): 一个时间归一化的指标，用于公平评估不同年份发表论文的影响力。

下图（原文 Figure 1）展示了该综述提出的记忆分类、操作与应用的统一框架：

该图像是一个示意图，展示了AI系统中记忆的统一框架，包括分类、操作和应用。图中列出了六种记忆操作：巩固、更新、索引、遗忘、检索和压缩，并将这些操作与长期、长上下文、参数修改和多源记忆等关键研究主题相映射。

3. 预备知识与相关工作

3.1. 基础概念

大语言模型 (Large Language Models, LLMs): 具有数亿甚至数千亿参数的神经网络，通过海量文本预训练获得生成文本和逻辑推理的能力。
智能体 (Agents): 能够感知环境、进行决策并采取行动以实现特定目标的自主系统。在本文中特指基于 LLM 的智能体。
词元 (token): 模型处理文本的最小单位。可以是一个单词、一部分单词或一个标点符号。
检索增强生成 (Retrieval-Augmented Generation, RAG): 一种技术，在生成回答前先从外部知识库检索相关信息，以减少模型的“幻觉”并提供最新信息。
KV 缓存 (KV Cache): 在推理过程中，模型会存储之前生成的词元的键值对（Key-Value pairs），以避免重复计算，但这会消耗大量内存。

3.2. 前人工作与差异化分析

过去的研究通常将记忆视为一个静态的缓存区。例如：

长上下文建模: 关注如何扩大模型的输入窗口（Context Window）。
知识编辑: 关注如何修正模型内部错误的参数知识。
个性化对话: 关注如何记住用户的历史偏好。

本文的创新之处在于，它不再孤立地看待这些任务，而是将其归纳为对记忆的操作。例如，知识编辑本质上是对参数化记忆的“更新”或“遗忘”操作。

4. 方法论

本章将详细拆解论文提出的记忆分类体系和六大原子操作。

4.1. 记忆分类体系 (Memory Taxonomy)

记忆根据其表现形式分为两大类：

4.1.1. 参数化记忆 (Parametric Memory)

这是指隐式存储在模型神经元权重中的知识。

特点: 获取自预训练阶段；访问速度极快（通过前向计算）；难以透明地、有选择性地更新。

4.1.2. 上下文记忆 (Contextual Memory)

这是指显式存储在模型参数之外的信息。

非结构化记忆 (Unstructured): 如原始对话文本、图像、音频。
结构化记忆 (Structured): 如知识图谱（Knowledge Graphs）、关系表、本体（Ontologies）。它支持符号推理和精确查询。

4.2. 记忆原子操作详解 (Memory Operations)

作者将记忆操作分为管理 (Management) 和 利用 (Utilization) 两大功能范畴。

4.2.1. 记忆管理 (Memory Management)

记忆管理负责信息随时间的存储、维护和清理。

巩固 (Consolidation): 将短期的经历转化为持久的记忆。其数学表达如下： $\mathcal { M } _ { t + \Delta _ { t } } = \mathsf { C o n s o l i d a t e } ( \mathcal { M } _ { t } , \mathcal { E } _ { [ t , t + \Delta _ { t } ] } )$
- 解释: $\mathcal{M}_t$ 表示时间 $t$ 时的记忆状态。 $\mathcal{E}_{[t, t+\Delta_t]}$ 表示在时间段 $\Delta_t$ 内新产生的短期经历（如对话历史）。巩固操作将这些新经历融入旧记忆，生成更新后的持久记忆 $\mathcal{M}_{t+\Delta_t}$ 。
索引 (Indexing): 为存储的记忆构建访问路径（辅助代码 $\phi$ ）。 $\mathcal { T } _ { t } = \mathrm { I n d e x } ( \mathcal { M } _ { t } , \phi )$
- 解释: $\phi$ 可以是实体、属性或内容的向量表示。索引操作为记忆 $\mathcal{M}_t$ 构建了一个易于检索的结构 $\mathcal{T}_t$ 。
更新 (Updating): 根据新知识修改已有的记忆。 $\mathcal { M } _ { t + \Delta _ { t } } = \mathrm { U p d a t e } ( \mathcal { M } _ { t } , \mathcal { K } _ { t + \Delta _ { t } } )$
- 解释: $\mathcal{K}_{t+\Delta_t}$ 是新获取的知识。更新操作会重新激活旧记忆 $\mathcal{M}_t$ 并对其进行有针对性的修改，以保持记忆的一致性。
遗忘 (Forgetting): 从记忆中移除陈旧、无关或有害的内容 $\mathcal{F}$ 。 $\mathcal { M } _ { t + \Delta _ { t } } = \mathrm { F o r g e t } ( \mathcal { M } _ { t } , \mathcal { F } )$
- 解释: 该操作对于保护隐私（删除敏感数据）和提高效率（清理冗余数据）至关重要。

4.2.2. 记忆利用 (Memory Utilization)

记忆利用负责在推理阶段访问并高效使用已存记忆。

检索 (Retrieval): 响应输入查询 $\mathcal{Q}$ ，找到最相关的记忆片段 $m_{\mathcal{Q}}$ 。 $\mathsf { R e t r i e v e } ( \boldsymbol { \mathcal { M } } _ { t } , \boldsymbol { \mathcal { Q } } ) = m _ { \mathcal { Q } } \in \mathcal { M } _ { t } \quad \text{with } \mathrm { sim } ( \boldsymbol { \mathcal { Q } } , m _ { \mathcal { Q } } ) \ge \tau$
- 解释: 通过相似度函数 $\mathrm{sim}()$ 计算查询与记忆的匹配度，返回得分高于阈值 $\tau$ 的片段。

压缩 (Compression): 在上下文窗口有限的情况下，减少记忆体积并保留关键信息。 $\mathcal { M } _ { t } ^ { c o m p } = \mathrm { C o m p r e s s } ( \mathcal { M } _ { t } , \alpha )$

解释: $\alpha$ 为压缩率。此操作可以是在输入模型前进行的总结，也可以是对 KV 缓存的修剪。

下表（原文 Table 1）展示了这些操作与具体研究主题的对应关系：

操作 (Operations)	参数化记忆 (Parametric)	结构化上下文记忆 (Structured)	非结构化上下文记忆 (Unstructured)
巩固 (Consolidation)	持续学习、个性化	管理、个性化	管理、个性化
索引 (Indexing)	利用	利用、管理、个性化	利用、管理、个性化、多模态协调
更新 (Updating)	知识编辑	跨文本整合、个性化、管理	跨文本整合、个性化、管理
遗忘 (Forgetting)	知识遗忘学习、个性化	管理	管理
检索 (Retrieval)	利用、参数效率	利用、个性化、上下文利用	利用、个性化、上下文利用、多模态协调
压缩 (Compression)	参数效率	上下文利用	上下文利用

5. 实验设置

由于这是一篇综述论文，其“实验”部分主要体现在对海量论文的筛选、分类和定量分析上。

5.1. 数据处理流程

初始收集: 收集了过去 3 年（2022-2025）顶级 AI 会议（ACL, NeurIPS, ICLR 等）的超过 30,000 篇论文。
GPT 筛选: 使用 GPT-4o-mini 对论文摘要进行相关性评分（1-10分）。
最终样本: 保留了 3,923 篇得分 $\ge 8$ 的高相关论文。

5.2. 评估指标：相对引用指数 (Relative Citation Index, RCI)

为了消除“发表时间越长，引用量通常越高”的偏差，作者引入了 RCI。

概念定义: RCI 将一篇论文的实际引用量与其发表年份的预期中位引用量进行对比。RCI $\ge 1$ 表示该论文的影响力高于同龄论文的平均水平。
数学公式: $\hat { C } _ { i } = \exp ( \hat { \beta } ) A _ { i } ^ { \hat { \alpha } }$ $R C I _ { i } = \frac { C _ { i } } { \hat { C } _ { i } }$
符号解释:
- $C_i$ : 论文 $i$ 的实际引用数。
- $\hat{C}_i$ : 该论文在当前年龄 $A_i$ 下的预期引用数。
- $A_i$ : 论文的“年龄”（当前日期减去发表日期）。
- $\hat{\alpha}, \hat{\beta}$ : 通过对数-对数回归模型拟合得到的参数。
  
  下图（原文 Figure 15）展示了论文引用分布与年龄的关系，证明了对数-对数模型（Log-log regression）能够最好地拟合数据中位数：
  
  $Figure 15: Boxplot of citation distributions from the 3,932 papers with respect to age, red curve is the expected citations $\\hat { C } _ { i }$ Generally $R C I > = 1$ indicate the paper is above median citations in its age group, and higher `R C I` indicate higher research impact.$ 该图像是一个图表，展示了3,932篇论文的引用分布与年龄的关系。图中包含三条模型曲线：指数模型（蓝色）、线性模型（橙色）和对数-对数回归模型（绿色）。箱线图展示了不同年龄段论文的引用情况，突出高于中位数引用的趋势。

6. 实验结果与分析

6.1. 核心结果分析

作者通过 RCI 分析发现，2023 年是 AI 记忆研究的爆发点，特别是长上下文（Long-context）和参数化记忆修改领域。

6.1.1. 长期记忆 (Long-term Memory) 的瓶颈

下图（原文 Figure 4）揭示了“检索”与“生成”之间的断层：

Figure 4: Datasets used for evaluating long-term memory. "Mo" denotes modality. "Ops" denotes operability. "SType"indicate dataset type A question answering, MS multi-session dialogue. "Per" and "TR"i whether persona and temporal reasoning are present. 该图像是一个图表，展示了不同数据集在长期记忆评估中的表现。图表分为六部分，标示了基准、任务格式、Top K等方面的评估结果，展示了检索和生成方法在各种测试中的性能差异。

分析: 许多模型在检索阶段表现优异（Recall@5 超过 90%），但在最终生成阶段的 F1 分数却低得多。这说明即使找到了正确的记忆，模型也未必能有效地将其转化为准确的回答。

6.1.2. 长上下文的权衡 (Trade-offs)

下图（原文 Figure 6）展示了不同压缩策略在长文本任务上的表现：

Figure 6: Compression based method performance with respect to compression rate on LongBench (Bai et al., 2024). Data borrowed from Yuan et al. (2024). 该图像是一个图表，展示了基于压缩的方法在不同压缩比下的性能得分。不同方法的得分随着压缩比例的增加而变化，基线方法的得分始终高于其他方法。

发现: KV 缓存存储优化 (KV Cache Storing Optimization)（如量化技术）在减少内存占用和保持性能之间取得了最佳平衡。相比之下，直接丢弃缓存（Dropping）虽然灵活，但会导致明显的性能下降。

6.1.3. 知识编辑与遗忘 (Editing & Unlearning)

下图（原文 Figure 10）对比了不同编辑方法的成功率：

Figure 10: SOTA solutions across different categories on the CounterFact (editing), ZsRE (editing) and TOFU (unlearning) benchmark. 该图像是一个图表，展示了在CounterFact（编辑）、ZsRE（编辑）和TOFU（学习遗忘）基准下，各个类别的SOTA解决方案的评分。图表左侧展示了ZsRE与CounterFact的评分对比，右侧则是TOFU的结果，其中包含效能、概括性和特异性的评分信息。

发现: 基于提示词（Prompt-based）的方法虽然灵活，但在特异性（Specificity）上表现较差，即修改一个事实时可能会误伤其他不相关的知识。

6.2. 跨学科趋势

ML (机器学习) 社区: 更侧重于底层的效率提升，如压缩算法和参数修改的数学原理。
NLP (自然语言处理) 社区: 更关注上层的应用，如多轮对话的一致性和个性化记忆的构建。

7. 总结与思考

7.1. 结论总结

本文通过“分类-操作-主题”的三维框架，彻底理清了 AI 记忆研究的脉络。文章指出，记忆不只是存储，更是包括巩固、索引、更新、遗忘、检索和压缩在内的动态循环过程。

7.2. 局限性与未来工作

统一评估体系缺失: 目前不同任务（如长文本 vs 知识编辑）的评估标准割裂，缺乏一个能同时测量记忆可靠性、适应性和时序一致性的统一基准。
检索与生成的断层: 如何更好地格式化检索到的记忆，使其更易于被 LLM 处理，是一个亟待解决的挑战。
多源记忆的冲突: 当外部检索到的知识与模型内部的参数知识发生冲突时，模型如何进行权衡和校准？
记忆安全: 记忆中可能存储敏感数据，如何确保“遗忘”操作是彻底且不可恢复的？

7.3. 个人启发与批判

启发: 论文将“遗忘”作为核心操作之一非常有远见。在数据隐私法规（如 GDPR）日益严格的今天，赋予 AI “遗忘权”不仅是技术需求，更是法律需求。
批判: 综述虽然涵盖面极广，但在“多模态记忆”（如图像、视频记忆）的原子操作细节上描述相对略少。未来的记忆系统必然是跨模态的，如何将视频序列高效“压缩”成语义记忆值得更深入的研究。
应用潜力: 文中提到的“记忆层系统”（Memory Layer Systems）如 Mem0，已经开始在开发领域落地，这表明将记忆从模型中解耦、作为独立的服务进行管理是未来的重要趋势。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。