AiPaper
论文状态:已完成

AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing

发表:2024/09/16
原文链接PDF 下载
价格:0.10
价格:0.10
已有 5 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

AceParse 构建了首个涵盖公式、表格、列表、算法及嵌入数学表达式句子的多样化学术结构文本数据集,推动数据中心AI发展。基于此,微调的多模态模型 AceParser 显著提升解析准确率,优于现有最先进方法。

摘要

With the development of data-centric AI, the focus has shifted from model-driven approaches to improving data quality. Academic literature, as one of the crucial types, is predominantly stored in PDF formats and needs to be parsed into texts before further processing. However, parsing diverse structured texts in academic literature remains challenging due to the lack of datasets that cover various text structures. In this paper, we introduce AceParse, the first comprehensive dataset designed to support the parsing of a wide range of structured texts, including formulas, tables, lists, algorithms, and sentences with embedded mathematical expressions. Based on AceParse, we fine-tuned a multimodal model, named AceParser, which accurately parses various structured texts within academic literature. This model outperforms the previous state-of-the-art by 4.1% in terms of F1 score and by 5% in Jaccard Similarity, demonstrating the potential of multimodal models in academic literature parsing. Our dataset is available at https://github.com/JHW5981/AceParse.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

AceParse:一个用于学术文献解析的综合性多样化结构化文本数据集 (AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing)

1.2. 作者

Huawei Ji, Cheng Deng, Bo Xue, Zhouyang Jin, Jiaxin Ding, Xiaoying Gan, Luoyi Fu, Xinbing Wang (来自上海交通大学);Chenghu Zhou (来自中国科学院地理科学与资源研究所)。

1.3. 发表期刊/会议

该论文作为预印本 (preprint) 发表在 arXiv 平台。arXiv 是一个开放获取的预印本服务器,允许研究者在正式同行评审和发表之前分享他们的研究成果。在相关领域,arXiv 具有很高的影响力,是研究人员获取最新研究进展的重要平台。

1.4. 发表年份

2024年 (具体发布时间为 2024-09-16T06:06:34.000Z)。

1.5. 摘要

随着数据中心人工智能 (data-centric AI) 的发展,研究重点已从模型驱动方法 (model-driven approaches) 转向提升数据质量 (data quality)。学术文献作为一种关键的数据类型,主要以 PDF格式 (PDF formats) 存储,在进一步处理之前需要将其解析 (parsing) 为文本。然而,由于缺乏涵盖各种文本结构的数据集,解析学术文献中多样化的结构化文本 (structured texts) 仍然具有挑战性。本文介绍了 AceParse,这是首个旨在支持解析各种结构化文本的综合数据集,包括公式 (formulas)、表格 (tables)、列表 (lists)、算法 (algorithms) 和嵌入数学表达式的句子 (sentences with embedded mathematical expressions)。基于 AceParse,作者微调 (fine-tuned) 了一个多模态模型 (multimodal model),命名为 AceParser,它能准确解析学术文献中的各种结构化文本。该模型在 F1 分数方面比现有最先进水平 (previous state-of-the-art) 高出 4.1%,在 Jaccard 相似度 (Jaccard Similarity) 方面高出 5%,这表明了多模态模型在学术文献解析中的潜力。该数据集可在 https://github.com/JHW5981/AceParse 获取。

1.6. 原文链接

  • 原文链接 (arXiv): https://arxiv.org/abs/2409.10016v2 (预印本)
  • PDF 链接: https://arxiv.org/pdf/2409.10016v2.pdf

2. 整体概括

2.1. 研究背景与动机

研究背景: 随着数据中心人工智能 (data-centric AI) 范式的兴起,高质量、多样化和具有代表性的数据在推动 AI 技术发展方面扮演着核心角色。学术文献是重要的数据源 (data source),蕴含着丰富的科学知识,但其主要以 PDF 格式 (PDF formats) 存储,难以直接被机器处理和理解。

核心问题: 将 PDF 格式的学术文献解析成机器可读的文本是一个关键的预处理步骤,但解析其中多样化的结构化文本 (structured texts),如公式、表格、列表和算法,尤其困难。

现有挑战或空白 (Gap):

  • OCR 方法的局限性: 传统的光学字符识别 (OCR-based methods) 主要关注字符识别,会丢失文本的结构信息,无法保留理解科学内容所需的层次结构 (hierarchical) 和关系结构 (relational structure)。

  • 模块化方法的不足: 模块化方法 (modular approaches) 虽然可以处理预定义的内容类型(如表格和公式),但难以处理更复杂的结构(如算法和列表),且模块间缺乏集成可能导致输出不一致。

  • 端到端模型的局限性: 现有的端到端解析模型 (end-to-end parsing models),如 Nougat,通常在狭窄的专有数据集 (narrow proprietary datasets) 上训练,这些数据集的结构化内容多样性有限,限制了模型对不同结构的泛化能力。

  • 开源数据集的不足: 现有的开源数据集 (open-source datasets) 要么局限于字符级解析 (character-level parsing),要么只关注特定内容类型 (specific content types),如表格或公式,无法涵盖学术文档中结构化元素的完整多样性。

    本文的切入点/创新思路: 针对上述空白,本文旨在构建一个全面覆盖多种结构化文本类型的数据集,并基于此数据集训练一个能够统一解析这些多样化结构的端到端模型,从而解决当前学术文献解析的挑战。

2.2. 核心贡献/主要发现

论文最主要的贡献:

  • 提出了 AceParse 数据集: 这是首个综合性的、开源的学术文献解析数据集,专门为处理学术文献中多样化的结构化文本而设计。它涵盖了公式、表格、列表、算法以及带有嵌入式数学表达式的句子,并使用 LaTeX 标记语言进行标注,以准确描述其结构。
  • 开发了 AceParser 模型: 基于 AceParse 数据集,作者微调 (fine-tuned) 了一个多模态 (multimodal) 模型 AceParser。这是一个端到端 (end-to-end) 的结构化文本解析方法,能够生成标记语言 (markup languages) 形式的结构化文本。
  • 进行了系统性比较与概述: 作者系统地比较了当前各种解析方法的性能,并对现有解析数据集进行了广泛概述,为文档解析 (document parsing) 社区提供了参考。

论文得出的关键结论或发现:

  • AceParser 模型在 AceParse 数据集上取得了最先进的 (state-of-the-art) 解析性能。
  • 相比之前的最先进模型 (state-of-the-art model),AceParser 在 F1 分数方面提升了 4.1%,在 Jaccard 相似度 (Jaccard Similarity) 方面提升了 5%。
  • 这一结果证明了多模态模型 (multimodal models) 在处理学术文献中多样化结构化文本解析任务方面的巨大潜力。
  • AceParse 数据集填补了现有数据集中缺乏多样化结构化内容的空白,为高级解析技术提供了基础。

3. 预备知识与相关工作

3.1. 基础概念

  • 数据中心人工智能 (Data-centric AI): 一种人工智能开发范式,其核心思想是,在构建人工智能系统时,将重点从改进模型算法本身转向系统性地改进和管理训练数据 (training data) 的质量、数量和多样性。它强调高质量数据对于模型性能和泛化能力的重要性。
  • 学术文献解析 (Academic Literature Parsing): 指从学术论文的原始格式(通常是 PDF)中提取出结构化信息的过程。这包括识别文本、标题、作者、摘要、段落、公式、表格、图表、参考文献等元素,并将其转换为机器可读的、带有语义结构的形式,以便后续的分析、检索或知识提取。
  • PDF 格式 (Portable Document Format): 一种由 Adobe 开发的文件格式,用于以独立于应用程序软件、硬件和操作系统的方式呈现文档。PDF 文件可以包含文本、字体、图像、2D 矢量图形和 3D 嵌入式内容等。在学术界,PDF 是发布论文和研究报告的事实标准。
  • 结构化文本 (Structured Texts): 指那些具有明确、可识别内部组织或布局的文本内容。在学术文献中,这通常包括数学公式、数据表格、有序/无序列表、算法伪代码块以及嵌入了数学表达式的句子等。与非结构化文本 (unstructured text)(如普通段落)相比,结构化文本的语义理解通常需要考虑其布局和符号关系。
  • LaTeX (排版系统): 一种基于 TeX 的高质量排版系统,广泛用于科技出版领域,尤其是在数学、物理、计算机科学等学术领域。它允许作者使用纯文本描述文档的结构和内容,然后通过编译器生成高质量的 PDF 文档。LaTeX 的强大之处在于其对复杂数学公式、交叉引用、图表和参考文献管理的良好支持。本文利用 LaTeX 作为结构化文本的标注语言。
  • 多模态模型 (Multimodal Model): 能够处理和理解来自两种或更多不同模态 (modalities) 的信息的机器学习模型。常见的模态包括视觉(图像、视频)、文本、音频等。在本文中,AceParser 结合了图像(文档的视觉信息)和文本(解析出的结构化内容),因此是一个多模态模型。
  • F1 分数 (F1 score):准确率 (precision) 和召回率 (recall) 的调和平均值 (harmonic mean)。它是一个衡量分类模型 (classification model) 性能的指标,尤其适用于数据不平衡的场景。F1 分数综合考虑了模型的查准率(预测为正例中真正例的比例)和查全率(所有真正例中被正确预测的比例),取值范围在 0 到 1 之间,F1 分数越高表示模型性能越好。
  • Jaccard 相似度 (Jaccard Similarity): 又称 Jaccard 指数 (Jaccard Index),用于衡量两个集合的相似性。它定义为两个集合交集的大小 (size of the intersection) 除以其并集的大小 (size of the union)。在文本解析中,可以用来衡量模型输出的文本序列与真实标注文本序列 (ground truth text sequence) 之间的相似度,取值范围在 0 到 1 之间,值越高表示相似度越高。
  • Levenshtein 距离 (Levenshtein Distance): 又称编辑距离 (edit distance),用于衡量两个字符串之间差异的度量。它定义为将一个字符串转换成另一个字符串所需的最少单字符编辑操作 (minimum number of single-character edits) 次数,这些操作包括插入、删除或替换一个字符。距离越小,表示两个字符串越相似。
  • BLEU (Bilingual Evaluation Understudy): 一种用于评估机器翻译 (machine translation) 质量的算法。它通过比较机器翻译输出的文本与一组高质量人工翻译参考文本之间的 n-gram 重叠程度 (overlap) 来计算得分。BLEU 分数越高,表示机器翻译的质量越好。在本文中,它被用于评估解析结果与真实标注之间的文本相似度。
  • OCR (光学字符识别, Optical Character Recognition): 是一种将包含文本的图像(例如扫描文档、照片或 PDF)转换为机器可编码文本的技术。传统的 OCR 主要关注识别单个字符或单词,但通常不保留原始文档的复杂结构信息(如布局、公式的数学结构等)。
  • 范式 (Paradigm): 在科学研究中,范式 (paradigm) 指的是一个特定科学领域内,被广泛接受和遵循的一套理论、方法、实践和价值观。在本文中,data-centric AI 是一种新的AI 开发范式 (AI development paradigm)。

3.2. 前人工作

论文讨论了现有方法在学术文献解析方面的局限性,主要分为以下几类:

  • OCR-based methods (基于 OCR 的方法) [4-6]:
    • 代表: Tesseract [4], PPOCR [5]。
    • 特点: 这些方法主要侧重于字符识别 (character recognition),将图像中的文本转换为可编辑的字符序列。
    • 局限性: 它们往往会丢失结构信息,难以保留理解科学内容所需的层次结构 (hierarchical) 和关系结构 (relational structure),例如无法识别公式的数学语义或表格的行列表格关系。
  • Modular approaches (模块化方法) [7,8]:
    • 代表: Mineru [7], Papermage [8]。
    • 特点: 这些方法将解析任务分解为多个专门的模块,每个模块负责处理特定类型的内容,如表格检测、公式识别等。
    • 局限性: 尽管它们可以处理预定义的内容类型,但对于复杂结构 (complex structures) 如算法和列表处理能力较弱。此外,不同模块之间的缺乏集成常常导致互联内容类型 (interconnected content types) 的输出不一致,容易出现误差累积 (error accumulation)。
  • End-to-end parsing models (端到端解析模型) [9]:
    • 代表: Nougat [9]。
    • 特点: 尝试直接从文档图像生成结构化输出,减少了模块化方法中的误差累积问题。
    • 局限性: 常常在狭窄的专有数据集 (narrow proprietary datasets) 上训练,这些数据集的结构化内容多样性有限,限制了模型对不同结构的泛化能力 (generalize effectively)。

现有开源数据集的不足 [10-13]:

  • DocLayNet [10] 和 DocBank [11]: 这些数据集主要提供字符级解析结果 (character-level parsing results) 或文档布局分析,缺乏对复杂结构化内容的语义理解和标记。
  • TableBank [12]: 专注于表格 (tables) 的检测和识别。
  • IM2LATEX [13]: 专注于公式 (formulas) 的图像到 LaTeX 转换。
  • 局限性: 这些数据集未能涵盖学术文档中结构化元素 (structured elements) 的完整多样性,例如同时包含公式、表格、列表和算法等。

3.3. 技术演进

学术文献解析领域的技术演进大致经历了以下阶段:

  1. 早期基于 OCR 的方法: 关注将图像转换为可编辑文本,但丢失了文档的结构信息。

  2. 模块化方法: 将解析任务拆解为不同模块,分别处理特定类型的结构(如表格、公式),但面临复杂结构处理和模块间集成问题导致的误差累积。

  3. 端到端方法: 尝试直接从图像生成结构化输出,以减少中间步骤的误差,但受限于训练数据的多样性。

    本文的工作 AceParseAceParser 正是处于这一技术演进的前沿 (cutting edge),旨在通过构建一个更全面、更多样化的结构化文本数据集,并基于此训练一个端到端的多模态模型,来克服现有端到端方法在数据多样性上的局限,从而推动学术文献解析技术向更统一、更泛化的方向发展。

3.4. 差异化分析

本文提出的方法与相关工作的主要区别和创新点在于:

  • 数据集 AceParse 的独特性:

    • 全面的结构化文本覆盖:DocLayNet [10] 和 DocBank [11] 等仅提供字符级解析结果的数据集不同,AceParse 涵盖了更广泛的结构化文本类型,包括公式、表格、列表、算法以及嵌入数学表达式的句子。这解决了现有数据集在多样性上的不足。
    • 统一的 LaTeX 标注: 现有数据集如 TableBank [12] 和 IM2LATEX [13] 仅关注单一类型的结构化内容,且标注格式可能不统一。AceParse 使用 LaTeX 标记语言 (markup language) 来标注所有这些多样化的结构化文本,这使得模型能够学习生成统一的、语义丰富的结构化输出。据作者所知,AceParse 是首个专门为处理学术文献中多样化结构化内容而设计的开源数据集 (open-source dataset)。
    • 数据合成方法: AceParse 采用数据合成方法,通过随机组合 LaTeX 源代码 (source code) 中的结构化文本片段来生成新的数据,有效解决了依赖 PDF 页面匹配方法可能导致结构化文本丢失 (loss of structured text) 和可扩展性挑战 (scalability challenges) 的问题。
  • 模型 AceParser 的创新性:

    • 端到端的多模态解析: AceParser 是一个基于 Florence-2 架构微调 (fine-tuned) 的端到端多模态模型。与 Tesseract [4] 和 PPOCR [5] 等非结构感知方法不同,它能够直接从文档图像生成带有结构信息的标记语言 (markup language) 输出。
    • 克服模块化方法的局限: 相较于 Pix2TextMineru [7] 等模块化方法,AceParser 作为一个端到端模型,避免了模块间误差累积 (error accumulation) 的问题,能够更一致地处理互联的内容类型。
    • 泛化能力更强: 相比 Nougat [9] 等端到端模型,AceParser 受益于在 AceParse 这个更具多样性的数据集上训练,从而有望获得更强的泛化能力 (generalization ability) 来处理实际学术文档中遇到的各种复杂结构。

总结来说,AceParse 提供了前所未有的数据集多样性和统一标注格式,而 AceParser 则利用多模态学习的优势,实现了对这些多样化结构化文本的端到端、高性能解析。

4. 方法论

4.1. 方法原理

本文的核心方法围绕两个主要部分展开:数据集 AceParse 的构建模型 AceParser 的开发

AceParse 的构建旨在解决现有学术文献解析数据集在结构化文本多样性方面的不足。其核心原理是采用一种数据合成 (data synthesis) 的方法,而非传统的 PDF 页面匹配。通过从大量的 LaTeX 源代码中提取结构化文本片段,并随机组合这些片段来生成新的 LaTeX 文档,然后编译成 PDF 图像,从而获得高质量的图像-标注对 (image-annotation pairs)。这种方法不仅解决了现有方法可能导致的结构化文本丢失问题,还通过随机采样实现了数据量的可扩展性 (scalability)。

AceParser 的原理是利用多模态模型 (multimodal model) 的强大能力,将文档的视觉信息(图像)与文本信息(任务提示和目标标注)结合起来,实现端到端的结构化文本解析。它基于 Florence-2 [14] 这一强大的预训练多模态模型 (robust pre-trained multimodal model) 架构进行微调 (fine-tuning)。通过学习文档图像的视觉特征和目标 LaTeX 标注的文本特征之间的映射关系,AceParser 能够直接从图像生成包含结构信息的 LaTeX 标记语言输出。这种端到端的方法避免了传统模块化方法中误差累积 (error accumulation) 的问题。

4.2. 核心方法详解

4.2.1. 数据集构建 (Dataset Construction)

AceParse 数据集的构建采用了数据合成方法,主要分为三个关键维度:

4.2.1.1. 文档收集 (Document Collection)

作者根据 Papers with Code [15] 中列出的 ArXiv ID,从 ArXiv计算机科学 (computer science) 领域的 102 个子领域中收集了 10,000 个开放获取 (open-access) 的 LaTeX 源代码文件。 为了应对不同子领域 LaTeX 文件中存在的结构和格式不一致性 (structural and formatting inconsistencies),作者开发了自定义解析脚本 (custom parsing scripts)。这些脚本专门用于规范化 (normalize) 不同的 LaTeX 约定,并确保内容提取的一致性 (consistent content extraction)。

4.2.1.2. 数据合成 (Data Synthesis)

在文档收集之后,下一步是数据合成 (data synthesis),这是生成高质量图像-标注对 (image-annotation pairs) 的核心。 首先,作者结合了基于规则的技术 (rule-based techniques),并利用其对学术写作约定和 LaTeX 语法的领域特定知识来清洗源代码 (clean the source code)。为了避免 LaTeX 文件中常见的问题,例如引用格式不一致 (inconsistent citation formats)、过于复杂或冗余的用户自定义命令 (overly complex or redundant user-defined commands) 以及非标准的分节 (non-standard sectioning),作者开发了自定义的解析规则。这些规则用于过滤掉不相关的内容 (filter out irrelevant content)、规范参考文献和引用 (normalize references and citations) 以及标准化或替换非标准命令 (standardize or replace non-standard commands)。 清洗之后,作者提取了多样化的结构化文本 (extracted diverse structured texts),特别关注带有嵌入结构的句子 (sentences with embedded structures)、公式 (formulas)、表格 (tables)、列表 (lists) 和算法 (algorithms),同时排除了纯文本句子 (plain text sentences)。通过这种方法,作者收集了超过 700,000 个结构化条目。

以下是原文 Figure 2(a) 的结果,展示了 AceParse 数据集中结构化文本的属性统计,以及各种结构化文本类型(如公式、表格、列表、算法、带有嵌入式数学表达式的句子)的分布。

该图像是一个包含表格和两个图表的复合图。图(a)为AceParse数据集中结构化文本属性统计表,图(b)展示标签长度(字符数)分布直方图,图(c)为标签宽高(像素)密度热力图,反映文本区域尺寸特征。 该图像是一个包含表格和两个图表的复合图。图(a)为AceParse数据集中结构化文本属性统计表,图(b)展示标签长度(字符数)分布直方图,图(c)为标签宽高(像素)密度热力图,反映文本区域尺寸特征。

图 2(a) 中的直方图展示了 AceParse 数据集中标注文本长度 (annotation text length)(以字符数计)的分布,其中心值约为 1,107 个字符,这与模型的处理容量相匹配。

在随机采样和组合这些条目以合成新的 LaTeX 文件 (synthesize new LaTeX files) 时,主要挑战之一是确保这些文件能够成功编译,尽管内容的随机性很高。由于不同结构(如公式、表格和自定义命令)的组合很容易导致编译错误 (compilation errors),因此需要实现严格的语法检查 (strict syntax checks) 以在最终编译阶段之前捕获潜在问题。此外,来自不同来源的用户自定义命令 (user-defined commands) 经常冲突或重叠,导致格式不一致 (formatting inconsistencies)。为了解决这个问题,作者引入了预处理步骤 (pre-processing step) 来清理和协调冲突的命令 (sanitize and harmonize conflicting commands)。经过这些调整后,合成的 TeX 文件使用 pdflatex 成功编译成 PDF,确保所有结构都能正确渲染,尽管内容是随机的。

4.2.1.3. 边界检测 (Boundary Detection)

为了准确提取文献图像,作者采用了像素级边界检测方法 (pixel-level boundary detection method)。 首先,PDF 文件使用 PyMuPDF 库转换为图像。 通过识别文本区域的角点 (corners),图像被裁剪以聚焦于相关内容 (relevant content)。 随后,应用启发式规则 (Heuristic rules) 来检测页面边界 (page boundaries) 并丢弃具有不规则布局 (irregular layouts) 或扭曲内容 (distorted content) 的样本,从而确保为下游任务提取更清晰、更精确的图像。

以下是原文 Figure 2(c) 的结果,展示了 AceParse 数据集中图像宽度和高度的联合密度图。

该图像是一个包含表格和两个图表的复合图。图(a)为AceParse数据集中结构化文本属性统计表,图(b)展示标签长度(字符数)分布直方图,图(c)为标签宽高(像素)密度热力图,反映文本区域尺寸特征。 该图像是一个包含表格和两个图表的复合图。图(a)为AceParse数据集中结构化文本属性统计表,图(b)展示标签长度(字符数)分布直方图,图(c)为标签宽高(像素)密度热力图,反映文本区域尺寸特征。

如图 2(c) 所示,大多数图像的尺寸集中在 974×493974 \times 493 像素,宽度和高度的中位数 (median values) 分别为 974 像素和 493 像素。这些尺寸平衡了分辨率 (resolution) 和文件大小 (file size),优化了训练效率和内容清晰度。

4.2.2. AceParser 网络架构 (AceParser Network Architecture)

AceParser 网络是基于 Florence-2 [14] 的架构微调 (fine-tuned) 而成。Florence-2 是一个强大的多任务多模态模型 (robust multi-task multimodal model),在大约 50 亿个数据实例上进行了预训练 (pretrained),并配备了OCR 功能 (OCR capabilities),但它缺乏解析结构化文本的能力。

以下是原文 Figure 1(b) 的示意图,展示了 AceParse 数据集生成及 AceParser 模型结构流程,包括视觉编码器 (vision encoder)、多模态编码器-解码器 (multimodal encoder-decoder) 及带公式的文本解析示例。

该图像是一个示意图,展示了AceParse数据集生成及AceParser模型结构流程,包括文档收集、数据合成、边界检测及多模态编码解码过程,展示了带公式的文本解析示例。 该图像是一个示意图,展示了AceParse数据集生成及AceParser模型结构流程,包括文档收集、数据合成、边界检测及多模态编码解码过程,展示了带公式的文本解析示例。

AceParser 模型主要包含以下组件:

  1. 视觉编码器 (Vision Encoder):

    • 采用 DaViT [16] 作为视觉编码器 (vision encoder)。
    • 它接收一个文档图像 IRH×W×3\mathbf { I } \in \mathbb { R } ^ { H \times W \times 3 } 作为输入。其中:
      • HH 代表图像的高度。
      • WW 代表图像的宽度。
      • 3 代表图像的三个颜色通道(通常是 RGB)。
    • 视觉编码器将图像分割成图像块 (patches),并将其编码为视觉词元嵌入 (visual token embeddings) VRNvˉ×d\mathbf { V } \in \mathbb { R } ^ { \bar { N _ { v } } \times d }。其中:
      • Nvˉ\bar { N _ { v } } 表示视觉词元的数量。
      • dd 表示隐藏层 (hidden layers) 的维度。
  2. 文本嵌入层 (Text Embedding Layer):

    • 任务提示 (task prompt) 通过文本嵌入层 (text embedding layer) 被嵌入为文本词元嵌入 (text token embeddings) TRNt×d\mathbf { T } \in \mathbb { R } ^ { N _ { t } \times d }。其中:
      • N _ { t } 表示文本词元的数量。
      • dd 表示隐藏层 (hidden layers) 的维度。
  3. 多模态编码器-解码器 (Multimodal Encoder-Decoder):

    • 该模块基于 BART [17] 架构。
    • 通过连接这些视觉词元嵌入 V\mathbf { V } 和文本词元嵌入 T\mathbf { T },并应用位置编码 (positional encoding),得到多模态词元嵌入 (multimodal token embeddings) XR(Nv+Ntˉ)×d\mathbf { X } \in \mathbb { R } ^ { ( N _ { v } + \bar { N _ { t } } ) \times d }。这个 X\mathbf { X } 作为多模态编码器 (multimodal encoder) 的输入。

训练过程: 在训练过程中,AceParser 采用教师强制 (teacher forcing) 和自回归损失 (autoregressive loss) 进行微调 (fine-tuning)。具体来说,将真实标注 (annotations) 作为输入提供给解码器 (decoder) 来计算损失。

其损失函数 L\mathcal { L } 定义如下: L=t=1TlogP(yty1:t1,x) \mathcal { L } = - \sum _ { t = 1 } ^ { T } \log P ( y _ { t } | y _ { 1 : t - 1 } , x ) 符号解释:

  • L\mathcal { L }损失函数 (loss function),目标是最小化此值。

  • TT:目标序列(即真实标注)中的总词元 (token) 数量。

  • tt:当前时间步。

  • P ( y _ { t } | y _ { 1 : t - 1 } , x ):在给定输入序列 xx(例如图像和任务提示)和之前已生成的真实词元 (actual tokens) y1:t1y_{1:t-1} 的条件下,生成当前时间步 tt 的真实词元 yty_t 的概率。

  • y _ { t }:在时间步 tt 处的实际目标词元。

  • y1:t1y _ { 1 : t - 1 }:从时间步 1 到 t-1 的实际目标词元序列。

  • xx:输入序列,对于解码器 (decoder) 而言,这通常指代编码器 (encoder) 的输出(包含图像和任务提示的融合信息),并且在教师强制训练时,xx 也可能间接指代用于指导生成过程的真实标注。

    这种自回归 (autoregressive) 的训练方式使得模型能够学习生成符合 LaTeX 语法的结构化文本序列,从而实现对学术文献图像的准确解析。

5. 实验设置

5.1. 数据集

实验使用了作者构建的 AceParse 数据集。

  • 数据集规模: AceParse 包含 500k 对解析文档(图像-LaTeX 标注对)。

  • 数据集划分: AceParse 数据集按照 8:1:1 的比例划分为训练集 (training set)、验证集 (validation set) 和测试集 (test set)。所有的比较结果都基于测试集报告。

  • 数据集特点: 该数据集旨在教授模型如何使用标记语言 (markup language) 来表示多样化的结构化文本,包括公式、表格、列表、算法和嵌入数学表达式的句子。

    以下是原文 Figure 2(a)、2(b)、2(c) 的结果,展示了 AceParse 数据集的统计属性。

    该图像是一个包含表格和两个图表的复合图。图(a)为AceParse数据集中结构化文本属性统计表,图(b)展示标签长度(字符数)分布直方图,图(c)为标签宽高(像素)密度热力图,反映文本区域尺寸特征。 该图像是一个包含表格和两个图表的复合图。图(a)为AceParse数据集中结构化文本属性统计表,图(b)展示标签长度(字符数)分布直方图,图(c)为标签宽高(像素)密度热力图,反映文本区域尺寸特征。

  • 图 2(a) (已在 4.2.1.2 节展示): 展示了标注文本长度 (annotation text length)(以字符数计)的分布。每个合成文档图像包含的标注文本长度集中在 1,107 个字符左右,这与模型的处理能力相匹配。

  • 图 2(b): 展示了图像尺寸 (image dimensions) 的核密度估计 (kernel density estimation)。

  • 图 2(c): 展示了图像宽度和高度的联合密度图 (joint density plot)。大多数图像的尺寸集中在 974×493974 \times 493 像素,其中宽度和高度的中位数 (median values) 分别为 974 像素和 493 像素。这些尺寸旨在平衡分辨率和文件大小,以优化训练效率和内容清晰度。

5.2. 评估指标

论文使用了多种评估指标来全面衡量不同解析方法的性能。对于每一个指标,以下将提供其概念定义、数学公式和符号解释。

  1. Levenshtein 距离 (Levenshtein Distance, LD) [18]:

    • 概念定义: 莱文斯坦距离衡量的是两个字符串之间,由一个转换成另一个所需的最少单字符编辑操作 (minimum number of single-character edits) 次数。这些操作包括插入、删除或替换一个字符。LD 值越小,表示两个字符串越相似。在文本解析中,它量化了模型输出与真实标注之间的差异程度。
    • 数学公式: 莱文斯坦距离通常通过动态规划 (dynamic programming) 算法计算,没有一个简单的闭合形式的数学公式。其计算依赖于构建一个二维矩阵,记录将一个字符串的前缀转换为另一个字符串的前缀所需的编辑次数。
    • 符号解释: 在计算中,通常会定义 dist(s1,s2)dist(s_1, s_2) 为字符串 s1s_1s2s_2 之间的莱文斯坦距离。例如,dist("kitten","sitting")=3dist(\text{"kitten"}, \text{"sitting"}) = 3 (k->s, e->i, 插入g)。
  2. BLEU (Bilingual Evaluation Understudy) [19]:

    • 概念定义: BLEU 是一种用于评估机器翻译(或在本文中,文本解析)质量的指标。它通过计算模型输出文本与参考文本之间N-gram 重叠的精确度 (precision of N-gram overlap) 来衡量其相似度。通常,BLEU 分数越高表示文本质量越好。
    • 数学公式: BLEU=BPexp(n=1Nwnlogpn) \mathrm{BLEU} = \mathrm{BP} \cdot \exp\left(\sum_{n=1}^N w_n \log p_n\right) 其中:
      • BP\mathrm{BP}简洁惩罚项 (Brevity Penalty),用于惩罚过短的生成文本。
      • pnp_nN-gram 精确度 (N-gram precision),表示模型输出中与参考文本匹配的 nn 词元序列的比例。
      • NNN-gram 的最大阶数 (maximum N-gram order),通常取 4。
      • wnw_nN-gram 精确度的权重 (weight for N-gram precision),通常平均分配,即 wn=1/Nw_n = 1/N
    • 符号解释:
      • BP\mathrm{BP}: 惩罚模型输出比参考文本短的情况。
      • pnp_n: 对于每个 nn,计算模型输出中匹配参考文本的 nn-gram 数量与模型输出中所有 nn-gram 数量的比值。
      • exp()\exp(\cdot): 指数函数。
      • \sum: 求和符号。
      • log\log: 自然对数。
  3. F1 分数 (F1 Score):

    • 概念定义: F1 分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值 (harmonic mean)。它是一个综合评估模型性能的指标,尤其在类别不平衡 (class imbalance) 的场景下比单纯的准确率更有意义。F1 分数越高,表示模型的性能越好。
    • 数学公式: F1=2precisionrecallprecision+recall \mathrm{F1} = 2 \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{\mathrm{precision} + \mathrm{recall}} 其中:
      • precision=TruePositivesTruePositives+FalsePositives\mathrm{precision} = \frac{\mathrm{True \, Positives}}{\mathrm{True \, Positives} + \mathrm{False \, Positives}}
      • recall=TruePositivesTruePositives+FalseNegatives\mathrm{recall} = \frac{\mathrm{True \, Positives}}{\mathrm{True \, Positives} + \mathrm{False \, Negatives}}
    • 符号解释:
      • TruePositives(TP)\mathrm{True \, Positives (TP)}:真阳性,正确地将正例预测为正例的数量。
      • FalsePositives(FP)\mathrm{False \, Positives (FP)}:假阳性,错误地将负例预测为正例的数量。
      • FalseNegatives(FN)\mathrm{False \, Negatives (FN)}:假阴性,错误地将正例预测为负例的数量。
  4. Jaccard 相似度 (Jaccard Similarity, JS) [20]:

    • 概念定义: Jaccard 相似度用于衡量两个集合的相似性。它定义为两个集合交集的大小 (size of the intersection) 除以其并集的大小 (size of the union)。JS 值范围在 0 到 1 之间,1 表示两个集合完全相同,0 表示两个集合完全不重叠。在文本解析中,它可以评估模型输出的词元集合与真实标注词元集合之间的相似程度。
    • 数学公式: J(A,B)=ABAB J(A, B) = \frac{|A \cap B|}{|A \cup B|}
    • 符号解释:
      • AA: 第一个集合(例如,模型输出的词元集合)。
      • BB: 第二个集合(例如,真实标注的词元集合)。
      • AB|A \cap B|: 集合 AA 和集合 BB 的交集的大小(共同元素的数量)。
      • AB|A \cup B|: 集合 AA 和集合 BB 的并集的大小(所有不同元素的数量)。
  5. 时间 (Time):

    • 概念定义: 衡量模型解析单个样本所需的平均时间,单位为秒 (s)。这是一个衡量模型推理效率 (inference efficiency) 的指标。
    • 数学公式: 无特定数学公式,通常是总解析时间除以样本数量。
    • 符号解释: 无。

5.3. 对比基线

论文将 AceParser 的性能与以下几种具有代表性的学术文献解析方法进行了比较:

  1. Tesseract [4]:

    • 类型: 非结构感知 (non-structure-aware),基于 OCR 的方法。
    • 特点: 广泛使用的开源 OCR 引擎,主要用于字符识别。
  2. PPOCR [5]:

    • 类型: 非结构感知 (non-structure-aware),模块化 OCR 系统。
    • 特点: 百度开源的超轻量级 OCR 系统,旨在提供实用且高效的字符识别。
  3. Pix2Text:

    • 类型: 结构感知 (structure-aware),模块化方法。
    • 特点: 能够解析结构化文本,但采用模块化设计。
  4. Mineru [7]:

    • 类型: 结构感知 (structure-aware),模块化方法。
    • 特点: 一个一站式、开源、高质量的数据提取工具,支持 PDF/网页/电子书提取,也采用模块化设计。
  5. Nougat [9]:

    • 类型: 结构感知 (structure-aware),端到端方法。

    • 特点: 基于 Transformer 架构的神经光学理解模型 (Neural Optical Understanding for Academic Documents),旨在直接从学术文档图像中解析出结构化信息,是当前最先进的端到端解析模型之一。

      这些基线模型涵盖了从传统 OCR 到现代端到端方法的不同范式,能够全面评估 AceParser 的性能和优势。

5.4. 训练细节

AceParser 模型的训练细节如下:

  • 模型初始化: AceParser 模型使用来自 Florence-2 [14] 的预训练权重 (pre-trained weights) 进行初始化。Florence-2 是一个在 50 亿数据实例上预训练的多任务多模态模型。
  • 优化器: 使用 AdamW 优化器进行训练。AdamW 是一种结合了 Adam 优化器和权重衰减解耦 (decoupled weight decay) 的方法,旨在提高深度学习模型的训练稳定性和泛化能力。
  • 学习率: 学习率设置为 1×1051 \times 1 0 ^ { - 5 }
  • 学习率调度器: 采用了线性学习率调度器 (linear learning rate schedule),其中包括一个 10% 的预热阶段 (warm-up phase)。在预热阶段,学习率从一个较小的值逐渐增加到设定的最大值,有助于稳定训练。
  • 硬件: 训练在四块 NVIDIA GeForce RTX 3090 GPU 上进行。
  • 批处理大小: 批处理大小 (batch size) 设置为 8。

6. 实验结果与分析

6.1. 核心结果分析

如 Table III 所示,论文比较了 AceParse 数据集上各种学术文献解析方法的性能,使用了 Levenshtein Distance (LD)BLEUF1-scoreJaccard Similarity (JS) 等评估指标,以及解析速度 Time

以下是原文 Table III 的结果:

Method LD ↓ BLEU ↑ F1 ↑ JS↑ Time
Tesseract [4] 0.52 19.3 51.3 37.2 1.79
PPOCR [5] 0.53 18.4 53.4 39.4 6.26
Pix2Text 0.43 33.6 62.6 47.2 2.47
Mineru [7] 0.39 45.6 68.2 53.4 984.9
Nougat [9] 0.43 44.9 68.0 53.4 11.24
AceParser (Ours) 0.34 50.2 72.3 58.4 5.92
Improvements +0.05 +4.6 +4.1 +5.0 -4.13

分析要点:

  • 非结构感知方法的性能: Tesseract [4] 和 PPOCR [5] 等非结构感知方法 (non-structure-aware methods) 通常表现出较低的性能(高 LD,低 BLEU、F1、JS)。这符合预期,因为它们主要关注字符识别,缺乏处理 LaTeX标记语言 (markup languages) 中结构信息的能力。例如,Tesseract 的 F1 分数仅为 51.3%,Jaccard 相似度 为 37.2%。

  • 模块化方法的性能: Pix2TextMineru [7] 等结构感知模块化方法 (structure-aware modular approaches) 虽然优于非结构感知方法,但仍不具备竞争力。这主要归因于模块间的误差累积 (error accumulation across modules)。例如,Mineru 的 F1 分数为 68.2%,Jaccard 相似度 为 53.4%,与 Nougat 持平,但在解析时间 (parsing time) 上显著高于其他所有方法 (984.9秒)。

  • 端到端方法的性能:

    • Nougat [9] 作为现有的最先进端到端模型 (state-of-the-art end-to-end model),表现出较好的性能,F1 分数为 68.0%,Jaccard 相似度 为 53.4%。
    • AceParser 的卓越性能: 本文提出的端到端模型 AceParser 在所有核心评估指标上均取得了最佳的解析结果。
      • LD 降低至 0.34 (相对 Nougat 提升 0.09)。
      • BLEU 提升至 50.2 (相对 Nougat 提升 5.3)。
      • F1 分数达到 72.3% (相对 Nougat 提升 4.3%,论文摘要和 Table 中写 4.1%,以表格为准)。
      • Jaccard 相似度 达到 58.4% (相对 Nougat 提升 5.0%)。
    • 模型改进: 相较于 NougatAceParser 在 F1 分数上提高了 4.1%,在 Jaccard 相似度 上提高了 5%。这有力地证明了 AceParse 数据集的有效性以及多模态模型在学术文献解析中的潜力。
  • 解析速度 (Time):

    • AceParser 的平均解析速度为每样本 5.92 秒。虽然这比 Tesseract (1.79秒) 和 Pix2Text (2.47秒) 慢,但明显快于 PPOCR (6.26秒) 和 Nougat (11.24秒),并且远快于 Mineru (984.9秒)。

    • 局限性: 论文作者也承认,5.92 秒的解析速度对于某些场景而言仍然相对较慢,并将其列为未来优化的重点。

      总结: 实验结果清晰地表明,AceParserAceParse 数据集上实现了最先进的 (state-of-the-art) 解析性能,显著优于现有的各种基线方法,尤其在处理多样化结构化文本方面展现出强大能力。

6.2. 数据呈现 (表格)

本节已在 6.1 核心结果分析中完整转录了原文 Table III 的数据,此处不再重复。

6.3. 消融实验/参数分析

论文通过一个案例研究 (case study) 来展示 AceParser 模型在解析复杂公式方面的能力。

以下是原文 Figure 3 的图表,展示了 AceParser 解析包含复杂公式的学术文档图像的案例研究。

该图像是图表,展示了某篇论文中的多幅热力图及公式示意。左侧包含一组矩阵形式的数学公式 \$R_y(\\theta)=e^{-i\\frac{\\theta}{2}\\sigma_y}=\\begin{pmatrix} \\cos(\\frac{\\theta}{2}) & -\\sin(\\frac{\\theta}{2}) \\\\ \\sin(\\frac{\\theta}{2}) & \\cos(\\frac{\\theta}{…

案例分析:

  • 输入图像与特征图 (左侧图像): 左侧两幅图像展示了原始文档图像以及从图像编码器 (image encoder) 中提取的特征图 (feature map)。从特征图中可以看出,图像编码器不仅捕捉了纯文本区域 (plain text areas),还重点关注了公式中的特殊符号和结构 (special symbols and structures)。这表明模型的视觉部分能够有效地识别和提取复杂公式的视觉特征。

  • 跨模态注意力矩阵 (右侧图像): 右侧的图像展示了训练前后跨模态注意力矩阵 (cross-modality attention matrices) 的对比。这些矩阵捕捉了输入词元 (input tokens)(包括视觉和文本)与相应的解析输出词元 (parsed output tokens) 之间的关系,揭示了模型如何对齐视觉和文本信息以实现准确的解析结果。

  • 训练效果: 观察到在公式区域内的注意力分数显著上升 (substantial rise in attention scores)。这强烈表明,模型在经过 AceParse 数据集训练后,其解析结构化文本的能力得到了显著提升,尤其是在处理复杂的数学公式方面。在训练之前,模型可能难以理解这些结构,但训练后,它能够更好地将视觉线索与预期的 LaTeX 标注对齐。

    案例研究具体展示了模型解析了一个矩阵形式的数学公式: Ry(θ)=eiθ2σy=(cos(θ2)sin(θ2)sin(θ2)cos(θ2)) R_y(\theta)=e^{-i\frac{\theta}{2}\sigma_y}=\begin{pmatrix} \cos(\frac{\theta}{2}) & -\sin(\frac{\theta}{2}) \\ \sin(\frac{\theta}{2}) & \cos(\frac{\theta}{2}) \end{pmatrix} 这个公式是量子计算中常见的旋转门 (rotation gate) 表示,其中 Ry(θ)R_y(\theta) 表示绕 y 轴旋转 θ\theta 角的门,σy\sigma_y 是 Pauli-y 矩阵。模型能够准确识别并解析这种包含希腊字母、指数、矩阵和三角函数等复杂元素的公式,进一步验证了其处理多样化结构化文本的能力。

7. 总结与思考

7.1. 结论总结

本文介绍了 AceParse,这是首个全面且开源的学术文献解析数据集。该数据集解决了先前数据集中多样化结构化内容 (diverse structured content) 缺乏的问题,包含了 500k 对解析文档(图像-LaTeX 标注对),旨在通过 LaTeX 标记语言 (markup language) 来教授模型如何表示各种结构化文本,包括公式、表格、列表、算法以及带有嵌入数学表达式的句子。基于此数据集,作者训练了一个端到端模型 AceParser,该模型实现了最先进的 (state-of-the-art) 解析性能,在 F1 分数和 Jaccard 相似度 (Jaccard Similarity) 方面分别比现有最佳模型提升了 4.1% 和 5%。这项工作为学术文献解析领域以及端到端解析模型 (end-to-end parsing models) 的发展奠定了基础。

7.2. 局限性与未来工作

论文作者指出的局限性:

  • 当前 AceParser 的一个主要限制是其相对较慢的解析速度 (5.92 秒/样本),这在处理大规模文档时可能成为瓶颈。

论文作者提出的未来研究方向:

  • 提升数据集质量: 进一步提高 AceParse 数据集的质量。
  • 增加文档长度: 扩展数据集中文档的平均长度和复杂性。
  • 探索更小模型: 研究和开发更小、更高效的模型,以优化解析速度。

7.3. 个人启发与批判

个人启发:

  • 数据中心 AI 的重要性: 这篇论文再次强调了数据中心 AI (data-centric AI) 的核心思想。在复杂的解析任务中,构建一个全面、高质量、多样化的数据集(如 AceParse)对于提升模型性能和泛化能力至关重要,甚至可能比单纯的模型架构创新更为关键。
  • 多模态模型的潜力: AceParser 成功地结合了视觉和文本信息,证明了多模态模型在理解和生成复杂结构化内容方面的巨大潜力。这对于未来处理图像与文本紧密结合的任务具有普遍指导意义。
  • LaTeX 作为统一标注语言的优势: 使用 LaTeX 作为结构化文本的统一标注语言是一个非常巧妙且强大的选择。它不仅能精确表达数学、表格、算法的结构,还能作为模型直接输出的目标格式 (target format),极大地方便了后续的机器处理和信息抽取。
  • 合成数据生成策略: 论文采用的数据合成 (data synthesis) 方法有效解决了真实世界数据集获取困难、标注成本高昂、多样性不足的问题。通过从现有 LaTeX 源代码中提取和随机组合,提供了一种高效、可扩展的构建高质量结构化数据集的范式。

批判与可以改进的地方:

  • 合成数据与真实世界复杂性的差距: 尽管数据合成方法解决了可扩展性问题,但合成数据可能无法完全模拟真实世界 PDF 文档 (real-world PDF documents) 中所有复杂的排版错误、字体模糊、扫描质量差等问题。论文中提到的“自定义解析脚本”和“规则清理”有助于处理 LaTeX 源文件的不一致性 (inconsistencies),但这并不等同于处理由各种 PDF 生成器、扫描仪或用户编辑导致的最终渲染层面 (final rendering layer) 的复杂视觉退化。未来的工作可以探索如何将更多真实世界的噪声和退化引入合成数据,或在真实文档上进行更广泛的验证。
  • 解析速度的实际应用考量: 尽管 AceParserNougat 快,但 5.92 秒/样本的速度对于大规模、实时的学术文献处理(例如,构建大型知识图谱、实时问答系统)来说仍然是显著的性能瓶颈 (performance bottleneck)。未来需要投入更多精力在模型蒸馏 (model distillation)、量化 (quantization) 或更轻量级的架构设计上,以满足工业级应用的需求。
  • 多样化结构化文本的更细致评估: 论文在抽象层面强调了“多样化结构化文本”,但在实验结果中,除了对复杂公式的案例研究,并没有提供针对不同类型结构(如表格、列表、算法)的细粒度评估指标 (fine-grained evaluation metrics)。例如,表格解析通常需要评估单元格内容的准确性、边界检测的准确性等;算法解析可能需要评估关键词、缩进、流程的正确性。更详细的类型特定评估 (type-specific evaluation) 将更有说服力地展示模型在处理每种结构上的优势。
  • 跨领域泛化能力: AceParse 数据集主要从计算机科学领域的 ArXiv 文献中构建。学术文献的排版和结构在不同学科领域(如数学、物理、生物医学等)可能存在差异。模型在其他科学领域的泛化能力 (generalization ability) 仍需进一步验证。
  • 交互性与错误修正: 现有的自动解析方法仍无法达到 100% 的准确率。未来的研究可以考虑在解析框架中引入人工干预和修正机制 (human intervention and correction mechanisms),形成一个人机协作 (human-in-the-loop) 的解析流程,以在保证效率的同时追求更高的准确率。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。