CCL24-Eval 任 办 系 统 报 告 : 基 于 大 型 语 言 模 型 的 中 文 空 间 语 义 评 测
TL;DR 精炼摘要
本研究通过评估大型语言模型(LLM)在实体识别、角色识别、异常识别、信息推理和同义识别等任务上的表现,整体评估其中文空间语义理解能力,采用普通提示、工作流提示和思维链策略,最终发现ERNIE-4在1-shot普通提示下表现最佳,排名第六,准确率为56.20%。
摘要
本 研 究 的 任 务 旨 在 让 大 模 型 进 行 实 体 识 别 、 角 色 识 别 、 异 常 识 别 、 信 息 推 理 、 同 义 识 别 任 务 , 综 合 评 估 大 模 型 的 空 间 语 义 理 解 能 力 。 其 中 , 我 们 使 用 普 通 提 示 词 、 工 作 流 提 示 词 和 思 维 链 三 种 提 示 词 策 略 来 探 讨 大 模 型 的 空 间 语 义 理 解 能 力 , 最 后 发 现 ERNIE-4 在 1-shot 的 普 通 提 示 词 上 表 现 最 佳 。 最 终 , 我 们 的 方 法 排 名 第 六 , 总 体 准 确 率 得 分 为 56.20% 。
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
CCL24-Eval任务3系统报告:基于大型语言模型的中文空间语义评测
1.2. 作者
霍世图、王钰君、吴童杰,均来自北京师范大学国际中文教育学院。
1.3. 发表期刊/会议
该论文是 CCL24-Eval 任务3的系统报告。CCL 通常指中国计算语言学大会(Chinese Computational Linguistics Conference),因此该报告是针对一个在该会议相关评测任务中提交的系统进行的总结。这类报告通常发表在会议的论文集或专门的评测报告合集中。
1.4. 发表年份
根据 CCL24-Eval 的命名,推断发表年份为 2024 年。
1.5. 摘要
本研究旨在通过评估大型语言模型(Large Language Model, LLM)在实体识别(entity recognition)、角色识别(role recognition)、异常识别(anomaly detection)、信息推理(information inference)和同义识别(synonym recognition)这五项任务上的表现,综合评估其对中文空间语义(Chinese spatial semantics)的理解能力。研究中采用了三种提示词(prompt)策略:普通提示(Vanilla Prompt)、工作流提示(Workflow Prompt)和思维链(Chain of Thought, CoT)。实验结果显示,ERNIE-4 模型在使用单样本(1-shot)普通提示时表现最佳。最终,本研究团队的方法在 CCL24-Eval 任务中排名第六,获得了 56.20% 的总体准确率(Accuracy)得分。
1.6. 原文链接
/files/papers/6917c618110b75dcc59ae0e6/paper.pdf 该链接指向论文的 PDF 文件,状态为已发布。
2. 整体概括
2.1. 研究背景与动机
2.1.1. 研究背景
在自然语言处理(Natural Language Processing, NLP)领域,大型语言模型(LLM)近年来取得了显著进展,尤其是在基于注意力机制(attention mechanism)的 Transformer 架构和缩放定律(Scaling Laws)的驱动下,能够捕捉复杂的语言结构和语境关系,完成机器翻译、语义分析等多种任务。研究表明,LLM 具有较好的语义理解能力,甚至能够有效表征时间和空间。
空间语义评测是评估 NLP 系统理解空间表达能力的重要手段。传统的评测方法主要依赖人工标注,成本高且可扩展性差。当前,基于生成式语言模型(Generative Language Models)开展评测任务正逐渐成为趋势。
2.1.2. 研究动机
鉴于 LLM 在语义理解方面的强大能力以及空间语义评测的挑战,本研究旨在探究以下核心问题:
-
大模型对空间语义的理解程度如何? 这意味着要通过实际测试来量化
LLM在处理空间信息时的准确性和鲁棒性。 -
在理解空间语义的具体任务上,大模型各有哪些优劣? 这需要对
LLM在不同空间语义子任务中的表现进行细致分析,揭示其在特定类型问题上的优势和不足。本研究基于第四届中文空间语义理解评测任务(
SpaCE2024)的数据集和框架,通过实验分析不同LLM在空间语义理解方面的能力边界。
2.2. 核心贡献/主要发现
2.2.1. 核心贡献
- 构建并评估了基于多种提示词策略的
LLM评测框架: 本研究系统地探索了普通提示、工作流提示和思维链三种提示词策略,以及不同样本数量(0-shot, 1-shot, 3-shot)对LLM空间语义理解能力的影响。 - 对中文空间语义理解任务进行了细致的分类评估: 任务涵盖实体识别、角色识别、异常识别、信息推理、同义识别五个维度,全面考察了
LLM在中文空间语义处理中的各项子能力。 - 对主流
LLM在中文空间语义理解上的表现进行了对比分析: 选取了GPT-4 Turbo,GPT-4o,GLM-4,ERNIE-4,Qwen1.5-72B-chat,Deepseek-V2-chat等代表性模型进行实验,提供了各模型在不同任务和提示策略下的性能数据。
2.2.2. 主要发现
ERNIE-4在特定条件下表现最佳: 在 1-shot 普通提示词策略下,ERNIE-4在验证集和测试集上都取得了最高准确率(验证集 53.88%,测试集 56.20%)。- 大模型基座能力至关重要:
ERNIE-4和GLM-4等模型凭借其强大的中文语义理解基座能力,能更好地适应各种挑战性任务。 - 提示词数量(
shot)对性能有影响: 单样本(1-shot)可以显著提升模型的空间语义理解能力,但从 1-shot 到 3-shot 准确率升降不定,这表明并非样本越多越好,可能存在最优的样本数量。 - 提示词策略并非越复杂越好: 思维链(
CoT)等复杂策略在此次评测中表现并不突出,简单的普通提示词策略有时也能获得优异效果。 - 模型在不同空间语义任务上的能力差异: 所有模型在角色识别任务上表现最优,在空间推理任务上表现最差。单选题得分普遍高于多选题。
- 具体任务表现分析:
- 实体识别: 模型能较好识别语境中出现的、与方位词关联的实体,但对语境中未出现或存在干扰项的领属关系实体判断较弱。
- 角色识别: 对具体实体间具体空间关系判断最准确,对抽象实体具体空间关系次之,对抽象实体抽象空间关系最弱。
- 异常识别: 能识别相对直观的异常空间关系,但在需要推理能力或百科知识判断的复杂异常关系上表现不佳。
- 空间推理: 模型空间推理能力较弱,难以处理需要多步骤推理和百科知识的复杂空间关系。
- 同义识别: 模型在“实体 + 方位词”序列语义理解上表现不足,难以准确判断不同方位词替换后空间场景是否一致。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 大型语言模型 (Large Language Model, LLM)
LLM 是一类参数量巨大(通常达到数十亿甚至数千亿)的深度学习模型,专门用于处理和生成人类语言。它们通过在海量文本数据上进行预训练,学习语言的统计规律、语法结构、语义信息乃至世界知识。LLM 通常基于 Transformer 架构。
3.1.2. Transformer
Transformer (Vaswani et al., 2017) 是一种革新性的神经网络架构,在 NLP 领域取代了传统的循环神经网络(Recurrent Neural Network, RNN)和卷积神经网络(Convolutional Neural Network, CNN),成为 LLM 的基石。其核心创新在于注意力机制 (Attention Mechanism),能够并行处理序列数据,并有效捕捉长距离依赖关系。
3.1.3. 注意力机制 (Attention Mechanism)
注意力机制是 Transformer 的核心组件,它允许模型在处理序列中的某个词时,动态地“关注”输入序列中的其他词,并根据这些词的重要性分配不同的权重。这使得模型能够更好地理解词语之间的依赖关系,无论它们在序列中的距离有多远。最常见的 Attention 计算公式如下:
符号解释:
- (Query):查询矩阵,代表当前词的查询信息。
- (Key):键矩阵,代表所有词的键信息。
- (Value):值矩阵,代表所有词的值信息。
- :查询矩阵与键矩阵的转置相乘,计算查询与所有键的相似度。
- :键向量的维度,用于对相似度进行缩放,防止内积过大导致
softmax函数梯度消失。 - :
softmax函数将相似度分数转换为概率分布,表示每个词的重要性权重。 - :值矩阵,与权重相乘后得到加权和,即注意力机制的输出。
3.1.4. 缩放定律 (Scaling Laws)
缩放定律是指 LLM 的性能(如损失函数值)在模型规模(参数量)、训练数据量和计算量增加时,呈现出可预测的幂律(power law)关系。这意味着只要持续增加这些资源,模型的性能就会稳步提升,为 BERT 和 GPT-3 等大型模型的成功奠定了理论基础 (Kaplan et al., 2020)。
3.1.5. 提示词工程 (Prompt Engineering)
提示词工程是指设计和优化输入给 LLM 的文本指令(即 prompt),以引导模型生成期望的、高质量的输出。通过精心设计的 prompt,可以激活 LLM 的特定能力,使其在各种任务中表现更好。
3.1.6. Few-shot Learning (小样本学习)
Few-shot Learning 是指模型在只看到少量(通常是几个)示例的情况下,就能学会执行一项任务的能力。
- 0-shot: 模型在没有任何任务示例的情况下,仅凭
prompt中的指令完成任务。 - 1-shot:
prompt中包含一个任务示例,模型通过这个示例学习任务模式。 - 3-shot:
prompt中包含三个任务示例,模型通过这些示例进行学习。
3.1.7. 思维链 (Chain of Thought, CoT)
思维链(CoT)是一种提示词工程技术,通过在 prompt 中加入一系列中间推理步骤,引导 LLM 逐步思考并解决复杂问题。这使得 LLM 不仅给出最终答案,还能展示其思考过程,从而提高在算术、常识和符号推理等任务上的表现 (Wei et al., 2022)。
3.1.8. 空间语义 (Spatial Semantics)
空间语义是指语言中对空间概念(如位置、方向、距离、运动、形状等)的表达和理解。它涉及人类如何感知、概念化和通过语言来描述物理世界中的空间关系。
3.1.9. Sentence-BERT
Sentence-BERT (Reimers and Gurevych, 2019) 是一种基于 BERT 模型的变体,专门用于生成高质量的句子嵌入(sentence embeddings)。它通过在 siamese 和 triplet 网络结构上进行微调,使得语义相似的句子在向量空间中的距离更近,从而可以用于计算句子之间的语义相似度。
3.2. 前人工作
3.2.1. 语言学视角下的空间语义研究
本部分回顾了认知语言学和传统语言学中关于空间语义的关键理论和研究,强调空间概念作为人类认知和语言基础的重要性。
- 认知语言学基础: 认知语言学认为语言根植于人类的经验和感知 (
张敏,1998)。空间关系是人类最早习得的能力之一 (Akhundov,1986; Clark,1973; 张敏,1998; 赵艳芳,2001)。 - 空间隐喻 (Spatial Metaphor): Lakoff and Turner (1989) 提出空间隐喻作为一种意象图式隐喻(
image schema metaphor),将具体的空间概念投射到抽象的语言结构中,是空间语义形成的认知基础。 - 空间语法 (Space Grammar): Langacker (1982) 提出了空间语法,强调空间语义对语言形成的作用。
- 主题关系假设 (Thematic Relations Hypothesis, TRH): Jackendoff (1983) 认为人类语言概念结构中的事件和状态都是通过空间概念化组织起来的。
- 形式空间化假设 (SFH): Lakoff (1987) 讨论了基本句型如何从空间语义视角形成。
- 意象图式 (Image Schemas): Johnson (1987) 概括了与空间语义相关的 27 个重要意象图式,认为是人类空间范畴推理的基础。
- 关键概念和工具: Talmy (1983) 的图形-背景理论(
Figure-Ground Theory)、Langacker (1987) 的“基体-侧面”(Base-Side)和“射体-界标”(Trajector-Landmark)关系等。 - 微观研究:
- 英语和法语介词: Hawkins (1984) 研究英语介词,Vandeloise (1994) 考察法语空间介词,Herskovits (1986) 对英语空间表达式进行跨学科调查,Svorou (1993) 进行跨语言比较。
- 汉语方位词: 廖秋忠 (1986) 引入参照点研究方位词。刘宁生 (1994) 讨论汉语空间方位的参照物、目的物和方位词选择。齐沪扬 (1998) 建立了现代汉语空间系统理论框架。
- “上”“下”研究: 崔希亮 (2000) 解析“在X上”的空间语义。蓝纯 (2003) 比较汉语“上”“下”与英语
up/down。白丽芳 (2006) 考察“上”“下”的不对称性。徐丹 (2008) 考察汉语时空表达的纵向结构特点。 - 位移动词和位移事件: 陆俭明 (2002) 界定位移动词。张国宪 (2006)、雍茜 (2013)、曾传禄 (2014) 等研究位移构式和语义分化。
- 近期研究: 贾红霞 (2009)、尹蔚彬 (2014)、李云兵 (2016; 2020)、祝克懿 (2018) 等聚焦汉方言比较、汉外语比较、空间语义的认知和心理现实性等。
3.2.2. 自然语言处理领域的空间语义评测研究
本部分总结了 NLP 领域空间语义评测的发展历程。
- 深度学习前阶段:
- 阶段一: 关注空间语义网络的层级和关系定义 (Tappan, 2004),奠定空间信息处理基础。
- 阶段二: 侧重特定空间语义任务,如空间实体识别 (Kordjamshidi et al., 2011) 和空间关系判定,使用机器学习方法进行半监督或无监督训练。
- 局限性: 此前研究多采用非语言形式化方法,未充分考虑人类自然语言表达中的不确定性和模糊性 (Stock, 1998; Renz and Nebel, 2007; Bateman et al., 2007)。
- 空间角色标注 (Space Role Labelling, SpRL):
- 为解决空间表述模糊性,Kordjamshidi et al. (2011) 提出
SpRL任务。 - Roberts (2012) 使用联合方法识别和分类空间角色,结合
CRF模型提取特征、最大熵和朴素贝叶斯分类器消除介词歧义。利用SemEval-2007(Litkowski and Hargraves, 2007) 数据学习介词空间意义。该方法同时考虑轨迹物、地标和指示物等所有关系元素 (Roberts and Harabagiu, 2012)。
- 为解决空间表述模糊性,Kordjamshidi et al. (2011) 提出
- SpaceEval 系列评测:
SpaceEval 2013(Kolomiyets et al., 2013) 扩展SpRL任务,引入运动关系(Movelink)和运动标签,用于注释运动动词/名词性运动事件及其类别。SpaceEval 2015(Pustejovsky et al., 2015) 通过设定空间元素识别和分类、运动信号识别、运动关系识别等子任务,全面评估系统表现。
- 中文空间语义评测 (SpaCE):
- 借鉴上述成果,构建高质量评测数据集,对机器空间语义理解提出更高要求 (
詹卫东et al.,2022; 岳朋雪et al.,2023)。 - 任务设置更复杂,要求模型不仅能执行识别和分类,还要进行方位推理和异形同义识别等。
- 在大语言模型出现后,针对空间语义理解任务的设定必然更加复杂和全面。
- 借鉴上述成果,构建高质量评测数据集,对机器空间语义理解提出更高要求 (
3.3. 技术演进
空间语义研究从传统的语言学理论和人工分析起步,逐步发展到 NLP 领域的基于规则和机器学习的方法。早期 NLP 方法侧重于形式化表达和特定任务的解决,但难以处理自然语言中的模糊性。随着 SpRL 和 SpaceEval 系列任务的提出,评测体系逐渐完善,开始关注更复杂的空间关系和运动事件。近年来,深度学习,特别是 LLM 的兴起,为空间语义理解带来了新的突破。LLM 凭借其强大的语义理解能力和涌现(emergent)出的推理能力,使得基于生成式模型进行空间语义评测成为可能和趋势,评测任务也因此变得更加复杂和全面。
3.4. 差异化分析
本文的工作与前人研究的主要区别和创新点在于:
- 聚焦
LLM: 本文明确将LLM作为研究对象,而非传统的机器学习模型或规则系统。这反映了当前NLP领域的前沿趋势。 - 中文空间语义: 针对中文这一特定语言,进行了深入的空间语义评测。中文在空间表达上具有其独特的语言特点(如方位词的用法、时空表达的纵向结构),这使得对中文的评测具有特殊的挑战和价值。
- 多任务、多维度评估: 本文的评测任务设计涵盖了实体识别、角色识别、异常识别、信息推理和同义识别五个维度,能够更全面地评估
LLM在不同层级和类型空间语义问题上的能力。 - 提示词工程的系统探索: 本文系统地比较了普通提示、工作流提示和思维链三种不同的提示词策略以及不同样本数量对
LLM性能的影响,为LLM在空间语义任务中的应用提供了实践指导。 - 主流
LLM的实证对比: 对GPT系列、GLM-4、ERNIE-4、Qwen和Deepseek等主流LLM进行了横向对比,揭示了不同模型在中文空间语义理解上的优劣。
4. 方法论
4.1. 方法原理
本研究的核心思想是利用大型语言模型(LLM)在中文空间语义理解评测任务 SpaCE2024 数据集上进行评估。通过设计不同的提示词(prompt)策略和样本数量(shot),观察 LLM 在实体识别、角色识别、异常识别、信息推理和同义识别等子任务中的表现。最终,根据模型的准确率得分来评估其空间语义理解能力,并分析不同模型和提示策略的优劣。
4.2. 核心方法详解
4.2.1. 模型一览
本研究选取了六个具有代表性的大型语言模型进行实验,这些模型来自不同的开发者,涵盖了不同的架构和规模。 以下是原文 Table 2 的结果:
| 模型 | 版本日期 | 开发者 | 模型大小 | 上下文 | 词表大小 | 是否开源调用方式 | 调用方式 |
|---|---|---|---|---|---|---|---|
| GPT-4 Turbo | 04-09 | OpenAI | 未披露 | 12.8万 | 10万 | 否 | API |
| GPT-4o | 05-13 | OpenAI | 未披露 | 12.8万 | 20万 | 否 | API |
| GLM-4 | 未披露 | 智谱华章 | 未披露 | 12.8万 | 未披露 | 否 | API |
| ERNIE-4 | 03-29 | 百度 | 未披露 | 8千 | 未披露 | 否 | API |
| Qwen1.5-72B-chat | 未披露 | 阿里巴巴 | 720亿 | 3.2万 | 15万 | 是 | API |
| Deepseek-V2-chat | 未披露 | 深度求索 | 2360亿 | 3.2万 | 10万 | 是 | API |
模型说明:
-
GPT-4 Turbo 和 GPT-4o:由
OpenAI开发,是目前最先进的通用LLM之一,拥有强大的上下文处理能力和词表大小。 -
GLM-4:由
智谱华章开发,是中国领先的LLM,在中文处理方面表现出色。 -
ERNIE-4:由
百度开发,是百度文心大模型的最新版本,以其强大的中文理解和生成能力而闻名。 -
Qwen1.5-72B-chat:由
阿里巴巴开发,是一个 720 亿参数的开源模型,具有较长的上下文支持。 -
Deepseek-V2-chat:由
深度求索开发,参数量高达 2360 亿,是目前规模最大的开源模型之一。这些模型均通过
API调用方式进行实验。
4.2.2. 提示词工程 (Prompt Engineering)
本研究的提示词均采用 Markdown 格式的结构化格式,主要包含提示词策略和提示样本构建两部分。
4.2.2.1. 提示词策略 (Prompt Strategies)
研究采用了三种主要的提示词策略:
- 普通提示 (Vanilla Prompt): 最直接的提示方式,通常只包含任务指令、输入文本、问题和选项。
- 工作流提示 (Workflow Prompt): 在普通提示的基础上,为模型定义了明确的思考或处理步骤,旨在引导模型按照预设逻辑进行推理。
- 思维链 (Chain of Thought, CoT): 提示词中包含一个或多个示例,这些示例不仅给出问题和答案,还展示了达到答案的中间推理过程,鼓励模型进行逐步思考。
4.2.2.2. 提示样本构建 (Prompt Sample Construction)
- 样本数量 (Shot Count): 普通提示和工作流提示都采用了
0-shot(零样本)、1-shot(单样本)和3-shot(三样本)三种设置。思维链提示则只采用了1-shot。 - 样本选取:
- 训练集中的每条数据包含一个文本()、一个问题()、四个选项()和一个答案()。这些数据被组织成样本 。
- 使用
Sentence-BERT(Reimers and Gurevych, 2019) 将这些样本转换为向量。 - 针对每个任务类别,计算所有样本向量的平均值,作为该类别的簇心。
- 通过计算每个样本向量与簇心的语义相似度,分别找出距离簇心最近的 1 个和 3 个样本,作为
1-shot和3-shot的训练数据。
- 思维链样本的特殊处理: 由于
CoT需要思考过程,研究使用GPT-4撰写了样本的思维链过程。同时,将输出结构化为“想法”(Thought)和“答案”(Answer)两部分。 - 特殊情况处理: 由于空间异形同义识别任务的训练集中只有 1 道多选题,研究人工将该任务中的 2 道单选题改编为多选题,以确保能够构建
3-shot样本。
4.2.2.3. 提示词示例 (Prompt Examples)
普通提示词示例 (Vanilla Prompt Example)
#Goal:从四个选项中选出文本中的空间信息参照物。注意,只需回答option的一个key,不需要回答value,不需要解释。
*Text:** <text> *Question:** <question> *Option:** <option> *Answer:**
解释: 这个提示词直接告知模型任务目标,并强调只输出选项的键(如 、、、),不输出值或任何解释。, , 是待填充的实际数据占位符。
工作流提示词示例 (Workflow Prompt Example)
#Role:你是一位擅长空间信息实体识别的专家。
#Goal:从四个选项中选出文本中的空间信息参照物。注意,只需回答option的一个key,不需要回答value,不需要解释。
#Workflow:1.阅读text:细致阅读提供的text,特别关注其中的空间信息描述。2.分析option:查看所有option,识别哪些可能是text中的空间参照物。3.选择正确option:对比text与option,选择最匹配的空间信息参照物。
*Text:** <text>
*Question:** <question>
*Option:** <option>
*Answer:**
解释: 在普通提示的基础上,增加了角色设定(Role)和详细的工作流程(Workflow)。工作流程通过三个步骤(阅读文本、分析选项、选择正确选项)指导模型进行思考,旨在提升模型执行任务的结构性和准确性。
思维链提示词示例 (Chain of Thought Prompt Example)
#Goal:从四个选项中选出文本中的空间信息参照物。注意,只需回答option的一个key,不需要回答value,写出Thought和Answer 。
*Text:** <text> *Question:** <question> *Option:** <option> *Thought:** <thought> *Answer:**
解释: 这个提示词要求模型不仅输出答案,还要输出其思考过程(Thought)。通过提供 Thought 占位符,引导模型进行逐步推理,以提高其解决复杂问题的能力。
4.2.3. 实验设置 (Experimental Setup)
4.2.3.1. 答案提取方法 (Answer Extraction Methods)
- 普通提示和工作流提示: 模型被要求直接输出选项,选项之间用英文逗号“
,”隔开。为了处理模型在输出答案后可能继续输出其他内容的情况,首先将输出转换为列表格式,然后遍历每个元素,提取每个元素中的首字符作为最终答案。 - 思维链方法: 模型被要求先输出思路,再输出答案。研究使用正则表达式来提取答案,所使用的正则表达式为 <\*\*Answer:\*\*\n(.+?)(\n\nl\)>$。
- 人工检查: 由于不同模型的指令遵循能力存在差异,系统会自动检查每个答案是否都为 、、、 四个选项之一,如不符合,还需要进行人工检查。
4.2.3.2. 模型输出设置
Temperature: 设置为 0.1。Temperature是LLM生成文本时的一个超参数,控制生成文本的随机性。较低的temperature值(如 0.1)会使模型选择概率最高的词,从而生成更确定和稳定的输出,减少随机性和创造性,这对于评测任务的准确性和可重复性至关重要。
5. 实验设置
5.1. 数据集
本研究采用的数据集是 SpaCE 2024 评测任务提供的数据集,其旨在考察模型在实体识别、角色识别、异常判断、方位推理和语义识别五个维度的空间语义理解能力。数据集涵盖了五大任务类别和两种选择题形式(单选题和多选题),共有九个小类题目。语料来源包括报刊、文学作品、中小学课本等一般领域,以及交通事故、体育动作、地理百科等专业领域。每条数据都包含题目编号、文本、选项和答案。
以下是原文 Table 1 的结果:
| 序号 | 任务类别 | 任务要求 | 题型 | 数据量 | ||
| 训练集 | 验证集 | 测试集 | ||||
| 1 | 空间信息实体识别 | 选出文本空间信息的参照物 | 单选题 | 937 | 226 | 489 |
| 多选题 | 161 | 24 | 81 | |||
| 2 | 空间信息角色识别 | 选出文本空间信息的语义角色,或者选出与语义角色相对应的空间表达形式 | 单选题 | 1074 | 186 | 746 |
| 多选题 | 19 | 4 | 24 | |||
| 3 | 空间信息异常识别 | 从四个选项中选出文本空间信息异常的语言表达 | 单选题 | 1077 | 40 | 500 |
| 4 | 空间方位信息推理 | 基于文本给出的推理条件进行空间方位推理,从四个选项中选出推理结果 | 单选题 | 909 | 468 | 1509 |
| 多选题 | 301 | 207 | 531 | |||
| 5 | 空间异形同义识别 | 从四个选项中选出能使两个文本异形同义或异义的空间义词语 | 单选题 | 4 | 44 | 517 |
| 多选题 | 1 | 11 | 133 | |||
| 总计 | 4483 | 1210 | 4530 | |||
数据集特点:
- 任务多样性: 涵盖五大任务类别,旨在全面考察
LLM的空间语义理解能力。 - 题型丰富: 包含单选题和多选题,增加了任务的复杂性。
- 领域广泛: 语料来自一般领域和专业领域,检验模型在不同知识背景下的泛化能力。
- 数据分布差异: 空间方位信息推理题目最多,空间异形同义识别题目最少,这反映了不同任务的难度和数据可获得性,也给评测带来了挑战。
5.2. 评估指标
本研究采用准确率 (Accuracy) 作为评测指标。
5.2.1. 概念定义
准确率是一个衡量分类模型性能的常用指标,表示模型正确预测的样本数量占总样本数量的比例。在本文中,准确率量化了模型在所有评测题目中答对的比例。模型答对得 1 分,其他情况(如模型认为选项不符合要求、拒绝回答、多选题未能全部答对)得 0 分。
5.2.2. 数学公式
准确率的计算公式如下:
5.2.3. 符号解释
- :准确率,表示模型分类正确的比例。
- :模型在所有题目中正确回答的题目数量。
- :模型总共回答的题目数量(即所有题目的数量)。
5.3. 对比基线
本研究旨在评估不同 LLM 在特定任务和提示词策略下的性能,因此其“基线”主要是其他 LLM 模型及其不同的提示词配置。文中选取的六个具有代表性的 LLM(GPT-4 Turbo, GPT-4o, GLM-4, ERNIE-4, Qwen1.5-72B-chat, Deepseek-V2-chat)构成了相互对比的基线。通过比较这些模型在不同 0-shot、1-shot、3-shot 普通提示、工作流提示和 1-shot 思维链提示下的准确率,来评估它们的相对优劣。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 模型总体表现
以下是原文 Table 3 的结果,展示了模型在验证集上的总体表现(满分为 100 分):
| 模型 | 普通 | 工作流 | 思维链 (1) |
||||
| 0 | 1 | 3 | 0 | 1 | 3 | ||
| ERNIE-4 | 50.25 | 53.88 | 52.73 | 52.23 | 52.73 | 52.81 | 51.06 |
| GLM-4 | 51.24 | 52.01 | 52.23 | 50.49 | 53.14 | 50.41 | 50.82 |
| GPT-4o | 48.92 | 51.16 | 52.89 | 48.35 | 50.99 | 51.73 | 50.91 |
| GPT-4 Turbo | 48.18 | 50.99 | 51.54 | 47.43 | 51.49 | 47.77 | 50.74 |
| Deepseek-V2-chat | 48.84 | 49.83 | 49.98 | 46.69 | 49.42 | 49.83 | 46.78 |
| Qwen1.5-72B-chat | 44.71 | 46.61 | 46.45 | 42.81 | 45.70 | 45.04 | 45.45 |
从验证集结果可以看出:
-
ERNIE-4表现最佳: 在 1-shot 普通提示下达到 53.88% 的最高分。 -
GLM-4紧随其后: 在 1-shot 工作流提示下达到 53.14% 的第二高分。 -
0-shot表现普遍较差: 相比于0-shot,1-shot和3-shot能够显著提升模型的空间语义理解能力,表明少量示例对LLM理解任务有重要帮助。 -
1-shot与3-shot性能不确定: 从1-shot到3-shot,准确率有升有降(7 例上升,5 例下降),这表明并非示例越多越好,可能存在最优的示例数量,或过多示例可能引入噪声。 -
提示词策略的复杂性与效果: 思维链(
CoT)作为一种更复杂的提示策略,在此次空间语义评测中表现并不突出,甚至在某些情况下不如普通提示或工作流提示。这暗示了在某些任务上,过度的引导可能不是最有效的。以下是原文 Table 4 的结果,展示了模型在测试集的最终表现:
模型 样本数量 提示词 测试集准确率 ERNIE-4 1 普通 56.20 GLM-4 1 工作流 54.52
最终测试集的结果印证了验证集的发现,ERNIE-4 在 1-shot 普通提示下取得了 56.20% 的最高准确率,而 GLM-4 在 1-shot 工作流提示下取得 54.52%。本研究团队最终排名第六。
总结归纳的结论:
- 大模型基座能力具有举足轻重的作用:
ERNIE-4和GLM-4等模型拥有较强的中文语义理解基座能力,能够很好地适应多种有挑战性的任务。 - 提示词的数量对模型结果有重要影响: 单样本(
1-shot)可以显著提升模型的空间语义理解能力,但相较于0-shot,1/3-shot可以显著提升模型的空间语义理解能力,但从 1 到 3-shot,准确率升降不定(7 例上升,5 例下降)。 - 提示词策略不一定越复杂越好: 简单的提示词策略可能也有出色的效果。思维链(
CoT)可以帮助模型更好地理解语义空间,但在此次空间语义测评中表现并不突出。
6.1.2. 模型具体表现
以下是原文 Table 5 的结果,展示了模型在验证集的实际最佳性能和潜在最佳性能:
| 实体识别 | 角色识别 | 异常识别 | 空间推理 | 同义识别 | 单选题 | 多选题 | ||
| ERNIE-4 | 实际最佳 | 79.20 | 95.26 | 87.50 | 29.92 | 65.45 | 61.20 | 25.20 |
| 潜在最佳 | 80.40 | 96.84 | 87.50 | 29.92 | 65.45 | 61.20 | 25.20 | |
| GLM-4 | 实际最佳 | 78.40 | 95.79 | 85.00 | 29.33 | 60.00 | 58.30 | 32.93 |
| 潜在最佳 | 78.40 | 96.84 | 85.00 | 29.33 | 63.63 | 59.64 | 32.93 | |
| GPT-4o | 实际最佳 | 76.40 | 93.68 | 80.00 | 30.52 | 60.00 | 58.09 | 32.52 |
| 潜在最佳 | 76.40 | 95.79 | 80.00 | 30.52 | 65.45 | 59.34 | 33.74 | |
| GPT-4 Turbo | 实际最佳 | 76.80 | 95.26 | 72.50 | 28.59 | 54.54 | 59.54 | 20.73 |
| 潜在最佳 | 76.80 | 95.26 | 80.00 | 29.48 | 61.82 | 59.92 | 23.17 | |
| Deepseek-V2-chat | 实际最佳 | 74.40 | 95.26 | 77.50 | 26.22 | 52.73 | 56.33 | 24.80 |
| 潜在最佳 | 74.40 | 96.84 | 82.50 | 29.04 | 65.45 | 56.74 | 29.67 | |
| Qwen1.5-72B-chat | 实际最佳 | 71.60 | 91.05 | 67.50 | 23.11 | 52.73 | 55.50 | 11.79 |
| 潜在最佳 | 72.40 | 93.68 | 67.50 | 24.74 | 54.54 | 55.50 | 16.67 |
分析:
-
任务表现普遍性: 所有模型在角色识别任务上表现最优(
ERNIE-4实际最佳 95.26%),在空间推理任务上表现相对最差(ERNIE-4实际最佳 29.92%)。 -
单选题 vs. 多选题: 单选题得分普遍高于多选题,多选题对于所有模型都是更大的挑战。
-
ERNIE-4的优势: 在实际最佳性能方面,ERNIE-4表现最好,在实体识别、异常识别、同义识别和单选题上表现优异。 -
GLM-4的优势: 在角色识别任务和多选题上得分最高。 -
潜在性能:
ERNIE-4和GLM-4在实体识别和角色识别这两个任务上具有更大的潜在发挥空间。Deepseek-V2-chat在同义识别任务上的潜在表现值得关注,可以达到与ERNIE-4、GLM-4比肩的水平(65.45%)。下面以
ERNIE-4的实际最佳性能结果为例,详细探究其在验证集不同任务类别的表现。
6.1.3. 在实体识别题目的表现
实体识别类题目考察模型能否识别空间方位词和语境中已经出现过的实体的同指关系。
- 表现较好: 由于这类空间方位词和实体的关系在语境中是固定的,模型较容易学习。
- 示例 1: “周游口袋里只有五元钱....所以蹬三轮车的上来拉生意时,他理都不理他们,而是从西装口袋里掏出个玩具手机,这个玩具手机像真的一样,里面装上一节五号电池,悄悄按上一个键,手机的铃声就会响起来。(题目:__-里面装上一节五号电池)”
- 示例 4: “回家以后,她给丈夫算了一笔账:我每天上下班路程要花3个小时,工作8小时,中午吃饭1小时,总共在外边花12小时......(题目:总共在___外边花12小时)”
ERNIE-4对这类简单、直接的实体识别比较准确。
- 表现较弱: 当需要判断的实体在语境中和其他实体有领属或广义领属关系,尤其是其他实体没有在语境中出现时,
ERNIE-4的错误率较高。- 示例 58: “爸爸把我从床头打到床角,从床上打到床下,外面的雨声混合着我的哭声.... (题目:__外面的雨声混合着我的哭声)”
- 示例 67: “楼上只有南面的大厅有灯亮。灯亮里有块白长布,写着点什么——林乃久知道写的是什么。其余的三面黑洞洞的..... (题目:__三面黑洞洞的)” 在示例 58 中,实体“屋子”没有出现;在示例 67 中,存在干扰项“大厅”(实际应选“楼上”,二者有广义领属关系),模型对这两句话的判断都出现了问题。
- 总结:
ERNIE-4可以比较准确地判断语境中出现过的单独和方位词关联的实体,但对语境中没有出现的、以及语境中还存在和该实体有领属关系的干扰项时,模型的判断能力比较弱。
6.1.4. 在角色识别题目的表现
角色识别类题目考察模型能否识别存在空间交互关系的两个实体。
- 表现非常准确:
ERNIE-4对领属关系(如 251 题)、事件带来的空间关系(如 258 题)和相对位置关系(如 259 题)的认识都非常准确。- 示例 251: “时间过去近两个月,木沙江·努尔墩仍清楚地记得.....在人工湖边的冰窟中,拉齐尼用一只手臂搂住孩子,另一只手努力托举着孩子.... (题目:__的手努力托举着孩子)”
- 示例 258: “.....正在站上值班的牛红生例行巡检,走到龙王路段时,发现一辆轿车从百米外的公路上猛然栽进路边的排水渠......牛红生只能在水中摸索,摸到车门后用力拽开,把人拉出水面...... (题目:牛红生把_-拉出了水面)”
- 示例 259: “文本同258题 (题目:轿车栽进去时的初始位置是__-)”
- 表现下降: 当题目直接询问实体(包括抽象实体)的复杂空间关系(包括隐域空间关系)时,模型的识别能力下降。这类空间关系要么是隐涵的,要么是“元语言”(
meta-language)意义上的,不容易从语境中直接得到。“元语言”指的是描述语言本身的语言,例如题目选项中的“路径”、“方向”等抽象描述方位的词语,而非具体指称某个物理实体的词。- 示例 398: “首先是水的气味,宽广的昌江流经鄱阳城奔向鄱阳湖,在城外留下韭菜湖、青山湖、土湖、东湖、球场湖五片湖..... (题目:“鄱阳城"属于“昌江"流动时的___-信息)”
- 示例 425: “几天以后李光头回来了,他在上海买了一辆红色的桑塔纳轿车,他有专车了....李光头从车里出来时,身穿一身黑色的意大利阿玛尼西装,那身破烂衣服扔在上海的垃圾桶里了...... (题目:“破烂衣服扔在上海的垃圾桶里"发生在___)”
- 总结:
ERNIE-4判断两个具体实体的具体空间关系是最准确的,判断抽象实体的具体空间关系次之,判断抽象实体的抽象空间关系是最弱的。这与人类一般的认知能力相似,越是具体的对象和关系就越容易认知和识别。
6.1.5. 在异常识别题目的表现
异常识别类题目考察模型能否识别存在异常或错误空间交互关系的若干实体。
- 表现较好:
ERNIE-4对相对直观的异常空间关系识别能力较好。这些异常要么是不合常理的,要么是自相矛盾的。- 示例 441: “小红在下,我在上,走到四楼的东侧......(题目:异常的空间方位信息是__-,要求识别出“小红在下,我在上”)”
- 示例 442: “灵车缓缓地前进,牵动着千万人的心.....人们多么希望车子能停下来,希望时间能停下来!可是灵车渐渐地靠近了,最后消失在苍茫的夜色中了......(题目:异常的空间方位信息是-,要求识别出“灵车渐渐地靠近并消失在夜色中")”
- 表现不佳: 如果异常空间关系复杂,
ERNIE-4就不容易将其识别出来,尤其是在需要调用推理能力或百科知识判断时。- 示例 478: “经审理查明....小型客车沿本区亭林镇红梓路由东向西行驶至车亭公路路口时,遇绿灯向北实施左转弯途中....(题目:异常的空间方位信息是__,要求识别出“小型客车由东向西行驶至车亭公路路口向北左转弯”)” 该题中,由东向西行驶的车子左转弯是向南而不是向北,这种空间关系需要额外的百科知识或推理来判断,模型在此出现了问题。
- 总结:
ERNIE-4基本可以准确识别相对直观的异常空间关系,但在需要调用推理能力或百科知识判断空间关系是否正常时,模型的表现并不是很好。
6.1.6. 在空间推理题目的表现
空间推理类题目考察模型能否通过简单的推理方式得到正确的实体间空间关系。这类问题中,模型只能在语境里得到条件句命题的前件,后件需要根据实际问题的需要自行推理。
- 表现较差: 即使推理问题不是非常复杂,
ERNIE-4体现出的空间推理能力也相对较弱。- 示例 481: “贺知章、李白、陈子昂、骆宾王、王维、孟浩然六个人在海边沙滩上围成一圈坐着,大家都面朝中心的篝火。六人的位置恰好形成一个正六边形。任意相邻两个人之间的距离相等,大约为一米。已知:陈子昂在骆宾王左边数起第1个位置,孟浩然在陈子昂逆时针方向的第5个位置,王维在孟浩然顺时针方向的第1个位置 (题目:孟浩然在___的斜对面)” 这类推理不仅需要正确获取语境信息,还需要调用必要的百科知识(如对“正六边形”的理解)并进行多步骤推理。空间推理可被视为复杂的角色识别和实体识别问题,这表明模型在处理连续实体识别和复杂空间关系叠加时仍存在问题。
6.1.7. 在同义识别题目的表现
同义识别类题目考察模型对不同空间方位词表达的具体空间关系的认识是否准确。
- 表现较差: 汉语中存在一些空间方位词,它们单独使用时语义不同,但与某些空间实体结合时可以表达相同的空间方向。
- 示例 1157: “傍晚的时候,宋钢将他带回去的钱用一张旧报纸仔细包好了,放在了枕头下面.....。(题目:“回去"替换为_形成的新句可以与原句表达相同的空间场景,要求用"回来"替换“回去”)” 在此例中,“回来”和“回去”在特定语境下可互换而不明显改变空间场景。要正确替换,模型必须理解方位词与关联实体组成的序列语义,而不仅仅是识别方位词关联的实体。
- 总结: 从同义识别题目和实体识别题目的对比表现上看,
ERNIE-4可以比较好地找到方位词和方位词关联的实体,但是在其语义的理解上表现得不够出色,难以处理复杂的“实体 + 方位词”序列语义。
6.2. 在不同任务类型的任务表现
以下是原文 Table 6 的结果,总结了模型在不同任务类别下的表现及其影响因素:
| 任务类别 | 模型表现 | 影响因素 |
| 角色识别 | 好 | 具体实体的具体空间关系不受外界影响,但不容易判断抽象实体(元语言对象)的抽象空间关系 |
| 实体识别 | 较好 | 表示静态的空间关系,基本不受外界影响,但出现与目标实体有领属或广义领属关系的其他实体时容易受干扰 |
| 异常识别 | 较好 | 简单异常空间关系容易识别,但在需要百科知识或推理能力的问题上易受干扰 |
| 同义识别 | 较差 | 表示空间关系的联系,受“实体+方位词”语义的影响 |
| 空间推理 | 差 | 参与空间主体较多,而且需要百科知识和推理能力,易受干扰项影响 |
分析:
这张表清晰地总结了 LLM 在不同空间语义任务上的能力分布。
- 表现较好的任务(角色识别、实体识别、异常识别): 这些任务通常涉及对具体实体的静态或直接的空间关系判断。模型能够较好地从语境中捕获这些信息。然而,一旦引入抽象概念、语境中未出现的实体或需要外部知识的复杂判断,模型的性能就会下降。
- 表现较差的任务(同义识别、空间推理): 这两类任务对模型的深层语义理解、推理能力以及对复杂“实体 + 方位词”序列语义的掌握提出了更高要求。模型在处理这些任务时,由于需要进行更复杂的逻辑判断、知识调用和语义泛化,表现出明显的不足。这表明
LLM在从语言表层特征到深层认知和推理的转化上仍有较大提升空间。
6.3. 消融实验/参数分析
本文主要关注不同 LLM 和提示词策略的效果对比,以及不同 shot 数量对结果的影响。文中并未明确提及消融实验(ablation study),但通过对比 0-shot、1-shot、3-shot 以及不同提示词策略(普通、工作流、思维链)的性能,可以间接看出这些因素对模型表现的贡献。例如,从 0-shot 到 1-shot 的性能提升,表明少量样本对模型理解任务至关重要。而 temperature 参数设置为 0.1,旨在确保模型输出的稳定性和可控性,减少随机性对评测结果的影响。
7. 总结与思考
7.1. 结论总结
本研究作为 CCL24-Eval 任务3的系统报告,深入探讨了大型语言模型在中文空间语义理解方面的能力。通过在实体识别、角色识别、异常识别、信息推理和同义识别五大任务上,采用普通提示、工作流提示和思维链三种提示词策略进行评估,研究团队发现 ERNIE-4 在 1-shot 普通提示下表现最佳,取得了 56.20% 的总体准确率,最终在封闭赛道中排名第六。研究结果表明,LLM 的基座能力对空间语义理解至关重要,少量样本提示能显著提升性能,但提示词策略并非越复杂越好。模型在角色识别等具体空间关系任务上表现较好,但在空间推理和同义识别等需要深层理解和推理的任务上仍存在显著局限。
7.2. 局限性与未来工作
论文作者指出了以下局限性并提出了未来工作方向:
- 提示词处理机制优化: 模型的空间语义理解能力可以进一步通过优化提示词处理机制来提升,或者设计更具结构化和明确性的提示词。这包括探索更高级的
prompt engineering技术,以更好地引导LLM。 - 大模型基座能力提升: 提升
LLM的基座能力是未来发展的关键方向。这包括对模型架构的优化、通过更多数据和先进训练算法提升模型性能。 - 结合外部知识库: 结合外部知识库和信息源,使模型能够在更广泛的知识背景下进行推理和生成,从而提高实际应用效果。
- 交互式决策策略: 结合知识增强方法和交互式决策策略,可以显著提高模型的实际应用效果。
7.3. 个人启发与批判
7.3.1. 个人启发
这篇论文提供了一些有价值的启发:
LLM的中文空间语义潜力与挑战并存: 尽管LLM在通用语言理解方面表现出色,但在中文空间语义这一特定且复杂的领域,仍有显著的提升空间。其在角色识别等直接任务上的高分,与在空间推理、同义识别上的低分形成了鲜明对比,这揭示了LLM从表层语义到深层认知推理的过渡障碍。- 提示词工程的艺术与科学: 论文强调了提示词工程的重要性,但同时也指出了“并非越复杂越好”的结论。这提醒我们在实际应用中,需要根据任务特点,平衡提示词的复杂度和信息量,避免过度设计反而引入噪声。简单而清晰的指令可能比复杂的
CoT更有效,这在资源受限或需要快速部署的场景下尤为重要。 - 基座模型能力的决定性作用:
ERNIE-4和GLM-4等在中文领域深耕的模型表现突出,说明了针对特定语言和领域进行预训练和优化对LLM性能的关键影响。这对于未来开发面向特定语言或专业领域的LLM具有指导意义。 - 多任务评估的必要性: 将空间语义理解分解为实体识别、角色识别、异常识别、信息推理和同义识别等多个子任务进行评估,能够更细致地诊断
LLM的优缺点。这种细粒度的分析方法可以推广到其他LLM评测任务中。
7.3.2. 批判
我认为论文可以在以下方面进行进一步的探讨或改进:
- 思维链(
CoT)策略的深入分析: 论文提到CoT表现不突出,但缺乏对其失败原因的深入分析。CoT在许多推理任务中被证明是有效的,为何在本次空间语义评测中表现平平?是CoT样本构建的问题(例如GPT-4生成的thought过程是否足够通用或高质量),还是空间语义任务本身的特点(例如,某些空间推理是直觉性的,不适合逐步分解),或者是LLM在处理中文空间概念时,对CoT这种结构化思考的吸收不如预期?未来的研究可以进行消融实验,分析CoT中不同元素的贡献,或者比较不同形式CoT的效果。 - 多选题的评估机制: 论文指出多选题的准确率普遍低于单选题,且多选题未能全部答对算 0 分。这种严格的评分标准可能使得多选题的难度被放大。可以探索更细粒度的多选题评分机制,例如部分正确得分(
partial credit),以便更公平地衡量模型的能力,并为模型改进提供更精细的反馈。 - 误差分析的量化与分类: 论文在“模型具体表现”部分提供了定性的误差分析,这对于理解模型的弱点很有帮助。如果能对这些错误进行更系统和量化的分类(例如,统计各类错误所占比例,分析不同模型在不同错误类型上的倾向),将更能指导未来的模型改进和数据集建设。
- 语境长度和复杂度的影响: 论文中不同任务的文本长度和语境复杂度可能存在差异。例如,空间推理任务通常需要处理更长的文本和更复杂的逻辑关系。可以分析语境长度、句子结构复杂性等因素对模型性能的具体影响,从而更好地理解
LLM的长文本处理和复杂语义理解能力。 - 跨语言泛化能力的探讨: 本文聚焦于中文空间语义。未来可以探讨这些发现是否能泛化到其他语言,或不同语言在空间语义表达上的特点如何影响
LLM的表现。例如,将同样的评测框架应用于英文或其他语言的LLM,进行跨语言比较,以揭示LLM空间语义能力的普遍性和语言特异性。
相似论文推荐
基于向量语义检索推荐的相关论文。