BaZi-Based Character Simulation Benchmark: Evaluating AI on Temporal and Persona Reasoning
TL;DR 精炼摘要
本文提出首个基于八字的角色模拟数据集与八字-大语言模型系统,融合符号推理与语言模型,实现时间动态且细粒度的人格生成。相比主流模型准确率提升30%-62%,验证了文化符号与大语言模型结合在虚拟角色模拟中的有效性。
摘要
Human-like virtual characters are crucial for games, storytelling, and virtual reality, yet current methods rely heavily on annotated data or handcrafted persona prompts, making it difficult to scale up and generate realistic, contextually coherent personas. We create the first QA dataset for BaZi-based persona reasoning, where real human experiences categorized into wealth, health, kinship, career, and relationships are represented as life-event questions and answers. Furthermore, we propose the first BaZi-LLM system that integrates symbolic reasoning with large language models to generate temporally dynamic and fine-grained virtual personas. Compared with mainstream LLMs such as DeepSeek-v3 and GPT-5-mini, our method achieves a 30.3%-62.6% accuracy improvement. In addition, when incorrect BaZi information is used, our model's accuracy drops by 20%-45%, showing the potential of culturally grounded symbolic-LLM integration for realistic character simulation.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
BaZi-Based Character Simulation Benchmark: Evaluating AI on Temporal and Persona Reasoning (基于八字的角色模拟基准:评估人工智能在时间性和人格推理方面的能力)
1.2. 作者
Siyuan Zheng, Pai Liu, Xi Chen, Jizheng Dong, Sihan Jia。 作者来自 MirrorAI Co, Ltd.、罗切斯特大学 (University of Rochester)、纽约大学 (New York University)、乔治亚州立大学 (Georgia State University)、安徽朱子学院 (Anhui Zhu Zi College)。
1.3. 发表期刊/会议
该论文作为预印本 (Preprint) 发表在 arXiv。
1.4. 发表年份
2025年。
1.5. 摘要
人类般的虚拟角色在游戏、故事讲述和虚拟现实中至关重要。然而,现有方法严重依赖标注数据或手工制作的人格提示 (persona prompts),这使得它们难以扩展并生成逼真、上下文连贯的人格。本文创建了首个基于八字 (BaZi) 的人格推理问答数据集,其中真实人类经验被归类为财富、健康、亲属关系、职业和人际关系等生活事件问题和答案。此外,本文提出了首个 BaZi-LLM (八字-大语言模型) 系统,该系统将符号推理 (symbolic reasoning) 与大语言模型 (large language models) 相结合,以生成时间动态且细粒度的虚拟人格。与主流大语言模型(如 DeepSeek-v3 和 GPT-5-mini)相比,本文方法实现了 30.3%-62.6% 的准确率提升。此外,当使用不正确的八字信息时,模型准确率下降了 20%-45%,这表明了文化背景下的符号-大语言模型集成在现实角色模拟方面的潜力。
1.6. 原文链接
https://arxiv.org/abs/2510.23337 PDF链接: https://arxiv.org/pdf/2510.23337v1.pdf 发布状态: 预印本,发布于 UTC 时间 2025-10-27T13:51:13.000Z。
2. 整体概括
2.1. 研究背景与动机
论文试图解决的核心问题: 当前的虚拟角色模拟方法在游戏、故事讲述和互动媒体中存在局限性,主要表现为:
- 依赖标注数据或手工提示: 传统方法(如对话树、有限状态机、行为树)昂贵、脆弱,且难以在狭窄场景之外扩展,容易产生模板化、缺乏长期一致性的人格 (personas)。
- 难以扩展与生成逼真、上下文连贯的人格: 即使是基于大语言模型 (LLMs) 的方法,也受限于详细人格提示的长度约束和特定角色微调 (finetuning) 的扩展性问题,难以捕捉人类的复杂性。
为什么这个问题在当前领域是重要的? 逼真且具有长期一致性行为的虚拟角色对于提升沉浸式游戏体验、丰富故事叙述和增强虚拟现实互动至关重要。它们能使虚拟世界更具生命力,让用户产生更深的情感连接。
现有研究存在的具体挑战或空白:
- 传统方法: 成本高、缺乏灵活性、人格模板化、长期一致性差。
- LLM 方法: 详细人格提示难以捕捉人类复杂性且受长度限制;特定角色微调难以扩展到多样化人格。
- 缺乏文化背景与时间动态性: 现有方法通常缺乏对文化特定人格构建方式的利用,也难以自然地生成随时间演变的角色动态。
这篇论文的切入点或创新思路: 论文提出利用八字 (BaZi,即“四柱命理”) 作为一种具有文化背景 (culturally grounded)、时间结构化 (temporally structured) 的人格表示方法。八字系统将出生时间编码为符号特征,并提供了人格特质与环境互动之间的映射关系,同时通过流年 (Flowing Years) 等概念提供了时间动态性。作者将八字重新解释为一个条件特征生成模型 (conditional feature-generation model),旨在以可解释、概率化的方式生成细粒度、时间动态的人格,而非进行形而上学的预测。
2.2. 核心贡献/主要发现
论文的主要贡献如下:
- 重新诠释八字: 将八字作为一种具有文化背景的表征系统,用于人物模拟,实现细粒度和时间动态的角色建模。
- 创建首个八字问答数据集: 提出
Celebrity 50数据集,用于基于八字的人格推理,首次实现了对八字推理的系统化和定量评估。该数据集包含 50 位名人的真实生活事件问答,涵盖财富、健康、亲属关系、职业和人际关系五大领域。 - 提出首个 BaZi-LLM 系统: 该系统将符号推理与大语言模型相结合,用于文化背景下的角色模拟。
- 显著的性能提升: 在
Celebrity 50基准测试中,本文提出的 BaZi 增强模型比主流大语言模型(DeepSeek-v3 和 GPT-5-mini)实现了 30.3% 至 62.6% 的准确率提升。 - 验证八字信息的重要性: 当使用不正确的八字信息(打乱生日)时,模型准确率下降了 20%-45%,这证明了真实的八字信息对于模型有效推理的重要性,并凸显了文化背景下的符号-大语言模型集成在现实角色模拟方面的潜力。
3. 预备知识与相关工作
3.1. 基础概念
- 八字 (BaZi,Four Pillars of Destiny): 这是一种源自中国传统的命理学系统,又称“四柱命理”。它根据一个人的出生年、月、日、时(即“四柱”)来推算其一生的命运、性格和运势。每“一柱”由一个天干 (Heavenly Stem) 和一个地支 (Earthly Branch) 组成,共八个字。这些天干地支又与五行(木、火、土、金、水)以及阴阳属性相关联,通过五行生克制化的关系来分析一个人的性格特质、健康状况、财富、职业、亲属关系和人际关系等。在本文中,八字被重新诠释为一个条件特征生成模型 (conditional feature-generation model),它将出生时间离散化为与个人特质和时间动态相关的符号属性,从而为角色模拟提供细粒度的、可解释的动态输入,而并非进行形而上学的预测。
- 大语言模型 (LLMs, Large Language Models): 指的是参数量巨大、在海量文本数据上进行预训练 (pre-training) 的深度学习模型。它们能够理解和生成人类语言,并在各种自然语言处理任务中表现出强大的能力,如问答、文本生成、翻译等。在虚拟角色模拟中,LLMs 被用于生成对话、遵循提示 (prompt-following) 和模拟代理 (generative agents) 行为。
- 人格推理 (Persona Reasoning): 指的是根据给定的人物信息(如背景、性格特点、行为模式等)来推断其在特定情境下的行为、反应或生活事件的能力。在虚拟角色模拟中,人格推理的目标是生成逼真、一致且具有时间动态性的虚拟角色行为。
- 符号推理 (Symbolic Reasoning): 指的是基于符号表示和逻辑规则进行推理的能力。与基于统计模式识别的神经网络模型不同,符号推理侧重于显式地表示知识和规则,并通过逻辑操作来推导结论。在本文中,八字系统被视为一个符号推理系统,其将出生信息转换为结构化的符号特征,并依据八字理论中的规则进行解释。
3.2. 前人工作
论文在 相关工作 (Related Work) 部分从三个主要方面回顾了现有研究:
-
AI驱动的NPC开发 (AI-Driven NPC Development in Games):
- 传统方法: 早期非玩家角色 (NPC) 的行为开发主要依赖于对话树 (dialogue trees)、有限状态机 (finite-state machines) 和行为树 (behavior trees)。这些方法虽然能够实现特定行为,但成本高昂、在复杂场景下脆弱,且易导致模板化、缺乏长期一致性的人格。
- 深度学习与强化学习: Karaca 等人 (2023) 综述了 AI 驱动的程序内容生成如何通过强化学习和神经网络增强 NPC 行为。Zeng (2023) 总结了创建类人 NPC 行为的挑战,并将 AI 技术分为规划、用户交互、位置修改、参数修改、角色状态修改和目标分配策略。Kopel 等人 (2018) 实验性地实现了决策树、遗传算法和 Q-learning 等 AI 技术在 3D 游戏 NPC 中的应用。Mehta (2025) 探讨了 AI 在游戏开发和玩家体验中的作用,包括动态难度调整、程序内容生成和自适应 NPC 系统。Armanto 等人 (2024) 系统分析了进化算法在 NPC 行为优化中的应用。
- 计算语言学与LLM: Filipovi (2023) 探讨了计算语言学在游戏 AI 中的应用,特别是在自然语言处理 (NLP) 如何实现更复杂的对话系统。随着大语言模型 (LLMs) 的兴起,它们被用于生成 NPC 对话,但仍面临保持角色一致性和计算复杂性的挑战。Park 等人 (2023) 和 Wang 等人 (2023) 展示了基于 LLM 的生成式智能体 (generative agents) 和多智能体模拟。
-
交互式叙事与计算叙事 (Interactive Storytelling and Computational Narratives):
- 早期工作: Szilas (2007) 奠定了交互式叙事的基础,提出了基于规则的系统,通过计算模拟叙事法则来动态维护故事情节。
- 现代研究: Begu (2024) 比较了人类创作和 AI 生成的故事,发现 LLMs 在结构连贯性方面表现良好,但在情感真实性和心理复杂性方面存在不足。Kybartas 和 Bidarra (2023) 综述了计算和涌现式数字叙事,分析了自底向上 (bottom-up) 的涌现叙事和自顶向下 (top-down) 的戏剧管理器 (drama manager) 方法。Gerba (2025) 提出了用于计算叙事的通用叙事模型,旨在平衡叙事连贯性与用户自由度。Cavazza 等人 (2003) 研究了 AI 系统如何理解和响应故事,探索了 AI 形式化与叙事分析之间的联系。Kabashkin 等人 (2025) 探讨了 LLMs 如何再现原型叙事模式,发现 AI 擅长结构化、目标导向的叙事,但在心理复杂和模糊故事上表现不佳。
-
中国传统玄学与八字理论 (Traditional Chinese Metaphysics and Bazi Theory):
- 学术研究现状: 论文指出,对中国传统占卜系统(特别是八字)的学术研究虽然有限,但正在增长,主要集中在汉学和人类学研究领域。
- 历史与文化背景: Pankenier (2023) 研究了中国隋唐时期的宫廷占星术。Mak (2017) 深入分析了西方星象学如何传入中国。Academia Contributors (2013) 探讨了中国占星术与中医之间的关系,说明了“八字”系统如何与中医框架内的健康评估和性格刻画相关联。
- 空白: 论文强调,该领域缺乏对八字认识论基础和当代应用的全面同行评审分析。
3.3. 技术演进
虚拟角色模拟的技术演进可以概括为从基于规则和脚本的传统方法向基于数据和模型驱动的现代方法的转变,并在此基础上融合符号知识。
- 早期阶段 (基于规则/脚本): 从对话树、有限状态机、行为树等,这些方法依靠人工编写规则和脚本来定义 NPC 的行为。优点是可控性强、计算成本低;缺点是耗时、难以扩展、行为僵化、缺乏个性化和长期一致性。
- 中期阶段 (基于数据/机器学习): 随着机器学习和深度学习的发展,AI 技术被引入到 NPC 开发中,例如利用强化学习让 NPC 学习更复杂的行为,或通过程序生成内容。这提高了 NPC 的适应性和多样性。
- 近期阶段 (基于大语言模型): 大语言模型 (LLMs) 的出现极大地推动了虚拟角色的发展,使得生成高质量的对话、遵循复杂指令成为可能。LLMs 能够创建更具“智能”和“理解力”的代理 (agents),如生成式智能体 (generative agents) 和多智能体模拟。然而,它们仍然面临着如何在有限提示长度内捕捉人类复杂性、保持长期一致性以及对多样化人格进行高效微调的挑战。
- 本文工作 (LLM+符号推理+文化背景): 本文的工作代表了技术演进的下一步,即在 LLM 的强大生成能力基础上,引入具有文化背景的符号推理系统(八字)。这种方法旨在:
- 克服纯 LLM 方法在细粒度、时间动态和文化特定人格生成方面的不足。
- 通过结构化的符号特征,为 LLM 提供更深层次、更具解释性的输入,从而生成更真实、更连贯的虚拟角色。
- 将八字系统从形而上学领域“重新诠释”为一种功能性的“条件特征生成模型”,为 AI 角色模拟提供了一种全新的、富有洞察力的视角。
3.4. 差异化分析
本文方法与相关工作中的主要方法相比,核心区别和创新点在于:
-
与传统 NPC 方法 (对话树、行为树) 的区别:
- 核心: 传统方法是静态、预定义的,行为模式受限且难以扩展。本文方法是动态、生成式的,能够产生细粒度、时间动态且上下文感知的角色行为。
- 复杂性: 传统方法无法捕捉人类行为的复杂性。本文方法通过八字符号特征和 LLM 的结合,尝试模拟更深层的人格特质和时间演变。
-
与纯 LLM-based NPC 方法 (如生成式智能体) 的区别:
- 提示工程: 纯 LLM 方法依赖于详细的文本提示来定义角色,但这受限于提示长度,且难以在有限的描述中全面捕捉人类的复杂性。本文方法将八字作为一种结构化的、符号化的输入,而非单纯的自然语言描述,通过编码出生信息生成“动态人格提示”,从而提供更丰富、更具维度的人格信息,且可能更高效。
- 时间动态性: 纯 LLM 在生成长期、时间动态的角色行为方面可能面临挑战,其记忆和一致性维持是难点。八字系统天然包含“流年 (Flowing Years)”等时间动态概念,本文方法利用这一点,使得生成的人物角色能够展示更强的时间动态性 (temporal dynamics)和长期一致性 (long-horizon consistency)。
- 文化背景: 本文方法引入了文化背景 (culturally grounded) 的八字系统,这为角色模拟增加了独特的深度和真实感,是现有通用 LLM 方法所不具备的。它将抽象的“人格”概念具象化为一套符号系统,并通过 LLM 进行解释。
-
与特定角色微调 (finetuning) 方法的区别:
- 扩展性: 特定角色微调需要大量标注数据,且难以扩展到多样化的角色。本文方法通过八字系统,仅需极少的输入(出生日期、性别、地点)即可生成多样化的人格提示,具有更好的可扩展性 (scalability)。
- 成本: 微调 LLM 通常计算成本高昂。本文方法通过符号推理生成提示,可能降低了对大量微调数据的依赖。
-
创新点总结: 本文的创新在于将一种古老的、具有文化深度的符号系统 (八字) 转化为一种现代的、可计算的特征生成机制,并将其与最先进的大语言模型相结合,从而在最小化输入、最大化输出维度和动态性的前提下,实现了对虚拟角色更细粒度、时间动态且文化背景下的人格模拟。
4. 方法论
4.1. 方法原理
本文提出的 BaZi-LLM 模型的核心思想是:将个体的出生信息(出生日期、时间、性别和地点)通过一套基于八字理论的符号规则映射系统,转化为结构化、可解释的人格特征和动态状态。这些符号特征随后通过经典逻辑进行解释,并与特定场景(财富、健康、亲属、职业、人际关系)结合,最终生成动态人格提示。这些提示被输入到大语言模型中,以模拟逼真、上下文敏感且具有时间动态性的虚拟角色行为和响应。该方法将八字视为一个条件特征生成模型 (conditional feature-generation model),而非传统的形而上学预测工具。
4.2. 核心方法详解
本文模型由四个主要组件组成,通过一个 BaZi-LLM 提示工作流 (prompt workflow) 将出生相关信息转换为细粒度的人格特质和日常互动动态状态。下图(原文 Figure 4)展示了其整体架构:
该图像是一张示意图,展示了BaZi提示工作流程的四个主要组成部分:出生信息输入、BaZi规则分析、BaZi推理模块及场景模块,并说明其通过多维度(财富、职业、亲情、健康)进行多样化交互,生成细粒度的角色特征。
4.2.1. 输入层 (Input Layer)
这是模型的起点,其设计理念是最小化输入,最大化输出 (Minimal Input, Rich Output)。模型只需要以下三个基本信息:
- 出生日期和时间 (birth date and time):精确到年、月、日、时。
- 性别 (gender):男性或女性。
- 出生地点 (place of birth):用于确定当地时间,进而校准真太阳时,这是八字排盘的必要步骤。
4.2.2. 八字规则映射 (BaZi Rule Mapping)
这是模型的第一阶段,一个基于八字理论的规则引擎 (rule-based engine)。其目的是将上述最小输入转化为结构化的八字图 (BaZi chart)。
- 八字图生成: 将出生年、月、日、时转换为“四柱”中的“八字”(即四个天干和四个地支)。
- 符号元素关联: 每个符号元素(天干、地支)进一步与以下属性关联:
- 人格特征 (Personality features): 这些特征来源于五行(木、火、土、金、水)的平衡及其对应的角色。例如,五行中某种元素的旺衰可能对应某种性格倾向。
- 日常动态状态 (Daily dynamic states): 提取与健康、职业、财富和亲属关系相关的特定时间特征。这可能涉及大运 (Luck Pillars)、流年 (Flowing Years) 等时间维度上的变化。
- 特点: 这一阶段的符号映射确保了生成的特征是可解释的、结构化的,并具有时间性。
4.2.3. 通过经典逻辑进行解释 (Interpretation via Classical Logic)
八字图提供了原始的符号特征,但有效的人格构建需要进一步的解释性推理。本阶段设计了一个粗粒度的解释机制,灵感来源于经典的八字分析方法,其中包括:
- 十神 (Ten Gods, +*/%): 这些是符号化的角色,代表了日主 (day master,即出生日的干支) 与其他干支之间的关系。它们揭示了人际关系、性格倾向和六亲(亲属)关系等方面的信息。例如,“正官”可能代表循规蹈矩、责任感,而“食神”可能代表才华、享受。
- 神煞 (ShenSha, #): 这些是辅助性的符号标记,与特定的生命趋势或外部影响相关联。例如,“天乙贵人”可能代表贵人相助,“驿马”可能代表奔波劳碌。
- 格局 (Pattern Structures, ()): 这些是更高级别的符号组合,反映了更广泛的人格倾向和命运走向。例如,“正官格”可能预示着事业稳定、社会地位,而“食神生财格”可能预示着通过才华获得财富。
- 特点: 解释过程遵循八字命理的逻辑,但不是提供确定性的结果,而是产生条件性的解释特征 (conditional interpretive features),作为下游情景推理的基础。
4.2.4. 面向场景的分析 (Scenario-Oriented Analysis)
为了增强细粒度,本阶段将八字派生的解释特征与特定场景模块 (scenario-specific modules) 相结合。这些模块将符号特征情境化到五个主要领域:
- 健康 (Health)
- 职业 (Career)
- 财富 (Wealth)
- 人际关系 (Relationship)
- 亲属关系 (Kinship)
- 特点: 这一阶段实现了自适应的人格建模。例如,一个表示“事业心强”的特征,在外部情景涉及人际冲突时可能表现不同,而在涉及财务机会时又可能表现不同。
4.2.5. 动态人格提示生成 (Dynamic Persona Prompt Generation)
最后,将所有解释后的特征整合为动态提示 (dynamic prompts),以模拟个体随时间变化的行为和响应。
- 内容: 这些提示既包含长期的稳定特质 (long-term stable traits),也包含短期的时间变化 (short-term temporal variations)。
- 输出: 生成一个时间序列化 (time-sequenced) 和环境感知 (environment-aware) 的角色画像。
- 目的: 这些提示作为生成逼真、上下文敏感的角色模拟的基础。
4.2.6. 方法创新点 (Methodological Innovations)
本文方法引入了三个关键的创新点:
- 最小输入,丰富输出 (Minimal Input, Rich Output): 模型仅需要出生信息(日期/时间、性别、出生地点),却能生成时间动态且领域特定的人格提示。
- 符号-逻辑集成 (Symbolic-Logical Integration): 通过结合基于规则的八字映射和解释性逻辑(十神、神煞、格局),模型生成具有明确可解释性的结构化符号特征。
- 场景适应性 (Scenario Adaptivity): 人格表示不是固定的;它们会动态适应健康、职业、财富、人际关系和亲属关系等上下文,从而实现生动、随时间演变的角色模拟。
5. 实验设置
5.1. 数据集
本文创建了名为 Celebrity 50 的多语言问答数据集,旨在评估大语言模型 (LLMs) 预测关键生活事件的能力。
-
数据来源与选择标准:
- 来源: 通过
astro.com收集和验证了 50 位现代名人的传记记录。 - 筛选标准:
- 必须是成年人,拥有足够丰富的生活经验。
- 排除偶像人物以保护隐私。
- 所有人物必须出生在北半球。
- 集中选择出生在 1940 年左右的人物,以确保有足够丰富的历史数据。
- 多样性: 选取的 50 位知名人物来自 29 个国家,确保了数据的多样性。
- 来源: 通过
-
数据统计:
- 个体数量: 50 人。
- 国家数量: 29 个。
- 问答对总数: 488 对(平均每人约 9.76 个问题)。
- 性别分布: 37 名男性,13 名女性,确保了人口统计学上的多样性。
- 生活事件类别: 每个角色关联 45 个问答对,涵盖财富、健康、亲属关系、职业和人际关系五大关键生活维度。
-
构建过程:
- 获取出生时间数据: 首先获取精确的出生时间数据。
- 传记叙事检索: 使用 Qwen API 提示模型,从其网络搜索和内部知识库中检索五个维度(财富、健康、亲属关系、职业、人际关系)的传记叙事。
- 多项选择题生成: 相同的 LLM 基于这些整理好的信息生成多项选择题。
- 数据整合: 一个脚本提取并将问题与出生数据合成为目标 JSON 格式。
- 人工干预: 作者负责整个过程,包括数据清洗、筛选和结构化。
-
清洗和质量保证:
- 初始筛选: 对 LLM 生成的问题进行自动化精炼和手动验证。
- 评分系统: 建立了基于三个标准的淘汰系统:
- 包含真实专有名词(人名、组织、团队等)的问题。
- 要求过于具体的数值细节(例如,精确财富金额)的问题,这些细节通常无法通过八字分析合理预测。
- 超出传统八字分析合理预测能力的问题。
- 迭代精炼: 不满意的问题会被分组,并通过修改提示,由 LLM 自身进行迭代精炼。被淘汰的问题会用新提示生成的新问题替换。
- 最终验证: 所有剩余问题都经过人工验证,以确保严谨性和符合准则。
-
标注过程:
- 制定了全面的标注指南。
- 核心要求是所有生成的问题必须事实准确,并严格符合根据传记材料设定的五个预定义生活维度之一。
-
任务定义:
-
模型输入: 个体的出生时间、性别、出生地点,以及多项选择题(如下图原文 Figure 2)。
-
目标输出: 正确的答案选项,这需要根据提供的上下文应用命理分析原则。
以下是原文 Figure 2 展示的输入示例:
该图像是一个示意图,展示了输入给大语言模型(LLM)的示例信息,包括出生时间、性别、出生地及关于人物可能职业的多项选择问题。
-
以下是原文 Figure 3 展示的问题和出生地计数分布图:
该图像是柱状图,展示了不同国家的出生地和问题数量分布情况。图中橙色柱代表问题数,蓝色柱代表出生地数,美国、英国和俄罗斯的问题数量较多,而大部分国家的出生地数量较少,分布不均。
5.2. 评估指标
本文采用准确率 (Accuracy) 作为主要评估指标。
- 概念定义 (Conceptual Definition): 准确率衡量的是模型在所有预测中正确预测的比例。在问答或分类任务中,它表示模型正确回答问题或正确分类样本的数量占总问题或总样本数量的百分比。准确率是衡量模型整体性能最直接和通用的指标之一,特别适用于类别平衡的数据集。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 模型在给定任务中做出正确预测的数量。
- : 模型在给定任务中做出预测的总数量。
5.3. 对比基线
为了系统地评估性能,本文设计了三种实验设置,并与主流大语言模型进行比较。
-
主流大语言模型 (Mainstream LLMs):
- Gemini-2.5-Flash
- DeepSeek-v3
- GPT-5-Mini
-
实验设置:
- Vanilla LLM + Bazi (Baseline):
- 描述: 标准的大语言模型被提供八字派生的特征作为输入,但模型本身没有额外的推理模块来理解或利用这些八字规则。这代表了 LLM 仅将八字特征作为普通文本或向量输入处理的情况。
- Vanilla LLM + Bazi Rule Knowledge (带有八字规则知识的基线LLM):
- 描述: 在提供八字特征的基础上,这些模型还被明确地提供了八字符号知识规则(例如,通过在提示中注入八字理论的解释或规则集)。这旨在评估 LLM 在接收到显式符号知识后的性能。
- Our Model (本文模型):
- 描述: 一个多智能体架构,它将符号推理(即八字规则分析、经典逻辑解释、场景导向分析等)与大语言模型推理相结合,以实现基于八字的字符模拟。这是本文提出的完整系统。
- Vanilla LLM + Bazi (Baseline):
-
打乱生日对照实验 (Shuffled Birthday Control):
- 目的: 为了验证出生日期与传记事件之间真实时间对齐的重要性,以及八字推理的有效性。
- 设置: 在此条件下,每个受试者的真实出生日期被替换为另一个人的出生日期,而所有其他信息保持不变。
- 预期结果: 如果八字推理确实有意义,那么当传记与真实出生时间之间的映射被打破时,模型的性能应该显著下降。
-
全球算命师锦标赛问题集 (The 15th Global Fortune-Teller Championship 2024):
- 目的: 额外评估模型在专业命理问题上的能力。
- 设置: 使用该比赛的问题集来测试本文模型。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 本文模型与基线 LLM 的性能对比 (Table 1 分析)
以下是原文 Table 1 的结果:
| Setting | Model | Acc. (%) |
| Vanilla LLM w/ Bazi (Baseline) | Deepseek-v3 | 39.3 |
| Gemini-2.5-flash | 42.2 | |
| GPT-5-mini | 34.0 | |
| Baseline w/ Bazi Rule Knowledge | Deepseek-v3 | 35.9 (↓8.7%) |
| Gemini-2.5-flash | 42.4 (↓4.1%) | |
| GPT-5-mini | 36.9 (↑8.5%) | |
| Our Model | Deepseek-v3 | 51.2 (↑30.3%) |
| Gemini-2.5-flash | 47.1 (↑6.6%) | |
| GPT-5-mini | 55.3 (↑62.6%) |
分析:
- Vanilla LLM w/ Bazi (Baseline): 在仅提供八字特征作为输入的情况下,主流 LLM 的准确率在 34.0% (GPT-5-mini) 到 42.2% (Gemini-2.5-flash) 之间。这表明 LLM 即使在没有显式八字规则知识的情况下,也能从八字特征中提取一定信息,但效果有限。
- Baseline w/ Bazi Rule Knowledge: 当 LLM 被提供显式八字规则知识时,DeepSeek-v3 和 Gemini-2.5-flash 的性能反而有所下降(分别为 8.7% 和 4.1%)。这可能表明,单纯地将规则知识作为文本提示注入 LLM 并不总是有效的,LLM 可能难以有效地整合和利用这些结构化的符号知识,甚至可能造成信息过载或干扰其自身的推理能力。然而,GPT-5-mini 的准确率略有提升(8.5%),显示不同 LLM 在处理显式规则知识方面的差异。
- Our Model (本文模型): 本文提出的 BaZi-LLM 系统显著优于所有基线模型。
- DeepSeek-v3 准确率从 39.3% 提升到 51.2%,相对提升 30.3%。
- Gemini-2.5-flash 准确率从 42.2% 提升到 47.1%,相对提升 6.6%。
- GPT-5-mini 准确率从 34.0% 提升到 55.3%,相对提升 62.6%。 这证实了本文方法通过多智能体架构有效集成符号推理和 LLM 推理的优势,尤其在对 GPT-5-mini 的提升上表现最为突出,表明其能更好地利用 BaZi 理论进行人物模拟。
6.1.2. 打乱生日对模型性能的影响 (Table 2 和 Table 3 分析)
以下是原文 Table 2 的结果:
| Setting | Model | Acc. (%) |
| Real Birthdays | DeepSeek-V3 Gemini-2.5-flash GPT-5-mini | 51.2 47.1 55.3 |
| Shuffled Birthdays | DeepSeek-v3 Gemini-2.5-flash GPT-5-mini | 40.6 (↓20.7%) 35.5 (↓24.6%) 30.0 (↓45.7%) |
以下是原文 Table 3 的结果:
| Setting | Model | Acc. (%) |
| Vanilla LLM + Bazi | DeepSeek-V3 | 39.3 |
| Gemini-2.5-flash | 42.2 | |
| GPT-5-mini | 34.0 | |
| / + Shuffled Birthday | DeepSeek-V3 | 42.5(↑8.1%) |
| Gemini-2.5-flash | 42.1(↓0.2%) | |
| GPT-5-mini | 34.8 (↑2.4%) |
分析:
- 本文模型在打乱生日条件下的表现 (Table 2): 当输入八字信息与真实传记不匹配时(
Shuffled Birthdays),本文模型的准确率显著下降:DeepSeek-v3 下降 20.7%,Gemini-2.5-flash 下降 24.6%,GPT-5-mini 更是大幅下降 45.7%。这强有力地证明了真实的出生信息(八字)与传记之间的时序对齐对于本文模型进行有效推理至关重要。这种性能的急剧下降表明模型确实在利用八字理论进行深度推理,而不是依赖表面相关性。 - Vanilla LLM 在打乱生日条件下的表现 (Table 3): 对于
Vanilla LLM + Bazi基线模型,当生日被打乱时,其性能相对稳定,甚至在 DeepSeek-v3 和 GPT-5-mini 上略有提升。Gemini-2.5-flash 的性能仅略微下降 0.2%。这表明,未经明确符号集成和推理的 LLM 难以有效地利用八字特征。它们的推理可能主要依赖于其他隐含的知识或偏见,而不是八字信息本身。 - 对比总结: 本文模型的性能在真实生日条件下远超基线 LLM,但在打乱生日条件下大幅下降,而基线 LLM 则相对稳定。这种对比鲜明地表明,本文模型真正地利用了八字理论进行推理,而不是简单地将八字特征作为额外输入。
6.1.3. 全球算命师锦标赛问题集表现
本文模型在使用 DeepSeek-R1 生成八字知识并使用 Doubao-1.5-ThinkingPro 进行推理时,在 The 15th Global Fortune-Teller Championship 2024 的问题集上取得了 60% 的准确率,与当年比赛的第三名成绩持平。这进一步验证了模型的实际推理能力,并表明其性能仍有提升空间,尤其是在结合更强大的推理引擎时。
6.2. 数据呈现 (表格)
本节已在 6.1.1. 本文模型与基线 LLM 的性能对比 和 6.1.2. 打乱生日对模型性能的影响 小节中转录了原文的 Table 1, Table 2 和 Table 3。
6.3. 消融实验/参数分析
本文没有进行严格意义上的“消融实验”来逐一移除模型组件。然而,实验设置中的三种对比条件,即 Vanilla LLM w/ Bazi、Vanilla LLM w/ Bazi Rule Knowledge 和 Our Model,在一定程度上起到了类似消融实验的作用,它们展示了符号推理模块对模型性能的增量贡献。
Vanilla LLM w/ Bazivs.Our Model: 这种对比可以看作是“是否有完整的符号推理架构”的消融。结果显示,完整的符号推理架构带来了显著的性能提升,表明八字规则分析、经典逻辑解释和场景导向分析等组件是有效的。Vanilla LLM w/ Bazi (Baseline)vs.Baseline w/ Bazi Rule Knowledge: 这种对比可以看作是“仅仅提供显式规则知识”的效果。结果显示,对于大部分模型而言,仅仅将规则作为文本提示注入效果不佳,甚至可能产生负面影响,这间接证明了本文多智能体架构中结构化集成符号知识的重要性,而非简单的知识注入。Shuffled Birthday Control(打乱生日对照实验): 这一实验并非传统的消融实验,但它通过破坏输入数据的真实性来验证模型对八字信息的依赖程度。结果的显著下降强有力地证明了八字作为核心时间信息源的有效性,如果八字信息是无关紧要的,那么打乱生日不应导致性能大幅下降。这从另一个角度确认了整个 BaZi-LLM 框架的有效性依赖于其对八字符号信息的正确解读和利用。
6.4. 案例分析 (Case Study)
论文对 DeepSeek-V3、GPT-5-mini 和 Gemini-2.5-flash 在自定义八字分析框架内使用真实咨询案例 (sergey_brin_P042) 进行了比较分析,揭示了它们在解释、推理和输出风格上的关键差异。
6.4.1. 八字理论解释的差异
- 格局分类: DeepSeek-V3 和 Gemini-2.5-flash 都将命盘归类为
伤官格 (Shangguan Structural Pattern),而 GPT-5-mini 则识别为从儿格 (Cong Er Structural Pattern)。 - 影响: 这种分歧导致了对喜用神 (favorable/unfavorable elements) 和未来运势方向的相反结论。
- 模型特点: GPT-5-mini 展现出更灵活和大胆的解释逻辑,而 DeepSeek-V3 和 Gemini-2.5-flash 则更保守,遵循规则。这表明在八字理论的深层解释上,不同 LLM 仍有不同的侧重和“经验”。
6.4.2. 场景映射过程的差异
- DeepSeek-V3: 主要遵循“特征到预测 (feature-to-prediction)”模式,显得较为僵化,更容易受到局部信息偏差的影响。
- Gemini-2.5-flash: 整合了命盘的多个维度特征,形成整体分析,更具综合性。
- GPT-5-mini: 表现出最接近人类咨询师的行为,能够根据用户的当前生活情境调整推理,并动态探索替代场景,展现出更强的适应性。
6.4.3. 输出表达的差异
- DeepSeek-V3: 倾向于将八字特征直接映射到现实世界表现,使用绝对化的陈述。虽然在预测准确时显得直接,但在预测失败时可能失去用户信任。
- Gemini-2.5-flash 和 GPT-5-mini: 采用更具概率性的语言(如“可能”、“很可能”),并呈现多种潜在结果,输出风格更显细致和人性化。
6.4.4. 共同点
- 推理路径收敛: 在提供相同的上游结果时,所有三个模型的后续推理路径趋于一致,未观察到严重的错误。
- 基础知识: 所有模型都具备足够的基础八字知识,可用于一般性咨询。
- 缺乏自我反思: 目前所有模型在此分析框架内均未表现出强大的反思或自我纠正机制。
6.4.5. 总体评估
- 理论推理阶段: Gemini-2.5-flash 提供最稳定和保守的判断,对局部噪音具有韧性。GPT-5-mini 倾向于更积极和探索性的解释。DeepSeek-V3 保持僵化和确定性。
- 最终输出阶段: GPT-5-mini 表现最佳,其解释最接近人类咨询师的风格。
7. 总结与思考
7.1. 结论总结
本文首次提出了一个基于八字 (BaZi) 的人物模拟基准,并开发了首个 BaZi-LLM 系统。通过将八字这一具有文化背景的符号推理系统与大语言模型 (LLMs) 相结合,该方法成功实现了细粒度、时间动态的虚拟角色模拟。在 Celebrity 50 基准测试上的实验结果表明,本文方法比主流 LLMs 取得了显著的准确率提升(30.3% 至 62.6%)。打乱生日的对照实验进一步证明了模型对真实八字信息和时间对齐的依赖性,凸显了文化背景下的符号-LLM 集成在现实人物建模方面的巨大潜力。
7.2. 局限性与未来工作
论文作者指出的局限性:
- 数据生成偏见:
Celebrity 50数据集中的许多叙事和问题是由 Qwen 等 LLM 生成的,这可能引入幻觉、偏见和事实错误。 - 数据集规模与不平衡: 数据集规模较小(50 位个体,488 个问题),且性别不平衡(37 名男性,13 名女性),限制了结果的泛化能力。
- 出生数据准确性: 尽管出生细节来源于
astro.com,但仍可能存在不准确之处。 - 文化与时间偏见: 数据集主要关注 1940 年左右出生的西方人物,这引入了时间与文化偏见,可能无法推广到其他时代或文化背景。
论文作者提出的未来研究方向:
- 模型改进:
- 整合特定领域的知识库或针对特定八字流派(如专业格局分类)进行训练。
- 实现基于智能体 (agent-based) 的机制,使其能够动态选择中间输出、反思用户反馈并相应调整推理路径。
- 数据集改进:
- 收集来自不同国家的、具有更精确出生时间的数据样本。
7.3. 个人启发与批判
个人启发:
- 跨领域知识融合的潜力: 这篇论文提供了一个非常有趣的范例,展示了如何将一个古老的、具有深厚文化背景的符号系统(八字)与前沿的 AI 技术(大语言模型)结合起来。它启发我们,在 AI 领域,不仅仅局限于传统的数学和计算机科学理论,还可以从人类社会学、文化、历史乃至哲学中汲取灵感,寻找结构化知识的表示方法,从而解决复杂问题。这种将“人文”与“科技”结合的尝试,为未来 AI 发展开辟了新的思路,尤其是在需要模拟人类复杂行为和情感的场景。
- 符号推理与神经网络的有效结合: 论文通过一个明确的 BaZi-LLM 架构,有效地将符号推理的结构性、可解释性与 LLM 的生成能力、泛化能力结合起来。这克服了纯粹基于神经网络模型在可解释性、长期一致性和特定领域知识利用方面的不足,也弥补了纯符号系统在灵活性和泛化方面的缺陷。这种混合 AI (hybrid AI) 方法有望在更多领域(如法律、医学、教育)中发挥作用,尤其是在需要结合领域专家知识和通用推理能力的场景。
- 动态性与细粒度的人物模拟: 强调“时间动态性”和“细粒度”是人物模拟的关键突破点。通过八字中的流年、大运等概念,模型能够自然地融入时间维度上的变化,使得虚拟角色不再是静态的“人格标签”,而是能够随时间演变、适应环境的“生命体”,这对于创建更具沉浸感的虚拟世界至关重要。
批判:
- “非形而上学”的界定与潜在争议: 论文虽然声明将八字重新解释为“条件特征生成模型”,且“不作形而上学主张”,但其核心逻辑依然来源于一个传统上被视为“占卜”或“玄学”的系统。这可能在学术界引发关于研究严谨性和科学性的争议。尽管作者试图通过实证数据来验证其有效性,但八字理论本身的“可解释性”在科学框架下如何严格定义和验证,仍是一个挑战。如何确保这种“文化背景”不引入额外的、难以控制的偏见,也是一个重要问题。
- 数据集的局限性对泛化能力的影响: 论文承认了数据集的局限性,包括规模小、由 LLM 生成导致潜在偏见和错误、性别不平衡以及文化和时间偏见(主要为 1940 年左右的西方名人)。这些局限性严重影响了模型结果的泛化能力。在如此有限且有偏见的数据集上取得的性能提升,可能无法直接推广到更广泛、更多样化的虚拟角色模拟场景中。未来需要构建更大规模、更高质量、更多元文化的八字-生活事件数据集。
- 八字规则映射和经典逻辑解释的透明度: 尽管论文提到了“八字规则映射”和“经典逻辑解释”的组件,但对于这些规则的具体实现细节、五行平衡如何转化为人格特征、十神/神煞/格局如何精确地影响条件解释特征,论文没有给出具体的数学或算法描述。这使得该方法的一部分仍然是“黑箱”,难以完全复现或进行深入的分析。未来可以考虑开源这部分符号推理的实现,以提高透明度和可验证性。
- LLM 在处理规则知识时的不稳定表现: 实验结果显示,仅仅将八字规则知识作为提示注入
Vanilla LLM,对 DeepSeek-v3 和 Gemini-2.5-flash 的性能反而有负面影响。这表明 LLM 在处理和整合外部、结构化的规则知识方面仍有不足。这强调了本文“多智能体架构”中精心设计的符号-LLM 集成的重要性,但也暗示了 LLM 在理解和应用非自然语言形式的复杂规则时,其内在能力可能存在瓶颈。
相似论文推荐
基于向量语义检索推荐的相关论文。