AiPaper
论文状态:已完成

Analysis of effects to scientific impact indicators based on the coevolution of coauthorship and citation networks

发表:2024/04/19
原文链接PDF 下载
价格:0.10
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究利用优先附着模型建立了共同作者和引文网络,探讨其对科学影响力指标的影响。通过模拟分析发现,增加参考文献数量或缩短论文生命周期会显著提升期刊影响因子和h指数,而不引入新作者的团队扩展则增加平均h指数。这些结果强调了科学影响力指标的动态性及参数操纵的重要性。

摘要

While computer modeling and simulation are crucial for understanding scientometrics, their practical use in literature remains somewhat limited. In this study, we establish a joint coauthorship and citation network using preferential attachment. As papers get published, we update the coauthorship network based on each paper's author list, representing the collaborative team behind it. This team is formed considering the number of collaborations each author has, and we introduce new authors at a fixed probability, expanding the coauthorship network. Simultaneously, as each paper cites a specific number of references, we add an equivalent number of citations to the citation network upon publication. The likelihood of a paper being cited depends on its existing citations, fitness value, and age. Then we calculate the journal impact factor and h-index, using them as examples of scientific impact indicators. After thorough validation, we conduct case studies to analyze the impact of different parameters on the journal impact factor and h-index. The findings reveal that increasing the reference number N or reducing the paper's lifetime θ significantly boosts the journal impact factor and average h-index. On the other hand, enlarging the team size m without introducing new authors or decreasing the probability of newcomers p notably increases the average h-index. In conclusion, it is evident that various parameters influence scientific impact indicators, and their interpretation can be manipulated by authors. Thus, exploring the impact of these parameters and continually refining scientific impact indicators are essential. The modeling and simulation method serves as a powerful tool in this ongoing process, and the model can be easily extended to include other scientific impact indicators and scenarios.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

基于共同作者和引文网络协同演化对科学影响力指标影响的分析 (Analysis of effects to scientific impact indicators based on the coevolution of coauthorship and citation networks)

1.2. 作者

Haobai Xue (xuehb@utszlib.edu.cn; 1. Shenzhen Science & Technology Library/University Town Library of Shenzhen, 2239 Lishui Road, Nanshan District, Shenzhen 518055, China)

1.3. 发表期刊/会议

该论文作为预印本(preprint)发布于 arXiv。

1.4. 发表年份

2024年4月19日 (UTC)

1.5. 摘要

尽管计算机建模与模拟对于理解科学计量学至关重要,但其在文献中的实际应用仍有所限制。本研究利用优先附着(preferential attachment)建立了联合的共同作者网络(coauthorship network)和引文网络(citation network)。随着论文的发表,我们根据每篇论文的作者列表(代表其背后的合作团队)更新共同作者网络。该团队的组建考虑了每位作者的协作次数,并以固定概率引入新作者,从而扩展共同作者网络。同时,每篇论文在发表时引用特定数量的参考文献,我们会在引文网络中添加相应数量的引用。论文被引用的可能性取决于其现有引用量、适应度值(fitness value)和年龄。然后,我们计算期刊影响因子(journal impact factor)和 h 指数(h-index),并将其作为科学影响力指标的示例。经过充分验证后,我们进行案例研究,分析不同参数对期刊影响因子和 h 指数的影响。研究结果表明,增加参考文献数量 NN 或缩短论文生命周期 θθ 会显著提升期刊影响因子和平均 h 指数。另一方面,在不引入新作者的情况下扩大团队规模 mm 或降低新作者加入的概率 pp 会显著增加平均 h 指数。总之,各种参数都会影响科学影响力指标,并且作者可以对其解释进行“操纵”。因此,探索这些参数的影响并不断完善科学影响力指标至关重要。建模与模拟方法是这一持续过程中的强大工具,并且该模型可以很容易地扩展到包含其他科学影响力指标和情景。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 本研究旨在通过计算机建模和模拟,深入理解科学计量学(scientometrics)中科学影响力指标(scientific impact indicators)的动态演变及其受多种参数影响的机制。具体而言,它关注共同作者网络(coauthorship network)和引文网络(citation network)的协同演化(coevolution)如何共同塑造这些指标。

为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白? 尽管统计学和定量方法在分析科学文献以发现“规律”方面已是成熟领域(即文献计量学 Bibliometrics 或科学计量学),但数学建模和计算机模拟在该领域的应用却“不频繁且孤立”。现有研究主要集中在实证数据分析,而缺乏对微观行为(如研究人员的协作、文献结构演化)如何导致宏观现象(如影响力指标)的深入机制性解释。传统实证研究往往面临真实数据库中的偏差和错误,且难以在受控环境下进行极端情景的“思想实验”或预测。此外,尽管有一些共同作者和引文网络的协同演化模型,但它们往往存在局限性,例如 TARL 模型假设每位作者每年发表固定数量的论文,或 Xie 模型引入过多新概念和参数使其不易推广。

这篇论文的切入点或创新思路是什么? 本文的创新切入点在于:

  1. 联合建模与协同演化: 建立一个基于优先附着(preferential attachment)机制的联合共同作者和引文网络模型,模拟它们在论文发表过程中的协同演化。
  2. 显式参数化团队组建: 借鉴 Guimera 等人的研究,采用更显式的团队组建机制(包括团队规模 mm 和新作者引入概率 pp),使共同作者网络的演化过程更加透明,弥补了 Barabási 模型中参数不透明的缺点。
  3. 影响力指标的参数敏感性分析: 以期刊影响因子(journal impact factor)和 h 指数(h-index)为例,深入分析不同底层参数(如论文生命周期 θθ、参考文献数量 NN、团队规模 mm、新作者引入概率 pp)如何影响这些关键的科学影响力指标。
  4. 模型驱动的洞察: 利用模拟结果揭示影响力指标的潜在“弱点”或“可操纵性”,并强调建模与模拟作为完善这些指标的强大工具。

2.2. 核心贡献/主要发现

论文最主要的贡献是什么?

  1. 构建并验证了共同作者和引文网络的协同演化模型: 该模型基于优先附着、论文适应度、老化机制和显式团队组建规则,成功复制了来自美国物理学会(APS)数据集的多种实证数据特征,包括论文和作者的增长、团队规模分布、作者生产力分布、合作者数量分布、引文分布以及期刊影响因子和 h 指数的时序变化和分布。
  2. 对科学影响力指标的参数敏感性进行了系统分析: 首次在协同演化框架下,深入分析了论文生命周期 θθ、参考文献数量 NN、团队规模 mm 和新作者引入概率 pp 等参数对期刊影响因子和 h 指数的影响。
  3. 揭示了科学影响力指标的潜在“可操纵性”和局限性: 发现某些参数(如参考文献数量 NN、论文生命周期 θθ、团队规模 mm 在特定条件下)的调整可以显著提升影响力指标,这表明这些指标可能存在固有弱点,容易被作者“操纵”,从而使其在评估真实论文质量时可能不可靠。

论文得出了哪些关键的结论或发现?

  1. 增加参考文献数量 NN缩短论文生命周期 θθ 会显著提升期刊影响因子和平均 h 指数。
  2. 在不引入新作者(即固定每篇论文生成的新作者数量 kk)的情况下扩大团队规模 mm,或 降低新作者加入的概率 pp,会显著增加平均 h 指数。
  3. 建模与模拟方法是研究科学影响力指标及其参数影响的可靠工具,且所提出的模型具有良好的可扩展性,可用于研究其他指标和情景。

3. 预备知识与相关工作

3.1. 基础概念

为了帮助初学者理解本文,我们首先解释一些核心的基础概念:

  • 文献计量学 (Bibliometrics) / 科学计量学 (Scientometrics): 这是应用统计学或定量方法分析科学文献的领域。其目标是发现衡量研究影响力的各种数量或指标背后的“规律”,例如通过分析论文的发表、引用和聚类行为。简单来说,就是用数据来研究科学活动本身。

  • 共同作者网络 (Coauthorship Network): 这种网络是一种社会网络(social network),其中每个节点代表一位科研作者,而边(或链接)表示两位作者之间存在合作关系(即他们共同发表过论文)。通常,这些链接是无向的,因为合作是双向的。网络可以反映科学合作的模式和结构。

  • 引文网络 (Citation Network): 这种网络的核心是论文(或科学文献)作为节点,而有向边则表示一篇论文引用了另一篇论文。链接的方向是从引用论文指向被引用论文。引文网络反映了知识的传播和积累方式。

  • 马太效应 (Matthew Effect) / 优先附着 (Preferential Attachment) / 累积优势 (Cumulative Advantage): 这是一个社会学和网络科学中的核心概念,其核心思想是“成功吸引更多成功”。在引文网络中,这意味着被引用次数越多的论文,未来被引用的可能性越大;在共同作者网络中,这意味着拥有更多合作者的作者,未来吸引新合作者的可能性也越大。它是许多现实世界网络(包括科学网络)呈现“肥尾分布”(即少数节点拥有大量连接,而多数节点连接稀疏)的关键机制。

  • 论文质量 (Paper Quality) / 适应度 (Fitness): 在引文网络模型中,仅仅依靠优先附着无法完全解释所有现象。论文质量或适应度是一个内在参数,量化了每篇论文吸引引用的固有能力。即使是一篇新论文,如果其质量或适应度高,也可能迅速积累引用并超越老论文。

  • 文献老化 (Obsolescence/Aging of Scientific Literature): 科学文献的价值和被引用频率通常会随时间推移而下降,因为新的思想和研究成果会不断出现并融入后续工作中。这种“老化”效应意味着论文的“新鲜度”和相关性会逐渐减弱。

  • 期刊影响因子 (Journal Impact Factor - JIF): 这是衡量学术期刊影响力的一个指标。它通常计算为某期刊在过去两年内发表的论文在特定年份被引用的平均次数。高影响因子通常被认为代表高影响力的期刊。

  • h 指数 (h-index): 这是衡量一位科研作者学术产出数量和影响力的一种综合指标。如果一位作者有 hh 篇论文每篇至少被引用了 hh 次,并且其余的论文引用次数都少于 hh 次,那么这位作者的 h 指数就是 hh

3.2. 前人工作

本文在引文网络、共同作者网络及其协同演化方面,借鉴并改进了前人的工作:

  • 引文网络模型:

    • de Solla Price (1976) 的模型: 这是优先附着机制在引文网络中的早期形式化表达。它假设新论文被引用的概率与现有引用次数成正比。然而,该模型假设所有论文质量相同,且新论文无法超越老论文,这与现实不符。
    • Barabási 的模型: 他将优先附着机制与网络增长概念相结合,解释了许多现实网络中的标度行为。
    • 适应度模型 (Fitness Models),如 Bianconi-Barabási 模型: 为了解决 Price 模型的局限性,引入了“适应度”概念,量化每篇论文固有吸引引用的能力。这使得高适应度的新论文能够超越旧的引用领导者。
    • 老化模型: 自 1943 年以来,文献老化现象就已被研究,通常用负指数或对数正态函数来建模,以捕捉论文随着时间推移被引用概率下降的趋势。
    • 最小引文模型 (Minimal Citation Model) (Wang et al. [11] 和 Medo and Cimini [2]): 本文主要基于此模型,它结合了网络增长、优先附着、适应度(fitness)和老化(aging)这四个关键机制,被认为能够捕捉论文引用的时间演化。MedoCimini 还引入了归一化项来平衡早期论文的过度优势。
  • 共同作者网络模型:

    • Newman [14, 16, 17] 的工作: 他使用来自不同书目数据库的实证数据研究了共同作者网络的结构和统计特性,但主要关注静态网络。
    • Tomassini [18] 的工作: 他通过分析时间分辨的实证数据,深入研究了共同作者网络的形成和时间演化。
    • Barabási [15] 的模型: 提出了一个捕捉共同作者网络时间演化的数学模型,通过新作者的加入和现有作者之间新链接的形成来模拟网络的增长。然而,该模型使用“平均内部链接 aa”和“单位时间传入链接 bb”等参数,使得论文和作者之间的连接机制不够透明。
    • Guimera et al. [20] 的团队组建机制模型: 提出了基于三个参数(团队规模 mm、新生产中新作者的比例 pp 和现有成员重复之前合作的倾向 qq)的创意团队自组装模型。本文采纳了这种更显式的团队组建机制,以取代 Barabási 模型中不太透明的参数。
  • 共同演化模型:

    • TARL (topics, aging, and recursive linking) 模型 (Börner [22]): 假设作者阅读并引用随机选择论文的参考文献,从而将马太效应引入引用。但其局限性在于假设每位作者每年产生固定数量的论文,无法复制共同作者数量和每位作者发表论文数量的肥尾分布。
    • Xie et al. [21] 的模型: 引入了同心圆、领导者和影响力区域等新概念的图形模型,考虑了马太效应。虽然成功复制了引文和共同作者的肥尾分布,但引入了过多的新概念、假设和参数,使其在文献中不那么常见。

3.3. 技术演进

该领域的技术演进从早期的静态网络分析和简单的增长模型,逐渐发展到能够捕捉更复杂动态(如适应度、老化)和多网络协同演化(共同作者与引文)的计算模型。最初的研究侧重于单一网络(引文或共同作者)的结构和统计特性。随着对现实世界复杂性认识的加深,模型开始融入更多现实因素,如论文质量(适应度)、时间衰减(老化)以及作者行为(团队组建)。从 PriceBarabási 的基础优先附着模型,到引入 fitnessaging 的“最小引文模型”,再到尝试连接共同作者和引文网络的协同演化模型,科学计量学建模的趋势是向更精细、更全面的模拟方向发展,以期揭示更深层次的机制。本文的工作正处在这一技术脉络中,致力于通过联合建模和显式参数化来提供更透明、更可控的模拟。

3.4. 差异化分析

本文的方法与相关工作中的主要方法相比,核心区别和创新点在于:

  • 弥补协同演化模型的不足: 针对 TARL 模型在共同作者网络分布上的局限性,以及 Xie 模型过于复杂且参数众多的问题,本文构建了一个更简洁、参数更显式的协同演化模型。它通过将 Guimera 等人的团队组建机制融入共同作者网络的演化,使其与引文网络的演化更加有机地结合。
  • 显式团队组建机制: 相较于 Barabási 共同作者模型中较为抽象的参数,本文采用 Guimera 提出的团队组建参数(mmpp),使得共同作者网络的形成过程与实际科研团队的组成方式更加直观关联,从而提供了更透明的模拟机制。
  • 专注于影响力指标的参数敏感性: 尽管前人研究也涉及了单一引文模型对影响因子或 h 指数的研究,但本文将共同作者和引文网络的协同演化置于一个统一框架下,系统地分析了多种底层参数如何共同影响这些关键的科学影响力指标,并揭示了这些指标的潜在“可操纵性”,这是对现有研究的独特贡献。

4. 方法论

4.1. 方法原理

本文的核心方法原理是建立一个联合的共同作者网络和引文网络协同演化模型。该模型通过模拟论文的发表过程,动态更新这两个网络,并在此基础上计算并分析科学影响力指标(期刊影响因子和 h 指数)如何受模型底层参数的影响。

模型的关键直觉在于:

  1. 论文发表驱动网络增长: 每次一篇新论文发表,都会同时触发共同作者网络和引文网络的更新。
  2. 共同作者网络: 新论文的作者团队是共同作者网络中的一个完整子图。团队的组建既考虑了现有作者的协作历史(通过优先附着机制),也以一定概率引入新作者。
  3. 引文网络: 新论文在发表时会引用一定数量的参考文献。被引用的论文选择基于其现有引用量(优先附着)、内在质量(适应度)和时间衰减(老化效应)。
  4. 参数影响: 通过改变论文生命周期 θθ、参考文献数量 NN、团队规模 mm 和新作者引入概率 pp 等参数,可以观察并量化它们对期刊影响因子和 h 指数的影响,从而深入理解这些指标的内在机制和潜在局限。

4.2. 核心方法详解 (逐层深入)

4.2.1. APS 数据集

该模型依赖并对照美国物理学会(American Physical Society, APS)数据集进行验证。APS 数据集包含两个子集:引用文章对和文章元数据。

  • 引用文章对用于构建引文网络,其中一篇论文引用另一篇。
  • 文章元数据包含 DOI、作者和发表日期等基本信息,用于构建共同作者网络。 本文仅考虑引文对中引用和被引用论文均属于文章元数据子集的情况,以确保参考文献总数与引用总数始终一致。 APS 数据集涵盖 1893 年至 2021 年底的数据,共 129 年。模拟选择的时间长度 T=13T = 13 年,每个模拟年对应大约 10 年的实证数据。尽管 APS 数据集包含 19 种期刊,但本文将所有数据视为一个统一的“虚拟期刊”,每年出版 12 期。

4.2.2. 论文与作者增长

论文和作者数量随时间呈指数增长。

  • 论文增长: 根据 APS 数据的累积论文数量(如图像 1(a) 所示),利用指数增长模型 Pt=αexp(βt)P _ { t } = \alpha \mathbf { e x p } ( \beta t ) 进行拟合,估算出年增长率 β\beta6.36%6.36\%。 在模拟中,初始年份的 12 期期刊每期包含 N1=10N_1 = 10 篇论文,此后每年(tt 增加)每期论文数量增加 1 篇。因此,到第 13 年末,每期将包含 N13=22N_{13} = 22 篇论文。这种安排对应年论文增长率为 6.68%6.68\%,与实证结果接近。最终,模拟中将总共生成 P=2496P = 2496 篇论文。

    下图(原文 Figure 1.a)展示了累积论文和作者数量的年度增长:

    该图像是一个示意图,展示了从1880年到2040年间累积的论文数量和作者数量的变化趋势。图中蓝色圆点表示论文数量,红色方框表示作者数量。可以看到,二者均呈现出显著的增长趋势。 该图像是一个示意图,展示了从1880年到2040年间累积的论文数量和作者数量的变化趋势。图中蓝色圆点表示论文数量,红色方框表示作者数量。可以看到,二者均呈现出显著的增长趋势。

  • 作者增长与新作者概率: 累积作者数量也随时间呈指数增长。通过绘制累积作者数量与累积论文数量的关系图(如图像 8 所示)并进行线性拟合 y=kxy = k x,发现平均每增加一篇新论文,大约有 k=0.679k = 0.679 名新作者被添加到现有作者列表中。

    下图(原文 Figure 1.b)展示了作者累积数量与论文累积数量的关系:

    Figure 7. Model simulation versus APS empirical data: (a) \(h\) -index distribution in the final year; (b) temporal variation of the \(h\) -index for the top 3 researchers. 该图像是图表,展示了模拟数据与实证数据的比较。左侧为 hh-index 分布图,显示了研究者的比例与 hh-index 的关系;右侧为 top 3 研究者的 hh-index 随时间变化的曲线,将模拟值与实证值进行了对比。

    由于每篇论文可能涉及多位作者(例如 mm 位作者),每位作者都会被独立评估是新作者(概率 pp)还是现有作者(概率 1p1 - p)。一篇论文中新作者的数量遵循二项分布,因此每篇论文新作者的期望值由以下公式给出: k=mpk = m p 其中:

    • kk: 每篇论文平均新增作者数量(从实证数据估算为 0.679)。
    • mm: 平均团队规模(对于 APS 数据集为 3.54)。
    • pp: 选择新作者的概率。 根据此公式,可以计算出新作者的概率 p=k/m=0.192p = k / m = 0.192

4.2.3. 论文团队组建

论文团队由共同撰写一篇论文的研究人员组成。

  • 团队规模分布: 最近的研究表明,论文团队的平均规模随时间增加,且团队规模分布呈现肥尾模式。APS 数据集也显示了这一趋势(如图像 9(a) 中的蓝色圆圈所示)。模拟中,APS 数据集中的团队规模数据根据发表日期分为 13 个区间,第 ii 个区间的分布用于生成对应第 ii 个模拟年份的团队规模分布(如图像 9(a) 中的红色方块所示)。 下图(原文 Figure 2.a)展示了年度平均团队规模的增长:

    Figure 8. impact of paper life time \(\\theta\) on journal impact factor: (a) temporal variation of journal impact factor at different \(\\theta ; ( \\mathbf { b } )\) the journal impact factor as functions… 该图像是图表,展示了论文生命周期 heta 对期刊影响因子的影响。左侧图显示了不同 heta 下的影响因子随时间的变化,右侧图则展示了影响因子与论文生命周期 heta 的关系。两个图均表明,论文的生命周期对期刊影响因子有显著影响。

    虽然模拟中的平均团队规模与实证数据吻合,但在整体团队规模分布上(如图像 9(b) 所示),模拟结果中较小团队规模的论文出现频率更高。这是因为实证数据的时间区间(10 年)增长率远高于模拟年份的增长率,导致实证数据更容易受到后期(团队规模更大)区间的影响。 下图(原文 Figure 2.b)展示了论文团队规模的分布:

    Figure 8. impact of paper life time \(\\theta\) on journal impact factor: (a) temporal variation of journal impact factor at different \(\\theta ; ( \\mathbf { b } )\) the journal impact factor as functions… 该图像是图表,展示了论文生命周期 heta 对期刊影响因子的影响。左侧图显示了不同 heta 下的影响因子随时间的变化,右侧图则展示了影响因子与论文生命周期 heta 的关系。两个图均表明,论文的生命周期对期刊影响因子有显著影响。

  • 作者选择机制: 如前所述,选择现有作者作为团队成员的概率是 1p1 - p。如果选择现有作者,将采用优先附着机制来确定具体选择哪位现有作者。根据 Ref. [15] 的研究,新作者与具有连接度 kk 的现有作者合作的概率 Π(k)kν\varPi(k) \propto k^\nu (其中 ν1\nu \leq 1)。同时,具有连接度 k1k_1 的现有作者与具有连接度 k2k_2 的另一位现有作者合作的概率 Π(k1,k2)k1k2\varPi(k_1, k_2) \propto k_1 k_2。 因此,在本次模拟中,选择具有连接度 kk 的现有作者的概率 π(k)\pi(k) 被设定为: π(k)=(1p)kiAtki \pi ( k ) = \left( 1 - p \right) \frac { k } { \sum _ { i \in A _ { t } } k _ { i } } 其中:

    • pp: 选择新作者的概率。
    • kk: 待选择现有作者的连接度。
    • kik_i: 列表 AtA_t 中每位现有作者 ii 的连接度。
    • AtA_t: 在时间 tt 时的现有作者列表。 由于现有作者经常重复合作,kik_i 在此模拟中指的是累计合作次数,而非合作者数量。对于尚无合作经验的作者,分配初始连接度 k0=1k_0 = 1,以确保他们首次被选中有有限的初始概率。通过一个邻接矩阵记录每对作者之间的合作次数,可以建立共同作者网络。如果选择了一位新作者(概率为 pp),他/她将被添加到现有作者列表 AtA_t 中,并相应更新邻接矩阵。

4.2.4. 作者能力与论文质量

  • 作者能力 (Q-factor): 研究表明,每位科学家可能拥有一个隐藏的内在参数 QQ,它表征了将随机想法转化为不同影响力工作的能力。高 QQ 因子作者通常能持续成功,且 QQ 因子与作者的生产力相对独立。因此,当新作者发表其第一篇论文时,会为其随机分配一个 QQ 因子。模拟中,QQ 因子遵循对数正态分布,参数为 μ=0.93\mu = 0.93σ=0.46\sigma = 0.46,与 Ref. [29] 基于 APS 数据集的数据一致。 下图(原文 Figure 3.a)展示了作者能力(QQ 因子)的分布:

    该图像是图表,包括两个子图。左侧图表展示了研究人员的 h 指数与研究人员比例的关系,标记了不同的论文生命周期参数 θ(如 12、24、48、96 和 192)。右侧图表则显示了平均 h 指数与论文生命周期 θ 的关系,分别为不同年份的情况(如 year=1、year=2、year=3),趋向于随着论文生命周期的增加,平均 h 指数下降。此图表用于分析多个参数对科学影响指标的影响。 该图像是图表,包括两个子图。左侧图表展示了研究人员的 h 指数与研究人员比例的关系,标记了不同的论文生命周期参数 θ(如 12、24、48、96 和 192)。右侧图表则显示了平均 h 指数与论文生命周期 θ 的关系,分别为不同年份的情况(如 year=1、year=2、year=3),趋向于随着论文生命周期的增加,平均 h 指数下降。此图表用于分析多个参数对科学影响指标的影响。

  • 论文质量 (Paper Quality / Fitness ηi\eta_i): 一旦论文团队 aia_i 组建完成,并且团队中每位成员 jaij \in a_i 的能力 QjQ_j 确定后,论文的质量 ηi\eta_i 将由团队成员中最高 QQ 因子决定,并引入一个乘性噪声项 δ\deltaηi=δ(maxjaiQj) \eta _ { i } = \delta \left( \operatorname* { m a x } _ { j \in a _ { i } } Q _ { j } \right) 其中:

    • maxjaiQj\operatorname{max}_{j \in a_i} Q_j: 论文团队 aia_i 中所有作者的 QQ 因子中的最大值。
    • δ\delta: 一个乘性噪声项,均匀分布在 [1δ,1+δ][1 - \delta^*, 1 + \delta^*] 区间内,为论文创建过程引入额外的随机性。 论文质量的分布如图像 10(b) 所示,其结果通过对数正态拟合表示。 下图(原文 Figure 3.b)展示了论文质量的分布:

    该图像是图表,包括两个子图。左侧图表展示了研究人员的 h 指数与研究人员比例的关系,标记了不同的论文生命周期参数 θ(如 12、24、48、96 和 192)。右侧图表则显示了平均 h 指数与论文生命周期 θ 的关系,分别为不同年份的情况(如 year=1、year=2、year=3),趋向于随着论文生命周期的增加,平均 h 指数下降。此图表用于分析多个参数对科学影响指标的影响。 该图像是图表,包括两个子图。左侧图表展示了研究人员的 h 指数与研究人员比例的关系,标记了不同的论文生命周期参数 θ(如 12、24、48、96 和 192)。右侧图表则显示了平均 h 指数与论文生命周期 θ 的关系,分别为不同年份的情况(如 year=1、year=2、year=3),趋向于随着论文生命周期的增加,平均 h 指数下降。此图表用于分析多个参数对科学影响指标的影响。

4.2.5. 共同作者网络

论文团队组建后,其所有成员本质上形成一个完全图。这会促使合作邻接矩阵 AA 更新,其中每个元素 Ai,jA_{i,j} 代表作者 ii 和作者 jj 之间的合作次数。相应的,共同作者网络(即合作者网络)可以通过将合作邻接矩阵的非零元素替换为 1(零元素保持 0)来构建。在每个时间步,论文会增量添加,现有作者列表和共同作者网络也随之演化。 当所有 P=2496P = 2496 篇论文都纳入后,作者生产力(发表论文数量)和合作者数量的最终分布如图像 11 所示。 下图(原文 Figure 4.a)展示了研究者生产力分布:

Figure 10. impact of reference number \(N\) on journal impact factor: (a) temporal variation of journal impact factor at different \(N\) ; (b) the journal impact factor as functions of \(N\) at different y… 该图像是图表,展示了参考文献数量 NN 对期刊影响因子的影响。左侧图表显示了在不同 NN 下期刊影响因随时间的变化(x轴为年份,y轴为期刊影响因子),右侧图表则呈现了期刊影响因子与平均参考文献数量 NN 的关系(x轴为平均参考文献数量,y轴为期刊影响因子)。可以看到,随着参考文献数量的增加,期刊影响因子有显著提升。

生产力分布基本遵循洛特卡定律 (Lotka's law)(即少数作者发表大量论文,多数作者发表少量论文),模拟结果与实证数据高度吻合。 下图(原文 Figure 4.b)展示了合作者数量分布:

Figure 10. impact of reference number \(N\) on journal impact factor: (a) temporal variation of journal impact factor at different \(N\) ; (b) the journal impact factor as functions of \(N\) at different y… 该图像是图表,展示了参考文献数量 NN 对期刊影响因子的影响。左侧图表显示了在不同 NN 下期刊影响因随时间的变化(x轴为年份,y轴为期刊影响因子),右侧图表则呈现了期刊影响因子与平均参考文献数量 NN 的关系(x轴为平均参考文献数量,y轴为期刊影响因子)。可以看到,随着参考文献数量的增加,期刊影响因子有显著提升。

合作者数量分布的模拟结果也与实证数据高度匹配。这两个分布都清晰地呈现出肥尾特征,验证了共同作者网络模型。

4.2.6. 参考文献模型

在模拟中,任何给定时间点,参考文献总数与引用总数精确匹配。因此,随着平均引用数量的逐渐增加,平均参考文献数量也呈现上升趋势(如图像 12(a) 中的蓝色圆圈所示)。与团队规模处理方式类似,所有论文的参考文献数量数据按发表日期排序,并均匀分为 13 个区间。第 ii 个区间的参考文献数量分布用于生成第 ii 个模拟年份的参考文献数量分布。 下图(原文 Figure 5.a)展示了年度平均参考文献数量的增长:

Figure 11. impact of the reference number \(N\) on the \(h\) index: (a) distribution of \(h\) . index at different \(N\) ; (b) average \(h\) -index as functions of \(N\) at different year. 该图像是图表,展示了参考数量 NNhh 指数的影响。左侧图示显示了不同 NN 值下研究者与 hh 指数的关系,右侧图显示了在不同年份(11、12、13年)中,平均 hh 指数与参考数量 NN 的关系。

模拟结果中的年度平均参考文献数量与实证数据高度一致,具有相同的分布。然而,在所有模拟数据的参考文献数量分布上(如图像 12(b) 所示),模拟结果与实证数据存在细微差异,模拟中具有较低参考文献数量的论文更多。这同样是因为实证数据的时间区间(10 年)论文增长率远高于模拟年份的增长率,导致实证数据更容易受到后期(参考文献数量更多)区间的影响。 下图(原文 Figure 5.b)展示了参考文献数量分布:

Figure 11. impact of the reference number \(N\) on the \(h\) index: (a) distribution of \(h\) . index at different \(N\) ; (b) average \(h\) -index as functions of \(N\) at different year. 该图像是图表,展示了参考数量 NNhh 指数的影响。左侧图示显示了不同 NN 值下研究者与 hh 指数的关系,右侧图显示了在不同年份(11、12、13年)中,平均 hh 指数与参考数量 NN 的关系。

4.2.7. 引文网络

确定每篇论文的参考文献数量后,即可建立引文模型,即确定哪些论文引用了哪些论文。本次模拟采用的引文网络模型基于 Wang et al. [11] 最初提出的最小引文模型。在该模型中,论文 ii 在发表后时间 tt 被引用的概率由三个独立因素决定:优先附着 (preferential attachment)适应度 (fitness)老化 (aging)。其方程表达为: Πi(t)=ηicitPi(t) \Pi _ { i } ( t ) = \eta _ { i } c _ { i } ^ { t } P _ { i } ( t ) 其中:

  • Πi(t)\Pi_i(t): 论文 ii 在时间 tt 被引用的概率。
  • ηi\eta_i: 论文的适应度项 (fitness term),类似于前文讨论的论文质量,捕捉社区对该工作的响应。
  • citc_i^t: 优先附着项 (preferential attachment term),表示论文被引用的概率与其之前获得的引用总数成正比。值得注意的是,citc_i^t 并不精确等于引用次数 ncites(t)n_{\mathrm{cites}}(t)。这是因为对于引用次数为零的新论文,我们赋予其一个初始吸引力 c0=1c_0 = 1,确保每篇新论文首次被引用有有限的初始概率。
  • Pi(t)P_i(t): 老化项 (aging term),即论文引用量的长期衰减,可以用负指数形式很好地近似: Pi(t)=exp[(tτi)/θ] P _ { i } ( t ) = \exp [ - ( t - \tau _ { i } ) / \theta ]
    • τi\tau_i: 论文 ii 的发表日期。

    • θ\theta: 表征论文生命周期的参数。本文将 θθ 设定为 48 个月,与 Ref. [2, 9] 使用的值一致,因为它们基于相同的 APS 数据集。

      最终引文网络的分布如图像 13(a) 所示。它呈现出肥尾模式,并与实证数据高度吻合,从而验证了引文网络模型。 下图(原文 Figure 6.a)展示了引文数量分布:

Figure 12. impact of the average team size \(m\) on the \(h\) index: (a) distribution of \(h\) . index at different \(m ; ( \\mathbf { b } )\) average \(h\) index as functions of \(m\) at different year. 该图像是图表,展示了平均团队规模mmhh指数的影响。左侧图表描绘了不同团队规模下研究者的hh指数分布,标记不同的mm值(如1.1, 1.5, 2.6等)。右侧图表则表示在不同年份(11年、12年、13年)的平均hh指数与mm的关系,显示随着团队规模的变化,平均hh指数的趋势。

4.2.8. 期刊影响因子 (Journal Impact Factor)

影响因子每年都会波动。当从给定的引文网络中统计引用和论文数量时,期刊的年度影响因子可以按以下方式计算: IF(k)=ncites(k,k1)+ncites(k,k2)npapers(k1)+npapers(k2) I F ( k ) = \frac { n _ { \mathrm { c i t e s } } ( k , k - 1 ) + n _ { \mathrm { c i t e s } } ( k , k - 2 ) } { n _ { \mathrm { p a p e r s } } ( k - 1 ) + n _ { \mathrm { p a p e r s } } ( k - 2 ) } 其中:

  • IF(k): 第 kk 年的影响因子。

  • npapers(k1)n_{\mathrm{papers}}(k-1): 在第 (k-1) 年发表的论文数量。

  • npapers(k2)n_{\mathrm{papers}}(k-2): 在第 (k-2) 年发表的论文数量。

  • ncites(k,k1)n_{\mathrm{cites}}(k, k-1): 在第 kk 年收到的对第 (k-1) 年发表论文的引用数量。

  • ncites(k,k2)n_{\mathrm{cites}}(k, k-2): 在第 kk 年收到的对第 (k-2) 年发表论文的引用数量。

    期刊影响因子的波动如图像 13(b) 所示,模拟结果与 APS 数据集的实证结果高度吻合,进一步验证了引文网络模型。 下图(原文 Figure 6.b)展示了 APS 数据集期刊影响因子的时间变化:

Figure 12. impact of the average team size \(m\) on the \(h\) index: (a) distribution of \(h\) . index at different \(m ; ( \\mathbf { b } )\) average \(h\) index as functions of \(m\) at different year. 该图像是图表,展示了平均团队规模mmhh指数的影响。左侧图表描绘了不同团队规模下研究者的hh指数分布,标记不同的mm值(如1.1, 1.5, 2.6等)。右侧图表则表示在不同年份(11年、12年、13年)的平均hh指数与mm的关系,显示随着团队规模的变化,平均hh指数的趋势。

4.2.9. h 指数 (h-index)

一位作者的 h 指数是 hh,如果他/她的 hh 篇论文至少被引用了 hh 次,并且其余论文的引用次数都少于 hh 次。 为了确定 hh,作者的所有出版物会根据其引用次数从高到低排序,形成一个排序后的论文列表 Π={α1,,αi,,αn}\Pi = \left\{ \alpha _ { 1 } , \cdots , \alpha _ { i } , \cdots , \alpha _ { n } \right\},其中 cαicαi+1c _ { \alpha _ { i } } \geq c _ { \alpha _ { i + 1 } } (对于 i[1,n1]i \in [ 1 , n - 1 ])。h 指数被确定为满足 cαiic _ { \alpha _ { i } } \geq i 的最后一个位置 ii。 数学公式表示为: h=maxi{minαiΠ[cαi,i]} h = \operatorname* { m a x } _ { i } \left\{ \operatorname* { m i n } _ { \alpha _ { i } \in \Pi } \left[ c _ { \alpha _ { i } } , i \right] \right\} 其中:

  • hh: 作者的 h 指数。

  • Π\Pi: 按照引用次数降序排列的作者论文列表。

  • cαic_{\alpha_i}: 论文 αi\alpha_i 的引用次数。

  • ii: 论文在排序列表中的位置。

    h 指数在模拟和实证结果中的分布和时间变化如图像 14 所示。 下图(原文 Figure 7.a)展示了最终年份的 h 指数分布:

Figure 13. impact of the probability of newcomers \(p\) on the \(h\) index: (a) \(h\) -index at different \(p\) () average \(h\) -index as functions of \(p\) at different year. 该图像是图表,展示了不同新作者引入概率 pphh 指数的影响。左侧图表描绘了在不同 pp 值下,研究者数量与 hh 指数的关系;右侧图表则显示了 pp 对平均 hh 指数的影响,分别在第 11、12 和 13 年的数据中进行比较。整体趋势表明,随着 pp 的增大,平均 hh 指数逐渐下降。

图像 14(a) 显示,模拟和实证数据的 h 指数分布均呈现肥尾特征,且相互高度吻合,这与 Ref. [28] 的发现一致,从而验证了本次模拟的 h 指数结果。 下图(原文 Figure 7.b)展示了排名前三研究者 h 指数的时间变化:

Figure 13. impact of the probability of newcomers \(p\) on the \(h\) index: (a) \(h\) -index at different \(p\) () average \(h\) -index as functions of \(p\) at different year. 该图像是图表,展示了不同新作者引入概率 pphh 指数的影响。左侧图表描绘了在不同 pp 值下,研究者数量与 hh 指数的关系;右侧图表则显示了 pp 对平均 hh 指数的影响,分别在第 11、12 和 13 年的数据中进行比较。整体趋势表明,随着 pp 的增大,平均 hh 指数逐渐下降。

图像 14(b) 展示了 h 指数最高的 3 位研究者的时间动态增长,其中模拟和实证结果的总体增长模式主要呈线性,与 Ref. [27] 的预测一致,进一步增加了模拟结果的可信度。

5. 实验设置

5.1. 数据集

  • 数据集来源与名称: 实验使用了美国物理学会 (American Physical Society, APS) 数据集
  • 组成与特点: 该数据集由两部分组成:
    1. 引用文章对 (citing article pairs): 记录了 APS 论文之间的引用关系,用于构建引文网络。
    2. 文章元数据 (article metadata): 包含了所有 APS 论文的基本详细信息,如 DOI(数字对象标识符)、作者列表和出版日期,用于构建共同作者网络。
  • 规模与时间范围: 截至 2021 年底,APS 数据集包含了大约 0.7 百万篇论文0.5 百万名作者,时间跨度从 1893 年到 2021 年底,提供了长达 129 年的连续实证数据。
  • 选择原因与处理方式:
    • 选择原因: APS 数据集因其规模庞大、时间跨度长以及在物理学领域的高度代表性而被广泛用于科学计量学研究。
    • 处理方式: 为了确保数据的一致性和精确性,本研究仅考虑引用文章对中引用论文和被引用论文都属于文章元数据子集的情况。这意味着所有引用和参考文献都发生在这个统一的 APS 框架内。
    • 虚拟期刊设定: 尽管 APS 数据集包含 19 种期刊,但本文不侧重于比较不同期刊间的指标,而是将整个 APS 数据集视为一个统一的虚拟期刊,所有参考文献和引用都发生在这个虚拟期刊内部。该虚拟期刊每年出版 12 期。
  • 模拟时间: 模拟的时间长度设定为 T=13T = 13 年,每个模拟年份大约对应 10 年的实证数据,以便在可控的计算资源下覆盖足够长的演化周期。
  • 数据样本示例: 原文未提供数据集中的具体样本示例(如一篇论文的标题、摘要、作者列表等),仅描述了数据集的组成和规模。

5.2. 评估指标

论文中使用了两个最知名和广泛使用的科学影响力指标:期刊影响因子 (Journal Impact Factor) 和 h 指数 (h-index)。

5.2.1. 期刊影响因子 (Journal Impact Factor, JIF)

  1. 概念定义 (Conceptual Definition): 期刊影响因子是衡量学术期刊在特定年份(通常是两年或三年)中发表论文平均被引频次的指标。它由 Garfield 在 1972 年首次提出,本质上定义为每篇已发表文章的平均引用次数。JIF 旨在反映期刊文章的平均影响力或可见度,是期刊学术质量和影响力的一个重要衡量标准。
  2. 数学公式 (Mathematical Formula): IF(k)=ncites(k,k1)+ncites(k,k2)npapers(k1)+npapers(k2) I F ( k ) = \frac { n _ { \mathrm { c i t e s } } ( k , k - 1 ) + n _ { \mathrm { c i t e s } } ( k , k - 2 ) } { n _ { \mathrm { p a p e r s } } ( k - 1 ) + n _ { \mathrm { p a p e r s } } ( k - 2 ) }
  3. 符号解释 (Symbol Explanation):
    • IF(k): 第 kk 年的期刊影响因子。
    • npapers(k1)n_{\mathrm{papers}}(k-1): 在第 (k-1) 年发表的论文总数量。
    • npapers(k2)n_{\mathrm{papers}}(k-2): 在第 (k-2) 年发表的论文总数量。
    • ncites(k,k1)n_{\mathrm{cites}}(k, k-1): 在第 kk 年收到的对第 (k-1) 年发表论文的引用总数量。
    • ncites(k,k2)n_{\mathrm{cites}}(k, k-2): 在第 kk 年收到的对第 (k-2) 年发表论文的引用总数量。

5.2.2. h 指数 (h-index)

  1. 概念定义 (Conceptual Definition): h 指数是 Hirsch 在 2005 年提出的一种复合度量,用于反映一位科研作者的学术产出数量(生产力)和影响力。它量化了作者有多少篇论文至少被引用了多少次。具体来说,如果一位作者有 hh 篇论文每篇至少被引用了 hh 次,并且该作者的其他论文(如果有的话)的引用次数都少于 hh 次,那么这位作者的 h 指数就是 hh
  2. 数学公式 (Mathematical Formula): h=maxi{minαiΠ[cαi,i]} h = \operatorname* { m a x } _ { i } \left\{ \operatorname* { m i n } _ { \alpha _ { i } \in \Pi } \left[ c _ { \alpha _ { i } } , i \right] \right\} 计算 h 指数的步骤通常是:将作者的所有论文按引用次数从高到低排序,生成一个有序列表 Π={α1,α2,,αn}\Pi = \{\alpha_1, \alpha_2, \dots, \alpha_n\},其中 cαicαi+1c_{\alpha_i} \geq c_{\alpha_{i+1}}。然后,找到列表中的最后一个位置 ii,使得第 ii 篇论文的引用次数 cαic_{\alpha_i} 大于或等于其在列表中的位置 ii。这个 ii 值就是 h 指数。
  3. 符号解释 (Symbol Explanation):
    • hh: 作者的 h 指数。
    • Π\Pi: 按照引用次数从高到低排序的作者所有论文的集合。
    • αi\alpha_i: 论文集合 Π\Pi 中的第 ii 篇论文。
    • cαic_{\alpha_i}: 论文 αi\alpha_i 的引用次数。
    • ii: 论文 αi\alpha_i 在排序列表中的位置(从 1 开始计数)。
    • min[cαi,i]\operatorname{min}[c_{\alpha_i}, i]: 取论文 αi\alpha_i 的引用次数和其在排序列表中的位置 ii 中的最小值。
    • maxi{}\operatorname{max}_i\{\dots\}: 在所有可能的 ii 值中,选择最大的那个满足条件的 ii

5.3. 对比基线

本研究的主要目的不是比较其提出的模型与现有其他模型在预测性能上的优劣,而是构建一个能够忠实再现现实世界规律的协同演化模型,并在此基础上进行参数敏感性分析。因此,论文中的“基线”主要指来自 APS 数据集的实证数据

论文将自己的模拟结果与以下实证数据进行了广泛比较和验证:

  • 论文和作者的累积增长趋势: 模拟的指数增长率与实证数据吻合。

  • 年度平均团队规模和团队规模分布: 模拟结果与实证数据相似。

  • 研究者生产力分布(遵循 Lotka's law): 模拟结果与实证数据(肥尾分布)匹配。

  • 合作者数量分布: 模拟结果与实证数据(肥尾分布)匹配。

  • 年度平均参考文献数量和参考文献数量分布: 模拟结果与实证数据相似。

  • 引文数量分布: 模拟结果与实证数据(肥尾分布)匹配。

  • 期刊影响因子的时间变化: 模拟趋势与实证数据吻合。

  • h 指数分布: 模拟结果与实证数据(肥尾分布)匹配。

  • 顶级研究者 h 指数的时间动态增长: 模拟趋势与实证数据(线性增长)吻合。

    通过这些细致的比较,论文验证了其模型能够准确地捕捉 APS 数据集中的多种科学计量学规律,从而为后续的参数敏感性分析提供了坚实的基础。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 模型验证

本文首先对其建立的协同演化模型进行了全面的验证,将模拟结果与 APS 数据集的实证数据进行比较,以确保模型能够准确地再现现实世界的科学计量学规律。

  • 论文与作者的增长: 模拟结果显示,论文和作者的累积数量均呈指数增长趋势,与 APS 实证数据高度吻合。具体而言,模拟的年论文增长率为 6.68%6.68\%,与实证数据估算的 6.36%6.36\% 非常接近。同时,每增加一篇新论文,平均新增 k=0.679k=0.679 位作者的比例也与线性拟合的实证结果一致。 下图(原文 Figure 1.a)展示了累积论文和作者数量的年度增长:

    该图像是一个示意图,展示了从1880年到2040年间累积的论文数量和作者数量的变化趋势。图中蓝色圆点表示论文数量,红色方框表示作者数量。可以看到,二者均呈现出显著的增长趋势。 该图像是一个示意图,展示了从1880年到2040年间累积的论文数量和作者数量的变化趋势。图中蓝色圆点表示论文数量,红色方框表示作者数量。可以看到,二者均呈现出显著的增长趋势。

    下图(原文 Figure 1.b)展示了作者累积数量与论文累积数量的关系:

    Figure 7. Model simulation versus APS empirical data: (a) \(h\) -index distribution in the final year; (b) temporal variation of the \(h\) -index for the top 3 researchers. 该图像是图表,展示了模拟数据与实证数据的比较。左侧为 hh-index 分布图,显示了研究者的比例与 hh-index 的关系;右侧为 top 3 研究者的 hh-index 随时间变化的曲线,将模拟值与实证值进行了对比。

  • 论文团队组建: 模拟中,年度平均团队规模的增长趋势与 APS 实证数据保持一致,显示出团队规模随时间增加的现象。论文团队规模的分布也与实证数据呈现相似的肥尾特征,尽管在较小团队规模的论文比例上存在细微差异。 下图(原文 Figure 2.a)展示了年度平均团队规模的增长:

    Figure 8. impact of paper life time \(\\theta\) on journal impact factor: (a) temporal variation of journal impact factor at different \(\\theta ; ( \\mathbf { b } )\) the journal impact factor as functions… 该图像是图表,展示了论文生命周期 heta 对期刊影响因子的影响。左侧图显示了不同 heta 下的影响因子随时间的变化,右侧图则展示了影响因子与论文生命周期 heta 的关系。两个图均表明,论文的生命周期对期刊影响因子有显著影响。

    下图(原文 Figure 2.b)展示了论文团队规模的分布:

    Figure 8. impact of paper life time \(\\theta\) on journal impact factor: (a) temporal variation of journal impact factor at different \(\\theta ; ( \\mathbf { b } )\) the journal impact factor as functions… 该图像是图表,展示了论文生命周期 heta 对期刊影响因子的影响。左侧图显示了不同 heta 下的影响因子随时间的变化,右侧图则展示了影响因子与论文生命周期 heta 的关系。两个图均表明,论文的生命周期对期刊影响因子有显著影响。

  • 作者能力与论文质量: 模型假设作者能力(QQ 因子)遵循对数正态分布,论文质量(fitness)则由团队中最高 QQ 因子决定并引入噪声。这些分布(如图像 10 所示)是模型的输入和中间结果,有助于理解后续引用和合作行为的驱动因素。 下图(原文 Figure 3)展示了作者能力分布和论文质量分布:

    该图像是图表,包括两个子图。左侧图表展示了研究人员的 h 指数与研究人员比例的关系,标记了不同的论文生命周期参数 θ(如 12、24、48、96 和 192)。右侧图表则显示了平均 h 指数与论文生命周期 θ 的关系,分别为不同年份的情况(如 year=1、year=2、year=3),趋向于随着论文生命周期的增加,平均 h 指数下降。此图表用于分析多个参数对科学影响指标的影响。 该图像是图表,包括两个子图。左侧图表展示了研究人员的 h 指数与研究人员比例的关系,标记了不同的论文生命周期参数 θ(如 12、24、48、96 和 192)。右侧图表则显示了平均 h 指数与论文生命周期 θ 的关系,分别为不同年份的情况(如 year=1、year=2、year=3),趋向于随着论文生命周期的增加,平均 h 指数下降。此图表用于分析多个参数对科学影响指标的影响。

  • 共同作者网络: 模拟出的研究者生产力分布(作者发表论文数量)与实证数据高度吻合,并清晰地呈现出洛特卡定律的肥尾特征。同样,研究者合作者数量的分布也与实证数据良好匹配,展现出肥尾特性。这验证了共同作者网络模型能够捕捉现实世界中的合作模式。 下图(原文 Figure 4)展示了研究者生产力分布和合作者数量分布:

    Figure 10. impact of reference number \(N\) on journal impact factor: (a) temporal variation of journal impact factor at different \(N\) ; (b) the journal impact factor as functions of \(N\) at different y… 该图像是图表,展示了参考文献数量 NN 对期刊影响因子的影响。左侧图表显示了在不同 NN 下期刊影响因随时间的变化(x轴为年份,y轴为期刊影响因子),右侧图表则呈现了期刊影响因子与平均参考文献数量 NN 的关系(x轴为平均参考文献数量,y轴为期刊影响因子)。可以看到,随着参考文献数量的增加,期刊影响因子有显著提升。

  • 参考文献模型: 模拟中年度平均参考文献数量的增长趋势与 APS 实证数据一致。参考文献数量的整体分布也与实证数据保持相似,尽管在低参考文献数量论文的比例上略有差异,这与论文增长率差异有关。 下图(原文 Figure 5)展示了年度平均参考文献数量的增长和参考文献数量分布:

    Figure 11. impact of the reference number \(N\) on the \(h\) index: (a) distribution of \(h\) . index at different \(N\) ; (b) average \(h\) -index as functions of \(N\) at different year. 该图像是图表,展示了参考数量 NNhh 指数的影响。左侧图示显示了不同 NN 值下研究者与 hh 指数的关系,右侧图显示了在不同年份(11、12、13年)中,平均 hh 指数与参考数量 NN 的关系。

  • 引文网络: 模拟出的论文引用数量分布呈现出显著的肥尾模式,与 APS 实证数据非常吻合,验证了引文网络模型,特别是其对优先附着、适应度和老化机制的有效整合。 下图(原文 Figure 6.a)展示了引文数量分布:

    Figure 12. impact of the average team size \(m\) on the \(h\) index: (a) distribution of \(h\) . index at different \(m ; ( \\mathbf { b } )\) average \(h\) index as functions of \(m\) at different year. 该图像是图表,展示了平均团队规模mmhh指数的影响。左侧图表描绘了不同团队规模下研究者的hh指数分布,标记不同的mm值(如1.1, 1.5, 2.6等)。右侧图表则表示在不同年份(11年、12年、13年)的平均hh指数与mm的关系,显示随着团队规模的变化,平均hh指数的趋势。

  • 期刊影响因子: 模拟所得的期刊影响因子年度波动趋势与 APS 实证数据高度一致,进一步验证了引文网络模型在宏观指标层面上的准确性。 下图(原文 Figure 6.b)展示了 APS 数据集期刊影响因子的时间变化:

    Figure 12. impact of the average team size \(m\) on the \(h\) index: (a) distribution of \(h\) . index at different \(m ; ( \\mathbf { b } )\) average \(h\) index as functions of \(m\) at different year. 该图像是图表,展示了平均团队规模mmhh指数的影响。左侧图表描绘了不同团队规模下研究者的hh指数分布,标记不同的mm值(如1.1, 1.5, 2.6等)。右侧图表则表示在不同年份(11年、12年、13年)的平均hh指数与mm的关系,显示随着团队规模的变化,平均hh指数的趋势。

  • h 指数: 模拟出的 h 指数分布(如图像 14(a) 所示)呈现肥尾特征,与实证数据高度吻合,并与 Ref. [28] 的发现一致。此外,模拟中排名前三研究者的 h 指数时间动态增长模式(如图像 14(b) 所示)主要呈线性,与 Ref. [27] 的预测相符。 下图(原文 Figure 7)展示了 h 指数分布和顶级研究者 h 指数的时间变化:

    Figure 13. impact of the probability of newcomers \(p\) on the \(h\) index: (a) \(h\) -index at different \(p\) () average \(h\) -index as functions of \(p\) at different year. 该图像是图表,展示了不同新作者引入概率 pphh 指数的影响。左侧图表描绘了在不同 pp 值下,研究者数量与 hh 指数的关系;右侧图表则显示了 pp 对平均 hh 指数的影响,分别在第 11、12 和 13 年的数据中进行比较。整体趋势表明,随着 pp 的增大,平均 hh 指数逐渐下降。

6.1.2. 参数影响分析

在模型得到充分验证后,本文进行了一系列参数研究,分析了论文生命周期 θθ、参考文献数量 NN、团队规模 mm 和新作者引入概率 pp 等不同参数对期刊影响因子和 h 指数的影响。

6.1.2.1. 论文生命周期 θθ

  • 对期刊影响因子的影响: 图像 15 显示,随着论文生命周期 θθ 的增加,期刊影响因子单调下降分析: θθ 越大,意味着论文老化越慢,旧论文能获得更多引用。由于期刊影响因子仅关注最近两年内发表论文在当年的引用(即公式 (4) 的分子),当总引用数恒定时,更多的引用流向两年以前的旧论文,导致近期论文获得的引用减少。因此,期刊影响因子随 θθ 的增加而降低。 下图(原文 Figure 8)展示了论文生命周期 θθ 对期刊影响因子的影响:

    Figure 14. impact of the team size \(m\) on the \(h\) index: (a) distribution of \(h\) -index at different \(m\) ; (b) average \(h\) -index as functions of \(m\) at different year. 该图像是图表,展示了团队规模 mmhh 指数的影响。在左侧,展示了不同 mm 值下 hh 指数的分布,以及研究者的比例;右侧则展示了在不同年份(11、12 和 13年)下,平均 hh 指数与团队规模 mm 的函数关系。

  • 对 h 指数的影响: 图像 2(a) 显示,较小的 θθ 值(如 θ=12θ=12 个月)对应着低 h 指数或中等 h 指数研究者占更大比例,而高 h 指数研究者占更小比例。相反,较大的 θθ 值(如 θ=192θ=192 个月)则导致高 h 指数研究者更普遍。 分析: 较小的 θθ 意味着论文很快“过时”,引用更多地集中在近期发表的论文上。这些近期论文通常由新作者或职业生涯早期作者发表,他们的 h 指数普遍较低或中等。而较大的 θθ 使得旧论文能持续获得引用,这加强了马太效应,有利于那些已建立声誉的资深作者(通常 h 指数较高),因此高 h 指数研究者的比例增加。图像 2(b) 进一步表明,平均 h 指数随 θθ 的增加而下降。 下图(原文 Figure 9)展示了论文生命周期 θθ 对 h 指数的影响:

    该图像是一个线性拟合图,展示了累计论文数量与累计作者数量之间的关系。图中蓝色圆点表示实证数据,红色线条为线性拟合结果,拟合方程为 `y = 0.679x`。 该图像是一个线性拟合图,展示了累计论文数量与累计作者数量之间的关系。图中蓝色圆点表示实证数据,红色线条为线性拟合结果,拟合方程为 y = 0.679x

6.1.2.2. 参考文献数量 NN

  • 对期刊影响因子的影响: 图像 3 显示,随着平均参考文献数量 NN 的增加,期刊影响因子显著提升分析: 由于平均参考文献数量 NN 等于平均引用数量,NN 的增加直接导致公式 (3) 中优先附着项 citc_i^t 的增加,从而使每篇论文获得的平均引用次数增加。鉴于期刊影响因子直接受近期两年内论文年引用量的影响,更高的 NN 自然会带来更高的期刊影响因子。 下图(原文 Figure 10)展示了参考文献数量 NN 对期刊影响因子的影响:

    Figure 1. Evolution of cumulative papers and authors: (a) yearly progression; (b) author accumulation in relation to paper accumulation. 该图像是图表,展示了模拟数据与实际数据的比较。左侧图表示平均论文团队大小随着年份的变化,右侧图显示了不同论文团队大小对应的论文比例分布。数据展示了模拟数据与实际数据之间的相似性。

  • 对 h 指数的影响: 图像 4(a) 显示,增加平均参考文献数量 NN 使得作者倾向于拥有更高的 h 指数。 分析: 增加 NN 虽然不会直接影响作者的生产力(发表论文数量),但它会增加每篇已发表论文获得的引用次数。由于 h 指数同时衡量生产力和引用影响力,更高的引用次数会导致作者的 h 指数提高。图像 4(b) 证实,所有作者的平均 h 指数随参考文献数量 NN 的增加而单调递增。 下图(原文 Figure 11)展示了参考文献数量 NN 对 h 指数的影响:

    该图像是一个展示作者能力与论文质量的概率分布图,左侧显示作者能力的分布,平均能力为2.81,右侧展示论文质量的分布,平均质量为3.62。两者均包含理论结果和模拟数据的对比。 该图像是一个展示作者能力与论文质量的概率分布图,左侧显示作者能力的分布,平均能力为2.81,右侧展示论文质量的分布,平均质量为3.62。两者均包含理论结果和模拟数据的对比。

6.1.2.3. 固定 pp 下的团队规模 mm

  • 对期刊影响因子的影响: 论文指出,团队规模 mm 对期刊影响因子的影响是最小的,因为 mm 只通过论文质量项 ηi\eta_i 产生轻微影响。因此,分析主要集中在 h 指数。

  • 对 h 指数的影响: 图像 5(a) 显示,随着平均团队规模 mm 的增加,低到中等 h 指数区域的分布比例反而比小团队规模时要高。 分析: 在新作者引入概率 pp 保持不变的情况下,增加平均团队规模 mm 意味着每发表一篇论文会生成更多的作者/研究者。虽然每个研究者被选为共同作者的频率可能增加,但由于研究者总数更多,每次被选中的可能性反而下降。因此,作者的平均发表论文数量和平均 h 指数通常保持不变。然而,由于研究者总数增加,总引用量保持不变,平均到每个研究者的引用减少。图像 5(b) 进一步表明,平均 h 指数随团队规模 mm 的增加而下降。 下图(原文 Figure 12)展示了平均团队规模 mm 对 h 指数的影响:

    该图像是一个示意图,展示了研究者发表论文数量与合作者数量的分布。左侧图为作者数量与研究者比例的关系,右侧图为合作者数量与研究者比例的关系,均展示了模拟数据(红色方块)与实证数据(蓝色圆圈)的对比。 该图像是一个示意图,展示了研究者发表论文数量与合作者数量的分布。左侧图为作者数量与研究者比例的关系,右侧图为合作者数量与研究者比例的关系,均展示了模拟数据(红色方块)与实证数据(蓝色圆圈)的对比。

6.1.2.4. 新作者引入概率 pp

  • 对期刊影响因子的影响: 由于新作者和现有作者的能力 QQ 因子分布相同,pp 的变化对论文质量 ηi\eta_i 没有影响,因此不影响期刊影响因子。

  • 对 h 指数的影响: 图像 6(a) 显示,随着新作者引入概率 pp 的增加,h 指数分布逐渐被低 h 指数的新研究者主导。小 pp 值的分布往往高于大 pp 值的分布。 分析: 在平均团队规模 mm 保持不变的情况下,增加新作者引入概率 pp 意味着每发表一篇论文会生成更多的新作者。这些新作者通常具有较低的 h 指数。因此,随着 pp 的增加,研究者群体中低 h 指数研究者的比例会增加,导致整体 h 指数分布向低值倾斜。图像 6(b) 证实,平均 h 指数随 pp 的增加而下降。 下图(原文 Figure 13)展示了新作者引入概率 pp 对 h 指数的影响:

    Figure 4. Model simulations vs. APS empirical data: (a) researcher productivity distribution; (b) collaborator number distribution. 该图像是图表,展示了模拟数据与实证数据的比较。左侧图表显示了平均参考文献数量随年份的增长趋势,右侧图表显示了参考文献数量与论文比例的关系,分别用红色和蓝色标识。整体趋势揭示了模型与实际数据之间的相似性。

6.1.2.5. 固定 kk 下的团队规模 mm (特殊案例)

  • 背景: 本案例研究了在保持每篇新论文生成的新作者数量 kk 恒定的情况下,增加团队规模 mm 的影响。根据公式 k=mpk = mp,这意味着当 mm 增加时,新作者引入概率 pp 必须相应减少。这模拟了现有作者在不增加新作者总数的情况下,刻意扩大团队规模的情景。例如,当 k=0.679k=0.679 保持不变时,团队规模 mm 设定为 [1.1, 1.6, 2.6, 5.2, 10.1] 时,对应的 pp 值分别为 [0.767, 0.384, 0.192, 0.096, 0.048]

  • 对 h 指数的影响: 图像 7(a) 显示,当团队规模 mm 增加且 kk 保持不变时,中高 h 指数作者的数量显著增加分析: 这种情况下,虽然每篇论文生成的新作者数量(kk)保持不变,但团队规模 mm 的扩大意味着每位作者被选为共同作者的频率更高。由于 ppmm 增加而减少,现有资深作者(incumbents)被选中的概率相对增加。这会提高作者的生产力(即更多地参与论文发表),特别是那些合作频繁的作者,从而显著提升他们的 h 指数。图像 7(b) 清晰地表明,平均 h 指数随团队规模 mm 的增加而显著增加。 下图(原文 Figure 14)展示了固定 kk 下团队规模 mm 对 h 指数的影响:

    Figure 6. Model simulations vs. APS empirical data: (a) citation number distribution; (b) temporal variation of the journal impact factor of the APS dataset 该图像是图表,展示了模拟数据与APS实证数据的比较。左侧显示了论文引用数的分布,右侧展现了APS数据集的期刊影响因子的时间变化。模拟数据以红色方形表示,实证数据以蓝色圆圈表示。

6.2. 数据呈现 (表格)

本文未提供任何实验结果的表格,所有结果均通过图像形式展示。

6.3. 消融实验/参数分析

本文的“结果与分析”部分实质上就是一项综合的参数分析。作者系统地研究了 θθNNmm(在两种条件下)和 pp 等关键参数对期刊影响因子和 h 指数的影响。这类似于一种敏感性分析,旨在理解模型中各个参数对输出指标的贡献和调节作用,而非传统意义上通过移除模型组件来验证其必要性的消融实验。没有明确提及通过移除模型组件(如不使用 fitness、不使用 aging 等)来进行消融实验。

7. 总结与思考

7.1. 结论总结

本研究通过建立一个数学模型来模拟论文团队组建和引文过程,成功模拟了共同作者网络和引文网络的协同演化。模型计算了期刊影响因子和 h 指数等科学影响力指标,并针对 APS 数据集进行了全面验证,结果与实证数据高度吻合。

通过对论文生命周期 θθ、参考文献数量 NN、团队规模 mm 和新作者引入概率 pp 等参数进行详尽的参数研究,得出了以下关键结论:

  1. 建模与模拟方法的可靠性: 仅通过少数简单且合理的假设,数学模型就能有效复现大多数实证数据特征(包括 h 指数的时间动态和分布),表明建模与模拟方法是探索不同参数如何影响科学影响力指标的可靠工具。
  2. 影响力指标的参数敏感性与潜在“可操纵性”:
    • 增加参考文献数量 NN 或缩短论文生命周期 θθ 会显著提升期刊影响因子和平均 h 指数。
    • 在不引入新作者(即固定每篇论文生成的新作者数量 kk)的情况下扩大团队规模 mm,或降低新作者加入的概率 pp,会显著增加平均 h 指数。 这些发现暗示了科学影响力指标可能存在固有的弱点,或者可以被作者“操纵”,从而可能使其在评估论文的真实质量时变得不可靠。
  3. 模型的可扩展性与未来应用: 所提出的数学模型易于扩展,可纳入其他科学影响力指标和研究情景。这种多功能性使得建模与模拟方法成为研究各种参数对科学影响力指标影响的强大工具,有助于开发更完善的指标。此外,这些方法还可以作为验证潜在机制或基于联合共同作者和引文网络预测不同情景的强大工具。

7.2. 局限性与未来工作

论文主要通过揭示科学影响力指标的参数敏感性来间接指出其潜在的局限性,即这些指标可能因作者的策略性行为而失真,无法真实反映论文质量。这更多是指标本身的局限,而非模型本身的局限。

至于未来研究方向,论文明确提出了:

  • 探索这些参数的影响并不断完善科学影响力指标至关重要。
  • 模型可以很容易地扩展到包含其他科学影响力指标和情景。
  • 建模和模拟方法可以作为验证潜在机制或基于联合共同作者和引文网络预测不同情景的强大工具。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一些重要的启发:

  • 计算科学计量学的潜力: 论文有力地展示了计算机建模和模拟在科学计量学领域的巨大潜力。它不仅能克服真实数据采集、偏差和控制的难题,还能在受控环境中进行“思想实验”,揭示宏观规律背后的微观机制,并进行预测。这对于科学政策制定和学术生态系统理解具有重要价值。
  • 复杂系统涌现性: 论文通过相对简单的规则(如优先附着、适应度、老化、团队组建)构建了复杂的共同作者和引文网络,并成功再现了现实世界中多样化的科学计量学规律(如肥尾分布、洛特卡定律、h 指数线性增长)。这再次印证了复杂系统中宏观行为可以通过微观交互的简单规则涌现。
  • 对现有影响力指标的反思: 论文的关键发现——通过调整某些参数可以“操纵”期刊影响因子和 h 指数——是对当前学术评价体系的一个重要警示。它促使我们深入思考这些指标的内在缺陷,以及它们在多大程度上能够真实反映科研工作的质量和价值。对于科研工作者和政策制定者而言,这提醒我们不能盲目地追求或依赖单一指标,而应结合多维度、更鲁棒的评价体系。
  • 模型设计的透明度: 论文通过采用 Guimera 等人提出的更显式的团队组建参数,提高了共同作者网络演化机制的透明度,这对于理解和改进模型具有积极意义。

7.3.2. 批判与潜在改进

  • 模型假设的简化性: 尽管模型在重现实证规律方面表现出色,但其基础假设仍是对复杂现实的高度抽象。例如:
    • Q 因子: 将作者能力简化为独立的 QQ 因子,并通过团队中最大 QQ 因子决定论文质量,这可能无法完全捕捉团队协作中不同成员角色、互补性以及共同努力产生的协同效应。现实中的团队合作远比简单取最大值复杂。
    • 引用概率: 引用概率公式 Πi(t)=ηicitPi(t)\Pi_i(t) = \eta_i c_i^t P_i(t) 是一个乘性模型,它假设适应度、优先附着和老化效应是相互独立的。然而,这些因素在现实中可能存在更复杂的交互或非线性关系。
    • 新作者引入: 新作者加入的概率 pp 和团队规模 mm 设定为固定值或随时间线性变化,现实中新作者的涌入可能受经济、政策、领域热度等更多宏观因素影响。
  • 参数校准与普适性: 论文中的 θ=48θ=48 个月等参数是根据 APS 数据集校准的。虽然 APS 数据集具有代表性,但物理学领域的规律可能无法完全推广到其他学科(如数学、生物医学等),这些学科的论文生命周期、团队规模和合作模式可能存在显著差异。模型的普适性需要进一步在跨学科数据上进行验证。
  • “操纵”的定义与伦理边界: 论文指出指标可能被“操纵”,这是一个强烈的词语。然而,一些“操纵”行为(如增加参考文献数量)在一定程度上也是学术交流和知识整合的体现。如何区分真正的学术造假/策略性行为与合理的学术实践,是一个复杂的伦理和评价问题,模型本身可能难以直接回答。这需要更深层次的讨论,例如,模型是否可以区分“恶意操纵”和“自然演化”?
  • 未深入探讨的社会动力学: 共同作者网络虽然捕捉了合作次数,但并未深入模拟作者之间的更复杂社会动力学,例如导师-学生关系、不同机构/国家的合作偏好、声誉机制(除了 QQ 因子和合作次数)、以及研究资金和政策对合作和发表的影响。这些社会因素可能对影响力指标产生重要影响。
  • 未来改进方向:
    • 可以探索更复杂的团队组建模型,例如考虑作者的领域专长、地理位置、社会关系强度等。
    • 引入主题模型,使论文和作者具有主题属性,从而模拟基于兴趣相似度的引用和合作。
    • 考虑不同类型引用(如方法引用、背景引用)的影响,以及引用在不同语境下的权重差异。
    • 进一步探索如何设计更鲁棒、更难以被“操纵”的科学影响力指标,或者开发能评估指标“操纵风险”的模型。
    • 将模型应用于多期刊、多学科场景,进行交叉学科的比较研究,以检验模型的普适性。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。