AI2MMUM: AI-AI Oriented Multi-Modal Universal Model Leveraging Telecom Domain Large Model
TL;DR 精炼摘要
本文提出了AI2MMUM,一个面向6G的多模态通用模型,旨在处理多样化的数据与各类物理层任务。该模型基于以往在电信领域的研究,具备可扩展性和任务感知能力,能够根据细微指令灵活执行任务,并通过微调技术融入领域特定知识。全面评估显示其在多个无线任务中达到最新性能。
摘要
Designing a 6G-oriented universal model capable of processing multi-modal data and executing diverse air interface tasks has emerged as a common goal in future wireless systems. Building on our prior work in communication multi-modal alignment and telecom large language model (LLM), we propose a scalable, task-aware artificial intelligence-air interface multi-modal universal model (AI2MMUM), which flexibility and effectively perform various physical layer tasks according to subtle task instructions. The LLM backbone provides robust contextual comprehension and generalization capabilities, while a fine-tuning approach is adopted to incorporate domain-specific knowledge. To enhance task adaptability, task instructions consist of fixed task keywords and learnable, implicit prefix prompts. Frozen radio modality encoders extract universal representations and adapter layers subsequently bridge radio and language modalities. Moreover, lightweight task-specific heads are designed to directly output task objectives. Comprehensive evaluations demonstrate that AI2MMUM achieves SOTA performance across five representative physical environment/wireless channel-based downstream tasks using the WAIR-D and DeepMIMO datasets.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
AI2MMUM: 面向人工智能-空口的多模态通用模型,利用电信领域大模型 (AI2MMUM: AI-AI Oriented Multi-Modal Universal Model Leveraging Telecom Domain Large Model)
1.2. 作者
Tianyu Jiao, Zhuoran Xiao, Yihang Huang, Chenhui Ye, Yijia Feng, Liyu Cai, Jiang Chang, Fangkun Liu, Yin Xu, Dazhi He, Yunfeng Guan, and Wenjun Zhang, Fellow, IEEE。 作者团队来自多个机构,论文中列出的主要作者来自电信领域研究机构或大学,其中包括一位 IEEE Fellow。
1.3. 发表期刊/会议
预印本 (arXiv)。 原文链接显示该论文发布于 arXiv,发布时间为 2025年5月15日。arXiv 是一个广受欢迎的预印本服务器,允许研究者在正式同行评审和发表之前分享其研究成果,在学术界具有重要的信息传播作用。
1.4. 发表年份
2025年。
1.5. 摘要
本论文旨在为未来的无线系统设计一个面向 6G 的通用模型,该模型能够处理多模态数据并执行各种空口任务。基于作者在通信多模态对齐和电信大语言模型 (LLM) 方面的先前工作,本文提出了一个可扩展、任务感知的 人工智能-空口多模态通用模型 (AI2MMUM)。该模型能够根据细微的任务指令灵活有效地执行各种物理层任务。其 LLM 主干网络 (backbone) 提供了强大的上下文理解和泛化能力,同时采用微调 (fine-tuning) 方法来融入领域特定知识。为了增强任务适应性,任务指令由固定的任务关键词和可学习的、隐式的 prefix prompts 组成。冻结的无线电模态编码器提取通用表示,然后适配器 (adapter) 层连接无线电和语言模态。此外,轻量级的任务特定头部 (task-specific heads) 被设计用于直接输出任务目标。全面的评估表明,AI2MMUM 在使用 WAIR-D 和 DeepMIMO 数据集的五个代表性的基于物理环境/无线信道下游任务中,实现了最先进 (SOTA) 的性能。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2505.10003 PDF 链接: https://arxiv.org/pdf/2505.10003v1.pdf
2. 整体概括
2.1. 研究背景与动机
2.1.1. 6G 愿景与传统无线 AI 的局限性
6G 网络旨在实现无处不在的智能,并原生支持人工智能 (AI)。然而,传统的无线 AI 模型通常针对特定任务设计,参数量较少,导致其可迁移性 (transferability) 有限。这种特定任务的模型开发模式导致系统复杂性呈指数级增长,并带来了模型管理上的挑战,这在未来是不可持续的。
2.1.2. 通用模型的需求
未来无线系统需要一个通用模型 (universal model),它能够通过利用大量参数、海量数据和显著的计算资源来整合知识、进行推理和泛化,从而以高精度执行各种任务。
2.1.3. 新兴技术带来的多模态数据
在 6G 时代,集成传感与通信 (ISAC)、视觉辅助通信 (vision-aided communication) 和车联网 (V2X) 等新兴技术将极大丰富无线模态 (wireless modalities)。这将带来包括视觉、地图、位置、无线信道 (wireless channels) 和雷达等在内的多样化数据。因此,迫切需要开发一个能够处理这些多样化数据并执行多项任务的 人工智能-空口多模态通用模型 (AI2MMUM)。
2.1.4. 当前研究的空白与挑战
尽管已有关于 AI2MMUM 的初步构想和有限尝试,但仍存在诸多开放性问题。例如,如何利用上行信道和 3D 环境数据进行下行波束赋形 (downlink beamforming) 和功率分配。现有工作提出了无线中心的基础模型,或将多模态数据融入大语言模型 (LLM) 以理解地图和交通场景,或实现跨模态融合。然而,无线 AI2MMUM 的开发仍缺乏系统的模型结构设计和经济高效、灵活的训练方法。
2.1.5. 核心挑战
为开发 AI2MMUM,需要解决以下几个关键挑战:
- 任务指令理解: 模型必须能够理解任务指令,以准确完成任务。
- 多模态数据特征提取与融合: 处理无线多模态数据的网络模块必须具备强大的特征提取能力,并能有效弥合不同模态之间的鸿沟,实现知识的无缝融合。
- LLM 主干网络的泛化能力: 为执行多任务,AI2MMUM 主干网络必须具备强大的多模态上下文理解和泛化能力。
- 多样化任务目标的生成: 模型应能生成结构和精度要求各异的任务目标。
2.2. 核心贡献/主要发现
本文提出了一个可扩展、任务感知的 AI2MMUM 框架,其核心贡献和主要发现包括:
- 提出了创新的模型架构: AI2MMUM 结合了多模态无线电特征提取模块、任务指令模块、通过低秩适应 (LoRA) 增强的电信领域大语言模型主干网络以及轻量级的任务特定头部,实现了多模态数据处理和多任务执行。
- 引入灵活高效的任务指令机制: 通过结合固定的任务关键词 (fixed task keywords) 和可学习的隐式
prefix prompts,增强了模型的表达能力和任务适应性,同时保持了语义一致性。 - 利用预训练的无线电模态编码器: 沿用了作者先前工作中预训练的 EPNN (Environment Perception Neural Network) 和 CFENN (Channel Feature Extraction Neural Network) 作为冻结的模态编码器,以提取丰富、任务无关的无线特征表示,并使用适配器模块 (adapter modules) 桥接无线与语言模态。
- 高效地将领域知识融入 LLM: 采用 LoRA 技术对电信领域大语言模型主干网络进行微调,在保留原有语言知识的同时,有效融入通信领域知识,提高了模型的传输性和性能。
- 简化任务目标输出: 设计了轻量级的任务特定头部,直接从 LLM 主干网络输出任务目标,提高了预测准确性并降低了计算成本。
- 验证了模型在多任务上的优越性能: 在 WAIR-D 和 DeepMIMO 数据集上,对直接定位、LOS/NLOS 识别、MIMO 预编码、波束选择和路径损耗预测这五个代表性物理环境/无线信道下游任务进行了全面评估。实验结果表明,AI2MMUM 在所有任务上均取得了最先进 (SOTA) 的性能,并且明显优于传统非 LLM 方法和缺乏本文创新设计的基准模型。
- 揭示了无线电与语言知识的兼容性: 实验结果强调了无线电和语言知识之间的兼容性,为统一的无线多模态智能描绘了前景。
3. 预备知识与相关工作
3.1. 基础概念
为了充分理解本论文,需要掌握以下关键基础概念:
3.1.1. 6G 网络 (6G Networks)
6G 是第六代移动通信技术,旨在超越 5G,实现更高的速率、更低的时延、更广的连接密度、更强的可靠性,并深度融合人工智能、感知、计算、安全等能力,以支持全域智能、万物智联的未来愿景。本论文提出的模型是面向 6G 网络的,强调其在多模态数据处理和多样化空口任务执行方面的能力。
3.1.2. 通用模型 (Universal Model)
在人工智能领域,通用模型 (universal model) 通常指一个能够处理多种输入模态、执行多种任务,并具备强大泛化能力的单一模型。它通过大规模预训练和利用海量参数、数据及计算资源来集成和推理知识。与针对特定任务训练的传统模型不同,通用模型旨在减少模型开发和管理的复杂性,提高效率和可迁移性。
3.1.3. 多模态数据 (Multi-Modal Data)
多模态数据 (multi-modal data) 是指来自不同模态(或类型)的数据集合,这些模态捕获了同一现象的不同方面。在无线通信领域,特别是 6G 场景下,多模态数据可以包括:
- 视觉 (Vision) 数据: 例如图像、视频,用于场景理解、目标识别等。
- 地图 (Maps) 数据: 例如地理信息、建筑布局,用于定位、路径规划。
- 位置 (Location) 数据: 设备的地理坐标。
- 无线信道 (Wireless Channels) 数据 (CSI): 反映无线信号在传播路径上的衰减、多径效应等,是无线环境的指纹。
- 雷达 (Radar) 数据: 用于目标检测、测距和速度估计。 本文中的 AI2MMUM 旨在处理这些多样化的数据。
3.1.4. 空口任务 (Air Interface Tasks)
空口任务 (air interface tasks) 是指在无线通信系统物理层 (physical layer) 和链路层 (link layer) 上执行的与无线信号传输和接收相关的具体功能。这些任务直接影响通信质量和系统性能,例如:
- 定位 (Positioning): 确定用户设备 (UE) 的精确位置。
- 视距/非视距 (LOS/NLOS) 识别: 判断信号传播路径是直接视距 (Line-of-Sight) 还是被障碍物阻挡的非视距 (Non-Line-of-Sight)。
- MIMO 预编码 (MIMO Precoding): 在多输入多输出 (MIMO) 系统中,通过对发射信号进行加权处理以优化接收信号质量或空间复用。
- 波束选择 (Beam Selection): 在波束赋形 (beamforming) 技术中,从一组预定义的波束中选择最佳波束以对准用户。
- 路径损耗预测 (Path Loss Prediction): 预测无线信号在传播过程中由于距离和环境因素造成的功率衰减。
3.1.5. 大语言模型 (Large Language Model, LLM)
大语言模型 (LLM) 是一种基于深度学习的神经网络模型,通常采用 Transformer 架构,通过在海量文本数据上进行预训练,学习语言的统计规律、语义和语法。LLM 具备强大的上下文理解、文本生成、推理和泛化能力。本文将 LLM 作为 AI2MMUM 的主干网络,以提供这些强大的能力。
3.1.6. 低秩适应 (Low-Rank Adaptation, LoRA)
低秩适应 (LoRA) 是一种高效的微调 (fine-tuning) 技术,用于将预训练的深度学习模型(尤其是大型模型)适应到新的下游任务。它的核心思想是:在预训练模型的权重矩阵 上添加一个低秩的更新矩阵 AB,其中 和 是具有较小维度的矩阵,通过它们的乘积来近似原始权重的变化。这样,在微调过程中,只需训练 和 这两个矩阵的参数,而原始的 保持冻结。这大大减少了可训练参数的数量,从而降低了计算资源需求,加速了训练过程,并有助于避免在小数据集上过拟合。
3.1.7. 对比学习 (Contrastive Learning)
对比学习 (contrastive learning) 是一种自监督学习方法,旨在学习数据的通用表示。其基本思想是:通过设计一个 损失函数 (loss function),使得在表示空间中,相似的样本(正样本对)之间的距离尽可能小,而不相似的样本(负样本对)之间的距离尽可能大。通过这种方式,模型可以在没有 人工标注 (human annotations) 的情况下,学习到对下游任务有用的判别性特征。本文的先前工作利用对比学习预训练了多模态无线电编码器。
3.1.8. 信道状态信息 (Channel State Information, CSI)
信道状态信息 (CSI) 是描述无线电信号在发射机和接收机之间传播路径特征的参数。它包含了信号衰减、相位旋转、多径传播、多普勒频移等信息。CSI 对于优化无线通信系统性能至关重要,例如用于波束赋形、资源分配、干扰管理和定位等。
3.2. 前人工作
论文在引言中提到了以下与 AI2MMUM 相关的先前工作:
- 6G AI 模型综述 [1]: 讨论了 6G 无线网络中大型 AI 模型的机遇、挑战和研究方向,为本文奠定了理论背景。
- 电信领域生成式 AI 模型 [2]: 探讨了大型生成式 AI 模型在电信领域的潜力,暗示了 LLM 在该领域应用的趋势。
- 无线中心的基础模型 [3]: 提出了一种以无线为中心的基础模型,集成了多模态数据融合、接地 (grounding) 和可指令性 (instructibility) 等能力,与本文的通用模型概念相呼应。
- MAPLM (V2X 场景的视觉-语言基准) [4]: 在车联网 (V2X) 场景中,将 2D 图像、3D LiDAR 点云和地图上下文集成到 LLM 中,用于地图和交通场景理解。这表明 LLM 在多模态融合方面的潜力。
- Talk2Radar (4D mmWave 雷达与自然语言的结合) [5]: 实现了毫米波雷达与自然语言的跨模态融合,以实现 3D 视觉定位,促进自动驾驶中的环境理解。这进一步展示了不同模态与语言模型结合的可能性。
- NetLLM (LLM 处理多模态网络数据) [6]: 开发了 NetLLM,使 LLM 能够处理多模态网络数据并生成任务特定答案。这与本文将 LLM 应用于电信领域、处理多模态数据的目标相似。
- 作者的先前工作 [7, 8]:
- 6G-oriented CSI-based multi-modal pre-training and downstream task adaptation paradigm [7]: 提出了面向 6G 的基于 CSI 的多模态预训练和下游任务适应范式。
- Addressing the curse of scenario and task generalization in AI-6G: A multi-modal paradigm [8]: 探讨了在 AI-6G 中解决场景和任务泛化难题的多模态范式。 这两项工作为本文的通信多模态对齐和电信大语言模型奠定了基础,特别是预训练的 EPNN 和 CFENN 模态编码器直接来源于这些工作。
3.3. 技术演进
该领域的技术演进可以概括为从特定任务模型向通用基础模型的转变,并从单模态处理向多模态融合发展:
- 早期无线 AI: 传统的无线 AI 模型通常针对特定任务(如定位、信道估计)进行设计和优化,参数量小,但泛化能力和可迁移性差,导致系统复杂性高。
- 大模型范式兴起: 随着
Transformer架构和大规模预训练的成功,大模型(尤其是 LLM)在自然语言处理领域展现出强大的上下文理解、泛化和推理能力。这促使研究者思考将其引入其他领域。 - 多模态 AI 发展: 随着传感器技术和 6G 愿景的演进,无线通信系统将面临更多样化的数据模态。将不同模态的数据融合处理,以获得更全面的环境感知和决策能力,成为一个关键趋势。LLM 在处理文本指令方面的优势,使其成为多模态融合的理想桥梁。
- 电信领域 LLM 的萌芽: 在通用 LLM 的基础上,研究者开始尝试将其适应到特定领域,例如网络管理 (NetLLM) 或电信领域,以更好地理解和处理专业数据。
- AI2MMUM 的提出: 本文的工作正处于这一演进的交汇点,旨在构建一个结合了电信领域 LLM 的泛化能力、多模态无线电特征提取能力以及任务指令理解能力的通用模型,以应对 6G 时代多样化的无线空口任务。
3.4. 差异化分析
本文的 AI2MMUM 与相关工作的主要区别和创新点体现在以下几个方面:
- 系统化的模型结构设计: 现有工作多为概念性探讨或特定场景下的多模态融合尝试。AI2MMUM 提出了一个完整的、可扩展的系统架构,包括多模态无线电特征提取、任务指令模块、电信 LLM 主干网络(通过 LoRA 增强)和任务特定头部,为 6G 通用模型提供了一个具体的实现框架。
- 领域定制的 LLM: 本文利用了一个基于 LLaMA2-7B 并在电信语料库上重新训练的 LLM 作为主干网络,使其更适合处理电信领域的任务。结合 LoRA 微调,实现了在保留通用语言知识的同时,高效吸收通信领域知识。
- 创新的任务指令机制: 引入了
固定任务关键词与可学习前缀提示 (learnable prefix prompts)相结合的任务指令模块。这使得模型能够根据细微指令灵活执行任务,提高了任务适应性和可控性,而不仅仅是简单的文本输入。 - 预训练模态编码器的利用: 借鉴了作者团队在通信多模态对齐方面的先前工作,使用了预训练且冻结的 EPNN 和 CFENN 来提取鲁棒的、任务无关的无线电模态表示,显著降低了对标注数据的依赖,并增强了模型的泛化能力。
- 轻量化和高效性: 采用 LoRA 进行参数高效微调,以及设计轻量级的任务特定头部直接输出任务目标,优化了模型的训练成本、推理时间,并简化了外部网络结构,提高了实用性。
- 强调“AI-AI Oriented”: 标题中的 "AI-AI Oriented" 暗示了模型不仅利用 AI,还可能服务于 AI 驱动的 6G 系统,作为智能体 (agent) 的核心组件。
4. 方法论
4.1. 方法原理
AI2MMUM 的核心思想是构建一个能够理解人类指令,并处理多种无线电模态数据来执行多样化空口任务的通用模型。它通过将预训练的电信领域大语言模型 (LLM) 作为强大的知识整合和推理核心,辅以专门设计的模块来桥接无线电模态与语言模态、高效地融入领域知识,并根据任务指令精确输出结果。该方法致力于解决传统无线 AI 模型泛化性差、管理复杂的问题,实现 6G 时代对多模态、多任务处理能力的需求。
4.2. 核心方法详解
4.2.1. 通道模型与问题陈述
论文首先以无线信道模态为例,描述了大规模多输入多输出 (MIMO) 系统在正交频分复用 (OFDM) 模式下的信道模型。 考虑一个基站 (BS) 配备 根天线(以均匀线性阵列 ULA 排列),用户设备 (UE) 具有单根天线。系统运行在 个子载波上。
信道向量的表示: 无线信道在特定载波频率 下的信道向量 可以表示为: 符号解释:
- : 载波频率。
- : 传播路径的数量。
- : 第 条路径的幅度衰减 (amplitude attenuation)。
- : 第 条路径的时间延迟 (time delay)。
- : 第 条路径的到达角 (Angle of Arrival, AoA)。
- : 第 条路径的阵列向量 (array vector)。
阵列向量的表示: 阵列向量 具体表示为: 符号解释:
- : 基站天线数量。
- : 一个常数,其中 是天线间距, 是光速。
- : 表示向量转置。
CSI 矩阵的定义: 综合考虑所有子载波,信道状态信息 (CSI) 矩阵 可以定义为: 符号解释:
- : 子载波频率的集合。
AI2MMUM 的通用任务流程: 利用 AI2MMUM 强大的泛化能力,模型旨在根据不同的需求,使用大量收集到的无线数据执行多样化的空口任务。以 CSI 为例,它作为信号空间中物理环境的映射,支持定位、视距/非视距 (LOS/NLOS) 识别和毫米波 MIMO 预编码 (mmMIMO precoding) 等一系列空口任务,每个任务关注不同的特征。
为了实现这一点,无线信道 和任务指令 首先被转换为词元嵌入向量 (token embedding vectors) 和 : 符号解释:
- : 无线信道 经过处理后的嵌入向量。
- : 将无线信道数据转换为嵌入向量的函数,由参数 定义的神经网络实现。
- : 任务指令 经过处理后的嵌入向量。
- : 将任务指令转换为嵌入向量的函数,由参数 定义的神经网络实现。
- 和 : 分别代表相应的神经网络 (NN) 参数。 为了实现跨模态理解, 和 被设计为具有相同的维度。
然后,这些嵌入向量被拼接 (concatenated) 起来,并输入到 AI2MMUM 主干网络 (backbone) 中,用于任务特定的特征提取: 符号解释:
-
: 从主干网络输出的特征向量。
-
: 主干网络函数,由参数 定义。
-
: 拼接操作,将 和 沿某个维度合并。
-
: 主干网络的参数。
最后,特征 被转换为子任务目标 : 符号解释:
-
: 子任务的目标输出,例如用户位置、LOS 状态或预编码矩阵。
-
: 将特征转换为任务目标的函数,由参数 定义的神经网络实现。
-
: 转换网络的参数。
4.2.2. 提出的网络结构
本节提出了一个面向 6G 的、可扩展且任务感知的 AI2MMUM,它由四个关键组件构成,如原文 Figure 2 所示:
-
多模态无线电特征提取模块 (Multi-Modal Radio Feature Extraction Module)
-
任务指令模块 (Task Instruction Module)
-
通过 LoRA 增强的电信领域大语言模型主干网络 (Telecom LLM Backbone Enhanced with LoRA)
-
任务特定头部 (Task-Specific Heads)
该图像是图表,展示了6G导向的可扩展任务感知AI2MMUM的网络结构。图中包括多模态无线电特征提取、通信LLM主干和任务特定头部等模块,涉及位置、LOS状态等任务指令以及任务关键描述。
图 2 展示了所提出的 6G 导向的可扩展任务感知 AI2MMUM 的网络结构。
4.2.2.1. 多模态无线电特征提取模块
该模块是构建 AI2MMUM 的基础,旨在从无线数据中提取信息丰富的特征。
-
预训练编码器: 论文利用了先前工作 [8] 中预训练的大规模模型,该模型包含一个环境感知神经网络 (Environment Perception Neural Network, EPNN) 和一个信道特征提取神经网络 (Channel Feature Extraction Neural Network, CFENN)。
-
EPNN 处理物理环境模态数据(区域地图、基站和用户设备信息)。
-
CFENN 处理无线信道模态数据(CSI)。
-
训练方式: 这两个编码器通过对比学习 (contrastive learning) 在大量数据集上进行预训练。对比学习最大化了相关环境-信道对的特征相似性,同时最小化了不相关对的特征相似性。
-
特性: 预训练的 EPNN 和 CFENN 展现出场景泛化能力 (scenario generalization capabilities) 和提取通用模态表示 (universal modality representations) 的能力。
-
应用: 在本研究中,这些编码器被冻结 (frozen),并作为特征提取器直接应用于模型中。相比从头开始训练,这提供了对无线特征更全面的洞察,显著减少了对标注数据的依赖,并增强了 AI2MMUM 的泛化性和任务适应性。
该图像是一个示意图,展示了无线信道和物理环境如何通过 CFNN 和 EPNN 处理并输出结果。上方的无线信道被映射到 CFNN,而下方的物理环境则通过 EPNN 进行处理,最终生成的输出数据呈现于右侧的矩阵中。
图 3 描绘了通信多模态对齐的框架,展示了 CFENN 和 EPNN 如何处理无线信道和物理环境数据。
-
-
适配器层 (Adapter Layers): 为了解决无线电模态编码器输出与 LLM 主干网络输入之间的维度不匹配问题,采用了适配器层 (adapter layers)。
- 功能: 这些层用于桥接无线电和语言模态的嵌入空间,实现跨模态知识的无缝传输和集成。
- 特点: 适配器层参数量较少,计算开销最小。当引入新的模态(如雷达、LiDAR)时,只需更新相应的适配器层,而模态编码器保持冻结状态。
4.2.2.2. 任务指令模块
任务指令模块通过在多模态语境中提供判别性信息,引导 AI2MMUM 处理无线数据并执行特定任务。
- 语言基础: 基于文本的指令对人类友好且与 LLM 兼容。文本首先被词元化 (tokenized) 为词汇索引 (vocabulary indices),然后映射到高维词元嵌入 (token embeddings)。
- 指令多样性与挑战: 任务特定的提示 (prompts) 可以非常多样。例如,定位任务的提示可以是“请从该 CSI 推断用户位置”或“此无线信道的位置信息是什么?”。考虑到未预训练的无线数据和 LLM 的黑盒特性,这些提示对任务性能的影响尚不确定。然而,在这些提示中存在一致的任务特定关键词 (fixed task keywords),例如“位置”。
- 创新设计: 本文提出通过整合固定任务关键词嵌入与可学习前缀提示 (learnable prefix prompts) 来构建最优的任务特定提示。
- 固定任务关键词: 提供任务的核心语义。
- 可学习前缀提示: 是可训练的嵌入,隐式编码任务指令,由多个词元组成。
- 优势: 这种设计增强了 AI2MMUM 的可迁移性 (transferability),并与人类认知对齐,为多样化的空口任务提供了稳健的解决方案。
4.2.2.3. 通过 LoRA 增强的电信领域大语言模型主干网络
该模块负责处理和解释无线数据与任务指令。
- 输入: 无线数据 ( 或 ,其中 代表物理环境数据,即由 EPNN 产生的嵌入) 和任务指令 () 的词元嵌入被拼接 (concatenated) 起来。位置嵌入 (positional embeddings) 被添加到组合后的词元中,以提供序列信息,确保准确处理多模态上下文。
- 主干网络结构: 主干网络由多个堆叠的
Transformer块组成,通过自注意力机制 (self-attention mechanisms) 和前馈网络 (feedforward networks) 逐步提取和整合语言和无线数据中的特征。这种分层结构使模型能够吸收复杂的知识,从而增强其复杂表示的表达能力。 - 挑战与 LoRA 的引入:
- 挑战: LLM 主干网络是在大规模自然语言语料库上预训练的,参数量庞大,更新成本高昂,且其本身在处理 CSI 等无线多模态数据方面存在固有限制。同时,它必须在吸收通信领域知识的同时,保留其原有的语言知识。
- 解决方案——LoRA: 为解决这些问题,本文采用了灵活且经济高效的微调方法——低秩适应 (Low-Rank Adaptation, LoRA)。通过动态调整主干网络中的特定模块,LoRA 提高了模型的可迁移性和性能,尤其适用于小数据集、跨领域任务和资源受限的场景。
- LoRA 工作原理: 对于每个维度为 的预训练矩阵 ,LoRA 假设存在一个低秩 ,并构建两个低秩矩阵 和 来近似模型权重更新。更新后的权重 表示为 。这显著减少了需要调整的参数数量。在适应过程中, 保持冻结,参数更新仅限于 和 。
- 模态分离与共享: 由于每种模态独特的内在特性,一个 LoRA 专门用于学习单个无线模态,而任务指令和 LLM 主干网络支持完成与该模态相关的各种下游任务。多个 LoRA 可以共享同一个主干网络,从而实现快速模态切换和高可扩展性。
4.2.2.4. 任务特定头部
该模块负责将 LLM 主干网络的输出转换为具体的任务目标。
- 输出挑战: LLM 通常使用单次前向传播 (single forward pass) 中输出序列的最后一个词元作为该迭代的预测结果,以处理不同长度的词元。如果进行多次迭代,并通过解嵌入 (de-embedding) 和解词元化 (de-tokenizing) 多个预测词元来获得基于语言的结果,会降低预测准确性并增加计算成本。
- 单次通过与任务特定头部: 单次通过的方法可以使主干网络仅专注于原始的多模态输入,最大限度地减少输出不确定性,缩短推理时间,并将任务相关的摘要特征封装在一个预测词元中。
- 设计: 为了将预测的词元嵌入转换为下游任务目标,采用了由单个线性层组成的任务特定头部 (task-specific heads)。这增强了 LLM 主干网络内的任务处理能力,并简化了外部网络结构。
- 实际应用: 在实际应用中,这些头部可以封装在不同的应用编程接口 (APIs) 中。AI2MMUM 可以根据任务指令和函数调用识别并调用适当的 API,从而生成最终结果。
5. 实验设置
5.1. 数据集
实验中使用了两个数据集:
-
无线 AI 研究数据集 (WAIR-D) [9]:
- 特点: 包含 10,000 个不同尺寸的真实世界区域。
- 用途: 作者在通信多模态对齐的先前工作中,利用 WAIR-D 的 9,000 个区域(编号 #01001 到 #10000)中的 2.25M 模态样本对(包括物理环境数据如区域地图、BS 和 UE 信息,以及无线信道数据如 CSI)预训练了 EPNN 和 CFENN 模型,使其具备鲁棒的场景泛化和模态表示能力。
- 本研究用途: 在本研究中,AI2MMUM 使用了来自先前未见的 WAIR-D 区域 #00032 和 #00247 的各 10,000 个样本进行训练和测试。
-
DeepMIMO 数据集 [10]:
- 特点: 本实验采用其 Outdoor 1 (O1) 场景,该场景包含 18 个基站 (BS) 和位于被建筑物包围的十字形区域内的用户设备 (UE)。
- 本研究用途: AI2MMUM 使用 DeepMIMO O1 场景中的 BS#12 的数据进行训练和测试。
5.2. 评估指标
论文针对五种下游任务,使用了不同的评估指标。下面将对每个指标进行详细说明:
5.2.1. CDF90 (Cumulative Distribution Function 90th Percentile)
- 概念定义: CDF90 表示在定位误差累积分布函数曲线上,90% 的样本所对应的误差值。它衡量了模型在绝大多数情况下(90% 的样本)的定位精度上限,是衡量定位系统鲁棒性和可靠性的一个重要指标。较低的 CDF90 值表示更好的定位性能。
- 数学公式: 如果
F(x)是定位误差的累积分布函数,则 CDF90 是满足以下条件的最小误差值 : 在实际计算中,通常将所有定位误差值按升序排列,然后找出位于第 90 个百分位点上的误差值。 - 符号解释:
F(x)是误差 的累积分布函数, 表示误差小于或等于 的概率。
5.2.2. 分类准确率 (Classification Accuracy)
- 概念定义: 分类准确率是正确分类的样本数量占总样本数量的比例。它是衡量分类模型性能最直观和常用的指标之一,适用于评估模型在 LOS/NLOS 识别和波束选择等任务中的判别能力。
- 数学公式:
- 符号解释:
Number of Correct Predictions指的是模型正确预测的样本数量,Total Number of Predictions指的是所有进行预测的样本总数。
5.2.3. SGCS (Squared Generalized Cosine Similarity)
- 概念定义: SGCS (Squared Generalized Cosine Similarity) 是一种衡量两个向量(或复数向量)之间相似性的指标。在 MIMO 预编码任务中,它用于比较模型预测的预编码矩阵与最优预编码矩阵之间的相似度。SGCS 的值在 0 到 1 之间,值越接近 1 表示两个矩阵的相似度越高,即预测的预编码矩阵越接近最优。
- 数学公式: 对于两个复数向量 和 ,SGCS 定义为:
- 符号解释:
- 和 : 两个复数向量,例如预编码矩阵的列向量。
- : 向量 的共轭转置 (conjugate transpose)。
- : 取复数的模 (modulus)。
- : 向量的 L2 范数 (Euclidean norm)。
5.2.4. RMSE (Root Mean Squared Error)
- 概念定义: 均方根误差 (RMSE) 是预测值与真实值之间差异的平方的均值的平方根。它衡量了预测值的离散程度和准确性,对大误差具有惩罚作用(因为误差被平方)。在路径损耗预测等回归任务中,RMSE 是一个重要的评估指标,值越小表示预测结果越精确。
- 数学公式:
- 符号解释:
- : 样本总数。
- : 第 个样本的真实值。
- : 第 个样本的预测值。
5.3. 对比基线
为了全面评估 AI2MMUM 的性能和各个模块设计的必要性,论文进行了消融研究 (ablation studies),并与六个基准方法进行了比较:
- FP (Fixed Prompt) 方法: 仅使用固定的任务关键词描述作为文本输入,不包含可学习的前缀提示。该基线用于突出可学习前缀提示的贡献。
- SP (Same Prompt) 方法: 所有任务都使用相同的、单一的指令(包含固定的“用户信息”和可学习提示)来执行。该基线用于强调为不同任务设计不同任务指令的重要性。
- TE/TC (Train EPNN/CFENN) 方法: 涉及从头开始训练 EPNN 或 CFENN,而不是使用预训练并冻结的编码器。该基线用于凸显大规模多模态对齐获得的特征提取能力的优势。
- WL (Without LoRA) 方法: LLM 主干网络仅使用其原始预训练的语言知识来处理无线数据,不使用 LoRA 进行微调。该基线用于展示 LoRA 在学习领域特定知识中的作用。
- RL (Random LLM) 方法: 使用随机初始化并冻结的 LLM 主干网络,同时使用 LoRA 进行训练。该基线用于评估语言知识是否有助于通信任务的执行。
- WM (Without LLM) 方法: 排除任务指令模块和 LLM 主干网络,直接将适配器连接到任务头部进行端到端监督训练。该基线代表了传统的无线 AI 方法。
5.4. 模型设置
论文详细描述了 AI2MMUM 及其组件的具体网络设置:
-
EPNN 和 CFENN 参数:
- EPNN 包含约 7.5M 参数。
- CFENN 包含约 7.1M 参数。
- 两者都生成维度为 128 的通用模态表示。
-
任务指令模块设置:
- 任务关键词描述最多包含两个词元 (tokens)。
- 可学习的前缀提示 (learnable prefix prompts) 占据三个词元。
-
LLM 主干网络设置:
- 词元化器层 (tokenizer layer)、嵌入层 (embedding layer) 和 LLM 主干网络源自作者的电信 LLM [11],该 LLM 基于 LLaMA2-7B 模型并在电信语料库上重新训练。
- 词元嵌入维度 (token embedding dimension) 为 4096。
-
适配器模块设置:
- 适配器模块使用一个线性层,将维度从 128 映射到 4096,以对齐无线模态编码器输出与 LLM 主干网络输入的维度。
-
LoRA 设置:
- 为了使 LLM 主干网络高效地获取环境和信道知识,自注意力机制 (self-attention mechanism) 中的查询 (query) 和键 (key) 权重矩阵使用 LoRA 矩阵进行微调。
- LoRA 的秩 (rank) 设置为 8。
- 通过 LoRA 增加了约 8.4M 参数。
-
任务特定头部设置:
- 任务特定头部使用一个线性层,将 4096 维的任务相关特征词元转换为下游任务目标。
-
下游任务类型、输入和输出: 以下是原文 Table I 的内容,展示了五个示例下游任务的任务类型、输入和输出。
Downstream Task Task Type Input Output Direct Positioning Regression WC+Textpos UE Position LOS/NLOS Identification Classification WC+Textlos UE LOS Status MIMO Precoding Regression WC+Textpre Precoding Matrix Beam Selection Classification PE+Textbeam Beam Index Path Loss Prediction Regression PE+Textpl Path Loss Value
(WC 和 PE 分别表示无线信道数据和物理环境数据。)
-
损失函数:
- 直接定位和路径损耗预测任务:均方误差 (MSE) 损失。
- LOS/NLOS 识别和波束选择任务:交叉熵 (cross-entropy) 损失。
- MIMO 预编码任务:平方广义余弦相似度 (SGCS) 损失。
-
特定任务处理:
- 预编码任务: CSI 进行奇异值分解 (SVD) 以获取最优预编码矩阵。
- 波束选择任务: 从离散傅里叶变换 (DFT) 码本中选择最佳波束索引。
6. 实验结果与分析
6.1. 核心结果分析
本节分析了提出的 AI2MMUM 方法及其六个基准在 WAIR-D 和 DeepMIMO 数据集上的性能表现,主要涉及直接定位、LOS/NLOS 识别、MIMO 预编码、波束选择和路径损耗预测任务。
6.1.1. 总体性能概述
总体而言,本文提出的 AI2MMUM 方法在所有模态、数据集和任务中均表现优于所有基准模型,证明了其卓越的整体性能。
6.1.2. 基准方法分析与 AI2MMUM 优势
- FP (Fixed Prompt) 方法对比:
- 结果: FP 方法的性能不如本文提出的方法。
- 分析: 这表明,仅使用固定任务关键词而没有可学习前缀提示时,模型在识别和提取任务相关特征方面的能力受限。引入可学习的
prompts使模型能够更准确地理解和响应任务指令,从而提升了整体性能。
- SP (Same Prompt) 方法对比:
- 结果: SP 方法在某些任务(如预编码矩阵和波束索引)上的预测准确性显著下降。
- 分析: 当所有任务共享相同的指令时,LLM 主干网络会输出任务无关的特征。对于像位置、LOS 状态或路径损耗这样的低维目标,这种通用特征可能尚可接受。然而,对于预编码矩阵或波束索引等高维目标,这些特征会受到来自其他任务标签的干扰,引入偏差,从而大幅降低预测准确性。这强调了为不同任务提供独特且有引导性的任务指令的重要性。
- TE/TC (Train EPNN/CFENN) 方法对比:
- 结果: TE/TC 方法的性能低于本文提出的方法。
- 分析: 从头开始训练 EPNN 或 CFENN 表明,仅仅依赖局部数据进行训练会限制模型的知识广度。这凸显了通过大规模多模态对齐(如作者先前工作)获得的 EPNN 和 CFENN 的鲁棒表示能力,这些预训练的编码器提供了更全面的无线特性洞察。
- WL (Without LoRA) 方法对比:
- 结果: WL 方法的性能虽然有所下降,但仍然“直观上可接受”。
- 分析: 这表明 LLM 主干网络原始的预训练权重对通信任务已经具备一定的收敛能力,因为排除了 LoRA 减少了可调参数。然而,LoRA 通过有效吸收新的无线知识,进一步增强了任务性能,证明了其在领域知识学习中的关键作用。
- RL (Random LLM) 方法对比:
- 结果: 随机初始化电信 LLM 导致大多数任务的性能显著下降。
- 分析: 这强烈暗示了语言知识与无线领域知识的兼容性。随机初始化的 LLM 缺乏通用语言理解能力,无法有效处理多模态输入,从而导致性能退化。尽管 LoRA 在一定程度上补偿了初始化不足造成的缺陷,但原始 LLM 的预训练语言能力对于通信任务的执行仍然至关重要。
- WM (Without LLM) 方法对比:
- 结果: WM 方法(传统无线 AI 方法)在适应多任务方面表现挣扎,精度较低。
- 分析: 这是最重要的一项对比。WM 方法未能利用 LLM 主干网络的泛化能力和任务指令的判别能力。这证明了将 LLM 引入无线通信领域,并结合任务指令机制的必要性和优越性,传统方法难以在多样化任务中达到高精度。
6.1.3. 数据呈现
以下是原文 Table I 的内容,展示了五个示例下游任务的任务类型、输入和输出,以便读者理解实验的具体内容。
| Downstream Task | Task Type | Input | Output |
| Direct Positioning | Regression | WC+Textpos | UE Position |
| LOS/NLOS Identification | Classification | WC+Textlos | UE LOS Status |
| MIMO Precoding | Regression | WC+Textpre | Precoding Matrix |
| Beam Selection | Classification | PE+Textbeam | Beam Index |
| Path Loss Prediction | Regression | PE+Textpl | Path Loss Value |
(WC 和 PE 分别表示无线信道数据和物理环境数据。)
原文 Figure 4 展示了 AI2MMUM 和六个基准在基于信道的直接定位、LOS/NLOS 识别和 MIMO 预编码任务上的性能,分别在 WAIR-D 区域 #00032 (左侧) 和 DeepMIMO O1 BS#12 (右侧) 数据集上。

该图像是图表,展示了我们提出的方法与六个基准在信道基础的直接定位、LOS/NLOS 识别和 MIMO 预编码任务中的表现。左侧为 WAIR-D 区域 #00032,右侧为 DeepMIMO O1 BS#12。
图 4 展示了我们提出的方法与六个基准在信道基础的直接定位、LOS/NLOS 识别和 MIMO 预编码任务中的表现。左侧:WAIR-D 区域 #00032。右侧:DeepMIMO O1 BS#12。
原文 Figure 5 展示了 AI2MMUM 和六个基准在 WAIR-D 区域 #00247 的基于环境的波束选择和路径损耗预测任务上的性能。

该图像是图表,展示了我们的方法与六个基准在 WAIRD 区域 ext{#00247} 的环境基础波束选择和路径损耗预测任务上的性能对比。在波束选择任务中,我们的方法显示出88.00%的最高准确率;而在路径损耗预测任务中,表现出的 RMSE 约为 5.6 dB。
图 5 展示了我们的方法与六个基准在 WAIRD 区域 的环境基础波束选择和路径损耗预测任务上的性能对比。在波束选择任务中,我们的方法显示出88.00%的最高准确率;而在路径损耗预测任务中,表现出的 RMSE 约为 5.6 dB。
6.2. 消融实验/参数分析
论文通过比较六个基准方法与提出的 AI2MMUM,实际上是进行了一系列消融研究,以验证模型各组件的有效性。
-
可学习提示的有效性 (通过 FP 比较): FP 方法的性能劣于完整模型,证明了可学习前缀提示在引导模型提取任务相关特征方面的关键作用。
-
任务特定指令的重要性 (通过 SP 比较): SP 方法在处理高维任务时性能显著下降,强调了针对不同任务提供独立指令的必要性,以避免任务间特征的混淆。
-
预训练模态编码器的价值 (通过 TE/TC 比较): TE/TC 方法的次优表现证实了大规模多模态对齐预训练的 EPNN/CFENN 在提供鲁棒、通用无线特征表示方面的优越性,避免了从零开始训练的局限性。
-
LoRA 对领域知识学习的贡献 (通过 WL 比较): WL 方法虽有一定性能,但不如完整模型,表明 LoRA 能够有效地将新的无线知识融入 LLM 主干网络,进一步优化模型在特定领域任务上的表现。
-
LLM 语言知识的兼容性 (通过 RL 比较): RL 方法的性能大幅下降,强有力地证明了预训练的语言知识与无线领域知识之间存在兼容性,且对通信任务的执行至关重要,而非随机初始化。
-
LLM 泛化能力和指令判别力的必要性 (通过 WM 比较): WM 方法作为传统的无线 AI 方法,未能有效适应多任务,其性能显著落后。这最终证明了 LLM 主干网络的泛化能力和任务指令的判别能力是构建高性能多模态通用模型的不可或缺的组成部分。
这些消融实验有力地支持了 AI2MMUM 框架中所有创新设计(可学习提示、任务特定指令、预训练编码器、LoRA 微调和 LLM 主干网络)的必要性和有效性。
7. 总结与思考
7.1. 结论总结
本文提出了 AI2MMUM (AI-AI Oriented Multi-Modal Universal Model Leveraging Telecom Domain Large Model) 框架,旨在解决 6G 时代无线通信系统中多模态数据处理和多样化空口任务执行的挑战。该框架巧妙地利用了电信领域大语言模型 (LLM) 的强大泛化能力和任务指令的判别能力。
AI2MMUM 的核心设计包括四个关键组件:
-
多模态无线电特征提取模块: 采用预训练且冻结的 EPNN 和 CFENN 编码器,从物理环境和无线信道数据中提取鲁棒的通用表示,并通过适配器层与语言模态桥接。
-
任务指令模块: 结合了固定的任务关键词和可学习的隐式
prefix prompts,实现了灵活、任务感知的模型引导。 -
通过 LoRA 增强的电信 LLM 主干网络: 使用 LoRA 对基于 LLaMA2-7B 并在电信语料库上微调的 LLM 进行参数高效训练,使其在保留原有语言知识的同时,有效吸收通信领域知识。
-
轻量级任务特定头部: 负责将 LLM 的输出直接转换为具体的任务目标,提高了效率和准确性。
通过在 WAIR-D 和 DeepMIMO 数据集上对基于环境/信道的直接定位、LOS/NLOS 识别、MIMO 预编码、波束选择和路径损耗预测这五个下游任务进行的全面评估和消融实验,结果一致表明 AI2MMUM 在所有任务上均优于传统的非 LLM 方法以及缺乏本文创新设计的基准模型。这些结果不仅验证了 AI2MMUM 框架的有效性,也凸显了无线电知识与语言知识之间的良好兼容性,预示着统一无线多模态智能的广阔未来。
7.2. 局限性与未来工作
论文虽然没有明确列出“局限性”部分,但从其研究背景和贡献来看,可以推断出一些潜在的局限性或暗示的未来工作方向:
- 数据依赖与泛化范围: 尽管模型使用了大规模预训练编码器和电信 LLM,但其性能仍依赖于所使用的 WAIR-D 和 DeepMIMO 数据集。未来 6G 将引入更多样化的新模态(如更精细的雷达、触觉反馈等),AI2MMUM 在这些新模态和更复杂、未见的场景下的泛化能力仍需进一步验证。
- 计算与资源消耗: 大语言模型虽然强大,但在训练和推理阶段仍需要显著的计算资源和能源。这对于资源受限的边缘设备或大规模部署的 6G 网络而言,可能是一个挑战。如何进一步优化模型大小、推理速度和能效是未来的重要方向。
- 模型可解释性: LLM 固有的“黑盒”特性可能使得理解模型在无线通信任务中做出特定决策的原因变得困难。在某些对可靠性和可信度要求极高的无线应用中,提高模型的可解释性至关重要。
- 任务指令的鲁棒性: 尽管引入了可学习的前缀提示,但任务指令的措辞、复杂性以及其对模型性能的影响机制仍有待深入研究。如何设计出对多样化、甚至模糊指令都能鲁棒响应的通用模型,是一个持续的挑战。
- 模型“通用性”的广度: 论文在五个代表性任务上取得了 SOTA 性能,但“通用模型”的愿景意味着它应能处理几乎所有空口任务。扩展 AI2MMUM 到更广泛、更复杂的 6G 任务(例如,联合感知与通信中的复杂决策、网络编排等)将是未来的重要工作。
- 动态环境适应: 无线环境是高度动态变化的,模型需要快速适应新的环境条件和用户行为。虽然 LoRA 提供了一定的灵活性,但如何实现更快速、更实时的自适应仍是挑战。
7.3. 个人启发与批判
7.3.1. 个人启发
这篇论文提供了一个非常清晰且具有前瞻性的框架,将大语言模型与无线通信领域深度融合,给我带来了几点重要的启发:
- LLM 作为通用核心的巨大潜力: 将 LLM 作为多模态通用模型的“大脑”,利用其强大的上下文理解、推理和泛化能力来整合不同领域知识,这是一种非常高效且富有前景的范式。它表明 LLM 的应用远不止于自然语言处理,而是可以成为跨领域智能系统的核心。
- 模块化和可扩展性设计: AI2MMUM 的模块化结构(预训练编码器、适配器、LoRA、任务头)非常出色。这种设计允许在不从头开始训练整个庞大模型的情况下,灵活地引入新的模态或适应新的任务,显著提高了模型的可维护性和可扩展性。特别是 LoRA 的使用,为在资源有限的环境下进行领域适应提供了高效的途径。
- 任务指令的精妙之处: 通过结合固定的任务关键词和可学习的前缀提示来构建任务指令,这是一个非常巧妙的设计。它既利用了人类语言的直观性,又通过学习机制增强了模型对任务语义的理解和适应性,是连接人类意图与机器执行的有效桥梁。
- 跨模态知识兼容性的验证: 实验结果清晰地表明了无线电知识与语言知识的兼容性,这是一个重要的发现。这意味着我们不需要从零开始构建完全独立的无线 AI,而是可以利用 LLM 已经习得的丰富语言语义和世界知识,将其扩展到物理世界和无线领域。
7.3.2. 批判性思考
尽管 AI2MMUM 展现出巨大潜力,但作为严谨的学术研究,仍有一些方面值得批判性思考和未来改进:
- “AI-AI Oriented”的深层含义: 标题中的 "AI-AI Oriented" 是一个引人注目的概念,但论文中对其深层含义和具体实现方式的探讨相对较少。它是否意味着模型能够自主进行任务决策、资源分配,甚至与其他 AI 智能体 (agent) 协同工作?目前模型更多是执行由人类指令定义的下游任务。未来可以更深入地探讨 AI2MMUM 如何作为 6G 编排器 (orchestrator) 或智能体,实现更高级别的自主智能。
- 数据稀疏性与长尾效应: 尽管使用了大型数据集进行预训练,但真实世界中无线场景的复杂性和多样性远超现有数据集。对于罕见或极端情况(长尾效应),AI2MMUM 的鲁棒性仍需验证。同时,数据生成或标注的成本仍然是瓶颈。
- 实时性和计算开销: 尽管 LoRA 和轻量级任务头有助于降低开销,但以 LLaMA2-7B 为基础的 LLM 仍然是一个参数量巨大的模型。在 6G 场景中,许多空口任务需要毫秒甚至微秒级的响应时间,同时考虑设备功耗,如何在高精度和实时性之间取得平衡是一个长期挑战。
- 安全与隐私: 随着模型处理的数据模态越来越丰富(例如用户位置、环境视觉信息),以及模型能力越来越强大,如何确保数据安全、隐私保护以及模型决策的安全性(例如对抗性攻击)将成为至关重要的考量。
- 模型验证的广度: 论文在五个代表性任务上取得了显著成果,但 6G 愿景下的空口任务和应用场景极其广泛。目前的验证更多集中在物理层的基础任务。AI2MMUM 作为“通用模型”,其在更复杂、更抽象、跨层级的任务(如网络资源优化、智能切片管理等)上的能力还有待深入探索。
- 架构选择的合理性: 将 LLM 作为核心主干网络,其 Transformer 架构在处理序列数据上表现优异,但在处理某些非序列化的多模态数据(如复杂的 3D 场景或时间序列)时,是否始终是最优的选择?是否有更适合多模态融合且计算效率更高的混合架构?
相似论文推荐
基于向量语义检索推荐的相关论文。