论文状态:已完成

LLM4WM: Adapting LLM for Wireless Multi-Tasking

发表:2025/01/23
原文链接PDF 下载
价格:0.100000
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

论文提出了LLM4WM框架,专为无线信道相关任务设计,通过专家混合模型与低秩适应法实现多任务微调,促进预训练大语言模型知识迁移。独特的数据预处理和适配模块将信道数据与模型特征对齐,实验证明在全样本和少样本评估中超越现有方法。

摘要

The wireless channel is fundamental to communication, encompassing numerous tasks collectively referred to as channel-associated tasks. These tasks can leverage joint learning based on channel characteristics to share representations and enhance system design. To capitalize on this advantage, LLM4WM is proposed--a large language model (LLM) multi-task fine-tuning framework specifically tailored for channel-associated tasks. This framework utilizes a Mixture of Experts with Low-Rank Adaptation (MoE-LoRA) approach for multi-task fine-tuning, enabling the transfer of the pre-trained LLM's general knowledge to these tasks. Given the unique characteristics of wireless channel data, preprocessing modules, adapter modules, and multi-task output layers are designed to align the channel data with the LLM's semantic feature space. Experiments on a channel-associated multi-task dataset demonstrate that LLM4WM outperforms existing methodologies in both full-sample and few-shot evaluations, owing to its robust multi-task joint modeling and transfer learning capabilities.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

LLM4WM: Adapting LLM for Wireless Multi-Tasking (LLM4WM:为无线多任务场景适配大语言模型)

1.2. 作者

Xuanyu Liu, Shijian Gao, Boxun Liu, Xiang Cheng, Liuqing Yang

隶属机构:

  • Xuanyu Liu, Boxun Liu, Xiang Cheng 隶属于北京大学电子学院先进光通信系统与网络国家重点实验室。
  • Shijian Gao 隶属于香港科技大学(广州)物联网学域。
  • Liuqing Yang 隶属于香港科技大学(广州)物联网学域与智能交通学域,以及香港科技大学电子与计算机工程系与土木与环境工程系。

1.3. 发表期刊/会议

该论文作为预印本 (preprint) 发布在 arXiv 平台,尚未明确指出已发表的期刊或会议。

1.4. 发表年份

2025年1月22日 (UTC) 发布。

1.5. 摘要

无线信道是通信的基础,包含了众多被称为信道相关任务 (channel-associated tasks) 的工作。这些任务可以利用基于信道特性的联合学习来共享表示 (representations) 并增强系统设计。为了利用这一优势,论文提出了 LLM4WM——一个专门为信道相关任务量身定制的大语言模型 (Large Language Model, LLM) 多任务微调 (multi-task fine-tuning) 框架。该框架采用专家混合模型与低秩适应 (Mixture of Experts with Low-Rank Adaptation, MoE-LoRA) 方法进行多任务微调,从而将预训练 LLM 的通用知识迁移 (transfer) 到这些任务中。鉴于无线信道数据的独特特性,论文设计了预处理模块 (preprocessing modules)、适配器模块 (adapter modules) 和多任务输出层 (multi-task output layers),以使信道数据与 LLM 的语义特征空间 (semantic feature space) 对齐。在信道相关多任务数据集上的实验表明,LLM4WM 在全样本 (full-sample) 和少样本 (few-shot) 评估中均优于现有方法,这得益于其强大的多任务联合建模和迁移学习能力。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

无线信道 (Wireless channel) 是通信系统的基石,其质量和可靠性直接决定了通信性能。随着毫米波 (millimeter-wave, mmWave)多输入多输出 (Multiple-Input Multiple-Output, MIMO) 等先进技术的发展,为了实现低延迟和高可靠性,对信道状态信息 (Channel State Information, CSI) 的准确估计变得尤为关键 [1]-[4]。CSI 不仅是优化通信性能的基础,也支持集成感知与通信 (Integrated Sensing and Communications, ISAC) 等新兴技术的发展 [5]。

人工智能 (Artificial Intelligence, AI) 已显著提升了信道估计的准确性,并在信道预测、波束赋形 (beamforming) 和定位等多种通信任务中展现出卓越的效能和鲁棒性 [6]-[8]。然而,现有的 AI 驱动通信方法仍面临多重挑战:

  1. 数据需求与通信开销: AI 方法通常需要大量高质量数据,而数据收集会产生巨大的通信开销。

  2. 泛化能力与重训练: AI 模型在环境动态变化时需要重新训练以应对泛化问题,进一步增加了通信负担。

  3. 模型容量限制: 现有 AI 方法在复杂和高度动态场景中往往表现不佳,部分原因在于模型规模有限。

    为了应对这些挑战,研究者们提出了机器共感 (Synesthesia of Machines, SoM) [9],通过多模态感知捕捉无线信道传播特性,从而优化通信系统设计和性能 [10], [11]。

另一个潜在的优化途径是引入多任务学习 (Multi-Task Learning, MTL)。由于许多通信任务都围绕着在不同条件下提取和利用信道特征,联合学习这些信道相关任务 (channel-associated tasks) 可以通过提取跨任务共享的信道表示来显著提升训练效益 [12], [13]。然而,现有 MTL 方法仍存在局限性,如数据不平衡 (data imbalance) 和底层共享表示导致的跷跷板效应 (seesaw effect),以及模型容量有限导致难以扩展任务数量和多样性。

近年来,大语言模型 (Large Language Models, LLMs) 在自然语言处理 (NLP) [14]、医疗保健 [15]、法律 [16] 和金融 [17] 等多个领域展现出强大的多任务处理、推理和泛化能力。这激发了研究者将预训练 LLM 引入无线通信领域。例如,LLM4CP [19] 首次将 LLM 应用于信道预测,显著提升了少样本 (few-shot) 泛化能力。WiFo [20] 作为一个基础信道模型,可以进行零样本 (zero-shot) 信道重建。然而,这些工作主要集中在单个任务或信道重建。

本文的动机在于利用 LLM 增强无线通信中的多个信道相关任务,这面临着如何有效迁移跨领域知识和管理任务多样性的挑战。传统的 MTL 方法(依赖共享底层)在扩展任务数量和多样性时会遇到瓶颈,而现有的 LLM 在无线领域的应用多为单任务。因此,本文旨在设计一个统一的框架,使 LLM 能够同时处理多种信道相关任务,并克服上述挑战。

2.2. 核心贡献/主要发现

本文提出了 LLM4WM 框架,其核心贡献和主要发现总结如下:

  • 开创性的多任务微调框架: 首次提出了 LLM4WM,一个新颖的框架,利用 LLM 促进无线多任务处理。该方法开创性地使用专家混合模型与低秩适应 (MoE-LoRA) 来微调 LLM,以提取专门针对无线多任务场景的联合表示 (joint representation),为该领域的研究树立了新标准。
  • 定制化的跨领域对齐模块: 针对无线信道数据的独特特性,设计了定制的预处理方法和相应的输出头 (output header)。此外,创建了多任务适配器 (multi-task adapters),以弥合 LLM 的语义特征空间与无线任务特定特征空间之间的鸿沟,从而增强了模型的适应性和性能。
  • 卓越的性能和泛化能力: LLM4WM 在一系列无线通信任务中表现出卓越的性能,包括信道估计 (channel estimation)、信道预测 (channel prediction)、定位增强 (localization enhancement) 和波束管理 (beam management)。更重要的是,它展示了令人印象深刻的泛化能力 (generalization capabilities),突显了其在无线领域多样化应用中的鲁棒性和通用性。
  • 高效且可部署: 实验证明,LLM4WMMoE-LoRA 微调方法使得模型拥有与小型模型相当的可训练参数量,且推理速度可接受,这使其在未来对多样化和定制化服务需求日益增长的通信场景中具有显著的部署潜力。
  • MoE 机制的有效性: 通过专家权重热图验证了 MoE 机制能够有效地为不同任务自适应地分配专家资源,增强了模型的专业化和灵活性。

3. 预备知识与相关工作

3.1. 基础概念

  • 无线信道 (Wireless Channel): 指信号在无线电波传输过程中所经过的介质。它受到衰落 (fading)、干扰 (interference) 和多径传播 (multipath propagation) 等物理现象的影响,这些现象会改变信号的强度、相位和到达时间,从而影响通信的质量和可靠性。理解信道特性对于优化通信性能至关重要。
  • 毫米波 (millimeter-wave, mmWave): 指频率范围在 30 GHz 到 300 GHz 之间的无线电波。mmWave 技术因其高带宽和支持大规模天线阵列的潜力,被视为未来 5G/6G 通信的关键技术之一,能够提供极高的数据传输速率和容量。
  • 多输入多输出 (Multiple-Input Multiple-Output, MIMO): 一种无线通信技术,在发射端和接收端都使用多个天线。通过利用多径传播带来的空间分集或复用增益,MIMO 能够显著提高信道容量和链路可靠性。
  • 信道状态信息 (Channel State Information, CSI): 指无线通信链路的当前信道特性。它描述了信号从发射机到接收机是如何传播的,包括衰落、相位偏移、时延等参数。准确获取 CSI 对于优化波束赋形、资源分配和干扰管理至关重要。
  • 多任务学习 (Multi-Task Learning, MTL): 一种机器学习范式,旨在通过在多个相关任务之间共享知识,从而提高所有任务的学习效率和预测精度。其核心思想是,如果多个任务之间存在某种共享的底层表示或结构,那么联合训练它们可以帮助模型学习到更鲁棒、更泛化的特征。
  • 大语言模型 (Large Language Models, LLMs): 一类参数量庞大(通常达数十亿甚至数千亿)的深度学习模型,通过在海量文本数据上进行预训练,学习了丰富的语言知识、模式和世界知识。LLM 具有强大的语言理解、生成、推理和泛化能力,能够执行多种 NLP 任务,并已扩展到其他领域。
  • 专家混合模型 (Mixture of Experts, MoE): 一种神经网络架构,由多个“专家”网络和一个“门控网络 (gating network)”组成。门控网络根据输入数据动态地选择或加权组合一个或多个专家网络的输出。这种架构可以显著增加模型的容量,同时通过稀疏激活来保持计算效率。
  • 低秩适应 (Low-Rank Adaptation, LoRA): 一种参数高效的微调 (parameter-efficient fine-tuning) 技术,用于将预训练的 LLM 适配到新的下游任务。LoRA 的核心思想是在预训练模型的权重矩阵旁边引入一对小的低秩矩阵来近似权重的更新,从而大幅减少微调时需要训练的参数数量,降低计算和存储成本。

3.2. 前人工作

  • AI 在通信领域的应用与挑战: 传统上,AI 已被广泛应用于提升信道估计的准确性 [6]-[8],并在信道预测、波束赋形和定位等任务中展现潜力。然而,这些 AI 方法常常需要大量高质量数据,收集过程会带来高通信开销;同时,它们在动态环境中需要频繁重训练以解决泛化问题,且模型规模有限,难以应对复杂多变的实际场景。
  • 机器共感 (Synesthesia of Machines, SoM): SoM [9] 提出通过多模态感知有效地捕获无线信道的传播特性,旨在利用多模态传感来增强和优化通信系统设计与性能 [10], [11]。
  • 无线通信中的多任务学习: 已有研究尝试在无线通信领域应用多任务学习,例如在无线信号识别中联合训练信号分类和调制识别 [12],以及在可重构智能表面 (Reconfigurable Intelligent Surface, RIS) 系统中联合训练直接信道和级联信道估计以减少导频开销 [13]。尽管这些方法有效,但它们普遍存在局限性,如数据不平衡和底层共享表示导致的“跷跷板效应”,以及模型容量不足以扩展任务数量和多样性(通常只结合两个密切相关的任务)。
  • 大语言模型 (LLMs) 的跨领域成功: LLMNLP 任务中取得了突破性进展,例如 GPT-4 的卓越表现 [14]。此外,它们在医疗保健 [15]、法律 [16] 和金融 [17] 等其他领域也展示了强大的推理和泛化能力。TTM [18] 在时间序列处理任务中也展现了出色的少样本 (few-shot) 和零样本 (zero-shot) 学习能力。
  • LLMs 在无线通信中的初步探索: 受到 LLM 成功的启发,研究人员开始探索将其应用于无线信道相关任务。LLM4CP [19] 提出了一种基于 LLM 的信道预测方法,显著提升了少样本泛化能力。WiFo [20] 作为一个基础信道模型,在多样化信道数据集上训练,可执行时域和频域预测等任务的零样本学习,但这些工作主要关注信道重建或单任务应用。

3.3. 技术演进

无线通信领域的 AI 应用经历了一个从传统信号处理到深度学习,再到融合大模型范式的演进:

  1. 传统方法: 早期主要依赖信号处理和统计模型来解决信道估计、波束赋形等问题。
  2. 小模型深度学习时代: 随着深度学习的兴起,CNNRNN/LSTMMLP 等小规模神经网络被广泛应用于各种无线通信任务,提升了性能,但受限于数据量、泛化能力和模型容量。
  3. 小模型多任务学习尝试: 为了提高效率和泛化性,研究者尝试将多个相关任务进行联合训练,例如使用 Cross-stitch 网络等,但受限于小模型容量,难以有效处理大量或多样化的任务,且存在“跷跷板效应”。
  4. 单任务大模型探索: 借鉴 LLMNLP 领域的成功,近期开始有工作将预训练 LLM 引入无线通信,例如 LLM4CPWiFo,主要关注 LLM 在单个无线任务(如信道预测、信道重建)上的能力,并展示了其强大的泛化性。
  5. 本文工作 (多任务大模型): LLM4WM 正是在此基础上,进一步将 LLM 的能力扩展到同时处理多个信道相关任务。它通过引入 MoE-LoRA 和定制适配器,解决了 LLM 在多任务场景下跨领域知识迁移和任务多样性管理的关键挑战,代表了无线 AI 从单任务小模型向多任务大模型的范式转变。

3.4. 差异化分析

LLM4WM 与现有工作的主要区别和创新点体现在以下几个方面:

  • 与传统多任务学习 (MTL) 的区别:
    • 架构差异: 传统 MTL 方法通常依赖于共享底层网络来提取共同特征,上层再分叉出任务特定分支。这种架构容易受到数据不平衡和“跷跷板效应”的影响,且模型容量有限,难以扩展到大量或高度多样化的任务。
    • LLM4WM 的创新: LLM4WM 冻结了大部分预训练 LLM 的参数,通过引入专家混合模型与低秩适应 (MoE-LoRA) 进行微调。这种方法允许任务共享“专家”权重来学习共同知识,同时利用专家间的独立性和门控机制来确保任务特定特征的差异化学习,有效缓解了传统 MTL 的局限性,并能更好地扩展任务数量和多样性。
  • 与单任务 LLM 在无线通信中应用的区别:
    • 任务范围: 现有将 LLM 引入无线通信的工作(如 LLM4CP [19]、WiFo [20])主要聚焦于单个任务(如信道预测、信道重建)。
    • LLM4WM 的创新: LLM4WM 旨在同时增强多个信道相关任务。它通过 MoE-LoRA 机制和多任务适配器,实现了对 LLM 的多任务联合建模,使其能够提取更通用的跨任务信道表示,从而在各项任务中都获得性能提升。
  • 跨领域知识迁移与特征对齐:
    • LLM 预训练在海量文本数据上,其语义特征空间与无线信道数据(数值、时频空维度)存在巨大鸿沟。

    • LLM4WM 的创新: 设计了定制的预处理模块、多任务适配器模块和多任务输出层。输入适配器将信道数据对齐到 LLM 的语义空间,输出适配器则将 LLM 输出的语义特征映射回任务所需的特定格式。这种双向对齐机制是 LLM4WM 成功实现跨领域知识迁移的关键。

      综上所述,LLM4WM 的核心创新在于首次将 MoE-LoRA 这种参数高效、能力强大的微调范式应用于 LLM 的无线多任务场景,并通过精心设计的适配器模块解决了异构数据与 LLM 语义空间对齐的挑战,从而在多任务联合建模和泛化能力上实现了显著突破。

4. 方法论

4.1. 方法原理

LLM4WM 的核心思想是利用预训练大语言模型 (LLM) 强大的通用知识和泛化能力,通过专家混合模型与低秩适应 (MoE-LoRA) 这一参数高效微调方法,使其能够同时处理多个无线信道相关任务。该框架的关键在于,它不直接将无线数据输入到 LLM 中,而是通过一系列定制的模块来桥接无线信道数据LLM语义特征空间 (semantic feature space) 之间的鸿沟。

其基本原理可以概括为:

  1. 任务特定预处理: 不同无线任务对信道数据的关注点不同,因此需要对原始信道数据进行任务特定的预处理,以提取最相关的特征。

  2. 多任务特征对齐: 预处理后的无线数据需要被转换到 LLM 能够理解的语义特征空间中。这通过多任务适配器实现,该适配器不仅进行维度对齐,还进行内在表示对齐,确保 LLM 能有效利用这些信息。

  3. 基于 MoE-LoRA 的联合建模: 将对齐后的特征输入到主干 LLM 中。LLM 的大部分参数被冻结,仅通过 MoE-LoRA 模块进行参数高效微调。MoE 机制允许不同的任务激活不同的“专家”组合,从而在共享 LLM 骨干的同时,实现任务间的知识共享和任务特定知识的学习。

  4. 多任务输出映射: LLM 输出的抽象语义特征再通过多任务输出模块,根据每个任务的特性(例如,回归或分类,对局部或全局特征的敏感度),映射到最终的预测结果。

    通过这种方式,LLM4WM 能够将 LLM 的通用能力迁移到无线通信领域,实现多个信道相关任务的联合学习,从而提升整体性能和泛化能力。Figure 2 展示了 LLM4WM 的整体框架。

    该图像是一个示意图,展示了LLM4WM框架的结构,包括预处理模块、多任务适配器、主干LLM和多任务输出模块。它涉及数据的归一化、领域转换和线性投影等任务特定操作,并通过Mixture of Experts与Low-Rank Adaptation进行多任务微调。 该图像是一个示意图,展示了LLM4WM框架的结构,包括预处理模块、多任务适配器、主干LLM和多任务输出模块。它涉及数据的归一化、领域转换和线性投影等任务特定操作,并通过Mixture of Experts与Low-Rank Adaptation进行多任务微调。

以下是原文 Figure 2 的描述: VLM 描述: 该图像是一个示意图,展示了LLM4WM框架的结构,包括预处理模块、多任务适配器、主干LLM和多任务输出模块。它涉及数据的归一化、领域转换和线性投影等任务特定操作,并通过Mixture of Experts与Low-Rank Adaptation进行多任务微调。

4.2. 核心方法详解

4.2.1. 预处理器模块 (Preprocessor Module)

由于不同任务所需的信道特性各异,为了充分利用每个任务的独特信息,LLM4WM 为每个任务设计了专门的预处理函数。

预处理操作可以表示为: Xnpre=fpre,n(XnI) X_n^{pre} = f_{\mathrm{pre},n}(X_n^I) 其中,XnIX_n^I 表示任务 nn 的原始输入数据,XnpreX_n^{pre} 表示预处理后的数据,而 fpre,n()f_{\mathrm{pre},n}(\cdot) 表示针对任务 nn 的预处理操作。

具体来说:

  • 对于信道重建任务 (Channel Reconstruction tasks),如信道估计 (CE)、时域信道预测 (CP) 和频域信道预测 (PF),预处理操作是将每个时刻的 CSI 进行词元化 (tokenizing),即将 CSI 的空间和频率特征展平 (flatten) 为一个序列。这有助于将高维信道矩阵转换为 LLM 输入所需的序列格式。 Xnpre=Flatten(XnI,2) X_n^{pre} = \mathrm{Flatten}(X_n^I, -2) 其中,Flatten(X,i)\mathrm{Flatten}(X, i) 操作表示将张量 X\boldsymbol{X} 的第 ii 维及其之后的所有维度展平为一个单一维度。
  • 对于需要信道角度特征的任务,如波束赋形 (BF)、距离估计 (DE) 和路径损耗估计 (PE),CSI 数据会进行域转换 (domain transformation),将空间域的 CSI 转换为角度域的 CSI。角度域的 CSI 更能直接反映信号的到达角度 (Angle of Arrival, AoA) 或离开角度 (Angle of Departure, AoD) 信息,这对于这些任务至关重要。 Xnpre=XnIFN~n X_n^{pre} = X_n^I F_{\tilde{N}_n} 其中,FN~tF_{\tilde{N}_t} 是一个 N~t\tilde{N}_t 维的离散傅里叶变换 (Discrete Fourier Transform, DFT) 矩阵。DFT 变换可以将信号从时域/空域转换到频域/角度域,从而突出信号在不同角度上的能量分布。

4.2.2. 多任务适配器模块 (Multi-Task Adapter Module)

本文扩展了传统适配器模块的使用。传统适配器模块通过引入少量可训练参数,使预训练模型在保留原有建模和泛化能力的同时,适应特定领域或任务 [28], [29]。然而,它们主要为单任务场景设计,缺乏促进多任务间迁移泛化的能力。

本文提出的多任务适配器模块与现有单任务适配器不同,它通过并行化多个独立的适配器来同时处理各种任务。每个任务的适配器输出的特征会联合输入到 LLM 中进行多任务学习。这种设计充分利用了 LLM 的泛化和多任务学习能力,同时联合适应方法也简化了网络的训练过程。

每个模块中的独立适配器 Adapternin\mathrm{Adapter}_n^{in} 被分配给一个特定任务 nn,执行任务对齐操作。这种对齐包括维度对齐 (dimensional alignment)内在表示对齐 (intrinsic representation alignment)

Figure 3 所示,其主要组成部分包括一个线性对齐层 (linear alignment layer)、残差特征提取网络 (residual feature extraction networks) 和一个激活函数。

Fig. 3. An illustration of the multi-task adapter module. 该图像是图示,展示了多任务适配器模块中的维度对齐和特征对齐过程。左侧展示了通过线性层和转置操作实现维度对齐的步骤,右侧则展示了特征对齐的处理流程,包括残差块和激活函数 GELU。

以下是原文 Figure 3 的描述: VLM 描述: 该图像是图示,展示了多任务适配器模块中的维度对齐和特征对齐过程。左侧展示了通过线性层和转置操作实现维度对齐的步骤,右侧则展示了特征对齐的处理流程,包括残差块和激活函数 GELU。

在任务 nn 的独立适配器 Adapternin\mathrm{Adapter}_n^{in} 中:

  1. 线性对齐层 (Linear Alignment Layer): 旨在将语义特征空间和任务特征空间在维度上进行对齐,并得到特征图: Xnf=Linear(Xnpre)RL×Dllm \pmb{X}_n^f = \mathrm{Linear}(\pmb{X}_n^{pre}) \in \mathbb{R}^{L \times D_{llm}} 其中,LL 表示 LLM 输入的词元 (token) 长度,DllmD_{\mathrm{llm}} 表示 LLM 的隐藏维度。由于预处理后的特征是二维数据,Linear()\mathrm{Linear}(\cdot) 操作至少包含两个全连接层操作,它们将输入特征的第一个和第二个维度线性映射到指定的 LLDllmD_{\mathrm{llm}} 维度。
  2. 残差特征提取网络和激活函数 (Residual Feature Extraction Networks and Activation Function): 接下来,残差特征提取网络和激活函数作用于 Xnf\pmb{X}_n^f,以获得具有对齐语义特征的特征图: Xna=Res(GELU(Res(Xnf)))RL×Dllm \pmb{X_n^a} = \mathbf{Res}\big(\mathbf{GELU}\big(\mathbf{Res}(\pmb{X_n^f})\big)\big) \in \mathbb{R}^{L \times D_{llm}} 其中,Res()\mathrm{Res}(\cdot) 操作包含 Na,iN_{a,i}残差块 (Res-blocks)。每个残差块包含两个一维卷积核和一个 ReLU 激活函数。卷积核大小为 3,步长为 1。GELU()\mathrm{GELU}(\cdot) 函数 [30] 是 ReLU 函数的一个平滑、可微分的近似。

上述步骤可以简化表示为: Xna=Adapternin(Xnpre) X_n^a = \mathrm{Adapter}_n^{in}(X_n^{pre}) 最终,所有任务的 XnaX_n^a 会被连接起来,作为 LLM 的输入。

4.2.3. 基于MoE-LoRA的微调 (Mixture-of-LoRA Based Fine-tuning)

主干 LLM 模块对于处理适配器提取的表示至关重要。为了提高预训练 LLM 在无线信道任务上的性能,本文利用 MoE-LoRA 高效地微调其参数。这种微调方法结合了 LoRAMoE 的原理,通过选择性地激活参数子集来提高效率。

标准 LoRA 微调过程: LoRA [14] 是一种参数高效的微调技术,它通过在预训练权重矩阵旁边引入两个低秩矩阵来近似权重更新,从而显著减少需要训练的参数量。 假设预训练权重为 W0Rdout×dinW_0 \in \mathbb{R}^{d_{\mathrm{out}} \times d_{\mathrm{in}}},其中 dind_{\mathrm{in}} 是输入维度,doutd_{\mathrm{out}} 是输出维度。ARr×dinA \in \mathbb{R}^{r \times d_{\mathrm{in}}}BRdout×rB \in \mathbb{R}^{d_{\mathrm{out}} \times r} 是两个可训练的低秩矩阵。那么,微调后的权重 WRdout×dinW \in \mathbb{R}^{d_{\mathrm{out}} \times d_{\mathrm{in}}} 可以表示为: W=W0+αrBAW = W_0 + \frac{\alpha}{r} B A 其中,rr 表示低秩近似的秩。超参数 α\alpha 用于调整秩 rr 的影响,通常设置为 α=2×r\alpha = 2 \times r。 假设前馈网络 (feed-forward network, FFN) 的输入为 xtx_t,输出为 yty_t,则模型的正向传播可以表示为: yt=Wxt=W0xt+αrBAxt y_t = W x_t = W_0 x_t + \frac{\alpha}{r} B A x_t 在微调过程中,W0W_0 保持冻结,只有 AABB 被训练。

MoE-LoRA 扩展到多任务学习: 为了将 LoRA 扩展到多任务学习,本文引入了专家混合模型 (MoE) [31]。这种方法建立了一组独立的低秩矩阵(即“专家”),它们分别学习任务特定的特征。一个门控网络 (gating network) 被用来选择和组合不同的专家,为各种任务提供特定的聚合机制。 其核心思想表达如下: yt=Wxt=W0xt+αrk=1NeωkBkAkxt y_t = W x_t = W_0 x_t + \frac{\alpha}{r} \sum_{k=1}^{N_e} \omega_k B_k A_k x_t 其中,BkRdout×rB_k \in \mathbb{R}^{d_{\mathrm{out}} \times r}AkRr×dinA_k \in \mathbb{R}^{r \times d_{\mathrm{in}}} 是第 kk 对低秩矩阵,代表第 kk 个专家。NeN_e 表示专家的数量,ωk\omega_k 表示第 kk 个专家的权重。增加 NeN_e 可以增强模型的表示能力,但也会线性增加训练和推理成本,因此 NeN_e 的具体值需要在模型精度和推理速度之间进行权衡。 值得注意的是,门控网络的设计直接影响 MoE 模型的性能。为了防止过拟合 (overfitting),本文采用一个单层线性网络来为每个任务生成专家权重,并使用 Softmax()Softmax(\cdot) 函数对权重矩阵进行归一化,以保持输出数据的稳定性。

本文将 MoE-LoRA 应用于 LLM前馈网络 (FFN) 中的线性层,而 LLM 的其余参数则保持冻结。这种方法显著减少了模型的可训练参数,大大降低了训练成本并提高了训练效率。Figure 4 展示了 MoE-LoRA 微调方法的结构。

Fig. 4. An illustration of the MoE-LoRA fine-tuning method. 该图像是一个示意图,展示了MoE-LoRA微调方法的结构。图中显示了多任务学习中的不同LoRA组件如何与预训练权重W0相结合,并通过加法与归一化层和多头注意力层进行交互,以实现任务特定的表现。

以下是原文 Figure 4 的描述: VLM 描述: 该图像是一个示意图,展示了MoE-LoRA微调方法的结构。图中显示了多任务学习中的不同LoRA组件如何与预训练权重W0相结合,并通过加法与归一化层和多头注意力层进行交互,以实现任务特定的表现。

4.2.4. 多任务输出模块 (Multi-Task Output Module)

传统的 LLM 将 transformer 块的输出特征映射到词汇表上的概率分布,选择概率最高的词元作为输出文本。然而,对于无线信道相关任务,输出结果通常难以用文本表达。此外,随着词汇量 (vocabulary size) 的增加,这种映射会产生显著的存储和计算成本(例如,GPT-2 的 50000 词汇量需要至少 50000 维的输出层)。

为解决这些挑战,并类似于 [32] 中的方法,本文设计了一个专门为无线信道相关任务定制的输出层。这个专用输出层旨在更有效地捕获与这些任务相关的目标输出,从而提高性能并减少与大型词汇量相关的资源需求。

为了使任务的输出特征向量与 LLM 的语义空间对齐,本文使用了一个直接连接到 LLM 输出的多任务适配器,其结构与输入适配器相同。假设任务 nnLLM 输出特征为 XnLLMX_n^{LLM},通过任务 nn 的适配器 Adapternout\mathrm{Adapter}_n^{out} 处理后得到: Xnp=Adapternout(XnLLM) \pmb{X_n^p} = \mathrm{Adapter}_n^{out}(\pmb{X_n^{LLM}}) 其中,XnpX_n^p 表示任务 nn 的多任务适配器输出。

考虑到信道估计和信道预测任务对局部特征的学习更为敏感,后续步骤使用卷积神经网络 (Convolutional Neural Networks, CNNs) 进行处理和维度对齐。另一方面,波束赋形、距离估计和路径损耗估计等任务需要获取信道的全局特征表示。因此,特征图将被展平 (flatten),并采用多层感知机 (Multi-Layer Perceptron, MLP) 网络进行特征处理和维度对齐。 这些操作可以描述为: Xno={CNN(Xnp),n{CE,CP,PF}MLP(Xnp),n{BF,DE,PE} \mathcal{X}_n^{\mathrm{o}} = \left\{ \begin{array}{ll} \mathrm{CNN}(X_n^p), & n \in \{CE, CP, PF\} \\ \mathrm{MLP}(X_n^p), & n \in \{BF, DE, PE\} \end{array} \right. 其中,XnoX_n^{\mathrm{o}} 代表任务 nn 的预测或估计结果。

4.2.5. 训练配置 (Training Configuration)

所提出的网络在多任务混合数据集上采用两阶段训练方法 (two-stage training approach) 进行训练。

  1. 第一阶段: 仅训练多任务适配器 (multi-task adapters) 和输出层 (output layer),而 LLM 参数保持冻结。在此阶段,模型学习任务特征空间与预训练 LLM 文本特征空间之间的映射关系。

  2. 第二阶段: LLM 通过 MoE-LoRA 进行微调,而多任务适配器变为冻结状态,但输出层仍可训练。在此阶段,模型利用 LLM 对多个任务进行联合建模,并通过利用跨任务的泛化表示 (generalized representations) 实现更好的结果。

    两个阶段使用相同的损失函数,其形式如下: Loss=nωnfloss,n(Xno,Xnl) \operatorname{Loss} = \sum_n \omega_n f_{loss,n}(X_n^{\mathrm{o}}, X_n^{\mathrm{l}}) 其中,floss,nf_{loss,n} 表示任务 nn 的损失函数。这些损失函数通过任务权重 ωn\omega_n 进行线性组合。为了确保所有任务都能得到良好训练,本文采用动态权重平均 (Dynamic Weight Average, DWA) 算法 [33] 在每个 epoch (训练周期) 动态调整每个任务的权重,根据其损失变化进行调整。 损失函数 floss,nf_{loss,n} 的选择充分考虑了任务本身的特性:

  • 对于分类问题 (如 BF 任务),采用交叉熵损失函数 (cross-entropy loss function)
  • 对于回归问题 (如 CP 任务),采用归一化均方误差 (Normalized Mean Square Error, NMSE) [23] 作为损失函数。

5. 实验设置

5.1. 数据集

实验采用了广泛使用的信道生成器 QuaDRiGa [34] 来模拟符合 3GPP 标准的时变 CSI 数据集。

  • 系统设置: 考虑一个在 sub-6G (1.9 GHz) 和 mmWave (28 GHz) 频率下运行的双频通信系统。

  • 数据集生成超参数: 详细参数见 Table II。 以下是原文 Table II 的结果:

    Parameter mmWave sub-6G
    Scenario 3GPP_38.901_UMa_LOS
    Active BSs 1 1
    Codebook size 256 N/A
    Transmit antennas 64 8
    Center frequency (GHz) 28 1.9
    Bandwidth (GHz) 0.5 0.06
    Antenna spacing 0.5 0.5
    OFDM sub-carriers 64 64
    Clusters N/A 21
    Paths per cluster N/A 20
  • sub-6G 链路: 采用 FDD (Frequency Division Duplexing) 模式以增强频谱利用率。假设上行和下行信道相邻,并且上行信道每 8 个子载波放置一个导频 (pilot)。

  • 信道预测任务: 基于历史 T~=16\tilde{T}=16 个资源块 (Resource Blocks, RBs) 预测未来 P~=4\tilde{P}=4RB。导频的时间间隔设置为 0.5ms0.5 \mathrm{ms}

  • 频域预测任务: 下行信道在导频处的 CSI 是通过上行导频估计或预测的上行信道推断得出的。

  • mmWave 链路: 采用 TDD (Time Division Duplexing) 模式。对于 sub-6G 辅助 mmWave 波束赋形任务,下行模拟预编码是基于上行 sub-6G 信道(通过上行导频估计)的空间相关性推导的。

  • 用户移动: 用户的初始位置随机化,运动轨迹设置为线性类型,速度为 30km/h30 \mathrm{km/h}

  • 数据集规模: 数据集总共包含 20000 个样本。其中,训练集有 15000 个样本,验证集有 1600 个样本,测试集有 3400 个样本。

5.2. 评估指标

为了评估性能,本文采用了任务特定的指标。对每个评估指标,定义如下:

  1. 归一化均方误差 (Normalized Mean Square Error, NMSE)

    • 概念定义: NMSE 是一种衡量预测值与真实值之间相对误差大小的指标。它将均方误差 (Mean Square Error, MSE) 与真实值的能量进行归一化,使得不同量纲或能量级别的任务结果可以相互比较。NMSE 值越小表示模型的预测越准确。
    • 数学公式: NMSE=E{XnOXnL22}E{XnL22} \mathrm{NMSE} = \frac{\mathbb{E} \{ \| X_n^O - X_n^L \|_2^2 \}}{\mathbb{E} \{ \| X_n^L \|_2^2 \}}
    • 符号解释:
      • XnOX_n^O: 任务 nn 的模型输出结果(预测值)。
      • XnLX_n^L: 任务 nn 的真实标签(真值)。
      • 22\| \cdot \|_2^2: L2L_2 范数的平方,表示向量或矩阵中所有元素平方和。
      • E{}\mathbb{E} \{ \cdot \}: 统计期望。
  2. Top-1 准确率 (Top-1 Accuracy, Acc)

    • 概念定义: Top-1 准确率是分类任务中常用的评估指标,它计算模型预测的概率最高的类别与真实标签一致的样本比例。Acc 值越高表示模型的分类性能越好。
    • 数学公式: Acc=1Ni=1NI(y^i=yi) \mathrm{Acc} = \frac{1}{N} \sum_{i=1}^N \mathbb{I}(\hat{y}_i = y_i)
    • 符号解释:
      • NN: 样本总数。
      • y^i\hat{y}_i: 第 ii 个样本的模型预测类别。
      • yiy_i: 第 ii 个样本的真实类别。
      • I()\mathbb{I}(\cdot): 指示函数,当括号内条件为真时,其值为1;否则为0。
  3. 平均绝对误差 (Mean Absolute Error, MAE)

    • 概念定义: MAE 衡量预测值与真实值之间误差的平均绝对值。它计算的是预测误差的平均大小,对异常值 (outliers) 的敏感度低于均方误差。MAE 值越小表示预测越接近真实值。
    • 数学公式: MAE=1Ni=1NXn,iOXn,iL \mathrm{MAE} = \frac{1}{N} \sum_{i=1}^N | X_{n,i}^O - X_{n,i}^L |
    • 符号解释:
      • NN: 样本总数。
      • Xn,iOX_{n,i}^O: 第 ii 个样本在任务 nn 上的模型输出。
      • Xn,iLX_{n,i}^L: 第 ii 个样本在任务 nn 上的真实标签。
      • | \cdot |: 绝对值。
  4. 平均指标 (Average Metric, Avg.)

    • 概念定义: 为了对所有任务的性能进行综合评估,本文引入了一个平均指标。它将所有任务的误差或误差形式的指标进行平均,以便直观比较不同模型的整体表现。Avg. 值越小表示整体性能越好。
    • 数学公式: Avg.=16[NMSE(CE)+NMSE(CP)+NMSE(PF)+(1Acc(BF))+MAE(DE)+NMSE(PE)] \mathrm{Avg.} = \frac{1}{6} \ast [ \mathrm{NMSE}(\mathrm{CE}) + \mathrm{NMSE}(\mathrm{CP}) + \mathrm{NMSE}(\mathrm{PF}) + (1 - \mathrm{Acc}(\mathrm{BF})) + \mathrm{MAE}(\mathrm{DE}) + \mathrm{NMSE}(\mathrm{PE}) ]
    • 符号解释:
      • NMSE(CE)\mathrm{NMSE}(\mathrm{CE}): 信道估计任务的 NMSE
      • NMSE(CP)\mathrm{NMSE}(\mathrm{CP}): 时域信道预测任务的 NMSE
      • NMSE(PF)\mathrm{NMSE}(\mathrm{PF}): 频域信道预测任务的 NMSE
      • (1Acc(BF))(1 - \mathrm{Acc}(\mathrm{BF})): 波束赋形任务的 Top-1 准确率的补数,表示分类错误率。将其转换为误差形式,以便与其他误差指标统一进行平均。
      • MAE(DE)\mathrm{MAE}(\mathrm{DE}): 距离估计任务的 MAE
      • NMSE(PE)\mathrm{NMSE}(\mathrm{PE}): 路径损耗估计任务的 NMSE
  5. 频谱效率 (Spectral Efficiency, SE)

    • 概念定义: SE 是衡量通信系统在给定带宽内传输数据量的效率的关键指标,反映了系统的可实现速率。SE 值越高表示系统传输数据的能力越强,通信效率越高。
    • 数学公式: Rt=k=1Kslog2(1+ht,kHwt2σn2) R_t = \sum_{k=1}^{K_s} \log_2 \left( 1 + \frac{\vert h_{t,k}^{\mathrm{H}} w_t \vert^2}{\sigma_n^2} \right)
    • 符号解释:
      • RtR_t: 时刻 tt 的可实现频谱效率。
      • KsK_s: 子载波数量。
      • ht,kh_{t,k}: 时刻 tt 和第 kk 个子载波的实际 CSI
      • wtw_t: 时刻 tt 的波束向量 (beam vector),通过模型预测的 CSI 结合公式 (7) 获得。
      • ()H(\cdot)^{\mathrm{H}}: 共轭转置。
      • 2| \cdot |^2: 模的平方。
      • σn2\sigma_n^2: 噪声功率。
      • 通信信噪比 (SNR) 定义为 1/σn21/\sigma_n^2,实验中设置为 10dB10 \mathrm{dB}

5.3. 对比基线

为了验证所提出方法的优越性,本文实现了多种基于模型和深度学习的方法作为基线。

  1. 传统方法 (Without deep learning): 这类方法不依赖训练过程,而是利用信道的固有特性来解决特定问题。

    • BI (Bilinear Interpolation):将 CSI 视为时间序列,使用双线性插值 (Bilinear Interpolation) 完成信道重建任务。
    • Codebook [35]:基于空间相关性,利用超分辨率码本 (codebook)sub-6G 频段进行波束扫描,以获取最优 mmWave 下行波束向量。用于处理波束管理任务。
    • FIFS [36]:一种基于 CSI 的指纹系统,引入了相干带宽增强概率算法,利用相关滤波器将对象映射到指纹。用于无线电环境挖掘任务。
  2. 单任务小模型方法 (Single-task Small Model Methods): 这类方法采用专门设计的模型组件来解决特定的下游任务,通常参数数量相对较少。

    • MLP [37], [38]:多层感知机 (Multi-Layer Perceptron),用于建模通信问题中的复杂映射关系。本文实现了 MLP 来处理无线电环境感知和波束管理任务。
    • LSTM [39]:长短期记忆网络 (Long Short-Term Memory),设计有记忆单元和乘法门,以处理长期依赖问题。本文实现了包含 4 层 LSTM 的模型来处理信道重建任务。
    • CNN [24]:卷积神经网络 (Convolutional Neural Network),[24] 中提出了一种基于 CNNFDD 系统预测器,将时频 CSI 数据预测视为二维图像处理任务。本文实现了包含 10 个卷积层的 CNN(卷积核大小 3×33 \times 3)来处理信道重建任务。
    • WiT [26]:一种基于 Transformer 的定位估计方法,利用注意力机制实现鲁棒学习效果。本文按照 [26] 的描述实现了 WiT 来处理无线电环境感知任务。
    • Transformer [23]:一种基于 Transformer 的并行信道预测器,用于 TDD 系统,旨在缓解误差传播问题。本文实现了包含 3 个编码器和 2 个解码器的 Transformer 来处理信道重建任务。
  3. 多任务小模型方法 (Multi-Task Small Model Methods): 这类方法采用低层共享和跨特征融合等技术,实现不同任务间的特征共享,从而实现多功能模型。

    • Cross-stitch [40]:一种带有“cross-stitch 单元”的卷积多任务学习神经网络,可以组合来自多个网络的激活。本文以 ResNet [41] 作为骨干层实现。
    • Cross-stitch(s):为了说明无线多任务学习对小模型的影响,本文还增加了 Cross-stitch(s) 作为基线,它直接应用 cross-stitch 网络但只执行单个任务。
  4. 单任务大模型方法 (Single-task Large Model Methods): 这类方法通常针对单个下游任务微调大模型,通过利用大模型的强大建模能力实现高性能。

    • LLM4CP [19]:该方法首次将大语言模型应用于信道预测任务,通过微调实现。本文实现了它,并选择 gpt2 作为主干 LLMLN Tuning [42] 作为微调方法,用于处理信道重建任务。
    • LLM4WM(s):一种基于单任务微调的大模型网络,本文直接应用所提出的 LLM4WM 但仅执行单个任务。

5.4. 网络与训练参数

  • 多任务适配器模块 (Multi-Task Adapter module): 输入和输出特征对齐均采用 Na=8N_a=8 的适配器。

  • MoE-LoRA 微调方法: 专家数量选择为 8,每个 LoRA 矩阵的秩 r=8r=8

  • 输出模块:

    • 对于特定任务,使用一个三层 MLP 网络,特征维度为 768。
    • 或者一个三层 CNN 网络,使用 3×33 \times 3 的卷积核进行特征处理。
    • 此外,仅使用一个单层全连接网络来对齐输出维度。
  • 主干 LLM: 采用 GPT-2 的最小版本 [43],其特征维度 F=768F=768,并部署了其中的前 NL=6N_L=6 层。

  • 学习率调度器: 采用 warm-up (预热) 和 cosine annealing (余弦退火) 调度器。

    • 前 50 个 epochs 作为 warm-up 阶段,学习率从最小值 1×1051 \times 10^{-5} 线性增加到 1×1031 \times 10^{-3}
    • 在随后的训练阶段,学习率使用 cosine annealing 调度器动态调整。
  • 其他超参数: 模型的其他训练超参数列于 Table III

    以下是原文 Table III 的结果:

    Parameter Value
    Batch size 512
    Epochs 250
    Optimizer Adam (betas=(0.9, 0.999))
    Learning rate scheduler Cosine Annealing
    Cosine annealing period 100 epochs
    Learning rate range [1 × 10−5, 1 × 10−3]

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 整体性能

Table IV 展示了 LLM4WM 与其他基线方法在各项任务上的性能比较。

以下是原文 Table IV 的结果:

Method CE CP PF Method BF Method DE PE Avg. ↓
NMSE↓ SE ↑ NMSE↓ SE ↑ NMSE ↓ SE ↑ Acc ↑ SE ↑ MAE ↓ NMSE ↓
BI 0.654 5.612 1.796 2.965 1.293 5.321 Codebook 0.288 7.868 FIFS 0.249 0.204 0.818
CNN 0.119 6.043 0.125 6.038 0.283 5.888 CNN 0.356 6.852 WiT 0.160 0.053 0.230
LSTM 1.000 4.182 0.161 5.994 0.280 5.902 MLP 0.831 8.522 MLP 0.218 0.091 0.320
Cross-stitch(s) 0.153 5.999 0.112 6.058 0.226 5.947 Cross-stitch(s) 0.884 8.545 Cross-stitch(s) 0.177 0.054 0.140
Cross-stitch 0.157 5.996 0.112 6.059 0.232 5.947 Cross-Stitch 0.858 8.525 Cross-stitch 0.131 0.032 0.134
LLM4CP 0.106 6.062 0.106 6.066 0.151 6.027 LLM4CP 0.682 8.430 LLM4CP 0.199 0.122 0.167
LLM4WM(s) 0.108 6.060 0.106 6.057 0.114 6.061 LLM4WM(s) 0.878 8.530 LLM4WM(s) 0.153 0.052 0.109
LLM4WM 0.103 6.069 0.106 6.068 0.100 6.081 LLM4WM 0.904 8.557 LLM4WM 0.087 0.028 0.087

结果表明,LLM4WM 在所有任务上均优于非学习方法、小模型方法以及单任务微调的大模型方法。

  • 对比传统方法 (BI, Codebook, FIFS): 深度学习方法,尤其是 LLM4WM,在所有任务上都表现出压倒性优势,验证了 AI 在无线通信领域的强大潜力。

  • 对比单任务小模型 (CNN, LSTM, MLP, WiT, Transformer): LLM4WM 的表现显著优于这些小模型,这得益于其利用预训练 LLM 的通用知识和多任务联合学习能力,能够提取更鲁棒、更泛化的特征表示。

  • 对比多任务小模型 (Cross-stitch, Cross-stitch(s)): LLM4WM 同样优于 Cross-stitch。实验数据揭示了一个关键发现:小模型从单任务学习转向多任务学习时,平均性能提升仅为 0.19 dB,而大模型则实现了 0.99 dB 的显著提升。这表明,大模型具有更强的能力来提取联合表示,能够更好地处理任务间的知识冲突,因此更适合多任务处理。

  • 对比单任务大模型 (LLM4CP, LLM4WM(s)): LLM4WM 的性能甚至优于其单任务变体 LLM4WM(s)LLM4CP。这证明了 LLM4WM 所采用的 MoE-LoRA 框架在多任务场景下,通过共享专家权重和门控机制,能够更有效地学习跨任务的共同知识和任务特定特征,避免了单任务微调容易出现的过拟合问题。尤其在波束赋形 (BF) 任务上,LLM4WM 的准确率高达 0.904,远超 LLM4CP0.682

  • 频谱效率 (SE) 表现: LLM4WM 在所有信道重建和波束管理任务中也取得了最高的 SE 值,验证了其方法不仅在误差指标上表现优秀,也能有效提升通信系统的实际性能。

    大模型与小模型在多任务学习中的比较: Figure 5 以雷达图形式直观展示了大型模型 (LM) 和小型模型 (SM) 在多任务学习 (MTL) 和单任务学习 (STL) 前后的性能对比。

    Fig. 5. Performance comparison of large and small models before and after wireless multi-task learning. 该图像是六边形雷达图,展示了大模型(LM)和小模型(SM)在多任务学习(MTL)和单任务学习(STL)中各评估指标的性能比较。图中分别标识了不同模型在通道效率(CE)、通道潜力(CP)、信号质量(PQ)、边缘性能(PE)、延迟(DE)和频谱效率(PF)等方面的表现。

以下是原文 Figure 5 的描述: VLM 描述: 该图像是六边形雷达图,展示了大模型(LM)和小模型(SM)在多任务学习(MTL)和单任务学习(STL)中各评估指标的性能比较。图中分别标识了不同模型在通道效率(CE)、通道潜力(CP)、信号质量(PQ)、边缘性能(PE)、延迟(DE)和频谱效率(PF)等方面的表现。

雷达图清楚地显示,LLMMTL 中相比 STL 获得了更显著的性能提升,而 SM 的提升相对较小。这进一步印证了 Table IV 中的分析,即大模型在处理多任务时的能力更强,能更好地从联合学习中受益。

6.1.2. 专家分配验证

为了验证 MoE (Mixture of Experts) 中的专家是否根据任务类型被有效分配,本文使用了皮尔逊相关系数 (Pearson correlation coefficient) 作为衡量指标。Figure 6 展示了两个随机选取的 MoE-LoRA 层中专家组合权重的热图。

Fig. 6. Pearson correlation coefficient heatmap of expert combination weights for various tasks 该图像是一个皮尔逊相关系数热图,展示了不同任务间的专家组合权重。图中提供了六个任务之间的相关性数据,左侧热图展示了每对任务的相关系数,颜色深浅反映相关性强度。通过该热图,可以观察到任务之间的相互关系和依赖性。

以下是原文 Figure 6 的描述: VLM 描述: 该图像是一个皮尔逊相关系数热图,展示了不同任务间的专家组合权重。图中提供了六个任务之间的相关性数据,左侧热图展示了每对任务的相关系数,颜色深浅反映相关性强度。通过该热图,可以观察到任务之间的相互关系和依赖性。

结果显示,大多数任务之间专家组合权重的相关性相当低。这有力地表明门控网络 (gating network) 确实为不同任务类型学习了不同的专家组合。这意味着 MoE 机制能够根据任务的特点动态地激活最相关的专家,从而实现更精细、更专业的知识共享和特异性学习。此外,观察到具有相似特性的任务(例如,同属于信道重建类别的任务)之间的相关性较高,这符合预期,因为相邻任务往往共享更多的底层信息和处理逻辑。

6.1.3. 泛化实验

泛化能力 (Generalization capability) 对于模型在实际通信场景中的部署至关重要,因为它可以减少频繁更新模型的需要。本文进行了泛化实验,具体为:

  1. 场景迁移: 将在 UMa (Urban Macro) 场景下训练的模型,仅使用 10%RMa (Rural Macro) 数据集进行迁移。
  2. 频率迁移: 将在 1.9 GHz sub-6G 链路数据集上训练的模型,迁移到 2.4 GHz sub-6G 链路数据集。 Table V 展示了泛化实验结果。

以下是原文 Table V 的结果:

Train Set Test Set Method CE CP PF Method BF Method DE PE Avg. ↓
NMSE ↓ NMSE ↓ NMSE ↓ Acc ↑ MAE ↓ NMSE ↓
UMa1.9GHz RMa1.9GHz LLM4WM 0.143 0.145 0.162 LLM4WM 0.413 LLM4WM 0.336 0.285 0.276
LLM4CP 0.177 0.133 0.292 LLM4CP 0.306 LLM4CP 0.370 0.311 0.330
CNN 0.187 0.137 0.384 CNN 0.215 WiT 0.339 0.220 0.376
LSTM 1.000 0.309 0.545 MLP 0.365 MLP 0.539 0.473 0.584
UMa2.4GHz LLM4WM 0.101 0.110 0.135 LLM4WM 0.785 LLM4WM 0.126 0.047 0.122
LLM4CP 0.110 0.113 0.196 LLM4CP 0.685 LLM4CP 0.182 0.073 0.165
CNN 0.115 0.121 0.381 CNN 0.375 WiT 0.143 0.047 0.239
LSTM 1.000 0.174 0.340 MLP 0.769 MLP 0.256 0.134 0.356

结果表明,尽管多任务泛化和迁移带来了挑战,LLM4WM 在大多数任务中始终优于其他方法。

  • UMa1.9GHz 训练集迁移到 RMa1.9GHz 测试集时: LLM4WM 在所有任务(除了 BF 任务的准确率不如部分基线)上的 NMSEMAE 均最低,Avg. 值也是最低的 0.276。这表明 LLM4WM 在不同地理场景下的信道特征迁移方面表现出色。
  • UMa1.9GHz 训练集迁移到 UMa2.4GHz 测试集时: LLM4WM 在所有任务上的 NMSEMAE 均最低,BF 任务准确率最高 (0.785),Avg. 值也是最低的 0.122。这验证了 LLM4WM 在不同频率下的信道特征迁移能力。
  • 无线电环境挖掘任务的性能: 值得注意的是,在 RMa1.9GHz 场景下,无线电环境挖掘 (DE, PE) 任务的性能略有下降,这可能是因为在 LOS (Line-of-Sight) 场景下,这些任务相对简单,WiT 等小型模型也能表现出色。然而,LLM4WM 在信道估计等更复杂、需要理解多维特征的任务中依然表现卓越。这进一步证实了大型模型更适合处理动态、复杂的真实世界通信场景。

6.1.4. 超参数分析

为了说明超参数设置的合理性,本文深入研究了超参数对 LLM4WM 性能的影响,具体检查了**LoRA专家数量**的变化效果,如 Figure 7 所示。

Fig. 7. The performance of LLM4WM under different Lora ranks and number of experts. 该图像是图表,展示了LLM4WM在不同LoRa等级和专家数量下的表现。图中左侧展示了不同LoRa等级对应的平均损失和可训练参数数量,右侧则展示了不同专家数量的平均损失变化。这些结果表明,参数数量与平均损失之间的关系。

以下是原文 Figure 7 的描述: VLM 描述: 该图像是图表,展示了LLM4WM在不同LoRa等级和专家数量下的表现。图中左侧展示了不同LoRa等级对应的平均损失和可训练参数数量,右侧则展示了不同专家数量的平均损失变化。这些结果表明,参数数量与平均损失之间的关系。

  • LoRA 秩的影响: 当固定专家数量为 8,增加 LoRA 秩时,LLM4WM 的性能逐渐提高(平均损失下降)。这归因于可训练参数的增加,增强了模型对数据分布的适应性。然而,这种性能提升也伴随着更高的训练开销。在权衡性能和计算效率后,秩为 8 被确定为最优平衡点。
  • 专家数量的影响: 随后,在 LoRA 秩固定为最优值 8 的情况下,逐步增加专家数量。观察到与 LoRA 秩相似的趋势,即专家数量的增加有效提升了模型的分析和表示能力。同样,在平衡性能和计算效率后,将专家数量设置为 8 是最合适的选择。

6.1.5. 消融实验

为了评估所提出模块的有效性,本文通过改变或移除多任务适配器和主干 LLM 模块的配置进行了消融实验 (ablation experiments)

  • 多任务适配器的变体:
    • w/o Adapterin:仅在 LLM 输出侧放置适配器(移除输入适配器)。
    • w/o Adapterout:仅在 LLM 输入侧放置适配器(移除输出适配器)。
    • w/o Adapter:不使用任何适配器。
  • 主干 LLM 的变体:
    • w/o LLM:移除大模型(只使用适配器和输出层)。
    • Frozen LLM:冻结预训练权重,不进行 MoE-LoRA 微调(只训练适配器和输出层)。 Table VI 展示了消融实验的结果。

以下是原文 Table VI 的结果:

Metric LLM4WM w/o Adapterin w/o Adapterout w/o Adapter w/o LLM Frozen LLM
Average Loss 0.087 0.092 0.095 0.102 0.117 0.092
Loss Increase Ratio 0.00% 6.50% 9.54% 17.62% 34.40% 6.15%

结果显示,所有消融配置都导致了性能下降,这突出了多任务适配器和主干 LLM 模块的有效性。

  • 适配器的影响: 移除输入适配器 (w/o Adapterin) 导致平均损失增加 6.50%,移除输出适配器 (w/o Adapterout) 导致平均损失增加 9.54%,而完全移除适配器 (w/o Adapter) 则导致平均损失增加 17.62%。这表明适配器在弥合无线数据与 LLM 语义空间之间鸿沟方面发挥了关键作用,无论是输入侧的对齐还是输出侧的映射都不可或缺。
  • LLM 的影响: w/o LLM (移除大模型) 导致平均损失增加高达 34.40%,这是所有消融配置中性能下降最显著的。这强有力地表明 LLM 在无线任务的多任务联合学习中扮演着至关重要的角色。即使只是冻结 LLM 的预训练权重 (Frozen LLM) 而不进行 MoE-LoRA 微调,也导致了 6.15% 的损失增加,进一步强调了 MoE-LoRA 微调对于适应特定领域和任务的重要性。

6.1.6. 效率评估

为了评估 LLM4WM 在实际场景中部署的难度,本文评估了 LLM4WM 与其他基线模型的训练和推理成本,如 Table VII 所示。

以下是原文 Table VII 的结果:

Metric MLP CNN LSTM WiT LLM4CP LLM4WM
Trainable Network parameters (M) 1.29 2.14 1.17 19.19 1.80 1.13
Total Network parameters (M) 1.29 2.14 1.17 19.19 82.91 88.71
Interference time (ms) 0.32 0.49 6.49 2.97 8.62 6.00

所有评估均在配备 4 颗 Intel Xeon Platinum 8375C CPU、4 块 NVIDIA GeForce RTX4090 GPU 和 256 GB RAM 的机器上进行。表中数据反映了每种方法在各任务上的平均性能。

  • 可训练参数量: LLM4WM 的可训练参数量 (1.13 M) 与小型模型 (MLP: 1.29 M, LSTM: 1.17 M, CNN: 2.14 M) 相当,甚至低于一些小模型。这突出表明 MoE-LoRA 微调方法在训练效率和参数效率方面的显著优势。它意味着增加新任务时,模型参数的增量开销仅为约 1.13 M,相对于总参数量(88.71 M,主要由冻结的 LLM 参数构成)而言微不足道。

  • 推理时间: LLM4WM 的平均推理时间为 6.00 ms,虽然高于 MLP (0.32 ms) 和 CNN (0.49 ms),但显著低于 LLM4CP (8.62 ms),并与 LSTM (6.49 ms) 接近。考虑到 LLM4WM 能够同时处理多个复杂任务,这种推理速度是可接受的。

    因此,LLM4WM 展示了高训练效率、参数效率和可接受的推理速度,表明其在未来对日益增长的需求和涉及众多任务的定制服务通信场景中具有巨大的部署潜力。

6.2. 数据呈现

6.2.1. 性能对比 (Table IV)

以下是原文 Table IV 的结果:

Method CE CP PF Method BF Method DE PE Avg. ↓
NMSE↓ SE ↑ NMSE↓ SE ↑ NMSE ↓ SE ↑ Acc ↑ SE ↑ MAE ↓ NMSE ↓
BI 0.654 5.612 1.796 2.965 1.293 5.321 Codebook 0.288 7.868 FIFS 0.249 0.204 0.818
CNN 0.119 6.043 0.125 6.038 0.283 5.888 CNN 0.356 6.852 WiT 0.160 0.053 0.230
LSTM 1.000 4.182 0.161 5.994 0.280 5.902 MLP 0.831 8.522 MLP 0.218 0.091 0.320
Cross-stitch(s) 0.153 5.999 0.112 6.058 0.226 5.947 Cross-stitch(s) 0.884 8.545 Cross-stitch(s) 0.177 0.054 0.140
Cross-stitch 0.157 5.996 0.112 6.059 0.232 5.947 Cross-Stitch 0.858 8.525 Cross-stitch 0.131 0.032 0.134
LLM4CP 0.106 6.062 0.106 6.066 0.151 6.027 LLM4CP 0.682 8.430 LLM4CP 0.199 0.122 0.167
LLM4WM(s) 0.108 6.060 0.106 6.057 0.114 6.061 LLM4WM(s) 0.878 8.530 LLM4WM(s) 0.153 0.052 0.109
LLM4WM 0.103 6.069 0.106 6.068 0.100 6.081 LLM4WM 0.904 8.557 LLM4WM 0.087 0.028 0.087

6.2.2. 泛化实验结果 (Table V)

以下是原文 Table V 的结果:

Train Set Test Set Method CE CP PF Method BF Method DE PE Avg. ↓
NMSE ↓ NMSE ↓ NMSE ↓ Acc ↑ MAE ↓ NMSE ↓
UMa1.9GHz RMa1.9GHz LLM4WM 0.143 0.145 0.162 LLM4WM 0.413 LLM4WM 0.336 0.285 0.276
LLM4CP 0.177 0.133 0.292 LLM4CP 0.306 LLM4CP 0.370 0.311 0.330
CNN 0.187 0.137 0.384 CNN 0.215 WiT 0.339 0.220 0.376
LSTM 1.000 0.309 0.545 MLP 0.365 MLP 0.539 0.473 0.584
UMa1.9GHz UMa2.4GHz LLM4WM 0.101 0.110 0.135 LLM4WM 0.785 LLM4WM 0.126 0.047 0.122
LLM4CP 0.110 0.113 0.196 LLM4CP 0.685 LLM4CP 0.182 0.073 0.165
CNN 0.115 0.121 0.381 CNN 0.375 WiT 0.143 0.047 0.239
LSTM 1.000 0.174 0.340 MLP 0.769 MLP 0.256 0.134 0.356

6.2.3. 消融实验结果 (Table VI)

以下是原文 Table VI 的结果:

Metric LLM4WM w/o Adapterin w/o Adapterout w/o Adapter w/o LLM Frozen LLM
Average Loss 0.087 0.092 0.095 0.102 0.117 0.092
Loss Increase Ratio 0.00% 6.50% 9.54% 17.62% 34.40% 6.15%

6.2.4. 效率评估结果 (Table VII)

以下是原文 Table VII 的结果:

Metric MLP CNN LSTM WiT LLM4CP LLM4WM
Trainable Network parameters (M) 1.29 2.14 1.17 19.19 1.80 1.13
Total Network parameters (M) 1.29 2.14 1.17 19.19 82.91 88.71
Interference time (ms) 0.32 0.49 6.49 2.97 8.62 6.00

7. 总结与思考

7.1. 结论总结

本文提出了一种新颖的大语言模型 (LLM) 多任务微调框架 LLM4WM,专为无线通信系统中的信道相关任务 (channel-associated tasks) 设计。通过利用多样化的多任务数据集,LLM4WM 能够同时执行包括信道估计、信道预测、距离估计和波束赋形在内的多项无线任务。

该框架的核心创新点包括:

  1. MoE-LoRA 集成:专家混合模型与低秩适应 (MoE-LoRA) 引入微调过程,使得主干 LLM 能够通过优化组合专家模块来动态适应任务,从而有效提取跨任务的共享表示并提升任务特定性能。
  2. 多任务适配器: 引入多任务适配器 (multi-task adapter),以弥合不同任务的特征空间与 LLM 语义嵌入空间之间的鸿沟,确保了任务特征的连贯对齐。
  3. 卓越的性能与泛化能力: 初步仿真结果表明,LLM4WM 框架展现出强大的多任务学习和泛化能力,在全样本和少样本评估中均优于现有基线方法。
  4. 模块有效性验证: 消融研究进一步强调了每个模块(包括输入/输出适配器和 LLM 主干)对整体系统性能的关键贡献。
  5. MoE 机制有效性: 专家权重热图验证了 MoE 机制在自适应分配专家资源方面的有效性,凸显了其在增强模型专业化和灵活性方面的作用。
  6. 高效性: MoE-LoRA 方法使得 LLM4WM 的可训练参数量与小模型相当,同时保持了可接受的推理速度,展现了其在未来通信场景中的部署潜力。

7.2. 局限性与未来工作

尽管 LLM4WM 展现了令人鼓舞的性能,但仍存在一些局限性,并为未来的研究提供了方向:

  • 初步结果与真实世界验证: 论文中提及“初步仿真结果” (Preliminary simulation results),这暗示着模型在更复杂、更具挑战性的真实世界通信场景中的性能和鲁棒性仍需进一步的大规模验证。实际部署可能面临的非理想因素(如信道模型失配、环境噪声、硬件限制等)尚未充分考虑。
  • LLM 规模与计算效率权衡: 本文使用了 GPT-2 的最小版本作为主干 LLM。虽然 MoE-LoRA 提高了参数效率,但对于更大规模的 LLM 而言,如何在保持高性能的同时进一步优化推理延迟和能耗,使其适应边缘设备等资源受限环境,仍是一个挑战。
  • 门控网络复杂性: 论文中 MoE 的门控网络采用了单层线性网络。未来可以探索更复杂的门控机制,例如基于上下文的、能更好捕捉任务间动态关系和更精确分配专家权重的网络,以进一步优化专家选择策略。
  • 任务冲突的深度缓解: 尽管 MoE 机制有助于缓解多任务学习中的任务冲突,但在高度异构的任务集合中,seesaw effect 可能仍然存在。未来的工作可以研究更先进的损失平衡策略或任务协同机制。
  • 数据多样性与可扩展性: 尽管使用了 QuaDRiGa 生成的多样化数据集,但模拟数据与真实世界数据之间仍存在差距。未来的研究可以探索在更大规模、更多样化、包含多模态数据的真实世界数据集上训练和验证模型,以进一步提升模型的泛化能力。
  • 理论分析: 论文主要侧重于实验验证。未来可以对 MoE-LoRA 在无线信道数据上的表示学习能力、收敛性质以及专家激活模式进行更深入的理论分析。

7.3. 个人启发与批判

7.3.1. 个人启发

  • LLM 的通用性与跨领域潜力: 这篇论文极大地启发了我对 LLM 通用能力的理解。它突破了 LLM 仅限于 NLP 领域的传统认知,展示了 LLM 预训练积累的通用知识(如模式识别、上下文理解)可以有效地迁移到看似完全不相关的、以数值数据为主的无线通信领域。这为将 LLM 应用于其他工程、科学领域,甚至多模态任务提供了新的范式和信心。
  • 参数高效微调的艺术: MoE-LoRA 是一种优雅且实用的解决方案,完美平衡了利用 LLM 强大能力和应对其巨大资源消耗之间的矛盾。这种通过稀疏激活和低秩更新的组合,使得 LLM 能够以可接受的成本进行领域适配和多任务处理,对于资源受限场景下的大模型应用具有极高的参考价值。
  • 适配器模式的重要性: 输入和输出适配器在弥合不同模态特征空间鸿沟方面起到了关键作用。它提供了一个通用的“翻译”机制,使得 LLM 能够在不改变其核心结构的情况下,理解和生成特定领域的数据,这对于构建跨模态、多领域 AI 系统具有普适性。
  • 多任务学习的增益再确认:LLM 的加持下,多任务学习的价值得到了进一步验证。论文中大模型在 MTL 中性能提升显著高于小模型的发现,揭示了 LLM 作为“强大基座”在挖掘任务间协同效应方面的独特优势,预示着未来 AI 发展可能更加倾向于构建能够处理广泛任务的通用模型。

7.3.2. 批判与潜在改进

  • LLM 骨干模型的选择: 论文使用了 GPT-2 的最小版本。尽管这有利于验证方法的可行性和效率,但 GPT-2 相较于当前最先进的 LLM(如 Llama, Mistral, GPT-4 系列)在规模和能力上存在差距。未来的工作可以探索将 LLM4WM 框架应用于更大、更先进的 LLM 骨干,观察是否能带来更大的性能飞跃,并进一步优化其部署成本。
  • 门控机制的复杂性与可解释性: 文中 MoE 的门控网络采用了简单的单层线性网络。虽然有效,但其决策过程可能缺乏深度和可解释性。未来可以研究更复杂的、基于注意力或更高级 MLP 的门控网络,使其能够更好地捕捉任务间的细微关系,并提供对专家选择原因的洞察。此外,如何确保门控网络在面对新型任务或未知环境时仍能做出稳健决策,也是一个值得探讨的问题。
  • 任务冲突的量化与缓解: 尽管 MoE 缓解了任务冲突,但论文没有深入量化或分析残余的任务冲突程度。未来的研究可以探索更精细的机制,例如通过任务相关性度量来动态调整任务权重、设计层次化 MoE 结构,或者引入对抗学习 (adversarial learning) 来进一步解耦任务特定特征。
  • 真实世界数据的整合: 尽管 QuaDRiGa 生成的数据符合 3GPP 标准,但实际无线信道环境更为复杂和多变。模型在仿真数据上的优秀表现,能否完全迁移到真实世界部署中,仍需通过大规模实地测试来验证。未来的工作应着重于整合真实的无线信道数据,并处理实际数据中常见的缺失、噪声和不一致性问题。
  • 多模态融合的拓展: 论文提及了 SoM 的概念。LLM4WM 目前主要关注 CSI 数据。未来可以探索将 LLM4WM 扩展到真正的多模态输入,例如结合视觉信息(如环境图像)、雷达数据等,构建一个能够处理更丰富环境信息的“无线基础模型”,从而实现更全面的感知-通信一体化。
  • 持续学习与在线适应: 无线环境是动态变化的。模型需要具备持续学习 (continual learning) 和在线适应 (online adaptation) 的能力,而不是仅仅通过离线微调。未来的研究可以探索如何将 LLM4WM 与在线学习范式结合,使其能够实时地适应环境变化,而无需频繁的重训练。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。