论文状态：已完成

Large Language Model Offloading using Active Inference in 6G Symbiotic IoT

发表：2025/01/01

大语言模型卸载策略 (1)主动推理方法 (1)6G边缘计算资源调度 (1)云边协同计算 (1)协生物联网 (1)

原文链接

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出基于主动推理的大语言模型卸载方法，融合6G边缘计算与云边协同，优化共生物联网中资源调度与计算负载，实现高效智能推理服务，提升系统性能与资源利用率。

摘要

1 Large Language Model Offloading using Active Inference in 6G Symbiotic IoT Xiaoming He, Member, IEEE , Yunzhe Jiang, Xiaoming Xu, Huajun Cui, Yinqiu Liu, Member, IEEE , Mingkai Chen, Member, IEEE , Yan Hong, Member, IEEE , and Jie Zhang, Member, IEEE Abstract —The increasing demand for Large Language Model (LLM) applications in mobile computing poses a challenge for devices with limited resources, as they struggle to efficiently handle complex inference tasks. Despite its traditional use for offloading tasks to remote servers, Deep Reinforcement Learning (DRL) exhibits notable limitations, such as data inefficiency, latency insensitivity, and poor adaptability to variable workloads, thereby adversely impacting the performance of LLMs. Deep Reinforcement Learning (DRL) is traditionally used to offload tasks to remote servers. However, it has several limitations which negatively affect the performance of LLMs. We present an approach which is based on active inference for task offloading in LLM and cloud-edge computing resource scheduling, especially relevant to emerging 6G networks. These networks are designed to provide enhanced connectivity, reduced l

思维导图

论文精读

中文精读约 35 分钟读完 · 21,152 字

1. 论文基本信息

1.1. 标题

大语言模型基于主动推理在6G共生物联网中的卸载 (Large Language Model Offloading using Active Inference in 6G Symbiotic IoT)

1.2. 作者

Xiaoming He, Yunzhe Jiang, Xiaoming Xu, Huajun Cui, Yinqiu Liu, Mingkai Chen, Yan Hong, and Jie Zhang

隶属机构与研究背景（部分作者）:

Xiaoming He: 南京邮电大学物联网学院讲师，博士毕业于河海大学计算机科学与软件工程。曾为新加坡科技设计大学访问研究员。研究兴趣包括边缘智能 (edge intelligence) 和基于FPGA的AI加速器 (FPGA-based AI accelerators)。
Yunzhe Jiang: 电子科技大学信息与通信工程学院硕士研究生。研究兴趣包括移动边缘计算 (mobile edge computing)。
Xiaoming Xu: 北京科阿鲁国芯科技有限公司工程师。研究兴趣包括网络安全 (cybersecurity)、后量子密码学 (post-quantum cryptography)、物联网安全 (IoT security) 和大语言模型 (large language models)。
Huajun Cui: 中国电建集团北京勘测设计研究院有限公司数字智能研究院工程师。博士毕业于中国科学院大学网络空间安全学院。研究兴趣包括移动边缘计算、移动应用安全 (mobile application security) 和5G/6G安全。
Yinqiu Liu: 南洋理工大学计算与数据科学学院博士生。研究兴趣包括无线通信 (wireless communications)、移动AIGC (mobile AIGC) 和生成式AI (generative AI)。
Mingkai Chen: 南京邮电大学副教授。博士毕业于南京邮电大学信息与通信工程专业。研究兴趣包括多媒体通信与计算 (multimedia communications and computing)、资源分配 (resource allocation) 和无线网络中的信号处理 (signal processing)。
Yan Hong: 苏州大学教授，英国皇家艺术学会会士 (FRSA)。在法国里尔大学、罗马尼亚雅西技术大学和苏州大学获得三博士学位。研究兴趣为设计智能 (design intelligence)。
Jie Zhang: 香港科技大学计算机科学与工程系研究助理教授。博士毕业于香港理工大学计算学系。研究兴趣包括边缘计算 (edge computing)、机器学习 (machine learning)、深度强化学习 (deep reinforcement learning)、联邦学习 (federated learning) 和计算机视觉 (computer vision)。

1.3. 发表期刊/会议

论文未明确指出具体的发表期刊或会议名称，但从作者所属机构以及部分作者在IEEE担任会员、且参考文献中包含大量IEEE会议和期刊文章来看，该研究可能发表于相关领域的顶级IEEE会议或期刊。

1.4. 发表年份

2024年（根据参考文献中年份以及作者信息推断）

1.5. 摘要

The increasing demand for Large Language Model (LLM) applications in mobile computing poses a challenge for devices with limited resources, as they struggle to efficiently handle complex inference tasks. Despite its traditional use for offloading tasks to remote servers, Deep Reinforcement Learning (DRL) exhibits notable limitations, such as data inefficiency, latency insensitivity, and poor adaptability to variable workloads, thereby adversely impacting the performance of LLMs. Deep Reinforcement Learning (DRL) is traditionally used to offload tasks to remote servers. However, it has several limitations which negatively affect the performance of LLMs. We present an approach which is based on active inference for task offloading in LLM and cloud-edge computing resource scheduling, especially relevant to emerging 6G networks. These networks are designed to provide enhanced connectivity, reduced latency, and increased data rates. Our approach capitalizes on these strengths to optimize task distribution and maximize resource utilization, fostering a symbiotic relationship between devices and networks. Simulations demonstrate that our method outperforms standard DRL by enhancing data efficiency and better adapting to varying loads, aligning with 6G’s emphasis on flexible and responsive networks. By integrating active inference into cloud-edge systems, we develop a more robust and adaptable LLM strategy that is well-suited for the 6G era, promoting a Symbiotic Internet-of-Things (IoT) where devices and networks dynamically collaborate and share resources to fulfill the requirements of advanced applications.

1.6. 原文链接

/files/papers/69007e63ed47de95d44a3483/paper.pdf （当前为预印本或内部文档形式）

2. 整体概括

2.1. 研究背景与动机

核心问题： 随着大语言模型 (Large Language Model, LLM) 应用需求的爆炸式增长，移动计算设备（通常资源受限）在处理复杂且计算密集型的 LLM 推理任务时面临巨大挑战。这包括高计算和内存需求，使得在资源有限的设备上高效运行 LLM 变得困难。
现有研究的挑战与空白：
- 传统深度强化学习 (Deep Reinforcement Learning, DRL) 的局限性： 尽管 DRL 通常用于将任务卸载到远程服务器，但它存在显著的局限性，例如数据效率低下、对延迟不敏感以及对可变工作负载的适应性差，这些都严重影响了 LLM 的性能。传统的 DRL 方法需要特定的奖励函数，导致泛化能力不佳，且难以将人类知识转化为可量化的奖励。在动态且不可预测的物联网 (Internet of Things, IoT) 环境中，预定义的奖励函数可能无效。
- 6G 网络与共生物联网 (Symbiotic IoT) 的需求： 新兴的 6G 网络旨在提供增强的连接性、更低的延迟和更高的数据速率，但要将 LLM 整合到 6G 生态系统，特别是在共生物联网中，需要创新的解决方案来管理这些模型的资源密集性，同时充分利用 6G 的能力。
论文的切入点或创新思路： 论文提出了一种基于主动推理 (active inference) 的方法，用于在 LLM 任务卸载和云-边缘计算 (cloud-edge computing) 资源调度中解决上述问题。该方法旨在利用 6G 网络的优势来优化任务分配和最大化资源利用率，促进设备与网络之间的共生关系。论文通过引入“无奖励引导 (rewardless guidance)”机制，取代了传统 DRL 中的奖励模型，从而提高智能体 (agent) 对环境的理解和泛化能力。

2.2. 核心贡献/主要发现

提出了创新的主动推理框架： 针对 LLM 推理任务委托和资源分配的复杂性，引入了一种利用主动推理方法的新颖框架。该框架在收敛性和泛化能力方面超越了传统的 DRL 技术。
建立综合系统模型和数学公式： 针对 GPT-J-6B LLM 构建了一个全面的系统模型和数学公式，其基础是服务器集群环境中收集的经验数据。该模型涵盖了 LLM 生命周期的训练和推理阶段。
引入无奖励引导机制： 提出了一种创新的算法，用无奖励引导取代了 DRL 中的传统奖励模型。这种方法使得智能体能够更深入地理解其周围环境，直接导航到期望状态，而无需预定义的奖励函数，从而增强了泛化能力。
仿真验证卓越性能： 通过严格的仿真分析，证明了所提出的框架能够产生具有增强收敛特性的策略，并在 LLM 推理任务的背景下优于主流 DRL 算法。特别是在数据效率、对不同负载的适应性以及对动态延迟需求的响应方面表现优异。
促进6G共生物联网： 通过将主动推理集成到云-边缘系统，开发了一种更健壮和适应性更强的 LLM 策略，非常适合 6G 时代，促进了设备和网络动态协作和共享资源以满足高级应用需求的共生物联网。

3. 预备知识与相关工作

3.1. 基础概念

大语言模型 (Large Language Model, LLM): 指的是具有庞大参数数量（通常数十亿甚至更多）的深度学习模型，通过在海量文本数据上进行训练，学习语言的统计规律，从而能够执行各种自然语言处理任务，如文本生成、问答、翻译等。它们的特点是参数规模巨大和计算需求高。
边缘智能 (Edge Intelligence): 在靠近数据源的边缘设备或边缘服务器上执行人工智能任务（如机器学习推理），而不是将所有数据都发送到遥远的云端。这有助于减少延迟、节省带宽并提高数据隐私。
6G 网络 (6G Networks): 指的是第六代移动通信技术，是 5G 之后的下一代无线通信标准。 6G 旨在提供比 5G 更高的带宽、更低的延迟、更广的覆盖范围、更高的可靠性和更强的智能性，支持更广泛的物联网 (IoT) 应用和新兴技术，如全息通信和数字孪生。
共生物联网 (Symbiotic IoT): 描述的是一个智能体（如物联网设备）和网络基础设施之间相互协作、共享资源，并动态适应彼此需求的关系。在这个范式中，设备和网络不再是独立的实体，而是形成一个有机的整体，共同优化性能和资源利用。
主动推理 (Active Inference): 一种基于自由能原理 (Free Energy Principle) 的认知计算理论。它认为智能体通过最小化其“变分自由能 (variational free energy)”来感知世界、预测未来和采取行动。这种自由能度量了智能体内部模型与外部世界实际状态之间的差异，以及智能体对其观测的惊讶程度。主动推理驱动智能体选择那些能减少其不确定性（即自由能）的行动。与传统的 DRL 不同，主动推理可以实现“无奖励引导”，因为智能体通过内在的减少不确定性来学习和行动，而非外部奖励信号。
深度强化学习 (Deep Reinforcement Learning, DRL): 结合了深度学习（用于处理感知）和强化学习（用于决策）的一种机器学习范式。 DRL 智能体通过与环境的交互学习，根据从环境中获得的奖励信号来优化其行为策略，以最大化长期累积奖励。常见的 DRL 算法包括 DQN、PPO 和 SAC。
云-边缘计算 (Cloud-Edge Computing): 一种分布式计算范式，结合了云计算的强大集中处理能力和边缘计算的低延迟、近数据源处理优势。在云-边缘架构中，计算任务可以在靠近用户和设备的边缘服务器 (Multi-Access Edge Computing, MEC) 上执行，也可以在更强大的远程云服务器 (Cloud Server, CS) 上执行，从而实现灵活的资源调度和任务卸载。
注意机制 (Attention Mechanism): 大语言模型，尤其是 Transformer 架构的核心组成部分。它允许模型在处理序列数据（如文本）时，能够动态地关注输入序列中不同部分的重要性。当模型生成一个输出词时，它会“注意”输入序列中最相关的部分。其核心思想是通过计算查询 (Query)、键 (Key) 和值 (Value) 之间的相似度来加权求和。
- 查询 (Query, $Q$ ): 代表当前正在处理的信息，模型正在寻找与之相关的信息。
- 键 (Key, $K$ ): 代表输入序列中每个元素的描述，用于与查询进行匹配。
- 值 (Value, $V$ ): 包含与每个键相关联的实际信息，一旦键被匹配，对应的值就会被加权提取。 $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中：
- $Q$ 是查询矩阵。
- $K$ 是键矩阵。
- $V$ 是值矩阵。
- $d_k$ 是键向量的维度，用于缩放点积，防止点积过大导致 softmax 函数梯度消失。
- $QK^T$ 计算查询和键之间的相似度（点积）。
- $\mathrm{softmax}$ 函数将相似度分数转换为权重分布。
- $V$ 乘以这些权重得到加权后的值，即注意力机制的输出。
多头自注意力 (Multi-Head Self-Attention): 是自注意力机制的扩展，它并行地运行多个自注意力机制（称为“头”），每个头学习不同的查询、键和值线性投影，从而捕捉输入序列中不同方面或不同子空间的关系。最后，所有头的输出会被拼接起来并通过一个线性层进行组合。这使得模型能够同时关注来自不同“视角”的信息。 $\mathrm{MultiHead}(Q, K, V) = \mathrm{Concat}(\mathrm{head}_1, \ldots, \mathrm{head}_h)W^O$ $\mathrm{head}_i = \mathrm{Attention}(QW_i^Q, KW_i^K, VW_i^V)$ 其中：
- $h$ 是头的数量。
- Q, K, V 是原始的查询、键、值矩阵。
- $W_i^Q, W_i^K, W_i^V$ 是第 $i$ 个头的可学习权重矩阵，用于将 Q, K, V 投影到不同的子空间。
- $\mathrm{Concat}$ 函数将所有头的输出拼接起来。
- $W^O$ 是最终输出的线性投影矩阵。

3.2. 前人工作

论文回顾了以下几方面的相关工作：

大语言模型 (Large Language Model, LLM):
- 强调 LLM 的广泛应用和其庞大的参数规模及计算需求。
- Xu et al. [22] 提出了 LLMCad，一个设备端推理引擎，旨在移动应用中高效执行隐私敏感的生成任务。
- Yi et al. [23] 针对将 LLM 从数据中心转移到边缘设备时遇到的参数规模大和运行时成本高的问题，引入了 EdgeMoE，一个专为混合专家型 LLM 设计的设备端推理引擎。
- Ferrag et al. [24] 针对网络安全攻击的日益增长，提出了 SecurityBERT，一个利用 BERT 模型识别物联网网络中网络威胁的新架构。这些工作主要关注 LLM 在边缘设备上的高效部署和应用，以及在特定场景（如安全）下的优化。
深度强化学习的决策 (Decision Making with Deep Reinforcement Learning, DRL):
- 指出 DRL 算法结合了深度神经网络和强化学习原理，能够通过环境交互自主学习最优决策策略。
- Liu et al. [31] 提出了一个集成无线电能传输 (wireless power transfer) 的解决方案，以解决物联网节点电池容量有限和计算能力不足的问题，通过收集射频信号能量并卸载计算任务到边缘服务器来提升效率。
- Zhang et al. [32] 提出了一个城市车载云辅助 MEC 网络，以解决智能车辆在动态交通环境中的计算卸载挑战。
- Wang et al. [33] 提出了一个 $DRL+FL$ 智能资源分配模型，用于解决通信拥塞和用户体验质量下降的问题。这些研究利用 DRL 在资源管理和计算卸载方面进行决策，展示了 DRL 在解决动态和复杂环境下的优化问题方面的潜力。

3.3. 技术演进

该领域的技术演进体现在：

从传统 LLM 部署到边缘化 LLM： 随着 LLM 规模的不断扩大，如何在资源受限的移动和边缘设备上运行它们成为关键挑战。这催生了 LLMCad 和 EdgeMoE 等设备端推理引擎的出现，致力于优化 LLM 的能效和性能。
从传统 DRL 到 6G 环境下的优化： DRL 在各种决策和资源管理任务中取得了成功，但其对奖励函数的依赖性、数据效率问题以及对动态环境的适应性不足，限制了其在快速变化的 6G IoT 环境中 LLM 卸载的有效性。
引入主动推理应对 DRL 局限： 本文的工作正是针对 DRL 的这些局限性，提出了基于主动推理的解决方案。主动推理通过其“无奖励引导”机制，让智能体能够更内在地理解环境并优化决策，而非简单地依赖外部奖励信号，这代表了从传统 DRL 范式的一种创新性转变，尤其适用于 6G IoT 这种高动态、低延迟和资源受限的复杂环境。

3.4. 差异化分析

本文方法与相关工作中的主要方法相比，核心区别和创新点在于：

突破 DRL 的奖励函数依赖： 传统 DRL 算法需要精心设计的奖励函数来指导学习过程，这在高度动态和不可预测的 IoT 环境中往往难以实现，并且可能导致泛化能力差。本文提出的方法通过引入“无奖励引导 (rewardless guidance)”的主动推理机制，摆脱了对外部奖励信号的依赖。智能体不再需要通过试错来最大化奖励，而是通过最小化其预测误差（自由能）来学习和决策，从而提高了数据效率和环境适应性。
聚焦 6G 共生物联网环境： 相关工作虽然涉及 LLM 卸载和 DRL 应用，但很少有研究专门针对 6G 网络的特性（增强连接性、低延迟、高数据速率）和共生物联网的协同范式来优化 LLM 卸载。本文的方法明确地利用了 6G 网络的优势，旨在促进设备与网络之间的共生关系，优化任务分配和资源利用。
强调鲁棒性和适应性： 传统的 DRL 在面对可变工作负载和动态环境时表现出局限性。本文的主动推理方法通过其内在的预测和不确定性管理机制，能够更好地适应不断变化的网络条件和任务需求，从而为 LLM 提供更鲁棒和适应性强的卸载策略。
性能提升： 仿真结果表明，在收敛速度、任务完成率、平均延迟和 pass@100 等关键性能指标上，本文提出的主动推理方法显著优于 Rainbow DQN、PPO 和 SAC 等主流 DRL 算法，尤其是在应对低延迟和高准确性要求时。

4. 方法论

本节将详细阐述论文提出的基于主动推理的 LLM 卸载策略。首先介绍系统架构和任务模型，然后深入探讨通信模型、数据传输模型，并阐明优化问题。最后，详细解析主动推理策略中的状态与动作表示、无奖励引导机制，以及主动推理决策框架。

4.1. 系统架构与问题概述 (System Configuration and Problem Outline)

论文构建了一个多 LLM 用户环境，该环境与云服务器 (Cloud Server, CS) 和边缘计算服务器 (Multi-Access Edge Computing, MEC) 协同工作。

4.1.1. 系统总览 (System Overview)

终端设备 (Terminal Devices):
- 移动终端 (Mobile Terminals, $D_{\mathrm{mobi}}$ ): 具有动态位置的设备，如智能手机、无人机 (UAV) 和联网车辆。
- 固定终端 (Fixed Terminals, $D_{\mathrm{unmo}}$ ): 具有静态位置的设备，如个人电脑和工作站。
- 所有终端设备统称为集合 $\mathrm{Dev} \in \{ D_{\mathrm{mobi}}, D_{\mathrm{unmo}} \}, i = 1, 2, \ldots, N_{\mathrm{Dev}}$ 。
服务器 (Servers):
- 多接入边缘计算中心 (Multi-Access Edge Computing, MEC): 靠近用户的服务器，具有较低的延迟，用于高效卸载 LLM 推理任务。
- 云计算中心 (Cloud Server, CS): 拥有强大计算资源，能够满足 LLM 推理任务的计算需求。
- 所有服务器统称为集合 $\mathrm{Ser} \in \{ \mathbb{CS}, \mathrm{MEC} \}, j = 1, 2, \ldots, N_{ser}$ 。
任务流程： 在任意给定时间 $t$ ，终端设备 $Dev_i$ 生成一个随机的 LLM 任务卸载请求 $T_t$ 。系统随后运用决策算法将任务 $T_t$ 分配给服务器 $Ser_j$ ，并分配必要的网络、计算和图形内存资源以促进任务执行。

下图（原文 Figure 1）展示了云-边缘框架用于大语言模型卸载的示意图：

该图像是图1，展示了用于大语言模型卸载的云边框架示意图，体现了协同架构下的共生物联网系统，以及基于环境状态获取、卸载决策和策略优化的流程。

4.1.2. 任务模型公式化 (Task Model Formulation)

本研究将 GPT-J-6B 模型作为代表案例，详细分析了 LLM 任务的推理过程，重点关注任务卸载和资源分配的决策机制。GPT-J-6B 拥有60亿参数，是使用 Mesh Transformer JAX [34] 开发的重要里程碑。其执行推理的顺序阶段如下：

输入编码 (Input Encoding): 输入文本通过分词器 (tokenizer) 转换为模型适用的格式。得到的序列表示为 $\textbf{x} = [x_1, \cdot \cdot \cdot, x_n]$ ，其中 $x_i$ 对应第 $i$ 个词元 (token) 或词汇元素。
向量嵌入 (Vector Embedding): $\mathbf{x}$ 随后通过嵌入层 (embedding layer) 映射到向量空间，生成向量序列 $[e_1, \cdots, e_n]$ ，其中 $e_i$ 代表嵌入空间中的第 $i$ 个向量。
位置嵌入 (Positional Embedding): 为嵌入向量应用位置编码 (positional encoding) 以纳入序列元素的顺序信息，生成位置编码后的序列 $[pe_1, pe_2, \ldots, pe_n]$ ，其中 $P$ 是位置编码矩阵。

接下来，阐述 LLM 推理任务中注意机制 (attention mechanism) 和多头自注意力机制 (multi-head self-attention mechanisms) 的详细工作原理，特别关注 GPT-J-6B 模型。

定义查询矩阵 (query matrix) 为 $Q = PE \times W^q$ ，键矩阵 (key matrix) 为 $K = PE \times W^k$ ，值矩阵 (value matrix) 为 $V = PE \times W^v$ 。其中 PE 是位置编码后的序列。多头自注意力操作随后表示为：

$\begin{array} { r l } & { \mathrm { Attention\_layer } ( Q , K , V ) = \mathrm { softmax } \left( \frac { Q K ^ { T } } { \sqrt { d _ { k } } } \right) V , } \\ & { \mathrm { MultiHead\_layer } ( Q , K , V ) = } \\ & { \mathrm { Concatenation } ( \mathrm { head\_t } , \cdot \cdot \cdot ) W ^ { O } , } \\ & { \mathrm { head\_i } = \mathrm { Attention\_layer } ( Q W _ { i } ^ { Q } , K W _ { i } ^ { K } , V W _ { i } ^ { V } ) , } \end{array}$

其中：

$W^q, W^k, W^v$ 是参数矩阵，用于将 PE 投影到 Q, K, V 空间。
$d_k$ 是 $K$ 的维度。
$W_i^Q \in \mathsf { \bar { R } } ^ { d _ { \mathrm { model } } \times d _ { q } }$ ， $W_i^K \in \mathbb { R } ^ { d _ { \mathrm { model } \times d _ { k } } }$ ， $W_i^V \in \mathbb { R } ^ { d _ { \mathrm { model } } \times d _ { v } }$ 是第 $i$ 个注意力头的权重矩阵。
$\dot { W } ^ { O } ~ \in ~ \mathbb { R } ^ { ( h d _ { v } \times d _ { \mathrm { model } } ) }$ 是最终输出的线性投影矩阵，其中 $h$ 是头的数量， $d_v$ 是值向量的维度， $d_{\mathrm{model}}$ 是模型维度。

自注意力层的输出表示为 $Z$ ，它是在多头自注意力计算之后得到的： $Z = { \mathrm { MultiHead\_layer } } ( Q , K , V ) .$ 随后的阶段涉及一个前馈神经网络 (feedforward neural network)。注意力机制的输出 $Z$ 作为多层感知机 (multilayer perceptron, MLP) 的输入，以确定后续的输出： $Y = \mathbf { MLP } ( Z ) .$ 其中 MLP() 封装了线性映射和非线性激活函数。

任务执行流程： 推理任务在服务器 $Ser_j$ 上执行。任务模型从 $Dev_i$ 派遣一个大小为 $PS_x$ 的数据包（封装了任务 $T_t$ ）到 $Ser_j$ 。随后， $Ser_j$ 返回一个大小为 $PS_y$ 的数据包（包含预测文本）给原始终端 $Dev_i$ 。

4.1.3. 终端移动模型 (Terminal Mobility Model)

系统模型包含两类节点：

静止节点： 包括 MEC、CS 和固定终端 $D_{\mathrm{unmo}}$ 。
移动节点： 特指移动终端 $D_i^{\mathrm{mobi}}$ ，如联网车辆、智能手机和无人机 (UAV)。

静止终端 $D_{\mathrm{unmo}}$ 间歇性地生成 LLM 推理任务请求，并保持固定位置。移动终端 $D_i^{\mathrm{mobi}}$ 以预定速度移动，在网络中穿梭时间歇性地生成 LLM 推理任务请求。

为了确定移动终端 $D_i^{\mathrm{mobi}}$ 到计算端点 (MEC 和 CS) 的距离，采用欧几里得距离 (Euclidean distance) 度量。假设移动终端 $D_i^{\mathrm{mobi}}$ 的坐标是 $(x_1, y_1, z_1)$ ，端点的坐标是 $(x_2, y_2, z_2)$ ，则距离 $d$ 使用欧几里得距离计算。

4.1.4. 通信模型 (Communication Model)

系统模型中的通信信道分为：

地对地 (Ground-to-Ground, G2G) 信道： 发送方和接收方都是地面设备。其路径损耗 (path loss) $PL_{G2G}$ 公式为： $PL_{G2G} = 128.1 + 37.6 \log(d) .$ 其中 $d$ 是发送方和接收方之间的距离。
地对空 (Ground-to-Air, G2A) 信道： 通信链路的一端是地面设备，另一端是空中设备。其路径损耗 $PL_{G2A}$ 公式为： $PL_{G2A} = 10 \alpha \log(d) + C ,$ 其中 $\alpha$ 代表路径损耗指数，受环境因素（如建筑物密度、类型、高度和植被）影响； $d$ 是发送方和接收方之间的欧几里得距离； $C$ 是一个常数，取决于操作频率和天线增益等参数。
空对空 (Air-to-Air, A2A) 信道： 促进无人机 (UAV) 之间的中继通信。推理任务的卸载和结果传输可通过 UAV 进行。其路径损耗 $PL_{A2A}$ 公式为： $PL_{A2A} = 10 \alpha \log(d) ,$ 其中 $\alpha$ 是路径损耗指数； $d$ 是 UAV 之间的空中距离。在高空 UAV 的背景下（假设在视距条件下运行），路径损耗指数 $\alpha$ 可以选择一个相对较小的值。

下图（原文 Figure 2）展示了CPU分配与时间成本的相关性。

该图像是作者本人头像照片，用于论文《Large Language Model Offloading using Active Inference in 6G Symbiotic IoT》的作者介绍部分，不包含公式或图表内容。

数据传输速率： 在系统模型中，终端 $Dev_i$ 在时间 $t$ 启动任务请求 $T_t$ 。决策算法将此请求卸载到服务器 $Ser_j$ ，服务器处理后将结果 $P_y$ 返回给终端 $Dev_i$ 。卸载和结果传输都取决于发送方和接收方之间无线通信信道的质量。假设在有效的通信会话期间 $d$ 保持不变。根据信息论，数据传输速率 $R$ 由以下公式给出： $R = W \log_2 \left( 1 + \frac{\mathrm{Power} \cdot G}{N} \right) ,$ 其中：

$W$ 代表通信信道带宽。
$\mathrm{Power}$ 是设备的传输功率。
$G$ 代表信道增益。
$N$ 表示由于信道内热波动引起的噪声功率。

信道增益 $G$ 受天线增益 $g$ 和路径损耗 PL 的影响，并与阴影衰落因子 $X_\sigma$ 相关联。 $g$ 对于接收天线是独有的，PL 和 $X_\sigma$ 是信道的特性。 $X_\sigma$ 通常表示为均值为零的高斯随机变量 $X_\sigma \sim \mathcal{N}(0, \sigma^2)$ ，这保证其始终为正。通常， $g$ 和 $\sigma$ 被认为是常数。信道增益 $G$ 通常定义为： $G = g - PL - X_\sigma .$

4.1.5. 数据传输模型 (Data Transfer Model)

数据传输分为两个独立阶段：任务卸载阶段和结果返回阶段。

任务卸载阶段：
- 决策算法将与任务 $T_t$ 相关的任务数据包 $PS_x$ 从终端 $Dev_i$ 发送到服务器 $Ser_j$ 。
- 涉及四个阶段：传输 (transmission)、传播 (propagation)、排队 (queuing) 和计算 (computation)。
- 传输延迟为 $\frac{PS_x}{R}$ 。
- 发送方和接收方之间的距离 $d_1$ 通过移动模型确定，传播延迟计算为 $\frac{d_1}{c}$ ，其中 $c$ 表示光速。
- 如果服务器的任务队列超过其并行处理能力，则入队请求将被排队，等待时间 $L_q$ 取决于最接近完成的任务的剩余处理时间。
- 任务处理时间 $L_c$ 受服务器计算能力和加速推理框架利用率的影响。
结果返回阶段：
- 处理后的任务 $T_t$ 结果，表示为数据包 $PS_y$ ，会产生传输延迟。
- 终端和服务器 $Ser_j$ 之间的状态距离为 $d_2$ 。值得注意的是， $d_2$ 在任务处理期间可能会发生变化，因此传播延迟为 $\frac{d_2}{c}$ 。

总时间延迟： 总结卸载过程，成功卸载任务 $T_t$ 的总时间延迟 $L_{T_t}$ 计算为： $L_{T_t} = \frac{PS_x + PS_y}{R} + \frac{d_1 + d_2}{c} + L_q + L_c .$ 此外，所有任务请求 $T_t$ 的最大可接受延迟受 $t_{\mathrm{max}}$ 约束，反映了请求终端的延迟容忍度。如果任务处理结果未在此阈值内到达终端，即 $L_{T_t} > t_{\mathrm{max}}$ ，则任务 $T_t$ 被认为不可行并被放弃。

4.1.6. 问题公式化 (Problem Formulation)

本文的主要目标是确定最有效的策略，将 LLM 的计算密集型推理操作委托给边缘或云计算基础设施，同时考虑终端用户层面稀缺资源的限制。此方法旨在减少所有需要卸载的 LLM 推理作业的平均响应时间，并提高模型预测结果的精度。

因此，总系统效用 (total system utility) 封装在以下函数中： $U \left( L _ { T . } , P _ { T . } \right) = \frac { 1 } { \mathrm { avg } \left( \sum _ { T _ { t } } L _ { T _ { t } } \right) } + \mathrm { avg } \left( \sum _ { T _ { t } } P _ { T _ { t } } \right) ,$ 其中 $\mathrm{avg}(\cdot)$ 表示平均函数， $P_{T_t}$ 表示任务 $T_t$ 的预测精度。

因此，优化问题的最终目标是最大化总系统效用 $U(L_{T.}, P_{T.})$ ： $\begin{array} { r l } { \mathrm { maximize } } & { U \left( L _ { T . } , P _ { T . } \right) } \\ { \mathrm { subject ~ to } } & { \left\{ \begin{array} { l l } { W _ { \mathrm { rest } } , C _ { \mathrm { rest } } , M _ { \mathrm { rest } } \geq 0 , } \\ { L _ { T _ { t } } \leq t _ { \mathrm { max } } , \quad \forall t } \end{array} \right. } \end{array}$ 其中 $W_{\mathrm{rest}}, C_{\mathrm{rest}}, M_{\mathrm{rest}}$ 分别表示在时间 $t$ 每个 MEC 和 CS 可用的剩余带宽、计算和图形内存资源。

在实际的云-边缘计算系统中，经济考量和风险管理是影响数据卸载决策的关键因素。本文提出的方案可以通过将这些因素整合到系统效用函数 (公式 (9)) 和约束 (公式 (10)) 中来增强。通过修订这些组件，可以考虑与卸载任务相关的价格 (Price) 和风险 (Risk)，从而形成一种更全面的云-边缘环境资源管理方法： $\begin{array} { r l } { \mathrm { maximize } } & { U \left( L _ { T } , P _ { T } , \mathrm { Price } , \mathrm { Risk } \right) } \\ { \mathrm { subject ~ to } } & { \left\{ \begin{array} { l l } { W _ { \mathrm { rest } } , C _ { \mathrm { rest } } , M _ { \mathrm { rest } } \geq 0 , } \\ { L _ { T _ { t } } \leq t _ { \mathrm { max } } , \quad \forall t , } \\ { \mathrm { Price } \leq \mathrm { Budget } , } \\ { \mathrm { Risk } \leq \mathrm { Threshold } } \end{array} \right. } \end{array}$ 这使得在卸载决策中能够考虑经济和可靠性方面，从而实现更明智的资源分配决策。

4.2. 基于主动推理的卸载策略 (Active Inference Based Offloading Strategy)

本节详细介绍了云-边缘网络中 LLM 推理任务的基于主动推理的卸载策略。

4.2.1. 状态和动作表示 (State and Action Representations)

服务器状态 (Server State): 服务器 $Ser_j$ 的状态表示为 $s_j' = [C_j, W_j, M_j]^T$ ，其中 $C_j, W_j, M_j$ 分别表示剩余的计算资源、带宽和图形内存资源。
总系统状态 (Overall System State): 终端 $Dev_i$ 到 $Ser_j$ 的距离矩阵 $D$ 被考虑在内，并与每个服务器的状态集成，形成总系统状态 $S_t$ ，表示为 $[D; s_1'; \cdot \cdot \cdot; s_{N_{\mathrm{ser}}}']$ 。
智能体动作 (Agent Actions): 智能体执行的动作包括将 LLM 推理任务 $T_t$ $T_{t}$ 委托给服务器 $Ser_j$ $S e r_{j}$ 并分配资源，如计算能力、信道带宽和图形内存。在时间 $t$ $t$ 智能体执行的动作向量表示为 $a_t = [j, c_j, w_j, m_j]$ $a_{t} = [j, c_{j}, w_{j}, m_{j}]$ ，其中：
- $j$ 是服务器的唯一索引。
- $c_j$ 是 $Ser_j$ 为 $T_t$ 分配的计算资源。
- $w_j$ 是信道带宽分配。
- $m_j$ 是图形内存分配。
- 约束： 分配的资源不得超过服务器的剩余资源；否则，该动作被认为是无效的，并且任务 $T_t$ 不能在该时间执行。

4.2.2. 主动推理中的无奖励引导 (Rewardless Guidance in Active Inference)

本文提出了一种基于主动推理的算法作为智能体的决策框架。这种方法以一个简单而强大的无奖励引导机制为核心，脱离了依赖环境奖励信号进行决策的传统奖励模型。

在提出的方案中，卸载决策的关键焦点是确保任务以最小延迟和最大成功率执行。这个概念通过一个无奖励引导机制正式化为： $rg ( s _ { t } , a _ { t } ) = tc \left( \frac { 1 } { L _ { T _ { t } } } + P _ { T _ { t } } \right) ,$ 其中：

tc 是一个指示任务完成状态的变量，如果任务 $T_t$ 成功完成，则 $tc=1$ ，否则 $tc=0$ 。
$L_{T_t}$ 是任务 $T_t$ 的总时间延迟。
$P_{T_t}$ 表示任务 $T_t$ 的预测精度。

在算法中，较高的 $rg(s_t, a_t)$ 值表明在无奖励引导下，动作 $a_t$ 与状态 $s_t$ 更对齐，从而增加了选择 $a_t$ 的可能性。

4.2.3. 主动推理决策框架 (Framework of Active Inference Decision)

本节详细介绍了任务委托和资源分配领域中基于主动推理的决策方法。智能体使用此机制进行内部决策并与环境互动。智能体与环境在决策阶段的互动被定义为部分可观测马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP) [35]。

在 t-1 时刻，智能体处于状态 $s_{t-1}$ 并以概率 $P$ 选择动作 $a_{t-1}$ ，在时间 $t$ 转换到状态 $s_t$ 。这种转换表示为 $P(s_t | s_{t-1}, a_{t-1})$ ，是概率性的。
在 POMDP 框架中，智能体并非总能辨别真实环境状态，但会根据 $P(o_t | s_t)$ 持续接收观测值 $o_t$ 。
智能体使用 $p(o, s | \theta)$ 预测外部环境条件，其中 $\theta$ 表示可学习参数。本文的算法采用无奖励方法，而不是传统的奖励模型来推断偏好。

遵循自由能原理 (free energy principle)，智能体通过两个过程减少自由能：

构建内部模型： 智能体参与 POMDP，收集观测值 $o_t$ 并构建内部模型 $p(o, s | \theta)$ 来表示环境。此模型充当智能体对外部世界的内部表示。
行动规划： 在行动规划期间，智能体利用此模型识别并执行减少自由能的行动。这种主动推理机制提高了智能体理解环境、预测未来状态和执行目标导向行动的能力。

主动推理优化的目标是增强智能体生成模型 (generative model) 的证据 (evidence)，从而减少自由能。通过设置预期偏好， $p(o, s, \theta)$ 可以被引导到实现目标状态。

智能体的目标超越了单个时间点 $t$ 的自由能的传统定义。相反，智能体寻求最小化自由能，表示为： $F = D_{KL}(q(s, \theta) \Vert p(o, s, \theta)) ,$ 其中 $q(s, \theta)$ 代表智能体对未来变量的信念， $F$ 也称为证据下界 (evidence lower bound, ELBO) [36]，指导智能体选择策略。智能体选择最小化 $F$ 的策略 $\pi$ 作为其选择的策略。

在此基础上，算法中预期的未来自由能 (anticipated future free energy) 公式如下： $\tilde { F } = D _ { K L } \left( q ( o _ { 0 : T } , s _ { 0 : T } , \theta , \pi ) \lVert p ( o _ { 0 : T } , s _ { 0 : T } , \theta ) ) , \right.$ 其中：

$O_{0:T}$ 表示智能体从时间 0 到 $T$ 的观测序列。
$s_{0:T}$ 表示智能体在同一时间段内经历的状态序列。
$q(o_{0:T}, s_{0:T}, \theta, \pi)$ 是智能体对未来变量的主观概率分布。
$p(o_{0:T}, s_{0:T} | \theta)$ 是智能体的生成模型，其中 $\theta$ 是底层神经网络的参数。

通过最小化预期未来自由能 $\tilde{F}$ 来推导最优策略 $\pi^*$ 。这种最小化是通过使生成模型的输出分布 $p(o_{0:T}, s_{0:T}, \theta)$ 与真实状态分布 $q(o_{0:T}, s_{0:T}, \theta, \pi)$ 对齐来完成的，如下所示： $D _ { K L } ( q \big ( o _ { 0 : T } , s _ { 0 : T } , \theta , \pi \big ) \lVert p \big ( o _ { 0 : T } , s _ { 0 : T } , \theta \big ) \big ) = 0 \Rightarrow \tilde { F } = 0 .$ 这意味着当智能体的信念分布 $q$ 完美匹配其生成模型 $p$ 时，自由能达到最小（为零）。

算法1：无奖励引导的主动推理卸载 (Algorithm 1: Guided Active Inference Offloading without Rewards)

Algorithm 1: Guided Active Inference Offloading without Rewards
1 Require: 
2   The transition probabilities are given by  $P ( s _ { t } \mid s _ { t - 1 } , a _ { t - 1 } )$  , with an initial policy denoted as EMPY  $\pi$  .
3   The optimization involves  $I$  iterations and considers  $J$  potential policies, from which the top  $k$  are selected.
4   The process is executed over  $n _ { \mathrm { episodes } }$  episodes, each consisting of  $n _ { \mathrm { steps } }$  steps.
5   A key component is the ensemble model parameterized by  $\theta$  .
6   The goal is to refine the initial policy  $\pi$  into an optimized strategy  $\pi ^ { * }$  .
7 Ensure: Optimized strategy  $\pi ^ { * }$  .
8 for every episode do
9   EPY  $t \gets 0$  ..
10  Reset `s _ { t }` ..
11  for every step do
12    Devi generates task `T _ { t }` 
13    for every iteration  $i$  do
14      A set of  $J$  potential policies derived from  $q ( \pi )$  ;;
15      for each candidate policy  $j$  do
16        Get  $\pi _ { j } \sim q ( \pi )$  
17        Compute `r _ { 1 }` by minimizing  $\tilde { F }$  ..
18        Compute `r _ { 2 }` 
19      end
20      Rank policies  $\pi _ { j }$  based on `r = r _ { 1 } + r _ { 2 }` and select the top  $k$  .
21    end
22    Adjust  $\pi$  based on the top  $k$  policies;
23    Choose action `a _ { t }` based on  $\pi$  :
24    Obtain `s _ { t + 1 } , L _ { T _ { t } } , P _ { T _ { t } }` , and check completion by applying `a _ { t }` 
25    Store  $\left( { { s _ { t } } , { a _ { t } } , { L _ { T _ { t } } } , { P _ { T _ { t } } } , { s _ { t + 1 } } } \right)$  
26    Update St+1;
27  end
28  Train ensemble model  $\theta$  :
29 end
30 return  $\pi ^ { * } = \pi$  EMPY

算法1详细解释：

输入 (Require):
- 环境的转移概率 $P(s_t | s_{t-1}, a_{t-1})$ 。
- 一个初始策略 EMPY\pi

。
    *   优化过程涉及  $I$  次迭代，每次迭代考虑  $J$  个潜在策略，并从中选择表现最好的  $k$  个。
    *   整个过程在  $n_{\mathrm{episodes}}$  个回合 (episodes) 中执行，每个回合包含  $n_{\mathrm{steps}}$  个步骤 (steps)。
    *   一个由  $\theta$  参数化的集成模型 (ensemble model) 是关键组件。
*   **目标 (Goal):** 将初始策略  $\pi$  细化为优化后的策略  $\pi^*$ 。
*   **输出 (Ensure):** 优化后的策略  $\pi^*$ 。

**流程：**

1.  **外部循环 (Episode Loop):** 算法在多个回合中运行。
    *   对于每个回合，初始化时间步  $t=0$ ，并重置环境状态  $s_t$ 。
2.  **内部循环 (Step Loop):** 每个回合包含多个步骤。
    *   在每个步骤中，终端 `Devi` 生成一个任务  $T_t$ 。
    *   **策略优化迭代 (Policy Optimization Iteration):**
        *   对于每次迭代  $i$ ：
            *   生成一组  $J$  个潜在策略，这些策略来源于智能体对策略的信念分布  $q(\pi)$ 。
            *   对于每个候选策略  $j$ ：
                *   从  $q(\pi)$  中采样得到一个策略  $\pi_j$ 。
                *   计算  $r_1$ ：通过最小化未来自由能  $\tilde{F}$  来计算一个部分奖励或评估指标。
                *   计算  $r_2$ ：计算另一个部分奖励或评估指标（具体细节在伪代码中未展开，可能与`rg`有关）。
            *   根据综合评估指标  $r = r_1 + r_2$  对策略  $\pi_j$  进行排名，并选择排名前  $k$  的策略。
        *   基于这  $k$  个最优策略调整当前的策略  $\pi$ 。
    *   **执行动作 (Execute Action):**
        *   根据调整后的策略  $\pi$  选择一个动作  $a_t$ 。
        *   应用动作  $a_t$ ，从环境中获得新的状态  $s_{t+1}$ 、任务延迟  $L_{T_t}$ 、任务精度  $P_{T_t}$ ，并检查任务是否完成。
        *   存储当前时间步的经验元组  $(s_t, a_t, L_{T_t}, P_{T_t}, s_{t+1})$ 。
        *   更新状态为  $s_{t+1}$ 。
3.  **模型训练 (Model Training):**
    *   每个回合结束后，使用收集到的经验数据训练或更新集成模型  $\theta$ （这可能是指生成模型或预测模型）。
4.  **返回最优策略 (Return Optimal Policy):** 所有回合结束后，返回优化后的策略  $\pi^*$ 。

# 5. 实验设置

本节详细阐述了仿真研究的相关配置，包括所采用的 `LLM`、使用的数据集、云-边缘网络环境及其资源限制、用于比较的 `DRL` 算法，以及奖励函数和评估指标。

## 5.1. 数据集

实验验证采用了 `OpenAI` 发布的人类评估数据集 (Human Eval dataset) [38]。
*   **特点：** 该数据集包含 164 个编程问题，每个问题都包含函数签名 (function signatures)、字符串注释 (string annotations)、代码主体 (code bodies) 和测试单元 (test units)。
*   **质量保证：** 这些问题是手工创建的，以确保准确性和不可重复性。
*   **语言：** 编程问题用 Python 编写，描述性部分（如注释）用英语编写。

## 5.2. 评估指标

论文在实验中使用了以下性能指标来评估不同方法的表现：

1.  **总奖励 (Total Reward):**
    *   **概念定义：** 总奖励是智能体在整个训练或评估过程中获得的累积奖励。在本文的无奖励引导机制中，它可能指的是通过  $rg(s_t, a_t)$  函数计算出的综合表现分数，用于评估策略的有效性。它量化了策略在最小化延迟和最大化预测精度方面的综合能力。
    *   **数学公式：** 论文中的  $U(L_{T.}, P_{T.})$  或  $rg(s_t, a_t)$  可以被视为衡量“奖励”的函数。

    rg ( s _ { t } , a _ { t } ) = tc \left( \frac { 1 } { L _ { T _ { t } } } + P _ { T _ { t } } \right)

在更宏观的系统效用层面，优化目标是最大化：

    U \left( L _ { T . } , P _ { T . } \right) = \frac { 1 } { \mathrm { avg } \left( \sum _ { T _ { t } } L _ { T _ { t } } \right) } + \mathrm { avg } \left( \sum _ { T _ { t } } P _ { T _ { t } } \right)
     $* **\text{符号解释：}** * `tc`: \text{任务} $T_t$ \text{成功完成时为}1\text{，否则为}0\text{。} * $L_{T_t}$: \text{任务} $T_t$ \text{的总时间延迟。} * $P_{T_t}$: \text{任务} $T_t$ \text{的预测精度。} * $\mathrm{avg}(\cdot)$: \text{平均函数。} * $\sum_{T_t}$: \text{对所有任务} $T_t$ \text{求和。} 2. <strong>\text{任务成功率} (Task Success Rate):</strong> * **\text{概念定义：}** \text{指的是在所有尝试执行的任务中，成功完成并满足最大延迟约束的任务所占的比例。它直接衡量了卸载策略的可靠性和可行性。} * **\text{数学公式：}**$ 
    \mathrm{SuccessRate} = \frac{\text{Number of successfully completed tasks}}{\text{Total number of tasks initiated}}

*   **符号解释：**
        *   `Number of successfully completed tasks`: 任务  $T_t$  成功完成且  $L_{T_t} \leq t_{\mathrm{max}}$  的数量。
        *   `Total number of tasks initiated`: 启动的所有任务的总数。

3.  **平均延迟 (Mean Latency):**
    *   **概念定义：** 指的是所有成功完成的任务从启动到结果返回给终端所花费的平均时间。这是一个关键的性能指标，衡量了系统的响应速度。
    *   **数学公式：**

    \mathrm{MeanLatency} = \mathrm{avg} \left( \sum_{T_t \text{ s.t. } L_{T_t} \leq t_{\mathrm{max}}} L_{T_t} \right)

*   **符号解释：**
        *    $\mathrm{avg}(\cdot)$ : 平均函数。
        *    $\sum_{T_t \text{ s.t. } L_{T_t} \leq t_{\mathrm{max}}} L_{T_t}$ : 对所有满足最大延迟约束并成功完成的任务  $T_t$  的总时间延迟  $L_{T_t}$  求和。

4.  **平均 `pass@100` (Mean `pass@100`):**
    *   **概念定义：** `pass@k` 是用于评估代码生成模型性能的指标，特别是在 `Human Eval` 数据集上。`pass@100` 衡量的是在生成 100 个样本后，至少有一个样本能通过所有单元测试的概率。在本文上下文中，它被用来反映 `LLM` 推理的准确性，以及任务被卸载到高精度边缘节点的能力。更高的 `pass@100` 意味着模型生成的代码更可能正确，因此 `LLM` 任务处理的质量更高。
    *   **数学公式：** 尽管论文没有给出 `pass@100` 的具体计算公式，但根据 [38] (Chen et al. 2021) 的定义，`pass@k` 的估计通常基于  $c$  个通过测试的生成样本数和总共  $n$  个生成样本数，通过组合数学估计得到。

    P(\text{pass}@k) = 1 - \frac{\binom{n-c}{k}}{\binom{n}{k}}
    \$\$
    在本文中，`pass@100` 指的是  $k=100$  的情况。平均 `pass@100` 则是所有任务的 `pass@100` 值的平均。
*   **符号解释：**
    *    $n$ : 为每个问题生成的代码样本总数（通常为  $k$  的倍数）。
    *    $c$ : 成功通过所有测试的生成样本数量。
    *    $k$ : 生成的样本数量（这里为 100）。
    *    $\binom{n}{k}$ : 从  $n$  个项目中选择  $k$  个的组合数。

5.3. 对比基线

为了实验验证，本研究选择了以下主流 DRL 算法作为基准进行比较：

Rainbow DQN [39]: Rainbow DQN 结合了 DQN (Deep Q-Network) 的多种改进（如双 DQN、优先经验回放、多步学习、竞争网络等），以提高其性能和稳定性。它在离散动作空间中表现出色。
PPO (Proximal Policy Optimization) [40]: PPO 是一种策略梯度方法，通过限制策略更新的步长来提高训练稳定性，同时保持较高的样本效率。它适用于连续和离散动作空间，是目前应用最广泛的 DRL 算法之一。
SAC (Soft Actor-Critic) [41]: SAC 是一种基于最大熵强化学习的 off-policy 算法，旨在平衡探索和利用。它通过最大化预期奖励和策略熵来实现这一目标，通常在连续控制任务中表现出良好的样本效率和鲁棒性。

关键区别： 值得注意的是，这些 DRL 算法在训练和性能评估中都使用奖励函数，而本文提出的算法将奖励函数与动作选择解耦，仅将其用于性能评估。

5.4. 环境配置和资源限制 (Environmental Configuration and Resource Constraints)

LLM 模型： 采用 GPT-J-6B 模型，该模型具有 28 层，模型维度 $d_{\mathrm{model}} = 4096$ ，前馈网络维度 $d_{\mathrm{forward}} = 16384$ 。它包含 $n_{\mathrm{heads}} = 16$ 个注意力头，每个头的维度为 $d_{\mathrm{head}} = 256$ 。使用旋转位置嵌入 (Rotary Position Embedding, RoPE)，每个头 $d_{\mathrm{RoPE}} = 64$ 维。该模型使用 $n_{\mathrm{vocab}} = 50257$ 的词元化词汇表进行训练，采用与 GPT-2 和 GPT-3 相同的字节对编码 (Byte Pair Encoding) 方案。
服务器硬件配置：
- 边缘服务器 (Edge Server): 配备 NVIDIA 3090 GPU，直接运行 GPT-J-6B 模型进行推理，不使用任何加速方法。
- 云服务器 (Cloud Server): 利用 Triton server 来增强 GPT-J-6B 模型的推理性能。
计算时间差异： 由于硬件能力不同，云和边缘之间的计算时间 $L_c$ 和卸载 GPT-J-6B 任务所需的 pass@100 次数存在显著差异。
资源调整： 环境资源根据训练阶段确定的最大需求进行调整。算法的效率在测试阶段的不同工作负载下进行评估。

6. 实验结果与分析

本节首先介绍了仿真研究的相关配置，随后对本文提出的物联网优化方法与上述主流 DRL 算法进行了比较分析。最后，扩展了对所提出的方法和主流 DRL 算法在最大时间步 ( $t_{\mathrm{max}}$ ) 和任务负载波动下的性能评估。

6.1. 训练阶段性能分析 (Performance Analysis of Training Phase)

本节比较了本文提出的方法与现有方法在训练阶段的性能，设定 $t_{\mathrm{max}} = 15$ 秒和 $n_{\mathrm{tasks}} = 100$ 个任务，以确保后续实验的有效性。下图（原文 Figure 3）展示了训练阶段的性能指标，包括总奖励、任务成功率、平均延迟和平均 pass@100。

该图像是一张肖像照片，展示了一位穿着正装的年轻男子，背景为纯色。无其他图表或公式信息。

图3a：总奖励 (Total Reward)

本文方法在大约第 200 个回合 (episode) 左右收敛，比传统 DRL 算法更快。
尽管在前 50 个回合中由于环境复杂性而表现不佳，但它超越了 Rainbow DQN（该算法收敛迅速但随后趋于平稳）。
SAC 表现滞后，而 PPO 在初始收敛缓慢后与 Rainbow DQN 持平，但仍被本文方法超越。
这表明本文方法在收敛速度和收敛水平上均表现出卓越性能。

图3b：任务成功率 (Task Completion Rate)

本文方法达到了 99% 的任务完成率，超过了 Rainbow DQN 的 85%、PPO 的 90% 和 SAC 的 80%。
这突出表明本文方法在平衡任务执行和确保单个任务不受影响方面的能力。

图3c：平均延迟 (Mean Latency)

本文方法的平均任务完成延迟约为 8 秒，优于 SAC 的 10 秒，并略低于 Rainbow DQN 和 PPO。
图中阴影区域显示了训练期间平均延迟的可变性，反映了主流 DRL 策略的不稳定性。
这强调了物联网中低延迟的重要性，以在动态环境中稳定复杂的任务卸载。

图3d：平均 pass@100 (Mean pass@100)

本文方法的平均 pass@100 约为 0.175，超过了 Rainbow DQN 和 PPO 的 0.15 以及 SAC 的 0.14。
这表明本文方法倾向于将更多任务卸载到高精度的边缘节点。
主流 DRL 可能优先考虑低延迟，但本文方法有效地平衡了这两个方面（延迟和精度）。

6.2. 延迟变化分析 (Latency Variation Analysis)

本节深入探讨了算法间的延迟波动，评估了它们在不同 $t_{\mathrm{max}}$ 阈值下的性能。训练阶段的四种算法策略在此处进行测试，其中 $t_{\mathrm{max}}$ 范围从 1 到 15 秒（以 1 秒为间隔）， $n_{\mathrm{tasks}} = 100$ 。请注意，由于训练 $t_{\mathrm{max}}$ 设置为 15 秒，因此可以评估 15 秒以下时间的算法延迟差异。

下图（原文 Figure 4）展示了在不同最大延迟阈值下几种主要深度强化学习算法的性能基准比较。

该图像是一张人物证件照，展示了一位年轻男性的正面肖像，背景为蓝色，未包含公式或图表信息。

图4a：总奖励 (Total Reward)

当 $t_{\mathrm{max}} \geq 10$ 秒时，云和 MEC 达到了最高的奖励。

图4b：任务成功率 (Task Completion Rate)

当 $t_{\mathrm{max}} \le 2$ 秒时，由于不可避免的推理和传输时间总和超过 2 秒，所有算法都无法完成任务。
在 $3 \leq t_{\mathrm{max}} \leq 9$ 秒的范围内，本文方法和 Rainbow DQN 保持了 20% 以上的任务完成率，而 PPO 和 SAC 则低于此值。
考虑到边缘约束和无线传输延迟，最小推理时间超过 9 秒。在当前环境设置下（云-边缘服务器资源比为 1:4），此期间任务只能卸载到云端。
当 $t_{\mathrm{max}} \geq 10$ 秒时，本文方法实现了接近 100% 的任务完成率，并在所有四个指标上均达到最佳性能。

图4c：平均延迟 (Mean Latency)

与 $t_{\mathrm{max}} \le 2$ 秒的情况相比，随着云卸载变得可能，曲线呈下降趋势。
当 $t_{\mathrm{max}} \geq 10$ 秒时，本文方法达到了最佳性能。

图4d：平均 pass@100 (Mean pass@100)

当 $t_{\mathrm{max}} \le 2$ 秒时，所有算法的平均 pass@100 接近于零。
在 $3 \leq t_{\mathrm{max}} \leq 9$ 秒时，所有算法的平均 pass@100 仍低于 0.05。
然而，当 $t_{\mathrm{max}} \geq 10$ 秒时，带有无奖励引导的主动推理方法 (AI with Rewardless Guidance) 实现了大约 0.15 的平均 pass@100，而 Rainbow DQN 和 PPO 约为 0.12，SAC 约为 0.1。

总体分析： 在不同的 $t_{\mathrm{max}}$ 值下，本文提出的方法表现出最佳性能。这在物联网中具有高度相关性，因为适应多样化的延迟需求对于高效的任务卸载和执行至关重要。

7. 总结与思考

7.1. 结论总结

本研究提出了一种不依赖奖励引导的主动推理方法，以解决物联网云-边缘计算环境中 LLM 推理任务资源稀缺的挑战。研究团队开发了一个鲁棒的云-边缘网络系统，能够高效处理终端发出的 LLM 推理任务请求并返回结果。广泛的仿真结果证实了该方法的有效性，它在训练收敛速度、测试阶段的最大延迟容忍度以及任务负载管理方面，均优于传统的深度强化学习 (DRL) 技术。

7.2. 局限性与未来工作

论文作者指出了以下局限性和未来研究方向：

扩展到更复杂的场景： 计划将该方法扩展到更复杂的场景，例如动态网络拓扑 (dynamic network topologies) 和多智能体环境 (multi-agent environments)。
终端设备多样化： 旨在拓宽终端设备的范围。
探索分布式计算： 深入研究分布式计算场景。
利用先进网络系统： 利用先进的网络系统进行资源调度，如空天地一体化网络 (space-air-ground integrated networks)。
算法性能增强： 持续关注并增强算法性能。

7.3. 个人启发与批判

个人启发：

无奖励引导范式的潜力： 本文最令人启发之处在于其“无奖励引导”的主动推理方法。在现实世界的复杂动态环境中，设计一个准确且泛化能力强的奖励函数是一个巨大的挑战。主动推理通过最小化预测误差（自由能）来驱动智能体学习和决策，提供了一种无需外部奖励信号的内在学习机制，这对于物联网、自动驾驶等难以定义奖励信号的场景具有深远意义。它可能代表了强化学习领域的一个重要发展方向，即从外部监督向内在驱动的转变。
6G与LLM的深度融合： 论文将 LLM 卸载与 6G 网络和共生物联网的概念相结合，展示了未来通信技术如何为人工智能的普及提供基础设施支持。 6G 的低延迟、高带宽特性，正是解决 LLM 推理任务计算密集性问题的关键。这种系统级的协同优化思路，对于理解未来智能网络的架构和发展趋势非常重要。
云-边协同的精细化： 论文详细构建了云、边缘、移动/固定终端的层级架构，并考虑了通信、传输和任务处理的各种延迟，以及资源约束。这种对系统模型和问题公式化的精细化处理，为实际部署提供了坚实的理论基础，也启发了在复杂异构环境中进行多维度优化的思路。
平衡性能指标： 实验结果显示，本文方法不仅在延迟上表现出色，也在 pass@100 (即精度) 上取得了优势，这表明它能够有效平衡多个相互冲突的优化目标。这对于实际应用中往往需要兼顾效率和质量的场景至关重要。

批判与可以改进的地方：

“无奖励引导”的真实性与可解释性：尽管论文声称是“无奖励引导”，但实际上其 $rg(s_t, a_t)$ 函数 ( $tc * (1/L_{T_t} + P_{T_t})$ ) 本身就是一种明确的奖励函数形式，只是它被内部化为智能体驱动自身决策的“引导”信号，而非传统 DRL 中由环境直接提供的奖励。这可能造成概念上的混淆。更准确的说法可能是“内化奖励 (internalized reward)”或“自适应引导 (adaptive guidance)”。在可解释性方面，虽然主动推理有其理论基础，但如何直观地解释智能体在这种“无奖励”或“内化奖励”模式下的决策逻辑，对于实际工程师而言仍是一个挑战。
模型复杂度与计算开销： 主动推理框架，特别是涉及未来自由能的最小化，可能在计算上非常复杂。虽然论文提到了它比 DRL 更有效率，但并未详细讨论其自身的计算开销，尤其是在动态环境和大规模 IoT 部署中的实时性。一个集成模型 (ensemble model) 的训练和更新也可能带来额外的复杂性。
通用性与泛化能力： 尽管论文声称其方法具有更好的泛化能力，但实验主要基于 GPT-J-6B 模型和 Human Eval 数据集。LLM 的种类繁多，任务类型也各异。该方法在其他 LLM (例如，更大的模型或特定领域的模型) 和更广泛的 IoT 应用场景中的表现如何，仍需进一步验证。
实际部署的挑战： 论文提出的系统模型考虑了终端移动、多种通信信道和复杂的延迟计算。这些在理论层面十分完善，但在实际的 6G 复杂异构网络中，准确获取并实时更新所有这些参数（如实时信道增益、队列长度、剩余资源等）本身就是一个巨大的工程挑战。此外，6G 网络的标准化和实际部署尚处于早期阶段，将理论成果转化为实际应用可能需要克服诸多实践难题。
缺乏消融实验： 论文没有进行消融实验来证明其各个组件（例如，位置嵌入、多头自注意力机制的具体配置、或者主动推理框架的特定部分）对整体性能的贡献。这将有助于更深入地理解方法中哪些部分是关键的。
经济和风险模型的集成： 论文在问题公式化中提到了可以集成经济成本和风险，但实验部分并未对此进行验证或讨论。这部分内容若能在实验中得到体现，将使研究更具现实意义。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。