论文状态：已完成

Large Language Models as Generalist Policies for Network Optimization

发表：2025/12/04

大语言模型在网络优化中的应用 (1)通用策略网络优化 (1)网络对齐机制 (1)轻量级策略协作机制 (1)网络服务鲁棒性设计 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

为确保现代数字基础设施的鲁棒网络服务，设计控制策略至关重要。现有的优化方法依赖于手工规则或专用深度学习模型，导致在不同任务中的泛化能力不足。本文提出Trailblazer框架，利用大型语言模型的知识和泛化能力，实现了通用网络策略，能高效适应多样化任务与环境。

摘要

Designing control policies to ensure robust network services is essential to modern digital infrastructure. However, the dominant paradigm for network optimization relies on designing specialist policies based on handcrafted rules or deep learning models, leading to poor generalization across diverse tasks and environments. In contrast, large language models (LLMs), pretrained on Internet-scale corpora, provide a rich and unified knowledge base that encodes fundamental networking principles. Combined with their emergent abilities in generalization to unseen scenarios, LLMs offer a transformative foundation for generalist network policies that can generalize across diverse tasks and environments with minimal adaptation. In this paper, we present Trailblazer, the first systematic framework to realize such a generalist policy for networking. Trailblazer incorporates a network alignment scheme to ground the LLM in specific networking tasks, and an adaptive policy collaboration mechanism that offloads simple control cases from the LLM to a lightweight policy for computational efficiency. Through extensive simulations and large-scale real-world online evaluation on Douyin (the Chinese version of TikTok), Trailblazer, powered by a single LLM, demonstrates stronger cross-task and cross-environment generalization than conventional specialist policies. Our results validate LLMs as the foundation for generalist network policies, and position Trailblazer as the first step toward the generalist-driven paradigm that enables strong generalization with minimal efforts in policy design.

思维导图

论文精读

中文精读约 46 分钟读完 · 27,147 字

1. 论文基本信息

1.1. 标题

大型语言模型作为网络优化的通用策略 (Large Language Models as Generalist Policies for Network Optimization)

1.2. 作者

Duo Wu, Linjia Kang, Zhimin Wang, Fangxin Wang, Wei Zhang, Xuefeng Tao, Wei Yang, Le Zhang, Peng Cui, Zhi Wang。作者分别来自清华大学深圳国际研究生院、香港中文大学（深圳）科学与工程学院、字节跳动 (Bytedance) 和清华大学计算机科学与技术系。Zhi Wang 为通讯作者。

1.3. 发表期刊/会议

该论文作为预印本发表在 arXiv 平台。 发布时间 (UTC)：2025-12-03T16:41:58.000Z。 原文链接: https://arxiv.org/abs/2512.11839 PDF 链接: https://arxiv.org/pdf/2512.11839v1.pdf 发布状态: 预印本（arXiv preprint）。

1.4. 摘要

为现代数字基础设施设计控制策略 (control policies) 以确保鲁棒的网络服务 (network services) 至关重要。然而，当前网络优化 (network optimization) 的主流范式 (paradigm) 依赖于基于手工规则或深度学习模型 (deep learning models) 设计的专用策略 (specialist policies)，这导致其在不同任务 (tasks) 和环境 (environments) 中泛化能力 (generalization) 差。相比之下，在互联网规模语料库 (Internet-scale corpora) 上预训练的大型语言模型 (Large Language Models, LLMs) 提供了一个丰富而统一的知识库，其中编码了基本的网络原理 (networking principles)。结合其在新场景中的泛化涌现能力 (emergent abilities in generalization)，LLM 为通用网络策略 (generalist network policies) 奠定了变革性基础，使其能够以最小的适应性在不同任务和环境中进行泛化。本文提出了 Trailblazer，这是第一个系统框架，旨在实现这种用于网络应用的通用策略。Trailblazer 包含一个网络对齐方案 (network alignment scheme)，以将 LLM 关联到特定的网络任务；以及一个自适应策略协作机制 (adaptive policy collaboration mechanism)，该机制将简单的控制案例从 LLM 分流到一个轻量级策略，以提高计算效率。通过大量的模拟 (simulations) 和在抖音（TikTok 的中国版本）上的大规模真实世界在线评估 (online evaluation)，由单个 LLM 驱动的 Trailblazer 展示了比传统专用策略更强的跨任务 (cross-task) 和跨环境泛化能力 (cross-environment generalization)。我们的结果验证了 LLM 作为通用网络策略的基础，并将 Trailblazer 定位为通用驱动范式 (generalist-driven paradigm) 的第一步，该范式能够以最小的策略设计工作实现强大的泛化能力。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

论文试图解决的核心问题是：如何设计一种网络优化策略，使其能够跨越不同的网络任务和环境，实现强大的泛化能力，同时满足实时网络服务的严格延迟要求？

2.1.2. 问题的重要性与现有挑战

现代数字基础设施的基石: 确保鲁棒、高效的网络服务是现代数字基础设施的关键。模糊的视觉、延迟的响应或服务中断都会严重影响用户体验。
现有范式的局限性——“专家驱动范式”:
- 手工规则: 传统的网络优化依赖于专家手工设计的规则，例如 TCP 中的慢启动算法。这种方法需要领域专家针对每个新场景手动制定有效的控制规则，人力成本高昂。
- 深度学习模型: 近年来，基于深度学习的方法，如 Pensieve 用于视频流，虽然在特定任务上表现出色，但由于其依赖于静态先验或有限的训练数据，导致：
  - 跨任务泛化能力差: 为一个任务设计的策略（例如，ABR）无法直接应用于另一个任务（例如，CJS），需要针对不同任务重新设计模型架构或进行大量调整。
  - 跨环境泛化能力差: 在稳定网络环境下训练的策略，在动态带宽波动等未见过的（Out-of-Distribution, OOD）环境中往往表现不佳，缺乏鲁棒性。
根本原因: 现有“专家驱动范式”的根本限制在于缺乏一个共享的知识库，无法实现底层网络原理在异构任务和环境之间的抽象和迁移。

2.1.3. 论文的切入点与创新思路

论文的创新思路在于提出将大型语言模型 (LLMs) 作为通用网络策略 (generalist network policies) 的基础。

LLM 的潜力: 预训练在互联网规模语料库上的 LLM 能够隐式地将基本的网络原理压缩到其参数中，形成一个丰富、统一的知识库。此外，其在模式识别 (pattern recognition) 和对未见场景 (unseen scenarios) 的泛化涌现能力 (emergent abilities in generalization)，使其能够合成适应新环境的有效策略。
面临的挑战:
1. 对齐问题: LLM 主要处理文本并生成概率性词元，而网络控制需要多模态输入 (multi-modal inputs) 和确定性动作 (deterministic actions)。此外，LLM 虽具备抽象的网络知识，但可能不足以进行细粒度的控制逻辑（例如，在网络拥塞时确定适当的传输速率）。
2. 计算效率问题: 如果 LLM 每次控制决策（例如，每流传输速率调整）都被调用，其高推理延迟 (inference latency) 将使其在具有严格延迟约束的实时网络服务中不切实际。
本文的解决方案: 提出 Trailblazer 框架，旨在将 LLM 转化为能够实现强大泛化能力并满足实时网络控制严格延迟要求的通用网络策略。

2.2. 核心贡献/主要发现

2.2.1. 主要贡献

提出 Trailblazer 框架: 首次系统性地提出了一个框架 Trailblazer，将 LLM 转化为通用网络策略。该框架包含两个互补模块：
- 网络输入-输出-知识对齐 (Network Input-Output-Knowledge Alignment, NIOKA) 方案：使 LLM 能够处理非文本网络数据、生成可操作的控制决策，并通过离线强化微调算法注入领域专用知识。
- 自适应策略协作 (Adaptive Policy Collaboration, APC) 机制：通过调度器智能地将复杂案例分配给 LLM，而将简单案例分流给轻量级规则策略，从而提高计算效率。
验证 LLM 作为通用网络策略的可行性: 通过在自适应比特率流 (Adaptive Bitrate Streaming, ABR) 和集群作业调度 (Cluster Job Scheduling, CJS) 这两个代表性网络任务上的广泛模拟，证明了 Trailblazer（由单个 LLM 驱动）比最先进的专用策略具有更强的跨任务和跨环境泛化能力。
大规模真实世界在线验证: 在抖音的实时拥塞控制 (Congestion Control, CC) 服务中进行了为期三周的大规模在线 A/B 测试，服务超过 15 万用户，累积超过 1200 天的视频播放时间。Trailblazer 在所有关键工业性能指标上均优于抖音高度优化的专用策略 VICC，验证了其在生产环境中的可靠性和提供工业级服务质量改进的能力。
揭示 LLM 在网络优化中的关键洞察:
- 早期饱和 (Early Saturation)：发现 LLM 在网络优化任务中随着模型规模的增加，性能会提前饱和，表明相对较小的 LLM 即可实现有竞争力的性能。
- 选择性调用 (Selective Invocation)：证明了仅在必要时调用 LLM 进行网络控制（而非对每个请求都进行控制）是提高 LLM 基于通用策略在真实世界网络系统中效率的关键。

2.2.2. 关键结论

LLM 可以作为通用网络策略的基础，克服了传统专用策略在跨任务和跨环境泛化能力上的局限性。
Trailblazer 框架通过网络对齐和自适应策略协作机制，有效地解决了 LLM 在网络领域应用中面临的模态不匹配、知识鸿沟和计算效率低下的挑战。
在实际生产环境中，Trailblazer 不仅运行可靠，还能带来显著的业务收益和用户体验提升。
小型 LLM 结合选择性调用，是实现高效、高性能 LLM 驱动网络控制的有效途径。

3. 预备知识与相关工作

3.1. 基础概念

控制策略 (Control Policy): 在网络优化中，控制策略 (control policy) 是一组规则或一个函数，它根据当前的网络状态（例如，延迟、带宽、丢包率）决定下一步要执行的动作 (action)（例如，调整视频比特率、调度计算作业、改变传输速率），以达成特定的优化目标。
网络优化 (Network Optimization): 指通过调整网络参数、资源分配或数据传输方式，以提高网络性能、服务质量或资源利用率的过程。
专用策略 (Specialist Policies): 针对特定网络任务和/或环境设计的策略，通常通过手工规则或特定训练的机器学习模型实现。它们的优点是在特定场景下表现优异，但缺点是泛化能力差。
通用策略 (Generalist Policies): 旨在跨越多个不同网络任务和/或环境，仍然能保持良好性能的策略。它们利用共享知识库和更强的泛化能力，减少了针对每个新场景进行策略重新设计的工作量。
大型语言模型 (Large Language Models, LLMs): 是在海量文本数据上预训练的深度学习模型，具有数亿到数万亿的参数。它们通过学习语言的结构和语义，获得了强大的文本理解、生成、推理和泛化能力。
跨任务泛化 (Cross-task Generalization): 指一个模型或策略在多个不同任务之间共享知识并有效应用的能力。例如，一个 LLM 能够同时处理自适应比特率流 (ABR) 和集群作业调度 (CJS)。
跨环境泛化 (Cross-environment Generalization): 指一个模型或策略在训练时未见过的、但属于同一任务的不同网络环境中依然能保持鲁棒性能的能力。例如，一个 ABR 策略在训练时是稳定带宽，但测试时遇到动态带宽波动时仍能表现良好。
自适应比特率流 (Adaptive Bitrate Streaming, ABR): 是一种在线视频流技术，它根据实时网络状况（如带宽、延迟）和播放状态（如缓冲器长度），动态调整视频的比特率 (bitrate)，以优化用户的体验质量 (Quality of Experience, QoE)。
集群作业调度 (Cluster Job Scheduling, CJS): 在分布式计算集群中，负责将计算任务（作业）高效地分配给可用的计算资源（节点、执行器），以最小化作业完成时间 (Job Completion Time, JCT) 并最大化资源利用率。
拥塞控制 (Congestion Control, CC): 是计算机网络中的一项基本功能，用于调节数据发送方的数据传输速率，以避免网络过载（拥塞），从而提高网络资源利用率并确保可靠的数据传输。
质量体验 (Quality of Experience, QoE): 量化用户在观看视频、玩游戏等应用中的主观感受，通常通过客观指标（如视频比特率、卡顿时间 (rebuffering time)、比特率变化）的加权组合来衡量。
作业完成时间 (Job Completion Time, JCT): 从作业提交到其所有任务完成的整个持续时间。是衡量集群作业调度效率的关键指标。
平均绝对百分比误差 (Mean Absolute Percentage Error, MAPE): 一种衡量预测准确度的指标，表示预测值与真值 (Ground Truth) 之间的相对误差的平均值。
视频卡顿率 (Video Stall Rate): 衡量视频播放流畅度的指标，通常定义为视频播放过程中因数据不足而暂停的总时长与总播放时长的比率。

3.2. 前人工作

论文回顾了两种主要的专用策略 (specialist policies) 范式：

基于手工规则的方法:
- 例子: TCP 拥塞控制中的慢启动 (slow start) [7]，或者 HTTP 视频流中的探针和自适应 (Probe and Adapt) [5]。
- 特点: 依赖于领域专家手动设计有效的控制规则。
- 局限性: 针对每个新场景需要大量人工努力进行策略重新设计，难以进行跨任务泛化。
基于深度学习的方法:
- 例子: Pensieve [12] 用于视频流的自适应比特率选择，Decima [9] 用于集群作业调度。
- 特点: 通过机器学习模型从数据中学习优化策略。
- 局限性:
  - 需要针对不同任务调整特定的模型架构 (task-specific model architectures) [17, 18]，导致跨任务泛化能力差。
  - 依赖于静态先验或有限的训练数据，导致在未见过的网络环境 (network environments) 中（例如，动态带宽波动）表现不佳，即跨环境泛化能力差 [19]。
    
    论文提及的几个具体基线工作（在实验设置部分会详细说明，这里仅作简要介绍）：
Pensieve [12]: 视频流领域的开创性工作，使用强化学习 (Reinforcement Learning, RL) 训练一个神经网络来做 ABR 决策。
GENET [30]: 另一个学习驱动 (learning-based) 的 ABR 策略，结合了课程学习 (curriculum learning) 和强化学习 (RL)。
Decima [9]: 一种用于集群作业调度的 RL 模型，使用图神经网络 (Graph Neural Network, GNN) 处理作业的有向无环图 (Directed Acyclic Graph, DAG) 信息。
VICC: 抖音生产环境中部署的拥塞控制专用策略，经过多年优化，是一个强大的工业基线。

主动补充必要背景知识：Attention 机制 虽然论文本身没有直接复述 Attention 机制的数学公式，但作为 LLM 的核心组成部分，理解它对于理解 LLM 的运作至关重要。Transformer 架构中的 Self-Attention 机制是 LLM 能够处理长序列并捕捉上下文依赖的关键。

Self-Attention 机制通过计算输入序列中每个词元 (token) 对其他所有词元的“注意力”来生成一个加权表示。其核心思想是，当模型处理序列中的某个词元时，它会同时考虑序列中所有其他词元的相关性。

Attention 机制的计算公式 $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释:

$Q$ (Query): 查询矩阵。代表当前正在处理的词元，用于查询其他词元的关联性。
$K$ (Key): 键矩阵。代表序列中所有其他词元，用于被查询。
$V$ (Value): 值矩阵。代表序列中所有其他词元的信息内容，在计算注意力权重后，将根据权重聚合这些值。
Q, K, V 都是由输入表示通过线性变换（通常是三个不同的学习矩阵）得到的。
$K^T$ : 键矩阵 $K$ 的转置。
$QK^T$ : 查询和键的点积，表示每个查询对所有键的相似度或相关性。
$d_k$ : 键向量的维度。除以 $\sqrt{d_k}$ 是为了缩放点积结果，防止在维度较高时点积结果过大，导致 softmax 函数的梯度过小（梯度消失）。
$\mathrm{softmax}(\cdot)$ : 软最大函数，将相似度分数转换为概率分布，确保所有权重之和为 1。
$V$ : 与注意力权重相乘，得到加权的值向量。
$\mathrm{Attention}(Q, K, V)$ : 输出是一个与 $V$ 维度相同的矩阵，其中每一行都是输入序列中相应词元的上下文感知表示。

3.3. 技术演进

该领域的技术演进可以概括为从专家经验驱动到数据驱动，再到通用知识驱动的过程：

早期 (专家经验驱动): 依靠领域专家手工设计启发式规则和算法（如 TCP 的慢启动、BBA），简单有效，但在复杂动态环境下难以优化和泛化。
中期 (数据驱动): 引入机器学习和深度学习方法（如 Pensieve, GENET, Decima），通过从数据中学习来自动发现优化策略。这显著提升了在特定任务上的性能，但模型通常是专用 (specialist) 的，缺乏跨任务和跨环境泛化能力。
近期 (通用知识驱动): 本文提出的通用驱动范式 (generalist-driven paradigm)，利用 LLM 预训练获得的广泛知识和泛化能力，旨在构建能够跨越异构任务和环境的通用策略 (generalist policies)。这代表了从为每个任务定制模型，转向利用一个统一的、知识丰富的模型来解决多任务和复杂泛化问题的重大转变。

3.4. 差异化分析

与专家驱动范式 (Specialist-Driven Paradigm) 的差异:
- 核心理念: 专家驱动范式强调为每个任务和环境定制解决方案（手工规则或特定神经网络架构），导致设计工作量大且泛化能力弱。通用驱动范式 (Trailblazer) 旨在利用单个 LLM 的共享知识库和泛化能力，实现低设计工作量和强泛化。
- 知识来源: 专家驱动范式依赖于特定任务的经验或有限的训练数据；Trailblazer 利用 LLM 从互联网规模语料库 (Internet-scale corpora) 中学习到的通用网络原理 (universal networking principles)，并结合领域专用知识 (domain-specific knowledge)。
与现有 LLM 应用于网络研究的差异:
- 泛化能力: 许多现有的 LLM 在网络领域的应用（如 NetLLM [53], Ai2mmum [54], LLM4WM [56]）通常仍局限于任务特定设计 (task-specific designs) 和模拟级评估 (simulation-level evaluations)。Trailblazer 是第一个系统框架，旨在实现跨任务和跨环境泛化。
- 实际部署: 现有工作往往忽略 LLM 的高推理延迟 (inference latency) 对实时网络系统的影响。Trailblazer 通过引入自适应策略协作 (APC) 机制（包括调度器和轻量级策略），解决了 LLM 在实时、低延迟网络系统中的部署问题，并在抖音进行了大规模在线 A/B 测试验证。
- 关键洞察: Trailblazer 的研究揭示了早期饱和 (early saturation)（即小型 LLM 足以胜任网络优化任务）和选择性调用 (selective invocation)（即仅在必要时调用 LLM）这两个关键洞察，为 LLM 在网络领域的有效和高效部署提供了实用指导。

4. 方法论

本节将详细阐述 Trailblazer 框架，该框架由两个核心组件构成：网络输入-输出-知识对齐 (Network Input-Output-Knowledge Alignment, NIOKA) 方案和自适应策略协作 (Adaptive Policy Collaboration, APC) 机制。

4.1. 方法原理

4.1.1. 核心思想

Trailblazer 的核心思想是利用大型语言模型 (LLM) 作为通用网络策略 (generalist network policies) 的基础，以克服传统专用策略 (specialist policies) 的泛化能力 (generalization) 局限。为了实现这一目标，它必须解决两个关键挑战：

对齐问题: LLM 天然处理文本，而网络控制涉及非文本的多模态输入 (multi-modal inputs) 和需要生成确定性动作 (deterministic actions)。同时，LLM 虽然拥有抽象知识，但缺乏细粒度的领域专用知识 (domain-specific knowledge)。NIOKA 旨在弥合这些差距。
效率问题: LLM 的高推理延迟 (inference latency) 不适用于实时网络系统中的每请求控制。APC 旨在通过智能协作机制，在保持高性能的同时，提高系统效率。

4.2. 核心方法详解

下图（原文 Fig. 2）展示了 Trailblazer 框架的概览，包括 NIOKA 和 APC 两个模块：

该图像是图示，展示了框架Trailblazer中的网络输入-输出-知识对齐（NIOKA）与自适应策略协作（APC）机制。NIOKA通过对齐网络状态和操作，结合离线强化学习进行细化；APC则通过调度管理流请求，智能控制复杂案例，同时为简单案例分配传统策略以提高效率。

图示：Trailblazer 框架概述。a, Trailblazer 中的 NIOKA 旨在解决 LLM 与网络之间的不对齐问题。引入网络状态编码器将非文本网络信息投射到与语言词元 (tokens) 相同的特征空间，供 LLM 使用，而网络动作解码器用于将 LLM 输出的特征向量映射到特定的网络动作。基于所提出的离线强化微调算法，LLM 在通过评估传统网络策略在各种网络环境中收集的离线经验数据集上进行微调，以奖励 (rewards) 或近最优动作 (near-optimal actions) 作为引导信号。b, Trailblazer 中的 APC 用于高效部署 LLM，其中经过微调的 LLM 与传统策略协作，实现智能高效的网络控制。APC 的核心是一个调度器，用于自适应流请求路由。调度器评估每个传入请求的网络状况（例如，延迟）。处于不良状况的请求被视为困难情况，并分配给 LLM 进行智能控制，而处于稳定状况的请求则由传统策略处理，以实现快速处理。为了减少每个请求的处理延迟，LLM 将批量处理请求。

4.2.1. 网络输入-输出-知识对齐 (NIOKA) 方案

NIOKA 旨在使 LLM 能够理解非文本网络数据、生成可执行的网络动作，并注入领域专用知识 (domain-specific knowledge)。

4.2.1.1. 输入模态对齐：网络状态编码器 (Network State Encoder)

挑战: 网络状态（例如，延迟、丢包）是数值型数据，与 LLM 传统的文本输入模态不符。
解决方案: 引入一个网络状态编码器 (network state encoder)。
- 该编码器首先使用特征编码器 (feature encoder) 从原始网络统计数据中提取特征。
- 然后，通过一个线性投影层 (linear projection layer) 将提取的特征映射到与语言词元 (language tokens) 相同的语义特征空间 (semantic feature space)。
- 效果: 这使得 LLM 能够将非语言的网络信息解释为处理自然语言。
可训练性: 网络状态编码器是可训练的 (trainable)，以学习最优的投影函数。

4.2.1.2. 输出内容对齐：网络动作解码器 (Network Action Decoder)

挑战: LLM 原始的输出是概率性词元，而网络控制需要确定性、可操作的控制决策 (actionable network control decisions)。
解决方案: 替换 LLM 原始的语言词元预测头，使用一个专用的网络动作解码器 (network action decoder)。
- 该解码器将 LLM 产生的高维特征向量 (high-dimensional feature vectors) 转换为具体的网络控制动作。
可训练性: 网络动作解码器也是可训练的 (trainable)，以学习最优的映射函数。

4.2.1.3. 知识对齐：离线强化微调算法 (Offline Reinforcement Fine-tuning Algorithm)

挑战: 尽管 LLM 拥有抽象的网络知识，但其可能不足以处理需要细粒度控制逻辑的复杂网络任务。
解决方案: NIOKA 通过离线强化微调 (offline reinforcement fine-tuning) 算法进一步微调 LLM，使其获得领域专用网络知识 (domain knowledge for networking)。
- 经验数据集构建: 收集一个经验数据集 (experience dataset)，其中包含各种传统非 LLM 网络策略在不同网络环境中进行决策的轨迹 (decision trajectories)。这些轨迹包括网络状态-动作对 (network state-action pairs) 以及相关的奖励 (rewards) 或近最优动作 (near-optimal actions)。
- 训练目标: LLM 通过利用奖励信号 (reward signals) 和专家级动作 (expert-level actions) 作为指导，学习分析现有策略的行为，从有效动作中学习，并发现差劣动作背后的原因，从而自动发现性能更好的控制策略。
- 效果: 该算法有效地利用 LLM 强大的模式挖掘能力 (pattern mining capabilities) 来开发更优的网络策略。

4.2.1.3.1. 针对 ABR 和 CJS 任务的决策转换器 (Decision Transformer, DT) 框架

原理: DT 将强化学习 (Reinforcement Learning, RL) 问题重新表述为序列建模 (sequence modeling) 问题，这与 LLM 的序列建模本质无缝契合。
输入: LLM 以历史回报 (historical returns)、网络状态 (network states) 和网络动作 (network actions) 作为输入，来预测下一个动作。
公式: LLM 预测下一个动作 $\hat{a}_i$ $\overset{a}{^}_{i}$ 的公式为： $L L M ( \hat { a } _ { i } | R _ { i - w } , s _ { i - w } , a _ { i - w } , \cdot \cdot \cdot , R _ { i } , s _ { i } )$ 符号解释:
- $\hat{a}_i$ : 在时间步 $i$ 预测的下一个动作。
- $R_i$ : 从状态 $s_i$ 期望获得的累计奖励 (cumulative rewards)，定义为 $R _ { i } = \textstyle \sum _ { t } ^ { i } r _ { t }$ ，其中 $r_t$ 是时间步 $t$ 的奖励。
- $s_i$ : 在时间步 $i$ 观察到的网络状态。
- $a_i$ : 在时间步 $i$ 采取的网络动作。
- $w$ : 用于有效学习的历史上下文窗口 (historical context window) 大小。
损失函数: 训练损失对应于交叉熵损失 (cross-entropy loss)，它最小化预测动作 $\hat{a}_i$ $\overset{a}{^}_{i}$ 与真值 (ground-truth) 动作 $a_i$ $a_{i}$ 之间的差异： $\mathcal { L } _ { i } = C E ( \hat { a } _ { i } , a _ { i } )$ 符号解释:
- $\mathcal{L}_i$ : 在时间步 $i$ 的损失。
- $CE(\cdot, \cdot)$ : 交叉熵损失函数。
- $\hat{a}_i$ : 预测动作。
- $a_i$ : 真值动作。
推断: 在推断过程中，指定一个足够高的目标回报 (target return) 来指示期望的性能，从而促使 LLM 生成高质量的动作。

4.2.1.3.2. 针对 CC 任务的上下文模仿学习 (Contextual Imitation Learning, CIL) 算法

原理: CIL 算法利用真值瓶颈带宽 (ground-truth bottleneck bandwidths)（从网络模拟中获得）作为近最优专家演示 (near-optimal expert demonstrations)，引导 LLM 学习最优的拥塞控制策略 (congestion control policy)。
专家动作: 尽管真实世界的瓶颈带宽 (bottleneck bandwidth) 是不可观测的，但在受控的模拟环境中可以准确推断，作为最优发送速率（最大化带宽利用率）的高质量近似，因此将其用作专家动作 (expert action) $a_i^e$ 来监督 LLM。
输入: LLM 预测下一个动作 $\hat{a}_i$ $\overset{a}{^}_{i}$ ，其条件是历史状态和动作的上下文窗口 (context window)： $L L M ( \hat { a } _ { i } | s _ { i - w } , a _ { w - i } , \cdot \cdot \cdot , s _ { i - 1 } , a _ { i - 1 } , s _ { i } )$ 符号解释:
- $\hat{a}_i$ : 在时间步 $i$ 预测的下一个动作。
- $s_i$ : 在时间步 $i$ 观察到的网络状态。
- $a_i$ : 在时间步 $i$ 采取的网络动作。
- $w$ : 上下文长度。
损失函数: 模型通过最小化预测动作与专家动作之间的均方误差 (Mean Squared Error, MSE) 进行训练： $\mathcal { L } _ { i } = M S E ( \hat { a } _ { i } , a _ { i } ^ { e } )$ 符号解释:
- $\mathcal{L}_i$ : 在时间步 $i$ 的损失。
- $MSE(\cdot, \cdot)$ : 均方误差损失函数。
- $\hat{a}_i$ : 预测动作。
- $a_i^e$ : 专家动作（即模拟的瓶颈带宽）。
与 DT 的区别:
- CIL 适用于训练期间可获得近最优专家演示的情况（如 CC 任务中的模拟瓶颈带宽）。它直接学习模仿最优行为，无需回报估计 (return estimation)，简化了学习目标，并减少了输入序列复杂度和上下文长度，从而加快了推断速度。
- DT 更适用于无法获得近最优动作但可重建带有相关回报 (returns) 的历史轨迹的情况（如 ABR 任务中的累计 QoE 分数）。在这种情况下，剩余回报 (return-to-go) 作为行为先验，指导动作选择以获得高奖励结果。

4.2.2. 自适应策略协作 (Adaptive Policy Collaboration, APC) 机制

APC 旨在解决 LLM 高推理延迟 (inference latency) 与实时网络系统严格延迟要求之间的冲突，通过智能协作实现高效部署。

4.2.2.1. 核心理念：选择性调用 (Selective Invocation)

目的: 通过选择性地将流请求 (flow requests) 从 LLM 分流给轻量级规则策略 (rule-based policy) 进行快速处理，从而加速基于 LLM 的网络系统的处理速度。
机制:
- 调度器 (Scheduler): 这是 APC 的核心。对于每个传入请求，调度器评估其网络状况 (network conditions)。
- 智能路由:
  - 处于不良网络状况 (poor network conditions) 下的请求被视为困难案例 (difficult cases)，并被路由到 LLM 进行智能控制。
  - 处于稳定网络状况 (stable conditions) 下的请求则由轻量级规则策略 (lightweight rule-based policy) 高效处理。
优势: LLM 和传统策略之间的协作有助于建立一个更鲁棒的网络系统，它既能利用 LLM 的强大能力解决复杂场景，又能将大量简单请求分流给轻量级策略，从而提高整体效率。
批量处理 (Batch Processing): 为了进一步提高系统效率和降低每个请求的处理延迟，LLM 将批量处理请求。

4.2.2.2. 调度器设计 (Scheduler Design)

实现方式: 采用一组启发式、确定性规则 (heuristic, deterministic rules) 来对传入请求进行分类。
分类规则（以 CC 任务为例）: 如果一个流的请求满足以下所有三个条件，则被归类为良好网络状况 (good network conditions)：
1. 其上一次往返时间 (Round-Trip Time, RTT) 低于阈值 $\alpha_1$ 。
2. 丢包率 (packet loss rate) 低于阈值 $\alpha_2$ 。
3. 上次发送速率 (sending rate) 超过 $\alpha_3 \times rate^{req}$ ，其中 $rate^{req}$ 是应用特定的发送速率上限（由抖音的专用模块计算）。
路由逻辑: 满足所有三个条件的流请求被路由到轻量级策略 (lightweight policy)，否则，所有其他请求都被导向 LLM 进行智能控制。
优势: 规则驱动的设计确保了最小的开销和快速的处理速度，这对于在真实世界网络系统中路由大量并发请求至关重要。

4.2.2.3. 轻量级规则策略 (Lightweight Rule-based Policy)

设计: 在 CC 任务中，与 LLM 协作的轻量级策略简单地将发送速率 (sending rate) 直接设置为 $rate^{req}$ 。
适用性: 这种策略在网络状况稳定且 $rate^{req}$ 通常低于实际瓶颈链路容量 (bottleneck link capacity) 的常见情况下表现可靠。
缺陷: 在不良网络状况下，这种策略可能倾向于耗尽可用带宽并导致拥塞。
协作效果: 这种协作使得可伸缩部署 (scalable deployment) 成为可能：LLM 仅在必要时被调用，而大多数流请求则由轻量级策略高效处理。

5. 实验设置

本节详细阐述了 Trailblazer 在自适应比特率流 (ABR)、集群作业调度 (CJS) 和拥塞控制 (CC) 三个网络任务上的实验设置，包括模拟器、数据集、评估指标、基线模型以及 LLM 微调经验数据集的构建。

5.1. 数据集

5.1.1. ABR 任务数据集

网络动态数据:
- FCC [48] 宽带测量数据集: 作为主要带宽轨迹来源，捕捉了美国消费者真实世界的网络变异性。从中随机选择 485 条轨迹，235 条用于训练，150 条用于验证，100 条用于测试，总计超过 324,000 秒的带宽轨迹。
- SynthTrace: 合成生成，包含 100 条轨迹，具有更宽的带宽范围和更动态的波动模式，用于评估在更具挑战性的未见分布 (Out-of-Distribution, OOD) 网络动态下的泛化能力。
视频内容数据:
- Envivio-Dash3 [49]: 默认视频。
- SynthVideo: 合成视频，具有更大的块大小 (chunk sizes)，用于性能评估。

实验环境: 基于这些数据集，模拟了各种环境以进行泛化评估。

以下是原文 Extended Data Table 1 的结果：

Environment	Video	Bandwidth Traces
Training Environment	Envivio-Dash3	FCC
Default Test Environment	Envivio-Dash3	FCC
OOD Environment 1	Envivio-Dash3	SynthTrace
OOD Environment 2	SynthVideo	FCC
OOD Environment 3	SynthVideo	SynthTrace

说明：该表格总结了 ABR 模拟中泛化评估 (generalization evaluation) 的环境设置。训练环境使用 Envivio-Dash3 视频和 FCC 带宽轨迹。默认测试环境相同。OOD 环境则引入了 SynthTrace 带宽轨迹（更动态）和/或 SynthVideo（更大块大小），以测试在不同于训练条件下的跨环境泛化能力。

5.1.2. CJS 任务数据集

工作负载轨迹:
- TPC-H 基准 [51]: 作为主要工作负载轨迹来源，包含一系列面向业务的计算作业，具有广泛的行业相关性。这些作业的特点是数据量大、处理复杂。
模拟环境: 通过从 TPC-H 套件中随机抽样作业，并改变模拟集群中的执行器 (executor) 资源数量，生成了涵盖不同工作负载强度和资源可用性的多样化实验环境。

模拟配置:

以下是原文 Extended Data Table 2 的结果：

Environment	Number of Job Requests	Number of Executors (k)
Training Environment	200	50
Default Test Environment	200	50
OOD Environment 1	200	30
OOD Environment 2	450	50
OOD Environment 3	450	30

说明：该表格总结了 CJS 模拟中泛化评估的环境设置。训练和默认测试环境使用 200 个作业请求和 50k 个执行器。OOD 环境通过改变作业请求数量（450）和/或执行器数量（30k），来测试在不同负载和资源约束下的跨环境泛化能力。

5.1.3. CC 任务数据集

经验数据集构建: 基于抖音的内部开发平台构建。
- 真实世界视频会话: 使用六台移动设备和九种媒体内容（例如，唱歌和游戏）建立真实的视频会话。
- 网络条件: 使用企业级网络模拟器 (network emulator) HoloWAN [52] 施加各种复杂网络条件（例如，变化的带宽、延迟和丢包）。设备、媒体和网络配置与抖音的在线设置高度对齐。
- 数据收集: 在数据收集过程中，每个会话的 CC 决策由随机选择的抖音四种规则策略 (rule-based policies) 之一决定。
- 数据集规模: 收集了超过 30,000 个会话和超过 1,000 万个数据样本的经验数据集。
- 数据集划分: 数据集进一步划分为 95% 的训练子集用于 LLM 微调，5% 的测试集用于性能验证（包括模型规模选择和选择性调用机制 (selective invocation mechanism) 的评估）。
在线部署:
- 媒体服务器: 部署了六个负责媒体会话服务质量的媒体服务器，并实现了 CC 逻辑。
- 流量路由: 传入的流请求被随机路由到这些服务器。其中，三台运行 VICC 策略，另外三台配置 Trailblazer 进行智能控制。
- 组件部署: Trailblazer 中的调度器和轻量级 CC 策略部署在本地媒体服务器上。LLM 则托管在专用的 GPU 服务器上。

5.2. 评估指标

5.2.1. 质量体验 (Quality of Experience, QoE) (ABR)

概念定义: QoE 旨在量化用户在观看视频时的主观感受，它是通过综合考虑视频的流畅度、清晰度和观看中断情况来评估的。更高的 QoE 分数表示更好的用户体验。
数学公式: $Q o E _ { i } = b i t r a t e _ { i } - \lambda _ { 1 } \times r e b u f _ { i } - \lambda _ { 2 } \times | \Delta b i t r a t e _ { i } |$
符号解释:
- $QoE_i$ : 视频块 $i$ 的质量体验分数。
- $bitrate_i$ : 视频块 $i$ 的比特率 (Mbps)。通常，更高的比特率意味着更好的视频质量。
- $rebuf_i$ : 在视频块 $i$ 下载期间发生的卡顿时间 (rebuffering time, 秒)。
- $|\Delta bitrate_i| = |bitrate_i - bitrate_{i-1}|$ : 连续视频块之间比特率变化的绝对值。频繁的比特率变化会影响观看体验。
- $\lambda_1, \lambda_2$ : 权重系数，用于控制这三个因素之间的权衡。论文中， $\lambda_1 = 4.3$ 且 $\lambda_2 = 1$ ，这反映了用户对卡顿的敏感度高于比特率波动。

5.2.2. 作业完成时间 (Job Completion Time, JCT) (CJS)

概念定义: JCT 是衡量计算作业从提交到完全执行所需总时间的指标。在集群作业调度中，目标是最小化此指标，以提高系统吞吐量和用户满意度。
数学公式: $J C T = t _ { e } - t _ { s }$
符号解释:
- JCT: 作业完成时间。
- $t_s$ : 作业到达系统的时间。
- $t_e$ : 作业完成执行的时间。

5.2.3. 平均绝对百分比误差 (Mean Absolute Percentage Error, MAPE) (CC 离线评估)

概念定义: MAPE 是拥塞控制任务中用于离线性能验证的主要指标，它量化了预测带宽与瓶颈链路容量 (bottleneck link capacity) 或请求速率 (request rate) 之间的相对差异。较低的 MAPE 表示预测更准确。
数学公式: $M A P E = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \left. \frac { \operatorname* { m i n } ( b _ { i } ^ { p } , r a t e _ { i } ^ { r e q } ) - \operatorname* { m i n } ( b _ { i } ^ { t } , r a t e _ { i } ^ { r e q } ) } { \operatorname* { m i n } ( b _ { i } ^ { t } , r a t e _ { i } ^ { r e q } ) } \right.$
符号解释:
- MAPE: 平均绝对百分比误差。
- $n$ : 验证数据集中的样本数量。
- $b_i^p$ : 在样本 $i$ 预测的带宽。
- $rate_i^{req}$ : 在样本 $i$ 的请求速率 (request rate)，表示维持视频传输质量所需的发送速率上限。
- $b_i^t$ : 在样本 $i$ 的真实模拟瓶颈带宽 (bottleneck bandwidth)。
- $\min(X, Y)$ : 取 $X$ 和 $Y$ 中的较小值。这里的 min 操作是为了确保在评估预测误差时，只考虑不超过请求速率的有效带宽范围。

5.2.4. 视频卡顿率 (Video Stall Rate) (CC 在线 A/B 测试)

概念定义: 视频卡顿率是衡量视频播放流畅度和用户体验的关键工业指标。它反映了因网络数据不足导致的播放中断情况。较低的卡顿率通常意味着更好的拥塞控制性能和更优质的用户体验。
数学公式: $s t a l l . r a t e = \frac { \sum _ { i = 1 } ^ { N } d _ { i } ^ { s } } { \sum _ { i = 1 } ^ { N } d _ { i } ^ { p } }$
符号解释:
- stall.rate: 视频卡顿率。
- $N$ : 总流（flows）的数量。
- $d_i^s$ : 流 $i$ 的累计卡顿持续时间 (cumulative stall duration)，由监控器持续报告。
- $d_i^p$ : 流 $i$ 的总播放持续时间。

5.2.5. 相对减少 (Relative Reduction) (CC 在线 A/B 测试)

概念定义: 相对减少指标用于比较 Trailblazer 与基线策略 VICC 在视频卡顿率方面的性能提升。它量化了 Trailblazer 相对于 VICC 降低卡顿率的百分比。
数学公式: $r e d u c t i o n = \frac { s t a l l . r a t e _ { V I C C } - s t a t e . r a t e _ { T r a i l b l a z e r } } { s t a l l . r a t e _ { V I C C } }$
符号解释:
- reduction: 卡顿率的相对减少百分比。
- $stall.rate_{VICC}$ : VICC 策略下的视频卡顿率。
- $stall.rate_{Trailblazer}$ : Trailblazer 策略下的视频卡顿率。

5.3. 对比基线

5.3.1. ABR 任务基线

GENET [30]: 一种学习驱动 (learning-based) 的流媒体策略，结合课程学习 (curriculum learning) 和强化学习 (RL) 来优化视频流。它是一个先进的神经网络模型，用于自适应比特率决策。
BBA [32]: 一种规则驱动 (rule-based) 策略，启发式地将缓冲器占用率 (buffer occupancy) 作为比特率控制的关键信号，并设计算法将播放缓冲器占用率维持在期望水平。
MPC [33]: 一种规则驱动策略，利用吞吐量估计 (throughput estimates) 和缓冲器占用率 (buffer occupancy)，通过在未来时间窗口内优化给定的 QoE 指标来选择比特率。

5.3.2. CJS 任务基线

Decima [9]: 一种强化学习 (RL) 模型，用于作业调度，采用图神经网络 (GNN) 处理作业的有向无环图 (DAG) 信息。
FIFO (First-In-First-Out) [34]: 一种常见的规则驱动调度策略，由大数据处理系统 Spark 使用。它按照作业到达的顺序进行调度，并为每个作业分配请求的资源量。
Fair scheduling [34]: 另一种常见的规则驱动调度策略，由 Spark 使用。它以“轮询”方式调度作业，以确保每个作业获得大致相等的集群资源份额。

5.3.3. CC 任务基线

VICC: 抖音生产环境中部署的生产级 (production-grade) 拥塞控制 (CC) 专用策略。它是一个成熟的、经过多年迭代优化的自适应策略，旨在平衡全球网络条件和不同音视频应用中的带宽利用率和延迟。它包含多种自适应机制，如拥塞响应、带宽探测、丢包检测和抖动弹性。

5.4. 经验数据集构建

ABR 任务: 采用基线 GENET 进行经验收集。在多样化的网络环境中模拟 GENET，并收集其与环境的交互（状态、动作和奖励），作为 LLM 微调的训练数据集。
CJS 任务: 经验数据集通过 Decima 模型与多样化模拟训练环境的交互构建。生成的状态-动作-奖励元组 (state-action-reward tuples) 用于 Trailblazer 对 LLM 进行微调。
CC 任务: 基于抖音内部开发平台构建，如 5.1.3 节所述。

5.5. LLM 基础模型选择与配置

模拟实验 (ABR, CJS): 默认使用 Llama2-7B [31] 作为 Trailblazer 的基础 LLM。扩展数据（Extended Data Fig. 1）提供了其他 LLM 系列（如 OPT, Mistral, LLaVa）的结果，验证了 Trailblazer 在不同 LLM 主干网络 (backbones) 上的鲁棒性。
真实世界部署 (CC): 考虑到早期饱和 (early saturation) 现象，选择 Qwen2.5-0.5B [21] 作为默认的基础 LLM。 Extended Data Fig. 2 提供了模型规模的详细分析，以证明这一选择在性能和效率之间的最佳权衡。
推理批量大小: 在 CC 任务中，LLM 的推理批量大小 (inference batch size) 设置为 64，实现了平均 37.1 毫秒的推理延迟 (inference latency)，满足了抖音 CC 任务 100 毫秒的响应延迟要求。Extended Data Fig. 3 详细分析了推理批量大小对 CC 任务性能的影响。

5.6. 状态信息列表

下图（原文 Extended Data Fig. 4）列出了三个网络任务的完整状态列表。状态空间的设计遵循学术界和工业界的常见实践。对于 ABR 和 CJS，状态表示分别采自 GENET [30] 和 Decima [9]。对于 CC，状态设计基于抖音的实践。出于抖音数据安全要求，报告的是 CC 任务中使用的状态信息类别，而非具体状态信号。

该图像是一个柱状图，展示了不同模型（OPT、Mistral、LLava、Llama2、GENET）在QoE评分上的表现。各模型的平均评分接近1，表现出较好的用户体验，图中横轴为模型名称，纵轴为平均QoE评分。

图示：Extended Data Fig. 4. 三个网络任务的完整状态列表。

6. 实验结果与分析

本节将详细分析 Trailblazer 在模拟环境 (simulated network environments) 和真实世界网络环境 (real-world network environments) 中的实验结果，包括泛化能力 (generalization capabilities)、知识和模型规模的影响 (effects of knowledge and LLM model scale)、调度器有效性 (effectiveness of scheduler) 以及真实世界部署效果 (effectiveness of real-world deployment)。

6.1. 模拟网络环境下的评估

6.1.1. 泛化能力比较：通用策略与专用策略

下图（原文 Fig. 3）展示了通用方法 Trailblazer 与专用基线在异构网络任务和环境中的全面比较。

$Fig. 3 Comprehensive comparison between the generalist approach Trailblazer and specialist baselines on heterogeneous networking tasks and environments. For ABR, we benchmark Trailblazer against the learning-based policy GENET \[30\] and rule-based policies BBA \[32\] and MPC \[33\]. For CJS, we compare it against Decima \[9\], a learning-based policy, as well as two rule-based policies First-In-First-Out (FIFO) \[34\] and Fair scheduling \[34\]. a, Performance comparison of cross-task generalization. Results are averaged over three random seeds, with the mean and standard deviation reported. Policies that are not applicable on the specific task are marked with $\\times$ . b, Performance comparison of cross-environment generalization under more challenging OOD test settings. Scatters and box shapes represent the distribution of performance, while triangles denote mean values.$ 该图像是图表，展示了一般策略Trailblazer与专门基线在不同网络任务和环境中的比较。图中包含ABR和CJS的性能数据，左侧为QoE评分，右侧为JCT时间。a部分展现了跨任务的平均结果，而b部分比较了跨环境的一致性和性能分布。

图示：通用方法 Trailblazer 与专用基线在异构网络任务和环境中的全面比较。对于 ABR，我们对照了学习驱动策略 (learning-based policy) GENET [30] 以及规则驱动策略 (rule-based policies) BBA [32] 和 MPC [33]。对于 CJS，我们对照了学习驱动策略 Decima [9] 以及两个规则驱动策略 First-In-First-Out (FIFO) [34] 和 Fair scheduling [34]。a，跨任务泛化 (cross-task generalization) 的性能比较。结果是三个随机种子上的平均值，并报告了均值和标准差。不适用于特定任务的策略标记为 ×。b，在更具挑战性的 OOD 测试设置下，跨环境泛化 (cross-environment generalization) 的性能比较。散点和箱形图表示性能分布，三角形表示平均值。

6.1.1.1. 跨任务泛化 (Cross-task Generalization)

实验设计: 比较 Trailblazer 与专用策略 (specialist policies) 在自适应比特率流 (ABR) 和集群作业调度 (CJS) 这两个异构任务上的表现。
结果分析 (图 3a):
- Trailblazer 在两个任务上均持续优于所有基线：在 ABR 任务上实现了 14.5%-36.6% 更高的 QoE，在 CJS 任务上将 JCT 降低了 6.8%-41.3%。
- 专用策略（无论是规则驱动还是学习驱动）由于其任务特定设计 (task specific design)，无法在不同任务之间进行泛化，这在图中标记为 ×。
- Trailblazer 凭借单个 LLM，成功地在异构网络任务之间进行泛化，展现出更强的跨任务泛化能力。
结论: 这一结果证明了 LLM 可以作为通用网络策略的统一基础，打破了专用范式 (specialist paradigm) 的任务隔离障碍。

6.1.1.2. 跨环境泛化 (Cross-environment Generalization)

实验设计: 在各种具有挑战性的未见分布 (Out-of-Distribution, OOD) 测试环境中评估 Trailblazer，这些环境与训练条件存在显著差异（例如，测试环境的带宽波动模式比训练环境更动态）。
结果分析 (图 3b):
- Trailblazer 在所有情况下，无论是平均值还是性能分布，都持续优于所有基线。
- 例如，与规则驱动和学习驱动策略相比，Trailblazer 平均 QoE 分数提高了 3.9%-24.8% 和 1.5%-44.3%，平均 JCT 分别降低了 2.5%-6.8% 和 10.5%-41.6%。
结论: Trailblazer 这一持续的优势强调了通用范式 (generalist paradigm) 的一个关键优势：通过利用 LLM 强大的泛化能力 (generalization capabilities)，它能够在专用方法 (specialist approaches) 常常失败的异构环境中进行泛化。

6.1.2. 知识和 `LLM` 模型规模在网络中的作用

为了深入了解 LLM 作为通用策略在网络中取得成功的原因，论文研究了预训练知识 (pretrained knowledge) 和领域专用知识 (domain-specific knowledge) 的重要性，并探讨了 LLM 模型规模对任务性能的影响。

下图（原文 Fig. 4）展示了 LLM 在网络中成功的研究。

Fig. 4 Study of the success of LLM in networking. a, Investigation on the importance of pretrained knowledge of the LLM and domain knowledge injected by Trailblazer. b, Investigation on the impact of LLM model scale on task performance. 该图像是图表，展示了LLM在网络优化中的成功研究。左侧(a)部分比较了在不同知识条件下的平均质量体验（QoE）得分和延迟（JCT）的变化，右侧(b)部分则展示了不同LLM模型规模对任务表现的影响。结果表明，即使在较小模型中，LLM仍能提供显著的性能提升。

图示：LLM 在网络中成功的研究。a，调查 LLM 的预训练知识 (pretrained knowledge) 和 Trailblazer 注入的领域知识 (domain knowledge) 的重要性。b，调查 LLM 模型规模对任务性能的影响。

6.1.2.1. 洞察 1：预训练知识使 `LLM` 能够作为通用策略运行

实验设计: 丢弃 LLM 的预训练权重 (pretrained weights)，重新初始化并从头开始训练每个下游任务。
结果分析 (图 4a): 这种变体在 ABR 和 CJS 任务上都遭受了显著的性能下降。
结论: 这一发现验证了 LLM 的预训练知识确实编码了可迁移的抽象网络知识，是 LLM 作为通用网络策略有效泛化的关键先决条件。

6.1.2.2. 洞察 2：领域专用知识对于释放 `LLM` 的全部通用潜力至关重要

实验设计: 保留预训练权重，但冻结整个 LLM 主干网络 (backbone)，只微调网络状态编码器 (network state encoder) 和动作解码器 (action decoder)，这阻止了 LLM 在训练期间直接获取任务特定网络知识 (task-specific networking knowledge)。
结果分析 (图 4a): 尽管保留了预训练知识，但这种变体未能跨不同任务进行泛化，这突出表明，如果没有领域对齐 (domain alignment)，仅靠预训练知识是不够的。
结论: Trailblazer 通过弥合抽象预训练知识和细粒度领域专业知识 (domain expertise) 之间的差距来解决这个问题。通过共同整合这两个方面，LLM 可以作为有效的通用网络策略。此外，有趣的是，不同的任务对领域知识的敏感度不同。例如，在 ABR 中，即使没有领域知识，Trailblazer 变体仍能取得良好的性能。

6.1.2.3. 洞察 3：LLM 在网络优化中随着模型规模的增加表现出早期饱和 (early saturation)

实验设计: 以 ABR 为例，研究 LLM 模型规模对任务性能的影响，使用 OPT 模型家族 [35] 的不同模型规模进行调查。
结果分析 (图 4b):
- OPT-0.35B 表现不如基线，可能是因为抽象网络原理的预训练知识不足。
- 相比之下，所有大于 1B 的 OPT 变体都优于所有基线，但性能在此阈值之后迅速饱和，更大的模型只带来边际收益。
结论: 论文将这种现象称为早期饱和 (early saturation)，这与自然语言处理 (NLP) 中性能随模型规模持续提高的缩放定律 (scaling law) 形成鲜明对比。早期饱和揭示了一个重要见解：有效网络优化所需的 LLM 模型规模相对较小。因此，可以利用小型 LLM 来实现有竞争力的性能，同时满足真实世界网络系统严格的低延迟要求。

6.2. 真实世界网络环境下的评估

6.2.1. 调度器有效性验证

为了评估调度器 (scheduler) 的有效性，论文在部署 Trailblazer 到生产级网络系统之前，进行了消融研究 (ablation study)，比较了有无调度器的 Trailblazer 在不同网络条件和系统负载下的表现。

下图（原文 Fig. 5）展示了 Trailblazer 有无调度器以实现高效协作的比较。

$Fig. 5 Comparison between Trailblazer with and without the scheduler to enable efficient collaboration. a, Performance analysis of the two variants, evaluated across different proportions `( p )` of requests under poor network conditions. The performance of VICC and the rule-based CC policy used to collaborate with the LLM is also reported. b, Performance analysis of the two variants under different number of peak requests when $p = 2 0 \\%$ , $8 0 \\%$ .$ 该图像是图表，展示了Trailblazer在不同请求比例和峰值请求数量下的性能对比。图(a)分析了在不良网络条件下各个算法的均方根百分比误差（MAPE）随请求比例变化的情况，比较了Trailblazer及其无调度器版本与其他协作算法的表现。图(b)则分别在请求比例为20%和80%时，展示了不同峰值请求数量对请求处理延迟和MAPE的影响。

图示：Trailblazer 有无调度器以实现高效协作的比较。a，在不同比例 (p) 的不良网络状况请求下，两个变体、VICC 和用于协作的规则驱动 CC 策略 (rule-based CC policy) 的性能分析。b，在 $p = 20\%$ 和 $80\%$ 时，不同峰值请求数量下两个变体的性能分析。

6.2.1.1. 洞察 4：选择性调用 (Selective Invocation) 在不损害性能的情况下显著提高了系统效率

结果分析 (图 5a): 比较了 Trailblazer 有无调度器、VICC 以及协作规则驱动 CC 策略在不同比例 (p) 的不良网络状况请求下的 MAPE 性能。
- 即使与一个 MAPE 随 $p$ 增加而迅速增长的简单 CC 策略协作，Trailblazer 在所有情况下仍显著优于 VICC。
- Trailblazer 的 MAPE 比无调度器的 Trailblazer 最多高出 3.08%，并且随着 $p$ 升高（更多请求被路由到 LLM），性能差距缩小。这表明调度器在大多数情况下可以保持接近最优的性能。
结果分析 (图 5b): 进一步比较了在 $p = 20\%$ $p = 20%$ 和 $80\%$ $80%$ 时，两个系统在不同峰值请求数量下的请求处理延迟 (request processing delay)。
- 随着请求峰值量的增加，无调度器的 Trailblazer 表现出严重的性能下降，处理延迟显著增高。这是因为所有请求同时被导向 LLM，导致长队列延迟。
- 相比之下，Trailblazer 展现出强大的弹性和卓越的效率。例如，在 $p = 20\%$ 和 2,000 个请求的峰值负载下，Trailblazer 将平均延迟从 345 毫秒降低到 61 毫秒（低于抖音 CC 要求的 100 毫秒），而与无调度器的 Trailblazer 相比，MAPE 仅增加 2.66%。
结论: 这些结果揭示了一个重要原则：选择性调用 (selective invocation) LLM 进行网络控制（仅在必要时，而非每个请求都进行控制）是提高基于 LLM 的通用策略在真实世界网络系统中效率的关键。

6.2.2. 真实世界部署有效性

论文将 Trailblazer 部署到抖音的在线 CC 服务中，并在为期三周的大规模 A/B 测试中与专用策略 VICC 进行比较。

下图（原文 Fig. 6）展示了抖音 CC 服务中通用 Trailblazer 与专用 VICC 之间大规模在线 A/B 测试的结果。

$Fig. 6 Results of large-scale online $\\mathbf { A } / \\mathbf { B }$ tests between the generalist Trailblazer and specialist VICC within Douyin's CC service. a, Relative reduction of Trailblazer over VICC on different video stall rates. b,c, Relative reduction in video stall rates of Trailblazer over VICC across different client OS and distance to server. e,d, Client statistics in the $\\mathrm { A } / \\mathrm { B }$ tests.$ 该图像是图表，展示了在 Douyin 的 CC 服务中，通用型 Trailblazer 与专业型 VICC 之间的大规模在线 $ext{A/B}$ 测试结果。图中包括视频停滞率的相对减少情况，以及不同客户端操作系统和距离服务器的客户统计数据。

图示：抖音 CC 服务中通用 Trailblazer 与专用 VICC 之间大规模在线 A/B 测试的结果。a，Trailblazer 相对于 VICC 在不同视频卡顿率 (video stall rates) 上的相对减少。b,c，Trailblazer 相对于 VICC 在不同客户端操作系统 (OS) 和与服务器距离下的视频卡顿率相对减少。e,d，A/B 测试中的客户端统计数据。

6.2.2.1. 视频卡顿率性能

实验设计: 比较 Trailblazer 和 VICC 在不同细粒度卡顿指标 (stall metrics) 上的表现：中断持续时间 $\geq 100$ 毫秒（默认）、 $\geq 200$ 毫秒和 $\geq 500$ 毫秒，分别对应轻微、中度和长时间的播放中断。
结果分析 (图 6a): Trailblazer 在所有三个指标上都显示出持续改进，相对于 VICC，100 毫秒、200 毫秒、500 毫秒的视频卡顿率分别降低了 0.92%、1.28% 和 0.76%。
结论: 尽管改进看起来可能不大，但在抖音这样的大规模用户平台上，即使是微小的卡顿率降低也能带来巨大的商业利益（例如，提高用户留存率和参与度）。这有力地证明了 Trailblazer 作为基于 LLM 的通用方法，不仅能在生产网络环境中可靠运行，还能带来工业级的服务质量改进。

6.2.2.2. 客户端异构性下的可伸缩性

实验设计: 分析 Trailblazer 在不同客户端操作系统 (OS)（反映各种硬件和软件配置）下的性能。图 6d 展示了不同 OS 类别的分布。
结果分析 (图 6b):
- Trailblazer 在 Android 上的性能与 VICC 持平。
- 在 iOS 上，Trailblazer 将视频卡顿率降低了 3.58%。
- 在 HarmonyOS 最新版本等其他不常见的 OS 平台上，Trailblazer 显著优于 VICC 达 24.45%。
结论: VICC 作为规则驱动的专用策略，可能尚未针对这些新兴平台进行充分优化。相比之下，Trailblazer 作为基于 LLM 的通用方法，无需手动调整即可实现快速的 OS 适应，从而在异构和不断演进的设备系统上展现出强大的泛化能力 (generalization)。这表明 Trailblazer 适用于用户设备和 OS 平台广泛的真实世界部署场景。

6.2.2.3. 地理距离的影响

实验设计: 根据客户端与服务器的物理距离对客户端进行分类，以研究地理距离对 Trailblazer 性能的影响。地理距离可以作为影响视频流质量的关键网络特征（如域间路由复杂性 (inter-domain routing complexity) 和传输路径稳定性 (transmission path stability)）的代理。图 6e 展示了不同区域客户端的分布。
结果分析 (图 6c): Trailblazer 在所有区域均持续优于 VICC，视频卡顿率相对减少 0.85%-10.29%。
结论: 性能增益随着距离的增加而增大，这表明 Trailblazer 在复杂网络环境中尤其有效。因此，Trailblazer 这种通用策略展现出强大的泛化能力和对网络可变性的鲁棒性，无需区域特定定制即可实现大规模部署。

6.3. 扩展数据分析

6.3.1. 不同 LLM 模型家族的性能研究 (Extended Data Fig. 1)

下图（原文 Extended Data Fig. 1）展示了不同 LLM 模型家族在 ABR 任务上的性能研究。

图示：Extended Data Fig. 1. ABR 任务中不同 LLM 模型家族性能的研究。我们选择了四种代表性的开源 LLM 作为基础模型来评估它们在网络中的有效性：Llama2 [31]、OPT [35]、Mistral [64] 和 LLaVa [65]。所有 LLM 都标准化为 7B 参数规模，以确保公平和一致的比较。我们比较了应用 Trailblazer 框架后这些 LLM 的性能与学习驱动策略 GENET [30] 的性能。如图所示，所有 LLM 都显著优于基线。这些结果验证了 Trailblazer 在不同 LLM 主干网络 (backbones) 上的鲁棒性，并揭示了 Trailblazer 作为将 LLM 对齐到网络的通用框架的可行性。

结论: 即使使用不同的 LLM 主干网络 (backbones)（Llama2, OPT, Mistral, LLaVa），在应用 Trailblazer 框架后，所有 LLM 均显著优于基线 GENET。这验证了 Trailblazer 在不同 LLM 主干网络上的鲁棒性。

6.3.2. `CC` 任务中 `LLM` 模型规模的选择研究 (Extended Data Fig. 2)

下图（原文 Extended Data Fig. 2）展示了 CC 任务中 LLM 模型规模的选择研究。

该图像是一个图表，展示了不同规模的LLM模型（0.5B、1.5B、3B、7B）在两个方面的性能：a) MAPE (%)，以及b) 每批次和每样本的运行时间（毫秒）。可观察到，随着模型规模的增加，MAPE有所波动，而运行时间显著上升。

图示：Extended Data Fig. 2. CC 任务中 LLM 模型规模选择的研究。我们使用 Qwen2.5 模型家族作为基础 LLM。每个 LLM 的处理批量大小设置为 64。a，不同模型规模下 LLM 的性能比较。虚线表示 VICC 的性能。b，不同模型规模下的运行时分析。从 0.5B 参数开始，MAPE 在所有模型规模下都保持在 36.5% 左右，而计算成本随模型大小急剧上升。鉴于 0.5B 之后的回报递减，我们选择 0.5B Qwen2.5 模型作为 CC 任务的主干网络 (backbone)，因为它在性能和效率之间实现了最佳权衡。

结论: 从 0.5B 参数开始，MAPE 保持在约 36.5%，而计算成本随模型规模急剧上升。这种早期饱和现象表明，0.5B 的 Qwen2.5 模型在性能和效率之间取得了最佳权衡，因此被选为 CC 任务的主干网络。

6.3.3. `LLM` 推理批量大小对 `CC` 任务影响的研究 (Extended Data Fig. 3)

下图（原文 Extended Data Fig. 3）展示了 LLM 推理批量大小对 CC 任务影响的研究。

该图像是图表，展示了在不同批量大小下，LLM和VICC基线的MAPE（百分比平均绝对误差）变化及每批次和每样本的运行时间。图 (a) 显示了批量大小与MAPE的关系，表现出19.10%至19.21%的误差。图 (b) 则比较了不同批量大小下的运行时间，展示了随批量大小增加而变化的趋势。

图示：Extended Data Fig. 3. LLM 推理批量大小对 CC 任务影响的研究。我们使用 Qwen2.5-0.5B 作为本次研究的主干网络 LLM。a，不同批量大小下模型的性能比较。虚线表示 VICC 的性能。b，不同批量大小下的推理运行时分析。增加 LLM 批量大小可以有效降低每个请求的推理延迟 (inference latency)，同时不损害任务性能。因此，我们将批量大小设置为 64，实现了平均 37.1 毫秒的推理延迟，满足了抖音 CC 100 毫秒的响应延迟要求，同时为系统弹性留有安全裕度。

结论: 增加 LLM 批量大小 (batch size) 可以有效降低每个请求的推理延迟 (inference latency)，同时不损害任务性能。将批量大小设置为 64，可以实现 37.1 毫秒的平均推理延迟，满足了抖音 CC 100 毫秒的响应延迟要求。

7. 总结与思考

7.1. 结论总结

本文提出了 Trailblazer 框架，旨在将大型语言模型 (LLMs) 转化为通用网络策略 (generalist network policies)，以克服传统专用策略 (specialist policies) 在跨任务 (cross-task) 和跨环境泛化 (cross-environment generalization) 方面的局限性。

Trailblazer 的核心贡献在于其两个互补模块：

网络输入-输出-知识对齐 (NIOKA) 方案：通过网络状态编码器 (network state encoder) 和网络动作解码器 (network action decoder) 解决 LLM 与网络任务在输入模态 (input modalities) 和输出内容 (output contents) 上的不匹配问题。同时，通过离线强化微调 (offline reinforcement fine-tuning) 算法（如 Decision Transformer 或 Contextual Imitation Learning）向 LLM 注入领域专用知识 (domain-specific knowledge)。
自适应策略协作 (APC) 机制：通过一个轻量级规则调度器 (lightweight rule-based scheduler) 智能地将复杂网络状况下的请求路由给 LLM 处理，而将简单、稳定的请求分流给轻量级规则策略 (lightweight rule-based policy)。这种选择性调用 (selective invocation) 机制显著提高了 LLM 在实时、低延迟网络系统中的部署效率。

实验结果强有力地验证了 Trailblazer 的有效性：

在 ABR 和 CJS 任务的广泛模拟中，由单个 LLM 驱动的 Trailblazer 显著优于最先进的专用策略，展现出更强的跨任务和跨环境泛化能力。
在抖音的拥塞控制 (CC) 服务中进行的为期三周的大规模在线 A/B 测试表明，Trailblazer 在关键工业性能指标（如视频卡顿率）上优于生产级专用策略 VICC，证明了其在实际生产环境中的可靠性和提供可衡量服务质量改进的能力。
研究还揭示了两个关键洞察：早期饱和 (early saturation) 现象表明，相对较小的 LLM 经过适当的领域对齐 (domain alignment) 即可在网络优化任务中表现出色；选择性调用策略是平衡 LLM 性能和效率的关键。

总而言之，Trailblazer 成功展示了 LLM 作为通用网络策略的巨大潜力，并为在真实世界、延迟敏感的网络系统中部署这些策略提供了实用的蓝图。

7.2. 局限性与未来工作

论文作者指出了以下局限性及未来研究方向：

可解释性 (Explainability): 尽管 LLM 作为通用网络策略在经验上是有效的，但其内部决策逻辑 (internal decision logic) 仍然难以解释。
未来工作: 增强 LLM 的可解释性将是未来的研究重点，例如，通过将其推理过程映射到其决策逻辑的显式表示。这将有助于更好地理解基于 LLM 的通用策略的能力和改进空间。

7.3. 个人启发与批判

7.3.1. 个人启发

范式转变的潜力: 论文提出的“通用驱动范式”具有颠覆性的潜力。它挑战了传统上将网络任务视为独立问题的思维模式，转而寻求一种统一的、能够迁移知识的解决方案。这种通过一个通用模型解决多样化问题的思路，可能极大地降低新网络服务或环境的策略设计成本。
LLM 知识的价值: LLM 在海量文本数据中学习到的“通用网络原理”是一个非常新颖且有价值的视角。这表明 LLM 不仅仅是“语言处理”工具，它们能够从文本描述中提炼出抽象的、跨领域的机制和规律，并将其应用于非文本的控制任务。这为 LLM 在更多物理世界控制领域的应用打开了大门。
工程与学术的结合: Trailblazer 不仅在理论和模拟中取得了成功，还在抖音这样的大规模生产环境中进行了严格的 A/B 测试验证，证明了其真实世界的实用性和商业价值。这种将尖端学术研究成果迅速落地并产生实际影响的案例，为其他研究者提供了宝贵的经验。
“小而美”的智慧: “早期饱和”和“选择性调用”这两个洞察非常具有实践指导意义。它们提醒我们，在资源受限的实时系统中，并非总需要最大的模型。通过精巧的工程设计（如网络对齐和自适应策略协作），即使是小型 LLM 也能发挥巨大作用，并有效管理推理延迟，这对于推广 LLM 在边缘计算和物联网等领域的应用至关重要。

7.3.2. 批判与潜在改进

可解释性不足带来的风险: 尽管论文提到了可解释性是未来的工作，但在实际生产环境中，尤其是在网络这种对稳定性要求极高的领域，LLM 的“黑箱”特性是一个巨大的风险。当出现问题时，难以诊断决策原因，可能导致故障排除困难，甚至引发连锁反应。未来的研究需要超越简单的决策映射，深入探究 LLM 的“思考过程”，例如，通过因果推断 (causal inference) 或反事实解释 (counterfactual explanations)。
领域知识注入的效率和广度: Trailblazer 依赖于离线经验数据集来注入领域知识。这种方法的效果受限于数据集的质量和多样性。
- 效率问题: 如果新的网络任务或环境与现有数据集差异较大，可能需要重新收集大量数据并进行微调，这又回到了部分“专家驱动”的困境。
- 广度问题: 数据集可能无法覆盖所有长尾（long-tail）或极端情况，可能导致 LLM 在这些罕见情况下的表现不佳。
- 改进方向: 探索更高效的在线学习 (online learning) 机制、零样本/少样本 (zero-shot/few-shot) 学习方法，或者将LLM与符号推理 (symbolic reasoning) 相结合，使其能够更好地利用人类可读的规则和逻辑，减少对大规模离线数据的依赖。
调度器规则的普适性: APC 中的调度器目前采用启发式规则（如基于 RTT、丢包率和发送速率的阈值）。这些阈值是手工设定的 ( $\alpha_1 = 50$ $α_{1} = 50$ ms, $\alpha_2 = 0.05, \alpha_3 = 0.95$ $α_{2} = 0.05, α_{3} = 0.95$ )。虽然简单高效，但在高度动态或未见过的网络环境中，这些固定阈值可能不是最优的，甚至可能导致次优路由。
- 改进方向: 可以研究自适应调度器 (adaptive schedulers)，例如，通过强化学习或元学习来动态调整阈值，或者结合 LLM 自身对网络状况的理解来辅助调度决策，使其更具鲁棒性。
LLM 实时交互的限制: 即使通过选择性调用和批量处理降低了推理延迟，LLM 的本质仍然是处理离散的词元 (tokens) 序列。对于需要连续、毫秒级甚至微秒级反馈回路的网络控制（如一些底层的硬件层控制），LLM 的应用仍面临挑战。
- 改进方向: 探索 LLM 与传统控制理论 (control theory) 方法的混合架构，LLM 提供高层级的策略指导或异常检测，而底层快速控制由传统算法执行。
隐私和合规性: 论文提到了数据隐私合规性，但 LLM 在处理网络流量数据时，可能面临更严格的数据保护要求，尤其是在跨国部署时。如何确保 LLM 不会泄露敏感的网络元数据，或如何在其内部实现差分隐私 (differential privacy)，将是长期挑战。
计算资源需求: 尽管“早期饱和”意味着较小的 LLM 可以有效，但即使是 0.5B 参数的 Qwen2.5 模型也需要 4.5 GB 的 GPU 内存。对于一些资源受限的边缘设备，这仍然是一个挑战。
- 改进方向: 探索更极致的模型压缩 (model compression)、量化 (quantization)、知识蒸馏 (knowledge distillation) 或LLM与边缘计算 (edge computing) 设备的协同设计。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。