论文状态：已完成

SABR: A Stable Adaptive Bitrate Framework Using Behavior Cloning Pretraining and Reinforcement Learning Fine-Tuning

发表：2025/08/30

自适应比特率控制 (1)行为克隆预训练 (1)强化学习微调 (1)网络条件广泛性评估 (1)在线视频服务质量体验 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新的自适应码率控制框架SABR，结合行为克隆预训练与强化学习微调，克服了现有方法在广泛分布网络条件下泛化能力差的局限。通过引入ABRBench基准，实验结果显示SABR在多项评测中优于现有方法，展现出更强的鲁棒性与稳定性。

摘要

With the advent of 5G, the internet has entered a new video-centric era. From short-video platforms like TikTok to long-video platforms like Bilibili, online video services are reshaping user consumption habits. Adaptive Bitrate (ABR) control is widely recognized as a critical factor influencing Quality of Experience (QoE). Recent learning-based ABR methods have attracted increasing attention. However, most of them rely on limited network trace sets during training and overlook the wide-distribution characteristics of real-world network conditions, resulting in poor generalization in out-of-distribution (OOD) scenarios. To address this limitation, we propose SABR, a training framework that combines behavior cloning (BC) pretraining with reinforcement learning (RL) fine-tuning. We also introduce benchmarks, ABRBench-3G and ABRBench-4G+, which provide wide-coverage training traces and dedicated OOD test sets for assessing robustness to unseen network conditions. Experimental results demonstrate that SABR achieves the best average rank compared with Pensieve, Comyco, and NetLLM across the proposed benchmarks. These results indicate that SABR enables more stable learning across wide distributions and improves generalization to unseen network conditions.

思维导图

论文精读

中文精读约 27 分钟读完 · 16,929 字

1. 论文基本信息

1.1. 标题

SABR: 一种使用行为克隆预训练和强化学习微调的稳定自适应码率框架 (SABR: A Stable Adaptive Bitrate Framework Using Behavior Cloning Pretraining and Reinforcement Learning Fine-Tuning)

1.2. 作者

Pengcheng Luo, Yunyang Zhao, Bowen Zhang, Genke Yang, Boon-Hee Soong, Chau Yuen。其中，Pengcheng Luo, Yunyang Zhao, Bowen Zhang, Genke Yang 隶属于上海交通大学宁波人工智能研究院和上海交通大学自动化与智能传感学院；Boon-Hee Soong 和 Chau Yuen 隶属于新加坡南洋理工大学电气与电子工程学院。

1.3. 发表期刊/会议

该论文作为预印本 (arXiv preprint) 发布。 Published at (UTC)：2025-08-30T05:32:45.000Z，表明其发布时间是2025年8月30日。

1.4. 摘要

随着 5G 的到来，互联网已进入一个以视频为中心的新时代。从 TikTok 等短视频平台到 Bilibili 等长视频平台，在线视频服务正在重塑用户的消费习惯。自适应码率 (Adaptive Bitrate, ABR) 控制被广泛认为是影响用户体验质量 (Quality of Experience, QoE) 的关键因素。近年来，基于学习的 ABR 方法受到了越来越多的关注。然而，它们大多在训练时依赖有限的网络轨迹 (network trace) 集，并且忽视了真实世界网络条件的广分布特性，导致在分布外 (out-of-distribution, OOD) 场景中泛化能力差。为了解决这一局限性，本文提出了 SABR，一个结合行为克隆 (Behavior Cloning, BC) 预训练和强化学习 (Reinforcement Learning, RL) 微调的训练框架。此外，本文还引入了基准测试 ABRBench-3G 和 ABRBench-4G+，它们提供了广泛覆盖的训练轨迹和专门的 OOD 测试集，用于评估对未知网络条件的鲁棒性 (robustness)。实验结果表明，SABR 在所提出的基准测试中，相较于 Pensieve、Comyco 和 NetLLM 取得了最佳的平均排名。这些结果表明 SABR 能够实现更稳定的广分布学习，并提高了对未知网络条件的泛化能力。

1.5. 原文链接

原文链接: https://arxiv.org/abs/2509.10486
PDF 链接: https://arxiv.org/pdf/2509.10486v1.pdf

2. 整体概括

2.1. 研究背景与动机

随着 5G 网络的普及，视频内容已成为数字内容的主导。短视频和长视频平台正在深刻改变人们的消费习惯。在这种背景下，视频播放的流畅度和清晰度对用户体验至关重要。自适应码率 (ABR) 算法作为一种基础机制，通过动态调整视频码率以响应实时网络带宽波动，从而最小化卡顿和延迟，确保高用户体验质量 (QoE)。

尽管人工智能 (AI) 方法，特别是深度学习和强化学习 (RL)，在 ABR 算法方面取得了显著进展，但当前研究仍面临两大挑战：

对未知分布的泛化能力有限 (Limited generalization to unseen distributions): 大多数 ABR 模型仅在特定的网络轨迹 (network trace) 集上进行训练，未能充分利用海量的网络轨迹数据。这导致模型在面对训练中未曾出现过的网络条件时，性能表现不佳。
在广分布训练下的性能退化 (Degradation under wide-distribution training): 当训练数据集包含范围广泛的网络条件时，ABR 模型的训练效率和稳定性会显著下降。

这些挑战促使研究人员探索更鲁棒 (robust) 和高效的训练范式。

2.2. 核心贡献/主要发现

本文的主要贡献和发现如下：

提出了 SABR 框架： 提出了一种结合行为克隆 (BC) 预训练和强化学习 (RL) 微调的两阶段训练框架 SABR。该框架旨在通过利用广泛的网络轨迹数据，提高 ABR 的泛化能力。
设计了 DPO-based BC 和 PPO-based RL： SABR 采用基于直接偏好优化 (Direct Preference Optimization, DPO) 的 BC 进行快速稳定的预训练，以获取基础模型。随后，通过基于近端策略优化 (Proximal Policy Optimization, PPO) 的 RL 进行微调，以实现更深度的探索和对复杂网络动态的鲁棒 (robust) 适应。
发布了两个新基准测试： 引入了 ABRBench-3G 和 ABRBench-4G+ 两个基准测试。这些基准测试提供了评估 ABR 模型对未知网络条件泛化能力的有效手段，其中包含广覆盖的训练轨迹和专门的分布外 (OOD) 测试集。
验证了 SABR 的优越性能： 实验结果表明，在所提出的两个基准测试中，SABR 相较于 Pensieve、Comyco 和 NetLLM 等现有基线方法，取得了最佳的平均排名。这证明了 SABR 在广分布下更稳定的学习能力和对未知网络条件更好的泛化性能。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 SABR 框架，我们需要了解以下几个核心概念：

自适应码率 (Adaptive Bitrate, ABR)： ABR 是一种视频流技术，它允许视频播放器根据用户的网络条件（如可用带宽、网络拥塞）和设备能力动态调整视频的码率 (bitrate) 或分辨率。其目标是最大化用户体验质量 (QoE)，同时最小化卡顿、缓冲延迟和码率切换带来的不流畅感。ABR 算法通过周期性地获取网络状态信息，并选择下一个要播放的视频片段的合适码率来实现这一点。

该图像是一个示意图，展示了自适应码率（ABR）算法在视频播放中的应用。图中包含视频播放器、网络状态和不同码率的请求与响应机制，说明了如何根据网络条件选择合适的码率。ABR算法从视频服务器获取适应的下一个视频片段以提供更好的观看体验。

上图（原文 Figure 1）展示了 ABR 的概览。视频播放器根据实时的网络状态（如吞吐量、缓冲区长度）向视频服务器请求不同码率的视频片段。视频服务器会提供适应当前网络条件的视频片段，从而提供更好的观看体验。
用户体验质量 (Quality of Experience, QoE)： QoE 是衡量用户在使用服务或产品时主观满意度的综合指标。在视频流领域，QoE 通常由多个因素决定，包括视频的清晰度（码率越高通常越清晰）、流畅度（无卡顿、低延迟）、码率切换的平滑性（避免频繁且剧烈的码率变化）以及启动时间等。ABR 算法的核心目标就是优化 QoE。
强化学习 (Reinforcement Learning, RL)： RL 是一种机器学习范式，智能体 (agent) 通过与环境 (environment) 交互，学习如何在特定状态 (state) 下采取行动 (action) 以最大化累积奖励 (reward)。在 ABR 中，智能体可以是 ABR 算法，环境是网络和视频播放器，状态包括网络吞吐量、缓冲区长度等，行动是选择下一个视频片段的码率，奖励则是基于 QoE 定义的。
行为克隆 (Behavior Cloning, BC)： BC 是一种模仿学习 (Imitation Learning) 的形式。它通过监督学习的方式，让一个模型 (通常是神经网络) 模仿专家 (expert) 的行为。给定大量的状态-行动对 (s, a)，其中 $s$ 是状态， $a$ 是专家在该状态下采取的行动，BC 模型会学习一个策略 (policy) $\pi(a|s)$ ，使得在给定状态 $s$ 时，输出的行动 $a$ 尽可能接近专家的行动。BC 的优点是训练稳定、高效，但其性能受限于专家数据的质量和覆盖范围，且无法超越专家性能。
预训练 (Pretraining) 和微调 (Fine-tuning)： 这是一种常见的机器学习训练范式，尤其在大语言模型 (Large Language Models, LLMs) 领域取得了巨大成功。
- 预训练： 在一个大规模、多样化的数据集上训练一个模型，使其学习到通用的特征表示和基本能力。这一阶段通常计算成本很高，但模型学到的知识具有很强的泛化性。
- 微调： 在一个特定任务或特定领域的小型数据集上，对预训练好的模型进行进一步训练。这个阶段的目标是让模型适应具体任务的需求，提高其在该任务上的性能。微调通常计算成本较低，且能有效利用预训练模型学到的通用知识。
直接偏好优化 (Direct Preference Optimization, DPO)： DPO 是一种用于对齐 (alignment) 大语言模型的算法。它直接优化模型的策略，使其更倾向于生成人类偏好的响应，而避免了传统强化学习从人类反馈 (Reinforcement Learning from Human Feedback, RLHF) 中需要训练一个奖励模型 (reward model) 的复杂步骤。DPO 通过最大化偏好轨迹对 (preferred trajectory pair) 的对数概率比来工作，使得模型直接学习到偏好。
近端策略优化 (Proximal Policy Optimization, PPO)： PPO 是一种流行的强化学习策略梯度 (policy gradient) 算法。它通过限制每次策略更新的幅度，来防止训练过程中的不稳定性，从而在保证训练效率的同时提高算法的稳定性。PPO 通过引入裁剪 (clipping) 机制来约束新旧策略之间的概率比，确保策略不会发生剧烈变化。

3.2. 前人工作

学习型 ABR 研究已广泛探索，其核心思想是利用神经网络和强化学习来克服传统基于规则的码率控制的局限性。

Pensieve [6]: 首次将强化学习模型应用于 ABR，使用网络状态（例如，吞吐量和缓冲区长度）作为输入来训练一个 A3C [7] 策略，证明了 RL 在 ABR 控制中的可行性和优势。它在 3G 网络轨迹上进行了训练。
Comyco [8]: 进一步引入了质量感知 QoE 指标，并采用模仿学习 (Imitation Learning) 从模型预测控制 (Model Predictive Control, MPC) 生成的专家数据中训练策略，显著提高了训练效率和模型性能。
Jade [9]: 为了解决用户对视频质量偏好的差异，将基于排名的 QoE 反馈整合到 RLHF 中，对齐优化目标，并在异构网络条件下实现了 QoE 的改进。
Genet [10]: 引入了一种自动课程学习 (Automatic Curriculum Learning) 方法 [11]，从与规则基线存在较大性能差距的网络环境开始，逐步扩展训练分布，从而使模型逐步改进。然而，当训练分布变得广泛时，课程学习可能面临分布偏移 (distributional shift) 和遗忘 (forgetting) 问题。
NetLLM [12]: 将大语言模型 (LLM) 适配到包括 ABR 在内的多种网络任务中。通过多模态编码 (multi-modal encoding) 和低秩适应 (Low-Rank Adaptation, LoRA) [13]，它降低了训练成本，并展示了 LLM 在 ABR 任务中的潜力。

3.3. 技术演进

ABR 算法的发展经历了从基于规则 (rule-based) 到基于学习 (learning-based) 的演进。

传统 ABR (Rule-based): 最初的 ABR 算法通常基于预定义的规则或启发式 (heuristics) 策略，如 Buffer-Based (BB) 和 BOLA [35]。这些方法相对简单，易于实现，但在复杂多变的网络环境中，其性能往往受限于规则的灵活性和鲁棒性。RobustMPC [34] 和 QUETRA [36] 是更先进的传统方法，它们利用控制理论或排队论进行优化，但仍需手动设计模型和参数。
基于学习的 ABR (Learning-based): 随着机器学习和深度学习的发展，研究人员开始将这些技术应用于 ABR。
- 强化学习 (RL): Pensieve [6] 开创了将 RL 应用于 ABR 的先河，通过让智能体在网络环境中学习最佳策略来最大化 QoE。随后的研究如 Jade [9] 进一步引入了人类反馈以更好地对齐用户偏好。
- 模仿学习 (IL): Comyco [8] 通过模仿 MPC 专家生成的轨迹来训练模型，在提高性能的同时也提升了训练效率。
- 结合 LLM 和课程学习： NetLLM [12] 探索了 LLM 在 ABR 任务中的应用潜力，而 Genet [10] 则通过课程学习逐步扩展训练难度。

3.4. 差异化分析

尽管上述工作推动了基于学习的 ABR 发展，但仍存在局限性：

泛化能力： 大多数方法在训练时依赖有限的网络轨迹集，导致在未知网络条件下的泛化能力差，难以适应真实世界网络的广分布特性。
稳定性： 在广分布数据集上进行训练时，模型的效率和稳定性往往会下降。

SABR 的核心创新在于借鉴了大语言模型领域成功的“预训练+微调”范式，并将其创造性地应用于 ABR 领域，以解决上述挑战。
两阶段训练： SABR 明确提出了 BC 预训练和 RL 微调的两阶段框架。BC 预训练阶段利用 DPO 算法从专家数据中快速、稳定地学习一个强大的基础控制策略，使其对广分布训练数据有初步理解。RL 微调阶段则利用 PPO 算法进一步探索更广阔的策略空间，增强泛化能力和对复杂网络动态的适应性。
DPO 的应用： 在 BC 预训练中引入 DPO 算法，将其转化为逐步 (step-wise) 损失，直接从专家行为中学习偏好，这与传统 BC 或基于 MPC 模仿学习（如 Comyco）有所不同。
新基准测试： SABR 引入的 ABRBench-3G 和 ABRBench-4G+ 包含广覆盖的训练轨迹和专门的 OOD 测试集，为评估模型在广分布和未知环境下的性能提供了更严格和全面的标准。这解决了现有基准测试在评估泛化能力方面不足的问题。

相较于 Pensieve 纯 RL 训练可能面临的稳定性问题，以及 Comyco 纯模仿学习受专家策略上限的限制，SABR 结合了两者的优点。与 NetLLM 专注于 LLM 适应网络任务不同，SABR 专注于 ABR 领域的通用预训练-微调框架设计，并利用 DPO 和 PPO 这种更细致的 RL 技术组合。

4. 方法论

SABR 框架包含两个阶段：行为克隆 (Behavior Cloning, BC) 预训练和强化学习 (Reinforcement Learning, RL) 微调。在 BC 预训练阶段，模型使用直接偏好优化 (Direct Preference Optimization, DPO) 算法在专家数据上进行训练，以获得一个基础模型 (base model)。在 RL 微调阶段，通过近端策略优化 (Proximal Policy Optimization, PPO) 训练来优化这个基础模型。

$Fig. 2. Proposed SABR framework: BC pretraining $^ +$ RL fine-tuning.$ 该图像是一个示意图，展示了SABR框架的结构，包括BC预训练和RL微调过程。该框架涉及初始模型、基模型和微调模型，以及ABR模拟器。在模型推理部分，考虑了带宽、历史比特率和缓冲区等因素，并输出不同的比特率，如360P、480P和720P。

上图（原文 Figure 2）展示了 SABR 框架的概览：BC 预训练 + RL 微调。

4.1. BC 预训练与 DPO

BC 预训练阶段的目标是让模型从专家演示中快速、稳定地学习一个初始的控制策略。为了实现这一目标，SABR 采用了 DPO 算法。DPO 最初是为大语言模型 (Large Language Models, LLMs) 的偏好对齐 (preference alignment) 而提出的，它通过直接最大化人类偏好响应的对数概率比，避免了传统强化学习从人类反馈 (RLHF) 中所需的奖励模型 (reward model) 和复杂的 RL 优化过程。受其直接从数据中捕获偏好能力的启发，SABR 采用 DPO 从专家演示中学习 ABR 策略。

4.1.1. 原始 DPO 目标函数

在原始的 DPO 算法中，给定一对候选轨迹 (candidate trajectories) $\tau_w$ （“获胜者”，即偏好的轨迹）和 $\tau_l$ （“失败者”，即不偏好的轨迹），它直接最大化它们的对数概率比，以偏好更优的轨迹。其目标函数定义为：

$\mathcal { L } _ { \mathrm { DPO } } ( \theta ) = - \mathbb { E } _ { ( \tau _ { w } , \tau _ { l } ) \sim \mathcal { D } } \Big [ \log \sigma \Big ( \beta \cdot \Big [ \log \frac { \pi _ { \theta } ( \tau _ { w } ) } { \pi _ { \mathrm { r e f } } ( \tau _ { w } ) } - \log \frac { \pi _ { \theta } ( \tau _ { l } ) } { \pi _ { \mathrm { r e f } } ( \tau _ { l } ) } \Big ] \Big ) \Big ]$

其中：

$\theta$ ：当前策略模型 $\pi_{\theta}$ 的参数。
$\pi_{\theta}(\tau)$ ：在当前模型下轨迹 $\tau$ 的似然 (likelihood)。
$\pi_{\mathrm{ref}}(\tau)$ ：在参考模型下轨迹 $\tau$ 的似然。参考模型通常是初始化模型或一个冻结的旧版本策略，用于稳定训练。
$\mathcal{D}$ ：偏好轨迹对的集合。
$\beta > 0$ ：控制更新强度的标量系数。
$\sigma(\cdot)$ ：sigmoid 函数，将输入映射到 $(0, 1)$ 之间，用于将对数概率比转化为一个概率。

这个目标函数鼓励当前策略 $\pi_{\theta}$ 增加对偏好轨迹 $\tau_w$ 的概率，同时减少对非偏好轨迹 $\tau_l$ 的概率，从而直接学习到偏好。

4.1.2. 逐步 DPO (DPO-step) 损失

在 BC 训练中，由于关注于从每个状态-行动对 (state-action pair) 中学习，SABR 将原始 DPO 损失改编为逐步 (step-wise) 形式：

$\mathcal { L } _ { \mathrm { DPO-step } } ( \theta ) = - \mathbb { E } _ { ( s , a ^ { w } , a ^ { l } ) \sim \mathcal { D } } \Big [ \log \sigma \Big ( \beta \cdot \Big [ \log \frac { \pi _ { \theta } \left( a ^ { w } \mid s \right) } { \pi _ { \mathrm { r e f } } \left( a ^ { w } \mid s \right) } - \log \frac { \pi _ { \theta } \left( a ^ { l } \mid s \right) } { \pi _ { \mathrm { r e f } } \left( a ^ { l } \mid s \right) } \Big ] \Big ) \Big ]$

其中：

$(s, a^w, a^l) \sim \mathcal{D}$ ：采样的状态-行动对，其中 $s$ 是状态， $a^w$ 是专家 (preferred) 行动， $a^l$ 是一个较不偏好 (less preferred) 的备选行动（例如，随机采样获得）。
$\pi_{\theta}(a^w|s)$ ：在当前模型 $\pi_{\theta}$ 下，给定状态 $s$ 时采取专家行动 $a^w$ 的概率。
$\pi_{\mathrm{ref}}(a^w|s)$ ：在参考模型 $\pi_{\mathrm{ref}}$ 下，给定状态 $s$ 时采取专家行动 $a^w$ 的概率。

这个损失函数鼓励模型在每个步骤中，增加专家行动相对于较不偏好行动的偏好差距，从而使模型学习到更稳定的 ABR 策略。

4.1.3. BC 预训练算法流程

BC 训练过程遵循 DAGGER 算法 [14] 的设计思想。

算法 1：使用 DPO 进行 BC 预训练

输入:
- 初始模型 $\pi_{\theta}$ (Initial model)
- BEAM_SEARCH_POLICY (用于生成专家行动的策略)
- ABR 模拟器 (ABR simulator)
- N_pretrain：预训练迭代次数 (Iteration)
- T_pretrain：每次迭代的 rollout 步数 (rollout step)
- E_pretrain：每次预训练迭代的 epoch 数
- m_pretrain：预训练阶段的 mini-batch 大小
初始化:
- $\pi_{\mathrm{ref}}$ ：参考模型，通常是 $\pi_{\theta}$ 的一个冻结副本。
- $B$ ：空缓冲区 (buffer)，用于存储训练样本。
- 从 ABR 模拟器获取初始状态 $s_1$ 。
主循环 (Main Loop) -- 迭代 N_pretrain 次:
- Rollout 循环 -- 迭代 T_pretrain 步:
  - 从当前模型 $\pi_{\theta}$ 中选择行动 $a_t \sim \pi_{\theta}(\cdot|s_t)$ 。
  - 使用 BEAM_SEARCH_POLICY (专家策略) 为当前状态 $s_t$ 生成专家行动 $a_t^w$ 。这里的 BEAM_SEARCH_POLICY 遵循 Comyco [8], [15] 的实现。
  - 随机选择一个不同于 $a_t^w$ 的备选行动 $a_t^l$ 。
  - 将样本 $(s_t, a_t^w, a_t^l)$ 追加到缓冲区 $B$ 中。
  - 在 ABR 模拟器中执行行动 $a_t$ ，获得下一个状态 $s_{t+1}$ 。
- 训练循环 -- 迭代 E_pretrain 次:
  - 从缓冲区 $B$ 中采样大小为 m_pretrain 的 mini-batch $\hat{B}$ 。
  - 使用 DPO 损失（公式 2）更新模型 $\pi_{\theta}$ 的参数。
输出: 预训练好的基础模型 $\pi_{\theta}$ 。

通过这个过程，DPO-based BC 能够有效地从专家演示中学习，为后续的 RL 微调提供一个性能稳定且具有一定控制能力的基础模型。

4.2. RL 微调与 PPO

仅凭 BC 训练会受限于专家策略的分布，缺乏探索更广阔策略空间的能力。为了提高模型在复杂网络环境中的泛化能力，SABR 对 BC 预训练得到的基础模型进行 RL 微调，采用的是近端策略优化 (Proximal Policy Optimization, PPO) 算法。PPO 是一种基于策略梯度 (policy-gradient) 的 RL 方法，通过限制迭代间策略更新的幅度，以防止训练不稳定和性能崩溃，在连续 [16] 和离散任务 [17] 中都表现出强大的稳定性和样本效率。

4.2.1. PPO 目标函数

PPO 算法包含一个行动者网络 (actor network) $\pi_{\theta}$ 和一个评论者网络 (critic network) $V_{\phi}$ 。

行动者损失 (Actor Loss)： 行动者网络的目标通过行动者损失 (Actor Loss) 来形式化：

$L ^ { \operatorname { A c t o r } } ( \theta ) = \mathbb { E } _ { t } \Big [ \operatorname* { m i n } \big ( r _ { t } ( \theta ) A _ { t } , \operatorname { c l i p } ( r _ { t } ( \theta ) , 1 - \epsilon , 1 + \epsilon ) A _ { t } \big ) \Big ]$

其中：

$L^{\mathrm{Actor}}(\theta)$ ：行动者网络的损失函数，用于更新策略参数 $\theta$ 。
$\mathbb{E}_t[\cdot]$ ：表示对时间步 $t$ 的期望。
$\operatorname{min}(\cdot, \cdot)$ ：取两个参数中的最小值。
$A_t$ ：在时间步 $t$ 的优势估计 (advantage estimate)。优势函数 $A_t$ 通常使用广义优势估计 (Generalized Advantage Estimation, GAE) [18] 计算，它反映了指导策略改进的奖励信息。 $A_t$ 衡量了在给定状态下采取某个行动相对于平均水平的优势。
$\operatorname{clip}(x, \text{lower}, \text{upper})$ ：裁剪函数，将 $x$ 的值限制在 $[\text{lower}, \text{upper}]$ 范围内。
$\epsilon$ ：裁剪阈值 (clipping threshold)，控制新旧策略之间允许的最大偏差。
$r_t(\theta)$ ：当前行动者网络 $\pi_{\theta}(a_t|s_t)$ 与旧行动者网络 $\pi_{\theta_{old}}(a_t|s_t)$ 之间的概率比，定义为：

$r _ { t } ( \theta ) = { \frac { \pi _ { \theta } ( a _ { t } \mid s _ { t } ) } { \pi _ { \theta _ { \mathrm { o l d } } } ( a _ { t } \mid s _ { t } ) } }$ 其中， $\pi_{\theta_{old}}(a_t|s_t)$ 是上一次迭代的策略参数，用于计算概率比。这个比率确保了策略更新不会过于激进，从而维持训练稳定性。

完整的 PPO 目标函数： 完整的 PPO 目标函数结合了行动者损失、评论者损失和熵正则化项 (entropy regularization term)：

$L ^ { \mathrm { PPO } } ( \theta ) = \mathbb { E } _ { t } \Big [ L ^ { \mathrm { A c t o r } } ( \theta ) - c _ { 1 } \big ( V _ { \phi } ( s _ { t } ) - V _ { t } ^ { \mathrm { t a r g e t } } \big ) ^ { 2 } + c _ { 2 } S [ \pi _ { \theta } ] ( s _ { t } ) \Big ]$

其中：

$V_{\phi}(s_t)$ ：评论者网络 $V_{\phi}$ 预测的状态值。
$(V_{\phi}(s_t) - V_t^{\mathrm{target}})^2$ ：评论者损失 (critic loss)，其中 $V_t^{\mathrm{target}}$ 是目标值 (target value)，用于更新评论者网络参数 $\phi$ 。
$S[\pi_{\theta}](s_t)$ ：熵正则化项，鼓励策略进行探索 (exploration)，避免陷入局部最优。
$c_1$ 和 $c_2$ ：评论者损失和熵正则化项的权重系数。

4.2.2. PPO 微调算法流程

算法 2：使用 PPO 进行 RL 微调

输入:
- 行动者网络 $\pi_{\theta}$ (从基础模型初始化)
- 评论者网络 $V_{\phi}$
- ABR 模拟器
- N_finetune：微调迭代次数
- T_finetune：每次迭代的 rollout 步数 (每环境)
- E_finetune：PPO 每次更新的 epoch 数
- m_finetune：微调阶段的 mini-batch 大小
- $\epsilon$ ：裁剪参数
- $\gamma$ ：折扣因子 (discount factor)
- $\lambda$ ：GAE 参数
- $c_1$ ：评论者损失系数
- $c_2$ ：熵系数
初始化:
- $B$ ：空缓冲区
- 从 ABR 模拟器获取初始状态 $s_1$ 。
主循环 (Main Loop) -- 迭代 N_finetune 次:
- Rollout 循环 -- 迭代 T_finetune 步:
  - 从行动者网络 $\pi_{\theta}$ 中选择行动 $a_t \sim \pi_{\theta}(\cdot|s_t)$ 。
  - 在 ABR 模拟器中执行行动 $a_t$ ，获得奖励 $r_t$ 和下一个状态 $s_{t+1}$ 。
  - 将转换 $(s_t, a_t, r_t, s_{t+1})$ 追加到缓冲区 $B$ 中。
- 计算优势和目标值:
  - 对于缓冲区 $B$ 中的所有转换，计算 $\hat{V}_t = V_{\phi}(s_t)$ 和 $\hat{V}_{t+1} = V_{\phi}(s_{t+1})$ 。
  - 计算 TD 误差 $\delta_t = r_t + \gamma \hat{V}_{t+1} - \hat{V}_t$ 。
  - 使用 GAE 计算优势 $\hat{A}_t$ ，参数为 $(\gamma, \lambda)$ 。
  - 设置评论者更新的目标值 $V_t^{\mathrm{target}} = \hat{V}_t + \hat{A}_t$ 。
  - 将每个转换扩充为 $\{ (s_t, a_t, r_t, s_{t+1}, \hat{A}_t, V_t^{\mathrm{target}}) \}$ 。
- 训练循环 -- 迭代 E_finetune 次:
  - 从缓冲区 $B$ 中采样大小为 m_finetune 的 mini-batch $\hat{B}$ 。
  - 使用完整的 PPO 目标函数（公式 5）更新参数 $\theta$ 和 $\phi$ 。
- 清理和更新:
  - 清空缓冲区 $B$ 。
  - 将当前策略 $\pi_{\theta}$ 复制给旧策略 $\pi_{\theta_{old}}$ ，为下一次迭代做准备。
输出: 微调后的模型 $\pi_{\theta}$ 。

通过这种两阶段的方法，SABR 旨在结合 BC 的稳定学习能力和 RL 的探索能力，从而在广泛且未知的网络条件下实现更优异的 ABR 性能。

5. 实验设置

5.1. 数据集

SABR 框架发布了两个新的基准测试：ABRBench-3G 和 ABRBench-4G+。每个基准测试都包含视频内容和网络轨迹。网络轨迹是从公开可用的网络轨迹集（如 Lumos 4G/5G [19], [20] 和 FCC [6], [21], [22]）中重新组织和整理得到的。每个基准测试包含多个轨迹集，以确保广泛的网络条件覆盖。

在每个基准测试中，轨迹被划分为训练集 (training)、测试集 (testing) 和分布外 (Out-of-Distribution, OOD) 集。训练集和测试集是通过按比例分割每个轨迹集创建的。例如，在 FCC18 中，75% 的轨迹分配给训练集，剩余的 30% 用于测试。OOD 集也用于评估模型性能，但与测试集不同，它专门用于评估模型对未知分布的泛化能力。因此，OOD 集中包含的轨迹集不会在其他集合中分割或重复使用。

训练时，模型在整个训练集上进行训练，所有轨迹随机打乱。评估时，则对测试集和 OOD 集中的每个轨迹集单独进行。这种细粒度 (granularity) 的评估方式非常重要，因为某些轨迹集（例如，高带宽的轨迹集）可能会扭曲整体平均 QoE，并掩盖在其他带宽条件下的性能。

以下是 ABRBench-3G 和 ABRBench-4G+ 的轨迹统计信息：

以下是原文 Table I 的结果：

Group	Trace Set	Count	Range (Mbps)
Training	Same with test	1828	0.00 ~ 45.38
Test	FCC-16 [6], [21], [22]	69	0.00 ~ 8.95
	FCC-18 [23], [24]	100	0.00 ~ 41.76
	Oboe [25], [26]	100	0.16 ~ 9.01
	Puffer-21 [26], [27]	100	0.00 ~ 25.14
	Puffer-22 [26], [27]	100	0.00 ~ 9.29
OOD	HSR [24]	34	0.00 ~ 44.68

表 I 所示为 ABRBench-3G 的轨迹统计数据。训练集包含 1828 条轨迹，带宽范围从 0.00 到 45.38 Mbps。测试集则由 FCC-16、FCC-18、Oboe、Puffer-21 和 Puffer-22 组成，覆盖了不同数量的轨迹和带宽范围。OOD 集专门使用 HSR 轨迹集，包含 34 条轨迹，带宽范围为 0.00 到 44.68 Mbps。

以下是原文 Table II 的结果：

Group	Trace Set	Count	Range (Mbps)
Training	Same with test	262	0.00 ~ 1890.00
Test	Lumos 4G [19], [20]	53	0.00 ~ 270.00
	Lumos 5G [19], [20]	37	0.00 ~ 1920.00
	Solis Wi-Fi [28]	24	0.00 ~ 124.00
OOD	Ghent [24]	40	0.00 ~ 110.97
OOD	Lab [24]	61	0.16 ~∼ 175.91

表 II 所示为 ABRBench-4G+ 的轨迹统计数据。训练集包含 262 条轨迹，带宽范围从 0.00 到 1890.00 Mbps，覆盖了更高的带宽。测试集由 Lumos 4G、Lumos 5G 和 Solis Wi-Fi 组成。OOD 集则使用 Ghent 和 Lab 轨迹集，分别包含 40 和 61 条轨迹，带宽范围也较为广泛。

视频内容方面，ABRBench-3G 使用 Envivio-Dash3 [29] 视频，其可用码率集 $R^{3G}$ 为： $R ^ { 3 G } = \left\{ 300, 750, 1200, 1850, 2850, 4300 \right\}$ 而 ABRBench-4G+ 使用 Big Buck Bunny [30] 视频，其可用码率集 $R^{4G+}$ 为： $R ^ { 4 G + } = \left\{ 1000, 2500, 5000, 8000, 16000, 40000 \right\}$ 所有实验都在包含 49 个视频块的视频上进行，每个视频块持续 4 秒。

5.2. 评估指标

性能评估主要使用用户体验质量 (QoE) 指标。QoE 的计算公式如下：

$QoE = \sum _ { n = 1 } ^ { N } q ( R _ { n } ) - \delta \sum _ { n = 1 } ^ { N - 1 } \left| q ( R _ { n + 1 } ) - q ( R _ { n } ) \right| - \mu \sum _ { n = 1 } ^ { N } T _ { n }$

其中：

$N$ ：视频块的总数。
$R_n$ ：第 $n$ 个视频块的码率 (bitrate)。
$q(R_n)$ ：将码率 $R_n$ 映射到相应质量得分的函数。
$T_n$ ：在第 $n$ 步发生的卡顿时间 (rebuffering time)。
$\delta$ ：平滑度惩罚系数 (smoothness penalty coefficient)，用于惩罚码率频繁或剧烈变化。
$\mu$ ：卡顿惩罚系数 (rebuffering penalty coefficient)，用于惩罚视频卡顿。

根据之前的工作 [6], [8], [34]，本文采用 $q(R_n) = R_n$ ，其中 $R_n \in R^{3G}$ 或 $R^{4G+}$ 。具体参数设置如下：
$N = 49$ 。
$\delta = 1$ 。
ABRBench-3G 的 $\mu = 4.3$ 。
ABRBench-4G+ 的 $\mu = 40$ 。

此外，为了综合评估算法在多个轨迹集上的表现，本文还计算了每个算法的平均排名 (average rank)。形式上，假设 $r_{i,j}$ 表示算法 $i$ 在轨迹集 $j$ 上的排名， $M$ 是基准测试中轨迹集总数，则算法 $i$ 的平均排名定义为：

$\operatorname { AveRank } ( i ) = \frac { 1 } { M } \sum _ { j = 1 } ^ { M } r _ { i , j }$

较低的平均排名表示更好的整体性能。

5.3. 对比基线

为了全面评估 SABR 的性能，本文将其与多种现有 ABR 算法进行比较，包括传统方法和基于学习的方法：

Buffer-Based (BB): 一种简单的启发式 (heuristic) 算法，根据缓冲区占用率调整码率，以减少卡顿。
BOLA [35]: 使用李雅普诺夫优化 (Lyapunov optimization) 来选择码率，仅考虑缓冲区占用观察。
RobustMPC [34]: MPC 方法的扩展，通过预测未来 5 个视频块来最大化给定的 QoE 指标。
QUETRA [36]: 一种排队论 (queueing-theoretic) 算法，将 ABR 任务建模为 $M/D/1/K$ 系统，根据预期缓冲区占用率做出码率决策。
Pensieve [6]: 一种基于 RL 的 ABR 方法，使用 A3C 训练策略网络以最大化 QoE 奖励。
Comyco [8]: 一种基于学习的 ABR 方法，采用模仿学习从 MPC 生成的专家轨迹中训练策略。
NetLLM [12]: 通过将大语言模型 (LLM) 与参数高效微调 (LoRA) 和离线 RL 相结合，使其适应 ABR 等网络任务。

5.4. 实施细节

SABR 的马尔可夫决策过程 (Markov Decision Process) 中的状态 (state)、行动 (action)、奖励函数 (reward function) 和状态转移 (state transition) 与 Pensieve [6] 一致。ABR 模拟器遵循 Pensieve 的 Python 环境设计 [6]，但为了提高效率，使用了 $C++$ 实现 [8], [15]。除了 $C++$ 模拟器，所有其他组件都用 Python 实现。

BC 预训练在 PyTorch [31] 中实现，而 RL 微调则基于 $StableBaselines3 (SB3)$ [32] 的 PPO 算法。训练期间，利用 SB3 的 Vector Environment 模块实现并行样本收集，以提高训练效率，并行环境数量设置为 4。

在 Pensieve [6] 和 Comyco [8] 的实现中，输入特征表示为一个 6x8 矩阵。在本文的实现中，将此矩阵展平为 48 维向量。行动者网络 $\pi_{\theta}$ （基础模型）采用全连接网络结构：[48, tanh, 64, tanh, 64, 6]。评论者网络 $V_{\phi}$ 设计为：[48, tanh, 64, tanh, 64, 1]。这两个网络不共享参数。DPO 和 PPO 训练都采用 Adam 优化器 [33]。

SABR 的超参数设置如下表所示：

以下是原文 Table III 的结果：

Symbol	Description	Value
DPO parameters
Npretrain	Iteration (DPO)	15
Epretrain	Epochs per pretraining iteration	5
Tpretrain	Rollout steps per iteration	2000
mpretrain	Mini-batch size (pretraining)	128
αpretrain	DPO learning rate	3e-4
β	DPO update scale	0.1
PPO parameters
Nfinetune	Iteration (PPO)	244
Efinetune	PPO epochs per update	10
Tfinetune	Rollout steps per environment	512
Mfinetune	Mini-batch size (fine-tuning)	64
αfinetune	PPO learning rate	3e-4
e	Clipping threshold	0.2
γ	Discount factor	0.99
λ	GAE parameter	0.95
c1	Coefficient of critic loss	0.5
c2	Coefficient of entropy	0.0
Other parameters
Lbeam	Beam search future horizon	5
Kmax	Beam search maximum beam	5000

表 III 详细列出了 SABR 框架中 DPO 和 PPO 算法以及其他相关参数的超参数设置。这些参数的精细调整对于模型的训练稳定性和性能至关重要。

6. 实验结果与分析

每个算法执行 10 次，并报告平均性能。对于基于学习的方法 (SABR、Pensieve、Comyco 和 NetLLM)，每个结果是通过训练 10 个独立的模型获得的，报告的性能是所有模型在测试运行中的平均值。

6.1. 核心结果分析

为了评估模型的泛化能力，本文在 ABRBench-3G 和 ABRBench-4G+ 的测试集上对不同方法进行了比较。基于学习的模型在相应的基准训练集上进行训练，然后进行测试。

以下是原文 Table IV 的结果：

Algorithm	FCC-16	FCC-18	Oboe	Puffer-21	Puffer-22	Ave Rank
BB	25.37	131.54	82.74	-6.05	13.28	7.2
BOLA	32.51	123.42	81.02	38.35	30.99	6.0
QUETRA	33.91	122.25	82.84	42.48	36.89	4.4
RobustMPC	36.56	143.30	96.14	34.13	36.90	3.4
Pensieve	34.50	134.39	90.92	38.94	35.23	3.8
Comyco	32.10	143.89	96.23	-4.09	31.34	4.8
NetLLM	21.92	141.91	97.39	37.55	33.73	4.6
SABR	36.68	145.18	99.68	36.05	40.05	1.8

表 IV 展示了 ABRBench-3G 测试集上的 QoE 性能比较。

SABR 在 FCC-16、FCC-18、Oboe 和 Puffer-22 上取得了最佳 QoE 性能。
尽管 SABR 在 Puffer-21 上表现略低于 QUETRA 和 Pensieve，但在其他大部分轨迹集上都表现出色，并且以 1.8 的最低平均排名显著优于所有其他方法。这表明 SABR 在 3G 网络环境下具有卓越的泛化能力和鲁棒性。
传统方法 RobustMPC 表现不俗，平均排名为 3.4。
Pensieve 和 Comyco 等基于学习的方法表现参差不齐，Comyco 在 Puffer-21 上甚至出现负 QoE，这可能意味着在该特定轨迹集上性能非常差（高卡顿或低码率）。

NetLLM 的表现也未能超越 SABR。

以下是原文 Table V 的结果：

Algorithm	Lumos 4G	Lumos 5G	Solis Wi-Fi	Ave Rank
BB	1255.91	1726.66	429.34	5.0
BOLA	1200.05	1614.40	477.08	5.0
QUETRA	754.43	992.74	421.58	7.7
RobustMPC	1283.05	1696.77	589.64	3.0
Pensieve	1160.76	1828.24	447.84	5.0
Comyco	1285.43	1835.42	552.55	2.0
NetLLM	672.35	1510.35	474.15	6.7
SABR	1309.65	1832.14	576.33	1.7

表 V 展示了 ABRBench-4G+ 测试集上的 QoE 性能比较。

SABR 在 Lumos 4G 上取得了最高的 QoE。
在 Lumos 5G 上，SABR 略低于 Comyco，但在 Solis Wi-Fi 上也仅略低于 RobustMPC。
总体而言，SABR 以 1.7 的平均排名再次位居所有方法之首，紧随其后的是 Comyco (2.0) 和 RobustMPC (3.0)。这表明 SABR 在更高速率的 $4G+$ 网络环境下也保持了强大的整体性能和鲁棒性。
QUETRA 和 NetLLM 在 ABRBench-4G+ 上的表现相对较差。

综合两个基准测试的结果，SABR 在多样化的网络条件下都取得了最低的平均排名，这强有力地证明了其卓越的整体性能和在不同网络环境下的鲁棒性。

6.2. 评估 OOD 数据集

为了评估模型在未知分布下的泛化性能，本文在 ABRBench-3G 的 OOD 数据集 (HSR) 和 ABRBench-4G+ 的 OOD 数据集 (Ghent 和 Lab) 上进行了比较。基于学习的模型在相应的基准训练集上训练，然后进行测试。

以下是原文 Table VI 的结果：

Algorithm	HSR	Ghent	Lab	Ave Rank
BB	138.86	834.30	1429.22	4.3
BOLA	137.02	912.39	1342.63	5.0
QUETRA	132.56	566.61	965.94	7.0
RobustMPC	122.37	1075.17	1527.84	4.0
Pensieve	137.82	652.45	1508.43	4.7
Comyco	130.22	963.94	1595.09	3.7
NetLLM	129.25	1035.09	1307.49	5.3
SABR	142.20	1023.56	1561.18	2.0

表 VI 展示了 OOD 数据集上的 QoE 性能比较。

SABR 在 HSR 轨迹集上取得了最佳 QoE (142.20)。
在 Ghent 轨迹集上，RobustMPC 表现最佳，但 SABR 紧随其后。
在 Lab 轨迹集上，Comyco 表现最佳，SABR 再次紧随其后。
SABR 最终获得了最低的平均排名 (2.0)，优于 Comyco (3.7)、RobustMPC (4.0) 和其他基线方法。这表明 SABR 在面对训练中从未见过的网络分布时，仍能保持强大的性能，展现出优异的泛化能力。

这些实验结果共同证实了 SABR 框架在广泛分布和未知网络条件下，相较于现有最先进的 ABR 方法，能够提供更稳定、更优越的性能和更好的泛化能力。

7. 总结与思考

7.1. 结论总结

本文提出了 SABR，一个由行为克隆 (Behavior Cloning, BC) 预训练和强化学习 (Reinforcement Learning, RL) 微调组成的两阶段框架。该框架旨在提高广分布数据下的稳定性和训练效率。在预训练阶段，作者采用直接偏好优化 (Direct Preference Optimization, DPO) 从专家演示中学习，这为模型提供了对训练分布的初步理解并建立了基本的控制策略。随后的微调阶段则应用近端策略优化 (Proximal Policy Optimization, PPO) 进一步优化策略，增强对未知网络条件的泛化能力。此外，论文还贡献了 ABRBench-3G 和 ABRBench-4G+ 两个基准测试，用于评估模型在广分布数据和未知环境中的性能。实验结果表明，在这两个基准测试中，SABR 相较于 Pensieve、Comyco 和 NetLLM 等现有方法取得了最佳的平均排名，展现出更优越的泛化性能。

7.2. 局限性与未来工作

论文作者指出了未来的工作方向：计划扩展基准测试，加入更多的网络轨迹和视频内容，以提供更全面的 ABR 研究评估。

7.3. 个人启发与批判

7.3.1. 个人启发

“预训练+微调”范式的跨领域应用： SABR 最主要的启发是将大语言模型 (LLM) 领域成功的“预训练+微调”范式创造性地应用于 ABR 领域。这种策略有效地解决了传统 ABR 学习型方法在广分布数据下泛化能力不足和训练不稳定的问题。这表明，许多在特定领域（如 NLP、CV）被验证有效的高级机器学习范式，在经过适当改造后，可以在其他领域（如网络控制）发挥巨大潜力。
DPO 在模仿学习中的潜力： 将 DPO 算法从 LLM 的偏好对齐领域引入到 ABR 的行为克隆预训练中，并将其改编为逐步 (step-wise) 损失，是一个非常新颖且有效的尝试。DPO 避免了奖励模型的构建，直接从专家与非专家行为的对比中学习，这对于 ABR 这种难以精确定义奖励或收集人类偏好反馈的场景具有很强的借鉴意义。它可能为其他需要从示范中学习但缺乏明确奖励信号的控制任务提供新的思路。
基准测试的重要性： 论文引入的 ABRBench-3G 和 ABRBench-4G+ 以及专门的 OOD 测试集，对于推动 ABR 领域的发展至关重要。一个好的基准测试能够更真实地反映现实世界的挑战，并促进研究人员开发出更鲁棒和泛化能力更强的算法。这提醒我们，在很多应用领域，不仅仅是算法创新，高质量的数据集和评估标准也是同等重要的贡献。
结合不同 RL 算法的优势： BC 预训练提供了一个稳定的起点，避免了 RL 从头开始训练可能遇到的探索困难和不稳定性；而 PPO 微调则在此基础上进行探索和优化，使其超越专家性能并更好地适应未见过的环境。这种优势互补的设计思路在实际应用中非常值得借鉴。

7.3.2. 潜在问题、未经验证的假设或可以改进的地方

专家数据的依赖性： SABR 的 BC 预训练阶段高度依赖于专家数据 (BEAM_SEARCH_POLICY) 的质量。如果专家策略本身存在局限性或偏差，那么预训练出的基础模型也会继承这些问题，进而影响最终微调模型的性能上限。如何生成或获取更优质、更全面的专家数据是一个挑战。论文中提到 BEAM_SEARCH_POLICY 遵循 Comyco 的实现，但 Comyco 是模仿 MPC 专家，而 MPC 本身也可能无法完美应对所有复杂网络情况。
随机备选行动 ( $a_t^l$ ) 的选择： 在 DPO-step 损失中，备选行动 $a_t^l$ 是随机选择的。这种选择方式可能效率不高。如果 $a_t^l$ 总是与 $a_t^w$ 相差甚远或效果极差，模型可能很快学会区分，但如果需要更细致的偏好学习，选择一个“次优”但接近专家的行动作为 $a_t^l$ 可能会提供更丰富、更有区分度的信号，从而加速或优化学习过程。
计算成本： 尽管 BC 预训练通常比 RL 稳定，但两阶段训练，特别是涉及到大规模 rollout 和多个 epoch 的 PPO 微调，仍然具有显著的计算成本。在资源受限或需要快速迭代的实际部署中，这可能是一个考虑因素。
QoE 指标的普适性： 论文中使用的 QoE 指标 QoE = \sum q(R_n) - \delta \sum |q(R_{n+1}) - q(R_n)| - \mu \sum T_n 是业界常用的。然而，不同的用户群体对码率、平滑度和卡顿的偏好可能不同， $\delta$ 和 $\mu$ 的固定值可能无法普适所有场景。未来的工作可以探索如何使 QoE 评估更加个性化或自适应。
实际部署的复杂性： 论文在模拟器环境下验证了 SABR 的有效性。然而，从模拟器到真实世界部署往往存在“仿真-现实差距” (Sim-to-Real Gap)。实际网络环境的动态性、不可预测性以及与 CDN 基础设施、播放器缓冲策略的复杂交互，可能会引入新的挑战。模型在仿真中表现出的鲁棒性是否能完全迁移到真实世界中仍需进一步验证。
LLM 模型的进一步融合： NetLLM [12] 探索了 LLM 在网络任务中的应用。SABR 虽然借鉴了 LLM 的训练范式，但其内部模型仍是传统神经网络。未来是否可以将 LLM 的强大语言理解和推理能力更深层次地融合到 ABR 决策中，例如通过处理更复杂的文本描述性网络状态或用户反馈，可能是一个值得探索的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。