论文状态：已完成

Beyond Interpretability: Exploring the Comprehensibility of Adaptive Video Streaming through Large Language Models

发表：2025/08/22

自适应视频流技术 (1)大语言模型在视频流中的应用 (1)可解释性与可理解性 (1)决策树生成框架 (1)比特率适应算法 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

该论文介绍了一种名为`ComTree`的比特率适应算法生成框架，旨在提高自适应视频流的可理解性。通过生成符合性能要求的决策树集，并利用大语言模型评估其对开发人员的可理解性，本文展示了在保持竞争性性能的同时，显著提升了可理解性，具有进一步改进的潜力。

摘要

Over the past decade, adaptive video streaming technology has witnessed significant advancements, particularly driven by the rapid evolution of deep learning techniques. However, the black-box nature of deep learning algorithms presents challenges for developers in understanding decision-making processes and optimizing for specific application scenarios. Although existing research has enhanced algorithm interpretability through decision tree conversion, interpretability does not directly equate to developers' subjective comprehensibility. To address this challenge, we introduce \texttt{ComTree}, the first bitrate adaptation algorithm generation framework that considers comprehensibility. The framework initially generates the complete set of decision trees that meet performance requirements, then leverages large language models to evaluate these trees for developer comprehensibility, ultimately selecting solutions that best facilitate human understanding and enhancement. Experimental results demonstrate that \texttt{ComTree} significantly improves comprehensibility while maintaining competitive performance, showing potential for further advancement. The source code is available at https://github.com/thu-media/ComTree.

思维导图

论文精读

中文精读约 35 分钟读完 · 18,639 字

1. 论文基本信息

1.1. 标题

超越可解释性：通过大语言模型探索自适应视频流的可理解性 (Beyond Interpretability: Exploring the Comprehensibility of Adaptive Video Streaming through Large Language Models)

1.2. 作者

Lianchen Jia (贾连辰), Chaoyang Li (李朝阳), Ziqi Yuan (袁子奇), Jiahui Chen (陈嘉慧), Tianchi Huang (黄天赐), Lifeng Sun (孙立峰)
- 所属机构: 清华大学计算机科学与技术系 (Department of Computer Science and Technology, Tsinghua University), 北京国家信息科学与技术研究中心 (Beijing National Research Center for Information Science and Technology)
Jiangchuan Liu (刘江川)
- 所属机构: 西蒙弗雷泽大学计算科学学院 (School of Computing Science, Simon Fraser University)

1.3. 发表期刊/会议

第 33 届 ACM 国际多媒体会议 (Proceedings of the 33rd ACM International Conference on Multimedia, MM '25)

1.4. 发表年份

2025年

1.5. 摘要

在过去的十年中，自适应视频流 (Adaptive Video Streaming) 技术取得了显著进展，这主要得益于深度学习 (Deep Learning) 技术的快速发展。然而，深度学习算法的黑盒性质给开发人员理解决策过程和针对特定应用场景进行优化带来了挑战。尽管现有研究通过决策树 (Decision Tree) 转换增强了算法的可解释性 (Interpretability)，但可解释性并不直接等同于开发人员的主观可理解性 (Comprehensibility)。为了应对这一挑战，本文引入了 ComTree，这是第一个考虑可理解性的比特率适应算法生成框架。该框架首先生成满足性能要求的完整决策树集（即拉沙蒙集），然后利用大语言模型 (Large Language Models, LLMs) 评估这些决策树的开发人员可理解性，最终选择最有利于人类理解和增强的解决方案。实验结果表明，ComTree 在保持竞争性性能的同时显著提高了可理解性，显示出进一步改进的潜力。

1.6. 原文链接

预印本链接 (arXiv): https://arxiv.org/abs/2508.16448
PDF 链接: https://arxiv.org/pdf/2508.16448v1.pdf
发布状态: 预印本 (arXiv preprint), 将于 MM '25 (2025年10月27-31日) 发表。

2. 整体概括

2.1. 研究背景与动机

自适应视频流 (Adaptive Video Streaming, ABR) 的重要性与发展: 随着网络技术和内容创作的进步，视频已成为人们日常生活中不可或缺的一部分，占据了大量的网络流量。ABR 作为提升用户体验质量 (Quality of Experience, QoE) 的主流技术，经过十余年的发展，从传统的启发式算法演进到基于深度学习的算法。
深度学习的“黑盒”挑战: 深度学习算法虽然在 ABR 领域取得了显著性能提升，但其固有的“黑盒”性质使得开发人员难以理解算法的内部决策逻辑。这种不透明性在生产环境中带来了优化和调试的困难。
现有可解释性 (Interpretability) 研究的局限: 为了解决黑盒问题，一些研究尝试通过将黑盒模型转换为决策树等白盒模型来增强可解释性。然而，论文指出，仅仅实现“可解释”并不等同于开发人员能够真正“理解”和“优化”算法。例如，复杂的决策树结构（如过多的节点、深度、特征）即使是白盒，也可能难以被人类开发者完全掌握和调整。
“可理解性 (Comprehensibility)”的缺失与必要性: 论文强调，对于需要持续迭代和维护的工程系统，算法的可理解性——即开发人员能够理解其整体设计逻辑并进行有效调整和优化——至关重要。这是现有可解释性方法未能充分解决的空白。
挑战:
1. 如何在不显著损害性能的前提下提高算法的可理解性。
2. 如何客观地定义和评估算法的“可理解性”，因为这本质上是一个主观指标。

2.2. 核心贡献/主要发现

揭示当前自适应视频流方法在可理解性方面的局限性: 通过实验验证了现有可解释 ABR 方法（如 Pitree）在复杂决策逻辑和跨网络环境适应性方面的不足，并强调了提高可理解性的重要性。
提出 ComTree 框架: 首次将“可理解性”引入自适应视频流算法的生成过程。ComTree 框架旨在生成既具备高性能又易于开发人员理解和优化的 ABR 算法。
创新性地结合拉沙蒙集 (Rashomon Set) 和大语言模型 (LLMs):
- 利用拉沙蒙集构建技术，生成一组性能相近但结构各异的决策树，为可理解性选择提供了基础。
- 开创性地使用 LLMs 作为评估者，利用其类人理解能力对拉沙蒙集中的决策树进行可理解性评估，从而克服了传统主观评估的成本和复杂性。
实验验证 ComTree 的有效性:
- 证明 ComTree 生成的算法在保持竞争性性能的同时，显著提高了可理解性。与现有研究相比，ComTree 在节点数量大幅减少的情况下，仍能实现更好的性能。
- 实验结果表明，ComTree 生成的算法具备更大的工程师优化潜力，尤其是在面对与训练环境显著不同的新网络条件时。
- 通过对 LLM 评估过程的分析，展示了 LLM 在评估一致性和判断依据方面的合理性。

3. 预备知识与相关工作

3.1. 基础概念

自适应比特率 (Adaptive Bitrate, ABR): 是一种视频流技术，根据用户的网络带宽、设备能力和播放器缓冲区的实时情况，动态调整视频的质量级别（即比特率）。ABR 算法的目标是最大化用户体验质量 (QoE)，同时最小化卡顿 (stalling) 和质量切换。
体验质量 (Quality of Experience, QoE): 是用户对视频流服务的主观满意度衡量。它通常由多个客观指标组合而成，例如视频质量、卡顿时长、质量平滑度（质量切换的频率和幅度）等。论文中使用了 $QoE_{lin}$ 和 $QoE_{hd}$ 两种指标。
深度学习 (Deep Learning): 机器学习的一个分支，通过构建多层神经网络（即深度神经网络）来从数据中学习复杂的模式和表示。在 ABR 领域，深度学习算法（如强化学习）可以自动学习复杂的比特率适应策略。
“黑盒”模型 (Black-box Model): 指那些内部工作机制不透明、难以被人类理解的模型，例如深度神经网络。尽管它们能取得高性能，但其决策过程对于开发人员来说是不可见的，这给调试、优化和信任带来了挑战。
可解释性 (Interpretability): 关注于模型的决策过程是否透明，即“模型是如何做出这个决策的？”。例如，将一个黑盒模型转换成一个规则集合或决策树，使得每一步决策都有明确的路径可循。
可理解性 (Comprehensibility): 比可解释性更高层次的目标，关注于人类用户（特别是开发人员）能否理解模型的整体设计逻辑和意图，即“模型为什么是这样设计的？”。一个可理解的模型不仅决策透明，而且结构简洁、逻辑清晰，便于人类进行修改和优化。论文指出，可解释性是可理解性的基础，但并非所有可解释的模型都具有高可理解性。
决策树 (Decision Tree): 是一种树状结构的机器学习模型，用于分类或回归任务。它通过一系列基于特征值的决策规则（节点）来预测目标变量。每个内部节点代表一个特征上的测试，每个分支代表测试的一个结果，每个叶节点代表一个类别标签或数值。决策树是白盒模型，具有天然的可解释性。
拉沙蒙集 (Rashomon Set): 源自统计学概念，指一组具有相似预测性能但内部结构可能截然不同的模型。在本文中，它指的是一组在性能上满足一定要求但决策树结构各异的 ABR 决策树。从拉沙蒙集中选择最可理解的模型是 ComTree 的关键一步。
大语言模型 (Large Language Models, LLMs): 基于大规模文本数据训练的深度学习模型，能够理解、生成和处理人类语言。LLMs 在各种自然语言处理任务中展现出强大的能力，包括理解复杂文本、推理和模拟人类行为。本文利用 LLMs 模拟开发人员对决策树可理解性进行主观评估。
教师-学生学习 (Teacher-Student Learning): 也称为模型蒸馏 (Model Distillation)，是一种训练范式，其中一个大型、复杂的模型（教师模型）的知识被迁移到一个小型、简单的模型（学生模型）中。在本文中，一个高性能的黑盒 ABR 模型充当教师，指导学生决策树的训练，以从黑盒模型中提取出决策知识。
动态规划 (Dynamic Programming): 一种解决复杂问题的方法，通过将问题分解成更小的子问题，并存储子问题的解以避免重复计算。在决策树生成中，动态规划可以用于寻找最优树或满足特定条件的所有近似最优树。

3.2. 前人工作

传统启发式 ABR 算法: 如 BBA (Buffer-Based Adaptation) [19] 和 Bola [53] 等，通过建模播放过程来优化比特率适应，具有高可理解性，但适应复杂网络环境能力有限。RobustMPC [59] 是基于模型预测控制 (Model Predictive Control) 的启发式算法，试图平衡性能和预测能力。
深度学习 ABR 算法: Pensieve [32] 是基于深度强化学习 (Deep Reinforcement Learning) 的代表性算法，能够自动适应环境变化，但其决策过程是黑盒。Genet [56] 利用课程学习 (Curriculum Learning) 改善泛化能力。NetLLM [55] 尝试利用 LLMs 进行网络协议适应。
可解释性 ABR 算法: Pitree [36] 是一个重要的先行工作，它将黑盒 ABR 模型（如 Pensieve）转换为决策树，从而提高了算法的可解释性。然而，论文通过实验（图1）指出 Pitree 生成的决策树可能过于复杂，难以被开发人员真正理解和优化。
LLM 在行为模拟中的应用: 论文引用了多项研究 [2, 21, 43]，表明 LLMs 能够模拟人类行为和主观感知评估，这为本文利用 LLMs 评估可理解性提供了理论基础。
生成拉沙蒙集的方法: TreeFarms [57] 和 GOSDT [30] 是用于生成近似最优决策树集合（拉沙蒙集）的动态规划算法，本文的方法论中借鉴了这些技术。

3.3. 技术演进与差异化分析

ABR 算法的演进经历了三个主要阶段：

启发式算法: 如 BBA、RobustMPC。特点是规则清晰，可理解性高，但泛化能力和性能受限。
深度学习算法: 如 Pensieve。特点是性能优异，泛化能力强，但决策过程是“黑盒”，可理解性差。
可解释性深度学习算法: 如 Pitree。通过将黑盒模型转换为白盒（决策树），提高了可解释性。然而，论文强调，虽然决策树是白盒，但如果过于庞大复杂，其“可理解性”仍然不足，即开发人员难以有效修改和优化。

ComTree 的差异化与创新点: ComTree 正是针对第三阶段的不足而提出的。它超越了仅仅追求“可解释性”的目标，进一步提出了“可理解性”的概念，并将其作为优化目标。

目标不同: 传统的 ABR 算法主要追求 QoE 性能。Pitree 追求将黑盒变为可解释的白盒。ComTree 则追求在保持高性能的同时，使算法具有高可理解性，以便开发人员能够更轻松地理解、修改和优化。
方法创新:
- 拉沙蒙集: 通过生成一个性能相似但结构多样的决策树集合，为可理解性评估提供了选择空间。这比仅仅生成一个“最优”但可能复杂的决策树更具优势。
- LLM 评估: 创新性地利用 LLM 的类人理解和推理能力，自动化地、大规模地评估决策树的可理解性，解决了主观评价成本高、难度大的问题。这使得“可理解性”这一主观指标能够被量化和优化。
最终效果: ComTree 旨在找到结构更简洁、逻辑更清晰、更符合开发人员直觉的决策树，从而真正赋能开发人员，提高算法在面对新环境时的适应性和优化潜力。这在附录 B 中被进一步讨论为平衡性能和可理解性的一个新方向。

4. 方法论

ComTree 框架旨在生成既具备高性能又易于开发人员理解和优化的自适应比特率 (ABR) 算法。其核心思想分为两个主要阶段：首先构建一个包含性能相近的异构决策树的拉沙蒙集，然后利用大语言模型 (LLMs) 对这些决策树进行可理解性评估，最终选择最适合人类理解和增强的解决方案。

4.1. 特征处理 (Feature Processing)

方法原理: 在生成决策树的拉沙蒙集时，通常会使用动态规划 (Dynamic Programming) 算法来寻找最优树。然而，ABR 领域的状态空间庞大，包含大量的特征。动态规划算法的计算复杂度与特征数量呈阶乘关系，使得直接处理原始特征集变得不可行。为了解决这一挑战，ComTree 引入了特征处理阶段，旨在通过特征消除 (feature elimination) 的方法，显著减少特征编码的数量，从而降低动态规划的计算负担。

核心方法详解: 本文借鉴了从黑盒模型中获取知识的思想 [35]。具体步骤如下：

参考黑盒算法选择: 使用并行化的 XGBoost [8] 作为参考的黑盒算法。
初始集成树生成与特征重要性评估:
- 首先，使用原始数据集 ( $S$ , $A$ ) 训练一个初始的 XGBoost 集成树。
- 从这个初始模型中获取每个特征的重要性 (importance) 评分。
- 记录初始的准确率 (acc_ori)。
迭代特征消除:
- 设置一个重要性阈值 $δ$ (实验中设定为 1e-4)。
- 基于重要性阈值过滤: 过滤掉那些重要性低于 $δ$ 的特征。
- 基于最低重要性特征消除: 在剩余特征中，移除重要性最低的特征 (c_min)。
- 重新训练与准确率评估: 在移除特征后的数据集 (S_guess, $A$ ) 上重新训练 XGBoost 集成树，并获取新的准确率 (acc_new)。
- 迭代条件: 如果新的准确率 (acc_new) 不低于初始准确率 (acc_ori) 和参考准确率 (acc_rec) 中的最小值，则认为该特征可以被消除而不会显著影响准确率，继续迭代。
- 回退机制: 如果移除某个特征导致准确率不再满足要求，则该特征会被重新添加回数据集，防止过度消除。
  
  这个迭代过程的目标是，在保持模型准确率不显著下降的前提下，最大限度地减少特征数量。通过这种方法，可以将编码后的特征数量从高达 70 万个大幅减少到 40-60 个，这使得后续的动态规划算法在计算上变得可行。

Algorithm 2 详细描述了特征处理算法：

Algorithm 2: Feature Processing Algorithm

Input: state-action dataset (S, A), importance threshold δ, reference accuracy acc_rec
Output: new dataset (S_guess, A)

1  // Obtain initial accuracy and column importance
2  acc_ori, impote := Xgboost(S, A)
3  S_guess = S.copy, acc_new = acc_ori //init dataset
4  /*Column elimination while preserving accuracy
5  while acc_new >= min(acc_ori, acc_rec) and len(S_guess.column) > 1 do
6    // Column elimination based on importance threshold
7    S_guess = fliter_importance(S_guess, importance, δ)
8    // Column elimination based on least important columns
9    c_min = min(importance)
10   S_guess = S_guess.delete(c_min)
11   acc_new,importance = Xgboost(S_guess, A)
12 // Revert column elimination that degrades accuracy
13 if c_min != empty then
14   S_guess = S_guess.add(c_min)
15 return (Sguess, A)

符号解释:

$S$ : 原始的状态特征数据集。
$A$ : 对应的动作数据集。
$δ$ : 用于过滤特征重要性的阈值。
acc_rec: 参考准确率，用于确定特征消除的最低准确率要求。
S_guess: 经过特征消除后的状态特征数据集。
acc_ori: 初始 XGBoost 模型在原始数据集上的准确率。
impote: 初始 XGBoost 模型中各个特征的重要性评分。
acc_new: 在特征消除过程中，每次迭代后 XGBoost 模型在当前数据集上的新准确率。
min(importance): 找出当前特征集中重要性最低的特征。
c_min: 重要性最低的特征。
Xgboost(S, A): 一个函数，用于在给定数据集 ( $S$ , $A$ ) 上训练 XGBoost 模型并返回其准确率和特征重要性。
$fliter_importance(S_guess, importance, δ)$ : 一个函数，根据 $δ$ 过滤掉重要性低的特征。
S_guess.delete(c_min): 从 S_guess 中删除特征 c_min。
S_guess.add(c_min): 将特征 c_min 添加回 S_guess。

4.2. 拉沙蒙集生成 (Generate the Rashomon Set)

方法原理: 在特征处理之后，状态空间被大大简化，使得构建拉沙蒙集成为可能。拉沙蒙集是一组性能接近最优但结构可能不同的决策树。生成这样的集合对于后续的LLM可理解性评估至关重要，因为它提供了多种选择，可以在性能相近的前提下，寻找可理解性最佳的算法。这个过程包含两个核心部分：通过教师-学生学习框架生成符合实际播放概率的训练数据集，以及使用动态规划算法构建拉沙蒙集。

核心方法详解:

教师-学生学习框架构建数据集:
- 目的: 获取一个反映真实回放概率的训练数据集。这是因为直接从静态数据中训练出的决策树可能无法很好地泛化到动态的视频流环境。
- 过程:
  1. 使用初始的黑盒教师网络 ( $\pi^*$ ) 进行推演 (rollout)，生成初始数据集 ( $S$ , $A$ )。
  2. 使用这个数据集训练一个初始版本的学生决策树 ( $\pi_i$ )。
  3. 将学生决策树 ( $\pi_i$ ) 部署到一个模拟的视频播放环境中 [59]。
  4. 学生决策树在特定网络条件下与虚拟播放器交互，生成学生网络执行状态 ( $s_s$ ) 和动作 ( $a_s$ )。
  5. 交互完成后，将学生状态 ( $s_s$ ) 输入教师网络 ( $\pi^*$ )，教师网络生成教师动作 ( $a_t$ )。
  6. 将学生状态和教师动作对 ( $s_s, a_t$ ) 保存到数据集中。
  7. 在后续训练中，纠正之前的动作。这种方法避免了级联错误 (cascading errors)，并得到一个符合真实播放概率的状态-动作数据集。
- 这个迭代过程 (for i in [1, ..., M]) 确保了生成的数据集不仅具有多样性，而且能够反映真实环境下的决策情况。
通过 TreeFarms 生成拉沙蒙集:
- 背景: TreeFarms [57] 是一种基于 GOSDT (Generalized and scalable optimal sparse decision trees) [30] 的动态规划算法，能够高效地生成满足精度要求且具有稀疏性约束的决策树。
- 优化目标: GOSDT 的优化目标结合了误分类损失 (misclassification loss) 和叶节点数量的稀疏性惩罚，其表达式为： $obj = loss_{mis} + \lambda H_t$ 符号解释:
  - obj: 决策树的优化目标值。
  - $loss_{mis}$ : 决策树在给定数据集上的误分类损失。对于 ABR 场景，这可能指的是预测比特率与教师网络比特率的差异。
  - $\lambda$ : 正则化参数，用于平衡误分类损失和稀疏性（叶节点数量）。较大的 $\lambda$ 会鼓励生成更简单的树。
  - $H_t$ : 决策树 $t$ 的叶节点数量。
- 拉沙蒙集边界: 首先，通过 GOSDT 算法找到最优决策树的目标值 $obj_{opt}$ 。然后，根据预设的拉沙蒙集边界参数 $\epsilon$ 计算拉沙蒙集的阈值 $\theta_{\epsilon}$ ： $\theta_{\epsilon} = obj_{opt} * (1 + \epsilon)$ 符号解释:
  - $\theta_{\epsilon}$ : 拉沙蒙集的性能阈值。所有目标值 obj 小于或等于 $\theta_{\epsilon}$ 的决策树都被认为是拉沙蒙集的成员。
  - $obj_{opt}$ : 通过 GOSDT 算法找到的最优决策树的最小目标值。
  - $\epsilon$ : 一个超参数，定义了拉沙蒙集中决策树性能与最优树性能之间的允许误差范围。例如，如果 $\epsilon=0.05$ ，则拉沙蒙集中的树的性能可以比最优树差最多 5%。
- 生成过程: TreeFarms 在动态规划的每个子问题中，都会跟踪其目标值的上界和下界。只有那些目标下界小于或等于 $\theta_{\epsilon}$ 的子问题才会被保留。它将这些子问题及其边界存储在一个依赖图中，最终返回所有目标值在 $\theta_{\epsilon}$ 范围内的模型。
  
  Algorithm 3 详细描述了拉沙蒙集构建算法：

Algorithm 3: Rashomon Set Construction Algorithm

Input: ABR Algorithm π*, maximum iteration number M, regularization parameter λ, Rashomon set bounds parameter ε, max depth d
Output: Rashomon set R_set

1  /*Construct a dataset that conforms to real occurrence probabilities using the teacher-student learning framework
2  (S, A) = VirtualPlay(π*) //init dataset
3  for i in [1, ..., M] do
4    // Reduce feature number via column elimination
5    (S_guess, A) = Feature_Processing(S, A)
6    // Train decision tree via the reduced dataset
7    π_i = TrainDT(S_guess, A, d)
8    // Update dataset through the teacher-student learning
9    (S_s, A_s) = VirtualPlay(π_i)
10   A_t = Predict(π*, S_s)
11   (S, A) = (S, A) U (S_s, A_t)
12 /*Generate Rashomon set via TreeFarms
13 (S_guess, A) = Feature_Processing(S, A)
14 // Get the best decision tree via GOSDT algorithm
15 obj_opt = GOSDT(S_guess, A, λ, d)
16 // Set he threshold of the Rashomon set
17 θ_ε = obj_opt * (1 + ε)
18 // Generate Rashomon set via TreeFarms
19 R_set = TreeFarms(S_guess, A, λ, θ_ε, d)
20 return R_set

符号解释:

$\pi^*$ : 教师 ABR 算法（黑盒模型）。
$M$ : 教师-学生学习框架的最大迭代次数。
$λ$ : GOSDT 算法的正则化参数。
$ε$ : 拉沙蒙集边界参数。
$d$ : 决策树的最大深度。
R_set: 生成的拉沙蒙集。
(S, A): 状态-动作数据集。
$VirtualPlay(π)$ : 一个函数，模拟使用 ABR 算法 $\pi$ 进行视频播放，并记录状态-动作对。
Feature_Processing(S, A): 之前描述的特征处理算法，用于减少特征数量。
$TrainDT(S_guess, A, d)$ : 一个函数，使用处理后的数据集 (S_guess, $A$ ) 和最大深度 $d$ 训练决策树 $\pi_i$ 。
$(S_s, A_s)$ : 学生决策树 $\pi_i$ 在模拟环境中生成的学生状态和动作。
$Predict(π*, S_s)$ : 教师网络 $\pi^*$ 根据学生状态 $S_s$ 预测的教师动作 $A_t$ 。
$(S, A) U (S_s, A_t)$ : 将新生成的状态-动作对添加到数据集中。
$GOSDT(S_guess, A, λ, d)$ : 一个函数，使用 GOSDT 算法在给定数据集、正则化参数和最大深度下寻找最优决策树并返回其目标值。
$TreeFarms(S_guess, A, λ, θ_ε, d)$ : 一个函数，使用 TreeFarms 算法在给定数据集、正则化参数、拉沙蒙集阈值和最大深度下生成拉沙蒙集。

4.3. LLM 可理解性评估 (Comprehensibility Assessment Utilizing LLMs)

方法原理: 在构建了拉沙蒙集之后，需要从性能相近的异构决策树中选出最可理解的。由于“可理解性”是一个主观指标，传统方法需要大规模的用户研究，成本高昂。ComTree 利用大语言模型 (LLMs) 的类人理解能力和推理能力，模拟开发人员进行可理解性评估。该模块的核心设计包括：成对比较机制、模型集成策略和两阶段比较机制。

核心方法详解:

成对比较 (Pairwise Comparison):
- 直觉: LLMs 在进行相对判断时表现更佳，这与它们通过人类偏好对齐 (human preference alignment) 进行训练的机制相符。直接对可理解性打分可能不准确，但比较两个决策树哪个更可理解则更可靠。
- 实施: 框架将拉沙蒙集中的决策树两两进行比较，由 LLMs 判断哪个决策树具有更高的可理解性。
模型集成 (Model Ensemble):
- 目的: 增强评估的可靠性，降低单个 LLM 的随机性或偏差。
- 实施: 采用多个 LLMs（例如，GPT-4o [41] 和 Claude-3.7-Sonnet [5]）组成集成。只有当多个模型对两个决策树的相对可理解性判断达成一致时，才淘汰掉较不可理解的那个树。
两阶段比较 (Two-Phase Comparison):
- 目的: 解决当决策树的可理解性非常相似时，强制区分可能导致结果不稳定的问题，同时确保比较的最小性。
- 机制:
  - 阶段一: 算法首先将 R_set 随机打乱 (R_set')，然后进行分组，对相邻的决策树对 (R_set'[2i], R_set'[2i+1]) 进行成对比较。如果 LLMs 达成一致，则移除较不可理解的树。
  - 阶段二 (若阶段一未能区分): 如果第一阶段没有建立任何相对关系（即所有比较都未能达成一致，或剩余树的数量没有减少），则改变比较顺序，对 (R_set'[i*2], R_set'[i*2-1]) 进行成对比较。
  - 终止条件: 如果经过两阶段比较后，R_set 仍然没有变化，这意味着剩余的决策树具有足够相似的可理解性，它们被归为同一等价类，并且评估过程终止。
- 最小比较次数: 这种两阶段比较机制能够实现理论上最少的比较次数，类似于构建最小生成树，确保了连通性和最小性 [9]。
  
  Algorithm 1 详细描述了可理解性评估框架：

Algorithm 1: Comprehensibility Assessment Utilizing LLMs

Input: Rashomon set R_set, LLMs fGPT, fClaude
Output: Most comprehensible decision tree topt

1  while |R_set| > 1 do
2    R_set' = shuffle(R_set)
3    /* Pairwise comparison phase */
4    for i ∈ [0, ⌊(|R_set'| - 1) / 2⌋] do
5      T_i = R_set'[2i], T_j = R_set'[2i + 1]
6      // Ensemble evaluation using both LLMs
7      r_1 = f_GPT(T_i, T_j), r_2 = f_Claude(T_i, T_j)
8      if r_1 == r_2 then
9        Remove less comprehensible tree from R_set'
10   /* Alternative comparison order */
11   if R_set == R_set' then
12     for i ∈ [1, ⌊(|R_set'| / 2⌋] do
13       T_i = R_set'[i * 2], T_j = R_set'[i * 2 - 1]
14       r_1 = f_GPT(T_i, T_j), r_2 = f_Claude(T_i, T_j)
15       if r_1 == r_2 then
16         Remove less comprehensible tree from R_set'
17   // Local optimum detection
18   if R_set == R_set' then
19     return Rset // return the remaining set if no more changes
20   R_set = R_set'
21 return topt // assuming topt is updated within the loop based on some criteria, or R_set contains the "best" after reduction

符号解释:

R_set: 输入的拉沙蒙集，包含多个决策树。
f_GPT: 代表 GPT 模型，用于评估两个决策树的可理解性。
f_Claude: 代表 Claude 模型，用于评估两个决策树的可理解性。
topt: 最终选出的最可理解的决策树。
$|R_set|$ : 拉沙蒙集中决策树的数量。
$shuffle(R_set)$ : 随机打乱 R_set 中的决策树顺序。
R_set': 随机打乱后的 R_set。
$T_i$ , $T_j$ : 待比较的两个决策树。
$r_1$ , $r_2$ : f_GPT 和 f_Claude 对 $T_i$ 和 $T_j$ 可理解性比较的结果。
Remove less comprehensible tree from R_set': 从 R_set' 中移除被判断为较不可理解的决策树。
R_set = R_set': 更新 R_set 为本轮比较后的结果。

LLM 交互与提示工程: 为了增强 LLMs 评估的稳定性，采用了两种提示工程 (prompt engineering) 方法：

少样本学习 (Few-Shot Learning) [7]: 在 LLMs 评估之前，提供一些关于开发人员如何理解 ABR 决策树的先验知识。这包括对决策树层数、直观特征（如 last_quality, buffer, tput）以及树组织结构（如一致的层内特征）的偏好。这有助于引导 LLMs 像领域专家一样进行判断。
- 提示示例（图14）: 明确指出开发人员偏好层数少、使用直观且重要的特征、以及组织良好的决策树。
自洽性 (Self-Consistency) [54]: 在每一轮评估中，对每个 LLM 重复查询 3 次，并以出现频率最高的偏好作为该 LLM 的最终答案。这有助于减少 LLM 的随机性，提高判断的稳定性。

此外，LLMs 的输入输出格式也经过精心设计：将决策树表示为 Python 代码的 JSON 格式，并要求 LLMs 先输出偏好，再输出理由。在 LLM 调整阶段（S4.5），通过提供 5G 网络轨迹作为知识库，并定义输入、输出和优化目标，使 LLMs 能够像专业工程师一样优化 ABR 算法（图15）。

5. 实验设置

5.1. 数据集

视频样本: 采用与先前工作 [32, 36] 相同的 "EnvivoDash3" 视频，总长 193 秒。该视频被分割成 4 秒长的视频段 (segments)。
比特率级别: 视频提供 6 个比特率级别，分别为 300, 750, 1200, 1850, 2850, 4300 kbps。
网络轨迹数据集 (Network Trace Datasets):
- 训练集: FCC [48] 数据集，用于教师-学生学习框架的训练。这是一个低带宽数据集，平均带宽为 1.31 Mbps，标准差为 1.00 Mbps。
- 测试集:
  - 模拟环境测试: Norway [49], Oboe [4], 和两个 Puffer [58] 平台的数据集 (Puffer-Oct. 17-21 和 Puffer-Feb. 18-22)。
  - 可理解性潜力验证: 5G [38] 数据集，用于验证 ComTree 在新网络环境下的可理解性潜力。该数据集与训练集 (FCC) 显著不同，具有高带宽（平均 347.46 Mbps，标准差 378.16 Mbps）。
数据集样本示例 (无直接图片/具体内容，基于描述):
- FCC 数据集：低带宽环境下的网络状况记录。
- 5G 数据集：高带宽环境下的网络状况记录，与 FCC 显著不同。

5.2. 评估指标

论文主要使用 QoE (Quality of Experience) 作为评估指标，并引入了 QoE Improvement Ratio 来量化性能提升。

体验质量 (QoE): QoE 的计算公式为： $QoE = \sum_n q(R_n) - \mu \sum_n T_n - \sum_n |q(R_{n+1}) - q(R_n)|$ 符号解释:
- QoE: 最终的体验质量得分，目标是最大化此值。
- $\sum_n q(R_n)$ : 视频质量项的总和。 $q(R_n)$ 表示第 $n$ 个视频段选择比特率级别 $R_n$ 时的视频质量得分。更高的比特率通常对应更高的质量。
- $\mu$ : 重缓冲 (rebuffering) 惩罚系数，用于权衡视频质量和卡顿。
- $\sum_n T_n$ : 重缓冲时间项的总和。 $T_n$ 表示播放第 $n$ 个视频段时发生的重缓冲时长。
- $\sum_n |q(R_{n+1}) - q(R_n)|$ : 平滑度 (smoothness) 惩罚项的总和。它量化了连续视频段之间质量切换的幅度。频繁或大幅度的质量切换会降低用户体验。
  
  论文主要使用 $QoE_{lin}$ 作为评估指标，并辅以 $QoE_{hd}$ 进行验证。具体的参数定义如下：以下是原文 Table 3 的结果：
QE q(R) = R μ=4.3

QoEhd q(R) {0.3 : 1, 0.75 : 2, 1.2 : 3, 1.85 : 12, 2.85 : 15, 4.3 : 20} μ=8

符号解释:
- $QoE_{lin}$ : 线性质量映射。
  - $q(R) = R$ : 视频质量得分直接等于所选比特率 $R$ (可能经过归一化，通常是 Mbps 或 Kbps 级别的数值，而不是原始的 300, 750...)。在论文的实验设置中，比特率数值本身作为质量得分，例如 0.3 Mbps 计为 0.3。
  - $μ = 4.3$ : 重缓冲惩罚系数。
- $QoE_{hd}$ : 高清质量映射。
  - q(R): 使用一个非线性的映射表，将不同的比特率映射到特定的质量分数。例如，0.3 Mbps 映射为 1 分，4.3 Mbps 映射为 20 分。
  - $μ = 8$ : 重缓冲惩罚系数。
QoE 改进比率 (QoE Improvement Ratio): $QoE_{impro} = (QoE - QoE_{baseline}) / |QoE_{baseline}|$ 符号解释:
- $QoE_{impro}$ : QoE 改进比率。
- QoE: 算法获得的 QoE 值。
- $QoE_{baseline}$ : 对比基线算法获得的 QoE 值。
- $|QoE_{baseline}|$ : 基线 QoE 值的绝对值，用于避免除以零或负值时比率的解释问题。

	QE q(R) = R	μ=4.3
QoEhd q(R)	{0.3 : 1, 0.75 : 2, 1.2 : 3, 1.85 : 12, 2.85 : 15, 4.3 : 20}	μ=8

5.3. 对比基线

论文选择了多种设计范式的代表性 ABR 算法作为基线进行比较：

启发式算法 (Heuristic Approaches):
- BBA [19]: 缓冲区 (buffer) 驱动的简单算法。
- Bola [53]: 另一种基于缓冲区的算法，旨在实现近乎最优的比特率适应。
- RobustMPC [59]: 基于模型预测控制 (Model Predictive Control) 的算法，考虑了未来网络状况的预测。
学习型算法 (Learning-based Methods):
- Pensieve [32]: 基于深度强化学习 (Deep Reinforcement Learning) 的算法。在 ComTree 的实验中，Pensieve 也被用作教师网络。
- Genet [56]: 利用课程学习 (curriculum learning) 提高泛化能力。
- NetLLM [55]: 利用大语言模型进行网络适应。
可解释性算法 (Interpretability-focused Work):
- Pitree [36]: 将黑盒模型转换为决策树的算法。实验中使用了 Pitree(P)，表示以 Pensieve 作为教师网络训练的 Pitree。

5.4. ComTree 实现细节

正则化参数 $λ$ : 设置为 0.0005。这个参数平衡了误分类损失和决策树的稀疏性（叶节点数量）。
拉沙蒙集边界 $ε$ : 设置为 0.05。这意味着拉沙蒙集中的决策树的性能可以比最优树差最多 5%。
最大树深度 $d$ : 限制为 6。这有助于控制决策树的复杂度，以提高可理解性。
实验平台: 所有实验均在 Ubuntu 18 操作系统，配备双 AMD EPYC 7742 处理器上进行。
ComTree 变体及其用途 (Table 4): 以下是原文 Table 4 的结果：

ComTree(P) The optimal tree generated by teacher Pensieve

ComTree_C The most comprehensible tree in Rashomon

'-L' suffx Adjusted by LLM

符号解释:
- ComTree(P): 表示以 Pensieve 作为教师网络生成的最优决策树（根据 GOSDT 的优化目标）。
- $ComTree_C$ : 表示在拉沙蒙集中，经过 LLM 评估后选出的最可理解的决策树。
- -L 后缀: 表示经过 LLM 调整后的算法版本。例如， $ComTree_C-L$ 是指 $ComTree_C$ 经过 LLM 优化后的版本。
拉沙蒙集实例选择: 在 S4.3 和 S4.4 中，从总共包含 $1.6 \times 10^5$ 棵树的拉沙蒙集中，选取了 64 个不同的实例（按目标值排序），用于分析集合特性和 LLM 评估过程。

ComTree(P)	The optimal tree generated by teacher Pensieve
ComTree_C	The most comprehensible tree in Rashomon
'-L' suffx	Adjusted by LLM

6. 实验结果与分析

6.1. 最优树的性能 (Performance of The Optimal Tree)

6.1.1. 轨迹驱动模拟实验 (Trace-driven Simulation Experiment)

实验在 Norway、Oboe、Puffer-Oct. 17-21 和 Puffer-Feb. 18-22 四个数据集上进行了模拟播放。

以下是原文 Figure 4 的结果：

$Figure 4: CDF of `Q o E _ { l i n }` in different traces$ 该图像是图表，展示了不同追踪数据下的 Q o E _ { l i n } 的累积分布函数 (CDF)。图中有四个子图，分别为 (a) Norway, (b) Oboe, (c) Puffer-Oct.17-21 和 (d) Puffer-Feb.18-22，比较了多种自适应视频流算法的性能，包括 ComTree。

图 4 展示了不同网络轨迹下 $QoE_{lin}$ 的累积分布函数 (CDF) 曲线。从图中可以看出，ComTree(P) (以 Pensieve 为教师模型的最优树) 在不同网络轨迹下都表现出色。

在 Norway 和 Oboe 数据集上，ComTree(P) 的 CDF 曲线与其他高性能基线（如 Pensieve、RobustMPC）非常接近，甚至略有超越。

在 Puffer 数据集上，尤其是在 Puffer-Oct. 17-21 和 Puffer-Feb. 18-22，ComTree(P) 的表现也保持在领先水平，曲线整体偏右，表明其获得更高 QoE 的概率更大。

以下是原文 Table 5 的结果：

	ComTree(P)	Pitree(P)	RobustMPC	NetLLM	Bola	Pensieve	Genet	BBA
Norway	0.93 (± 0.58)	0.94* (± 0.57)	0.85 (± 0.64)	0.87 (± 0.52)	0.83 (± 0.47)	0.92‡ (± 0.56)	0.46 (± 0.25)	0.64 (± 0.65)
Oboe	2.11 (± 1.06)	2.08 (± 1.10)	2.16* (± 1.15)	1.81 (± 0.90)	1.80 (± 0.93)	2.10† (± 1.08)	0.95 (± 0.62)	1.84 (± 1.12)
Puffer-2110	0.76‡ (± 2.34)	0.72 (± 2.36)	0.68 (± 1.85)	0.83 (± 2.12)	0.79* (± 1.81)	-0.13 (± 12.67)	0.63 (± 1.30)	-0.18 (± 2.92)
Puffer-2202	0.78* (± 2.98)	0.73† (± 3.05)	0.67‡ (± 2.92)	0.66 (± 3.22)	0.60 (± 3.01)	0.29 (± 10.47)	0.25 (± 2.85)	0.25 (± 3.18)
Average	1.15* (1st)	1.11 (2nd)	1.10‡ (3rd)	1.04 (4th)	1.00 (5th)	0.71 (6th)	0.58 (7th)	0.58 (8th)

表 5 展示了不同网络轨迹下各算法的平均 $QoE_{lin}$ 及其标准差。

ComTree(P) 在多个数据集上持续保持前三的性能。在 Puffer-2202 数据集上获得最优性能，并在 Norway 和 Oboe 数据集上分别排名第二和第三（与 Pensieve 相比）。
在平均性能上，ComTree(P) 达到 1.15，位列第一，优于所有其他基线算法。相较于经典基线算法，ComTree(P) 的平均性能提升范围为 4% 到 98%。
ComTree(P) 相较于其教师算法 Pensieve 展现出更稳定的性能，尤其是在 Puffer 数据集上，Pensieve 出现负 QoE，而 ComTree(P) 保持了正向且竞争力强的 QoE。
与 Pitree(P) 相比，ComTree(P) 性能更优，这表明 ComTree 采用的动态规划算法在性能上优于 Pitree 的贪婪算法。

以下是原文 Figure 5 的结果：

该图像是图表，展示了 ComTree 与其他自适应比特率算法在 QoE（体验质量）、比特率、重缓冲惩罚和平滑惩罚等指标上的改进情况。不同算法以不同颜色和样式表示，横坐标为各指标，纵坐标为 QoE 值。

图 5 展示了 ComTree(P) 相对于 Pensieve 和 Pitree(P) 在不同网络轨迹和 QoE 指标下的改进比率。

图 5(a) ComTree(P) 与 Pensieve 比较: ComTree(P) 的所有箱线图区域都高于 Pensieve，表明 ComTree(P) 在各种网络轨迹和 QoE 指标（lin 和 hd）下，相对于 Pensieve 均有正向改进。这说明 ComTree 能够从教师模型中提取关键决策逻辑，并产生更平滑的决策边界，从而实现更好的泛化性能。
图 5(b) ComTree(P) 与 Pitree(P) 比较: 同样，ComTree(P) 相较于 Pitree(P) 也显示出显著的性能优势。这验证了 ComTree 采用的动态规划算法在优化决策树方面优于 Pitree 的贪婪方法。

6.1.2. 真实世界实验 (Real-world Experiments)

论文将算法集成到 dash.js [10] 中，通过 Selenium 自动化浏览器测试在公共 WiFi 网络下进行播放实验。每个算法随机运行三次，每次持续 5 分钟。

以下是原文 Figure 6 的结果：

该图像是箱线图，展示了不同方案（Norway、Oboe、Puffer Oct.17-21、Puffer Feb.18-22）在lin和hd条件下的QoE改善比率。图中各箱体展示了不同方案下的改善情况，纵轴为QoE改善比率，横轴为不同方案的分类。

图 6 展示了在真实世界实验中，QoE_lin 及其组成部分（比特率、卡顿惩罚、平滑惩罚）的平均表现。

ComTree(P) 在 QoE_lin 指标上表现卓越，取得最高分，同时在平均比特率上也达到最高。
在卡顿 (stall) 和平滑度 (smoothness) 惩罚方面，ComTree(P) 的表现也优于其教师算法 Pensieve。这表明 ComTree 不仅能够实现高比特率，还能有效控制卡顿和质量切换，从而提供更稳定的用户体验。

6.2. 拉沙蒙集的特性与性能 (Characteristics and Performance of the Rashomon Set)

6.2.1. 拉沙蒙集的特性 (Characteristics of the Rashomon Set)

分析了包含 $1.6 \times 10^5$ 棵树的拉沙蒙集中的 64 个实例，这些实例是按照拉沙蒙集目标值升序排列的。

以下是原文 Figure 7 的结果：

Figure 7: Characteristics of ABR in the Rashomon Set 该图像是图表，展示了不同实例下树的数量、特征利用率、叶节点数量和准确率的分布。图(a)展示了不同实例中的树的数量，图(b)展示了特征利用率，图(c)展示了叶节点的数量，而图(d)对比了训练和测试的准确率。这些图表提供了对比分析的直观展示。

图 7 展示了拉沙蒙集中 ABR 算法的特性：

图 7(a) 决策树数量分布: 不同实例中决策树的数量差异显著，约 10% 的实例包含超过 5000 棵树。这表明在性能相近的范围内，存在大量的异构决策树。
图 7(b) 特征利用率分布: 特征利用率（特征出现频率除以总树数）显示出较大差异。约 20% 的特征在不到 1% 的树中出现，而另 20% 的特征在单棵树中平均出现多次。这说明在构建拉沙蒙集时，不同的决策树会侧重利用不同的特征组合。
图 7(c) 叶节点数量分布: 超过 95% 的决策树包含 19 到 21 个叶节点，显示出叶节点数量的集中分布。
图 7(d) 训练集和测试集准确率: 训练集和测试集的准确率均在 0.906 到 0.909 之间，变化极小。这验证了拉沙蒙集中的所有决策树在准确性上都保持了高度的竞争力。

6.2.2. 拉沙蒙集的 QoE_lin (QoE_lin in the Rashomon Set)

在模拟环境下，使用四个网络数据集评估了拉沙蒙集中所有实例的 $QoE_{lin}$ 。

以下是原文 Figure 8 的结果：

$Figure 8: `Q o E _ { l i n }` of ABR in the Rashomon Set$ 该图像是图表，展示了不同场景下ComTree和其他算法在 $QoE_{lin}$ 上的累计分布函数（CDF）。图中包含四个子图：(a) Norway, (b) Oboe, (c) Puffer-Oct.17-21, 和(d) Puffer-Feb.18-22，各自显示了不同情况下的性能比较。

图 8 展示了拉沙蒙集中 ABR 算法的 $QoE_{lin}$ 分布，以及教师算法 (Pensieve) 和基线算法 (Pitree(P)) 的位置。

QoE 波动性: $QoE_{lin}$ 的方差表现出依赖于数据集的特性。例如，在 Puffer-Oct. 17-21 数据集上最大偏差达到 0.12，而在 Norway 数据集上最小偏差为 0.06。
整体竞争力: 即使性能最低的实例，也相对于其他替代算法保持了竞争力。例如，在 Puffer-Oct. 17-21 数据集上，拉沙蒙集中表现最差的实例仍优于除了 RobustMPC 和 Pitree(P) 之外的所有算法。
超越基线: 以 Pitree(P) 作为参考基线，超过 60% 的实例在 Oboe 和 Puffer-Feb. 18-22 数据集上超越了 Pitree(P) 的性能。
总结: 整个拉沙蒙集展示了强大的竞争性 QoE 性能。考虑到拉沙蒙集包含了 64 个实例和 $1.6 \times 10^5$ 棵树，通过进一步筛选，可以获得性能更优的算法。

6.3. 可理解性分析 (Comprehensibility Analysis of ComTree)

6.3.1. 可理解性评估过程分析 (Process Analysis of Comprehensibility Assessment)

LLMs 的输入输出格式通过提示工程构建，决策树以 Python 代码形式的 JSON 格式呈现。

以下是原文 Figure 9 的结果：

Figure 9: Results of Different Rounds 该图像是图表，展示了不同轮次下获胜者数量（左图）和每轮两个获胜者比例（右图）的变化情况。左图中，曲线分别表示了多个基准与自适应算法下的获胜者数量趋势；右图显示了两位获胜者的比例随轮次变化的情况。

图 9 展示了在同一运行中，不同轮次之间的结果。

图 9(a) 每轮剩余决策树数量: 8 次实验需要 12 到 18 轮才能完成。Self-Consistency 和 Few-Shot 方法都能将所需轮次从 18 减少到 12-14，表明这些提示工程技术可以提高 LLM 评估的效率。
图 9(b) 每轮两个获胜者的比例: 当两个 LLM 意见不一致时，两个元素都被认为是获胜者（即不淘汰任何一个）。图 9(b) 显示，随着轮次的增加，不一致判断的比例也在增加。在 4 次测试中，LLMs 最终选择了一个无法进一步评估的决策树集合，这与算法中“局部最优检测”的逻辑相符，即当无法继续区分时，返回剩余集合。

以下是原文 Figure 10 的结果：

该图像是图表，展示了不同方法在每轮获胜者重叠比率和排名差异的累积分布函数(CDF)表现。左侧图(a)显示，Baseline、Few Shot、Self C和Self C与Few Shot的方法在12轮中的重叠比率变化；右侧图(b)展示了各方法排名差异的CDF曲线。

图 10 评估了不同运行之间的一致性。

图 10(a) 每轮获胜者重叠比率: 曲线持续高于参考曲线 $y = 0.6^x$ ，表明每轮之间获胜者的重叠比率超过 60%。这说明 LLM 的评估在不同运行中具有一定程度的稳定性。
图 10(b) 排名差异分布: 50% 的实例最终排名差异在 10 以内。当使用 Self-Consistency 方法时，40% 的实例排名差异在 5 以内。这进一步证明了 LLM 评估结果的相对一致性和可重现性。

6.3.2. LLMs 评估的决策依据分析 (Decision Basis Analysis of LLMs Assessment)

为了理解 LLMs 做出不同选择的依据，对前 32 轮的响应文本（总计 296k 词）进行了分析。

以下是原文 Table 6 的结果：

Judgment Basis	Frequency
Tree size (code lines, leaf nodes, tree depth)	0.29
Node organization (feature crossing, feature reuse)	0.27
Feature selection (feature importance, feature count)	0.24
Threshold selection (threshold value, threshold distribution)	0.20

表 6 显示了 LLMs 做出可理解性判断的主要依据及其频率。

树大小 (Tree size): 代码行数、叶节点数量和树深度是 LLMs 最常考虑的因素 (29%)。更小的树通常被认为更可理解。
节点组织 (Node organization): 特征交叉 (feature crossing) 和特征重用 (feature reuse) 的方式也占很大比重 (27%)。组织良好、逻辑清晰的节点结构有助于理解。
特征选择 (Feature selection): 特征重要性和特征数量是关键因素 (24%)。使用更少、更重要的特征的树更易于理解。
阈值选择 (Threshold selection): 阈值的大小和分布也会影响可理解性 (20%)。

$ComTree_C$ 与 ComTree(P) 和 Pitree(P) 的可理解性比较:
树大小: Pitree(P) 远大于 ComTree(P)，ComTree(P) 又大于 $ComTree_C$ 。这意味着 $ComTree_C$ 在结构上更紧凑。
特征数量: Pitree(P) 使用 14 个不同的特征，ComTree(P) 使用 4 个特征，而 $ComTree_C$ 仅使用 3 个特征。 $ComTree_C$ 关注了自适应比特率算法中最关键的三个特征：buffer (缓冲区), last quality (上次质量), 和 last throughput (上次吞吐量)。
节点组织: 相较于 ComTree(P)， $ComTree_C$ 倾向于在初始分割中多次使用同一个特征，且较少进行特征交叉。这使得树的结构更规整，更容易被理解。

以下是原文 Figure 11 的结果：

该图像是插图，展示了ComTree算法生成的决策树结构，用于比特率适应。图中包含的变量有通量、延迟、质量等，并通过条件判断（如 $lq <= 0.23$ ）展示决策路径，以优化视频流的质量。

图 11 展示了 $ComTree_C$ （最可理解的树）的结构。其简洁的结构、少量关键特征的使用以及清晰的节点组织，直观地体现了 LLM 评估所偏好的可理解性特征。例如，它在根节点使用了 $t$ (throughput) 进行分割，并在后续节点中继续利用 lq (last quality) 和 $b$ (buffer) 等关键特征。

6.4. ComTree 在可理解性方面的潜力 (The Potential for Comprehensibility in ComTree)

为了验证 ComTree 促进开发人员增强算法的潜力，设计了一个模拟新网络环境适应的实验。使用 5G 网络轨迹 [38] 作为测试环境，该环境与训练集 (FCC) 具有显著差异。利用 LLM 模拟专业工程师，通过提示提供 ABR 知识、输入/输出和优化目标，来调整算法。比较了三种算法在 LLM 优化前后的性能： $ComTree_C$ (最可理解的树), ComTree(P) (最优树), 和 Pitree(P) (之前的研究)。优化后的版本以 -L 后缀表示。

以下是原文 Figure 12 的结果：

$Figure 12: `Q o E _ { l i n }` after LLM Optimization in 5G$ 该图像是图表，展示了不同算法在 QoE、比特率和流畅惩罚方面的性能比较。图中包含了对 ComTree 和 Pitree 算法的评估，以及各种判断基础的频率数据。这些数据为理解算法的表现和优化方向提供了重要参考。

图 12 展示了在 5G 网络环境下，不同算法在 LLM 优化前后的 $QoE_{lin}$ 及其组成部分。

可理解性与优化潜力的强正相关: 实验结果表明，决策树的可理解性与其优化潜力之间存在显著的正相关关系。优化后的性能顺序为 $ComTree_C-L$ > ComTree(P)-L > Pitree(P)-L，这与之前对 ComTree 可理解性评估的结果一致。这有力地证明了可理解性更高的算法具有更大的优化空间。
实际价值: 优化后， $ComTree_C-L$ 的 $QoE_{lin}$ 达到了 4.16，成功超越了经典算法 RobustMPC (4.12)。这表明 ComTree 通过提高可理解性，使得开发人员（在此处由 LLM 模拟）能够更便捷地修改和调整算法，从而使其性能超越预先设计的算法。这一结果强调了可理解性在实际工程应用中的重要价值，它能够赋能工程师进行有效的算法迭代和性能调优。

7. 总结与思考

7.1. 结论总结

本文提出了 ComTree，这是首个将“可理解性”作为新型优化目标引入自适应视频流 (ABR) 算法生成过程的框架。ComTree 采用两阶段方法：首先，它利用特征处理和教师-学生学习框架，结合基于动态规划的 TreeFarms 算法，生成一个包含性能相近但结构异构的决策树的拉沙蒙集。其次，它创新性地利用大语言模型 (LLMs) 作为评估者，通过成对比较、模型集成和两阶段比较机制，对拉沙蒙集中的决策树进行可理解性评估，以选出最易于开发人员理解和优化的解决方案。

实验结果表明，ComTree 生成的算法在保持竞争性 QoE 性能的同时，显著提高了可理解性。与现有算法相比，ComTree 在节点数量大幅减少的情况下，仍能取得更优或相近的性能。更重要的是，通过在 5G 等新网络环境中的 LLM 辅助优化实验，ComTree 展示了其高可理解性与更大的工程师优化潜力之间的强正相关性，验证了其在实际工程中持续迭代和增强算法的能力。

7.2. 局限性与未来工作

论文作者指出了 ComTree 框架的以下局限性，并展望了未来的研究方向：

可理解性评估的完美性问题:
- 局限性: 尽管 ComTree 在多个数据集上取得了竞争性性能，并且 LLM 评估显示出一定的稳定性，但 ComTree 与“最佳”可理解性解决方案之间仍存在差距。主要原因在于特征选择。为了降低计算开销，ComTree 借鉴了黑盒算法的知识进行特征划分。
- 未来工作: 如何平衡计算开销与特征选择的可理解性，是开发更先进可理解性算法的关键。例如，可以探索更智能的特征工程或特征选择方法，以生成更直观、更符合人类认知模式的特征。
LLMs 能力边界的验证:
- 局限性: 论文中利用 LLMs 评估可理解性，虽然 LLMs 在宏观规划和内容理解方面表现出色，并在多领域展现出近乎人类的主观理解能力，但 LLMs 的评估与真实人类专家主观感知之间的具体差距仍然是一个开放性问题。
- 未来工作: 需要进行大规模的、由具备领域知识的专家参与的主观实验，以更精确地验证 LLMs 在可理解性评估方面的能力边界和可靠性。这不仅是流媒体领域的需求，也是整个 AI 社区面临的挑战。

7.3. 个人启发与批判

超越“可解释性”到“可理解性”的思维升级: 这篇论文最核心的启发在于，它将 ABR 算法研究的重心从单纯追求性能和“可解释性”提升到了“可理解性”的层面。在 AI 模型日益复杂且广泛应用的今天，仅仅知道模型“如何”做决策是不够的，更重要的是理解模型“为何”这样设计，以及人类能否在此基础上进行有效干预和优化。这种思维转变对于任何需要人工干预和持续迭代的 AI 系统都具有普遍指导意义。
LLMs 作为评估工具的潜力: 论文将 LLMs 作为主观指标（可理解性）的评估工具，这开辟了 LLMs 在科学研究中作为“智能代理”的新应用范式。传统的用户研究耗时费力，而 LLMs 提供了高效、可扩展的替代方案。这对于未来评估各种主观指标（如用户体验、内容质量、设计美学等）提供了新的思路。
工程与理论的结合: ComTree 巧妙地结合了多种技术：黑盒模型知识蒸馏（教师-学生学习）、最优决策树生成（GOSDT, TreeFarms）以及 LLMs 评估。这种多学科、多方法的融合，是解决复杂实际问题的有效路径。
对性能和理解的权衡: 论文证明了在保持甚至超越 SOTA 性能的同时，可以大幅提升可理解性。这挑战了传统观点中性能与可理解性之间必然存在的权衡，表明通过巧妙的设计，二者可以兼得。

批判:
LLM 评估的“黑盒”问题: 尽管 LLMs 被用来解释和评估其他模型的“可理解性”，但 LLMs 本身也是复杂的黑盒模型。LLMs 内部如何形成对“可理解性”的判断，其判断是否真正模拟了人类的认知偏差和直觉，这本身就是一个需要进一步解释和验证的问题。虽然论文使用了提示工程和集成模型来提高稳定性，但其“真值”仍是间接的。未来可能需要更多关于 LLM 判断机制的透明性研究。
“工程师”的定义: 论文通过 LLM 模拟工程师进行优化，但这毕竟是模拟。真实世界的工程师在优化 ABR 算法时，除了代码结构，还会考虑业务需求、部署环境限制、成本等非纯算法因素。LLM 是否能全面模拟这些复杂的人类决策过程，仍有待商榷。
特征选择的挑战: 论文承认，目前特征选择仍然是可理解性的一个瓶颈。虽然通过重要性过滤减少了特征数量，但这些“重要”的特征不一定总是“直观”的。例如，某些通过组合或变换得到的特征可能在数学上重要，但对于人类理解决策逻辑来说却很抽象。如何将特征的“重要性”与“直观性”更好地结合，是未来提升可理解性的关键。
普适性: ComTree 框架是在 ABR 领域验证的，其方法论是否能无缝迁移到其他复杂、需要可理解性的决策系统（如金融风控、医疗诊断）中，可能需要进一步的领域适配和验证。不同领域的“可理解性”定义和评估标准可能会有很大差异。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。