论文状态：已完成

Spinning Straw into Gold: Relabeling LLM Agent Trajectories in Hindsight for Successful Demonstrations

发表：2025/10/08

大语言模型微调 (51)长时序一致性建模 (5)大语言模型推理能力增强 (39)序列策略优化 (40)大语言模型强化学习训练 (67)

价格：0.100000

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出事后监督学习(HSL)框架，通过辅助LLM重新标记智能体轨迹中的实际达成目标，结合不相关动作掩蔽和样本重加权，提升长时程部分可观环境中LLM智能体的微调效果。实验在ALFWorld和WebShop验证了HSL的高数据效率和兼容性，显著优于传统方法。

摘要

000 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 Under review as a conference paper at ICLR 2026 S PINNING S TRAW INTO G OLD : R ELABELING LLM A GENT T RAJECTORIES IN H INDSIGHT FOR S UCCESS - FUL D EMONSTRATIONS Anonymous authors Paper under double-blind review A BSTRACT Large language model agents operate in partially observable, long-horizon settings where obtaining supervision remains a major bottleneck. We address this by utilizing a source of supervision overlooked in existing post-training methods: unintended yet successful goals embedded within agent rollouts. Specifically, we introduce Hindsight Supervised Learning (HSL), where an auxiliary LLM reviews each completed trajectory and relabels it with all of the natural-language goals the agent actually achieved. HSL then pairs the trajectory with its relabeled goals and uses these pairs for additional fine-tuning. To mitigate suboptimality in the relabeled data, HSL incorporates irrelevant-action masking and sample reweighting. Our ex

思维导图

论文精读

中文精读约 41 分钟读完 · 25,882 字

1. 论文基本信息

1.1. 标题

将稻草纺成黄金：事后重新标记 LLM 智能体轨迹以获得成功演示 (Spinning Straw into Gold: Relabeling LLM Agent Trajectories in Hindsight for Successful Demonstrations)

1.2. 作者

匿名作者 (Anonymous authors)

1.3. 发表期刊/会议

论文处于双盲审阅阶段 (Paper under double-blind review)，发布于 OpenReview。

1.4. 发表年份

2025年

1.5. 摘要

大型语言模型 (Large Language Model, LLM) 智能体 (agent) 在部分可观察 (partially observable)、长时程 (long-horizon) 的环境中运行，其中获取监督信号仍然是主要的瓶颈。本文通过利用现有后训练 (post-training) 方法中被忽视的一种监督来源——智能体在运行轨迹 (rollout) 中“无意但成功”实现的目标来解决这一问题。我们引入了事后监督学习 (Hindsight Supervised Learning, HSL) 框架，其中一个辅助 LLM 会审查每个已完成的轨迹，并用智能体实际实现的自然语言目标对其进行重新标记。然后，HSL 将轨迹与其重新标记的目标配对，并将这些对用于额外的微调 (fine-tuning)。为了减轻重新标记数据中的次优性，HSL 结合了不相关动作掩蔽 (irrelevant-action masking) 和样本重加权 (sample reweighting) 技术。实验表明，HSL 具有灵活性，并与现有的后训练流程兼容。它改进了 SFT (Supervised Fine-tuning) 和 DPO (Direct Preference Optimization) 两种方法，在 ALFWorld 和 WebShop 等长时程、具身 (embodied) 和网络智能体任务上获得了更大的增益。此外，HSL 具有样本效率 (sample-efficient)：在 ALFWorld 上，它仅使用四分之一的真实标注数据 (ground-truth demonstration)，就超越了在完整数据集上训练的基线模型。

1.6. 原文链接

官方来源: https://openreview.net/forum?id=QNfmqMSR7r
PDF 链接: https://openreview.net/pdf?id=QNfmqMSR7r
发布状态: 预印本，处于双盲审阅阶段。

2. 整体概括

2.1. 研究背景与动机

大型语言模型 (LLM) 智能体 (agent) 旨在将基础模型 (foundation model) 的能力扩展到交互式环境，例如自主网页浏览、工具增强问答、软件工程和机器人控制等。这些智能体在现实世界中日益重要，因为它们弥合了原始语言模型与实际交互智能之间的鸿沟。

然而，构建高效的 LLM 智能体面临巨大挑战：

部分可观察性 (Partially Observable)：环境的动态复杂且隐藏，智能体只能获得部分观察 (observation)，无法完全了解环境的真实状态 (state)。
长时程规划 (Long-Horizon Planning)：智能体需要进行长期的规划，并选择那些效果不确定的动作 (action)。
监督信号稀疏 (Sparse Supervision)：在长时程任务中，成功的轨迹 (trajectory) 稀少，奖励 (reward) 信号延迟且稀疏，导致智能体难以通过试错 (trial and error) 进行有效学习。
演示数据成本高昂 (Costly Demonstrations)：尽管监督微调 (SFT) 是常用的训练方法，但它严重依赖专家演示 (expert demonstration)，这些数据收集成本高昂且多样性不足。现有的强化学习 (RL) 方法虽然原则上可以利用智能体自身生成的数据，但在稀疏奖励和长时程任务中效率低下。

论文试图解决的核心问题是：如何有效利用智能体自身在环境中探索时产生的大量轨迹数据，尤其是那些未能完成给定指令但却无意中实现了其他有意义目标的轨迹，以克服监督信号稀疏和演示数据收集成本高昂的瓶颈？

现有研究的空白 (Gap)：现有的后训练方法通常只关注智能体是否完成了预设目标，而忽视了智能体在探索过程中可能“无意中”完成的其他有意义的任务。这些“无意但成功”的经历包含了宝贵的学习信号，可以被重新利用。

本文的切入点/创新思路：受强化学习中“事后经验回放 (Hindsight Experience Replay, HER)”的启发，本文提出，即使智能体未能完成原始指令，它也可能完成了其他未被指令的任务。这些“无意中”的成就，如果能被识别并重新标记为成功演示，就可以极大地扩充训练数据，从而提高智能体的学习效率和性能。论文的关键创新在于利用辅助 LLM 的零样本推理能力，在事后审查并重新标记智能体生成的轨迹。

2.2. 核心贡献/主要发现

论文的主要贡献包括：

提出了事后监督学习 (HSL) 框架：这是一种新颖的 LLM 智能体后训练方法。HSL 迭代地通过辅助 LLM 重新标记智能体轨迹中实际达成的目标，从而挖掘成功的演示数据，并用这些重新标记的数据对智能体进行微调。
引入了两种有效的学习策略：基于理论分析的见解，论文提出了不相关动作掩蔽 (irrelevant-action masking) 和样本重加权 (sample reweighting) 两种简单而有效的学习技术，以处理重新标记数据中的次优性，并进一步提高智能体的最优性。这些策略通过消融实验 (ablation study) 得到了验证。
实验验证了 HSL 的有效性和样本效率：在 ALFWorld (具身智能体基准) 和 WebShop (网络智能体基准) 上进行的广泛实验表明：
- HSL 兼容并能显著提升现有后训练方法 (如 SFT 和 DPO) 的性能，尤其是在具有更多样目标空间的长时程任务 (如 ALFWorld) 上，成功率提高了 8% – 32%。
- HSL 具有出色的样本效率。例如，在 ALFWorld 上，它仅使用不到四分之一的真实标注数据，就能超越在完整数据集上训练的基线模型，并且在“未见 (unseen)”任务上的泛化能力更强。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文提出的事后监督学习 (HSL) 框架，需要对以下基础概念有所了解：

3.1.1. 大型语言模型智能体 (LLM Agent)

概念定义 (Conceptual Definition)：LLM 智能体 (LLM agent) 是指利用大型语言模型作为其核心控制器或决策引擎的软件实体。它们能够理解自然语言指令、感知环境、规划行动序列，并通过与环境的交互来达成复杂目标。与传统的语言模型仅进行文本生成不同，LLM 智能体将语言模型的能力扩展到序列决策 (sequential decision-making) 领域，使其能够在动态、交互式的环境中执行任务。

3.1.2. 部分可观察马尔可夫决策过程 (Partially Observed Markov Decision Process, POMDP)

概念定义 (Conceptual Definition)：部分可观察马尔可夫决策过程 (POMDP) 是一种用于建模智能体在信息不完整环境中进行决策的数学框架。在 POMDP 中，智能体无法直接观察到环境的完整状态 (state)，而是通过一系列观察 (observation) 来推断当前状态。这使得决策变得更加复杂，因为智能体需要同时处理不确定性。 组成部分：

状态空间 (State Space) $S$ ：环境中所有可能的状态集合。
动作空间 (Action Space) $A$ ：智能体可以采取的所有动作集合。
观察空间 (Observation Space) $O$ ：智能体从环境中接收到的所有可能观察的集合。
转移函数 (Transition Function) $P(s' | s, a)$ ：给定当前状态 $s$ 和采取的动作 $a$ ，环境转移到下一个状态 $s'$ 的概率。
观察函数 (Observation Function) $P(o | s', a)$ ：给定下一个状态 $s'$ 和采取的动作 $a$ ，智能体接收到观察 $o$ 的概率。
奖励函数 (Reward Function) R(s, a, s')：智能体在状态 $s$ 采取动作 $a$ 转移到 $s'$ 后获得的即时奖励。
信念状态 (Belief State)：智能体对当前环境真实状态的概率分布，通常是根据所有历史观察和动作推断得出的。在 POMDP 中，智能体的决策是基于信念状态而不是真实状态。

3.1.3. 监督微调 (Supervised Fine-tuning, SFT)

概念定义 (Conceptual Definition)：监督微调 (SFT) 是一种将预训练模型（如 LLM）适应特定任务或数据集的方法。它利用带有明确输入-输出对的标注数据（即演示数据），通过监督学习来更新模型的参数。在 LLM 智能体领域，SFT 通常指使用专家生成的轨迹 (trajectory) 中的状态-动作对来训练智能体模仿专家行为。

3.1.4. 直接偏好优化 (Direct Preference Optimization, DPO)

概念定义 (Conceptual Definition)：直接偏好优化 (DPO) 是一种基于偏好学习 (preference learning) 的强化学习算法，用于对齐语言模型。它通过直接优化策略 (policy) 来匹配人类对模型输出的偏好，而无需显式训练一个奖励模型。DPO 接收成对的偏好数据（例如，“A 比 B 好”），并直接优化一个策略模型，使其生成更受偏好的输出。

3.1.5. 强化学习 (Reinforcement Learning, RL)

概念定义 (Conceptual Definition)：强化学习 (RL) 是一种机器学习范式，智能体通过与环境的交互来学习如何做出决策以最大化累积奖励。智能体在每个时间步观察环境状态、执行动作，并接收到奖励和新的状态。RL 的核心挑战之一是稀疏奖励 (sparse reward) 和长时程 (long-horizon) 任务，即智能体在很多步骤后才能获得有意义的奖励信号，这使得学习效率低下。

3.1.6. 事后经验回放 (Hindsight Experience Replay, HER)

概念定义 (Conceptual Definition)：事后经验回放 (HER) 是一种在目标条件强化学习 (goal-conditioned RL) 中提高样本效率的技术。即使智能体未能实现预设目标，HER 也会将失败的轨迹重新标记 (relabel) 为成功实现了智能体“实际上”达成的某个其他目标的轨迹。通过这种方式，HER 将失败的经验转化为有用的成功经验，从而使智能体能从每次尝试中学习，尤其是在稀疏奖励环境中。举例：如果智能体被要求“将红色方块移动到位置 A”，但它最终将红色方块移动到了位置 B。HER 会将这条轨迹重新标记为“将红色方块移动到位置 B”的成功演示。

3.2. 前人工作

3.2.1. LLM 智能体的发展

早期文本基智能体 (Early Text-Based Agents)：最早的语言智能体是为人工文本环境（如 Chevalier-Boisvert et al., 2018）开发的，它们遵循自然语言指令来改变状态并达到目标。这标志着自然语言处理 (NLP) 从静态预测转向序列决策。
现代 LLM 智能体 (Modern LLM Agents)：随着语言模型的快速发展，LLM 智能体现在能在更真实、复杂的领域操作，包括：
- 具身智能体 (Embodied Agents)：在物理或模拟环境中（如机器人）执行任务 (Li et al., 2024)。
- 图形用户界面 (GUI) 智能体 (GUI Agents)：通过与图形界面（如网页、应用程序）交互来完成任务 (Yao et al., 2022; Zhou et al., 2024; Xie et al., 2024)。
- 代码智能体 (Code Agents)：处理软件工程任务 (Jimenez et al., 2023)。

3.2.2. LLM 智能体的后训练方法

监督微调 (SFT)：在演示数据上进行 SFT 是一种有效但成本高昂的方法，且受限于数据覆盖范围。它未能充分利用智能体自身生成的数据。
基于偏好和强化学习的训练 (Preference- and RL-based Training)：
- PPO (Proximal Policy Optimization) (Schulman et al., 2017; Hu et al., 2025) 和 DPO (Direct Preference Optimization) (Rafailov et al., 2023; Song et al., 2024) 等方法旨在利用较弱的监督信号来改进智能体。
- 然而，这些方法常在稀疏、延迟反馈和长时程任务中面临挑战。
- 为了缓解稀疏性，一些方法通过启发式 (heuristics) 或学习到的评估器 (learned judges) 合成反馈 (Da et al., 2025)，并通过密集的环境交互获取更密集的中间奖励 (intermediate rewards) (Xiong et al., 2024)。

3.2.3. 目标重标记在目标条件强化学习中的应用

事后经验回放 (HER) (Andrychowicz et al., 2017)：首次提出目标重标记，用于机器人任务。它通过将失败的经验重新标记为成功实现了某个已达目标的经验，从而高效地从稀疏、二元奖励中学习。HER 及其变体是多目标 RL 和机器人领域的重要技术，例如通过更激进的事后奖励来抵消偏差 (Lanka & Wu, 2018)，或安排回放经验以平衡多样性 (Fang et al., 2019)。
语言条件智能体 (Language-Conditioned Agents)：Cideron et al. (2020) 将 HER 思想扩展到语言条件智能体，通过学习一个指令生成器将达到的状态映射到文本指令。
通过监督学习进行重标记 (Supervised Learning with Relabeling)：GCSL (Ghosh et al., 2019) 则将监督学习应用于重标记的成功经验。

3.2.4. 数据合成方法

一些研究通过启发式方法合成大规模训练数据 (Xu et al., 2024)，其中一些也涉及根据智能体轨迹生成标签 (Murty et al., 2024; Sun et al., 2024)。这些方法通常假设每个轨迹对应一个目标或指令，并且使用不同于目标 LLM 智能体的模型来生成训练数据，然后用固定的合成数据集对智能体进行微调。

3.3. 技术演进

LLM 智能体的技术演进大致经历了从简单的文本环境到复杂多模态环境（如具身和网页），以及从纯粹的监督学习到结合强化学习和偏好学习的过程。早期，智能体主要在文本冒险游戏中探索，通过文本指令进行决策。随着大语言模型能力的增强，智能体开始能够处理更复杂的视觉和动作空间，执行更真实的任务。训练方法也从单一的专家演示 SFT 发展到尝试利用智能体自身探索数据，以应对专家数据稀缺和长时程任务的挑战。RL 方法被引入以实现试错学习，但其在稀疏奖励和高维空间中的效率问题突出。事后经验回放等技术应运而生，试图通过重新解释经验来提高学习效率。

3.4. 差异化分析

本文提出的 HSL 方法与上述相关工作存在显著差异和创新：

3.4.1. 与目标条件强化学习中目标重标记技术的差异 (如 HER 及其变体)

环境状态可观察性 (Environment State Observability)：
- 现有方法：大多数现有方法（如 HER）假设智能体可以直接访问环境的完整状态 (whole state)，这在机器人控制等任务中较为常见。
- HSL：HSL 解决的是更复杂的部分可观察 (partially observed) 环境，智能体只能接收到部分观察 (partial observations)。因此，目标重标记必须从多个关键观察中推断，而非直接从完整状态中读取。这使得重标记任务更侧重于 LLM 的感知和推理能力。
重标记的目标范围 (Scope of Relabeling Goals)：
- 现有方法：典型的 HER 及其变体通常只重标记失败轨迹的最终达成目标 (final goal)。
- HSL：HSL 不仅重标记失败轨迹，更重要的是，它识别并重标记轨迹中所有实际达成的目标，即使原始指令最终成功完成。这意味着 HSL 可以从一个轨迹中提取多个学习信号，包括中间步骤的成就，从而更充分地利用经验。
学习范式 (Learning Paradigm)：
- 现有方法：HER 及其变体通常将重标记的经验用于离线强化学习 (offline RL) 目标，例如 Cideron et al. (2020)。GCSL (Ghosh et al., 2019) 虽然应用了监督学习，但其上下文仍是基于 RL 的离线学习。
- HSL：HSL 将重标记的经验与监督微调 (SFT) 结合，并引入了不相关动作掩蔽 (irrelevant-action masking) 和演示重加权 (demonstration reweighting) 两个额外技术来进一步提高智能体的最优性。这使得 HSL 能够与现有的 SFT 和 DPO 管道兼容，提供附加改进。
重标记机制 (Relabeling Mechanism)：
- 现有方法：HER 通常通过基于状态的启发式规则或环境接口直接获取已达目标。
- HSL：HSL 专注于增强 LLM 智能体，并利用 LLM 的推理能力进行重标记过程。这意味着重标记本身是一个复杂的自然语言理解和推理任务，由一个辅助 LLM (而非硬编码规则) 完成。

3.4.2. 与其他大规模数据合成方法的差异

目标数量 (Number of Goals)：
- 其他方法：通常假设每个轨迹对应一个目标或指令 (Murty et al., 2024; Sun et al., 2024)。
- HSL：挖掘轨迹中所有达成的目标。
数据生成模型与目标智能体 (Data Generation Model vs. Target Agent)：
- 其他方法：使用不同于目标 LLM 智能体的模型来生成训练数据，并且一旦合成，数据集就被固定下来。这可能导致合成数据与目标智能体的实际行为分布之间存在偏差 (drift)。
- HSL：持续使用同一个目标智能体来生成轨迹，并用辅助 LLM 持续刷新重标记缓冲区 (relabeling buffer)。这种在线 (on-policy)、持续更新 (continuously updated) 的监督机制使事后分布 (hindsight distribution) 与智能体不断演进的占据度 (occupancy) 保持一致，增加了专家策略 (expert policy) 有支持的区域的覆盖范围，并缓解了固定合成数据集引入的漂移问题。理论分析和实验结果都支持了这种设计的有效性。

3.4.3. 与张等 (Zhang et al., 2023) 查询重写工作的差异

尽管高层思想都是通过重写来更好地对齐 LLM 生成的答案，但 Zhang et al. (2023) 关注的是 BigBench 推理任务（如逻辑演绎、单词排序），而 HSL 关注的是具身或网络智能体的部分可观察马尔可夫决策过程 (POMDP) 任务，并引入了独特的技术（如动作相关性标记、样本重加权）。

综上所述，HSL 的核心创新在于将事后重标记的思想应用于 LLM 智能体，充分利用 LLM 的语言推理能力进行重标记，并通过在线、持续更新的机制和专门的优化技术来解决由此带来的数据质量和学习效率问题，从而在复杂、长时程的智能体任务中实现显著的样本效率和性能提升。

4. 方法论

4.1. 方法原理

事后监督学习 (HSL) 的核心思想是“将稻草纺成黄金”，即把智能体在探索环境中生成的、可能未能完成原始指令的“失败”或“次优”轨迹，通过一个辅助 LLM 的事后推理，重新解释并标记为“成功完成了智能体实际达成的某个目标”的演示数据。这些重新标记的“成功”演示随后被用于微调智能体，从而显著扩充了有用的训练数据，提高了样本效率，并使智能体能够从更广泛的经验中学习。

其直觉来源于事后经验回放 (HER)：智能体在尝试达成一个目标时，即使失败了，也可能无意中达成了另一个有意义的子目标或相关目标。例如，指令是“将红色方块移动到位置 A”，智能体却将红色方块移动到了位置 B。这条轨迹对于原目标是失败的，但对于“将红色方块移动到位置 B”这个目标来说却是成功的。HSL 将这种思想应用于 LLM 智能体，利用 LLM 强大的自然语言理解和生成能力来识别并表述这些“事后成功”的目标。

HSL 的方法原理建立在以下几个关键假设之上：

事后推理比前瞻预测容易：在环境交互结束后，回顾完整的轨迹和最终观察，推断智能体实际达成了哪些目标，这个任务通常比在交互过程中预测每个动作将导致什么结果（即解决原始任务）要容易得多。这是因为事后推理是一个感知和理解任务，LLM 擅长此道，而预测环境动态和规划则更为复杂。
“无意成功”具有学习价值：即使智能体的行为是次优的或未按指令进行的，但其轨迹中包含的任何实际达成的目标，都代表了智能体与环境交互的某种成功模式，可以作为有价值的监督信号来训练智能体。
数据质量可控：重新标记的数据可能包含与新目标不完全相关的动作。通过引入不相关动作掩蔽和样本重加权等机制，可以有效减轻这些次优行为的影响，确保学习的有效性。

4.2. 核心方法详解

本文将 LLM 智能体建模为在部分可观察马尔可夫决策过程 (Partially Observed Markov Decision Process, POMDP) 中运行。在每个时间步 $t$ ：

环境产生一个观察 (observation) $o_t$ ，它只揭示了底层状态 (state) $s_t$ 的一部分。
从高维状态 $s_t$ 到 $s_{t+1}$ 的转移，由动作 $a_t$ 引起，被认为是未知的。
智能体根据自然语言指令 (natural language instruction) $I$ 、轨迹历史 $\tau_{t-1}=\{(o_i, a_i)\}_{i=1}^{t-1}$ 和新的观察 $o_t$ 来选择一个动作 $a_t$ 。智能体选择动作的策略 (policy) 由其学习到的条件分布 $\pi_{\theta}(a_t \mid \tau_{t-1}, o_t, I)$ 给出。
评估指标 $\delta(s_T, g)$ 衡量最终达到的状态 $s_T$ 与目标状态 $g$ 之间的距离。任务目标是找到最佳的智能体，使其能到达目标状态，即最小化 $\min _{\theta} \mathbb{E}_{\tau \sim \pi_{\theta}} \delta(s_T, g)$ 。通常，智能体通过离线真实标注数据 (ground-truth demonstration) 进行训练，例如使用监督微调 (SFT)。

本文提出的 HSL 框架在现有训练流程的基础上，增加了一个并行分支，包含三个关键阶段：轨迹收集、重新标记和学习。这个分支可以与任意现有训练流程（包括 SFT 和 DPO）结合。

4.2.1. 轨迹收集 (Trajectory Collection)

在每个训练步骤中：

我们从训练集 $D_{\text{train}}$ 中采样 $b$ 个以自然语言指令 $I$ 表示的目标。
智能体通过与环境交互，按照指令 $I$ 执行一系列动作，生成轨迹。
具体来说，智能体根据其当前策略 $\pi_{\theta}$ 选择动作 $a_t \sim \pi_{\theta}(a \mid \tau_{t-1}, o_t, I)$ ，并接收到下一个观察 $o_{t+1}$ 。
这个过程持续进行，直到任务终止或者达到最大步数限制 $T$ 。
最终，我们收集到完整的轨迹 $(\tau_T, o^*)$ ，其中 $\tau_T$ 是包含所有观察和动作的序列， $o^*$ 是最终观察，这些数据将被用于重新标记。

4.2.2. 重新标记过程 (Relabeling Process)

这是 HSL 的核心组成部分，包含两个子步骤：目标识别和动作相关性标记。

4.2.2.1. 目标识别 (Goal Identification)

虽然预测智能体在动作 $a_t$ 后将达成什么目标很困难，但从结果观察 $o_{t+1}$ 进行推理则更易管理。通常， $o_{t+1}$ 会揭示 $a_t$ 是否对环境产生了影响，以及影响是什么。通过检查后续观察，也可以推断 $a_t$ 的长期影响。

本文使用一个辅助 LLM $M$ 来审查每个收集到的轨迹，并识别智能体实际成功实现的所有 $K$ 个目标（其中 $K \leq T$ ），这些目标以指令 $\left\{I_{1}^{\prime}, \ldots, I_{K}^{\prime}\right\}$ 的形式表示。

模型与提示 (Model and Prompting)：LLM $M$ 利用其零样本 (zero-shot) 推理能力。通过提示 $M_{\text{inst}}(\tau_T, o^*)$ 来推断已实现的目标列表。其中 inst 是一个系统提示 (在附录 C 中提供)，它描述了有效目标的空间， $o^*$ 是最终观察。
- M_inst 的系统提示例子（ALFWorld，图 7）：指导 LLM 作为“目标推理助手”，根据动作和观察序列，追踪智能体的位置和库存，并从预定义的目标模板中推断出已完成的目标。它要求模型输出一个 JSON 列表，包含每一步的详细信息（动作、观察、位置、库存、已达到的目标列表）。
- M_inst 的系统提示例子（WebShop，图 9）：指导 LLM 作为“目标推理助手”，根据完整的轨迹，推断用户意图并成功购买的产品信息（产品类型、属性、点击选项、数量、价格）。它要求模型输出一个 JSON 数组，包含每一步的查询、选择的产品信息、价格、推理以及购买是否成功等。
多目标识别 (Multiple Achievements)：如果智能体在一次尝试中实现了多个目标，这些目标可以是相互独立的。
轨迹筛选 (Trajectory Filtering)：如果智能体在轨迹 $\tau_T$ 中未能实现任何有意义的目标，则该轨迹会被丢弃。
演示数据提取 (Demonstration Extraction)：对于每个被识别出的目标 $I_k'$ ，HSL 提取一对重标记指令及其对应的轨迹片段 $(\tau_{S(I_k')}, I_k')$ 作为成功的演示数据。其中 $S(I_k')$ 是指令 $I_k'$ 首次被成功实现的时间步。
示例如图 2 (右侧)：智能体可能错过了原始目标“冷却一些杯子并放入柜子”，但却实现了“将一个马克杯放入冰箱”这个未被指令的目标。

4.2.2.2. 动作相关性标记 (Action Relevance Labeling)

由于轨迹 $\tau_{S(I_k')}$ 最初是在指令 $I$ 下收集的，其中一些动作可能与实现重标记目标 $I_k'$ 无关。

相关性推断 (Relevance Inference)：对于每一对 $(\tau_{S(I_k')}, I_k')$ ，我们再次使用辅助 LLM $M$ 来推断轨迹片段中每个动作 $a_u$ 的标签 $z_u \in \{0, 1\}$ ，指示其与目标 $I_k'$ 的相关性。其中 $z_u=1$ 表示相关， $z_u=0$ 表示不相关。
- M_relevance 的提示是 $M_{\text{relevance}}(\tau_{S(k)}, o_{S(k)+1}, I_k')$ 。其中 relevance 是一个系统提示 (在附录 C 中提供)。
- M_relevance 的系统提示例子（ALFWorld，图 8）：指导 LLM 作为“步骤相关性分类器”，给定目标、动作和观察序列，判断每一步对实现目标是否必要。相关性定义为“必要的前提或直接推进目标”，不相关则指“涉及错误对象、访问无关位置或无助于达成目标的动作”。要求输出一个 JSON 数组，包含每一步的动作、观察、位置、库存、推理和相关性标签 (yes 或 no)。
- M_relevance 的系统提示例子（WebShop，图 10）：指导 LLM 作为“步骤相关性分类器”，给定目标意图和轨迹，判断每一步的动作是否必要。相关性取决于“意图是否改变”或“动作是否对最终购买路径是必需的”。要求输出一个 JSON 数组，包含每一步的动作、意图变化、是否对购买必要和相关性标签。
数据存储 (Data Storage)：推断出的 $z_{1:S(k)}$ 随后用于训练 LLM 智能体。最终，每个三元组 $(\tau_{S(k)}, I_k', z_{1:S(k)})$ 被添加到重标记演示缓冲区 $D'$ 中。

4.2.3. 从重标记演示中学习 (Learning from Relabeled Demonstrations)

HSL 训练流程将重标记演示 $D'$ 用于改进 LLM 智能体。在每个优化步骤中，从 $D'$ 中随机采样一批重标记演示，并计算损失 $\mathcal{L}_{\theta}^{\text{HSL}}$ 。为了进一步提高智能体的最优性，HSL 提出了两种额外的技术：不相关动作掩蔽和演示重加权。

4.2.3.1. 理论分析 (Theoretical Analysis)

为了分析从重标记演示中学习如何缩小 LLM 智能体 $\pi_{\theta}$ 与最优（专家）策略 $\pi^*$ 之间的差距，论文定义了事后专家 (hindsight expert) $\pi_H$ 。

事后专家 (Hindsight Expert)：由智能体轨迹和重标记模型 $M$ 诱导的事后专家策略 $\pi_H$ 定义为： $\pi_{H}\left(a \mid h, o, I^{\prime}\right)=\frac{\sum_{t=0}^{T-1} \operatorname{Pr}_{\pi_{\theta}}\left[o_{t}=o, \tau_{t-1}=h, a_{t}=a, S_{M}\left(I^{\prime}\right)=t\right]}{\sum_{t=0}^{T-1} \operatorname{Pr}_{\pi_{\theta}}\left[o_{t}=o, \tau_{t-1}=h, S_{M}\left(I^{\prime}\right)=t\right]}$ 其中：

$h$ 代表历史 $\tau_{t-1}$ 。
$o$ 代表观察 $o_t$ 。
$I'$ 是一个重标记的目标。
$S_M(I')=t$ 表示目标 $I'$ 首次在时间步 $t$ 被模型 $M$ 识别为达成。
$\operatorname{Pr}_{\pi_{\theta}}[\cdot]$ 是在策略 $\pi_{\theta}$ 下事件发生的概率。这个公式本质上是在给定历史 $h$ 、观察 $o$ 和重标记目标 $I'$ 的条件下，根据智能体在达成 $I'$ 的轨迹中采取的动作 $a$ 的频率来定义事后专家策略。

占据度覆盖率和差异 (Occupancy Coverage Ratio and Discrepancy)：

我们定义 $\kappa_{E \leftarrow H}$ 为 $\pi^*$ 和 $\pi_H$ 的占据度覆盖率 (occupancy coverage ratio)： $\kappa_{E \leftarrow H} \triangleq \max _{(\tau, o, I)} \frac{\rho_{\pi^{*}}(\tau, o, I)}{\rho_{\pi_{H}}(\tau, o, I)} \in[1, \infty)$ 其中 $\rho_{\pi}$ 是策略 $\pi$ 在 $(\tau, o, I)$ 上的占据度量 (occupancy measure)。这个比率衡量了最优策略 $\pi^*$ 访问的状态-动作-指令对，在事后专家策略 $\pi_H$ 中出现的稀有程度。值越大表示稀有度越高，即 $\pi_H$ 对 $\pi^*$ 的覆盖越差。
我们定义 $\delta_E$ 为 $\pi^*$ 和 $\pi_H$ 之间的差异 (discrepancy)： $\delta_{E}=\mathbb{E}_{(\tau, o, I) \sim \rho_{\pi^{*}}}\left[\left\|\pi_{H}(\cdot \mid \tau, o, I)-\pi^{*}(\cdot \mid \tau, o, I)\right\|\right]$ 这衡量了在最优策略 $\pi^*$ 占据的区域中，事后专家策略 $\pi_H$ 与最优策略 $\pi^*$ 之间的平均动作分布差异。

目标：最小化智能体 $\pi_{\theta}$ 与最优策略 $\pi^*$ 之间的差异： $\Delta(\theta) \triangleq \mathbb{E}_{(\tau, o, I) \sim \rho_{\pi_{\theta}}}\left[\left\|\pi_{\theta}(\cdot \mid \tau, o, I)-\pi^{*}(\cdot \mid \tau, o, I)\right\|\right]$

定理 1 (专家-智能体差异的上界 - Upper Bound of Expert-Agent Discrepancy)：在上述设置下， $\begin{aligned} \Delta(\theta) & \leq \mathbb{E}_{(\tau, o, I) \sim \rho_{\pi^{*}}}\left[D_{\mathrm{KL}}\left(\pi^{*}(\cdot \mid \tau, o, I)\left\|\pi_{\theta}(\cdot \mid \tau, o, I)\right)\right]\right. \\ & \left.+C_{T} \kappa_{E \text { b }-H} \sqrt{\frac{1}{2} \mathbb{E}_{\left(\tau, o, I^{\prime}\right) \sim \rho_{\pi_{H}}}\left[D_{\mathrm{KL}}\left(\pi_{H}(\cdot \mid \tau, o, I^{\prime})\left\|\pi_{\theta}(\cdot \mid \tau, o, I^{\prime}\right)\right)\right.}\right]+C_{T} \delta_{E} \end{aligned}$ 其中 $C_T=2(T-1)$ 。

符号解释：

$\Delta(\theta)$ : 智能体策略 $\pi_{\theta}$ 和最优策略 $\pi^*$ 之间的差异 (agent-expert discrepancy)。
$\mathbb{E}_{(\tau, o, I) \sim \rho_{\pi^{*}}}[D_{\mathrm{KL}}(\pi^{*}(\cdot \mid \tau, o, I)\|\pi_{\theta}(\cdot \mid \tau, o, I))]$ : 第一项是智能体策略 $\pi_{\theta}$ 相对于最优策略 $\pi^*$ 的 KL 散度 (KL divergence) 的期望，期望是在最优策略的占据度量 $\rho_{\pi^*}$ 下计算的。这一项代表了智能体在最优策略访问的区域中与最优策略的偏差，通常通过在真实标注数据上进行 SFT 来减小。
$C_T$ : 一个与时间步长 $T$ 相关的常数，表示误差传播的系数， $C_T = 2(T-1)$ 。
$\kappa_{E \leftarrow H}$ : 最优策略 $\pi^*$ 相对于事后专家策略 $\pi_H$ 的占据度覆盖率。
$\sqrt{\frac{1}{2} \mathbb{E}_{(\tau, o, I') \sim \rho_{\pi_{H}}}[D_{\mathrm{KL}}(\pi_{H}(\cdot \mid \tau, o, I')\|\pi_{\theta}(\cdot \mid \tau, o, I'))]}$ : 这一项是智能体策略 $\pi_{\theta}$ 相对于事后专家策略 $\pi_H$ 的 KL 散度的平方根的期望，期望是在事后专家策略的占据度量 $\rho_{\pi_H}$ 下计算的。这一项代表了智能体在事后专家策略访问的区域中与事后专家策略的偏差，通过在重标记数据上进行 SFT 来减小。
$\delta_E$ : 最优策略 $\pi^*$ 和事后专家策略 $\pi_H$ 之间的平均动作分布差异。这一项代表了事后专家本身与最优策略的内在差距，理论上应尽可能小。

定理 1 的关键启示：
SFT 的双重作用：对真实标注数据进行 SFT (第一项) 和对重标记演示数据进行 SFT (第二项) 都能降低 $\pi_{\theta}$ 与 $\pi^*$ 之间的差异上界。
事后专家策略质量的重要性：差距会随着 $\pi_H$ 的占据度覆盖率 $\kappa_{E \leftarrow H}$ 和最优性 $\delta_E$ 的提高而进一步缩小。
持续更新的好处：通过使用更强的重标记模型，并持续更新重标记缓冲区 $D'$ ，可以实现更好的 $\pi_H$ 。随着智能体成功率的提高， $\rho_{\pi_H}$ 会更多地集中在 $\rho_{\pi^*}$ 有质量的区域，从而提高覆盖率。

推论 1 (HSL 严格收紧差异上界 - HSL Strictly Tightens the Discrepancy Bound)：设 $\mathcal{L}_{E}(\theta)=\mathbb{E}_{(x, I) \sim \rho_{\pi^{*}}}\left[D_{\mathrm{KL}}\left(\pi^{*}(\cdot \mid x, I) \| \pi_{\theta}(\cdot \mid x, I)\right)\right]$ 和 $\mathcal{L}_{H}=\mathbb{E}_{(x, I) \sim \rho_{\pi_{H}}}\left[D_{\mathrm{KL}}\left(\pi_{H}(\cdot \mid x, I) \| \pi_{\theta}(\cdot \mid x, I)\right)\right]$ 。定义 $B(\theta) \triangleq \mathcal{L}_{E}(\theta)+\alpha \sqrt{\mathcal{L}_{H}}+C_{T} \delta_{E}$ ，其中 $\alpha \triangleq C_{T} \kappa_{E \leftarrow H} \sqrt{\frac{1}{2}}$ 。根据定理 1，对于所有 $\theta$ ，我们有 $\Delta(\theta) \leq B(\theta)$ 。推论指出：固定 $\theta_1, \theta_2$ 且 $\mathcal{L}_{E}(\theta_1)=\mathcal{L}_{E}(\theta_2)$ （即它们对专家演示的拟合程度相同）。如果 $\mathcal{L}_{H}(\theta_1) < \mathcal{L}_{H}(\theta_2)$ ，那么 $B(\theta_1) < B(\theta_2)$ ，因此 $\Delta(\theta_1) \leq B(\theta_1) < B(\theta_2)$ 。解释：这意味着在对专家演示拟合程度相同的情况下，如果智能体能更好地拟合重标记演示，它在专家-智能体差异上的上界会更紧密。这提供了从重标记演示中学习的理论基础，表明它确实能够改进智能体的性能。

4.2.3.2. 学习技术 (Learning Techniques)

受到上述理论洞察的启发，HSL 引入了两种简单而有效的学习技术：

演示重加权 (Demonstration Reweighting)：
- 问题：一些指令 $I'$ 本身更容易实现，因此它们在重标记数据 $D'$ 中可能过度出现，这可能导致智能体偏向于解决琐碎的任务，从而导致较低的占据度覆盖率 $\kappa$ 。
- 解决方案：我们对 $D'$ 中的演示样本 $d$ 进行加权采样，权重 $w_d$ 优先考虑那些解决了更困难任务且最优性更高的轨迹。
- 权重计算公式： $w_{d}=\left(\frac{n_{d}}{T_{d}}\right)^{\alpha} \cdot n_{d}$ 其中：
  - $n_d$ : 与相关性标签 $z_u=1$ 相关联的动作数量（即轨迹中被认为是相关的动作数量）。
  - $T_d$ : 演示 $d$ 中动作的总数。
  - 比率 $\frac{n_d}{T_d}$ ：反映了任务解决的最优程度（相关动作越多，说明越有效率）。
  - $n_d$ : 作为任务难度的代理（任务越难，通常需要更多相关动作）。
  - $\alpha$ : 一个超参数，用于平衡最优性比率和任务难度。
- 通过这种方式，重加权机制有助于智能体学习更重要、更优化的行为。
不相关动作掩蔽 (Irrelevant Action Masking)：
- 问题：由于原始轨迹是在不同于重标记目标 $I'$ 的指令下收集的，因此轨迹中的某些动作可能与 $I'$ 不相关。如果盲目地对轨迹中的所有动作应用 SFT，可能会模仿一个次优的事后专家，导致较大的 $\delta_E$ 。
- 解决方案：我们对被标记为不相关 ( $z_t=0$ ) 的动作的损失进行掩蔽。这意味着只有与重标记目标相关的动作才会被用于更新模型。

4.2.3.3. 训练目标 (Training Objective)

在重标记演示上训练的损失函数定义为： $\mathcal{L}_{\theta}^{D^{\prime}}=\mathbb{E}_{d^{\prime}=\left(\tau, I^{\prime}, z\right) \sim D^{\prime}}\left[P\left(d^{\prime}\right) \cdot \frac{1}{T} \sum_{t=1}^{T}-z_{t} \cdot \log P_{\theta}\left(a_{t} \mid \tau_{t-1}, o_{t}, I^{\prime}\right)\right]$ 其中：

$d' = (\tau, I', z)$ : 一个从重标记演示缓冲区 $D'$ 中采样的演示，包含轨迹 $\tau$ 、重标记指令 $I'$ 和动作相关性标签 $z$ 。
$P(d') = \frac{w_{d'}}{\sum_{d \in D'} w_d}$ : 根据重加权机制计算的采样概率。
$z_t$ : 动作 $a_t$ 的相关性标签 (1 表示相关，0 表示不相关)。
$\log P_{\theta}(a_t \mid \tau_{t-1}, o_t, I')$ : 智能体策略 $\pi_{\theta}$ 在给定历史、观察和重标记指令下选择动作 $a_t$ 的对数概率。- 表示负对数似然损失。

结合定理 1 的建议，HSL 进一步结合了真实标注数据上的 SFT 损失，使用混合权重 $\lambda$ 。最终的学习目标是： $\mathcal{L}_{\theta}^{\mathrm{HSL}}=\lambda \mathcal{L}_{\theta}^{D^{\prime}}+(1-\lambda) \mathbb{E}_{d=(\tau, I) \sim D_{\text {train }}}\left[\frac{1}{T} \sum_{t=1}^{T}-\log P_{\theta}\left(a_{t} \mid \tau_{t-1}, o_{t}, I\right)\right]$ 其中：
$D_{\text{train}}$ : 真实标注演示数据集。
$d = (\tau, I)$ : 从真实标注演示中采样的演示。
$\lambda$ : 用于平衡重标记数据损失和真实标注数据损失的混合权重超参数。

备注：与许多现有 LLM 智能体后训练方法类似，HSL 仍然需要真实标注演示来稳定学习，以确保智能体的支持度与专家的支持度对齐。然而，实验证明 HSL 具有样本效率，仅使用少量真实标注数据即可达到或超越基线模型的性能。

5. 实验设置

5.1. 数据集

本文在两个广泛采用的智能体基准上评估 HSL，这两个基准具有不同级别的任务多样性。

5.1.1. ALFWorld

来源与特点：ALFWorld (Shridhar et al., 2020) 是一个具身智能体基准，其中 LLM 智能体在虚拟房间中导航并完成家务任务，以满足自然语言目标（例如，“将一些花瓶放入保险箱”）。
任务类型：包含多种家务任务，涉及导航、拾取、放置、清洁、加热、冷却、检查等操作。
评估设置：评估集分为“已见 (seen)”和“未见 (unseen)”两个子集。
- 已见 (seen)：在训练集中出现过的场景中执行新任务。
- 未见 (unseen)：在训练集中未出现过的房间或布局中执行任务，用于评估泛化能力。
成功标准：一个任务只有在所有目标条件都满足时才被视为成功。
任务复杂度：ALFWorld 的任务通常具有较长的时程 ( $T=40$ )，涉及多样化的有效目标集，并且每个情节中可能存在多个可实现的目标。

5.1.2. WebShop

来源与特点：WebShop (Yao et al., 2022) 是一个网络智能体基准，智能体遵循自然语言指令，导航模拟的电子商务网站并购买产品。
任务类型：单一任务类型，即购物和购买产品。
情节结束：每个情节在购买完成后结束。
奖励机制：返回一个密集奖励 $r \in [0,1]$ ，该奖励基于类型匹配、请求属性/选项的覆盖率以及价格限制。
任务复杂度：WebShop 的轨迹通常较短 ( $T=10$ )，并且每个轨迹只能实现一个目标。

数据集选择理由：由于 ALFWorld 具有更长的时程和更多样化的目标空间，智能体“意外”完成未指令任务的可能性更大，因此本文预期 HSL 在 ALFWorld 上能获得更大的收益。WebShop 则用于测试 HSL 在任务空间更窄、目标类型更单一的场景中的鲁棒性。

5.2. 评估指标

5.2.1. ALFWorld: 成功率 (Success Rate)

概念定义 (Conceptual Definition)：成功率 (Success Rate) 是衡量智能体在给定任务中，能够完全满足所有目标条件并成功完成任务的百分比。它反映了智能体完成复杂、多步骤任务的整体能力。
数学公式 (Mathematical Formula)： $SR = \frac{\text{Number of successful tasks}}{\text{Total number of tasks}} \times 100\%$
符号解释 (Symbol Explanation)：
- SR: 成功率。
- $\text{Number of successful tasks}$ : 智能体成功完成的任务数量。
- $\text{Total number of tasks}$ : 智能体尝试完成的总任务数量。

5.2.2. WebShop: 任务分数 (Task Score)

概念定义 (Conceptual Definition)：任务分数 (Task Score) 是 WebShop 基准中用于评估智能体购物任务性能的指标。它基于智能体购买产品的质量，具体衡量了产品类型匹配度、请求属性/选项的覆盖率以及价格限制的满足程度，并通过一个介于 [0,1] 之间的奖励值来量化。最终任务分数是所有情节平均奖励的 100 倍。
数学公式 (Mathematical Formula)： $TS = 100 \times \frac{1}{N} \sum_{i=1}^N r_i$
符号解释 (Symbol Explanation)：
- TS: 任务分数。
- $N$ : 总的情节数量。
- $r_i$ : 第 $i$ 个情节中智能体获得的奖励值，范围在 [0,1] 之间。

5.3. 对比基线

本文将 HSL 作为一种附加方法与多种现有后训练方法进行了比较，并包括了使用强大外部 LLM 的基线方法，以证明 HSL 收益的来源。

5.3.1. 核心后训练基线

SFT (Supervised Fine-tuning)：基线方法，通过原始数据集中的真实标注演示对智能体模型进行微调。
DPO (Direct Preference Optimization) (Rafailov et al., 2023)：本文使用的 DPO 基线是 ETO (Exploration-based Trajectory Optimization) (Song et al., 2024) 的一个变体。ETO 将 DPO 应用于智能体任务，将真实标注演示作为偏好样本，将智能体生成的失败轨迹作为非偏好样本。
SELFIMiT (Self-Imitation Learning) (Shi et al., 2023)：该方法通过智能体自身的成功轨迹进行微调。这与 HSL 的一个子目标相似，但 SELFIMiT 通常只关注原始指令下的成功轨迹。

5.3.2. 基于 LLM 的强基线 (使用 Llama-3.3-70B)

为了证明 HSL 的收益源于其重标记方法，而非仅仅使用一个强大的外部 LLM，本文引入了以下同样使用 Llama-3.3-70B 的基线：

REAct (Reasoning and Acting) (Yao et al., 2023)：该方法直接应用强大的 LLM (Llama-3.3-70B) 进行推理和动作选择，而无需额外的微调。它代表了零样本 (zero-shot) 或少样本 (few-shot) 提示 (prompting) 的直接应用。
BEHAVIORCLONE (Behavior Cloning) (Zeng et al., 2024)：该方法使用 Llama-3.3-70B 合成演示数据，然后将这些合成数据与真实标注数据合并，对智能体进行微调。这代表了一种数据增强 (data augmentation) 策略。
BAGEL (Bootstrapping Agents by Guiding Exploration with Language) (Murty et al., 2024)：这是一种离线数据合成方法。它通过智能体生成轨迹，并使用 Llama-3.3-70B 对这些轨迹进行标记和过滤，然后用合成数据和真实标注数据对智能体进行微调。与 HSL 相似的是都使用 LLM 辅助数据处理，但 BAGEL 采用离线固定数据集。

5.4. 实现细节

智能体模型 (Agent Model)：Llama-3.2-1B (Dubey et al., 2024)。
重标记模型 (Relabeling Model)：Llama-3.3-70B (Dubey et al., 2024)。
超参数 (Hyperparameters)：
- 混合权重 $\lambda = 0.3$ 。
- 重加权指数 $\alpha = 0.8$ 。
- 重标记数据集缓冲区 $D'$ 大小：100。
- 每次优化步骤后收集和重标记的轨迹数量 $b = 18$ 。新轨迹添加到 $D'$ 中，同时移除最旧的条目以保持缓冲区大小。
- 学习率 (Learning Rate)： $2 \times 10^{-5}$ 。
- 批次大小 (Batch Size)：32。
- 优化器 (Optimizer)：AdamW (Loshchilov & Hutter, 2017)。
- 训练周期 (Epochs)：所有微调运行持续 3 个周期。
训练流程：
- SFT+HSL：首先使用 SFT 在真实标注演示上训练 Llama-3.2-1B，然后使用公式 (4) 中定义的 $\mathcal{L}_{\theta}^{\mathrm{HSL}}$ 目标进行微调。
- DPO+HSL：遵循 ETO (Song et al., 2024) 的方法。首先用 HSL 对智能体进行微调，然后继续使用 DPO 目标进行微调。
计算资源：所有微调实验均使用 8 块 NVIDIA A100 GPU，并在一天内完成。

5.5. 提示词 (Prompts)

本文在附录 C 中提供了用于重标记过程的提示词，这些提示词是辅助 LLM 进行目标识别和动作相关性标记的关键。

5.5.1. ALFWorld 的目标推理提示 (Goal inference prompt for ALFWorld)

如下图（原文 Figure 7）所示，ALFWorld 的目标推理提示将辅助 LLM 设定为“AlfWorld 的目标推理助手”。它要求 LLM 根据动作和观察序列，追踪智能体的当前位置和库存，并从预定义的目标模板中识别并记录已完成的目标。

You are a goal-inference assistant for AlfWorld. Given a sequence of Actions and Observations, track the agent's Location and Inventory after each step, then derive and record any goals from the templates below that have been completed. A trajectory may achieve multiple goals or none.

1. After each Action/Observation pair:
   (1) update the agent's Location and Inventory. Invalid actions (e.g., using or dropping an object the agent doesn't have) leave both unchanged. You should determine if the action has any effect based on the given Observation!
(2) Then check whether any of the goal templates have been satisfied by the agent's actions up to that point. When a goal is achieved, add it to the running list of Reached goal values and keep that list for subsequent steps.
(3) Do not summarise or skip any steps, even if the observation is identical to previous ones.
2. Hide all object IDs; refer to objects and receptacles only by their type names (e.g. "mug", "knife", "drawer"), never by numeric or alphanumeric identifiers.
3. Inventory format: list each inventory item by type, repeating names for duplicates (e.g. [mug, knife, knife]).
4. At the end, output Final goal: followed by the list of all goals achieved (e.g. [goalA, goalB]). If no goals were achieved, set Final goal: to a brief description of the agent's behaviour.
   Allowed goal templates (with their intended behaviours):

- put a [object] in [receptacle] / put some [object] on [receptacle] - Pick & Place: - the agent must find an object of the desired type, pick it up, find the correct location to place it, and put it down there.
- look at [object] under the [lamp] / examine the [object] with the [lamp] - Examine in Light: - the agent must find an object of the desired type, locate and turn on a light source with the desired object in-hand
- put a clean [object] in [receptacle] / clean some [object] and put it in [receptacle] - Clean & Place: the agent must find an object of the desired type, pick it up, go to a sink or a basin, wash the object by turning on the faucet, then find the correct location to place it, and put it down there.
- put a hot [object] in [receptacle] / heat some [object] and put it in [receptacle] - Heat & Place: the agent must find an object of the desired type, pick it up, go to a microwave, heat the object turning on the microwave, then find the correct location to place it, and put it down there.
- put a cool [object] in [receptacle] / cool some [object] and put it in [receptacle] - Cool & Place: the agent must find an object of the desired type, pick it up, go to a fridge, put the object inside the fridge and cool it, then find the correct location to place it, and put it down there.
- put two [object] in [receptacle] / find two [object] and put them in [receptacle] - Pick Two & Place: the agent must find an object of the desired type, pick it up, find the correct location to place it, put it down there, then look for another object of the desired type, pick it up, return to previous location, and put it down there with the other object.
  Output format (exactly): Return a single JSON list. Each element of the list should be a JSON object with the following structure for each step:

该图像是一个JSON格式的示例，展示了强化学习代理在某一步的状态信息，包括步骤编号、动作、观察、推理、位置、库存及达到的目标等字段。

图 7: ALFWorld 的目标推理提示 (Goal inference prompt for ALFWorld)

5.5.2. ALFWorld 的动作相关性标记提示 (Action relevance labeling prompt for ALFWorld)

如下图（原文 Figure 8）所示，ALFWorld 的动作相关性标记提示将辅助 LLM 设定为“AlfWorld 的步骤相关性分类器”。它要求 LLM 针对每个步骤，判断其对于实现给定目标是否必要。

You are a step-relevance classifier for AlfWorld. Given a goal and a sequence of actions, observations, with location and inventory derived by a model, decide for each step whether it is necessary to achieving the goal. A step is "relevant" if it is a necessary prerequisite or directly advances toward the goal; actions that involve the wrong objects, revisit unrelated locations, or otherwise do not help achieve the goal are "irrelevant". Some goals may require exploration in the early stage to find the relevant objects, and intermediate tasks such as heating, cooling, cleaning, examining, or finding an object. For each step, provide a brief chain of thought to explain how you judged the step relevant or irrelevant. Do not summarise or skip any steps, even if the observation is identical to previous ones.
Output format (exactly): Return a single JSON array. For each step, output an object with these fields:

```json
{
    "step": <number>,
    "action": "<provided action>",
    "observation": "<provided observation>",
    "location": "<provided location>",
    "inventory": ["<item>", ],
    "reasoning": "<analyze the effect and function of the action,
    then analyze whether it's necessary to achieving the goal>"
    "is_relevant_to_goal": "yes" | "no",
}

图 8: ALFWorld 的动作相关性标记提示 (Action relevance labeling prompt for ALFWorld)

5.5.3. WebShop 的目标推理提示 (Goal inference prompt for WebShop)

如下图（原文 Figure 9）所示，WebShop 的目标推理提示将辅助 LLM 设定为“Webshop 的目标推理助手”。它要求 LLM 根据完整的轨迹（动作和观察），推断用户意图并成功购买的产品信息。

You are a goal-inference assistant for Webshop. Given a full trajectory with Actions (search or click) and Observations (page text, system message), infer what user's intended and also succesfully purchased:

- product (str) - generic product type; ignore brand/manufacturer and DON'T copy the full title. Prefer the head noun from category/title
- attributes (list) - short descriptive phrases from title/description; not clickable (e.g., ["portable", "mid-century style"]). NOT brand.
- options clicked (dict) - the literal option texts the agent clicked on this product, in click order (e.g., <size> | <color> | <quantity>). Do not invent labels or pairs; just copy the clicked option strings.
- quantity (str|null) - the chosen quantity if it was explicitly clicked; otherwise 1.
- price (number) - the price of the selected product/variant

  Derive procedure:

1. Extract the exact 'query' string(s) from search actions.
2. Derive 'selected' (extracting 'product', 'attributes', 'options', 'quantity', and 'price') from clicks + final product page. Note: clicking an non-existing product select nothing!
3. 'selected price': copy the exact per-item price number shown on the final product page after the last option click. If it's a range, copy the upper bound.
4. 'query satisfaction' (compare 'query' vs 'selected'). verify that all requirements in the 'query' are satisfied by 'selected'; Spot any contradiction.
5. 'purchase success' (based on purchase completion): purchase success = true only if Observations confirm a terminal purchase action took effect.
   Output format (exactly): Return a single JSON array. For each step, output an object with these fields:
```json
{
    'query': <extract the exact queries from search actions>,
    'selected': <product type| attributes... | options_clicked...

    | quantity | price>,

    'selected_price': <number>,
    'reasoning': <brief analysis of whether ALL query requirements
    are satisfied and any contradictions>,
    'query_satisfaction': True | False
    'purchase_success': True | False,
}

图 9: WebShop 的目标推理提示 (Goal inference prompt for WebShop)

5.5.4. WebShop 的动作相关性标记提示 (Action relevance labeling prompt for WebShop)

如下图（原文 Figure 10）所示，WebShop 的动作相关性标记提示将辅助 LLM 设定为“WebShop 的步骤相关性分类器”。它要求 LLM 针对每个步骤，判断其动作是否对最终的购买行为是必需的。

You are a step-relevance classifier for WebShop. Input:

- 'target intention' (JSON): the shopping intention.
- 'trajectory': ordered steps; each step has:
- 'Action': the web action by user.
- 'Observation': the observsation returned by the web server after the action.
- 'current intention' (JSON): intention inferred up to this step.

  Decide per step (in hindsight) whether or not: (1) Did 'current intention' change vs the previous step? Summarize the delta; else none. (2) If no change: was the action needed for the eventual purchase path? Needed = removing it would break what actually led to purchase. Not needed = no observable effect, dead ends later abandoned, toggles undone before use, unrelated clicks, no-ops.
Judge ONLY from observation-confirmed effects + the provided state. Do not skip steps.
Rules

- Use only observation-confirmed effects and the provided state.
- Judge every step; don't skip.
- 'relevance' = yes iff (1) intention changed or (2) action was needed.

  Output format (exactly): Return a single JSON array; one object per step:
```json
{
    "step": <number>,
    "action": "<exact provided action>",
    "intention_delta": "<concise diff or 'none'>",
    "needed_for_purchase": "<explain whether the action is necessary
    to the purchase behavior>",
    "relevance": "yes" | "no"
}

图 10: WebShop 的动作相关性标记提示 (Action relevance labeling prompt for WebShop)

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 性能对比 (Table 1)

以下是原文 Table 1 的结果，展示了 HSL 和其他相关方法在 ALFWorld 和 WebShop 上的性能。

Method	ALFWorld		WebShop
	seen	unseen
REACT (Yao et al., 2023)	33.57	20.90	48.37
BEHAVIORCLONE (Zeng et al., 2024)	83.57	88.81	65.19
BAGEL (Murty et al., 2024)	84.29	91.79	62.18
SELFIMiT (Shi et al., 2023)	84.29	76.87	58.37
SFT	82.14	78.36	63.81
DPO (Song et al., 2024)	85.71	82.84	69.54
SFT+HSL (Ours)	93.57	97.76	66.97
DPO+HSL (Ours)	92.86	94.78	70.52

表 1: 在 ALFWorld 和 WebShop 上的性能 (Performance on ALFWorld and WebShop).

分析：

HSL 的显著提升： $SFT+HSL$ $SFT + H S L$ 和 $DPO+HSL$ $D PO + H S L$ 在 ALFWorld 和 WebShop 上都取得了显著且一致的性能提升。
- 在 ALFWorld (seen) 上， $SFT+HSL$ 将成功率从 SFT 的 82.14% 提升到 93.57%， $DPO+HSL$ 将 DPO 的 85.71% 提升到 92.86%。
- 在 ALFWorld (unseen) 上，提升更为显著， $SFT+HSL$ 达到了 97.76%，而 SFT 仅为 78.36%。这表明 HSL 极大地增强了智能体的泛化能力。
- 在 WebShop 上， $DPO+HSL$ 达到了最高的任务分数 70.52%，略高于 DPO 的 69.54%。 $SFT+HSL$ 也表现良好，但略低于 DPO。
任务特异性效果：HSL 在 ALFWorld 上获得了更大的收益，这与预期一致。ALFWorld 涉及更长的任务时程和更多样化的有效目标集，智能体更有可能“无意中”实现未指令的任务，从而从重标记中获益更多。WebShop 的任务类型较单一，轨迹较短，因此 HSL 的提升幅度相对较小，但也证明了其鲁棒性。
LLM-based 基线对比：
- REACT (33.57% / 20.90% / 48.37%) 表现远低于所有微调方法，这验证了本文的观点：直接预测动作本身比事后重标记更具挑战性，即使使用强大的 LLM (Llama-3.3-70B)。
- BEHAVIORCLONE 和 BAGEL 虽然也使用了外部 LLM (Llama-3.3-70B) 来增强智能体，但它们的性能仍显著低于 $SFT+HSL$ $SFT + H S L$ 。
  - BAGEL 在 ALFWorld 上略微改善了 SFT (84.29% vs 82.14%)，但在 WebShop 上甚至低于 SFT。这表明持续更新重标记数据对于目标智能体的重要性，如第 3.4 节理论分析所指出的，在线更新使事后分布与智能体的演化占据度对齐。
- SELFIMiT 未能超越 SFT，这强调了挖掘所有成功演示（包括未指令目标）的重要性，而不仅仅是智能体自身原始指令下的成功轨迹。

6.1.2. 样本效率 (Sample Efficiency)

如下图（原文 Figure 3）所示，HSL 的样本效率在 ALFWorld 和 WebShop 上的表现。

该图像是实验结果图表，展示了在ALFWorld（已见和未见环境）以及WebShop任务中，不同训练方法随演示样本数量变化的性能表现。图中比较了SFT、DPO及其与Hindsight Supervised Learning (HSL) 结合的效果，显示HSL显著提升了成功率和奖励值。

图 3: HSL 与不同后训练方法的样本效率 (Sample efficiency of HSL with different post-training methods).

分析：

ALFWorld 上的显著提升：在 ALFWorld 上，无论是在“已见 (seen)”还是“未见 (unseen)”分割中，HSL 添加到 SFT 或 DPO 后，成功率都持续且显著提高，即使在相同真实标注数据预算下。
- 特别是在“未见 (unseen)”分割中，HSL 的改进尤为突出。在 800 个演示数据时，HSL 几乎使 SFT 的性能翻倍；在 1,600 个演示数据时，几乎使 DPO 的性能翻倍。这表明 HSL 有效地促进了泛化能力。
- 关键发现：HSL 仅使用不到四分之一的真实标注数据，就能超越在完整数据集上训练的 SFT 或 DPO 基线模型。例如， $DPO+HSL$ 在 ALFWorld (Unseen) 上仅用 800 个真实标注演示就达到了 92.5% 的成功率，而 DPO 即使使用超过 3,200 个演示也仅达到 82.8%。
WebShop 上的趋势：在 WebShop 上，尽管改进幅度较小，但趋势与 ALFWorld 相似。
结论：HSL 对开放式任务（如 ALFWorld）尤其有效，这些任务具有多样化的目标类型，智能体更有可能“意外”完成未指令任务，从而从重标记中受益更多。

6.2. 消融实验 (Ablation Studies)

本文进行了消融实验，以量化 HSL 各个组件和技术的贡献。实验变体包括：

RELABELFAILURE：仅重标记失败轨迹的最终达成目标，类似于现有强化学习文献中的事后生成方法。
UNIWEIGHT：均匀采样重标记演示，不进行任何重加权。
NOMASK：不应用不相关动作掩蔽。

如下图（原文 Figure 4）所示，消融实验结果在 ALFWorld 上的表现。

该图像是论文中关于ALFWorld环境下目标类型分布及Hindsight Supervised Learning（HSL）性能的柱状图。图中展示了不同目标类型（put, clean, heat, cool, examine, put-two）在重标记（Relabeled）、训练（Train）、评估（Eval）数据中的百分比及其对应成功率（Success rate）。

图 4: ALFWorld 上不同真实标注演示数量下的消融实验 (Ablation studies with different numbers of ground truth demonstrations on ALFWorld).

分析：

移除任何组件都会降低性能：这证实了 HSL 中所有组件的有效性。
UNIWEIGHT (移除演示重加权)：在“已见 (seen)”分割中，性能下降较小。但在“未见 (unseen)”分割中，UNIWEIGHT 的性能明显更差。这表明增加定理 1 中事后专家占据度覆盖率对于促进泛化至关重要。
NOMASK (移除不相关动作掩蔽)：在真实标注演示最少的情况下，NOMASK 的性能下降最为显著。这可能是因为基础智能体较弱时，会执行大量不必要的动作（例如，重复访问一个容器），这些动作对于重标记目标没有帮助。这强调了需要一个更强的“事后专家”来提出更优化的动作。
RELABELFAILURE (仅重标记失败轨迹的最终目标)：该方法始终明显差于完整模型，并且不从额外的真实标注演示中获益。这是因为随着基础智能体能力的提升，失败轨迹会减少。这验证了 HSL 挖掘所有中间目标（即使对于原始指令成功的情节）的决策的重要性。

6.3. 定性分析：理解 HSL 的有效性和局限性

为了更深入理解重标记演示及其学习效果，本文对 ALFWorld 进行了定量和定性分析。重点关注在 800 个真实标注演示下训练的 $SFT+HSL$ 模型。

6.3.1. 目标类型分布和成功率 (Figure 5)

如下图（原文 Figure 5）所示，ALFWorld 中目标类型的分布及 $SFT+HSL$ 的成功率。

该图像是论文中关于ALFWorld环境下目标类型分布及Hindsight Supervised Learning（HSL）性能的柱状图。图中展示了不同目标类型（put, clean, heat, cool, examine, put-two）在重标记（Relabeled）、训练（Train）、评估（Eval）数据中的百分比及其对应成功率（Success rate）。

图 5: 上图：重标记与真实标注演示中的目标类型分布。下图：SFT+HSL 在不同目标类型上的成功率 (Top: Distribution of the goal types in relabeled and ground-truth demonstrations. Bottom: Success rate of SFT+HSL across different goal types).

分析：

增强的目标类型：在重标记数据中，put (放置) 目标被增强得最多，智能体在 put 任务上达到了近乎完美的性能。对于 clean (清洁)、heat (加热) 和 cool (冷却) 目标，它们在重标记数据中的比例接近真实标注数据，智能体也实现了超过 80% 的成功率。
代表性不足的目标类型：examine (检查) 和 put-two (放置两个) 在重标记演示中的代表性不足。尽管 put 和 put-two 在真实标注数据中出现频率相似，但重标记数据中 put 的数量几乎是 put-two 的两倍。examine 在重标记数据中占比不到 5%。
- 原因分析：这很可能是因为 put 是 put-two 的一个子任务，而 examine 是训练数据中最长尾的目标（少于 10%），智能体很少偶然实现。
性能差异：结果是，智能体在 examine 上的成功率最低，为 54.85%，而在 put-two 上的表现也明显落后于 put。这表明重标记数据的分布会影响智能体在不同目标类型上的表现。

6.3.2. 重标记演示的质量 (Figure 6)

如下图（原文 Figure 6）所示，ALFWorld 中重标记演示的两个例子（正确和不正确）。

图 6: ALFWorld 中重标记演示的两个例子（正确和不正确）。每个例子展示了智能体轨迹以及重标记器对应的输出（重标记目标和动作相关性）(Two examples (correct and incorrect) of relabeled demonstrations in ALFWorld. Each shows agent trajectories with the corresponding outputs (relabeled goals and action relevance) by the relabeler).

分析：

高准确率：随机抽取 50 个重标记演示进行人工验证，其中 46 个是正确的，准确率为 92%。这有助于解释 HSL 训练的 LLM 智能体为何表现出色。
零样本推理的有效性：重标记是在零样本 (zero-shot) 设置下进行的，但其准确性远高于使用上下文示例预测动作的 REAct 方法。这进一步支持了“事后重标记轨迹比执行任务本身更容易”的假设。
错误案例分析：图 6 (右侧) 展示了一个不正确的重标记示例。原始目标是“将一个冷的番茄放入冰箱”。重标记器将其标记为“将一个冷的番茄放入冰箱”。然而，智能体在第 32 步只是“冷却番茄 1”，但从未将其放入冰箱。这意味着只有重标记目标的一个子任务被满足，而不是整个目标。这揭示了重标记模型的潜在局限性，即在某些情况下可能无法完全准确地捕捉所有目标条件。

6.4. 总结

结合理论分析、实证结果和定性分析，这些发现表明 HSL 通过将嘈杂的智能体轨迹转化为事后专家的优质演示，以样本高效的方式缩小了智能体与专家策略之间的差距。然而，改进的幅度取决于事后专家的最优性和覆盖率，以及任务特性，例如多样性和每个轨迹的任务数量。

7. 总结与思考

7.1. 结论总结

本文提出了事后监督学习 (Hindsight Supervised Learning, HSL)，这是一种样本高效的学习框架，它通过重新标记智能体实际达成的目标来利用智能体生成的轨迹，并从这些重新标记的演示中进行学习。通过结合不相关动作掩蔽 (irrelevant-action masking) 和样本重加权 (sample reweighting) 机制，HSL 有效提升了重标记数据的覆盖率和质量。

在 ALFWorld 和 WebShop 这两个具身和网络智能体基准上的综合实验证明，HSL 能够持续显著地提升现有 SFT 和 DPO 方法的性能，同时大幅减少对昂贵真实标注演示数据的依赖。特别是在 ALFWorld 这种任务多样性高、时程长的环境中，HSL 表现出更强的泛化能力和样本效率。

这些发现强调了将智能体“无意中”达成的成就视为有价值监督信号的重要性，为开发更数据高效、能自我改进的 LLM 智能体开辟了新的途径。

7.2. 局限性与未来工作

本文的作者指出了 HSL 方法的以下局限性，并展望了未来的研究方向：

7.2.1. 现有方法的局限性

对外部 LLM 推理能力的依赖 (Reliance on external LLM for zero-shot relabeling)：
- 局限：当前方法依赖一个强大的外部 LLM 进行零样本 (zero-shot) 重标记，没有对其进行微调。这意味着其性能受限于所用 LLM 的零样本推理能力。对于更复杂的任务，重标记模型可能需要进一步的适应和优化。
- 未来工作：探索联合学习重标记模型和 LLM 智能体的方法，使其能相互促进。
动作相关性标记的粒度 (Granularity of action relevance labeling)：
- 局限：目前将轨迹中的每个动作标记为“相关”或“不相关”，这是一种黑白分明的相关性概念。但在复杂环境中，一个动作可能相关但不是最优的。例如，多次单独购买商品效率低于一次性加入购物车结算。
- 未来工作：引入更细粒度的相关性概念，这可能需要对重标记模型进行微调，使其扮演奖励函数或价值函数 (value function) 的角色。
重标记目标分布与原始数据集的匹配 (Goal distribution mismatch)：
- 局限：尽管演示重加权改进了智能体性能，且许多目标类型在重标记数据中得到了很好的表示，但最终分布与原始数据集中的目标类型分布并非完全匹配。HSL 主要以样本高效的方式利用探索，而不是增加探索的多样性。
- 未来工作：需要进一步的工作来增加探索的多样性和深度。
对真实标注演示的依赖 (Reliance on ground-truth demonstrations)：
- 局限：HSL 仍需要真实标注演示来稳定训练，以确保智能体的支持度与专家的支持度对齐。这是许多其他后训练方法的共同局限。
- 未来工作：开发更强的探索策略，使 HSL 能够在没有任何真实标注演示的情况下运行。

7.2.2. 实验的局限性

基础 LLM 智能体和任务范围 (Base LLM agent and task scope)：
- 局限：本文使用 Llama-3 作为基础 LLM 智能体，并在 ALFWorld 和 WebShop 两个标准基准上进行了评估。由于时间和计算资源的限制，以及缺乏任务特定的真实标注演示，未涵盖更强大的基础 LLM 或更多的智能体任务。许多 GUI 智能体基准缺乏交互式环境或真实标注演示，即使有，环境设置也常资源密集。
- 未来工作：在更广泛的基础 LLM 和更多样的智能体任务上验证 HSL。
任务特性对 HSL 收益的影响 (Impact of task characteristics on HSL gains)：
- 局限：实验表明，HSL 在短时程、目标空间狭窄的任务上收益较小。
- 展望：预期在具有多样化目标的更开放式环境中，LLM 智能体需要适应更广泛的任务分布时，HSL 将带来更大的收益。

7.3. 个人启发与批判

7.3.1. 个人启发

事后学习的普适性：HSL 将事后经验回放的思想从传统的强化学习（通常是基于状态的）扩展到以语言为核心的 LLM 智能体，这表明“从失败中学习”并重新解释经验的范式具有更广泛的适用性。这种思想不仅限于智能体训练，也可能启发其他需要从次优或噪声数据中提取有用信号的场景。
LLM 的双重角色：LLM 在 HSL 中扮演了双重角色：既是学习者（智能体），又是教师/评估者（重标记模型）。这种“自我监督”或“内省”的能力是 LLM 独特且强大的优势。它利用 LLM 卓越的零样本推理能力来完成传统的奖励建模或状态解析任务，极大地简化了复杂的 RL 管道。
数据效率的重要性：在现实世界中，高质量的专家演示数据总是稀缺且昂贵的。HSL 通过有效地将智能体的探索经验转化为有价值的监督信号，显著提高了数据效率。这对于推动 LLM 智能体在实际应用中的落地具有重要意义，尤其是在机器人、自动化等需要大量交互数据的领域。
模型内省的潜力：通过让 LLM 智能体“回顾”自己的行为并评估其结果，HSL 实际上赋予了智能体一种内省的能力。这种内省机制未来可能发展为更复杂的自我修正、自我改进循环，使智能体能够更自主地学习和适应。

7.3.2. 批判与潜在改进

重标记模型的能力瓶颈：尽管论文声称重标记比执行任务容易，且 Llama-3.3-70B 在零样本下表现出 92% 的准确率，但重标记模型的局限性（例如未能识别出“冷却番茄”而没有“放入冰箱”的错误）仍然是 HSL 的一个潜在瓶颈。如果重标记模型本身不够鲁棒或其推理能力不足以应对复杂情境，那么重标记数据的质量就会下降，从而限制整个框架的性能。未来的工作需要探索如何提升重标记模型的准确性和鲁棒性，例如通过少量样本 (few-shot) 提示、针对性微调或引入人类反馈 (Human Feedback)。
目标定义与粒度：论文中定义的目标是离散的自然语言指令。但在更开放或模糊的任务中，如何准确地定义和识别“实际达成的目标”可能是一个挑战。此外，如论文所提及，动作相关性的二元化（相关/不相关）可能过于简单。引入更细粒度、连续的动作相关性评估，甚至学习一个基于 LLM 的奖励函数来评估每个动作对目标达成度的贡献，可能会进一步提升效果。
探索策略的局限：HSL 依赖于智能体自身的探索来生成轨迹。如果智能体的初始探索能力很弱，或者环境非常稀疏，它可能很难生成足够多样化的“无意成功”轨迹。论文也提及需要真实标注演示来稳定学习，这暗示了初始探索的不足。未来的研究可以结合更先进的探索策略（如内在动机、好奇心驱动探索）来增强智能体的探索能力，从而减少对初始真实标注数据的依赖，甚至实现完全无监督的学习。
计算资源消耗：使用 Llama-3.3-70B 这种大型模型作为重标记器，虽然效果显著，但其推理成本（时间和计算资源）也是巨大的。这限制了 HSL 在资源受限环境中的应用。探索更高效的重标记策略，例如使用较小的模型进行重标记、分层重标记或利用模型蒸馏 (model distillation) 等技术，是重要的研究方向。
泛化能力与新颖性目标：尽管 HSL 在“未见”环境中表现出色，但其重标记的目标仍受限于 LLM 对“有效目标空间”的理解。如果智能体在探索中达成了一个全新的、重标记模型从未见过的目标，它可能无法被正确识别。如何让智能体和重标记模型都能识别并学习到真正新颖的目标，是一个更深层次的挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。