VestaBench: An Embodied Benchmark for Safe Long-Horizon Planning Under Multi-Constraint and Adversarial Settings
TL;DR 精炼摘要
本文提出了VestaBench,一个新基准,用于评估在多约束和对抗环境下的安全长程规划。该基准通过VirtualHome和BEHAVIOR-100构建,包含安全可执行卡任务和必须避免的对抗指令。实验表明,现有的大型语言模型在此类任务中表现不佳,成功率低且安全性显著受损。
摘要
Large language models (LLMs) are applied to reasoning and (automated) planning across diverse domains, from travel itineraries to embodied AI tasks. However, concerns have been raised about their suitability for long-horizon tasks involving multiple constraints, as they are prone to hallucinations, particularly in adversarial scenarios. Safety reasoning also becomes critical for embodied AI agents, which interact with their physical environments to complete tasks on behalf of humans. However, existing (safety) benchmarks fail to represent a diverse range of multi-constraint tasks that require long-horizon planning with a focus on safety. To address this, we propose VESTABENCH, a benchmark curated using VirtualHome and BEHAVIOR-100. Our VESTABENCH includes (1) tasks that can be achieved safely under adversarial and multi-constraint settings, as well as (2) adversarial instructions that the agent must avoid. Our experiments with state-of-the-art LLM-based baselines reveal that they perform poorly against our tasks, not only achieving low success rates but also suffering significantly compromised safety outcomes. This observation reinforces the limitations of LLMs in generating safe plans when faced with adversarial settings or instructions. Finally, we believe that our findings benefit the research and industry communities.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
VestaBench: An Embodied Benchmark for Safe Long-Horizon Planning Under Multi-Constraint and Adversarial Settings (VestaBench:一个用于多约束和对抗性设置下安全长程规划的具身智能基准)
1.2. 作者
Tanmana Sadhu*, Yanan Chen*, and Ali Pesaranghader
- 隶属机构: LG Electronics, Toronto AI Lab, Toronto, Canada
- 注: 作者均为 LG 电子多伦多 AI 实验室的研究人员。
1.3. 发表期刊/会议
EMNLP 2025 (Industry Track)
- 全称: The 2025 Conference on Empirical Methods in Natural Language Processing
- 地位: 自然语言处理(NLP)领域的顶级国际会议之一。发表在 Industry Track(工业赛道)意味着该研究具有较强的应用背景或旨在解决实际工业界遇到的问题。
1.4. 发表年份
2025年 (具体发布时间为 2025-10-31 UTC)
1.5. 摘要
大型语言模型(LLM)正被应用于各类推理和自动规划任务,包括具身智能(Embodied AI)。然而,在涉及多重约束的长程任务中,尤其是在对抗性场景下,LLM 容易产生幻觉,其安全性备受关注。现有的安全基准缺乏对“既需要长程规划又必须兼顾安全的多约束任务”的覆盖。为此,作者提出了 VESTABENCH,一个基于 VirtualHome 和 BEHAVIOR-100 构建的基准。该基准包含:(1)在对抗和多约束设置下可安全完成的任务;(2)智能体必须拒绝执行的对抗性指令。实验表明,最先进的 LLM 基线模型在这些任务上表现糟糕,不仅成功率低,而且安全性严重受损。
1.6. 原文链接
-
状态: 已正式发表。
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 随着 LLM 被用于控制机器人在物理世界中执行任务(即具身智能),安全性(Safety) 成为了关键瓶颈。
- 现有挑战:
- LLM 容易产生幻觉(Hallucinations),即生成不符合事实或物理规律的计划。
- 在现实世界中,环境可能具有对抗性(Adversarial Environments)(例如,物品被放置在不合常理的位置),或者用户可能发出恶意/危险的指令(Adversarial Instructions)。
- 现有的基准测试(Benchmarks)存在两极分化:要么只关注任务完成率(忽略安全),要么只关注识别危险指令(忽略长程规划)。缺乏一个能同时评估长程规划能力、多重约束处理能力和安全性的综合基准。
- 创新思路: 构建一个专门设计的基准测试集,其中的任务不仅步骤繁多(长程),而且包含物理、电气、火灾等多种安全隐患,并且特意设置了具有挑战性的环境和指令,以全面“压力测试”LLM 智能体。
2.2. 核心贡献/主要发现
- 核心贡献:
- 提出了 VESTABENCH,这是第一个支持长程、多约束规划,并包含对抗性环境和指令的家庭家务任务基准。
- 构建了两个数据集:VestaBench-VH(基于 VirtualHome 模拟器)和 VestaBench-B50(基于 BEHAVIOR-100 基准)。
- 评估了多种规划策略(如 One-go, Stepwise, ReAct, Reflexion)。
- 主要发现:
-
即便是最先进的 LLM(如 GPT-4.1-Mini, Qwen3),在面对对抗性设置或指令时,生成安全计划的能力也非常有限。
-
重规划(Replanning) 策略虽然能提升一点性能,但成本高昂且效率低。
-
在提示词(Prompt)中加入明确的安全指南(Safety Guidelines) 对提升安全性至关重要,一旦移除,性能显著下降。
下图(原文 Figure 1)展示了一个典型的 VestaBench 任务示例,说明了智能体需要在满足多个安全约束的前提下完成长程任务(如清洗、加热三文鱼)。
该图像是步骤执行计划的示意图,展示了在厨房环境中执行的任务,包括清洗、加热三文鱼及放置的系列动作。图中分为环境状态和具体执行步骤,强调了安全问题,如当水龙头开启和微波炉开启时的潜在风险。
-
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,初学者需要掌握以下概念:
- 具身智能 (Embodied AI): 指不仅仅处理文本,而是拥有物理实体(如机器人)或在虚拟模拟器中拥有身体的 AI。它需要感知环境(看)、规划动作(想)并改变环境状态(做)。
- 长程规划 (Long-Horizon Planning): 指完成一个任务需要执行很长的一系列步骤。例如,“做一杯咖啡”可能涉及:走向柜子 -> 打开柜子 -> 拿杯子 -> 走向咖啡机 -> 放杯子 -> 操作机器等十几个步骤。步骤越多,中间出错的概率越大。
- 对抗性环境 (Adversarial Environment): 指环境的状态被故意设置得具有迷惑性或阻碍性。例如,任务是“烤面包”,但面包不在桌子上,而是被藏在了微波炉里,或者微波炉的门是坏的。这要求智能体具有更强的探索和推理能力。
- 对抗性指令 (Adversarial Instruction): 指用户发出的指令本身包含陷阱或危险。例如:“把正在运行的烤面包机扔进浴缸里”。智能体必须识别这种指令并拒绝执行,而不是盲目顺从。
- 幻觉 (Hallucination): 在具身智能中,指 LLM 生成了环境里不存在的物体,或者试图执行物理上不可能的动作(例如在没打开冰箱门的情况下拿取里面的牛奶)。
3.2. 前人工作
- 任务规划基准:
- ALFWorld: 一个经典的具身指令遵循基准,但主要关注任务是否完成,较少关注复杂的安全约束。
- BEHAVIOR-1K: 提供了大量逼真的家务活动,但缺乏针对“对抗性”场景的专门设计。
- 安全基准:
- SafeAgentBench & Agent-SafetyBench: 侧重于评估智能体的安全意识,但很多是基于文本的选择题或短任务,缺乏结合长程规划的复杂场景。
- EARBench: 涉及物理风险,但没有明确的安全标注。
3.3. 差异化分析
下表(原文 Table 1)清晰地展示了 VESTABENCH 与现有基准的区别。 核心区别: VESTABENCH 是唯一一个同时包含多约束(Multi-Constraint)、对抗性指令、对抗性环境,并且保证任务在理论上是可安全完成(Safely Achievable) 的基准。
| Benchmark | Task Category | Num. Tasks | Planning Complexity | Multi-Constraint | Adversarial Instructions | Adversarial Environments | Safety | Safely Achievable |
|---|---|---|---|---|---|---|---|---|
| ALFWorld | Household | 274 | L, M, H | √ | × | × | × | |
| BEHAVIOR-1K | Household | 1,000 | L, M, H | √ | × | × | ||
| LoTa-Bench | Household | 308 | L, M | × | × | × | × | |
| EmbodiedBench | Household | 1,128 | L, M | × | × | × | × | |
| SafeAgentBench | Household | 750 | L, M | √ | × | × | × | |
| EARBench | Miscellaneous | 1,318 | L, M, H | √ | × | √ | √ | √ |
| SafePlan-Bench | Household | 2,027 | L, M, H | × | √ | √ | ||
| Agent-SafetyBench | Miscellaneous | 2,000 | — | * | × | L | ||
| AgentSafe | Household | 9,990 | L, M, H | √ | √ | × | √ | √ |
| VeStaBeNcH (Ours) | Household | 150 | L, M, H | √ | √ | √ | √ | √ |
4. 方法论
4.1. 数据集构建原理
作者通过两个主要来源构建了 VestaBench,涵盖了不同的风险类别。
-
VestaBench-VH (基于 VirtualHome):
- 包含 100 个任务。
- 构成: 70 个任务处于正常或对抗性环境;30 个任务包含对抗性指令(即智能体必须识别并拒绝执行,输出
[Avoid])。 - 风险类别: 物理危害、电气危害、火灾危害、健康风险、水危害。
- 特点: 使用 VirtualHome 的 Evolving Graph Simulator,允许细粒度的状态变化。
-
VestaBench-B50 (基于 BEHAVIOR-100):
-
包含 50 个任务。
-
增强: 借用了 Embodied Agent Interface 的模拟器层,增加了 30 种可改变对象状态的动作,并手动增强了安全约束。
下图(原文 Figure 2)展示了 VestaBench-VH 中各类风险的分布情况,物理危害和电气危害最为常见。
该图像是一个饼图,展示了不同类型的安全风险分布。其中,物理危害占32.3%,电气危害占30.7%,健康风险占15.0%,火灾危害占14.2%,水危害占7.9%。
-
4.2. 规划框架详解
本节详细拆解智能体如何进行规划。作者形式化定义了问题,并提出了两种主要的规划策略。
4.2.1. 问题定义 (Problem Definition)
给定一个任务指令 和环境信息,智能体 需要生成一个计划 。
- 计划 : 定义为一个动作序列 ,其中每个动作 属于预定义的动作空间 。
- 执行与评估: 计划由模拟器 执行。执行成功后,环境状态更新为图 。
- 成功与安全: 只有当 同时满足预定义的成功标准(Success Goals)和安全标准(Safety Goals)时,该计划才被视为既成功又安全。
4.2.2. 规划策略 (Planning Strategies)
作者探索了两种截然不同的策略,这对于理解实验结果至关重要。下图(原文 Figure 3)直观地展示了这两种流程。
该图像是示意图,展示了两种规划策略:一体化规划和逐步规划。一体化规划适合直接生成所有规划动作,而逐步规划则适合逐步生成每个动作,以应对复杂任务。
A. 一体化规划 (One-go Planning)
- 原理: 智能体 接收指令 和初始环境状态,一次性生成包含多个动作的完整计划 。
- 特点: 类似于“闭门造车”。智能体在执行第一个动作前就想好了所有步骤。
- 局限: 如果环境中间发生了意外变化,或者初始推理有误,智能体无法中途修正。
- 适用性: 适合直接、简单的规划场景。
B. 逐步规划 (Stepwise Planning)
- 原理: 智能体与环境进行交互式规划。
- 流程拆解:
-
交互循环: 智能体在第 次尝试的第 步,根据当前观察 选择一个动作 。
-
模拟反馈: 模拟器 执行动作,返回新的观察 和更新后的环境状态 。
-
轨迹形成: 这一过程形成一个轨迹 。
-
反思与评价 (Reflexion/Critic):
- 在每次尝试(Trial)结束时,一个评价模型(Critic) 会评估当前生成的计划 。
- 评价模型提供反馈 ,用于指导智能体在下一次尝试中改进策略。
-
终止: 过程持续直到智能体生成 "Done" 动作或达到最大尝试次数。
这种策略允许智能体利用 ReAct (Reasoning + Acting) 范式,即在每一步先生成“想法(Thought)”再生成“动作(Action)”,并通过 Reflexion 机制利用过去的失败经验进行自我修正。
-
5. 实验设置
5.1. 数据集
实验使用了前文提到的 VestaBench-VH 和 VestaBench-B50。
5.2. 模型与基线
- 规划智能体 (Agents):
- GPT-4.1-Mini: 代表轻量级、高效的模型。
- Qwen3-32B: 代表开源的高性能模型。
- 评价模型 (Critic):
- GPT-4.1: 使用更强大的模型作为“裁判”,提供反馈。
- 基线方法 (Methods):
- Direct (One-go): 直接一次性生成所有步骤。
- Direct (Stepwise): 逐步生成动作,但没有复杂的推理链。
- ReAct: 在每一步生成 对,显式进行推理。
- ReAct + Reflexion (1): 允许一轮重规划,使用同一模型进行自我反思。
- ReAct + Critic (1): 允许一轮重规划,但使用更强的 GPT-4.1 作为批评家提供反馈。
5.3. 评估指标
作者定义了三个核心指标来衡量模型表现:
-
交付率 (Delivery Rate):
- 定义: 衡量生成的计划在语法和格式上是否可执行(不考虑是否完成了任务)。主要用于评估 One-go 策略,因为 Stepwise 策略通常能保证单步可执行。
-
成功率 (Success Rate):
- Macro Success Rate: 成功完成任务的可执行计划的百分比(分母是总任务数)。
- Micro Success Rate: 在所有任务中,被满足的成功标准(Success Criteria)的比例。
- 解释: 如果一个任务有3个子目标(洗苹果、切苹果、放盘子),完成2个算 Micro 分数的一部分,但在 Macro 中算任务失败。
-
安全率 (Safety Rate):
-
Macro Safety Rate: 既成功完成任务又满足所有安全约束的计划百分比。这是最严格的指标。
-
Micro Safety Rate: 在那些成功完成的任务中,被满足的安全标准(Safety Criteria)的比例。
-
6. 实验结果与分析
6.1. 核心结果分析 (RQ1)
下表(原文 Table 2)展示了不同智能体在两个数据集上的主要表现。
分析:
-
One-go 策略惨败:
Direct (One-go)的成功率和安全率极低(例如 GPT-4.1-Mini 在 VestaBench-VH 上的宏观安全率仅为 8.0%)。这说明一次性生成长程复杂计划对当前 LLM 来说太难。 -
Stepwise 显著提升: 切换到逐步规划 (
Direct (Stepwise)) 后,性能大幅提升,证明了交互式反馈的重要性。 -
推理与反思的作用:
ReAct方法引入推理链后性能进一步提升。引入Critic(评价模型)进行一轮重规划 (ReAct + Critic (1)) 取得了最佳效果,特别是在 VestaBench-B50 上。 -
总体安全率依然堪忧: 即便使用最强的方法,VestaBench-VH 上的宏观安全率也仅为 38.0%。这意味着超过 60% 的任务虽然可能完成了,但过程是危险的。
Methods VestaBench-VH VestaBench-B50 Delivery Rate (%) Success Rate (%) Safety Rate (%) Delivery Rate (%) Success Rate (%) Safety Rate (%) Macro Micro Macro Micro Macro Micro Macro Micro GPT-4.1-Mini Direct (One-go) 13.0 10.0 9.02 8.0 8.22 42.0 32.0 43.69 32.0 25.00 Direct (Stepwise) - 42.0 48.87 24.0 32.19 - 60.0 73.79 58.0 54.17 ReAct - 47.0 57.14 30.0 41.09 - 60.0 73.79 60.0 56.08 ReAct + Reflexion (1) - 52.0 61.65 34.0 45.20 - 72.0 84.47 68.0 62.50 ReAct + Critic (1) - 54.0 63.15 38.0 48.63 - 78.0 87.86 74.0 72.92 Qwen3-32B Direct (One-go) 11.0 9 8.27 6.0 5.47 32.0 22 38.83 18.0 19.79 Direct (Stepwise) - 41.0 51.87 25.0 36.98 - 34.0 60.68 32.0 29.17 ReAct - 46.0 57.89 26.0 36.98 - 44.0 61.17 42.0 33.33 ReAct + Reflexion (1) - 48.0 58.64 28.0 39.04 - 56.0 67.69 54.0 46.88 ReAct + Critic (1) - 55.0 62.40 31.0 44.52 - 60.0 75.10 56.0 50.49
6.2. 重规划与精炼的影响 (RQ2)
作者进一步研究了增加重规划次数(1次, 2次, 3次)的影响。下表(原文 Table 3)显示了结果。
分析:
-
随着重规划次数的增加(从 (1) 到 (3)),成功率和安全率普遍呈现上升趋势。
-
例如,GPT-4.1-Mini 在 VestaBench-B50 上的宏观成功率从 72.0% 提升到了 84.0%。
-
局限性: 虽然效果提升,但作者指出重规划需要额外的尝试和计算,时间和算力成本成倍增加,这在实际机器人应用中可能是不可接受的。
Method VestaBench-VH VestaBench-B50 Success Rate (%) Safety Rate (%) Success Rate (%) Safety Rate (%) Macro Micro Macro Micro Macro Micro Macro Micro GPT-4.1-Mini ReAct + Reflexion (1) 52.0 61.65 34.0 45.20 72.0 84.47 68.0 62.50 ReAct + Reflexion (2) 55.0 63.91 35.0 48.63 74.0 85.95 70.0 66.67 ReAct + Reflexion (3) 56.0 64.66 36.0 49.31 84.0 87.38 76.0 77.08 ReAct + Critic (1) 54.0 63.15 38.0 48.63 78.0 87.86 74.0 72.92 ReAct + Critic (2) 54.0 63.15 38.0 48.63 82.0 89.81 76.0 77.08 ReAct + Critic (3) 56.0 64.66 39.0 50.00 84.0 91.74 78.0 78.13
6.3. 安全指南消融实验 (RQ3)
为了验证提示词中“安全指南”的重要性,作者移除了这部分内容进行测试。下表(原文 Table 4)展示了移除后的结果。
分析:
-
与 Table 2 相比,移除安全指南后,所有方法的安全率(Safety Rate)都出现了显著下降。
-
例如,GPT-4.1-Mini 在 VestaBench-VH 上使用
ReAct + Critic (1)的宏观安全率从 38.0% 跌至 28.0%。 -
这表明当前的 LLM 并不具备内化的安全常识,而是高度依赖 Prompt 中的显式规则来约束行为。
No Safety Instructions or Guidelines Method VestaBench-VH VestaBench-B50 Success Rate (%) Safety Rate (%) Success Rate (%) Safety Rate (%) Macro Micro Macro Micro Macro Micro Macro Micro GPT-4.1-Mini Direct (One-go) 10.0 12.78 6.0 6.45 22.0 38.83 16.0 16.67 Direct (Stepwise) 33.0 44.36 18.0 15.21 52.0 70.87 40.0 35.42 ReAct 45.0 56.39 25.0 35.61 44.0 66.99 28.0 30.21 ReAct + Reflexion (1) 49.0 57.89 26.0 36.98 72.0 84.47 62.0 61.46 ReAct + Critic (1) 51.0 59.39 28.0 42.46 78.0 87.86 70.0 69.79
6.4. 不同风险类别的表现分析
作者还分析了不同风险类别下的表现(原文 Table 5)。
分析:
-
水危害(Water Hazard) 类别(如开关水龙头)的成功率和安全率较高(VH 上 Macro Safety 70.0%),因为这类任务结构相对简单。
-
电气危害(Electrical Hazard) 和 火灾危害(Fire Hazard) 的表现较差,因为这些任务涉及更复杂的约束(如先关机再拔插头,或识别正确的设备状态),LLM 容易混淆步骤。
Risk Type Num. Tasks Success Rate (%) Safety Rate (%) Macro Micro Macro Micro VestaBench-VH Physical Hazard 41 53.65 34.14 23.72 42.37 Electrical Hazard 39 64.10 73.07 46.15 55.38 Health Hazard 19 57.89 68.96 36.84 53.33 Fire Hazard 18 33.33 40.00 27.77 30.43 Water Hazard 10 90.00 93.33 70.00 82.35 VestaBench-B50 Physical Hazard 34 44.12 63.86 38.24 37.50 Water Hazard 28 64.29 79.55 60.71 54.55 Health Risk 2 0.00 63.64 0.00 0.00 Security Risk 1 100.00 100.00 100.00 100.00 Fire Hazard 1 0.00 80.00 0.00 0.00 Electrical Hazard 1 0.00 77.78 0.00 0.00
6.5. 对抗性指令分析
作者在附录 D.2 中提到,在 30 个包含对抗性指令的任务中,安全率极低(3% 到 6%)。这说明智能体几乎无法识别并拒绝恶意指令(如“在微波炉里加热装有酒的酒杯”),通常会顺从指令导致危险发生。
下文的饼图(原文 Figure D.1)展示了 VestaBench-VH 的任务复杂度分布,其中包含一定比例的对抗性指令(Avd. Inst.)。
该图像是饼图,展示了 VestaBench-VH 中任务复杂度的分布。高复杂度任务占 12.0%,中等复杂度任务占 41.0%(其中 4.0% 为中等对应的敌对指令),低复杂度任务占 47.0%(其中 26.0% 为低对应的敌对指令)。
7. 总结与思考
7.1. 结论总结
- 填补空白: VestaBench 成功填补了具身智能领域中缺乏“多约束、长程、安全导向”规划基准的空白。
- LLM 能力不足: 实验有力地证明了当前的 LLM 智能体(即使是强大的 GPT-4 系列)在面对需要严格遵守安全规范的复杂物理任务时,仍然极其脆弱。它们容易产生幻觉,且对对抗性环境和指令缺乏鲁棒性。
- 重规划的代价: 虽然引入 Critic 和多轮重规划能提升性能,但其高昂的推理成本使其难以在实时响应的机器人系统中大规模部署。
7.2. 局限性与未来工作
- 模拟 vs 现实: 论文的所有实验均在模拟器(VirtualHome/BEHAVIOR)中进行。现实世界的物理交互(如抓取力度的控制、液体的飞溅)比模拟器复杂得多,因此实际部署的风险可能更高。
- 安全指南的覆盖面: 作者指出,Prompt 中的安全指南不可能覆盖现实世界中无穷无尽的边缘情况(Edge Cases)。
- 未来方向: 需要开发更内生(Native)理解物理规律和安全常识的模型,而不仅仅依赖 Prompt 工程。同时,如何降低重规划的计算成本也是关键。
7.3. 个人启发与批判
- 安全不仅是“不说什么”,更是“不做详么”: 传统的 LLM 安全主要关注内容安全(不生成仇恨言论)。本文强调了物理安全(Physical Safety),这在具身智能时代至关重要。一个“有礼貌”但“把烤面包机扔进浴缸”的机器人是灾难性的。
- Prompt 工程的局限性: 实验表明移除 Safety Guidelines 后性能大跌,这说明模型并没有真正“理解”安全,只是在机械地遵循规则。这提示我们,对于关键的安全应用,微调(Fine-tuning)或专门的安全模块可能比 Prompting 更可靠。
- 对抗性测试的必要性: 就像软件工程中的压力测试一样,AI 智能体必须在充满恶意的环境中测试,才能真正走向实用。VestaBench 的“对抗性环境”设计非常具有借鉴意义。
相似论文推荐
基于向量语义检索推荐的相关论文。