VLMLight: Safety-Critical Traffic Signal Control via Vision-Language Meta-Control and Dual-Branch Reasoning Architecture
TL;DR 精炼摘要
VLMLight提出结合视觉-语言元控制与双分支推理架构的交通信号控制方法,利用多视角视觉信息和大型语言模型实现安全优先调度。该框架显著降低紧急车辆等待时间65%,保持实时性能,提升系统安全性与可解释性。
摘要
Traffic signal control (TSC) is a core challenge in urban mobility, where real-time decisions must balance efficiency and safety. Existing methods - ranging from rule-based heuristics to reinforcement learning (RL) - often struggle to generalize to complex, dynamic, and safety-critical scenarios. We introduce VLMLight, a novel TSC framework that integrates vision-language meta-control with dual-branch reasoning. At the core of VLMLight is the first image-based traffic simulator that enables multi-view visual perception at intersections, allowing policies to reason over rich cues such as vehicle type, motion, and spatial density. A large language model (LLM) serves as a safety-prioritized meta-controller, selecting between a fast RL policy for routine traffic and a structured reasoning branch for critical cases. In the latter, multiple LLM agents collaborate to assess traffic phases, prioritize emergency vehicles, and verify rule compliance. Experiments show that VLMLight reduces waiting times for emergency vehicles by up to 65% over RL-only systems, while preserving real-time performance in standard conditions with less than 1% degradation. VLMLight offers a scalable, interpretable, and safety-aware solution for next-generation traffic signal control.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): VLMLight: Safety-Critical Traffic Signal Control via Vision-Language Meta-Control and Dual-Branch Reasoning Architecture (VLMLight: 通过视觉-语言元控制和双分支推理架构实现安全关键型交通信号控制)
- 作者 (Authors): Maonan Wang, Yirong Chen, Aoyu Pang, Yuxin Cai, Chung Shue Chen, Yuheng Kan, Man-On Pun.
- 隶属机构 (Affiliations): The Chinese University of Hong Kong, Shenzhen; Shanghai AI Laboratory; Nanyang Technological University; Nokia Bell Labs; Fourier Intelligence. 作者团队来自学术界和工业界的顶尖机构,具有交叉学科的研究背景。
- 发表期刊/会议 (Journal/Conference): 本文目前发布在预印本服务器 arXiv 上,尚未经过同行评审。arXiv 是物理学、数学、计算机科学等领域的常用预印本发布平台,能够让研究成果被快速分享和讨论。
- 发表年份 (Publication Year): 2025 (根据 arXiv 链接中的年份信息推断,但实际提交日期为2024年)
- 摘要 (Abstract): 交通信号控制 (TSC) 是城市交通管理的核心挑战,需要在效率和安全之间取得平衡。现有方法(从基于规则的启发式方法到强化学习)通常难以泛化到复杂、动态和安全关键的场景。本文介绍了 VLMLight,一个集成了视觉-语言元控制和双分支推理的新型 TSC 框架。其核心是一个首次提出的基于图像的交通模拟器,该模拟器支持路口的多视角视觉感知,使策略能够基于车辆类型、运动和空间密度等丰富线索进行推理。一个大型语言模型 (LLM) 作为安全优先的元控制器,在处理常规交通的快速强化学习 (RL) 策略和处理关键情况的结构化推理分支之间进行选择。在后一种情况下,多个 LLM 智能体协同评估交通相位、优先处理紧急车辆并验证规则合规性。实验表明,与纯 RL 系统相比,VLMLight 将紧急车辆的等待时间减少了高达 65%,同时在标准条件下保持了实时性能,性能下降不到 1%。VLMLight 为下一代交通信号控制提供了一个可扩展、可解释且注重安全的解决方案。
- 原文链接 (Source Link):
-
ArXiv 链接: https://arxiv.org/abs/2505.19486v2
-
发布状态: 预印本 (Preprint)。这意味着该论文已完成并公开,但尚未在正式的学术会议或期刊上发表,也未经过该领域的专家进行同行评审 (Peer Review)。
-
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 现有的交通信号控制 (TSC) 系统在处理复杂、多变、尤其是涉及安全关键事件(如救护车通行)的真实世界交通场景时,表现不佳。
- 现有挑战与空白 (Gap):
- 传统方法 (如
Webster法) 的局限性: 基于固定的规则和启发式算法,无法适应动态变化的交通流,响应迟缓。 - 强化学习 (RL) 方法的局限性: 虽然比传统方法更具适应性,但通常依赖于简化的、数字化的状态表示(如排队长度),忽略了丰富的视觉语义信息(如车辆类型、具体位置)。这导致它们在训练分布之外的罕见、安全关键场景(如紧急车辆出现)中,难以做出符合人类优先级的决策。
- 现有大语言模型 (LLM) 方法的局限性: 尽管 LLM 具备高级推理能力,但它们通常依赖于模板化的文本输入,损失了大量视觉信息。更重要的是,LLM 的推理速度慢,直接用于需要秒级响应的实时交通控制是不切实际的。
- 模拟器限制: 主流的交通模拟器(如
SUMO,CityFlow)只能提供统计数据,无法渲染实时图像,这阻碍了视觉与语言模型结合的研究。
- 传统方法 (如
- 创新切入点: 本文的创新思路是“分而治之”与“视文融合”。它提出一个混合架构,利用 RL 的高效性处理常规交通,同时利用 LLM 的高级推理能力处理安全关键的异常情况。整个系统以一个新颖的、能够提供多视角实时图像的模拟器为基础,实现了真正意义上的视觉-语言融合决策。
-
核心贡献/主要发现 (Main Contribution/Findings - What):
-
提出了
VLMLight框架: 一个新颖的交通信号控制框架,通过 LLM 元控制器动态切换快速 RL 策略(处理常规交通)和慢速 deliberative 推理策略(处理安全关键事件),实现了效率与安全的平衡。 -
开发了首个基于图像的 TSC 模拟器: 该模拟器首次在 TSC 领域支持路口的多视角实时图像输入,为模型提供了丰富的视觉信息(如车辆类型、动态),填补了现有模拟器只能提供结构化数据的空白。
-
验证了方法的有效性: 实验结果表明,
VLMLight在处理紧急车辆等安全关键场景时,相比纯 RL 方法能将等待时间减少高达 65%。同时,在常规交通场景下,其性能(如平均通行时间)与最优的 RL 方法相比,下降幅度小于 1%,证明了该框架在不牺牲常规效率的前提下,显著提升了安全性。
-
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- 交通信号控制 (Traffic Signal Control, TSC): 指通过控制交叉路口的交通信号灯(红、黄、绿灯)来管理车流,旨在提高交通效率(减少延迟、拥堵)和保障安全。
- 路口元素 (Intersection Elements):
Movement(交通流向): 指车辆从一个入口车道到另一个出口车道的特定路径,例如“从北向南直行”或“从东向西左转”。Phase(信号相位): 一组可以同时获得绿灯的、互不冲突的Movement的集合。例如,一个相位可能允许南北方向的直行车同时通行。控制器通过切换不同的Phase来管理交通。
- 强化学习 (Reinforcement Learning, RL): 一种机器学习范式。智能体 (Agent) 通过与环境 (Environment) 交互来学习。它在每个时间步观察一个状态 (State),执行一个动作 (Action),然后从环境中获得一个奖励 (Reward)。智能体的目标是学习一个策略 (Policy),以最大化累积奖励。在 TSC 中,控制器是智能体,路口是环境,交通状况是状态,切换信号灯是动作,减少拥堵或等待时间可以作为奖励。
- 大型语言模型 (Large Language Model, LLM): 如 GPT-4、Qwen 等,是经过海量文本数据训练的深度学习模型。它们具备强大的自然语言理解、生成和推理能力,可以完成复杂的逻辑推理任务。
- 视觉语言模型 (Vision-Language Model, VLM): 是一种能够同时理解图像和文本的多模态模型。它可以根据输入的图像回答问题、生成描述或进行其他基于视觉内容的推理。
-
前人工作 (Previous Works):
- 基于规则的方法 (Rule-based Methods): 如
Webster's method和MaxPressure。这些方法使用预设的数学公式或启发式规则来确定信号灯时长。优点是简单可靠,局限性在于无法适应实时、动态变化的交通流。 - 基于强化学习的方法 (RL-based Methods): 如
IntelliLight和UniTSA。这些方法将 TSC 建模为 RL 问题,通过学习来适应交通变化。优点是自适应性强,局限性在于它们通常依赖简化的数字状态(如车队长度、占有率),缺乏对场景的语义理解,因此在需要优先考虑特定车辆(如救护车)时表现不佳。 - 基于大型语言模型的方法 (LLM-based Methods): 如
LLMLight(同名但不同论文) 和Traffic-R1。这些工作尝试利用 LLM 的推理能力处理 TSC 中的复杂场景。优点是能处理长尾和边缘情况,局限性在于它们大多依赖人工编写的文本化交通描述,丢失了视觉细节,并且推理速度慢,难以满足实时性要求。
- 基于规则的方法 (Rule-based Methods): 如
-
技术演进 (Technological Evolution): TSC 技术演进的脉络可以概括为:
- 固定配时 (Fixed-Time): 简单的周期性控制,完全不考虑实时交通。
- 规则自适应 (Rule-based Adaptive): 基于实时传感器数据(如线圈检测器)和预设规则进行调整,如
MaxPressure。 - 学习自适应 (Learning-based Adaptive): 采用 RL 等机器学习方法,从数据中学习最优控制策略,适应性更强。
- 语义推理 (Semantic Reasoning): 引入 LLM/VLM,使系统不仅能“感知”数据,还能“理解”场景的深层含义(如“有救护车需要紧急通行”),做出更符合人类常识和优先级的决策。本文工作正处于这一最新阶段。
-
差异化分析 (Differentiation): 与以往工作相比,
VLMLight的核心差异在于:-
真正的视觉输入: 借助自研的多视角图像模拟器,
VLMLight是第一个直接从实时图像中获取信息的 TSC 框架,而非依赖抽象的统计数据或文本描述。 -
双分支混合架构 (Dual-Branch Architecture): 它没有在 RL 和 LLM 之间做“非此即彼”的选择,而是巧妙地结合了两者的优点。通过一个
meta-controller进行智能调度,常规情况用 RL 保证效率,关键情况用 LLM 保证安全与可解释性。 -
协同推理 (Collaborative Reasoning): 在处理关键事件时,它不是让一个 LLM 单独工作,而是设计了一个由多个专业化 LLM 智能体(
Phase Reasoning,Signal Planning,Rule Verification)组成的团队,通过结构化对话进行协作,模拟了人类专家的审议过程,提高了决策的鲁棒性和准确性。
-
4. 方法论 (Methodology - Core Technology & Implementation Details)
VLMLight 的整体架构如下图所示,其工作流程可以分为四个核心阶段。
该图像是图2,展示了VLMLight架构示意图。多视角路口图像由视觉语言模型代理解析场景,随后安全优先的大型语言模型元控制器根据场景选择快速强化学习策略或多步协作推理策略,后者通过阶段推理、信号规划和规则验证三个LLM代理顺序评估交通状况,优先处理紧急车辆,决策实时信号控制动作。
-
方法原理 (Methodology Principles): 核心思想是动态决策路径选择。系统认识到,并非所有交通状况都需要复杂的、耗时的推理。常规交通流可以通过高效的、预先训练好的 RL 模型快速处理。只有当检测到需要高级语义理解的“异常”或“安全关键”事件时,才启动由多个 LLM 协同工作的、更审慎的推理流程。这种设计在保证系统实时性的同时,赋予了其处理复杂场景的强大能力。
-
方法步骤与流程 (Steps & Procedures):
阶段 1: 场景理解 (Scene Understanding via VLM)
- 输入: 来自路口多个摄像头(如东、南、西、北四个方向)的实时图像集 。
- 处理: 一个专门的
AgentScene(基于 VLM,如Qwen2.5-VL-32B) 负责处理这些图像。它会为每个方向的图像生成一段自然语言描述 。 - 输出: 一组结构化的文本描述 。每段描述包含该方向车道的交通状况,如:拥堵程度、车辆类型、以及是否存在紧急车辆(如救护车、消防车)。
- 公式表示:
阶段 2: 安全优先的元控制 (Safety-Prioritized Meta-Control)
- 输入: 上一阶段生成的场景描述 。
- 处理: 一个名为
AgentModeSelector的 LLM 智能体(元控制器)分析这些文本。它的任务不是直接控制信号灯,而是判断当前场景的性质。 - 决策逻辑:
- 如果所有描述都表明是常规交通(没有紧急车辆、没有事故、没有异常拥堵),则决策为“常规控制”。
- 如果描述中包含安全关键元素(如“检测到一辆救护车正在接近”),则决策为“审慎推理”。
- 输出: 一个路由决策,将控制权交给接下来的两个分支之一。
阶段 3: 常规控制策略 (Routine Control Policy) - 快速分支
- 触发条件:
AgentModeSelector判断为常规交通。 - 输入: 传统的交通状态特征,如过去5个时间步的车辆流量、占有率、信号状态等,构成一个时空输入张量。
- 处理: 一个预训练好的轻量级 RL 策略(本文使用
PPO算法训练的Transformer模型)接收这些特征,并快速做出决策。 - 输出: 一个具体的信号相位动作 ,例如“切换到南北直行相位”。
- 这个分支的特点是低延迟、高效率,适用于绝大多数交通状况。
阶段 4: 审慎推理策略 (Deliberative Reasoning Policy) - 慢速分支
- 触发条件:
AgentModeSelector检测到安全关键事件。 - 处理: 启动一个由三个专业 LLM 智能体组成的协作团队,通过结构化对话逐步做出决策。
-
相位推理 (
AgentPhase):-
任务: 将来自不同方向的、零散的场景描述 ,根据预定义的信号相位规则,整合成与控制动作直接相关的相位级描述 。例如,将“北向直行车道拥堵”和“南向直行车道畅通”的信息,整合到“南北直行相位”的描述中。
-
图示: 如下图3所示,该智能体将方向性的视觉观察(
directional-level textual summaries)映射到决策空间(phase-level descriptions)。
该图像是论文中图3的示意图,展示了VLMLight中Agentscene模块如何从三视角交通图像生成方向级场景描述,然后聚合为基于信号相位映射的阶段描述。
-
-
信号规划 (
AgentPlan):- 任务: 评估所有候选相位的描述 ,并根据当前最高优先级目标(例如,“必须优先让救护车通过”)选择一个最优的信号相位动作 。
- 输出: 不仅输出一个动作,还会生成一段自然语言解释,说明为什么做出这个决策,提供了极好的可解释性和可审计性。
-
规则验证 (
AgentCheck):- 任务: 检查
AgentPlan选出的动作 是否符合当前的交通规则(例如,是否是一个合法的、可切换的相位)。 - 处理: 如果动作合法,则直接执行。如果不合法,
AgentCheck会在合法的动作中选择一个最接近AgentPlan意图的替代动作,确保最终决策的安全性和合规性。
- 任务: 检查
-
-
数学公式与关键细节 (Mathematical Formulas & Key Details): 在常规控制策略中,RL 智能体的状态输入 由12个交通流向(
movement)的特征向量组成:。每个流向的特征向量 的定义如下:- 符号解释 (Symbol Explanation):
-
: 第 个流向在时间 的车流量 (vehicle flow)。
-
: 第 个流向在时间 的最大车道占有率 (maximum occupancy)。
-
: 第 个流向在时间 的平均车道占有率 (mean occupancy)。
-
: 流向类型指示符 (movement type indicator),值为 分别代表直行、左转或右转。
-
: 该流向包含的车道数 (lane count)。
-
: 当前信号相位是否为绿灯 (current phase is green) 的指示符。
-
: 是否已满足最小绿灯时间 (minimum green duration) 要求的指示符。
-
- 符号解释 (Symbol Explanation):
5. 实验设置 (Experimental Setup)
-
数据集 (Datasets):
-
实验数据来自三个真实世界的路口,分别位于:
- 松岛 (Songdo), 韩国: 一个新开发的城区,路口宽阔,每个方向最多有五条车道。
- 油麻地 (Yau Ma Tei), 香港: 位于密集的城市核心区,道路狭窄,且有复杂的交通限制(如某些方向禁止左转或右转)。
- 马西 (Massy), 法国: 一个 T 型路口,布局与前两者不同。
-
数据特点: 这三个路口在拓扑结构(十字路口 vs T型路口)、尺寸和交通模式上具有高度多样性,能够全面评估方法的泛化能力。
-
数据采集与划分: 每个路口采集 30 分钟的交通数据。前 20 分钟用于训练 RL 策略,后 10 分钟用于测试。
-
模拟器: 所有实验均在本文提出的、集成了
SUMO(用于车辆动力学模拟) 和多视角图像渲染功能的自研 TSC 模拟器中进行。
该图像是论文中图4,展示了三个真实路口的三种图像模态:(a)韩国松岛,(b)香港油麻地,(c)法国马西。每个地点依次为卫星图、SUMO仿真图和自研仿真渲染图。
-
-
评估指标 (Evaluation Metrics): 论文使用四个指标评估系统性能,分为两类:常规交通效率和紧急车辆处理。
-
平均通行时间 (Average Travel Time, ATT)
- 概念定义: 衡量所有车辆从进入路网到离开路网所花费的平均时间。这是一个全局效率指标,值越低表示路网的整体通行效率越高。
- 数学公式:
- 符号解释:
- : 模拟期间内完成行程的总车辆数。
- : 第 辆车进入路网的时间。
- : 第 辆车离开路网的时间。
-
平均等待时间 (Average Waiting Time, AWT)
- 概念定义: 衡量所有车辆因交通信号灯或拥堵而处于接近静止状态(速度 < 0.1 m/s)的平均总时长。这个指标直接反映了信号控制策略导致的延误,值越低越好。
- 数学公式:
- 符号解释:
- : 第 辆车在时间 的速度。
- : 定义为静止状态的速度阈值 (本文为 0.1 m/s)。
- : 指示函数,当条件为真时值为1,否则为0。
-
平均紧急车辆通行时间 (Average Emergency Travel Time, AETT)
- 概念定义: 与 ATT 类似,但只统计紧急车辆(如救护车)的平均通行时间。这是衡量系统对安全关键事件响应能力的核心指标。
- 数学公式:
- 符号解释:
- : 完成行程的总紧急车辆数。
- : 代表一辆紧急车辆。
-
平均紧急车辆等待时间 (Average Emergency Waiting Time, AEWT)
- 概念定义: 与 AWT 类似,但只统计紧急车辆的平均等待时间。这个指标直接反映了系统为保障紧急车辆优先通行所做的努力,是衡量安全性的最关键指标,值越低越好。
- 数学公式:
- 符号解释:
- : 第 辆紧急车辆在时间 的速度。
-
-
对比基线 (Baselines):
- 基于规则 (Rule-based):
FixTime: 固定的信号周期和时长。Webster: 基于交通流量计算最优周期的经典方法。MaxPressure: 一种自适应方法,旨在最大化路口压力差以疏导交通。
- 基于强化学习 (RL-based):
IntelliLight,UniTSA,A-CATs,3DQN-TSCC,CCDA: 均为该领域先进的 RL 方法,它们都基于简化的数字状态进行决策。
- 基于视觉语言模型 (VLM-based):
-
Vanilla-VLM: 一个作者设计的简化基线,直接使用 VLM 的描述来做决策,但没有VLMLight的双分支架构和协同推理机制,用于凸显VLMLight结构设计的优越性。
-
- 基于规则 (Rule-based):
6. 实验结果与分析
核心结果分析 (Core Results Analysis)
以下是论文中 Table 1 的数据转录与分析。该表格对比了 VLMLight 与各类基线在三个不同路口的性能表现。
| South Korea, Songdo | |||||
| Category | Method | ATT ↓ | AWT ↓ | AETT ↓ | AEWT ↓ |
| Rule-based | FixTime | 111.73 ± 5.11 | 59.68 ± 1.95 | 108.68 ± 7.20 | 49.53 ± 2.08 |
| Webster [3] | 102.89 ± 4.20 | 50.02 ± 2.75 | 82.77 ± 3.94 | 26.60 ± 1.62 | |
| MaxPressure [4] | 93.65 ± 3.41 | 43.71 ± 1.61 | 79.38 ± 2.53 | 35.38 ± 2.42 | |
| RL-based | IntelliLight [11] | 87.12 ± 5.10† | 39.68 ± 1.98† | 70.00 ± 2.36‡ | 22.12 ± 1.27 |
| UniTSA [9] | 86.80 ± 4.89* | 39.53 ± 1.97* | 69.74 ± 3.80 | 22.04 ± 0.774 | |
| A-CATs [6] | 88.23 ± 6.01 | 41.61 ± 1.80 | 70.08 ± 4.40 | 22.15 ± 0.95 | |
| 3DQN-TSCC [7] | 99.09 ± 5.68 | 45.13 ± 2.20 | 79.62 ± 3.25 | 25.17 ± 1.54 | |
| CCDA [10] | 89.32 ± 6.21 | 40.68 ± 2.48 | 71.76 ± 4.82 | 22.68 ± 1.25 | |
| VLM-based | Vanilla-VLM | 105.48 ± 17.28 | 48.09 ± 8.98 | 60.38 ± 11.78† | 11.05 ± 1.73† |
| VLMLight (Ours) | 87.14 ± 4.98‡ | 39.73 ± 1.71 | 49.88 ± 2.42* | 7.48 ± 0.45* | |
| Category | Method | Hongkong, Yau Ma Tei | |||
| ATT ↓ | AWT ↓ | AETT ↓ | AEWT ↓ | ||
| Rule-based | FixTime | 67.63 ± 4.57 | 40.00 ± 2.28 | 82.67 ± 3.23 | 53.17 ± 2.14 |
| Webster [3] | 56.26 ± 3.39 | 28.62 ± 1.23 | 59.67 ± 4.11 | 30.83 ± 1.79 | |
| MaxPressure [4] | 41.36 ± 2.22 | 13.33 ± 0.40 | 36.17 ± 2.39 | 8.83 ± 0.27 | |
| RL-based | IntelliLight [11] | 38.07 ± 2.52* | 10.28 ± 0.54* | 33.17 ± 1.54‡ | |
相似论文推荐
基于向量语义检索推荐的相关论文。