论文状态：已完成

UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding

发表：2025/06/29

多阶段训练框架 (2)城市智能多模态大语言模型 (1)城市指令数据集 (1)空间推理增强 (1)城市任务性能评估 (1)

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文介绍了UrbanLLaVA，一种面向城市智能的多模态大语言模型，能够同时处理四种城市数据，显著提升了对城市任务的表现。通过策划多样化的城市指令数据集UData和提出多阶段训练框架UTrain，UrbanLLaVA在空间推理和领域知识学习中取得良好平衡，展示了强大的跨城市泛化能力。

摘要

Urban research involves a wide range of scenarios and tasks that require the understanding of multi-modal data. Current methods often focus on specific data types and lack a unified framework in urban field for processing them comprehensively. The recent success of multi-modal large language models (MLLMs) presents a promising opportunity to overcome this limitation. In this paper, we introduce $\textit{UrbanLLaVA}$ , a multi-modal large language model designed to process these four types of data simultaneously and achieve strong performance across diverse urban tasks compared with general MLLMs. In $\textit{UrbanLLaVA}$ , we first curate a diverse urban instruction dataset encompassing both single-modal and cross-modal urban data, spanning from location view to global view of urban environment. Additionally, we propose a multi-stage training framework that decouples spatial reasoning enhancement from domain knowledge learning, thereby improving the compatibility and downstream performance of $\textit{UrbanLLaVA}$ across diverse urban tasks. Finally, we also extend existing benchmark for urban research to assess the performance of MLLMs across a wide range of urban tasks. Experimental results from three cities demonstrate that $\textit{UrbanLLaVA}$ outperforms open-source and proprietary MLLMs in both single-modal tasks and complex cross-modal tasks and shows robust generalization abilities across cities. Source codes and data are openly accessible to the research community via https://github.com/tsinghua-fib-lab/UrbanLLaVA.

思维导图

论文精读

中文精读约 45 分钟读完 · 29,326 字

1. 论文基本信息

1.1. 标题

UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding (UrbanLLaVA：具有空间推理和理解能力的城市智能多模态大语言模型)

1.2. 作者

Jie Feng†, Shengyuan Wang‡, Tianhui Liu§, Yanxin Xi∗∗, Yong Li†

†Department of Electronic Engineering, BNRist, Tsinghua University, Beijing, China
‡Department of Computer Science and Technology, Tsinghua University, Beijing, China
§School of Electronic and Information Engineering, Beijing Jiaotong University, China
University of Helsinki, Finland
联系邮箱：{fengjie, liyong07}@tsinghua.edu.cn

1.3. 发表期刊/会议

预印本 (Preprint)，发布于 arXiv。

1.4. 发表年份

2025年 (根据预印本发布时间 2025-06-29T13:04:27.000Z 推断)。

1.5. 摘要

城市研究涉及需要理解多模态数据（multi-modal data）的广泛场景和任务。现有方法通常侧重于特定数据类型，并且在城市领域缺乏一个统一的框架来全面处理这些数据。多模态大语言模型（Multi-modal Large Language Models, MLLMs）最近的成功为克服这一限制提供了有希望的机会。本文介绍了 UrbanLLaVA，一个多模态大语言模型，旨在同时处理四种类型的城市数据，并在与通用 MLLM 相比的各种城市任务中实现强大的性能。在 UrbanLLaVA 中，作者首先策划了一个多样化的城市指令数据集 UData，它包含单模态和跨模态城市数据，范围从局部视图 (location view) 到全局视图 (global view) 的城市环境。此外，作者提出了一种多阶段训练框架 UTrain，将空间推理增强 (spatial reasoning enhancement) 从领域知识学习 (domain knowledge learning) 中解耦，从而提高了 UrbanLLaVA 在各种城市任务中的兼容性和下游性能。最后，作者还扩展了现有的城市研究基准 UBench，以评估 MLLM 在广泛城市任务中的性能。来自三个城市的实验结果表明，UrbanLLaVA 在单模态任务和复杂的跨模态任务中均优于开源和专有 MLLM，并显示出跨城市的强大泛化能力。

1.6. 原文链接

https://arxiv.org/abs/2506.23219 PDF 链接: https://arxiv.org/pdf/2506.23219v1.pdf 发布状态：预印本 (Preprint)。

2. 整体概括

2.1. 研究背景与动机

城市研究是一个多学科领域，涉及大量多模态数据，包括城市视觉数据、地理文本、结构化地理空间数据和时空序列数据等。这些数据共同捕捉了城市环境的方方面面，包含了丰富的空间信息和城市知识。将这些多模态数据整合到一个统一的框架中，对于系统地理解城市空间和推动城市研究中复杂的建模架构至关重要。

然而，现有方法主要面临以下挑战：

数据异构性与整合困难 (Heterogeneity and Integration Challenges): 城市数据的固有异构性使得其整合面临巨大挑战。
缺乏统一框架 (Lack of Unified Framework): 尽管已提出许多基于深度学习的方法来融合跨领域城市数据，但它们通常是为特定城市任务设计的，缺乏实现对城市环境的全面理解和为现实世界城市应用进行高级推理的能力。
单模态关注 (Unimodal Focus): 近期在城市研究中探索 MLLM 的工作，如 GeoChat、Mobility-LLM 和 CityGPT，虽然将各种单模态城市数据集成到 LLM 中，但它们仍然主要专注于处理单模态城市数据，未能实现对涉及多模态城市数据的任务的全面理解和建模。
高质量跨模态对齐数据稀缺 (Scarcity of High-Quality Cross-Modality Alignment Data): 统一建模多模态城市数据面临的另一个挑战是用于跨模态对齐的高质量数据稀缺。
任务冲突与训练不稳定 (Task Conflicts and Training Instability): 不同模态间的城市任务多样性可能导致训练不稳定和性能不一致。

本文旨在解决这些限制，利用多模态大语言模型 (MLLMs) 的潜力，构建一个能够全面理解和处理城市多模态数据的统一框架。

2.2. 核心贡献/主要发现

本文的主要贡献和发现可以总结如下：

提出首个城市智能多模态大语言模型 (First MLLM for Urban Intelligence): 介绍了 UrbanLLaVA，据作者所知，这是第一个旨在统一建模四种主要城市数据类型（结构化地理空间数据、轨迹数据、卫星图像和街景图像），以促进对城市环境的全面理解和有效任务解决的 MLLM。
构建多样化城市指令数据集 (Diverse Urban Instruction Dataset): 作者策划并设计了 UData，一个系统性的城市指令数据管道，能够生成高质量的合成数据。UData 的数据生成结构精细，涵盖了从局部视图（单模态数据）到轨迹视图和全局视图（跨模态数据）的多种视角，捕捉了城市系统固有的多面性。
创新性多阶段训练框架 (Innovative Multi-Stage Training Framework): 提出并实验验证了一个有效的多阶段训练管道 UTrain。该框架将空间推理增强与领域知识学习解耦，从而在多种数据模态的城市任务中实现稳定的训练和平衡的性能。它由任务对齐 (Task Alignment)、知识学习 (Knowledge Learning) 和混合学习 (Mixture Learning) 三个阶段组成。
扩展城市评估基准 (Extended Urban Evaluation Benchmark): 作者扩展了现有城市基准，构建了一个系统性的城市评估基准 UBench，用于评估 MLLM 在解决多样化城市任务方面的能力。UBench 包含了 12 项任务，包括从现有基准中选择的 6 项任务和新引入的 6 项任务。
卓越的性能和泛化能力 (Superior Performance and Generalization): 在三个城市（北京、伦敦和纽约）进行的实验结果表明，UrbanLLaVA 在单模态和复杂的跨模态任务中均优于开源和专有 MLLM。此外，它还展示了强大的跨城市泛化能力，即使在未训练的城市中也表现出色。

3. 预备知识与相关工作

3.1. 基础概念

理解本文需要掌握以下核心概念：

多模态数据 (Multi-modal Data): 指来自不同感官或信息来源的数据，例如图像、文本、音频、视频、地理空间数据等。在城市研究中，多模态数据包括街景图像 (street view images)、卫星图像 (satellite images)、地理文本 (geo-text)、结构化地理空间数据 (structured geospatial data) 和时空序列数据 (spatiotemporal series data) 等。
大语言模型 (Large Language Models, LLMs): 指具有数亿到数万亿参数的深度学习模型，通过在大量文本数据上进行预训练，学习语言的模式、语法和语义。它们能够理解、生成和处理人类语言，并展现出强大的通用知识和推理能力。
多模态大语言模型 (Multi-modal Large Language Models, MLLMs): 是将 LLM 的强大语言理解和推理能力扩展到处理和理解多种模态数据的模型。它们通常通过结合视觉编码器 (vision encoder) 和 LLM 来实现，能够理解图像、视频等非文本信息，并与文本进行交互和推理。
指令微调 (Instruction Tuning): 一种训练范式，通过在包含指令（如问题、任务描述）和对应期望响应的数据集上对预训练模型进行微调，使其能够更好地遵循指令并执行各种任务。
链式思考 (Chain-of-Thoughts, CoT): 一种提示技术，通过引导 LLM 逐步思考，展示其推理过程，从而提高其在复杂推理任务上的性能。模型在输出最终答案前，会先生成一系列中间的思考步骤。
地理空间数据 (Geospatial Data): 指与地球表面上的特定位置相关联的数据。它可以包括经纬度、行政区划、道路网络、兴趣点 (Points of Interest, POIs) 等。
街景图像 (Street View Images): 指从地面视角拍摄的城市街道和建筑物的全景图像，通常由谷歌街景、百度地图街景等服务提供。它们提供丰富的视觉细节和地表信息。
卫星图像 (Satellite Images): 指由卫星从太空拍摄的地球表面图像。它们提供宏观的地理信息，常用于土地利用、城市规划等分析。
轨迹数据 (Trajectory Data): 记录了移动物体（如车辆、行人）在一段时间内的位置序列。它包含时空信息，常用于交通分析、行为模式识别等。

3.2. 前人工作

本文将 UrbanLLaVA 的工作置于多模态大语言模型和城市研究领域的前沿，并对比了现有工作的局限性。

通用 MLLM 的发展:
- 自 GPT4-V [39] 的成功以来，MLLM 成为研究热点，例如 LLaVA [30, 31]、VILA [29]、QwenVL [41] 和 InternVL [7, 8]。
- 这些模型的成功往往依赖于构建多样化和高质量的指令数据集。例如，LLaVA 利用 GPT4-V 创建视觉指令微调数据，训练了第一个开源 MLLM。VILA 探索了预训练阶段的训练管道和数据格式。ShareGPT4v [6] 通过 GPT4-V 生成的高质量标注数据进一步扩展了数据规模。
- 核心思想: 通用 MLLM 在常见场景下展示出强大的视觉理解和推理能力，但它们在医疗、遥感等专业领域面临挑战。
领域特定 MLLM (Domain-Specific MLLMs):
- 为了解决通用 MLLM 在专业领域的局限性，研究人员提出了许多领域特定 MLLM。
- 例如，Dolphins [34] 用于自动驾驶，GeoChat [26] 用于遥感任务，LLaVA-Med [27] 用于生物医学图像问答，以及各种用于医疗应用的 MLLM [23]。
- 核心思想: 通过针对特定领域的数据和任务进行微调，提升 MLLM 在该领域的专业表现。
城市研究中的多模态模型 (Multi-modal Models for Urban Study):
- 城市研究本身是多学科领域，涉及多种数据源 [10, 17, 35, 53, 57]。
- 结构化地理空间数据: Balsebre et al. [1] 和 Feng et al. [16] 提出了将结构化地理空间数据转换为语言兼容格式以增强 LLM 地理空间知识的方法（例如 CityGPT）。
- 遥感数据: Kuckreja et al. [26] 和 Zhang et al. [52] 设计了遥感指令数据来微调通用 MLLM，以处理下游遥感任务（例如 GeoChat）。
- 街景数据: Hao et al. [22] 通过整合街景数据和遥感数据，微调 CLIP 模型以改进城市指标预测。Liu et al. [32] 评估了多模态语言模型在城市社会经济感知中的潜力。
- 时空序列数据: Li et al. [28] 和 Gong et al. [20] 引入领域特定编码器来增强 LLM 在时空序列建模方面的能力（例如 Mobility-LLM）。Feng et al. [15] 提出了基于 LLM 的智能体框架用于零样本移动性预测。
- 核心思想: 这些工作将各种单模态城市数据（或部分模态组合）集成到 LLM 中，以处理特定城市任务。

3.3. 技术演进与差异化分析

技术演进: 城市研究中的数据融合方法从早期的深度学习时代开始，发展到将单模态城市数据融入到 MLLM 中以保持其强大推理能力。UrbanLLaVA 代表了这一演进的最新阶段，旨在通过构建一个能够同时处理多种城市数据模态的统一框架，来克服现有方法的局限性。
差异化分析: 本文的核心创新在于其全面性和统一性，这与现有工作形成鲜明对比：
- 数据模态的广度: 大多数现有工作（如 GeoChat、Mobility-LLM、CityGPT）专注于有限的几种数据类型或单模态数据。UrbanLLaVA 首次旨在统一建模四种主要城市数据类型（结构化地理空间数据、轨迹数据、卫星图像、街景图像），以实现对城市环境的全面理解。
- 跨模态任务处理能力: 现有方法虽然可能整合一些跨域数据，但往往是针对特定任务进行设计。UrbanLLaVA 明确强调了处理单模态和复杂跨模态任务的能力，旨在提供一个解决广泛城市任务的通用解决方案。
- 训练策略的创新: 针对城市数据异构性和任务多样性带来的训练挑战，本文提出了 UTrain 多阶段训练框架，通过解耦空间推理增强和领域知识学习，确保训练的稳定性和性能的平衡，这是现有城市领域 MLLM 工作中未充分探讨的。
- 基准的全面性: UBench 的扩展和设计，旨在更全面地评估 MLLM 在多模态城市任务中的表现，这有助于推动该领域未来的研究。
  
  简而言之，UrbanLLaVA 的核心贡献在于将 MLLM 的能力从处理通用或有限领域的多模态数据，扩展到全面、统一地处理多种异构城市多模态数据，并支持广泛的城市智能任务。

4. 方法论

本文提出的 UrbanLLaVA 旨在构建一个全面的城市认知多模态大语言模型，并解决广泛的城市任务。其框架如图 2 所示，主要包括三个核心组件：UData（数据管道）、UTrain（训练管道）和 UBench（评估基准）。

Figure 2. The framework of UrbanLLaVA, including UData, UTrain and UBench 该图像是UrbanLLaVA框架示意图，展示了数据管道UData、训练流程UTrain及评估基准UBench。该模型整合了多模态数据，支持城市智能任务的处理与评估，包含位置视图与轨迹视图的信息。不同任务的例子列于边框，以示模型的多样性和应用场景。

以下是原文 Figure 2 的结果：

VLM 描述: 该图像是UrbanLLaVA框架示意图，展示了数据管道UData、训练流程UTrain及评估基准UBench。该模型整合了多模态数据，支持城市智能任务的处理与评估，包含位置视图与轨迹视图的信息。不同任务的例子列于边框，以示模型的多样性和应用场景。

4.1. UData: 构建多视角城市空间指令数据

UData 是一个系统性的城市指令数据管道，旨在从城市环境的多视角生成多样化、高质量的城市指令数据。它基于四种原始城市数据构建：

结构化地理空间数据 (Structured Geospatial Data): 来自 OpenStreetMap。
公共轨迹数据 (Public Trajectory Data): 例如 Foursquare-checkins 和 OpenStreetMap traces。
卫星图像 (Satellite Images): 来自 Google Earth。
街景图像 (Street View Images): 来自 Google Map 和 Baidu Map。

数据生成遵循从局部视图 (location view) 到轨迹视图 (trajectory view)，再到全局视图 (global view) 的顺序，以确保空间覆盖的广度和不同模态间关系的完整性。

该图像是UData数据组成的示意图，展示了不同类型城市数据的分布，包括全球视图数据、轨迹视图数据和位置视图数据等。每个数据类型的详细信息和数量均以圆形结构呈现，便于理解各类数据之间的关系。

以下是原文 Figure 3 的结果：

VLM 描述: 该图像是UData数据组成的示意图，展示了不同类型城市数据的分布，包括全球视图数据、轨迹视图数据和位置视图数据等。每个数据类型的详细信息和数量均以圆形结构呈现，便于理解各类数据之间的关系。

4.1.1. 局部视图数据 (Location View Data)

此阶段侧重于结构化地理空间数据和单张街景图像。

地理空间指令数据 (Geospatial Instruction Data): 遵循现有实践 [1, 16]，通过设计问题模板将基本地理空间数据转换为自然语言问答对。
单街景图像问题 (Single Street View Image Questions): 合成三类问题：
1. 基于模板的问题: 使用结构化地理空间数据中的信息（如位置地址、地标细节）填充预定义模板。
2. 通用 MLLM 生成的详细描述: 遵循图像标注的常见做法 [6]，让通用 MLLM 生成图像内容的详细描述。
核心原则: 整合街景图像内容与结构化地理知识，确保位置地址和地标描述的一致性。
- 示例 (Location Address): (Figure 22) 用户提供街景图像，模型被问及图像中所示的地点是什么。
- 示例 (Image Description): (Figure 23) 用户提供街景图像，模型被要求描述图像内容并估计附近的兴趣点。
- 示例 (Landmark Details): (Figure 24) 用户提供街景图像，模型被问及图像中的地标是什么。

4.1.2. 轨迹视图数据 (Trajectory View Data)

此阶段构建包含地理空间数据、轨迹数据和街景图像的轨迹视图数据。

文本轨迹数据 (Text-based Trajectory Data):
1. 随机采样起点终点路由: 随机采样起点和终点，生成路由信息。
2. 真实世界轨迹数据: 使用 Foursquare-checkins 和 OpenStreetMap traces 等公共网络来源收集的真实轨迹数据。
- 增强地理空间上下文: 将原始数据源的 GPS 坐标与结构化地理空间数据对齐，使用文本地址表示轨迹中的位置。
视觉增强轨迹数据 (Vision-augmented Trajectory Data):
1. 沿途街景图像: 扩展文本轨迹数据，纳入沿途（不包括交叉路口）捕获的街景图像。数据组织采用类似 VILA [29] 的交错图像-文本格式。
2. 导航指令格式: 基于类似于经典视觉-语言导航任务 [5] 的导航指令格式。在此数据中，轨迹中的交叉路口会呈现多张街景图像，模型需要选择正确的图像来指导行程的继续。
- 示例 (Random Walk): (Figure 9 - Stage 2 (Knowledge learning) 中的第一个例子) 模型被要求规划从一个起点到终点的路径，并提供导航指令。

4.1.3. 全局视图数据 (Global View Data)

此阶段的数据旨在捕捉长距离内各种数据类型之间的关系，以街景图像和卫星图像为主要组件，地理空间数据作为辅助支持。

单卫星图像数据 (Single Satellite Image Data):
1. 通用 MLLM 详细内容描述: 提示通用 MLLM 生成单个卫星图像的详细内容描述。
2. LLM 总结空间覆盖: 采样卫星图像内的位置地址，并使用通用 LLM 根据这些地址总结其空间覆盖。
3. 土地利用推断: 提示通用 MLLM 根据土地利用地面真值标签生成土地利用推断结果及原因。
- 示例 (Image Content): (Figure 20) 用户提供卫星图像，模型被要求提供图像内容的描述。
- 示例 (Landuse Inference): (Figure 21) 用户提供卫星图像并指定区域，模型被要求推断该区域的土地利用类型。
- 示例 (Location Address): (Figure 30) 用户提供卫星图像，模型被要求选择最合适的地址。
多卫星图像指令数据 (Multiple Satellite Images Instruction Data):
1. 建筑密度比较: 比较多张卫星图像的建筑密度。
2. 功能兴趣点识别: 识别这些图像中的功能兴趣点。
- 人工构造推理步骤: 提供带有结构化地理空间数据支持的手工构造的链式思考 (chain-of-thoughts) 格式推理步骤，以改善卫星图像与地理空间数据之间的对齐。
- 示例 (Multiple SAT Comparison): (Figure 37) 用户提供一张街景图像和四张卫星图像，模型被要求选择哪张卫星图像显示了街景图像的周围环境。
街景图像与卫星图像对齐 (Street View Images and Satellite Images Alignment):
1. 选择正确的卫星图像: 给定街景图像，从一组卫星图像中选择正确的卫星图像，要求模型理解并匹配两种图像类型的内容或地址。
2. 精确定位街景图像位置: 更具挑战性的任务，涉及在特定卫星图像中精确定位街景图像的位置，例如识别其位于卫星图像的左上方区域。
- 示例 (Cross View Data/Cross Modality Reasoning): (Figure 34) 用户提供一张卫星图像和一张街景图像，模型被要求预测街景图像位于卫星图像的哪个象限。
- 示例 (Cross Modality Reasoning - Local View): (Figure 27, Figure 29, Figure 31) 包含街景和卫星图的跨模态推理任务。
  
  数据质量控制: 根据上述数据生成步骤，对合成数据进行质量检查和过滤，以确保其质量。

4.2. UTrain: 解耦推理和知识学习的多阶段训练管道

UrbanLLaVA 的训练面临挑战，因为城市指令数据的异构性和城市任务的多样性使得稳定训练和平衡性能变得困难。作者选择 VILA [29] 作为实验的基础模型，并提出了一个有效的三阶段训练管道 UTrain，如图 4 所示。

Figure 4. UTrain: three-stage training pipeline. 该图像是UTrain的三阶段训练流程示意图。流程包含任务对齐（Stage 1）、知识学习（Stage 2）和混合调优（Stage 3）三个阶段，展示了多模态大语言模型（LLM）在城市智能任务中的训练步骤。

以下是原文 Figure 4 的结果：

VLM 描述: 该图像是UTrain的三阶段训练流程示意图。流程包含任务对齐（Stage 1）、知识学习（Stage 2）和混合调优（Stage 3）三个阶段，展示了多模态大语言模型（LLM）在城市智能任务中的训练步骤。

4.2.1. 学习过程的类型 (Types of Learning Procedures)

在 UTrain 中，作者引入了三种学习过程：

知识学习 (Knowledge Learning): 指 UrbanLLaVA 从各种城市数据中获取基础城市知识的训练过程，例如地理空间数据的信息、纯文本轨迹以及街景和卫星图像的详细描述。
任务对齐学习 (Task Alignment Learning): 专注于赋予 UrbanLLaVA 城市应用中特定任务的技能，包括视觉-语言导航 (vision-language navigation)、轨迹预测 (trajectory prediction) 和跨多个卫星和街景图像的链式思考推理 (chain-of-thoughts reasoning)。
混合学习 (Mixture Learning): 代表大多数 MLLM 使用的标准训练方法，通过直接混合所有类型的指令数据进行训练。

4.2.2. 三阶段训练管道 (Three-Stage Tuning Pipeline)

作者观察到不同学习过程组合显著影响训练效果，因此提出了一个三阶段调优管道，以提高训练稳定性并平衡各种城市任务的性能。该管道由三个顺序阶段组成：

阶段一：任务对齐 (Task Alignment):
- 目标: 使模型熟悉各种城市任务，并利用其现有的通用知识完成这些任务。
- 过程: 从一个经过良好训练的通用 MLLM 作为基础模型开始，首先引入任务对齐学习过程，使用多样化的城市任务相关指令对模型进行微调。
阶段二：知识学习 (Knowledge Learning):
- 目标: 赋予模型解决任务所需的专业城市知识。
- 过程: 由于仅熟悉通用知识不足以有效解决多样化的城市任务，此阶段引入知识学习过程，从多模态城市数据中传授专业城市知识。
阶段三：混合学习 (Mixture Learning):
- 目标: 增强模型结合知识和技能以解决多样化城市任务的意识。
- 过程: 重新采样前两个阶段 1/3 的领域特定数据和 1/3 的通用文本指令数据（例如 ShareGPT 和 UltralChat [11]）进行最终调优。
  
  核心思想: 该多阶段训练框架可以被视为一种有前途的实践，它明确地将 MLLM 中空间推理能力的学习与领域特定知识的学习解耦。

4.3. UBench: 城市智能任务的增强多模态基准

为了评估 MLLM 在城市研究中的潜力，作者在 CityBench [18] 和 Urbench [56] 的基础上，重新组织和扩展了评估任务，创建了城市评估基准 UBench。

以下是原文 Table 1 的结果：

Tasks	Data	Category	Metrics	Samples	Source
GeoQA	Geospatial Data	GeoQA	Avg. Accuracy	1450	CityBench
TrajPredict	Trajectory Data	Geo+Traj	Top-1	500	CityBench
Navigation	Single STV	Geo+Traj	Success Rate	50	CityBench
SceneComp	Multi SAT	Geo+SAT	Accuracy	200	UrBench
ImgRetrieval	Multi STV & SAT	Geo+SS	Accuracy	200	UrBench
CameraLoc	Multi STV & SAT	Geo+SS	Accuracy	200	UrBench
STV-Address	Single STV	Geo+STV	Accuracy	200	UBench
STV-Landmark	Single STV	Geo+STV	Accuracy	200	UBench
SAT-Address	Single SAT	Geo+SAT	Accuracy	200	UBench
SAT-Landuse	Single SAT	Geo+SAT	Accuracy	200	UBench
STV-Outlier	Multi STV	Geo+STV	Accuracy	200	UBench
SceneFunc	Multi SAT	Geo+SAT	Accuracy	200	UBench

UBench 包括 12 项任务：

从现有基准中选择的 6 项任务:
- GeoQA: 基于地理空间数据的问题回答，来自 CityBench。
- TrajPredict (轨迹预测): 基于轨迹数据，来自 CityBench。
- Navigation (导航): 基于单张街景图像，来自 CityBench。
- SceneComp (场景比较): 基于多张卫星图像，来自 UrBench。
- ImgRetrieval (图像检索): 基于多张街景图像和卫星图像，来自 UrBench。
- CameraLoc (相机定位): 基于多张街景图像和卫星图像，来自 UrBench。
新引入的 6 项任务:
- 单图像任务 (与城市指令数据对齐):
  - STV-Address (街景地址推断): 基于单张街景图像推断地址。
  - STV-Landmark (街景地标识别): 基于单张街景图像识别地标。
  - SAT-Address (卫星图地址推断): 基于单张卫星图像推断地址。
  - SAT-Landuse (卫星图土地利用推断): 基于单张卫星图像推断土地利用。
- 多图像任务 (更复杂):
  - STV-Outlier (街景异常值): 一项空间一致性任务，比较一条轨迹中的多张街景图像以识别不属于该轨迹的异常图像。
  - SceneFunc (场景功能): 扩展了 UrBench 中的场景比较任务，挑战模型选择满足特定功能要求的正确卫星图像。
    
    数据划分: 对于新引入的单图像任务，原始数据集被划分为训练集和验证集，以防止潜在的数据泄露。

5. 实验设置

5.1. 数据集

实验在三个主要城市进行：北京 (Beijing)、伦敦 (London) 和纽约 (New York)。由于数据量庞大，每个城市都选择了一个特定区域进行实验。这些区域的空间覆盖范围在补充材料中给出 (Figure 36)。

Figure 36. Maps for Beijing, London and New York. 该图像是图表，展示了北京、伦敦和纽约的地图。图中分别标注了三个城市的主要街道和地理特征，提供了对于城市空间布局的直观理解。

以下是原文 Figure 36 的结果：

VLM 描述: 该图像是图表，展示了北京、伦敦和纽约的地图。图中分别标注了三个城市的主要街道和地理特征，提供了对于城市空间布局的直观理解。

UData 数据集统计: 以下是原文 Table 10 的结果：

City	Category	Dataset	Instance Rounds
I	General	ShareGPT,UltraChat,Open-Platypus	19866	3.7
Beijing	Location View Data	CityQA	19271	1
		Location Address	93246	1
		Landmark Details	51130	1
		Image Description	28798	1
		Cross Modality Reasoning	2000	1
	Trajectory View Data	Random Walk	9001	1
		Real-World Trajectory	98	1
		Visual Random Walk	8936	1
		Vision-Language Navigation	3000	1
	Global View Data	Image Content	9315	1
		Location Address	2777
		Landuse Inference	3642	1
		Multiple SAT Comparison	10114	1
		Cross-View Data	77204	1
London		Cross Modality Reasoning	14977	1
	Location View Data	CityQA	28934	1
		Location Address	2172	1
		Landmark Details	2372
		Image Description	716	1
		Cross Modality Reasoning	1286	1
	Trajectory View Data	Random Walk	16524	1
		Real-World Trajectory	98	1
		Visual Random Walk	13412	1
		Vision-Language Navigation	3000	1
	Global View Data	Image Content	3853	1
		Location Address	882	1
		Landuse Inference	4332	1
		Multiple SAT Comparison	4500	1
		Cross-View Data	2172	1
		Cross Modality Reasoning	5758	1
	New York Location View Data	CityQA	25413	1
		Location Address	94886	1
		Landmark Details	50404	1
		Image Description	24529	1
		Cross Modality Reasoning	2012	1
	Trajectory View Data	Random Walk	12277	1
		Real-World Trajectory	98	1
		Visual Random Walk	12229	1
		Vision-Language Navigation	3000	1
	Global View Data	Image Content	18368	1
		Location Address	5113	1
		Landuse Inference	17899	1
		Multiple SAT Comparison	22020	1
		Cross-View Data	94886	1
		Cross Modality Reasoning	23603	1

原始数据 (Raw Data) 统计: 以下是原文 Table 11 的结果：

City	AoIs	PoIs	Roads	Trajectory	Street View Image	Satellite Image
Beijing	4647	1882	2320	21015	28798	1533
London	13705	11715	1322	173268	3125	556
New York	19541	11112	522	390934	24444	2738

数据样本示例: 补充材料中提供了多种数据样本示例，以下是其中几个代表性例子，以帮助读者直观理解数据形态：

1. 局部视图训练实例 (Local View Training Instances):

位置地址 (Location Address): 用户提供街景图像，模型被问及图像中所示的地点。

该图像是街景视图，展示了北京市的一条道路，周围有树木和建筑物。图中可以看到沿路的交通标志和设施，为城市环境提供了详细的视觉信息。

以下是原文 Figure 22 的结果：

VLM 描述: 该图像是街景视图，展示了北京市的一条道路，周围有树木和建筑物。图中可以看到沿路的交通标志和设施，为城市环境提供了详细的视觉信息。

图像描述 (Image Description): 用户提供街景图像，模型被要求描述图像内容并估计附近的兴趣点。

该图像是一个城市道路的局部视图，展示了道路右侧的交通及环境特点。画面中有一辆白色汽车正在驶过，旁边还有公交车停靠站，背景显示城市建筑和树木，反映了城市交通的真实情境。

以下是原文 Figure 23 的结果：

VLM 描述: 该图像是一个包含建筑和绿地的场景，展示了一部分被自然环境包围的建筑物。周围的树木和草地形成了一种和谐的城市与自然的融合景象。

地标细节 (Landmark Details): 用户提供街景图像，模型被问及图像中的地标是什么。

该图像是一个包含建筑和绿地的场景，展示了一部分被自然环境包围的建筑物。周围的树木和草地形成了一种和谐的城市与自然的融合景象。

以下是原文 Figure 24 的结果：

VLM 描述: 该图像是一个城市道路的局部视图，展示了道路右侧的交通及环境特点。画面中有一辆白色汽车正在驶过，旁边还有公交车停靠站，背景显示城市建筑和树木，反映了城市交通的真实情境。

2. 全局视图训练实例 (Global View Training Instances):

图像内容 (Image Content): 用户提供卫星图像，模型被要求提供图像内容的描述。

该图像是一个示意图，展示了城市区域的全球视图，包含水体、道路和植被区域，反映了城市环境的空间分布特征。

以下是原文 Figure 20 的结果：

VLM 描述: 该图像是一个示意图，展示了城市区域的全球视图，包含水体、道路和植被区域，反映了城市环境的空间分布特征。

土地利用推断 (Landuse Inference): 用户提供卫星图像并指定区域，模型被要求推断该区域的土地利用类型。

该图像是土地利用推断的全球视图训练实例示例，展示了城市环境中设施和建筑的分布情况，包括运动场和住宅区等元素。

以下是原文 Figure 21 的结果：

VLM 描述: 该图像是土地利用推断的全球视图训练实例示例，展示了城市环境中设施和建筑的分布情况，包括运动场和住宅区等元素。

跨模态推理 (Cross Modality Reasoning): 用户提供一张卫星图像和一张街景图像，模型被要求预测街景图像位于卫星图像的哪个象限。

该图像是图表，展示了跨视图数据的全球视图训练实例。左侧为城市区域的航拍图，右侧则为城市街景的地面视图，显示不同的城市环境信息。

以下是原文 Figure 34 的结果：

VLM 描述: 该图像是图表，展示了跨视图数据的全球视图训练实例。左侧为城市区域的航拍图，右侧则为城市街景的地面视图，显示不同的城市环境信息。

5.2. 评估指标

UBench 任务的评估指标如表 1 所示，主要包括准确率 (Accuracy)、平均准确率 (Avg. Accuracy)、Top-1 和成功率 (Success Rate)。对于通用基准测试，还使用了评分分数 (Rating Score)。

准确率 (Accuracy):
- 概念定义: 准确率衡量模型预测正确的样本数量占总样本数量的比例。它是一个直观且常用的分类任务评估指标，特别适用于类别分布平衡的情况。
- 数学公式: $\text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$
- 符号解释:
  - $\text{Number of Correct Predictions}$ : 模型做出正确预测的样本数量。
  - $\text{Total Number of Predictions}$ : 模型进行预测的总样本数量。
平均准确率 (Avg. Accuracy):
- 概念定义: 对于多分类任务或多子任务的聚合评估，平均准确率可能指每个类别准确率的平均值，或者在某些上下文中指所有子任务准确率的平均值。在 GeoQA 任务中，它通常指在多个地理问题上的平均表现。
- 数学公式: 如果有 $N$ 个子任务，每个子任务的准确率为 $\text{Accuracy}_i$ ，则平均准确率为： $\text{Avg. Accuracy} = \frac{1}{N} \sum_{i=1}^{N} \text{Accuracy}_i$
- 符号解释:
  - $N$ : 子任务或类别的总数量。
  - $\text{Accuracy}_i$ : 第 $i$ 个子任务或类别的准确率。
Top-1 (Top-1 Accuracy):
- 概念定义: 在排序或多选任务中，Top-1 衡量模型给出的最高置信度预测（即排名第一的预测）是否为正确答案的比例。常用于轨迹预测等任务，表示模型预测的最可能轨迹是否正确。
- 数学公式: 与准确率公式相同，但“正确预测”特指排名第一的预测是正确的。 $\text{Top-1} = \frac{\text{Number of times the correct item is ranked first}}{\text{Total Number of Predictions}}$
- 符号解释:
  - $\text{Number of times the correct item is ranked first}$ : 正确答案被模型预测为首位的次数。
  - $\text{Total Number of Predictions}$ : 模型进行预测的总次数。
成功率 (Success Rate):
- 概念定义: 成功率衡量模型完成特定任务（如导航任务）的百分比。它通常用于评估模型能否达到某个预设的目标，是一个二元（成功/失败）任务的性能指标。
- 数学公式: 与准确率公式相同，特指任务成功的次数。 $\text{Success Rate} = \frac{\text{Number of Successful Tasks}}{\text{Total Number of Tasks}}$
- 符号解释:
  - $\text{Number of Successful Tasks}$ : 模型成功完成的任务数量。
  - $\text{Total Number of Tasks}$ : 模型尝试完成的任务总数量。
评分分数 (Rating Score):
- 概念定义: 评分分数是一种基于人类评估或另一个大语言模型（如 GPT4o）作为评判者的主观评估指标。它用于评估模型生成回复的质量、相关性、连贯性或整体有用性，通常是 0 到 100 或 0.0 到 1.0 之间的分数。在 LLaVA-Bench(In-the-Wild) 和 MM-Vet 中使用。
- 数学公式: 无统一数学公式，通常是评判者根据特定评分标准给出的分数。
- 符号解释: 通常直接表示评估结果，例如 60.75 分。

5.3. 对比基线

本文将 UrbanLLaVA 的性能与以下开源和专有 MLLM 进行了比较：

开源 MLLM:
- Qwen2VL-7B/72B [41]
- InternVL2-8B/26B [7, 8]
- VILA1.5-3B/8B/13B [29] (其中 VILA1.5-8B 作为 UrbanLLaVA 的默认基础模型)
- LLaMA3.2-11B/90B [36]
专有 MLLM:
- GPT4o [40]
- GPT4o-mini [40]
单模态城市任务特定模型 (Supplementary Material):
- GeoChat
- CityGPT
- UrbanCLIP
  
  这些基线模型代表了 MLLM 领域的最新进展，包括不同参数规模的模型以及商业闭源模型，以及城市领域的特定模型，这使得 UrbanLLaVA 的性能评估具有广泛性和说服力。

5.4. 实现细节

基础模型: 使用 VILA [29] 官方仓库的代码进行微调。
硬件: 在单个 8x A100 节点上进行训练。
训练参数:
- 学习率 (learning rate): 1e-5
- 最大序列长度 (maximum sequence length): 2048
- 每个 GPU 的批次大小 (batch size per GPU): 8
- 训练轮次 (training epoch): 1
训练时间: 在 4x A100 上训练北京 (Beijing) 数据总共耗时 10.7 小时。
推理设置:
- 最大输出词元 (max output tokens): 1000
- 温度 (temperature): 0 (用于确定性输出)
部署: 开源 MLLM 通过 VLMEvalKit [13] 部署。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 主要结果 (Main Results)

以下是原文 Table 2 的结果：

City	Beijing					London					New York
Task Group	GeoQA Geo+Traj Geo+STV Geo+SAT										GeoQA Geo+Traj Geo+STV Geo+SAT
VILA1.5-3B	0.3873	0.0200	0.3967	0.3200	0.2575	0.4362	0.0400	0.2557	0.2850	0.2725	0.3954	0.0400	0.4400	0.2713	0.2425
VILA1.5-8B	0.4322	0.0589	0.4300	0.3488	0.2425	0.4841	0.0884	0.4495	0.4575	0.2575	0.4575	0.1200	0.4983	0.3763	0.2525
VILA1.5-13B	0.4410	0.1156	0.5167	0.3638	0.2400	0.4592	0.1298	0.4991	0.4538	0.2625	0.4501	0.2350	0.5583	0.4025	0.2825
InternVL2-8B	0.4709	0.1578	0.4667	0.3313	0.2325	0.4973	0.1347	0.4477	0.4763	0.2400	0.4632	0.1830	0.4917	0.4175	0.2400
InternVL2-26B	0.4877	0.1478	0.4550	0.3825	0.2275	0.5168	0.1288	0.4923	0.5138	0.2425	0.4766	0.2240	0.5217	0.4738	0.2375
Qwen2VL-7B	0.4950	0.1389	0.4383	0.3638	0.2675	0.4991	0.1560	0.4381	0.4863	0.2775	0.4567	0.1700	0.5117	0.5100	0.2950
Qwen2VL-72B	0.5491	0.1611	0.5817	0.3588	0.2975	0.5802	0.2322	0.6375	0.4375	0.3250	0.5273	0.2540	0.6333	0.3788	0.3275
LLaMA3.2-11B	0.4229	0.0756	0.4375	0.3075	I	0.4804	0.1180	0.4000	0.3800	I	0.4127	0.1100	0.5200	0.2225	I
LLaMA3.2-90B	0.4502	0.1056	0.5325	0.2925	,	0.5659	0.2010	0.5450	0.4700	I	0.5234	0.1570	0.6825	0.3400	I
GPT4o-mini	0.4542	0.1622	0.4350	0.3800	0.2475	0.5357	0.1278	0.4752	0.5388	0.2675	0.5075	0.2320	0.5633	0.4775	0.2350
GPT40	0.5479	0.1522	0.4300	0.4125	0.3025	0.6446	0.1300	0.5469	0.6050	0.2850	0.6232	0.2340	0.5767	0.5400	0.2900
UrbanLLaVA-VILA1.5-8B 0.5682		0.2800	0.8650	0.6663	0.7025	0.6399	0.2680	0.7500	0.7100	0.4325	0.5773	0.3060	0.8500	0.7725	0.5825
vs. VILA1.5-8B	+31.47% +375.38% +101.16% +91.03% +189.69% +32.18% +203.17% +66.85%									+55.19% +67.96% +26.19% +155.00% +70.57% +43.06% +77.86%
vs. Best Baseline	+3.48% +72.63% +48.70% +61.53% +132.23% -0.73% +15.42% +17.65%									+17.36% +33.08% -7.37% +20.47% +24.54% +43.06% +77.86%

北京 (Beijing) 的结果:
- UrbanLLaVA 在 UBench 的所有任务中均显示出对所有基线模型的显著改进。
- 与最佳基线相比，UrbanLLaVA 在每个任务上的性能提升范围从 3.48% 到 132.23%。
- 与基础模型 VILA1.5-8B 相比，最小提升是 GeoQA 任务的 31.47%，最大提升在 $Geo+Traj$ 任务上高达 375.38%。
- 这表明 UData 成功地赋予了小型 MLLM 多种城市空间能力，实现了优于所有先进通用 MLLM 的卓越性能。
- LLaMA3.2 系列模型由于不支持多图像输入，在涉及多图像的评估任务中结果为空白。
- 通常，参数量更大的模型表现更好，例如 VILA1.5-13B 在 6 项任务中的 5 项上显著优于 VILA1.5-3B。
- 最新的 Qwen2VL 系列模型在 2 项任务上优于 GPT4o 系列模型，验证了 UBench 的有效性。
纽约 (New York) 和伦敦 (London) 的结果:
- UrbanLLaVA 在伦敦和纽约的 5 项任务中均表现最佳。
- 在 GeoQA 任务中，UrbanLLaVA 在伦敦和纽约的表现略逊于 GPT4o，分别下降了 -0.73% 和 -7.37%。
- 作者推测原因可能包括：1) 这两个城市相关数据质量可能低于北京，影响模型学习；2) 基础模型 VILA1.5-8B 可能不如商业 API GPT4o 强大。
- 总体而言，UrbanLLaVA 成功提升了小型 MLLM 在多样化城市任务上的性能，并展现了跨城市的泛化能力 (Figure 6)。

6.1.2. 与单模态城市任务模型的比较 (Comparison with Single-modality Urban Tasks Models)

以下是原文 Table 5 的结果：

	GeoQA	STV-Address	STV-Landmark	SAT-Address	SAT-Landuse
GeoChat	0.3746	0.3100	0.2050	0.2872	0.4650
CityGPT	0.5238	-	-	-	-
UrbanCLIP	-	-	-	-	0.3750
Ours	0.5741	0.8550	0.8750	0.7450	0.7850

UrbanLLaVA (Ours) 在 GeoQA、STV-Address、STV-Landmark、SAT-Address 和 SAT-Landuse 等单模态城市任务上均显著优于 GeoChat、CityGPT 和 UrbanCLIP 等专门用于单模态城市任务的模型。这进一步强调了 UrbanLLaVA 在统一框架下处理多模态数据的优势。

6.1.3. 模型泛化能力研究 (Model Generalization Study)

以下是原文 Table 3 的结果：

Test@General	LLaVA-Bench (In-the-Wild)	RealWorldQA	MM-Vet
Metric	Rating Score	ACC	Rating Score
VILA1.5-8B	60.75	0.3765	0.3518
Ours-8B	58.95	0.4052	0.3239

通用基准测试 (General Benchmarks): UrbanLLaVA 在 LLaVA-Bench(In-the-Wild)、RealWorldQA 和 MM-Vet 等通用基准测试中保持了原始的稳定性，甚至在 RealWorldQA 上有所提升。这表明模型在获得城市特定智能的同时，没有损害其在日常生活视觉任务和真实世界空间理解方面的原有能力。
跨城市泛化能力 (Cross-City Generalization): 如图 6 所示，UrbanLLaVA 在北京训练后，在伦敦和纽约的基准测试中也表现出具有竞争力的能力。所有任务的性能都有所提升，特别是轨迹和区域任务，提升显著。这表明城市之间存在超越简单差异的相似结构，模型能够学习并泛化这些结构。

该图像是一个条形图，展示了北京市、伦敦与纽约在不同任务（如GeoQA、TrajPredict等）上的性能评分对比。图中深色条代表我们的模型，浅色条代表基线，表现出我们模型在这些任务上优于基线的趋势。

以下是原文 Figure 6 的结果：

VLM 描述: 该图像是一个条形图，展示了北京市、伦敦与纽约在不同任务（如GeoQA、TrajPredict等）上的性能评分对比。图中深色条代表我们的模型，浅色条代表基线，表现出我们模型在这些任务上优于基线的趋势。

6.1.4. 数据消融研究 (Data Ablation Study)

以下是原文 Table 4 的结果：

Task	Data View GTrareictdress LardsLanUavigtVuterSceCo SceneuncIRtrval C
Metric		Avg. Acc	Acc@1	Acc	Acc	Acc	Acc	Success Rate Acc	Acc	Acc	Acc	Acc
		0.5741	0.0711	0.8550	0.8750	0.7450	0.7850 0.3600	0.7800	0.5500	0.5050	0.7300	0.5100
Ours w/o CityQA	Local	0.5409	0.0822 ↑	0.8700	0.8900	0.7150	0.6950 ↓ 0.4000	0.8050	0.5400	0.5200	0.7750	0.5200
w/o STV	Local	0.5192 ↓	0.0622	0.4300 ↓	0.7300 ↓	0.4700 ↓	0.7200 ↓ 0.4200 ↑	0.6700 ↓	0.4900↓	0.4550 ↓	0.6250 ↓	0.4250 ↓
w/o Traj-Text&Nav Trajectory		0.4769 ↓	0.0644	0.8100	0.8800	0.6350↓	0.7050 ↓ 0.0000 ↓	0.7600	0.4950 ↓	0.4300 ↓	0.6800 ↓	0.4600 ↓
w/o Traj-Vision	Trajectory	0.5590	0.0690	0.8350	0.9050	0.7300	0.7100 ↓ 0.3000 ↓	0.8000	0.5150	0.4650	0.7150	0.4950
w/o SAT-Single	Global	0.5345	0.0778	0.8600	0.9100	0.5550↓	0.4550 ↓ 0.3800	0.7800	0.5150	0.4100 ↓	0.7200	0.4800
w/o SAT-Multi	Global	0.5420	0.0778	0.8500	0.8700	0.6200 ↓	0.6800 ↓ 0.3400	0.6450 ↓	0.3500 ↓	0.3400 ↓	0.3950 ↓	0.2600 ↓

局部视图数据 (Local View Data): 移除 CityQA 或 STV (Street View) 数据都会导致性能显著下降，尤其是在需要城市局部智能的任务上。这表明局部知识对整体城市理解至关重要。
轨迹视图数据 (Trajectory View Data): 移除文本轨迹 (Traj-Text) 及导航 (Nav) 或视觉轨迹 (Traj-Vision) 数据都会导致导航任务和 SceneFunc、GeoQA 等任务的性能下降。这验证了轨迹数据对理解城市连续空间的重要性。
全局视图数据 (Global View Data): 移除单卫星图像 (SAT-Single) 或多卫星图像 (SAT-Multi) 数据会影响模型处理全局城市任务的能力，如 ImgRetrieval 和 CameraLoc。这表明全局视图数据对于赋予 MLLM 处理这些任务的能力至关重要。
结论: UData 的所有子集对于 UrbanLLaVA 在不同城市任务中实现全面而强大的性能都是不可或缺的。

6.1.5. 训练策略效果 (Effects of Training Strategies)

三阶段训练管道 (Three-stage Training Pipeline): 如图 5 所示， $TA -> K -> Mix$ 的三阶段训练管道在大多数任务中表现最佳，并保持了可靠的性能，优于默认的 MLLM 微调方法。

该图像是一个柱状图，展示了不同任务的准确率（%）对比。图中包含了“招牌预测（TrajPredict）”、“导航（Navigation）”、“SAT地址（SAT-Address）”等多个任务的结果，并对比了一阶段和二阶段的模型表现。

以下是原文 Figure 5 的结果：

VLM 描述: 该图像是一个柱状图，展示了不同任务的准确率（%）对比。图中包含了“招牌预测（TrajPredict）”、“导航（Navigation）”、“SAT地址（SAT-Address）”等多个任务的结果，并对比了一阶段和二阶段的模型表现。

知识学习与任务对齐的顺序 (Order of Knowledge Learning and Task Alignment):
- 在两阶段训练中， $K -> TA$ 略优于 $TA -> K$ 。
- 然而，当在两阶段模型中加入第三阶段的混合学习时，首先进行任务对齐（ $TA -> K -> Mix$ ）能获得更好的结果。
- 作者推测，对于三阶段训练，如果前两阶段模型已经具备相当能力（ $K -> TA$ ），混合训练的影响可能不显著；而对于先进行任务对齐再知识学习的模型（ $TA -> K$ ），混合学习可以增强其能力，帮助其回忆之前学到的城市任务解决方式。
学习率 (Learning Rate): 如图 10a 所示，学习率对训练稳定性和性能有显著影响。使用较低的学习率 1e-5 (ours) 相比 VILA 默认的 1e-4，训练损失曲线更平滑且更低。这表明在混合领域特定结构化指令数据进行训练时，较低的学习率使模型能够更稳健地处理来自不同模态的特征。

$该图像是一个训练损失随迭代次数变化的折线图。图中展示了两条曲线，分别代表不同学习率（$1e^{-4}$ 和 $1e^{-5}$）下的损失变化趋势，横轴为训练迭代次数，纵轴为损失值，损失值在训练过程中逐渐降低。$ 该图像是一个训练损失随迭代次数变化的折线图。图中展示了两条曲线，分别代表不同学习率（ $1e^{-4}$ 和 $1e^{-5}$ ）下的损失变化趋势，横轴为训练迭代次数，纵轴为损失值，损失值在训练过程中逐渐降低。

以下是原文 Figure 10a 的结果：

VLM 描述: 该图像是一个训练损失随迭代次数变化的折线图。图中展示了两条曲线，分别代表不同学习率（ $1e^{-4}$ 和 $1e^{-5}$ ）下的损失变化趋势，横轴为训练迭代次数，纵轴为损失值，损失值在训练过程中逐渐降低。

文本数据和视觉数据的分离 (Separation of Text and Vision Data): 如图 10b 所示，在一个阶段同时训练文本和视觉数据比分开训练能产生更好的结果，也优于基础模型 VILA1.5-8B。
训练组件 (Trained Components): 如图 10c 所示，使用不同的组件训练相同数据，性能差异很小。

该图像是图表，展示了不同模型在多个城市任务中的性能评分。图中列出了多种任务（如 GeoQA、SAT-Address、SAT-Landuse、SceneFunc 和 CameraLoc）及对应的性能分数，分别以不同颜色表示模型类型，清晰展示了模型在单模态和多模态任务中的表现差异。

以下是原文 Figure 10b 的结果：

VLM 描述: 该图像是图表，展示了不同模型在多个城市任务中的性能评分。图中列出了多种任务（如 GeoQA、SAT-Address、SAT-Landuse、SceneFunc 和 CameraLoc）及对应的性能分数，分别以不同颜色表示模型类型，清晰展示了模型在单模态和多模态任务中的表现差异。

6.1.6. 模型大小和数据量影响 (Effects of Model Size and Data Size)

模型大小 (Model Size): 如图 15 所示，性能通常随 VILA1.5 模型参数量（从 3B 到 13B）的增加而提高。然而，对于某些任务，不同大小的模型表现出相似的能力，这可能是因为任务本身具有挑战性（如轨迹预测）或相对简单（如 SAT-Landuse）。与 VILA1.5-8B 相比，VILA1.5-13B 的性能提升很小，这可能与 VILA1.5 所使用的 LLaMA3-8B 和 LLaMA2-13B 模型的能力有关。

该图像是图表，展示了 UrbanLLaVA 在不同模型大小下的性能结果。图中显示了在不同模型（3B、8B、13B）下，GeoQA、STV、SAT 等任务的得分变化情况，表现出模型规模对任务性能的影响。

以下是原文 Figure 12 的结果：

VLM 描述: 该图像是图表，展示了 UrbanLLaVA 在不同模型大小下的性能结果。图中显示了在不同模型（3B、8B、13B）下，GeoQA、STV、SAT 等任务的得分变化情况，表现出模型规模对任务性能的影响。

训练数据量 (Training Data Size): 如图 14 所示，性能随训练数据量的增加而提高，这验证了 UData 的高质量。

该图像是图表，展示了不同训练数据比例对模型性能得分的影响。各条线分别代表GeoQA、Geo+Traj、Geo+STV、Geo+SAT、Geo+SS和MMScore，显示出随训练数据增加，得分整体呈上升趋势，特别是GeoQA表现最佳。

以下是原文 Figure 11 的结果：

VLM 描述: 该图像是图表，展示了不同训练数据比例对模型性能得分的影响。各条线分别代表GeoQA、Geo+Traj、Geo+STV、Geo+SAT、Geo+SS和MMScore，显示出随训练数据增加，得分整体呈上升趋势，特别是GeoQA表现最佳。

6.1.7. 案例研究 (Case Study)

论文通过多个案例展示了 UrbanLLaVA 在处理复杂城市任务方面的能力：

SceneFunc (场景功能): 挑战模型识别哪个卫星图像包含最高浓度的特定兴趣点 (POI) 类别。这要求模型理解并比较不同图像之间的差异。在 Figure 7 中，UrbanLLaVA 成功回答了 VILA1.5-8B 未能回答的问题，展示了其多图像理解和比较能力。

该图像是一个示意图，展示了四幅卫星图像及其对应的 POI 分析。图中提示选择哪个图像显示了最多的餐饮相关 POI，结果表明第三幅图像包含主要商业区域，可能拥有较高的餐饮业务集中度。

以下是原文 Figure 7 的结果：

VLM 描述: 该图像是一个示意图，展示了四幅卫星图像及其对应的 POI 分析。图中提示选择哪个图像显示了最多的餐饮相关 POI，结果表明第三幅图像包含主要商业区域，可能拥有较高的餐饮业务集中度。

STV-Outlier (街景异常值): 要求模型比较多张街景图像，并指出与参考图像最不相似的异常值。这需要模型在城市背景下进行高级隐式逻辑推理。在 Figure 8 中，UrbanLLaVA 成功识别出异常值，优于 VILA1.5-8B 和 GPT-4o-mini。

该图像是一个示意图，展示了一个城市道路场景，并提供了四个选项供选择哪个图像最接近参考图。参考图展示了一条有自行车道的城市道路。图中要求选择的选项涵盖了不同的场景，其中部分选项缺乏类似的特征。

以下是原文 Figure 8 的结果：

VLM 描述: 该图像是一个示意图，展示了一个城市道路场景，并提供了四个选项供选择哪个图像最接近参考图。参考图展示了一条有自行车道的城市道路。图中要求选择的选项涵盖了不同的场景，其中部分选项缺乏类似的特征。

SAT-LandUse (卫星图土地利用): 模型根据卫星图像推断土地利用类型（例如商业、住宅、农业）。Figure 13 展示了 UrbanLLaVA 准确识别土地利用类型，体现了其对图像的正确感知、指令遵循和城市知识掌握能力。

该图像是一个多选题示例，题目要求根据卫星图像选择最可能的土地使用类型。模型的正确答案以绿色标示，显示我们的回答为 B，解释说明该区域的土地使用类型为住宅。

以下是原文 Figure 13 的结果：

VLM 描述: 该图像是一个多选题示例，题目要求根据卫星图像选择最可能的土地使用类型。模型的正确答案以绿色标示，显示我们的回答为 B，解释说明该区域的土地使用类型为住宅。

STV-Landmark (街景地标识别): 模型需要从给定街景图像中找出最接近的地标特征。Figure 14 中，UrbanLLaVA 通过正确回答问题，展示了其在多模态语境下进行逻辑推理的能力。
SAT-Address (卫星图地址推断): 模型根据卫星图像推断最可能的地址描述。Figure 15 展示了 UrbanLLaVA 在此任务上的表现。

该图像是一个SAT-Address任务的示例，展示了一个卫星图像及周围环境的描述。该任务要求选择最合适的地址选项，根据图像信息，选项B描述的区域与住宅区对应，因此是最佳选择。

以下是原文 Figure 15 的结果：

VLM 描述: 该图像是一个SAT-Address任务的示例，展示了一个卫星图像及周围环境的描述。该任务要求选择最合适的地址选项，根据图像信息，选项B描述的区域与住宅区对应，因此是最佳选择。

STV-Address (街景地址推断): 模型根据街景图像推断最可能的地址。Figure 16 展示了 UrbanLLaVA 在此任务上的表现。

该图像是一个城市街道的实景图，展示了空旷的道路和建筑物。图中可以见到一辆白色汽车驶过，周围环境清晰可见，体现了城市的日常生活场景。

以下是原文 Figure 16 的结果：

VLM 描述: 该图像是一个城市街道的实景图，展示了空旷的道路和建筑物。图中可以见到一辆白色汽车驶过，周围环境清晰可见，体现了城市的日常生活场景。

SceneComp (场景比较): 模型需要从多张卫星遥感图像中选择建筑数量最多的那一张。Figure 17 展示了 UrbanLLaVA 在此任务上的表现。

该图像是四张城市区域的卫星图像示例，分别展示了不同的城市景观。图像中涉及的问题是识别哪一张图像的建筑最为密集。参照答案为A，说明第一张图像展示了一条有单车道的城市道路。

以下是原文 Figure 17 的结果：

VLM 描述: 该图像是四张城市区域的卫星图像示例，分别展示了不同的城市景观。图像中涉及的问题是识别哪一张图像的建筑最为密集。参照答案为A，说明第一张图像展示了一条有单车道的城市道路。

ImgRetrieval (图像检索): 评估模型将给定街景图像映射到相应卫星图像的能力。Figure 18 展示了 UrbanLLaVA 在此任务上的表现。

该图像是示意图，展示了不同视角的城市环境数据，包括街景、道路和建筑等。这些图像支持 extit{UrbanLLaVA} 模型处理多模态数据，增强城市智能研究的可能性。

以下是原文 Figure 18 的结果：

VLM 描述: 该图像是示意图，展示了不同视角的城市环境数据，包括街景、道路和建筑等。这些图像支持 extit{UrbanLLaVA} 模型处理多模态数据，增强城市智能研究的可能性。

CameraLoc (相机定位): 要求模型推断街景图像所拍摄位置位于卫星图像的哪个象限。Figure 19 展示了 UrbanLLaVA 在此任务上的表现。

该图像是一个示意图，展示了CameraLoc任务的两个视角：左侧是城市区域的航空视图，右侧是街道的实时摄像头视角。这种对比有助于理解空间定位与环境感知在城市智能中的应用。

以下是原文 Figure 19 的结果：

VLM 描述: 该图像是一个示意图，展示了CameraLoc任务的两个视角：左侧是城市区域的航空视图，右侧是街道的实时摄像头视角。这种对比有助于理解空间定位与环境感知在城市智能中的应用。

6.2. 数据呈现 (表格)

本节已在 6.1.1. 主要结果 和 6.1.4. 数据消融研究 中完整转录了 Table 2 和 Table 4。此外，补充材料中还提供了三个城市（北京、伦敦和纽约）的详细结果。

北京详细结果 (Detailed Results for Beijing): 以下是原文 Table 6 的结果：

Tasks@Beijing	GeoQA	Geo+Traj		Geo+STV			Geo+SAT			Geo+SS
Tasks@Beijing	GeoQA
Qwen2VL-7B	0.4950	0.0978	0.18	0.440	0.755	0.1200	0.295	0.405	0.400	0.355	0.275	0.260
Qwen2VL-72B	0.5491	0.0822	0.24	0.410	0.785	0.5500	0.395	0.395	0.335	0.310	0.290	0.305
InternVL2-8B	0.4709	0.0957	0.22	0.420	0.755	0.2250	0.295	0.300	0.390	0.340	0.210	0.255
InternVL2-26B	0.4877	0.0756	0.22	0.440	0.755	0.1700	0.360	0.375	0.440	0.355	0.230	0.225
VILA1.5-3B	0.3873	0.0000	0.04	0.270	0.655	0.2650	0.275	0.475	0.295	0.235	0.250	0.265
VILA1.5-8B	0.4322	0.0578	0.06	0.270	0.650	0.3700	0.225	0.405	0.420	0.345	0.195	0.290
VILA1.5-13B	0.4410	0.0511	0.18	0.305	0.715	0.5300	0.320	0.320	0.425	0.390	0.270	0.210
LLaMA3.2-11B	0.4229	0.0711	0.08	0.280	0.595	,	0.290	0.325	I	I	1	I
LLaMA3.2-90B	0.4502	0.0711	0.14	0.295	0.770	I	0.295	0.290	I	,	1	I
GPT4o-mini	0.4542	0.0844	0.24	0.280	0.765	0.2600	0.350	0.360	0.465	0.345	0.205	0.290
GPT40	0.5479	0.0844	0.22	0.405	0.775	0.1100	0.390	0.420	0.450	0.390	0.315	0.290
UrbanLLaVA-VILA1.5-8B 0.5682		0.1000	0.46	0.91	0.870	0.8150	0.780	0.72	0.585	0.58	0.785	0.62
Vs. VILA1.5-8B	+31.47%	+73.10%	+666.67%	+237.04%	+33.85%	+120.27%	+246.67%	+77.78%	+39.29%	+68.12%	+302.56%	+113.79%
vs. Best Baseline	+3.48%	+2.28%	+91.67%	+106.82%	+10.83%	+48.18%	+97.47%	+51.58%	+25.81%	+48.72%	+149.21%	+103.28%

伦敦详细结果 (Detailed Results for London): 以下是原文 Table 7 的结果：

Tasks@Beijing	GeoQA	Geo+Traj		Geo+STV			Geo+SAT			Geo+SS
Tasks@Beijing	GeoQA
Qwen2VL-7B	0.4991	0.1920	0.12	0.405	0.760	0.1492	0.305	0.550	0.870	0.220	0.270	0.285
Qwen2VL-72B	0.5802	0.2245	0.24	0.485	0.875	0.5525	0.530	0.535	0.420	0.265	0.405	0.245
InternVL2-8B	0.4973	0.1694	0.10	0.290	0.810	0.2431	0.315	0.490	0.785	0.315	0.215	0.265
InternVL2-26B	0.5168	0.1776	0.08	0.380	0.865	0.2320	0.355	0.490	0.905	0.305	0.215	0.270
VILA1.5-3B	0.4362	0.0000	0.08	0.230	0.305	0.2320	0.200	0.445	0.295	0.200	0.290	0.255
VILA1.5-8B	0.4841	0.1367	0.04	0.330	0.560	0.4586	0.305	0.485	0.705	0.335	0.250	0.265
VILA1.5-13B	0.4592	0.1796	0.08	0.430	0.570	0.4972	0.275	0.350	0.800	0.390	0.275	0.250
LLama3.2-11B	0.4804	0.1959	0.04	0.360	0.440	,	0.260	0.500	I	,	I	I
LLama3.2-90B	0.5659	0.2020	0.20	0.375	0.715	I	0.385	0.555	,	I	I	,
GPT4o-mini	0.5357	0.1755	0.08	0.375	0.835	0.2155	0.390	0.570	0.855	0.340	0.290	0.245
GPT40	0.6446	0.2000	0.06	0.580	0.895	0.1657	0.480	0.610	0.900	0.430	0.320	0.250
UrbanLLaVA-VILA1.5-8B	0.6399	0.1959	0.34	0.610	0.955	0.6851	0.575	0.750	0.955	0.560	0.605	0.260
vs. VILA1.5-8B	+32.20%	+43.28%	+750.00%	+84.85%	+70.54%	+49.40%	+88.52%	+54.64%	+35.46%	+67.16%	+142.00%	-1.89%
vs. Best Baseline	-0.72%	-12.73%	+41.67%	+5.17%	+6.70%	+24.00%	+8.49%	+22.95%	+5.52%	+30.23%	+49.38%	-8.77%

纽约详细结果 (Detailed Results for New York): 以下是原文 Table 8 的结果：

Tasks@Beijing	GeoQA Geo+Traj			Geo+STV			Geo+SAT			Geo+SS
Tasks@Beijing	GeoQA
Qwen2VL-7B	0.4567	0.1200	0.22	0.585	0.805	0.1450	0.455	0.395	0.875	0.315	0.275	0.315
Qwen2VL-72B	0.5273	0.1480	0.36	0.550	0.795	0.5550	0.520	0.235	0.470	0.290	0.335	0.320
InternVL2-8B	0.4632	0.1260	0.24	0.440	0.780	0.2550	0.395	0.135	0.835	0.305	0.245	0.235
InternVL2-26B	0.4766	0.1080	0.34	0.490	0.805	0.2700	0.495	0.225	0.885	0.290	0.230	0.245
VILA1.5-3B	0.3954	0.0000	0.08	0.330	0.745	0.2450	0.310	0.250	0.280	0.245	0.255	0.230
VILA1.5-8B	0.4575	0.1000	0.14	0.345	0.680	0.4700	0.235	0.160	0.795	0.315	0.260	0.245
VILA1.5-13B	0.4501	0.1100	0.36	0.375	0.765	0.5350	0.325	0.175	0.820	0.290	0.285	0.280
LLama3.2-11B	0.4127	0.1000	0.12	0.395	0.645	I	0.295	0.150	I	I	I	I
LLama3.2-90B	0.5234	0.1140	0.20	0.575	0.790	I	0.460	0.220	I	I	I	I
GPT4o-mini	0.5075	0.1240	0.34	0.550	0.880	0.2600	0.415	0.265	0.880	0.350	0.255	0.215
GPT40	0.6232	0.1080	0.36	0.740	0.830	0.1600	0.610	0.215	0.930	0.405	0.305	0.275
CityGPT-V-VILA1.5-8B	0.5773	0.1120	0.50	0.920	0.935	0.6950	0.885	0.880	0.835	0.490	0.645	0.520
vs. VILA1.5-8B	+26.19%	+12.00%	+257.14%	+166.67%	+37.50%	+47.87%	+276.60%	+450.00%	+5.03%	+55.56%	+148.08%	+112.24%
vs. Best Baseline	-7.36%	-24.32%	+38.89%	+24.32%	+6.25%	+25.23%	+45.08%	+122.78%	-10.22%	+20.99%	+92.54%	+62.50%

6.3. 消融实验/参数分析

6.3.1. 训练策略消融 (Training Strategies Ablation)

学习率的影响: 已在 6.1.5 节中 Figure 10a 详细说明。
文本与视觉数据分离的影响: 已在 6.1.5 节中 Figure 10b 详细说明。在一个阶段同时训练文本和视觉数据优于分开训练。
训练组件的影响: 已在 6.1.5 节中 Figure 10c 详细说明。使用不同组件训练相同数据，性能差异很小。

6.3.2. 数据消融 (Data Ablation)

已在 6.1.4 节中 Table 4 详细说明。移除任何视图数据（局部、轨迹、全局）都会导致模型在相关任务上的性能下降，证明了 UData 各组成部分的重要性。

6.3.3. 模型通用性 (Model Generalizability)

以下是原文 Table 9 的结果：

Task Group @ Beijing	GeoQA	Geo+Traj	Geo+STV	Geo+SAT	Geo+SS
Qwen2.5-VL-7B-Instruct	0.4324	0.2192	0.4467	0.2850	0.2225
+ Finetuned with UData	0.5720↑	0.1876	0.6833↑	0.4800↑	0.3800↑

对其他 MLLM 的通用性: UrbanLLaVA 的方法是模型无关的，可以推广到不同的 MLLM，例如在 Qwen2.5-VL-7B 上使用 UData 进行微调也能显著提升性能 (Table 9)，尤其是在 GeoQA、 $Geo+STV$ 、 $Geo+SAT$ 和 $Geo+SS$ 任务上。这表明 UData 和 UTrain 的设计具有普适性。

7. 总结与思考

7.1. 结论总结

本文介绍了 UrbanLLaVA，一个专门为城市智能设计的多模态大语言模型。它通过整合四种主要类型的城市数据——结构化地理空间数据、轨迹数据、卫星图像和街景图像——显著增强了城市空间认知能力，并支持广泛的城市任务。UrbanLLaVA 的核心贡献在于其系统化的数据管道 UData，能够生成从局部到全局视角的丰富指令数据；其创新的三阶段训练框架 UTrain，通过解耦空间推理和领域知识学习，确保了模型在异构城市任务中的稳定性和卓越性能；以及其扩展的评估基准 UBench，为 MLLM 在城市研究中的能力评估提供了全面工具。实验结果表明，在三个不同城市中，UrbanLLaVA 在单模态和复杂的跨模态任务中均超越了现有的开源和专有 MLLM，并展示了强大的跨城市泛化能力。总而言之，UrbanLLaVA 为构建具有强大感知和推理能力的统一基础模型，以实现通用城市智能开辟了道路。

7.2. 局限性与未来工作

作者指出了当前工作的几个局限性及未来的研究方向：

模型规模的探索不足: 实验主要集中在 8B 模型上，UData 和 UTrain 在更大规模模型上的全部潜力尚未完全实现。
UBench 的完善空间: 尽管 UBench 得到了扩展，但通过更精细的任务设计，从更细粒度的角度测试 MLLM 的整体多模态能力，仍有改进空间。
模态的进一步扩展: 未来可以纳入更多重要的城市智能模态，例如视频数据和时序数据等。
任务的深度和广度: 计划将 UrbanLLaVA 扩展到整合更多样化的城市研究数据类型，并解决来自各个交叉学科领域更高级的城市任务。

7.3. 个人启发与批判

7.3.1. 个人启发

领域知识与通用能力解耦训练的有效性: UTrain 提出的三阶段训练框架，特别是将“任务对齐”和“知识学习”解耦，再进行“混合学习”的策略，为 MLLM 在专业领域（如城市科学）的定制化提供了宝贵的经验。这表明，在通用 MLLM 基础上，有策略地引入领域特定知识和任务格式，可以高效地提升模型在特定领域的表现，同时保持其通用能力。
多视角数据构建的系统性: UData 从“局部视图”、“轨迹视图”到“全局视图”的多视角数据构建方法，有效地捕捉了城市环境固有的多尺度、多层次复杂性。这种系统性的数据策划对于训练能够全面理解城市空间并进行复杂空间推理的模型至关重要，为其他专业领域的数据集构建提供了参考。
跨城市泛化能力的潜力: UrbanLLaVA 在一个城市（北京）训练后，能够泛化到其他城市（伦敦、纽约）并取得良好效果，这令人鼓舞。它暗示了城市之间存在某种可学习的、抽象的“城市结构”或“城市规律”，而 MLLM 有能力捕捉这些规律，这对于构建可迁移的城市智能系统具有重要意义。
多模态融合是城市智能的关键: 论文再次强调了多模态数据融合对于城市研究的必要性。将街景、卫星、地理空间数据和轨迹数据统一处理，能够提供比单一模态更丰富、更全面的信息，从而实现更高级的城市认知和决策支持。

7.3.2. 批判与潜在改进

合成数据质量与真实世界差距: UData 大量依赖合成数据来生成指令。虽然这解决了数据稀缺问题，但合成数据可能存在与真实世界数据分布的偏差，或者无法完全捕捉人类提问和推理的复杂性和细微差别。未来研究可以探索如何结合更多真实的、高质量的人类标注数据，或开发更复杂的合成策略以缩小这一差距。
“空间推理”的显性程度: 论文强调了“空间推理”的重要性，但模型的空间推理能力更多地体现在从数据中隐式学习。可以探索更显式的空间推理模块，例如集成符号推理、图神经网络 (Graph Neural Networks) 或专门的空间几何处理器，以增强模型在复杂地理空间查询和规划任务中的严谨性。
计算资源成本: 10.7 小时在 4xA100 上训练北京区域的数据，对于一个区域而言，成本并不低。随着模型规模和数据量的增加，计算需求将呈指数级增长，这可能成为推广和应用更大规模 UrbanLLaVA 的一个实际障碍。未来的工作可能需要探索更高效的训练方法或模型压缩技术。
黑盒问题与可解释性: MLLM 往往是“黑盒”模型，其内部推理过程难以理解。在城市规划、灾害响应等关键城市应用中，模型决策的可解释性至关重要。未来研究可以致力于提高 UrbanLLaVA 在城市任务中的可解释性，例如通过可视化注意力机制、激活图或生成更详细的链式思考解释。
动态时序数据的整合: 论文提到了未来将整合视频和时序数据，这对于理解城市动态变化至关重要。目前的框架主要处理静态或点状的时空信息，如何有效地将连续的、高频的时序数据融入 MLLM 架构，并在训练中克服其带来的挑战，将是一个重要的研究方向。
开放性和可复现性: 尽管代码和数据是公开的，但 MLLM 的训练通常对计算资源有较高要求。确保研究社区能够轻松复现和进一步开发如此复杂的模型，需要提供详细的配置、预训练权重和易于使用的工具。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。