论文状态：已完成

OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving

发表：2023/11/28

3D占用空间世界模型 (1)自动驾驶场景演变预测 (1)基于稀疏LiDAR的环境表示 (1)空间时间生成Transformer (1)nuScenes基准测试 (1)

原文链接 PDF 下载

价格：0.100000

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出OccWorld框架，通过3D占据空间学习自动驾驶世界模型，实现对自车运动及环境演变的细粒度预测。方法包括基于重建的场景分词器和时空生成Transformer，有效提升表达力和计算效率，无需实例或地图监督，能生成竞争力规划结果。

摘要

Understanding how the 3D scene evolves is vital for making decisions in autonomous driving. Most existing methods achieve this by predicting the movements of object boxes, which cannot capture more fine-grained scene information. In this paper, we explore a new framework of learning a world model, OccWorld, in the 3D Occupancy space to simultaneously predict the movement of the ego car and the evolution of the surrounding scenes. We propose to learn a world model based on 3D occupancy rather than 3D bounding boxes and segmentation maps for three reasons: 1) expressiveness. 3D occupancy can describe the more fine-grained 3D structure of the scene; 2) efficiency. 3D occupancy is more economical to obtain (e.g., from sparse LiDAR points). 3) versatility. 3D occupancy can adapt to both vision and LiDAR. To facilitate the modeling of the world evolution, we learn a reconstruction-based scene tokenizer on the 3D occupancy to obtain discrete scene tokens to describe the surrounding scenes. We then adopt a GPT-like spatial-temporal generative transformer to generate subsequent scene and ego tokens to decode the future occupancy and ego trajectory. Extensive experiments on the widely used nuScenes benchmark demonstrate the ability of OccWorld to effectively model the evolution of the driving scenes. OccWorld also produces competitive planning results without using instance and map supervision. Code: https://github.com/wzzheng/OccWorld.

思维导图

论文精读

中文精读约 42 分钟读完 · 24,904 字

1. 论文基本信息

1.1. 标题

OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving (OccWorld: 学习用于自动驾驶的3D占据世界模型)

1.2. 作者

Wenzhao Zheng1,* Weiliang Chen2,* Yuanhui Huang1 Borui Zhang1 Yueqi Duan2 Jiwen Lu1 隶属机构：

清华大学自动化系 (Department of Automation, Tsinghua University, China)
清华大学电子工程系 (Department of Electronic Engineering, Tsinghua University, China)

1.3. 发表期刊/会议

预印本 (Preprint) 形式发布于 arXiv。arXiv 是一个开放获取的预印本服务器，在计算机科学、物理学、数学等领域拥有广泛影响力，常用于快速传播最新研究成果，其论文通常在同行评审期刊或会议发表前发布。

1.4. 发表年份

2023年 (Published at: 2023-11-27T17:59:41.000Z)

1.5. 摘要

这篇论文介绍了一个名为 OccWorld 的新型框架，旨在自动驾驶领域中，通过3D占据空间（3D Occupancy Space）学习一个世界模型。传统的自动驾驶方法主要通过预测物体边界框（object boxes）的移动来理解3D场景演变，但这无法捕获更细粒度的场景信息。OccWorld 的核心创新在于利用3D占据空间来同时预测自车（ego car）的运动和周围场景的演变。选择3D占据表示的原因有三：1) 表达力 (Expressiveness)：能描述更细致的3D场景结构；2) 效率 (Efficiency)：获取成本较低（例如，从稀疏的激光雷达点云）；3) 通用性 (Versatility)：能适应视觉和激光雷达两种模态。为了有效建模世界演变，OccWorld 首先学习了一个基于重建的场景分词器（scene tokenizer），将3D占据数据转化为离散的场景词元（discrete scene tokens）。随后，它采用一个类似 GPT 的时空生成式 Transformer 模型，生成后续的场景词元和自车词元（ego tokens），从而解码出未来的占据图和自车轨迹。在广泛使用的 nuScenes 基准测试上的大量实验表明，OccWorld 能有效建模驾驶场景的演变，并在无需实例和地图监督的情况下，生成具有竞争力的规划结果。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2311.16038v1
PDF 链接: https://arxiv.org/pdf/2311.16038v1.pdf

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题： 现有的自动驾驶系统在预测未来场景演变时，大多依赖于传统的“感知-预测-规划”（Perception-Prediction-Planning）串行范式。其中，预测模块通常只关注物体边界框（bounding boxes）的运动。这种方法存在几个核心问题：

信息粒度不足： 边界框只能提供粗粒度的物体位置和姿态信息，无法捕获场景中更精细的3D结构和语义细节，例如道路边缘、障碍物的精确形状、非结构化障碍物（如散落的碎片）以及静态背景的变化。
标注成本高昂： 传统的感知、预测模块通常需要大量的实例级边界框和高精地图（HD map）等地面真实（Ground Truth）标签进行监督训练，这些标注工作耗时耗力且成本高昂，难以扩展到大规模数据。
串行误差累积： 串行设计中，前一阶段（感知）的误差会累积到后一阶段（预测、规划），影响最终的决策质量和安全性。
缺乏高阶交互建模： 传统的模块化方法往往独立处理场景演变和自车运动，未能充分建模自车与环境之间的高阶交互和联合分布。

为什么这个问题在当前领域是重要的？ 自动驾驶的安全性至关重要。能否准确、全面地理解和预测3D场景如何演变，以及自车如何与环境互动，直接关系到车辆能否做出安全、高效的决策。更细粒度的场景理解能帮助车辆更好地避障、理解交通规则，并进行更平滑、类人化的驾驶。降低标注成本，实现更强的自监督或弱监督学习，是推动自动驾驶技术大规模落地的关键。

现有研究存在哪些具体的挑战或空白（Gap）？

缺乏一种能够同时提供细粒度3D结构和语义信息，且易于获取和处理的场景表示。
缺乏一种能够联合预测场景演变和自车轨迹，并捕获它们之间高阶交互的统一世界模型。
现有世界模型（如2D图像或点云预测）在3D语义理解或多模态适应性上存在局限。

这篇论文的切入点或创新思路： 论文的切入点是引入 3D占据 (3D Occupancy) 作为核心的场景表示。3D占据将3D空间划分为体素（voxels），并标记每个体素是否被占据及其语义类别。这种表示既能提供细粒度的3D结构，又包含语义信息，且可以通过激光雷达数据高效获取或通过视觉数据自监督学习。在此基础上，论文提出了 OccWorld 框架，将场景演变预测和自车轨迹规划统一在一个 世界模型 (World Model) 中，利用类似 GPT 的生成式 Transformer 进行自回归预测。

2.2. 核心贡献/主要发现

论文最主要的贡献：

提出 3D 占据世界模型 OccWorld： 首次将3D占据作为核心场景表示，构建了一个统一的世界模型，同时预测自车运动和周围场景的细粒度演变，克服了传统方法对边界框的依赖和信息粒度不足的问题。
引入 3D 占据场景分词器 (Scene Tokenizer)： 为了将高维的3D占据数据转化为模型易于处理的离散、高层概念表示，论文提出了一个基于向量量化变分自编码器（VQ-VAE）的场景分词器，以自监督方式将3D占据图编码为一系列离散的场景词元（scene tokens）。
设计时空生成式 Transformer (Spatial-Temporal Generative Transformer)： 针对自动驾驶场景的特点，定制了一个类似 GPT 的时空生成式 Transformer。该模型通过空间聚合（spatial aggregation）和时序因果自注意力（temporal causal self-attention）机制，有效建模了场景内部的空间依赖和跨时间步的演变，以自回归方式预测未来场景词元和自车词元。
实现无实例和地图监督的规划： OccWorld 能够在不使用实例级边界框和高精地图标注的情况下，生成具有竞争力的规划结果，展示了端到端（end-to-end）自动驾驶的巨大潜力，尤其是在自监督和弱监督设置下。

论文得出了哪些关键的结论或发现？

OccWorld 能有效预测未来3秒的3D占据演变，并在 nuScenes 基准测试上取得了显著的4D占据预测性能（例如，给定2秒历史，未来3秒的平均 IoU 达到26.63，mIoU 达到17.13）。
在运动规划任务中，OccWorld 在不使用实例和地图监督的情况下，产生了竞争性的 L2 误差（1.16米），在某些短期规划（1秒）上甚至优于一些先进方法。这表明模型能够从3D占据信息中学习到安全驾驶所需的隐式规则。
消融实验（ablation study）证明了所提出的场景分词器中超参数（如代码簿大小）的重要性，以及时空生成式 Transformer 中空间聚合和时序注意力机制对预测性能的关键作用。
联合建模场景演变和自车轨迹对于提升预测和规划性能至关重要，丢弃自车词元（ego token）或其时序注意力会导致性能显著下降。
OccWorld 展现了在不同3D占据输入模态（地面真实、密集预测、稀疏激光雷达、自监督视觉）下的通用性，尤其是在自监督设置下也取得了非平凡的结果，预示着其在大规模训练中的潜力。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 OccWorld 论文，读者需要掌握以下几个基础概念：

3.1.1. 自动驾驶感知-预测-规划管线 (Perception-Prediction-Planning Pipeline)

这是自动驾驶系统的一种经典串行架构：

感知 (Perception)： 负责理解车辆周围的环境。它从传感器（如摄像头、激光雷达、雷达）数据中提取信息，识别物体（如车辆、行人、自行车）、车道线、交通标志等，并构建环境的3D或2D表示。输出通常是物体边界框、语义地图、自由空间等。
预测 (Prediction)： 基于感知结果，预测其他交通参与者（如其他车辆、行人）在未来一段时间内的可能运动轨迹和行为。这对于规划安全轨迹至关重要。
规划 (Planning)： 根据感知结果、预测结果、高精地图以及预设的交通规则，计算出自车（ego car）在未来一段时间内的安全、舒适且合规的运动轨迹（即一系列的路径点和速度指令）。

3.1.2. 3D占据 (3D Occupancy)

3D占据是车辆环境的一种表示方法。它将车辆周围的3D空间划分为一个网格状的体素（voxels）结构。

体素 (Voxel)： 3D空间的最小单元，可以看作是2D像素在3D空间中的延伸。
占据信息： 每个体素会被标记是否被物体占据。
语义信息： 更进一步，每个占据的体素还会被赋予一个语义标签，表示该体素被何种类型的物体占据（例如，车辆、行人、建筑物、道路、树木等）。
优点： 3D占据能够提供场景的细粒度3D结构和语义信息，比传统的边界框更能完整地描述环境。它既可以从激光雷达点云数据中生成，也可以通过视觉传感器进行预测。

3.1.3. 世界模型 (World Model)

在人工智能和控制领域，世界模型是指一个能够模拟环境动态的模型。给定过去的观测和执行的动作，世界模型可以预测环境的下一个状态或未来的观测。

核心功能： 学习环境的动力学模型，理解“如果我这样做，环境会如何响应？”。
在自动驾驶中的应用： 一个自动驾驶的世界模型将接收传感器输入和自车动作，并预测未来的场景状态（如其他物体的运动、道路状况的变化）和自车的未来状态。这使得智能体可以在模拟环境中进行规划和学习，而无需频繁地在真实世界中试错。

3.1.4. 向量量化变分自编码器 (Vector Quantized Variational AutoEncoder, VQ-VAE)

VQ-VAE 是一种生成模型，它结合了变分自编码器（VAE）和向量量化（Vector Quantization）的思想。

自编码器 (Autoencoder)： 一种神经网络，旨在学习输入数据的有效编码。它由一个编码器（encoder）和一个解码器（decoder）组成。编码器将输入数据压缩成一个低维的潜在表示（latent representation），解码器则尝试从这个潜在表示中重建原始输入。
变分自编码器 (VAE)： VAE 是一种生成模型，它学习输入数据的潜在空间（latent space）的概率分布，允许生成新的、与训练数据相似的样本。与传统自编码器不同，VAE 引入了对潜在空间正则化的约束，确保潜在空间是连续且平滑的，方便采样。
向量量化 (Vector Quantization)： 这是 VQ-VAE 的关键部分。它将连续的潜在表示映射到一组离散的“代码向量”（code vectors）或“码本”（codebook）中的一个。具体来说，编码器输出的每个潜在向量会被替换为码本中与之距离最近的那个向量。这种离散化过程使得模型能够学习到具有语义意义的离散代码，类似于自然语言中的词汇。
在 OccWorld 中的作用： VQ-VAE 用于将高维的3D占据图压缩成离散的场景词元（scene tokens），这些词元代表了场景的高层概念，使得后续的 GPT 模型能够更有效地处理和预测。

3.1.5. 生成式预训练 Transformer (Generative Pre-trained Transformer, GPT)

GPT 是一种基于 Transformer 架构的生成模型，最初为自然语言处理（NLP）任务设计，以其强大的序列生成能力而闻名。

Transformer 架构： 由 Attention 机制（特别是自注意力 self-attention）构成，能够有效地捕获序列中长距离的依赖关系。
生成式： GPT 通过学习给定上下文预测下一个词元（token）的概率分布，从而实现自回归（auto-regressive）地生成文本序列。
预训练： 通常在大规模未标注文本数据上进行预训练，学习通用的语言模式和知识。
在 OccWorld 中的应用： OccWorld 借鉴了 GPT 的自回归生成思想，将其扩展到多模态、时空预测任务中。它不是预测下一个词汇，而是预测下一个时间步的场景词元和自车词元。

3.1.6. 自注意力机制 (Self-Attention Mechanism)

自注意力机制是 Transformer 架构的核心组成部分，它允许模型在处理序列数据时，动态地为序列中的每个元素分配不同的“注意力”权重，从而捕获长距离依赖关系。

概念定义： 自注意力机制通过计算查询（Query, $Q$ ）、键（Key, $K$ ）和值（Value, $V$ ）之间的相似性，来为序列中的每个位置生成一个加权表示。每个位置的输出是所有位置的值向量的加权和，权重由查询和键的点积相似度通过 softmax 函数计算得到。

数学公式： Scaled Dot-Product Attention 是最常用的自注意力形式，其公式如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

符号解释：

$Q$ ：查询矩阵 (Query matrix)。每个行向量代表序列中一个位置的查询向量。
$K$ ：键矩阵 (Key matrix)。每个行向量代表序列中一个位置的键向量。
$V$ ：值矩阵 (Value matrix)。每个行向量代表序列中一个位置的值向量。
Q, K, V 通常是通过输入序列（或其变换）乘以不同的线性投影矩阵得到的。
$K^T$ ：键矩阵的转置。
$QK^T$ ：查询和键的点积，表示查询与每个键的相似度。
$\sqrt{d_k}$ ：缩放因子，其中 $d_k$ 是键向量的维度。用于防止点积结果过大，导致 softmax 函数进入梯度饱和区。
$\mathrm{softmax}(\cdot)$ ：softmax 函数，将相似度分数转换为概率分布，使得所有权重之和为1。
$V$ ：值矩阵。最终的输出是这些值的加权和。

3.1.7. 因果自注意力 (Causal Self-Attention)

因果自注意力是标准自注意力的一种变体，主要用于序列生成任务（如 GPT）。

核心思想： 确保在预测序列中当前位置的输出时，模型只能“看到”或“关注”到当前位置及之前位置的信息，而不能看到未来位置的信息。
实现方式： 通常通过在计算 softmax 之前，对注意力分数矩阵应用一个掩码（mask）来实现。这个掩码会在未来位置对应的分数上设置一个非常小的负值（如 $-\infty$ ），使得这些位置在 softmax 之后权重变为零。
在 OccWorld 中的作用： OccWorld 中的时序因果自注意力（temporal causal self-attention）确保在预测未来某个时刻的场景或自车状态时，模型仅使用过去和当前时刻的信息，符合自回归预测的逻辑。

3.2. 前人工作

论文在相关工作部分总结了三个主要领域：

3.2.1. 3D占据预测 (3D Occupancy Prediction)

目标： 预测3D空间中每个体素是否被占据及其语义标签。
早期方法： 主要依赖激光雷达（LiDAR）作为输入，旨在补全整个3D场景的占据信息。
近期发展： 开始探索更具挑战性的基于视觉（vision-based）的3D占据预测，或者利用视觉主干网络（vision backbones）高效地进行激光雷达3D占据预测。
特点： 3D占据提供了对周围场景更全面的描述，包括动态和静态元素，且可以从稀疏的累积激光雷达点云或视频序列中有效学习。
空白： 现有方法主要关注获取单帧3D语义占据，但忽略了其时间演变，而这对于自动驾驶的安全性至关重要。OccWorld 正是为了解决这一空白，探索4D占据预测任务。

3.2.2. 用于自动驾驶的世界模型 (World Models for Autonomous Driving)

历史： 世界模型在控制工程和人工智能领域有悠久历史，通常定义为给定动作和过去观测来生成下一个场景观测的模型。
深度学习推动： 深度神经网络的发展推动了深度生成模型作为世界模型的应用。
基于大模型的生成： 基于 StableDiffusion 等大型预训练图像生成模型的最新方法，可以生成逼真的驾驶序列。
局限：
- 多数生成模型在2D图像空间中生成未来观测，缺乏对3D周围场景的理解。
- 一些方法探索使用未标注的激光雷达点云预测，但忽略了语义信息，且无法应用于基于视觉或融合的自动驾驶。
OccWorld 的切入点： OccWorld 在3D占据空间中探索世界模型，以更全面地建模3D场景演变。

3.2.3. 端到端自动驾驶 (End-to-End Autonomous Driving)

最终目标： 根据周围场景的观测直接输出控制信号。
现有方法： 大多数遵循“感知-预测-规划”的传统管线，先进行鸟瞰图（BEV）感知以提取信息（如3D代理边界框、语义地图、轨迹），然后利用这些信息推断代理和自车的未来轨迹。
性能提升： 通过整合更多数据或提取更多中间特征来提高规划器的性能。
局限：
- 多数方法只建模物体运动，无法捕获周围环境的细粒度结构和语义信息。
- 通常需要大量的人工标注标签。
OccWorld 的区别： OccWorld 提出一个世界模型来预测周围动态和静态元素的演变，旨在实现更统一和细粒度的端到端预测和规划。

3.3. 技术演进

自动驾驶领域的技术演进经历了从传统模块化方法到端到端学习，再到基于世界模型的趋势。

早期阶段：模块化方法 (Perception-Prediction-Planning)：
- 特点：清晰的职责分工，每个模块独立设计和优化。
- 优点：易于调试和理解。
- 缺点：误差累积、对精确中间表示（如高精地图、物体边界框）的强依赖导致高昂的标注成本、难以建模模块间的复杂交互。
过渡阶段：基于 BEV 的感知和预测：
- 特点：将多传感器数据融合到鸟瞰图（BEV）下进行统一处理，简化了后续的预测和规划任务。
- 优势：更直观地表示空间关系，提高感知精度。
- 局限：预测仍多集中于物体边界框，对细粒度场景结构关注不足。
当前趋势：端到端学习与世界模型：
- 端到端学习： 旨在直接从传感器输入映射到驾驶决策或控制信号，减少中间表示的依赖。
- 世界模型： 通过学习环境的动态规律，预测未来场景的演变。这使得系统能够在内部进行“想象”和规划，有望提升决策的鲁棒性和泛化能力。
- 从2D到3D： 早期世界模型多限于2D图像空间，缺乏3D理解。OccWorld 代表了将世界模型引入3D占据空间，从而实现对真实世界更全面、细致的建模。
- 从粗粒度到细粒度： 从传统预测物体边界框的粗粒度方法，演进到 OccWorld 这种预测3D占据的细粒度方法。
- 从有监督到自监督/弱监督： OccWorld 强调其在自监督学习3D占据和无实例/地图监督下进行规划的潜力，这代表了降低数据标注依赖、提升可扩展性的重要方向。

3.4. 差异化分析

OccWorld 的核心创新和差异化在于其对 3D占据 (3D Occupancy) 这种场景表示的采用，以及构建了一个 统一的世界模型 (Unified World Model) 来同时预测场景演变和自车轨迹。

与传统感知-预测-规划管线（如 UniAD, VAD 系列）的区别：
- 场景表示： 传统方法主要依赖3D边界框和语义地图来描述场景。OccWorld 则使用更细粒度的3D占据，能够捕获场景的3D结构和语义信息，包括动态物体和静态背景。
- 监督信号： 传统方法通常需要实例级边界框、轨迹、高精地图等多种人工标注作为监督信号。OccWorld 旨在减少这种依赖，尤其是在规划部分可以无需实例和地图监督，通过3D占据的自监督或弱监督学习实现。
- 任务统一性： 传统方法是串行和模块化的，感知、预测和规划是独立（或半独立）的阶段。OccWorld 将场景演变预测和自车运动规划整合到一个统一的世界模型中，通过学习它们的联合分布来捕获高阶交互。
与基于边界框或点云预测的方法（如 FIERY, ST-P3, OccNet）的区别：
- 信息粒度： 边界框预测（如 FIERY, ST-P3）无法提供物体的精细形状和内部结构。纯点云预测（如 SPF2）虽然是3D的，但通常忽略了语义信息。OccWorld 的3D占据表示则兼顾了细粒度几何和语义信息。
- 预测目标： OccWorld 预测的是未来一段时间内的整个场景的3D占据演变，而不仅仅是特定物体的边界框轨迹。
与2D图像空间的世界模型（如 MagicDrive, Gaia-1）的区别：
- 3D理解： 2D图像空间的世界模型虽然能生成逼真的图像序列，但缺乏对3D几何和语义的内在理解，难以直接用于3D环境中的精确规划和交互。OccWorld 在3D占据空间中操作，本质上是对3D世界的建模。
与现有3D占据预测方法的区别：
- 时间维度： 现有3D占据预测（如 SurroundOcc, TPVFormer）通常只关注单帧的3D占据重建，而OccWorld 进一步探索了 4D占据预测 (4D Occupancy Forecasting)，即预测未来多帧的3D占据演变。
- 任务融合： OccWorld 不仅预测未来占据，还同时预测自车轨迹，将预测与规划紧密结合。
  
  简而言之，OccWorld 通过选择 3D占据 这一富有表达力、高效且通用的场景表示，并结合 类似 GPT 的时空生成式 Transformer 构建了一个 端到端的世界模型，从而在无实例和地图监督下，实现了对驾驶场景未来演变和自车运动的联合、细粒度预测。

4. 方法论

4.1. 方法原理

OccWorld 的核心思想是建立一个在3D占据空间中操作的世界模型，以统一的方式预测自车（ego car）的未来轨迹和周围场景的动态演变。该方法摒弃了传统自动驾驶中对粗粒度边界框和高精地图的依赖，转而使用细粒度的3D占据作为场景表示。整个流程可以概括为：

场景表示选择： 采用3D占据（3D occupancy）作为基础场景表示，因为它具有高表达力、高效率和高通用性。
高层概念提取： 训练一个基于 VQ-VAE 的3D占据场景分词器，将原始的3D占据图压缩成一系列离散的、高层语义的场景词元（scene tokens）。
联合时空预测： 设计一个 GPT-like 的时空生成式 Transformer，以自回归方式预测未来时刻的场景词元和自车词元（ego tokens）。
解码与规划： 使用训练好的 VQ-VAE 解码器将预测的场景词元还原为未来的3D占据图，并使用一个独立的轨迹解码器将自车词元解码为未来的自车轨迹。

通过这种方式，OccWorld 能够学习场景演变和自车运动之间的联合分布及高阶交互，实现更全面、更细粒度的预测和规划。

4.2. 核心方法详解

4.2.1. 用于自动驾驶的世界模型定义 (World Model for Autonomous Driving)

传统自动驾驶管线通常定义为： $\begin{array} { r l } & { \quad A ( \{ \mathbf { s } ^ { T } , \cdots , \mathbf { s } ^ { T - t } \} , \{ \mathbf { p } ^ { T } , \cdots , \mathbf { p } ^ { T - t } \} ) } \\ & { = \{ \mathbf { p } ^ { T + 1 } , \mathbf { p } ^ { T + 2 } , \cdots , \mathbf { p } ^ { T + f } \} , } \end{array}$ 其中：

$A$ ：表示整个自动驾驶模型。
$\{ \mathbf { s } ^ { T } , \cdots , \mathbf { s } ^ { T - t } \}$ ：表示从当前时刻 $T$ 到过去 $t$ 帧的传感器输入（sensor inputs）。
$\{ \mathbf { p } ^ { T } , \cdots , \mathbf { p } ^ { T - t } \}$ ：表示从当前时刻 $T$ 到过去 $t$ 帧的自车3D位置（3D ego position）。
$\{ \mathbf { p } ^ { T + 1 } , \cdots , \mathbf { p } ^ { T + f } \}$ ：表示未来 $f$ 帧的自车3D位置。

传统的“感知-预测-规划”管线可以表述为： $\begin{array} { r l } & { \quad p _ { l a } ( p _ { e r } ( \{ \mathbf { s } ^ { T } , \cdots , \mathbf { s } ^ { T - t } \} ) , p _ { r e } ( p _ { e r } ( \{ \mathbf { s } ^ { T } , \cdots , \mathbf { \phi } ^ { T - t } \} ) ) ) } \\ & { = \{ \mathbf { p } ^ { T + 1 } , \mathbf { p } ^ { T + 2 } , \cdots , \mathbf { p } ^ { T + f } \} . } \end{array}$ 其中：
p _ { e r }：感知模块（perception module），从传感器数据 $\mathbf{s}$ 中提取高层信息 $\mathbf{z}$ 。
p _ { r e }：预测模块（prediction module），预测场景中各代理的未来轨迹 $\mathbf{t}_i$ 。
p _ { l a }：规划模块（planning module），基于感知和预测结果 $\left\{ \mathbf { z } , \left\{ \mathbf { t } _ { i } \right\} \right\}$ 规划自车运动。

OccWorld 提出了一种新的世界模型 $w$ 的范式，它基于场景表示 $\mathbf { y }$ 和自车位置 $\mathbf { p }$ 来预测未来的场景和自车运动： $w ( \{ \mathbf { y } ^ { T } , \cdots , \mathbf { y } ^ { T - t } \} , \{ \mathbf { p } ^ { T } , \cdots , \mathbf { p } ^ { T - t } \} ) = \mathbf { y } ^ { T + 1 } , \mathbf { p } ^ { T + 1 } .$ 其中：
$w$ ：表示世界模型。
$\{ \mathbf { y } ^ { T } , \cdots , \mathbf { y } ^ { T - t } \}$ ：表示从当前时刻 $T$ 到过去 $t$ 帧的场景表示。
$\{ \mathbf { p } ^ { T } , \cdots , \mathbf { p } ^ { T - t } \}$ ：表示从当前时刻 $T$ 到过去 $t$ 帧的自车位置。
$\mathbf { y } ^ { T + 1 }$ ：表示下一个时刻 $T+1$ 的场景表示。
$\mathbf { p } ^ { T + 1 }$ ：表示下一个时刻 $T+1$ 的自车位置。该世界模型以自回归（auto-regressive）方式预测下一帧的场景和自车位置，通过迭代预测来实现长时间步的预测。

下图（原文 Figure 2）展示了 OccWorld 的世界模型如何在自回归框架下，通过融合时间和空间信息，预测未来的场景和自车轨迹。

该图像是论文中关于3D占据世界模型OccWorld的时空生成变换器示意图，展示了基于空间聚合和时间因果自注意力机制，输入逐帧编码后预测未来场景和自车轨迹。其核心流程体现了空间和时间维度的信息融合。图注：OccWorld 的世界模型工作流程示意图。输入包括过去 $t$ 帧的场景信息和自车位置，通过时空 Transformer 预测下一帧的场景和自车位置。整个过程以自回归方式进行，将预测结果作为下一轮的输入继续预测更远的未来。

4.2.2. 3D占据场景分词器 (3D Occupancy Scene Tokenizer)

为了使世界模型能够有效处理和预测高维的3D占据信息，OccWorld 引入了一个3D占据场景分词器。这个分词器将连续的3D占据数据转化为离散的、语义丰富的词元（tokens）。

场景表示 $\mathbf{y}$ 的选择： 论文选择3D占据作为场景表示 $\mathbf { y } \in \mathbb { R } ^ { H \times W \times D }$ ，它将自车周围的3D空间划分为 $H \times W \times D$ 个体素，并为每个体素分配一个标签 $l$ ，指示其是否被占据以及被何种物质占据。这种表示方式满足了以下三个原则：

表达力 (Expressiveness)： 能够全面描述3D场景的结构和语义信息。
效率 (Efficiency)： 可以从稀疏的激光雷达点云高效学习，或通过自监督方式从时间帧中学习。
通用性 (Versatility)： 可以从单目摄像头、环视摄像头或激光雷达等多种模态获取。

分词器设计： 由于直接建模3D占据的演变较为困难，模型采用一个基于向量量化自编码器（VQ-VAE）的场景分词器，将场景信息编码为更紧凑的离散词元 $\mathbf { z }$ 。具体步骤如下：

BEV表示转换： 为了提高效率，首先将原始的3D占据 $\mathbf { y } \in \mathbb { R } ^ { H \times W \times D }$ 转换为鸟瞰图（BEV）表示 $\hat { \mathbf { y } } \in \mathbb { R } ^ { H \times \bar { W } \times D ^ { \prime } C ^ { \prime } }$ 。这通过为每个类别分配一个可学习的类别嵌入（class embedding） $\in \mathbb { R } ^ { \overline { { C } } ^ { \prime } }$ 并沿着高度维度拼接来实现。
编码器 (Encoder)： 使用一个轻量级的2D卷积网络（2D convolution layers）作为编码器，将 BEV 表示 $\hat { \mathbf { y } }$ 进一步下采样，得到特征 $\hat { \mathbf { z } } \in \mathbb { R } ^ { \frac { H } { d } \times \frac { W } { d } \times C }$ ，其中 $d$ 是下采样因子。
向量量化 (Vector Quantization)： 为了获得更紧凑的表示，模型同时学习一个码本（codebook） $\mathbf { C } \in \mathbb { R } ^ { N \times D }$ ，包含 $N$ 个代码向量。每个代码 $\mathbf { c } \in \mathbb { R } ^ { C }$ 编码了场景的一个高层概念。编码器输出的每个空间特征 $\hat { \mathbf { z } } _ { i j }$ 会被量化到码本中距离其最近的代码向量。量化过程定义为： $\mathbf { z } _ { i j } = \mathcal { N } ( \hat { \mathbf { z } } _ { i j } , \mathbf { C } ) = \operatorname* { m i n } _ { \mathbf { c } \in \mathbf { C } } | | \hat { \mathbf { z } } _ { i j } - \mathbf { c } | | _ { 2 } ,$ 其中：
- $\mathbf { z } _ { i j }$ ：量化后的离散词元。
- $\hat { \mathbf { z } } _ { i j }$ ：编码器输出的原始空间特征。
- $\mathbf { C }$ ：码本。
- $\mathcal { N } ( \cdot )$ ：最近邻函数（Nearest Neighbor function），找到码本中与 $\hat { \mathbf { z } } _ { i j }$ 最相似的向量。
- $| | \cdot | | _ { 2 }$ ：L2 范数（L2 norm），用于衡量距离。量化后的特征 $\{ { \bf { z } } _ { i j } \}$ 组合起来形成最终的场景表示 $\mathbf { z } \in \mathbb { R } ^ { \frac { H } { d } \times \frac { W } { d } \times C }$ 。
解码器 (Decoder)： 解码器由2D反卷积层（2D deconvolution layers）组成，逐步上采样 $\mathbf { z }$ 到原始 BEV 分辨率 $H \times W \times C ^ { \prime \prime }$ 。然后，通过通道维度上的分割来重建高度维度 $H \times W \times D \times \frac { C ^ { \prime \prime } } { D }$ ，并对每个空间特征应用 softmax 层，将其分类为占据语义（occupied semantics）或未占据（unoccupied）状态 $H \times W \times D$ 。

下图（原文 Figure 3）展示了上述3D占据场景分词器的结构：

$Figure 3. Illustration of the proposed 3D occupancy scene tokenizer. We use CNNs to encode the 3D occupancy and perform vector quantization to obtain discrete tokens using a learnable codebook \[41\].…$ 图注：3D占据场景分词器的示意图。原始3D占据图经过 CNN 编码器，通过向量量化与可学习码本生成离散词元，再由解码器重建回3D占据图，通过重建损失共同训练自编码器和码本。

4.2.3. 时空生成式 Transformer (Spatial-Temporal Generative Transformer)

在获得了离散的场景词元 $\mathbf { T } = \{ \mathbf { z } _ { i } \}$ 后，OccWorld 采用一个 GPT-like 的自回归 Transformer 架构来预测未来的世界状态。为了整合自车运动，场景词元 $\mathbf { T }$ 会与一个自车词元（ego token） $\mathbf { z } _ { 0 } \in \mathbb { R } ^ { C }$ 进行聚合，该词元编码了自车的空间位置。

世界模型 $w$ 的功能可以形式化为： $w ( \mathbf { T } ^ { T } , \cdots , \mathbf { T } ^ { T - t } ) = \mathbf { T } ^ { T + 1 } ,$ 其中：

$T$ ：当前时间步。
$t$ ：可用的历史帧数。
$\mathbf { T } ^ { T }$ ：当前时刻的世界词元，包括场景词元和自车词元。
$\mathbf { T } ^ { T + 1 }$ ：下一个时间步的世界词元。

由于每个场景包含大量世界词元，直接使用标准 GPT 进行逐词元预测效率低下。因此，论文提出了一个定制的时空生成式 Transformer，其结构如下图（原文 Figure 4）所示：

图注：时空生成式 Transformer 的示意图。模型通过空间聚合模块处理同一时间步内的世界词元，获取多尺度词元。然后，在每个尺度上应用时序因果自注意力来预测下一个场景。最后，使用 U-net 结构整合多尺度预测结果。

模型结构细节：

空间聚合 (Spatial Aggregation)：
- 对世界词元 $\mathbf { T }$ 应用空间聚合模块（如自注意力），以建模场景词元和自车词元之间的内在空间依赖关系。
- 通过在 $2 \times 2$ 窗口上进行步长为2的融合操作，对场景词元进行下采样。这个过程重复 $K$ 次，以获得分层尺度的世界词元 $\{ \mathbf { T } _ { 0 } , \cdots , \mathbf { T } _ { K } \}$ ，它们在不同层级描述3D场景。
多尺度时序预测：
- 使用多个子世界模型 $w = \{ w _ { 0 } , \cdots , w _ { K } \}$ 分别预测不同空间尺度的未来状态。
- 对于每个子世界模型 w _ { i }，对每个位置 $j$ $j$ 的词元 $\{ \mathbf { z } _ { j , i } ^ { T } , \cdots , \mathbf { z } _ { j , i } ^ { T - t } \}$ ${z_{j, i}^{T}, \dots, z_{j, i}^{T - t}}$ 施加时序因果自注意力（masked temporal attention），以预测下一帧对应的词元 $\hat { \mathbf { z } } _ { j , i } ^ { T + 1 }$ $\hat{z}_{j, i}^{T + 1}$ ： $\begin{array} { r } { \hat { \mathbf { z } } _ { j , i } ^ { T + 1 } = \mathrm { T A } ( \mathbf { z } _ { j , i } ^ { T } , \cdots , \mathbf { z } _ { j , i } ^ { T - t } ) , } \end{array}$ 其中：
  - $\mathrm { T A }$ ：表示掩码时序注意力（masked temporal attention），它阻止了未来词元对当前词元的“影响”，从而保持因果性。
  - $\mathbf { z } _ { j , i } ^ { t } \in \mathbf { T } _ { i } ^ { t }$ ：表示在时间步 $t$ 、尺度 $i$ 下的第 $j$ 个世界词元。
- 时序因果自注意力通过关注过去和当前时刻的词元，来预测特定位置在未来时刻的演变。
U-net 结构聚合：
- 最终，模型采用一个 U-net 结构来聚合不同尺度上的预测词元，以确保空间一致性并生成最终的预测世界词元。
  
  这种时空生成式 Transformer 能够同时建模同一时间步内的空间关系和跨时间步的演变，全面捕捉驾驶序列中的世界动态。

4.2.4. OccWorld 整体训练框架 (OccWorld: a 3D Occupancy World Model)

OccWorld 的训练采用两阶段策略：

第一阶段：场景分词器训练 此阶段训练场景编码器 $e$ 和解码器 $d$ 。目标是使解码器能从编码后的词元中重建原始的3D占据图。使用的损失函数结合了 softmax loss 和 Lovasz-softmax loss： $J _ { e , d } = L _ { s o f t } ( d ( e ( \mathbf { y } ) ) , \mathbf { y } ) + \lambda _ { 1 } L _ { l o v a s z } ( d ( e ( \mathbf { y } ) ) , \mathbf { y } ) ,$ 其中：

J _ { e , d }：场景分词器的总损失。
$L _ { s o f t } ( \cdot , \cdot )$ ：标准 softmax 交叉熵损失，用于像素级别的分类，衡量重建的占据图与地面真实占据图之间的差异。
$L _ { l o v a s z } ( \cdot , \cdot )$ ：Lovasz-softmax loss 损失函数，直接优化 Intersection over Union (IoU) 指标，对于语义分割任务特别是类别不平衡问题非常有效。
$d ( e ( \mathbf { y } ) )$ ：通过编码器 $e$ 编码并由解码器 $d$ 重建的3D占据图。
$\mathbf { y }$ ：地面真实3D占据图。
$\lambda _ { 1 }$ ：平衡两个损失项的权重因子。

第二阶段：世界模型训练 在场景分词器训练完成后，其编码器 $e$ 被用来生成所有帧的场景词元 $\mathbf { z }$ 。然后，训练时空生成式 Transformer（世界模型 $w$ ）和自车解码器 d _ { e g o }。此阶段的目标是使世界模型能够准确预测下一个时间步的场景词元和自车位置。

场景词元预测： 模型预测的场景词元 $\hat { \mathbf { z } }$ 与地面真实词元 $\mathbf { z }$ 之间的差异通过 softmax loss 进行约束，以强制 $\hat { \mathbf { z } }$ 正确分类到码本 $\mathbf { C }$ 中的相应代码。
自车轨迹预测： 引入一个自车解码器 d _ { e g o }，将预测的自车词元 $\hat { \mathbf { z } } _ { 0 } ^ { t }$ 解码为自车位移 $\hat { p } ^ { T + 1 }$ 。这个位移预测与地面真实位移 $\mathbf { p }$ 之间通过 L2 损失进行监督。

第二阶段的总体目标函数可以公式化为： $\begin{array} { r } { J _ { w , d _ { e g o } } = \displaystyle \sum _ { t = 1 } ^ { T } ( \sum _ { j = 1 } ^ { M _ { 0 } } L _ { s o f t } ( \hat { \mathbf { z } } _ { j , 0 } ^ { t } , \mathbf { C } ( \mathbf { z } _ { j , 0 } ^ { t } ) ) } \\ { + \lambda _ { 2 } L _ { L 2 } ( d _ { e g o } ( \hat { \mathbf { z } } _ { 0 } ^ { t } ) , \mathbf { p } ^ { t } ) ) , } \end{array}$ 其中：
J _ { w , d _ { e g o } }：世界模型和自车解码器的总损失。
$T$ ：训练序列中的时间步数。
M _ { 0 }：原始尺度下的空间词元数量。
$L _ { s o f t } ( \cdot , \cdot )$ ：用于场景词元分类的 softmax loss。
$\mathbf { C } ( \mathbf { z } _ { j , 0 } ^ { t } )$ ：表示地面真实词元 $\mathbf { z } _ { j , 0 } ^ { t }$ 在码本 $\mathbf { C }$ 中的索引。
$\lambda _ { 2 }$ ：平衡两个损失项的权重因子。
$L _ { L 2 } ( \cdot , \cdot )$ ：L2 损失，衡量预测位移 $d _ { e g o } ( \hat { \mathbf { z } } _ { 0 } ^ { t } )$ 与地面真实位移 $\mathbf { p } ^ { t }$ 之间的欧氏距离。

推理过程 (Inference)： 在推理时，模型采用自回归预测（auto-regressive prediction）。即，使用过去帧的预测词元来预测下一帧的词元，从而逐步生成未来多帧的占据图和自车轨迹。

通用性与潜力： OccWorld 可以适应不同类型的3D占据输入，无论是提供地面真实占据信息的“先知”（oracle）模型，还是从图像或激光雷达获取占据的感知模型。它通过建模场景和自车运动的联合演变，能够捕捉高阶交互，并有望结合机器标注、激光雷达采集或自监督学习的3D占据数据，扩展到大规模训练，为大型驾驶模型铺平道路。

5. 实验设置

5.1. 数据集

实验主要在两个数据集上进行：

nuScenes 数据集 [3]：
- 来源与特点： 一个大规模的多模态自动驾驶数据集，包含1000个驾驶场景，总计1.44M帧图像和点云。它提供了360度环视摄像头、6个激光雷达、5个雷达和GPS数据，以及详细的3D边界框标注、属性和轨迹。广泛用于3D目标检测、跟踪、分割和预测任务。
- 在 OccWorld 中的用途： 用于运动规划（motion planning）任务的评估。
Occ3D 数据集 [52]：
- 来源与特点： 一个专门用于3D占据预测的大规模基准数据集，基于 nuScenes 构建，提供了高质量的3D语义占据标注。
- 在 OccWorld 中的用途： 用于4D占据预测（4D occupancy forecasting）任务的评估。

数据集选择理由： 选择这两个数据集是合理的，因为 nuScenes 是自动驾驶领域公认的标准基准，提供了丰富的传感器数据和详细标注，适合评估端到端自动驾驶模型。Occ3D 专门为3D占据预测设计，提供了必要的地面真实3D占据信息，使得4D占据预测任务的评估成为可能。

5.2. 评估指标

论文使用了针对4D占据预测和运动规划任务的多种评估指标。

5.2.1. 4D占据预测评估指标

交并比 (Intersection over Union, IoU)
1. 概念定义： IoU 用于衡量两个集合（在这里是预测的占据区域和地面真实占据区域）之间的重叠程度。值越高表示预测结果与真实情况越吻合。
2. 数学公式： $\text{IoU} = \frac{\text{TP}}{\text{TP} + \text{FP} + \text{FN}}$
3. 符号解释：
  - $\text{TP}$ (True Positive)：真阳性，正确预测为占据的体素数量。
  - $\text{FP}$ (False Positive)：假阳性，错误预测为占据的体素数量（实际上未被占据）。
  - $\text{FN}$ (False Negative)：假阴性，错误预测为未占据的体素数量（实际上已被占据）。
平均交并比 (mean Intersection over Union, mIoU)
1. 概念定义： mIoU 是 IoU 在所有语义类别上的平均值。对于多类别占据预测，它能更全面地反映模型在不同类别上的性能。
2. 数学公式： $\text{mIoU} = \frac{1}{N_c} \sum_{i=1}^{N_c} \frac{\text{TP}_i}{\text{TP}_i + \text{FP}_i + \text{FN}_i}$
3. 符号解释：
  - $N_c$ ：语义类别的总数量。
  - $\text{TP}_i, \text{FP}_i, \text{FN}_i$ ：分别是针对第 $i$ 个类别的真阳性、假阳性和假阴性数量。

5.2.2. 运动规划评估指标

L2误差 (L2 Error)
1. 概念定义： L2 误差衡量的是预测轨迹与地面真实轨迹之间的欧氏距离（Euclidean Distance）的平均值。值越小表示预测轨迹越接近真实轨迹。
2. 数学公式： 对于 $F$ 个未来规划点，L2 误差计算如下： $\text{L2 error} = \frac{1}{F} \sum_{k=1}^{F} \sqrt{(x_{pred,k} - x_{gt,k})^2 + (y_{pred,k} - y_{gt,k})^2}$
3. 符号解释：
  - $F$ ：预测轨迹中的未来规划点数量。
  - $(x_{pred,k}, y_{pred,k})$ ：预测轨迹中第 $k$ 个规划点的2D坐标。
  - $(x_{gt,k}, y_{gt,k})$ ：地面真实轨迹中第 $k$ 个规划点的2D坐标。
碰撞率 (Collision Rate)
1. 概念定义： 碰撞率是指自车在规划的轨迹上与障碍物发生碰撞的驾驶场景百分比。这是一个关键的安全指标，值越低越好。
2. 数学公式： $\text{Collision Rate} = \frac{\text{Number of collision episodes}}{\text{Total number of episodes}} \times 100\%$
3. 符号解释：
  - Number of collision episodes：发生碰撞的驾驶场景总数。
  - Total number of episodes：总的测试驾驶场景数量。

5.3. 对比基线

论文将 OccWorld 与多个最先进的（state-of-the-art）自动驾驶方法进行了比较，主要分为几类：

5.3.1. LiDAR-based 规划方法

这些方法主要以激光雷达（LiDAR）数据作为输入。

IL [43]： 基于模仿学习（Imitation Learning）。
NMP [64]： 神经运动规划器（Neural Motion Planner），利用边界框和运动信息作为辅助监督。
FF [16]： 自由空间预测（Freespace Forecasting）。
EO [26]： 预测占用图（Occupancy Map）。

5.3.2. Camera-based 端到端方法

这些方法以摄像头（Camera）数据作为主要输入，旨在实现端到端（end-to-end）自动驾驶。

ST-P3 [17]： 基于时空特征学习的端到端视觉自动驾驶，利用地图、边界框和深度信息作为辅助监督。
UniAD [18]： 规划导向的自动驾驶，利用地图、边界框、运动和轨迹以及占据信息作为广泛的辅助监督。
VAD-Tiny [25], VAD-Base [25]： 使用矢量化场景表示进行高效自动驾驶，利用地图、边界框和运动信息作为辅助监督。

5.3.3. 基于3D占据的规划方法

这些方法利用3D占据信息进行规划。

OccNet [53]： 将场景建模为占据，利用3D占据、地图和边界框信息作为辅助监督。论文中将 OccNet 分为两种输入模式：直接使用3D占据作为输入，或使用摄像头预测的3D占据作为输入。

5.3.4. OccWorld 变体

论文提出了 OccWorld 的多个变体，以评估不同输入和监督模式下的性能：

OccWorld-O： 使用地面真实（ground-truth）3D占据作为输入（Oracle）。
OccWorld-D： 使用 TPVFormer [21] 预测的3D占据作为输入，该 TPVFormer 通过密集地面真实3D占据进行训练。
OccWorld-T： 使用 TPVFormer [21] 预测的3D占据作为输入，该 TPVFormer 通过稀疏语义激光雷达（Semantic LiDAR）进行训练。
OccWorld-S： 使用 TPVFormer [20] 预测的3D占据作为输入，该 TPVFormer 以自监督方式进行训练。
Copy&Paste： 作为4D占据预测的简单基线，直接将当前帧的地面真实占据复制到未来帧。

这些基线涵盖了不同传感器模态、不同程度的辅助监督，以及不同的场景表示方法，从而全面评估了 OccWorld 的性能和优势。

6. 实验结果与分析

6.1. 核心结果分析

本节详细分析 OccWorld 在4D占据预测和运动规划任务上的实验结果，并与现有最先进（state-of-the-art）方法进行比较。

6.1.1. 4D占据预测结果

论文通过不同的 OccWorld 变体评估了4D占据预测任务，如下表1所示（此表未在原文中编号，但根据上下文应为4D占据预测结果表，其中包含mIoU指标，故此处将其命名为Table 1）。

以下是原文 [Table 1 (未编号)] 的结果：

Setting	Reconstruction		Forecasting mIoU (%) ↑				Planning L2 (m) ↓				FPS
Setting	mIoU ↑	IoU ↑	1s	2s	3s	Avg.	1s	2s	3s	Avg.	FPS
(502, 128, 512)	66.38	62.29	25.78	15.14	10.51	17.14	0.43	1.08	1.99	1.17	18.0
(502, 128, 256)	63.40	60.33	24.25	14.34	10.13	16.24	0.42	1.08	1.95	1.15	17.8
(502, 128, 1024)	60.50	59.07	23.55	14.66	10.68	16.30	0.47	1.18	2.19	1.28	17.8
(252, 256, 512)	36.28	44.02	12.10	8.13	6.20	8.81	3.27	6.54	9.78	6.53	28.1
(1002, 128, 512)	78.12	71.63	18.71	10.75	7.68	12.38	0.50	1.25	2.33	1.36	6.7
(502, 64, 512)	64.98	61.50	21.83	12.90	9.28	14.67	0.49	1.24	2.26	1.33	20.1

分析：

OccWorld-O 的有效性： OccWorld-O（使用地面真实3D占据作为输入）能够生成非平凡的未来3D占据，其结果远优于简单的 Copy&Paste 基线（原文中提到但未列出数据，意指直接复制当前帧会很差），这表明模型确实学习到了场景演变的底层规律。平均 IoU 和 mIoU 表现出色，尤其在短期预测（1s）上性能较好。
端到端视觉预测的挑战： OccWorld-D（通过密集地面真实3D占据训练的 TPVFormer 预测结果）、OccWorld-T（通过稀疏语义激光雷达训练的 TPVFormer 预测结果）和 OccWorld-S（通过自监督方式训练的 TPVFormer 预测结果）代表了端到端视觉的4D占据预测方法。这任务极具挑战性，因为它同时要求3D结构重建和时间预测。尽管如此，OccWorld 仍能生成非平凡的结果。
自监督的潜力： 即使是自监督的 OccWorld-S，在没有3D占据标注的情况下，也取得了非平凡的 mIoU 和 IoU，这表明该框架在可解释的端到端自动驾驶方面具有巨大潜力。
预测时长的影响： 随着预测时间的增加（从1s到3s），mIoU 和 IoU 均呈下降趋势，这表明长时间的未来预测仍然是一个难点，场景的复杂性和不确定性会带来更大的挑战。

6.1.2. 运动规划结果

以下是原文 [Table 2] 的结果：

Method	Input	Aux. Sup.	L2 (m) ↓				Collision Rate (%) ↓				FPS
Method	Input	Aux. Sup.	1s	2s	3s	Avg.	1s	2s	3s	Avg.	FPS
IL [43]	LiDAR	None	0.44	1.15	2.47	1.35	0.08	0.27	1.95	0.77	-
NMP [64]	LiDAR	Box & Motion	0.53	1.25	2.67	1.48	0.04	0.12	0.87	0.34	-
FF [16]	LiDAR	Freespace	0.55	1.20	2.54	1.43	0.06	0.17	1.07	0.43	-
EO [26]	LiDAR	Freespace	0.67	1.36	2.78	1.60	0.04	0.09	0.88	0.33	-
ST-P3 [17]	Camera	Map & Box & Depth	1.33	2.11	2.90	2.11	0.23	0.62	1.27	0.71	1.6
UniAD [18]	Camera	Map & Box & Motion & Tracklets & Occ	0.48	0.96	1.65	1.03	0.05	0.17	0.71	0.31	1.8
VAD-Tiny [25]	Camera	Map & Box & Motion	0.60	1.23	2.06	1.30	0.31	0.53	1.33	0.72	16.8
VAD-Base [25]	Camera	Map & Box & Motion	0.54	1.15	1.98	1.22	0.04	0.39	1.17	0.53	4.5
OccNet [53]	Camera	3D-Occ & Map & Box	1.29	2.13	2.99	2.14	0.21	0.59	1.37	0.72	2.6
OccNet [53]	3D-Occ	Map & Box	1.29	2.31	2.98	2.25	0.20	0.56	1.30	0.69	-
OccWorld-O	3D-Occ	None	0.43	1.08	1.99	1.17	0.07	0.38	1.35	0.60	18.0
OccWorld-D	Camera	3D-Occ	0.52	1.27	2.41	1.40	0.12	0.40	2.08	0.87	2.8
OccWorld-T	Camera	Semantic LiDAR	0.54	1.36	2.66	1.52	0.12	0.40	1.59	0.70	2.8
OccWorld-S	Camera	None	0.67	1.69	3.13	1.83	0.19	1.28	4.59	2.02	2.8

VAD-Tiny [25]	Camera	Map & Box & Motion	0.46	0.76	1.12	0.78	0.21	0.35	0.58	0.38	16.8
VAD-Base† [25]	Camera	Map & Box & Motion	0.41	0.70	1.05	0.72	0.07	0.17	0.41	0.22	4.5
OccWorld-O†	3D-Occ	None	0.32	0.61	0.98	0.64	0.06	0.21	0.47	0.24	18.0
OccWorld-D†	Camera	3D-Occ	0.39	0.73	1.18	0.77	0.11	0.19	0.67	0.32	2.8
OccWorld-T†	Camera	Semantic LiDAR	0.40	0.77	1.28	0.82	0.12	0.22	0.56	0.30	2.8
OccWorld-S†	Camera	None	0.49	0.95	1.55	0.99	0.19	0.56	1.54	0.76	2.8

分析：

与 UniAD 的比较： UniAD 取得了最佳的整体性能，但它利用了地图、边界框、运动和轨迹以及占据等多种辅助监督信息。相比之下，OccWorld 在不使用实例和地图监督的情况下，表现出竞争力的 L2 误差（OccWorld-O 为1.17米），这凸显了3D占据作为场景表示的强大能力。
OccWorld-O 的卓越性能： OccWorld-O（使用地面真实3D占据输入）在无需地图和边界框监督的情况下，在 L2 误差上显著优于基于感知-预测-规划管线的 OccNet [53]（OccNet 平均 L2 误差为2.14或2.25）。这表明世界模型范式在自动驾驶中的优越性。此外，OccWorld-O 的碰撞率也与 OccNet 相当，说明其能够从3D占据中学习到自由空间（freespace）的概念。
端到端模型的竞争力： OccWorld-D 和 OccWorld-T 作为端到端模型，仅以3D占据作为监督，也展示了有竞争力的性能。
自监督学习的潜力： OccWorld-S 在没有任何除未来轨迹之外的监督信号的情况下，也取得了非平凡的结果，这为其在无需人工标注的场景下进行自动驾驶提供了可能。
短期规划优势与长期挑战： OccWorld 在短期规划（1s）方面表现出色（OccWorld-O 在1s L2 误差上达到0.43，优于所有其他方法），但随着规划时间的延长（3s），性能下降较快（OccWorld-O 在3s L2 误差为1.99，略逊于 UniAD 的1.65）。论文推测这可能源于世界模型的未来生成多样性，导致其偏离地面真实轨迹。
碰撞率： 尽管 OccWorld 在 L2 误差上表现优异，但在某些设置下碰撞率略高于一些高度监督的方法。这表明在没有自由空间或边界框等明确安全引导的情况下，学习安全的轨迹更为困难。

6.1.3. 可视化结果

下图（原文 Figure 5）展示了 OccWorld-O、OccWorld-D 和 OccWorld-T 的预测和规划可视化结果。

该图像是论文中关于不同方法在3D占据世界模型预测准确度和速度的评估表及其场景预测示意图。表格展示了方法的mIoU、IoU及FPS指标，预测结果展示了不同时间点的3D占据变化。图注：OccWorld-O、OccWorld-D 和 OccWorld-T 的预测和规划结果可视化。模型能够成功预测汽车的移动，并补全输入中未见的地图元素（如可行驶区域）。4D占据预测越准确，规划轨迹也越精准。

分析： 可视化结果直观地展示了 OccWorld 预测未来场景演变的能力。模型不仅能够预测动态物体（如汽车）的移动，还能补全静态场景元素（如可行驶区域），这对于自动驾驶的决策至关重要。同时，更高质量的4D占据预测通常伴随着更准确的规划轨迹，印证了场景预测与规划之间的强关联性。

6.2. 消融实验/参数分析

论文进行了详细的消融实验（ablation study）来验证模型各组件的有效性和超参数的影响。

6.2.1. 场景分词器分析

以下是原文 [Table 3] 的结果：

Setting	Reconstruction		Forecasting mIoU (%) ↑				Planning L2 (m) ↓				FPS
Setting	mIoU ↑	IoU ↑	1s	2s	3s	Avg.	1s	2s	3s	Avg.	FPS
(502, 128, 512)	66.38	62.29	25.78	15.14	10.51	17.14	0.43	1.08	1.99	1.17	18.0
(502, 128, 256)	63.40	60.33	24.25	14.34	10.13	16.24	0.42	1.08	1.95	1.15	17.8
(502, 128, 1024)	60.50	59.07	23.55	14.66	10.68	16.30	0.47	1.18	2.19	1.28	17.8
(252, 256, 512)	36.28	44.02	12.10	8.13	6.20	8.81	3.27	6.54	9.78	6.53	28.1
(1002, 128, 512)	78.12	71.63	18.71	10.75	7.68	12.38	0.50	1.25	2.33	1.36	6.7
(502, 64, 512)	64.98	61.50	21.83	12.90	9.28	14.67	0.49	1.24	2.26	1.33	20.1

分析：

参数含义： Setting 中的三元组分别代表：潜在空间空间分辨率 (latent spatial resolution)、潜在空间通道维度 (latent channel dimension) 和码本大小 (codebook size)。
码本大小的影响：
- 512 vs. 256 (码本过小)： 码本大小为256时，重建和预测性能略有下降，但规划 L2 误差反而略微降低。这可能说明，适当减小码本大小，迫使模型学习更抽象的表示，有助于规划，但重建能力会受限。
- 512 vs. 1024 (码本过大)： 码本大小为1024时，重建性能略微下降，预测和规划性能也有所恶化。论文指出，过大的码本可能导致过拟合（overfitting），使得模型难以学习到鲁棒的高层概念。
潜在空间分辨率的影响：
- 502 vs. 252 (分辨率过低)： 当潜在空间分辨率从502降至252时，重建、预测和规划性能都大幅下降。这表明过低的空间分辨率无法捕捉足够的场景细节，严重影响模型的理解和预测能力。
- 502 vs. 1002 (分辨率过高)： 当潜在空间分辨率增加到1002时，重建准确率显著提高（mIoU 从66.38% 提高到78.12%），但预测和规划性能反而变差。这是因为更高的空间分辨率意味着词元（tokens）更接近原始的低级信息，使得模型难以学习到高层概念，从而难以预测未来变化。同时，FPS 也大幅下降，推理速度变慢。
潜在空间通道维度的影响：
- 128 vs. 64 (维度过低)： 潜在空间通道维度从128降至64时，重建、预测和规划性能均有所下降。这表明通道维度不足以编码丰富的信息。
最佳平衡点： 实验结果表明， $(502, 128, 512)$ 的设置在重建、预测和规划之间取得了最佳的平衡，并具有较好的 FPS。

6.2.2. 时空生成式 Transformer 分析

以下是原文 [Table 4] 的结果：

Method	Forecast mIoU↑ IoU↑		Planning L2↓ Col.↓		FPS
OccWorld-O	17.14	26.63	1.17	0.60	18.0
w/o spatial attn	10.07	21.44	1.42	1.21	28.6
w/o temporal attn	8.98	20.10	2.06	2.56	26.5
w/o ego	15.13	24.66	-	-	18.8
w/o ego temporal	12.07	23.09	5.89	18.5	-

分析：

OccWorld-O (基线)： 基线模型在预测 mIoU 为17.14，IoU 为26.63，规划 L2 为1.17，碰撞率为0.60。
w/o spatial attn (无空间注意力)：
- 影响： 预测 mIoU 和 IoU 显著下降（从17.14/26.63降至10.07/21.44），规划 L2 误差增加（从1.17升至1.42），碰撞率也增加（从0.60升至1.21）。
- 结论： 空间聚合和注意力机制对于建模场景内部的词元依赖性至关重要。没有空间注意力，模型无法充分理解场景的整体结构，导致预测和规划性能下降。
w/o temporal attn (无时序注意力)：
- 影响： 预测 mIoU 和 IoU 进一步大幅下降（降至8.98/20.10），规划 L2 误差和碰撞率急剧恶化（L2 从1.17升至2.06，碰撞率从0.60升至2.56）。
- 结论： 时序注意力对于整合历史信息和预测未来演变至关重要。简单地用卷积替代时序注意力无法有效捕捉长时间依赖，严重损害了模型的预测能力。
w/o ego (无自车词元)：
- 影响： 预测 mIoU 和 IoU 略有下降（降至15.13/24.66）。规划结果无法得出（表中显示为 -）。
- 结论： 自车词元对于完整建模世界演变是重要的，尤其对于与自车相关的预测。由于没有自车词元，模型无法进行规划任务，证明了联合建模的必要性。
w/o ego temporal (无自车时序注意力)：
- 影响： 预测 mIoU 和 IoU 明显下降（降至12.07/23.09），规划 L2 误差和碰撞率急剧恶化（L2 升至5.89，碰撞率升至18.5）。
- 结论： 即使存在自车词元，但若没有有效的时序注意力来建模其演变，对规划性能也会产生灾难性影响。令人惊讶的是，它也导致3D占据预测性能变差，这可能是因为错误的自车轨迹预测会误导场景的未来演变预测。这验证了场景演变和自车轨迹的联合建模及其高阶交互的重要性。

总结： 消融实验结果清晰地表明，OccWorld 中所提出的空间聚合和时序注意力机制是 Spatial-Temporal Generative Transformer 实现有效4D占据预测和运动规划的关键组成部分。同时，自车词元及其时序演变对规划任务至关重要，并且与场景预测任务之间存在紧密的相互影响。联合建模场景演变和自车轨迹的范式被证明是有效的。

7. 总结与思考

7.1. 结论总结

本论文提出了 OccWorld，一个创新的3D占据世界模型，旨在自动驾驶领域中联合预测自车运动和周围场景的演变。OccWorld 的核心在于采用3D占据这一细粒度、高效且通用的场景表示，并通过一个基于 VQ-VAE 的场景分词器将其转化为离散词元。随后，一个定制化的 GPT-like 时空生成式 Transformer 以自回归方式生成未来的场景词元和自车词元，最终解码为未来3D占据图和自车轨迹。

实验结果表明，OccWorld 能有效地预测复杂驾驶场景的4D占据演变，并在 nuScenes 基准测试上取得了竞争性的运动规划结果，即便在没有实例和地图监督的情况下。通过消融实验，论文验证了场景分词器中超参数的重要性，以及时空生成式 Transformer 中空间聚合和时序注意力机制对模型性能的关键贡献。OccWorld 展示了其在不同3D占据输入模态下的通用性，尤其是在自监督设置下也取得了非平凡的结果，为可解释的端到端自动驾驶开辟了新途径。

7.2. 局限性与未来工作

论文指出 OccWorld 仍存在一些局限性：

长期规划挑战： 尽管在短期规划（1秒）上表现出色，但随着预测时间的延长（例如3秒），OccWorld 的 L2 误差会快速增加。这可能是因为世界模型的未来生成具有多样性，可能偏离单一的地面真实轨迹，或者长时预测固有的不确定性。
碰撞率： 尽管 L2 误差具有竞争力，但 OccWorld 的碰撞率在某些情况下略高于其他高度监督的方法。这表明在缺乏明确的自由空间（freespace）或边界框（bounding box）等安全指导信号时，学习安全的轨迹仍然具有挑战性。
多样性与真实性： 世界模型生成的多样性可能导致与单一地面真实轨迹的偏差。未来的工作可能需要探索如何平衡预测的准确性、多样性和安全性。

未来的研究方向可能包括：
提升长期预测能力： 探索更鲁棒的时空建模技术，以处理更长时间范围内的不确定性和复杂性。
优化安全策略： 结合更多安全相关的损失函数或机制，以在保持 L2 误差竞争力的同时降低碰撞率，尤其是在没有额外监督的情况下。
探索更丰富的自监督信号： 利用更多跨模态或时序一致性约束来增强自监督学习，进一步降低对人工标注的依赖。
可扩展性与泛化能力： 在更大规模、更多样化的驾驶数据集上进行训练和测试，以验证 OccWorld 在不同场景下的泛化能力。
结合决策与控制： 将世界模型与更直接的决策和控制模块结合，实现更完整的端到端自动驾驶系统。

7.3. 个人启发与批判

7.3.1. 个人启发

OccWorld 的工作为自动驾驶领域带来了重要的启发：

3D占据作为统一表示的潜力： 论文有力地证明了3D占据作为一种全面的场景表示，在未来自动驾驶系统中的核心地位。它弥补了边界框的粒度不足和纯点云语义缺失的缺陷，为统一感知、预测和规划提供了坚实基础。
世界模型范式的优势： 将自动驾驶问题构建为世界模型，通过自回归生成来预测未来世界演变和自车轨迹，是一个非常有前景的方向。它使得模型能够学习环境的动力学，并在“想象”中进行规划，这与人类的认知和决策过程有异曲同工之妙。这种范式有望提高系统的鲁棒性和泛化能力。
自监督学习的广阔前景： OccWorld 在自监督设置下取得的非平凡结果，预示着未来自动驾驶系统可以大大减少对昂贵人工标注的依赖。结合大规模未标注的传感器数据，自监督学习的3D占据世界模型有望推动自动驾驶技术的大规模落地。
GPT-like 模型的跨领域应用： OccWorld 再次展示了 Transformer 和 GPT 这类生成模型在 NLP 之外，也能通过巧妙的设计，在复杂的时空预测任务中发挥巨大潜力。这种将序列建模能力扩展到多模态、多维度数据的思路，值得在更多领域探索。
联合建模的重要性： 论文通过消融实验明确指出，场景演变和自车轨迹的联合建模，以及它们之间的时序交互，对于提升预测和规划性能至关重要。这强调了系统级、整体性思考在自动驾驶问题中的价值。

7.3.2. 批判性思考

尽管 OccWorld 取得了令人鼓舞的成果，但仍有以下几点值得批判性思考和进一步探讨：

“世界模型”的真实性挑战：世界模型预测的未来场景可能具有多样性，但训练数据中的地面真实往往是单一的。当模型生成了与真实情况合理但不同的未来场景时，如何评估其“正确性”？以及如何保证基于这种多样性预测所做的规划决策是鲁棒且安全的？这涉及到开放世界中不确定性建模和多模态预测的深层问题。
细粒度但计算开销： 3D占据虽然细粒度，但也意味着高维度和巨大的计算开销。虽然论文提到了效率（efficiency），但从表格中的 FPS 来看，OccWorld-O 的18 FPS 尚可，但其他视觉输入的 OccWorld-D/T/S 只有2.8 FPS，距离实时自动驾驶的要求（通常需要30 FPS 或更高）仍有较大差距。如何进一步优化其计算效率是实际部署的关键。
对“自由空间”的隐式学习： 论文提到 OccWorld 可以从3D占据中学习自由空间的概念，但其碰撞率略高于一些显式利用自由空间或边界框监督的方法。这表明隐式学习可能不足以在所有复杂场景中提供绝对的安全保障。未来可以探索将隐式学习与某些轻量级的安全约束或显式安全模块相结合。
规划的“可解释性”： 尽管3D占据本身具有一定的可解释性（能看到未来场景），但 GPT-like Transformer 的内部决策过程仍然是黑盒。如何在复杂场景下解释模型为何做出某个规划决策，对于自动驾驶的信任和安全认证至关重要。
极端情况和长尾分布： 自动驾驶需要处理无数的极端情况和长尾分布场景。OccWorld 作为生成模型，在这些低频但高风险的场景下能否稳定、安全地预测和规划，还需要更广泛的测试和验证。
感知误差的传递： 尽管 OccWorld 试图统一感知、预测和规划，但在 OccWorld-D/T/S 变体中，它仍然依赖于上游感知模型（TPVFormer）提供的3D占据预测结果。如果上游感知模块的误差较大，这些误差仍会传递到世界模型中，影响最终的性能。如何使世界模型对感知误差更鲁棒，或实现更深层次的端到端联合优化，是一个值得探索的方向。

总而言之，OccWorld 为自动驾驶的世界模型研究树立了一个重要里程碑，它在场景表示、模型架构和学习范式上均具有创新性。但其在实时性、长期预测的鲁棒性及安全性方面，仍有广阔的探索空间，以应对真实世界自动驾驶的严苛挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。