论文状态：已完成

ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation

发表：2025/12/03

基于相机的轨迹视频生成 (1)3D几何引导 (1)单目视频多轨迹监督 (1)ParaDrive 数据集 (1)两阶段训练策略 (1)

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了ReCamDriving，一个基于视觉的，相机控制的新轨迹视频生成框架。与修复和LiDAR方法相比，此方法利用密集的3D Gaussian Splatting渲染作为几何指导，实现了精确控制。采用两阶段训练，首阶段粗略控制相机位姿，次阶段细化几何指导。此外，提出的跨轨迹数据清洗策略消除了训练与测试间的差距，构建了包含11万对轨迹视频的ParaDrive数据集，展示了优越的可控性与结构一致性。

摘要

We propose ReCamDriving, a purely vision-based, camera-controlled novel-trajectory video generation framework. While repair-based methods fail to restore complex artifacts and LiDAR-based approaches rely on sparse and incomplete cues, ReCamDriving leverages dense and scene-complete 3DGS renderings for explicit geometric guidance, achieving precise camera-controllable generation. To mitigate overfitting to restoration behaviors when conditioned on 3DGS renderings, ReCamDriving adopts a two-stage training paradigm: the first stage uses camera poses for coarse control, while the second stage incorporates 3DGS renderings for fine-grained viewpoint and geometric guidance. Furthermore, we present a 3DGS-based cross-trajectory data curation strategy to eliminate the train-test gap in camera transformation patterns, enabling scalable multi-trajectory supervision from monocular videos. Based on this strategy, we construct the ParaDrive dataset, containing over 110K parallel-trajectory video pairs. Extensive experiments demonstrate that ReCamDriving achieves state-of-the-art camera controllability and structural consistency.

思维导图

论文精读

中文精读约 12 分钟读完 · 8,516 字

1. 论文基本信息

1.1. 标题

ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation (ReCamDriving：无 LiDAR 的相机控制新轨迹视频生成)

1.2. 作者

Yaokun Li, Shuaixian Wang, Mantang Guo, Jiehui Huang, Taojun Ding, Mu Hu, Kaixuan Wang, Shaojie Shen, Guang Tan

主要隶属机构: 中山大学 (Sun Yat-sen University), 香港科技大学 (HKUST), ZYT (可能是指自动驾驶相关企业或实验室), 深圳职业技术大学。

1.3. 发表期刊/会议

状态: 预印本 (arXiv)
发布时间: 2025年12月3日 (UTC)

1.4. 摘要

该论文提出了 ReCamDriving，这是一个纯视觉的、由相机参数控制的新轨迹视频生成框架。现有的基于“修复（repair）”的方法难以恢复复杂的伪影，而基于 LiDAR 的方法则依赖稀疏且不完整的几何线索。相比之下，ReCamDriving 利用密集且场景完整的 3D Gaussian Splatting (3DGS) 渲染图像作为明确的几何引导，实现了精确的相机可控生成。为了防止模型在以 3DGS 渲染图为条件时过拟合于“修复”行为，论文采用了一种两阶段训练范式：第一阶段利用相机位姿进行粗略控制，第二阶段引入 3DGS 渲染图进行细粒度的视点和几何引导。此外，作者提出了一种基于 3DGS 的跨轨迹数据清洗策略（Cross-trajectory data curation strategy），消除了训练和测试在相机变换模式上的差距，并据此构建了 ParaDrive 数据集（包含超过 11 万对平行轨迹视频）。

1.5. 原文链接

arXiv: https://arxiv.org/abs/2512.03621v1
PDF: https://arxiv.org/pdf/2512.03621v1.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题: 自动驾驶系统的训练和测试需要大量的高质量多视角视频数据。然而，在现实世界中采集同一场景的多条轨迹（Multi-trajectory）数据极其昂贵且困难（需要多车协同或多次采集，且难以保证时空一致性）。因此，从单条记录的轨迹生成新轨迹（Novel-trajectory）视频成为一种极具吸引力的替代方案。
现有挑战:
1. 修复类方法 (Repair-based): 先用 NeRF 或 3DGS 渲染新视角，再用模型修复伪影。但当视角变化大、渲染伪影严重时，修复模型容易失效，导致几何不一致。
2. LiDAR 引导方法: 利用 LiDAR 点云投影作为几何条件。但 LiDAR 点云是稀疏的，且在背景或遮挡区域不完整，导致生成的视频出现空洞或结构错误。
3. 训练数据缺失: 自动驾驶数据集通常只有单条轨迹，缺乏真实的新轨迹作为 真值 (Ground Truth) 监督信号。以往方法通常用同轨迹的前后片段构造伪配对（Pseudo-pairs），但这只能模拟纵向运动，无法处理横向变道等运动。

2.2. 核心贡献/主要发现

ReCamDriving 框架: 提出了一个纯视觉的生成框架，摒弃了昂贵的 LiDAR，转而使用 3DGS 渲染图作为几何条件。虽然 3DGS 渲染图有伪影，但它提供了比 LiDAR 更密集的结构信息。
两阶段训练策略: 设计了“先粗后细”的训练流程，防止模型将 3DGS 条件仅视为“待修复图像”，而是将其作为“几何引导”，从而学习真正的视点变换。
跨轨迹数据策略与 ParaDrive 数据集: 提出了一种创新的数据构造方法，利用 3DGS 生成横向偏移的轨迹作为训练输入，以此构建了包含 110K 视频对的大规模数据集，解决了横向运动监督缺失的问题。

下图（原文 Figure 1）展示了该方法与修复基线（a）及 LiDAR 基线（b）的对比，可以看出 ReCamDriving（c）在保持几何结构完整性上的优势。

$Figure 1. Comparison of novel-trajectory generation. Repair-based methods (e.g., Difix $^ { 3 \\mathrm { D + } }$ \[53\]) suffer from severe artifacts under novel$ 该图像是一个示意图，展示了三种不同的视频生成方法的比较。 (a)显示了基于3DGS的修复方法，(b)展示了LiDAR基础的可控生成，(c)则是提出的ReCamDriving方法，强调了相机姿态和3DGS渲染在生成过程中的作用。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文，初学者需要掌握以下概念：

新视角合成 (Novel View Synthesis, NVS): 指利用已有的图像或视频，生成同一场景在不同拍摄角度下的新图像或视频的技术。
3D Gaussian Splatting (3DGS): 一种新兴的 3D 场景表示方法。它用无数个带有颜色、透明度、位置和形状的“3D 高斯球”来描述场景。其优点是渲染速度极快且质量较高，但在未观测区域（外推区域）容易产生模糊或伪影。
扩散模型 (Diffusion Models) 与流匹配 (Flow Matching):
- 扩散模型: 通过逐步去除噪声来生成数据。
- 流匹配 (Flow Matching): 一种比传统扩散模型更高效的生成范式。它通过学习一个确定性的常微分方程 (ODE)，将噪声分布平滑地变换为数据分布。本文基于 Wan2.1 视频生成模型，该模型使用了流匹配技术。
变分自编码器 (VAE): 用于将高维的视频像素数据压缩到低维的“潜空间 (Latent Space)”中，以减少计算量。

3.2. 技术演进与差异化分析

“重建后修复”范式 (Reconstruction-then-repair): 如 Difix3D+。
- 逻辑: 重建 3D 场景 -> 渲染新视角（含伪影）-> 神经网络修复。
- 本文差异: 本文认为修复模型只能处理见过的局部退化，无法处理 3D 结构上的严重缺失。本文是将生成过程作为主导，3DGS 仅作为引导条件。
相机控制生成 (Camera-Controlled Generation): 如 FreeVS, StreetCrafter。
- 逻辑: 视频生成模型 + 相机姿态条件 + (可选) LiDAR 投影。
- 本文差异: 以前的方法依赖稀疏的 LiDAR 点云，导致远景或细微结构（如车道线）生成质量差。本文用 3DGS 渲染图替代 LiDAR，利用其全场景覆盖的特性提供更完整的几何线索。

4. 方法论

4.1. 核心思想：跨轨迹数据清洗策略 (Cross-trajectory Data Curation)

这是本文解决“无真值监督”问题的核心。

4.1.1. 问题：训练与推理的不匹配

在自动驾驶数据集中，我们通常只有单条录制的视频轨迹。如果我们想训练模型生成“左移 3 米”的视频，我们没有对应的真实视频作为监督（Ground Truth）。

4.1.2. 解决方案

作者利用 3DGS 构建了一个巧妙的训练对：

训练阶段 (Training):
- 输入 (Source): 使用训练好的 3DGS 模型，渲染出一条横向偏移（例如偏移 3 米）的视频。这个视频虽然几何位置正确，但包含渲染伪影（Artifacts）。
- 目标 (Target / GT): 使用原始的、干净的真实录制视频。
- 任务: 模型学习将“有伪影的偏移视频”变换回“干净的原始视角视频”。这实际上让模型学习了逆向的相对相机变换。
推理阶段 (Inference):
- 输入 (Source): 使用干净的真实录制视频。
- 任务: 模型应用学到的变换能力，生成“干净的新视角视频”。
  
  下图（原文 Figure 2）详细展示了这一策略。图(c)显示了训练时是用“渲染图”作为源，“录制视频”作为目标；推理时反之。
  
  该图像是一个示意图，展示了 ReCamDriving 框架在训练和推理阶段的相机变换模式比较，以及训练和推理数据策略。图中 (a) 和 (b) 分别表示训练与推理过程中记录的轨迹和生成的新轨迹；(c) 则说明了在训练和推理阶段的相机条件与损失函数之间的关系。

4.2. 模型架构：两阶段训练 (ReCamDriving Framework)

本文基于 Latent Diffusion Model (LDM) 架构，采用了 Flow Matching 损失函数。输入视频 $V$ 首先被 3D VAE 编码为潜变量 $x$ 。

4.2.1. 预备：流匹配损失函数

流匹配的目标是学习一个速度场 $v_t$ ，将噪声 $x_0$ 映射到数据 $x_1$ 。正向过程定义为线性插值： $x _ { t } = t x _ { 1 } + ( 1 - t ) x _ { 0 } , \quad t \in [ 0 , 1 ]$ 速度场为： $v _ { t } = \frac { d x _ { t } } { d t } = x _ { 1 } - x _ { 0 }$ 训练目标是最小化预测速度 $\epsilon_{\theta}$ 与真实速度 $v_t$ 的差异： $\begin{array} { r } { \mathcal { L } _ { \mathrm { F M } } = \mathbb { E } _ { x _ { 0 } , x _ { 1 } , c _ { \mathrm { c a m } } , t \sim U ( 0 , 1 ) } \big | \big | \epsilon _ { \theta } ( x _ { t } ; c _ { \mathrm { c a m } } , t ) - v _ { t } \big | \big | ^ { 2 } } \end{array}$ 其中：

$x_t$ : $t$ 时刻的潜变量。
$c_{\mathrm{cam}}$ : 相机条件。
$\epsilon_{\theta}$ : 神经网络预测的速度场。

4.2.2. 第一阶段：相对位姿引导的相机变换

这一阶段的目标是让网络学会基本的视点变换物理规律。

输入条件: 相对相机位姿 $\Delta T$ 和单位位姿 $T_I$ （表示无运动）。
编码: 使用相机编码器 $\mathcal{E}_{\mathrm{cam}}$ 将位姿编码为特征 $c_r$ 和 $c_I$ 。
特征融合: 引入可学习的帧嵌入 (Frame Embedding) $E_f$ $E_{f}$ 来增强时间对齐。将条件拼接到潜变量上： $\boldsymbol x _ { i } = \mathrm { C a t } ( \boldsymbol x _ { t } + \boldsymbol c _ { r } + \boldsymbol E _ { f } , \ \boldsymbol x _ { s } + \boldsymbol c _ { I } + \boldsymbol E _ { f } )$
- $\boldsymbol x _ { t }$ : 噪声潜变量（对应目标视角）。
- $\boldsymbol x _ { s }$ : 源视频潜变量。
- $\mathrm{Cat}$ : 沿帧维度进行拼接。
网络: 使用 DiT (Diffusion Transformer) 块，仅训练 Self-Attention 模块。

4.2.3. 第二阶段：3DGS 渲染图引导的精细控制

第一阶段只能实现粗略控制。这一阶段引入 3DGS 渲染图 $V_{gs}$ 提供密集的几何引导。

关键策略: 冻结第一阶段的 Self-Attention 参数。这是为了迫使新增模块去利用 3DGS 的几何信息，而不是让整个网络退化成一个“去伪影”模型（Overfitting to restoration）。
3DGS 特征编码: $\bar { x } _ { g s } = x _ { g s } + c _ { r } + E _ { f }$ 其中 $x_{gs}$ 是 3DGS 渲染图经过 VAE 编码后的潜变量。
网络结构改进: 在每个 DiT 块中增加两个模块（如下图 3 所示）：
1. Rendering Attention: 处理 3DGS 特征内部的时空关系。
2. Cross Attention: 将 3DGS 特征 $\bar { x } _ { g s }$ 注入到生成的视频流中。
  
  下图（原文 Figure 3）清晰展示了包含两个阶段的整体架构。注意 Stage 2 中被冻结（锁形图标）的 Self-Attention 模块。
  
  该图像是一个示意图，展示了ReCamDriving框架的工作原理，包括源轨迹视频的处理、相机编码器的使用、3D VAE编码器、以及两阶段生成过程。图中标记了Identity Pose和Relative Pose等关键元素，以及用于生成新轨迹的3DGS渲染。

5. 实验设置

5.1. 数据集

ParaDrive 数据集: 作者基于 Waymo Open Dataset (WOD) 和 NuScenes 构建。
- 规模: 约 1600 个 3DGS 场景，超过 110,000 对平行轨迹视频。
- 构造方式: 利用 DriveStudio 框架训练 3DGS，然后渲染横向偏移 $\pm 1\text{m}, \pm 2\text{m}, \pm 3\text{m}, \pm 4\text{m}$ 的视频作为训练源数据。
- 数据特点: 包含不同程度的伪影（使用训练早期迭代的 3DGS 模型生成训练条件，模拟推理时的退化）。

5.2. 评估指标

为了全面评估生成质量，论文使用了以下三类指标：

视觉质量 (Visual Quality):
- Imaging Quality (IQ): 评估图像保真度。
- CLIP-F (Temporal Consistency):
  - 定义: 相邻帧的 CLIP 特征相似度，用于衡量视频的时间连贯性。
  - 公式: 未直接给出，通常计算为 $\text{Sim}(\text{Frame}_t, \text{Frame}_{t+1})$ 。
相机准确性 (Camera Accuracy):
- 使用 SOTA 的相机估计方法 MegaSaM 从生成视频中恢复相机参数，并与真值比较。
- Rotation Error (RErr.): 旋转误差。
- Translation Error (TErr.): 平移误差。
视角一致性 (View Consistency):
- Fréchet Video Distance (FVD):
  - 定义: 衡量生成视频分布与真实视频分布在特征空间中的距离，数值越低越好。
- Fréchet Image Distance (FID): 衡量单帧图像的分布距离。
- CLIP-V: 跨视角的语义一致性。

5.3. 对比基线

DriveStudio: 基于 3DGS 的渲染方法（存在伪影）。
Difix3D+: 代表“重建后修复”方法。
FreeVS & StreetCrafter: 代表基于 LiDAR 引导的相机控制生成方法。

6. 实验结果与分析

6.1. 核心结果分析

实验结果表明，ReCamDriving 在所有指标上均优于基线，特别是在大偏移量（Large Offset）的情况下优势明显。

以下是原文 Table 1 (在 NuScenes 数据集上的对比) 的完整转录。可以看到随着偏移量增加（ $\pm 1\text{m} \to \pm 4\text{m}$ ），对比方法（尤其是基于 LiDAR 的 FreeVS 和 StreetCrafter）的 FID 和 FVD 显著恶化，而 ReCamDriving 保持了较好的稳定性。

Method	Lateral Offset ±1m							Lateral Offset ±2m
	Visual Quality		Cam. Accuracy		View Consistency			Visual Quality		Cam. Accuracy		View Consistency
	IQ↑	CLIP-F↑	RErr.↓	TErr.↓	FID↓	FVD↓	CLIP-V↑	IQ↑	CLIP-F↑	RErr.↓	TErr.↓	FID↓	FVD↓	CLIP-V↑
DriveStudio	52.13	98.84	-	-	83.32	25.37	94.78	47.32	98.49	-	-	104.24	39.79	94.23
Difix3D+	64.24	98.92	1.36	2.42	56.35	27.80	95.32	63.11	98.41	1.64	2.66	57.73	31.88	92.85
FreeVS	62.74	95.74	1.71	2.88	63.06	37.06	88.99	60.16	92.59	2.12	2.93	67.87	43.59	88.41
StreetCrafter	63.57	97.31	1.52	2.53	28.18	20.51	96.01	63.78	97.17	1.79	2.77	46.78	22.81	94.74
Ours	65.18	99.31	1.32	2.37	13.76	13.27	97.96	65.34	99.03	1.45	2.43	25.01	14.08	97.18
Lateral Offset ±4m
DriveStudio	43.83	98.27	-	-	116.12	63.21	90.37	41.47	98.21	-	-	144.05	72.50	88.76
Difix3D+	60.88	97.38	2.01	2.97	66.39	45.23	91.76	58.81	97.14	2.68	3.12	78.08	65.37	90.12
FreeVS	57.71	92.01	3.17	3.78	84.87	55.76	86.33	56.15	91.26	3.02	3.39	107.04	58.39	85.17
StreetCrafter	59.34	96.89	1.91	3.13	50.75	30.26	92.13	59.89	96.63	2.87	3.03	68.73	36.67	91.17
Ours	62.68	98.79	1.63	2.65	28.38	22.59	96.50	61.32	98.45	1.57	2.73	32.36	26.76	94.91

(注：原表结构较为复杂，此处合并了 $\pm 4\text{m}$ 的数据以便展示，逻辑与原文一致。原文中 DriveStudio 因使用真值姿态未计算相机误差。)

6.2. 定性结果分析

下图（原文 Figure 5）展示了在 Waymo 数据集上的视觉对比。可以看到：

StreetCrafter (LiDAR-based): 在第一列中，未能完整重建车辆几何，且远景模糊。这是因为 LiDAR 点云稀疏，导致条件信息缺失。
Difix3D+ (Repair-based): 出现了几何不一致。
ReCamDriving (Ours): 即使在远景和遮挡区域，也能生成结构完整的车辆和背景，证明了密集 3DGS 引导的有效性。

$Figure 5. Qualitative comparison results on WOD \[40\]. Our method and Difix $^ { 3 \\mathrm { D + } }$ \[53\] use novel-trajectory renderings from DriveStucropped resolution that excludes sky regions to reduce computation and avoid LiDAR-sparse areas.$ 该图像是一个比较结果图，展示了不同方法在WOD数据集上的表现，包括Source View、DriveStudio、Difix 3D+、FreeVS、StreetCrafter和我们的结果。图中的每一列代表一种方法的输出，清晰展示了各自的生成效果和结构一致性。

6.3. 消融实验 (Ablation Studies)

6.3.1. 3DGS 条件的有效性

作者对比了使用不同条件（仅姿态、姿态+LiDAR、姿态+3DGS）的效果。下图（原文 Table 3）结果显示，引入 3DGS (Pose + GS) 相比仅使用 Pose 或 Pose + LiDAR 显著降低了 FID 和 FVD。虽然 Pose + LiDAR + GS 效果略好一点点，但考虑到 LiDAR 的高成本，3DGS 性价比最高。

Camera Condition	IQ↑	FID↓	FVD↓	RErr.↓	TErr.↓
Pose	60.13	34.86	32.31	3.01	4.23
Pose + LiDAR	61.32	31.23	27.78	1.53	2.69
Pose + LiDAR + GS	63.42	24.75	19.27	1.41	2.47
Pose + GS (Ours)	63.63	24.88	19.18	1.49	2.55

6.3.2. 两阶段训练策略的必要性

作者对比了单阶段（One-stage）和两阶段（Two-stage）训练。结果显示单阶段模型倾向于生成伪影（类似于修复模型），而两阶段模型生成的图像更清晰，3D 一致性更好。

7. 总结与思考

7.1. 结论总结

ReCamDriving 成功证明了纯视觉方案在自动驾驶新轨迹视频生成任务上可以超越依赖 LiDAR 的方案。其核心成功要素在于：

用 3DGS 替代 LiDAR: 解决了稀疏性问题，提供了全场景的几何引导。
两阶段训练: 巧妙地解决了模型可能过拟合于“修复伪影”而非“学习几何变换”的问题。
跨轨迹数据构造: 解决了该领域最大的痛点——缺乏真实的新轨迹监督数据，使得大规模训练成为可能。

7.2. 局限性与未来工作

局限性: 论文坦承，在处理远处的小物体（如远处的行人）时，由于 3DGS 在远处的重建质量下降，生成的结构线索不可靠，导致生成效果受限。
未来工作: 探索如何为远景区域引入更强的结构先验（Stronger Structural Priors）。

7.3. 个人启发与批判

“以毒攻毒”的数据策略: 本文的数据策略非常精彩。它并没有试图去获取完美的数据，而是利用生成的劣质数据（有伪影的渲染图）作为 Source，让模型学习如何从中恢复出高质量的 Target。这种让模型适应“从坏到好”的变换逻辑，极大地增强了其鲁棒性。
3DGS 的角色转变: 传统的思路是致力于让 3DGS 渲染得更完美。本文则将 3DGS 降级为一种“几何草图”或“引导信号”，由生成模型来负责最终的画质。这种“显式几何引导 + 隐式生成模型填充”的混合架构（Neuro-symbolic 思想的变体）可能是未来 3D 视频生成的通用解法。
对 LiDAR 的思考: 随着视觉算法（如 3DGS, Depth Anything 等）的进步，纯视觉方案在几何感知上正逼近甚至在稠密性上超越 LiDAR。这篇论文进一步佐证了纯视觉路线在生成任务上的潜力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。