论文状态：已完成

WeatherDiffusion: Weather-Guided Diffusion Model for Forward and Inverse Rendering

发表：2025/08/09

天气引导的扩散模型 (1)自动驾驶场景逆向渲染 (1)合成与真实天气数据集 (1)内在图谱感知注意力机制 (1)扩散模型在自动驾驶中的应用 (1)

价格：0.100000

已有 11 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新框架WeatherDiffusion，旨在解决自动驾驶中正向和逆向渲染的挑战，特别是在复杂天气和光照条件下。该方法通过引入内在图感知注意力机制，实现对材质属性、场景几何及光照的准确估计，并支持可控天气和光照编辑。同时，作者提供了两个数据集以测试和验证其方法的有效性，实验结果显示WeatherDiffusion优于现有最先进技术。

摘要

Forward and inverse rendering have emerged as key techniques for enabling understanding and reconstruction in the context of autonomous driving (AD). However, complex weather and illumination pose great challenges to this task. The emergence of large diffusion models has shown promise in achieving reasonable results through learning from 2D priors, but these models are difficult to control and lack robustness. In this paper, we introduce WeatherDiffusion, a diffusion-based framework for forward and inverse rendering on AD scenes with various weather and lighting conditions. Our method enables authentic estimation of material properties, scene geometry, and lighting, and further supports controllable weather and illumination editing through the use of predicted intrinsic maps guided by text descriptions. We observe that different intrinsic maps should correspond to different regions of the original image. Based on this observation, we propose Intrinsic map-aware attention (MAA) to enable high-quality inverse rendering. Additionally, we introduce a synthetic dataset (\ie WeatherSynthetic) and a real-world dataset (\ie WeatherReal) for forward and inverse rendering on AD scenes with diverse weather and lighting. Extensive experiments show that our WeatherDiffusion outperforms state-of-the-art methods on several benchmarks. Moreover, our method demonstrates significant value in downstream tasks for AD, enhancing the robustness of object detection and image segmentation in challenging weather scenarios.

思维导图

论文精读

中文精读约 34 分钟读完 · 19,259 字

1. 论文基本信息

1.1. 标题

WeatherDiffusion: Weather-Guided Diffusion Model for Forward and Inverse Rendering

1.2. 作者

论文的作者及其所属机构信息如下：

YIXIN ZHU: 南京大学 (Nanjing University), 中国
ZUOLIANG ZHU: 南开大学 (Nankai University), 中国
MILO HAAN: Adobe Research, NVIDIA Research, 美国
JIAN YANG: 南京大学 (Nanjing University), 中国
JIN XIE*: 南京大学 (Nanjing University), 中国
BEIBEI WANG*: 南京大学 (Nanjing University), 中国

1.3. 发表期刊/会议

该论文目前作为预印本 (preprint) 发布在 arXiv 上。虽然尚未在正式期刊或会议上发表，但鉴于其研究内容和提出的方法，它有望在计算机视觉 (Computer Vision)、计算机图形学 (Computer Graphics) 或自动驾驶 (Autonomous Driving, AD) 相关的顶级会议或期刊上发表。

1.4. 发表年份

2025年

1.5. 摘要

自动驾驶 (AD) 领域中，正向渲染 (Forward Rendering, FR) 和逆向渲染 (Inverse Rendering, IR) 已成为理解和重建场景的关键技术。然而，复杂的天气和光照条件给这些任务带来了巨大挑战。大型扩散模型 (Diffusion Models) 通过学习2D先验 (2D priors) 在生成合理结果方面展现了潜力，但这些模型难以控制且缺乏鲁棒性 (robustness)。

本文介绍了 WeatherDiffusion，一个基于扩散的框架，用于在各种天气和光照条件下对自动驾驶场景进行正向和逆向渲染。该方法能够真实地估计材质属性 (material properties)、场景几何 (scene geometry) 和光照 (lighting)，并通过使用预测的内在图 (intrinsic maps) 以及文本描述的引导，支持可控的天气和光照编辑。作者观察到不同的内在图应该对应原始图像的不同区域。基于此观察，他们提出了内在图感知注意力 (Intrinsic Map-aware Attention, MAA)，以实现高质量的逆向渲染。此外，论文还引入了两个新数据集：一个合成数据集 WeatherSynthetic 和一个真实世界数据集 WeatherReal，用于在不同天气和光照条件下的自动驾驶场景进行正向和逆向渲染。

大量实验表明，WeatherDiffusion 在多个基准测试中优于现有的最先进的 (state-of-the-art) 方法。此外，该方法在自动驾驶的下游任务 (downstream tasks) 中也展现出显著价值，增强了物体检测 (object detection) 和图像分割 (image segmentation) 在挑战性天气场景下的鲁棒性。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2508.06982v1 PDF 链接: https://arxiv.org/pdf/2508.06982v1.pdf

2. 整体概括

2.1. 研究背景与动机

正向渲染 (FR) 和逆向渲染 (IR) 在自动驾驶 (AD) 的场景理解中扮演着核心角色。正向渲染能够生成各种光照和天气条件下的真实感图像，帮助基于学习的模型获得全面的场景知识；而逆向渲染则旨在从观测图像中恢复底层的场景属性，如几何 (geometry)、材质 (material) 和光照 (lighting)，从而实现更具可控性和灵活性的应用（例如材质编辑、重新打光和增强现实）。

然而，这两项任务在复杂的自动驾驶场景中都面临着巨大挑战：

复杂天气和光照条件： 雨、雾、雪等恶劣天气会显著改变光照条件，遮蔽几何线索，并通过镜面反射 (specular reflections) 和遮挡 (occlusions) 影响表面特性。同时，恶劣天气还会降低能见度，使远处的特征几乎无法辨认。
传统方法局限： 传统正向渲染方法（如光栅化和光线追踪）需要精确的几何、材质和光照输入，这些在真实的自动驾驶场景中难以获取。
逆向渲染的病态性： 逆向渲染本身是一个典型的病态问题 (ill-posed problem)。在缺乏额外先验知识的情况下，同一图像可能存在多种合理的分解方式，使得准确分解极具挑战性。
现有扩散模型的不足： 尽管近期大型扩散模型在处理2D先验方面表现出潜力，但它们在控制能力和鲁棒性方面仍有不足。现有的扩散模型方法主要针对室内场景或物体级任务，难以直接应用于大规模、多天气条件的自动驾驶场景。如图 2 所示，现有方法在处理雨、雪、雾等不同天气条件下的图像时，其逆向渲染结果仍不理想。
自动驾驶场景的独特挑战： 与室内场景相比，自动驾驶场景具有更大的物体尺度变化、更广阔的视野和更复杂的动态环境，这对数据集的泛化能力和模型的注意力机制提出了更高的要求。
缺乏高质量数据集： 缺乏专门为自动驾驶场景设计的、包含多样天气和光照条件的大规模高质量数据集，是该任务面临的另一个重大挑战。

2.2. 核心贡献/主要发现

为解决上述挑战，本文提出了 WeatherDiffusion 模型，其核心贡献总结如下：

提出 WeatherDiffusion 框架： 构建了一个基于扩散模型 (Stable Diffusion 3.5 medium) 的统一框架，用于在各种天气和光照条件下，对自动驾驶场景进行正向渲染和逆向渲染。该框架能够将图像分解为内在图 (intrinsic maps)，并能根据文本提示合成不同光照或天气条件下的图像。
设计内在图感知注意力 (MAA)： 提出了一种 Intrinsic Map-aware Attention (MAA) 机制。该机制通过提供定制化的视觉细节指导，帮助生成模型关注图像中与不同内在图（例如反照率、法线、金属度）相关的关键局部区域，从而实现高质量的内在分解。
构建新数据集： 发布了两个新的数据集，WeatherSynthetic 和 WeatherReal。WeatherSynthetic 是一个大规模合成数据集，包含自动驾驶场景在多种天气条件下的图像及其对应的内在图。WeatherReal 是一个真实世界数据集，通过对现有自动驾驶数据集进行天气增强生成，弥补了现有数据集在天气多样性上的不足。
在下游任务中的应用： 实验证明，WeatherDiffusion 在自动驾驶的下游任务（如物体检测和图像分割）中展现出显著价值，通过提供环境失真校正后的视觉输入，增强了模型在挑战性天气场景下的鲁棒性。

3. 预备知识与相关工作

本节将介绍理解 WeatherDiffusion 所需的基本概念、前人工作，并分析本文与现有方法的差异。

3.1. 基础概念

3.1.1. 正向渲染 (Forward Rendering, FR)

概念定义： 正向渲染 (Forward Rendering, FR) 是指从3D场景描述（包括几何形状、材质属性、光照信息和相机视角）生成2D图像的过程。它模拟了光线与场景中物体相互作用，最终在图像平面上形成像素颜色的过程。 在本文中的应用： 传统 FR 方法需要精确的场景知识，但在自动驾驶 (AD) 场景中难以获取。本文的 WeatherDiffusion 利用扩散模型，基于分解出的内在图和文本提示来渲染图像，无需精确的3D场景模型。

3.1.2. 逆向渲染 (Inverse Rendering, IR)

概念定义： 逆向渲染 (Inverse Rendering, IR) 是指从一幅或多幅2D图像中恢复底层3D场景属性的过程，这些属性包括场景的几何形状 (geometry)、材质属性 (material properties) 和光照 (lighting) 等。这是一个病态问题 (ill-posed problem)，因为单个2D图像可能对应多种不同的3D场景配置。 内在图像分解 (Intrinsic Image Decomposition)： 这是逆向渲染的一种常见形式，旨在将图像分解成若干“内在图”，每个图代表场景的一个特定物理属性。在本文中，这些内在图通常包括： * 反照率图 (Albedo Map, $\pmb{a}$ ): 描述物体表面固有颜色和反射率，不受光照影响。 * 法线图 (Normal Map, $\pmb{n}$ ): 描述物体表面在每个点的方向，反映其局部几何形状。 * 粗糙度图 (Roughness Map, $\pmb{r}$ ): 描述物体表面微观结构的光滑程度，影响光的散射方式。 * 金属度图 (Metallicity Map, $\pmb{m}$ ): 描述物体表面是否具有金属特性，影响其反射光的颜色和强度。 * 辐照度图 (Irradiance Map, $\pmb{i}$ ): 描述场景中每个点接收到的光照强度和颜色，反映了环境光照。 PBR (Physically Based Rendering)： 基于物理的渲染 (Physically Based Rendering, PBR) 是一种渲染方法，它根据光线与物理世界中物体相互作用的原理来模拟光照，旨在生成更真实、更可预测的图像。本文中提到的材质属性（粗糙度、金属度）都属于 PBR 模型的参数。

3.1.3. 扩散模型 (Diffusion Models)

概念定义： 扩散模型 (Diffusion Models) 是一类生成模型 (generative models)，通过逐步向数据添加噪声，然后学习逆向过程来从噪声中恢复原始数据，从而生成新的数据样本。它们在图像生成领域取得了显著成功。 核心思想： * 前向过程 (Forward Process)： 逐渐向原始图像 $\pmb{x}_0$ 添加高斯噪声 (Gaussian noise)，经过 $T$ 个时间步后，图像最终变为一个纯噪声（服从标准高斯分布）。这个过程是固定的（无需学习）。 * 逆向过程 (Reverse Process)： 训练一个神经网络（通常是 UNet 或 DiT）来学习如何从一个带有噪声的图像中去除噪声，从而逐步恢复到原始图像。这个过程是可学习的，也是生成新图像的关键。 关键技术： * DDPM (Denoising Diffusion Probabilistic Models)： 扩散模型的开创性工作之一，定义了前向和逆向过程。 * 潜在扩散模型 (Latent Diffusion Models, LDMs)： 如 Stable Diffusion，它们将扩散过程应用于图像的潜在空间 (latent space)，而不是直接在像素空间进行，从而大大提高了效率并降低了计算成本。通过一个编码器 (encoder) 将图像映射到低维潜在空间，再通过一个解码器 (decoder) 将潜在变量恢复为图像。 * DiT (Diffusion Transformer)： 用 Transformer 结构取代传统的 UNet 作为扩散模型的骨干网络，在可扩展性和性能上取得了提升。 * Rectified Flow Matching： 一种用于训练生成模型的新范式，通过学习从噪声分布到数据分布的直线路径（流场），可以实现更高效的生成和更简单的训练。

3.2. 前人工作

3.2.1. 生成模型 (Generative Models)

VAE (Variational AutoEncoder)： 利用变分推断进行概率建模，能够显式估计似然，但通常生成模糊样本。
GAN (Generative Adversarial Networks)： 采用对抗训练生成锐利、高保真度的输出，但存在模式崩溃和训练不稳定的问题。
扩散模型 (Diffusion Models)： Esser et al. 2024、Ho et al. 2020、Ramesh et al. 2022 等工作，展示了生成高保真度、文本对齐且风格多样的图像的能力。Stable Diffusion (Esser et al. 2024; Rombach et al. 2022) 和 DALL·E (Ramesh et al. 2022) 等模型通常遵循 DDPM 及其改进版本 (Lipman et al. 2022; Liu et al. 2022; Song et al. 2020)。

3.2.2. 逆向渲染 (Inverse Rendering)

传统方法： Janner et al. 2017、Yu and Smith 2019、Zhu et al. 2022 等工作，通常采用学习框架在大规模数据集上进行训练。
数据集： Li et al. 2020 (OpenRooms)、Roberts et al. 2021 (Hypersim)、Zhu et al. 2022 (InteriorVerse) 等数据集推动了基于深度学习的逆向渲染发展，使得模型能够超越 Lambertian 反射假设，预测基于物理的渲染 (PBR) 材质属性、几何结构和照明参数。

3.2.3. 使用扩散模型的正向和逆向渲染 (Forward and Inverse Rendering using Diffusion)

IID (Kocsis et al. 2024)： 首次训练了一个潜在扩散模型来估计材质，包括反照率 (albedo)、粗糙度 (roughness) 和金属度 (metallicity)。
RGB→X (Zeng et al. 2024)： 提出了一个利用扩散模型进行正向和逆向渲染的框架。
DiffusionRenderer (Liang et al. 2025)： 微调 Stable Video Diffusion 来保持时间上一致的估计。
GeoWizard (Fu et al. 2024)： 利用扩散先验进行3D几何估计。
IDArb (Li et al. 2024)： 关注任意数量输入视图和光照的内在分解。

3.3. 技术演进

逆向渲染领域从早期依赖于强假设（如 Lambertian 反射）和优化方法，逐步发展到利用深度学习在大规模数据集上进行端到端学习。近年来，随着扩散模型在图像生成方面的强大能力，研究者开始探索将其应用于更复杂的渲染任务，特别是将图像分解为物理属性（内在图），并根据这些属性进行重新渲染。这些方法利用扩散模型学习图像及其内在图之间的联合概率分布，从而实现材质、几何和光照的解耦。

3.4. 差异化分析

现有使用扩散模型的正向和逆向渲染方法 (如 IID, RGB→X) 主要针对室内场景或物体级任务，这些场景的复杂度和规模远小于自动驾驶环境。自动驾驶场景的特点是：

动态且复杂的照明条件： 户外光照变化多端。
扩展的场景维度： 道路、建筑物、车辆等，物体尺度变化大。
多变的天气条件： 雨、雪、雾等会严重影响视觉感知。

这些特点导致现有方法在处理自动驾驶场景时，其内在的泛化能力不足以提供令人满意的性能，尤其是在恶劣天气条件下性能会大幅下降。

WeatherDiffusion 的核心创新点在于：

针对自动驾驶场景的专门设计： 引入了天气引导扩散 (Weather-guided diffusion)，并微调 Stable Diffusion 3.5，使其能够适应大规模、多天气条件的 AD 场景。
引入新的先验 (priors)： 通过 Intrinsic Map-aware Attention (MAA) 模块，为扩散模型提供了额外的视觉先验，使其能够更好地关注与不同内在图相关的局部区域，从而提高分解的准确性。
构建专门数据集： 针对 AD 场景缺乏多天气高质量数据集的问题，创建了 WeatherSynthetic 和 WeatherReal，弥补了数据空白。

通过这些改进，WeatherDiffusion 旨在克服现有方法在自动驾驶场景中，特别是复杂天气条件下进行正向和逆向渲染的局限性。

4. 方法论

本节将详细阐述 WeatherDiffusion 的方法论，包括其天气引导扩散机制和内在图感知注意力 (MAA)。

4.1. 方法原理

WeatherDiffusion 的核心思想是利用扩散模型 (Diffusion Models) 的强大生成能力，并针对自动驾驶 (AD) 场景的独特挑战（如复杂天气和光照、大规模场景）进行定制化设计。通过微调 Stable Diffusion 3.5 medium，并引入天气控制器 (weather controller) 和内在图感知注意力 (MAA) 机制，模型能够实现：

逆向渲染 (Inverse Rendering, IR)： 将输入的图像分解为各种内在图 (intrinsic maps)，包括材质属性（反照率、粗糙度、金属度）、几何形状（法线）和光照（辐照度）。
正向渲染 (Forward Rendering, FR)： 基于分解出的内在图和文本描述（指定天气条件），合成具有不同天气和光照条件的新图像。

该方法通过解决现有扩散模型在处理低能见度天气和大规模场景时的不足，提升了自动驾驶场景的渲染质量和鲁棒性。

4.2. 核心方法详解

4.2.1. 天气引导扩散 (Weather-guided Diffusion)

作者微调了两个独立的 SD 3.5 模型，分别用于逆向渲染和正向渲染。

4.2.1.1. 逆向渲染 (Inverse Rendering)

问题： 原始 SD 3.5 模型在区分低能见度天气条件和阴影区域时存在困难，容易在阴影区域生成雨雪纹理。 解决方案：

天气条件分类： 将天气条件分为九类，基于光照和粒子类型（如雨滴和雪花）的相似性，包括“晴天 (sunny)”、“雨/雷暴 (rainy/thunderstorm)”、“雪 (snow)”、“雾 (foggy)”等。
天气控制器 (Weather Controller)： 这些类别被编码为独热向量 (one-hot vectors)，称为天气控制器。
扩散条件融合： 遵循 GeoWizard (Fu et al. 2024) 的做法，对天气控制器进行位置编码 (positional encoding)，然后将其与时间步向量 (timestep vector) 和文本投影 (text projection) 相加，得到最终的扩散条件。
条件调制： 这个扩散条件通过一个多层感知机 (Multilayer Perceptron, MLP) 来预测 LayerNorm (LN) 层的尺度 (scale) 和偏移 (shift) 参数，并应用于输入特征。

公式详解： 扩散条件 $\{ \alpha , \beta \}$ 的计算如下： $\{ \alpha , \beta \} = \mathrm { M L P } ( f _ { \mathrm { w e a t h e r } } ( r _ { i } ) + f _ { \mathrm { t i m e } } ( t ) + f _ { \mathrm { t e x t } } ( \tau ( c ) ) )$ 其中：

r _ { i }：经过位置编码的天气控制器 (positional-encoded weather controller)。它是一个独热向量，表示当前图像所属的天气类别。
$f _ { \mathrm { w e a t h e r } } ( \cdot )$ ：天气控制器 r _ { i } 的嵌入函数。
$t$ ：去噪时间步 (denoising timestep)，采样自均匀分布 $\mathcal { U } ( 0 , T )$ 。
$f _ { \mathrm { t i m e } } ( \cdot )$ ：时间步 $t$ 的嵌入函数。
$\tau ( c )$ ：文本提示 $c$ 的投影。文本提示用于指导模型理解场景内容或特定需求。
$f _ { \mathrm { t e x t } } ( \cdot )$ ：文本投影 $\tau ( c )$ 的嵌入函数。
$\mathrm { M L P } ( \cdot )$ ：一个多层感知机，将融合后的条件向量映射为 $\alpha$ 和 $\beta$ 。
$\alpha$ ：用于 LayerNorm 的尺度参数 (scale parameter)。
$\beta$ ：用于 LayerNorm 的偏移参数 (shift parameter)。

然后，这些参数用于调制 LayerNorm 后的隐藏状态 $h$ ： $h _ { \mathrm { n o r m } } = \mathrm { L N } ( h ) \odot ( 1 + \alpha ) + \beta$ 其中：
$h$ : 输入到 LayerNorm 层的隐藏状态 (hidden states)。
$\mathrm { L N } ( h )$ ：对隐藏状态 $h$ 进行层归一化 (Layer Normalization) 的结果。
$\odot$ ：表示元素级乘法 (element-wise product)。
$h _ { \mathrm { n o r m } }$ ：经过条件调制后的归一化隐藏状态，将作为 DiT 模型的输入特征。

这种条件调制方法使模型能够根据不同的天气条件调整其内部特征表示，从而更准确地进行内在分解，避免将天气效应误解为阴影或材质属性。

4.2.1.2. 正向渲染 (Forward Rendering)

目标： 根据已分解的内在图和指定的文本提示 (text prompts) 来渲染图像。 增强鲁棒性： 为了提高模型对缺失内在图的鲁棒性，在训练过程中，随机丢弃一部分内在图，其做法遵循 RGB→X (Zeng et al. 2024)。当某个内在图被丢弃时，它会被一个零矩阵 (zero matrix) 替代。

公式详解： 内在图的潜在表示集 $M$ 及其随机丢弃过程如下： $M = \{ \hat { z } _ { a } , \hat { z } _ { n } , \hat { z } _ { r } , \hat { z } _ { m } , \hat { z } _ { i } \} , \quad \hat { z } _ { i } = \left\{ \begin{array} { l l } { { 0 , } } & { { \mathrm { w . p . ~ } p } } \\ { { z _ { i } , } } & { { \mathrm { w . p . ~ } 1 - p } } \end{array} \right.$ 其中：

$M$ : 包含所有内在图潜在表示的集合，包括反照率 (albedo) $\hat { z } _ { a }$ 、法线 (normal) $\hat { z } _ { n }$ 、粗糙度 (roughness) $\hat { z } _ { r }$ 、金属度 (metallicity) $\hat { z } _ { m }$ 和辐照度 (irradiance) $\hat { z } _ { i }$ 。这些潜在表示是通过预训练编码器 $\mathcal{E}$ 将原始内在图映射到潜在空间得到的，如论文第 3.2 节公式 (3) 所示 $z_0 = \mathcal{E}(\pmb{y})$ 。
$\hat { z } _ { i }$ ：集合 $M$ 中某个内在图 $i$ 的潜在表示，它可能是原始的潜在表示 $z_i$ 或一个零矩阵。
$p$ : 丢弃当前内在图的概率 (probability of dropping the map)。
z _ { i }：原始内在图 $i$ 经过编码器得到的潜在表示。
0: 零矩阵，用于替换被丢弃的内在图。

这种机制迫使模型在面对部分信息缺失时也能进行合理的正向渲染，提高了其泛化能力和鲁棒性。

4.2.2. 内在图感知注意力 (Intrinsic Map-Aware Attention, MAA)

背景与动机： 逆向渲染 (IR) 高度依赖于捕捉图像的结构和内在属性。原始 SD 3.5 的文本引导对于这种任务并不完全适用。作者观察到：

不同的内在图需要关注图像的不同区域。例如，反照率 (albedo) 预测需要关注物体细粒度纹理；法线 (normal) 估计主要关注路面和墙壁等大表面的整体方向；金属度 (metallic) 预测则需要选择性地关注车辆、杆子、栏杆等金属物体。
DINO (Oquab et al. 2023) 提取的补丁词元 (patch tokens) 表现出强大的类内一致性，即空间上分离但属于同类材质或结构的区域会产生高度相似的特征表示。基于这些观察，作者设计了 Intrinsic Map-aware Attention (MAA) 来为扩散模型提取详细的视觉指导。

MAA 模块流程：

提取补丁词元： 使用 DINOv2 (Oquab et al. 2023) 提取一组补丁词元 (patch tokens) $\pmb{p}$ 。每个词元编码了图像中特定空间区域的特征。
定义内在图嵌入： 为每个内在图定义一组可学习的嵌入 (learnable embeddings) $\pmb{d} \in \mathbb { R } ^ { D _ { \mathrm { m o d e l } } }$ ，用于捕捉该内在图的固有特性。
图感知注意力门控机制 (Map-aware Attention Gating Mechanism)： 应用一个门控机制来过滤补丁词元，根据当前要分解的内在图强调相关区域，生成图感知补丁词元 (map-aware patch tokens) $\pmb{p}'$ 。这通过在内在图嵌入 $\pmb{d}$ 和补丁词元 $\pmb{p}$ 之间进行交叉注意力 (cross-attention) 来实现。

公式详解： 图感知补丁词元 $\pmb{p}'$ 的计算如下： $p ^ { \prime } = \mathrm { g a t i n g } ( p , d ) = \mathrm { S o f t m a x } \big ( \frac { ( d W _ { Q } ) ( p W _ { K } ) ^ { T } } { \sqrt { d _ { k } } } \big ) p W _ { V }$ 其中：

$p$ : 由 DINOv2 提取的原始补丁词元 (patch tokens)。
$d$ : 可学习的内在图嵌入 (learnable intrinsic map embeddings)，代表特定内在图的特性。
W _ { Q }, W _ { K }, W _ { V }：分别对应于查询 (Query)、键 (Key)、值 (Value) 的线性变换矩阵。
d _ { k }：键向量的维度 (dimension of key vectors)，用于缩放注意力得分 (attention scores)。
$\mathrm { S o f t m a x } ( \cdot )$ ：Softmax 函数，将注意力得分归一化为权重。
$\pmb{p}'$ : 图感知补丁词元，通过加权求和原始值词元 $pW_V$ 得到，其中权重由内在图嵌入 $d$ 对补丁词元 $p$ 的注意力得分决定。

下图（原文 Figure 4）展示了 MAA 的可视化结果，可以看到它能够为对应的内在图区域分配更高的权重：

该图像是热图示意图，展示了金属感（左）和法线（右）的内在特征映射。热图通过不同的颜色深度表示了对应区域的权重分布，有助于理解该区域在逆向渲染中的重要性。 图 4：内在图感知注意力 (MAA) 可视化。 图中展示了金属度（左）和法线（右）的注意力热图。内在图感知注意力能够为内在图的相应区域分配更高的权重，说明模型能针对不同内在图关注图像的不同区域。

语义嵌入融合： 引入一组可学习的语义嵌入 (semantic embeddings) $\pmb{c}$ ，它们首先通过 DINO 的分类逻辑 (classification logits) 进行调制。
构建最终视觉条件： 这些调制后的语义特征通过交叉注意力 (cross-attention) 与图感知补丁词元 $\pmb{p}'$ 进行融合。聚合后的表示再与内在图嵌入结合，构建成输入到 DiT 模型中的最终视觉条件 $\pmb{c}'$ 。

公式详解： 最终视觉条件 $\pmb{c}'$ 的计算如下： $c ^ { \prime } = \alpha \cdot \mathrm { S o f t m a x } \big ( \frac { ( c W _ { Q } ) ( p ^ { \prime } W _ { K } ) ^ { T } } { \sqrt { d _ { k } } } \big ) p ^ { \prime } W _ { V } + c$ 其中：

$\alpha$ : 一个可学习的系数 (learnable coefficient)。
$\pmb{c}$ : 可学习的语义嵌入 (learnable semantic embeddings)，代表不同的语义类别。
W _ { Q }, W _ { K }, W _ { V }：分别对应于查询 (Query)、键 (Key)、值 (Value) 的线性变换矩阵。
$p ^ { \prime }$ ：通过公式 (10) 计算得到的图感知补丁词元。
d _ { k }：键向量的维度。
$\mathrm { S o f t m a x } ( \cdot )$ ：Softmax 函数。
$\pmb{c}'$ : 最终的视觉条件 (visual condition)，它包含了语义信息和图感知局部细节，用于指导 DiT 模型进行去噪。

这种复杂但精细的注意力机制，使得模型能够精准地从图像中提取与特定内在图相关的视觉信息，显著提高了逆向渲染的质量，尤其是在处理大规模和复杂场景时。

5. 实验设置

本节详细介绍 WeatherDiffusion 模型的实验设置，包括使用的数据集、评估指标以及用于比较的基线模型。

5.1. 数据集

现有的数据集，如 OpenRooms (Li et al. 2020)、Hypersim (Roberts et al. 2021) 和 InteriorVerse (Zhu et al. 2022)，主要关注室内环境；而 MatrixCity (Li et al. 2023) 虽然是城市场景，但天气多样性不足。这些数据集均不适合在大规模自动驾驶 (AD) 场景下处理复杂天气条件。因此，本文构建了 WeatherSynthetic 和 WeatherReal 两个新数据集。

5.1.1. WeatherSynthetic

WeatherSynthetic 是一个大规模的合成数据集，旨在模拟多样化的自动驾驶场景和天气条件。

天气类型 (Weather types): 晴天 (sunny)、阴天 (overcast)、雨天 (rainy)、雷暴 (thunderstorm)、雪天 (snowy)、雾天 (foggy)、沙尘暴 (sandstorm)。
时间段 (Times of day): 清晨 (early morning)、上午 (morning)、中午 (noon)、下午 (afternoon)、夜晚 (night)。
环境类型 (Environments): 城市 (urban)、郊区 (suburban)、高速公路 (highway)、停车场 (parking)。
生成工具： 使用 Unreal Engine 5 渲染所有图像和内在图 (intrinsic maps)。
资产来源： 从 Fab 购买了允许在生成模型中使用的3D资产。
渲染管线： 采用电影渲染队列 (movie render queue) 和多样本抗锯齿 (multi-sample anti-aliasing) 技术，确保生成高质量的图像和内在图。
天气和昼夜变化： 应用 UltraDynamicSky 和 UltraDynamicWeather 插件来修改天气和昼夜条件。
图像特性： 所有图像均处于线性空间 (linear space)，未进行色调映射 (tone mapping)。
规模： 生成了 35,000 张图像，耗时 24 小时。

下图（原文 Figure 5）展示了 WeatherSynthetic 数据集的一些典型场景，包括在不同光照和天气条件下渲染的同一场景：

该图像是图示，展示了WeatherSynthetic数据集中在不同天气条件下渲染的场景。每一行展示了在阳光明媚、雾霾、降雪和夜间条件下的城市街道场景，表现出复杂的光照和气候影响。 图 5：WeatherSynthetic 示例。 每一行展示了在多样光照和天气条件下渲染的同一场景。

5.1.2. WeatherReal

WeatherReal 是一个真实世界数据集，用于在各种天气条件下对自动驾驶场景进行逆向渲染。

数据来源： 在 Waymo (Sun et al. 2020) 和 Kitti (Geiger et al. 2013) 等开源数据集上应用了天气增强 (weather augmentation) 技术。这些数据集最初是在晴朗条件下收集的。
生成伪真值 (Pseudo Ground Truth)： 由于 WeatherSynthetic 上训练的模型已足够生成高质量的伪真值，因此该数据集的内在图可以通过模型预测得到。
增强策略： 结合了生成模型和图像处理技术。
- 使用预训练的图像编辑模型 (InstructPix2Pix [Brooks et al. 2023]) 改变场景中的地面和物体，例如将干燥表面转换为湿润表面，或用雪覆盖干净的物体。
- 利用提供的深度图 (depth maps)，合成逼真的雾效，并使用随机噪声模式模拟飘落的雪花或雨滴。
动机： 创建 WeatherReal 是因为作者观察到，仅在合成数据上训练的模型在处理真实世界极端天气样本时性能会下降，这主要是由于合成数据与真实世界数据之间的领域差距 (domain gap) 以及极端天气（如大雾、暴雨）造成的严重图像退化。

规模： 10,000 张图像。

下表（原文 Table 1）总结了现有数据集与本文数据集的特点：

	Images	Scene	Source	Weather	Intrinsic map
	Images	Scene	Source	Weather	Albedo	Normal	Roughness	Metallicity	Irradiance
InteriorVerse	50K	Indoor	Synthetic					√	*
Hypersim	70K	Indoor	Synthetic					×
Openrooms	118K	Indoor	Synthetic	xxx>			*	X
Matrixcity	316K	City	Synthetic		2	JSSS		✓
WeatherSynthetic	35K	City	Synthetic			✓	v	:	:
WeatherReal	10K	City	Real-world		~

表 1：数据集概述。 表格比较了 InteriorVerse、Hypersim、OpenRooms、MatrixCity、WeatherSynthetic 和 WeatherReal 在图像数量、场景类型、来源、天气多样性以及提供的内在图类型（反照率、法线、粗糙度、金属度、辐照度）方面的特点。

5.2. 评估指标

本文采用以下指标来评估逆向渲染结果的质量：

峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)
- 概念定义： 峰值信噪比 (PSNR) 是一种衡量图像重建质量的客观标准，表示信号的最大可能功率与噪声功率之间的比率。PSNR 值越高，表示图像失真越小，重建质量越好。它通常用于评估图像压缩、去噪或重建算法的性能。
- 数学公式： $PSNR = 10 \cdot \log_{10} \left( \frac{MAX_I^2}{MSE} \right)$
- 符号解释：
  - $MAX_I$ : 图像中像素的最大可能值。对于8位图像，通常为255。
  - MSE: 均方误差 (Mean Squared Error)，表示原始图像和重建图像之间像素值差的平方的平均值。 $MSE = \frac{1}{MN} \sum_{i=0}^{M-1} \sum_{j=0}^{N-1} [I(i,j) - K(i,j)]^2$ 其中，I(i,j) 是原始图像在像素 (i,j) 处的像素值，K(i,j) 是重建图像在像素 (i,j) 处的像素值， $M$ 和 $N$ 分别是图像的行数和列数。
结构相似性指数 (Structural Similarity Index Measure, SSIM)
- 概念定义： 结构相似性指数 (SSIM) 是一种感知度量，旨在评估两幅图像之间的相似性，更符合人类视觉系统的感知。它从亮度、对比度和结构三个方面衡量图像相似度。SSIM 值越接近1，表示两幅图像越相似。
- 数学公式： $SSIM(x,y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)}$
- 符号解释：
  - x, y: 分别表示两幅图像（或图像块）。
  - $\mu_x, \mu_y$ : 图像 $x$ 和 $y$ 的平均值。
  - $\sigma_x, \sigma_y$ : 图像 $x$ 和 $y$ 的标准差。
  - $\sigma_{xy}$ : 图像 $x$ 和 $y$ 之间的协方差。
  - $c_1 = (K_1 L)^2, c_2 = (K_2 L)^2$ : 两个常数，用于稳定除法，避免分母为零。 $L$ 是像素值的动态范围， $K_1, K_2$ 是小常数（通常 $K_1=0.01, K_2=0.03$ ）。
平均角度误差 (Mean Angular Error, MAE)
- 概念定义： 平均角度误差 (MAE) 专门用于评估法线图 (normal maps) 的准确性。它计算预测法线向量与真实法线向量之间的平均角度差。MAE 值越低，表示预测法线与真实法线越接近，几何恢复越准确。
- 数学公式： $MAE = \frac{1}{N} \sum_{i=1}^{N} \arccos(\mathbf{n}_{pred,i} \cdot \mathbf{n}_{gt,i})$
- 符号解释：
  - $N$ : 图像中的像素总数。
  - $\mathbf{n}_{pred,i}$ : 第 $i$ 个像素处预测的法线向量。
  - $\mathbf{n}_{gt,i}$ : 第 $i$ 个像素处真实标注数据 (ground truth) 的法线向量。
  - $\arccos(\cdot)$ : 反余弦函数，用于计算两个向量之间的角度。
  - $\cdot$ : 向量点积 (dot product)。
学习感知图像块相似度 (Learned Perceptual Image Patch Similarity, LPIPS)
- 概念定义： 学习感知图像块相似度 (LPIPS) 是一种基于深度学习的图像相似度度量，旨在更好地匹配人类的感知判断。它通过提取预训练深度神经网络（如 AlexNet 或 VGG）的特征，然后计算这些特征之间的 L2 距离，来衡量两幅图像的感知差异。LPIPS 值越低，表示两幅图像在感知上越相似。
- 数学公式： $LPIPS(\mathbf{x}, \mathbf{x}_0) = \sum_l \frac{1}{H_l W_l} \|\mathbf{w}_l \odot (\phi_l(\mathbf{x}) - \phi_l(\mathbf{x}_0))\|_2^2$
- 符号解释：
  - $\mathbf{x}, \mathbf{x}_0$ : 两幅待比较的图像。
  - $\phi_l(\cdot)$ : 从预训练网络（如 AlexNet 或 VGG）的第 $l$ 层提取的特征图。
  - $\mathbf{w}_l$ : 对第 $l$ 层特征图计算的权重向量。
  - $H_l, W_l$ : 第 $l$ 层特征图的高度和宽度。
  - $\odot$ : 元素级乘法。
  - $\|\cdot\|_2^2$ : L2 范数的平方。

5.3. 对比基线

为了评估 WeatherDiffusion 的性能，本文将其与以下最先进的 (state-of-the-art) 方法进行了比较：

IID (Kocsis et al. 2024): 主要关注室内单视图材质估计的内在图像扩散模型。
RGB→X (Zeng et al. 2024): 一个利用扩散模型进行正向和逆向渲染的通用框架。
GeoWizard (Fu et al. 2024): 利用扩散先验进行3D几何估计。
IDArb (Li et al. 2024): 关注任意数量输入视图和光照的内在分解。

说明：

IID 和 RGB→X 主要在室内数据集上训练。
GeoWizard 在室内外场景上训练。
IDArb 局限于物体级别。

尽管 WeatherDiffusion 主要针对自动驾驶场景设计，但其在室内基准测试中也取得了最先进的性能。

6. 实验结果与分析

本节将详细分析 WeatherDiffusion 在合成数据和真实数据上的实验结果，包括定量和定性评估，以及消融研究。

6.1. 核心结果分析

6.1.1. 逆向渲染 (Inverse Rendering)

6.1.1.1. 合成数据 (Synthetic Data)

下表（原文 Table 2）展示了 WeatherDiffusion 与现有方法在 WeatherSynthetic 测试集上的定量比较结果。

Method	Albedo			Normal			Roughness		Metallic		Irradiance
	PSNR↑	SSIM↑	LPIPS↓	PSNR↑	SSIM↑	MAE↓	PSNR↑	LPIPS↓	PSNR↑	LPIPS↓	PSNR↑	LPIPS↓
IID	7.80	0.26	0.63				10.30	0.55	12.37	0.64	-	-
IID (w/ finetune)	11.55	0.53	0.40			−	12.34	0.43	12.22	0.55
RGB→X	9.66	0.44	0.47	11.90	0.41	15.51	13.62	0.55			16.24	0.58
RGB→X (w/ finetune)	11.35	0.59	0.37	16.14	0.49	7.05	13.65	0.57	11.96	0.66	16.38	0.69
GeoWizard				16.24	0.54	12.47
IDArb	6.40	0.48	0.65	10.77	0.43	22.42	10.70	0.62	14.66	0.62
ours	18.02	0.66	0.35	20.95	0.61	4.24	15.03	0.45	18.94	0.14	23.55	0.29
ours (w/o MAA)	17.35	0.66	0.45	18.82	0.49	5.56	13.96	0.51	18.04	0.28	23.41	0.43

表 2：WeatherSynthetic 测试集上的定量比较。 表格展示了不同方法在反照率 (Albedo)、法线 (Normal)、粗糙度 (Roughness)、金属度 (Metallic) 和辐照度 (Irradiance) 估计上的 PSNR (↑)、SSIM (↑)、LPIPS (↓) 和 MAE (↓) 指标。IID 和 RGB→X 在微调后性能有所提升。

从表 2 可以看出，WeatherDiffusion 在所有指标上都取得了最先进的 (state-of-the-art) 性能。即使对 IID 和 RGB→X 进行了微调 (finetune)，它们的性能有所提升，但仍未能提供高质量的估计。

下图（原文 Figure 8）展示了在不同天气条件下，WeatherDiffusion 与其他方法的定性比较结果。

该图像是图表，展示了不同方法在自动驾驶场景下的渲染性能比较。图中包含四种渲染结果及其对应的 PSNR 值，显示了输入图像、真实图像 (GT) 以及我们的方法 (Ours) 和其他比较方法的输出效果。 图 8：WeatherDiffusion 与其他方法在不同天气条件下的逆向渲染结果比较。 左侧是输入图像，随后是真实标注数据 (GT)，以及 WeatherDiffusion (ours)、RGB→X (w/ finetune)、IID (w/ finetune) 和 IDArb 的结果。

反照率 (Albedo) 估计 (图 8a)： WeatherDiffusion 能够有效地恢复反照率的精细细节，同时完全将光照与材质分离。RGB→X 虽然去除了光照效果，但缺乏准确性。IID 和 IDArb 错误地将阴影解释为反照率。在微调后，它们的准确性有所提高，但仍无法恢复细节。
法线 (Normal) 估计 (图 8b)： 空气中的粒子，如雪花，会严重遮蔽几何细节。WeatherDiffusion 成功消除了雪花的影响，恢复了干净锐利的法线。其他方法则受到显著影响。
粗糙度 (Roughness) 和金属度 (Metallicity) 估计 (图 8c, 8d)： 由于模糊效应，在雨雾中准确估计车辆的粗糙度和金属度极具挑战性。WeatherDiffusion 成功检测到远处的车辆，而所有其他方法都失败了。微调后的 RGB→X 和 IID 在粗糙度估计方面与 WeatherDiffusion 相当，但仍无法精确区分金属和非金属物体。
辐照度 (Irradiance) 估计 (图 8e)： 与反照率估计相反，辐照度估计旨在恢复光照条件。在展示结果的晴天大阴影场景中，RGB→X 的表现与 WeatherDiffusion 相当。然而，在雨天场景，WeatherDiffusion 成功捕捉到降雨，同时保持了远处车辆和建筑物的清晰细节。

6.1.1.2. 真实数据 (Real Data)

下图（原文 Figure 10）展示了在不同天气条件下的真实图像上的逆向渲染结果。

该图像是一个对比图，展示了不同方法在复杂天气条件下渲染的效果。图中包括输入图像、基准（GT）和我们的方法（Ours），以及多种渲染结果的PSNR值，分别为26.49、12.24、17.53、11.13、18.46和9.12等。
图 10：WeatherDiffusion 与 RGB→X 和 IDArb 在真实数据上的逆向渲染定性比较。

Waymo 数据集图像 (第一行)： WeatherDiffusion 为所有内在图提供了合理的估计，表明模型从合成数据到真实世界数据的良好泛化能力。微调后的 RGB→X 提供了不错的反照率和法线估计，但在车辆和远处建筑物上表现不佳。IDArb 在反照率上难以解耦阴影和材质，并且无法提供合理的粗糙度和金属度估计。
TransWeather 数据集图像 (后三行)： 展示了不同天气条件（如镜头上的雨滴、大雨和浓雾）下的图像，WeatherDiffusion 提供了合理的估计。

6.1.2. 正向渲染 (Forward Rendering)

6.1.2.1. 合成数据 (Synthetic Data)

下图（原文 Figure 9）展示了 WeatherDiffusion 与 RGB→X 在合成数据上的正向渲染比较。

$Fig. 9. Comparison of forward rendering results between WeatherDiffusion and $\\mathsf { R C B } { } \\mathsf { X }$ on synthetic data.$
图 9：WeatherDiffusion 与 RGB→X 在合成数据上的正向渲染结果比较。

输入： 使用反照率和法线作为输入。
文本提示： “城市中的一个晴天 (A sunny day in the city)”。
结果： WeatherDiffusion 在材质和几何恢复方面优于 RGB→X，后者倾向于生成异常的路面和建筑物纹理。此外，WeatherDiffusion 生成的图像与文本描述高度一致。

6.1.2.2. 真实数据 (Real Data)

下图（原文 Figure 11 和 Figure 12）展示了 WeatherDiffusion 利用逆向渲染获得的内在图，并根据文本提示生成不同天气和光照条件下的重渲染图像。

该图像是示意图，展示了不同方法在输入图像处理后的结果，包括输入图像、GT、Ours、RGB+X及IID等，PSNR值显示在每个图像上，分别为15.49、8.99、13.10、9.15和13.18。 图 11：WeatherDiffusion 在真实数据上进行正向渲染。 第一行使用反照率和法线作为输入，第二行使用法线、粗糙度和金属度作为输入，同时改变材质和天气条件。

第一行 (图 11)： 使用反照率和法线作为输入，WeatherDiffusion 能够生成与原始图像材质和几何形状高度匹配的图像。
第二行 (图 11)： 使用法线、粗糙度和金属度作为输入，WeatherDiffusion 能够同时根据提示改变材质和天气条件。

该图像是示意图，展示了不同天气条件下的输入图像、真实图（GT）、我们的算法结果以及RGB+X的对比。图像展示了前向和逆向渲染在城市场景中的应用，突出了我们的WeatherDiffusion方法的效果。 图 12：WeatherDiffusion 在下游任务中的应用示例。 原始图像在恶劣天气下分割和检测效果差，经 WeatherDiffusion 重渲染后，下游任务性能显著提升。

这些结果表明 WeatherDiffusion 具有强大的正向渲染能力，能够根据内在图和文本提示灵活地控制场景的视觉效果。

6.2. 消融实验 (Ablation Study)

6.2.1. MAA (Intrinsic Map-Aware Attention) 的影响

目的： 验证 MAA 模块的有效性。
实验设置： 训练一个没有 MAA 的逆向渲染扩散模型，并用原始文本引导替换视觉条件。
结果：
- 定量 (Table 2)： ours (w/o MAA) 在多项指标上（如反照率的 LPIPS 从 0.35 增加到 0.45，法线的 MAE 从 4.24 增加到 5.56，金属度的 LPIPS 从 0.14 增加到 0.28）表现不如完整模型。
- 定性 (Figure 6)： 带有 MAA 的模型在几何和材质预测方面更精细，并成功识别了金属扶手并赋予其合理的金属度。没有 MAA 的模型在这方面表现不佳。
  
  下图（原文 Figure 6）展示了 MAA 消融研究的定性结果：
  
  该图像是一个示意图，展示了使用MAA与不使用MAA的结果比较。左侧为输入图像，右侧分别展示未使用MAA和使用MAA的渲染效果，突显了MAA在准确重建场景方面的优势。 图 6：MAA 的消融研究。 比较了有 MAA 和无 MAA 的模型在逆向渲染中的表现。

6.2.2. `WeatherSynthetic` 和 `WeatherReal` 数据集的影响

目的： 探索两个数据集对模型性能的单独贡献。
实验设置： 分别使用仅在室内数据集上训练的模型，和仅在合成数据集上训练的逆向渲染扩散模型进行实验。
结果： 论文中提到定性结果在补充材料中，但正文中未详细展开。不过，构建 WeatherReal 的动机（克服合成数据与真实世界数据之间的领域差距，以及极端天气造成的图像退化）暗示了这两个数据集都是提升模型鲁棒性和泛化能力的关键。

6.3. 讨论与局限性

尽管 WeatherDiffusion 在真实世界数据上展现出强大的泛化能力，但仍存在一些局限性：

领域外物体 (Out-of-distribution objects)： 模型难以估计训练集中从未出现的领域外物体，如起重机和重型卡车。
重雾条件下的辨别困难： 在远距离区域完全被遮蔽的重雾条件下，模型难以区分天空和建筑物，经常导致异常的反照率和法线预测。

下图（原文 Figure 7）展示了一个典型的失败案例：

该图像是一个示意图，展示了在雾霾场景下的输入图像、内在特征图和重渲染图像之间的关系。左侧为输入图像，其右侧依次为内在特征图，包括颜色、深度和遮挡图。最后为重新渲染的图像，展示了WeatherDiffusion在复杂天气条件下的效果。 图 7：一个在雾天场景下的典型失败案例。 WeatherDiffusion 未能区分隐藏在雾气后面的天空和建筑物。

6.4. 应用

WeatherDiffusion 在自动驾驶 (AD) 下游任务中展现出显著价值：

物体检测 (Object detection) 和图像分割 (Image segmentation)： 在自动驾驶场景中至关重要。
恶劣天气的影响： 现有方法在恶劣天气条件下性能会显著下降。
WeatherDiffusion 的作用： 通过将场景分解为物理属性，并能够在新的天气和光照条件下重新渲染图像，WeatherDiffusion 为检测和分割模型提供了更清晰的输入。
示例 (Figure 12)： 在原始图像中，由于严重的遮挡，分割和检测模型难以产生合理的预测。WeatherDiffusion 重渲染后的图像完全去除了雪花，同时严格保留了原始物体的位置和形状，使模型能够生成准确的预测。这增强了在挑战性天气场景下物体检测和图像分割的鲁棒性。

7. 总结与思考

7.1. 结论总结

本文提出了 WeatherDiffusion，一个新颖的框架，能够对自动驾驶 (AD) 场景进行正向渲染 (FR) 和逆向渲染 (IR)。该方法在各种天气和光照条件下实现了出色的内在分解，并能基于内在图和文本提示生成高质量、可编辑的图像。为了增强模型对语义重要区域的关注，作者设计了 Intrinsic Map-Aware Attention (MAA)，为生成模型提供了详细的视觉线索。此外，为了解决大规模 AD 渲染数据集在多变条件下的缺乏问题，论文构建了两个新数据集：WeatherSynthetic（合成数据）和 WeatherReal（真实世界数据）。实验结果表明，WeatherDiffusion 在多个基准测试中优于现有的最先进方法，并在 AD 下游任务中（如物体检测和图像分割）展现出显著价值，提升了模型在恶劣天气下的鲁棒性。

7.2. 局限性与未来工作

论文作者也指出了 WeatherDiffusion 的局限性并提出了未来研究方向：

领域外物体 (Out-of-distribution objects)： 模型在估计训练集中未出现的物体（如起重机和重型卡车）时存在困难。这表明模型对新颖或罕见物体的泛化能力仍有提升空间。
极端遮挡 (Extreme occlusions)： 在重雾等远距离区域完全被遮蔽的极端天气条件下，模型难以区分天空和建筑物，导致反常的反照率和法线预测。这凸显了在信息极度缺失情境下模型推理能力的局限。
未来方向：
- 减少对高质量训练数据的依赖： 这是许多数据驱动模型的共同挑战，未来工作可以探索更有效的数据利用方法或更强的无监督学习。
- 结合强化学习 (Reinforcement Learning) 和大型语言模型 (LLM) 指导： 通过人类或 LLM 反馈引导的强化学习，有望进一步增强模型的鲁棒性和控制能力。
- 利用自回归生成模型 (Auto-regressive generative models)： 这类模型的出现可能为渲染和逆向渲染任务带来新的突破。

7.3. 个人启发与批判

7.3.1. 个人启发

领域特定定制的必要性： 这篇论文强调了将通用生成模型（如扩散模型）应用于特定领域（如自动驾驶）时，进行领域特定定制的重要性。仅仅依靠模型的泛化能力不足以应对复杂且独特的挑战。WeatherDiffusion 在数据、架构和训练策略上的定制化（如 WeatherSynthetic/WeatherReal 数据集和 MAA）是其成功的关键。
内在表示的重要性： 论文通过内在图分解来解耦场景属性，并在此基础上进行重新渲染，这提供了一个强大的、可控的场景理解和编辑范式。这种物理属性的解耦对于下游任务（如 AD 感知）的鲁棒性提升具有重要意义。
注意力机制的精细化： MAA 模块的设计非常巧妙，它通过感知不同内在图对图像不同区域的关注需求，有效地提升了逆向渲染的质量。这启发我们，在处理多模态或多任务学习时，可以为不同输出或任务设计更具针对性的注意力机制。
合成数据与真实数据的结合： WeatherSynthetic 和 WeatherReal 的构建策略，即先利用合成数据提供大规模、高质量的真值，再通过真实数据增强来弥补领域鸿沟，是解决实际应用中数据稀缺问题的一种有效途径。

7.3.2. 批判

实时性挑战： 扩散模型通常计算成本较高，特别是在高分辨率图像和复杂场景下。对于自动驾驶这种对实时性要求极高的应用，WeatherDiffusion 的推理速度是否能满足需求是一个关键问题。论文中未详细讨论模型的计算效率和延迟。
极端天气下的鲁棒性： 尽管模型在各种天气下表现良好，但论文也承认在重雾等极端遮挡条件下仍存在局限性。如何处理信息极度缺失或高度不确定性场景下的渲染和分解，仍然是一个开放问题。例如，在完全白茫茫的雾中，物理上不可能推断出远处的建筑物，模型是否能有效地表示这种不确定性，而不是生成“幻觉”？
对微观天气效应的建模： 论文假设天气现象主要反映在辐照度组件中，而材质属性不受影响。虽然这在多数情况下足够，但在某些极端天气（如强酸雨可能腐蚀表面，或冰雹改变物体粗糙度）下，这种假设可能不成立。更细致的物理交互建模可能需要更复杂的材质模型或天气对材质影响的显式建模。
DINOv2 的依赖性： MAA 依赖于 DINOv2 提取的补丁词元。DINOv2 的性能和泛化能力会直接影响 MAA 的效果。如果 DINOv2 在某些特殊场景或新颖物体上提取的特征不佳，MAA 也会受到影响。
文本提示的粒度： 文本提示在正向渲染中用于控制天气和光照。然而，如何精确地通过文本描述来控制非常细微的天气或光照变化，例如“细雨蒙蒙”与“中雨”的区别，或者“夕阳余晖下的暖色调”与“正午阳光下的冷色调”，这仍然是一个挑战。文本提示的粒度及其对渲染结果的精确控制能力有待进一步探索。
可解释性： 作为基于深度学习的方法，WeatherDiffusion 在一定程度上继承了黑箱模型的特性。尽管 MAA 提供了部分可解释性，但整个扩散过程的内在工作原理及其如何精确地解耦和重组物理属性，仍然是一个复杂的端到端过程，其可解释性有待深入。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

WeatherDiffusion: Weather-Guided Diffusion Model for Forward and Inverse Rendering

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 34 分钟读完 · 19,259 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 正向渲染 (Forward Rendering, FR)

3.1.2. 逆向渲染 (Inverse Rendering, IR)

3.1.3. 扩散模型 (Diffusion Models)

3.2. 前人工作

3.2.1. 生成模型 (Generative Models)

3.2.2. 逆向渲染 (Inverse Rendering)

3.2.3. 使用扩散模型的正向和逆向渲染 (Forward and Inverse Rendering using Diffusion)

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 天气引导扩散 (Weather-guided Diffusion)

4.2.1.1. 逆向渲染 (Inverse Rendering)

4.2.1.2. 正向渲染 (Forward Rendering)

4.2.2. 内在图感知注意力 (Intrinsic Map-Aware Attention, MAA)

5. 实验设置

5.1. 数据集

5.1.1. WeatherSynthetic

5.1.2. WeatherReal

5.2. 评估指标

5.3. 对比基线

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 逆向渲染 (Inverse Rendering)

6.1.1.1. 合成数据 (Synthetic Data)

6.1.1.2. 真实数据 (Real Data)

6.1.2. 正向渲染 (Forward Rendering)

6.1.2.1. 合成数据 (Synthetic Data)

6.1.2.2. 真实数据 (Real Data)

6.2. 消融实验 (Ablation Study)

6.2.1. MAA (Intrinsic Map-Aware Attention) 的影响

6.2.2. WeatherSynthetic 和 WeatherReal 数据集的影响

6.3. 讨论与局限性

6.4. 应用

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判

相似论文推荐

6.2.2. `WeatherSynthetic` 和 `WeatherReal` 数据集的影响