UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion
TL;DR 精炼摘要
本文提出UltraFusion,首个能够融合9档曝光差异的曝光融合技术。该方法将曝光融合建模为引导修复问题,利用欠曝光图像引导填补过曝区域细节,并通过生成模型实现自然色调映射。实验表明,UltraFusion在多项基准和新收集数据集上超越现有技术。
摘要
Capturing high dynamic range (HDR) scenes is one of the most important issues in camera design. Majority of cameras use exposure fusion, which fuses images captured by different exposure levels, to increase dynamic range. However, this approach can only handle images with limited exposure difference, normally 3-4 stops. When applying to very high dynamic range scenes where a large exposure difference is required, this approach often fails due to incorrect alignment or inconsistent lighting between inputs, or tone mapping artifacts. In this work, we propose \model, the first exposure fusion technique that can merge inputs with 9 stops differences. The key idea is that we model exposure fusion as a guided inpainting problem, where the under-exposed image is used as a guidance to fill the missing information of over-exposed highlights in the over-exposed region. Using an under-exposed image as a soft guidance, instead of a hard constraint, our model is robust to potential alignment issue or lighting variations. Moreover, by utilizing the image prior of the generative model, our model also generates natural tone mapping, even for very high-dynamic range scenes. Our approach outperforms HDR-Transformer on latest HDR benchmarks. Moreover, to test its performance in ultra high dynamic range scenes, we capture a new real-world exposure fusion benchmark, UltraFusion dataset, with exposure differences up to 9 stops, and experiments show that UltraFusion can generate beautiful and high-quality fusion results under various scenarios. Code and data will be available at https://openimaginglab.github.io/UltraFusion.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion(UltraFusion:利用曝光融合实现的超高动态成像)
1.2. 作者
Zixuan Chen, Yujin Wang, Xin Cai, Zhiyuan You, Zheming Lu, Fan Zhang, Shi Guo, Tianfan Xue 作者分别隶属于上海人工智能实验室(Shanghai AI Laboratory)、香港中文大学(CUHK)及浙江大学(ZJU)。通讯作者 Tianfan Xue 在计算摄像和图像处理领域具有显著影响力。
1.3. 发表期刊/会议
该论文发表于 arXiv(预印本平台),最近更新于 2025年1月20日。考虑到作者团队背景,此类工作通常面向计算机视觉顶会(如 CVPR/ICCV)。
1.4. 发表年份
2025年
1.5. 摘要
捕获高动态范围 (High Dynamic Range, HDR) 场景是相机设计的核心挑战。主流相机采用曝光融合 (Exposure Fusion) 技术,但通常只能处理 3-4 档 (Stops) 的曝光差异。面对极高动态范围场景,传统方法常因对齐错误、光照不一致或色调映射 (Tone Mapping) 伪影而失效。本文提出了 UltraFusion,这是首个能融合 9 档曝光差异 输入的曝光融合技术。其核心思想是将曝光融合建模为 引导修复 (Guided Inpainting) 问题,利用欠曝光图像作为软引导来填充过曝区域的细节。通过生成模型的图像先验,UltraFusion 还能生成自然的色调映射效果。实验表明,该方法在多个基准测试及作者新收集的 UltraFusion 数据集 上均优于现有最先进技术。
1.6. 原文链接
2. 整体概括
2.1. 研究背景与动机
在现实世界中,光照强度跨度极大。相机传感器由于硬件限制,单次曝光能捕获的动态范围有限。为了解决这一问题,业界普遍采用 多曝光 HDR 成像。
- 现有挑战:
- 对齐难题: 当两张图像亮度差异极大(如 9 档)时,传统的对齐算法(如光流)极易失效,导致融合结果出现鬼影 (Ghosting)。
- 亮度不一致: 在极低曝光下,物体的外观可能发生非线性变化,简单的亮度映射无法补偿。
- 色调映射伪影: 将高动态范围数据压缩到普通显示器可显示的低动态范围 (LDR) 时,容易丢失对比度或产生不自然感。
- 研究动机: 探索是否可以大幅增加曝光差异(至 9 档),并利用生成式 AI 的强大先验知识来解决上述难题。
2.2. 核心贡献/主要发现
-
新范式: 将曝光融合重新定义为 引导修复 (Guided Inpainting) 任务。这使得模型对对齐误差和光照变化具有极强的鲁棒性。
-
架构创新: 设计了 分解与融合控制分支 (Decompose-and-Fuse Control Branch, DFCB) 和 忠实控制分支 (Fidelity Control Branch, FCB),有效地将欠曝光图像的颜色和结构信息注入扩散模型。
-
数据合成管线: 提出了一种利用静态多曝光数据和视频数据合成动态 HDR 训练数据的方案,解决了缺乏大规模真实动态 HDR 训练数据的问题。
-
新基准数据集: 收集了包含 100 对图像、曝光差异高达 9 档的 UltraFusion 数据集,涵盖了极其复杂的真实运动场景。
3. 预备知识与相关工作
3.1. 基础概念
- 高动态范围 (High Dynamic Range, HDR): 指图像中能够记录的最亮部分与最暗部分的比值。
- 档位 (Stops): 在摄影中,1 档代表光量的两倍或一半。9 档意味着两张图的曝光量相差 倍。
- 曝光融合 (Exposure Fusion): 直接在低动态范围 (LDR) 域内将多张图像合并,不经过复杂的线性 HDR 重建。
- 引导修复 (Guided Inpainting): 在图像的缺失区域(此处指过曝区域)生成内容,但生成的依据不是凭空想象,而是参考另一张图像(欠曝光图像)提供的线索。
3.2. 前人工作
- 传统 HDR 算法: 如 ,主要处理小曝光差异(约 3 档),在大运动下容易产生鬼影。
- ControlNet: 一种为扩散模型添加额外控制条件(如边缘图、姿态)的技术。本文发现直接用
ControlNet处理 HDR 会因模型不知道以哪张图为基准而产生伪影。 - 扩散模型 (Diffusion Models): 如
Stable Diffusion,利用大规模数据学习到的图像分布先验来生成高质量图像。
3.3. 技术演进与差异化分析
传统的 HDR 流程是“融合 -> 线性 HDR -> 色调映射”。而 UltraFusion 跳过了线性 HDR 步骤,直接利用扩散模型的先验进行“引导生成式融合”。相比于 HDR-Transformer 等基于注意力机制的方法,UltraFusion 不再追求完美的像素对齐,而是通过“软引导”允许一定的对齐偏差,从而在极端条件下更稳健。
4. 方法论
4.1. 方法原理
UltraFusion 将任务分为两个阶段:首先进行粗略的预对齐,然后利用基于扩散模型的引导修复模型生成最终的融合图像。
下图(原文 Figure 3)展示了整个 UltraFusion 的两阶段流程:
该图像是示意图,展示了 UltraFusion 中的预对齐阶段和引导修复阶段的流程。左侧部分包含了过曝和欠曝图像的流估计方法,而右侧部分则描述了生成模型的编码解码过程,并展示了如何结合控制分支以重建高质量图像。
4.2. 核心方法详解
4.2.1. 预对齐阶段 (Pre-alignment Stage)
由于输入图像 (过曝)和 (欠曝)亮度差异极大,直接计算光流是不可能的。
- 亮度匹配: 使用强度映射函数 (Intensity Mapping Function) 调整 的亮度,使其分布接近 。
- 流估计: 使用
RAFT网络估计双向光流 。 - 遮挡处理: 通过前向-后向一致性检查估计遮挡区域 。
- 对齐输出: 得到对齐后的欠曝光图像 : 其中 表示反向重采样(Backward Warping)。
4.2.2. 引导修复阶段 (Guided Inpainting Stage)
核心是基于 Stable Diffusion V2.1 构建的生成网络。为了精准控制生成内容,作者设计了两个关键分支。
A. 分解与融合控制分支 (Decompose-and-Fuse Control Branch, DFCB)
由于欠曝光图像太暗,直接输入 Latent 空间会导致信息被模型忽略。作者提出将图像分解为结构和颜色。
-
结构提取 (): 使用归一化后的亮度通道: 其中 是 YUV 空间的亮度, 和 分别是均值和标准差。
-
颜色提取 (): 使用 YUV 空间的 UV 通道。
-
多尺度跨注意力融合 (Multi-scale Cross-attention): 提取的特征通过跨注意力机制注入主网络。 下图(原文 Figure 4)展示了该分支的详细架构:
该图像是示意图,展示了我们提出的分解与融合控制分支的详细架构。图中显示了对不同曝光图像的引导提取与融合过程,包括主提取器、跨注意力机制等模块。
B. 忠实控制分支 (Fidelity Control Branch, FCB)
为了防止生成模型修改过曝区域以外的正常纹理,FCB 分支通过快捷连接 (Shortcuts) 将特征注入 VAE 解码器,确保重建的保真度。
4.2.3. 训练数据合成 (Training Data Synthesis)
由于没有真实的大规模动态 9 档 HDR 数据集,作者利用视频数据集(如 Vimeo-90K)和静态 HDR 数据集(如 SICE)进行合成。
下图(原文 Figure 5)说明了这一过程:
该图像是一幅示意图,展示了训练数据合成管道的过程。图中包含多个帧的流估计,以及一致性检查和伪遮挡掩模的生成,用于处理动态场景中的曝光融合。
通过在视频帧之间计算伪遮挡掩模,并结合静态图像的曝光对,模拟出带有运动位移和遮挡的训练样本。
5. 实验设置
5.1. 数据集
- 训练集:
SICE(静态多曝光)+Vimeo-90K(视频序列)。 - 测试集:
MEFB: 100 对静态图像。RealHDRV: 50 个带有复杂运动的 HDR 场景。- UltraFusion Benchmark (本文贡献): 100 对真实拍摄图像,曝光差异最高达 9 档。
5.2. 评估指标
论文使用了多项非参考指标(因为 9 档场景很难获得完美的 Ground Truth):
- MUSIQ (Multi-scale Image Quality):
- 定义: 衡量图像在不同尺度下的感知质量,分数越高表示视觉效果越好。
- TMQI (Tone Mapped Quality Index):
- 定义: 专门评估色调映射图像质量的指标,通过计算结构保真度 和统计自然度 的乘积:
- 公式:
- 符号: 衡量与原 HDR 图像的结构一致性, 衡量图像是否符合自然图像的亮度分布。
- MEF-SSIM:
- 定义: 衡量多曝光融合图像保留输入源信息的能力。
5.3. 对比基线
对比了包括 HDR-Transformer, SCTNet (HDR 重建类) 和 HSDS-MEF, TC-MoA (曝光融合类) 在内的十余种先进算法。
6. 实验结果与分析
6.1. 核心结果分析
以下是原文 Table 1 在静态数据集 MEFB 上的表现:
| 类型 | 方法 | MUSIQ↑ | DeQA-Score↑ | PAQ2PIQ↑ | HyperIQA↑ | MEF-SSIM↑ |
|---|---|---|---|---|---|---|
| HDR 重建 | HDR-Transformer | 63.10 | 2.983 | 71.36 | 0.5996 | 0.8626 |
| SCTNet | 63.13 | 3.021 | 71.48 | 0.6068 | 0.8777 | |
| 曝光融合 | MEFLUT | 65.71 | 3.277 | 71.21 | 0.5267 | 0.8608 |
| HSDS-MEF | 66.76 | 3.544 | 72.60 | 0.6026 | 0.9520 | |
| TC-MoA | 64.60 | 3.355 | 71.85 | 0.5394 | 0.9636 | |
| UltraFusion (Ours) | 68.82 | 3.881 | 73.80 | 0.6482 | 0.9385 |
分析: UltraFusion 在几乎所有感官质量指标上都显著领先。虽然在 MEF-SSIM(保真度)上略低于某些传统方法,但这是因为 UltraFusion 进行了生成式修复以保证图像的自然感。
6.2. 动态场景与 9 档挑战
在 RealHDRV 和本文的 UltraFusion 基准上,由于存在剧烈运动,传统方法产生了严重的鬼影(如 Figure 1 所示)。而我们的方法凭借生成先验,能够生成边缘清晰、无重影的太阳或高光物体。
下图(原文 Figure 10)展示了动态场景下的视觉对比:
该图像是图表,展示了在动态真实HDRV数据集上的不同曝光图像及其融合结果。上方显示了-2 EV、+2 EV的图像以及我们的方法生成的融合结果;下方则列出了多种方法的细节对比,包括Under-Exposure、Over-Exposure、DeFusion、HSDS-MEF、HDR-Transformer、SCTNet以及我们的结果。
6.3. 消融实验
通过移除对齐策略、DFCB 或 FCB,实验证明:
-
没有对齐: 大运动下效果崩溃。
-
没有 DFCB: 无法有效利用欠曝光信息,高光处细节丢失(Figure 11b)。
-
没有 FCB: 正常亮度区域会出现纹理扭曲(Figure 11c)。
7. 总结与思考
7.1. 结论总结
UltraFusion 成功将曝光融合推向了 9 档这一极端挑战。通过将任务定义为由生成模型驱动的引导修复,它不仅解决了传统算法在对齐和保真度之间的矛盾,还自动实现了极具美感的色调映射效果。这标志着计算摄像学与生成式 AI 融合的一个新里程碑。
7.2. 局限性与未来工作
- 计算成本: 在 RTX 4090 上融合一张 图像需要 3.3 秒,这对于移动端实时应用来说太慢了。
- 不可靠的修复: 在极端遮挡下,如果欠曝光信息完全缺失,模型可能生成的“太阳”形状与现实不符。
- 未来方向: 探索模型蒸馏 (Distillation) 以加速推理,以及开发对曝光更具鲁棒性的光流算法。
7.3. 个人启发与批判
- 启发: 很多低级视觉 (Low-level Vision) 的“对齐”难题,如果不去追求像素级的“算死”,而是交给生成模型去“理解并重构”,往往能达到更好的视觉上限。
- 批判: 虽然作者强调了 9 档差异,但实际应用中,用户是否愿意为了极端高光去忍受扩散模型的潜在“幻想”?此外,指标多为非参考感知指标,这类指标本身具有一定的偏向性,对真实物理亮度的还原程度仍需进一步验证。
相似论文推荐
基于向量语义检索推荐的相关论文。