标签筛选：Diffusion模型 - 论文列表

ADriver-I: A General World Model for Autonomous Driving

发表：2023/11/23

自动驾驶世界模型多模态大语言模型视觉语言动作模型Diffusion模型nuScenes数据集

提出ADriverI，一种基于多模态大语言模型与扩散技术的自动驾驶通用世界模型，通过交错视觉动作对统一视觉特征与控制信号格式，自回归预测控制动作并生成未来场景，实现迭代驱动，显著提升自动驾驶性能。

04

A Survey on Generative Recommendation: Data, Model, and Tasks

发表：2025/10/31

生成式推荐系统大语言模型微调Diffusion模型多模态大语言模型基于大语言模型的推荐系统

本文综述生成式推荐的新范式，基于数据增强与统一、模型对齐训练及任务设计三个维度系统分析。重点探讨大型语言模型和扩散模型的创新应用，揭示生成推荐在知识整合、自然语言理解与个性化生成上的优势。

011

dKV-Cache: The Cache for Diffusion Language Models

发表：2025/5/22

Diffusion模型扩散语言模型KV-Cache机制推理加速非自回归架构优化

提出延迟键值缓存（dKVCache）机制，针对扩散语言模型推理慢的问题，通过有条件的逐步缓存键值状态，实现210倍加速。两种变体兼顾性能和速度，验证了DLMs推理中上下文利用不足，显著缩小了与自回归模型的效率差距。

011

Effective Diffusion Transformer Architecture for Image Super-Resolution

发表：2024/9/29

Diffusion模型图像超分辨率Diffusion Transformer多尺度层次特征提取频率自适应时步条件模块

提出DiTSR扩散Transformer架构，采用U型多尺度层次特征提取和统一各向同性设计，提升计算资源利用效率。引入频率自适应时间步条件模块，强化不同时间步频率信息处理能力。在无预训练下达到并超越先验方法的超分辨率效果。

06

DiT4SR: Taming Diffusion Transformer for Real-World Image Super-Resolution

发表：2025/3/31

Diffusion模型扩散 transformer真实世界图像超分辨率低分辨率图像嵌入交互跨流卷积层设计

本文提出DiT4SR，通过将低分辨率图像嵌入集成到扩散变换器的注意力机制，实现生成潜在特征与低分辨率特征的双向交互。结合跨流卷积层补充局部信息捕获，显著提升真实世界图像超分辨率性能，验证了扩散变换器在该任务中的有效性。

09