论文
登录后可查看剩余解析次数。
标签筛选
Diffusion模型
ADriver-I: A General World Model for Autonomous Driving
发表:2023/11/23
自动驾驶世界模型多模态大语言模型视觉语言动作模型Diffusion模型nuScenes数据集
提出ADriverI,一种基于多模态大语言模型与扩散技术的自动驾驶通用世界模型,通过交错视觉动作对统一视觉特征与控制信号格式,自回归预测控制动作并生成未来场景,实现迭代驱动,显著提升自动驾驶性能。
02
A Survey on Generative Recommendation: Data, Model, and Tasks
发表:2025/10/31
生成式推荐系统大语言模型微调Diffusion模型多模态大语言模型基于大语言模型的推荐系统
本文综述生成式推荐的新范式,基于数据增强与统一、模型对齐训练及任务设计三个维度系统分析。重点探讨大型语言模型和扩散模型的创新应用,揭示生成推荐在知识整合、自然语言理解与个性化生成上的优势。
06
dKV-Cache: The Cache for Diffusion Language Models
发表:2025/5/22
Diffusion模型扩散语言模型KV-Cache机制推理加速非自回归架构优化
提出延迟键值缓存(dKVCache)机制,针对扩散语言模型推理慢的问题,通过有条件的逐步缓存键值状态,实现210倍加速。两种变体兼顾性能和速度,验证了DLMs推理中上下文利用不足,显著缩小了与自回归模型的效率差距。
011
Effective Diffusion Transformer Architecture for Image Super-Resolution
发表:2024/9/29
Diffusion模型图像超分辨率Diffusion Transformer多尺度层次特征提取频率自适应时步条件模块
提出DiTSR扩散Transformer架构,采用U型多尺度层次特征提取和统一各向同性设计,提升计算资源利用效率。引入频率自适应时间步条件模块,强化不同时间步频率信息处理能力。在无预训练下达到并超越先验方法的超分辨率效果。
05
DiT4SR: Taming Diffusion Transformer for Real-World Image
Super-Resolution
发表:2025/3/31
Diffusion模型扩散 transformer真实世界图像超分辨率低分辨率图像嵌入交互跨流卷积层设计
本文提出DiT4SR,通过将低分辨率图像嵌入集成到扩散变换器的注意力机制,实现生成潜在特征与低分辨率特征的双向交互。结合跨流卷积层补充局部信息捕获,显著提升真实世界图像超分辨率性能,验证了扩散变换器在该任务中的有效性。
09