标签筛选：Diffusion Transformer - 论文列表

SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

发表：2025/1/3

Diffusion Transformer视频修复长序列视频建模时空窗口注意力机制因果视频自编码器

SeedVR通过引入扩散转换器及移位窗口注意力机制，实现对任意长度与分辨率视频的高效恢复。其支持空间和时间维度的变大小窗口，突破传统注意力限制，结合因果自编码器和混合训练策略，在合成与真实视频恢复任务中表现优异。

06

Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention

发表：2025/5/23

Spatial Sparse AttentionDiffusion Transformer稀疏体积表示3D生成框架变分自编码器 (VAE)

本文提出的Direct3DS2框架利用空间稀疏注意力机制显著提升了基于稀疏体素的Diffusion Transformer计算效率，实现了高质量千兆级3D形状生成。统一的稀疏体素变分自编码器设计提升了训练效率和稳定性，显著降低了计算资源需求，促进大规模3D生成实用化。

07

DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

发表：2024/10/24

现实场景图像修复Diffusion Transformer隐私安全数据集构建文本到图像扩散模型多模态大语言模型辅助修复

本文提出GenIR数据策划流程，通过双提示词学习生成百万级隐私安全图像数据集，解决现有数据集容量和版权问题。同时引入基于扩散Transformer的DreamClear模型，结合生成先验与多模态大语言模型，实现对多样真实降解的高效自适应图像修复，显著提升恢复效果。

07

Effective Diffusion Transformer Architecture for Image Super-Resolution

发表：2024/9/29

Diffusion模型图像超分辨率Diffusion Transformer多尺度层次特征提取频率自适应时步条件模块

提出DiTSR扩散Transformer架构，采用U型多尺度层次特征提取和统一各向同性设计，提升计算资源利用效率。引入频率自适应时间步条件模块，强化不同时间步频率信息处理能力。在无预训练下达到并超越先验方法的超分辨率效果。

06