论文
登录后可查看剩余解析次数。
标签筛选
扩散 transformer
Mitty: Diffusion-based Human-to-Robot Video Generation
发表:2025/12/19
人类到机器人视频生成扩散 transformer无标签学习视频生成预训练模型人机协作视频合成
论文提出了Mitty,一个基于扩散Transformer的人类到机器人视频生成框架,通过从人类演示视频中直接学习,实现端到端生成,克服了依赖中间表示法带来的信息损失和误差累积问题。Mitty利用预训练扩散模型的视觉时间先验,无需动作标签,生成高质量的人机配对数据,表现出优越的泛化能力。
011
DiT4SR: Taming Diffusion Transformer for Real-World Image
Super-Resolution
发表:2025/3/31
Diffusion模型扩散 transformer真实世界图像超分辨率低分辨率图像嵌入交互跨流卷积层设计
本文提出DiT4SR,通过将低分辨率图像嵌入集成到扩散变换器的注意力机制,实现生成潜在特征与低分辨率特征的双向交互。结合跨流卷积层补充局部信息捕获,显著提升真实世界图像超分辨率性能,验证了扩散变换器在该任务中的有效性。
09