论文

登录后可查看剩余解析次数。
标签筛选
视觉 transformer
Vision Bridge Transformer at Scale
发表:2001/11/28
视觉 transformer图像与视频编辑任务大规模数据处理桥接模型输入到输出轨迹建模
本研究提出了视觉桥接Transformer(ViBT),这是布朗桥模型的大规模实现,专为条件生成任务设计。与传统扩散模型不同,ViBT通过直接建模输入与输出之间的轨迹,实现高效的数据转换,展现出在图像和视频转换任务中的卓越能力,支持参数规模高达20亿和13亿,以及方差稳定速度匹配目标,确保鲁棒训练。
02
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
发表:2024/8/12
文本到视频生成扩散模型视觉 transformer3D变分自编码器视频生成质量提升
CogVideoX 是一种大规模文本到视频生成模型,采用扩散 Transformer 架构,能够生成10秒、16帧每秒、分辨率高达768×1360的视频。为解决现有模型在连贯性和语义对齐方面的不足,论文提出了3D变分自编码器、专家 Transformer 和渐进式训练等方法,实现了显著的生成质量提升,并且开源了模型权重。
03
Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers
发表:2024/6/25
扩散模型量化后训练量化视觉 transformer动态激活量化ImageNet 数据集
本文提出了一种新方法QDiT,用于精确量化Diffusion Transformers(DiTs),针对其在权重和激活中的空间及时间方差问题。通过自动量化粒度分配和样本级动态激活量化,QDiT显著降低模型计算成本,同时在ImageNet上实现了高保真度的图像和视频生成,建立了新基准。
03