论文
登录后可查看剩余解析次数。
标签筛选
多模态视频生成
UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation
发表:2025/12/9
多模态视频生成世界感知视频生成动态噪声融合统一数据集构建跨模态学习框架
本文提出UnityVideo,一个统一的多模态多任务学习框架,旨在加强世界感知视频生成。该框架通过动态加噪和模态切换器,结合多种训练范式,学习包括分割掩码、骨骼和深度图等多种模态。我们提供了130万样本的大规模统一数据集,显著提升了视频生成的质量与物理一致性。
03
UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution
发表:2025/10/9
级联视频超分辨率多模态视频生成潜在视频扩散模型条件注入策略多模态条件利用
本论文提出了UniMMVSR,一个统一的多模态视频超分辨率框架,可处理文本、图像和视频等多种输入条件。研究团队探索了条件注入策略和数据混合技术,实验结果显示该框架在视频细节和多模态条件一致性上显著优于现有方法,支持4K视频生成。
01