论文
登录后可查看剩余解析次数。
标签筛选
视频生成预训练模型
Mitty: Diffusion-based Human-to-Robot Video Generation
发表:2025/12/19
人类到机器人视频生成扩散 transformer无标签学习视频生成预训练模型人机协作视频合成
论文提出了Mitty,一个基于扩散Transformer的人类到机器人视频生成框架,通过从人类演示视频中直接学习,实现端到端生成,克服了依赖中间表示法带来的信息损失和误差累积问题。Mitty利用预训练扩散模型的视觉时间先验,无需动作标签,生成高质量的人机配对数据,表现出优越的泛化能力。
012
Señorita-2M: A High-Quality Instruction-based Dataset for General
Video Editing by Video Specialists
发表:2025/2/11
视频编辑指令数据集高质量视频编辑数据对端到端视频编辑方法视频生成预训练模型视频编辑模型筛选管道
提出Señorita2M数据集,包含约200万高质量视频编辑对,由四个专业编辑模型构建,并设计过滤流水线提升数据质量,显著推动端到端视频编辑方法的发展,实现更快推理与优异编辑效果。
06