首页论文 RSS 订阅公告更新日志 PPT

论文

解析模型

登录后可查看剩余解析次数。

分析完成后邮件通知提交成功后加入收藏夹不公开给未提交本论文的用户（仍保存为个人默认精读）

标签筛选

视频扩散模型

Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

发表：2024/12/19

视频扩散模型机器人动作学习视频预测政策动态视觉表示复杂操作任务

本文提出视频预测策略（VPP），利用视频扩散模型（VDM）来生成同时包含当前静态和预测动态信息的视觉表示，从而改善机器人动作学习。该策略在多个数据集上经过微调后，实现了对复杂操作任务的显著提升，成功率提高31.6%。

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

发表：2025/12/17

实时交互世界建模长周期几何一致性视频扩散模型记忆增强建模动态上下文重建

本文提出了一种名为的流式视频扩散模型，旨在实现实时交互式世界建模并保持长期几何一致性。该模型通过三项创新来解决速度与内存的权衡：双重动作表示、重构上下文记忆以及上下文强制，显著提升了生成720p视频的速度和一致性。

Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation

发表：2025/6/11

自回归对抗后训练实时视频生成视频扩散模型交互式视频生成长视频生成

本文提出自回归对抗性后训练（AAPT）方法，旨在将预训练的潜空间视频扩散模型转化为高效的实时交互视频生成器。此模型每次仅需单次神经网络评估产生一帧图像，支持实时流式传输，并能够响应用户交互指令，显著提高生成效率和降低长视频生成中的误差累积。实验验证其在单个H100 GPU上可实现24fps的视频生成。

MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models

发表：2024/12/2

自定义动作转移多模态大语言模型视频扩散模型动作建模文本到视频生成

本研究提出了一种名为 MoTrans 的定制化动作迁移方法，通过基于多模态大语言模型的重描述器和外观注入模块，将特定人物动作从参考视频迁移到新视频中，从而提升复杂动作生成的效果，且实验结果显示其优于现有方法。

Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression

发表：2025/12/4

无训练视频生成视频扩展生成临时注意力机制重要性感知KV缓存剪枝视频扩散模型

本文提出了深度强制机制，解决了自回归视频扩散中的时间重复、漂移和运动减速问题。通过无训练的深度汇点和参与式压缩，模型实现超过12倍的视频外推，显著提升生成质量和一致性，为长视频生成提供了新思路。

ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis

发表：2024/9/4

视频扩散模型高保真新视角合成基于点的表示相机轨迹规划3D重建与合成

本研究提出了，一种利用视频扩散模型从单张或稀疏图像合成高保真新视图的方法，突破了传统神经三维重建对密集多视图捕获的依赖。该方法结合粗略的三维线索和精确的相机姿态控制，采用迭代视图合成策略和相机轨迹规划算法，应用于实时渲染和场景级文本到三维生成。实验表明其在合成新视图中的强泛化能力。

StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

发表：2025/11/11

视频扩散模型实时交互视频生成流媒体内容创作低延迟视频生成多GPU实时流媒体服务

本文提出了StreamDiffusionV2，一个用于动态和交互式视频生成的流式系统，旨在解决现有直播模型在时间一致性和低延迟方面的瓶颈。该系统集成了SLO感知的批处理调度器、块调度器以及其他优化，支持无训练的实时流媒体服务，显著提升用户交互体验。

SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training

发表：2025/6/6

扩散模型高效推理视频扩散模型视频恢复一阶段视频恢复模型自适应窗口注意力机制

提出SeedVR2，实现高分辨率视频修复的一步扩散模型。通过对抗性后训练和自适应窗口注意力机制，动态调整窗口规模，解决高分辨率处理中的不一致性，显著提升恢复质量并降低推理成本。验证多种损失函数以稳定训练。

InfVSR: Breaking Length Limits of Generic Video Super-Resolution

发表：2025/10/1

视频超分辨率自回归扩散模型长序列视频处理视频扩散模型时序一致性评估

InfVSR创新性将视频超分辨率任务重构为自回归单步扩散模型，通过改造预训练扩散变换器实现流式高效推理，结合滚动缓存与视觉引导保障时序一致性，并通过分块像素监督与跨块分布匹配蒸馏多步扩散过程，有效突破长视频处理的效率和伪影限制。

LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation

发表：2025/10/9

视频扩散模型线性注意力机制后训练稀疏注意力优化高效视频生成分布匹配目标函数

LinVideo提出一种无需数据的后训练框架，通过选择性转换机制自动将预训练视频扩散模型中的部分自注意力层替换为线性注意力，并用任意时刻分布匹配目标有效保持性能，实现最高15.92倍延迟降低和1.252倍加速。

1 - 10 / 10

跳转至

© 2025 AiPaper · 友情链接 · 站点地图