论文

登录后可查看剩余解析次数。
标签筛选
扩散模型高效推理
Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length
发表:2025/12/4
实时音频驱动头像生成扩散模型高效推理低延迟流媒体生成时间一致性增强机制大规模参数扩散模型
本文提出了‘Live Avatar’,一个创新的算法系统协同设计框架,实现高效、高保真且无限长度的音频驱动虚拟人生成。采用14亿参数的扩散模型,通过时间强制流水线并行实现低延迟流式生成,并引入滚动式汇聚帧机制改善时间一致性,从而解决了身份漂移与颜色伪影问题。
07
SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training
发表:2025/6/6
扩散模型高效推理视频扩散模型视频恢复一阶段视频恢复模型自适应窗口注意力机制
提出SeedVR2,实现高分辨率视频修复的一步扩散模型。通过对抗性后训练和自适应窗口注意力机制,动态调整窗口规模,解决高分辨率处理中的不一致性,显著提升恢复质量并降低推理成本。验证多种损失函数以稳定训练。
03
FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution
发表:2025/10/15
扩散模型高效推理视频超分辨率稀疏注意力机制一阶段扩散模型蒸馏大规模视频超分辨率数据集
提出FlashVSR,一种基于扩散模型的实时流式视频超分辨率框架,通过三阶段蒸馏、局部稀疏注意力及轻量条件解码器实现高效超分辨率,在单A100 GPU上以约17FPS处理768×1408分辨率视频,同时构建大规模VSR120K数据集,显著提升速度与超高分辨率泛化能力。
04
dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching
发表:2025/5/17
Diffusion模型微调扩散模型高效推理大语言模型推理能力增强无训练加速方法自回归扩散模型
本文针对扩散大语言模型(dLLMs)推理延迟高问题,提出未经训练的自适应缓存框架dLLMCache。其结合长间隔提示缓存与基于特征相似性的部分响应更新,实现了对中间计算的高效重用,在LLaDA 8B和Dream 7B上最高加速9.1倍,同时保证输出质量。
05
Mean Flows for One-step Generative Modeling
发表:2025/5/20
单步生成模型平均速度场建模Flow Matching 方法扩散模型高效推理ImageNet 256×256 生成
本文提出MeanFlow模型,引入平均速度概念替代瞬时速度,推导恒等式指导神经网络训练,简化了生成过程。该模型无需预训练或蒸馏,单次函数评估在ImageNet 256x256上实现3.43 FID,显著优于现有一步生成模型,缩小一步与多步模型性能差距。
014