论文
登录后可查看剩余解析次数。
标签筛选
Motion Prompting: Controlling Video Generation with Motion Trajectories
发表:2024/12/4
视频生成中的运动轨迹控制视频生成模型条件训练运动提示扩展方法动态动作与时间组合建模视频模型的交互式应用
本文提出一种通过运动轨迹控制视频生成的方法,即运动提示,解决了现有视频生成模型过度依赖文本提示、难以捕捉动态细节的问题。研究展示如何将高层用户请求转化为运动提示,展现了其在运动控制和图像编辑中的广泛应用,结果显示出惊人的逼真效果与灵活性。
02
ShotDirector: Directorially Controllable Multi-Shot Video Generation with Cinematographic Transitions
发表:2025/12/11
多镜头视频生成镜头转换设计镜头控制模块层次化编辑模式ShotWeaver40K 数据集
本文提出了 ,一个整合了参数级相机控制和层次化编辑模式感知提示的高效框架,以改善多镜头视频生成中的镜头转场设计。该框架通过6自由度姿态与内在设置实现精准相机信息注入,并利用镜头感知掩码机制实现对编辑模式的细粒度控制,提升了叙事表达的连贯性。
03
Diffusion-EDFs: Bi-equivariant Denoising Generative Modeling on SE(3) for Visual Robotic Manipulation
发表:2023/9/6
视觉机器人操作自适应扩散生成建模SE(3)等变性人类演示学习机器人操作数据效率
本文提出了DiffusionEDFs,一种新型的SE(3)等变扩散生成建模方法,旨在提高视觉机器人操作的学习效率。该方法通过仅需5到10个示范,实现高效端到端训练,并展示了卓越的泛化能力与鲁棒性,经过真实硬件实验验证其有效性。
02
MemoryFormer : Minimize Transformer Computation by Removing Fully-Connected Layers
发表:2024/11/6
Transformer架构高效注意力机制内存查找表计算复杂度减少多头注意力操作
为了降低大型语言模型的计算复杂度,本文提出了一种新颖的Transformer架构MemoryFormer,通过移除大部分全连接层的计算,仅保留多头注意力操作所需的必要计算。利用内存查找表和哈希算法动态检索离散向量,从而显著减少了计算成本,并在多个基准测试中验证了模型的有效性。
03
UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation
发表:2025/12/9
多模态视频生成世界感知视频生成动态噪声融合统一数据集构建跨模态学习框架
本文提出UnityVideo,一个统一的多模态多任务学习框架,旨在加强世界感知视频生成。该框架通过动态加噪和模态切换器,结合多种训练范式,学习包括分割掩码、骨骼和深度图等多种模态。我们提供了130万样本的大规模统一数据集,显著提升了视频生成的质量与物理一致性。
03
GMT: General Motion Tracking for Humanoid Whole-Body Control
发表:2025/6/18
人形机器人全身控制普遍运动跟踪框架自适应采样策略动作专家混合架构多样化运动跟踪
本文提出了通用运动跟踪框架GMT,旨在让类人机器人在现实世界中追踪多样化的全身运动。其关键在于自适应采样策略和运动专家混合架构,前者在训练中平衡了简单与困难动作,后者提升了运动流形的专业化。通过广泛的实验,GMT展示了在多种运动中的先进性能。
02
Cognitive Conceptions of Learning
发表:1986/12/1
认知心理学与学习教学与学习的认知理念人类学习的累积特性先前知识的角色行为与认知学习理念的比较
本文探讨了认知心理学如何影响学习的理解,特别是学习的主动性、先验知识的作用及其累积性。通过对比行为主义与认知主义的学习观,提出了一种系统的认知学习理论,为未来的教育研究与实践提供了重要的指导。
02
Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation
发表:2025/3/29
序列推荐系统推理时间计算框架隐式多步推理用户表示增强轻量级推理学习方法
本文提出了ReaRec,一个创新的推理时计算框架,旨在提高序列推荐系统的用户表示能力。通过隐式多步推理和特殊位置嵌入,ReaRec克服了传统方法在理解用户偏好和长尾物品方面的局限。实验证明,其性能提升显著,具有广泛的应用潜力。
03
SAM 3D: 3Dfy Anything in Images
发表:2025/11/21
3D物体重建视觉引导的3D重建单图像3D重建人机协作数据标注多阶段训练框架
本文介绍了SAM 3D,一个生成模型,可从单张图像预测物体的几何形状、纹理和布局。通过人机协作的注释流水线,SAM 3D有效应对遮挡和场景杂乱,实现了前所未有的3D重建数据规模,并在真实世界的物体偏好测试中表现出色,胜率达到5:1。
07
Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
发表:2025/8/13
多模态智能体长时记忆模型多转推理记忆有效性评估视频问答基准
本文提出了M3Agent,一个具有长时记忆的新型多模态智能体框架,能够实时处理视觉和听觉输入,构建和更新情节及语义记忆。作者开发了M3Bench作为评估标准,展示M3Agent在多轮推理和记忆检索方面的优势,实验结果显示其在长视频问答基准上超越其他模型。
03
Real-Time Execution of Action Chunking Flow Policies
发表:2025/6/9
实时动作分块策略执行视觉语言动作模型高频控制任务Kinetix模拟器动作分块算法
本文提出了一种名为实时分块(RTC)的新算法,解决了现代大型视觉–语言–行动模型在物理世界实时控制中面临的推理延迟问题。该方法在执行当前动作分块时异步生成下一个分块,通过“冻结”即将执行的动作并修复剩余部分,确保跨分块的连续性。通过在Kinetix模拟器中的12个动态任务和6个真实双臂操控任务的验证,RTC显著提升了任务吞吐率及高精度任务的成功率,表现出色。
02
How Does Knowledge Selection Help Retrieval Augmented Generation?
发表:2024/10/17
增强生成中的知识选择检索增强生成系统性能分析知识回召得分与生成质量下游生成模型能力影响任务复杂度与数据集影响
本文实证分析了知识选择如何影响检索增强生成(RAG)系统的下游生成性能。研究发现,生成模型能力、任务复杂性和数据集特性显著影响知识选择的效果。对于强生成模型,知识召回率是关键;而在弱模型情况下,知识F1分数则更为重要。
02
VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation
发表:2025/11/21
视觉语言动作模型时态一致性机器人操作4D感知视觉表示多模态动作表示VLA数据集扩展
本文提出了一种名为VLA4D的新模型,通过嵌入4D感知(3D空间加1D时间)来解决视觉语言动作(VLA)模型在机器人操控任务中的时空连贯性问题。核心技术包括4D感知视觉表示,通过交叉注意机制融合视觉特征,以及结合时间信息扩展动作表示,以实现平滑且一致的机器动作。
04
Equivariant Diffusion Policy
发表:2024/9/5
等变扩散策略扩散模型在行为克隆中的应用6自由度控制的对称性分析高效样本学习方法模拟任务评估
该论文提出了一种新的等变扩散策略,旨在提升行为克隆中使用的扩散模型的样本效率和泛化能力。通过分析六自由度控制中的SO(2)对称性,研究显示,该方法在12个模拟任务中成功率提高了21.9%。此外,实验证明其在真实系统中同样表现优异,能以较少训练样本学习有效策略。
02
From Slow Bidirectional to Fast Autoregressive Video Diffusion Models
发表:2024/12/11
自回归视频扩散模型扩散模型蒸馏视频生成加速动态视频生成长时序视频合成
论文提出一种新型自回归视频扩散模型,利用分布匹配蒸馏技术将高质量、缓慢生成的双向模型转化为快速生成的自回归模型。通过教师模型轨迹初始化和非对称蒸馏策略,该模型在VBenchLong基准测试中总得分达到84.27,显著提高了视频生成速度及质量。
02
See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations
发表:2025/12/8
视觉语言动作模型机器人操作政策学习单次演示学习人类视频行为学习专家示范视频生成
本文提出ViVLA,一种通用的机器人操控策略学习框架,只需依赖一次专家视频演示即可高效学习新任务。通过联合处理视频和机器视觉,模型提炼专家细腻操控知识,克服动作识别和模型推理的难点。实验结果显示,ViVLA在未见任务中性能显著提升。
02
LongLive: Real-time Interactive Long Video Generation
发表:2025/9/27
长视频生成自回归长视频生成框架实时交互生成动态内容创作长视频训练与推理
本文提出了LongLive,一个用于实时和交互式长视频生成的帧级自回归框架。它通过因果注意力和KVrecache机制解决了长视频生成中的效率和质量挑战,同时增强了用户交互能力,确保生成过程中的视觉一致性和语义连贯性。
01
Self-Consistency Improves Chain of Thought Reasoning in Language Models
发表:2022/3/22
链式思维推理自一致性解码策略大语言模型推理能力增强复杂推理任务数学推理基准测试
本文提出了一种新的解码策略——自一致性,以改善大语言模型的链式思维推理能力。该方法通过采样多样化的推理路径,选取最一致的答案,显著提升了模型在数学和常识推理任务上的表现,如GSM8K提高17.9%。
02
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
发表:2025/4/19
强化学习验证奖励大语言模型推理能力增强数学推理基准测试编程任务推理能力RL算法对比分析
本研究探讨了强化学习与可验证奖励(RLVR)在提升大型语言模型(LLMs)推理能力中的有效性。尽管RLVR在数学和编程任务中展现了良好表现,研究发现当前的训练设置未能激发新的推理模式,基础模型在更大k值下表现更佳,强调了改进RL方法的必要性。
01
Consistency Models
发表:2023/3/3
一致性模型扩散模型图像生成CIFAR-10数据集图像修复与上色
本文提出一致性模型,以解决扩散模型生成慢的问题。这类模型通过将噪声直接映射到数据,支持极速的一步生成,并允许多步采样以平衡计算和样本质量。此外,一致性模型具备零样本数据编辑能力,无需针对特定任务训练,实验表明其在CIFAR10等数据集上的性能优于现有技术。
02
……