论文

登录后可查看剩余解析次数。
标签筛选
Riemannian Flow Matching Policy for Robot Motion Learning
发表:2024/3/16
流匹配策略机器人动作学习视觉运动策略黎曼流匹配政策几何意识机器人控制
本文提出了一种名为黎曼流匹配策略(RFMP)的新型模型,用于学习机器人视觉运动策略,兼具高效的训练与推理能力。RFMP能够处理高维、多模态分布,且因其内在的几何感知特性,能在真实机器人任务中有效应用。实验结果表明,RFMP在推理时间上显著优于现有方法,并能够生成更平滑的动作轨迹。
01
Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation
发表:2025/6/11
自回归对抗后训练实时视频生成视频扩散模型交互式视频生成长视频生成
本文提出自回归对抗性后训练(AAPT)方法,旨在将预训练的潜空间视频扩散模型转化为高效的实时交互视频生成器。此模型每次仅需单次神经网络评估产生一帧图像,支持实时流式传输,并能够响应用户交互指令,显著提高生成效率和降低长视频生成中的误差累积。实验验证其在单个H100 GPU上可实现24fps的视频生成。
03
Fast and Robust Visuomotor Riemannian Flow Matching Policy
发表:2024/12/14
Riemannian 流匹配策略视觉运动策略稳定 Riemannian 流匹配策略机器人任务学习几何约束
本文提出了一种新的视觉运动黎曼流匹配策略(RFMP),兼具快速推理和简单训练优点,适用于复杂机器人任务。通过引入几何约束,该策略增强了鲁棒性,并在真实及模拟任务中表现优于传统的扩散政策,实现高效的训练和推理。
02
GentleHumanoid: Learning Upper-body Compliance for Contact-rich Human and Object Interaction
发表:2025/11/7
人形机器人上肢柔顺性学习基于弹簧的阻抗控制接触丰富的人机交互安全的物体操作全身运动跟踪策略
本文提出了GentleHumanoid框架,旨在实现人形机器人在接触密集环境中的上半身柔顺性。该方法将阻抗控制融入全身运动跟踪策略,构建弹簧模型以适应各种人机交互场景,显著降低接触力并保证任务成功,提升了自然和安全的交互体验。
03
Learning Human-Humanoid Coordination for Collaborative Object Carrying
发表:2025/10/16
人类-人形机器人协作自我感知强化学习协作搬运任务动态对象交互闭环环境训练
本文提出了一种名为COLA的纯本体感知强化学习方法,旨在实现人类与类人机器人的有效协作,特别是在复杂的协作搬运任务中。通过动态对象交互的闭环训练环境,该方法可以隐式预测物体运动和人类意图,实现负载平衡。实验显示,在保持物体稳定的同时,COLA将人类的工作量减少了24.7%,并在多种物体和地形下验证了其鲁棒性和有效性。
02
Humanoid Whole-Body Badminton via Multi-Stage Reinforcement Learning
发表:2025/11/14
人形机器人全身控制基于强化学习的训练管道动态环境下的动作生成羽毛球动作控制多阶段强化学习
该论文提出了一种基于强化学习的训练流程,用于开发人形机器人羽毛球运动的统一全身控制器,实现下肢步法与上肢击打的协调,无需运动先验或专家演示。训练分为三阶段,经过验证显示在模拟和现实环境中都具备高动态、精准的击打能力。
02
IFEval-Audio: Benchmarking Instruction-Following Capability in Audio-based Large Language Models
发表:2025/5/22
音频大语言模型的指令跟随能力IFEval-Audio评估数据集多模态模型评估音频指令生成音频与文本指令配对
本研究引入了IFEvalAudio,一个全新的评估数据集,旨在测试音频基础的大型语言模型在指令遵循能力上的表现。该数据集包含280个音频指令回答三元组,涵盖内容、大小写等六个维度,各示例要求模型基于音频和文本指令生成符合结构的输出。研究还对最新的音频LLM进行了基准测试,填补了该领域的研究空白。
01
AHELM: A Holistic Evaluation of Audio-Language Models
发表:2025/8/29
音频语言模型评估AHELM 基准PARADE 数据集多模态模型性能测评语音识别与语言模型结合
本文提出AHELM基准,旨在综合评估音频语言模型(ALMs)的性能。AHELM整合多个数据集,并引入两个新数据集PARADE和CoReBench,涵盖音频感知、知识、推理等10个重要方面,并标准化评估方法,确保模型间的公平比较。
01
AudioBench: A Universal Benchmark for Audio Large Language Models
发表:2025/4/1
音频大语言模型基准测试音频理解任务评估语音理解与场景识别语音理解与声音理解数据集音频大语言模型评估工具
本文提出了音频大型语言模型的通用基准——AudioBench,涵盖8个任务和26个数据集(包括7个新数据集),评估焦点为语音理解、音频场景理解和声学特征理解。针对现有评估的不足,AudioBench提供了数据集和指标,帮助填补音频信号下模型在指令执行能力的评估空白,同时评测了五种模型表现,发现没有单一模型在所有任务上均优。
01
Prototype memory and attention mechanisms for few shot image generation
发表:2021/10/6
少样本图像生成原型记忆机制记忆概念注意力神经网络视觉处理在线聚类学习
本文探讨了猕猴初级视皮层的“祖母细胞”在图像生成中的作用,提出其作为原型记忆先验的概念。这些原型通过动量在线聚类学习,并通过名为记忆概念注意力(MoCA)的机制来利用,从而在少样本图像生成任务中显著提高合成质量、可解释性和模型鲁棒性。
02
LLaMA-Omni: Seamless Speech Interaction with Large Language Models
发表:2024/9/11
基于大语言模型的语音交互LLaMA-Omni 语音模型架构低延迟语音生成InstructS2S-200K 数据集实时语音响应
LLaMAOmni是一种新型语音交互模型,通过结合预训练的语音编码器、适配器和流式解码器,实现低延迟高质量语音与大型语言模型的交互。基于InstructS2S200K数据集,该模型无需语音转录,能在226ms内生成文本与语音响应,显著提升用户体验。
01
Deanonymizing Ethereum Validators: The P2P Network Has a Privacy Issue
发表:2024/9/6
以太坊验证者去匿名化区块链 P2P 网络隐私问题验证者地理分布分析去匿名化方法与实验以太坊网络安全隐患
本研究揭示以太坊 P2P 网络对验证者隐私的重大漏洞,证明其无法保护验证者匿名性。提出的方法使任意节点能够识别与其连接的对等点上的验证者。通过对四个节点三天内的数据分析,成功定位超过15%的以太坊验证者,并提供了关于其分布、地理位置和托管组织的洞见。讨论了这一隐私缺失所带来的安全风险,并提出保护验证者隐私的建议。
02
Active Visual Perception: Opportunities and Challenges
发表:2025/12/3
主动视觉感知复杂环境视觉感知机器人主动感知动态决策与多模态输入实时视觉数据处理
主动视觉感知是一种动态与环境交互的能力,通过感知与行动调整行为,以获取信息。本文全面回顾了该领域的机遇与挑战,强调其在机器人、自驾、监控等应用中的重要性,并指出实时数据处理和多模态整合等面临的挑战。
01
Personalized Generation In Large Model Era: A Survey
发表:2025/3/4
个性化内容生成研究大型模型时代的个性化生成个性化生成系统评估指标多模态个性化生成技术个性化生成数据集
这篇综述首次全面调查了个性化生成(PGen)在大型模型时代的发展,概念化了PGen的关键组成、核心目标和工作流程。提出的多层次分类法深入评审了技术进展、数据集和评估指标,并展望了PGen的应用及未来挑战,促进跨学科合作。
03
Large Language Models for Power System Applications: A Comprehensive Literature Survey
发表:2025/12/15
大语言模型在电力系统中的应用电力系统故障诊断负荷预测电力系统优化与控制电力系统仿真与规划
本综述系统分析了2020至2025年间大语言模型(LLMs)在电力系统中的应用,包括故障诊断、负荷预测等多个关键领域。尽管LLMs在提升电力系统运营方面展现出潜力,但也面临数据不足和安全性等多重挑战。文章指出未来研究应聚焦于特定架构的开发和传统方法的结合。
06
Utilizing LLMs for Industrial Process Automation: A Case Study on Modifying RAPID Programs
发表:2025/11/14
大语言模型在工业过程自动化中的应用RAPID程序修改少量示例提示方法领域特定编程语言敏感数据保护
本文探讨了如何利用现有的大语言模型(LLMs)支持工业过程自动化,尤其是专有的RAPID编程语言。研究发现,通过少样本提示(fewshot prompting),企业在无需大量模型训练的情况下,能有效解决简单问题,且可确保敏感数据的安全。
02
Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought
发表:2025/5/21
多模态链式思维大视觉语言模型视觉思维表达形式图像-文本交互生成多模态任务性能提升
本文探讨了多模态思维链(MCoT)在大型视觉语言模型(LVLMs)中的机制,发现视觉思想在各MCoT格式中增强了性能和可解释性。定义了四种视觉思想表达形式,分析显示不同形式的清晰度与简洁性导致MCoT性能的显著差异。这为MCoT未来研究提供了新思路。
01
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models
发表:2024/12/2
自定义动作转移多模态大语言模型视频扩散模型动作建模文本到视频生成
本研究提出了一种名为 MoTrans 的定制化动作迁移方法,通过基于多模态大语言模型的重描述器和外观注入模块,将特定人物动作从参考视频迁移到新视频中,从而提升复杂动作生成的效果,且实验结果显示其优于现有方法。
04
Motion Prompting: Controlling Video Generation with Motion Trajectories
发表:2024/12/4
视频生成中的运动轨迹控制视频生成模型条件训练运动提示扩展方法动态动作与时间组合建模视频模型的交互式应用
本文提出一种通过运动轨迹控制视频生成的方法,即运动提示,解决了现有视频生成模型过度依赖文本提示、难以捕捉动态细节的问题。研究展示如何将高层用户请求转化为运动提示,展现了其在运动控制和图像编辑中的广泛应用,结果显示出惊人的逼真效果与灵活性。
02
ShotDirector: Directorially Controllable Multi-Shot Video Generation with Cinematographic Transitions
发表:2025/12/11
多镜头视频生成镜头转换设计镜头控制模块层次化编辑模式ShotWeaver40K 数据集
本文提出了 ,一个整合了参数级相机控制和层次化编辑模式感知提示的高效框架,以改善多镜头视频生成中的镜头转场设计。该框架通过6自由度姿态与内在设置实现精准相机信息注入,并利用镜头感知掩码机制实现对编辑模式的细粒度控制,提升了叙事表达的连贯性。
03