论文
登录后可查看剩余解析次数。
标签筛选
机器人多模态学习
$π_0$: A Vision-Language-Action Flow Model for General Robot Control
发表:2024/11/1
视觉语言动作模型通用机器人策略机器人多模态学习基于大语言模型的动作规划
本文提出了通用机器人控制模型,结合预训练视觉语言模型与流匹配生成技术,实现单一模型多平台、多任务高精度动作生成。该模型支持零样本执行语言指令和多机器人灵巧操作,显著提升泛化能力和灵活性。
02
ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic
Manipulation
发表:2024/3/13
3D Gaussian Splatting 表示机器人多模态学习多任务机器人操作未来场景重建动态语义传播
本文提出ManiGaussian动态高斯散点框架,通过高斯嵌入空间中的语义传播和未来场景重建,捕获场景时空动态,实现多任务机器人操作。该方法构建高斯世界模型提供丰富监督,在RLBench多任务评测中较现有方法成功率提升13.1%。
04
UMI-on-Air: Embodiment-Aware Guidance for Embodiment-Agnostic Visuomotor
Policies
基于大语言模型的动作规划机器人多模态学习多模态动作表示与建模大规模机器人演示数据集通用机器人策略
提出UMIonAir框架,结合通用操作接口UMI采集的人类示范训练与具体形态无关的视觉运动策略。通过形态感知扩散策略(EADP)在推理阶段融合形态特定控制器,有效引导轨迹生成,提高受限机器人形态(如空中机械手)操作的成功率、效率和鲁棒性,实现跨形态即插即用部署。
03
ActiveUMI: Robotic Manipulation with Active Perception from Robot-Free
Human Demonstrations
发表:2025/10/2
机器人多模态学习双手动态操作演示基于大语言模型的动作规划主动感知机器人操作虚拟现实遥操作数据采集
本文提出ActiveUMI框架,结合便携式VR遥操作套件与传感器控制器,实现机器人与人类末端执行器的精确对齐,支持复杂双臂操作。系统利用头戴显示器捕获主动自我中心感知,学习视觉注意力与操控关联,在六项任务中展示了70%成功率及良好泛化能力。
05