论文
登录后可查看剩余解析次数。
标签筛选
大规模机器人演示数据集
OpenVLA: An Open-Source Vision-Language-Action Model
发表:2024/6/13
开放源代码视觉-语言-动作模型机器人多任务操控大规模机器人演示数据集模型微调与适应视觉-语言动作模型
OpenVLA是一个开源的视觉语言行为(VLA)模型,具有70亿参数,基于Llama 2语言模型并融合了先进的视觉编码器。它在97万个实际机器人演示数据上训练,能有效微调以适应多任务,显示出在29项任务中的绝对成功率比RT2X提高了16.5%。
03
Octo: An Open-Source Generalist Robot Policy
发表:2024/5/21
通用机器人策略多模态动作表示与建模Transformer架构大规模机器人演示数据集机器人动作学习
Octo是首个基于Transformer、在80万条多机器人操作轨迹上预训练的开源通用机器人策略,支持语言指令和目标图像导向。它能快速适配多种传感器和动作空间,实现高效微调,实验证明其在9个平台泛化优越,为通用机器人智能奠定基础。
05
UMI-on-Air: Embodiment-Aware Guidance for Embodiment-Agnostic Visuomotor
Policies
基于大语言模型的动作规划机器人多模态学习多模态动作表示与建模大规模机器人演示数据集通用机器人策略
提出UMIonAir框架,结合通用操作接口UMI采集的人类示范训练与具体形态无关的视觉运动策略。通过形态感知扩散策略(EADP)在推理阶段融合形态特定控制器,有效引导轨迹生成,提高受限机器人形态(如空中机械手)操作的成功率、效率和鲁棒性,实现跨形态即插即用部署。
06