论文
登录后可查看剩余解析次数。
标签筛选
多任务强化学习
Mastering Diverse Domains through World Models
发表:2023/1/11
DreamerV3算法多任务强化学习自我想象行为优化稳定学习技术开放世界控制问题
本研究提出了DreamerV3,一种通用算法,能够在150多个任务中仅用单一配置超越专用方法。通过学习环境模型并想象未来场景,Dreamer实现了在Minecraft中首次不借助人类数据从零开始收集钻石,展示了在多样化领域中稳定学习的能力。
03
$π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
发表:2025/10/30
流式视觉语言动作模型在线强化学习微调LIBERO基准测试多任务强化学习环境交互中的去噪建模
本文提出了框架,利用在线强化学习技术对基于流的视觉语言动作(VLA)模型进行微调,解决了大规模应用中行动日志似然性的挑战。该方法在LIBERO和ManiSkill基准测试中表现优异,显著提高模型性能,证明了其有效性和实用性。
04