论文
登录后可查看剩余解析次数。
标签筛选
模型驱动强化学习
Planning with Diffusion for Flexible Behavior Synthesis
发表:2022/5/20
扩散模型规划模型驱动强化学习轨迹优化长时决策制定行为合成
本文提出了一种新的模型基强化学习方法,结合扩散概率模型与轨迹优化,旨在提高模型与决策过程的一致性。通过迭代去噪轨迹进行规划,展示了分类器引导采样和图像修复如何作为一致的规划策略,使框架在长期决策和灵活性方面表现出色。
02
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics
发表:2025/1/17
机器人世界模型自回归机制长时序预测模型驱动强化学习自监督训练
本文提出了一种新颖的机器人世界模型框架,结合双重自回归机制与自监督训练,能够在不依赖领域特定偏置的情况下实现长时序的可靠预测。这一方法促进了策略优化,支持在想象环境中有效训练,并确保在现实世界系统中的无缝部署,从而解决了机器人控制中的鲁棒性与适应性问题。
02