论文
登录后可查看剩余解析次数。
标签筛选
梯度冲突缓解
MoE-Loco: Mixture of Experts for Multitask Locomotion
发表:2025/3/11
多任务步态学习专家混合框架四足与双足机器人行走梯度冲突缓解机器人任务迁移与技能组合
本文提出了MoELoco,一个用于腿足机器人多任务运动控制的专家混合框架。该方法使单一策略能够应对多种复杂地形,且有效缓解了多任务强化学习中的梯度冲突问题,提升了训练效率和性能。同时,通过实验验证了不同专家在运动行为上的自然专长,从而在任务迁移和技能组合中具有潜在应用。
03
Bi-Level Optimization for Generative Recommendation: Bridging
Tokenization and Generation
发表:2025/10/24
生成式推荐系统双层优化框架Tokenizer与推荐模型联合优化元学习方法梯度冲突缓解
本文提出BLOGER双层优化框架,统一建模词元化器与推荐器相互依赖。通过元学习求解双层优化问题,并引入梯度手术缓解梯度冲突,实现信息丰富且与推荐目标对齐的物品标识符,显著提升生成式推荐性能。
08