AiPaper

论文

登录后可查看剩余解析次数。
标签筛选
基于大语言模型的动作规划
Smoothing Grounding and Reasoning for MLLM-Powered GUI Agents with Query-Oriented Pivot Tasks
发表:2025/3/1
多模态大语言模型基于大语言模型的动作规划图形用户界面(GUI)代理查询导向推理坐标定位与推理对齐
本文提出查询推理作为坐标导向定位与动作导向推理之间的桥梁,显著提升了资源受限条件下MLLM驱动GUI智能体的性能。该方法用极少训练数据实现了超越大型定位模型的效果,且融合额外语义信息可进一步增强推理能力。
01
TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning
发表:2024/12/12
机器人动作学习模仿学习移动机械臂设计全向运动底盘基于大语言模型的动作规划
本文提出开源且廉价的全向移动机械臂TidyBot,采用动力万向轮实现底盘的三自由度独立运动,大幅提升机动性,简化移动操作任务。结合手机遥操作界面,支持高效人类示范数据采集,成功训练家庭场景下的移动操作策略。
03
Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning
发表:2025/5/18
视觉语言动作模型机器人动作学习基于大语言模型的动作规划强化学习训练仿真人体控制
本文提出感知灵巧控制(PDC)框架,实现仅凭自我中心视觉训练模拟人形机器人,完成物体搜索、抓取、放置及操作等多任务,无需特权信息。通过强化学习,智能体展现出主动搜索等人类行为,推动视觉驱动的灵巧控制与复杂任务融合。
08
Robot Learning: A Tutorial
发表:2025/10/14
机器人动作学习通用机器人策略强化学习训练模仿学习基于大语言模型的动作规划
本教程系统介绍机器人学习的核心方法,涵盖强化学习、行为克隆及通用语言条件机器人策略,突破传统基于模型方法的局限。通过数据驱动视角和lerobot示例,支持多任务、多机器人本体的泛化能力提升,推动机器人自主性和适应性发展。
02
Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents
发表:2023/11/1
大语言模型微调大语言模型强化学习训练基于大语言模型的动作规划对话策略规划自回归强化学习自演练
提出PPDPP,一种可插拔对话策略规划器,通过监督微调与基于自玩模拟的强化学习提升大型语言模型在主动对话中的策略制定能力。该方法不仅增强了策略泛化和适应性,还在多场景主动对话任务中显著优于现有方案。
04
Training LLM Agents to Empower Humans
发表:2025/10/8
大语言模型微调基于大语言模型的动作规划无训练加速方法强化学习保持先验能力机制
本文提出一种基于最大化人类赋能的LLM微调方法,仅依赖离线文本数据,无需额外人类反馈,实现智能体更有效辅助人类。用户研究及编码环境评测显示,该方法显著提升用户接受度和编码任务成功率,缓解智能体过度独立完成任务的问题。
012
$π_0$: A Vision-Language-Action Flow Model for General Robot Control
发表:2024/11/1
视觉语言动作模型通用机器人策略机器人多模态学习基于大语言模型的动作规划
本文提出了通用机器人控制模型π0π0,结合预训练视觉语言模型与流匹配生成技术,实现单一模型多平台、多任务高精度动作生成。该模型支持零样本执行语言指令和多机器人灵巧操作,显著提升泛化能力和灵活性。
02
UMI-on-Air: Embodiment-Aware Guidance for Embodiment-Agnostic Visuomotor Policies
基于大语言模型的动作规划机器人多模态学习多模态动作表示与建模大规模机器人演示数据集通用机器人策略
提出UMIonAir框架,结合通用操作接口UMI采集的人类示范训练与具体形态无关的视觉运动策略。通过形态感知扩散策略(EADP)在推理阶段融合形态特定控制器,有效引导轨迹生成,提高受限机器人形态(如空中机械手)操作的成功率、效率和鲁棒性,实现跨形态即插即用部署。
03
ActiveUMI: Robotic Manipulation with Active Perception from Robot-Free Human Demonstrations
发表:2025/10/2
机器人多模态学习双手动态操作演示基于大语言模型的动作规划主动感知机器人操作虚拟现实遥操作数据采集
本文提出ActiveUMI框架,结合便携式VR遥操作套件与传感器控制器,实现机器人与人类末端执行器的精确对齐,支持复杂双臂操作。系统利用头戴显示器捕获主动自我中心感知,学习视觉注意力与操控关联,在六项任务中展示了70%成功率及良好泛化能力。
05
WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents
发表:2022/7/4
基于大语言模型的动作规划大语言模型强化学习训练语言-动作环境联网交互模拟电商环境人类演示强化学习
本文提出WebShop,一个包含118万真实商品及1.2万众包指令的模拟电商环境,针对语言接地网页交互训练智能体。通过强化学习和模仿学习提升智能体任务成功率至29%,显著优于基线,且具备模拟到真实网页的迁移能力。
03
Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning
发表:2025/9/27
大语言模型推理能力增强基于大语言模型的动作规划自演化偏好学习多阶段微调策略信息熵引导采样
本文提出ToolLight框架,通过信息熵分析工具调用影响,结合自演化采样与多阶段微调,实现大型语言模型工具集成推理的高效准确,显著缓解工具滥用与不足问题,提升推理链稳定性与性能。
05
Customer-R1: Personalized Simulation of Human Behaviors via RL-based LLM Agent in Online Shopping
发表:2025/10/9
大语言模型强化学习训练基于大语言模型的动作规划个性化用户行为模拟在线购物行为建模基于奖励信号的行为生成
本文提出CustomerR1,基于强化学习的大语言模型智能体,针对在线购物环境中用户个性画像,实现个性化逐步行为模拟。方法结合用户画像信息,通过动作正确性奖励优化行为生成,在OPeRA数据集上显著优于提示和监督微调方法,提升个性化行为预测准确性和保真度。
019
Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning
发表:2025/7/24
大语言模型强化学习训练大语言模型推理能力增强基于大语言模型的动作规划模拟人类行为在线购物行为建模
本文提出ShopR1框架,通过强化学习分别奖励推理生成和行动预测两个阶段,利用模型内信号和层次化难度感知奖励,显著提升LLM在线购物行为的模拟能力,实验显示性能较基线提升65%以上。
016
Can LLM Agents Simulate Multi-Turn Human Behavior? Evidence from Real Online Customer Behavior Data
发表:2025/3/27
大语言模型微调大语言模型强化学习训练序列策略优化基于大语言模型的动作规划真实用户行为模拟
本文首次基于3.1万真实购物会话大规模量化评估了LLM Agent多轮模拟人类行为的能力,发现基于提示的模型准确率仅11.86%。通过微调及合成推理轨迹增强,Qwen2.57B模型准确率提升至17.26%,显著改进了行为预测的实际准确性。
03
Large Language Model Agent: A Survey on Methodology, Applications and Challenges
发表:2025/3/27
大语言模型代理系统综述大语言模型强化学习训练基于大语言模型的动作规划大语言模型推理能力增强多模态大语言模型
本文系统综述大型语言模型代理,从方法论出发构建分类体系,解析其架构、协作与演化机制,统一零散研究,揭示设计原则与复杂环境中行为的内在联系,涵盖评估、工具及应用,指明未来发展方向。
09