论文
登录后可查看剩余解析次数。
标签筛选
视觉语言动作模型
Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model
发表:2025/10/14
视觉语言动作模型空间理解能力增强隐式空间表示对齐3D基础模型对齐机器人任务精准执行
本文提出了一种名为“空间强制”(SF)的方法,通过隐式对齐策略增强视觉语言行为(VLA)模型的空间理解能力。SF通过将VLA模型的视觉嵌入与预训练的3D基础模型的几何表示对齐,提高机器人在三维世界中的操作精度,避免了依赖显式3D输入的问题。
03
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment
Vision-Language-Action Model
发表:2025/10/12
视觉语言动作模型跨体态学习软提示学习通用机器人平台大规模异构数据集
本文提出了XVLA,一个基于软提示的变压器架构,旨在构建可扩展的视觉语言动作(VLA)模型。通过引入可学习的嵌入,用于不同机器人数据源的跨具身学习,XVLA在多个仿真和真实机器人上实现了先进的性能,展现了对不同任务和环境的灵活适应能力。
02
FAST: Efficient Action Tokenization for Vision-Language-Action Models
发表:2025/1/17
视觉语言动作模型频率空间动作序列标记化高频率机器人动作数据自回归序列模型机器人动作标记化
本文提出了一种新型的动作词元化方案——频率空间动作序列词元化(FAST),旨在改进自回归视觉语言动作模型在高频机器人动作上的表现。FAST能够有效处理常用词元化方法失败的高灵巧任务,同时发布了基于此的FAST词元化器,能够适应多种动作空间和控制频率,并显著降低训练时间和提高性能。
03
ADriver-I: A General World Model for Autonomous Driving
发表:2023/11/23
自动驾驶世界模型多模态大语言模型视觉语言动作模型Diffusion模型nuScenes数据集
提出ADriverI,一种基于多模态大语言模型与扩散技术的自动驾驶通用世界模型,通过交错视觉动作对统一视觉特征与控制信号格式,自回归预测控制动作并生成未来场景,实现迭代驱动,显著提升自动驾驶性能。
02
TrackVLA: Embodied Visual Tracking in the Wild
发表:2025/5/29
视觉语言动作模型Embodied视觉追踪轨迹规划扩散模型大语言模型骨干Embodied Visual Tracking Benchmark (EVT-Bench)
TrackVLA提出了一种融合视觉、语言与动作的具身视觉跟踪模型,通过共享大语言模型实现目标识别与轨迹规划协同,结合扩散模型提升路径生成能力。构建了包含170万样本的EVTBench,实验表明其在复杂野外环境下具备领先性能和强泛化能力。
03
Emergent Active Perception and Dexterity of Simulated Humanoids from
Visual Reinforcement Learning
发表:2025/5/18
视觉语言动作模型机器人动作学习基于大语言模型的动作规划强化学习训练仿真人体控制
本文提出感知灵巧控制(PDC)框架,实现仅凭自我中心视觉训练模拟人形机器人,完成物体搜索、抓取、放置及操作等多任务,无需特权信息。通过强化学习,智能体展现出主动搜索等人类行为,推动视觉驱动的灵巧控制与复杂任务融合。
08
PhysVLM: Enabling Visual Language Models to Understand Robotic Physical
Reachability
发表:2025/3/11
视觉语言动作模型机器人物理可达性表示多机器人多模态数据集Phys100K机器人视觉语言推理环境感知与空间表示
本文提出PhysVLM模型,结合空间物理可达性图(SP Map)统一表示多种机器人物理可达性,突破视觉语言模型缺乏物理约束的瓶颈。该方法通过额外编码器融合可达性特征,实现具身视觉推理能力提升,且验证于大规模多机器人数据集Phys100K。
05
WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent
发表:2025/10/8
多模态大语言模型视觉语言动作模型大语言模型强化学习训练复杂信息检索基准视觉语言推理
WebWatcher提出一种多模态深度研究智能体,结合视觉语言推理能力,通过高质量合成轨迹冷启动训练和强化学习提升泛化性能。提出BrowseCompVL基准测试,验证其在复杂视觉文本信息检索中的领先表现,突破了传统文本中心限制。
01
$π_0$: A Vision-Language-Action Flow Model for General Robot Control
发表:2024/11/1
视觉语言动作模型通用机器人策略机器人多模态学习基于大语言模型的动作规划
本文提出了通用机器人控制模型,结合预训练视觉语言模型与流匹配生成技术,实现单一模型多平台、多任务高精度动作生成。该模型支持零样本执行语言指令和多机器人灵巧操作,显著提升泛化能力和灵活性。
02
WorldVLA: Towards Autoregressive Action World Model
发表:2025/6/27
视觉语言动作模型自回归动作世界模型动作序列生成环境物理规律建模注意力掩码策略
WorldVLA提出了一个集成视觉语言动作与世界模型的自回归框架,通过互补增强提升动作与图像生成预测能力。针对动作序列自回归产生的误差传播,设计注意力掩码策略显著提升动作块生成性能。
02