首页论文 RSS 订阅公告更新日志 PPT

论文

解析模型

登录后可查看剩余解析次数。

分析完成后邮件通知提交成功后加入收藏夹不公开给未提交本论文的用户（仍保存为个人默认精读）

标签筛选

视觉语言动作模型

REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation

发表：2025/12/23

视觉语言动作模型机器人操作任务基准机器人泛化能力评估高保真模拟环境任务变化因素

本文提出了REALM，一个高保真的模拟环境和机器人操作泛化基准，旨在评估视觉语言行动模型的泛化能力。REALM结合15种扰动因素、7种操作技能和3500多个物体，经过现实到模拟验证，展现出模拟与现实世界性能的高度相关性。研究表明，尽管取得进展，但泛化和鲁棒性依然是主要挑战。

Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting

发表：2025/9/26

视觉语言模型微调视觉语言动作模型防止灾难性遗忘低秩适配方法机器人遥操作数据

该论文介绍了一种将视觉语言模型（VLMs）微调为视觉语言行动模型（VLAs）的方法，称为VLM2VLA。通过将低层机器人动作用自然语言表述，解决了VLM与机器人数据分布不匹配的问题。该方法有效避免了灾难性遗忘，保持了模型的基本推理能力，在真实实验中实现了零样本泛化。

ReBot: Scaling Robot Learning with Real-to-Sim-to-Real Robotic Video Synthesis

发表：2025/3/16

视觉语言动作模型机器人视频合成真实到模拟到真实方法机器人数据集扩展机器人操控任务

本文提出了ReBot，一种“真实模拟真实”的机器人视频合成方法，旨在解决机器人学习中的数据扩展问题。通过重放真实机器人的运动轨迹到模拟环境中，并结合图像修复技术生成真实背景，ReBot显著提高了视觉语言动作模型在仿真与现实中性能，成功率提升17%至21.8%。

MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation

发表：2025/8/27

视觉语言动作模型机器人操作长期记忆与预期行动记忆条件扩散模型短期记忆与认知融合

本文提出了MemoryVLA，一个基于感知认知记忆的视觉语言行动框架，以应对机器人操控中的长时序非马尔可夫性。该方法结合工作记忆和海马体支持的情景记忆，通过感知和认知词元形成记忆库，显著提高了多种仿真及真实任务中的表现，提升成功率达26%。

Real-Time Execution of Action Chunking Flow Policies

发表：2025/6/9

实时动作分块策略执行视觉语言动作模型高频控制任务Kinetix模拟器动作分块算法

本文提出了一种名为实时分块（RTC）的新算法，解决了现代大型视觉–语言–行动模型在物理世界实时控制中面临的推理延迟问题。该方法在执行当前动作分块时异步生成下一个分块，通过“冻结”即将执行的动作并修复剩余部分，确保跨分块的连续性。通过在Kinetix模拟器中的12个动态任务和6个真实双臂操控任务的验证，RTC显著提升了任务吞吐率及高精度任务的成功率，表现出色。

VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation

发表：2025/11/21

视觉语言动作模型时态一致性机器人操作4D感知视觉表示多模态动作表示VLA数据集扩展

本文提出了一种名为VLA4D的新模型，通过嵌入4D感知（3D空间加1D时间）来解决视觉语言动作（VLA）模型在机器人操控任务中的时空连贯性问题。核心技术包括4D感知视觉表示，通过交叉注意机制融合视觉特征，以及结合时间信息扩展动作表示，以实现平滑且一致的机器动作。

See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations

发表：2025/12/8

视觉语言动作模型机器人操作政策学习单次演示学习人类视频行为学习专家示范视频生成

本文提出ViVLA，一种通用的机器人操控策略学习框架，只需依赖一次专家视频演示即可高效学习新任务。通过联合处理视频和机器视觉，模型提炼专家细腻操控知识，克服动作识别和模型推理的难点。实验结果显示，ViVLA在未见任务中性能显著提升。

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

发表：2025/3/19

通用人形机器人基础模型视觉语言动作模型扩散 Transformer 模块人形机器人操作任务多模态数据训练

本文提出GR00T N1，一个面向通用人形机器人的开放式视觉语言动作基础模型。它结合了推理模块和动作生成模块，通过端到端训练和数据金字塔策略，使用异构数据源有效训练。实验结果显示，该模型在仿真基准上优于现有模仿学习方法，展现了高性能与数据效率。

FailSafe: Reasoning and Recovery from Failures in Vision-Language-Action Models

发表：2025/10/2

视觉语言动作模型机器人操作故障恢复失败生成与恢复系统机器人操作数据集大规模机器人训练数据

论文提出FailSafe，旨在实现视觉语言动作（VLA）模型的失败推理与恢复。该系统自动生成多样的失败案例及可执行的恢复动作，显著提升机械臂的失败识别和恢复能力。通过微调LLaVAOneVision7B，FailSafeVLM在多任务上展示出最高22.6%的性能提升，展示了其在不同空间布局和视角下的泛化能力。

RoboFAC: A Comprehensive Framework for Robotic Failure Analysis and Correction

发表：2025/5/18

机器人失败分析与校正框架视觉语言动作模型基于任务理解的故障校正RoboFAC数据集开放世界机器人操作

本文提出了RoboFAC框架，旨在改善视觉语言动作模型在开放世界场景中对机器人失败的分析与纠正能力。通过构建包含9440条错误操控轨迹和78623个问答对的大规模RoboFAC数据集，开发出具备任务理解、失败分析和纠正能力的RoboFAC模型，实验证明其在多项任务中显著提升表现。

TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking

发表：2025/10/8

视觉语言动作模型空间推理机制目标识别记忆长时序一致性建模自回归推理模型

TrackVLA 是一种新颖的视觉语言动作模型，旨在提升具身视觉追踪的能力。通过引入空间推理机制和目标识别记忆模块，该模型解决了严重遮挡和相似干扰物导致的追踪失败。实验表明，TrackVLA 在准确性和稳定性方面表现优越，达到了最新的技术水平。

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

发表：2025/9/12

视觉语言动作模型强化学习数学推理大语言模型强化学习训练多环境渲染高效强化学习框架

本文提出了框架，通过强化学习提升视觉语言动作(VLA)模型的训练效率，解决了大规模人类操作数据的稀缺和泛化能力有限的问题。实验表明，该框架在模型上达到了最先进的性能，降低了对标注数据的依赖。

Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

发表：2025/10/14

视觉语言动作模型空间理解能力增强隐式空间表示对齐3D基础模型对齐机器人任务精准执行

本文提出了一种名为“空间强制”（SF）的方法，通过隐式对齐策略增强视觉语言行为（VLA）模型的空间理解能力。SF通过将VLA模型的视觉嵌入与预训练的3D基础模型的几何表示对齐，提高机器人在三维世界中的操作精度，避免了依赖显式3D输入的问题。

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

发表：2025/10/12

视觉语言动作模型跨体态学习软提示学习通用机器人平台大规模异构数据集

本文提出了XVLA，一个基于软提示的变压器架构，旨在构建可扩展的视觉语言动作(VLA)模型。通过引入可学习的嵌入，用于不同机器人数据源的跨具身学习，XVLA在多个仿真和真实机器人上实现了先进的性能，展现了对不同任务和环境的灵活适应能力。

FAST: Efficient Action Tokenization for Vision-Language-Action Models

发表：2025/1/17

视觉语言动作模型频率空间动作序列标记化高频率机器人动作数据自回归序列模型机器人动作标记化

本文提出了一种新型的动作词元化方案——频率空间动作序列词元化（FAST），旨在改进自回归视觉语言动作模型在高频机器人动作上的表现。FAST能够有效处理常用词元化方法失败的高灵巧任务，同时发布了基于此的FAST词元化器，能够适应多种动作空间和控制频率，并显著降低训练时间和提高性能。

ADriver-I: A General World Model for Autonomous Driving

发表：2023/11/23

自动驾驶世界模型多模态大语言模型视觉语言动作模型Diffusion模型nuScenes数据集

提出ADriverI，一种基于多模态大语言模型与扩散技术的自动驾驶通用世界模型，通过交错视觉动作对统一视觉特征与控制信号格式，自回归预测控制动作并生成未来场景，实现迭代驱动，显著提升自动驾驶性能。

TrackVLA: Embodied Visual Tracking in the Wild

发表：2025/5/29

视觉语言动作模型Embodied视觉追踪轨迹规划扩散模型大语言模型骨干Embodied Visual Tracking Benchmark (EVT-Bench)

TrackVLA提出了一种融合视觉、语言与动作的具身视觉跟踪模型，通过共享大语言模型实现目标识别与轨迹规划协同，结合扩散模型提升路径生成能力。构建了包含170万样本的EVTBench，实验表明其在复杂野外环境下具备领先性能和强泛化能力。

Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning

发表：2025/5/18

视觉语言动作模型机器人动作学习基于大语言模型的动作规划强化学习训练仿真人体控制

本文提出感知灵巧控制（PDC）框架，实现仅凭自我中心视觉训练模拟人形机器人，完成物体搜索、抓取、放置及操作等多任务，无需特权信息。通过强化学习，智能体展现出主动搜索等人类行为，推动视觉驱动的灵巧控制与复杂任务融合。

PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability

发表：2025/3/11

视觉语言动作模型机器人物理可达性表示多机器人多模态数据集Phys100K机器人视觉语言推理环境感知与空间表示

本文提出PhysVLM模型，结合空间物理可达性图(SP Map)统一表示多种机器人物理可达性，突破视觉语言模型缺乏物理约束的瓶颈。该方法通过额外编码器融合可达性特征，实现具身视觉推理能力提升，且验证于大规模多机器人数据集Phys100K。

WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent

发表：2025/10/8

多模态大语言模型视觉语言动作模型大语言模型强化学习训练复杂信息检索基准视觉语言推理

WebWatcher提出一种多模态深度研究智能体，结合视觉语言推理能力，通过高质量合成轨迹冷启动训练和强化学习提升泛化性能。提出BrowseCompVL基准测试，验证其在复杂视觉文本信息检索中的领先表现，突破了传统文本中心限制。

1 - 20 / 22

跳转至

© 2025 AiPaper · 友情链接 · 站点地图