首页论文 RSS 订阅公告更新日志 PPT

论文

解析模型

登录后可查看剩余解析次数。

分析完成后邮件通知提交成功后加入收藏夹不公开给未提交本论文的用户（仍保存为个人默认精读）

标签筛选

视觉语言模型应用

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

发表：2025/11/12

通用智能体设计3D开放世界任务执行视觉语言模型应用人类交互范式零样本跨游戏泛化

本文提出Lumine，这是首个在复杂的3D开放世界中训练和部署通用智能体的开放式配方。Lumine通过统一感知、推理与动作生成，能以5 Hz的频率处理原始像素，实现30 Hz键鼠动作，具备高效执行任务和零样本跨游戏泛化能力。

ImgEdit: A Unified Image Editing Dataset and Benchmark

发表：2025/5/27

ImgEdit数据集图像编辑基准测试视觉语言模型应用复杂图像编辑任务多轮编辑评估

论文提出了图像编辑数据集，包含120万个精心设计的编辑对，涵盖了复杂的单轮和多轮任务，旨在弥补开源模型在质量数据和基准测试上的不足。通过使用，训练了模型，并设计了基准，展示了其在多个任务上的优越性能。

1 - 2 / 2

跳转至

© 2025 AiPaper · 友情链接 · 站点地图