论文
登录后可查看剩余解析次数。
标签筛选
视觉语言模型应用
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds
发表:2025/11/12
通用智能体设计3D开放世界任务执行视觉语言模型应用人类交互范式零样本跨游戏泛化
本文提出Lumine,这是首个在复杂的3D开放世界中训练和部署通用智能体的开放式配方。Lumine通过统一感知、推理与动作生成,能以5 Hz的频率处理原始像素,实现30 Hz键鼠动作,具备高效执行任务和零样本跨游戏泛化能力。
06
ImgEdit: A Unified Image Editing Dataset and Benchmark
发表:2025/5/27
ImgEdit数据集图像编辑基准测试视觉语言模型应用复杂图像编辑任务多轮编辑评估
论文提出了图像编辑数据集,包含120万个精心设计的编辑对,涵盖了复杂的单轮和多轮任务,旨在弥补开源模型在质量数据和基准测试上的不足。通过使用,训练了模型,并设计了基准,展示了其在多个任务上的优越性能。
05