论文状态:已完成

Grounding Computer Use Agents on Human Demonstrations

发表:2001/11/10
原文链接PDF 下载
价格:0.10
价格:0.10
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究推出了`GROUNDCUA`,一个大规模桌面接地数据集,基于专家人类演示构建,涵盖87款应用程序,5.6万张截图,超过356万条标注。利用该数据集,开发了`GROUNDNEXT`模型,在多个基准测试中实现了领先性能,显示了高质量数据在计算机使用智能体研究中的重要性。

摘要

GroundCUA, a large-scale desktop grounding dataset, enables the development of GroundNext models that achieve state-of-the-art performance in mapping instructions to UI elements with less training data.

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Grounding Computer Use Agents on Human Demonstrations (基于人类演示的计算机使用智能体接地)

1.2. 作者

Aarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar。

作者团队来自多个知名机构,包括 Mila - Quebec AI Institute, McGill University, Université de Montréal, ServiceNow Research, University of Waterloo, University of Oxford, National University of Singapore 等,显示了该研究的跨机构合作性质和多学科背景。

1.3. 发表期刊/会议

预印本 (arXiv)。

1.4. 发表年份

2025年(根据论文内容和引用推断,arXiv 上的时间戳 2001-11-09T16:00:00.000Z 可能是误写或占位符,实际论文中大量引用了 2024 年和 2025 年的工作)。

1.5. 摘要

构建可靠的计算机使用智能体 (Computer-Use Agents, CUA) 需要精确的接地 (Grounding) 能力,即将自然语言指令准确地映射到屏幕上正确的用户界面 (User Interface, UI) 元素。虽然针对网络和移动端交互的数据集已很丰富,但高质量的桌面环境资源却十分有限。为了弥补这一空白,本研究引入了 GROUNDCUA,一个大规模的桌面接地数据集,它基于专家人类演示构建。该数据集涵盖了 12 个类别的 87 款应用程序,包含 5.6 万张屏幕截图,其中每个屏幕元素都经过精心标注,总计超过 356 万条经过人工验证的标注。通过这些演示,研究团队生成了多样化的指令,捕捉了广泛的真实世界任务,为模型训练提供了高质量数据。利用 GROUNDCUA,研究团队开发了 GROUNDNEXT 系列模型,该模型能够将指令映射到目标 UI 元素。在 3B 和 7B 两种规模下,GROUNDNEXT 通过监督微调 (Supervised Fine-Tuning, SFT) 在五个基准测试中取得了最先进的 (state-of-the-art) 结果,并且所需的训练数据不到先前工作的十分之一。强化学习 (Reinforcement Learning, RL) 后训练进一步提升了性能,并在使用 o3o3 作为规划器的智能体设置下,在 OsWorld 基准测试中,GROUNDNEXT 达到了与使用更多数据训练的模型相当甚至更优的性能。这些结果证明了高质量、专家驱动的数据集在推动通用计算机使用智能体发展中的关键作用。

1.6. 原文链接

  • 原文链接: https://huggingface.co/papers/2511.07332
  • PDF 链接: https://arxiv.org/pdf/2511.07332 发布状态:预印本 (arXiv)。

2. 整体概括

2.1. 研究背景与动机

计算机使用智能体 (Computer-Use Agents, CUA) 旨在代表用户操作软件,自动化日常工作并使复杂的数字工具更易于访问。随着多模态大语言模型 (Multimodal Large Language Models, MLLMs) 的发展,CUA 领域取得了显著进展。然而,这些智能体要成功,面临一个核心挑战:接地 (Grounding)。接地是指智能体需要准确地将自然语言指令(例如“点击保存按钮”)映射到屏幕上精确的用户界面 (UI) 元素(例如找到并点击屏幕上的“保存”按钮)。如果接地失败,即使智能体拥有完美的任务规划能力,也无法执行操作,导致任务失败。

当前研究存在以下痛点和挑战:

  • 桌面环境的复杂性与多样性:桌面应用程序通常具有高分辨率显示、密集布局和视觉上相似的元素,使得精确识别目标元素变得困难。

  • 用户特定内容:桌面应用程序中可能包含训练期间未曾见过的用户特定内容(如文档、电子表格),增加了场景的变异性。

  • 高质量数据集的稀缺:尽管网络和移动端领域已有大规模数据集,但针对桌面环境的高质量、高覆盖率数据集却十分有限。现有数据集存在不足,例如自动化收集的数据集可能无法捕获所有细粒度元素,或合成数据无法充分代表真实世界的复杂性。

    因此,论文旨在通过构建一个大规模、高质量、人工标注的桌面 grounding 数据集,并在此基础上开发高效能模型来解决上述挑战,推动通用 CUA 的发展。

2.2. 核心贡献/主要发现

本论文的核心贡献体现在以下几个方面:

  • 引入 GROUNDCUA 数据集
    • 首次推出了大规模、人工标注的桌面 grounding 数据集 GROUNDCUA
    • 涵盖 87 款应用程序,跨 12 个类别,包含 5.6 万张屏幕截图,总计 356 万多条人工验证的 UI 元素标注。
    • 该数据集以其高密度、高分辨率和细粒度标注而著称,特别关注了图标、工具栏等自动化工具难以捕获的小型桌面组件。
  • 开发 GROUNDNEXT 系列模型
    • 提出了 GROUNDNEXT 视觉-语言模型系列,包括 3B 和 7B 两种规模。
    • 采用两阶段训练策略:首先进行监督微调 (SFT),然后进行强化学习 (RL) 后训练。
    • GROUNDNEXT 在五个桌面 grounding 基准测试中实现了最先进的 (state-of-the-art) 性能,并且所需的 SFT 训练数据量远低于现有工作(仅需 70 万条指令,而现有工作常需数百万条)。这证明了高质量、精心策划的数据集在提升模型性能方面的效率。
  • 深入分析与泛化能力
    • 详细分析了 SFT 和 RL 在模型训练中的作用,发现高质量 SFT 已经能捕捉模型大部分性能,RL 提供有针对性的增量改进。
    • 评估了 GROUNDCUA 数据集的跨领域影响和 GROUNDNEXT 模型的泛化能力,即使主要在桌面数据上训练,也能在移动和网络环境的基准测试中表现出强大的泛化能力。
    • 研究了开源软件对 grounding 性能的益处,特别是在图标识别等需要领域知识的任务上。
  • 开放科学贡献
    • 公开了 GROUNDCUA 数据集和 GROUNDNEXT 模型,以支持开放研究和社区协作,加速 CUA 领域的发展。

      主要发现是,高质量、专家驱动的数据集能够比单纯增加数据量更有效地驱动可靠的桌面 grounding 性能,为构建通用的计算机使用智能体奠定了基础。

3. 预备知识与相关工作

3.1. 基础概念

  • 计算机使用智能体 (Computer-Use Agents, CUA):指能够理解并执行用户指令,自主操作计算机软件完成各种任务的智能系统。例如,用户可以说“打开浏览器,搜索最新的AI论文”,CUA 就能识别并执行这些步骤。
  • 接地 (Grounding):在自然语言处理和计算机视觉领域,接地是指将语言描述(如“保存按钮”)与视觉信息(屏幕上“保存”图标的实际位置)建立准确对应关系的过程。在 CUA 中,智能体需要将用户的自然语言指令 ground 到屏幕上特定的 UI 元素上,以便进行点击、输入等操作。
  • 用户界面 (User Interface, UI) 元素:指用户在软件或应用程序中与之交互的图形化组件,例如按钮 (button)、文本框 (text box)、菜单 (menu)、图标 (icon)、滑块 (slider) 等。
  • 视觉-语言模型 (Vision-Language Models, VLM):一种能够同时处理视觉信息(如图像、视频)和自然语言信息(如文本、语音)的机器学习模型。VLM 能够理解图像内容并用语言描述,或根据语言指令在图像中定位特定对象。
  • 监督微调 (Supervised Fine-Tuning, SFT):在预训练模型(如大型 VLM)的基础上,使用带有明确输入-输出对(即 ground truth 标签)的特定任务数据集进行进一步训练的过程。目标是使模型适应新任务并提高其在该任务上的性能。
  • 强化学习 (Reinforcement Learning, RL):一种机器学习范式,智能体通过与环境互动学习,根据 奖励信号 (reward signal) 优化其 策略 (policy),以最大化长期累积奖励。在 CUA 中,RL 可以用于优化智能体的 grounding 行为,使其更准确地执行操作。
  • o3o3 规划器 (o3 planner):论文中提及的 o3o3OpenAI 提出的一种规划器,用于在智能体环境中生成下一步操作指令。它通常结合任务指令和历史操作来决定智能体应采取的行动。
  • 基准测试 (Benchmark):用于评估模型或算法性能的标准数据集或任务集合。通过在公共基准上进行测试,可以公平地比较不同方法的优劣。

3.2. 前人工作

构建 GUI 智能体需要提升其理解和交互 UI 的能力。现有工作主要集中在以下几个方面:

  • 多模态大语言模型 (Multimodal Large Language Models, MLLMs) 驱动的智能体
    • CogAgent (Hong et al., 2023)、ShowUI (Lin et al., 2024) 和 Ferret-UI (You et al., 2024) 等模型通过结合视觉、语言和动作,在桌面、网络和移动界面上实现了零样本 (zero-shot) 指令遵循。
    • 这些模型强调了 UI 交互能力,但在复杂桌面环境中的数据效率仍是挑战。
  • Grounding 专用智能体与数据集
    • OS-ATLAS (Wu et al., 2024)、UGround (Gou et al., 2024b) 和 JEDI (Xie et al., 2025) 等工作通过扩展训练数据,在将语言映射到特定 UI 元素方面取得了显著进展。
    • 然而,这些方法在数据效率方面仍面临挑战,尤其是在复杂的桌面环境中。
  • GUI Grounding 数据集
    • 移动端数据集RICO (Deka et al., 2017)、UIBert (Bai et al., 2021) 和 AMEX (Chai et al., 2025) 等提供了元素级标注,但在布局标准化方面限制了对桌面密度和图标的暴露。
    • 网络端数据集SeeClick (Cheng et al., 2024) 和 UGround (Gou et al., 2024b) 通过 HTML/DOM 自动化收集数据进行 grounding 扩展,但可能过度强调文本元素而忽略小型图标。Aguvis-G (Xu et al., 2024) 扩展了平台覆盖范围。
    • 桌面端数据集:桌面环境资源稀缺且具有挑战性。
      • OS-ATLAS (Wu et al., 2024) 通过可访问性树 (accessibility-tree) 遍历构建桌面数据,但可访问性信号常不完整或不一致,导致元素标签缺失或不精确。
      • JEDI (Xie et al., 2025) 通过合成界面生成数据,但简化屏幕无法充分代表真实的桌面复杂性。
  • 强化学习 (RL) 方法
    • DeepSeek-R1 (Guo et al., 2025) 启发,GUI-R1 (Lu0 et al., 2025)、GUIG2GUI-G^2 (Tang et al., 2025) 和 InfiGUI-G1 (Liu et al., 2025a) 等 RL 方法通过基于距离的奖励来解决 grounding 问题。

3.3. 技术演进

GUI 智能体的 grounding 技术从最初的 SFT 模型发展而来,这些模型主要依赖大量标记数据来学习指令到 UI 元素的映射。随着模型规模的增长和数据量的积累,性能有所提升。然而,桌面环境的复杂性、多样性和高分辨率特性使得传统 SFT 模型的泛化能力受到限制,且对数据量的需求巨大。

为了解决数据效率和复杂性问题,研究开始探索 RL 的引入。RL 允许模型通过试错和奖励反馈来优化其 grounding 策略,尤其适用于处理模糊和动态的 UI 元素。同时,数据集的构建也从早期的移动和网络领域扩展到更具挑战性的桌面环境,并从自动化收集转向更高质量、人工验证的标注。

本文的工作正处于这一演进的交叉点,旨在通过提供一个高质量、专家驱动的桌面 grounding 数据集 GROUNDCUA,并结合 SFTRL 两阶段训练策略来开发 GROUNDNEXT 模型,以实现数据高效且性能优越的 grounding 能力。

3.4. 差异化分析

GROUNDCUA 与现有数据集相比的主要差异和创新点体现在:

  • 桌面环境的全面覆盖和质量GROUNDCUA 是目前最大规模的桌面 grounding 专家人工标注数据集,专注于 87 款开源桌面应用程序,涵盖 12 个类别。相比之下,许多现有数据集侧重于移动或网络环境,或桌面数据的质量和密度不足(如 OS-ATLAS 的可访问性树遍历导致不精确标注,JEDI 的合成数据无法充分体现真实复杂性)。

  • 高密度和细粒度标注GROUNDCUA 实现了极高的标注密度,平均每张截图有 64 个标注元素,远超其他数据集。它尤其擅长捕获自动化工具难以识别的小型图标、工具栏等细粒度桌面组件,这些是桌面应用的关键组成部分。

  • 高分辨率图像:数据集中的图像分辨率范围广(0.39M 到 7M 像素),平均 2.03M 像素,远高于其他数据集,这对于桌面环境的精细 grounding 至关重要。

  • 人类专家驱动的真实演示GROUNDCUA 基于人类专家对真实世界任务的演示进行记录和标注,确保了数据反映真实的用户交互和应用状态,而非随机生成或基于深度/广度优先搜索的界面状态,这使得指令更具语义和上下文关联性。

  • 高效训练的 GROUNDNEXT 模型GROUNDNEXT 模型在训练数据量(70 万 SFT 样本)远少于其他 SOTA 模型(如 JEDI 的 900 万样本)的情况下,仍能超越或媲美其性能。这凸显了 GROUNDCUA 数据集的卓越质量和其对模型训练效率的提升。

  • 两阶段 SFT+RLSFT + RL 训练:结合 SFTRL 的训练策略,使得模型能够在高质量 SFT 的基础上,通过 RL 进一步精炼 grounding 准确性,且 RL 阶段无需复杂的奖励模型。

    总之,GROUNDCUA 填补了桌面 grounding 高质量数据集的空白,其精细、真实和密集的标注,结合 GROUNDNEXT 高效的训练范式,共同推动了 CUA 在复杂桌面环境中的 grounding 能力达到了新的高度。

4. 方法论

本研究的核心方法论包括两个主要部分:GROUNDCUA 数据集的创建和 GROUNDNEXT 模型的训练。

4.1. 方法原理

GROUNDCUA 数据集旨在通过高质量、专家人工标注的方式,弥补现有桌面 grounding 数据集在多样性、密度和真实性方面的不足。其核心原理是模拟真实用户在桌面应用中的交互行为,记录关键帧截图,并对所有可见 UI 元素进行详尽标注。这些标注不仅包含边界框和文本标签,还引入了元素类别和 OCR 信息,为生成多样化、高上下文关联度的指令奠定基础。

GROUNDNEXT 模型则基于现有的 VLMQwen2.5-VL-Instruct),并采用分阶段训练策略。首先进行监督微调 (Supervised Fine-Tuning, SFT),利用 GROUNDCUA 生成的指令-图像对,使模型学习从指令到 UI 元素的映射。随后,通过强化学习 (Reinforcement Learning, RL) 进行后训练,进一步优化模型在预测目标 UI 元素位置时的精确性,尤其是在面对细微偏差时,通过设计的奖励函数引导模型向更准确的预测收敛。这种策略旨在利用高质量数据的优势,以更少的数据量达到卓越的性能。

4.2. 核心方法详解 (逐层深入)

4.2.1. GROUNDCUA 数据集创建

GROUNDCUA 数据集的创建过程是一个多阶段的、人工主导的流程,旨在捕获真实世界的桌面交互数据。

1. 收集人类专家演示 (Collecting demonstrations from human experts) 研究团队通过与专业数据标注公司合作,招募了一批经过培训的标注专家。这些专家在真实桌面应用程序上执行日常任务,其交互过程被记录下来。这种方式确保了所收集的屏幕截图和交互轨迹更接近真实用户的使用模式,而非随机生成或结构化的遍历。

  • 选择多样化的桌面应用程序 (Selecting diverse desktop applications) 为了支持通用 CUA,团队选择了 87 款开源应用程序,涵盖 12 个不同类别(如教育、浏览器、开发、生产力、图形设计等)。选择开源软件的原因是其许可协议通常更宽松,便于数据集的发布。这些开源应用的功能和 UI 元素通常与流行的闭源软件(如 LibreOffice 与 Microsoft Office)相似,确保了数据集的广泛适用性。

    以下是原文 Table 5 展示的应用程序类别及其对应的平台:

    Category Platforms
    Education Anki, Zotero, Calibre, OpenBoard, Mendeley
    Browsers Brave, Chromium, Mozilla Firefox, DuckDuckGo
    Development VSCode, Atom, Eclipse, NetBeans, PyCharm, IntelliJ IDEA, Brackets, Geany, Bluefish, KDevelop, Komodo Edit, Code::Blocks, Qt Creator, Arduino IDE
    Productivity LibreOffice Calc, LibreOffice Draw, LibreOffice Impress, LibreOffice Writer, draw.io, Joplin, OpenProject, Affine, PDFedit, OnlyOffice Calendar, OnlyOffice Document Ed- itor, OnlyOffice Forms, OnlyOffice PDF Forms, OnlyOf- fice Presentation, OnlyOffice Spreadsheet, Nextcloud, Gnu- meric, Simplenote, WeKan
    Graphics and Design Blender, GIMP, Inkscape, Krita, darktable, FontForge, Scribus, WordPress
    Video and Audio Production OpenShot, OBS Studio, Lightworks, Shotcut, Natron, OpenToonz, Audacity, MuseScore
    Communication Element, Signal, Mastodon, Lemmy, Matrix, Zulip, Jitsi
    Entertainment VLC Media Player, Kodi, Emby
    System Utilities Ubuntu Terminal, Conky, Bash, 7-Zip, Flameshot, Nemo, gedit
    Security Bitwarden, Cryptomator
    Finance and Business Analytics GnuCash, Frappe Books, Metabase
    Scientific RStudio, Veusz, GNU Octave, GrassGIS, QGIS, FreeCAD, Spyder
  • 设计并执行计算机使用任务 (Designing and executing computer-use tasks) 标注员被要求设计并执行反映常见目标(如撰写文档、编辑电子表格、运行模拟)的日常计算机使用任务。这产生了自然的交互轨迹,并生成了更接近真实世界使用场景的屏幕截图。总计完成了超过 1 万次任务演示。

2. 屏幕截图的密集标注 (Dense annotation of screenshots) 从录制的演示中,提取了关键帧(即用户操作前一刻的界面状态)。标注员使用边界框标注了每个关键帧中所有可见的 UI 元素。

  • 标注内容

    • 文本标签 (Textual Label):每个元素的名称,或较短字符串的显示文本。对于长段落(如源代码),提供简洁的摘要。

    • OCR 文本:使用 PaddleOCR 提取原始文本,补充长文本段落的摘要。

    • 元素类别 (Element Category):约 50% 的元素被分配到八个高级类别之一,如“Input Element”(输入元素)、“Button”(按钮)、“Menu”(菜单)等。

      以下是原文 Table 6 展示的 UI 元素类别及其描述:

      Category Description and Common UI Elements
      Input Element Interactive fields where users enter or modify data, like text boxes, checkboxes, radio buttons, etc.
      Sidebar Vertical or horizontal panels that provide quick access to tools or navigation.
      Information Display Regions that primarily present textual or numerical information. Examples in- clude labels, console outputs, document text, and code blocks.
      Button Clickable controls that trigger an action like submit button, "OK/Cancel" but- tons, play/pause buttons
      Navigation Elements that help users move within or across applications. Examples: tabs, back/forward arrows etc.
      Visual Elements Non-textual graphical elements that convey information or functionality. Ex- amples include icons, thumbnails, images, charts, and progress bars.
      Menu Structured lists of commands or options, often hierarchical. Examples: file menu, context menu, dropdown menus.
      Others Elements not covered by the above categories, often decorative or container elements like spacers.
  • 数据规模:最终产生 5.6 万张屏幕截图和超过 356 万条标注元素。平均每张截图包含 64 个标注,最高可达 542 个。图像平均分辨率为 2.03 兆像素,范围从 0.39 到 7 兆像素。边界框相对较小,平均只覆盖图像面积的 0.13%,突显了标注的细粒度。

    下图(原文 Figure 2)展示了 GROUNDCUA 数据集中来自不同应用程序的屏幕截图示例,红色边界框表示已标注的 UI 元素。

    Figure 2: Examples of screenshots from different applications in GrouNDCUA. Red bounding boxes indicate the annotated UI elements within each screenshot. 该图像是图示,展示了GrouNDCUA数据集中来自不同应用程序的屏幕截图,包括GIMP、FreeCAD和LibreOffice Calc。红色边框标出每个截图中的注释UI元素。

下图(原文 Figure 6)也展示了 GROUNDCUA 中来自多个平台的一些屏幕截图示例,红色边界框标识了每个截图中注释的用户界面元素。

Figure 6: Examples of screenshots from different platforms in GRouNDCUA. Red bounding boxes indicate the annotated UI elements within each screenshot.

3. 构建高质量微调指令 (Constructing high-quality finetuning instructions) 为了模拟真实世界中用户查询的多样性,研究团队设计了一个流水线,利用密集的标注信息(边界框、标签、类别、OCR 文本)来生成多样化的指令。这种方法通过提示 (prompting) 多模态 LLM 来生成指令,确保指令与视觉和文本内容紧密关联。

  • 指令去重 (Deduplication):首先对标注元素进行去重,通过文本匹配和感知图像相似度 (pHash) 算法去除重复元素,得到约 90 万个独特元素。
  • 指令类型 (Instruction Types):生成了三种主要类型的指令:
    • 直接指令 (Direct Instructions):明确提及 UI 元素,如“点击‘保存’按钮”。通过提示 Qwen2.5-VL-72B,结合元素的边界框、平台名称、标注标签和周围上下文来生成描述性指令。

      • 文本元素指令 (Textual elements):针对通过 OCR 识别的文本或“Information Display”类别中的元素,使用约 100 个模板生成指令,如“Do you see the text 'text'? Please click on it.”
      • 视觉元素指令 (Visual elements):针对图标或其他视觉元素,生成简洁的描述性指令,如“Click the magnifying-glass icon next to the search bar.”
      • 通用模板 (General templates):使用约 120 个启发式模板或通过 MLLM 生成通用指令。
    • 功能指令 (Functional Instructions):描述元素的目的,而非其名称,如“打开一个新标签页”而非“点击‘+’按钮”。主要针对“Button”和“Menu”类别。通过提示 Qwen2.5-VL-72B,要求生成简洁的功能性指令。

    • 空间指令 (Spatial Instructions):通过元素之间的相对位置来定位目标元素,如“点击‘文件’左侧的图标”。利用密集标注选择可靠的锚点,并使用模板生成指令。例如:“Place your mouse on the element directly to the right of "{element}".”

      下图(原文 Figure 7)展示了指令调优数据示例,包括不同类型的指令及其对应的 UI 元素。

      Figure 7: Instruction tuning data examples. 该图像是一个示意图,展示了多个平台上指令调优的数据示例。图中包含了不同软件界面中的元素标签、类别和直接指令,旨在说明人类用户与计算机之间的交互方式。

4.2.2. GROUNDNEXT 模型训练

GROUNDNEXT 模型基于 Qwen2.5-VL-Instruct 作为基础模型,并在 3B 和 7B 两种参数规模下进行了训练。训练过程分为两个阶段:SFTRL 后训练。

1. 监督微调 (Supervised Fine-Tuning, SFT) 在第一阶段,模型进行标准的 SFT 训练。

  • 基础模型Qwen2.5-VL-Instruct (3B 和 7B 版本)。
  • 训练数据:从 GROUNDCUA 生成的指令调优数据集中,选择了一个包含 70 万条指令的子集,该子集平衡了指令的覆盖率和多样性。其中,直接指令占 50%,功能指令占 35%,空间指令占 15%。
  • 训练配置
    • 学习率:3×1063 \times 10^{-6}
    • 学习率调度器:余弦衰减 (cosine decay),预热比 (warmup ratio) 0.05。
    • 训练轮次:2 个 epoch
    • 硬件:单节点 8 张 H100 GPU
    • 全局批次大小 (Global Batch Size):128。
    • 梯度累积 (Gradient Accumulation):16。
    • 每设备批次大小 (Per-device Batch Size):1。
  • 微调范围:同时微调视觉编码器 (vision encoder) 和语言模型 (language model),实验表明这能带来更好的 grounding 性能。

2. 强化学习后训练 (RL Post-training)SFT 之后,模型进一步通过 RL 进行微调,以提升性能。

  • 训练数据:从 GROUNDCUA 中选取 1 万个未包含在 SFT 训练集中的新元素样本。

  • 优化算法:采用 Relative Leave-One-Out (RLOO) 方法 (Ahmadian et al., 2024)。 RLOO 是一种策略优化方法,通过比较每个 rollout 的奖励与同一组内其他样本的平均奖励,避免了训练单独的 critic model

    给定一组 nnrollout {y1,,yn}\{ y_1, \ldots, y_n \}梯度 (gradient) 由以下公式给出: θJ(πθ)=1ni=1n(R(yi,x)1n1jiR(yj,x)).θlogπθ(yix) \nabla _ { \theta } J ( \pi _ { \theta } ) = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \Big ( R ( y _ { i } , x ) - \frac { 1 } { n - 1 } \sum _ { j \neq i } R ( y _ { j } , x ) \Big ) . \nabla _ { \theta } \log \pi _ { \theta } ( y _ { i } | x )

    • J(πθ)J ( \pi _ { \theta } ):策略 πθ\pi_\theta目标函数 (objective function)
    • θ\theta:模型参数。
    • πθ(yix)\pi _ { \theta } ( y _ { i } | x ):在给定输入 xx 的情况下,策略 πθ\pi_\theta 生成 rollout yiy_i概率 (probability)
    • R(yi,x)R ( y _ { i } , x ):给定输入 xxrollout yiy_i 获得的 奖励 (reward)
    • xx:输入 prompt 和图像。
    • yiy_i:表示预测坐标 (p^i)(\hat{p}_i)词元序列 (sequence of tokens)
    • 1n1jiR(yj,x)\frac { 1 } { n - 1 } \sum _ { j \neq i } R ( y _ { j } , x ):作为基线,计算同一组中除当前 rollout yiy_i 之外所有其他 rollout 的平均奖励。
  • 奖励函数 (Reward Function):设计了一个定制的离散奖励 (discrete reward) 函数,基于归一化距离 (normalized distance)

    首先,计算预测坐标 p^\hat{p}ground truth 边界框 BB 之间的距离 D(p^,B)\mathcal{D}(\hat{p}, B),以及图像 II 中到边界框 BB 的最大可能距离 Dmax(B,I)\mathcal{D}_{max}(B, I)。然后,归一化距离 Dnorm\mathcal{D}_{norm} 计算如下: Dnorm=D(p^,B)Dmox(B,I) \mathcal{D}_{norm} = \frac { \mathcal { D } ( \hat { p } , B ) } { \mathcal { D } _ { m o x } ( B , I ) }

    • D(p^,B)\mathcal{D}(\hat{p}, B):预测点 p^\hat{p}ground truth 边界框 BB 的最短距离。

    • Dmax(B,I)\mathcal{D}_{max}(B, I):在图像 II 中,到边界框 BB 的最远点的距离。

    • Dnorm\mathcal{D}_{norm}:归一化距离,确保其值在 -1 到 1 之间(如果预测点在图像内)。

      定制的离散奖励函数 Rscore(p^,B,I)R_{score}(\hat{p}, B, I) 定义为: Rscore(p^,B,I)={1.0if Dnorm<0.5,0.5if 0.5Dnorm<0.1,0.1if 0.1Dnorm<0,0.1if 0Dnorm<0.1,0.5if 0.1Dnorm<0.5,1.0if Dnorm0.5, R _ { s c o r e } ( \hat { p } , B , I ) = \left\{ \begin{array} { l l } { - 1 . 0 } & { \mathrm { i f ~ } \mathcal { D } _ { n o r m } < - 0 . 5 , } \\ { - 0 . 5 } & { \mathrm { i f ~ } - 0 . 5 \le \mathcal { D } _ { n o r m } < - 0 . 1 , } \\ { - 0 . 1 } & { \mathrm { i f ~ } - 0 . 1 \le \mathcal { D } _ { n o r m } < 0 , } \\ { 0 . 1 } & { \mathrm { i f ~ } 0 \le \mathcal { D } _ { n o r m } < 0 . 1 , } \\ { 0 . 5 } & { \mathrm { i f ~ } 0 . 1 \le \mathcal { D } _ { n o r m } < 0 . 5 , } \\ { 1 . 0 } & { \mathrm { i f ~ } \mathcal { D } _ { n o r m } \ge 0 . 5 , } \end{array} \right. 这个离散奖励方案能够捕捉主要误差模式:

    • 预测点略微超出边界框会受到较轻的惩罚。

    • 预测点远超出边界框会受到较重的惩罚。

    • 预测点在边界框内会被鼓励向中心移动(Dnorm0.5\mathcal{D}_{norm} \ge 0.5 对应于预测点在边界框内且靠近中心区域)。 研究团队通过实验发现这种离散方案比连续或二元奖励方案表现更优。

  • RL 训练配置

    • 组大小 (Group Size):n=8n=8
    • 批次大小 (Batch Size):64。
    • 训练轮次:1 个 epoch
    • 硬件:单节点 8 张 H100 GPU

5. 实验设置

5.1. 数据集

  • GROUNDCUA (训练数据)

    • 来源与特点:大规模、人工标注的桌面 grounding 数据集,基于专家人类演示录制。涵盖 12 个类别的 87 款开源桌面应用程序。
    • 规模:5.6 万张屏幕截图,超过 356 万条人工验证的 UI 元素标注。平均每张截图包含 64 个标注元素。
    • 图像特性:图像平均分辨率 2.03 兆像素,范围从 0.39 到 7 兆像素。边界框相对较小,平均只覆盖图像面积的 0.13%,体现了细粒度标注。
    • 指令集:从 GROUNDCUA 中生成了包含 70 万条指令的 SFT 训练集(50% 直接指令,35% 功能指令,15% 空间指令)和 1 万条指令的 RL 训练集(未包含在 SFT 中)。
  • 基准测试数据集 (Evaluation Benchmarks): 论文在五个关键基准测试上评估 GROUNDNEXT 模型,这些基准涵盖了广泛的 grounding 场景。

    1. ScreenSpotPro (Li et al., 2025):专注于桌面交互的基准。
    2. OSWorld-G (Xie et al., 2025):专注于桌面交互的基准。
    3. UI-Vision (Nayak et al., 2025):专注于桌面交互的基准。由于其平台覆盖范围与 GROUNDCUA 有重叠,被视为 in-domain 基准。
    4. MMBench-GUI (L2) (Wang et al., 2025b):包含桌面、移动和网络界面的跨平台基准。
    5. ScreenSpotv2 (Cheng et al., 2024):包含桌面、移动和网络界面的跨平台基准。

5.2. 评估指标

本研究主要使用准确率 (Accuracy) 作为评估指标。

  • 概念定义 (Conceptual Definition): 准确率用于衡量模型将自然语言指令正确映射到屏幕上目标 UI 元素的精确程度。在一个 grounding 任务中,如果模型预测的二维点精确地落在了目标 UI 元素的 ground truth 边界框内,则认为该预测是正确的。

  • 数学公式 (Mathematical Formula): 在 grounding 任务中,对于给定的一组 NN 个指令-图像对,准确率 (Accuracy) 的计算公式为: Accuracy=i=1NI(p^iBi)N \text{Accuracy} = \frac{\sum_{i=1}^{N} \mathbb{I}(\hat{p}_i \in B_i)}{N}

  • 符号解释 (Symbol Explanation)

    • NN:测试集中指令-图像对的总数量。
    • p^i\hat{p}_i:对于第 ii 个指令-图像对,模型预测的二维坐标点。
    • BiB_i:对于第 ii 个指令-图像对,目标 UI 元素的 ground truth 轴对齐边界框。
    • I()\mathbb{I}(\cdot)指示函数 (indicator function)。如果条件为真,则 I()=1\mathbb{I}(\cdot) = 1;否则,I()=0\mathbb{I}(\cdot) = 0。在这里,如果预测点 p^i\hat{p}_i 位于边界框 BiB_i 内,则指示函数返回 1。

5.3. 对比基线

研究团队将 GROUNDNEXT 模型与多种基线模型进行了比较,这些基线代表了当前 grounding 领域最先进的技术。

1. SFT 阶段对比基线

  • Qwen2.5-VL-3B/7B (Bai et al., 2025)GROUNDNEXT 模型的基座模型,在未经微调或在 Agent mode 下的表现。

  • PhiGround-4B-7C (Zhang et al., 2025):一个 4B 参数规模的 grounding 模型。

  • JEDI-3B/7B (Xie et al., 2025):基于合成界面生成数据训练的 grounding 模型,以其大规模训练数据(900 万样本)著称。

  • GUI-Actor-3B/7B (Wu et al., 2025):另一个 grounding 领域的模型。

  • OS-Atlas-7B (Wu et al., 2024):通过可访问性树遍历构建桌面数据训练的模型。

  • UGround-V1-7B (Gou et al., 2024b):一个通用视觉 grounding 模型。

  • Aguvis-7B (Xu et al., 2024):专注于纯视觉智能体交互的模型。

    2. RL 后训练阶段对比基线

  • UI-R1-E-3B (Lu et al., 2025):一个采用 RL 增强效率的 GUI 智能体模型。

  • SE-GUI-3B/7B (Yuan et al., 2025):通过自演化强化学习增强视觉 grounding 的模型。

  • InfiGUI-R1-3B (Liu et al., 2025a) / InfiGUI-G1-3B/7B (Liu et al., 2025b):采用 RL 并在 grounding 中引入自适应探索策略的模型。

  • GUIG23B/7BGUI G2-3B/7B (Tang et al., 2025):使用高斯奖励模型进行 grounding 的模型。

  • GUI-G1-3B (Zhou et al., 2025):探索 RL-zero-like 训练的视觉 grounding 模型。

  • UI-TARS-1.5-7B (Qin et al., 2025):用于自动化 GUI 交互的原生智能体模型。

  • GTA1-7B (Yang et al., 2025):一个 GUI 测试时缩放智能体模型。

    3. Agentic 设置下的对比基线 (在 OSWorld-Verified 基准测试中)

  • 专有模型 (Proprietary Models)OpenAI o3, CUA (OpenAI), Claude-4-Sonnet/4.5-Sonnet (Anthropic), Qwen3-VL-Flash (Bai et al., 2025), UI-TARS-250705 (Qin et al., 2025)

  • 开源模型 (Open-source Models)Qwen2.5-VL-32B/72B, Kimi-VL-A3B, OpenCUA-A3B/7B/72B, UI-TARS-72B-DPO, JEDI-7B w/ o3

    这些基线模型涵盖了不同规模、不同训练范式(SFT、RL)以及不同数据来源(人工、自动化、合成)的 grounding 方法,为全面评估 GROUNDNEXT 的性能提供了坚实的基础。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. SFT 阶段的高效监督微调

GROUNDNEXT 模型在 SFT 阶段就展现出了卓越的性能。如 Table 2 所示,无论是在 3B 还是 7B 模型规模下,GROUNDNEXT (SFT) 都显著优于所有对比基线模型,并在五个基准测试中取得了最高的平均性能。

  • 3B 规模GROUNDNEXT-3B (SFT) 的平均性能为 66.4%,远超次优模型 GUI-Actor-3B 的 54.3% (包含 UI-V 结果)。即使不考虑 UI-V(由于其 in-domain 性质),GROUNDNEXT-3B (SFT) 的平均性能也达到 68.4%,相比次优模型 GUI-Actor-3B 的 63.0% 领先 5.4 个百分点。这表明即使是 3B 规模的 GROUNDNEXT,其 SFT 性能也超越了所有 RL 调优的 3B 基线。

  • 7B 规模GROUNDNEXT-7B (SFT) 的平均性能为 69.2%,相比次优的 JEDI-7B (56.1%) 领先 13.1 个百分点。不考虑 UI-V 的情况下,平均性能为 71.8%,比 JEDI-7B 领先 7.9 个百分点。

    这些结果强调了 GROUNDCUA 数据集的高质量和精细标注对于模型性能提升的关键作用。尽管 GROUNDNEXT 仅使用了 70 万条指令进行训练,远少于 JEDI 等模型的 900 万条指令,却能取得更优异的表现,证明了高质量、精心策划的数据集可以替代大规模数据量,实现高效训练。

以下是原文 Table 2 展示的 SFT-only 在五个基准测试上的结果:

Model SSPro OSW-G MMB-GUI SSv2 UI-V Avg
≈ 3B
Qwen2.5-VL-3B (Bai et al., 2025) 16.1 27.3 60.8 80.9 6.3 38.3
Qwen2.5-VL-3B (Agent mode) 29.0 37.4 60.8 81.8 6.3 43.1
PhiGround-4B-7C (Zhang et al., 2025) 22.8 51.4 60.3 80.8 20.5 47.2
JEDI-3B (Xie et al., 2025) 36.1 50.9 66.5 88.6 18.7 52.2
GUI-Actor-3B (Wu et al., 2025) 42.2 48.9 69.8 91.0 19.7 54.3
GroundNext-3B (SfT) 48.6 62.2 75.5 87.3 58.2 66.4
≈ 7B
Qwen2.5-VL-7B (Bai et al., 2025) 26.8 31.4 33.9 88.8 0.9 36.4
Qwen2.5-VL-7B (Agent mode) 29.7 42.7 67.7 86.4 16.5 48.6
OS-Atlas-7B (Wu et al., 2024) 18.9 27.7 41.4 85.1 9.0 36.4
UGround-V1-7B (Gou et al., 2024b) 16.5 36.4 65.7 87.6 12.9 43.8
Aguvis-7B (Xu et al., 2024) 39.5 38.7 45.7 86.0 13.7 44.7
GUI-Actor-7B (Wu et al., 2025) 44.6 47.0 70.9 92.1 21.9 55.3
JEDI-7B (Xie et al., 2025) 39.5 54.1 70.4 91.7 24.8 56.1
GroundNext-7B (SfT) 50.2 67.2 80.4 89.3 58.7 69.2

6.1.2. 强化学习 (RL) 后训练的提升

RL 后训练在 SFT 模型的基础上带来了持续但适度的性能提升。

  • 3B 规模GROUNDNEXT-3B (RL) 平均性能为 68.4%,比 SFT-only 模型提升了 2 个百分点。在不考虑 UI-V 的情况下,平均性能为 70.0%。

  • 7B 规模GROUNDNEXT-7B (RL) 平均性能为 70.5%,比 SFT-only 模型提升了 1.3 个百分点。

    这表明高质量的 SFT 已经捕获了模型大部分的性能,而 RL 提供了有针对性的微调以实现增量改进。

以下是原文 Table 3 展示的 RL-tuned 结果:

Model SSPro OSW-G MMB-GUI SSv2 UI-V Avg
≈ 3B
UI-R1-E-3B (Lu et al., 2025) 17.8 48.8 68.4 88.6 16.5 48.0
SE-GUI-3B (Yuan et al., 2025) 35.9 46.1 66.3 86.8 15.0 50.0
InfiGUI-R1-3B (Liu et al., 2025a) 35.7 36.4 42.9 70.6 89.5 17.8 51.3
GUI G2-3B (Tang et al., 2025) 37.1 53.5 66.3 87.6 18.7 52.5
GUI-G1-3B (Zhou et al., 2025) 49.5 71.0 89.5 20.3 53.5
InfiGUI-G1-3B (Liu et al., 2025b) 45.2 49.6 73.4 91.1 22.0 56.3
GrounDNEXT-3B (SFT) 48.6 62.2 75.5 87.3 58.2 66.4
GroundNext-3B (RL) 49.8 64.2 77.1 88.8 62.1 68.4
≈ 7B
SE-GUI-7B (Yuan et al., 2025) 47.3 33.9 34.5 68.9 16.7 40.3
UI-TARS-1.5-7B (Qin et al., 2025) 49.6 64.2 64.3 90.3 20.8 57.8
GUI G2-7B (Tang et al., 2025) 47.5 61.9 79.5 93.3 25.6 61.7
InfiGUI-G1-7B (Liu et al., 2025b) 51.9 59.9 80.8 93.5 26.1 62.4
GTA1-7B (Yang et al., 2025) 50.1 67.7 79.4 92.4 25.7 63.1
GrounDNEXt-7B (SfT) 50.2 67.2 80.4 89.3 58.7 69.2
GroundNexT-7B (RL) 52.9 67.7 81.1 90.4 60.3 70.5

6.1.3. GROUNDCUA 数据集对比其他 SFT 训练语料库

为了公平比较 GROUNDCUA 数据集的质量,研究团队在相同的基座模型 (Qwen2.5-VL-3B-Instruct) 上,使用 10 万个样本,分别从 AguvisUGroundOS-Atlas (Desktop)JEDIGROUNDCUA 中进行训练。 下图(原文 Figure 3)的黄色条形图显示,使用 GROUNDCUA 训练的模型获得了显著更高的 SFT 平均分数,这进一步证明了 GROUNDCUA 高质量、密集 grounding 监督的优势。

Figure 3: Mean SFT scores (orange) across benchmarks, with RL gains from \(1 0 \\mathrm { k }\) GROUNDCUA samples shown in blue. 该图像是条形图,展示了不同基准上 SFT 平均分数(橙色)与来自 10 ext{ k} GROUNDCUA 样本的强化学习增益(蓝色)。CUA-Ground 的平均得分最高,达到约 60 分,其他基准得分依次递减,附加增益值也一并展示。

6.1.4. Agentic 能力

OSWorld-Verified 基准测试中,使用 o3o3 规划器的 GROUNDNEXT-3B 模型展现出强大的 agentic 性能。

  • 3B 规模性能GROUNDNEXT-3B (50.6% 总体得分) 显著优于其 3B 参数级别的同行模型,如 OpenCUA-A3B (17.7%) 和 Kimi-VL-A3B (10.3%)。

  • 超越大型模型和专有 APIGROUNDNEXT-3B 甚至超越了许多更大的模型,包括 OpenCUA-72B (46.1%) 和一些专有 API,如 Qwen3-VL-Flash (41.6%) 和 Claude-4-Sonnet (41.4%)。

  • JEDI-7B 媲美:尽管只有 JEDI-7B 不到一半的规模,GROUNDNEXT-3B 在总体得分上与之相当 (50.6% vs. 51.0%),并在 5 个类别中的 3 个类别(OS, Office, Workflow)中表现更优。这凸显了 GROUNDNEXT-3B 在资源受限的真实世界系统中极高的实用价值和效率。

    以下是原文 Table 4 展示的 OSWorld-Verified 上的 Agentic 性能比较:

    Model OS Office Daily Pro Workflow Overall
    Proprietary Models
    OpenAI o3 (OpenAI, 2025) 62.5 14.5 21.4 38.8 16.5 23.0
    CUA (OpenAI, 2025) 23.9 34.6 55.1 18.3 18.3 31.4
    Claude-4-Sonnet (Anthropic, 2025a) 45.8 39.3 48.1 59.2 27.9 41.4
    Qwen3-VL-Flash (Bai et al., 2025) 40.9 53.6 55.1 22.0 22.0 41.6
    UI-TARS-250705 (Qin et al., 2025) 41.7 50.4 55.7 51.0 14.7 41.8
    Claude-4.5-Sonnet (Anthropic, 2025b) 70.8 72.6 61.4 63.3 49.0 62.9
    Open-source Models
    Qwen2.5-VL-32B (Bai et al., 2025) 8.3 1.7 6.4 6.1 2.2 3.9
    Qwen2.5-VL-72B (Bai et al., 2025) 16.7 4.3 6.4 2.0 3.2 5.0
    Kimi-VL-A3B (Kimi Team, 2025) 12.5 6.0 21.7 18.4 1.1 10.3
    OpenCUA-A3B (Wang et al., 2025a) 12.5 16.3 21.7 46.9 2.2 17.7
    UI-TARS-72B-DPO (Qin et al., 2025) 37.5 19.0 34.6 63.3 8.3 27.1
    OpenCUA-7B (Wang et al., 2025a) 41.7 22.2 37.1 49.0 9.3 27.0
    UI-TARS-1.5-7B (Qin et al., 2025) 33.3 29.9 37.9 53.1 9.1 29.6
    OpenCUA-72B (Wang et al., 2025a) 58.3 47.0 53.8 73.5 20.4 46.1
    JEDI-7B w/ o3 (Xie et al., 2025) 50.0 46.1 61.9 75.5 35.3 51.0
    GroundNext-3B w/ 03 (ours) 62.5 47.0 55.0 73.5 36.5 50.6

6.1.5. GROUNDCUA 带来的增益

  • 桌面平台性能提升:由于 GROUNDCUA 主要覆盖桌面软件,GROUNDNEXT-7B (RL)UI-VOSW-GSSPro 等桌面基准测试上取得了最佳性能。在 MMBench-GUI 等混合数据集上,GROUNDNEXT 在桌面平台上的表现比次优模型 InfiGUI-G1 提高了 3.66%,尤其在 Linux 和 macOS 上有显著提升。

  • 图标识别改进:在元素级别,图标识别取得了最显著的改进。例如,在 SSPro 上,GROUNDNEXT 在图标识别方面平均比大多数模型高出 10.7%。这得益于桌面应用程序中图标的密集性以及 GROUNDCUA 数据集在图标多样性方面的丰富知识。

    以下是原文 Table 7 展示的 SSPro 在不同类别(CAD, Dev, Creative, Scientific, Office, OS)和输入类型(Text, Icon)下的性能:

    Model CAD Dev Creative Scientific Office os Avg.
    Text Icon Text Icon Text Icon Text Icon Text Icon Text Icon Text Icon Avg.
    GPT-4o (OpenAI, 2024) 2.0 0.0 1.3 0.0 1.0 0.0 2.1 0.0 1.1 0.0 0.0 0.0 1.3 0.0 0.8
    Claude Computer Use (Anthropic, 2025a) 14.5 3.7 22.0 3.9 25.9 3.4 33.9 15.8 30.1 16.3 11.0 4.5 23.4 7.1 17.1
    Qwen2.5-VL-3B (Bai et al., 2025) 9.1 7.3 22.1 1.4 26.8 2.1 38.2 7.3 33.9 15.1 10.3 1.1 23.6 3.8 16.1
    Qwen2.5-VL-7B (Bai et al., 2025) 16.8 1.6 46.8 4.1 35.9 7.7 49.3 7.3 52.5 20.8 37.4 6.7 38.9 7.1 26.8
    ShowUI-2B (Lin et al., 2024) 2.5 0.0 16.9 1.4 9.1 0.0 13.2 7.3 15.3 7.5 10.3 2.2 10.8 2.6 7.7
    UI-TARS-2B (Qin et al., 2025) 15.8 1.2 51.9 2.8 47.5 9.7 57.6 14.5 60.5 13.2 38.3 7.9 45.2 8.1 31.1
    JEDI-3B (Xie et al., 2025) 27.4 9.4 61.0 13.8 53.5 8.4 54.2 18.2 64.4 32.1 38.3 9.0 49.8 13.7 36.1
    SeeClick-9.6B (Cheng et al., 2024) 2.5 0.0 0.6 0.0 1.0 0.0 3.5 0.0 1.1 0.0 2.8 0.0 1.8 0.0 1.1
    Aria-UI (Yang et al., 2024) 7.6 1.6 16.2 0.0 23.7 2.1 27.1 6.4 20.3 1.9 4.7 0.0 17.1 2.0 11.3
    OS-Atlas-7B (Wu et al., 2024) 12.2 4.7 33.1 1.4 28.8 2.8 37.5 7.3 33.9 5.7 27.1 4.5 28.1 4.0 18.9
    UGround-7B (Gou et al., 2024a) 14.2 1.6 26.6 2.1 27.3 2.8 31.9 2.7 31.6 11.3 17.8 0.0 25.0 2.8 16.5
    UI-TARS-7B (Qin et al., 2025) 17.8 4.7 47.4 4.1 42.9 6.3 56.9 17.3 50.3 17.0 21.5 5.6 39.6 8.4 27.7
    JEDI-7B (Xie et al., 2025) 38.0 14.1 42.9 11.0 50.0 11.9 72.9 25.5 75.1 47.2 33.6 16.9 52.6 18.2 39.5
    GUI-Actor-7B (Wu et al., 2025) 44.6
    OpenCUA-7B (Wang et al., 2025a) - 50.0
    CogAgent-18B (Hong et al., 2023) 7.1 3.1 14.9 0.7 9.6 0.0 22.2 1.8 13.0 0.0 5.6 0.0 12.0 0.8 7.7
    UI-TARS-72B (Qin et al., 2025) 18.8 12.5 62.9 17.2 57.1 15.4 64.6 20.9 63.3 26.4 42.1 15.7 50.9 17.6 38.1
    UI-R1-3B (Lu et al., 2025) 11.2 6.3 22.7 4.1 27.3 3.5 42.4 11.8 32.2 11.3 13.1 4.5 24.9 6.4 17.8
    UI-R1-E-3B (Lu et al., 2025) 37.1 12.5 46.1 6.9 41.9 4.2 56.9 21.8 65.0 26.4 32.7 10.1 33.5
    GUI-R1-3B (Luo et al., 2025) 26.4 7.8 33.8 4.8 40.9 5.6 61.8 17.3 53.6 17.0 28.1 5.6
    InfiGUI-R1-3B (Liu et al., 2025a) 33.0 14.1 51.3 12.4 44.9 7.0 58.3 20.0 65.5 28.3 43.9 12.4 49.1 14.1 35.7
    GUI-G1-3B (Zhou et al., 2025) 39.6 9.4 50.7 10.3 36.6 11.9 61.8 30.0 67.2 32.1 23.5 10.6 49.5 16.8 37.1
    SE-GUI-3B (Yuan et al., 2025) 38.1 12.5 55.8 7.6 47.0 4.9 61.8 16.4 59.9 24.5 40.2 12.4 50.4 11.8 35.9
    InfiGUI-G1-3B (Liu et al., 2025b) 50.8 25.0 64.9 20.0 51.5 16.8 68.8 32.7 70.6 32.1 49.5 15.7 - 45.2
    GUI-R1-7B (Luo et al., 2025) SE-GUI-7B (Yuan et al., 2025) 23.9 51.3 6.3 42.2 49.4 68.2 4.8 19.3 38.9 57.6 8.4 9.1 55.6 75.0 11.8 28.2 58.7 78.5 26.4 43.4 42.1 49.5 16.9 25.8 − 63.5 − 21.0 − 47.3

6.1.6. GROUNDNEXT 的跨域泛化能力

尽管主要在桌面数据上训练,GROUNDNEXT 在移动和网络界面上也展现出良好的泛化能力。

  • MMBench-GUI 上,GROUNDNEXT-7B (RL) 在移动端达到 89.2%,在网络端达到 81.9%,与次优模型 InfiGUI-G1-7B (移动端 90.9%,网络端 85.3%) 具有竞争力。

  • ScreenSpotv2 上,GROUNDNEXT 在移动端表现相当,但在网络端略逊一筹。

    这些结果表明 GROUNDCUA 促进了强大的跨领域泛化能力,但未来仍可通过结合网络和移动数据进一步提升性能。

6.1.7. 开源应用程序的影响

研究发现,使用开源软件训练对 grounding 性能有积极影响,尤其是在图标识别方面。GROUNDNEXT 在 Office Suite, Development, Creative, Scientific 和 CAD 等类别的图标识别中表现最佳,并在 OS 类别中排名第二。例如,在 Development 和 Creative 类别中,图标准确率分别比次优模型 InfiGUI-G1-7B 高出 15.9% 和 8.4%。这归因于 GROUNDCUA 中包含的开源 Office 软件(如 LibreOffice)以及多样化的开源开发和创意工具。

6.2. 数据呈现 (表格)

以下是原文 Table 8 展示的 OSWORLD-G 在多个能力维度上的模型性能比较:

Model Text Matching Element Recognition Layout Understanding Fine-grained Manipulation Refusal Overall
OS-Atlas-7B (Wu et al., 204) 44.1 29.4 35.2 16.8 7.4 27.7
UGround-V1-7B (Gou et al., 2024b) 51.3 40.3 43.5 24.8 0.0 36.4
Aguvis-7B (Xu et al., 202 55.9 41.2 43.9 28.2 0.0 38.7
UI-TARS-7B (Qin et al., 2025) 60.2 51.8 54.9 35.6 0.0 47.5
Seed1.5-VL (Seed Team, 2025) 73.9 66.7 69.6 47.0 18.5 62.9
UI-TARS-72B (Qin et al., 2025) 69.4 60.6 62.9 45.6 0.0 57.1
Gemini-2.5-Pro (Gemini Team, 2025) 59.8 45.5 49.0 33.6 38.9 45.2
Operator (OpenAI, 2025) 51.3 42.4 46.6 31.5 0.0 40.6
Qwen2.5-VL-3B (Bai et al., 2025) 41.4 28.8 34.8 13.4 0.0 27.3
Qwen2.5-VL-7B (Bai et al., 2025) 45.6 32.7 41.9 18.1 0.0 31.4
Qwen2.5-VL-32B (Bai et al., 2025) 63.2 47.3 49.0 36.9 0.0 46.5
JEDI-3B (Xie et al., 2025) 67.4 53.0 53.8 44.3 7.4 50.9
JEDI-7B (Xie et al., 2025) 65.9 55.5 57.7 46.9 7.4 54.1
InfiGUI-G1-3B (Liu et al., 2025b) 65.5 53.0 56.1 34.2 0.0 49.6
InfiGUI-G1-7B (Liu et al., 2025b) 72.0 63.6 66.8 46.3 0.0 59.9
GTA-1-7B (Yang et al., 2025) 63.2 82.1 74.2 70.5 0.0 67.7
Our Models
GroundNexT-3B (SFT) 67.4 68.8 68.4 43.0 0.0 62.2
GroundNEXT-3B (RL) 70.9 71.2 70.8 43.6 0.0 64.2
GroundNext-7B (SfT) 72.4 73.3 73.1 53.7 0.0 67.2
GroundNexT-7B (RL) 74.3 73.9 73.5 51.7 0.0 67.7

以下是原文 Table 9 展示的 MMBench-GUI 跨平台(Windows, MacOS, Linux, iOS, Android, Web)的模型性能比较:

Model Windows MacOS Linux i0s Android Web Avg
Basic Adv. Basic Adv. Basic Adv. Basic Adv. Basic Adv. Basic Adv.
GPT-4o (OpenAI, 2024) 1.5 1.1 8.7 4.3 1.1 1.0 5.1 3.3 2.5 1.4 3.2 2.9 2.9
Claude-3.7 (Anthropic, 2024b) 1.5 0.7 12.5 7.5 1.1 0.0 13.7 10.6 1.4 1.4 3.2 2.3 4.7
Qwen-Max-VL (Bai et al., 2023) 43.9 36.8 58.8 56.1 53.9 30.1 77.4 59.1 79.5 70.1 74.8 58.8 58.0
ShowUI-2B (Lin et al., 2024) 9.2 4.4 24.1 10.4 25.1 11.7 29.0 19.7 17.4 8.7 22.9 12.7 16.0
Qwen2.5-VL-7B (Bai et al., 2025) 31.4 16.5 31.3 22.0 21.5 10.2 66.6 55.2 35.1 35.2 40.3 32.5 33.9
Qwen2.5-VL-72B (Bai et al., 2025) 55.7 33.8 49.9 30.1 40.3 20.9 56.1 28.2 55.6 25.4 68.4 45.8 41.8
OS-Atlas-Base-7B (Wu et al., 2024) 36.9 18.8 44.4 21.7 31.4 13.3 74.8 48.8 69.6 46.8 61.3 35.4 41.4
Aguvis-7B-720P (Xu et al., 2024) 37.3 21.7 48.1 33.3 33.5 25.0 67.5 65.2 61.0 51.0 61.6 45.5 45.7
UI-TARS-1.5-7B (Qin et al., 2025) 68.3 39.0 69.0 44.5 64.4 37.8 88.5 69.4 90.5 69.3 81.0 56.5 64.3
UI-TARS-72B-DPO Qin et al. (2025) 78.6 51.8 80.3 62.7 68.6 51.5 90.8 81.2 93.0 80.0 88.1 68.5 74.3
UGround-V1-7B (Gou et al., 2024b) 66.8 39.0 71.3 48.6 56.5 31.1 92.7 70.9 93.5 71.0 88.7 64.6 65.7
InternVL3-72B (Zhu et al., 2025) 70.1 42.6 75.7 52.3 59.2 41.3 93.6 80.6 92.7 78.6 90.7 65.9 72.2
Naive RLVR-3B (Liu et al., 2025b) 68.6 44.5 78.6 50.0 61.3 39.3 92.4 76.4 91.3 76.1 87.4 63.0 70.9
Naive RLVR-7B (Liu et al., 2025b) 79.3 58.1 82.3 62.7 64.4 44.9 94.9 89.1 95.5 84.2 92.9 79.5 79.3
InfiGUI-G1-3B (Liu et al., 2025b) 74.2 47.1 78.8 55.2 65.4 41.8 95.2 78.8 92.1 78.0 89.7 64.3 73.4
InfiGUI-G1-7B (Liu et al., 2025b) 82.7 61.8 83.8 63.9 72.3 52.0 94.9 89.4 95.2 85.6 93.5 76.3 80.8
Our Models
GroundNext-3B (SfT) 81.5 50.7 52.6 85.8 87.2 64.2 73.8 53.6 93.0 94.9 77.0 78.5 90.4 73.8 88.1 59.7 75.5
GroundNext-3B (RL) 80.4 83.8 60.7 86.7 64.5 69.9 70.7 75.4 57.1 61.2 94.3 83.3 91.9 94.9 78.0 79.4 90.6 91.0 64.3 70.5 77.1
GroundNext-7B (SfT) GroundNext-7B (RL) 81.5 60.7 87.8 73.1 75.4 59.2 95.2 86.1 95.5 80.3 90.97 72.7 80.4
81.1

以下是原文 Table 10 展示的 ScreenSpot-V2 跨平台(Mobile, Desktop, Web)和模态(Text, Icon/Widget)的模型性能比较:

Model Mobile Desktop Web Avg.
Text Icon/Widget Text Icon/Widget Text Icon/Widget
SeeClick (Cheng et al., 2024) 78.4 50.7 70.1 29.3 55.2 32.5 55.1
OS-Atlas-Base-7B (Wu et al., 2024) 95.2 75.8 90.7 63.6 90.6 77.3 85.1
UI-TARS-7B (Qin et al., 2025) 96.9 89.1 95.4 85.0 93.6 85.2 91.6
UI-TARS-72B (Qin et al., 2025) 94.8 86.3 91.2 87.9 91.5 87.7 90.3
Qwen2.5-VL-3B (Bai et al., 2025) 93.4 73.5 88.1 58.6 88.0 71.4 80.9
Qwen2.5-VL-7B (Bai et al., 2025) 97.6 87.2 90.2 74.2 93.2 81.3 88.8
Qwen2.5-VL-32B (Bai et al., 2025) 97.9 88.2 98.5 79.3 91.2 86.2 91.3
InfiGUI-G1-3B (Liu et al., 2025b) 99.3 88.2 94.8 82.9 94.9 80.3 91.1
InfiGUI-G1-7B (Liu et al., 2025b) 99.0 91.9 94.3 82.1 97.9 89.2 93.5
Our Models
GroundNext-3B (SfT) 95.2 80.6 93.8 84.3 87.6 78.8 87.3
GroundNext-3B (RL) 94.8 96.4 93.9 87.1 90.6 79.3 88.5
GroundNext-7B (SfT) 97.2 84.8 94.3 90.0 91.5 74.9 89.3
GroundNexT-7B (RL) 96.6 88.2 95.4 87.9 94.9 75.9 90.4

以下是原文 Table 11 展示的 UI-Vision 在分组(按设置:Basic, Functional, Spatial)和总体的模型性能比较:

Model Grouped by Setting Overall
Basic Func. Spatial
GPT-4o (OpenAI, 2023) 1.6 1.5 1.0 1.4
Claude-3.7-Sonnet (Anthropic, 2024b) 9.5 7.7 7.6 8.3
1.2 0.8 0.5 0.9
Qwen-2.5VL-7B (Bai et al., 2025) InternVL2.5-8B (Chen et al., 2025) 2.5 2.8 1.0 2.1
MiniCPM-V-8B (Yao et al., 2024) 7.1 5.3 1.5 4.3
SeeClick-9.6B (Cheng et al., 2024) 9.4 4.7 2.1 5.4
ShowUI-2B (Lin et al., 2024) 8.1 7.7 2.1 5.9
CogAgent-9B (Hong et al., 2023) 12.0 12.2 2.6 8.9
OSAtlas-7B (Wu et al., 2024) 12.2 11.2 3.7 9.0
AriaUI-25.3B (Yang et al., 2024) 12.2 14.0 4.0 10.1
UGround-v1-7B (Gou et al., 2024b) 15.4 17.1 6.3 12.9
UGround-v1-72B (Gou et al., 2024b) 27.9 26.7 14.9 23.2
Aguvis-7B (Xu et al., 2024) 17.8 18.3 5.1 13.7
UI-TARS-7B (Qin et al., 2025) 20.1 24.3 8.4 17.6
UI-TARS-72B (Qin et al., 2025) 31.4 30.5 14.7 25.5
InfiGUI-G1-3B (Liu et al., 2025b) 31.2 28.0 8.2 22.0
InfiGUI-G1-7B (Liu et al., 2025b) 36.2 31.9 11.5 26.1
Our Models
GroundNext-3B (SfT) 70.9 59.8 45.1
GroundNext-3B (RL) 72.9 63.9 50.6 58.2 62.1
GroundNext-7B (SfT) 67.1 60.0 49.9 58.7
GroundNext-7B (RL) 70.1 62.0 49.9 60.3

6.3. 消融实验/参数分析

论文中没有明确提出独立的“消融实验”部分,但通过以下方式间接分析了关键因素的影响:

  • GROUNDCUA 数据质量的影响:通过比较在 GROUNDCUA 和其他基线数据集(Aguvis, UGround, OS-Atlas (Desktop), JEDI)上训练相同基座模型 (Qwen2.5-VL-3B-Instruct) 的性能,证明了 GROUNDCUA 的高质量数据对 SFT 性能的显著提升(如 Figure 3 所示)。这间接验证了 GROUNDCUA 数据集设计(人工专家演示、密集标注、多样化应用)的有效性。
  • SFTRL 的作用:通过对比 GROUNDNEXT (SFT)GROUNDNEXT (RL) 的性能,分析了 RL 后训练带来的增益。结果显示,高质量 SFT 已经捕获了模型大部分性能,RL 提供了持续但适度的改进。这表明 SFT 奠定了坚实的基础,而 RL 进行了有针对性的精炼。论文还观察到,SFT 性能越强的模型,RL 带来的绝对增益越小,因为可供 RL 修正的误差更少。
  • 训练数据量效率GROUNDNEXT 在仅使用 70 万 SFT 训练数据的情况下,超越了使用数百万甚至千万级别数据训练的基线模型,直接证明了 GROUNDCUA 数据集在训练效率上的优势。

7. 总结与思考

7.1. 结论总结

本研究引入了 GROUNDCUA,一个大规模、高质量、人工标注的桌面 grounding 数据集,涵盖 87 款应用程序,拥有超过 356 万条细粒度标注。基于此数据集,研究团队开发了 GROUNDNEXT 系列视觉-语言模型,该模型通过两阶段(监督微调和强化学习)训练,在多个挑战性 grounding 基准测试中实现了最先进的性能。

核心结论是,高质量、专家驱动的数据集能够比单纯增加数据量更有效地驱动可靠的桌面 grounding 性能。GROUNDNEXT 在使用远少于现有工作的训练数据量(70 万条指令)的情况下,仍能超越或媲美更大型模型,这验证了数据质量的决定性作用。此外,模型在 agentic 设置下也表现出色,并在跨平台泛化方面展现潜力。通过发布 GROUNDCUAGROUNDNEXT 模型,本研究为通用计算机使用智能体领域奠定了坚实基础。

7.2. 局限性与未来工作

论文作者指出了以下局限性及未来研究方向:

  • 数据集覆盖范围:尽管 GROUNDCUA 涵盖 87 款应用程序,但仍可能无法完全代表桌面软件的全部多样性,且数据偏向常用应用。
  • 动态元素捕捉:基于关键帧的标注只捕获静态 UI 状态,未能体现动画和实时更新等动态元素。
  • 标注一致性与可扩展性:大规模人工标注仍可能引入不一致性,且标注的时间和成本限制了其进一步扩展。
  • 评估侧重:目前的评估主要集中在基准测试准确率,但真实世界应用还需要模型对分布变化、新应用版本和 UI 更新的鲁棒性,这些方面需进一步探索。
  • 端到端 agentic 测试:论文未进行端到端任务完成的 agentic 测试,这仍是未来工作的重要方向。
  • 模型规模与性能:目前模型规模有限(3B 和 7B),未来可探索更大规模的模型及相应的数据微调策略,以进一步提升性能。
  • 更精密的 RL 奖励信号:目前 RL 使用了相对简化的奖励函数,GROUNDCUA 的密集标注有望支持开发更精确、表达性更强的 RL 奖励信号,从而系统性地研究不同奖励设计对 grounding 准确率的影响。
  • 跨域泛化:虽然 GROUNDNEXT 表现出一定的跨域泛化能力,但桌面、移动和网络环境之间仍存在复杂的工作流差异。未来工作可探索如何平衡和整合这些领域的数据,以构建能无缝跨平台操作的模型。
  • 持续学习与适应GROUNDCUA 包含平台和类别级元数据,这为研究智能体如何适应未见应用和通过持续学习不断改进提供了可能。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了几个重要的启发:

  • 数据质量的重要性超越数据数量:在 AI 领域,我们常常追求更大规模的数据集,但本文明确指出,高质量、高密度、专家标注的数据集可以在显著减少数据量的情况下,达到甚至超越大规模、低质量数据集的性能。这对于资源有限的团队或特定领域的深耕具有重要指导意义。
  • 桌面 grounding 的挑战与机遇:桌面环境的复杂性是 CUA 领域的一个长期挑战。GROUNDCUA 数据集为这一复杂场景提供了急需的、高质量的训练资源,有望解锁更多桌面自动化和智能交互的应用。
  • 两阶段训练范式的有效性SFT 奠定基础,RL 精炼细节的训练范式在 grounding 任务中被证明是高效的。这种方法可以启发其他 VLM 任务的训练策略设计。
  • 开源生态的价值:论文通过专注于开源应用程序构建数据集,不仅规避了许可限制,也促进了 UI 元素和布局与闭源软件的通用性,为开放研究做出了贡献。
  • 指令多样性:通过生成 DirectFunctionalSpatial 等不同类型的指令,能够更好地模拟真实用户交互的多样性,提高模型的鲁棒性。

7.3.2. 批判性思考

  • 标注成本与可扩展性:虽然人工专家标注保证了数据质量,但其高昂的成本和耗时性是显而易见的局限。未来如何平衡质量与可扩展性,例如通过半自动化或众包结合专家验证的方式,是需要探讨的问题。
  • 动态交互的缺失:仅基于关键帧的静态截图无法完全捕获动态 UI 元素和复杂的用户工作流(如拖拽、多步表单填写、动画反馈)。这限制了智能体在处理这些场景时的真实世界表现。未来的数据集和模型可能需要融入视频或更丰富的交互序列。
  • 奖励函数设计的潜力:论文指出 RL 阶段的奖励函数相对简单,并提到 GROUNDCUA 的密集标注可以支持更精密的奖励信号设计。这意味着目前的 RL 性能可能尚未达到其全部潜力,更复杂的 RL 策略(如结合任务完成度、效率、用户体验等)可能会带来更大的突破。
  • 跨域泛化挑战:尽管模型展现出一定的跨域泛化能力,但在网络端表现略逊一筹,这提示桌面、移动和网络之间的 UI/UX 差异依然巨大。模型是否能真正实现无缝跨平台操作,以及如何有效平衡不同领域的训练数据,仍是悬而未决的问题。
  • 模型解释性:论文专注于性能提升,但对于模型为何在某些类别或元素(如图标)上表现特别好,其内在机制(例如是否学习到了特定视觉模式或语义关联)的解释性分析较少。增强模型的可解释性有助于进一步优化设计。
  • 长期稳定性与实时性:在真实 CUA 应用中,软件更新频繁,UI 布局可能发生变化。模型对这些变化的适应性(长期稳定性)和实时推理速度(对于用户体验至关重要)是需要关注的实际挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。