AiPaper
论文状态:已完成

Smoothing Grounding and Reasoning for MLLM-Powered GUI Agents with Query-Oriented Pivot Tasks

发表:2025/03/01
原文链接PDF 下载
价格:0.10
价格:0.10
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出查询推理作为坐标导向定位与动作导向推理之间的桥梁,显著提升了资源受限条件下MLLM驱动GUI智能体的性能。该方法用极少训练数据实现了超越大型定位模型的效果,且融合额外语义信息可进一步增强推理能力。

摘要

Perception-enhanced pre-training, particularly through grounding techniques, is widely adopted to enhance the performance of graphical user interface (GUI) agents. However, in resource-constrained scenarios, the format discrepancy between coordinate-oriented grounding and action-oriented reasoning limits the effectiveness of grounding for reasoning tasks. To address this challenge, we propose a query-oriented pivot approach called query inference, which serves as a bridge between GUI grounding and reasoning. By inferring potential user queries from a screenshot and its associated element coordinates, query inference improves the understanding of coordinates while aligning more closely with reasoning tasks. Experimental results show that query inference outperforms previous grounding techniques under the same training data scale. Notably, query inference achieves comparable or even better performance to large-scale grounding-enhanced OS-Atlas with less than 0.1% of training data. Furthermore, we explore the impact of reasoning formats and demonstrate that integrating additional semantic information into the input further boosts reasoning performance. The code is publicly available at https://github.com/ZrW00/GUIPivot.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Smoothing Grounding and Reasoning for MLLM-Powered GUI Agents with Query-Oriented Pivot Tasks (通过查询导向的枢纽任务平滑 MLLM 驱动的 GUI 智能体的定位与推理)

1.2. 作者

Zongru Wu, Pengzhou Cheng, Zheng Wu, Tianjie Ju, Zhuosheng Zhang*, Gongshen Liu* (*为通讯作者) 作者均来自上海交通大学电子信息与电气工程学院。

1.3. 发表期刊/会议

预印本 (arXiv preprint)

1.4. 发表年份

2025年 (发布于 2025-03-01T08:29:59.000Z)

1.5. 摘要

多模态大语言模型 (MLLM) 驱动的图形用户界面 (GUI) 智能体 (agent) 通常采用感知增强预训练,尤其是通过定位 (grounding) 技术来提升性能。然而,在资源受限的场景中,坐标导向的定位与动作导向的推理之间存在的格式差异限制了定位任务对推理任务的有效性。为了解决这一挑战,本文提出了一种名为查询推理 (query inference) 的查询导向枢纽方法,作为 GUI 定位与推理之间的桥梁。通过从屏幕截图及其相关的元素坐标推断潜在的用户查询,查询推理不仅增强了对坐标的理解,而且与推理任务更加紧密地对齐。实验结果表明,在相同训练数据规模下,查询推理优于之前的定位技术。值得注意的是,查询推理仅使用不到 0.1% 的训练数据,就实现了与大规模定位增强模型 OS-Atlas 相当甚至更优的性能。此外,本文还探讨了推理格式的影响,并证明将额外的语义信息整合到输入中可以进一步提升推理性能。代码已公开。

1.6. 原文链接

官方来源或 PDF 链接:

  • 原文链接: https://arxiv.org/abs/2503.00401
  • PDF 链接: https://arxiv.org/pdf/2503.00401v2.pdf 发布状态: 预印本。

2. 整体概括

2.1. 研究背景与动机

核心问题: MLLM 驱动的 GUI 智能体在资源受限(模型规模和可用训练数据量有限)的场景下,其性能提升受到限制。具体而言,传统的“定位 (grounding)”任务(将用户查询映射到 GUI 元素坐标)与“推理 (reasoning)”任务(预测一系列动作以达成高层目标)之间存在任务格式差异:定位是坐标导向 (coordinate-oriented) 的,而推理是动作导向 (action-oriented) 的,需要深刻理解高层用户意图。这种格式差异导致在资源受限时,即便进行了定位预训练,对推理性能的提升也微乎其微。

为什么这个问题在当前领域是重要的: 随着多模态大语言模型 (MLLM) 的兴起,它们为提升 GUI 智能体的功能和效率提供了有前景的解决方案。然而,大多数 MLLM 很少在 GUI 屏幕截图上进行预训练,导致它们在理解高密度 GUI 环境时存在困难。因此,感知增强预训练任务(尤其是定位)被引入以改善 GUI 环境的理解。尽管定位在增强推理方面取得了成功,但它通常需要大规模的训练数据(例如数千万级别)。在实际应用中,特别是个性化智能体等场景,模型规模和训练数据往往是受限的。在这种“资源受限场景 (resource-constrained scenarios)”下,如何有效利用有限数据提升 GUI 智能体的推理能力是一个亟待解决的问题。

现有研究存在的具体挑战或空白 (Gap): 现有的定位技术虽然能够提升 MLLM 对 GUI 环境的感知能力,但其输出是坐标,而推理任务需要的是具体的动作及其参数(可能包含文本、坐标等),并且需要理解更抽象的用户意图。在资源充足的情况下,大规模数据可以弥合这种差异,但在资源受限时,这种任务格式的差异就成为了一个显著的瓶颈,导致定位对推理的实际效益不明显。

这篇论文的切入点或创新思路: 本文的创新点在于提出了“查询推理 (query inference)”这一概念,旨在弥合坐标导向的定位与动作导向的推理之间的鸿沟。它不是简单地从查询预测坐标(定位),而是从坐标和屏幕截图反向推断出用户可能的高层意图查询。这种“逆向”任务的提出,使得模型在学习坐标信息的同时,也能学习到与高层意图相关的语义信息,从而更好地与动作导向的推理任务对齐。

2.2. 核心贡献/主要发现

本文的主要贡献总结如下:

  • 识别并揭示了问题: 首次系统性地探讨了在资源受限场景下,坐标导向的定位 (grounding) 与动作导向的推理 (reasoning) 之间任务格式差异导致的性能瓶颈,发现传统定位对推理的改进效果微乎其微。
  • 提出了创新方法: 提出了一种名为查询推理 (query inference) 的查询导向枢纽方法,作为平滑 GUI 定位与推理之间衔接的桥梁。该方法通过从屏幕截图和元素坐标推断用户意图查询,有效地增强了模型对坐标的理解,并使其更好地与动作导向的推理任务对齐。
  • 验证了方法有效性: 通过广泛实验证明了查询推理在资源受限场景中的有效性和潜力。
    • 在相同数据规模下,查询推理的性能优于传统的定位技术。
    • 更显著的是,查询推理仅使用了不到 0.1% 的训练数据,就能够达到甚至超越大规模定位增强模型 OS-Atlas 的性能,显示出其在数据效率上的巨大优势。
  • 探讨了推理格式的影响: 进一步研究了链式思考 (CoT) 增强推理对 MLLM 驱动的 GUI 智能体的影响,发现将额外的语义信息(如屏幕描述、历史动作结果)整合到输入中可以显著提升推理性能,而将中间推理结果加入输出则可能导致性能下降。

3. 预备知识与相关工作

本节旨在为读者提供理解论文方法和贡献所需的基础背景知识,并介绍相关领域的前沿工作。

3.1. 基础概念

  • 多模态大语言模型 (Multimodal Large Language Models, MLLMs): MLLMs 是指能够处理和理解多种类型数据(例如文本、图像、音频)的大型语言模型。它们结合了视觉编码器和语言解码器,使得模型能够同时从视觉输入和文本指令中学习,并生成相应的文本或动作。在 GUI 智能体领域,MLLMs 可以直接分析屏幕截图,理解视觉布局和元素,并根据用户指令做出决策。
  • 图形用户界面 (Graphical User Interface, GUI): GUI 是一种允许用户通过图形图标、视觉指示器或特殊音效等方式与电子设备交互的界面。GUI 智能体 (GUI agent) 的目标是像人类用户一样,通过感知 GUI 环境并执行一系列操作(如点击、输入、滚动)来完成特定任务。
  • 感知增强预训练 (Perception-enhanced Pre-training): 大多数 MLLMs 主要在自然图像上进行预训练,对高密度、结构化的 GUI 环境理解能力不足。为了弥补这一差距,研究人员开发了感知增强预训练任务,专门利用 GUI 屏幕截图来训练模型,使其更好地识别、理解和解释 GUI 元素及其功能。
  • 定位 (Grounding): 在 GUI 领域,定位是一种常见的感知增强预训练任务。其目的是根据用户的查询(例如“点击时钟图标”、“找到搜索框”),在屏幕截图中准确地识别并定位到对应的 GUI 元素,输出其坐标(可以是点或边界框)。传统的定位任务通常是“查询到坐标”的映射。
  • 推理 (Reasoning): 对于 GUI 智能体而言,推理是指模型根据当前屏幕截图、历史操作和高层目标,预测出接下来需要执行的一系列动作(包括动作类型和参数,如点击坐标、输入文本),以逐步达成用户指定的目标。推理任务通常需要对用户意图有更深层次的理解和规划能力。
  • 资源受限场景 (Resource-constrained Scenarios): 本文特指那些模型规模较小(例如 7B 参数量级别)且可用的训练数据量有限(例如数千到数万样本)的应用场景。这与需要数百万甚至数千万样本进行训练的大规模模型形成对比。
  • 链式思考 (Chain-of-Thought, CoT): CoT 是一种提示技术,通过引导大语言模型生成一系列中间推理步骤或解释,来提高其在复杂任务上的推理能力。在 GUI 智能体中,CoT 可以包括屏幕描述、前一步动作结果、动作意图等语义信息,以帮助模型更好地理解情境并做出决策。

3.2. 前人工作

  • MLLM 驱动的 GUI 智能体 (MLLM-powered GUI Agents):
    • 随着 Yin et al., 2024; Wang et al., 2024; Wu et al., 2024a 等 MLLMs 的发展,它们为开发 GUI 智能体 (Zhang and Zhang, 2024; Zhang et al., 2024a; Ma et al., 2024) 带来了巨大潜力。
    • 与传统需要系统级权限访问文本表示 GUI 环境 (Zhou et al., 2024; Deng et al., 2024) 的方法不同,MLLM 驱动的智能体能直接利用视觉模块感知和交互 GUI 环境,执行 CLICK (点击), TYPE (输入), SCROLL (滚动) 等类似人类的操作,而无需依赖编程接口 (Sun et al., 2024a) 或 API 调用 (Wu et al., 2024b; Zhang et al., 2024b)。
  • 感知增强预训练 (Perception-enhanced Pre-training):
    • 由于大多数开源 MLLMs 主要在自然图像上预训练,难以感知高密度的 GUI 环境 (Wu et al., 2025),因此感知增强预训练被广泛采用来提高 GUI 理解能力。
    • 定位 (Grounding): 最普遍的预训练任务之一,它识别并定位用户查询对应的 GUI 元素 (Wu et al., 2025; Qian et al., 2024)。
    • GUI 引用 (GUI Referring): 为特定 GUI 元素生成描述 (Zhang et al., 2024d; You et al., 2025)。
    • 屏幕问答 (Screen Question Answering): 回答关于屏幕内容和功能的问题 (Baechler et al., 2024; Chen et al., 2024a)。
    • 挑战: 这些感知增强预训练通常需要大规模训练数据,在资源受限场景下的可行性尚未充分探索。
  • CoT 增强推理 (CoT Enhanced Reasoning):
    • 近年来,链式思考 (Chain-of-Thought, CoT) (Wei et al., 2022; Zhang et al., 2024e; Chu et al., 2024) 被引入 GUI 智能体以增强推理能力 (Zhang et al., 2024c; Sun et al., 2024b)。
    • 通过利用专有 MLLMs 作为标注模型 (Achiam et al., 2023; Bai et al., 2023),自动生成语义信息来丰富训练数据,从而改善推理。
    • 具体而言,屏幕描述 (Screen Descriptions, SD), 前一步动作结果 (Previous Action Results, PAR), GUI 布局 (GUI Layouts) (Ma et al., 2024) 等作为输入增强感知;而动作思考 (Action Thoughts, AT), 下一步动作描述 (Next Action Descriptions, AD) 等中间推理结果则作为输出增强推理过程。

3.3. 技术演进

GUI 智能体的技术演进可以概括为从早期的基于编程接口和文本解析的交互方式,逐步发展到利用视觉信息进行感知和交互。MLLM 的出现进一步推动了这一进程,使得智能体能够以更接近人类的方式理解和操作 GUI。然而,由于 MLLM 预训练数据与 GUI 领域存在差异,感知增强预训练(如定位)变得至关重要。在此基础上,为了提升推理能力和处理复杂任务,CoT 等技术被引入,通过提供额外语义信息和中间推理步骤来优化决策过程。本文的工作正是在这一背景下,针对资源受限场景中定位与推理的衔接问题提出了创新解决方案。

3.4. 差异化分析

本文提出的查询推理 (query inference) 方法与传统定位以及其他感知增强预训练方法存在显著差异:

  • 与传统定位 (Grounding) 的区别: 传统定位是从用户查询GUI 元素坐标的映射(即 s,q{c}\langle s, q \rangle \to \{c\})。而查询推理是其逆过程,是从GUI 屏幕截图和元素坐标反向推断用户意图查询(即 s,c{qr}\langle s, c \rangle \to \{q_r\})。这种逆向任务使得模型在学习坐标的同时,能够理解这些坐标背后所代表的用户高层意图,从而更好地桥接感知与推理。
  • 与 GUI 引用和屏幕问答的区别: GUI 引用侧重于为 GUI 元素生成自然语言描述,屏幕问答侧重于回答关于屏幕内容的问题。虽然这些任务也涉及语义理解,但它们没有明确地构建“坐标到意图查询”的映射,也未被设计为连接定位和动作推理的枢纽任务。
  • 在资源受限场景中的关注点: 现有的感知增强预训练方法(包括大规模定位)通常需要海量数据才能有效。本文专注于资源受限场景,通过设计一个更有效率的枢纽任务,使得在有限数据下也能达到甚至超越大规模模型的性能,这是其核心的差异化优势。
  • 与 CoT 增强推理的结合: 虽然 CoT 增强推理被广泛应用,本文不仅利用其生成高质量的细化查询,还深入探讨了在不同 CoT 组件(输入语义信息、输出中间推理结果)下查询推理的性能表现,并提出了有价值的见解。

4. 方法论

本论文的核心目标是解决在资源受限场景下,坐标导向的定位 (grounding) 与动作导向的推理 (reasoning) 之间的格式差异问题,从而平滑两者的衔接。为此,作者提出了一种名为查询推理 (query inference) 的查询导向枢纽方法。

4.1. 方法原理

论文指出,推理任务需要深刻理解用户意图,而传统的定位任务仅将低级查询与屏幕坐标对齐。这种格式差异在数据量和模型规模受限时尤为突出。查询推理的核心原理是:与其直接训练模型将查询映射到坐标(即定位),不如训练模型从给定的屏幕截图和 GUI 元素坐标中推断出用户可能的高层意图查询。通过这种“逆向”学习,模型不仅学会了识别坐标,更重要的是,它将坐标与高层语义意图关联起来,从而更好地与动作导向的推理任务对齐。这相当于在模型中构建了一个从具体视觉位置到抽象用户意图的理解桥梁。

4.2. 核心方法详解 (逐层深入)

4.2.1. 定位与推理的公式化

首先,论文阐述了传统定位和推理任务的数学形式,以凸显两者之间的任务格式差异。

  • 定位 (Grounding) 定位是一个广泛采用的感知增强预训练任务,旨在根据屏幕截图 ss 和低级非意图查询 qq,定位特定 GUI 元素的坐标 cc。这里的查询 qq 可以是明确的指令(如“点击时钟图标”),也可以是更复杂的、需要额外推理的隐式指令(如“点击左上角的回家按钮”)。坐标 cc 可以表示为点或边界框。 其形式化表示为: G:{s,q}{c} \mathcal { G } : \{ \langle s , q \rangle \} \to \{ c \} 符号解释:

    • ss: 当前的 GUI 屏幕截图 (screenshot)。
    • qq: 用户输入的查询 (query),可以是低级指令或更复杂的意图。
    • cc: GUI 元素的坐标 (coordinates),可以是点或边界框。
    • G\mathcal{G}: 定位函数,将屏幕截图和查询映射到坐标。
  • 推理 (Reasoning) 推理任务是基于对 GUI 环境的感知,预测一系列动作以实现高层最终目标。在第 ii 步,智能体感知当前屏幕截图 sis_i 和历史动作 {a<i}\{a_{<i}\},以预测当前动作 aia_i 来实现最终目标 gg。动作 aia_i 通常包括动作类型 tt 和动作参数 pp(可能包含输入的文本或坐标 cc)。最近,可选的链式思考 (CoT) 组件(如中间推理思考 rr)也被引入到 aia_i 中以增强推理。 其形式化表示为: R:{si,{a<i},g}{ai} \mathscr { R } : \{ s _ { i } , \{ a _ { < i } \} , g \} \to \{ a _ { i } \} 符号解释:

    • sis_i: 第 ii 步的当前 GUI 屏幕截图。
    • {a<i}\{a_{<i}\}: 第 ii 步之前的历史动作序列。
    • gg: 智能体需要实现的最终高层目标。
    • aia_i: 第 ii 步预测的当前动作。
    • R\mathscr{R}: 推理函数,将当前状态(屏幕截图、历史动作、目标)映射到下一个动作。

格式差异分析: 论文指出,推理是动作导向 (action-oriented) 的,需要深刻理解高层用户意图,而定位是坐标导向 (coordinate-oriented) 的,仅将低级查询与单个屏幕截图中的坐标对齐,缺乏对高层意图的感知。这种格式差异在资源受限场景中尤为明显,限制了定位对推理的有效性。

4.2.2. 构建查询推理样本的三步流程

为了弥合上述差距,论文提出了查询推理 (query inference) 方法。该方法的数据构建灵感来源于利用专有 MLLM (proprietary MLLMs) 作为标注模型来生成 CoT 注释。具体而言,构建查询推理样本采用以下三步流程,如图 2 所示:

该图像是一个示意图,展示了通过查询细化和重新定位坐标实现多模态输入的三元组到四元组的转换流程,包括使用提示模型进行查询细化和重新定位,以及对重新定位准确性的分析和保存或丢弃决策。 该图像是一个示意图,展示了通过查询细化和重新定位坐标实现多模态输入的三元组到四元组的转换流程,包括使用提示模型进行查询细化和重新定位,以及对重新定位准确性的分析和保存或丢弃决策。

图 2: 构建查询推理样本的三步流程图。首先,利用专有 MLLM 根据相应坐标和屏幕截图,将低级非意图查询细化为意图化的格式化查询。其次,利用专有 MLLM 根据细化后的查询进行重新定位。最后,分析预测坐标的准确性以决定是否保存该样本。

  1. 查询细化 (Query Refinement) 这一步的目标是将原始定位数据中低级、非意图的查询 qq 转换为更具用户意图的、格式化的查询 qrq_r

    • 方法: 作者利用专有 MLLM,具体是 Qwen-VL-Max (Bai et al., 2023),作为细化模型 Mr\mathcal { M } _ { r }
    • 提示 (Prompting): 通过精心设计的提示,引导 Mr\mathcal { M } _ { r } 根据屏幕截图 ss 和原始查询 qq 以及对应的坐标 cc,将 qq 转化为格式为“click on the [element_name] for [purpose]”的意图查询 qrq_r。这个细化过程旨在推断出与坐标指定元素交互动作背后的用户意图。
    • 形式化表示: Mr:{s,q,c}{qr} { \mathcal { M } } _ { r } : \{ \langle s , q , c \rangle \} \to \{ q _ { r } \} 符号解释:
      • ss: 原始 GUI 屏幕截图。
      • qq: 原始的低级非意图查询。
      • cc: 原始查询对应的 GUI 元素坐标。
      • qrq_r: 细化后的、表达用户意图的查询。
      • Mr\mathcal{M}_r: 细化模型(Qwen-VL-Max)。
  2. 重新定位 (Re-grounding) 自动细化过程可能会引入不正确的信息,因此,检查细化数据的质量至关重要。

    • 方法: 作者再次利用 Qwen-VL-Max,但这次作为定位模型 Mg\mathcal { M } _ { g }
    • 提示: 提示 Mg\mathcal { M } _ { g } 根据细化后的查询 qrq_r 和对应的屏幕截图 ss,重新定位出坐标 crc_r
    • 形式化表示: Mg:{s,qr}{cr} \mathcal { M } _ { g } : \{ \langle s , q _ { r } \rangle \} \to \{ c _ { r } \} 符号解释:
      • ss: 原始 GUI 屏幕截图。
      • qrq_r: 细化后的用户意图查询。
      • crc_r: 根据细化查询重新定位得到的坐标。
      • Mg\mathcal{M}_g: 定位模型(Qwen-VL-Max)。
  3. 分析重新定位的准确性 (Analyzing the Accuracy of Re-grounding) 为了确保数据质量,这一步旨在筛选出与低质量细化查询对应的错误重新定位样本。

    • 方法: 在获得 crc_r 后,将其准确性与原始真值坐标 cc 进行比较。
    • 准确性指标 T\mathcal { T } 类似于定位评估,定义一个指示函数 T\mathcal { T } 来判断 crc_r 的中心点是否落在 cc 所代表的边界框内。
    • 形式化表示: T(cr,c)={1,if the center of cr is inside c,0,otherwise. \mathcal { T } ( c _ { r } , c ) = \left\{ \begin{array} { l l } { 1 , } & { \mathrm { i f ~ t h e ~ c e n t e r ~ o f ~ } c _ { r } \mathrm { ~ i s ~ i n s i d e ~ } c , } \\ { 0 , } & { \mathrm { o t h e r w i s e . } } \end{array} \right. 符号解释:
      • crc_r: 重新定位得到的坐标。
      • cc: 原始的真值坐标。
      • T(cr,c)\mathcal{T}(c_r, c): 准确性指示函数,如果 crc_r 的中心点在 cc 的边界框内则为 1,否则为 0。
    • 筛选: 如果 T(cr,c)=1\mathcal { T } ( c _ { r } , c ) = 1,则认为该样本是高质量的,包含 s,qr,c\langle s , q _ { r } , c \rangle 的三元组被保留,作为查询推理任务的训练数据;否则,样本被丢弃。

4.2.3. 查询推理任务训练

通过上述三步流程,构建了一个高质量的查询推理数据集,其中每个样本都是 s,c,qr\langle s , c , q _ { r } \rangle 的形式。

  • 训练目标: 使用这个数据集来训练基础 MLLM 执行查询推理任务。
  • 形式化表示: Q:{s,c}{qr} \mathcal { Q } : \{ \langle s , c \rangle \} \to \{ q _ { r } \} 符号解释:
    • ss: GUI 屏幕截图。

    • cc: GUI 元素的坐标。

    • qrq_r: 模型需要推断出的用户意图查询。

    • Q\mathcal{Q}: 查询推理函数,将屏幕截图和坐标映射到意图查询。

      通过在推理 SFT (Supervised Fine-Tuning) 之前,利用这个任务训练基础 MLLM,可以增强模型对用户意图的理解,使其与推理任务更紧密地对齐,同时保持对坐标的敏感性。最终,查询推理成功地弥合了定位与推理之间的差距。

5. 实验设置

本节详细介绍了论文中实验所采用的数据集、模型、评估指标和具体实现细节。

5.1. 数据集

为了在资源受限场景下评估查询推理的有效性,实验使用了以下数据集:

  • 感知增强预训练数据集:

    • UIBERT (Bai et al., 2021): 作为用于定位 (grounding) 和构建查询推理数据集的基础。它包含大约 10,000 个定位数据实例,是大规模 OS-Atlas (Wu et al., 2025) 定位数据集的一个子集。

    • 查询推理数据集: 通过上述三步流程(查询细化、重新定位、准确性分析),从 UIBERT 细化而得。最终数据集包含 9,570 个 s,qr,c\langle s , q _ { r } , c \rangle 三元组(屏幕截图、细化查询、坐标)。

    • 样本示例: 以下是原文 Figure 4 中展示的来自细化后的 UIBERT 数据集的三元组 s,qr,c\langle s , q _ { r } , c \rangle 示例,以及原始查询 qq

      Figure 5: The prompt template for query refinement. 该图像是论文中展示的查询细化提示模板示意图,描述了如何根据给定UI截图及动作生成查询,包括识别边界框位置、内容、语境相关性和任务意图,最终输出规范化查询。

      图 4: 细化后的 UIBERT 数据集中的 s,qr,c\langle s , q _ { r } , c \rangle 样本示例,以及原始查询 qq。经过细化,动作意图被推断,例如“选择 24h 格式”。通过在包含意图查询的三元组上进行训练,模型对用户意图的理解将得到增强,从而与推理对齐,同时保持对坐标的敏感性。

  • 推理微调 (SFT) 基准数据集:

    • AndroidControl (Li et al., 2024):
      • 一个移动智能体数据集,包含 15,283 个带有分步指令的演示。
      • 数据收集自人类用户在 833 个不同应用(涵盖 40 个应用类别)上执行各种任务。
      • 训练子集包含 89,144 个分步样本。
      • 实验中,AndroidControl 在两种设置下进行评估:
        • AndroidControl-L: 同时提供低级分步指令和高级目标作为输入。
        • AndroidControl-H: 仅提供高级目标作为输入。
    • AITZ (Zhang et al., 2024c):
      • 一个移动智能体数据集,源自 AITW (Rawles et al., 2023) 的子集,并由专有 MLLM 标注了 CoAT (Chain-of-Action-Thought) 组件。
      • 包含 2,504 条操作轨迹,共 18,643 个步骤。
      • 根据应用领域分为五个子集:通用 (General)、安装 (Install)、谷歌应用 (GoogleApps)、单例 (Single) 和网页购物 (Web Shopping)。
      • 训练子集包含 13,919 个分步样本。
  • 数据集行动类型分布: 以下是原文 Table 4 中展示的 AndroidControl 和 AITZ 测试子集的动作类型分布:

    Dataset SCROLL CLICK TYPE PRESS WAIT OPENAPP COMPLETE Others Total
    AndroidControl 1,211 5,074 632 343 567 608 1,543 9 9,987
    AITZ 601 2,736 500 265 400 100 504 118 4,724

    表 4: AndroidControl 和 AITZ 测试子集的动作类型分布。

5.2. 评估指标

为了评估定位和查询推理对推理性能的影响,实验采用以下两个常用的 GUI 智能体动作预测准确性指标:

  • 动作类型匹配率 (Action Type Match Rate, TMR):

    1. 概念定义: TMR 衡量的是模型预测的动作类型(例如 PRESSSCROLL)与真值动作类型完全匹配的比例。它关注的是模型能否正确识别要执行的操作类型,而不考虑操作的参数(如具体的坐标或文本内容)。
    2. 数学公式: TMR=i=1NI(predicted_typei=ground_truth_typei)N \mathrm{TMR} = \frac{\sum_{i=1}^N \mathbb{I}(\text{predicted\_type}_i = \text{ground\_truth\_type}_i)}{N}
    3. 符号解释:
      • NN: 总的动作步数。
      • predicted_typei\text{predicted\_type}_i: 第 ii 步模型预测的动作类型。
      • ground_truth_typei\text{ground\_truth\_type}_i: 第 ii 步真值动作类型。
      • I()\mathbb{I}(\cdot): 指示函数,当括号内条件为真时取 1,否则取 0。
  • 精确动作匹配率 (Exact Action Match Rate, AMR):

    1. 概念定义: AMR 是一种更严格的评估指标,用于衡量模型预测的动作是否与真值动作在单个步骤内完全匹配。它不仅考虑动作类型 tt,还考虑所有可选参数 pp(例如坐标、应用程序名称、输入文本)。只有当动作类型和所有相关参数都完美对齐时,才被认为是精确匹配。
    2. 数学公式: AMR=i=1NI(predicted_actioni=ground_truth_actioni)N \mathrm{AMR} = \frac{\sum_{i=1}^N \mathbb{I}(\text{predicted\_action}_i = \text{ground\_truth\_action}_i)}{N}
    3. 符号解释:
      • NN: 总的动作步数。
      • predicted_actioni\text{predicted\_action}_i: 第 ii 步模型预测的动作(包括类型和所有参数)。
      • ground_truth_actioni\text{ground\_truth\_action}_i: 第 ii 步真值动作(包括类型和所有参数)。
      • I()\mathbb{I}(\cdot): 指示函数,当括号内条件为真时取 1,否则取 0。
    4. AMR 评估的具体方法:
      • 无额外参数动作 (WAIT, COMPLETE, PRESS): 对于这些动作,AMR 等同于 TMR,因为它们没有额外的参数需要匹配。
      • SCROLL 动作: 除了动作类型,还会评估滚动方向(上、下、左、右)是否与真值完全一致。
      • 文本相关动作 (TYPE, OPENAPP): 要求动作类型和相应的文本内容(例如输入的文本、应用程序名称)都与真值完美匹配。
      • CLICK 动作:
        • 当预测和真值动作均为 CLICK 时,首先检查屏幕布局信息,定位包含真值坐标的元素边界框。
        • 如果找到边界框,则判断预测坐标是否落在该边界框内。若落在框内,则认为 CLICK 动作预测正确。
        • 如果未找到边界框,则计算预测坐标与真值坐标的相对距离。若相对距离小于屏幕尺寸的 14%,则认为 CLICK 动作预测正确。

5.3. 对比基线

论文将自己的方法与以下基线模型和设置进行了比较:

  • 无感知增强预训练 (SFT): 模型直接在移动智能体基准上进行微调,跳过任何感知增强预训练阶段。这作为最基础的基线。
  • 传统定位 (Grounding):
    • G\mathcal{G} (Grounding on UIBERT): 使用 UIBERT 数据集进行定位训练后,再进行推理 SFT。这代表了在资源受限场景下,使用有限数据进行传统定位的性能。
    • Atlas (OS-Atlas-Base-7B): OS-Atlas-Base-7B (Wu et al., 2025) 是一个在超过 1300 万个定位样本上训练的大规模定位增强模型。将其在移动智能体基准上进行微调,用于与本文提出的查询推理方法进行比较,以评估在极少数据下本文方法的性能是否能达到甚至超越大规模模型的水平。

5.4. 实现细节

  • 坐标归一化: 所有坐标都被归一化到 [0, 1000] 的范围。

  • 统一动作空间: 推理 SFT 阶段,动作空间被统一为三个基本动作:CLICK (点击), TYPE (输入), SCROLL (滚动),以及针对 AndroidControl 和 AITZ 的自定义动作(例如 OPENAPP)。

  • 训练框架: 采用 LLaMa-Factory (Zheng et al., 2024) 框架进行定位、查询推理训练以及移动智能体基准上的 SFT。

  • 学习率: 统一设置为 1×1051 \times 1 0 ^ { - 5 }

  • 训练 epochs:

    • 定位和查询推理任务:5 个 epochs。
    • 推理 SFT:3 个 epochs。
  • 测试加速: 在测试阶段,采用 flashattn (Dao, 2024) 进行加速。

  • 提示模板: 详细的查询细化、定位、查询推理和动作预测的提示模板在附录 B 中提供。

    • 图 5: 查询细化的提示模板。

      Figure 5: The prompt template for query refinement. 该图像是论文中展示的查询细化提示模板示意图,描述了如何根据给定UI截图及动作生成查询,包括识别边界框位置、内容、语境相关性和任务意图,最终输出规范化查询。

      图 5: 查询细化的提示模板。

    • 图 6: 查询推理的提示模板。

      Figure 6: The prompt template for query inference. 该图像是论文中第6图,展示了基于查询推理的提示模板,指导如何根据UI截图和指定操作生成对应用户查询,包含定位边界框与内容理解等步骤。

      图 6: 查询推理的提示模板。

    • 图 7: 定位的提示模板。

      Figure 7: The prompt template for grounding. 该图像是论文中的示意图,展示了一个用于GUI元素定位的Grounding提示模板,详细说明了任务目标、步骤和输出格式要求,包括生成元素边界框的具体规范。

      图 7: 定位的提示模板。

    • 图 8: AndroidControl-L 动作预测的提示模板。

      Figure 8: The prompt template for action prediction on AndroidControl-L. 该图像是图8,展示了AndroidControl-L动作预测的提示模板,详细说明了基本动作和自定义动作的格式与示例,帮助模型根据指令和上下文预测正确操作。

      图 8: AndroidControl-L 动作预测的提示模板。

    • 图 9: AndroidControl-H 动作预测的提示模板。

      Figure 9: The prompt template for action prediction on AndroidControl-H. 该图像是图9,展示了用于AndroidControl-H动作预测的提示模板,详细定义了基本动作和自定义动作的格式及示例,指导模型根据任务目标建议最适合的执行动作。

      图 9: AndroidControl-H 动作预测的提示模板。

    • 图 10: AITZ 上结合 SD, PAR, AT 和 AD 的动作预测提示模板。

      Figure 10: The prompt template for action prediction on AITZ with SD, PAR, AT, and AD. 该图像是论文中图10,展示了AITZ动作预测的提示模板,包含基础动作和自定义动作说明,以及任务执行指导和输出格式示例。

      图 10: AITZ 上结合 SD, PAR, AT 和 AD 的动作预测提示模板。

  • 硬件配置: 所有实验均在配备 4×4 \times NVIDIA A100 GPU (每张 80GB 显存) 的机器上进行。

  • 训练时间: 查询推理和定位的训练大约需要 2 小时。AITZ 上的微调需要大约 2 小时,而 AndroidControl 上的微调需要大约 14 小时。

6. 实验结果与分析

本节将详细解读实验结果,并对数据背后的含义进行深入分析。

6.1. 核心结果分析

6.1.1. 主要性能对比

以下是原文 Table 1 中展示的 UIBERT 上有无定位训练的移动智能体基准性能,以及 Table 2 中展示的在使用定位、查询推理作为替代或枢纽任务时的整体和分类型动作预测性能。

Table 1: Performance on mobile agent benchmarks with and without grounding on UIBERT. (表 1: 在 UIBERT 上有无定位训练的移动智能体基准性能。)

| Pipeline | AndroidControl-L | | AndroidControl-H | | AITZ | | :------------ | :--------------- | :------ | :--------------- | :------ | :------ | :----- | | TMR↑ | AMR↑ | TMR↑ | AMR↑ | TMR↑ | AMR↑ | SFT | 96.84 | 84.33 | 80.38 | 65.23 | 75.76 | 61.43 | Grounding+SFT | 96.85 | 83.88 | 81.37 | 65.57 | 81.58 | 63.48 | Atlas-7B+SFT | 94.96 | 86.80 | 81.78 | 68.65 | 82.03 | 67.04

Table 2: Overall and type-wise action prediction performance when trained with grounding, query inference as the alternative task, and query inference as the pivot task. (表 2: 在定位、查询推理作为替代任务和查询推理作为枢纽任务训练时的整体和分类型动作预测性能。)

| Dataset | Foundation Model | Approach | SCROLL | CLICK | | TYPE | | PRESS | OPENAPP | | TOTAL | | :--------------- | :--------------- | :------- | :----- | :----- | :---- | :---- | :---- | :---- | :------ | :---- | :----- | :---- | | | | TMR↑ | TMR↑ | AMR↑ | TMR↑ | AMR↑ | TMR↑ | TMR↑ | AMR↑ | TMR↑ | AMR↑ | AndroidControl-L | Qwen | - | 91.49 | 97.26 | 75.07 | 98.55 | 88.95 | 97.96 | 99.84 | 83.55 | 96.84 | 84.33 | | | G | 91.25 | 97.42 | 76.01 | 96.99 | 77.69 | 97.67 | 99.34 | 85.86 | 96.85 | 83.88 | | | Q | 91.08 | 97.32 | 78.95 | 97.78 | 79.59 | 97.67 | 99.51 | 86.02 | 96.79 | 85.45 | | | G + Q | 91.08 | 96.49 | 78.87 | 97.31 | 79.91 | 97.08 | 99.67 | 88.16 | 96.48 | 85.70 | | Atlas | - | 91.58 | 97.48 | 85.69 | 97.38 | 79.59 | 97.67 | 99.84 | 83.39 | 94.96 | 86.80 | AndroidControl-H | Qwen | - | 60.94 | 85.26 | 59.83 | 87.82 | 69.92 | 56.27 | 90.13 | 75.66 | 80.38 | 65.23 | | | G | 59.95 | 85.87 | 61.17 | 90.51 | 55.22 | 61.52 | 92.76 | 75.99 | 81.37 | 65.57 | | | Q | 57.64 | 87.31 | 63.11 | 71.77 | 54.11 | 58.69 | 91.78 | 77.14 | 81.68 | 66.11 | | | G + Q | 58.79 | 87.76 | 63.83 | 89.72 | 53.32 | 57.14 | 90.95 | 76.48 | 81.59 | 66.24 | | Atlas | - | 61.85 | 85.28 | 65.43 | 91.77 | 55.70 | 67.93 | 94.74 | 82.24 | 81.78 | 68.65 | AITZ | Qwen | - | 59.73 | 81.40 | 63.23 | 86.40 | 50.40 | 71.32 | 73.58 | 75.76 | 61.43 | | | | G | 60.39 | 86.51 | 66.88 | 86.80 | 48.60 | 73.58 | / | / | 81.58 | 63.48 | | | Q | 60.23 | 87.57 | 67.80 | 88.20 | 48.60 | 77.36 | / | / | 82.26 | 66.62 | | | G + Q | 63.06 | 87.54 | 67.65 | 87.80 | 48.80 | 78.49 | / | / | 82.54 | 66.91 | | Atlas | - | 65.39 | 86.37 | 67.54 | 88.40 | 49.80 | 76.60 | / | / | 82.03 | 67.04

注:TMR↑ 表示 TMR 越高越好,AMR↑ 表示 AMR 越高越好。粗体表示最优结果,下划线表示次优结果。表格中部分数据有重叠和格式问题,已尽量按照原文内容呈现并补充。

关键发现:

  1. 查询推理 (Query Inference) 在相同数据规模下优于定位 (Grounding):

    • AndroidControl-L 设置下,Grounding (G) 仅带来微不足道的改进,甚至在 AMR 上略有下降 (84.33% -> 83.88%)。而 Query Inference (Q) 作为替代任务,AMR 提升了超过 1% (84.33% -> 85.45%),优于 Grounding
    • AITZ 数据集上,Query Inference (Q) 的改进更为显著,AMR 提升了超过 5% (61.43% -> 66.62%),再次优于 Grounding (61.43% -> 63.48%)。
    • 这表明在资源受限场景中,Query Inference 作为一种感知增强预训练任务,比传统 Grounding 更有效。
  2. 查询推理作为枢纽任务 (Pivot Task) 进一步提升推理性能:

    • Qwen 模型的所有四个设置中(AndroidControl-L, AndroidControl-H, AITZ),将查询推理作为枢纽任务 (G+QG + Q) 通常能获得最优的 AMR
    • 例如,在 AndroidControl-L 上,G+QG + QAMR 达到 85.70%,略高于 QQ 的 85.45%。在 AITZ 上,G+QG + QAMR 达到 66.91%,也高于 QQ 的 66.62%。
    • 这表明将 Query Inference 作为 GroundingReasoning 之间的枢纽,能够更好地平滑两者,同时增强对坐标和用户查询的理解,从而提升推理性能。
  3. 查询推理作为枢纽任务可达到与大规模 Atlas 相当的性能:

    • G+QG + QAndroidControl 上达到了与 Atlas 相当的 AMR,差距很小。
    • AITZ 上,G+QG + QAMR 达到 66.91%,与 Atlas 的 67.04% 仅有 0.1% 的微小差距。
    • 值得注意的是,G+QG + QAndroidControl-LAITZ 上的 TMR 甚至超过了直接微调 Atlas 的结果。
    • 考虑到 Atlas 是在超过 1300 万个定位样本上训练的,而本文的方法仅使用了不到 0.1% (约 1 万个) 的训练数据,这突出显示了 Query Inference 在资源受限场景下极高的效率和有效性。
  4. CLICK 动作性能提升显著,TYPE 动作出现性能下降:

    • Query Inference 在关键的 CLICK 动作上,无论是作为替代任务还是枢纽任务,都显著提升了性能,并取得了最优或次优的结果。
    • 对于其他动作类型,Query Inference 也表现出优异或可比的性能。
    • 然而,对于 TYPE 动作(包括 Atlas),其 AMR 相较于直接在移动智能体基准上微调 Qwen 出现了显著下降。论文推测这可能归因于垂直领域微调可能损害了模型遵循指令的能力。尽管如此,总体而言 Query Inference 改善了大多数动作类型的预测性能。

6.1.2. 训练数据规模的影响

为了进一步探究在资源受限场景下 Query Inference 的有效性,作者在 AITZ 数据集上,使用不同规模的训练样本 (1,000, 2,000, 5,000) 来训练 GroundingQuery Inference 作为替代任务 (Q\mathcal{Q}) 和 Query Inference 作为枢纽任务 (G+Q\mathcal{G} + \mathcal{Q}),并评估其整体动作预测性能。

以下是原文 Figure 3 展示的结果:

Figure 3: The overall action prediction performance on AITZ when trained with grounding, query inference as the alternative task, and query inference as the pivot task across various data scales. 该图像是图表,展示了在不同预训练数据规模下,基于AITZ数据集使用不同训练任务(标记为𝒢、𝒬及𝒢+𝒬)时的整体动作预测性能(TMR和AMR指标)。图中对比了三种方法的表现随数据量增长的变化趋势。

图 3: 在不同数据规模下,使用定位、查询推理作为替代任务和查询推理作为枢纽任务在 AITZ 上的整体动作预测性能。

主要结论:

  1. 查询推理 (Query Inference) 在资源受限场景中通常比定位 (Grounding) 更有效:

    • Grounding 的动作预测性能随着数据规模的扩大而逐步提升,表现出稳定但较慢的改进速度。
    • 相比之下,Query Inference 的性能提升速度更快,大约在 2,000 个训练样本时即可达到峰值性能。
    • 这表明在有限数据下,Query InferenceGrounding 更加高效,并且在所有测试数据规模下都持续优于 Grounding
  2. 查询推理作为枢纽任务 (Pivot Task) 在数据量较大时表现更好:

    • 当训练样本超过 5,000 个时,Query Inference 作为枢纽任务 (G+QG + Q) 表现出更好的性能。
    • 但在数据量较小(例如 1,000 或 2,000 个样本)时,Query Inference 作为替代任务 (QQ) 的性能更优。这可能说明在数据极度稀缺时,专注于单一的查询推理任务可能比同时兼顾 Grounding 更好。
  3. 定位 (Grounding) 对数据规模更敏感:

    • Grounding 在训练样本超过 5,000 个时,性能观察到显著提升。
    • 这与 Grounding 在大规模训练数据下(如 OS-Atlas)已被证明的成功经验相符 (Wu et al., 2025; Qin et al., 2025),表明 Grounding 确实能从大量训练数据中获得实质性收益。

6.1.3. 与 CoT 增强推理的结合

为了全面考察 CoT (Chain-of-Thought) 对 7B 级别感知增强 MLLM 在资源受限场景中的影响,作者利用 CoAT (Chain-of-Action-Thought) 数据集 AITZ (Zhang et al., 2024c) 对感知增强的 MLLM 进行微调,并评估其在不同 CoAT 组件下的动作预测性能。

CoAT 组件:

  • 输入中的额外语义信息: 屏幕描述 (Screen Descriptions, SD) 和前一步动作结果 (Previous Action Results, PAR)。

  • 输出中的中间推理结果: 动作思考 (Action Thoughts, AT) 和下一步动作描述 (Next Action Descriptions, AD)。

    实验分为四组:(i) 无任何 CoAT 组件;(ii) 仅有输入组件;(iii) 仅有输出组件;(iv) 结合输入和输出组件。

以下是原文 Table 3 中展示的结果:

Table 3: Overall and type-wise action prediction performance on AITZ when training Qwen2-VL-7B with grounding, query inference as the alternative task, and query inference as the pivot task, combined with CoAT components. (表 3: 在 AITZ 上,使用 Qwen2-VL-7B 进行 GroundingQuery Inference 作为替代任务和 Query Inference 作为枢纽任务,并结合 CoAT 组件时的整体和分类型动作预测性能。)

| Pre-training | ID | Input | | Output | | SCROLL | CLICK | | TYPE | | PRESS | TOTAL | | :----------- | :- | :---- | :---- | :----- | :---- | :----- | :----- | :---- | :---- | :---- | :---- | :----- | :---- | | | SD | PAR | AT | AD | TMR↑ | TMR↑ | AMR↑ | TMR↑ | AMR↑ | TMR↑ | TMR↑ | AMR↑ | G | 1 | | | | | 60.39 | 86.51 | 66.88 | 86.80 | 48.60 | 73.58 | 81.58 | 63.48 | | 2 | ✓ | | | | 60.40 | 85.96 | 66.56 | 88.80 | 49.00 | 73.96 | 81.22 | 65.77 | | 3 | | ✓ | | | 60.73 | 86.95 | 67.32 | 86.40 | 47.20 | 75.47 | 81.75 | 66.23 | | 4 | ✓ | ✓ | | | 60.23 | 85.64 | 66.04 | 88.80 | 51.00 | 73.58 | 81.14 | 65.79 | | 5 | | | ✓ | | 53.24 | 84.28 | 61.51 | 83.80 | 48.00 | 72.08 | 77.10 | 60.12 | | 6 | | | | ✓ | 60.57 | 88.67 | 65.83 | 85.20 | 48.00 | 73.96 | 82.36 | 65.09 | | 7 | | | ✓ | ✓ | 50.75 | 72.33 | 52.12 | 80.60 | 45.00 | 69.81 | 69.60 | 54.13 | | 8 | ✓ | | ✓ | ✓ | 50.42 | 73.61 | 53.76 | 82.00 | 44.40 | 69.81 | 70.07 | 54.59 | | 9 | | ✓ | ✓ | ✓ | 50.92 | 72.40 | 52.56 | 82.40 | 46.40 | 70.57 | 70.00 | 54.59 | | 10 | ✓ | ✓ | ✓ | ✓ | 50.58 | 73.90 | 54.09 | 84.00 | 45.20 | 69.81 | 70.17 | 54.59 | Q | 1 | | | | | 60.23 | 87.57 | 67.80 | 88.20 | 48.60 | 77.36 | 82.26 | 66.62 | | 2 | ✓ | | | | 61.73 | 87.61 | 68.46 | 88.80 | 49.40 | 76.98 | 82.77 | 66.62 | | 3 | | ✓ | | | 61.23 | 87.76 | 67.84 | 89.60 | 49.20 | 76.98 | 82.87 | 67.06 | | 4 | ✓ | ✓ | | | 63.89 | 85.78 | 66.89 | 90.60 | 50.20 | 77.36 | 82.13 | 66.91 | | 5 | | | ✓ | | 50.25 | 84.61 | 63.71 | 84.20 | 47.40 | 72.08 | 77.05 | 61.05 | | 6 | | | | ✓ | 58.74 | 89.00 | 66.52 | 86.40 | 47.00 | 74.72 | 82.15 | 64.97 | | 7 | | | ✓ | ✓ | 49.42 | 73.65 | 53.11 | 81.60 | 45.40 | 72.83 | 70.58 | 54.85 | | 8 | ✓ | | ✓ | ✓ | 52.75 | 72.77 | 52.92 | 82.60 | 46.80 | 70.19 | 70.03 | 54.74 | | 9 | | ✓ | ✓ | ✓ | 51.41 | 73.21 | 53.33 | 82.40 | 46.40 | 73.21 | 70.53 | 55.21 | | 10 | ✓ | ✓ | ✓ | ✓ | 50.42 | 72.84 | 52.81 | 81.80 | 43.80 | 69.43 | 69.71 | 54.09 | G + Q | 1 | | | | | 63.06 | 87.54 | 67.65 | 87.80 | 48.80 | 78.49 | 82.54 | 66.91 | | 2 | ✓ | | | | 61.73 | 87.61 | 67.98 | 89.00 | 50.20 | 75.85 | 82.77 | 67.27 | | 3 | | ✓ | | | 60.73 | 87.43 | 67.25 | 89.80 | 51.60 | 75.85 | 80.88 | 66.62 | | 4 | ✓ | ✓ | | | 61.23 | 87.06 | 67.95 | 88.60 | 47.60 | 76.23 | 82.35 | 65.47 | | 5 | | | ✓ | | 52.25 | 84.14 | 62.83 | 81.60 | 47.40 | 72.83 | 77.34 | 61.39 | | 6 | | | | ✓ | 60.40 | 88.78 | 65.57 | 86.60 | 49.20 | 71.70 | 82.26 | 64.86 | | 7 | | | ✓ | ✓ | 52.91 | 72.04 | 52.12 | 82.20 | 48.20 | 75.47 | 70.17 | 55.03 | | 8 | ✓ | | ✓ | ✓ | 50.25 | 72.62 | 52.81 | 81.80 | 46.60 | 70.57 | 69.39 | 54.19 | | 9 | | ✓ | ✓ | ✓ | 50.42 | 72.95 | 54.02 | 83.80 | 49.00 | 71.70 | 70.41 | 55.75 | | 10 | ✓ | ✓ | ✓ | ✓ | 51.58 | 73.83 | 53.03 | 82.00 | 46.00 | 70.94 | 70.62 | 54.76

注:粗体表示最优结果,下划线表示次优结果。

主要发现:

  1. 整合额外语义信息到输入可进一步提升动作预测性能:

    • 当仅将 SD (屏幕描述) 或 PAR (前一步动作结果) 作为额外语义信息添加到输入时,模型的 AMR 普遍有所提升。
    • 例如,对于 Query Inference 作为替代任务 (Q),结合 PARAMR 达到 67.06%,结合 SD 作为枢纽任务 (G+Q) 后 AMR 达到 67.27%,这都超越了 Table 2Atlas 的 67.04%。
    • Grounding 增强的模型也受益于输入中的额外语义信息,性能得到进一步改善。
    • 这表明提供额外的语义信息能够增强模型对 GUI 环境的感知,从而做出更准确的动作决策。
  2. 将中间推理结果整合到输出会导致动作预测性能显著下降:

    • 当仅将 AT (动作思考) 或 AD (下一步动作描述) 作为中间推理结果添加到输出时,AMR 普遍下降。
    • 例如,G+QG + Q 在无 CoAT 组件时 AMR 为 66.91%,而结合 ATAMR 降至 61.39%。
    • 当输入和输出组件都包含时,性能下降更为明显,AMR 甚至低于 60%。
    • 论文解释,这可能是由于 7B 级别模型规模相对较小,难以有效处理复杂的推理。当引入冗长的中间推理结果时,模型可能过度关注推理链本身,而非最终的动作决策。
  3. 结合不同 CoAT 组件时,查询推理 (Query Inference) 通常优于定位 (Grounding):

    • Table 3 的每个相同 ID 组中,Query Inference(无论是作为替代任务 QQ 还是枢纽任务 G+QG+Q)的性能通常优于 Grounding (G)。

    • 这突出了 Query Inference 在与 CoT 增强推理结合时,依然保持其有效性。

      总结: 将额外语义信息整合到 Query Inference 的输入中,能够进一步提升推理性能,为资源受限场景下的动作预测提供了新的改进途径。

6.2. 数据呈现 (表格)

本节已将原文 Table 1、Table 2 和 Table 3 的所有数据完整转录并进行了分析。

6.3. 消融实验/参数分析

论文通过以下方式进行了消融实验和参数分析:

  • 感知增强方法的消融:
    • 对比了 Qwen 模型在没有感知增强预训练 (SFT)、仅 Grounding (GG)、仅 Query Inference (QQ) 和 GroundingQuery Inference 组合 (G+QG + Q) 四种设置下的性能。这直接验证了 Query Inference 及其组合的有效性。
  • 训练数据规模的影响:
    • 通过在 AITZ 上抽取 1,000、2,000 和 5,000 个样本进行训练,分析了 GroundingQuery Inference (QQ) 和 Query Inference (G+QG + Q) 在不同数据量下的性能变化。这揭示了 Query Inference 在小数据量下的效率优势以及 Grounding 对数据量的敏感性。
  • CoT 组件的消融:
    • AITZ 上,通过组合 SDPAR(输入组件)和 ATAD(输出组件),系统地评估了 CoT 不同组件对 GroundingQuery Inference (QQ) 和 Query Inference (G+QG + Q) 模型性能的影响。这帮助作者得出关于输入语义信息和输出中间推理结果作用的重要结论。

      这些消融实验和参数分析有力地支持了论文的核心论点,即 Query Inference 在资源受限场景下的独特优势,并为如何在实际应用中有效结合 CoT 提供了指导。

7. 总结与思考

7.1. 结论总结

本文针对资源受限场景下多模态大语言模型 (MLLM) 驱动的图形用户界面 (GUI) 智能体所面临的挑战,即坐标导向的定位 (grounding) 与动作导向的推理 (reasoning) 之间的格式差异,提出了一种创新的解决方案——查询推理 (query inference)

核心结论包括:

  • 问题识别: 明确指出了在资源受限情境下,传统定位对推理性能提升有限的问题,揭示了任务格式差异带来的性能鸿沟。

  • 方法创新: 提出了查询推理作为连接定位和推理的查询导向枢纽任务,它通过从屏幕截图和元素坐标推断用户意图查询,增强了模型对坐标的理解,并与推理任务更紧密对齐。

  • 显著效果: 实验证明,在相同训练数据规模下,查询推理的性能优于传统定位。更引人注目的是,查询推理仅使用不到 0.1% 的训练数据,就实现了与大规模定位增强模型 OS-Atlas 相当甚至更优的性能,这在数据效率方面具有里程碑意义。

  • CoT 洞察: 探讨了链式思考 (CoT) 对推理性能的影响,发现将额外语义信息融入模型输入能够进一步提升推理表现,而将冗长的中间推理结果加入输出则可能适得其反,导致性能下降。

    总体而言,本文为在资源受限环境下开发高效、鲁棒的 GUI 智能体提供了一条有前景的路径,并通过一种创新的任务设计,有效地弥合了感知与决策之间的语义差距。

7.2. 局限性与未来工作

论文作者指出了其方法的两点主要局限性:

  • 零样本能力可能减弱: 本文的方法侧重于通过小规模数据集增强感知能力,这可能削弱 MLLM 的通用零样本 (zero-shot) 能力,因此在特定智能体基准上仍需要进行监督微调 (SFT)。这意味着该方法主要是在特定任务上提升性能,而非增强模型的通用适应性。

  • 适用场景限制: 本文的研究主要集中在资源受限场景。因此,在拥有大规模训练数据的情况下,结论可能有所不同,因为已有研究表明,传统定位在大规模数据设置下也能取得显著效果。

    基于这些局限性,未来工作可以探索:

  • 研究如何平衡特定任务的性能提升与模型的通用零样本能力。

  • 探究查询推理在更广泛的数据规模和不同模型架构下的表现。

  • 进一步优化 CoT 结合策略,尤其是在输出中间推理结果时如何避免性能下降,例如通过更精炼的输出格式或针对小模型优化的 CoT 蒸馏技术。

  • 考虑将查询推理与其他感知增强任务(如 GUI 引用、屏幕问答)结合,以实现更全面的 GUI 理解。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 逆向思维设计任务的价值: 本文最大的启发点在于其“查询推理”任务的逆向设计。传统定位是“查询到坐标”,而查询推理是“坐标到意图查询”。这种将模型训练为“理解意图”而非仅仅“执行指令”的思路,巧妙地弥合了低级感知(坐标)与高级认知(意图)之间的语义鸿沟。这对于其他需要从低级感知数据推断高级语义意图的任务,都可能具有借鉴意义。
  2. 数据效率的重要性: 在当前大模型时代,训练数据获取和标注成本高昂。本文在仅使用不到 0.1% 的训练数据下,就实现了与大规模模型相媲美的性能,这强调了任务设计在数据效率方面的重要性。对于资源有限的个人研究者或小型团队而言,这种高效的数据利用策略具有极高的实际价值。
  3. LLM 作为数据标注和精炼工具的潜力: 论文利用专有 MLLM (Qwen-VL-Max) 进行查询细化和重新定位的准确性筛选,这展示了强大 LLM 在数据预处理和质量控制方面的巨大潜力。这种“模型生成数据,模型筛选数据”的范式,可以有效降低数据标注成本,加速领域特定数据集的构建。
  4. CoT 应用的细致考量: 论文对 CoT 结合方式(输入语义 vs. 输出中间推理)的深入分析非常具有指导意义。它提醒我们,CoT 并非万能,尤其对于参数量较小的模型,盲目地增加输出的复杂度反而可能损害性能。这促使我们在应用 CoT 时,需要更精细地设计其作用边界和信息呈现方式。

7.3.2. 批判

  1. 对专有 MLLM 的依赖: 查询推理的数据构建流程高度依赖于强大的专有 MLLM (Qwen-VL-Max) 进行查询细化和重新定位的准确性筛选。这使得方法的复现性受到一定限制。如果研究者无法访问或负担同等性能的专有模型,则难以复现或构建类似的高质量数据集。未来工作可以探讨如何使用开源模型或更普适的方法来替代这一环节。
  2. TYPE 动作性能下降问题: 论文指出 TYPE 动作的 AMR 性能出现显著下降,并归因于垂直微调可能损害了模型的指令遵循能力。这是一个值得深入探究的问题。如果一个 GUI 智能体在核心的文本输入功能上表现不佳,可能会严重影响其可用性。可能需要针对性地设计损失函数、数据增强策略或模型架构,以在垂直领域微调的同时,保持甚至提升通用指令遵循能力。
  3. “资源受限”定义的边界: 论文明确指出其研究聚焦于资源受限场景。虽然结果令人印象深刻,但仍需警惕在不同“资源受限”程度下(例如更小的数据量或更小的模型)其有效性是否依然成立。同时,与大规模 Atlas 的对比虽然突出效率,但并未完全排除 Grounding 在海量数据下能达到更高上限的可能性。
  4. “零样本能力”的权衡: 论文提到可能削弱 MLLM 的零样本能力,这暗示了在特定任务性能与通用性之间存在权衡。对于 GUI 智能体而言,如果每次面对新应用或新任务都需要重新微调,其通用性会大打折扣。未来的研究方向应探索如何在提升特定任务感知能力的同时,最大限度地保留甚至增强模型的零样本或少样本学习能力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。