移动GUI智能体评估平台A3

文章目录[隐藏]

主要功能
主要特点
工作原理
具体应用场景

香港中文大学、vivo AI 实验室和上海交通大学的研究团队推出一个创新的移动图形用户界面（GUI）智能体评估平台Android Agent Arena（A3），旨在解决现有移动 GUI 智能体评估中存在的问题，如数据集侧重于静态帧评估、评估平台任务多样性和代表性不足以及缺乏有效的自动化评估方法等。A3旨在评估和提升人工智能代理在真实世界、实际操作中完成任务的能力，特别是在移动设备上。

项目主页：https://www.yxchai.com/Android-Agent-Arena

例如，用户想要通过一个移动应用预订酒店，A3可以评估代理执行以下任务的能力：在Booking.com上搜索特定日期的住宿，按价格从低到高排序，并告知最低价格。这个任务涉及到多个步骤，包括搜索、排序和提取信息，A3能够评估代理在完成这些步骤中的表现。

主要功能

提供真实任务场景：集成了 21 个广泛使用的第三方应用程序和 201 个代表常见用户场景的任务，涵盖操作任务（如在应用中执行一系列动作）、单帧查询任务（如完成动作后返回特定信息）和多帧查询任务（如跨多个步骤收集和处理信息后回答问题），能有效评估智能体在实际应用中的能力。
支持多种评估方式：包括任务特定的评估函数和基于商业级大语言模型（LLM）的评估系统。评估函数通过元素匹配和动作匹配等方法，根据任务目标和动作判断智能体是否成功完成任务；LLM 评估系统利用 GPT - 4o 和 Gemini 1.5 Pro 等模型，可直接评估任务完成情况，通过交叉验证提高评估准确性，减少对人工编码和干预的依赖。

主要特点

任务丰富且实用：任务设计紧密围绕真实世界应用功能，具有高度的多样性和代表性，能全面测试智能体在不同场景下的操作执行和信息检索能力，如在旅游类应用中搜索特定日期的酒店并比较价格，或在音乐应用中搜索歌曲并订阅等任务。
动作空间灵活兼容：扩展了动作空间，包含了现有数据集的所有动作类型，确保与在任何数据集上训练的智能体兼容，便于对不同训练方式的智能体进行统一评估，如支持 CLICK、SCROLL、TYPE、ENTER、BACK、HOME、COMPLETE、IMPOSSIBLE 等常见动作，以及 ANDROIDCONTROL 数据集中的 Open、Long Press 和 WAIT 等特殊动作。
自动化评估高效便捷：基于商业级 LLM 的评估系统实现了评估过程的自动化和可扩展性，显著降低了人工工作量，提高了评估效率，且通过交叉验证保证了评估结果的可靠性，能够快速适应新任务和应用的评估需求。

工作原理

系统架构与交互流程
- A3 基于 Appium 框架构建，作为 GUI 智能体与 Android 设备之间的桥梁。控制器负责获取设备当前状态（包括屏幕截图和 XML 文件），并将状态、任务指令及其他相关信息发送给智能体。智能体根据输入预测下一步动作，动作经翻译器转换为设备控制命令与设备交互。任务执行过程中，系统不断循环此过程，直至智能体完成任务或达到最大步骤数，最后由评估器根据评估函数判断任务是否成功完成。
任务执行与评估
- 任务分类执行：根据任务类型（操作、单帧查询、多帧查询），智能体执行相应操作。操作任务需按顺序完成一系列动作；单帧查询任务在完成动作后从最终状态提取特定信息作为答案；多帧查询任务则需在多个步骤中收集和处理信息后给出结果。
- 评估方式运作
  - 评估函数评估：针对每个任务，评估函数通过元素匹配（在 XML 树中识别关键元素并比较属性与真实值，必要时结合 OCR 提取文本属性）和动作匹配（验证特定位置相关动作）或两者结合的方式，判断智能体是否达成任务目标。
  - LLM 评估系统评估：利用 GPT - 4o 等 LLM 的编码能力生成评估函数，虽生成函数可能存在部分错误，但可大幅减少人工编码工作量。对于操作和单帧查询任务，LLM 根据任务指令和最终状态 XML 直接评估；对于多帧查询任务，使用一系列 XML 评估智能体处理复杂场景的能力。通过 LLM 之间的交叉验证（相同结果则高置信度通过，不同结果则人工评估）确保评估准确性。

具体应用场景

移动智能体性能评估与优化：研发人员可利用 A3 平台对新开发的移动 GUI 智能体进行全面评估，通过在平台上执行各种任务，分析智能体在不同应用场景下的成功率、错误类型等指标，找出性能瓶颈，针对性地改进智能体的算法和模型结构，提升其在实际应用中的表现。
智能体训练数据筛选与增强：借助 A3 平台的多样化任务和真实场景评估，筛选出对智能体训练最有价值的数据，同时发现现有训练数据的不足，为数据增强提供方向，如补充特定类型任务的数据或修正标注错误，从而优化智能体的训练过程，提高训练效果。
智能移动应用开发辅助：应用开发者可以使用 A3 平台测试应用的可操作性和用户体验，模拟用户与应用的交互过程，观察智能体在应用中的行为，提前发现应用设计中可能存在的问题，如界面布局不合理导致智能体操作困难、任务流程不清晰等，进而优化应用设计，提高应用的易用性和用户满意度。

移动GUI智能体评估平台A3

主要功能

主要特点

工作原理

具体应用场景

相关文章