共计 1359 个字符,预计需要花费 4 分钟才能阅读完成。
来自上海人工智能实验室、香港大学、约翰霍普金斯大学、上海交通大学、牛津大学和香港科技大学的研究团队提出了一种名为 OS-Genesis 的创新方法,用于自动化构建高质量的图形用户界面(GUI)智能体轨迹,以解决现有数据收集方法在训练 GUI 智能体时面临的挑战。这种方法特别针对于由视觉语言模型(VLMs)驱动的 GUI 代理,旨在提高其在数字自动化领域的应用能力。
- 项目主页:https://qiushisun.github.io/OS-Genesis-Home
- GitHub:https://github.com/OS-Copilot/OS-Genesis
- 模型:https://huggingface.co/collections/OS-Copilot/os-genesis-6768d4b6fffc431dbf624c2d
例如,我们有一个手机应用程序,用户想要将“牛油果吐司配鸡蛋”的食谱标记为收藏。在 OS-Genesis 的帮助下,GUI 代理可以自动执行以下步骤:首先识别食谱名称,然后点击查看详情,最后找到并点击“标记为收藏”的选项。这个过程不需要预先定义的任务或人工监督,而是通过代理与环境的交互来逆向推导出任务。
主要功能
- 自动化数据收集:通过在动态环境中无人类监督地探索交互式元素,收集大量的动作与前后状态三元组,模拟人类与 GUI 的交互过程,挖掘潜在功能。
- 反向任务合成:利用收集到的三元组生成有意义的任务指令,包括将其转化为低级任务指令,再进一步构建高级任务指令,从而生成多样化且与环境适配的高级指令集。
- 轨迹奖励模型:引入轨迹奖励模型(TRM),对合成轨迹进行质量评估和筛选,通过给予 1 - 5 分的奖励分数,依据完成度和连贯性等特征进行分级评价,确保轨迹质量和有效利用,使训练过程受益于高质量数据和多样任务场景。
主要特点
- 交互驱动:采用交互驱动的方式,摆脱对预定义任务的依赖,通过探索环境中的功能来生成任务指令,从而提高轨迹的质量和多样性。
- 高质量数据合成:能够合成高质量的轨迹数据,这些数据在训练 GUI 智能体时表现出色,显著提升智能体在具有挑战性的在线基准测试中的性能。
- 数据多样性:生成的数据具有较高的多样性,无论是指令还是轨迹层面,都能更全面地探索环境,弥补了传统方法在数据多样性上的不足。
工作原理
- 交互驱动的功能发现:在移动和网络环境中,通过执行如点击、输入、滚动等操作自动探索交互式元素,收集动作与前后状态的三元组,为后续任务合成提供基础。
- 反向任务合成
- 基于收集的三元组,使用注释模型(如 GPT - 4o)将其转化为低级任务指令,确保指令与环境功能相匹配。
- 将低级任务指令与更广泛的目标关联,构建高级任务指令,形成丰富的任务指令集。
- 轨迹生成与优化:利用合成的高级指令在环境中执行,生成完整的轨迹集,再通过轨迹奖励模型对轨迹进行评估和筛选,确保用于训练的数据质量。
具体应用场景
- 移动任务自动化:如在 AndroidWorld 基准测试中,用于解决日常任务,像在应用中标记食谱为收藏等,显著提升智能体在复杂移动任务中的性能,缩小与基于 GPT - 4o 的 SOTA 智能体的差距。
- 网络任务处理:在 WebArena 基准测试中,处理各种网络导航任务,如电子商务网站的商品搜索与筛选、论坛的操作等,通过生成的高质量轨迹数据提升智能体在网络环境中的任务完成能力。
相关文章
相关文章
正文完
关注公众号获取最新教程
发表至: 最新研究
五天前