AI代理已成为在网页环境中导航和执行在线购物、项目管理以及内容浏览等任务的重要工具。这些代理通常模拟人类在主要为视觉和人类交互设计的网站上的动作,如点击和滚动。尽管这种方法实用,但它在机器效率方面存在局限,尤其是在任务涉及与复杂、图像密集的界面交互时。因此,AI代理设计领域面临一个关键问题:这些代理如何能以更快的速度和更高的准确性执行网页任务,尤其是在网站界面不一致或对机器使用不理想的情况下?
现有方法的局限性
现有的AI导航方法主要是基于GUI的,这意味着它们依赖于访问树来解释和操作网页元素,如按钮和链接。这种方法虽然有效,但将代理限制在以人类为中心的浏览序列中。代理可以访问HTML DOM结构的简化版本,但在处理动态加载的内容、图像密集的界面或涉及大量重复动作的任务时,就会遇到限制。设计用于更简单、直接任务的浏览代理通常需要帮助导航需要多个顺序步骤才能找到特定数据的网页界面,这通常会导致性能限制。
卡内基梅隆大学的创新
卡内基梅隆大学的研究者引入了两种创新类型的代理来提升网页任务的表现:
- API调用代理:API调用代理仅通过API完成任务,直接与JSON或XML等格式的数据交互,从而绕过了模拟人类浏览动作的需要。这种方法提高了任务的速度和准确性,特别是在API支持丰富的环境中。
- 混合代理:由于仅API方法的局限性,研究团队还开发了一种混合代理,它可以根据任务需求在API调用和传统网页浏览之间无缝切换。这种混合方法允许代理在API支持可用时利用API进行高效、直接的数据检索,在API支持有限或不完整时切换到浏览。通过整合这两种方法,这个灵活的模型提升了速度、精确度和适应性,使代理能更有效地浏览网页并处理各种在线环境中的任务。
例如,考虑一个在线购物网站的任务,用户想要查询某个商品的库存。传统的网页浏览代理可能需要模拟用户点击、滚动页面、填写表单等一系列复杂操作来获取信息。而API基础的代理可以直接调用网站的库存查询API,快速准确地获取所需数据。
主要特点
- 效率提升:API基础代理在有充分API支持的网站上,比基于浏览器的代理表现更好。
- 灵活性增强:混合代理能够根据任务需求灵活选择使用API调用或网页浏览,提高了任务完成的可靠性和一致性。
- 成本效益:尽管API调用可能增加执行成本,但其提高的任务成功率使得增加的成本是合理的。
混合代理的技术优势
混合代理背后的技术旨在优化数据检索。通过依赖API调用,代理可以绕过传统的导航序列,直接检索结构化数据。这种方法还支持动态切换,代理在遇到非结构化或未记录的在线内容时可以切换到GUI导航。这种适应性在API支持不一致的网站上特别有用,因为代理可以回退到浏览来执行API缺失的操作。双重动作能力提升了代理的多功能性,使其能够通过根据可用交互格式调整其方法来处理更广泛的网页任务。
- API调用:代理使用预定义的API端点执行任务,通过发送HTTP请求并接收JSON或XML格式的数据。
- 混合策略:代理根据当前任务和API的可用性,动态选择是使用API调用还是网页浏览来执行任务。
- 文档检索:对于大型API集,代理使用两阶段文档检索过程,首先获取API列表和简要描述,然后根据需要检索特定API的详细文档。
实验结果
在WebArena基准测试中进行的测试表明,混合代理在复杂任务中始终优于传统的浏览代理,平均准确率达到35.8%,成功率提高了20%以上。例如,在GitLab上,代理的完成率达到了44.4%,而仅浏览的代理只有12.8%。混合模型在API可用性高的任务(如GitLab和Map服务)上也显示出显著的高效,完成任务的速度更快,导航步骤更少。这种效率使代理能够超越仅网页方法,展示了混合方法在实现最先进结果方面的潜力。
关键见解
- 效率提升:混合代理基于API的方法使得直接数据检索,提高了任务速度,在API支持的平台上提升了20%以上。
- 适应性:混合代理具有动态切换能力,可以适应结构化和非结构化数据,减少对复杂导航序列的依赖。
- 更高准确性:混合模型在基准测试中实现了35.8%的完成率,为在多样化在线环境中操作的任务无关代理设定了新标准。
- 减少计算负载:通过绕过不必要的浏览步骤,混合代理降低了计算需求,使其既节省成本又快速。
- 更广泛的应用性:这种方法支持范围广泛的任务,从简单的数据检索到需要多步骤交互的复杂动作。
结论
这项研究通过整合浏览和基于API的方法,突出了AI驱动的网页导航领域的一个有希望的发展。混合模型表明,结合策略在性能、适应性和效率方面都优于仅浏览代理。这种平衡的方法允许AI代理快速访问结构化数据,同时在缺乏全面API支持的网页环境中保持灵活性,为网页导航代理设定了新的基准。这一创新为未来的AI代理设计提供了新的方向,有望在各种在线环境中实现更高效、更灵活的任务执行。