AI·新世界

微软针对Windows 11的AI代理理念太疯狂了，它可能会改变你使用电脑的方式

2024年10月29日

文章目录[隐藏]

什么是Windows Agent Arena？
AI代理的工作原理
示例应用场景
开发者工具和支持
技术细节
当前进展和未来展望

微软的Windows Agent Arena（WAA）是一个令人兴奋的项目，旨在推动人工智能在个人计算领域的应用。通过这一开源框架，微软希望让研究人员和开发人员能够构建、测试和优化专门针对Windows 11设计的AI代理。这些AI代理不仅可以理解用户的请求，还能在用户的计算机上执行复杂的任务，从而显著提高生产力。

什么是Windows Agent Arena？

Windows Agent Arena 是一个开源框架，旨在支持开发人员和研究人员构建、测试和基准测试专门为Windows 11设计的AI代理。这些AI代理类似于智能助手，它们可以“看到”您屏幕上的内容，理解这些内容，并通过点击、打字或打开应用程序等方式与您的计算机交互，以帮助您完成任务。

AI代理的工作原理

理解请求：AI代理首先需要理解用户的请求。例如，用户可以说“开始我的早晨设置”，AI代理会理解这是一个需要打开电子邮件、日历和新闻网站的请求。
执行任务：AI代理将根据请求执行相应的操作。例如，打开Microsoft Edge并更改隐私设置，以启用“请勿跟踪”功能。
交互操作：AI代理可以模拟用户的操作，如点击菜单、选择设置项、滚动页面等，以完成任务。

示例应用场景

早晨设置：
- 用户：“开始我的早晨设置。”
- AI代理：打开电子邮件、日历和新闻网站。
隐私设置：
- 用户：“启用Edge的‘请勿跟踪’功能。”
- AI代理：打开Microsoft Edge，导航到设置，启用“请勿跟踪”功能。
文件管理：
- 用户：“将下载文件夹中的所有图片重命名并压缩。”
- AI代理：重命名图片文件，将其压缩成一个文件。
文档编辑：
- 用户：“将当前文档导出为PDF。”
- AI代理：使用LibreOffice或其他文档编辑软件导出当前文档为PDF格式。
系统设置：
- 用户：“关闭我的系统通知。”
- AI代理：关闭系统的通知功能。

开发者工具和支持

开源框架：WAA完全开源，开发人员可以使用本地操作系统或微软的Azure机器学习（Azure ML）云基础设施来测试和运行多个代理。
默认模板：微软提供了默认的“AI代理”模板，作为开发人员的起点。
基准测试工具：WAA包含基准测试工具，帮助开发人员评估AI代理的性能和安全性。
屏幕理解模型：微软开源了“Omniparser”，一个强大的屏幕理解模型，帮助AI代理更好地理解和操作屏幕内容。

技术细节

开发环境：开发人员可以通过Docker与WSL 2、OpenAI或AzureOpen API密钥、Python 3.9、克隆WAA存储库、安装依赖项，最后使用Windows Enterprise Evaluation ISO来开始。
云支持：WAA支持在Azure中运行，开发人员可以在云中同时测试多个代理，提高测试效率和可扩展性。

当前进展和未来展望

初步成果：微软的研究论文《Windows Agent Arena：大规模评估多模态操作系统代理》显示，WAA的初始模型可以处理多达150个不同的任务。
现有代理：微软的AI代理Navi的成功率为19.5%，虽然低于人类的74.5%，但已经是一个重要的里程碑。
未来展望：微软计划继续改进AI代理，使其能够更好地理解用户的意图，执行更复杂的任务，并最终成为用户日常生活中的得力助手。

Windows Agent Arena 是一个极具潜力的项目，它不仅展示了AI技术在个人计算领域的广泛应用前景，还为开发人员和研究人员提供了一个强大的工具，帮助他们构建和测试创新的AI代理。随着技术的不断进步，未来的Windows 11用户可能会享受到更加智能化、个性化的计算体验。（来源）