Operator是一款能够使用自己的浏览器为你执行任务的代理工具,目前作为研究预览版向美国Pro用户开放。

今天OpenAI发布了Operator,这是一款能够访问网页并为你执行任务的代理工具。通过其自带的浏览器,它可以查看网页并通过输入、点击和滚动与之交互。目前它处于研究预览阶段,意味着它存在一些限制,并将根据用户反馈不断改进。Operator是OpenAI首批代理工具之一,这些AI能够独立为你完成工作——你只需给它一个任务,它就会执行。

Operator可以处理各种重复性浏览器任务,例如填写表格、订购杂货,甚至制作表情包。通过使用与人类日常交互相同的界面和工具,Operator扩展了AI的实用性,帮助人们节省日常任务的时间,同时为企业开辟了新的参与机会。
为了确保安全和逐步推出,OpenAI从小范围开始。从今天起,Operator将面向美国的Pro用户在operator.chatgpt.com上开放。这一研究预览版使OpenAI能够从用户和更广泛的生态系统中学习,逐步完善和改进。OpenAI计划未来将其扩展到Plus、Team和Enterprise用户,并将这些功能整合到ChatGPT中。
Operator的工作原理
Operator由一种名为“计算机使用代理”(CUA)的新模型驱动。CUA结合了GPT-4o的视觉能力和通过强化学习实现的高级推理能力,经过训练可以与图形用户界面(GUI)——即屏幕上显示的按钮、菜单和文本字段——进行交互。
Operator可以通过截图“看到”浏览器,并通过鼠标和键盘允许的所有操作“交互”,从而在不需要自定义API集成的情况下在网页上执行任务。
如果遇到挑战或犯错,Operator可以利用其推理能力进行自我纠正。当它卡住并需要帮助时,它会简单地将控制权交还给用户,确保流畅的协作体验。
尽管CUA仍处于早期阶段并存在限制,但它在WebArena和WebVoyager这两个关键浏览器使用基准测试中创下了新的最先进记录。了解更多关于评估和Operator背后的研究,请阅读OpenAI的研究博客文章。
如何使用
要开始使用,只需描述你想要完成的任务,Operator将处理其余部分。用户可以随时接管远程浏览器的控制权,Operator经过训练会主动要求用户接管需要登录、支付信息或解决验证码的任务。
用户可以通过添加自定义指令来个性化Operator的工作流程,这些指令可以适用于所有网站或特定网站,例如在Booking.com上设置航空公司偏好。Operator允许用户在主页上保存提示以便快速访问,非常适合重复性任务,例如在Instacart上补货杂货。类似于在浏览器中使用多个标签页,用户可以通过创建新对话让Operator同时运行多个任务,例如在Etsy上订购个性化搪瓷杯的同时在Hipcamp上预订露营地。
生态系统与用户
Operator将AI从被动工具转变为数字生态系统中的积极参与者。它将简化用户的任务,并为希望提供创新客户体验和提高转化率的企业带来代理工具的好处。OpenAI正在与DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber等公司合作,确保Operator满足现实需求并尊重既定规范。除了这些合作,OpenAI还看到了在某些工作流程中提高可访问性和效率的巨大潜力,特别是在公共部门应用中。为了进一步探索这些用例,OpenAI正在与Stockton市等组织合作,使注册城市服务和计划变得更加容易。
“随着OpenAI在研究预览期间对Operator的更多了解,OpenAI将更好地确定AI如何使OpenAI的居民更容易参与公民事务。” ——Stockton市信息技术总监Jamil Niazi
通过最初向有限受众发布Operator,OpenAI旨在快速学习并根据现实反馈完善其功能,确保OpenAI在创新与信任和安全之间取得平衡。这种协作方法有助于确保Operator为用户、创作者、企业和公共部门组织提供有意义的价值。
“OpenAI的Operator是一项技术突破,使订购杂货等流程变得异常简单。” ——Instacart首席产品官Daniel Danker
安全与隐私
确保Operator的安全使用是OpenAI的首要任务,OpenAI设置了三层保护措施以防止滥用并确保用户牢牢掌握控制权。
首先,Operator经过训练,确保使用它的人始终处于控制状态,并在关键时刻请求输入。
- 接管模式:当在浏览器中输入敏感信息(如登录凭据或支付信息)时,Operator会要求用户接管。在接管模式下,Operator不会收集或截图用户输入的信息。
- 用户确认:在完成任何重要操作(如提交订单或发送电子邮件)之前,Operator应请求批准。
- 任务限制:Operator经过训练会拒绝某些敏感任务,例如银行交易或需要高风险决策的任务,如决定工作申请。
- 监视模式:在特别敏感的网站(如电子邮件或金融服务)上,Operator需要对其操作进行密切监督,允许用户直接发现任何潜在错误。
其次,OpenAI使管理Operator中的数据隐私变得容易。
- 训练选择退出:在ChatGPT设置中关闭“为所有人改进模型”意味着Operator中的数据也不会用于训练OpenAI的模型。
- 透明的数据管理:用户可以在Operator设置的隐私部分一键删除所有浏览数据并注销所有网站。Operator中的过去对话也可以一键删除。
最后,OpenAI建立了针对对抗性网站的防御措施,这些网站可能试图通过隐藏提示、恶意代码或钓鱼尝试误导Operator:
- 谨慎导航:Operator旨在检测并忽略提示注入。
- 监控:一个专门的“监控模型”监视可疑行为,并在出现异常时暂停任务。
- 检测管道:自动和人工审查流程持续识别新威胁并快速更新保护措施。
OpenAI知道不良行为者可能会试图滥用这项技术。这就是为什么OpenAI设计了Operator来拒绝有害请求并阻止不允许的内容。OpenAI的审核系统可以发出警告,甚至在多次违规时撤销访问权限,并且OpenAI整合了额外的审查流程以检测和解决滥用问题。OpenAI还提供了关于如何遵守OpenAI的使用政策与Operator交互的指南。
尽管Operator设计了这些保护措施,但没有任何系统是完美的,这仍然是一个研究预览版;OpenAI致力于通过现实反馈和严格测试不断改进。了解更多关于OpenAI的方法,请访问Operator研究博客的安全部分。
限制
Operator目前处于早期研究预览阶段,尽管它已经能够处理各种任务,但它仍在学习、发展,并可能犯错。例如,它目前在处理复杂界面(如创建幻灯片或管理日历)时遇到挑战。早期用户反馈将在提高其准确性、可靠性和安全性方面发挥至关重要的作用,帮助OpenAI为所有人改进Operator。
下一步计划
- API中的CUA:OpenAI计划很快在API中公开驱动Operator的模型CUA,以便开发人员可以使用它构建自己的计算机使用代理。
- 增强功能:OpenAI将继续提高Operator处理更长和更复杂工作流程的能力。
- 更广泛的访问:OpenAI计划将Operator扩展到Plus、Team和Enterprise用户,并在未来将其功能直接整合到ChatGPT中,一旦OpenAI对其大规模的安全性和可用性有信心,将解锁无缝的实时和异步任务执行。