OpenAI推出了一种名为“Operator”的AI代理程序，可以自主完成任务

浏览：646次阅读

共计 3081 个字符，预计需要花费 8 分钟才能阅读完成。

Operator 是一款能够使用自己的浏览器为你执行任务的代理工具，目前作为研究预览版向美国 Pro 用户开放。

今天 OpenAI 发布了 Operator，这是一款能够访问网页并为你执行任务的代理工具。通过其自带的浏览器，它可以查看网页并通过输入、点击和滚动与之交互。目前它处于研究预览阶段，意味着它存在一些限制，并将根据用户反馈不断改进。Operator 是 OpenAI 首批代理工具之一，这些 AI 能够独立为你完成工作——你只需给它一个任务，它就会执行。

Operator 可以处理各种重复性浏览器任务，例如填写表格、订购杂货，甚至制作表情包。通过使用与人类日常交互相同的界面和工具，Operator 扩展了 AI 的实用性，帮助人们节省日常任务的时间，同时为企业开辟了新的参与机会。

为了确保安全和逐步推出，OpenAI 从小范围开始。从今天起，Operator 将面向美国的 Pro 用户在 operator.chatgpt.com 上开放。这一研究预览版使 OpenAI 能够从用户和更广泛的生态系统中学习，逐步完善和改进。OpenAI 计划未来将其扩展到 Plus、Team 和 Enterprise 用户，并将这些功能整合到 ChatGPT 中。

Operator 的工作原理

Operator 由一种名为“计算机使用代理”（CUA）的新模型驱动。CUA 结合了 GPT-4o 的视觉能力和通过强化学习实现的高级推理能力，经过训练可以与图形用户界面（GUI）——即屏幕上显示的按钮、菜单和文本字段——进行交互。

Operator 可以通过截图“看到”浏览器，并通过鼠标和键盘允许的所有操作“交互”，从而在不需要自定义 API 集成的情况下在网页上执行任务。

如果遇到挑战或犯错，Operator 可以利用其推理能力进行自我纠正。当它卡住并需要帮助时，它会简单地将控制权交还给用户，确保流畅的协作体验。

尽管 CUA 仍处于早期阶段并存在限制，但它在 WebArena 和 WebVoyager 这两个关键浏览器使用基准测试中创下了新的最先进记录。了解更多关于评估和 Operator 背后的研究，请阅读 OpenAI 的研究博客文章。

如何使用

要开始使用，只需描述你想要完成的任务，Operator 将处理其余部分。用户可以随时接管远程浏览器的控制权，Operator 经过训练会主动要求用户接管需要登录、支付信息或解决验证码的任务。

用户可以通过添加自定义指令来个性化 Operator 的工作流程，这些指令可以适用于所有网站或特定网站，例如在 Booking.com 上设置航空公司偏好。Operator 允许用户在主页上保存提示以便快速访问，非常适合重复性任务，例如在 Instacart 上补货杂货。类似于在浏览器中使用多个标签页，用户可以通过创建新对话让 Operator 同时运行多个任务，例如在 Etsy 上订购个性化搪瓷杯的同时在 Hipcamp 上预订露营地。

生态系统与用户

Operator 将 AI 从被动工具转变为数字生态系统中的积极参与者。它将简化用户的任务，并为希望提供创新客户体验和提高转化率的企业带来代理工具的好处。OpenAI 正在与 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作，确保 Operator 满足现实需求并尊重既定规范。除了这些合作，OpenAI 还看到了在某些工作流程中提高可访问性和效率的巨大潜力，特别是在公共部门应用中。为了进一步探索这些用例，OpenAI 正在与 Stockton 市等组织合作，使注册城市服务和计划变得更加容易。

“随着 OpenAI 在研究预览期间对 Operator 的更多了解，OpenAI 将更好地确定 AI 如何使 OpenAI 的居民更容易参与公民事务。”——Stockton 市信息技术总监 Jamil Niazi

通过最初向有限受众发布 Operator，OpenAI 旨在快速学习并根据现实反馈完善其功能，确保 OpenAI 在创新与信任和安全之间取得平衡。这种协作方法有助于确保 Operator 为用户、创作者、企业和公共部门组织提供有意义的价值。

“OpenAI 的 Operator 是一项技术突破，使订购杂货等流程变得异常简单。”——Instacart 首席产品官 Daniel Danker

安全与隐私

确保 Operator 的安全使用是 OpenAI 的首要任务，OpenAI 设置了三层保护措施以防止滥用并确保用户牢牢掌握控制权。

首先，Operator 经过训练，确保使用它的人始终处于控制状态，并在关键时刻请求输入。

接管模式：当在浏览器中输入敏感信息（如登录凭据或支付信息）时，Operator 会要求用户接管。在接管模式下，Operator 不会收集或截图用户输入的信息。
用户确认：在完成任何重要操作（如提交订单或发送电子邮件）之前，Operator 应请求批准。
任务限制：Operator 经过训练会拒绝某些敏感任务，例如银行交易或需要高风险决策的任务，如决定工作申请。
监视模式：在特别敏感的网站（如电子邮件或金融服务）上，Operator 需要对其操作进行密切监督，允许用户直接发现任何潜在错误。

其次，OpenAI 使管理 Operator 中的数据隐私变得容易。

训练选择退出：在 ChatGPT 设置中关闭“为所有人改进模型”意味着 Operator 中的数据也不会用于训练 OpenAI 的模型。
透明的数据管理：用户可以在 Operator 设置的隐私部分一键删除所有浏览数据并注销所有网站。Operator 中的过去对话也可以一键删除。

最后，OpenAI 建立了针对对抗性网站的防御措施，这些网站可能试图通过隐藏提示、恶意代码或钓鱼尝试误导 Operator：

谨慎导航：Operator 旨在检测并忽略提示注入。
监控：一个专门的“监控模型”监视可疑行为，并在出现异常时暂停任务。
检测管道：自动和人工审查流程持续识别新威胁并快速更新保护措施。

OpenAI 知道不良行为者可能会试图滥用这项技术。这就是为什么 OpenAI 设计了 Operator 来拒绝有害请求并阻止不允许的内容。OpenAI 的审核系统可以发出警告，甚至在多次违规时撤销访问权限，并且 OpenAI 整合了额外的审查流程以检测和解决滥用问题。OpenAI 还提供了关于如何遵守 OpenAI 的使用政策与 Operator 交互的指南。

尽管 Operator 设计了这些保护措施，但没有任何系统是完美的，这仍然是一个研究预览版；OpenAI 致力于通过现实反馈和严格测试不断改进。了解更多关于 OpenAI 的方法，请访问 Operator 研究博客的安全部分。

限制

Operator 目前处于早期研究预览阶段，尽管它已经能够处理各种任务，但它仍在学习、发展，并可能犯错。例如，它目前在处理复杂界面（如创建幻灯片或管理日历）时遇到挑战。早期用户反馈将在提高其准确性、可靠性和安全性方面发挥至关重要的作用，帮助 OpenAI 为所有人改进 Operator。

下一步计划

API 中的 CUA：OpenAI 计划很快在 API 中公开驱动 Operator 的模型 CUA，以便开发人员可以使用它构建自己的计算机使用代理。
增强功能：OpenAI 将继续提高 Operator 处理更长和更复杂工作流程的能力。
更广泛的访问：OpenAI 计划将 Operator 扩展到 Plus、Team 和 Enterprise 用户，并在未来将其功能直接整合到 ChatGPT 中，一旦 OpenAI 对其大规模的安全性和可用性有信心，将解锁无缝的实时和异步任务执行。

OpenAI推出了一种名为“Operator”的AI代理程序，可以自主完成任务

相关文章