Anthropic宣布升级的 Claude 3.5 Sonnet 和新的模型 Claude 3.5 Haiku。升级的 Claude 3.5 Sonnet 在各个方面都比其前身有所改进,特别是在编码方面——这是它已经领先的一个领域。Claude 3.5 Haiku 在许多评估中与 Claude 3 Opus(我们之前最大的模型)性能相当,成本相同,速度与前一代 Haiku 相似。
我们还推出了一项突破性的新功能,目前处于公开测试阶段:计算机使用。今天在 API 上可用,开发者可以指导 Claude 像人类一样使用计算机——通过查看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet 是第一个在公开测试中提供计算机使用的前沿 AI 模型。在这个阶段,它仍然是实验性的——有时笨拙且容易出错。我们提前发布计算机使用功能以获取开发者的反馈,并预计该功能将随着时间的推移迅速改进。
Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经开始探索这些可能性,执行需要数十甚至数百步才能完成的任务。例如,Replit 正在使用 Claude 3.5 Sonnet 的计算机使用和 UI 导航功能来开发一个关键功能,该功能在构建 Replit Agent 产品时评估应用程序。
升级的 Claude 3.5 Sonnet 现已对所有用户开放。从今天开始,开发者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用计算机使用测试版进行构建。新的 Claude 3.5 Haiku 将于本月晚些时候发布。
Claude 3.5 Sonnet:行业领先的软件工程技能
更新的 Claude 3.5 Sonnet 在行业基准测试中显示出广泛的改进,特别是在代理编码和工具使用任务中表现尤为突出。在编码方面,它在 SWE-bench Verified 上的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型——包括像 OpenAI o1-preview 这样的推理模型和专门为代理编码设计的系统。在 TAU-bench 上,一个代理工具使用任务,它在零售领域的性能从 62.6% 提高到 69.2%,在更具挑战性的航空领域从 36.0% 提高到 46.0%。新的 Claude 3.5 Sonnet 以与其前身相同的价格和速度提供这些进步。
早期客户反馈表明,升级的 Claude 3.5 Sonnet 代表了 AI 驱动的编码的重大飞跃。GitLab 在测试该模型用于 DevSecOps 任务时发现,它在没有增加延迟的情况下提供了更强的推理能力(在使用案例中高达 10%),使其成为支持多步骤软件开发过程的理想选择。Cognition 使用新的 Claude 3.5 Sonnet 进行自主 AI 评估,与之前的版本相比,在编码、规划和问题解决方面取得了显著改进。The Browser Company 在使用该模型自动化基于网络的工作流程时,注意到 Claude 3.5 Sonnet 优于他们测试过的所有模型。
作为我们持续努力与外部专家合作的一部分,新的 Claude 3.5 Sonnet 模型的联合预部署测试由美国 AI 安全研究所(US AISI)和英国安全研究所(UK AISI)进行。我们还评估了升级的 Claude 3.5 Sonnet 的灾难性风险,并发现 ASL-2 标准,如我们的负责任扩展政策中所述,仍然适用于该模型。
Claude 3.5 Haiku:最先进的技术与可负担性和速度的结合
Claude 3.5 Haiku 是我们最快模型的下一代。以与 Claude 3 Haiku 相同的价格和相似的速度,Claude 3.5 Haiku 在每个技能集上都有所改进,甚至在许多智能基准测试中超越了 Claude 3 Opus,这是我们前一代中最大的模型。Claude 3.5 Haiku 在编码任务中表现尤为出色。例如,它在 SWE-bench Verified 上的得分为 40.6%,优于许多使用公开可用最先进模型的代理——包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
凭借低延迟、改进的指令跟随和更准确的工具使用,Claude 3.5 Haiku 非常适合面向用户的产品、专门的子代理任务以及从大量数据(如购买历史、定价或库存记录)生成个性化体验。Claude 3.5 Haiku 将于本月晚些时候在我们的第一方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上发布——最初作为仅文本模型,随后将支持图像输入。
负责任地教 Claude 导航计算机
通过计算机使用,我们正在尝试一些全新的东西。我们不是制作特定的工具来帮助 Claude 完成特定的任务,而是教它通用的计算机技能——允许它使用为人类设计的各种标准工具和软件程序。开发者可以使用这种新兴能力来自动化重复过程、构建和测试软件,以及进行开放式任务,如研究。
为了使这些通用技能成为可能,我们构建了一个 API,允许 Claude 感知和与计算机界面互动。开发者可以集成这个 API,使 Claude 能够将指令(例如,“使用我计算机和在线的数据填写此表单”)转换为计算机命令(例如,检查电子表格;移动光标以打开网络浏览器;导航到相关网页;使用这些页面的数据填写表单;等等)。在 OSWorld 上,该评估 AI 模型像人类一样使用计算机的能力,Claude 3.5 Sonnet 在仅截图类别中的得分为 14.9%——明显优于下一个最佳 AI 系统的 7.8% 得分。当给予更多步骤完成任务时,Claude 得分为 22.0%。
虽然我们预计这种能力将在未来几个月内迅速改进,但 Claude 目前使用计算机的能力并不完美。人们轻松执行的一些动作——滚动、拖动、缩放——目前对 Claude 来说仍然具有挑战性,我们鼓励开发者在低风险任务中开始探索。由于计算机使用可能为更熟悉的威胁(如垃圾邮件、错误信息或欺诈)提供新的途径,我们正在采取积极的方法来促进其安全部署。我们已经开发了新的分类器,可以识别何时使用计算机以及是否发生危害。您可以在我们的文章《开发计算机使用》中阅读更多关于这项新技能的研究过程以及进一步的安全措施讨论。
展望未来
从这项技术的初始部署中学习,尽管它仍处于早期阶段,将帮助我们更好地理解日益强大的 AI 系统的潜力和影响。我们很高兴您能探索我们的新模型和计算机使用的公开测试版——并欢迎您与我们分享您的反馈。我们相信这些发展将为您与 Claude 的工作方式开辟新的可能性,我们期待看到您将创造什么。