Anthropic宣布升级 Claude 3.5 Sonnet 和新模型 Claude 3.5 Haiku

文章目录[隐藏]

Claude 3.5 Sonnet：行业领先的软件工程技能
Claude 3.5 Haiku：最先进的技术与可负担性和速度的结合
负责任地教 Claude 导航计算机
展望未来

Anthropic宣布升级的 Claude 3.5 Sonnet 和新的模型 Claude 3.5 Haiku。升级的 Claude 3.5 Sonnet 在各个方面都比其前身有所改进，特别是在编码方面——这是它已经领先的一个领域。Claude 3.5 Haiku 在许多评估中与 Claude 3 Opus（我们之前最大的模型）性能相当，成本相同，速度与前一代 Haiku 相似。

我们还推出了一项突破性的新功能，目前处于公开测试阶段：计算机使用。今天在 API 上可用，开发者可以指导 Claude 像人类一样使用计算机——通过查看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet 是第一个在公开测试中提供计算机使用的前沿 AI 模型。在这个阶段，它仍然是实验性的——有时笨拙且容易出错。我们提前发布计算机使用功能以获取开发者的反馈，并预计该功能将随着时间的推移迅速改进。

Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经开始探索这些可能性，执行需要数十甚至数百步才能完成的任务。例如，Replit 正在使用 Claude 3.5 Sonnet 的计算机使用和 UI 导航功能来开发一个关键功能，该功能在构建 Replit Agent 产品时评估应用程序。

如果视频无法播放，点击这里试试

升级的 Claude 3.5 Sonnet 现已对所有用户开放。从今天开始，开发者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用计算机使用测试版进行构建。新的 Claude 3.5 Haiku 将于本月晚些时候发布。

Claude 3.5 Sonnet：行业领先的软件工程技能

更新的 Claude 3.5 Sonnet 在行业基准测试中显示出广泛的改进，特别是在代理编码和工具使用任务中表现尤为突出。在编码方面，它在 SWE-bench Verified 上的性能从 33.4% 提高到 49.0%，得分高于所有公开可用的模型——包括像 OpenAI o1-preview 这样的推理模型和专门为代理编码设计的系统。在 TAU-bench 上，一个代理工具使用任务，它在零售领域的性能从 62.6% 提高到 69.2%，在更具挑战性的航空领域从 36.0% 提高到 46.0%。新的 Claude 3.5 Sonnet 以与其前身相同的价格和速度提供这些进步。

早期客户反馈表明，升级的 Claude 3.5 Sonnet 代表了 AI 驱动的编码的重大飞跃。GitLab 在测试该模型用于 DevSecOps 任务时发现，它在没有增加延迟的情况下提供了更强的推理能力（在使用案例中高达 10%），使其成为支持多步骤软件开发过程的理想选择。Cognition 使用新的 Claude 3.5 Sonnet 进行自主 AI 评估，与之前的版本相比，在编码、规划和问题解决方面取得了显著改进。The Browser Company 在使用该模型自动化基于网络的工作流程时，注意到 Claude 3.5 Sonnet 优于他们测试过的所有模型。

作为我们持续努力与外部专家合作的一部分，新的 Claude 3.5 Sonnet 模型的联合预部署测试由美国 AI 安全研究所（US AISI）和英国安全研究所（UK AISI）进行。我们还评估了升级的 Claude 3.5 Sonnet 的灾难性风险，并发现 ASL-2 标准，如我们的负责任扩展政策中所述，仍然适用于该模型。

Claude 3.5 Haiku：最先进的技术与可负担性和速度的结合

Claude 3.5 Haiku 是我们最快模型的下一代。以与 Claude 3 Haiku 相同的价格和相似的速度，Claude 3.5 Haiku 在每个技能集上都有所改进，甚至在许多智能基准测试中超越了 Claude 3 Opus，这是我们前一代中最大的模型。Claude 3.5 Haiku 在编码任务中表现尤为出色。例如，它在 SWE-bench Verified 上的得分为 40.6%，优于许多使用公开可用最先进模型的代理——包括原始的 Claude 3.5 Sonnet 和 GPT-4o。

凭借低延迟、改进的指令跟随和更准确的工具使用，Claude 3.5 Haiku 非常适合面向用户的产品、专门的子代理任务以及从大量数据（如购买历史、定价或库存记录）生成个性化体验。Claude 3.5 Haiku 将于本月晚些时候在我们的第一方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上发布——最初作为仅文本模型，随后将支持图像输入。

负责任地教 Claude 导航计算机

通过计算机使用，我们正在尝试一些全新的东西。我们不是制作特定的工具来帮助 Claude 完成特定的任务，而是教它通用的计算机技能——允许它使用为人类设计的各种标准工具和软件程序。开发者可以使用这种新兴能力来自动化重复过程、构建和测试软件，以及进行开放式任务，如研究。

为了使这些通用技能成为可能，我们构建了一个 API，允许 Claude 感知和与计算机界面互动。开发者可以集成这个 API，使 Claude 能够将指令（例如，“使用我计算机和在线的数据填写此表单”）转换为计算机命令（例如，检查电子表格；移动光标以打开网络浏览器；导航到相关网页；使用这些页面的数据填写表单；等等）。在 OSWorld 上，该评估 AI 模型像人类一样使用计算机的能力，Claude 3.5 Sonnet 在仅截图类别中的得分为 14.9%——明显优于下一个最佳 AI 系统的 7.8% 得分。当给予更多步骤完成任务时，Claude 得分为 22.0%。

虽然我们预计这种能力将在未来几个月内迅速改进，但 Claude 目前使用计算机的能力并不完美。人们轻松执行的一些动作——滚动、拖动、缩放——目前对 Claude 来说仍然具有挑战性，我们鼓励开发者在低风险任务中开始探索。由于计算机使用可能为更熟悉的威胁（如垃圾邮件、错误信息或欺诈）提供新的途径，我们正在采取积极的方法来促进其安全部署。我们已经开发了新的分类器，可以识别何时使用计算机以及是否发生危害。您可以在我们的文章《开发计算机使用》中阅读更多关于这项新技能的研究过程以及进一步的安全措施讨论。

展望未来

从这项技术的初始部署中学习，尽管它仍处于早期阶段，将帮助我们更好地理解日益强大的 AI 系统的潜力和影响。我们很高兴您能探索我们的新模型和计算机使用的公开测试版——并欢迎您与我们分享您的反馈。我们相信这些发展将为您与 Claude 的工作方式开辟新的可能性，我们期待看到您将创造什么。