Anthropic 发布负责任扩展政策 (RSP) 的重大更新

今天,Anthropic 发布了对负责任扩展政策 (RSP) 的重大更新,这是一个用于减轻前沿 AI 系统潜在灾难性风险的风险治理框架。此次更新引入了更灵活和细致的方法来评估和管理 AI 风险,同时保持不训练或部署模型,除非已经实施了足够的保障措施的承诺。

以下是官方介绍全文翻译:

今天,我们发布了对负责任扩展政策 (RSP) 的重大更新,这是一个用于减轻前沿 AI 系统潜在灾难性风险的风险治理框架。此次更新引入了更灵活和细致的方法来评估和管理 AI 风险,同时保持我们不训练或部署模型,除非我们已经实施了足够的保障措施的承诺。主要改进包括新的能力阈值,以指示我们何时将升级我们的保障措施,改进的流程用于评估模型能力和我们保障措施的充分性(受安全案例方法论的启发),以及新的内部治理和外部输入措施。通过从我们的实施经验中学习,并借鉴其他高风险行业使用的风险管理实践,我们旨在更好地为 AI 技术的快速发展做好准备。

先进 AI 的承诺与挑战

随着前沿 AI 模型的进步,它们有可能为我们的社会和经济带来变革性的好处。AI 可以加速科学发现,彻底改变医疗保健,增强我们的教育系统,并创造全新的人类创造力和创新领域。然而,前沿 AI 系统也带来了新的挑战和风险,需要仔细研究和有效的保障措施。

在 2023 年 9 月,我们发布了负责任扩展政策,这是一个用于管理越来越强大的 AI 系统风险的管理框架。经过一年的实施和学习,我们现在分享了一个显著更新的版本,反映了实际见解并考虑到了不断发展的技术能力。

尽管该政策侧重于灾难性风险,如以下类别所列,但它们并不是我们监控和准备的唯一风险。我们的使用政策规定了我们产品的使用标准,包括禁止使用我们的模型传播错误信息、煽动暴力或仇恨行为,或从事欺诈或滥用行为的规则。我们不断完善我们的技术措施,以大规模执行我们的信任和安全标准。此外,我们进行研究以了解我们模型的更广泛的社会影响。负责任扩展政策补充了我们在这些领域的工作,有助于我们理解当前和潜在的风险。

比例保障框架

与之前一样,我们保持核心承诺:除非我们已经实施了将风险保持在可接受水平以下的安全和安全措施,否则我们不会训练或部署模型。负责任扩展政策基于比例保护原则:随着潜在风险的增加,保障措施也会相应增加。为此,我们使用 AI 安全级别标准 (ASL 标准),这是一套随着模型能力增加而变得更加严格的安全和安全措施。受生物安全级别的启发,这些标准从 ASL-1 开始,适用于具有非常基本能力的模型(例如,下棋机器人),并逐步发展到 ASL-2、ASL-3 等。

在我们的更新政策中,我们改进了评估特定能力(及其相关风险)和实施比例安全和安全措施的方法。更新框架有两个关键组成部分:

  • 能力阈值:特定的 AI 能力,如果达到,将需要比我们当前基线更强的保障措施。
  • 所需保障措施:一旦达到能力阈值,所需的具体 ASL 标准以减轻风险。

目前,我们所有的模型都在 ASL-2 标准下运行,这反映了当前行业的最佳实践。更新政策定义了两个关键能力阈值,这将需要升级的保障措施:

  • 自主 AI 研发:如果一个模型能够独立进行通常需要人类专业知识的复杂 AI 研究任务——可能会以不可预测的方式显著加速 AI 发展——我们要求提高安全标准(可能为 ASL-4 或更高标准)和额外的安全保证,以避免发展速度超过我们应对新兴风险的能力。
  • 化学、生物、放射和核 (CBRN) 武器:如果一个模型能够实质性地帮助具有基本技术背景的人创建或部署 CBRN 武器,我们要求增强的安全和部署保障措施(ASL-3 标准)。 ASL-3 保障措施涉及增强的安全措施和部署控制。在安全方面,这将包括内部访问控制和更强大的模型权重保护。对于部署风险,我们计划实施多层方法来防止滥用,包括实时和异步监控、快速响应协议和彻底的部署前红队测试。

实施和监督

为了促进政策的有效实施,我们建立了:

  • 能力评估:基于我们的能力阈值的常规模型评估,以确定我们的当前保障措施是否仍然合适。(过去评估的摘要可在此处获取。)
  • 保障措施评估:定期评估我们的安全和部署安全措施的有效性,以评估我们是否达到了所需保障措施的标准。(这些决策的摘要将在此处提供。)
  • 文档和决策制定:受高可靠性行业常见程序(如安全案例方法论)启发的文档和保障措施评估流程。
  • 内部治理和外部输入措施:我们的评估方法将得到内部压力测试的支持,此外还有我们现有的安全问题内部报告流程。我们还征求外部专家对我们方法的反馈。

从经验中学习

在实施前一个负责任扩展政策的第一年中,我们学到了很多,并利用此次更新作为机会,反思哪些方面做得好,哪些方面在政策中有意义地更新。作为其中的一部分,我们进行了首次审查,了解我们如何严格遵守框架,并确定了一些我们未能完全满足其要求的实例。这些包括程序问题,例如比计划晚三天完成一组评估,或对我们应在何处记录占位符评估的任何更改缺乏清晰度。我们还标记了一些评估,通过实施标准技术(如思维链或最佳 N 选择),我们可能能够略微提高模型性能。

在所有情况下,我们发现这些实例对我们的模型安全构成最小风险。我们利用额外三天的时间来完善和改进我们的评估;我们使用的不同评估集比占位符评估提供了更准确的评估;我们的评估方法仍然显示我们距离阈值足够远。从中,我们学到了两个宝贵的教训,以纳入我们的更新框架:我们需要在我们的政策中纳入更多的灵活性,并且我们需要改进我们跟踪负责任扩展政策合规性的流程。您可以在此处阅读更多内容。

自从一年前首次发布负责任扩展政策以来,我们的目标一直是提供一个框架示例,其他人在制定自己的 AI 风险治理政策时可能会从中获得灵感。我们希望主动分享我们实施自己政策的经验,将有助于其他公司在实施自己的风险管理框架时,并有助于在整个 AI 生态系统中建立最佳实践。

展望未来

AI 的前沿正在迅速发展,难以预测未来的系统将需要哪些安全措施。我们安全计划的所有方面都将继续发展:我们的政策、评估方法、保障措施,以及我们对潜在风险和缓解措施的研究。

此外,联合创始人兼首席科学官 Jared Kaplan 将担任 Anthropic 的负责任扩展官,接替过去一年担任此职的联合创始人兼首席技术官 Sam McCandlish。Sam 监督了负责任扩展政策的初始实施,并将继续专注于他的首席技术官职责。随着我们努力扩大实施负责任扩展政策的工作,我们也在开放一个负责任扩展负责人的职位。该职位将负责协调许多团队,以迭代并成功遵守负责任扩展政策。

如果您想在 Anthropic 参与 AI 风险管理,我们正在招聘!我们的许多团队现在通过负责任扩展政策参与风险管理,包括:

  • 前沿红队(负责威胁建模和能力评估)
  • 信任与安全(负责开发部署保障措施)
  • 安全和合规(负责安全保障措施和风险管理)
  • 对齐科学(包括负责开发 ASL-3+ 安全措施的子团队,用于以对齐为重点的能力评估和我们的内部对齐压力测试计划)
  • 负责任扩展政策团队(负责政策起草、保证和跨公司执行)

在 anthropic.com/rsp 阅读更新政策,并在 anthropic.com/rsp-updates 阅读补充信息

我们向在开发和完善负责任扩展政策过程中提供宝贵反馈的许多外部团体表示诚挚的感谢。(来源

我们将24小时内回复。
取消