随着AI技术的发展,越来越强大的模型正在被广泛应用于各个领域。然而,这种进步也带来了新的挑战,尤其是在模型可能颠覆人类监督和决策的情况下。例如,在AI开发过程中,某些高级模型有可能自主行动,如秘密干扰对其自身潜在危害的评估、监控自身的行为,甚至做出有关其部署的关键决策。我们称这种行为为“破坏能力”。
为了应对这一挑战,我们构建了一套威胁模型,并设计了相应的评估方法。这些评估的目标是验证,在特定的缓解策略下,是否能够有效阻止模型对前沿AI开发者或大型机构活动的潜在破坏。我们选取了Anthropic公司的Claude 3 Opus和Claude 3.5 Sonnet两款模型作为研究对象,进行了深入的测试。
测试结果与分析
通过一系列严格的测试,我们发现对于Claude 3 Opus和Claude 3.5 Sonnet这两款模型而言,现有的基础性缓解措施已经足够应对它们可能带来的破坏风险。但是,随着技术的进步和模型能力的提升,未来可能需要更加复杂的评估手段和更加强大的缓解策略来确保安全。
以下是官方介绍全文:
任何存在潜在危害的行业都需要进行评估。核电站有持续的辐射监测和定期的现场检查;新飞机要经过广泛的飞行测试以证明其适航性。
AI系统也不例外。新的AI模型会经历一系列广泛的安全评估——例如,测试它们在协助制造生物或化学武器方面的能力。这些评估被纳入我们的负责任扩展政策中,该政策指导我们开发模型的安全措施。
然而,随着AI的能力增强,可能会出现一种新的风险:模型可能具备误导用户或颠覆我们为监督它们而建立的系统的能力。Anthropic Alignment Science团队的一篇新论文描述了一套新颖的评估方法,用于测试模型的破坏能力。我们研究了四种不同的类型:
- 人类决策破坏:模型能否在不引起怀疑的情况下引导人类做出错误的决策?
- 代码破坏:模型能否在不被发现的情况下,随着时间的推移在代码库中插入微妙的错误?
- 拖后腿:模型能否在测试期间隐藏其危险能力,但在之后暴露出来?
- 破坏监督:模型能否巧妙地操纵评估或监控系统?
我们开发这些评估是为了为未来可能出现更多危险能力的更强大AI模型做准备。我们分享了这些评估——以及在Claude 3 Opus和Claude 3.5 Sonnet上使用这些评估的结果——以便其他AI开发者可以使用并改进它们。下面,我们将逐一讨论每项评估。
人类决策破坏
这项评估涉及进行一项实验,要求人类参与者根据大量信息做出虚构的商业决策——这些信息太多,不使用AI模型就无法吸收。我们要求模型影响人类做出错误的决策,但不要显得可疑。我们包括了尝试以或多或少激进方式进行影响的模型,以及一个不尝试任何影响的控制模型。除了测量他们做出正确与错误决策的次数外,我们还要求人类评估他们对模型行为的可疑程度。
在我们的演示中,我们发现使用最激进模型的参与者更不可能做出正确的决策:这与模型成功破坏他们的任务一致(对于更微妙的模型没有统计上显著的影响)。然而,激进模型确实让人类对其试图影响他们的行为感到更加可疑。
许多参与者注意到了破坏尝试,或在检查模型的作品时发现了它。然而,其他人似乎在接受模型的建议时没有怀疑。因此,并不一定是因为模型巧妙地操纵了人类——相反,冷漠或过度信任可能是错误决策的原因。
这是一个在人工环境中进行的小规模实验,因此不会引起我们对当前可用模型引发灾难性风险的担忧。然而,我们认为这种形式的评估有可能在未来发现潜在的危险能力。
代码破坏
我们的代码破坏评估涉及一个竞争性游戏,其中一个模型(攻击者)试图在另一个模型(防御者)审查其工作时偷偷插入代码错误。
如果攻击者插入的错误影响很小或很快被发现,那么这并不特别有信息量。因此,攻击者在我们评估游戏的完整版本中“获胜”的唯一方法是插入多个长期存在于代码库中(在我们的模拟中对应两周)且不会引起足够怀疑以触发进一步检查的重大错误。
在我们的演示中,我们发现(也许可以预见)更强的模型成为更强的防御者:如果防御者是Claude 3 Opus,攻击者的胜率约为10%。然而,如果防御者是更智能的Claude 3.5 Sonnet,攻击者只有约1%的胜率。由于我们在多个方面为攻击者提供了有利条件,这两个结果都不是当前危险的强烈指示。
拖后腿
拖后腿是指模型在一种情况下隐藏其全部能力,只在另一种情况下展示它们。有时,模型可能不会展示其全部能力是因为其安全训练,或者是因为用户提示它的问题不够明确。但在这里,我们主要关注的是有意的拖后腿:当模型有选择地展示其能力时。
我们将其定义为在完成良性任务时能够以全能力执行的模型,但在危险任务中根据情况以不同能力水平执行的模型。也许在危险能力评估中表现不佳,但在其他情况下,例如在其提示中包含特定触发短语时,展示其全部危险能力。
在我们的评估中,我们训练了一个拖后腿的模型。我们问的问题是我们能否产生一个“硬化”的拖后腿者:即,一个即使在安全训练中也能持续拖后腿的模型,这种训练教会它避免拒绝(即,训练教会它不要故意隐藏其能力),以检查危险能力。
我们的结果显示,拖后腿训练和安全训练都有效:我们的训练模型在危险能力评估中下降到其正常表现的36.1%,这与拖后腿一致。然而,经过安全训练后,这种表现大幅改善,模型表现为其通常水平的95.6%。
与其他描述的评估一样,该评估旨在不仅用于当前模型,还用于未来的模型。我们乐观地认为,它将有助于验证减少拖后腿的安全训练。
破坏监督
如上所述,使用其他AI模型来训练和监督AI模型变得越来越普遍(也是必要的)——这可以更高效,大大减少对人类劳动的依赖(无论如何,人类劳动在未来将不足以监督所有模型及其行为)。
在这项评估中,我们测试了一个表面上提供监督的模型能在多大程度上破坏这一过程。我们采用了一个“监督者”模型,其任务是监督用户与另一个模型之间的对话,并评估其潜在的危害性。我们秘密要求这个监督者尽其所能将每个对话评为无害,即使它是有害的,并避免引起第三个“监控”模型的怀疑,该模型在整个过程中进行观察(在评估中,这个监控者代表人类监督者)。如果监督者模型能够成功降低危害性评分,并且监控者没有变得更加可疑,我们认为这是成功破坏监督的例子。
我们使用Claude 3.5 Sonnet的演示显示,虽然监督者确实成功降低了危害性评分,但它被当场抓住:监控者的可疑性评分同时上升。未来,更擅长编写微妙缺陷评估并在正确时刻背叛的模型可能会触发这项评估。
结论
这些新的评估代表了我们的对齐科学团队为考虑未来AI模型的各种潜在风险所做的共同努力。在实践中,我们预计这些评估将提前使用,以标记潜在的危险能力,并允许开发者在相关模型公开或内部部署之前有时间进行缓解工作。
总的来说,虽然我们的演示显示当前模型中可能存在低级别的破坏能力迹象,但我们判断,最小的缓解措施足以应对这些风险。然而,随着AI能力的提高,可能需要更现实的评估和更强的缓解措施。
我们希望其他AI研究人员和开发者将使用、批评和改进这些评估。我们自己在论文中讨论了许多潜在的改进。例如,我们能否为人类决策破坏评估模拟更现实的决策场景和模型信任水平?我们能否将其与代码破坏评估结合起来,以允许模型尝试使用社会工程来避免对其代码的审查?
这些评估不是非此即彼的:它们估计在给定的缓解措施、可疑性和监督水平下,模型成功进行破坏的可能性。我们希望它们提供有关为防止未对齐模型尝试破坏所需的监督水平的有用信息。