Google DeepMind推出代理框架Talker-Reasoner:融合系统1和系统2思维的AI代理

AI代理需要解决一系列任务,这些任务要求不同的速度和推理及规划能力。理想情况下,代理应该知道何时使用其直接记忆,何时使用更复杂的推理能力。然而,设计能够根据任务要求正确处理的代理系统仍然是一个挑战。

论文地址:https://arxiv.org/abs/2410.08328v1

Google DeepMind的研究人员提出了一种名为Talker-Reasoner的代理框架,该框架受到人类认知的“双系统”模型的启发,旨在使AI代理在不同类型的推理之间找到正确的平衡,并提供更流畅的用户体验。

人类的System 1和System 2思维

诺贝尔奖得主丹尼尔·卡尼曼(Daniel Kahneman)首次提出的双系统理论认为,人类思维由两个截然不同的系统驱动:

  • 系统1:快速、直观且自动,控制我们的快速判断,如对突发事件的反应或识别熟悉的模式。
  • 系统2:缓慢、谨慎且分析性强,使复杂的解决问题、规划和推理成为可能。

虽然通常被视为独立的,但这两个系统不断地相互作用。系统1产生印象、直觉和意图,系统2评估这些建议,并在认可后将其整合到明确的信念和有意识的选择中。这种相互作用使我们能够无缝地处理从日常例行公事到挑战性问题的各种情况。

当前的AI代理

当前的AI代理大多在系统1模式下运行。它们擅长模式识别、快速反应和重复性任务。然而,在需要多步骤规划、复杂推理和战略决策的情况下,它们往往表现不佳,这些是系统2思维的特点。

Talker-Reasoner框架

DeepMind提出的Talker-Reasoner框架旨在使AI代理具备系统1和系统2的能力。它将代理分为两个不同的模块:Talker和Reasoner。

  • Talker:快速、直观的组件,类似于系统1。它处理与用户和环境的实时交互。它感知观察结果,解释语言,从内存中检索信息,并生成对话响应。Talker代理通常使用大型语言模型(LLMs)的即时学习(ICL)能力来执行这些功能。
  • Reasoner:体现系统2的缓慢、审慎特性。它执行复杂的推理和规划。它被设计用于执行特定任务,并与工具和外部数据源交互,以增强其知识并做出明智的决策。它还更新代理的信念,因为它收集新信息。这些信念驱动未来的决策,并作为Talker在对话中使用的记忆。

模块间的交互

这两个模块主要通过共享内存系统进行交互。Reasoner用其最新的信念和推理结果更新内存,而Talker检索这些信息以指导其交互。这种异步通信允许Talker在Reasoner在后台执行其更耗时的计算时,保持对话的连续流动。

研究人员写道:“这类似于行为科学的双系统方法,系统1始终开启,而系统2以部分容量运行。” 同样,Talker始终开启并与环境交互,而Reasoner在Talker等待它或从内存中读取时更新信念,以告知Talker。

Talker-Reasoner的应用

研究人员在睡眠指导应用程序中测试了他们的框架。AI教练通过自然语言与用户互动,提供个性化的指导和支持,以改善睡眠习惯。这个应用程序需要结合快速、富有同情心的对话和审慎、基于知识的推理。

  • Talker组件:处理对话方面,提供富有同情心的响应,并指导用户通过指导过程的各个阶段。
  • Reasoner组件:维护关于用户睡眠问题、目标、习惯和环境的信念状态。它使用这些信息生成个性化建议和多步骤计划。

同样的框架可以应用于其他应用程序,如客户服务和个性化教育。

未来研究方向

DeepMind的研究人员概述了未来研究的几个方向:

  1. 优化Talker和Reasoner之间的交互:理想情况下,Talker应自动确定何时需要Reasoner的干预,何时可以独立处理情况。这将最小化不必要的计算并提高整体效率。
  2. 扩展框架以包含多个Reasoner:每个Reasoner专门从事不同类型的推理或知识领域。这将使代理能够处理更复杂的任务并提供更全面的帮助。

结论

Talker-Reasoner框架通过融合系统1和系统2思维,为AI代理提供了一种新的设计思路。这一框架不仅提高了代理的灵活性和效率,还为开发更智能、更人性化的AI应用铺平了道路。随着进一步的研究和优化,Talker-Reasoner框架有望在多个领域发挥重要作用。