在AI研究中,一个主要挑战是如何开发能够平衡快速直观推理和更慢、更详细推理的高效模型。人类认知通过使用两种系统来运作:系统1,快速且直观;系统2,慢但更分析。在AI模型中,这两种系统之间的二分法主要表现为计算效率和准确度之间的权衡。快速模型主要返回快速结果,但通常是通过牺牲准确性来实现的,而慢速模型返回高准确性,但代价是计算成本高和耗时。将这两种模式无缝整合到一个模型中,以便在不降低性能的情况下进行高效决策,是一个挑战。克服这个挑战将极大地提高AI在复杂现实世界任务中的应用,如导航、规划和推理。
当前方法的局限性
目前,推理任务处理的技术通常依赖于快速直观的决策或缓慢、有意识的处理。快速模型,如仅解决方案模型,捕捉没有推理步骤的解决方案,选项准确性较低,对于复杂任务来说是次优的操作模型。另一方面,依赖缓慢和完整推理轨迹的模型,如Searchformer,提供更好的准确性,但由于更长的推理步骤和更高的计算成本,其表现较差。大多数将这两种模式结合起来的方法,如将缓慢推理输出提炼成快速模型,通常需要额外的微调和外部控制器,从而迅速增加复杂性并限制灵活性。该领域最大的限制仍然是没有一个统一的框架能够动态地在快速和慢速推理模式之间切换。
Dualformer:一种新解决方案
来自Meta的研究人员介绍了Dualformer,它是一个能够整合快速和慢速推理模式的单一Transformer模型。
Dualformer通过在训练时使用随机化推理路径(randomized reasoning traces)来模拟人类的快速直觉思维(System 1)和慢速深思熟虑思维(System 2)。在推理时,Dualformer可以被配置为仅输出解决方案(快速模式),或者同时输出推理链和最终解决方案(慢速模式),或者自动决定使用哪种模式(自动模式)。
- 快速模式:直接输出任务的最终解决方案,无需展示推理过程。
- 慢速模式:生成并展示推理过程,包括中间步骤和最终解决方案。
- 自动模式:模型自动决定使用快速模式还是慢速模式来执行任务。
这种创新直接解决了过去模型的局限性,提高了计算效率并增加了推理准确性。该模型还通过使用模拟人类捷径的结构化轨迹丢弃策略来减少计算开销。例如,考虑一个30x30的迷宫导航任务,Dualformer能够在慢速模式下以97.6%的准确率解决未见过的迷宫任务,超过了基线模型Searchformer(93.3%的准确率),同时只使用了45.5%的推理步骤。在快速模式下,Dualformer完成任务的最优率为80%,显著优于仅训练解决方案数据的模型(最优率仅为30%)。
关键特点
- 系统化的轨迹丢弃方法:推理轨迹在训练过程中逐步修剪,以提高效率。可以使用由A*搜索算法生成的轨迹来对像迷宫导航或Sokoban游戏这样的复杂任务进行训练。在这种情况下,在训练过程中会选择性地丢弃推理轨迹中的接近节点、成本令牌和搜索步骤,以模拟更快决策过程。这种随机化是为了鼓励模型在任务之间泛化良好,同时高效地进行快速和慢速推理。
- 编码器-解码器框架:Dualformer架构是一个编码器-解码器框架,可以处理复杂的推理任务,同时尝试将计算成本降到最低。
- 动态推理模式调整:模型能够根据任务难度自动调整其推理模式,灵活地在快速和慢速推理之间切换。
工作原理
Dualformer的训练涉及随机化推理路径的数据,这些路径模拟了人类在思考过程中可能采取的捷径。在训练时,模型会接触到不同部分被丢弃的推理路径,这迫使模型学习如何在没有完整推理链的情况下做出决策。在推理时,模型可以根据配置输出解决方案、推理链,或者自动选择最合适的模式。
实验结果
Dualformer在各种推理任务中展示了出色的结果,在准确性和计算效率方面都显著超过了最先进的性能。
- 慢速模式:在慢速模式下,Dualformer使用45.5%更少的推理步骤实现了迷宫任务97.6%的优化率,与基准Searchformer模型相比。
- 快速模式:在快速模式下,Dualformer实现了80%的优化解决方案率,大幅超过了仅解决方案模型,后者仅达到30%的性能。
- 自动模式:当模型在自动模式下选择其策略时,其性能仍然很高,优化率达到了96.6%,并且比其他方法少了近60%的步骤。
这些性能结果描绘了Dualformer在计算速度和准确性之间的权衡,展示了其在复杂推理任务中的稳健性和灵活性。
结论
总的来说,Dualformer成功解决了AI模型中快速和慢速推理的融合问题。在训练期间,模型使用随机化的推理轨迹和结构化的轨迹丢弃策略,因此,它在推理模式中都是高效的,并且其适应任务复杂性的方式是动态的。这大大减少了计算需求,同时保持了高准确性,表明在需要速度和精确度的推理任务中取得了飞跃。由于这种创新性的独特架构,Dualformer为在复杂现实世界场景中应用AI打开了新的可能性,进一步扩展了其在各领域的潜力。