大语言模型比不过20世纪70年代的技术?

麻省理工学院数据到AI实验室的团队最近尝试使用大语言模型(LLMs)来完成一项通常由其他机器学习工具负责的任务——检测时间序列数据中的异常。这一任务在工业领域广泛应用,用于预测和发现重型机械的问题。研究团队开发了一个使用LLMs的框架,并将其性能与10种其他方法进行了比较,包括最先进的深度学习工具和1970年代的自回归积分移动平均(ARIMA)方法。

研究结果

  1. 总体表现
    • 不及其他模型:结果显示,LLMs在大多数情况下表现不如其他模型,甚至在11个数据集中有7个数据集的表现不如老派的ARIMA方法。
    • 意外表现:尽管总体表现不如其他模型,但LLMs在某些基于Transformer的深度学习方法上表现超过了预期。
  2. 零样本学习
    • 无需微调:LLMs能够在没有任何微调的情况下完成任务。研究团队直接使用了GPT-3.5和Mistral LLMs,完全避免了传统的训练过程。
    • 效率提升:这种零样本学习能力意味着可以在不从头开始为每个信号或特定条件训练特定模型的情况下检测异常,大大提高了效率。

优势与挑战

  1. 优势
    • 零样本学习:LLMs能够进行零样本学习,无需预先训练即可检测异常,适用于成千上万的信号。
    • 直接集成:LLMs可以直接集成到部署中,操作员可以通过API查询,灵活地添加或移除信号,无需依赖其他团队。
  2. 挑战
    • 性能不足:尽管LLMs在某些任务上表现出色,但总体上仍不如传统的深度学习模型或ARIMA方法。
    • 微调问题:为特定信号微调现有的LLMs或构建一个用于时间序列的基础LLM将违背LLMs的“零样本”特性,重新引入传统的训练难题。

未来方向

  1. 保持零样本特性
    • 避免微调:为了保持LLMs的零样本特性,不应为特定信号微调现有的LLMs或构建一个用于时间序列的基础LLM。
    • 开发新方法:AI社区需要开发新的方法、程序和实践,以确保某些领域的改进不会消除LLMs的其他优势。
  2. 建立护栏
    • 训练、测试和验证:借鉴经典ML的经验,建立一套新的训练、测试和验证实践,确保模型在测试环境中的性能与其在实际部署中的性能相匹配。
    • 防止重新发明轮子:避免在新的LLM领域重新发明轮子,确保新的方法和工具能够真正带来效率和效果的提升。

尽管LLMs在时间序列异常检测中的表现不如其他模型,但其零样本学习能力和直接集成的优势仍然具有重要意义。未来的研究需要在保持这些优势的同时,进一步提高LLMs的性能,开发新的方法和实践,确保LLMs在各种任务中发挥更大的作用。

以下是原文翻译:

今年,麻省理工学院数据到AI实验室的团队决定尝试用大语言模型 (LLMs) 来完成一项通常由其他机器学习工具负责的任务——检测时间序列数据中的异常。几十年来,这一直是机器学习 (ML) 的常见任务,广泛应用于工业领域,用于预测和发现重型机械的问题。我们开发了一个在此背景下使用LLMs的框架,并将其性能与10种其他方法进行了比较,从最先进的深度学习工具到1970年代的自回归积分移动平均 (ARIMA) 方法。结果显示,LLMs在大多数情况下表现不如其他模型,甚至在11个数据集中有7个数据集的表现不如老派的ARIMA方法。

对于那些将LLMs视为完全通用解决问题技术的人来说,这听起来可能像是一次失败。而对于AI社区中的许多人来说,这并不令人意外,因为他们正在逐渐认识到这些工具的局限性。但我们的研究中有两个发现确实让我们感到惊讶。首先,LLMs在一些模型上的表现超过了预期,包括一些基于Transformer的深度学习方法。其次,更重要的是,LLMs在没有任何微调的情况下完成了所有这些工作。我们直接使用了GPT-3.5和Mistral LLMs,完全没有进行任何微调。

LLMs打破了多个基础障碍

对于非LLM的方法,我们会使用我们想要检测异常的信号来训练一个深度学习模型,或者是1970年代的ARIMA模型。本质上,我们会使用信号的历史数据来训练模型,使其理解什么是“正常”。然后我们会部署模型,使其能够实时处理信号的新值,检测任何偏离正常的情况并将其标记为异常。

LLMs不需要任何先前的例子

但是,当我们使用LLMs时,我们没有进行这种两步过程——LLMs没有机会在实时检测异常之前从信号中学习“正常”。我们称之为零样本学习。从这个角度来看,这是一个了不起的成就。LLMs能够进行零样本学习——在没有先前例子或微调的情况下跳入这个问题——意味着我们现在有了一种方法,可以在不从头开始为每个信号或特定条件训练特定模型的情况下检测异常。这是一个巨大的效率提升,因为某些类型的重型机械,如卫星,可能有成千上万的信号,而其他机械可能需要为特定条件进行训练。有了LLMs,这些耗时的步骤可以完全跳过。

LLMs可以直接集成到部署中

当前异常检测方法的第二个,也许更具挑战性的部分是用于训练和部署ML模型的两步过程。虽然部署听起来足够简单,但实际上非常具有挑战性。部署一个训练好的模型需要我们将所有代码翻译成可以在生产环境中运行的代码。更重要的是,我们必须说服最终用户,在这种情况下是操作员,允许我们部署模型。操作员本身并不总是有机器学习经验,所以他们通常认为这是他们已经超负荷的工作流程中的一个额外且令人困惑的项目。他们可能会问一些问题,比如“你们会多频繁地重新训练”,“我们如何将数据输入模型”,“我们如何为各种信号使用它,并为其他目前不关注的信号关闭它”,等等。

这种交接通常会导致摩擦,最终导致无法部署训练好的模型。有了LLMs,因为不需要训练或更新,操作员可以完全控制。他们可以通过API查询,添加他们想要检测异常的信号,移除他们不需要异常检测的信号,并在不依赖其他团队的情况下打开或关闭服务。操作员直接控制异常检测的能力将改变部署中的困难动态,并可能有助于使这些工具更加普及。

在提高LLM性能的同时,我们绝不能剥夺它们的基础优势

尽管它们促使我们从根本上重新思考异常检测,但基于LLM的技术尚未表现得像最先进的深度学习模型那样好,或者(在7个数据集中)像1970年代的ARIMA模型那样好。这可能是因为我们麻省理工学院的团队没有对LLM进行任何微调或修改,也没有创建一个专门用于时间序列的基础LLM。

虽然所有这些行动可能会推动进步,但我们需要小心如何进行这种微调,以免损害LLMs在这个领域的两个主要优势。(毕竟,尽管上述问题是真实的,但它们是可以解决的。)考虑到这一点,以下是我们不能做的事情来提高LLMs的异常检测准确性:

为特定信号微调现有的LLMs,因为这将违背它们的“零样本”特性。

  • 构建一个用于时间序列的基础LLM,并为每种新类型的机械添加一个微调层。
  • 这两个步骤将违背使用LLMs的目的,并将我们带回到起点:必须为每个信号训练一个模型,并面临部署困难。

AI社区必须开发新的护栏

为了让LLMs与现有方法竞争——无论是异常检测还是其他ML任务——它们必须要么启用一种新的任务执行方式,要么打开一整套全新的可能性。为了证明添加任何层的LLMs仍然构成改进,AI社区必须开发方法、程序和实践,以确保某些领域的改进不会消除LLMs的其他优势。

对于经典的ML,我们今天依赖的训练、测试和验证实践几乎花了20年才建立起来。即使有了这个过程,我们仍然无法总是确保模型在测试环境中的性能与其在实际部署中的性能相匹配。我们会遇到标签泄漏问题、训练中的数据偏见以及太多其他问题,甚至无法在这里一一列举。

如果我们在这个有前途的新领域推进得太远而没有那些特定的护栏,我们可能会再次陷入重新发明轮子的境地——也许是一个更复杂的轮子。(来源