AI在天气预报中的突破:谷歌DeepMind的GenCast系统

近年来,AI系统在生成天气预报方面取得了显著进展,甚至在某些衡量标准下已经与传统计算方法相媲美。然而,AI系统的预测往往因为训练过程中对错误的惩罚而变得“模糊”,即随着时间的推移,模型会做出更少的具体预测,以避免高概率的错误。这导致风暴路径变宽,风暴本身失去清晰的边缘。尽管如此,AI系统仍然具有吸引力,因为它们可以显著降低计算成本,尤其是在处理长期预报时。

传统天气预报的优势

传统的计算大气环流模型(如欧洲中期天气预报中心的集合模型)有两个主要优势:

  1. 基于物理学:这些模型直接基于大气物理学,纳入了我们已知的实际天气行为规则,并以经验数据为指导进行计算。
  2. 集合预报:通过运行多个模型实例,提供预报不确定性的度量。由于天气的混沌性质,不同的运行将逐渐发散,从而提供预报的不确定性估计。

DeepMind的GenCast系统

谷歌的DeepMind最近发布了一篇论文,介绍其新的AI天气预报系统——GenCast。该系统结合了大气科学家使用的一些计算方法和生成AI中常用的扩散模型,旨在在显著降低计算成本的同时保持高分辨率。(官方介绍

GenCast的工作原理
  • 扩散模型:GenCast基于扩散模型,这些模型通过从原始数据(如天气模式)和注入噪声的变体混合开始进行训练。系统的目标是创建一个更接近原始数据的噪声版本的变体。一旦训练完成,它可以输入纯噪声并使其演化得更接近目标。在这种情况下,目标是现实天气数据,系统从纯噪声输入开始,并根据当前大气状态及其近期历史进行演化。
  • 12小时步长:系统以12小时为步长前进,因此第三天的预报将包含初始条件、早期历史以及第一和第二天的两个预报。
  • 集合预报:通过输入不同的噪声模式,每个模式将产生略有不同的天气数据输出,从而提供预报不确定性的度量。这与传统天气模型中的作用相同。
高分辨率与低计算成本
  • 网格分辨率:GenCast的每个网格方块边长为0.2度,比欧洲模型用于其预报的分辨率更高。尽管如此,DeepMind估计单个实例(意味着不是完整的集合)可以在谷歌的张量处理系统上在八分钟内运行到15天。
  • 并行计算:可以通过并行运行多个版本并集成结果来制作集合预报。考虑到谷歌可用的硬件数量,整个过程从开始到结束可能不到20分钟。

性能评估

DeepMind报告称,GenCast在很大程度上优于最好的传统预报模型。具体表现如下:

  1. 标准基准测试:使用该领域的标准基准,DeepMind发现GenCast在97%的测试中比欧洲模型更准确,这些测试检查了未来不同时间点的不同输出值。此外,基于集合获得的不确定性计算的置信值通常是合理的。
  2. 极端天气预报:过去的AI天气预报员通常不擅长处理极端天气,因为这些事件在训练集中出现得很少。但GenCast表现相当好,在异常高温和低温以及大气压力(频率为1%或更低,包括0.01百分位)等方面经常优于欧洲模型。
  3. 热带气旋路径预报:DeepMind还测试了GenCast在预测热带气旋路径方面的表现。在前四天,GenCast比欧洲模型显著更准确,并且在约一周内保持领先。
  4. 风力发电预报:研究人员还使用GenCast预测全球风力发电输出。该系统在前两天的表现比传统天气模型高出20%,并在一周内保持领先,领先优势逐渐减少。

成功的原因与挑战

  • 成功原因:GenCast的成功部分归功于其结合了扩散模型的灵活性和高分辨率网格的能力,同时利用了并行计算的优势。此外,它能够处理极端天气事件,这表明其训练数据和模型架构的有效性。
  • 挑战:尽管GenCast在短期内表现出色,但性能似乎在大约一周后逐渐下降。研究人员没有详细探讨这一现象的原因,但理想情况下,更多关于GenCast限制的细节将有助于进一步改进。

未来展望

DeepMind的GenCast系统标志着AI在天气预报领域的一个重要突破。它不仅在准确性上超越了传统模型,还在计算效率上表现出色。未来的研究可能会进一步探索如何结合传统预报系统的某些特征与AI技术,以实现更好的预报效果。此外,随着更多学术研究团队开始实验GenCast,我们可能会看到更多的创新和发展。