您的购物车目前是空的!
DeepMind研究所:GraphCast:在全球范围内的中期天气预报
GraphCast是来自谷歌公司DeepMind研究所的天气预报大模型。Graph指的是用的神经网络模型是Graph Neural Network,即图神经网络;Cast指的是任务是ForeCast,是预报。结合起来说就是使用GNN来做天气预报。然后这个预报是中尺度的,中尺度的概念引入的意思是,原来用AI来做天气预报一般是小尺度的,即预报几个小时后的天气状态;而中尺度的天气预报则是面向10天半个月这种时间尺度量级的。最后是针对全球的,GraphCast面对的是一个全球天气预报的任务。
GraphCast是一种基于机器学习的天气模拟器,它超过了世界上最准确的中期确定性业务天气预报系统,以及所有先前的机器学习先进方法。它是一个自回归模型,基于图神经网络和新颖的高分辨率多尺度网格表示,我们在欧洲中期天气预报中心(ECMWF)的ERA5再分析档案中的历史天气数据上训练。它可以以6小时的时间间隔产生10天的预报,包含五个地面变量和六个大气变量,每个变量有37个垂直压力层级,0.25°纬度-经度分辨率的网格上,对应于赤道附近约25×25千米的分辨率。我们的结果显示,在我们评估的2760个变量和时间节点的组合数据上,90.0%的数据结果表明,GraphCast比ECMWF的确定性业务预报系统HRES更准确。GraphCast也超过了最准确的机器学习天气预报模型在其报告的252个目标中的99.2%。GraphCast可以在Cloud TPU v4硬件上60秒内生成10天的预报(35 GB字节的数据)。与传统的预报方法不同,机器学习的预报方法与数据规模良好匹配:通过在更大、质量更高和更新的数据上训练,预报技能可以提高。这些结果总体上代表了我们前进了一大步,利用机器学习补充和改进天气模型,开辟了快速准确预报的新机会,并实现了机器学习模拟在物理科学中的应用前景。
1. 背景介绍
每天人们在计划自己的行程时都会考虑接下来的天气,从决定穿哪件外套到决定是否逃离飓风。当这些决定涉及预计未来十天的天气时,人们依靠“中期”天气预报,天气局每天最多四次提供这些预报,例如欧洲中期天气预报中心(ECMWF)、美国国家海洋和大气管理局和英国气象局。在这里,我们显示基于机器学习的天气预报可以与这些气象局传统上使用的方法相媲美。
中期天气预报是在大型高性能计算集群上运行的模拟生成的,主要包括两个组成部分。第一个组成部分是“数据同化”,这是根据最近和过去从卫星、天气站、船只等获得的观测推断和跟踪天气的过程。数据同化的结果是最近一系列天气状态的估计,称为“分析”。第二个是预报模型,传统上基于“数值天气预报“(NWP),它预测代表天气状态的变量的未来时间演化。这两个组成部分是密切相关的:数据同化在其推理和跟踪过程中使用NWP模型,之前的预报用于提示同化估计,分析结果用于作为预报模型的输入。本工作重点改进第二个组成部分:预报模型。
地球天气的控制方程式没有已知的封闭形式解,因此基于NWP的预报模型以数值方式近似解决它们。NWP方法可以很好地扩展计算量:精度通常随着增加的计算资源而提高,因为额外的计算量可以分配给更高分辨率的模拟,以及更复杂的参数方案。几十年来,NWP系统投入了大量投资,世界上一些最大的超级计算机用于做出准确的天气预报。
然而,NWP方法不适合处理越来越多可用数据。今天有大量的天气和气候观测数据存档,但传统上很少有直接改进预报模型质量的数据。改进NWP方法的主要方式是高度训练的专家手动创新更好的模型、算法和近似值,这是一个耗时且昂贵的过程。
相比之下,机器学习方法通常可以很好地处理数据。在广泛的科学领域,基于机器学习的方法在更低的计算预算下可以随着更高质量数据的增加而提高精度。在天气预报中,机器学习系统开始改进基于NWP的预报模型,特别是在传统方法相对较差的情况下。例子包括亚季节热浪预测和降水现场预报。
然而,在中期天气预报中,基于机器学习的方法只是最近开始与传统的NWP相竞争。世界上最准确的中期业务预报系统基于NWP,是欧洲的ECMWF的综合预报系统(IFS),其仍被认为是优于基于机器学习的方法。IFS主要由两个组成部分组成:HRES是一个确定性模型,它每天几次产生单一的10天预报,分辨率为0.1°纬度-经度;ENS是一个集合模型,它每天几次产生一组50个随机扰动的15天预报,分辨率为0.2°。基于机器学习的天气预报最广为人知和具有挑战性的目标之一是超过HRES和ENS。在过去一年中,在这方面有许多令人兴奋的进展。基于图神经网络(GNN)的模型报告了在1°纬度-经度分辨率和6天预报的结果上,在几个变量和压力层上接近HRES的技能,甚至在几个变量上超过HRES的粗分辨率。FourCastNet(FCN)基于Fourier神经算子报告了0.25°纬度-经度分辨率和7天预报的有前景的结果,这是第一个在全球范围内以该分辨率运行的模型。最近又有华为的Pangu-Weather,基于Vision Transformers报告了0.25°纬度-经度分辨率和7天预报的最准确的基于机器学习的天气预报,在九个变量和压力层中的许多变量上超过HRES。虽然这些进展令人鼓舞,但他们的结果通常仅报告少数几个变量,没有全面比较业务预报系统,这引起一个疑问:基于机器学习的天气模型有多高的技能?本工作的目的是提供这个问题的答案,并提供一个强大的框架来与业务系统竞争,甚至可能超过业务系统。
GraphCast使用GNN在“编码-处理-解码”架构中自动回归地生成预测轨迹。编码器将两个连续的输入帧(每个网格点有数百个变量)的纬度-经度输入网格映射到多尺度内部网格表示。处理器在此“多网格”表示上执行多轮消息传递,其中的边缘可以跨越短或长距离,允许在不需要显式层次结构的情况下进行节点间有效通信。解码器将多网格表示映射回纬度-经度网格,作为下一时间步骤的预测。GraphCast 在39年的历史天气数据ECMWF的ERA5再分析数据集上训练,以6小时时间步长在0.25°纬度-经度分辨率上进行10天预测,针对5个地面变量和6大气变量中的每个变量在37个垂直压力层。给定时间的完整状态由2.35亿个数字表示,以float32精度将近900兆字节,这给我们模型的实现和训练带来了独特的挑战。我们的GraphCast架构遵循基于GNN的学习模拟器的长期传统。
比较不同模型的预报技能本身就是一个具有挑战性的问题,因为这些模型预测许多变量和时间范围。ECMWF改进其基于NWP的HRES模型的方式是通过使用HRES得分评估HRES新候选版本与以前版本的技能。HRES得分将两个版本相互比较每天,针对约27个地面和大气变量及压力层次进行10天预报。
我们采用ECMWF的方法,通过引入一个类似的得分,以全面比较HRES的技能与GraphCast的技能之间的许多关键变量。我们评估我们模型在得分中的所有变量和层次(除海洋波浪变量外)以及大多数天气评价变量和层次上的性能,共69个变量和层次。我们使用0.25°纬度-经度分辨率的10天预报,时间步长为6小时。
我们的主要发现是,在这2760个评估变量和层次以及提前时间的组合中,对于2018年留出的测试集,GraphCast在其中90.0%的组合上具有比HRES更高的预报技能。GraphCast能超过HRES性能的一个关键原因是它直接从数据中训练,因此在原理上可以捕获NWP系统中未明确表示的天气现象,如气团、前线和风暴等。我们还发现GraphCast具有比Pangu-Weather更高的预报技能。本工作的关键进展包括:
• 用于学习天气模拟的新颖多网格GNN体系结构。
• 一个可以训练以0.25°纬度-经度分辨率和37个垂直分辨率层生成40个或更多步骤的预报的自动回归模型。
• 评估中期预报变量的全面覆盖的实验协议。
• 一种技能超过最佳NWP确定性模型的基于机器学习的预报模型。
• 最准确的机器学习天气预报模型。
总之,我们的工作表明机器学习方法可以产生中期天气预报,这些预报在许多关键变量和时间范围上超过目前最先进的NWP系统。我们的GraphCast模型证明机器学习对天气预报的运用前景,并为如何利用机器学习改进中期天气预报提供了一个框架。
2. ERA5数据集
对于GraphCast的训练和评估,我们从ECMWF的ERA5在2020年再分析存档的子集中构建了我们的数据集,时间段为1979-2018年,时间间隔为6小时(对应每天的00z、06z、12z和18z),水平分辨率为0.25°纬度-经度,37个垂直大气压力层。“再分析”意味着对历史天气观测进行数据同化,以估计全球天气状况随时间的变化,ERA5被认为是世界上最全面和最准确的再分析存档。
我们的模型预测总共227个目标变量,其中包括5个地面变量,以及在37个压力层中的每个层次的6个大气变量(我们的模型还提供了其他静态和/或外部变量作为输入上下文)。这些变量由其简短名称(对于大气变量,还包括压力层级)唯一标识。大气变量在37个压力层中的每个层次表示,分别是:位势高度(z)、比湿(q)、温度(t)、风速u分量(u)、风速v分量(v)和垂直速度(w)。静态/外部变量包括诸如网格/网状结构的形状、地形以及大气顶层的辐射等信息。
环绕地球的网格对应于每个纬度、经度和压力层的变量。地面和大气变量分别由放大视图中的黄色和蓝色框图表示。
3. GraphCast模型
3.1. 生成一个预报结果
GraphCast把两个邻近历史天气状态作为输入,并且预测下一步的天气状态。为了产生一个遥远的时刻的预报结果,模型迭代地把输出作为输入,以自回归的方式预报到未来某个时刻的天气状态。
3.2. 架构
GraphCast的核心体系结构使用GNN在“编码-处理-解码”配置中如图d、e和f所示。基于GNN的学习模拟器在学习流体和其他材料的复杂物理动力学方面非常有效,因为它们的表征和计算的结构类似于学习有限元求解器。GNN的一个关键优点是输入图的结构决定通过学习信息传递相互作用的表征部分,允许任意空间范围内的任意相互作用模式。相比之下,卷积神经网络(CNN)的计算局限于局部补丁内(或者在扩张卷积的情况下,定期跨越更长范围)。虽然Transformer也可以计算任意长范围的计算,但由于计算所有到所有的相互作用导致的二次内存复杂性,它们无法很好地扩展到非常大的输入(例如GraphCast的全球输入中的100多万个网格点)。Transformer的扩展通常稀释可能的相互作用以减少复杂性,这实际上使它们类似于GNN。
我们利用GNN模拟任意稀疏相互作用的能力的方式是引入GraphCast的内部多网格表示,该表示在全球范围内具有均匀的空间分辨率,并允许几步消息传递内的长程相互作用。多网格首先通过反复6次细分常规二十面体(12个节点和20个面)来构建,以获得总共40,962个节点和81,920个面的二十面体网格层次。我们利用粗网格节点是细网格节点的子集这一事实,这使我们能够将网格层次结构的所有层次的边缘叠加到分辨率最高的网格上。此过程产生一组多尺度网格,其中粗边缘在多个尺度上跨越长距离,细边缘捕获局部相互作用。g显示每个单独的细分网格,e显示完整的多网格。
GraphCast的编码器d首先使用GNN将输入数据从原始纬度-经度网格映射到多网格上的学习特征,其中从网格点到多网格的有向边。处理器然后使用16层深度GNN在多网格上执行学习信息传递,这得益于长程边缘可以有效地在空间传播信息。解码器然后使用具有有向边的GNN将最终的多网格表示映射回纬度-经度网格,并将这个网格表示与输入状态结合起来形成输出预测。
编码器和解码器不要求原始数据排列在规则的直线网格中,也可以应用于任意网状状态离散化。该通用体系结构基于各种成功应用于许多复杂流体系统和其他物理领域的基于GNN的学习模拟器在天气预报中使用了类似的方法,并取得了令人鼓舞的结果。
在单个Cloud TPU v4设备上4,GraphCast可以在60秒内生成0.25°分辨率的10天预报(每6小时一个步骤)。相比之下,ECMWF的IFS系统在11,664核群集上运行,并在约1小时内生成0.1°分辨率的10天预报(前90个小时每小时发布一次,93-144小时每3小时发布一次,150-240小时每6小时发布一次)。
3.3. 训练过程
GraphCast经过训练以最小化针对ERA5目标的12步预报(3天)的目标函数,使用梯度下降法。衡量的目标包括在预报日期时间、提前时间、空间位置、变量和层次的平均平方误差。
我们发现使用自回归的多步损失可以有效地使模型在长期预报中最小化误差累积。目标函数相对于网络权重的梯度通过整个自回归预测序列进行反向传播计算。
在模型开发和训练过程中,我们仅使用1979-2017年的ERA5数据,而2018年的ERA5数据仅保留用于测试。我们遵循严格的协议,在最终GraphCast冻结和评估阶段开始之前,我们的研究团队或培训程序从未观察2018年及以后的数据。作为我们初步实验的一部分,我们训练了通过2015年的模型,在2016-2017年对其进行验证以选择最佳模型,重新训练通过2017年的该模型,并在2018年对其进行测试。我们还测试了通过2015年训练的模型在2018年测试数据上的性能,发现其在2018年数据上的性能不如重新训练通过2017年数据的模型。在其他初步实验中,我们发现通过较早测试期间(2015年)训练的模型在测试性能方面较之训练数据不包括紧接测试期间之前的几年的模型有类似的改进。这可能是由于多年数据的非定常(例如,由于ENSO周期、气候变化或其他多年天气模式)或者额外训练数据的结果。原则上,GraphCast可以定期重新训练(或微调),使用最新的天气数据,以潜在地获得这些好处。
我们在32个Cloud TPU v4设备上使用批处理并行训练GraphCast约需要3周时间。为了减少内存占用,我们使用复杂的梯度检查点策略和低精度数值。我们还对训练时间的减少做了工作。
4.模型评估
我们使用根均方误差(RMSE)和异常相关系数(ACC)来量化GraphCast、其他ML模型和HRES的技能。这两个指标都与真实数据进行计算。RMSE测量预报和真实值之间的差异的大小;ACC并测量模型预测的气候学差异(即某个位置和日期的平均天气)与同一量计算的真实值之间的相关性。
GraphCast经过训练以预测ERA5数据,因此我们报告的错误是针对ERA5作为真实数据计算的。然而,HRES模型使用HRES分析作为输入。因此,我们构建了一个单独的数据集,称为“HRES-fc0“,用于计算HRES误差的真实数据。
对于每个变量,我们选择了位于或接近地面而不是500 hPa水平的气压层。在下面的结果中,我们还展示了GraphCast与HRES在我们评估集中的所有69个变量层次组合中的性能评分。我们评估的气压层是WeatherBench使用的13个层次:50、100、150、200、250、300、400、500、600、700、850、925和1000 hPa。我们评估的变量是上述列出的变量,除了垂直速度(w)和总降水量(tp),这些是ERA5和HRES中的诊断变量。这总共留下69个评估变量(4个地面变量加上13个气压层的5个大气变量),在40个未来时刻,总共2760个。
我们显示了来自ERA5、HRES预报和GraphCast预报的状态序列。线图显示了预报与其各自真实数据之间的RMSE,虚线表示与预报图像对应的提前时间。该图说明了GraphCast预报的质量,并为如何使用预报来计算技能指标提供了直觉。
5. 实验结果
5.1. GraphCast versus HRES技巧
我们的结果显示,GraphCast在10天预报中全面超过HRES的天气预报技能,水平分辨率为0.25°。
GraphCast(蓝线)明显超过HRES(黑线),我们的10个重要地面和大气变量,从ECMWF评分中选择接近地面的气压层。每个子图对应一个变量(对于大气变量也对应一个气压层),技能(y轴)在10天预测期(x轴)内每6小时绘制一次。GraphCast几乎总是具有更高的技能。在评估ACC时,我们也得到了类似的结果,我们还进行了区域分析,该分析表明这些结果在全球范围内都是一致的。
我们总结了所有变量和气压层在10天预报中的归一化差异。GraphCast在我们评估集中的2760个变量、层次和提前时间中的90.0%上超过了HRES(4个地面变量加上5个大气变量×13个层次,在10天内每天4步)。我们注意到,HRES的性能在上层大气层次上往往优于GraphCast,特别是50 hPa气压层次。这并不令人惊讶,因为应用于50 hPa或以下气压层次的总训练损失权重仅占所有变量和层次的总损失权重的0.66%。当排除50 hPa层次时,GraphCast超过HRES的2240个目标的百分比为96.6%。当排除50和100 hPa层次时,1720个目标的百分比为99.2%。
总之,这些结果显示GraphCast在我们测试的变量、层次和提前时间上具有明显超过HRES的技能。我们显示了GraphCast和HRES之间的均值和中值RMSE技能得分,在关键的1天、3天和5天提前时间上平均所有69个变量和层次。为了提供上下文,GraphCast提供的技能改进似乎明显大于HRES发布循环之间的典型改进,大致对应于几年的技能改进。
5.2. 自回归训练如何影响性能
这里显示了预测性能与用于训练我们模型的自回归步骤数的变化。当用较少的自回归步骤训练时,该模型在短期提前时间的性能更好,在较长的提前时间内性能较差。随着自回归步骤数的增加,短期提前时间的性能变差,但较长期间的性能变好。这些结果表明可以结合使用不同自回归步数的多个模型(例如,短期、中期和长期未来时间),利用它们在整个预测期内的各自优势。
5.3. GraphCast与顶级机器学习预测模型的性能比较
在过去一年中,Keisler的模型、FCN和Pangu-Weather中的三个最新ML为基础的预测模型,Pangu- Weather的最新报告结果在质量上明显优于前两个。因此,我们将GraphCast的评估重点放在Pangu-Weather上,因为它代表着基于机器学习的天气预报的最新技术。Pangu-Weather基于Vision Transformers,与GNN具有相似的计算模式。
GraphCast报告的目标的99.2%上超过Pangu-Weather。Pangu-Weather仅优于GraphCast的2个(总共252个)度量指标。ERA5的HRES在早期提前时间明显变差,在某些情况下,特别是对温度,针对HRES-fc0的HRES技能优于Pangu-Weather。
6. 讨论
我们显示,我们的GraphCast模型在10天预报中超过了最准确的定性操作系统ECMWF的HRES。GraphCast也在报告的252个指标中的99.2%上超过了先前最好的机器学习基准Pangu-Weather。GraphCast的一个关键创新是它的新颖的“多网格”表示,它可以捕捉到比传统数值天气预报方法更长范围的空间相互作用,从而支持更粗的本机时间步长。这部分原因是GraphCast可以在60秒内在单个Cloud TPU v4设备上生成准确的10天天气预报,每6小时一步。
我们工作的一个重要点,我们专注于确定性预报,并仅比较GraphCast的技术与HRES。虽然HRES是ECMWF最高保真度的单一预报,但IFS的另一个ensemble预测系统ENS,在5-15天的预测范围内同样重要,尤其是对较长的预测期限。因为天气动力学是高度非线性的,并且提供给天气模式的分析本身具有不确定性,所以随着预报提前时间的增加,准确地预测天气轨迹的点状预测变得越来越困难,因此建模不确定性变得越来越重要。在更长的时间范围内,我们注意到GraphCast的预报在一定程度上比HRES的预报更模糊。这是可以理解的,因为它被训练为优化加权均方误差。因此,它在较长的提前时间内表达不确定性的方式是产生更接近平均值的预报。这与传统的确定性数值天气预报不同,后者将做出高分辨率但有时不正确的预测。然而,这些预测对某些目的可能很有用,例如预测温度极端值或暴风雨的机会。它也与集合预报模型不同,后者从一组初始条件的样本中产生多个预报,以近似真实初始条件的不确定性。使用集合预报的统计度量来量化不确定性。集合预报提供了重要优势,例如更明确地估计分布,但是它需要生成许多昂贵的预报,这也需要付出代价。建立可以全面评估与集合系统相比的不确定性建模模型是下一步的关键。
另一个点是,我们专注于0.25°纬度经度分辨率,而HRES操作在0.1°上。这种选择是基于ERA5只能在0.25°上获得,并且在使用大0.25°状态表示上存在实质性工程挑战。然而,如果有足够的数据和工程进展,我们的方法原理上没有理由不会扩展到更高的分辨率。
我们也邀请气象学界与我们一起定义新的、更广泛的技能指标,超越ECMWF评分。例如风暴跟踪,为极端天气做准备等都是天气预报的重要应用,这将受益于ML方法可以训练和评估的具体指标和基准。
我们的贡献代表机器学习气象模型的重大进步,可以应用于更广泛的环境和其他地理空间临时预测问题。关键应用领域包括对其他天气变量的建模、季节性和气候预测、森林火灾、砍伐森林、动植物活动等。然而,我们的方法不应被视为传统天气预报方法的替代,后者已开发了几十年,在许多实际环境中经过严格测试,并提供概率预测。相反,我们的工作应被解释为机器学习仿真能够有效地扩展到实际预测问题的挑战,并有潜力补充和改变目前最佳的方法。更广泛地,通过在复杂的实际数据上训练,并超过传统的数值方法,这项工作有助于实现机器学习仿真在物理科学中的光明未来。
总之,GraphCast是第一个能够产生高保真度10天天气预报的机器学习模型,与业界领先的数值天气预报模式相比,具有明显更高的技能和更快的运行速度。我们展示了GraphCast如何通过学习复杂的气象动力学来推理和预测未来的大气状态,而不是简单地学习从历史数据中识别模式。我们的结果为机器学习在环境建模和预测中发挥越来越大作用提供了有力证据。尽管GraphCast代表了该领域的重大进展,但传统方法在许多方面仍具有价值,我们相信未来最成功的方法将融合机器学习和物理建模的各个方面。本文展示了这种融合的巨大潜力,并为其中许多开放挑战提供了有益见解。
发表回复