AI 玩起浪漫,受伤的竟然是… 气象台

如果天气预报说明天 25% 的天空被云层覆盖,那么你能判断明天的天气吗?恐怕很难。或许这 25% 的云会聚集在一起,带来一场倾盆大雨,或许它们只是天空中许多可爱的散碎云朵,在阳光明媚的日子里增加你的喜悦。要从云层预测天气,我们需要了解更多信息。

云层很大程度上影响着天气

令人惊讶的是,目前最先进的天气模型也只能对云做十分粗略的描述,比如我们刚刚提到的 25% 的云量。原因是云往往很小,天气模型无法考虑到天空中每一小块区域的情况。而如果把天空中的每一块区域都考虑在内,那么即使是最快的超级计算机也无法完成天气预报所需的计算。即使近几年计算能力急剧增加,也还不足以解决这个问题。

“一块巨大的云和许多非常小的云之间有很大的区别,”巴斯大学的数学家迪瓦恩说,“这两种情况将导致天气表现出巨大的差异,但目前使用的天气预报模型没有考虑到这一点。

然而,稍微换一个方向,我们就能看到希望。与其试图加快计算速度,也许我们可以利用计算机的力量,通过学习大量已有的数据来完成复杂的任务。这就是机器学习,它是人工智能的一种形式。从在线购物到医疗保健,目前人工智能正在进入生活的各个领域。如果这个想法也适用于气象学,那么天气预报将变得更加准确,同时需要的计算能力也会比当前天气模型少。

传统的天气预报模式

天气是地球大气和海洋的运动、水分在大气中的移动以及空气压力和温度的变化共同作用的结果。大气和海洋分别属于气体和液体,它们都属于流体,而在气象学里,刚好有一组描述了流体运动的方程:纳维-斯托克斯方程

天气预报背后的原理相对简单。首先测量描述当前天气的因素,例如温度、空气压强和密度、风速以及空气的湿度。然后,将这些数据提供给基于纳维-斯托克斯方程构建的数学模型,这样就可以在计算机上及时计算出天气的变化。

然而,在实际操作中,有几件事会使天气预报变得棘手。首先,你不可能测量地球上每个点的温度、压力、湿度等。其次,你不能以无限的精度测量它们。著名的蝴蝶效应意味着,随着计算的进行,不可避免的一点微小误差可能会变得非常大,从而产生一个偏差很大的预测。第三,由于纳维-斯托克斯方程的复杂性,应用到天气模型中需要大量的算力。

地球像素化

为了能够进行预测,天气建模者们将地球及其大气层划分为一个网格,就像电视或电脑屏幕将图像分成像素一样。正如每个像素都被分配了一种颜色,每个网格框也只为压力、湿度、温度等分配了一个数值 —— 这个值是对单个网格框进行精准测量得到的,这样就使得计算变得容易。之后我们可以使用集成预测等技术来减轻蝴蝶效应的影响。

天气模型将地球及其大气划分为一个网格。图片:美国国家海洋和大气管理局。

在目前最先进的天气模型中,网格在水平方向上大约 1.5 公里见方,在竖直方向上高大约 300 米:即使是最快的超级计算机也无法处理更高的分辨率。云当然可以比这个尺寸小得多,它们可以在一个网格框内做各种奇妙的事情,许多别的过程也会在小于网格框的尺度内发生。

为了把这些过程考虑进来,天气模型使用数学公式来估计,这些公式大致描述了这些过程的物理特性。这种估计称为参数化

“参数化是建模的一个步骤,它计算网格框内所发生情况的物理特性,然后与网格尺度相关联,”巴斯大学数学家、天气预报和机器学习专家克里斯・巴德解释说。单个网格框中被云层覆盖的天空比例就是被这样参数化的一个量。“除了云之外,还有来自太阳的辐射、重力在大气中引起的波动以及风吹过地球表面时所经历的摩擦等参数,”巴德说。

AI 能做什么?

机器学习是指计算机算法学习如何发掘数据中的规律,然后充分利用这些规律进行实际应用。这里有一个经典例子,是计算机学习从狗的图片中分辨出猫的图片。要教机器学习算法做到这一点,首先要给它输入大量猫和狗的图片,并告诉它每张图片的正确答案 —— 到底是猫还是狗。

在一个看似神奇但高效的数学过程中,算法仔细分析图片,调整内部参数,直到在训练集中获得非常高的正确率。然后你可以给它新的猫狗图片,它就能高度准确地分辨出图片上的动物。

当涉及到天气预报时,我们希望机器学习算法可以通过查看大量现实生活中的天气来学习如何从与网格框相关的数字中确定网格框内所发生事情的一些细节。如果可以的话,这些算法可以纳入天气模型,取代现有的参数化算法,并允许模型包含有关子网格过程的更详细信息 —— 包括有关云的行为和组织的更多详细信息。

试用 AI

巴德和迪瓦恩都是一个名为“深度学习中的数学”的研究组的成员,他们主要探索机器学习的一系列潜在应用以及它背后的数学。他们指导研究生科沃德与英国气象局合作了一个项目,内容是测试机器学习能否提供关于云层的更多信息。

这些卷云的总表面积大于相同体积的云球的表面积。图片:法马丁

对于这样一个测试,我们首先要做的是确定想要机器算法学习关于云的哪些信息。科沃德基于几何学的结果给出了一个答案:在云量相同的情况下,云全部聚集在一起时整个云团的表面积往往比它被分成许多小云时要小。

因此,整个云团的表面积,也称为云周界,是一个很好的指标,来反映网格框中有什么样的云 —— 大积云或纤细的卷云。它也是一个有用的参数,用于改进其他参数化过程和算法,例如预测辐射穿过云层传输的算法。

问题是机器学习算法能否根据分配给整个网格框的数字来估计单个网格框内的云周界。“这是科沃德项目的目标:根据一系列环境因素对云周界的估计进行机器学习。” 迪瓦恩说。

为了训练算法,科沃德使用了在美国俄克拉荷马州记录的云的数据集。“他们在的空间内设置了一堆摄像头,“迪瓦恩解释道,“摄像机可以在一米大小的网格尺度上读取是否有云存在。”在三年的时间里,每 20 秒就会记录一次云层,利用这些数据,机器学习算法产生了科沃德所说的“对云生命周期的完全独特的见解”。

科沃德利用这些数据来训练两种机器学习算法。对它们进行训练之后,他将算法预测的云周界与摄像机记录下的云周界进行了比较。

两种算法中较好的一个误差为 16%。虽然不是零,但也不是很大。事实上,在不使用机器学习的情况下,最好的参数化云周界的方法也有接近 24% 的误差。因此,在这种情况下,机器学习的精度比非机器学习高出三分之一以上。

概念的证明

科沃德的项目是测试机器学习能否用于天气预报的一系列初步尝试之一。“机器学习对于该领域的人们来说是一种非常新的方法,” 迪瓦恩说,“我们现在处于起步阶段,大部分内容都是实验性的,人们正在尝试不同的东西,试图提出新技术,看看它们的表现如何。”

人们希望机器学习最终不仅可以计算云层,也可以计算天气模型中的其他现象。如果这个方法成功了,人工智能最终应用到天气预报的 App 中,到时候你会知道这个好消息的。

作者:Marianne Freiberger

翻译:藏痴

审校:小聪

原文链接:Catching clouds with artificial intelligence

本文来自微信公众号:中科院物理所 (ID:cas-iop),作者:Freiberger

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注