探秘“气象大数据”-CDA数据分析师官网

热线电话：13121318867

探秘“气象大数据”

2016-07-11

探秘“气象大数据”

实况数据是气象学科发展的最基础数据，也是模式数据产生的源头。如果没有实况数据，计算机在运算“模式数据”时就少了初始值，即使是回归到没有计算机的人工预报时代，少了实况数据也无法进行天气预报。

有人说，在“大数据时代”这个概念出现前，最名副其实的大数据应该数气象数据。气象数据一贯以庞杂众多数据量大而著称，但无论气象数据多么复杂，总体可以分为两类：一类数据被称为“实况数据”，一类被称为“模式数据”。

简单来说，实况数据属于“一般过去时数据”，来自不同的观测设备。采集实况数据的气象站点遍布全球，观测范围从几千米的高空到地面，观测手段从高科技的雷达卫星到最原始的人工观测，这些数据的采集都是为了更真实地反映出地球外围大气圈的运动变化，而这些宝贵的数据也可以称之为天气预报之源。

模式数据与实况数据相比，可以说更简单也可以说更复杂。简单的是，这类数据仅由各类计算机的程序运算生成，属于预测未来的“一般将来时数据”;说它复杂则是因为计算量非常庞大，运用到的计算公式也异常复杂，为了更真实地模拟全球大气的走向，运算出的数据量也是十分惊人的!

下面，我们就一一来详细揭秘这两类“气象大数据”。

天气预报之源——实况数据

那么，实况数据是如何采集的呢?

很多年前，实况数据的采集和传输工作大部分都要靠人力完成。气象观测员每天要定时记录百叶箱内的温度、湿度等，并通过打电话、发电报等方式将全国观测数据进行汇总。到今天为止，仍有很多发展中国家采用这种采集传输方式。

而随着科技的发展，在计算机、电子和通信技术高度发达的今天，实况数据的采集和传输技术也有了天翻地覆的变化。所有实况数据的采集和传输几乎都可以通过自动化完成，仅有少数几个项目需要人工参与，比如地面能见度观测、施放探空气球、卫星轨道控制等。

目前，在气象观测站中温度、湿度、气压、风向、风速等物理量均由电子控制的机械设备完成，这些观测站配有嵌入式芯片，芯片上有一个精确的时钟，可以准时地周期性工作，例如在整点每隔5分钟、10分钟或1小时自动采集周围的环境数据，并自动将采集的气象数据编码为二进制数据流，发送到数据库中。截至2015年年底，我国大约有50000多个这样的地面观测站，所有观测站均为自动站。

由气象观测站观测到的数据信息会首先在各省的气象台进行汇总，然后通过“质量控制”的环节，去掉或订正某些由于观测设备故障造成的错误数据，质量控制过程同样也是由计算机程序自动实现的。完成初步的质量控制后，各省就利用FTP文件传输的方式，将该省该时刻全部观测站点全部物理量数据打包为一个大文件，上传到位于北京的国家气象信息中心的通信台。

世界其他国家的观测数据的采集和传输也基本大同小异。除此以外，国与国之间也要进行实况数据的交换，而且必须是无偿交换。这是因为大气的运动是全球性的，仅仅依靠本国的实况数据无法做出准确的天气预报，因此，世界气象组织规定各国之间必须无偿提供气象观测资料。不过，有的时候出于信息保护或军事安全的考虑，并不会对外广播全部的观测站点数据。那么，每个国家需要义务提供多少站点信息，又以什么标准交换，都交换哪些观测项目，这些都由世界气象组织(WMO)制定和协调。

气象大数据之魂——模式数据

模式数据是由高性能计算机根据当前天气实况数据(包括地面、高空、卫星等)通过物理方程计算得出的。可以简单形象地认为，有这样一套庞大的计算天气预报的程序，输入当前已知的天气现象，就可以输出未来还没有发生的天气现象。计算出的天气预报结果通常以规则的等经纬度网格来表示，网格上的每一个点代表这个经纬度上未来某时刻某个物理量(比如温度)的数值。这就是现代天气预报业务的基础叫“数值模式预报”，而这个庞大的计算机程序就被称作“模式系统”。

所有的发达国家都有自己的一套用来演算天气情况的模式系统，有的国家甚至还具有不止一套的系统。模式系统一般每天计算2～4次，通常在整点开始，利用整点前采集到的实况数据进行计算，每次计算要生成大概几百个物理量，包括从开始计算的时刻(又称作“起报时刻”)至未来240小时时效(或更长)的一系列二进制网格数据，预报时效通常间隔3小时。目前气象网格经纬度间距一般在0.25度数量级，一个网格文件大小通常在1～2兆，包含几十万个浮点数值。

当模式的预报时效越长，时效间隔越密，网格点间距越小，网格点数值和未来实况差异越小，就证明该模式系统性能越好，该国气象水平越发达。由于模式预测的物理量多，每天还要多次起报，预报时效密集，模式种类繁多，模式数据必须至少存储一星期等要求，因此，在气象数据中，无论从数据个数还是数据存储量来说，模式数据是比重最大的“大数据”。

和实况数据不同的是，具备模式系统的国家通常没有义务向其他国家无偿提供本国的模式数据，或者最多无偿提供经过抽稀处理的粗粒度模式数据。想要得到发达国家的高质量模式数据，必须通过购买才可以。例如想要得到欧洲中心的0.125度细网格模式数据，无论中国气象局还是美国气象局都必须向欧洲中心支付高昂的年费，才能每天获得高质量的欧洲中心模式数据。

需要注意的是，这里购买的仅仅是模式系统最终的“输出”数据，而不是模式系统本身。因为模式系统水平的好坏代表了一个国家气象的硬实力，模式系统的源代码(通常是大量的Fortran程序)更是顶级领域技术机密，属于非卖品。

跨国模式数据也是利用FTP等方式进行传输，传输的格式一般是采用世界气象组织制定的一种称作GRIB编码的文件规范，这种文件比较适合描述模式数据。

气象数据如何传输

看完“实况数据”和“模式数据”的介绍，有没有觉得气象数据量大浩如烟海，这么多的数据都要一一传送到预报员手里，又需要多长时间呢?一般来说，地面、高空、雷达观测数据的采集和传输过程较快，从数据采集到可视化向预报员展示，通常几分钟时间就可以完成。也就是说，如果某地出现降雨天气，只要仪器能观测到，几分钟后位于气象台的预报员就会知道。

相对而言，静止气象卫星观测的时间稍长，中国的风云卫星一般需要20多分钟才能完成全球扫描，大概半小时后，预报员才能在电脑上看到卫星云图。

这里面模式数据传输最慢。以上午08时起报的欧洲中心模式系统为例，首先计算未来3小时(上午11时)的所有物理量，打包为1个GRIB文件并向其他国家传输，然后再计算未来6小时的数据，打包传输，直到最后完成10天后上午08时的预报数据计算并传输，每个预报时效的GRIB文件大概100多兆，计算一个预报时效大概需要几分钟时间，模式系统启动也需要很长时间，这样北京收到欧洲中心在早08时起报的第1个GRIB文件大概要到下午1时45分，完成最后一个240小时预报时效GRIB文件的接收要到下午3时。这样，如果要做早08时到下午3时的天气预报，只能使用前1个起报时刻的模式数据，比如前一天晚20时的模式数据。

在我国，国家气象信息中心通信台承担着数据传输和分发的枢纽作用。接收的数据包含来自各省的地面、高空、雷达数据、卫星数据、中国模式系统输出结果的数据以及其他国家的观测数据和模式数据。同时，还承担数据的发送功能，每天将各种观测数据和模式数据通过地面网络或通信卫星收发系统传送给31个省市区气象台和其他国家。

省一级的气象台只负责将本省的观测数据发送至国家气象信息中心，不进行其他数据的传送，同时接收来自国家气象信息中心分发的其他省的数据或各国模式系统数据。一般来说，由于国家到省级的网络传输需要较长时间，因此，国家级预报员在时间上将先于省级预报员查看到最新的气象数据。

预报员如何接收气象数据

解释完了数据是怎么进行传输和接收的，最后一个问题，一个个数据又是如何出现在预报员的计算机中?这其实是一套先进、复杂的大数据处理系统。

数据到达通信台后，首先兵分两路，地面、高空站点实况报文数据被转发至解报计算机，完成对于BUFR编码的解码，提取出报文中的站号、物理量值等信息，写入一个关系型数据库中作为缓存，然后通过每隔几分钟的定时作业，将同一观测时刻全部站点的物理量信息从关系型数据库中提取出来，制作为一个全国全部站点观测文件，写入到一个专供预报员客户端软件访问的高速存储服务器中。

另外一路大数据包括模式数据、卫星、雷达数据，这一类数据本身不是报文，不需要像站点实况数据那样先拼接再写入的过程，因此，通信台直接将这些数据发送给高速解析服务器，完成类似GRIB解码、卫星通道拆分等操作，解码后的结果一般是一些更小更多的文件，直接写入到和存储全国站点观测文件相同的高速存储服务器中，供预报员客户端软件访问。所有数据的解报、解码时间一般几秒钟即可完成。

中国的预报客户端称作“MICAPS”(全称气象信息综合分析处理系统)，主要功能是将高速存储服务器中的所有气象数据进行可视化展示，并提供便捷的浏览和交互操作，预报员利用显示出来的模式数据和所有实况数据，结合自己的分析，在MICAPS上绘制出天气预报的最终结果，最后将预报结果出图和撰写成文字发送给发布部门，比如网站、报纸、电视台等。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；