项目背景
气象行业数据种类繁多,包括各类结构化、半结构化和非结构化数据,随着互联网技术、信息化技术以及气象观测技术的迅速发展,气象数据采集频次从逐天逐时转变为逐分钟,使气象行业累积了海量数据,数据量已达到PB以上,具有典型的大数据特征。
传统的计算方式无法对海量数据进行深度挖掘,在应对海量数据的高并发访问时同样遇到了处理瓶颈,导致在气象防灾减灾领域气象数据的价值无法有效地实现。
客户痛点
在某气象客户气候监测预测分析系统的建设过程中,用户原有海量气象格点数据以NetCDF文件的方式存储在文件系统中,并通过文件接口读取所需数据。因文件系统的效率瓶颈,这种服务方式的用户体验较差,检索困难,用户请求响应时间较长,并且无法获取指定区域的数据。
用户亟需建立气象大数据云平台,推进气象数据环境、加工处理算法的整合集约,构建全流程的气象大数据业务。单纯的虚拟化资源已无法支撑,亟需分布式的物理算力资源、海量的数据存储资源、服务化的基础软件资源。
在建成后,用户要求产品具备平台基础能力,可以配合气象信息化系统工程建设,满足常用地理信息数据和气象数据空间化处理后的产品存储和分析需求,并且提供标准的OGC服务。同时,需要具备外部数据源接入的能力,支持原有空间矢量和属性数据存储的分布式关系型数据库,并可以融合地理信息数据进行空间分析。
解决方案
为了解决海量时空和气象数据的存储需求,提高气象数据使用效率,同时为CIPAS系统提供数算一体的技术能力,用户选择星环科技Spacture时空数据库作为气象大数据的载体。Spacture是星环科技一款面向空间和时空数据存储管理、集计算与存储为一体的分布式时空数据库,提供空间地理、遥感影像、时空轨迹等海量数据的存储、查询、分析和挖掘服务。
Spacture具备高性能数据读写和分析能力,支持矢量、栅格、格网、轨迹等多种时空数据类型,支持OGC标准几何类型和空间关系,兼容常见的开源和商业GIS软件;内置了时空索引、空间拓扑几何、空间数据查询、遥感影像处理等高效算法。可以帮助用户快速开发时空查询分析、时空模式挖掘、时空轨迹聚类等应用,广泛应用于位置服务、城市管理、交通物流等场景。
系统整体架构自下而上由基础设施层、数据计算存储层、数据层、服务平台层和应用服务层五部分组成,其中分布式数据库及 GIS 云服务应用系统重点关注数据计算存储层和数据层,在基础设施层之上进行部署,将资源服务化、能力化,提供分布式计算环境、数据存储支撑环境、中间件等软件资源服务。系统架构如下图:
数据计算存储层作为整个平台的核心数据处理和管理组件,连接基础设施层和数据湖层,实现数据计算、转换、管理和存储等功能。存储方面实现了多模型混合存储,其中关系型数据库负责存储一些关键业务系统的结构化数据;星环时空数据库Spacture作为核心的大数据存储服务,负责存储管理海量时空气象数据,包括气象站原始数据、天气预报数据、气候模型输出数据等;分布式实时数据库负责实时处理和存储各类实时气象监测数据;其他数据库主要包括一些专业的NoSQL数据库,用以存储历史气象数据、图数据、文档数据等。不同数据库具有各自的专业优势,共同组成一个综合的数据存储与管理平台。数据库之间通过分布式服务和数据流进行集成,为气象大数据分析提供全面支持。
基于上述多种类型数据库,可以实现存储结构管理、数据同步、备份与恢复、迁移与清除、归档与回取等操作,并通过数据流、归档等手段协同进行统一的数据管理,实现存储系统的高效运转。
数据层(也即数据湖层)以多元异构数据汇聚引擎为核心,在数据区统一汇总管理分散在原有各数据管理系统中的多种空间类型数据,分别构建矢量数据资源池、格点数据资源池、栅格数据资源池、实时数据资源池、归档数据资源池,并在分析处理区与数据分析引擎一一对应,实现对空间分析库中气候模式、海温监测、大气环流、气候灾害等业务系统的支撑。
系统重构过程中配合CIPAS 系统开发的插件,将格点数据以二进制的形式存储到Spacture数据库,以SQL函数的方式注册到数据库中,提供对格点数据的操作、查询和分析。格点数据无需下载后进行客户端计算,使得数据靠近计算端,改变传统数据下载,客户端计算的流程,实现了格点数据数算一体化。对格点数据按照Grid模型进行时间切分和格点切分,并建立空间索引,提供并行计算能力,大幅提升了查询、聚合效率,最终实现高效、灵活地对外提供基于格点数据的空间服务。
系统建成后有力支撑了用户现有气候模式、海洋气候、大气环流、气候灾害等主要业务,实现了对气候环境变化的实时监测,构建了各类气候现象和极端天气的相关诊断分析工具,提供了针对关键指标、过程的监测预测产品,促进气候业务顺利开展,有效提高气候服务水平。
更多Spacture产品Demo演示
项目背景
气象行业数据种类繁多,包括各类结构化、半结构化和非结构化数据,随着互联网技术、信息化技术以及气象观测技术的迅速发展,气象数据采集频次从逐天逐时转变为逐分钟,使气象行业累积了海量数据,数据量已达到PB以上,具有典型的大数据特征。
传统的计算方式无法对海量数据进行深度挖掘,在应对海量数据的高并发访问时同样遇到了处理瓶颈,导致在气象防灾减灾领域气象数据的价值无法有效地实现。
客户痛点
在某气象客户气候监测预测分析系统的建设过程中,用户原有海量气象格点数据以NetCDF文件的方式存储在文件系统中,并通过文件接口读取所需数据。因文件系统的效率瓶颈,这种服务方式的用户体验较差,检索困难,用户请求响应时间较长,并且无法获取指定区域的数据。
用户亟需建立气象大数据云平台,推进气象数据环境、加工处理算法的整合集约,构建全流程的气象大数据业务。单纯的虚拟化资源已无法支撑,亟需分布式的物理算力资源、海量的数据存储资源、服务化的基础软件资源。
在建成后,用户要求产品具备平台基础能力,可以配合气象信息化系统工程建设,满足常用地理信息数据和气象数据空间化处理后的产品存储和分析需求,并且提供标准的OGC服务。同时,需要具备外部数据源接入的能力,支持原有空间矢量和属性数据存储的分布式关系型数据库,并可以融合地理信息数据进行空间分析。
解决方案
为了解决海量时空和气象数据的存储需求,提高气象数据使用效率,同时为CIPAS系统提供数算一体的技术能力,用户选择星环科技Spacture时空数据库作为气象大数据的载体。Spacture是星环科技一款面向空间和时空数据存储管理、集计算与存储为一体的分布式时空数据库,提供空间地理、遥感影像、时空轨迹等海量数据的存储、查询、分析和挖掘服务。
Spacture具备高性能数据读写和分析能力,支持矢量、栅格、格网、轨迹等多种时空数据类型,支持OGC标准几何类型和空间关系,兼容常见的开源和商业GIS软件;内置了时空索引、空间拓扑几何、空间数据查询、遥感影像处理等高效算法。可以帮助用户快速开发时空查询分析、时空模式挖掘、时空轨迹聚类等应用,广泛应用于位置服务、城市管理、交通物流等场景。
系统整体架构自下而上由基础设施层、数据计算存储层、数据层、服务平台层和应用服务层五部分组成,其中分布式数据库及 GIS 云服务应用系统重点关注数据计算存储层和数据层,在基础设施层之上进行部署,将资源服务化、能力化,提供分布式计算环境、数据存储支撑环境、中间件等软件资源服务。系统架构如下图:
数据计算存储层作为整个平台的核心数据处理和管理组件,连接基础设施层和数据湖层,实现数据计算、转换、管理和存储等功能。存储方面实现了多模型混合存储,其中关系型数据库负责存储一些关键业务系统的结构化数据;星环时空数据库Spacture作为核心的大数据存储服务,负责存储管理海量时空气象数据,包括气象站原始数据、天气预报数据、气候模型输出数据等;分布式实时数据库负责实时处理和存储各类实时气象监测数据;其他数据库主要包括一些专业的NoSQL数据库,用以存储历史气象数据、图数据、文档数据等。不同数据库具有各自的专业优势,共同组成一个综合的数据存储与管理平台。数据库之间通过分布式服务和数据流进行集成,为气象大数据分析提供全面支持。
基于上述多种类型数据库,可以实现存储结构管理、数据同步、备份与恢复、迁移与清除、归档与回取等操作,并通过数据流、归档等手段协同进行统一的数据管理,实现存储系统的高效运转。
数据层(也即数据湖层)以多元异构数据汇聚引擎为核心,在数据区统一汇总管理分散在原有各数据管理系统中的多种空间类型数据,分别构建矢量数据资源池、格点数据资源池、栅格数据资源池、实时数据资源池、归档数据资源池,并在分析处理区与数据分析引擎一一对应,实现对空间分析库中气候模式、海温监测、大气环流、气候灾害等业务系统的支撑。
系统重构过程中配合CIPAS 系统开发的插件,将格点数据以二进制的形式存储到Spacture数据库,以SQL函数的方式注册到数据库中,提供对格点数据的操作、查询和分析。格点数据无需下载后进行客户端计算,使得数据靠近计算端,改变传统数据下载,客户端计算的流程,实现了格点数据数算一体化。对格点数据按照Grid模型进行时间切分和格点切分,并建立空间索引,提供并行计算能力,大幅提升了查询、聚合效率,最终实现高效、灵活地对外提供基于格点数据的空间服务。
系统建成后有力支撑了用户现有气候模式、海洋气候、大气环流、气候灾害等主要业务,实现了对气候环境变化的实时监测,构建了各类气候现象和极端天气的相关诊断分析工具,提供了针对关键指标、过程的监测预测产品,促进气候业务顺利开展,有效提高气候服务水平。
更多Spacture产品Demo演示