时序数据库系列(二)时序数据库详解

系列文章链接:
时序数据库系列(一)初识时序数据
时序数据库系列(二)时序数据库详解

时序数据库系列(三)时序数据库相关技术点、LSM-Tree数据架构、Delta压缩算法
时序数据库系列(四)Timelyre应对时序数据游刃有余
时序数据库系列(五)
时序数据案例集

在详细介绍时序数据库之前,先展示一下著名的数据库流行排名网站
DB-Engines中,从2013年开始各种类数据库的兴起与发展。

来源:https://db-engines.com/en/ranking_categories

 

从上图可以看出,时序数据库起始于2015年,随着万物互联的时代到来,时序数据广泛的应用场景带来发展十分迅速,并在2020年后的时间里成为流行度最高的数据库。那么时序数据究竟有何作用,又有何应用场景呢?下面将详细介绍时序数据库。

 

时序数据库介绍

什么是时序数据库?

时序数据库全称为时间序列数据库Time Series Database,TSDB),主要用于摄取、处理、存储带有时间戳的数据。时序数据库针对上述数据的特性,通过对时序序数据的存储和查询场景进行优化,满足对海量时序数据的高效存储和快速处理的需求。与关系型数据库相比,时序数据库主要通过优化存储机制大幅降低存储空间的开销,优化查询速率。在时序数据分析方面,采用灵活的时间聚合功能、数据保留策略和多维度时间范围查询等机制提高数据分析速率。

 

时序数据库有何特点?

时序数据库的特点一般体现在以下六个方面。

1)高吞吐量数据高速写入能力。

由于时序数据库的应用场景通常持续产生海量数据,对写入速度的要求很高,写入并发量很大,这就要求时序数据库能实现高吞吐量的数据高速写入功能。

 

当前要实现系统高吞吐量写入,必须要满足两个基本技术点要求:系统具有水平扩展性和单机LSM体系结构。系统具有水平扩展性很容易理解,由于单机性能的限制,很难完成高吞吐的数据写入,因此系统必须采用集群式,而且要容易加节点扩展,并做到节点扩容时对业务无感知。此外,LSM体系结构是用来保证单台机器的高吞吐量写入,LSM结构下数据写入只需要写入内存以及追加写入日志,不再需要随机将数据写入磁盘,有助于提高数据库写入性能。

 

2)高压缩率。

时序数据库需存储大量数据,数据存储需求通常是TB级别,甚至达到PB级别,因此需根据时序数据的特征对数据进行压缩存储,提高数据存储空间的利用率。

 

提供高压缩率有两个方面的考虑,一方面是节省成本,这很容易理解,将1T数据压缩到100G就可以减少900G的硬盘开销,这对业务来说是有很大的诱惑的。另一个方面是压缩后的数据可以更容易保证存储到内存中,比如最近3小时的数据是1T,我现在只有100G的内存,如果不压缩,就会有900G的数据被迫放到硬盘上,这样的话查询开销会非常之大,而使用压缩会将这1T数据都放入内存,查询性能会非常之好。

 

3)高效时间窗口查询能力。

时序业务的查询需求分为两类:一是实时数据查询,反映当前监控对象的状态;二是主要查询某个时间段的历史数据。历史数据的数据量很大,此时需对时间窗口大量数据查询进行优化。但时序数据库仅需支持简单的查询,例如获取特定时间范围内的数据、查找特定时间戳的数据点与聚合操作以计算特定时间范围内的平均值或最大最小值,这一点有别的关系型数据库支持的复杂查询。

 

4)高效聚合能力。

由于时序数据使用时间戳作为唯一标识,因此在对时序数据进行分析时会将数据的汇聚值作为重要的分析指标,反映应用场景下某个时间段内的数据整体情况,这意味着时序数据库需提供高效的聚合函数。

 

5) 批量删除能力。

时序数据通常以时间为数据有效性指标,因此需对过期的数据进行批量删除操作。

 

6) 通常无需具备事务的能力。

时序数据库主要的应用场景是数据分析和挖掘,很少用于实现业务流程的数据流转,因此无需具备事务功能。

 

由于时序数据库在设计之初就与关系型数据库有明显区别,因此其基本属性也与关系型数据库不同。时序数据库的基本属性概念见表

 

时序数据库基本属性概念

名称

中文释义

含义

Metric

度量

类似关系型数据库里的表(Table),代表一系列同类时序数据的集合,例如为空气质量传感器建立一个 Table,存储所有传感器的监测数据

Timestamp

时间戳

代表数据产生的时间点,可以写入时指定,也可由系统自动生成

Tag

标签

描述数据源的特征,通常不随时间变化,例如传感器设备,包含设备 DeviceId、设备所在的 Region 等 Tag 信息,数据库内部会自动为 Tag 建立索引,支持根据 Tag 来进行多维检索查询;Tag 由 Tag Key、Tag Value 组成,两者均为 String 类型

Field

量测值

描述数据源的量测指标,通常随着时间不断变化,例如传感器设备包含温度、湿度等Field

Data Point

数据点

数据源在某个时间产生的某个量测指标值(Field Value)称为一个数据点,数据库查询、写入时按数据点数来作为统计指标

Time Series

时间线

数据源的某一个指标随时间变化,形成时间线,Metric + Tags + Field 组合确定一条时间线;针对时序数据的计算包括降采样、聚合(sum、count、max、min等)、插值等都基于时间线维度进行

 

 

时序数据库应用场景

 

随着物联网、车联网和工业互联网等的迅速发展,时序数据被广泛应用在各行各业,包括工业制造、经济金融、环境监测、医学、农业生产、硬件和软件系统监控等领域都在大量使用时序数据揭示研究对象的趋势性、规律性、异常性。同时,在人工智能的浪潮下,时序数据作为大数据、机器学习、实时预测基础数据的作用日益凸显。各类应用产生的时序数据量爆炸式增长,呈现出海量性、关联性、时效性、实时性等特征,下面将列举时序数据库较为典型的应用场景:

 

1. 物联网:物联网设备如传感器、智能家居、工业设备等产生大量的时序数据,这些数据可以通过时序数据库进行存储和分析,以实现实时监控、预测和故障诊断等。

2. 金融:金融市场中的股票价格、交易数据、市场数据等都是典型的时序数据。时序数据库可以用于存储和分析这些数据,以支持实时交易决策、风险管理和投资分析等。

3. 能源管理:能源管理系统如智能电网、能源监测设备等产生大量的时序数据。时序数据库可以用于存储和分析这些数据,以实现能源的有效管理和优化。

4. 电信网络:电信网络数据如网络流量、信号强度等是典型的时序数据。时序数据库可以用于存储和分析这些数据,以支持网络优化、故障排查和安全分析等。

5. 物流运输:物流运输系统中的货物运输状态、运输时间等数据也是时序数据。时序数据库可以用于存储和分析这些数据,以实现物流运输的实时监控和优化。

6. 工业控制:工业生产过程中产生的各种数据,如设备状态、生产过程数据等都是时序数据。时序数据库可以用于存储和分析这些数据,以实现生产过程的实时监控、预测和优化。

7. 日志分析:大量的日志数据也是时序数据。时序数据库可以用于存储和分析这些数据,以实现实时监控、故障排查和安全分析等。

8. 地震监测监测部门将大量监测用地震计部署在全国各地,地震计将7X24小时不间断的记录和测量当地的地面运动情况,然后通过网络传输回监测中心,由数据部门通过自动化的形式对数据进行清洗、分析和可视化展示,以此来实现监测地震活动情况。地震计所记录的数据为时序数据,具有带时间戳、数据量大、没有更新、数据源唯一等特点。

9. 智能穿戴:智能穿戴行业作为近几年发展最快的行业之一,其周期性对于心跳、体温、运动的统计分析是其最大的特点。

 

未来时序数据库所面临的挑战

1. 存储能力和成本

工业物联网和车联网会产生巨大的数据量。比如,在一家工业医疗器械企业的智慧工厂中装备有10万台传感设备,每台传感器每隔1分钟采集一次设备温度、压力等数据信息并发送给服务器进行实时的分析与存储。

 

企业中智慧工厂中的传感器一天将产生1.4亿条记录。如此大的数据量以及7x24不间断地收集数据,对服务器的存储能力是非常大的挑战。在存储的同时,服务器还需要支持快速地写入和多条数据高并发的同时写入,以实现对大量传感器数据的同时存储。

 

2. 数据高速聚合

如何支持以秒级的速度对上亿数据进行分组聚合运算,如何能高效地在大数据量的基础上将满足条件的原始数据查询出来并聚合,要知道统计的原始值可能因为时间比较久远而不在内存中,因此这可能是一个非常耗时的操作。

 

3. 工业数据采集

在工业物联网场景下,时序数据库收集数据的传感器通常存在多个类别,例如光电、热敏、气敏、力敏等等。采集不同数据的传感器往往来自于多个不同厂商,自动化设备生产厂商所遵循的工业协议存在差异,导致在实现工业化协议时的互联互通出现阻碍,无法有效的进行有协议差异的数据的收集和分析。与此同时,多种传感器所使用的通信方式存在差异。由于工厂中设备的版本、购买时间的不同,采集的数据往往会通过局域网、wifi、3G、4G等多种传输方式的方式被传输至服务器端,导致各种通信方式并存,连接管理变得复杂。

 

在可预知的未来3~5年,随着物联网以及工业4.0的到来,越来越多的设备都会携带传感器并联网,传感器收集的时序数据将严重依赖时序数据库的实时分析能力、存储能力以及查询统计能力。此外,人工智能的发展导致时序数据急速增长,对数据库写入、存储、分析性能以及实时性提出了更高的要求,如何管理海量的实时数据、从中挖掘价值,是时序数据库需要解决的重要问题。

下一篇:时序数据库系列(三)时序数据库相关技术点、LSM-Tree数据架构、Delta压缩算法

评论
登录后可评论
发布者
星小环分享号
官方
文章
193
问答
253
关注者
27
banner
关注星环科技
获取最新活动资讯

加入TDH社区版技术交流群

获取更多技术支持 ->

扫描二维码,立即加入