系列文章链接
时序数据库系列(一)初识时序数据
时序数据库系列(二)时序数据库详解
时序数据库系列(三)时序数据库相关技术点、LSM-Tree数据架构、Delta压缩算法
时序数据库系列(四)Timelyre应对时序数据游刃有余
时序数据库系列(五)时序数据案例集
打造实时高性能时序数据平台,赋能能源制造行业数据湖建设
企业背景
能源制造业数字化转型是数字经济的重要环节。随着科技的不断进步,越越多的能源企业开始面临数字化转型的需求。例如,某能源头部企业拥有大量的智能化工业设备这些设备检测具有测点多、频率高、数据安全要求高等特点。这些特点使得这些设备可以在生产过程中非常准确地检测和记录各项数据,但同时也数据的采集、传输以及存储带来了很大的挑战。
面临问题
传统的关系型数据库虽然可以存储结构化数据,但是在存储大量时序数据时存在许多不足和限制。首先,数据的入库速度比较慢,而且需要大量的存储资源,这限制了企业对大规模数据分析的能力。其次,查询计算效率比较低,无满足大数据量实时处理的需求。因此,传统的关型数据库不适合用作处理大规模时序数据的工具。
为解决这一问题,企业计划引入专门用于处理大规模时序数据的时序数据库。时序数据库可高并发处理时序数据,并拥有较高的数据压缩能力解决存储成本。而开源时序数据库可运维性、可扩展性较差,无法支撑复杂分析业务,同时也面临数据安全问题,均无法支撑智能工业设备实时产生的大量时序数据。企业把目光放在国产化分布式高性能时序数据库上,解决目前所遇到的一系列数字化转型的阻碍。
解决方案
最终,该企业选择基于星环科技TimeLyre的实时数据存储、分析能力,打造了高性能时序数据平台。通过星环实时流计算引擎Slipstream实时的将散布在数万传感器中的时序数据抽取到TimeLyre中,以此为基础进一步开展行业算子计算、实时作业管理等实时分析,以及时序数据检索、时序数据开发等。同时利用星环分布式分析型数据库ArgoDB进行湖仓集一体化建设,实现了大数据灵活分析、离线作业管理等功能,进一步增强了企业业务数据离线分析能力。
项目建成后极大提升了时序数据存储性能,实现了每秒千万级流数据插入,入库性能提升十倍以上;实现了高性能查询,时序数据快速查询能够毫秒级返回结果,查询性能提升十倍以上;大幅提升数据压缩效率,数据平均压缩率达到10倍,有效节约企业硬件成本;联合多模数据库ArgoDB满足了之前未能实现的实时数仓与离线数仓联合查询的业务需求。
携手头部券商,打造量化投研一体化平台,提升投研效率
企业背景
金融行业的数据具有数据架构大、数据频率高、并且需要实时性强的特点。一家头部券商客户使用Python进行数据和分析,但是由于技术限制,只能进行单机程序部署,这不仅需要购买昂贵的高配置单机服务器来满足性能和存储需求,而且需要业务人员具有较高的技术水平才能完成复杂查询分析的编写。此外,该技术架构也无法满足多年高频数据的处理和分析需求,导致该公司丧失了一些交易机会,整体收益率显著下降。
解决方案
针对该券商客户所遇到的高频交易数据入库和储困难、因子数据分析函数复杂、业务人员技术水平要求高、硬件购置成本高等痛点,星环科技基于TimeLyre打造了量化投研一体化平台TransQuant。通过TimeLyre Tools和Workflow实现多源数据接入,包括存储在Oracle/MySQL中的数据、以HDF5和PKL格式存储的用户因子数据以及第三方数据等,并将这些数据统一存储在TimeLyre时序数据库中。随后,通过使用星环智能量化投研平台TransQuant对这些数据进行量化回测和因子研究,实现了海量数据的复杂分析。
该平台提供了丰富的数据接口,通过Python API与原系统通信,支持多数据源多数据格式的迁移和导入,实现了用户业务的平滑迁移和扩展,并支持多种金融应用场景。同时,时序数据库TimeLyre作为分布式时序数据库,大大提升了系统的运算能力,并提供了亿级数据的高速运算,相同场景下达到Pandas单机性能的百倍以上。此外,该平台特别支持了客户应用过程中使用的上千列因子数据表,并提供了节点横向扩展能力。最终,通过运用围绕TimeLyre的系列产品实现了对金融行业大规模时序数据入库、存储、复杂分析的全面支持,满足了该券商客户多元化的业务需求,也提高了整体的效率和收益水平。
助力电力行业搭建数据底座,实现海量数据实时接入与应用
基于以上行业痛点和需求,星环科技凭借自身在大数据、人工智能等领域多年来积累的技术优势和实践经验,能够为水电行业打造基于国产基础软件的新一代数据底座,实现海量数据实时接入及应用。
发电行业数据底座整体解决方案
在方案中,所有时序数据通过实时接口统一接入星环科技分布式时序数据库Transwarp Timelyre,关系型数据接入关系型分析引擎Transwarp Inceptor关系库,非结构化数据接入对象存储平台。然后对时序数据、关系数据进行主题建模和维度建模,将建模结果直接写星环科技分布式分析型数据库入ArgoDB中,形成DWD和DWS层。并在ArogDB中,面向应用分析,构建数据指标宽表、应用主题数据等数据集市层。
这里有几个很关键的联合分析技术,一个是“序关分析”,举个例子,我们在做故障预警算法开发的过程中,需要提取故障特征,通过历史设备台账数据(一般存在关系型数据库),把所有设备的故障开始时间、故障结束时间,故障类型等拿出来,关联时序数据库找到设备故障时刻的测点值,这些值要提取出来,作为样本进行AI模型训练。
另外一个是流上机器学习与流批一体,按照上面的例子,训练完模型后,需要部署在实时计算引擎上,与离线库中的档案数据表等,构建实时故障预警模型,对同步到Ⅲ区的实时数据进行分析预警,一旦设备故障,能马上识别出来。
整体技术架构优势:
① 分布式时序数据库TimeLyre支持实时、批量等多种数据写入方式。实时写入具备多并发、每秒千万级数据点插入的性能,可以保证数据检索的实效性,满足水电实时数仓的海量实时同步性能要求。
②相较于Hadoop体系的Hive等分析库,TimeLyre采用列式存储,内置多种索引结构,时序数据的检索将达到毫秒级的低延迟响应。在基于时间范围的检索与统计分析场景中,有着很快的巨大优势。相较于传统时序库、Hbase等,Timelyre使用分布式向量化计算引擎,可使用标准SQL进行海量时序数据的计算与分析,可以支撑起海量工业时序数据的聚合、关联分析,可以和分布式分析型数据库ArgoDB跨库关联,满足多种业务场景的查询与分析。彻底解决传统时序库+大数据平台的“双数据湖”存储时序数据的困境。
③TimeLyre拥有超高的数据压缩率。无损数据压缩支持多种数据类型、多种编码方式、多种压缩算法,数据压缩率可以达到10-50倍;同时星环科技可以提供有损数据压缩的解决方案,数据将在一定精度内存储,进一步提升了压缩率。超高的数据压缩率将有效解决海量存储空间的需求。
④统一服务层:提供各类数据查询、分析的统一SQL接口,为前端BI、实时大屏、填报系统、设备预警系统等提供数据服务。
系列文章链接
时序数据库系列(一)初识时序数据
时序数据库系列(二)时序数据库详解
时序数据库系列(三)时序数据库相关技术点、LSM-Tree数据架构、Delta压缩算法
时序数据库系列(四)Timelyre应对时序数据游刃有余
时序数据库系列(五)时序数据案例集
打造实时高性能时序数据平台,赋能能源制造行业数据湖建设
企业背景
能源制造业数字化转型是数字经济的重要环节。随着科技的不断进步,越越多的能源企业开始面临数字化转型的需求。例如,某能源头部企业拥有大量的智能化工业设备这些设备检测具有测点多、频率高、数据安全要求高等特点。这些特点使得这些设备可以在生产过程中非常准确地检测和记录各项数据,但同时也数据的采集、传输以及存储带来了很大的挑战。
面临问题
传统的关系型数据库虽然可以存储结构化数据,但是在存储大量时序数据时存在许多不足和限制。首先,数据的入库速度比较慢,而且需要大量的存储资源,这限制了企业对大规模数据分析的能力。其次,查询计算效率比较低,无满足大数据量实时处理的需求。因此,传统的关型数据库不适合用作处理大规模时序数据的工具。
为解决这一问题,企业计划引入专门用于处理大规模时序数据的时序数据库。时序数据库可高并发处理时序数据,并拥有较高的数据压缩能力解决存储成本。而开源时序数据库可运维性、可扩展性较差,无法支撑复杂分析业务,同时也面临数据安全问题,均无法支撑智能工业设备实时产生的大量时序数据。企业把目光放在国产化分布式高性能时序数据库上,解决目前所遇到的一系列数字化转型的阻碍。
解决方案
最终,该企业选择基于星环科技TimeLyre的实时数据存储、分析能力,打造了高性能时序数据平台。通过星环实时流计算引擎Slipstream实时的将散布在数万传感器中的时序数据抽取到TimeLyre中,以此为基础进一步开展行业算子计算、实时作业管理等实时分析,以及时序数据检索、时序数据开发等。同时利用星环分布式分析型数据库ArgoDB进行湖仓集一体化建设,实现了大数据灵活分析、离线作业管理等功能,进一步增强了企业业务数据离线分析能力。
项目建成后极大提升了时序数据存储性能,实现了每秒千万级流数据插入,入库性能提升十倍以上;实现了高性能查询,时序数据快速查询能够毫秒级返回结果,查询性能提升十倍以上;大幅提升数据压缩效率,数据平均压缩率达到10倍,有效节约企业硬件成本;联合多模数据库ArgoDB满足了之前未能实现的实时数仓与离线数仓联合查询的业务需求。
携手头部券商,打造量化投研一体化平台,提升投研效率
企业背景
金融行业的数据具有数据架构大、数据频率高、并且需要实时性强的特点。一家头部券商客户使用Python进行数据和分析,但是由于技术限制,只能进行单机程序部署,这不仅需要购买昂贵的高配置单机服务器来满足性能和存储需求,而且需要业务人员具有较高的技术水平才能完成复杂查询分析的编写。此外,该技术架构也无法满足多年高频数据的处理和分析需求,导致该公司丧失了一些交易机会,整体收益率显著下降。
解决方案
针对该券商客户所遇到的高频交易数据入库和储困难、因子数据分析函数复杂、业务人员技术水平要求高、硬件购置成本高等痛点,星环科技基于TimeLyre打造了量化投研一体化平台TransQuant。通过TimeLyre Tools和Workflow实现多源数据接入,包括存储在Oracle/MySQL中的数据、以HDF5和PKL格式存储的用户因子数据以及第三方数据等,并将这些数据统一存储在TimeLyre时序数据库中。随后,通过使用星环智能量化投研平台TransQuant对这些数据进行量化回测和因子研究,实现了海量数据的复杂分析。
该平台提供了丰富的数据接口,通过Python API与原系统通信,支持多数据源多数据格式的迁移和导入,实现了用户业务的平滑迁移和扩展,并支持多种金融应用场景。同时,时序数据库TimeLyre作为分布式时序数据库,大大提升了系统的运算能力,并提供了亿级数据的高速运算,相同场景下达到Pandas单机性能的百倍以上。此外,该平台特别支持了客户应用过程中使用的上千列因子数据表,并提供了节点横向扩展能力。最终,通过运用围绕TimeLyre的系列产品实现了对金融行业大规模时序数据入库、存储、复杂分析的全面支持,满足了该券商客户多元化的业务需求,也提高了整体的效率和收益水平。
助力电力行业搭建数据底座,实现海量数据实时接入与应用
基于以上行业痛点和需求,星环科技凭借自身在大数据、人工智能等领域多年来积累的技术优势和实践经验,能够为水电行业打造基于国产基础软件的新一代数据底座,实现海量数据实时接入及应用。
发电行业数据底座整体解决方案
在方案中,所有时序数据通过实时接口统一接入星环科技分布式时序数据库Transwarp Timelyre,关系型数据接入关系型分析引擎Transwarp Inceptor关系库,非结构化数据接入对象存储平台。然后对时序数据、关系数据进行主题建模和维度建模,将建模结果直接写星环科技分布式分析型数据库入ArgoDB中,形成DWD和DWS层。并在ArogDB中,面向应用分析,构建数据指标宽表、应用主题数据等数据集市层。
这里有几个很关键的联合分析技术,一个是“序关分析”,举个例子,我们在做故障预警算法开发的过程中,需要提取故障特征,通过历史设备台账数据(一般存在关系型数据库),把所有设备的故障开始时间、故障结束时间,故障类型等拿出来,关联时序数据库找到设备故障时刻的测点值,这些值要提取出来,作为样本进行AI模型训练。
另外一个是流上机器学习与流批一体,按照上面的例子,训练完模型后,需要部署在实时计算引擎上,与离线库中的档案数据表等,构建实时故障预警模型,对同步到Ⅲ区的实时数据进行分析预警,一旦设备故障,能马上识别出来。
整体技术架构优势:
① 分布式时序数据库TimeLyre支持实时、批量等多种数据写入方式。实时写入具备多并发、每秒千万级数据点插入的性能,可以保证数据检索的实效性,满足水电实时数仓的海量实时同步性能要求。
②相较于Hadoop体系的Hive等分析库,TimeLyre采用列式存储,内置多种索引结构,时序数据的检索将达到毫秒级的低延迟响应。在基于时间范围的检索与统计分析场景中,有着很快的巨大优势。相较于传统时序库、Hbase等,Timelyre使用分布式向量化计算引擎,可使用标准SQL进行海量时序数据的计算与分析,可以支撑起海量工业时序数据的聚合、关联分析,可以和分布式分析型数据库ArgoDB跨库关联,满足多种业务场景的查询与分析。彻底解决传统时序库+大数据平台的“双数据湖”存储时序数据的困境。
③TimeLyre拥有超高的数据压缩率。无损数据压缩支持多种数据类型、多种编码方式、多种压缩算法,数据压缩率可以达到10-50倍;同时星环科技可以提供有损数据压缩的解决方案,数据将在一定精度内存储,进一步提升了压缩率。超高的数据压缩率将有效解决海量存储空间的需求。
④统一服务层:提供各类数据查询、分析的统一SQL接口,为前端BI、实时大屏、填报系统、设备预警系统等提供数据服务。