日前,为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,TDH推出社区版(Transwarp Data Hub Community Edition)版本来帮助初次接触使用TDH的用户更便捷、快速的进行大数据分析。社区版主要包括了星环最热门组件之一Inceptor以及Hadoop3.0的精选组件,为了满足更多用户的需求, 此次新增了星环科技自主研发的实时NoSQL宽表数据库Transwarp Hyperbase。
接下来我们来简单了解一下NoSQL宽表数据库Transwarp Hyperbase。
Transwarp Hyperbase是一个具有高可靠,高性能,可伸缩,实时读写,并且面向列的一个分布式NewSQL数据库,其即具有NoSQL数据库的海量数据存储管理能力,同时又继承了关系型数据库的SQL特性,可以高效的支持企业的批处理应用、全局搜索或高并发图形数据库检索应用等等。结合Inceptor高速SQL引擎,是企业创建可扩展在线运营数据库(Operational Database)或者实时分析型数据库(ODS - Operational Data Store)的最佳选择。
Hyperbase具有近似最优的写性能和出色的读性能,支持TB级数据快速导入,可以高效的实现数据入库并从百亿历史数据中找到精确结果,在毫秒级内低延时的返回查询结果,实现快速的精确点查。在local模式下仅需几十到几百毫秒的响应时间。通过使用Hyperbase, 用户可以在普通廉价服务器集群上高效支持企业的高并发精确查询与范围查询、全局索引以及高并发非结构化数据检索。同时,Hyperbase还支持以标准SQL为接口的高效数据访问,可以帮助用户快速开发历史数据查询、业务在线检索等应用。
为什么选择Hyperbase
关系数据库已经流行很多年,尽管Hadoop可以很好地解决大规模数据的离线批量处理问题,但是,受限于Hadoop MapReduce编程框架的高延迟数据处理机制,使得Hadoop无法满足大规模数据实时处理应用的需求。并且,传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题(分库分表也不能很好解决),很难实现横向扩展,纵向扩展的空间也比较有限。Hyperbase能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩,提升集群的运行速度以及处理能力,轻松应对百万级高并发的查询业务。
不同于传统的关系型数据库,Hyperbase采用列式存储模式,每个列族都由几个文件保存,不同列族的文件是分离的,对Schema的限制很少,用户可以动态增加存储列,因此对存储半结构化数据非常有利。通过采用HDFS作为文件存储系统,进一步实现了对海量、多种类数据的存储与管理。目前,Hyperbase已经成功应用于互联网服务领域和传统行业的众多在线式数据分析处理系统中。
Hyperbase在日常监测管理系统场景中的应用实践
F-ROMS(Routine Operational Measure)飞行品质日常监测管理系统是通过完全采集日常运行航段QAR数据,对所有航段数据进行无筛选的统计并利用现代数学、统计学算法进行数据挖掘分析,发现日常运行中隐藏的不理想因素并将结论用于向航空公司飞行品质管理、飞行员个人飞行品质管理提供改进建议,引导飞行品质持续向好的飞行数据分析方法。
该项目需要对QAR数据进行统计分析,根据测试,山航每天产生QAR数据约100G左右,随着机队规模不断增长,数据量也在不断增加。使用原有MongoDB数据库扩展不方便,且占用存储空间较大。
原有解决方案
MongoDB存储数据较多时会卡顿,每存储40GB数据需要进行一次配置,操作复杂,技术要求较高。
基于Hyperbase的解决方案:
根据客户需求,采用通过Hbase API 将译码平台产生数据导入到TDH大数据平台的Hyperbase进行存储实现客户每个个航班数据2s内入库的需求。并通过建立全局索引达到客户简单查询秒级返回,复杂查询5s内返回的需求。
实施效果:
数据平台项目目前已在生产环境运行,为 F-ROMS飞行品质日常监测管理系统和准备网系统提供译码数据方面的支持。
星环科技分布式NoSql数据库Hyperbase大大简化了非结构化数据处理。分布式架构具备了在线可扩展性能力,且性能随节点数呈线性增长。扩大了数据规模、提升了收集运用数据的能力、增强了数据管控力度,为F-ROMS飞行品质日常监测管理系统及其他数据分析系统提供了全面的数据支撑。
此外,Hyperbase支持全局索引和次级索引,可以实现高速的非主键查询。当前该系统中简单查询实现秒级返回,复杂查询5s内返回,满足客户日常数据秒级查询与分析的需求,改善了原MongoDB在大体量数据查询时卡死的问题。
相较于MongoDB,使用星环大数据平台后,数据占用存储比预估节约2/3。面对海量数据存储,在获得更高性能的同时大幅度节约了硬件成本,增加了企业效能。
电信、银行领域历史订单支付交易记录,卖家操作日志和用户转发、评论及点赞等行为记录。
支持的功能
社区版此次针对不同模式提供不同的功能,其中订阅模式将提供全功能的Hyperbase以及更高级别的技术支持。具体支持的功能如下:
总结
日前,为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,TDH推出社区版(Transwarp Data Hub Community Edition)版本来帮助初次接触使用TDH的用户更便捷、快速的进行大数据分析。社区版主要包括了星环最热门组件之一Inceptor以及Hadoop3.0的精选组件,为了满足更多用户的需求, 此次新增了星环科技自主研发的实时NoSQL宽表数据库Transwarp Hyperbase。
接下来我们来简单了解一下NoSQL宽表数据库Transwarp Hyperbase。
Transwarp Hyperbase是一个具有高可靠,高性能,可伸缩,实时读写,并且面向列的一个分布式NewSQL数据库,其即具有NoSQL数据库的海量数据存储管理能力,同时又继承了关系型数据库的SQL特性,可以高效的支持企业的批处理应用、全局搜索或高并发图形数据库检索应用等等。结合Inceptor高速SQL引擎,是企业创建可扩展在线运营数据库(Operational Database)或者实时分析型数据库(ODS - Operational Data Store)的最佳选择。
Hyperbase具有近似最优的写性能和出色的读性能,支持TB级数据快速导入,可以高效的实现数据入库并从百亿历史数据中找到精确结果,在毫秒级内低延时的返回查询结果,实现快速的精确点查。在local模式下仅需几十到几百毫秒的响应时间。通过使用Hyperbase, 用户可以在普通廉价服务器集群上高效支持企业的高并发精确查询与范围查询、全局索引以及高并发非结构化数据检索。同时,Hyperbase还支持以标准SQL为接口的高效数据访问,可以帮助用户快速开发历史数据查询、业务在线检索等应用。
为什么选择Hyperbase
关系数据库已经流行很多年,尽管Hadoop可以很好地解决大规模数据的离线批量处理问题,但是,受限于Hadoop MapReduce编程框架的高延迟数据处理机制,使得Hadoop无法满足大规模数据实时处理应用的需求。并且,传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题(分库分表也不能很好解决),很难实现横向扩展,纵向扩展的空间也比较有限。Hyperbase能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩,提升集群的运行速度以及处理能力,轻松应对百万级高并发的查询业务。
不同于传统的关系型数据库,Hyperbase采用列式存储模式,每个列族都由几个文件保存,不同列族的文件是分离的,对Schema的限制很少,用户可以动态增加存储列,因此对存储半结构化数据非常有利。通过采用HDFS作为文件存储系统,进一步实现了对海量、多种类数据的存储与管理。目前,Hyperbase已经成功应用于互联网服务领域和传统行业的众多在线式数据分析处理系统中。
Hyperbase在日常监测管理系统场景中的应用实践
F-ROMS(Routine Operational Measure)飞行品质日常监测管理系统是通过完全采集日常运行航段QAR数据,对所有航段数据进行无筛选的统计并利用现代数学、统计学算法进行数据挖掘分析,发现日常运行中隐藏的不理想因素并将结论用于向航空公司飞行品质管理、飞行员个人飞行品质管理提供改进建议,引导飞行品质持续向好的飞行数据分析方法。
该项目需要对QAR数据进行统计分析,根据测试,山航每天产生QAR数据约100G左右,随着机队规模不断增长,数据量也在不断增加。使用原有MongoDB数据库扩展不方便,且占用存储空间较大。
原有解决方案
MongoDB存储数据较多时会卡顿,每存储40GB数据需要进行一次配置,操作复杂,技术要求较高。
基于Hyperbase的解决方案:
根据客户需求,采用通过Hbase API 将译码平台产生数据导入到TDH大数据平台的Hyperbase进行存储实现客户每个个航班数据2s内入库的需求。并通过建立全局索引达到客户简单查询秒级返回,复杂查询5s内返回的需求。
实施效果:
数据平台项目目前已在生产环境运行,为 F-ROMS飞行品质日常监测管理系统和准备网系统提供译码数据方面的支持。
星环科技分布式NoSql数据库Hyperbase大大简化了非结构化数据处理。分布式架构具备了在线可扩展性能力,且性能随节点数呈线性增长。扩大了数据规模、提升了收集运用数据的能力、增强了数据管控力度,为F-ROMS飞行品质日常监测管理系统及其他数据分析系统提供了全面的数据支撑。
此外,Hyperbase支持全局索引和次级索引,可以实现高速的非主键查询。当前该系统中简单查询实现秒级返回,复杂查询5s内返回,满足客户日常数据秒级查询与分析的需求,改善了原MongoDB在大体量数据查询时卡死的问题。
相较于MongoDB,使用星环大数据平台后,数据占用存储比预估节约2/3。面对海量数据存储,在获得更高性能的同时大幅度节约了硬件成本,增加了企业效能。
电信、银行领域历史订单支付交易记录,卖家操作日志和用户转发、评论及点赞等行为记录。
支持的功能
社区版此次针对不同模式提供不同的功能,其中订阅模式将提供全功能的Hyperbase以及更高级别的技术支持。具体支持的功能如下:
总结