在线支持
在线支持
微信支持
微信支持
Hyperbase介绍以及在日常监测管理系统场景中的应用实践
2022-09-23 14:56:26
225次阅读
3个评论
最后修改时间:2022-09-26 11:05:48


日前,为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,TDH推出社区版(Transwarp Data Hub Community Edition)版本来帮助初次接触使用TDH的用户更便捷、快速的进行大数据分析。社区版主要包括了星环最热门组件之一Inceptor以及Hadoop3.0的精选组件,为了满足更多用户的需求, 此次新增了星环科技自主研发的实时NoSQL宽表数据库Transwarp Hyperbase。
接下来我们来简单了解一下NoSQL宽表数据库Transwarp Hyperbase。


Hyperbase是什么

Transwarp Hyperbase是一个具有高可靠,高性能,可伸缩,实时读写,并且面向列的一个分布式NewSQL数据库,其即具有NoSQL数据库的海量数据存储管理能力,同时又继承了关系型数据库的SQL特性,可以高效的支持企业的批处理应用、全局搜索或高并发图形数据库检索应用等等。结合Inceptor高速SQL引擎,是企业创建可扩展在线运营数据库(Operational Database)或者实时分析型数据库(ODS - Operational Data Store)的最佳选择。

Hyperbase具有近似最优的写性能和出色的读性能,支持TB级数据快速导入,可以高效的实现数据入库并从百亿历史数据中找到精确结果,在毫秒级内低延时的返回查询结果,实现快速的精确点查。在local模式下仅需几十到几百毫秒的响应时间。通过使用Hyperbase, 用户可以在普通廉价服务器集群上高效支持企业的高并发精确查询与范围查询、全局索引以及高并发非结构化数据检索。同时,Hyperbase还支持以标准SQL为接口的高效数据访问,可以帮助用户快速开发历史数据查询、业务在线检索等应用。


为什么选择Hyperbase

关系数据库已经流行很多年,尽管Hadoop可以很好地解决大规模数据的离线批量处理问题,但是,受限于Hadoop MapReduce编程框架的高延迟数据处理机制,使得Hadoop无法满足大规模数据实时处理应用的需求。并且,传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题(分库分表也不能很好解决),很难实现横向扩展,纵向扩展的空间也比较有限。Hyperbase能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩,提升集群的运行速度以及处理能力,轻松应对百万级高并发的查询业务。


不同于传统的关系型数据库,Hyperbase采用列式存储模式,每个列族都由几个文件保存,不同列族的文件是分离的,对Schema的限制很少,用户可以动态增加存储列,因此对存储半结构化数据非常有利。通过采用HDFS作为文件存储系统,进一步实现了对海量、多种类数据的存储与管理。目前,Hyperbase已经成功应用于互联网服务领域和传统行业的众多在线式数据分析处理系统中。


Hyperbase在日常监测管理系统场景中的应用实践
业务场景概述:

F-ROMS(Routine Operational Measure)飞行品质日常监测管理系统是通过完全采集日常运行航段QAR数据,对所有航段数据进行无筛选的统计并利用现代数学、统计学算法进行数据挖掘分析,发现日常运行中隐藏的不理想因素并将结论用于向航空公司飞行品质管理、飞行员个人飞行品质管理提供改进建议,引导飞行品质持续向好的飞行数据分析方法。

该项目需要对QAR数据进行统计分析,根据测试,山航每天产生QAR数据约100G左右,随着机队规模不断增长,数据量也在不断增加。使用原有MongoDB数据库扩展不方便,且占用存储空间较大。


原有解决方案

MongoDB存储数据较多时会卡顿,每存储40GB数据需要进行一次配置,操作复杂,技术要求较高。


基于Hyperbase的解决方案

根据客户需求,采用通过Hbase API 将译码平台产生数据导入到TDH大数据平台的Hyperbase进行存储实现客户每个个航班数据2s内入库的需求。并通过建立全局索引达到客户简单查询秒级返回,复杂查询5s内返回的需求。


实施效果:

数据平台项目目前已在生产环境运行,为 F-ROMS飞行品质日常监测管理系统和准备网系统提供译码数据方面的支持。

  • 具备了海量数据存储能力

星环科技分布式NoSql数据库Hyperbase大大简化了非结构化数据处理。分布式架构具备了在线可扩展性能力,且性能随节点数呈线性增长。扩大了数据规模、提升了收集运用数据的能力、增强了数据管控力度,为F-ROMS飞行品质日常监测管理系统及其他数据分析系统提供了全面的数据支撑。


  • 数据快速入库和秒级查询
Hyperbase支持超高并发CRUD,可以实现高速的数据入库。目前客户每个航班的数据均可在2s内导入到数据平台中。

此外,Hyperbase支持全局索引和次级索引,可以实现高速的非主键查询。当前该系统中简单查询实现秒级返回,复杂查询5s内返回,满足客户日常数据秒级查询与分析的需求,改善了原MongoDB在大体量数据查询时卡死的问题。


  • 节约了硬件成本

相较于MongoDB,使用星环大数据平台后,数据占用存储比预估节约2/3。面对海量数据存储,在获得更高性能的同时大幅度节约了硬件成本,增加了企业效能。



其他综合搜索场景方案
通过搭配其他星环组件还可以实现以下开发场景:
  • 历史信息记录查询场景

电信、银行领域历史订单支付交易记录,卖家操作日志和用户转发、评论及点赞等行为记录。

  • 列式稀疏矩阵业务
智能推荐、商务智能或营销引擎等领域的用户画像,标签数据。
  • 海量用户社交信息流数据
微博、朋友圈增量捕获用户交互数据feed信息流。
  • 对象存储场景
车辆违章监控拍照、人脸信息采集保存、健康码等。

image.png


支持的功能 


社区版此次针对不同模式提供不同的功能,其中订阅模式将提供全功能的Hyperbase以及更高级别的技术支持。具体支持的功能如下:


image.png



总结

以上就是此次社区版新增组件的整体介绍。依托星环科技深厚的技术底蕴,TDH社区版旨在降低大数据技术的使用门槛以及使用成本,为用户提供更轻量、更便捷的数据分析开发环境,方便更多企业、科研机构、高校等用户快速享受到大数据技术所带来的技术红利。


欢迎下载使用社区版,下载地址:https://www.transwarp.cn/product/tdh-community-edition




收藏 0 0
    2022-09-27 17:27:17

    应用场景

    对象存储:我们知道不少的头条类、新闻类的的新闻、网页、图片存储在Hyperbase之中,半结构化非结构化的小文件视频云、图片云、音频云都可以二进制的形式存储于Hyperbase中

    推荐画像:特别是用户的画像,是一个比较大的稀疏矩阵。

    消息/订单:在电信领、银行领域、基金证券领域,不少的订单成交查询底层的存储,另外不少通信、消息同步的应用构建在Hyperbase之上

    实时流数据库:作为实时流处理数据库,典型的应用就是xx朋友圈的实时更新、实时数据关联历史黑名单预警等应用

    NewSQL:Hyperbase对sql支持度更加友好,引入了多种索引以及分布式事务处理。

    全文搜索:Hyperbase底层存储融合了elasticsearch,在模糊查询全文搜索场景上更加灵活

    混合运行模式:针对olap不同的运行场景,优化了任务的运行模式;cluster mode(集群模式)会进行任务分发到inceptor的executor进行计算、分析、统计等业务,local mode(单节点模式)配合inceptor server运行任务,inceptor不负责任务的计算,只负责数据的读取,主要用于高并发实时业务场景;

    Sql bulkload:通过sql的形式对海量数据高速入库hyperbase,避免hyperbase region 频繁compact与split,直接生成底层hfile文件的形式存储于hdfs上。

    2022-09-27 17:25:39
    Hyperbase优势

    查询能力

    Hyperbase基于开源hbase+hive的体系结构,融合了全局索引(Global Index)、全文索引(Fulltext Index)等多种索引技术、分布式事务处理、全文实时搜索功能,其支持全局、局部、高维索引和高级过滤器,可以自动利用索引加速数据检索,无需显式的指定索引,可以高效的进行查询,依托于灵活的扩展能力,Hyperbase可以满足上百万用户的高并发查询需求


    SQL支持

    Hyperbase加入了自己的序列化反序列化编码格式,集成在星环的一站式大数据平台TDH上,SQL的支持度更加友好支持SQL查询并且用户可以以SQL方式进行数据批量入库,更加高效便捷。


    丰富的数据类型支持

    Hyperbase提供对于非结构化数据的存储和检索能力,支持BOOLEAN、TINYINT、SMALLINT、INTEGER、BIGINT、DATE、TIMESTAMP、DECIMAL、FLOAT、DOUBLE、STRING、VARCHAR、STRUCT、BINARY等多种数据类型。


    稳定性

    Hyperbase采用LOB形式存储小文件特殊技术更好地控制IO次数避免了Hyperbase Region频繁Compaction与Split从而导致的I/O过高引起集群不稳定的问题,因此也能很好的适用于大量小文件视频云、图片云、音频云,共享文件存储的场景。并且由于设计上更为简单,相比起HBse采用的MOB形式,LOB形式更易于维护和保证数据一致性

    admin 官方人员
    2022-09-26 20:22:41

    社区版安装注意事项:



    更多案例查看:https://www.transwarp.cn/search?k=Hyperbase&page=2&scene=all

共3条 1

登录 后评论。没有帐号? 注册 一个。

LilJ

  • 0 回答
  • 0 粉丝
  • 0 关注