友情链接:
在表的分类中,Inceptor针对不同的业务场景提供了不同的表类型,在建表的时候结尾stored as 处可以直接指定表类型,如果不进行指定则默认为text表,那这些表分别是用在什么场景下呢?
比如默认的text表,性能较差,一般作为外表使用。外表一般用于中转,数据在进行导入导出ETL流转的时候很难保证数据的准确性,常常可能会因为编码或浮点数精度问题,导致数据不一致,最终影响业务准确性,因此数据一般会先存在HDFS中。这个时候不着急存进Inceptor,用户可以先看看有没有编码问题或者字段的数量是否一致等等,所以需要先建立外表,与数据建立一个软连接,这样在inceptor数据库中就可以对这张表进行查询,可以快速查看结果看看刚才的数据有没有问题,确定没问题了就可以把外表的数据导入到inceptor里变成一张内表,然后就可以进行一系列的数据运算计算分析,内表里除了刚刚的数据以外,元数据也会存在里面。
除了text表以外,比较常用的是orc表,orc表在全量运算、跑批分析下的场景性能很好,有3-7倍的压缩率,压缩后再做运算就会快很多。
如果说使用者需要进行单条数据的插入、删除、以及更新等事务操作,则需要用到orc事务表,也就是TORC,使用时输入指令设置事务模式为true即可,但是加入事务后跑批性能会下降。
Holodesk表是一张内存闪存表,使用这张表的话底层数据存储最好是使用ssd,holodesk表分析以及查询会快非常多,因为使用的是闪存介质,会比普通的机械硬盘快很多。
TDH的底层数据是互通的,因此同样也支持对接其他产品的特性表,比如Hyperbase表,Hyperbase表的数据存在hyperbase里,hyperbase主要是Nosql数据库,可以存非结构化数据,半结构化数据,最大的特性在于数据存进来后进行高并发数据点查询,可以满足十个人一百个人同时进行查询操作。
Es表则存放于search中,用户可以进行复杂检索,模糊匹配,语义匹配等等。
通过ETL导过来的数据一般有2种格式,文本或者csv格式,因此CSV表跟text表一样同样是做中转的时候用,将数据导入后就可以使用上述那些表了。
总的来说就是,如果需要进行跑批计算,则使用ORC表,如果需要涉及事务操作或单条语句的更新删除等等,则需要使用TORC表,如果需要满足快速分析与查询用Holodesk,高并发查询则是Hyperbase表,如果需要进行搜索检索ES表即可,使用者可以根据不同场景选择不同表。
友情链接:
在表的分类中,Inceptor针对不同的业务场景提供了不同的表类型,在建表的时候结尾stored as 处可以直接指定表类型,如果不进行指定则默认为text表,那这些表分别是用在什么场景下呢?
比如默认的text表,性能较差,一般作为外表使用。外表一般用于中转,数据在进行导入导出ETL流转的时候很难保证数据的准确性,常常可能会因为编码或浮点数精度问题,导致数据不一致,最终影响业务准确性,因此数据一般会先存在HDFS中。这个时候不着急存进Inceptor,用户可以先看看有没有编码问题或者字段的数量是否一致等等,所以需要先建立外表,与数据建立一个软连接,这样在inceptor数据库中就可以对这张表进行查询,可以快速查看结果看看刚才的数据有没有问题,确定没问题了就可以把外表的数据导入到inceptor里变成一张内表,然后就可以进行一系列的数据运算计算分析,内表里除了刚刚的数据以外,元数据也会存在里面。
除了text表以外,比较常用的是orc表,orc表在全量运算、跑批分析下的场景性能很好,有3-7倍的压缩率,压缩后再做运算就会快很多。
如果说使用者需要进行单条数据的插入、删除、以及更新等事务操作,则需要用到orc事务表,也就是TORC,使用时输入指令设置事务模式为true即可,但是加入事务后跑批性能会下降。
Holodesk表是一张内存闪存表,使用这张表的话底层数据存储最好是使用ssd,holodesk表分析以及查询会快非常多,因为使用的是闪存介质,会比普通的机械硬盘快很多。
TDH的底层数据是互通的,因此同样也支持对接其他产品的特性表,比如Hyperbase表,Hyperbase表的数据存在hyperbase里,hyperbase主要是Nosql数据库,可以存非结构化数据,半结构化数据,最大的特性在于数据存进来后进行高并发数据点查询,可以满足十个人一百个人同时进行查询操作。
Es表则存放于search中,用户可以进行复杂检索,模糊匹配,语义匹配等等。
通过ETL导过来的数据一般有2种格式,文本或者csv格式,因此CSV表跟text表一样同样是做中转的时候用,将数据导入后就可以使用上述那些表了。
总的来说就是,如果需要进行跑批计算,则使用ORC表,如果需要涉及事务操作或单条语句的更新删除等等,则需要使用TORC表,如果需要满足快速分析与查询用Holodesk,高并发查询则是Hyperbase表,如果需要进行搜索检索ES表即可,使用者可以根据不同场景选择不同表。