友情链接:
在实际业务中,小文件现象出现频率并不低,当小文件过多时,将会导致内存占用高、集群不稳定,增加计算资源的开支等一系列问题,因此解决小文件问题迫在眉睫!!
由于篇幅限制,欲了解小文件出现背景,原因分析,为什么要治理小文件,小文件过多的危害等方面的内容,可参考:【小文件详解】不同阶段下的小文件治理最佳解决手段
在前面介绍小文件治理相关的文章中有提到,小文件治理无外乎三个阶段,存储端、计算端以及SQL端。存储端针对不同的表格式星环均有对应的Compact机制。
除此之外,星环TDH以及分布式分析型数据库ArgoDB在最新版本中引入了归档分区的功能,用户可以跨分区进行合并,将大量小文件合并成较大的文件,从而减少存储开销、元数据管理的开销以及处理时的任务调度开销。
归档分区表的本质为范围分区表,所以创建语句与创建范围分区表一致,只需额外设置表参数"archive_partition"="true" 来区分为归档分区表。支持直接创建归档分区表和修改普通范围分区表为归档分区两种方式。
命令:ALTER TABLE TBL_NAME MERGE FROM PARTITION (values_start) TO PARTITION (values_end) INTO PARTITION <partition_name>;
① 已经合并的分区不支持原有的修改操作;
② 目前仅支持单值分区的合并成归档分区,,暂时不支持归档分区的再次合并;