Quark 基础参数大全系列四 | 存储篇

2025-04-11 15:07:00 2025-04-11 15:42:08 441

摘要：本篇文章主要为读者列出当前Inceptor及ArgoDB产品核心服务Quark的一些基础参数，希望可以帮助读者有针对性的调优，如果有没有提及需要进一步了解的参数，欢迎多多留言点赞，我们会持续更新此列表

友情链接

textinputformat.record.delimiter

参数说明：

设置每一行的定界符。

默认值： 空

取值范围： 自定义 STRING 型。

orc.merge.mode

参数说明：

选择 ORC 版本合并算法。
true：表示选用 OrcRawRecordMerger 采取的算法；
false：依靠 Hive 提供的算法。

默认值： false

取值范围： true、false

hive.exec.orc.default.stripe.size

参数说明：

ORC 内部参数，指定 ORC 文件的默认 stripe 大小。

默认值： 268435456（即 256M）

取值范围： 自定义 LONG 型，单位为 byte。

注意事项： 尽量不要修改本参数。

hive.exec.orc.dictionary.key.size.threshold

参数说明：

String 编码可以采用字典编码或直接编码，此参数用于决定是否采用字典编码。
ArgoDB 会采样部分数据并计算字典的大小，如果字典的尺寸比原有 String 大小乘以该参数小，则启用字典编码，否则启用字符串直接编码。等于 1 时表示始终采用字典编码。

默认值： 0.8

取值范围： 自定义 FLOAT 型。

orc.crud.optimized

参数说明：

是否对 ORC 的 CRUD 操作采用优化执行，为 true 的模式下写磁盘数据量少，更新吞吐率更高。

默认值： true

取值范围： true、false

注意事项： 请将该参数与 orc.crud.optimized.reader 结合使用，二者同时为 true 或者同时为 false。

orc.crud.optimized.reader

参数说明：

读取 ORC 事务表时是否用优化方法读取 ORC 文件。

默认值： true

取值范围： true、false

注意事项： 该参数必须和 orc.crud.optimized 配合使用，二者同时为 true 或者同时为 false。

orc.bloom.filter.fpp

参数说明：

为 ORC 创建 BloomFilter 时，指定 BloomFilter 可接受的最大误判率。

默认值： 0.05

取值范围： 自定义 FLOAT 型。

orc.bloom.filter.columns

参数说明：

创建 BloomFilter 的字段。

默认值： 空

取值范围： 自定义 STRING 型。

orc.bloom.filter.dist.scale

参数说明：

定义 BloomFilter 的 Distinct Scale，即集合中 Distinct Value 的数量占总数目的比重。

默认值： 1.0

取值范围： 自定义 FLOAT 型

ngmr.windrunner.enabled

参数说明：

是否开启计算引擎性能优化插件 WindRunner。

默认值： true

取值范围： true、false

orc.columnreader

参数说明：

开启 ORC 列式优化读取。

默认值： false

取值范围： true、false

注意事项： 本参数只有在 WindRunner 开启，即 ngmr.windrunner.enabled=true 的前提下，才会生效。

hive.compactor.clean.ctc

参数说明：

是否允许 Metastore 自动清理 COMPLETED_TXN_COMPONENTS（CTC）表（该表用于记录已完成的 ORC 事务相关信息）中冗余的数据。

默认值： true

取值范围： true、false

hive.compactor.max.num.delta

参数说明：

ORC 事务表的 delta 文件数量超过该参数值时，采取分批 Compact 的策略。

默认值： 50000

取值范围： 自定义 INT 型。

hive.compactor.ctc.threshold

参数说明：

当 COMPLETED_TXN_COMPONENTS 表（该表用于记录已完成的 ORC 事务相关信息）中关于某一用户表的记录数超过此配置值时，自动触发 compact。

默认值： 200

取值范围： 自定义 INT 型。

holodesk.predicate.pushdown

参数说明：

处理 Holodesk 时是否默认进行谓词下推。

默认值： true

取值范围： true、false

holodesk.mapjoin.opts

参数说明：

处理 Holodesk 的 MapJoin 时是否用优化的方式执行。

默认值： true

取值范围： true、false

holodesk.segment.compression.codec

参数说明：

建表以前可以通过设置这个参数控制 Holodesk 采用何种方式对数据进行压缩。
支持的压缩方式有 Zlib，Snappy，LZF，lz4-high，lz4-fast。
压缩效果：Zlib > Snappy > lz4-fast
读取效率：lz4-fast > Snappy > Zlib
推荐采用 lz4-fast 或者 Snappy。

默认值： 5

取值范围： 可选取值及代表的含义：

0：不进行数据压缩，一般不推荐。
1：采用 LZF 压缩
2：采用 Snappy 压缩
3：采用 Zlib 压缩
4：采用 lz4-high 压缩
5：采用 lz4-fast 压缩

holodesk.replicate.enabled

参数说明：

Holodesk 的多副本开关，默认关闭。
目前 Holodesk 默认在 SSD 或者内存以单副本存储，如果需要建立多副本，可以在建表以前将该参数设置为 true。
副本数默认为 2，可以通过配置参数 holodesk.replicate.num 进行修改。

默认值： false

取值范围： true、false

holodesk.replicate.num

参数说明：

Holodesk 建立多副本时，用于设定副本数量。

默认值： 2

取值范围： 自定义 INT 型

ngmr.localdir

参数说明：

Shuffle 数据的本地存放位置。如果占用过大，用户可进入对应路径进行手动清理。

默认值：

取值范围： [自定义目录]

注意事项： 本参数目前只能通过 Manager 平台的服务配置界面进行配置。

inceptor.decimal.textfile.padding.zero

参数说明：

用于控制对 TEXT 表的 DECIMAL 列插入数据，或对 TEXT 表的 STRING 列插入 DECIMAL 类型的源数据时，是否在末尾以 0 补齐精度。
默认为 false，即不补齐精度。

默认值： false

取值范围： true、false

hive.update.subquery.left.join.enabled

参数说明：

用于控制含子查询的 UPDATE 语句计算逻辑是否与 Oracle 一致。

默认值： false

取值范围： true、false

datanucleus.schema.autoCreateSchema

参数说明：

如果不存在，则在启动时创建必要的 schema。

取值范围： true、false

datanucleus.schema.autoCreateTables

参数说明：

如果不存在，则在启动时创建必要的表。

取值范围： true、false

hive.metastore.schema.verification

参数说明：

是否强制 metastore 模式版本一致。

默认值： false

取值范围： true、false

datanucleus.autoStartMechanismMode

参数说明：

如果数据元信息检查失败，抛出异常。

默认值： checked

取值范围： checked、unchecked、ignored

datanucleus.autoCreateSchema

参数说明：

如果数据元数据不存在，那么直接创建，如果设置为 false，那么在之后创建。

默认值： true

取值范围： true、false

datanucleus.cache.level2

参数说明：

是否使用二级缓存机制。
默认为 false，表示使用二级缓存机制。
如果元数据的更改独立于 Quark Metastore 服务器，请关闭此开关

默认值： false

取值范围： true、false

datanucleus.cache.level2.type

参数说明：

设置二级缓存机制的类型。

默认值： none

取值范围：

none：不使用二级缓存机制。
SOFT：表示使用软引用。
WEAK：表示使用弱引用。

datanucleus.connectionPoolingType

参数说明：

为 datanucleus 指定连接池库。

默认值： HikariCP

取值范围： bonecp、hikaricp、none

datanucleus.fixedDatastore

默认值： false

取值范围： true、false

datanucleus.identifierFactory

参数说明：

创建 metastore 数据库的工厂类。

默认值： datanucleus1

取值范围： 自定义 STRING 型。

datanucleus.plugin.pluginRegistryBundleCheck

参数说明：

定义当找到并复制插件包时的行为。

默认值： LOG

取值范围： EXCEPTION、LOG、NONE

datanucleus.rdbms.useLegacyNativeValueStrategy

默认值： true

取值范围： true、false

datanucleus.storeManagerType

参数说明：

元数据存储方式

默认值： rdbms

datanucleus.transactionIsolation

参数说明：

事务机制，标识生成的默认事务隔离级别。

默认值： read-committed

datanucleus.validateColumns

参数说明：

根据代码验证现有模式。如果需要验证现有架构，请打开此选项，对于存在的表是否进行检查 schema。

默认值： false

取值范围： true、false

datanucleus.validateConstraints

参数说明：

对于存在的表是否检查约束。

默认值： false

取值范围： true、false

datanucleus.validateTables

参数说明：

检查表

默认值： false

取值范围： true、false

友情链接

textinputformat.record.delimiter

参数说明：

设置每一行的定界符。

默认值： 空

取值范围： 自定义 STRING 型。

orc.merge.mode

参数说明：

选择 ORC 版本合并算法。
true：表示选用 OrcRawRecordMerger 采取的算法；
false：依靠 Hive 提供的算法。

默认值： false

取值范围： true、false

hive.exec.orc.default.stripe.size

参数说明：

ORC 内部参数，指定 ORC 文件的默认 stripe 大小。

默认值： 268435456（即 256M）

取值范围： 自定义 LONG 型，单位为 byte。

注意事项： 尽量不要修改本参数。

hive.exec.orc.dictionary.key.size.threshold

参数说明：

String 编码可以采用字典编码或直接编码，此参数用于决定是否采用字典编码。
ArgoDB 会采样部分数据并计算字典的大小，如果字典的尺寸比原有 String 大小乘以该参数小，则启用字典编码，否则启用字符串直接编码。等于 1 时表示始终采用字典编码。

默认值： 0.8

取值范围： 自定义 FLOAT 型。

orc.crud.optimized

参数说明：

是否对 ORC 的 CRUD 操作采用优化执行，为 true 的模式下写磁盘数据量少，更新吞吐率更高。

默认值： true

取值范围： true、false

注意事项： 请将该参数与 orc.crud.optimized.reader 结合使用，二者同时为 true 或者同时为 false。

orc.crud.optimized.reader

参数说明：

读取 ORC 事务表时是否用优化方法读取 ORC 文件。

默认值： true

取值范围： true、false

注意事项： 该参数必须和 orc.crud.optimized 配合使用，二者同时为 true 或者同时为 false。

orc.bloom.filter.fpp

参数说明：

为 ORC 创建 BloomFilter 时，指定 BloomFilter 可接受的最大误判率。

默认值： 0.05

取值范围： 自定义 FLOAT 型。

orc.bloom.filter.columns

参数说明：

创建 BloomFilter 的字段。

默认值： 空

取值范围： 自定义 STRING 型。

orc.bloom.filter.dist.scale

参数说明：

定义 BloomFilter 的 Distinct Scale，即集合中 Distinct Value 的数量占总数目的比重。

默认值： 1.0

取值范围： 自定义 FLOAT 型

ngmr.windrunner.enabled

参数说明：

是否开启计算引擎性能优化插件 WindRunner。

默认值： true

取值范围： true、false

orc.columnreader

参数说明：

开启 ORC 列式优化读取。

默认值： false

取值范围： true、false

注意事项： 本参数只有在 WindRunner 开启，即 ngmr.windrunner.enabled=true 的前提下，才会生效。

hive.compactor.clean.ctc

参数说明：

是否允许 Metastore 自动清理 COMPLETED_TXN_COMPONENTS（CTC）表（该表用于记录已完成的 ORC 事务相关信息）中冗余的数据。

默认值： true

取值范围： true、false

hive.compactor.max.num.delta

参数说明：

ORC 事务表的 delta 文件数量超过该参数值时，采取分批 Compact 的策略。

默认值： 50000

取值范围： 自定义 INT 型。

hive.compactor.ctc.threshold

参数说明：

当 COMPLETED_TXN_COMPONENTS 表（该表用于记录已完成的 ORC 事务相关信息）中关于某一用户表的记录数超过此配置值时，自动触发 compact。

默认值： 200

取值范围： 自定义 INT 型。

holodesk.predicate.pushdown

参数说明：

处理 Holodesk 时是否默认进行谓词下推。

默认值： true

取值范围： true、false

holodesk.mapjoin.opts

参数说明：

处理 Holodesk 的 MapJoin 时是否用优化的方式执行。

默认值： true

取值范围： true、false

holodesk.segment.compression.codec

参数说明：

建表以前可以通过设置这个参数控制 Holodesk 采用何种方式对数据进行压缩。
支持的压缩方式有 Zlib，Snappy，LZF，lz4-high，lz4-fast。
压缩效果：Zlib > Snappy > lz4-fast
读取效率：lz4-fast > Snappy > Zlib
推荐采用 lz4-fast 或者 Snappy。

默认值： 5

取值范围： 可选取值及代表的含义：

0：不进行数据压缩，一般不推荐。
1：采用 LZF 压缩
2：采用 Snappy 压缩
3：采用 Zlib 压缩
4：采用 lz4-high 压缩
5：采用 lz4-fast 压缩

holodesk.replicate.enabled

参数说明：

Holodesk 的多副本开关，默认关闭。
目前 Holodesk 默认在 SSD 或者内存以单副本存储，如果需要建立多副本，可以在建表以前将该参数设置为 true。
副本数默认为 2，可以通过配置参数 holodesk.replicate.num 进行修改。

默认值： false

取值范围： true、false

holodesk.replicate.num

参数说明：

Holodesk 建立多副本时，用于设定副本数量。

默认值： 2

取值范围： 自定义 INT 型

ngmr.localdir

参数说明：

Shuffle 数据的本地存放位置。如果占用过大，用户可进入对应路径进行手动清理。

默认值：

取值范围： [自定义目录]

注意事项： 本参数目前只能通过 Manager 平台的服务配置界面进行配置。

inceptor.decimal.textfile.padding.zero

参数说明：

用于控制对 TEXT 表的 DECIMAL 列插入数据，或对 TEXT 表的 STRING 列插入 DECIMAL 类型的源数据时，是否在末尾以 0 补齐精度。
默认为 false，即不补齐精度。

默认值： false

取值范围： true、false

hive.update.subquery.left.join.enabled

参数说明：

用于控制含子查询的 UPDATE 语句计算逻辑是否与 Oracle 一致。

默认值： false

取值范围： true、false

datanucleus.schema.autoCreateSchema

参数说明：

如果不存在，则在启动时创建必要的 schema。

取值范围： true、false

datanucleus.schema.autoCreateTables

参数说明：

如果不存在，则在启动时创建必要的表。

取值范围： true、false

hive.metastore.schema.verification

参数说明：

是否强制 metastore 模式版本一致。

默认值： false

取值范围： true、false

datanucleus.autoStartMechanismMode

参数说明：

如果数据元信息检查失败，抛出异常。

默认值： checked

取值范围： checked、unchecked、ignored

datanucleus.autoCreateSchema

参数说明：

如果数据元数据不存在，那么直接创建，如果设置为 false，那么在之后创建。

默认值： true

取值范围： true、false

datanucleus.cache.level2

参数说明：

是否使用二级缓存机制。
默认为 false，表示使用二级缓存机制。
如果元数据的更改独立于 Quark Metastore 服务器，请关闭此开关

默认值： false

取值范围： true、false

datanucleus.cache.level2.type

参数说明：

设置二级缓存机制的类型。

默认值： none

取值范围：

none：不使用二级缓存机制。
SOFT：表示使用软引用。
WEAK：表示使用弱引用。

datanucleus.connectionPoolingType

参数说明：

为 datanucleus 指定连接池库。

默认值： HikariCP

取值范围： bonecp、hikaricp、none

datanucleus.fixedDatastore

默认值： false

取值范围： true、false

datanucleus.identifierFactory

参数说明：

创建 metastore 数据库的工厂类。

默认值： datanucleus1

取值范围： 自定义 STRING 型。

datanucleus.plugin.pluginRegistryBundleCheck

参数说明：

定义当找到并复制插件包时的行为。

默认值： LOG

取值范围： EXCEPTION、LOG、NONE

datanucleus.rdbms.useLegacyNativeValueStrategy

默认值： true

取值范围： true、false

datanucleus.storeManagerType

参数说明：

元数据存储方式

默认值： rdbms

datanucleus.transactionIsolation

参数说明：

事务机制，标识生成的默认事务隔离级别。

默认值： read-committed

datanucleus.validateColumns

参数说明：

根据代码验证现有模式。如果需要验证现有架构，请打开此选项，对于存在的表是否进行检查 schema。

默认值： false

取值范围： true、false

datanucleus.validateConstraints

参数说明：

对于存在的表是否检查约束。

默认值： false

取值范围： true、false

datanucleus.validateTables

参数说明：

检查表

默认值： false

取值范围： true、false

# ArgoDB# Inceptor# 开发与运维# 星环产品# 大数据及存储服务

登录后可评论

发布者

星

星小环分享号

官方

文章

194

问答

269

关注者

Quark 基础参数大全系列四 | 存储篇

textinputformat.record.delimiter

orc.merge.mode

hive.exec.orc.default.stripe.size

hive.exec.orc.dictionary.key.size.threshold

orc.crud.optimized

orc.crud.optimized.reader

orc.bloom.filter.fpp

orc.bloom.filter.columns

orc.bloom.filter.dist.scale

ngmr.windrunner.enabled

orc.columnreader

hive.compactor.clean.ctc

hive.compactor.max.num.delta

hive.compactor.ctc.threshold

holodesk.predicate.pushdown

holodesk.mapjoin.opts

holodesk.segment.compression.codec

holodesk.replicate.enabled

holodesk.replicate.num

ngmr.localdir

inceptor.decimal.textfile.padding.zero

hive.update.subquery.left.join.enabled

datanucleus.schema.autoCreateSchema

datanucleus.schema.autoCreateTables

hive.metastore.schema.verification

datanucleus.autoStartMechanismMode

datanucleus.autoCreateSchema

datanucleus.cache.level2

datanucleus.cache.level2.type

datanucleus.connectionPoolingType

datanucleus.fixedDatastore

datanucleus.identifierFactory

datanucleus.plugin.pluginRegistryBundleCheck

datanucleus.rdbms.useLegacyNativeValueStrategy

datanucleus.storeManagerType

datanucleus.transactionIsolation

datanucleus.validateColumns

datanucleus.validateConstraints

datanucleus.validateTables

textinputformat.record.delimiter

orc.merge.mode

hive.exec.orc.default.stripe.size

hive.exec.orc.dictionary.key.size.threshold

orc.crud.optimized

orc.crud.optimized.reader

orc.bloom.filter.fpp

orc.bloom.filter.columns

orc.bloom.filter.dist.scale

ngmr.windrunner.enabled

orc.columnreader

hive.compactor.clean.ctc

hive.compactor.max.num.delta

hive.compactor.ctc.threshold

holodesk.predicate.pushdown

holodesk.mapjoin.opts

holodesk.segment.compression.codec

holodesk.replicate.enabled

holodesk.replicate.num

ngmr.localdir

inceptor.decimal.textfile.padding.zero

hive.update.subquery.left.join.enabled

datanucleus.schema.autoCreateSchema

datanucleus.schema.autoCreateTables

hive.metastore.schema.verification

datanucleus.autoStartMechanismMode

datanucleus.autoCreateSchema

datanucleus.cache.level2

datanucleus.cache.level2.type

datanucleus.connectionPoolingType

datanucleus.fixedDatastore

datanucleus.identifierFactory

datanucleus.plugin.pluginRegistryBundleCheck

datanucleus.rdbms.useLegacyNativeValueStrategy

datanucleus.storeManagerType

datanucleus.transactionIsolation

datanucleus.validateColumns

datanucleus.validateConstraints

datanucleus.validateTables

热门问答