Quark 基础参数大全系列四 | 存储篇

友情链接


textinputformat.record.delimiter

参数说明:

  • 设置每一行的定界符。

默认值:

取值范围: 自定义 STRING 型。

orc.merge.mode

参数说明:

  • 选择 ORC 版本合并算法。
  • true:表示选用 OrcRawRecordMerger 采取的算法;
  • false:依靠 Hive 提供的算法。

默认值: false

取值范围: true、false

hive.exec.orc.default.stripe.size

参数说明:

  • ORC 内部参数,指定 ORC 文件的默认 stripe 大小。

默认值: 268435456(即 256M)

取值范围: 自定义 LONG 型,单位为 byte。

注意事项: 尽量不要修改本参数。

hive.exec.orc.dictionary.key.size.threshold

参数说明:

  • String 编码可以采用字典编码或直接编码,此参数用于决定是否采用字典编码。
  • ArgoDB 会采样部分数据并计算字典的大小,如果字典的尺寸比原有 String 大小乘以该参数小,则启用字典编码,否则启用字符串直接编码。 等于 1 时表示始终采用字典编码。

默认值: 0.8

取值范围: 自定义 FLOAT 型。

orc.crud.optimized

参数说明:

  • 是否对 ORC 的 CRUD 操作采用优化执行,为 true 的模式下写磁盘数据量少,更新吞吐率更高。

默认值: true

取值范围: true、false

注意事项: 请将该参数与 orc.crud.optimized.reader 结合使用,二者同时为 true 或者同时为 false。

orc.crud.optimized.reader

参数说明:

  • 读取 ORC 事务表时是否用优化方法读取 ORC 文件。

默认值: true

取值范围: true、false

注意事项: 该参数必须和 orc.crud.optimized 配合使用,二者同时为 true 或者同时为 false。

orc.bloom.filter.fpp

参数说明:

  • 为 ORC 创建 BloomFilter 时,指定 BloomFilter 可接受的最大误判率。

默认值: 0.05

取值范围: 自定义 FLOAT 型。

orc.bloom.filter.columns

参数说明:

  • 创建 BloomFilter 的字段。

默认值:

取值范围: 自定义 STRING 型。

orc.bloom.filter.dist.scale

参数说明:

  • 定义 BloomFilter 的 Distinct Scale,即集合中 Distinct Value 的数量占总数目的比重。

默认值: 1.0

取值范围: 自定义 FLOAT 型

ngmr.windrunner.enabled

参数说明:

  • 是否开启计算引擎性能优化插件 WindRunner。

默认值: true

取值范围: true、false

orc.columnreader

参数说明:

  • 开启 ORC 列式优化读取。

默认值: false

取值范围: true、false

注意事项: 本参数只有在 WindRunner 开启,即 ngmr.windrunner.enabled=true 的前提下,才会生效。

hive.compactor.clean.ctc

参数说明:

  • 是否允许 Metastore 自动清理 COMPLETED_TXN_COMPONENTS(CTC)表(该表用于记录已完成的 ORC 事务相关信息)中冗余的数据。

默认值: true

取值范围: true、false

hive.compactor.max.num.delta

参数说明:

  • ORC 事务表的 delta 文件数量超过该参数值时,采取分批 Compact 的策略。

默认值: 50000

取值范围: 自定义 INT 型。

hive.compactor.ctc.threshold

参数说明:

  • 当 COMPLETED_TXN_COMPONENTS 表(该表用于记录已完成的 ORC 事务相关信息)中关于某一用户表的记录数超过此配置值时,自动触发 compact。

默认值: 200

取值范围: 自定义 INT 型。

holodesk.predicate.pushdown

参数说明:

  • 处理 Holodesk 时是否默认进行谓词下推。

默认值: true

取值范围: true、false

holodesk.mapjoin.opts

参数说明:

  • 处理 Holodesk 的 MapJoin 时是否用优化的方式执行。

默认值: true

取值范围: true、false

holodesk.segment.compression.codec

参数说明:

  • 建表以前可以通过设置这个参数控制 Holodesk 采用何种方式对数据进行压缩。
  • 支持的压缩方式有 Zlib,Snappy,LZF,lz4-high,lz4-fast。
  • 压缩效果:Zlib > Snappy > lz4-fast
  • 读取效率:lz4-fast > Snappy > Zlib
  • 推荐采用 lz4-fast 或者 Snappy。

默认值: 5

取值范围: 可选取值及代表的含义:

  • 0:不进行数据压缩,一般不推荐。
  • 1:采用 LZF 压缩
  • 2:采用 Snappy 压缩
  • 3:采用 Zlib 压缩
  • 4:采用 lz4-high 压缩
  • 5:采用 lz4-fast 压缩

holodesk.replicate.enabled

参数说明:

  • Holodesk 的多副本开关,默认关闭。
  • 目前 Holodesk 默认在 SSD 或者内存以单副本存储,如果需要建立多副本,可以在建表以前将该参数设置为 true。
  • 副本数默认为 2,可以通过配置参数 holodesk.replicate.num 进行修改。

默认值: false

取值范围: true、false

holodesk.replicate.num

参数说明:

  • Holodesk 建立多副本时,用于设定副本数量。

默认值: 2

取值范围: 自定义 INT 型

ngmr.localdir

参数说明:

  • Shuffle 数据的本地存放位置。如果占用过大,用户可进入对应路径进行手动清理。

默认值:

取值范围: [自定义目录]

注意事项: 本参数目前只能通过 Manager 平台的服务配置界面进行配置。

inceptor.decimal.textfile.padding.zero

参数说明:

  • 用于控制对 TEXT 表的 DECIMAL 列插入数据,或对 TEXT 表的 STRING 列插入 DECIMAL 类型的源数据时,是否在末尾以 0 补齐精度。
  • 默认为 false,即不补齐精度。

默认值: false

取值范围: true、false

hive.update.subquery.left.join.enabled

参数说明:

  • 用于控制含子查询的 UPDATE 语句计算逻辑是否与 Oracle 一致。

默认值: false

取值范围: true、false

datanucleus.schema.autoCreateSchema

参数说明:

  • 如果不存在,则在启动时创建必要的 schema。

取值范围: true、false

datanucleus.schema.autoCreateTables

参数说明:

  • 如果不存在,则在启动时创建必要的表。

取值范围: true、false

hive.metastore.schema.verification

参数说明:

  • 是否强制 metastore 模式版本一致。

默认值: false

取值范围: true、false

datanucleus.autoStartMechanismMode

参数说明:

  • 如果数据元信息检查失败,抛出异常。

默认值: checked

取值范围: checked、unchecked、ignored

datanucleus.autoCreateSchema

参数说明:

  • 如果数据元数据不存在,那么直接创建,如果设置为 false,那么在之后创建。

默认值: true

取值范围: true、false

datanucleus.cache.level2

参数说明:

  • 是否使用二级缓存机制。
  • 默认为 false,表示使用二级缓存机制。
  • 如果元数据的更改独立于 Quark Metastore 服务器,请关闭此开关

默认值: false

取值范围: true、false

datanucleus.cache.level2.type

参数说明:

  • 设置二级缓存机制的类型。

默认值: none

取值范围:

  • none:不使用二级缓存机制。
  • SOFT:表示使用软引用。
  • WEAK:表示使用弱引用。

datanucleus.connectionPoolingType

参数说明:

  • 为 datanucleus 指定连接池库。

默认值: HikariCP

取值范围: bonecp、hikaricp、none

datanucleus.fixedDatastore

默认值: false

取值范围: true、false

datanucleus.identifierFactory

参数说明:

  • 创建 metastore 数据库的工厂类。

默认值: datanucleus1

取值范围: 自定义 STRING 型。

datanucleus.plugin.pluginRegistryBundleCheck

参数说明:

  • 定义当找到并复制插件包时的行为。

默认值: LOG

取值范围: EXCEPTION、LOG、NONE

datanucleus.rdbms.useLegacyNativeValueStrategy

默认值: true

取值范围: true、false

datanucleus.storeManagerType

参数说明:

  • 元数据存储方式

默认值: rdbms

datanucleus.transactionIsolation

参数说明:

  • 事务机制,标识生成的默认事务隔离级别。

默认值: read-committed

datanucleus.validateColumns

参数说明:

  • 根据代码验证现有模式。如果需要验证现有架构,请打开此选项, 对于存在的表是否进行检查 schema。

默认值: false

取值范围: true、false

datanucleus.validateConstraints

参数说明:

  • 对于存在的表是否检查约束。

默认值: false

取值范围: true、false

datanucleus.validateTables

参数说明:

  • 检查表

默认值: false

取值范围: true、false


评论
登录后可评论
发布者
星小环分享号
官方
文章
193
问答
250
关注者
27
banner
关注星环科技
获取最新活动资讯

加入TDH社区版技术交流群

获取更多技术支持 ->

扫描二维码,立即加入