1. 常用docker命令:
https://community.transwarp.cn/thread?topicId=277
2. 常用k8s命令:
https://community.transwarp.cn/thread?topicId=284
3. 常用查找线索的工具:
a. 监控系统 (grafana: 3000端口)b. 组件日志:/var/log/hyperbase1、
c. HBase日志中排查问题常用关键字:
1) JvmPause (查看GC状态)
2) ERROR
3) FATAL
4) exception (搜索时注意不要区分大小写)
5) fail (搜索时注意不要区分大小写)
6) responseTooSlow (表明当时regionserver负载较大)
7) regionTooBusy (表明当时regionserver负载较大)
8) Memstore is above high water mark and block (memstore内存占用过多)
9) too many store files (store file过多)
d. jvm相关命令:
1) jstack <pid> (排查性能问题常用)
2) jstat -gccause <pid> (查看gc状态)
3) jmap <pid>
e. 查看操作系统资源情况命令:
1) sar -A (检查操作系统指标)
2) top (查看cpu状态命令)
3) iostat -d -k -x -c 1 1000 (查看磁盘io状态命令)
4) free -g (查看内存状态命令)
5) sar -n DEV 1 1000 (查看网络流量命令)
6) ethtool <网络接口名,如eth0> (查看网卡配置命令)
7) /var/log/messages (操作系统日志)
8) dmesg
9) sysctl -A (操作系统配置)
10) ulimit -a (操作系统配置)
f. HBase排查问题常用工具:
1) hbase hbck
2) dstools
g. HDFS排查问题常用工具:
hdfs fsck
hyperbase问题排查知识树
常见问题:
一般性能问题(查询、插入数据慢)可从以下几个方面进行初步排查:
- 对应表是否正常,hbase hbck检查,是否存在RIT或inconsitencies ,如有用dstools修复。
- 是否存在读写热点,可去60010界面查看对应表的region分布情况和rs的请求是否均匀。
- rs节点是否存在GC情况,可以jstat gcutil或使用grep -i “JvmPause” <rs.log> | grep WARN 查看对应时间段的gc情况
- 检查是否建立二级索引并且是否生效,可以通过desc formatted tb查看。(查询)。
- 提前预分region,一般一个region 5-10G最佳,若数据量较大,考虑使用bulkload方式(插入)
- 检查集群的负载情况,CPU、IO、内存等。
1. 常用docker命令:
https://community.transwarp.cn/thread?topicId=277
2. 常用k8s命令:
https://community.transwarp.cn/thread?topicId=284
3. 常用查找线索的工具:
a. 监控系统 (grafana: 3000端口)b. 组件日志:/var/log/hyperbase1、
c. HBase日志中排查问题常用关键字:
1) JvmPause (查看GC状态)
2) ERROR
3) FATAL
4) exception (搜索时注意不要区分大小写)
5) fail (搜索时注意不要区分大小写)
6) responseTooSlow (表明当时regionserver负载较大)
7) regionTooBusy (表明当时regionserver负载较大)
8) Memstore is above high water mark and block (memstore内存占用过多)
9) too many store files (store file过多)
d. jvm相关命令:
1) jstack <pid> (排查性能问题常用)
2) jstat -gccause <pid> (查看gc状态)
3) jmap <pid>
e. 查看操作系统资源情况命令:
1) sar -A (检查操作系统指标)
2) top (查看cpu状态命令)
3) iostat -d -k -x -c 1 1000 (查看磁盘io状态命令)
4) free -g (查看内存状态命令)
5) sar -n DEV 1 1000 (查看网络流量命令)
6) ethtool <网络接口名,如eth0> (查看网卡配置命令)
7) /var/log/messages (操作系统日志)
8) dmesg
9) sysctl -A (操作系统配置)
10) ulimit -a (操作系统配置)
f. HBase排查问题常用工具:
1) hbase hbck
2) dstools
g. HDFS排查问题常用工具:
hdfs fsck
hyperbase问题排查知识树
常见问题:
一般性能问题(查询、插入数据慢)可从以下几个方面进行初步排查:
- 对应表是否正常,hbase hbck检查,是否存在RIT或inconsitencies ,如有用dstools修复。
- 是否存在读写热点,可去60010界面查看对应表的region分布情况和rs的请求是否均匀。
- rs节点是否存在GC情况,可以jstat gcutil或使用grep -i “JvmPause” <rs.log> | grep WARN 查看对应时间段的gc情况
- 检查是否建立二级索引并且是否生效,可以通过desc formatted tb查看。(查询)。
- 提前预分region,一般一个region 5-10G最佳,若数据量较大,考虑使用bulkload方式(插入)
- 检查集群的负载情况,CPU、IO、内存等。