本篇帖子我们展示一名用户Bob在实际场景中使用Aquila对TDH集群进行运维。
同时,您可以点击下方视频链接,更直观的感受Aquila Insight的运维能力
场景示例
背景:
作为运维人员,Bob每天的工作是确保运行在TDH上的各个组件正常运转。今天是Bob第一天使用Aquila监控应用,他还设定了一系列自动化的规则辅助自己完成未来的运营。
Bob需要对部署了下图中众多应用的集群系统进行运维。
性能监控
Bob需要对部署了下图中众多应用的集群系统进行运维。
Bob在Manager上点击Aquila图标进入Aquila的仪表盘文件(仪表盘管理)页面。
可以看见预设的Cluster文件夹(集群运维)、Kubernetes文件夹(容器运维)、Service文件夹(服务运维)。
查看预置仪表盘
Bob先从概览查看集群、节点的大致情况。这里以Cluster的System Overview(Cluster-level)为例,Bob通过仪表盘左上角的Cluster下拉框,选择studio集群并查看。
发现该集群已使用217.3GB的内存,还有76.4GB的余量,目前内存容量健康;CPU、网络、负载运转正常。
新建自定义仪表盘
1)Bob希望定制一款新的仪表盘,能够在一张仪表盘中,分节点展示CPU、网络、负载、存储和其他细节内容。
在仪表盘文件页面点击 新建仪表盘,进入空白仪表盘页面。
2)在该页面点击设置按钮 ,进入仪表盘设置页面,设置仪表盘的基本配置。
a.常规设置中,命名为“Cluster Overview”,并添加“Overview”、“Cluster”两个标签,放在“Cluster”文件夹下。
b. 变量设置中,点击新建变量按钮,新建变量nodeId,显示标题为Node,不勾选“可多选”和“‘全部’选项”;数据源为Manger Database,从中以“SELECT * FROM node”选取该Manager上的所有节点,值列为id以跟Prometheus中的变量值对应。
Bob更改文本列的属性名,从选项预览中,选取使用“hostname”作为文本列,对比如图:
Bob希望默认设置主节点node089为第一个展示的节点,因此在排序中选择了数值(降序)
点击确认添加,回到了变量设置页面,已经可以看到变量名称为“nodeId”的变量了,设置完成。
c.链接设置中,Bob希望能从该仪表盘跳转其他的Overview标签仪表盘,点击新建标签按钮 ,选择标签为Overview,下拉菜单,保留时间范围,并在新窗口打开。
但是点击标签下拉菜单,发现并没有Overview标签选项,因为Overview标签是当前仪表盘新建的,还未保存,于是Bob点击右上方保存按钮,再新建标签,成功。
d. 版本设置中,Bob之前进行了多次改动,可以在此看到,按照需要回退,目前的最新版是Bob想要的结果,所以暂时不回退,仪表盘设置完成。
3.回到仪表盘页面,此时仪表盘顶部已经有了左上角的Node菜单和右上角的链接菜单。点击添加面板,选取曲线图,新建第一个新面板。
a. 新建后该面板无任何数据内容,点击编辑面板进入编辑页面。
b. 设置面板标题为CPUs,并加以描述,便于他人查看
c. 设置第一个Prometheus指标内容为sum(irate(node_cpu_seconds_total{nodeId="${nodeId}", mode="user"}[1m])) / sum(irate(node_cpu_seconds_total{nodeId="${nodeId}"}[1m])),图例格式为“user”,每序列点数为100,输出格式为时间序列。其他指标设置方式相同。
d.设置坐标轴单位为none(无单位)-percent(0.0-0.1)(百分比形式),小数位数为2位
e.由于有多条观测值,Bob决定加入图例,并展示多个观测指标的统计值,小数位数为2,将全为0值的数据隐去以更清晰地对比。
f.在显示部分,Bob设置线的填充度为0.3,以区分明显地显示各个指标的情况,其余均为默认设置。
面板设置完成,点击返回,面板设置内容便自动保存,返回到仪表盘页面。
g.Bob发现该面板被图例占了很大篇幅,于是将鼠标置于面板右下角,拖拽面板横向拉伸,使得面板看上去更舒服。
点击保存完成第一个面板的定制。
4.随后,Bob制作了Disk、Memory、Network下多个面板,使用分组管理起来。为了让CPU分组呈现在最上方,Bob将CPU分组收起,长按分组右侧的按钮进行移动。
5.Bob最终完成了Cluster Overview仪表盘,以后就可以通过该仪表盘观测所有节点的概况了。
有任何问题可以在这篇帖子下进行提问