【问题解决】重启Guardian时失败，步骤为“通过TOS停止server”,显示内容为”Guardian_server has no ready pod”

2023-09-22 15:43:00 152

报错描述：重启Guardian时失败，步骤为“通过TOS停止server”,显示内容为”Guardian_server has no ready pod”

查看日志详情，显示如下：

Guardian_server 的pod在ce24节点处于Terminating状态。

通过服务详情查看状态：

在这里说明一下，常见pod的几种状态

Pending：这个状态意味着，Pod 的 YAML 文件已经提交给了 Kubernetes，API 对象已经被创建并保存在 Etcd 当中。但是这个 Pod 还没有被调度成功，最常见的原因比如 Pod 中某个容器启动不成功
Running：这个状态下，Pod 已经调度成功。也就是它包含的容器都已经创建成功，并且至少有一个正在运行中
Succeeded：这个状态意味着，Pod 里的所有容器都正常运行成功并退出了。这种情况在运行一次性任务时最为常见
Failed：这个状态下，Pod 里至少有一个容器以不正常的状态退出。这个状态出现时，你得想办法 Debug 这个容器，比如查看 Pod 的事件和日志。
Unknown：这是一个异常状态，意味着 Pod 的状态不能集群检测到，这很有可能是主从节点（Master 和 Kubelet）间的通信出现了问题。
Terminating：在节点处于“NotReady”状态时，deployment控制器会迁移节点上的容器实例，并将节点上运行的pod置为“Terminating”状态。待节点恢复后，处于“Terminating”状态的pod会自动删除。偶现部分pod（实例）一直处于“Terminating ”状态，发现这部分的pod没有得到重新调度，不能提供服务。

然后，在服务器端，查看集群中pod的状态，发现guardian的一个pod处于Terminating，同时排除其他pod报错。到目前为止，需要对其进行强制删除，并重启该pod以恢复Guardian运行。

定位到pod以后，使用kubectl logs <pod-names>查看pod的日志信息。此时看到无法查看日志。

随后，通过systemctl status命令查看是否存在失败的服务，发现有1个失败的服务。

通过systemctl --failed命令查看失败的服务

判断是由于docker.socket服务出现问题，导致重启服务时，无法为服务分配新的pod。

4 修复方法：

# systemctl stop docker

# kill $(ps -aux|grep docker |awk '{print $2}')

# kill $(ps -ef | grep docker-containerd-shim | awk '{ print $2 }')

# rm -rf /var/lib/docker/*

# docker-storage-setup --reset （可跳过）

# docker-storage-setup （可跳过）

# systemctl restart docker

# docker load -i /etc/tos/conf/tos.tar.gz

恢复docker服务以后，在Manager界面进行TOS服务的重启，重启成功。随后分别进行Aquila和Guardian服务的重启，重启成功。最后一键重启其余服务，集群恢复运行。

5 修复方法说明

docker创建的容器是无状态的，一些状态信息（例如数据、配置文件等）其实都已经挂载进宿主机或者持久化到其他地方；这个时候可以通过上面的修复方法，关闭docker相关容器和进程，删除/var/lib/docker/下面容器相关的无状态信息；然后重启docker和kubelet，这个时候k8s会自动将之前的容器调度起来；

# 开发与运维# 问题分享# TDH社区版

回答

登录后可回答问题

提问者

星

星小环分享号

【问题解决】重启Guardian时失败，步骤为“通过TOS停止server”,显示内容为”Guardian_server has no ready pod”

热门文章

加入TDH社区版技术交流群

获取更多技术支持 ->