博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
通过NPD在kubernetes集群上增强节点的错误检测能力
阅读量:6273 次
发布时间:2019-06-22

本文共 1718 字,大约阅读时间需要 5 分钟。

摘要: 通过部署Node Problem Detector来增强node节点的错误检测能力

根源

在kubernetes集群上,通常我们只是管制集群本身以及容器的稳定运行。但是这些稳定性都是强依赖节点node的稳定的。可是node的管理,在kubernetes是比较弱的,因为可能对于kubernetes的初始设计来说,这些应该是IaaS的事。但是随着kubernetes的发展,它越来变成了一个操作系统,它管理的内容将越来越多,所以对于node的管理也将纳入kuberntes里管理。所以延伸出了node problem detector(参考1)这个项目。

Node的主要影响kuberntes稳定性的因素

硬件错误

  • CPU坏了
  • Memory坏了
  • 磁盘坏了

kernel问题

  • kernel deadlock (内核死锁)
  • corrupted file systems (文件系统崩溃)
  • unresponsive runtime daemons (系统运行后台进程无响应)

docker问题

  • unresponsive runtime daemons (docker后台进程无响应)
  • docker image error (docker文件系统错误)

Node问题上报机制

Kubernetes支持两种上报机制:

  • NodeCondition(节点状况): 这是指永久性的错误,它将造成pod无法在这个节点运行。这个节点状况只有在节点重启后才会被重置
  • Event(事件): 影响节点的临时性问题,但是它是对于系统诊断是有意义的

Node Problem Detector(NPD)

NPD就是利用kubernetes的上报机制,通过检测系统的日志(例如centos中journal),把错误的信息上报到kuberntes的node上。

NPD的架构

(图来源于mastering kubernetes)

clipboard.png

NPD支持多种monitor来检测不同的错误类型。然后它把对应的信息上报给api server。

后面NPD也在计划提供一个remedy controller(治疗控制器),通过捕获这些信息作些补救的处理。例如在公有云可以将硬件错误的机器自动换掉等

部署NPD实践

前提,你需要有一个k8s集群,必须有1个以上的worker节点。有需要你可以在阿里云的容器服务里,几分钟内创建一个k8s集群。

我将对应的内容放到了我的github上,大家可以参考,地址在:

因为官网的文档描述不是太清楚,以及对于centos journal的支持也是刚完成,所以文档还跟不上,也造成了我一些弯路

具体步骤参考上面github的README就可,这里就不啰嗦了。

如何验证NPD捕获信息

通常这些错误是比较难真实测试,只能通过发送消息到journal来模拟。

  • 发送一个kernel deadlock类型的condition:在对应的node节点上执行以下操作
echo "task docker:7 blocked for more than 300 seconds." |systemd-cat -t kernel

然后通过k8s控制台,你可以看到对应的信息:

clipboard.png

  • 发送一个event
echo "Error trying v2 registry: failed to register layer: rename /var/lib/docker/image/test /var/lib/docker/image/ddd: directory not empty.*" |systemd-cat -t docker

然后通过以下命令来对应的event

kubectl describe node/xxxx

clipboard.png

小结

通过NPD,我们可以看到一种node错误检测的增强手段, 后面它也将提供更多的plugin的集成机制来集成其它的监控系统,例如nagios等。

我们或许会看到这样的一个k8s,它已经包罗万象,不在需要“依赖”其它就可以完成的管理好一个集群,它将更像一个分布式的OS。

参考

本文作者:了哥-duff

本文为云栖社区原创内容,未经允许不得转载。

你可能感兴趣的文章
js 面试题
查看>>
sqoop数据迁移(基于Hadoop和关系数据库服务器之间传送数据)
查看>>
腾讯云下安装 nodejs + 实现 Nginx 反向代理
查看>>
试水区块链出版?纽约时报在招人了
查看>>
拥抱PostgreSQL,红帽再表态:SSPL的MongoDB坚决不用
查看>>
QCon演讲速递:异步处理在分布式系统中的优化作用
查看>>
Javascript 中的 Array 操作
查看>>
YARN的AsyncDispatcher原理
查看>>
java中包容易出现的错误及权限问题
查看>>
AngularJS之初级Route【一】(六)
查看>>
服务器硬件问题整理的一点总结
查看>>
SAP S/4HANA Cloud: Revolutionizing the Next Generation of Cloud ERP
查看>>
Mellanox公司计划利用系统芯片提升存储产品速度
查看>>
白帽子守护网络安全,高薪酬成大学生就业首选!
查看>>
AMD 16核心Zen处理器首曝:四通道DDR4
查看>>
阿里大数据打假:实时分析数据每秒1亿次
查看>>
如何入手 dubbo
查看>>
英国网络安全公司Darktrace获6400万美元C轮融资
查看>>
CYQ.Data+EasyUI开发:几个相关的问题CheckBox、Tree、TreeGrid
查看>>
Extjs分页使用Java实现数据库数据查询
查看>>