技术干货-数栈运维案例：客户生产服务器CPU负载异常处理

袋鼠云数栈 08-03 121

前言：

眼前小伙伴们对“nginx偶尔504”大约比较讲究，大家都想要学习一些“nginx偶尔504”的相关资讯。那么小编在网摘上网罗了一些对于“nginx偶尔504””的相关知识，希望姐妹们能喜欢，小伙伴们一起来学习一下吧！

数栈是云原生—站式数据中台PaaS，我们在github和gitee上有一个有趣的开源项目：FlinkX，FlinkX是一个基于Flink的批流统一的数据同步工具，既可以采集静态的数据，也可以采集实时变化的数据，是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star！star！star！

github开源项目：

gitee开源项目：

一、问题背景

一天下午，大家都在忙着各自的事情，突然小组人员都同时收到了短信提醒，以为是公司发奖金了，很是开心，咋一看“某某客户服务器cpu使用率100%，请及时处理！”原来是告警短信，同时看到钉钉群里发出了大量的告警信息……

二、故障回顾

告警提示”CPU使用率到达98%” ，打开阿里云控制台，通过云监控发现在下午15:06-16:46左右，云上机器某四台集群服务器cpu使用率波动较大（先降后升），负载过高，网络流量达到一定峰值就出现下降趋势，TCP连接数先是出现下降趋势，后面出现上升状态。现象如下图：

CPU先降后升使用率情况：使用率接近100%

系统平均负载先升后降情况：load超过40

网络流入流量：网络带宽流入流出先降后升

TCP 连接数情况：先升后降

三、问题排查过程

1) nginx 日志排查