龙空技术网

SRE 是什么

GavinDjp 331

前言:

目前看官们对“netstor磁盘阵列”大概比较关心,大家都需要了解一些“netstor磁盘阵列”的相关内容。那么小编同时在网络上汇集了一些对于“netstor磁盘阵列””的相关知识,希望你们能喜欢,看官们一起来了解一下吧!

SRE定义

SRE是指Site Reliability Engineer (网站可靠性工程师),起源于谷歌。它是软件工程师和系统管理员的结合,目前在各大厂中已逐渐添加该种类岗位作为运维部门。

一个SRE工程师基本上需要掌握很多知识:算法,数据结构,编程能力,网络编程,分布式系统,可扩展架构,故障排除。

存在的目的

时刻保障线上稳定与安全。

工作职责

1、负责监控体系的建立,对线上指标的检查和监控,做到on-call。

2、线上系统异常的troubleshooting,快速定位问题并恢复,故障复盘等。

3、线上系统的日常维护、变更升级、漏洞补丁。

4、系统架构优化、容量规划、规避隐藏问题等。

5、重大时间节点的维保等。

SRE 基本能力

1、担当

2、不断学习

3、良好的时间控制管理

4、各种工具的熟练使用

5、锻炼身体

SRE基本功

1、操作系统

CPU:进程的资源分配、调度方式、通信原理;线程的资源分配、调度方式、通信方式、线程锁、线程状态等;CPU负载、CPU利用率。内存:内存的划分、Linux OOM killer 机制、资源分配、缓存等。磁盘:IO基本情况、IO的本质(网络IO、磁盘IO)、磁盘分区扩展、性能优化、不同磁盘阵列分特点等。网络:三次握手、四次挥手、TCP连接数以及TCP连接状态、连接复用、核心系统参数对TCP情况的影响系统中断:软中断、硬中断、中断介入。容器:基本使用、原理、命令、日志。shell命令、工具使用:linux 三剑客(akw/grep/sed);日志文件等查找处理,find/tail/xargs等;资源情况,top/free/df/du/iostat/sar/netstat/lsof/ps 等;抓包工具,JDK相关工具的使用,tcpdump/headdump/threaddump/coredump等;for循环、定时任务、shell 脚本等。

2、监控体系

监控方法论:监控要点,可达性、可用性、正确性等监控对象:服务器,CPU、内存、磁盘、网络、IO等的使用情况;业务容量、延迟、流量、SLA;关联系统、全链路监控业务正确性;接口耗时;业务大盘;数据库、中间件监控等。监控工具:理解监控工具基本原理,能够进行监控配置调优、监控选型,理解各类监控指标。

3、巡检

日常巡检:巡检规则、巡检要点;重保前巡检等 巡检问题处理:及时处理存在隐患。巡检注意事项:巡检不是监控,要合理规划。

4、对架构的理解

部署合理性、分级部署、灰度发布架构和代码、合理压测容量管理:伸缩容、多活灾备,日常备份,消除单点变更管理:变更时间、变更审批、变更回退数据安全

5、线上问题快速恢复

变更回退规范应急预案、应急演练服务隔离、熔断降级数据恢复恢复方案决策

标签: #netstor磁盘阵列