SRE 是什么

GavinDjp 10-28 346

前言：

目前看官们对“netstor磁盘阵列”大概比较关心，大家都需要了解一些“netstor磁盘阵列”的相关内容。那么小编同时在网络上汇集了一些对于“netstor磁盘阵列””的相关知识，希望你们能喜欢，看官们一起来了解一下吧！

SRE定义

SRE是指Site Reliability Engineer (网站可靠性工程师)，起源于谷歌。它是软件工程师和系统管理员的结合，目前在各大厂中已逐渐添加该种类岗位作为运维部门。

一个SRE工程师基本上需要掌握很多知识：算法，数据结构，编程能力，网络编程，分布式系统，可扩展架构，故障排除。

存在的目的

时刻保障线上稳定与安全。

工作职责

1、负责监控体系的建立，对线上指标的检查和监控，做到on-call。

2、线上系统异常的troubleshooting，快速定位问题并恢复，故障复盘等。

3、线上系统的日常维护、变更升级、漏洞补丁。

4、系统架构优化、容量规划、规避隐藏问题等。

5、重大时间节点的维保等。

SRE 基本能力

1、担当

2、不断学习

3、良好的时间控制管理

4、各种工具的熟练使用

5、锻炼身体

SRE基本功

1、操作系统

CPU：进程的资源分配、调度方式、通信原理；线程的资源分配、调度方式、通信方式、线程锁、线程状态等；CPU负载、CPU利用率。内存：内存的划分、Linux OOM killer 机制、资源分配、缓存等。磁盘：IO基本情况、IO的本质（网络IO、磁盘IO）、磁盘分区扩展、性能优化、不同磁盘阵列分特点等。网络：三次握手、四次挥手、TCP连接数以及TCP连接状态、连接复用、核心系统参数对TCP情况的影响系统中断：软中断、硬中断、中断介入。容器：基本使用、原理、命令、日志。shell命令、工具使用：linux 三剑客（akw/grep/sed）;日志文件等查找处理，find/tail/xargs等；资源情况，top/free/df/du/iostat/sar/netstat/lsof/ps 等；抓包工具，JDK相关工具的使用，tcpdump/headdump/threaddump/coredump等；for循环、定时任务、shell 脚本等。

2、监控体系

监控方法论：监控要点，可达性、可用性、正确性等监控对象：服务器，CPU、内存、磁盘、网络、IO等的使用情况；业务容量、延迟、流量、SLA；关联系统、全链路监控业务正确性；接口耗时；业务大盘；数据库、中间件监控等。监控工具：理解监控工具基本原理，能够进行监控配置调优、监控选型，理解各类监控指标。

3、巡检

日常巡检：巡检规则、巡检要点；重保前巡检等巡检问题处理：及时处理存在隐患。巡检注意事项：巡检不是监控，要合理规划。

4、对架构的理解

部署合理性、分级部署、灰度发布架构和代码、合理压测容量管理：伸缩容、多活灾备，日常备份，消除单点变更管理：变更时间、变更审批、变更回退数据安全

5、线上问题快速恢复

变更回退规范应急预案、应急演练服务隔离、熔断降级数据恢复恢复方案决策

本文地址：http://www.longkongtuishu.com/ca25dA2sCDFYECVQ.html

标签： #netstor磁盘阵列