前言:
目前看官们对“netstor磁盘阵列”大概比较关心,大家都需要了解一些“netstor磁盘阵列”的相关内容。那么小编同时在网络上汇集了一些对于“netstor磁盘阵列””的相关知识,希望你们能喜欢,看官们一起来了解一下吧!SRE定义
SRE是指Site Reliability Engineer (网站可靠性工程师),起源于谷歌。它是软件工程师和系统管理员的结合,目前在各大厂中已逐渐添加该种类岗位作为运维部门。
一个SRE工程师基本上需要掌握很多知识:算法,数据结构,编程能力,网络编程,分布式系统,可扩展架构,故障排除。
存在的目的
时刻保障线上稳定与安全。
工作职责
1、负责监控体系的建立,对线上指标的检查和监控,做到on-call。
2、线上系统异常的troubleshooting,快速定位问题并恢复,故障复盘等。
3、线上系统的日常维护、变更升级、漏洞补丁。
4、系统架构优化、容量规划、规避隐藏问题等。
5、重大时间节点的维保等。
SRE 基本能力
1、担当
2、不断学习
3、良好的时间控制管理
4、各种工具的熟练使用
5、锻炼身体
SRE基本功
1、操作系统
CPU:进程的资源分配、调度方式、通信原理;线程的资源分配、调度方式、通信方式、线程锁、线程状态等;CPU负载、CPU利用率。内存:内存的划分、Linux OOM killer 机制、资源分配、缓存等。磁盘:IO基本情况、IO的本质(网络IO、磁盘IO)、磁盘分区扩展、性能优化、不同磁盘阵列分特点等。网络:三次握手、四次挥手、TCP连接数以及TCP连接状态、连接复用、核心系统参数对TCP情况的影响系统中断:软中断、硬中断、中断介入。容器:基本使用、原理、命令、日志。shell命令、工具使用:linux 三剑客(akw/grep/sed);日志文件等查找处理,find/tail/xargs等;资源情况,top/free/df/du/iostat/sar/netstat/lsof/ps 等;抓包工具,JDK相关工具的使用,tcpdump/headdump/threaddump/coredump等;for循环、定时任务、shell 脚本等。
2、监控体系
监控方法论:监控要点,可达性、可用性、正确性等监控对象:服务器,CPU、内存、磁盘、网络、IO等的使用情况;业务容量、延迟、流量、SLA;关联系统、全链路监控业务正确性;接口耗时;业务大盘;数据库、中间件监控等。监控工具:理解监控工具基本原理,能够进行监控配置调优、监控选型,理解各类监控指标。
3、巡检
日常巡检:巡检规则、巡检要点;重保前巡检等 巡检问题处理:及时处理存在隐患。巡检注意事项:巡检不是监控,要合理规划。
4、对架构的理解
部署合理性、分级部署、灰度发布架构和代码、合理压测容量管理:伸缩容、多活灾备,日常备份,消除单点变更管理:变更时间、变更审批、变更回退数据安全
5、线上问题快速恢复
变更回退规范应急预案、应急演练服务隔离、熔断降级数据恢复恢复方案决策
标签: #netstor磁盘阵列