Google SRE:起源,一、世界上第一个SRE专注于参与阿波罗登月计划的MIT教授Margaret Hamilton二、Apollos计划中的SRE Apollo 7 飞船研发事故的启发:1、类似的情况不断发生,
2、对于细节的不懈关注,3、做好充足的灾难预案和准备工作
4、时刻警惕,5、不放弃一切机会去避免灾难发生。
Google SRE:起源 一、世界上第一个SRE专注于参与阿波罗登月计划的MIT教授Margaret Hamilton 二、Apollos计划中的SRE Apollo 7 飞船研发事故的启发: 1、类似的情况不断发生 2、对于细节的不懈关注 3、做好充足的灾难预案和准备工作 4、时刻警惕 5、不放弃一切机会去避免灾难发生 以上是SRE最重要的理念! 三、SRE:站点可靠性工程师(Google负责7*24小时运维的VP命名) 1、SRE是工程师:使用计算机和软件工程手段设计和研发大型、分布式计算机软件系统; 2、SRE关注:焦点是可靠性,包括架构设计、运维流程优化->“足够可靠”; 3、SRE主要工作:运维分布式集群系统上的具体业务服务(Service) 四、SRE是一种职业:专注于整个软件系统的生命周期管理
Google SRE:基本概念 一、SRE:Service,google搜索引擎服务,S 最初指 Google.com 软件系统40%-90%的花销是在开发建设完成后的不断维护过程中; 二、SRE 作为一个职业迟早诞生; Apollo 7 飞船研发的事故(一场的软件执行失败案例) 1、小朋友意外触发,导致整个模拟过程失败; 2、基于SRE的直觉, Margaret提交软件改进建议; 3、所有人(NASA管理层、工程师团队)认为错误低级,不值得修改,否决建议; 4、几天后,飞船运行中操作失误导致故障真的触发,不是演习; 5、航天员参考Margaret之前更新的手册,有限时间内解决问题。 三、站点可靠性工程(SRE)和系统管理员(sysadmin)的区别 1、运维对象不同:分布式集群管理系统VS小型机、X86管理系统 2、存在时间不同:于Google,前十年 VS 近十年 于中国,15年之后 VS 15年之前 3、技能要求不同:计算机科学+软件工程 VS 计算机科学 4、关注焦点不同:产品可靠性 VS 只负责将现成的软件组件部署到生产系统 5、成员来源不同:研发工程师 VS 从第三方工具厂商或系统集成商招聘