本课程介绍了一系列通过混合自动化、组织工作方式和业务协调来推进服务可靠性工程的实践。为专注于大规模服务可扩展性(scalability)和可靠性(reliability)的学友们量身定制。
一、课程简介
本课程介绍了一系列通过混合自动化、组织工作方式和业务协调来推进服务可靠性工程的实践。为专注于大规模服务可扩展性(scalability)和可靠性(reliability)的学友们量身定制。
SRE(站点可靠性工程)从业者课程介绍了在组织内经济和可靠地扩展服务的方法。课程探讨了通过设计、自动化和闭环修复提高服务健康的敏捷性、跨职能协作和透明度的策略,以构建弹性。本课程旨在为学员提供实践、方法和工具,通过使用真实场景和案例故事,让组织内参与可靠性的人员参与进来。课程结束后,学员将在返回办公室时获得切实的收获,例如实施符合其组织背景的 SRE 模型、在分布式系统中构建高级可观察性、通过设计建立弹性以及使用 SRE 实践进行有效的事件响应。本课程通过利用关键SRE资源,与SRE领域的思想领袖合作,并与接受SRE的组织合作,以提取现实生活中的最佳实践,旨在教授开始采用SRE所需的关键原则和实践。本课程将帮助学员成功通过SRE从业人员认证考试。
二、课程周期:2.5天(培训)+0.5天(考试)
三、SRE Practitioner课程的目标学员
● 关注大规模服务的可扩展性和可靠性的人员
● 任何对现代IT领导力和组织变革方法感兴趣的人员
● 业务经理
● 商业利益相关者
● 变革代理人
● 专家顾问
● DevOps从业者
● IT主管
● IT经理
● IT团队领导
● 产品经理
● Scrum大师
● 软件工程师
● 站点可靠性工程师
● 系统集成商
● 工具提供者
四、SRE Practitioner课程的学习目标
● 如何在您的组织中成功实施富有活力的SRE文化的实践观点;
● SRE的基本原则,了解什么不是反模式,以及如何意识到它们并避免发生;
● 引入SRE对组织的影响;
● 在分布式生态系统中提升SLI和SLO的艺术,并将错误预算的使用扩展到正常范围之外,以创新和规避风险;
● 通过设计在分布式、零信任环境中构建安全性和弹性;
● 您如何实现全栈可观察性、分布式跟踪并实现可观察性驱动的开发文化?
● 使用人工智能管理数据,从被动到主动和预测性事件管理。另外,如何使用DataOps构建干净的数据沿袭?
● 为什么平台工程在构建SRE文化的一致性和可预测性方面如此重要?
● 实施实用的混沌工程;
● 基于事件指挥框架的SRE的重大事件响应责任,以及非管理事件的剖析示例;
● 为什么SRE可以被认为是DevOps最纯粹的实现;
● SRE执行模型;
● 理解SRE的作用,理解为什么可靠性是每个人的问题;
● SRE成功案例的学习;
五、SRE Practitioner课程的学习收益
(一)对组织的收益:
1、用正确的方式实施SRE和DevOps,从而实现组织更高的业务价值;
2、提高组织服务的稳定性和可靠性;
3、提升产品在开发、部署和运维生命周期中的重大改进;
4、提升组织可靠性技术的投资与客户体验之间的平衡;
5、使文化和产品、开发和运维团队之间的更大同步,提高组织员工的士气和留存率;
(二)对个人的收益:
1、提升个人对SRE文化实践的理解;
2、为更高的安全性和可靠性设计服务;
3、构建可测试灾难风险的容错分布式生态系统;
4、在运维中建立可观察性和智能性;
5、提升个人技能能力的广泛性,学习和利用最新的自动化技术;
6、提高个人对其他角色的理解,为创造更好的职场文化做出贡献;
六、SRE Practitioner认证考试
报考条件:已获得SRE Foundation认证的学员;
考试时间:90分钟;
考试题型:多选题;
学员答对65%的题目,总计是40题多选题,学员将获得SRE从业资格者证书;
该认证由DevOps Institute管理和维护;
课程咨询:艾老师 18018650584( 微信同号 )
training@shhaolong.cn
China.SREs@shhaolong.cn
上海市黄浦区北京东路668号科技京城30F
北京市朝阳区广顺南大街利星行中心
雅菲奥朗
专注于“互联网时代”的IT培训
021-53098865
18018650584