SRE解决的核心问题是什么.docx
《SRE解决的核心问题是什么.docx》由会员分享,可在线阅读,更多相关《SRE解决的核心问题是什么.docx(4页珍藏版)》请在优知文库上搜索。
1、SRE既锹研发也做运维,并且要求研发的时间不低于50%,但SRE是偏运维的,包括SRE研发的大部分工作也是和运维相关的.这也让我有了个疑问,SRE解决的核心问题是什么?直观地来看,SRE要解决的是系统运行的可靠性问题,特别提倡使用软件工程的方式来消除手工运维的问题,但似乎又不仅仅是这样.软件系统可靠性跟众多的因素相关,比如说软件架构、代码质量、逻辑处理、部若架构、部署位置、使用组件、调用他路、网络、数据量.配置参数、安全机制、基础软硬件等,任何一个点的异甫都可能会导致软件系统异常.因此SRE不但要懂软件研发,还要从事软件研发,消除软件运行过程中存在的不稳定因素.通过持续完善运维工具、可赤性组件
2、等提升运行系统的可靠性。另外,从SRE职责来看,通常包含可用性改进、延迟优化、性能优化、效率优化、变更省理、监控.紧急事务处理、容量规划与管理等。很多看似运维的工作都跟研发密切相关,所以,SRE工程师要做一部分研发工作,甚至一部分产品的研发工作.SRE是偏运维的,那么除了研发,SRE和传统运维有什么本质的区别?我曾经从分层角度讨论过,运维的工作从层次上可以划分为业务应用系统运维、基础平台运维和基础设施资源运维(图1).运营运维反愣业务运营人M应用送谁人员,台运维人员资源玷维人员图1运堆层次业务应用系统包含交易、CRM、财务、人力等业务系统及业务相关的管理系统等;基础平台包含如数据库、中间件、云
3、平台、数据和大数据平台、AI平台等在内的工具平台,用于支撑赋能业务;基础设施资源则包含数据中心机房的存储、服务器、网络设备、安全设备、机房设备等.传统运维人员基本上承担了所有这些运维工作,分组分团队或分部门维护着不同的内容.随着系统和设备的增多,运维人员数最也持续膨胀.SRE需要解决的一个很由要问题是:不随着系统和设备的线性增长而线性增加运维人员。比如说,10个系统最初可能10个人来运维,用SRE方法论,当系统增加到100个时,可能还是10个人来运维,这才是SRE的价值.这么多的工作内容如何处理?当然是用自动化的工具和手段,甚至需要完全消除人工的操作,这样才能在系统线性增加时,不会导致运维人力
4、的线性增加.运维的分层使运维的内容和职责更明确,也使层次之间的支持和赋能衔接更容易通过标准化接口来实现.这可能也是企业在引进SRE方法论的时候需要进一步优化SRE的地方。SRE方法论确保长期关注研发工作,在保障服务S1.O的前提下最大化迭代速度,做好变更管理,通过监控系统实现可见性和可观测性,支持应急事件的处理;根据系统对基础设施资源的需求做好需求预测和容量规划,及时部署资源以支持弹性扩展;同时持续优化业务流程中的堵点,持续提升性能,减少延迟,持续优化运维流程,提高且用,减少重复造轮子,提升效率.这和我提出的“运维的敏捷才能支撑研发的敏捷”思想相一致.SREGoogle运维解密一书中提到SRE
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SRE 解决 核心 问题是 什么