企业IT事中故障处理四个关键环节如何控制.docx
《企业IT事中故障处理四个关键环节如何控制.docx》由会员分享,可在线阅读,更多相关《企业IT事中故障处理四个关键环节如何控制.docx(15页珍藏版)》请在优知文库上搜索。
1、TBF(无故障时长)和TTR(故障修且时长)是业务连续性管理两个重要:旨标,故障处置管理的目标就是为了最大限度的熠加TBF和缩短TTR.在具体常理中,我们通常会根据故障应急处送时间轴扩展以下指标:MTBF(无故障时长)、M11I(平均故障发现时长八MTTK(故障定位时长)、MTTF(平均故障处理时长)、MTTR(平均故障响应时长),MTTF(平均故障恢且时长)的思路,从故障发生时间.发现时间、响应时间、尝试处置时间、诊断时间、生效应急处置开始时间、故阳恢夏时间等t三应急处置的关键节点.通常,MTTI=发现时间-发生时间;MTTR=响应时间-发现时间;MTTK=定位时间-发现时间;MTTF=恢算
2、时间-定位时间.面对不断复杂的生产环境,要熠加TBF和缩短TTR的目标,需要围绕“故障发现、故障响应、故障定位、故障恢豆四个关键环节,在人员技能、协同机制、工具平台、数字化感知等方面进行统筹建设.一、故障发现故障发现指生产故障或潜在风睑极监控等机器或运维人员发现的过程,市点关注发现及时性.从故障发现角度看,主要包括监控发现、协同发现、数据运营三个方式.良好运维组织的故障发现应该大部分来自监控等自动化手段,甚至对一些确定性很强的故障进行自愈行为.其次,当前故障处2S过程是一个多角色协同的场景,构建在线协同网络有助于提升协同效率,基于协同网络建立高效的信息传递是当前提升故阳发现能力的重要手段。另外
3、,随着系统直杂性不断提高,运维组织也在推动数据运营分析工作,主动的基于数据运首推动故的发现将是一个有力补充.1.监控发现从人机协同角度看运维管理,监控相当于给运维团队分配了成千上万上机器人,这些机器人驻扎在硬件、平台软件等对象中,7*24不间断的采集指标数据,并将指标的异需情况实时推送出来.监控已经是发现潜在风险或异常的源头,推动监控发现的覆盖面、准确率.告警触达能力的提升,是缩短故障发现时长的关键举措.以下从被动监控、上帝视角、主动拨测三个角度分析如何提升监控发现能力.D掖动监控此处强调被动监控是为了区别主动监控,指代传统在基i出设施、硬件资源、平台软件、应用可用性、客户体验多个层级的监控管
4、理,以及统一的监控告警管理.这类监控方案通常是针对已知异常环节,采集指标数据,配置监控策略,以及触发策略后将监控告警统一推送到统一告警系统。对于源端监控端强调不漏报、少误报,实施上关注平台能力建设与工具运营两点:监控平台方面采用乐高式组合提升能力,比如缺性能监控补充APM、NPM,提升监控覆盖面;工具运营方面采用数据与机制运营推动,监控策略需要运维人员在工作过程中,结合企业系统的实际特点,在平台通用监控策略上持续的丰高针对性策略,运维组织需要建立事件或任务触发机制,比如事件巨盘对监控发现能力的分析,并通过主动的监控评审、监控告警数据分析等运营工作发现哪些系统监控监控的覆盖面与误报情况.2)上帝
5、视角传统被动性的监控管理是针对已知异常,进行补丁式的增强监控的方式持续完善的过程。但运维面临三个困难,一是隐若架构复杂性跋来越高,运维组织面临越来越多的的未知的故障;二是数据量与风险触发因素增强后,单维指标监控监控能力不足,而多维指标让人配JS又面临无法穷举的问题;三是运维对于故障发现已经在可用性故障基础上,增加了功能逻辑、数据类故障的发现要求,对于日志、链路的监控发现能力要求越来遁高.提出上帝视角是运维组织需要借助算法、海量数据、平台能力,构建一个全数字化监控感知的能力.这种感知能力需要尽量减少运维打补丁式的增加细化的指标策略,利用算法能力加深感知监控深度,利用海量数据加大感知监控广度,利用
6、平台加快感知监控的速度与穷举的能力.当然,当前这种上帝视角对监控发现的准确率、承盖面仍需要一个提升的过程,应该作为传统监控的一个补充手段,而非替代,3)主动拨测主动拨测监控是采用模拟用户访问终端、域名、页面UR1.功能、APl等,从客户视角监测功能可用性、感知用户端体验、秘则网络道路质量,系统事务可用性,领先一步发现问三S,提升客户体验.在企业推动以客户体验为中心的数字化转型中,拨测是监控发现的一种有力补充.借助机器不间断、自动化执行,提前设计好拨测执行的脚本步骤,可帮助运维执行更细粒度的功能操作,主动获取应用运行的性能体验1旨标,更准确地了解客户访问业务功能级的体验,以及应用层及网络膜性能.
7、同时,站在故障处背角度看拨测,当发生异常时将执彳班程进行截图留痕,还可以辅助快速定位问题。在拨测的解决方案中,通常包括公有云或私有化拨测方案,前者是通过拨测运营商提供部署在世界或全国各地的拨测源进行测试,用户不需要管理拨测终端,只要根据S1.A明确的时效性、次数等付费,就可以获得拨测结果.私有化部署的拨测方案则运维组织管理拨测涉及的服务器、终端设备等环境。运维组织可以根据政策、风险、成本等维度考虑选择不同的解决方案.2.协同反馈虽然我们希望故障尽量由机器自动化发现,但是随着基础架构、应用逻辑、业务逻娼越来越系杂,系统一个/J般块异常都可能导致系统自身甚至关联系统的业务连续性故障,建立一个在线的
8、协同网络,提升协同节点中业务、客户、同业、开发、测试等团队的反馈的效率,仍然是故障发现的有力手段.D业务、客户、同业反馈理想情况下,应尽量减少由业务与客户侧反馁的故障发现占比。但是现实中仍有部分故阳,当前监控或运营分析比较难实时发现,比如功能逻策性、数据准确性等类别,这些故障虽然不会带来全局性的可用性故障,但是站在以客户为中心角度,此类故障对个别或部分客户属于可用性故障,尤其是对公诉要客户或权益类交易故獐.针对这类故障.运维要提前建立一个高效的信息反馈的桀道,基于用户旅程梳理并建立全线上化的问题反城是一个好的选择,比如:将问题反馈整合在业务系统中,系统可强得快速获知用户反馈问题的热点信息,并通
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 IT 故障 处理 四个 关键环节 如何 控制