故障定位需要什么样的能力.docx
《故障定位需要什么样的能力.docx》由会员分享,可在线阅读,更多相关《故障定位需要什么样的能力.docx(4页珍藏版)》请在优知文库上搜索。
1、运维自动化系统中最难做的部分就是故障定位,目前大多数做智能化运维的企业都使用异常检测算法来定位故障.实际上异常检测算法能够发现异常现釜,很难真正的实现对故障的定位.纯数学的克法往往只能发现某些数据是异常的,而这个“异常发现也是要依靠参数的,比如我们设定95%的数据是正常的,5%是异常的,而实际上故障发生不会像数学那样精准,同一类故障在故障持续的时间内的数据特征都会有所不同,而同一类故障在两次发生时,其在数据上的差异也可能很大。虽然对于智能系统来说,做故障定位目前还只是处于探索阶段,不过运维人员做故障定位是拥有丰京的传统的了.我这些年参加的各类运维项目有数干个了,我自己总结了一下,人类进行故障分
2、析时的一些分析过程,这些过程如果要使用算法来实现,也大多数是可行的.故障分析根据故障的表象判断可能的诊断路径是一个运维专家所必须具备的能力,这些能力往往是通过大量的运维案例不断的积景下来的。这也是专家有别于普通运维人员的地方.初级的专家往往能够对已知的故障有敏锐的发现能力,可以根据自己遇到过的故障现象快速找到问题的根因,更为资深的专家能够从一些普适性的故障现象中通过系统的内在原理猜测出某个现象背后可能的原因,因此这些资深专家能够更快速的发现未知故障可能的原因.计箕机系统是按照某种需要而经过精密设计的系统,不是混沌系统,因此如果完全依免数学算法去做异常检测来发现问题,实际上是不够科学的.某个现象
3、关联的因素,每个指标意味着的现象,每个等待事件产生的因素,实际上并不是混沌和无序的,是有一定的关系的,如果我们能够把这些因素都找出来,或者能够根据当前的一些特殊系统特征发现出来,那么对于后续的问题定位十分有益.这部分工作如果需要用自动化系统来做,那么构建这些关系的运维知识图谱是十分有效的。如果能够把专家脑子里的经验、以往经历过的运维案例都做出完善的梳理与分析,那么就可以构建起足以支撑今后运维分析的运维知识图谱了.十分可惜的是,一方面我们的专家没有梳理运维知识图谱的经验,一方面某个单一企业保留下来的足以构建运维知识图谱的案例数据过少,因此对于一个单一的企业来说,要构建这个运维知识图谙,确实困难不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 故障 定位 需要 什么样 能力