(案例)MaxGauge助力证券行业数据库智能运维管理.docx
《(案例)MaxGauge助力证券行业数据库智能运维管理.docx》由会员分享,可在线阅读,更多相关《(案例)MaxGauge助力证券行业数据库智能运维管理.docx(4页珍藏版)》请在优知文库上搜索。
1、一、当前智能运维现状智能运维(AlOPS)是将人工智能应用于运维领域,基于机器学习的强大能力,学习海量运维数据的规则,挖掘数据的内在价值,为运维提供更可靠的决策依据。智能运维的场景包括但不限于:故障发现,故障定位,故障分析,故障恢复,事件关联分析,日志检测,故障预测,容量预测,智能交互,专家系统等等。智能运维是当前炙手可热的话题。随着技术的成熟,落地AIOps项目案例也越来越多,各大银行都发文阐述支持AIOps方向,在银行运维各个环节全面开花。数据库智能运维平台是其中的一个细分项目。智能运维能在当前迅速发展和落地,与当前技术发展背景息息相关。一方面是大数据技术的成熟应用,一方面是人工智能算法的
2、蓬勃发展。最后切合运维中需要解决和提高的各类场景,智能运维是传统运维强有力的补充和升华。二、为什么要做智能运维人工智能技术发展到今天,在计算机视觉、自然语言处理、智能机器人、专家系统、智能推荐等领域得到了普遍应用。然而在运维领域,人工智能还属于开发实践阶段。人工智能核心是通过运用机器学习的技术来实现分析和决策。机器学习技术,包含深度学习,强化学习等方向,最核心能力是回归和分类。回归能力其实也就是预测能力,例如判断房价。分类能力也就是决策能力,例如识别图像种类。几乎所有的人工智能应用场景都是基于这两种能力。就像在计算机世界只有一O和1一样。在人工智能领域,就是回归和分类。系统运维其实也就是在运维
3、中判断和决策。因此人工智能技术非常适合运维场景。智能运维,就是将机器学习的能力利用起来,实现更好的自动化运维,甚至是最终的无人运维。三、证券领域探索如何应对金融市场的快速变化,建立符合市场需求的新一代信息系统是证券一直在追求的目标。为了能够实现效率和敏捷,新一代信息系统应用组件往往采取分布式部署的方式,使得应用程序的环境非常复杂。在这种复杂的IT架构当中,核心的数据库管理成了重中之重。证券急需从手动为主的被动式数据库管理方式,转换为以专业可视化数据库管理软件为基础的智能运维管理。证券在提高IT系统性能及数据库性能管理方面一直先行先试,本篇重点介绍证券如何通过MaxGauge性能优化管理软件实现
4、在数据库智能运维与分析方面的一些经验。众多数据库性能管理软件中,我们选择了MaxGauge作为数据库性能管理解决方案。这是由于MaxGauge是已经在金融市场上经过验证的,轻量级、专业的秒级别性能管理解决方案。通过MaxGauge我们实现了以下管理目标。1 .可视化管理。之前为了确认数据库的运行情况,需要手动连接数据库运行SQL来获取各种信息。除了耗费时间以外,可视化程度不高,也无法做到实时确认数据库状态。而通过MaxGauge的秒级别统一监控画面,可以对所有实例的运行情况做到秒级别实时监控,减少了大量的日常检查工作。2 .快速定位问题。在导入MaxGauge之前,由于管理的数据库很多,只有当
5、问题发生时才会连接数据库进行分析,由于手动获取各种数据库信息,所以需要耗费大量时间来排除故障。而通过MaxGauge可以设定核心性能指标的临界值,当数据库产生影响之前,发现问题点,并且通过简单双击,就能确定产生问题的各种信息,做到快速定位问题,解决问题。3 .障碍分析。之前数据库发生障碍,通过Failover等紧急处理方式,恢复业务以后,由于没有问题时间点的数据库运行记录,很难分析具体的问题原因。AWR等工具由于时效性差,无法提供问题当时的原因。MaxGauge的历史记录分析功能,可以把每秒的数据库运行情况及性能统计信息保留起来,可以快速回溯问题发生当时数据库正常处理的应用程序、性能指标、等待
6、事件、SQL等信息,协助DBA得出具体问题原因,以防止相同问题再次发生。4 .容量管理。容量管理是数据库管理中非常重要的工作,可以根据各种资源的使用趋势,确认当前及未来的业务运营情况下,资源是否满足需求的积极应对方案。之前这些工作也消耗大量工作时间。通过MaxGauge自动收集保存所有性能数据,并且完成趋势报告书,这就大大减少了手动统计工作。5 .MaxGauge与智能运维平台的无缝融合。证券使用智能运维平台设置了数据库管理所需要的目标KPI及KPI分析方法,再通过MaxGauge实现了对数据库数千种指标进行实时采集监控,关键的数据库指标如lockwaitinglogicreadslogfil
7、esyncIogfileparallelwriteactivesession等将会直接通过数据总线到达智能运维平台。借助证券智能运维平台的单指标异常检测功能实现对这些核心指标的实时异常检测,从而解决了传统的只能通过固定阈值来进行监控的弊端。同时,MaxGauge采集到的数据库指标与证券APMNPM、基础监控、日志采集平台采集到的业务数据、运行数据、网络数据、基础性能数据、日志共同实现了业务的全链路监控。在故障发生的时候,首先通过单指标异常实时监控发现问题,然后通过多指标异常的离群算法、聚类算法、排序算法给出最有可能的故障模块或者KPl,最后通过日志模版提取与检测算法对相关的日志进行异常日志定位
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 案例 MaxGauge 助力 证券 行业 数据库 智能 管理