《深登运维规划方案_20120720-by-yxc.docx》由会员分享,可在线阅读,更多相关《深登运维规划方案_20120720-by-yxc.docx(52页珍藏版)》请在优知文库上搜索。
1、中国证券登记结算有限公司深圳分公司一体化运维管理平台规划UltrQQOuUer北京神州泰岳软件股份有限公司2024年4月28日目录1 引言41.1 编写目的41.2 项目背景41.3 定义41.4 参考资料42 基于目前管理现状的分析53 总体规划思想64 总体规划方案84.1 总体技术架构84.2 统一的配置管理子系统CMDBIl4.2.1 采用ADDM统一采集124.2.2 可视化展示和管理CI和关系124.2.3 故障定位与变更影响分析134.3 集中监控管理子系统144.3.1 面向虚拟化的监控管理144.3.2 机房环境的统一监控(可选)174.3.3 面向业务过程的监控184.4
2、自动化运维子系统194.4.1 自动化技术架构194.4.2 功能实现214.5 服务流程子系统升级294.5.1 平台升级294.5.2 建立知识库管理系统294.5.3 建立值班作业计划管理流程314.6 综合分析展现子系统334.6.1 业务影响视图展示334.6.2 建立信息中心统一门户系统344.6.3 建立丰富的大屏展现系统374.7 各子系统间的逻辑关系设计404.7.1 CMDB与监控的数据同步关系设计404.7.2 CMDB与服务流程之间的关系设计424.7.3 监控与自动化之间的关系设计434.7.4 服务流程与自动化之间的关系设计444.7.5 监控与服务流程之间的关系设
3、计454.7.6 监控与第三方管理平台的关系设计(可选)465 项目实施规划475.1 整体部署架构设计475.2 软、硬件配置建议485.3 分阶段建设建议491引言1.1 编写目的本文档根据中国登记结算有限公司深圳分公司运维现状和预期目标进行详细的设计,旨在为IT运维二期提供解决方案路线和参考。1.2项目背景阐述中国登记结算有限公司深圳分公司的IT运维背景1.3 定义术语、规范的定义)1.4 参考资料本解决方案所参考的技术资料2基于目前管理现状的分析IT运维管理的建设,需要经历一个长期的过程,通过循序渐进,逐步提高的建设思路来达到管理目标。而随着IT技术的日新月异,企业的IT技术也逐步形成
4、了高水平、高技术、高成本的运营模式,主动化、自动化、标准化的运维管理体系成为了IT运维发展的重要目标之一。随着中国证券登记结算有限公司深圳分公司的IT运维管理建设,目前已经形成了面向全范围内的IT设备集中监控和标准的IT服务流程管理。在集中监控层面,采用神州泰岳集中监控管理系统Ultra-NMS和BMC底层采集代理产品BMCPatrolAgent实现了面向生产网、办公网、Prop外联网、管控网、开发测试网等,涵盖网络、主机(AlX、UnixWindows、1.inux.AS400等)、数据库、中间件、AWS等集中的监控管理;在服务流程方面,采用BMCRemedy平台建立了服务台、事件、问题、变
5、更、配置等管理流程,实现了分公司日常运维管理工作的标准化。以此形成了一个符合日常运行管理的标准管理体系,从监控和服务流程管控等方面提升了分公司的运维管理能力。但随着技术的不断发展和管理需求的不断提出,这种仅面向监控和服务流程的管理已略显不足,我们需要更为全面的管理体系来实现深圳分公司的主动化、自动化和标准化的运维管理。主动化运维则不仅仅是主动的监控管理,其更深层次的目标则为面向整个分公司的统一资产的集中运维、业务关系的深化分析、业务逻辑的构建,并以此作为基础形成精细化的监控管理和故障定位。自动化则要求在以全分公司资产作为基础,在此基础上形成自动化控制手段,以标准的自动化手段实现对服务器的统一和
6、和规划操作,以降低风险、提升工作效率。标准化则要求以标准的流程进行约束,并形成以统一的资产作为核心,进行上层的流程流转和控制,形成标准的流程管控体系。为此,在主动化、自动化、标准化的要求下,需要形成以统一资产管理(CMDB)为核心,支撑集中监控管理(NMS)、服务流程管理(Remedy)、自动化管理(Blade1.OgiC)的统一运维管理体系。同时,为了更全面更有效的利用、分析管理数据,为系统规范、系统分析、决策判断提供准确的依据,需要通过综合分析展现平台,进行多视角、多维度的分析,直观展示业务、应用及系统的运行状况、发展趋势,为系统扩容优化、业务质量考核提升提供运维数据支持。并增强运维体验,
7、以人性化和丰富化的展现手段呈现日常管理情况,不断增强运维平台展示效果,提升运维管理的主动性和积极性。3总体规划思想基于中国登记结算有限公司深圳分公司的IT运维管理现状分析,为更进一步提升日常的管理效率,从整体上提高深圳分公司的IT运维管理能力,保隙日常业务的稳定运行,建设成真正意义的主动化、自动化和标准化运维管理体系,需要结合目前深圳分公司的建设情况,在已有的平台基础上进行统一的规划和建设,形成面向监、管、控全面的运维平台。根据前面的分析,本次将以建设一个统一的运维管理平台为出发点,以统一CMDB作为核心,支撑集中监控系统、服务流程系统、自动化运维系统和综合分析展现系统。即以此形成一个平台、五
8、个子系统的运维架构。附图1.总体设计思想以CMDB为核心,建立一个平台五个子系统一个平台即指整体的IT运维管理平台,从主动化、自动化、标准化的运维管理目标出发进行建设,形成面向深圳分公司的统一运维管理。 统一CMDB管理:以统一的CMDB作为核心,通过CMDB建立资源模型,并树立Cl之间的关系,形成面向整体业务的逻辑进行管理,并以此支持集中监控、服务流程、自动化系统和综合分析展现系统的数据消费,形成集中的管理界面呈现和本文档仅限北京神州泰岳软件股份有限公司和被呈送方内部使用,未经许可,请勿扩散到第三方。第6页共51页分析,从而达成主动化、自动化和标准化的管理目标。 集中监控管理:采用目前已有的
9、集中监控系统,在目前已实现的监控管理基础上,新增对虚拟化的监控,并实现对跑批业务的集中监控,形成试点和管理标准,从以往关注IT组件层面的监控管理提升到端到端的面向业务的管理,实现对应用层面,业务流程层面,用户层面全方位深入的监控和管理,并为业务系统运维的后期管理提供可参考模型。 标准服务流程管理:借助现有的Remedy流程系统,进行服务流程的控制,并开发相应的接口,实现与集中监控、自动化之间的接口, 自动化运维管理:采用自动化系统进行日常变更操作的自动化、和规划和巡检的自动化,并通过与统一CMDB、集中监控、Remedy流程的结合形成真正意义上的监管控一体化运维体系,充分发挥平台一体化优势,充
10、分利用产品功能,避免孤岛系统建设。 决策分析深化:采用集中化的管理门户和报表,将各类数据源进行统一展示和分析,使用者在个性化的视图中对多个系统数据进行浏览和处理,并建立丰富化和人性化的展现体系,如大屏展现,将管理数据以美观丰富的界面层面给管理者,提升管理的积极性。五个子系统: 统一CMDB子系统:采用AtriUmCMDB进行搭建,并通过梳理建立Cl之间的模型关系。 集中监控子系统(监):采用NMS集中监控系统搭建(已有)。 服务流程子系统(管):采用Remedy服务流程进行搭建(已有)。 自动操作维护子系统(控):采用Blade1.OgiC进行搭建。 综合分析展现子系统:采用UItra-ReP
11、ort、UIP、ShOW进行建设(部分已有)。为了形成一体化的运维管理,还需要梳理五个子系统之间的逻辑关系,形成数据的统一流转和消费。4总体规划方案 .1总体技术架构总体技术架构采用一个综合运维平台、五大子系统进行构建,即由五大子系统构建成符合深圳分公司的IT运维管理平台。五大子系统包括统一CMDB子系统、集中监控子系统、服务流程子系统、自动化管理子系统、综合分析展现子系统。五大子系统以CMDB作为核心,支撑周边系统运行,采用数据同步、消费等支持关系,构建出一体化的运维体系:半食白一用M1i啊T理I三三l819T,他踩U碎石发布攫主机雷控中诩拙控机店皆亚苓系唉C相片曾控Trgp告警I已有窿口f
12、待谏椿口O已有功能。待0功能数据库附图2.总体技术架构在架构设计中,充分考虑到深圳分公司目前已经建设的系统情况,采用统一CMDB作为核心,结合现在正在稳定运行的集中监控系统和服务流程系统,并通过新增相关功能模块实现监控的全面化和深度化,通过接口的开发实现数据的同步和消费,从而形成以CMDB为核心,支撑监、管、控和综合分析展现的IT总体运维框架。整体架构逻辑说明如下:1、采用CMDBADDM进行综合数据采集。针对被管对象的数据,涵盖网络(安全设备)、主机、数据库、中间件、业务系统的资源数据由CMDBADDM进行统一的采集入库,并通过CMDB构建Cl之间的逻辑关系,形成逻辑关系视图。2、采用现有集
13、中监控系统进行运行数据的采集。采用现有的Ultra-NMS实现对被管对象,涵盖网络(SNMP)、主机(BPM)、数据库(BPM)、中间件(BPM)、业务系统(接口)的运行数据采集,并通过与CMDB采集数据进行同步,将CMDB的部分资源数据同步入NMS。3、机房环境监控系统通过接口向集中监控系统传递告警事件,主要采用TraP告警的方式,传递告警事件,形成集中的告警管理。4、集中监控系统在告警产生时,通过接口将事件传递至服务流程系统,在服务流程系统中自动生成工单并处理。在事件处理完毕后,服务流程系统返回参数至集中监控系统,进行告警清除。5、CMDB提供数据为服务流程系统进行消费,并通过关系建立,在
14、流程中可提供可视化的业务关系视图和业务影响视图,为审批决策提供参考数据。在变更流程审批通过且变更实施后,将自动改变CMDB的Cl属性或关系。6、服务流程系统驱动自动化流程,并在需要自动化操作时进行关联,并由自动化系统驱动指令进行下发,执行变更操作,并将变更的结果返回服务流程变更流程,告知变更成功,若变更不成功,则通过TraP告警的方式告知集中监控系统进行处理。7、数据最终以综合分析展现系统中进行统计分析、综合呈现。下面以一个业务场景进行整体架构的描述:以用户申请安装一个虚拟机环境为例。综合运维管理平台采用ADDM自动发现ESXSerVer的资产信息,并进行入库,通过CI关系的梳理,形成该ESX
15、Server与相关业务之间的关系。由NMS进行系统运行状态的采集,采集其关键KPlS的性能和告警信息,在正常运行的情况下,可进行资源的申请。由该用户发出服务请求,通过Remedy平台建单进行审核,相关审核人员可通过Remedy工单系统查看到该资源对应的业务系统关系,并判断其资源占用是否会影响到现有业务系统的稳定运行。若会产生影响,则审核不能通过,若不会产生影响,且在允许的情况下,则通过审核。通过审核的变更调用与自动化BIade1.ogiC的接口,自动下发指令,由系统自动安装该虚拟机及相应的应用软件。在自动化操作完成后,将发送状态至Remedy流程平台,告知关闭工单,并改变CMDB中的Cl数据。若自动化操作不成功,工单不关闭,发送TraP告警至Ultra-NMS进行告警展示,并进入服务流程进行该告警的处理,在告警处理完毕后,返回Ultra-NMS进行告警清除,关闭工单。这样,一个标准的、自动化的运维变更就完成了虚拟机环境的申请和自动安装,并通过后续的统计分析和展现,对整体运维工作进行结果汇总,以达到考核管理的目的。 .2统一的配置管理子系统CMDB配置管理系统(CMS)是整