《XX省公安厅智慧运维管理系统建设内容.docx》由会员分享,可在线阅读,更多相关《XX省公安厅智慧运维管理系统建设内容.docx(39页珍藏版)》请在优知文库上搜索。
1、XX省公安厅智慧运维管理系统建设内容一、需求分析(一)业务功能、业务流程和业务量分析业务功能分析本次项目的功能包括以下内容:()统一资源配置建立分级分类管理的统一资源配置库;支持资源自动发现、批量导入、第三方接入;支持资源模型自定义和表单自定义;可通过自动化或人工方式监理资源关联关系;支持资源历史版本记录。从全局角度实现图形化的配置项、配置关系展现,真实地反映业务系统、主机(云服务器)、存储、数据库、中间件等资源的关联关系。同时,配置管理不仅需要实现对IT软硬件资源的管控,还可以从业务角度出发,建立面向业务的架构图,直观地描述系统边界、内部结构和组件依赖关系,帮助运维团队快速排查故障根源。()
2、集中监控管理具备云环境及传统架构下大规模实时监控和数据采集能力,实现现有全部软硬件、基础设施等运维资源全覆盖;支持通用协议、AgCnt、第三方接入、日志分析等多种监控方式;采用易扩展、可视化方式集中展现运维资源监控结果;支持监控策略、监控参数自定义配置和分级分类管理。信息包括实时或历史的性能信息、状态信息、事件信息、告警信息、报表信息等,实现各类监控数据的准确、灵活可视化呈现。()统一告警管理从资源和应用视角实时展现告警状态,提供清晰的、集中的告警事件管理,基于资源配置的关联关系和规则配置,提供场景化告警关联和交互分析能力;支持告警策略和参数配置,将各种设备或业务系统产生的事件作为原始事件,按
3、照预定义的事件规则,经过过滤、分类、分级、转换等处理环节,形成有效的预警或故障告警信息;支持短信、X政钉等多种告警推送方式,按预定的方式通知管理人员或自动响应;支持第三方告警接入;对生成的告警提供升级、自动或手工消除等管理手段。监控系统能够将告警传递到告警视图、拓扑图、业务影响度视图中。()智能故障分析实现多源数据采集、高效实时分析能力,支持监控告警的去重、降噪、静默;利用大数据量的采集、预处理、存储、分析工具,采用智能算法、关联分析等方式自动进行故障根因分析,支持可视化告警追踪和影响分析,提供故障原因推荐和处置建议;自动化生成、关联运维任务工单。()运维流程管理具备流程配置引擎,支持自定义运
4、维流程;具备可视化流程业务规则配置功能,支持人工/自动节点混排;自动化生成、关联运维任务工单;支持运维流程与资源配置项关联。()自动化运维具备自动化巡检和巡检报告发布功能;支持自动化策略配置和低代码脚本编制功能,内置常用脚本库;支持监控告警故障联动。()运维管理信息化具备运维项目全流程信息化管理功能,并支持资源配置、监控告警关联;具备运维人员基础信息、工作成果、考勤考核等管理功能;具备运维值班编排、展现和监控告警、运维流程关联功能;提供运维信息发布展示功能;提供运维知识库并支持故障告警关联。()数字化运营提供监控、配置、流程等各类数据的可视化呈现能力,通过可视化工具快速定义各类视图,面向不同层
5、次管理人员、不同场景、不同业务系统,设计、定义层次化、多维度的展现视图;具备可视化应用拓扑和资源展示功能;具备可视化机房基础设施和设备管理功能;具备运维项目绩效可视化展现功能;支持基于监控告警、资源数据的可定制专题数字大屏配置;丰富可配置的统计分析报表。业务流程分析本次项目的项目的核心流程包含,监控告警运作流程、事件/故障运作流程、数字化运营运作流程。()监控告警运作流程监控告警的流程分为监控采集、资源配置管理、监控告警、消息存储、告警通知推送等环节。监控采集:通过基础设施监控、前端监控、应用监控、业务监控等监控能力获取数据,并向相应的网关进行监控消息的投递,监控采集是整个告警运作的神经末梢。
6、资源配置管理:主用于收一个集群或应用系统中所有监控日志数据并对数据行清洗、结构化处理,结合CMDB建立关系归属,完成数据归集后进入监控告警引擎。监控告警引擎:整个监控系统的核心,负责监控任务执行、处理监控数据并将处理好的结果数据以监控指标的形式进行消息存储。告警通知:告警的监控指标会经由故障/事件处理流程做告警判断并生成告警事件,对相同类型的告警事件进行聚合处理,然后根据告警规则将告警消息推送到指定的用户。Web页面:监控系统与用户的交互界面为用户提供监控配置和展示界面,承载告警监控工作台的职能。()事件/故障运作流程事件/故障的运作包含故障发现、故障处理、故障恢复、故障复盘四个阶段,由业务部
7、门、运维部门、服务方三类角色参与协同。故障发现:监控或其他渠道接收到故障申报时,根据结构化故障等级定义模块配合指标计算,形成告警通知运维支持人员与应用责任民警。故障处理:当事件响应升级达到故障响应级别标准时,通过事件自动化通告、人工故障通告等方式发起事件工单,可以根据已有的应急预案,匹配出相应的处置模板及流程,并进行恢复。故障恢复:由开发商发起环节恢复确认,系统分析各环节均完成恢复后由应急响应人员确认应用系统的最终恢复状态。确定应用完成恢复后,由平台下发恢复通知给相关部门。故障/事件复盘:故障/事件处理全流程由系统进行记录、建档存留。并按需组织专家进行复盘分析,必要时通过问题或变更等流程对发现
8、的问题和产生的变更进行分析记录。()数字化运营运作流程数字化运营来源支持对接多种渠道多业务模块的运行数据、管理指标数据,通过离线计算计算将数据进行分析计算,依托统计分析报表工具、低代码大屏工具将指标进行聚焦,最终形成各类运营分析报告。业务量分析实现对政法云、萧山云资源及厅信息中心服务器、网络设备、虚拟化服务器、软件系统、机房动环消控设备及云平台资源的设备信息、运行状态、性能状态、业务关系等进行实时检测采集、分析、告警等功能。与X警智治等综合系统关联“X警智治”平台是以公安部“六统一”标准为原则,遵循数字使用三大理念,全量整合各业务警种的系统、数据、服务、算法等资源,实现纵向、横向及各专项业务的
9、一体化,建成功能贯通、系统融合、综合集成、全省统一的中枢平台。本次项目建设的智慧运维平台是“X警智治”平台四横四纵体系中的运维体系部分,用以支撑“X警智治”内能力及基于“X警智治”体系的智慧应用的运维保障体系。(二)信息量传输量和存储量分析与预测本系统主要传输和存储数据为应用系统运行监测、告警数据及相关分析结果数据、日志采集数据等,预计存储应用元数据及业务数据2.2T,日志分析数据1T,历史数据存储及综合使用率计算分析数据5T。(三)系统功能和性能分析和网络安全需求分析系统功能系统功能体系,容包含:用户管理、授权管理、角色管理、角色组管理、部门管理、口志管理。()用户管理对接X警智治用户体系进
10、行建设。()授权管理结合X警智治体系从组织、资源、应用等维度对用户操作权限进行授权,各级管理员只负责管理自己直属管理员以及其管辖范围内的用户权限,做到管理员不越级、不跨级管理,提高数据安全性。提供授权管理能力,包括新增、修改、删除和查询展示授权列表能力。()日志管理提供日志管理能力,包括应用系统日志查看、操作审计日志查询。性能分析1.用户数:支持平台用户数500人以上,并支持同时在线100人;2 .并发查询:大于100个,平均响应时间1-3秒;3 .平台查询服务接口响应时间:不超过10秒。4 .平台要求7X24小时不间断运行,年故障时间比小于95%o5 .告警监控收敛率大于80%;6 .知识库
11、文档数量5000,钉群服务机器人在线率90%;项目网络安全情况分析本项目建设过程中,主要涉及公安网,不涉及视频专网和互联网等网络,为了保障系统的安全,数据的流转需采取相应的安全措施。各系统对于安全要求较高,根据公安部信息安全等级保护管理办法(公通字200743号)本项目信息系统受到破坏后,会对公民、法人和其他组织的合法权益产生特别严重损害,或者对社会秩序和公共利益造成严重损害,或者对国家安全造成损害,建议方案总体考虑按照等级保护第三级的相关要求进行建设。(四)数据结构与信息资源共享需求分析数据结构本系统数据主要包括运维监控数据、告警数据、资源库数据、运维项目数据、运维人员数据等。1.运维监控数
12、据。包括监控点位配置、监控策略、运行状态等;2 .告警数据。主要为标准化的告警结果数据,包括主动监测告警和第三方推送告警;3 .资源库数据。包含云上及云下所有运维对象等资源的分级分类可灵活扩展的配置管理数据库。4 .运维项目数据。包括项目档案、项目流程、项目文档等数据;5 .人员数据。包括人员档案、进出管理、考勤管理工作记录等数据。(五)信息资源共享需求1.产生数据。本项目产生的运维监测告警、资源库等数据可共享给相关业务警种用以进一步分析系统故障原因、优化完善系统功能。6 .数据需求。(1)地市数据归集。级联市级运维管理平台,实现全省运维数据的一站式管理和分析。(2)应用效能数据归集。通过对接
13、X警智治系统,调取警综平台、资源综合服务平台等系统平台数据获取应用系统用户活跃度、数据贡献度等数据,强化应用系统效能评测能力。二、建设需求(一)总体思路本系统需按照“统一标准,智慧运维”的原则,建设具备规范有序的系统及应用运行保证能力、优质高效的服务提供能力、精细灵敏的态势掌控能力、智能高效的应用支撑能力。(二)技术路线(1)应用监控技术应用监控技术,主要监控应用信息,例如JVM的GC,线程,应用异常、Error错误量、中间件指标、应用的集群热力图、应用的变更历史、应用的黄金指标信息等。其通过对MCtric、TraceLog三个可观测维度数据的清洗整合。这三类数据的特点、转化方式以及适用场景大
14、致如下:1.ogs:记录事/物变化的载体,对于常见的访问日志、交易日志、内核日志等文本型。日志在调用链场景结构化后其实可以转变为Trace,在进行聚合、降采样操作后会变成Metrics0Metrics:是聚合后的数值,相对比较离散,一般有name、IabeIs、time、values组成,MetriCS数据量一般很小,相对成本更低,查询的速度比较快。Traces:是最标准的调用日志,除了定义了调用的父子关系外(一般通过TraceIDSpanIDParentSpanID),一般还会定义操作的服务、方法、属性、状态、耗时等详细信息,通过Trace能够代替一部分Logs的功能,通过Trace的聚合也
15、能得到每个服务、方法的Metrics指标。通过将三个指标进行组合,以满足各类监控、告警、分析、问题排查等需求的技术成为应用监控技术。应用监控技术可帮助运维监控系统形成对业务完整链路每个关键节点的可视化监测能力,从用户体验直到代码性能,逐级下钻、引导分析,帮助快速发现问题、定位问题,缩短MTTR0(2)链路跟踪技术链路跟踪技术即跟踪请求在分布式系统中的流转路径与状态。而单链路诊断,顾名思义,就是基于单次请求关联的调用轨迹数据,定位问题原因,属于链路追踪的核心功能之一。技术实现链路上包括:核心接口埋点。对接口进行插桩,在执行前、后添加埋点,是为了记录调用经过接口时的链路唯一标识(TraceId),调用层级标识(SpanId或RPCId)、时间、状态、IP、接名称等信息;然后再通过TraceId和RPCId(或SpanId)将一次请求的所有接口信息关联在一起,并以调用链的形式进行可视化展现。自动关联数据。大部分场景下,只依赖接口埋点数据,不足以定位根因。此时,我们还需要记录DB执行的SQL,接口调用的入参与出参信息(比如用户ID、事项ID、错误码等)以及调用过程中抛出的异常堆栈,来进一步缩小问题范围,提高排查效率。主动关联数据。接口调用与业务行为并不是完全对等的,比如一次购买行为由于条件不满足而执行失败,这在业务语义上无疑是失败的,但是在系统调用层面却是成功的