《机房运维服务方案.docx》由会员分享,可在线阅读,更多相关《机房运维服务方案.docx(17页珍藏版)》请在优知文库上搜索。
1、机房运维服务方案目录1 .运维服务计划31.1. 故障的发现31.2. 故障的处理31.3. 故障的记录31.4. 故障的升级上报31.5. 报告内容41.6. 应急处置41.7. 故障处理后的测试验收51.8. 故障书面报告51.9. 故障报告填写及报告52 .运维服务保障措施52.1. 运维服务保障目标52.2. 运维服务保障原则62.3. 运维服务保障策略62.4. 运维服务保障体系72.5. 运维服务保障措施83 .重点难点保障措施103.1. 运维机制部署103.2. 运维机构部署113.3. 重点难点工作具体保障处理方案12一、运维服务计划(一)故障的发现工作人员在发现故障或接到故
2、障报告后,首先要记录故障发生时间和发现时间,以及发现部门、发现人及联系电话,对故障的等级进行初步判定,并报告相关人员进行处理。(二)故障的处理1.发生故障的应用区域为故障处理部门,故障处理部门领导负责通知和落实相应身位人员到达现场,故障处理部门应首先指定现场指挥人员,指挥人员应先询问了解设备和配置近期的变更情况,查清故障的影响范围,从而确定故障的等级和发生故障的可能位置;3.4. 一般性故障按照故障升级上报要求进行上报,并在处理过程中及时向主管领导通报故障处理情况。3.5. 重大故障按照故障升级上报要求进行上报,并在处理过程中及时向主管领导通报故障处理情况。(三)故障的记录在故障处理中,应对其
3、过程进行详细记录,其中包括故障处理的负责人,检查的内容及结果,对故障的判断及处理办法,以及故障处理过程中各步骤及执行人员。(四)故障的升级上报根据故障等级和发生的时限,要对故障的情况进行及时的上报,并对报告人,告知人及时间及内容进行记录。重大故障由处领导负责上报,一般性故障由故障处理部门负责上报。故障处理部门是负责受理和处理网络和信息安全突发事件的具体行政机构,在接到突发事件报告后,要按下列工作程序处置:1 .一级故障的报告程序(1)发现故障岗位人员根据故障初级判断结果,立即向主管领导汇报;(2)主管领导根据故障初级判断结果,迅速将有关情况报告安全应急领导小组或本处领导,报告时限不能超过30分
4、钟;(3)经排查故障无法在1个小时内排除,将该突发事件形成书面汇报材料呈报给主管领导,同时向上一级主管部门上报情况。2 .二级故障的报告程序(1)发现故障岗位人员根据故障初级判断结果,将故障有关情况向技术部部长汇报,报告时限不能超过30分钟;(2)技术部根据故障初级判断结果,迅速将有关情况报告信息系统安全应急领导小组,报告时限不能超过60分钟;(3)经排查故障无法在4个小时内排除,将该突发事件形成书面汇报材料呈报给主管领导。3 .三级故障的报告程序(1)发现故障岗位人员根据故障初级判断结果,将故障有关情况向技术部部长汇报,报告时限不能超过1小时;(2)技术部根据故障初级判断结果,迅速将有关情况
5、报告信息系统安全应急领导小组或主管领导,报告时限不能超过4小时;(3)经排查故障无法在8个小时内排除,将该突发事件形成书面汇报材料呈报给主管领导,做故障升级处理。4 .四级故障的报告程序(1)发现故障岗位人员根据故障初级判断结果,将故障有关情况向技术部部长汇报,报告时限不能超过24小时;(2)将有关情况报告部门负责人,必、要时向办公室主任、技术处长汇报。(五)报告内容报告内容包括突发事件发生的时间、地点、过程、状况、原因及影响等。(六)应急处置1 .根据故障情况立即进行应急处理,防止事件进一步扩大,同时由信息系统安全应急处置工作小组分析该故障的起因,判断需要的处理时间,并根据判断结果按故障升级
6、上报程序,逐级上报;2 .根据突发事件的性质、级别,决定启动相关系统技术应急预案;3 .根据事件级别以及对业务影响程度的评估结果,向信息系统安全应急领导小组报告,应急领导小组决定是否启动业务应预案,配合业务部门开展应急处置工作;4 .应急领导小组授权办公室或责任人通过内外网站、传真等媒介通报突发事件有关信息;5 .根据故障可能产生的原因尽早联系上一级技术部门、设备供应商请求技术支持,并将联系外协支持的情况记录在案。(七)故障处理后的测试验收故障的处理后,故障处理部门要进行自测,然后提交用户进行确认,当用户对处理结果认同后,故障最终确认解决。(八)故障书面报告对于重大故障和拖延时间较长的一般性故
7、障,在处理过后,应对故障及处理的全过程进行总结,以文字形式进行报告。对于影响较小的一般故障处理,在维护日志中做完整的说明和记录。(九)故障报告填写及报告故障报告应包括以下几方面的内容:故障处理过程的原始记录,故障情况描述及故障处理情况说明,报告中要明确说明故障处理是否准确和及时,有无明显的失误,有无违反规定行为。语言应简明扼要,对情况描述要清楚、有条理。故障处理部门的技术部部长将对故障报告进行全面审核,无误后签字并报领导(签字),重大故障报告需报主管领导。二、运维服务保障措施(一)运维服务保障目标运维服务保障的目标是保障本项目相关应用系统始终在良好的状态下运行,尽量及时发现和消除故障隐患,在系
8、统发生问题时,能以最快的速度得到响应并修复,让用户满意。秉承如下质量保证宗旨和目标:为本次项目相关应用系统数据及应用系统的硬件软件运行提供及时、高效、全方位的技术支持与服务;以热情、诚挚的态度,优质、过硬的技术服务于用户;不但要理解用户提出的要求,还要力求预知用户潜在的要求;不仅要为用户提供一流的产品,而且还要提供一流的服务;以先进的管理提高服务的效率;以出色的服务态度建立良好的服务界面;以多样的媒介方式提供方便的服务接入;以科学的方法为用户提供满意的服务;通过对受理的服务请求进行归档整理,针对系统形成常见问题解决手册,为系统的正常运行提供经验支持;在对用户的服务过程中,重视用户对服务质量的满
9、意度。在技术支持与运维服务工作中,一贯遵循以下准则:确保系统的正常运行;充分保护用户的投资和效益;充分满足用户的需要充分减轻项目单位的负担。(二)运维服务保障原则实效性原则即时响应,将会根据系统的硬件配置、应用需求、地理环境等因素,采取电话、远程诊断和现场服务的方式及时解决应用系统各种突发的故障、技术错误、操作问题等。前瞻性原则将会对问题做出预见性分析,并为用户系统未来的发展和扩展提供专业的建议。顾问性原则将为用户提供免费咨询服务。对于用户使用系统过程中遇到的问题,进行收集和分类,并进行有效的改进。完整性原则将会为所提供的设备进行服务支持,并对用户与系统相关的其它设备提供必要服务。规范性原则的
10、服务过程将会全面公开,用户可随时进行监督,从而保证服务的质量。(三)运维服务保障策略服务标准化基于IS09001质量控制体系的技术服务标准,形成标准化的作业流程、追溯制度、文挡、服务用语及资格认证等。服务体系化建立热线用户服务体系,让用户能够以最简单的方式直接反映使用系统遇到的问题。服务主动化制定定期的回访制度,针对用户问题比对历史案例,预先提出解决方案,并保证服务在短时间内到位。服务电子化针对具备上网条件的用户,提供远程登录、WEB互动、在线支持等电子化服务内容,逐步建立完善的电子化服务渠道。服务现场化在项目附近设立建立运维团队,确保服务即时响应快速解决。(四)运维服务保障体系1 .技术支持
11、服务规范为了保证在技术支持服务中工作的规范性及相关信息的反馈,特制订技术支持服务规范。所有支持人员必须经过严格的资格认定,并承诺遵守保密协定、遵守技术支持人员工作规范、响应条例。2 .技术支持服务体系优质服务有赖于一个完善的服务机制。的服务体制由专项方案制定、服务热线支持、服务工程U币现场支持、客户定期回访、以及服务质量跟踪管理等方面组成,确保客户得到优质服务。技术支持服务体系针对本次项目相关应用系统,将配备专门的技术支持服务小组在现场,对进入服务期后的系统安装、调试、试运行及正常运行提供完备的技术支持服务,确保系统稳定运行。技术支持服务小组由经验丰富的咨询专家、工具软件工程师、应用开发工程师
12、、业务专家、运维工程师等组成。的运维服务机构经过长期的发展,积累了大量丰富的实践经验和雄厚的技术力量。技术咨询专家组由软件开发、系统集成、应用系统架构的技术人员组成。配合运维服务应用开发组、运维服务工具软件组进行故障诊断和技术支持等。服务工具软件组由精通项目中所使用的产品的相关技术工具的工程师组成。配合解决发现的工具软件的使用问题和故障。服务应用开发组由熟悉软件开发及硬件集成技术的人员组成,负责解决本次项目相关应用系统运行中出现的需要进行软件调整的问题。服务技术实施组由熟悉应用硬件、软件、数据交换整合软件的工程师组成,配合解决运行过程中出现的一般问题和故障。(五)运维服务保障措施为保证前端设备
13、及机房内设备的安全、稳定、无故障运行,提供物理环境管理和维护服务。为保证服务器、路由设备、网络交换设备等网络基础设施的安全性、可靠性、可用性和可扩展性,保证网络结构的优化,提供网络基础设施运维服务。为保证数据存储设施的安全性、可靠性和可用性,保证存储数据的安全,提供数据存储设施保障服务。为保证操作系统、数据库系统、中间件、其它支撑系统应用的软件系统及网络协议等的安全性、可靠性和可用性,提供系统平台运维服务。为保证在系统平台上运行的应用软件系统的安全性、可靠性和可用性,提供应用系统运维服务。为保证物理环境和系统运行的安全,提供安全管理和维护服务。为相关应用系统软硬件提供运维保障服务。全系统运行监
14、控、系统性能调优,以确保整个系统的安全、高效运行。对所有应用系统提供升级服务。1 .本地化支持和服务可为客户提供本地化的支持和服务。根据客户要求提供定制化服务。2 .7*24小时服务热线如遇紧急情况提供现场紧急服务,并提供7*24小时服务热线。3 .远程在线诊断和故障排除对于电话咨询解决不了的问题,经用户授权后的工程师、技术专家经过用户授权后通过远程诊断软件远程登录到用户网络系统进行故障诊断和故障排除。对于一些设置上的问题,在远程诊断时即可解决;对于无法解决的问题,将立即派有关领域的技术专家去现场解决。远程诊断服务可以根据客户的实际情况,每周七天,每天24小时均可以进行。4 .快速的现场服务提
15、供驻场工程师,一般故障排除时间不超过1小时,重大故障排除时间不超过4小时。系统出现出现故障和缺陷后,用户将出现故障的现象(症状)、部位和性质、工作日志和有关记录通知本维护工程师,经双方分析,如认为关联到第三方所提供的产品,则通知第三方,由三方一起派员检查并对故障进行分析,寻求解决问题的方法。每次故障处理完毕后,填写”故障诊断表”以及相关的处理记录。5 .定期预防性巡查维护定期对系统进行有关安全性、可管理性以及系统性能进行检查分析,对网络设备环境和系统进行性能检测,系统健康检测的结果将转化为简明易懂的报告,由专业系统健康检测的服务专家跟进用旨出系统潜在的问题以及推荐解决方法。客户服务工程师定期对系统的运行进行例行检查,并做出巡杳记录。6 .设备保障建立设备常用备件库,当硬件设备出现故障时,在维护或更换零部件之前,动用备件库中的备件替换故障零件,保证系统的持续运行。7 .系统软件维护将在系统运营过程中和管理务过程中,根据资源分配和效率分析,制定出改进建议,针对相关系统的扩充、版本升级、功能更新等功