农业银行关键金融系统稳定性提升探索与实践.docx
《农业银行关键金融系统稳定性提升探索与实践.docx》由会员分享,可在线阅读,更多相关《农业银行关键金融系统稳定性提升探索与实践.docx(14页珍藏版)》请在优知文库上搜索。
1、农业银行关键金融系统稳定性提升探索与实践随着业务模式的不断创新,交易量大幅攀升,传统IT架构能力日趋薄弱。为此,农业银行广泛应用云计算、分布式等新技术构建分布式架构和运维体系以支撑业务快速迭代。而如何为客户提供平稳、高效、安全的科技支撑,打造新环境下稳定的IT基础设施保障业务连续性,这个银行业的老问题迎来了新挑战。这些变化与挑战亟需通过一套方法论支持系统的进化过程,为此农业银行试点引入混沌工程。一、混沌工程浅析1 .定义混沌工程是在分布式系统上进行实验的学科,目的是建立系统抵御生产环境中湍流条件的能力。通常来说,混沌工程指对分布式系统中的服务器随机注入不同类型的故障,发现并修复系统中的潜在问题
2、,从而提升整个分布式系统的高可用能力。混沌工程作为保障分布式系统稳定性的重要技术,已成为推动企业IT韧性系统建设的强大助力。2 .发展历程2017年,NetfliX推出了混沌实验自动平台(ChAP),可以24小时不间断的自动运行,并根据系统反应自动化衍生新的故障场景测试系统弹性。同年,第一家专门从事混沌工程商业软件研发公司ChaOSlQ成立,并开源了chaostoolkit混沌实验框架。混沌工程发展至今(如图1所示),业界内比较流行的是以阿里巴巴公司为首的以下几种框架和平台:.ChaosBlade是阿里巴巴开源的一款遵循混沌工程原理和混沌实验模型的实验注入工具,帮助企业提升分布式系统的容错能力
3、。 ChaosMesh是一个通用的混沌工程解决方案,它的特点是针对Kubernetes上的复杂系统进行全方位的故障注入方法。 ChaosMonkey是Netflix基于混沌工程的概念开发的用于测试IT基础设施韧性的工具,支持随机地终止本地机器实例或者云上容器实例。2008年NetfliX公司的DVDffi赁业务因一次数据库故障停机3天。NetfIiX工程师寻找代替架构,转向分布式系统微0艮务架构、云化。Simiai展随港具蕾 m有了工具,故障注入场景变得自动化,故障场景越来越丰富,NetfliXffl社区正式提出了混沌工程的指导思想,WS立了混沌工程的若干原则,将这个陪S彳渤范与的化,演化成了
4、混沌工程。图1混沌工程发展历程3 .成熟度模型按照信通院发布的混沌工程成熟度模型(如图2所示)标准解读,混沌工程成熟度覆盖3个能力域、4个过程域、21个实践域,可全方位诊断混沌工程应用综合成熟度水平,并结合演练计划、演练对象、演练复杂度、演练范围和演练闭环五大混沌工程特性成熟度,从业务应用视角为项目团队指引能力提升方向,更好地匹配业务应用发展需求。能力域类型工程熟练度应用成效度组织建设度能力域项目故健团队及文化建设(Team&Culture)应用深度(AdoptionDeepth)熟练度(Proficiency)平均故应用成效(ProjectAdoptionImpact)图2成熟度模型二、业界
5、内实践情况1.互联网公司(1)京东京东搭建了“京东云-云泰故障注入与演练平台“,该平台通过故障的仿真和注入,结合资源、业务的稳定状态监控,来检验系统的健壮性和可用性。京东充分利用该平台进行单故障、混合故障、FUZZ叠加全链路压测等演练,最终实现从容平稳应对大规模复杂流量场景的挑战。(2)蚂蚁集团蚂蚁集团实践的主要表现形式以红蓝攻防为主,它面向软件全生命周期,并且对核心业务逻辑进行故障注入。2021年,通过红蓝攻防,共发现300多个业务风险和问题,推进解决200多个;在日常的演练中涵盖高可用、资金安全、研发质量等领域,覆盖到蚂蚁所有主要业务,并且通过不断改进,使其核心业务指标异常的监控发现率达9
6、9%以上,资金一致性核对的发现率达到90%以上。(1)工商银行工商银行于2019年完成混沌工程故障演练平台建设,并率先在快捷支付、聚合收单等重点业务领域开展演练工作,后逐步在全行全面推广使用,截至目前,已落地300余个业务系统,覆盖应用自隔离、同城双活、优雅启停等六方面生产常用重点高可用能力,帮助落地应用发现600余个高可用问题。(2)平安银行平安银行自研搭建了ASTA混沌工程平台,可支持一站式演练操作。在平安银行信用卡A+新核心的投产和运行过程中,ASTA发挥了重要作用。通过投产前执行三轮的混沌测试,提前发现了涉及PaaS、laaS、SaaS层的不同类型问题共30多个,很好地发挥了降本增效、
7、防风险的作用。三、农业银行系统实践L金库业务管理系统作为试点系统,金库业务管理系统是农业银行现金运营领域的重要核心系统,支持农行全国范围内现金调拨、仓储和机具管理。系统用户总数20多万,日均交易调用量500多万。目前,金库业务管理系统正处于基础设施整体优化、协同融合的关键时期,云下、云上环境同时存在,分布式异构的特点提高了系统脆弱度,生产环境中不可预见的用户操作对系统、应用架构的可靠性提出了更高的要求。特别是基于数字化转型的要求,核心系统下沉,微服务架构、分布式事务、云原生等新技术、新手段的不断引入,实现远超主机性能容量的集群处理能力的同时,底层技术架构和平台系统也日益复杂,生产不确定因素相较
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 农业银行 关键 金融系统 稳定性 提升 探索 实践