城商行核心业务系统同城双活建设及切换与存储跨中心双活建设难点.docx
银行业的核心系统追求极致RPO和RTO的容灾目标,从核心系统的业务层面来看,能够实现核心系统业务在双活数据中心进行分发且自动切换从而保障业务的连续性,我们认为这样的目标就实现了应用级别的双活。这其中需要基础架构片面很多关键技术体系的支撑,同样也会有很多的关键问题需要解决。内容包括:建设思路和方法论、数据保护和存储层麓制、链路和负我引流、服务器选型、容灾切换等。、核心系统双活方案下的建设思路和方法论方面QI如何从整体上考虑核心系统同城双活?【问题描述】核心系统同城双活,极大缩短了核心系统故障恢豆时间,提高业务系统连续性,如何从整体上考虑核心系统同城双活,如主机,存储,数据库,负载设备,共享文件系统,网络,应用程序等?AI商用机器企业云创新中心令前技术支持:我觉得主要从以下几个层面考虑:I.从整体架构上来看,通常关注网络层、应用层、数据库层和存储层这几个层面,对于网络层要求双中心间二层打通,实现双中心间业务引流:对于应用层,采用GTM&1.TM联动技术实现跨数据中心保护:对于数据库房,采用路数据中心集群部署,系统保留ADG等类型的复制模式:对于存储层,通过各家厂商的存储双活技术实现跨数据中心集群部署。2 .从成本角度考虑,主要包含设务WJ买成本、建设成本、运维成本。这块比较难估算,因为不同地域,不同公司资源的情况下成本会有较大出入“设备的购买成本主要包含应用主机、存储、核心以太交换机等:建设成本包括前期规划、实验室确认参数、业务场景卜.业务测试、安装调试、真实环境压力测限、切换演练等方面,以上均需要人员成本的投入:运维成本取决于自动化程度的高低,通常情况下如果各节点完全可实现自动切换,相对的兔杂度也有所提高,对于运维人员的技术要求有一定限制。3,从技术成熟度和方案及方案健壮性方面来看,刚才在上面第一点中提到的四个层次所使用的关键技术,目前已经非常成熟,各厂商均有成熟的解决方案。使用如POWer上的双活方案,基F存储的双与复制的技术,数据库的基石事务日志回放的数据技术,以及博于系统级逻辑卷镜像技术,这些技术均有成熟的方案,在很多银行也有实际落地的案例,并且已经桎定运行了好多年;4 .需要充分的风险评估,比如要解决数据库和存储仲裁不一致,集群发生脑裂的问题,如何解决应用负我会话一致性的问题,如何解决I/O时延,如何应对光纤抖动,如何解决资源高度冗余导致资源浪费问题.这些都需要在企业架构范国内考虑,也并不是所有问题都能在技术层面解决:5 .除此之外,还需要考虑功能拓展性问题,对于功能的拓展性,以业务功能拓展性来说,当前设计的双活架构应不仅仅适用于核心系统,也适合支持未来其他不要的业务系统使用.A2商用机器企业云创新中心系统架构师:这问题比较宏观,同城双活概况上来讲要号虑的层次仃:1、网络层:2、应用乂:3、数据库层-存储13这几层的实现难度是不同的,通常网络U和应用屋比较容易实现,成熟的产品和方案也比较多,因为这两层只分发请求,不处理请求,比较容易横向扩展,也基本不存在相比间需要同步数据的问题。问题中的负效均衡设备,网络DNS调度、应用横向部署等基本都在这层解决。数据库层双活,就涉及到问题中提到的数据库和共享文件系统等问题,这些也有成熟的解决方案,比如数据的EX1.CndRAC、分布式文件系统、GPFS等数据同步,但从这层开始就设计节点间数据同步的问题了,就需要根据实际的需求和成本的评估进行技术的取舍。比如线路不稳定、带宽不够等因素就不适合做同步双活和复制。存储展的数据复制,在各厂家的中高端存储中是都能实现的,也要根据线路,距离等因素抉择豆制的方式。【Q2】俗话说:“三分技术,七分管理”,在规划、架构核心系统同城双活时,对运维、管理人员有哪些要求?AI某省金融系统工程师:在技术转为自动化、智能化的今天,对人员要求也是越来越高,虽然部分工作机器能进行咨代,但无法全部杵代,因此对于运维、管理人员来说,明獭此趋势,还是要从以下儿点进行考虑:1、明确队伍组成,分工、人才储备、确定管理人分,一个队伍合适的管理是关键:2、技术的储备,运维人员从运维出发,相关的技术都需要了解,以及快速处理相应的故障;管理人员则需对顶层规划、业务流程、相关技术进行了解,把握趋势:3、排好计划,什么时间点做什么事情,进行相应的时间和进度管理。A2银行系统环境管理:对于管理人员,需要根据项目的时间要求做好任务的分配和实施进度的把控,尽量让自己的人能做到技术上集体讨论,群策群力,不区分专业全流程参与。建议运维的人从架构设计的时候就全程参与,包括后续的详细规划例如分区的安装、网口和网络的规划、操作系统数据阵的安装,参数优化,容盘的规划,只有对架构和实施都比较熟悉的人,才能做好整体的运维,临危不乱。Q3双活带来连续性提升的同时,可能某些场竞I,降低系统可用性,同时增加系统笈杂性和提供运行成本。双活如何建设,如何黄捏好各系统平衡点?AI银行系统环境管理:双活带来连续性提升的同时,往往因为需要对远端进行数据复制造成一定的性能损耗,这个性能损耗视不同的发制方式会有区别,如果采用异步模式则基本可以忽略。对于重要的应用系统,需要把数据安全性和系统连续性摆在第位的,宁愿多花一些成本去强化硬件平台、优化软件设计和代码以提高系统性能,补足双活带来的性能消耗。A2商用机器企业云创新中心系统架构师:双活是个建设目标,但从城商行用户的实现角度来看,并不是步到位的,平衡点一方面是建设和维护成本与希里达到的RTO和RPO间的平衡,另一方面是技术复杂性带来的衍生不确定性增多和人为可控之间的平衡。目前看,双中心实现数据级主备中心或者双中心在不同业务上互为主备实现起来相对成熟,成木也可控。真正的业务层面双活,对业芬读写比类型以及线路要求都较高,客户处于探索阶段的比例较大.【04】核心业务系统同城双活建设如何解决业务裔并发与双活带来的性能影响之间的矛盾?【问题描述】如题,核心业务系统日间高峰期业务并发高,压力大,响应时间耍求离,日终批量业务时数据库的增删改操作多,如果建设核心业务系统双活,势必带来一定的性能影响,如何有效解决或者缓解该问题是建设核心业务系统同城双活的重要问题。(A1.J银行系统环境管理:双中心架构如果采用ex1.endrac,则关键在乎减少跨中心节点间的gc,要做好应用功能的区分,尽量避免出现应用向两个不同数据中心玳节点读写同一张友的的情况。对于跑批类的应用,应当尽量指定连接固定的Vip,而不是SCaniP,这样能提高跑批的效率,也能避免出现gc,从而提高整体响应速度。A2商用机器企业云创新中心系统架构师:考虑业务建设双活架构,有几个需要注意或规避的问题,其中之一就是写操作特别多的业务是不太适合做双活的。至少在当前普遍的线路成本和线路质量的条件下,不是很适合。大量频繁的写操作,在双活的需求下需要实时同步到同城中心,即使是在线路带宽够的情况下,临时的抖动也会因为时湍确认不及时带来业务的响应时效增加而性能下降,这个问题非常依赖于稳定的线路质量。Q5分布式架构的系统如何双活?【问题描述】随着互联网业务的发展,分布式架构在银行业信息系统应用越来越广泛,分布式架构双活如何考虑?单套扩展还是双套并行,单套扩展是否会有网络流量压力,并行如何解决缓存问题等等?AI某省金融系统工程师:双机房网络侦量还是需要保障的,目前我中心双机房为80J(X)公里,延时大概为5定杪左右,相应的双活如对延时比较敏感,实现效果较差。A2银行系统环境管理:个人感觉一套还是两套运行,主要需要考虑的还是网络质量,如果网络质量有保证,单套扩展的架构属于双中心的紧耦合架构,架构上比较简单清晰,双中心间的业务分发策略、业务间的访问关系配理也相对比较简单,但是单集群的风险在于如果网络出现明显抖动,可能带来的是整个集群的性能下降或者卡顿。双中心松耦合,部署两套集群的缺点就在于部署比较麻烦,双中心的业务间访问关系配置较为更杂,负载均衡分发策略相对更杂,优势就在于即使个集群出现问题,也还有一个集群能继续提供服务.A3商用机器企业云创新中心软件架构设i骈:分布式架构卜.,多副本数据读写各节点之间传输本身会有很大的网络传输要求。所以般分布式建设双活时,也是建同城双活,把其中1个或少数副本同步到双活备中心,同城备中心一般只承载少量查询业务你说的双套并行一般是一套主生产中心,远程建一套异步(非同步)更制的容灾环境.A4商用机器企业云创新中心系统架构师:分布式架构的双活,目前看更多的还是依赖于其自身的多副本部署策略看各家的方案中,单套拉伸距掰进行扩展的居多.对两中心之间的网络质量需求比较高。二、核心系统双活方案卜的数据保护和存储层豆制方面Q6如何实现核心系统数据库层面的跨数据中心保护?包括访问连续性保护和数据本身的保护?数据库又如何切换至同城数据中心?【AI】城商行系统架构如:苜先这个问题标题覆盖不全。1、首先数据库的保护无非几种,I)通过备份软件进行数据定期备份。2)通过存储底层数据夏制进行灾备数据保护。3)通过数据库本身的备份机制进行数据保护(比如OraCIeADGoGG、MySQ1.的副本方式)。4)数据库双活灾备保护(此方式不能防止数据庠逻辑损害,一般结合备份进行数据保护)。2、切换同城数据中心(你的核心是双活或者读写分离还是主备方式,这个很重要,不同的应用灾备方式切换的步骤都不样)结合应用和数据库部署方式有N种组合和切换步骤.A2商用机器企业云创新中心系统工程如:以POWCrHASyStemMiITorHypCrSW叩双活方案为例:PowcrHASystcmMiaor企业版提供HyperSwap功能实现数据中心双活功能。PowerHAHyperSwap是基TPOWER平台及DSBKMeiroMirror同步更制技术,当主存储系统不可访问时,AIX透明地符磁盘I/O切换到备存储.并且不影响正在运行的应用,从而提供数据中心之间(或数据中心内)存储高可用及应用高可用的一种容灾方案,也是PoWERAetiVe-ACtiVe解决方案的重要组成部分。POWerHAHyPerSWaP能与OraC1.eRAC完美结合,实现数据库无中断的快速切换,与传统解决方案相比,其切换更加自动化、RTO更短,RPO为O,PowcrHAHvpcrSwap双活解决方案具有明显的优势:监控从应用到存储各个层面,并提供每个层面故障处理方案:结合DS8KMetrOMi1.TOr.保证高性能及数据传输稳定可靠:支持部署Orae1.eEXtendRAC,实现真正意义的双活中心:充分利用双中心的服务器、存储资源:RTO为秒级,RPOR;一键完成高端存储容灾演练,应用不受影响:可设巴当脑裂或站点故障发生时自动响应成人为干预策略。【A3】农信系统工程师:1、核心系统数据库匕的路数据中心保护耍建立全面多忆次的保护,包括底层存储级复制、数据库级豆制、数据备份,三位一体,防范各种类型的故障。2,连续性数据保护又叫CDP,属于数据备份的一种,通过一次性全量同步底层存储数据和实时增量捕获数据来实现小间隔时点数据的快到,这是一般的备份做不到的,一般的备份RPO太大,满足不了小间隔时点的恢复耍求,这时就要用到CDP去做。3、数据库切换按照数据史制的方式不同而不同,若是底层存储级豆制,必然是要经历生产端先停止应用和数据库、卸效存储盘、等待生产和同城数据完全一致、史制关系反转、同城湍挂载存储盘、启动数据库和应用等过程:若是数据阵级复制,则要经历停应用、切换数据库主从关系、挂栽对外服务IP、启动应用等过程。IQ7】同城双活核心系统数据致性宜采用数据库同步模式还是底层存储同步模式?是否有必要同时采取两种模式?AI农信系统工程师:作为银行的核心系统,我觉得完全有必要同时采取两种模式:I、底层存储同步是块数据