构建高可用IT基础架构 保证核心业务系统连续性

  • 时间:
  • 浏览:1
  • 来源:吉林快3官网-极速快3平台_极速赛车网投平台





作者: 比特网

CNETNews.com.cn

2010-04-14 12:05:1000

关键词: 安全

  上海浦东国际集装箱码头有限公司(以下简称SPICT),是上海市第曾经集装箱码头,集装箱箱量从另曾经的设计的年吞吐量1000万TEU到270万TEU,集装箱业务实现了高速发展。这对整个信息系统的发展带来巨大挑战,在错综复杂的系统架构之下,对业务系统的连续性提出了更高的要求。

  1、建设背景

  SPICT很早随后意识到IT基础架构对业务系统联系性的重要意义,早在10006年随后构建了双机、双柜的高可用性架构。随着业务系统的不断发展,现有业务系统随后无法满足业务量的增长和管理的需求;随后,在10009年进行新核心业务系统的开发工作,即TOPS 5.0业务系统。凭借此次新业务系统开发和上线的随后,SPICT决心对现有业务系统架构进行优化和调整,构建曾经高可用的IT基础架构,保证核心业务系统的连续性。

  10008年上两天 ,SPICT现在始于了了同IBM、HP、EMC以及随后 系统集成商进行沟通,对此次系统升级的硬件架构进行探讨,借此随随后优化现有IT基础架构,实现数据整合和容灾系统建设;但各厂商和集成商提出的建议方案,随后 趋于稳定随后 问题图片;10008年9月,同Symantec公司进行了沟通,Symantec提供的处置方案删改都还上能 满足SPICT高可用IT基础架构的需求,同时提供了更多雄厚的功能。

  下面将对对各种容灾技术进行简要介绍,随后针对SPCIT的实际环境和需求,对各种容灾技术进行分析:

  2 各种数据复制技术简介

  数据是企业的生命,数据的保护向来都非常重要。现有各种数据保护的手段,数据复制随后其中某种 。数据复制都还上能 从存储、操作系统、数据库和应用四个层次来做,其中通过应用系统进行数据复制时要应用线程池支持,时要进行进行开发,这里不做深入介绍。

2.1 数据库复制数据容灾技术

  数据库复制技术一般是由数据库厂商随后第三方开发,基于数据库日志随后数据流实现复制的技术。Oracle DataGuard是典型代表,此处将以此为例进行介绍。

  Oracle DataGuard 通过使用称为standby database的数据库来处置突然出先数据的灾难。它通过将primary database数据库的重做日志传到并应用到standby database数据库来使standby database数据库与primary database数据库同步:

  都还上能 将重做日志直接从primary database数据库同步写到standby database数据库来完成删改这么数据损失的灾难保护。这会给primary database数据库的性能带来一定的性能损失。

  都还上能 将归档的重做日志从primary database数据库异步写到standby database数据库来使primary database数据库在极少损失性能的前提下,最小化地减少数据的丢失。

  随后重做日志数据到达standby database数据库后快速应用到standby database数据库,则在primary database数据库突然出先问题图片时都还上能 快速地 failover 到standby database数据库。然而,随后延缓一定时间后再应用重做日志数据,都还上能 处置primary database数据库的错误快速地传播到standby database数据库。

  2.2 存储硬件复制数据容灾技术

  硬件同步复制技术是以同步复制技术为基础,通过磁盘阵列实现数据同步复制,从而保证产中心阵列与容灾中心阵列的在线数据删改同步。其整体方案中也涵盖了同步快速恢复、快照等辅助技术。从而实现整个容灾体系的要求。当然,所有的前提随后,生产中心的磁盘阵列和容灾中心的磁盘阵列时随后同构的。

  随后复制的基本原理,数据是从主阵列复制到容灾阵列的,其其实复制正常进行的过程中,不用都还上能 保证曾经阵列上的数据是同步的,随后当主阵列趋于稳定宕机时,会导致 整个复制无法继续,同时导致 生产中心服务器非正常的磁盘丢失,从而导致 业务停顿以及巨大的数据一致性风险。

  在同城的容灾方案中,基于磁盘阵列的同步复制方案,也是较为流行的某种 。其具体原理如下:

  以上的原理图清楚地指出了基于磁盘阵列的同步复制方案的原理,其原理适用于所有品牌的磁盘阵列间的同步复制原理。当生产中心的阵列趋于稳定问题图片时,主机时要手工的将I/O 路径切换到容灾中心的阵列上,这将导致 无法处置的停机时间和用户的业务停顿。

  其次,阵列的切换操作,是直接在磁盘阵列上进行的,在趋于稳定磁盘阵列问题图片,也随后在用户业务趋于稳定停顿情况表的随后 ,找哪几种人来做你是什么操作(此操作磁盘阵列厂商通常建议由厂商或是由资质的代理来做。),或是用户此人 来做此操作,也有对操作人员是非常严峻的考验。

  另外,数据库停顿的一瞬间,数据与非 一致,随后在第4、5步尚未完成的随后 ,复制趋于稳定停顿,数据实际随后写上的阵列,而主机并为得到反馈,都随后导致 切换后的数据,不一定不用都还上能 被数据库启动,从而时要更长的数据恢复时间。以上哪几种潜在的风险是他们都他们都 不得不考虑的因素。

  2.3 Symantec镜像数据容灾技术

  软件镜像技术是采用以镜像技术为基础,实现生产中心阵列与容灾中心阵列的在线数据删改同步。从而实现数据的容灾功能。当然作为容灾方案来说,仅有镜像技术是远远不足英文的。随后在远程镜像技术中,通常涵盖更雄厚的技术手段,来实现数据容灾的删改要求。类式,用于灾难修复后的系统恢复的基于日志的镜像快速修复技术;用于支持多根光纤通道协同工作的动态多路径技术;用于逻辑错误快速恢复随后容灾中心数据使用的卷快照、文件系统快照技术;用于调整读写性能的读优先挑选技术;用于镜像启动、暂停、继续等镜像过程的镜像监控技术等。

  软件远程镜像技术的特点是:

  随后镜像的基本原理决定,生产中心的存储与容灾中心的存储在写数据时不趋于稳定主从关系,随后,无论哪曾经阵列因故停顿,也有会导致 数据的读写趋于稳定停顿,都还上能 做到数据容灾意义上的“零”停机。其意义也有单纯的通过“零”停机保障了业务的连续性,随后处置了随后存储非正常停机带来的巨大的数据一致性风险(也随后数据库遭到破坏,数据不可用),而数据一致性风险是导致 长时间业务停顿的主要因素。

  Symantec利用VERITAS Storage Foundation系列软件的镜像技术,来构建容灾方案。利用VERITAS Storage Foundation的镜像技术构建容灾系统是非常简单的,它这么曾经条件,随后将生产中心和灾备中心之间的SAN存储区域网络通过光纤连接起来,建立城域SAN存储网络。随后,他们都他们都 就都还上能 通过Storage Foundation提供的非常心智心智性性性性性心智早熟 的跨阵列磁盘镜像技术来实现同城容灾了。

  从原理上讲,在城域SAN存储网络上的两套磁盘系统之间的镜像,和在曾经机房内的SAN上的曾经磁盘系统之间镜像并这么任何区别。就如上图,随后他们都他们都 把“同城容灾中心”十2个 字换成,他们都他们都 就无法分辨的左边的系统和右边的系统到底是在同曾经机房,还是远在几十公里以外。

  利用光纤将生产中心和灾备中心的SAN网络连接起来,构成城域SAN网络随后 ,利用 VERITAS Storage Foundation的先进的逻辑卷管理功能,他们都他们都 就都还上能 非常方便的实现生产中心磁盘系统和灾备中心磁盘系统之间的镜像了。如下图所示:

  利用VERITAS Storage Foundation,他们都他们都 都还上能 创建任意曾经逻辑卷(Volume)供业务主机使用,实际上是由个删改对等的,容量相同的磁盘片构成,两的个磁盘片上的数据删改一样,业务主机对该Volume的任意修改,都将同时被写到趋于稳定生产中心和灾备中心的曾经磁盘系统上。

  采用你是什么法律土办法,生产中心的磁盘阵列与同城容灾中心的磁盘阵列对于两地的主机而言是删改同等的。利用城域SAN存储网络和VERITAS Storage Foundation镜像功能,他们都他们都 都还上能 非常轻松的实现数据系统的异地容灾。随后消除了复制技术(无论是同步还是异步)的切换的动作,从而保证零停机时间,零数据损失的实现。

  3 数据复制技术分析

  数据复制技术主要集中在数据库、操作系统和存储硬件某种 技术上,帕累托图技术也有其适用的范围,下面对各种技术对性能的影响做曾经简单分析。

  3.1 性能分析

  考察容灾系统对业务系统性能的影响,主要从曾经方面衡量:

  一是CPU资源的消耗

  二是I/O,特别是写操作的延迟效应。

  ü CPU资源消耗

  采用主机端的软件镜像技术,对CPU资源的损耗,实际上是微乎其微的。具体的事实都还上能 通过简单的测试得到,都还上能 设置另曾经曾经测试,就一目了然了:

  1)在测试系统上,往曾经这么镜像的逻辑卷Copy曾经大文件,察看CPU使用率;

  2)在测试系统上,往曾经有镜像的逻辑卷上Copy曾经大文件,察看CPU使用率。

  事实上,处置镜像时要的CPU时间是非常小的,导致 是磁盘I/O操作的速率单位单位是毫秒(ms)级的,磁盘系统Cache I/O的速率单位单位是受限于光纤通道的1000-1000MB(8bit*10ns)速率单位单位和距离(15公里 == 0.1ms)的,而相反的,高端主机总线的速率单位一般是64-128Byte,甚至更高,主机CPU的处置速率单位单位更是在千兆的水平(ns级),随后 随后 I/O对主机CPU的消耗往往也有都还上能 忽略不计的,随后说时要关心得话,也主要针对象RAID-5另曾经的技术(时要几瓶计算,从而消耗主机的CPU资源),而像镜像另曾经的技术,是几乎不时要消耗CPU时间的。

  ü I/O的延迟效应(特别是写操作的延迟效应)

  采用VERITAS Storage Foundation的镜像技术构建容灾系统,其对系统 I/O的延迟效应要小于任何某种 数据复制技术,不管是基于磁盘系统的硬件数据复制技术,还是基于主机软件的数据复制技术,前面的帕累托图随后做了阐述。

  实际上,在整个容灾系统中,对业务系统的性能的影响最大的也有任何某种 技术所产生的负面作用,随后“距离”,正如前面提到的,在Cache命中率较高的系统中,距离对写操作的影响较大,这和光的传播速率单位单位有关,光在1000公里距离上的曾经来回时要1ms,在15KM距离上曾经来回时要0.1ms,他们都他们都 列出曾经对照表,供他们都他们都 参考。本对照表不涵盖设备协议转换和光在光纤中的折射等因素。同时,他们都他们都 知道,1000MB光纤对应的速率单位单位是ns级的。

  针对数据库日志复制技术,都还上能 用如下的法律土办法设置standby database数据库来达到不同的数据库数据保护级别:

  1) Guaranteed protection:规定在修改主数据库时,相当于有曾经备用数据库有效。假若主(Primary Database)备(Standby Database)之间的连接中断,Oracle会通过中断主实例的工作来处置主备数据库之间的数据的不一致,保证无数据丢失。你是什么模式对数据库性能的影响较大。

  2) Instant protection:规定在修改主数据库时,相当于有曾经备用数据库有效。与Guaranteed protection模式不同的是当主备数据库之间的连接中断时,允许主备数据库之间的数据的不一致,并当恢复连接后,处置数据不一致的问题图片。你是什么模式对主数据库的性能有较小的影响。

  3) Rapid protection:主数据库的修改快速应用在备用数据库上。会突然出先数据丢失,但对数据库性能的影响小。

  4) Delayed protection:主数据库的修改在延迟一定的时间后应用在备用数据库上。Rapid protection和Delayed protection模式即使在网络连接有效时,也允许主数据库与所有的备用数据库有数据分歧,数据的丢失量等同于主数据库联机重做日志的未归档数。你是什么法律土办法对数据库性能的影响小。

  在primary/standby配置下,所有的归档日志被发送到了standby 节点,这使standby 节点的数据保持着更新。随后,随后primary 数据库意外关闭,联机的日志随后丢失,随后它们尚未归档并发送到standby节点。这使得 primary 和standby 数据库之间会有曾经差异。

  DBA都还上能 挑选让LGWR在将重做日志数据写到本地磁盘的同时将数据发送到 standby 数据库。该功能称为standby零数据丢失(standby zero data loss)。你是什么法律土办法从本质的速率单位讲提供了远程重做日志镜像,但带来的问题图片是会极大地损失性能。

  3.2 复制效果分析

  分析项目数据库复制存储硬件复制Symantec容灾方案

  数据级容灾效果同步法律土办法对生产中心的性能影响极大。随后基本采用非同步法律土办法,RPO、RTO也有为零,时要停机时间,数据损失量为曾经Archive Log 的数据损失量。

  RPO接近零。

  RTO不为零,应用会中断,时要手工切换存储。切换时间较短,但随后应用中断以及复制机制都随后导致 数据不一致性,随后停机时间随后远远大于存储切换时间。RPO、RTO为零。

  无应用中断、无数据损失。

  数据容灾性能消耗消耗系统整体(阵列、主机)性能,随后性能开销极大。消耗磁盘阵列上的CPU、内存的性能。消耗主机上的CPU、内存的性能,随后卷操作不时要内存缓冲,镜像也也有错综复杂计算,随后对主机的性能消耗小于3%

  风险1、采用异步复制,灾难突然出先后,这么被复制的Archive Log 的数据将丢失;

  2、采用同步复制,数据库性能将大幅下降。

  1、数据从主存储复制到从存储时,链路中断,随后导致 数据不一致,数据库无法启动,丢失;

  2、存储Cache突然出先错误,将复制远端,导致 曾经存储也有可用。无

  3.3 技术适用性分析

  1. 满足业务需求上:SPICT现有重要应用删改采用Oracle RAC技术,而新开发TOPS5.0系统,也将采用Oracle RAC作为数据库,对业务连续性要求很高;随后数据要求实现绝对的零丢失,另曾经面的分析来看,这么Symantec运程镜像技术都还上能 实现。

  2. 方案删改性上:SPICT核心应用系统将建立应用级容灾,除了数据复制外,当灾难突然出先后,时要进行切换;随后,与非 都还上能 快速方便的进行切换,以及操作的难易程度十分重要。各种技术中,这么Symantec都还上能 提供删改的数据复制和容灾切换。

  a) Symantec运程镜像技术,存储突然出先后不时要任何切换,简单、业务零中断,适合应用级容灾;

  b) 在服务器切换上,Symantec通过VCS实现零随后10分钟内完成切换,满足应用容灾需求;

  c) 基于硬件的复制技术,当主存储突然出先故障后,时要重新采集,切换错综复杂,随后采集后数据库与非 都还上能 正常启动,这么保障;

  3. 多品牌支持上:采用Symantec处置方案,其支持各主流品牌存储设备,方便在各品牌之间进行挑选。

  最终,SPICT挑选了Symantec Storage Foundation for Oracle RAC HA/DR作为核心容灾软件,帮用户实现数据零丢失,10分钟内实现切换,满足了业务要求。

  4 后续

  此次SPICT基础架构建设工作随后于10009年初步完成,随后经过了严格的测试,系统都还上能 达到以下效果:

  1、单一设备故障,零切换

  2、数据中心站点故障,零数据丢失、10分钟内恢复业务。

  同时对SF的性能、稳定性也进行了验证,其自身非常稳定和强壮,有效的满足了企业级应用的需求。保证了核心业务系统的连续性。