计算机容错技术优选课件

PPT
  • 阅读 67 次
  • 下载 0 次
  • 页数 280 页
  • 大小 2.125 MB
  • 2022-11-13 上传
  • 收藏
  • 违规举报
  • © 版权认领
下载文档50.00 元 加入VIP免费下载
此文档由【小橙橙】提供上传,收益归文档提供者,本网站只提供存储服务。若此文档侵犯了您的版权,欢迎进行违规举报版权认领
计算机容错技术优选课件
可在后台配置第一页与第二页中间广告代码
计算机容错技术优选课件
可在后台配置第二页与第三页中间广告代码
计算机容错技术优选课件
可在后台配置第三页与第四页中间广告代码
计算机容错技术优选课件
计算机容错技术优选课件
还剩10页未读,继续阅读
【这是免费文档,您可以免费阅读】
/ 280
  • 收藏
  • 违规举报
  • © 版权认领
下载文档50.00 元 加入VIP免费下载
文本内容

【文档说明】计算机容错技术优选课件.ppt,共(280)页,2.125 MB,由小橙橙上传

转载请保留链接:https://www.ichengzhen.cn/view-5401.html

以下为本文档部分文字说明:

计算机容错技术魏贇第1页,共280页。第一章概述容错和可靠性容错技术的发展概况容错技术的主要内容容错技术应用第2页,共280页。一、容错和可靠性故障、失效和错误的概念可靠性的概念容错的概念可靠性和容错的关系第3页,共280页。(一)故障、失效和错误的概

念失效(failure)是指硬件物理特性异变,或软件不能完成规定功能的能力。故障(fault)是指硬件或软件的错误状态,是失效在逻辑上的等效。一个故障可以用种类、值、影响范围和发生时间来描述。错误

(error)是指程序或数据结构中的故障表现形式,是故障和失效所造成的后果。容错设计的软件可以有某些规定数目的故障但不导致失效,但对无容错的软件而言,故障即失效。第4页,共280页。故障的分类若按逻辑性来分–逻辑故障:造成逻辑值发生变化的故障–非逻辑故障:造成象时钟(clock)或电源出错

等错误的故障按时间划分:–永久性故障:调用诊断程序进行故障定位,然后采取纠错措施–间隔性故障:可以通过更换硬件或软件等途径来达到修复的目的–偶然性故障:只能靠改善环境条件等努力来减少这类故障第5页,共280页。错误的根源第6页,共2

80页。(二)可靠性1.概念2.实现系统可靠性的方法3.系统可靠性的指标第7页,共280页。1、概念可靠性的含义–广义:一切旨在避免、减少、处理、度量软件/硬件故障(错误、缺陷、失效)的分析、设计、测试等方法、技术和实践活动。–狭义:指软件/硬件无效运行的定量度

量。可靠度:在规定的运行环境中和规定的时间内软件无失效运行的机会。第8页,共280页。2、实现系统的可靠性排错容错第9页,共280页。排错避免故障,通过对组成系统的部件进行严格的筛选、对系统进行严格的测试、对系统进行屏

蔽以减少外界的干扰等方法来提高系统的可靠性。第10页,共280页。容错即使采用了排错技术,一个计算机系统还是迟早会发生故障的。因此在设计计算机系统时应考虑一旦发生故障能自动检测出故障并使系统自动恢复正常运行。这样设计出来的计算机系统在发

生故障后仍能正确运行。容错技术是从系统结构方面来提高计算机系统的可靠性容错技术与排错技术并不是相互对立的,它们可以相互补充,构成高可信的计算机系统第11页,共280页。3、系统可靠性的指标可靠性可维性可用性第12页,共280页。可靠性计算机机的可靠性指:计算机在规定

的条件和规定的时间内完成规定的功能的概率规定的条件:环境条件,使用条件,维修条件,操作技术失效:产品在规定的条件下和规定的时间内丧失了规定的功能。失效率:指计算机在某一瞬间元件失效数与元件总数的比率。第13页,共

280页。可维性可维性(Serviceability)是指在规定的时间内,按照规定的程序和方法进行维修时,保持或恢复到能完成规定的功能的能力通常指从判定故障到排除故障所需要的时间,包括故障诊断、故障定位、系统校正和恢复

等时间。可保持性(Maintainability)是指系统在给定的时间内可隔离故障或修复的概率。它表征了系统可以正常运行的效率。第14页,共280页。可用性可用性(Availability)称有效率或利用

率,是可维修部件在某时间具有维持规定功能的能力,即计算机系统的利用效率,也是系统在执行任务的任意时刻能正常工作的概率。第15页,共280页。(三)容错技术概念容错(Fault-tolerance):容忍故障,

考虑故障一旦发生时能够自动检测出来并使系统能够自动恢复正常运行。当出现某些指定的硬件故障或软件错误时,系统仍能执行规定的一组程序,或者说程序不会因系统中的故障而中止或被修改,并且执行结果也不包含系统中故障所引起的差错。第16页,共280页。容错计算机系统:在发生故障或存在软件

错误的情况下仍能继续正确完成指定任务的计算机系统。设计与分析容错计算机系统的各种技术称为容错技术容错技术从系统结构出发来提高系统的可靠性,与排错技术相互补充,构成高可信度的系统第17页,共280页。实现容错计算的四个方面(1)不希望事件的检测。不

希望事件是指失效、故障、差错等等。为容忍系统中的不希望事件,应首先对其进行检测。(2)损坏估价。由于一个故障的出现和它的失效结果之间可能存在延迟,故障可能已经传播到该系统的其他地方,导致故障的扩大。因此,在作出一个被检测的故障有关的决定之前,有必要判定

系统已被破坏的程度,这依赖于系统设计者的策略和已有的探测技术。第18页,共280页。(3)不希望事件的恢复。在不希望事件检测和损坏估价之后,应采用不希望事件恢复技术,把目前的错误系统状态转换成一个正确的系统状态。(4)不希望事件处理和继续服务。确保已

被恢复的不希望事件效应不会立即再现,以使系统继续提供规定的服务。第19页,共280页。容错系统的一般阶段①故障限制:当故障出现时,希望限制其影响范围。故障限制是把故障效应的传播限制到一个区域内,从而防止污染其他区域。②故障检测:大多数失效最终导致产生逻辑故障。有许多方法

可用来检测逻辑故障,如奇偶校验、一致性校验都可用来检测故障。故障检测技术有两个主要的类别,即脱机检测和联机检测,在脱机检测情况下,进行测试时设备不能进行有用的工作;联机检测提供了实时检测能力,因为联机检测与有用的工作同时执行。联机检测技术

包括奇偶校验和二模冗余校验。③故障屏蔽:故障屏蔽技术把失效效应掩盖了起来,从某种意义上说,是冗余信息战胜了错误信息,多数表决冗余设计就是故障屏蔽的一个例子。④重试:在许多场合,对一个操作的第二次试验可能是成功的,对不引起物理破坏的瞬间故障尤其是这样。⑤诊断如果故障检测技术没有提

供有关故障位置和/或性质的信息,那么就需要一个诊断。第20页,共280页。⑥重组:当检测出一个故障并判明是一个永久性故障时,这时重组系统的器件以便替代失效的器件或把失效的器件与系统的其他部分隔离开来,也可使用冗余系统,系统能力不降低。⑦恢复:检测和重组(若必要的话)之后,必须消除错误效应。

通常,系统会回到故障检测前处理过程的某一点,并从这一点重新开始操作。这种恢复形式(一般叫卷回)通常需要后备文件、校验点和应用记录方法。⑧重启动:如果一个错误破坏的信息太多,或者系统没有设计恢复功能,那么恢复功能也许就不可能。仅当系统未受任何破坏时,才能进行“热”重

启(从故障检测点恢复所有操作的)。“温”重启指仅有某些过程可以毫无损失的重新启动,“冷”重启相当于系统需要完全重新加载。⑨修复:把诊断为故障的器件换下来,与故障检测一样,修复也可以是联机进行的或者脱机进行的。⑩重构:对元件进行物理替换之后,把修复

的模块重新加入到该系统中去。对联机修复来说,实现重构不中断系统的工作。第21页,共280页。二、容错技术的发展概况第一代计算机(1946-1957)第二代计算机(1957-1964)第三代计算机(1964-1970)第四代计算机(1970-)现在第22页,共280页

。第一代计算机(1946-1957)元件:电子管、继电器及延迟线存储器问题:元件的失效率相当高,并易受瞬时故障的影响措施:特别设置的硬件故障检测和人工恢复第23页,共280页。1956,SAPO,捷克,

三个CPU同时工作,对运算结果进行表决,存储器采用奇偶校验,具有单条指令重复执行的功能SAGE,,用于防空系统,采用双机比较以检测故障,并配合以恢复技术第24页,共280页。第二代计算机(1957-1964)元件:晶体管及磁芯存储器问题:失效率比第一代计算机元件大为降

低措施:避错技术占统治地位,对故障一般采用诊断程序进行脱机检测第25页,共280页。第三代计算机(1964-1970)元件:集成电路问题:元件的失效率继续降低,但计算机应用范围扩大,对计算机系统的可信性要求更高措施:容错技术重新提出,并得到了较快的发展,并出现了许多容错计算机第26页,

共280页。实例1964土星V号运载火箭导航计算机研制成功,该机采用三模冗余及奇偶校验来实现容错1969,喷射推进实验室的STAR计算机,其处理机采用三重表决加备份的混合冗余方式,并用算术检错码及双机比较检测故障。1965,贝尔实验室研制成功1号ESS处理机,是用于交换

的计算机系统,采用了双机比较技术,是专用的硬件及软件进行故障的检测、定位及识别。第27页,共280页。第四代计算机(1970-)元件:大规模和超大规模集成电路问题:硬件可靠性大大提高而价格却大幅度降低,使采用各种容错技术在经济上更易接受。需求:容错技术应用范围扩展于事务处

理及各种实时控制系统,甚至许多通用计算机系统也采用了容错技术第28页,共280页。实例1975,贝尔实现室的3A号ESS处理1975,TANDEM16容错事务处理系统1976,AMDAHL470V/6容错通用计算机1978,容错空间计算机FTSC1979,IBM推出容错

的4300通用计算机系列1980,容错多处理机FTMP及软件实现的容错计算机SIFT研制成功第29页,共280页。80年代以来出现了商用容错计算机市场分布式容错计算机系统的出现容错的VLSI技术人工智能在容错技术上的应用—计算机故障诊断专家

系统第30页,共280页。容错计算方面的理论工作1952,冯·诺依曼作了一系列关于用重复逻辑模块改善系统可靠性的报告1956,他发表论文《概率逻辑及用不可靠元件设计可靠的结构》1971年以来,IEEE计算机学会容错技术委员会每年召开

一次国际容错计算学术会议1987年中国计算机学会成为了容错计算专业委员会第31页,共280页。三、容错技术的主要内容1.故障检测与诊断技术2.故障屏蔽技术3.动态冗余技术4.软件容错技术5.信息保护技术第32页,共280页。1、故障检测和诊断技术容错技术的主要组成

部分,又是微电子技术的支撑技术故障检测(FaultDetection):判断系统是否存在故障的过程故障定位(FaultLocation):判断系统在哪里发生故障的过程故障测试(FaultTesting):又称故障诊断(FaultDiagnosi

s),故障检测和故障定位,主要包括:测试集生成技术,功能测试技术,系统诊断技术第33页,共280页。故障检测的作用是确认系统是否发生了故障,指示故障的状态,即查找故障源和故障性质。一般来说,故障检测只能找到错误点(错误单元),不能准确找到故障点。故障诊断的作用是给出故障定位。基于检错纠

错码的编码技术。在数据的传输、存储、处理过程中,根据信息位和校验位之间的相关性进行检查,判定信息是否出错、错在哪里,并进行纠正。常用的检错码编码技术有奇偶校验码、循环码、海明码等。其他故障检测与诊断技术第34页,共280页。2、故障屏蔽技术故障屏蔽技

术是防止系统中的故障在该系统的信息结构中产生差错的各种措施的总称,其实质是在故障效应达到模块的输出以前,利用冗余资源将故障影响掩盖起来,达到容错目的。特点:不改变系统的结构,即系统部件之间的逻辑关系相互固定,又称静态冗余技术第35页

,共280页。故障屏蔽技术元件级故障屏蔽技术逻辑级故障屏蔽技术主要用于设计一些高可靠性的容错专用集成电路芯片和不宜放在功能模块一级上进行容错设计的关键硬核模块级故障屏蔽技术系统级故障屏蔽技术由两个以上的相同系统合成一个系统,冗余系统间通过相互校验来保持正常运

行。第36页,共280页。3、冗余技术硬件冗余:在常规设计的硬件之外附加备份硬件,包括静态冗余、动态冗余时间冗余:重复地执行指令或一段程序而附加额外的时间信息冗余:增加信息的多余度,使其具有检错和纠错能力软件冗余:用于测试、检错的外加程序第

37页,共280页。4、软件容错技术软件容错是指在出现有限数目的软件故障的情况下,系统仍可提供连续正确执行的内在能力。其目的是屏蔽软件故障,恢复因出故障而影响的运行进程。软件容错技术主要包括N版本程序设计和恢复块技术第38页,共280页。5、信息保护技术信息

保护技术,是指为了防止信息被不正当地存取或破坏而采取的措施。基本的信息保护技术分为以下四种:编码化与密码化、资格检查、内存保护、外存保护。第39页,共280页。四、容错技术的发展和应用容错技术的应用是网络时代电子

商务的客观需求软件容错技术将有较大进展硬件容错、操作系统容错相结合的容错设计方法将备受重视VLSI的容错设计技术将发挥巨大作用系统容错设计的应用目标明确第40页,共280页。容错技术应用向PC发展容错技术向智能化发展容错技术应用和应

用服务技术相结合容错技术将走向开放化、标准化第41页,共280页。第二章故障自检测与自诊断技术2.1联机检测和脱机检测2.2逻辑网络的故障安全与自校验特性2.3自校验网络的基本结构第42页,共280页。2.1联机检测和脱机检测联机检测与诊断:在系统运

行期间实现自我检测与诊断的过程,也叫自检测与自诊断,是提高系统可靠性的重要环节。脱机检测与诊断:在系统非运行期间进行检测与诊断,是提高系统可用度、可维性的重要环节。第43页,共280页。联机检测与诊断的方法在系统中投入一定的冗余资源(

指超过系统额定功能所需的资源),使系统在运行中不仅能输出功能所要求的信息,而且能输出一些额外的信息。实质是可靠性编码技术在系统设计中的应用,是一种以硬件冗余为主的检测与诊断技术第44页,共280页。一个自检测的系统,其所有可能的输出值

的集合为U(输出空间),由S和U-S两部分组成S:系统的输出码,系统无故障时的输出U-S:系统出现故障时候的输出,若能指示系统是否发生故障,则称之为检错码;若能指示系统中哪个部件发生的故障,则称之为诊错码第45页,共280页。脱机检测与诊断的方法应用软件诊断程序,先优化生成并输入

一组测试向量给系统,然后观测并分析系统的测试响应,以确定系统是否发生故障或哪个部件发生的故障。第46页,共280页。2.2逻辑网络的故障安全与自校验特性1、故障安全特性2、自校验特性第47页,共280页。1、故障安全特性一个数字逻辑网络,对给定

故障集F,如果在任何有效输入码激励下,都不会因为故障而输出错误的有效输出码,则称它对故障集F是故障安全(Fault-Secure,FSE)的。若该网络在任意输入码激励下,对给定故障集F都不会输出错误的有效输出码,则称它对故障集F是强故障安全的

。第48页,共280页。输入是正确的,则输出为正确的有效码或无效码,而不会输出错误的有效码这样的系统不会因为故障存在而造成错误的有效输出,称之为故障安全的系统第49页,共280页。若输出是无效码,则该系统必有故障存在

若输出的是有效码,则不能断定该系统是否有故障,但可断定它的输出是正确的系统可能存在不可测故障第50页,共280页。2、自校验特性如果一个数字逻辑网络对于给定故障集F内的每一个故障,至少存在一个有效的输入码能使它的输出产生一个无效输出码字,则称该网络对于故障集F是可自校验(Self-Testi

ng,ST)的。凡可自校验的系统,可从观测输出码字是否为有效码字来判别其是否有故障,而且一定有一个校验码就包含在有效的输出码字集合中。第51页,共280页。故障安全特性和自校验特性所有故障的集合:可自校验的故障集Ft

,安全故障集Fs;所有输入向量的集合:正常输入集N,故障安全输入集I;所有输出向量的集合:输出码空间Sλ表示沿未引起错误的故障或表示系统无故障,Z(Xi,λ)表示系统无故障时的输出Z(Xi,fi)表示在Xi输入时,系统对故障fi的输出第52页,

共280页。所有故障FtFsf1f2f3所有输入向量NX1IX2X3所有输出向量SZ(X1,f1)Z(X1,f3)Z(X1,f2)Z(X1,λ)Z(X2,λ)Z(X2,f2)Z(X2,f3)Z(X2,f1)Z(X3,f2)Z

(X3,λ)自校验性故障安全性第53页,共280页。结论自校验系统的性质由系统结构和运行环境所决定。给定的N(由环境决定),Ft由N能检测到的所有故障组成。相反,I不是由环境决定的(N的子集),而是由Fs决

定。Fs是人为选择的一个非空故障集。第54页,共280页。根据I包含输入的多少(N中的全部、部分或零),可将自检验系统分为:完全自校验系统:如果一个系统对正常输入集N和故障集Ft是自校验的,并且对于N和故障集Fs是故障安全的,则称该系统为完全自校验系统(TSC:TotallySelf

-Checking)。部分自校验系统:如果一个系统对于正常输入集N和故障集Ft是自校验的,并且对于N的一个非空真子集I和故障集Fs是故障安全的,则称该系统为部分自校验系统(PSC,PartiallySelf-Checking)。仅自校验系统:如果一个系统对正常输入集N和故障集Ft是自校验的,但

对于N的任何非空子集和故障集Fs都不具有故障安全性,则称该系统为仅自校验系统。第55页,共280页。2.3自校验网络的基本结构自校验网络:无需施加特定的测试输入码来判定是否存在故障,而是在正常工作的过程中,由一个称为校验器的电路通过监视自校验功能模块的输出状态而自动指示有无错误

。第56页,共280页。自校验功能模块输入XЄN检测器/校正器检错/纠错编码输出Z(X,λ)ЄSZ(X,f)ЄS错误指示第57页,共280页。检测器:当出现无效码时,指示错误状态,可构成自检测网络。

校正器:当出现无效码时,指示出错位置,并予以纠正,可构成自诊断网络或故障屏蔽网络。第58页,共280页。第三章故障屏蔽技术概述元件级故障屏蔽技术逻辑级故障屏蔽技术模块级故障屏蔽技术系统级故障屏蔽技术第59页,共280页。1、概述故障屏蔽技术(FaultMa

skingTechnology)防止系统中的故障在该系统的信息结构中产生差错的各种措施的总称,其实质是在故障效应达到模块的输出以前,利用冗余资源将故障影响掩盖起来,达到容错目的。第60页,共280页。2、

元件级故障屏蔽技术二倍冗余四倍冗余桥接冗余第61页,共280页。(1)二倍冗余IO单个元件IO并联结构I串联结构OCCCCC第62页,共280页。设三级管发生开路故障的概率为q0,发生短路故障的概率为qs,正常工作的概率为p:对于单个元件:p=

1-q0–qs对于并联结构:p=1-q02-2qs+qs2发生开路故障的概率为:q02发生短路故障的概率为:1-(1-qs)2对于串联结构:p=1-2q0+q02-qs2发生开路故障的概率为:1-(1-q0)2发生短路故障的概率为:qs2第

63页,共280页。(1)四倍冗余IO并串联结构I串并联结构OCCCCCCCC第64页,共280页。设三级管发生开路故障的概率为q0,发生短路故障的概率为qs,正常工作的概率为p:对于并串联结构:p=1-2q02+q04-4qs2+4

qs3-qs4发生开路故障的概率为:1-(1-q02)2发生短路故障的概率为:[1-(1-qs)2]2对于串并联结构:p=1-4q02+4q03-q04-2qs2+qs4发生开路故障的概率为:[1-(1-q0)2]2发生短路故障的概率为

:1-(1-qs2)2第65页,共280页。晶体三极管四倍冗余结构在下列故障之一时,仍能正常工作:任一晶体管开路或短路不是同一支路的两个三极管短路(对串并联)或是不是同一回路的两个三极管开路(对并串联),或者每一支路都有一个三极管短路(对串并联

)或每一回路都有一个三极管开路(对并串联)第66页,共280页。四倍冗余结构的优点可以用在元件级构成独立自足冗余,即不必增添逻辑线路来检测故障与恢复信息能满足实时与连续可用条件第67页,共280页。

四倍冗余结构的缺点功耗大对元件适应条件要求较高昂贵结构不能变,无灵活性第68页,共280页。3、逻辑级故障屏蔽技术主要用于VLSI的设计中主要用于设计一些高可靠性的容错专用集成电路芯片和不宜放

在功能模块一级上进行容错设计的关键硬核多采用四倍冗余方案第69页,共280页。子部件1子部件k子部件k+1子部件n1P1P1P1PK个功能输出N-K个校验输出输入1m第70页,共280页。4、模块极故障屏蔽技术是以N倍冗余码为基础,通为构成N模冗余(NMR,N-Mo

dularRedundancy)系统来实现故障屏蔽第71页,共280页。模块1模块2模块n系统输出差错指示输入校正器第72页,共280页。5、系统级故障屏蔽技术采用多个计算机系统来实现系统的功能。也可称为多处理机或多计算机系统常用的结构有:–均分负载系统结构–主备用系统结构–双机

协同系统结构–紧耦合多处理机系统结构–分布式系统结构–网络结构第73页,共280页。第四章冗余容错技术硬件冗余软件冗余数据冗余动态冗余技术第74页,共280页。冗余容错技术在系统结构上通过增加冗余资源的方法来掩盖故障造成的影响,使得即使出

错或发生故障,系统的功能仍不受影响,仍能够正常执行预定任务的技术。分为硬件冗余、软件冗余与数据冗余从系统功能上讲,三者都是增加“多余的设备”(硬件、软件或数据)为代价的第75页,共280页。(一)硬件冗余静态冗余动态冗余主要方法第76页,共280页。1、静态冗余利用逻辑重叠技术有效地掩

蔽硬件故障,又称掩蔽冗余。典型代表是N取r系统(三取二的冗余)原理:采用并联结构,从输入端输入相同的信息,并执行同样的程序,完成同样的任务,得到的结果送入表决器,以多数的结果作为最后的输出。第77页,共280页。三取二系统模型

第78页,共280页。优点:系统可不进行故障检测、定位和系统的恢复工作,省掉了大量的软件工作,简单易行缺点:增加了硬件设备,提高了系统的费用第79页,共280页。2、动态冗余技术采用辅助系统作为主系统的热备份,正常状态下主系统工作,并对主系统进行故障检测和定位,一

旦诊断出故障发生的位置,系统能进行自动修复。第80页,共280页。3、硬件冗余的方法可采用多级硬件冗余方法,通过多种设备的冗余,提高系统的可靠性。并联冗余,备份冗余和表决系统冷备份,热备份第81页,共280页。优缺点优点:不可间断系统采用了计算机局域网络或分布式计算

机系统,各子系统无需或少许增加硬件设备,就可以起到互为冗余的作用。即不增加系统的体积、重量、功能和成功,设备充分共享,提高了利用率,弱化了故障缺点:虽然不增加硬件设备却增加了大量软件工作,系统研制的难度、周期和费用增加了;用

户的应用程序在系统中运行,经常被诊断程序中断,遇到故障时自动定位和恢复过程较慢;不适合实时性很强的系统第82页,共280页。(二)软件冗余指针对软件本身的故障,采用何种方法去防止由于软件的错误而导致

的系统失效。分为动态冗余和静态冗余第83页,共280页。1、动态冗余程序回卷(ProgramRollback)多道程序表决法模块恢复法第84页,共280页。程序回卷法在执行的程序中设置若干测试点,在每个测试点上检

查输出结果。当测试程序检测出错误时,就认为正在执行的程序是一个错误的系统中运行的,这段程序要被重新执行,即程序的卷回。第85页,共280页。优点:不增加硬件设备,软件也不复杂缺点:系统的反映时间和精度要受损失,对偶发性错误有效,对固定的故障无能为力第86页,共280

页。多道程序表决法对同一个问题按不同的算法编多个程序,对执行的结果进行表决。串行执行:费时,过多地占用主存空间,不符合实时性和实用性的要求并行执行:需要硬件支持第87页,共280页。模块恢复法程序按照模块执行,每执行完一块,接着执行一个测试程序,对刚执行的程序进

行测试,通过后再执行下一个模块,通不过则重新执行无法适应实时系统的要求第88页,共280页。2、静态冗余又称软件存储冗余,是把关键的系统程序和应用程序在系统中多点存储在主存或高速辅助存储器中。在正常状态

下,只执行一处或几处的程序,其它做备份,一旦程序遭破坏,则快速调入备用程序,使系统仍能正常工作。系统程序和应用程序可采取分布式存储,或集中式存储方式,或两者结合第89页,共280页。硬件容错与软件容

错的比较软件的拷贝不能作为软件的备份,这与硬件容错显然不同。软件的替换是暂时性的,被替换的软件部件仍可以重新使用,硬件部件则需重新修复才可使用。软件容错在实现技术上比硬件容错要复杂得多第90页,共280页。(三)数据冗余

主要应用于数据库系统中。若某种故障使数据库中当前状态不正确或可疑,就必须把数据库恢复到某一正确的状态根据数据库存储的位置和方式,分为集中式的数据冗余和分布式的数据冗余第91页,共280页。(四)动态冗余技术1.概述2.重组3.可

重组的动态N模冗余技术4.恢复5.多处理机系统的动态冗余结构与容错处理6.模拟部件的冗余容错7.动态冗余设计的综合考虑第92页,共280页。1、概述关键技术:故障检测与诊断选择系统冗余结构,实现静态冗余设计重组:故障处理技术恢复第93页,共280页。定义:综合运用以上几种技术来达到更

强容错能力的一种综合性容错技术动态:体现在作为系统正常资源的冗余模块数随着检测到的故障数多少而变化基本步骤:故障检测故障处理(重组)系统恢复第94页,共280页。动态冗余技术与静态冗余技术相比的优点有更大的隔离灾难性故障的能力直到所有的后备

单元都耗尽了,系统才失效利用程序卷回等手段可消除由瞬时故障引起的错误易于调节后备单元的数量与类型可利用后备单元的不加电元件的潜在低失效率特点避免了静态冗余的电路图相关、故障相依问题可用标准诊断程序检查后备单元可增加系统平均寿命第95页,共2

80页。2、重组重组的概念后缓备份重组缓慢降低重组第96页,共280页。(1)重组的概念重组的主要功能是防止失效影响到系统的正常工作。当检测出系统有故障并实现了故障定位后,系统便通过更换或切除故障模块的方法来重新组合,达到排除或隔离故障的目的。重组的基础是结构的冗余和

基于冗余结构的故障检测与诊断。实际中,往往在检出故障后通过中断来触发重组。第97页,共280页。重组可有两种不同类型后援备份重组缓慢降级重组第98页,共280页。(2)后援备份重组后援备份:系统配置一组平时不工作的模块作为工作模块

组中失效模块的备份。在故障发生后,通过故障检测触发后备模块取代失效模块两种备份方式“冷”备份:平时备份模块不通电“热”备份:平时备份模块通电,处于工作状态第99页,共280页。(3)缓慢降级重组缓慢降级是指当系统的工作模块出现故障模块后,进行

无替换的切换,每检出一个切除一个,从而使系统的功能和性能逐步降级两种设计指导思想1、按要求的性能设计系统资源,当出现失效模块后系统降级继续运行,直至失效累积到系统无法正常工作。主要用于一般用途的计算机2、系统最初设计成以超额资源、超级性能运行,

当系统出现失效时,仍能维持一个基本要求的性能等级。主要用于许多关键应用应用的实时控制处理器中第100页,共280页。3、可重组的动态N模冗余技术待命储备式N模冗余可重组二模冗余第101页,共280页。(1)待命储备式N模冗余单模替换结构成对替换结构第102页,共280

页。单模替换结构N个相同的模块中,只有一个为主用模块处理于运行状态,用以产生系统输出,其余模块都作为备份片于待命状态。自检测系统,也可用软件周期性或定期性地进行故障检测第103页,共280页。成对替换结构N个模块中总有两个组成主用模块对,它们并行工作并进行比

较;一旦比较结果不致便启动重组,将该对模块切除,而换上另外两个备用模块作为主模块对。第104页,共280页。(2)可重组二模冗余在静态二模冗余的基础上增加故障检测和模块切换装置而构成的有两种常见的冗余模式:主备用冗余模式和二模协同冗余模式第105页,共280页。主备用冗余模式实质上是

待命储备式N模冗余系统的一个特例两个相同的模块通过一定的接口电路(包括检测和切换装置)连接起来,一个主用,一个备用。第106页,共280页。二模协同冗余模式二模协同:指两个模块同时执行相同的指令,处理相同的数据,完成相同的任务。如果二模均正常,则任取其中

一个的输出作为系统输出;如果一个失效,则它的输出封锁,而将正常的输出作为系统输出。第107页,共280页。故障定位方法自诊断方法:联机模块运行自诊断程序每个模块设置自校验器利用监视定时器判别故障模块,触发重组利用外部

仲裁控制配置:强迫二模块运行同一“已知结果的测试程序”第108页,共280页。模块同步的方法微周期级同步总线周期级同步任务级同步第109页,共280页。4、恢复(1)恢复的概念(2)恢复技术的方法向前错误恢复、向后错误恢复(3)常用恢复算法(4)计算机系统基本部分的

恢复技术(5)文件恢复技术(6)通信系统的恢复技术第110页,共280页。(1)恢复恢复是系统利用重组处理了永久故障等不可恢复硬件故障后,实现动态冗余和容错的必不可少的环节。其作用是消除错误造成的影响,使

系统自动恢复到正常工作状态重新运行下去。第111页,共280页。(2)恢复技术的方法向前错误恢复向后错误恢复第112页,共280页。向前错误恢复概念:根据系统的故障特征,校正出错的系统状态,使系统进程正确运行下去。这种恢复技术不需要

保存系统出错前的状态和信息,不需要卷回重运行。优点:系统开销小,无需保存恢复点信息的时间和空间;可避免多米诺效应。多米诺效应:伴随“卷回”操作而产生的一种连锁倒退、直至退回到任务起点的反应现象。在多进程计算机系统中极易产生多米诺现象。第113页,共280页。向前错误恢复缺点:(1)恢复算法

复杂,必须基于对故障特征和错误性质的深刻而全面的认识。(2)不能采取措施来消除错误或掩盖故障。第114页,共280页。向后错误恢复向后错误恢复技术是把出错的系统进程从当前错误状态卷回到以前的某一正确状态,然后从这一状态开始继续系统的运行。这种恢复方式是以事先建立

恢复点为基础的第115页,共280页。向后错误恢复协议(1)保证为每个任务或进程的程序模块设置一组恢复点,并将系统正常运行到各恢复点时的状态和必要信息予以保存,以便程序一旦返回到该点时可以纠正故障影响。(2)避免因多模块间通信而产生的多米诺效应,关键在于选择恢复点。(3)尽量保持各模块原有的并行性

。第116页,共280页。向后错误恢复协议(4)使各模块保持独立性,并使恢复过程对设计者具有透明性。(5)避免因恢复造成多模块的死锁。(6)使恢复操作尽量少增加系统开销。(7)具有完整性和一致性第117页,共280页。向后恢复的三种实现方法静态规划法无

规划法动态规划法第118页,共280页。优点:实现简单、恢复可靠缺点:系统的时间、空间开销大,易引起多米诺效应第119页,共280页。(3)常用恢复算法程序卷回记日志恢复块原子操作预设陷阱纠错编码多数表决

第120页,共280页。程序卷回向后错误恢复方法适用于瞬时错误和永久错误检测系统在运行过程中一经发现错误,便进行程序卷回,返回到起始点或离出错点最近的预设恢复点重试。–微指令重试–替换数据重试第121页,共280页。注意问

题恢复点的数目和位置选择问题各恢复点需要保存的状态和信息量的确定问题恢复点的功能设置问题程序卷回级别的选择问题第122页,共280页。程序在恢复点的功能同步功能存档功能存档内容的更新功能报告功能第

123页,共280页。记日志向后错误恢复方法在进程开始时,保存初始数据的副本作为后备数据,并在进程执行中,记下影响这些数据的全部业务。第124页,共280页。恢复块向后恢复方法,以错误检测、向后冗余和多份软件模块为基础由恢复点、替换算法和验收测试三部分组成–恢复点:保存在恢复块内

会发生变化的全局变量–替换算法:一个或多个不同版本、但功能相同的备用程序模块–验收测试:一组逻辑表达式模块,设置在每个替换算法的出口,用于检测计算结果的正确性、合理性第125页,共280页。验收测试的

设计问题满足要求测试:算法执行后完成必定满足要求合理性测试审计测试运行时间测试第126页,共280页。原子操作特性:–一个原子操作可以只属于一个进程,也可以由多个进程共享–原子操作是可嵌套的一种错误检测的方法,还是一种确定一个故障的可能结果的界限的方法可用于向前和

向后错误恢复第127页,共280页。预设陷阱向前错误恢复方法根据系统可能出现的异常情况,设计一组处理程序,建立一个异常处理程序库,当系统因故障而出现某种预料中的异常情况时,便从库中调用相应的异常处理程序进行处理,实现错误恢复第128页,共280页。纠错编

码通过在信息位的基础上增加校验位,可以准确地检测出传输、存储的信息中出现的差错和差错的位置,并能以正确的值校正差错值,使信息恢复到原来正确状态。可用于故障诊断、屏蔽,差错恢复第129页,共280页。多数表决向前错误恢复,可以屏蔽错误,并诊断出错位置在多处理机系统中,多个

处理机独立运行同一任务,并同步完成相同的功能,按“择多原则”得出正确的结果值第130页,共280页。(4)计算机系统基本部分的恢复技术中央处理机的故障排除与恢复存储器故障排除与恢复外设的故障排除与恢复第131页,共280页。中央处理机的故障排除与恢复常见故障:内部硬件故障:由模

块或装置内的各种硬件校验和接口校验验出程序错误:可作为程序执行时的软件异常状态和例外状态由硬件检验机构检出第132页,共280页。中央处理机的故障排除与恢复流程图CPU1硬件故障硬件重试成功保存现场运行信息多处理机?CPU1永久故障停机,并

保存现场运行信息中断CPUi(i=1)OS的功能恢复例行程序应用软件恢复例行程序有关处理任务异常终结继续工作能恢复?CPU执行OSNNYNYYN第133页,共280页。软件故障排除与恢复硬件检测机构一旦检出

程序异常,立即发出程序错误中断(如非法操作码中断、指令使用错误中断等)报告给操作系统对于操作系统中发生的程序错误,通常采用“预设陷阱”恢复算法,针对不同的程序错误中断,启动不同的“异常处理”程序。对于用

户处理程序中发生的程序错误–恢复块技术–预设陷阱恢复方法第134页,共280页。存储器故障排除与恢复检测:奇偶校验电路、静态测试、动态测试等软件检测手法、海明码一旦检测出有错,检测机构向CPU发出中断,启动运行存储器排除故障与恢复的中断处理程序处

理方法:先了解发生误操作的存储器地址或芯片等故障信息,然后重新从外部存储器调入出错的程序,从断点处开始重试,看能否恢复;若重试不成功,进行硬件重组和重组后的恢复重新调入执行的程序,可重入(Reenterable)且可再生(Refres

hable)的程序第135页,共280页。外设的故障排除与恢复外设:与CPU控制输入/输出设备工作相关的硬件组成部分:并行或串行I/O通道、设备驱动器、I/O设备和数据存取路径外设故障对策外设故障的处理步骤第136页,共280页。外设故障对策存取路径多重化设

备的物理多重化:将信息同时写入若干相同的设备设备的逻辑多重化:为同一功能安排两个以上的实体设备复制件,而且设置几种不同的设备第137页,共280页。外设故障的处理步骤用硬件或软件重试–硬件重试:由I/O通

道、设备驱动器对指令自动重试–软件重试:先在发生I/O操作错的同一存取路径上进行;若失败,再改用另一路径重试故障的区分诊断故障设备的重组定时监视第138页,共280页。处理外设故障的一般步骤用硬件/软件重试成功?故障的区分诊断故障设备重组定时监

视超时?YNYN继续运行第139页,共280页。外设故障的区分诊断通道1驱动器1通道2驱动器2TDDP11P12P2212外存第140页,共280页。故障设备的重组将故障设备和故障单元在逻辑上与系统

切断,禁止存取,通知操作员切除维修故障设备修复后,在实际投入系统应用前以诊断工作方式读写检验其是否正常和可靠,称为故障修复后的验收诊断第141页,共280页。(5)文件恢复技术文件:计算机系统中具有逻辑关系的信息/数据

的集合文件恢复的故障前处理文件恢复的故障后处理第142页,共280页。文件的恢复阶段故障前处理:在系统运行过程中、故障发生前,将文件恢复所必需的信息记录下来故障后处理:系统因故障发生而中断运行时,利用故障前记录的信息使刚刚发生故障的文件及系统的其他状态得到恢复,使系统重新运行第143页,

共280页。故障前处理二重化方式虚拟空间方式恢复点方式报文记录方式全转储方式ID转储/状态转储方式第144页,共280页。二重化方式将重要信息二重化第145页,共280页。虚拟空间方式更新文件时,将文件复制到别的文件空间后再更新虚拟空间:用于更新别的文件空间第146页,共2

80页。恢复点方式联机系统使用分类–周期转储:按一定时间周期,定期转储系统恢复所需的基本信息–增量转储:在文件每次更新前保存下文件的内容、识别号、处理时间等信息第147页,共280页。报文记录方式常用于小型报文交换系统在形成输入、输出报文记录时都附加上一定的识别号码,然后

系统恢复时通过检验识别号码来确定具体的恢复策略第148页,共280页。全转储方式每过一定时间,将系统运行所必需的重要文件和需要长期保存的信息全部从硬盘上转储到磁带、光盘等后援存储器上去。第149页,共280页。ID转储/状态转储方式转储系统的运行状态记录,

将记录结合恢复点方式和报文记录方式获得的有关文件识别号码、事务处理识别号码、文件内容等信息,恢复系统正常运行状态第150页,共280页。文件操作的四种状态状态S0:接收完终端送来的报文时状态S1:在恢复点转储完文件更新信息,但尚未更新文件时状态S2:用户文件更新完

成时状态S3:向终端发送输出报文时第151页,共280页。故障后处理应急恢复文件恢复系统恢复的优先次序第152页,共280页。应急恢复利用ID转储/状态转储信息和恢复点信息等,尽快使对用户的服务重新开始的恢复针对两种故障状态:–终端处于完全不能访问系

统中心的状态–终端送来的报文已输入到系统中心,报文正在处理中或已处理完正等待输出时发生故障的状态第153页,共280页。文件恢复读出的文件发生故障时,利用前一天的全转储信息和当天的恢复点信息来恢复文件第

154页,共280页。(6)通信系统的恢复技术终端控制程序的恢复处理报文控制程序的恢复处理第155页,共280页。通信系统:由各机所属的通信控制器和机间的通信线路网组成通信控制器:–故障检测:通过特设的回折试验线路和多重化通信的模拟输入/输出功能进行检测–故障定位:终端控制程

序的故障区分例行程序通信线路网:交换线路网和专用线路网第156页,共280页。通信系统的信息处理终端控制程序:以终端、通信线路网的控制为中心,使数据正确而有效地传送报文控制程序:以一份报文为单位确保数据处理的正确性业务控制程序:对接收的报文信息按应用要求进行综合第15

7页,共280页。终端控制程序的恢复处理检测报文错误或传送控制错误重试终端代理接收试验呼叫第158页,共280页。报文控制程序的恢复处理用来校验报文格式和输入/输出流水号等错误,并负责出错情况下的恢复处理工

作报文格式错:将该份报文作废并通知发送端重发输入流水号和输出流水号错–重号:在接收端删除重复报文–漏号:通知发送端重发通信系统错误恢复后,对中断交换的报文处理–重发–脱发:系统恢复工作总从下一份报文开始发送第159页,共280页。5、多机处理系统的

动态冗余结构常用的多处理机冗余结构(1)均分负载系统结构(2)主备用系统结构(3)紧耦合系统结构(4)分布式系统结构(5)网络结构第160页,共280页。均分负载系统结构均分负载:把系统的负载基本均衡地分配给多个互相独立的处理机来承担第161页,

共280页。紧耦合系统结构特点:–有两个或两个以上的处理机–有各处理机共享的主存储器–有各处理机共享的I/O子系统–有统一的多机并发操作系统进行控制第162页,共280页。分布式系统结构松耦合多处理机系统相互通信的多个自治计算机节点的集合,各计算机即相互独立,又是一个整体

的组成部分,相互协作完成一个共同的任务第163页,共280页。结构特点所有资源均可冗余良好的可扩性使得系统的冗余程度可随应用要求和环境的变化而作动态调整系统中资源在物理上是分散的,避免了由于局部故障而导致整个系统崩

溃的现象高速可靠的通信子网络和资源的分散控制消除了单处理机和紧耦合多处理机系统中存在的竞争、数据流瓶颈和控制上的关键点第164页,共280页。几种常见的分布式系统结构双环结构C1,t环路结构(n:节点数,t:节点跳跃间隔

)多总线结构容错环总线结构n第165页,共280页。多总线结构每个节点并不连接到所有的总线上,而是按一定规律连接在部分总线上特点:–总线数增多时,节点的端口数不必随之增加–每条总线的负载不会随着节点的增加而明显增大第166页,共280页。(5)网络结构网络冗余

性的表现:–终端设备与线路的多重冗余–存取路径的多重冗余–引入集配器装置网络结构的基本形式:–集中式网络–分布式网络第167页,共280页。第五章软件可靠性技术软件可靠性概述软件容错技术信息保护技术第168页,共280页。5.1软件可靠性概述软件可靠性和硬件可靠性的联系和区别

软件可靠性技术的内涵软件可靠性定义软件可靠性指标第169页,共280页。软件可靠性和硬件可靠性的联系软件可靠性和硬件可靠性的区别软、硬件故障机理软件故障的特性第170页,共280页。1、软件可靠性和硬件可靠性的

联系指系统(或产品、模块)在一定的条件下和一定时间内能完成预定功能的性质两者都是复杂性的函数都可利用可靠性增长来提高它们的可靠性第171页,共280页。2、软件可靠性和硬件可靠性的区别概念内涵指标选择设计分析手段提高可靠性的方法途径第17

2页,共280页。3、软、硬件故障机理硬件故障来源于元部件的失效,“后生”的故障软件故障来源于人的失误和水平、能力的局限性,“先天”的故障第173页,共280页。4、软件故障的特性固有性环境敏感性–运行环境:硬件平台、硬件配置、支撑软件–输入环境:应

用对象,用户要求,输入数据等故障影响的传染性:任一软件故障,只要未被除,始终存在于该软件中,一旦引起错误,是可以传染给其他软件的。第174页,共280页。可靠性设计:为了获得高可靠性的软件–避错排错设

计–容错设计–信息保护可靠性分析:通过建立一定的可靠性模型,为软件可靠性设计和软件维护提供必要的依据第175页,共280页。软件可靠性技术设计技术分析技术避错排错技术容错技术信息保护技术可靠性模型管理技术设计方法学验证技术多版本技术恢复块技术替换

技术混合技术基本信息保护技术网络信息保护技术时间技术计数技术播种技术数据技术第176页,共280页。计算机软件:与计算机系统的操作有关的程序、规程、规则以及与之有关的文件和数据软件质量软件可靠性第177页,共280页。RAID4的特点和RAID3也挺象

,不过在失败恢复时,它的难度可要比RAID3大得多了,控制器的设计难度也要大许多,而且访问数据的效率不怎么好。自校验系统的性质由系统结构和运行环境所决定。3自校验网络的基本结构效率(时间性、资源性)缺点:虽然不增加硬件设备却增加了大量软件工作,系统研制的难度、周期和费用增加了;可利用后备单元的不

加电元件的潜在低失效率特点统进行屏蔽以减少外界的干扰等方法来提容错软件设计的先进技术1969,喷射推进实验室的STAR计算机,其处理机采用三重表决加备份的混合冗余方式,并用算术检错码及双机比较检测故障。机器的内部总线,也包括像SCSI的外

部总线更换新盘后原有数据会需要很长时间同步镜像,外界对数据的访问不会受到影响,只是这时整个系统的性能有所下降。软件质量指软件产品满足规定需求或隐含能力所有的特征和特征之和软件质量指标–功能性(实用性、准确性、互操作性、一致性和安全性)–可靠性(成熟性、容错性、可恢

复性)–易使用性(易学性、易理解性、易操作性)–效率(时间性、资源性)–维护性(可分析性、易修改性、稳定性和易测试性)–可移植性(适应性、可安装性、规范性和可换性)第178页,共280页。软件可靠性在规定的条

件下和规定的时间内,软件成功地完成功能的能力或不引起系统故障的能力,称为软件可靠性特点:–与软件开发方法有关–与验证方法有关–与使用的程序设计语言、软件的运行环境条件、操作人员的素质有关第179页,共280页。软件可靠性

指标应根据实际系统的可靠性指标分析确定,并遵循以下原则:与系统可靠性表示方法相协调用户概念以使用过程中易观测的参数来表示针对具体的任务,对不同的功能应用不同的指标和要求第180页,共280页。1、沿袭硬

件可靠性的软件可靠性指标软件可靠度:软件系统在特定的环境下,在规定的时间内不发生故障地运行的概率(Rs(t)))故障率:软件工作到某时刻t尚未失效,在时间t后单位时间内发生故障的概率(λs(t))平均故障间隔时间:是软件在交付用户使用的操作期间,软件各次故障的间隔时间的期望值

(MTBF)平均故障前时间:是软件经测试过程中,软件各次故障之间的间隔时间的期望值(MTTF)平均修复时间:软件系统在特定的环境下,在规定的时间内,在规定的维修级别上,维修时间的平均值(MTTR)第181页,共280

页。2、表征软件特殊性的软件可靠性指标平均不工作时间:软件系统平均不工作时的时间平均操作错误时间:软件操作错误的平均间隔时间软件系统不工作时间均值:因软件故障,系统不工作时间的平均值可用性:软件在规定的开始时刻t0运行正常的条件下,在

规定的未来时间t正常运行的概率初始错误个数和剩余错误个数使用方误用率:使用方在使用软件的总次数中,误用次数所占的百分率第182页,共280页。5.2软件容错技术容错软件的基本概述及原理容错软件设计的基本技术容

错软件设计的先进技术第183页,共280页。容错软件的定义实现软件容错的基本原理实现容错软件的有关技术第184页,共280页。1、容错软件的定义规定功能的软件,如果在一定程序上对自身故障的作用具有屏蔽能力,那么,称此软件为具有容错功能的软件,即容错软件规定功能的

软件,如果在一定程度上能从故障状态自动恢复到正常状态,则称为容错软件规定功能的软件,在因缺陷而出故障时,仍然能在一定程度上完成预期的功能,则称为容错软件规定功能的软件,如果能在一定程序上具有容错能力

,则称为容错软件第185页,共280页。特点容错的对象是一个规定功能的软件,这些功能是由需求规范定义的容错的能力总是有一定限度的当软件由于自身存在缺陷而在运行中出故障时,若其为容错软件,应能屏蔽这

一故障,对其进行处理以避免失效(通过故障检测算法、故障恢复算法、软件冗余备份来实现)第186页,共280页。排错并不能解决所有问题缺陷与因其而引起的故障间的关系十分复杂,依据对故障的观测来确定缺陷难度是很大的设计中的残存缺陷大多已经和软件总体以及各阶段中形成

的文档、资料等建立了密切的联系,难以一举排除在研制时间上,不允许作旷日持久的检验和修改第187页,共280页。2、实现软件容错的基本原理将若干个根据同一规范编写的不同程序(或程序块),在不同空间同时运行或在同一空间依次运行,然后在每一个

预定的检测点上或最终通过表决或接收测试进行裁决。在判明其正确或一致后接收这个结果,否则便加以拒绝,并作出报警。第188页,共280页。容错基本结构结果报警正确执行可诊断的故障不可诊断的故障版本裁决器第189页,共280页。容错系统的结果裁决器判断正确,软件正确无

误地实现了需求规范所载的功能裁决器判断正确,发现故障,发出的报警,能制止系统失效导致严重的后果裁决器判断错误或软件存在不可诊断的故障,使系统最终失效第190页,共280页。容错软件的两种结构方案多(N)版本

程序设计(N-VersionProgramming,NVP)结构恢复块(RecoveryBlock,RB)技术第191页,共280页。3、实现容错软件的有关技术版本冗余故障检测技术故障恢复技术破坏估计故障隔离技

术继续服务第192页,共280页。(1)故障检测技术软件断言(SoftwareAssertions)软件的自测试第193页,共280页。软件断言(SoftwareAssertions)软件在宿主系统中运行时,能对其进程或功能的正确与否作出判断的条件称为软件断

言。断言提供三个结论:正确,不正确,不能判别第194页,共280页。软件的自测试正面校验(PositiveCheck)原则:测试软件将输入转化为输出的功能是否正确反面校验(NegativeCheck)原则:将软件输出逆

转化为输入,检查是否正确第195页,共280页。(2)故障恢复技术向前恢复向后恢复第196页,共280页。故障恢复技术故障检测状态恢复方案状态恢复重构重试继续服务向前向后第197页,共280页。(3)破坏估计、故障隔离和继续服务破坏估计–判定故障被检测出来之前已

经引起的破坏–发生故障后,在处理的延滞或恢复实施过程中,无效信息在系统中传播的可能性–故障可能导致的其他未被检测到的后续故障故障隔离继续服务第198页,共280页。故障隔离主动地采取措施,防止故障的破坏性蔓延的技术称为故障隔离权限最小化原则:对

过程的数据加以严格的定义和限制,令过程不能提供任何超过事先规定限度的功能,也无权接受来自限定数据库之外的数据第199页,共280页。继续服务确保向前恢复后的输出序列中所失去的部分不致于影响软件的基本功能确保向后恢复后输出序列中重复多余的部分和差错状态不致影响输出的正确执行第200页,共280页

。N版本程序设计(NVP)恢复块(RecoveryBlock)技术第201页,共280页。1、N版本程序设计(NVP)NVP的思想来自硬件NMR(N-ModularRedundant)结构,是一种静态冗余技术NVP要求

由N个实现相同功能的不同程序同时(或几乎同时)在松耦合计算机上运行,然后比较运行结果,在出现不一致的情况下,利用多数表决决定一个最优先的结果第202页,共280页。NVP的基本结构版本1版本2版本N表决器结果告警多数少数第203页,共280页。优缺点优点:结构简单,不设计检测程序来确定运

行结果的正确与否缺点:–处理时间是单版本的N倍–设计所花的力量是单版本的N倍–表决程序设计较困难–当该程序需要与外部事件同步时,或在并行处理中在交互过程时,难于处理第204页,共280页。2、恢复块(RecoveryBlock)技术思想来源于

硬件的待机(Standby)冗余的动态结构恢复块的基本结构接收测试设计替换块的设计第205页,共280页。恢复块的基本结构版本1接收测试版本2接收测试版本1接收测试结果告警接收接收第206页,共280页。接收测试设计逆向检查:接收测试利用模块中的结果,计算本应采用的输入

值,并与真实输入值比较以决定结果是否可接受编码校验:利用纠、检错码的原理建立接收测试合理性测试:根据可能的变化范围,以便检查变量是否越出范围或状态变化违反允许的序列结构校验:比如利用数据结构链表

的链接特性来进行校验帐目校验:在事务处理中,帐目校验是用帐目平衡来作接收测试最方便的基准运行时间校验:第207页,共280页。(3)替换块的设计相同加权,独立设计优先的、全功能设计功能降级设计第208页,共280页。一致性恢复块接收表决N自检程序设计第

209页,共280页。1、一致性恢复块(CRB)按顺序结合NVP和RB的混合系统称为一致性恢复块(CRB)。如果NVP失效,系统将恢复到RB。只有当NVP和RB都失效时系统才发生故障。第210页,共280页。2、接收表决(AcceptanceVoting)与CRB

混合方向反向,多个模块并行执行,模块输出先经过接收测试,接收测试接受输出后,结果再经表决器表决。表决器是动态的,因为接收测试的输出结果数目每次各不相同只有两个或多个输出正确时,表决器才产生一个决定第211页,共280页。3

、N自检程序设计N个模块成对执行(N取偶数)采用比较模块输出或其他方法来判断系统正确与否比较模块输出:如果每一对的输出之间不相同,则放弃输出第212页,共280页。各冗余软件由相互独立的不同人员进行开发各冗余软件以不同的形式说明各冗余软件的设计评审的参与人员不重复各冗

余软件的最终规范及最终设计、最终编程由不重复的审核人员对照软件需求、软件规范、软件设计进行审核第213页,共280页。如果开发采用了CAD工具,则各冗余软件应采用不同的CAD工具各冗余软件析测试程序的规范、测试方

式、测试程序,尽可能由不重复的互相独立的人员组开发各冗余软件应在算法上相异各冗余软件应在逻辑结构上相异如有可能,各冗余软件最好由不同开发单位设计,开发单位之间是相互独立的各冗余软件用不同的程序设计语言设计各冗余软件用不同的编译程序或汇编程序翻译成目标码第214页

,共280页。5.3信息保护技术概述基本信息保护技术先进的计算机网络信息保护技术网络备份系统第215页,共280页。信息保护技术:为防止信息被不正当地存取或破坏而采取的措施第216页,共280页。编码化与密码化资格检查

内存保护外存保护第217页,共280页。1、编码化与密码化编码化:在信息上附加冗余信息,防止硬件故障、程序错误以及人为差错等原因引起的信息破坏密码化:防止信息泄漏(明文、密文、密钥)第218页,共280页。2、资格检查设置“允许存

取的口令”设置“程序权限等级”设置“用户权限等级”第219页,共280页。3、内存保护区域寄存器方式保护键方式环状保护方式虚拟存储方式残存信息的清除第220页,共280页。―冷”备份:平时备份模块不通电虚拟空间:用

于更新别的文件空间更新文件时,将文件复制到别的文件空间后再更新(1)保证为每个任务或进程的程序模块设置一通常,系统会回到故障检测前处理过程的某一点,并从这一点重新开始操作。重新调入执行的程序,可重入(Reenterable)且可再生(Refreshable)的程

序容错技术的主要组成部分,又是微电子技术的支撑技术利用监视定时器判别故障模块,触发重组验码保存另一组磁盘上,由于海明码可以在数据避免了静态冗余的电路图相关、故障相依问题C1,t环路结构(n:节点数,t:节点跳跃间隔)RAID3最大不足是校验盘很容易成

为整个系统的瓶颈,对于经常大量写入操作的应用会导致整个RAID系统性能的下降。允许使用SNMP协议进行管理和监视,可以对校验区指定独立的传送信道以提高效率。RAID0+1要在磁盘镜像中建立带区集至少4可重组的

动态N模冗余技术统进行屏蔽以减少外界的干扰等方法来提软件可靠性指标应根据实际系统的可靠性动恢复到正常工作状态重新运行下去。主要用于一般用途的计算机环状保护方式层次结构的保护方式,分为控制程序、服务程序与编译程序、用户程序三个层次规则:–外环的程序不

能破坏内环的程序和数据–外环能否读出内环,取决于存取保护位–内环能否写入外环,取决于存取保护位–内环能读出外环的内容第221页,共280页。4、外存保护文件的存取保护属性:禁止检索、禁止更新、禁止清除文件存取保护的方法:–利用目录保护

–得用“允许存取口令”保护–清除残存信息–利用文件二重化保护(物理二重化、逻辑二重化)第222页,共280页。防火墙公钥加密技术Java沙箱第223页,共280页。1、防火墙一种获取安全性的方法,用以确定允许提供的服务和访问一个独立的进程或一组紧密结合的

进程,运行于路由器或服务器上,用来控制经过防火墙的网络应用程序的通信量防火墙系统可以是路由器、个人主机、主系统和一批主系统,专门把网络或子网同那些可能被子网外的主系统滥用的协议和服务隔绝用途:控制对受保护的网络的往返访问实施

网络访问策略的方法:迫使各连接点通过能得到检查和评估的防火墙第224页,共280页。防火墙的功能谁在使用网络他们在网上做什么他们什么时候使用过网络他们上网去了何处谁要上网但没有成功第225页,共280页。

防火墙的必要性防止易受攻击的服务控制访问网点系统集中安全性增强保密,强化私有权有关网络使用、滥用的记录和统计实施第226页,共280页。防火墙的构成网络先进的验证工具包过滤应用网关第227页,共280页。网络高级:一种发布专用的网络访问,它用来定义那些受限

制的网络许可或明确拒绝的服务,如何使用这些服务以及这种的例外条件低级:描述的防火墙实际上如何尽力限制访问,并过滤在高层所定义的服务第228页,共280页。防火墙设计两种设计方针:拒绝访问除明确许可以外

的任何一种服务允许访问除明确拒绝以外的任何一种服务第229页,共280页。常见的防火墙数字包过滤器:运行在路由器上,负责检查进出网络系统的每个数据包的源地址和目的地址应用层次防水墙:检查地址以及因特网通信的内容第230页,共280页。2、公钥加密技术每个使用者都有两个密钥:

一个公开密钥,可供所有人使用,加密传送给该用户的消息一个秘密密钥,该用户用它来解密消息第231页,共280页。3、Java沙箱Java虚拟机当计算机用户下载一个Applet时,该虚拟机开始时不允许程序进入计算机硬盘驱动器、网络接口及其他关键的系统资源。在虚拟机证

实一个Applet来自可靠的源之后,该程序才能离开沙箱第232页,共280页。对备份系统的要求网络备份的组成部件备份的系统方法第233页,共280页。1、对备份系统的需求备份系统的目的:尽可能地全盘恢复计算机系统所需的数据和系统信息操作系统备份工

具:太初级,在自动化和文件管理方面提供的功能不多第234页,共280页。2、网络备份的组成部件目标:指被备份或恢复的任何系统工具:执行备份任务的系统设备:将数据写到可移动介质上的存储设备SCSI总线:将设备和联网计算机连接

在一起的电缆和接头。第235页,共280页。(1)两种基本的备份系统服务器独立备份目标和工具总线设备网络在独立备份中,服务器将自己备份到一台外接设备上第236页,共280页。服务器工作站目标工具设备工作站备份网络在工作站备份中,服务器数

据被传送到工作站上并被写入设备第237页,共280页。(2)服务器到服务器的备份设备服务器A服务器B服务器C目标总线目标和工具目标在服务器到服务器的备份中,服务器B备份自己,也备份服务器A和C第238页,共280

页。(3)专用网络备份服务器服务器A服务器C服务器B设备目标目标总线只有工具,没有目标服务器B被用来进行备份工作。它将服务器A和C备份到自己的外接设备上第239页,共280页。3、备份的系统方法网络备份优先LAN备份的发展过程备份系统的组成管理冗余第240页,共280页。(1)网

络备份优先提高网络备份性能的途径:保证各服务器都采用相同的硬件平台和操作系统专用网络快速的CPU,快速I/O的多处理器系统,系统要有同时从多个设备中传输数据的能力,也要有高效选择文件的智能第241页

,共280页。(2)LAN备份的发展过程80年代中期,网络备份开始引起LAN系统管理员的注意第一个LAN备份产品:对NovellNetWare服务器进行备份第一个PCLAN备份产品:基于DOSNetWare的NLM(可安装模块)技术出现后,备份软件开发公司将其产品设计成驻留在服

务器上的并作为服务程序运行现在,备份软件公司开始向支持分布式平台模式方向努力。第242页,共280页。(3)备份系统的组成部件描述物理主机系统主要的备份逻辑在其上执行的机器逻辑主机系统为上面服务的操作系统I/O总线机器的内部总线

,也包括像SCSI的外部总线外部设备磁带驱动器,磁盘驱动器,光驱设备驱动软件与设备接口的低层代码备份存储介质磁带、光盘等操作调度决定每天备份做什么第243页,共280页。部件描述操作执行执行备份操作的代码物理目标系统数据从其上拷走的机器

逻辑目标系统为它建立操作系统和环境网络连接路由器、网桥、开关、线缆网络协议传输协议IPX/SPX,TCP/IP等系统日志备份文件信息的知识库系统监控管理员界面系统管理SNMP或其他管理系统的方法第244页,共280页。I/O总线

包括两部分:机器用来传输数据的内部系统总线通常用来连接存储设备的外部存储总线第245页,共280页。SCSI技术对比SCSI总线速度(MBps)能连接设备数目常规的SCSI,8位传输57快速SCSI(使用增强协议)107宽带SCSI,16位

传输1015快速宽带SCSI2015超高速SCSI,8位2015超高速SCSI,16位4015第246页,共280页。(4)管理冗余备份操作的种类恢复操作的种类第247页,共280页。备份操作的种类全盘备份:将所有文件写入备份介质

增量备份:只备份那些上次备份之后改过的文件差别备份:备份上次全盘备份之后更改过的所有文件按需备份:在正常的备份安排之外额外进行的备份操作排除:第248页,共280页。恢复操作的种类全盘备份恢复个别文件

备份恢复重定向恢复:将备份文件恢复到另一个不同的位置或系统上去,而不是进行备份操作时它们当时所在的位置第249页,共280页。上机设计一个备份系统,要求:能实现对某个目录(用户指定)下的所有文件进行定时自动备份备份策

略:–备份到本机的另一个目录下–备份到网络的其它机器上第250页,共280页。请提交一份备份系统设计报告系统实现的主要功能系统的开发工具,开发环境系统的开发难点请描述至少两种网络文件(数据)传输技术及实

现方法第251页,共280页。作业:1.描述一致性恢复块、接收表决和N自检程序设计三种容错技术的工作原理。2.结合你熟悉的计算机应用系统,谈谈信息保护技术的具体应用。第252页,共280页。实验实验报告:详细描述ghost

软件的使用方法,以及备份一个系统的具体步骤第253页,共280页。网络数据传输技术RS232,点对点传输DCOMTCP/UDP第254页,共280页。第六章容错技术的应用RAID分布式系统中的容错方案双机容错方

案第255页,共280页。6.1RAIDRAID(RedundantArrayofInexpensiveDisks)磁盘阵列是一种由多块廉价磁盘构成的冗余阵列,包含多块磁盘,在操作系统下是作为一个独立的大型存储设备出现提升硬盘速度,确保数据安全性第256页,共280页。RAID0

:数据不能容错但速度快RAID1:数据可以容错但容量需要2位,成本高,速度一般RAID3-5:数据可容错,速度快,成本较0,1低第257页,共280页。RAID0的两种实现方式把X块同样的硬盘用硬件的形式通过智能磁盘控制器或用操作系统中的磁盘驱动程序以软件的方式串联在一起,形成独立的逻

辑驱动器。是用n块硬盘选择合理的带区大小创建带区集(把数据均匀分配到所有的磁盘上进行读写),最好是为每一块硬盘都配备一个专门的磁盘控制器,在电脑数据读写时同时向n块磁盘读写数据,速度提升n倍。提高系统的性能。第258页,共280页。在电脑数据写时被依次写入到

各磁盘中,当一块磁盘的空间用尽时,数据就会被自动写入到下一块磁盘中,它的好处是可以增加磁盘的容量。第259页,共280页。系统向逻辑设备发出的I/O指令被转化为4项操作,其中的每一项操作都对应于一块硬盘。通过建立带区集,原

来顺序写入的数据被分散到所有的四块硬盘中同时进行读写。磁盘读写速度提高了4位。第260页,共280页。频繁进行读写操作时,很容易使控制器或总线的负荷超载,用双控制器可以把原来控制器总线上的数据流量降低一半。第261页,共2

80页。RAID0提高磁盘的性能和吞吐量,实现成本最低没有冗余或错误修复能力,可靠性不高第262页,共280页。RAID1RAID1又被称为磁盘镜像,每一个磁盘都具有一个对应的镜像盘。对任何一个磁盘的数据写入都会被复制镜像盘中,系统可以从一组镜像盘中的任何一个磁盘读取数据。显

然,磁盘镜像肯定会提高系统成本。第263页,共280页。第264页,共280页。特点:RAID1的每一个磁盘都具有一个对应的镜像盘,任何时候数据都同步镜像,系统可以从一组镜像盘中的任何一个磁盘读取数

据。磁盘所能使用的空间只有磁盘容量总和的一半,系统成本高。只要系统中任何一对镜像盘中至少有一块磁盘可以使用,甚至可以在一半数量的硬盘出现问题时系统都可以正常运行。出现硬盘故障的RAID系统不再可靠,应当及时的更换

损坏的硬盘,否则剩余的镜像盘也出现问题,那么整个系统就会崩溃。更换新盘后原有数据会需要很长时间同步镜像,外界对数据的访问不会受到影响,只是这时整个系统的性能有所下降。RAID1磁盘控制器的负载相当

大,用多个磁盘控制器可以提高数据的安全性和可用性。第265页,共280页。第266页,共280页。RAID0+1把RAID0和RAID1技术结合起来,数据除分布在多个盘上外,每个盘都有其物理镜像盘,提供

全冗余能力,允许一个以下磁盘故障,而不影响数据可用性,并具有快速读/写能力。RAID0+1要在磁盘镜像中建立带区集至少4个硬盘。第267页,共280页。RAID2位交叉访问式数据分带电脑在写入数据时在一个磁盘上保存数据的各个位,同时把一个数据不同的位运算得到的海

明校验码保存另一组磁盘上,由于海明码可以在数据发生错误的情况下将错误校正,以保证输出的正确。但海明码使用数据冗余技术,使得输出数据的速率取决于驱动器组中速度最慢的磁盘。RAID2控制器的设计简单。第268页,共280页

。RAID3奇偶校验的位交叉访问式数据分带RAID3使用一个专门的磁盘存放所有的校验数据,而在剩余的磁盘中创建带区集分散数据的读写操作。当一个完好的RAID3系统中读取数据,只需要在数据存储盘中找到相应的数据块进行读取操作即可。向RAID3写入数据时,必须计算与该数

据块同处一个带区的所有数据块的校验值,并将新值重新写入到校验块中。第269页,共280页。第270页,共280页。当一块磁盘失效时,该磁盘上的所有数据块必须使用校验信息重新建立,如果所要读取的数据块正好位于已经损坏的磁盘,则必须同时读取

同一带区中的所有其它数据块,并根据校验值重建丢失的数据,这使系统减慢。当更换了损坏的磁盘后,系统必须一个数据块一个数据块的重建坏盘中的数据,整个系统的性能会受到严重的影响。RAID3最大不足是校验盘很容易成为整个系统的瓶颈

,对于经常大量写入操作的应用会导致整个RAID系统性能的下降。RAID3适合用于数据库和WEB服务器等。第271页,共280页。RAID4RAID4即带奇偶校验码的独立磁盘结构RAID4和RAI

D3很象,它对数据的访问是按数据块(磁盘)进行的,每次是一个盘RAID4的特点和RAID3也挺象,不过在失败恢复时,它的难度可要比RAID3大得多了,控制器的设计难度也要大许多,而且访问数据的效率不怎么好。第272页,共2

80页。RAID5RAID5把校验块分散到所有的数据盘中。RAID5使用了一种特殊的算法,可以计算出任何一个带区校验块的存放位置。这样就可以确保任何对校验块进行的读写操作都会在所有的RAID磁盘中进行均衡,从而消除了产生瓶颈的可能。RAID5的读出效率很高,写入效率一般,块式

的集体访问效率不错。RAID5提高了系统可靠性,但对数据传输的并行性解决不好,而且控制器的设计也相当困难。第273页,共280页。第274页,共280页。RAID7RAID7即优化的高速数据传送磁盘

结构,它所有的I/O传送均是同步进行的,可以分别控制,这样提高了系统的并行性和系统访问数据的速度;每个磁盘都带有高速缓冲存储器,实时操作系统可以使用任何实时操作芯片,达到不同实时系统的需要。允许使用SNMP协议进行管理和监视,可以对校验区指

定独立的传送信道以提高效率。可以连接多台主机,当多用户访问系统时,访问时间几乎接近于0。但如果系统断电,在高速缓冲存储器内的数据就会全部丢失,因此需要和UPS一起工作,RAID7系统成本很高。第275页,共280页。RAID应用决策在具体设计磁盘阵列时应考虑:容纳

的用户数系统预期的最大传送速率数据块的大小数据块所需的访问类型(顺序或直接)I/O活动中读和写的比例第276页,共280页。第277页,共280页。RAID0没有冗余构验的容错特性,速度最高,但安全性

最差RAID1是在扇区一级的镜像磁盘,具有容错特性但存储成本大RAID2是利用编码进行校验,要用多个校验磁盘,速度较慢RAID3是并行传送的磁盘阵列,要求各磁盘驱动器主轴同步,只有一个奇偶校验盘

完成容错功能,价格较贵(因要求采用主轴同步磁盘)RAID4采用独立磁盘,一个校验磁盘,以扇区为单位进行纠错RAID5采用独立磁盘、无校验磁盘,而将校验数据同数据记录在一起。对控制的要求较高,要有较强的计算功能RA

ID6在RAID4基础上,对校验盘增加了缓冲Cache功能RAID7对所有磁盘及主机接口全面实用缓冲技术。第278页,共280页。RAID级别描述速度容错性能RAID0硬盘分段硬盘并行输入/出无RAID1硬盘镜像没有提高有(允许单个硬盘错)RA

ID2硬盘分段加海明码纠错没有提高有(允许单个硬盘错)RAID3硬盘分段加专用奇偶校验盘硬盘并行输入/出有(允许单个硬盘错)RAID4硬盘分段加专用奇偶校验盘需异步硬盘硬盘并行输入/出有(允许单个硬盘错)RAID5硬盘分段加奇偶校验盘分布在硬盘硬盘并行

输入/出比RAID0稍慢有(允许单个硬盘错)第279页,共280页。第280页,共280页。

小橙橙
小橙橙
文档分享,欢迎浏览!
  • 文档 25747
  • 被下载 7
  • 被收藏 0
广告代码123
若发现您的权益受到侵害,请立即联系客服,我们会尽快为您处理。侵权客服QQ:395972555 (支持时间:9:00-21:00) 公众号
Powered by 太赞文库
×
确认删除?