美国数字资源长期保存的可靠性研究及经验借鉴

来源 :信息化建设 | 被引量 : 0次 | 上传用户:weihuifrist
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着全球网络化的不断发展,数字信息面临的网络安全日益突出,可以说网络的不安全性,已成为限制其发展的最大障碍。如战争、水灾、火灾、地震、停电、电压不稳定会给系统造成破坏,计算机病毒、黑客的攻击、网络隐患、系统泄密会产生信息数据丢失,介质故障、介质/硬件过时、软件/格式过时、关联文本的丢失、结构错误带来不可靠的因素。因此,在长期保存中保证数字信息的安全可靠面临着严峻挑战。基于此,美国开发了长期存储系统数据拷贝的可靠性模型,以应对存储系统的可见性故障和潜故障威胁。
  
  一、可靠性模型
  
  此模型有助于指出采取何种策略最有可能增加长期保存的可靠性,有助于指出在真实的系统中该检测哪些数据从而协调利用策略、解决故障。
  模型分为顶层和底层。顶层,探测到可见性故障(坏面)时,恢复模块启动,故障数据立马开始恢复,错误得以成功更正;底层,在探测到潜故障之前,什么也不会发生。一旦探测到潜故障,就像处理可见性故障一样,恢复模块开始工作。
  1.故障类型
  该模型将故障分为:可见性故障和潜故障。可见性故障是指在故障产生和检测到故障期间可忽略的故障。此类故障会引起包括整个磁盘或是控制器错误。MV表示可见性故障的时间段,并用MRV表示该故障的修复时间段。潜故障是指在故障产生和检测到故障期间很重要的故障,包括字符写错、字节损坏、扇区读不出和数据格式过时。用ML表示潜故障的时间段,用MRL表示潜故障的修复时间段。只考虑潜故障是可修复的,因此在故障产生和检测到故障期间有限定时间段,用MDL表示。
  2.设定
  假如在时间t期间产生的故障概率P(t)与过去无关,这一设定可推导出以下的指数分布:
  式中的MTTF是故障的时间段,t≤MTTF,故下式成立:
  起初该模型设定所有的故障不相关联。后来,通过导入同样是按指数规律分布而且发生率增加的相关误差来修正这一设定。再者,不能探测到的故障也是存在的,但这次分析中将其忽略。只有在不可探测的故障发生率很大时,才会对系统的可靠性有影响。在这一情况下,通过开发一种修正算法,将其转化为可检测的故障,并修正之。
  3.可靠性
  当产生两个连续故障时,而在最初可恢复故障之前又没有做数据拷贝,这时镜像数据就不可恢复了,姑且称之为“双故障”。由于双故障导致镜像拷贝数据的丢失, 等于双故障产生率,式中MTTDL是数据丢失的时间段。
  为了估算MTTDL,首先需要估算在第一个故障发生后仍旧未得到修复情况下第二个故障发生的概率。这个故障未修复的时间段为易损性时间窗(WOV)。由于故障分为两类,就需要考虑每类故障的易损性时间窗。
  首先,在发生可见性故障V1之后,就要考虑WOV,其平均值是MRV。在WOV期间,可见性故障或潜故障都有可能发生。另一可见性故障V2发生的概率是:
  式中MRV≤MV。
  另一潜故障L2发生的概率是:
  式中MRV≤ML。P(V2│V1)和P(L2│V1)值差异源于不同的故障发生率。
  然后,在潜故障L1发生之后,考虑WOV,其平均值等于MRL+MDL。另一可见性故障V2发生的概率为:
  而另一潜故障L2发生的概率是:
  如同前面公式所述,MRL+MDL≤MV,MRL+MDL≤ML。下一步就可计算双故障总发生率:
  为了计算相关故障,可设定第二个故障(紧随第一个故障发生之后的故障)的概率也是呈指数分布的,但发生速率更快。为此导入倍增相关因子α<1,以此减小紧随初始故障之后发生故障的时间段。
  结合先前的公式来解释相关故障,计算出MTTDL:
  4.策略
  该简易模型揭示了许多策略,可用于减少不可恢复数据的丢失概率:
  ◎增加可见性故障的时间段(MV),使存储载体减少诸如磁头碰撞的灾难性数据丢失。
  ◎增加潜故障的时间段(ML),使存储载体减少数据损坏,或是减少数据格式过时。
  ◎减少故障产生和检测到故障期间的时间段(MDL),经常核查数据以检测潜在数据错误。
  ◎减少潜故障的修复时间段(MRL),自动修复潜在数据故障,而不是提示操作者实施修复行为。
  ◎减少可见性故障的修复时间段(MRV),假如采用热备份驱动器,那么一旦操作者更换了驱动器,数据恢复即刻可以进行。
  ◎尽可能减少拷贝件的总量,以免同步数据错误。
  ◎增加拷贝的独立性来减小α。尽可能使用多种硬件、软件、存储地点、管理,避开对第三方元件和单一结构的依赖性,就可以减少长期存储系统发生相关故障的概率。
  
  二、经验和借鉴
  
  1.加强数字资源管理和保护关系的研究
  从电子文件保存的整个过程来看,数字资源的保护只在形式上独立,在精神和内容上已与管理融为一体,二者截然不可分、相辅相成、协调一致。我们可以得出结论“保护和管理是截然不同的两个体系”、“为管理而保护”这些传统思想会给数字资源的保存带来巨大的灾难。因此,我们在设计信息系统时,应加强这方面的研究,把管理和保护的要求结合起来,而不要让其各行其是。
  2.加强数据库和检索系统的集中化建设
  就档案数据库和检索系统而言,目前我国的档案数据库及检索系统呈分散状态,相对于美国的集中化形式有很多弊端,主要弊端有IT的工作效率低、支持及管理人员的增加、缺乏标准化、软件需要分散的重复投资、无法承受灾难备份的投资等几个方面。因此在我国建立一个大型的完善的数据库,实现电子文件档案的数据大集中以及灾难备份工程将会大大提高我国的档案管理水平和电子文件档案的安全存储。
  3.重视数据备份
  计算机里面重要的数据、档案或历史纪录,不论是对企业用户还是对个人用户,都是至关重要的。为了保障生产、销售、开发的正常运行,企业用户应当采取先进、有效的措施,对数据进行备份、防范于未然。
  推广使用数据备份三模式:局域网集中备份应用;异地(远程)备份应用;本地集中备份+自动远程(异地)备份应用。
  4.重视信息系统的安全性和可靠性
  美国非常重视数字资源长期保存中系统的安全性。以LOCKSS为例,系统在开发过程中就充分考虑了可能遇到的不安全因素,采取了存储与操作系统分离、轮询与投票、权利分离等措施,从而保证了系统的安全性。美国斯坦福大学和哈佛大学开发的长期存储系统可见性故障和潜故障分析模型。由于该模型关注了存储设施、存储系统的环境、过程和技术方面故障,因此能有效确保系统的可靠性。模型的使用,强调了潜故障探测过程的重要性;突显了增强拷贝件独立性以保证历史信息完整的重要作用。利用该模型有助于对故障有效预警,并有助于协调利用最佳策略对故障数据实施自动又可靠地恢复。
  
  数字资源长期保存工作的关键在于维护数字信息永久的可存取性和确保系统的可靠性。我们要学习美国的先进经验,并联系我国实际,对提高信息系统监控策略的智能化和管理措施的自治性展开重点研究。
其他文献
讨论了网络信息资源开发利用的程序与方式,以及深层次开发利用网络信息资源的有关问题。
基于弧长参数曲线的性质,讨论了平面正则参数局部凸曲线的性质,证明了平面正则参数局部凸曲线在曲线任意一点的切线的闭左半平面(闭右半平面),导出了局部凸曲线在逗留点处的几个重
陶瓷艺术和绘画作为某种意识形态造型的一种表达方式,在空间的形式语言和表现特征上有共同点,在文化内涵上也保持千丝万缕的联系。在理论上探讨其共同点有助于艺术家保持一种开
采用混凝-水解酸化-Fenton试剂氧化组合工艺处理牛仔服装洗水废水,废水经格栅和预沉池作预处理后进入均调池进行水质均调;在泵前加混凝剂(PFS)后提升到斜板沉淀池,其沉淀物排入污
提出“以创新思维培养为显著特征的创新素质教育是高等教育的本质特征,创新素质教育是实现学生知识、能力、素质协调发展的纽带和平台”的新观念,“人才培养模式由目前的‘穿山
公共建筑室内设计是一项十分复杂的系统工程,其前期工作要围绕对环境背景的分析、与委托人的沟通、对建筑物的分析与了解、开展市场调查等方面展开,进行大量的信息收集和整理
提出一种基于铸坯凝固状态预测的连铸动态轻压下控制方法。通过定量分析铸造速度对铸坯凝固状态的影响,得出了关于铸造速度引起液芯位置变化的速度的相关结论,并给出相应的动态