容错检查点算法研究和软件设计

来源 :山东大学 | 被引量 : 0次 | 上传用户:A123456_gam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,越来越多的分布式系统被各行各业使用,如军事、航空、金融系统等行业。随着为分布式系统设计的分布式软件的复杂度的增加,分布式系统中节点数量的增多,导致分布式系统有越来越高的概率发生故障,从而造成系统可靠性越来越差。若是在使用过程中出现故障,并且没有相应的保护措施,这些故障有可能会造成生命、财产的重大损失。因此研究容错检查点技术就有十分重要的现实意义。本课题是基于山东省自然科学基金项目“基于后向恢复的异构分布式系统容错技术的研究与实现”提出的。在本文中首先叙述了现如今检查点技术的研究意义及发展现状,介绍了分布式系统的基本故障模型以及基本容错构件。提出了一个基于不可靠的非FIFO通信信道的检查点算法,在不可靠的非FIF0的通信信道中,系统会发生报文丢失、重复接收报文和报文乱序。进程可能由于报文丢失会导致一些报文不被计算,可能由于重复接收报文导致一些消息被多次计算,也可能由于消息乱序导致一些报文不能按照其发送顺序进行计算,以上提到的问题会导致系统产生不正确的计算结果,从而无法使各进程设置一致性的检查点。我们的算法通过给每个报文分配一个序列号来解决上面提到的问题。在检查点设置过程中,一致性检查点通过发送消息序号与接收消息序号来决定。通过检测发送消息序号和接收消息序号来标识丢失消息、重复接收的报文和乱序报文。我们要重发丢失的消息,保存乱序消息和丢弃重复接收的报文来解决以上的问题。我们的算法能够使系统设置一致性的全局检查点。本文还叙述了Windows进程检查点的设置和恢复,分为用户地址空间和内核对象的保存和恢复,使用Visual Studio2005环境模拟了进程的检查点设置和恢复。
其他文献
随着数码摄影设备和互联网的飞速发展,随着手机和平板电脑等移动设备技术的不断进步,越来越多的图像、视频等超文本媒体信息不断涌入人们的视野并且持续传播扩散。面对如此大
随着嵌入式系统与网络的日益结合,具备网络通信能力的嵌入式设备已成为必不可少的需求。IPv4地址空间的严重不足,已不能满足数目庞大的嵌入式设备,能够支持下一代因特网的嵌
XML (eXtensible Markup Language)即可扩展标记语言,是W3C定义的一套语义标记规范。随着网络应用的快速发展,Web上的数据成指数级增长,XML逐渐成为Internet上数据交换和描述
无线传感器网络综合了微电了技术、无线通信技术、嵌入式计算技术、现代网络以及分布式信息处理技术等先进的技术,其研究已经成为无线通信领域的重要课题。无线传感器网络能
云计算的发展越来越快,它可以提供用户更大范围的数据处理和共享能力,通过存储虚拟化整合不同的存储资源,用户可以通过单一的用户界面访问云中的数据资源,而不会显露底层基础
随着互联网的普及,涌现出了大量的互联网应用,例如社交网络,在线视频,图片分享,电子商务等等,Web2.0的时代也随着来临。这些应用普遍采用分布式的架构来存储用户产生的海量数据,如何
近年来,越来越多的计算机科学方法被广泛应用到诸如生物学等领域。一方面,计算机科学的方法可以通过在计算机上进行模拟等方式使得对问题的研究可以摆脱原本复杂的实验环境和
公钥密码(Public Key Cryptography, PKC)在保证开放的网络(如互联网)中通信的真实性和保密性上起着至关重要的作用。目前,RSA密码体系仍然是最重要而且应用最广泛的公钥密码
随着互联网的高速发展,数据规模以指数级的速度增加,如何来存储和处理这些数据是一个挑战性的问题。Hadoop允许用户不熟悉分布式的情况下,充分利用海量存储的集群和高速计算,做分
学位