论文部分内容阅读
对等(P2P)计算是近年来兴起的一种重要网络计算技术,在很多领域都有着大量的研究与应用。利用P2P计算技术,构建大规模分布式存储系统,可以支持海量用户和海量数据的数据共享和存储需求,是当前P2P计算研究和应用的一大热点。数据复制是实现海量数据管理的关键技术之一,可以提高系统可用性和数据访问的性能,但是数据复制不可避免地引发数据一致性维护的问题。与传统的分布式系统不同,P2P系统的规模巨大、分布性强和动态性强等特点给P2P分布存储系统中的数据一致性维护带来挑战。本文针对海量数据和P2P分布存储系统的特点,对P2P分布存储系统中海量数据的数据一致性维护技术进行深入研究。取得的主要研究进展如下:P2P分布存储系统中存在大量的数据副本,会加剧副本之间的不一致性和负载不平衡性。针对大量数据副本所带来的资源管理问题,提出一种基于有限编码的多副本分簇管理方法RCLC。在该方法中,根据单副本复制产生新副本的过程,对副本分级和分簇;通过定义“副本级别+副本顺序”的编码规则LCR,对划分后的副本进行编码和组织,并依据编码规则LCR对由于副本的动态调整而引起的簇的动态变化进行有效管理。RCLC方法在大量副本之间建立局域集中、广域对等的管理模式,再结合定义的“最小更新传播时间”,合并局部簇中发布的更新,可以降低大量副本的一致性维护开销。模拟结果表明,RCLC方法能够有效组织大规模的数据副本,具有较好的可扩展性。海量数据的数据规模和每个数据对象都很大,提高更新传播的性能以及减少空间开销就显得尤为重要。针对P2P分布存储系统中大型数据对象面临的数据一致性维护问题,提出一种可以提高更新传播速度和减少日志空间开销的优化数据一致性维护方法PLCP。在该方法中,利用宿主副本解决更新冲突;会话对象选择算法DAPS基于更新分布和结点本地更新日志信息选择副本的反熵会话对象;分析更新从更新日志中删除的前提条件,并在更新传播过程中所有可能满足前提条件的场合,适当地引入更新日志剪裁,及时地删除过时更新。模拟结果表明,DAPS算法具有较好的自适应性,PLCP方法具有较低的更新传播时间开销和较优的更新传播空间开销。通过分析发现,数据一致性中的数据相关性问题主要体现在“伪冲突更新”和“更新依赖”两个方面。针对这两个问题,提出一种优化的数据一致性维护方法DACP。在该方法中,数据对象按固定大小分块,并以数据块作为数据管理的基本单位;数据更新利用Bloom filter技术压缩表示,并进行双路径传播;发起方和协商方在一致性维护过程中,分别调用各自的协商算法检测和解决更新冲突;动态数据管理算法调节数据更新过程中的动态数据块变化,对数据块进行合并或分解。数据划分可以在一定程度上消除“伪冲突更新”,而更新协商算法可以解决“更新依赖”问题。模拟测试结果表明,在选取适当范围内的分块大小时,DACP方法具有较好的性能,并给出选定适当分块大小的指导性方法。在规模巨大且分布性强的P2P系统中,部分更新可能被长时间地延迟,从而降低Internet上资源定位的效率。针对关键属性更新的易描述、更新项较小和弱相关性三个特点,提出一种基于关键属性的优化数据一致性维护方法KACP。方法从用户提交的更新请求中,分离出关于关键属性的更新,采用基于延迟—覆盖的更新传播模型进行更新传播;在对关键更新冲突分类的基础上,运用更新缓冲区和更新日志两层更新协商机制,优化关键更新冲突的发现和解决。在优化处理关键更新之后,系统基于关键属性的资源定位效率不会因为关键属性更新的延迟而降低,满足面向Internet的P2P系统的要求。模拟测试结果表明,KACP方法在资源定位与资源访问开销方面均具有较好的性能。