论文部分内容阅读
云计算是传统IT和通信技术不断交融、需求,并在商业模式的驱动与促进下产生的结果,是目前备受关注的一种计算模式。随着云计算技术的深入,以分布式文件系统作为底层存储架构的应用越来越多,基于分布式文件系统构建数据库成为当前云计算管理领域的重要方向之一,如何解决面向云计算的分布式计算系统中的数据不一致检测问题成为考虑的重点。在传统的集中式数据库中,已经存在基于SQL语句的函数依赖检测数据的不一致,但是随着数据结构的改变以及现实数据语义的复杂化,原来的函数依赖关系不再适用于分布式环境,分布式数据库不仅给数据不一致的检测带来了更大的挑战,而且还需要解决数据传输的问题。针对这些问题本文提出了基于函数依赖关系的检测数据不一致的方法,结合分布式系统的特点,通过具体实例加以分析,并采用了多种数据传输方式实现了数据从一个节点到其他节点的传输,使这些物理上分散、逻辑上集中的数据得到处理,最终输出检测结果,这种集中管理、分散控制的结构大大增强了系统的并行能力和扩展性。本论文首先介绍了云计算和分布式系统的研究背景,然后给出了条件函数依赖的定义,以及条件函数依赖在数据清洗方面起到的作用,在此基础上提出了扩展的条件函数依赖的概念,对分布式数据做了简单阐述,将各个数据不一致按存储方式划分,然后一一介绍检测分布式数据不一致的方案,重点解决了分布式数据的传输问题,之后简单列举了实验情况,最后是总结和展望。为了验证文中方案的正确性和可靠性,我们进行了一系列的实验,分别从数据元组的增加和约束条件的改变等方面检验系统的可扩展性,并且模拟了多种数据传输方式在分布式环境中的表现,均取得了较为理想的效果,这些都充分说明了这种云计算环境下的分布式数据处理方案是可行的,该研究为以后更深入的研究云计算平台和分布式系统奠定了良好的基础。