论文部分内容阅读
随着互联网和信息收集技术的发展,网络中的数据量呈爆炸式增长,依赖于海量数据的数据密集型应用也层出不穷。现今数据密集型应用已在科学计算、互联网数据处理、网络媒体处理等领域受到广泛关注。数据的存储管理直接关系到数据密集型应用的性能,因而成为当前的重要研究内容。
随着云计算概念和架构的逐渐清晰,云计算平台已经成为数据集密集型应用的首选部署平台。在云计算环境下,数据密集型应用的数据集与多个工作流有依赖关系,往往需要跨数据中心的数据处理。当前对存储策略的研究主要以减少数据中心之间的流量为目标,较少考虑费用的消耗问题和多副本因素。与此同时,作为遗留应用,传统的数据密集型应用仍然将数据存储在单数据中心上,并采用分布式的存储系统架构。由于单数据中心内部有高速网络连接,此时的存储策略主要考虑系统的容错性和吞吐能力,以及多副本放置问题。
针对上述问题,本文分别对云计算环境和传统存储环境下的数据密集型应用的存储策略开展了研究,具体工作包括:
1)在云计算环境下,提出一种以减小费用消耗为目标的数据密集型应用的数据存储模型,分别提出基于最大流的数据存储策略和基于副本创建的数据存储策略。基于最大流的数据存储策略将云计算环境下的数据存储的费用消耗问题转为带有代价的网络流问题,利用数据存储的特性求解存储部署的最小费用。基于副本创建的策略则是在最大流策略上考虑了副本因素,进一步降低了应用的存储部署代价。
2)在单数据中心的存储环境下,本文完善了分布式存储系统LandHouse的架构,并根据Peterson存储环的特性,提出了一种基于纠删码的数据分块策略以及相应的负载均衡算法来提高存储系统的容错性和吞吐量。
3)本文分别对两种环境下的策略进行了实验。对云计算环境下的存储问题,实验结果证明本文提出的策略有效地减少了数据密集型应用的费用消耗。对于单数据中心,实验证明本文提出的数据分块策略和负载均衡算法有效的提高了系统的容错性和吞吐量。
“大数据”的存储和处理是当前的热门研究课题,本文的工作可以为该方向的研究提供有益的借鉴。