论文部分内容阅读
随着科学技术的快速发展,云计算、社会网络、物联网等新兴技术为人们的工作以及日常生活带来了巨大的方便,与此同时数据的数量和类型也呈现爆炸式的增长。随着大数据时代的到来,云存储系统凭借其强大的数据管理与存储能力越来越受到用户的重视。为提高云存储系统的可靠性、可扩展性以及安全性等,副本技术被广泛采用。HDFS(Hadoop Distributed File System)作为Hadoop的分布式文件系统具有强大的数据存储与管理能力。HDFS的副本管理机制可以提高云存储数据的可用性,同时也提高了云存储系统的可靠性、读取效率以及负载均衡等。但是,HDFS采用的静态副本管理机制也存在一些缺陷:(1)在可靠性要求高的云存储系统中,存储大量副本提高了系统数据存储与维护成本。(2)由于云存储系统由大量廉价的节点组成,节点失效是常态,HDFS副本管理机制随机选择副本存放位置,未考虑数据节点的负载情况以及数据访问量动态变化,因此影响云存储系统的负载均衡。为了解决这些问题,本文提出了一种动态副本管理机制DRMS(Dynamic Replica Management Scheme)。本文的主要研究内容包括:(1)本文根据数据的可用性与副本数目之间的关系,动态计算与维护满足副本可用性要求下的最小副本数目,有效地节省云存储系统的存储空间。(2)为了提高系统的性能与平衡负载,本文采用动态副本放置机制,采用三种副本放置策略以适应不同的阶段与应用场景。在副本的创建阶段,采用面向用户的数据副本放置策略。在副本运行阶段,本文采用面向业务的副本放置策略,采用此策略可以满足大多数的请求者,从而保证系统与数据的高利用率。(3)副本调整策略可以节省系统的存储空间并且减少系统的维护成本。本文利用灰度预测模型,通过最近数据访问情况动态预测未来数据块的访问热度,并且动态的调整数据副本。如果数据块访问热度增加,动态的增加副本的数目;如果数据块访问量减少,则使用最近最少访问策略删除多余的副本,从而节省云存储系统的存储空间。