论文部分内容阅读
随着互联网的快速发展,数据规模的不断扩大,云存储以其优异的性能和可靠性得到了广泛的应用和研究。云存储技术日趋成熟,能够充分利用廉价的低端配置主机,通过虚拟化技术整合成具有强大计算和存储能力的计算机集群。但是随着互联网数据规模的进一步扩大,以及互联网应用的不断细分,云存储系统性能还有很大的提高空间。如何优化现有云存储系统使之适应不同类型互联网应用、进一步提高云存储系统性能逐渐成为云存储研究领域的重点之一。基于地域敏感性数据的互联网应用近年来得到了快速发展,这类互联网应用的数据具有明显的地域特性,访问用户相对集中,因此如何利用这一特性进一步优化云存储系统的性能是一个值得研究的课题。本文主要围绕地域敏感性数据的存储技术进行研究,主要工作包括:1、对现有云存储技术和平台进行了的研究与分析,重点分析了HDFS的基础架构、文件读写机制和关键技术等。2、基于地域敏感性数据的特点,分析了现有HDFS存储架构存在的问题,优化了HDFS的基础架构。通过在原有HDFS架构的基础上加入缓存节点,并设定缓存节点部署在靠近用户的网域内,尽可能让用户直接从缓存节点读写数据,以降低文件读写操作的网络传输代价。3、优化了HDFS负载均衡策略。提出了一种基于确定环境下多阶段多目标(Certainty, Multi-stage and Multi-object, CMM)决策模型的负载均衡策略。CMM决策模型是以CPU、内存和磁盘的剩余负载能力作为决策前提条件,以负载均衡效果、负载迁移代价和数据传输代价作为决策目标,并根据本文设计的若干决策节点和决策节点之间的影响关系构建的一个有向无环图。该模型将负载均衡方案的决策过程分为多个决策阶段,通过多个决策阶段的决策确定一个备选负载均衡方案集合,最后根据决策目标评价值及权重计算各负载均衡方案的效用,据此选择出最优负载均衡方案。4、优化了HDFS数据放置策略。本文的HDFS数据放置策略由两个部分组成。第一,在数据块写入系统时的节点选择策略,用于替换HDFS原有的数据放置策略。该策略是基于差别概率的思想,根据不同剩余负载能力为数据节点分配不同的选中概率,以此更公平地为数据节点分配工作负载。第二,缓存管理策略,用于管理缓存节点上数据块。在缓存节点有足够负载能力时,将相应的热门数据块备份到缓存节点上;同时定期清理缓存节点上非热门数据块。5、进行仿真实验并分析仿真结果。为了验证本文提出的云存储技术方案,本文在cloudsim云仿真平台的基础上开发了仿真系统并进行了仿真实验。结果表明,文本提出的云存储技术更适合地域敏感性数据的存储,在数据的读写速度方面和负载均衡效果等方面具有明显优势。