论文部分内容阅读
随着电子图书、电商、医疗大数据、基因工程、高性能计算、虚拟/增强现实、流媒体等应用的发展和普及,数字资源近年来出现大规模增长,这些信息的存储和处理对底层存储系统的容量、性能、可靠性和可扩展性要求越来越高。传统基于磁盘的中心化存储系统不能有效解决大数据应用的可扩展性问题。因为磁盘的容量、体积和功耗都会成为制约系统扩展的瓶颈。近年来快速发展的新型存储介质,比如非易失性内存、闪存和归档硬盘,具有高密度、低时延和低功耗的诸多优点,构建基于混合介质的异构分布式对象存储系统成为降低数据中心成本的有效方法。这些新介质的引入会对传统的存储结构带来新的挑战,主要表现为传统的系统软件和应用程序的设计思想需要及时调整,以适应新介质的特征。为此,本文首先分析了基于非易失性存储器的混合介质对象存储系统的基本架构和研究热点,基于这些研究背景,本文从分布式对象存储系统中非易失性内存的管理策略、分布式对象存储系统的数据分配算法和对象存储系统中基于MapReduce计算框架的数据放置策略出发,研究基于混合介质的对象存储系统的优化方法。本文的主要研究内容如下:(1)混合介质的对象存储系统中非易失性内存的管理策略。在部署了非易失性内存的单节点上,本文设计了新的内存管理方案,用于提高基于非易失性内存的文件系统的磨损均衡效果,从而提升非易失性内存设备的使用寿命。该方法的基本思想是在每次分配内存页面的时候都优先选取写次数较少的内存页,并通过DRAM与非易失性内存结合的方法建立索引结构,加速查找操作。(2)基于混合介质的对象存储系统数据分布算法研究。传统基于哈希(Hash)的数据分配策略可以保证数据均匀分布到不同类型的存储设备,但是这些算法的缺点是都没有考虑存储设备的异构特性。例如,闪存和非易失性内存的擦写次数有限,使用寿命比普通的磁盘短,因此不适合存储写密集型的数据对象。为此,本文设计了新的数据分布算法,旨在充分考虑存储设备的异构特征以及系统的可靠性、稳定性、可扩展性的前提下保证读写性能和减少对非易失性存储器的写操作。该算法的核心思想是利用偏向哈希(Biased Hashing),根据数据对象的特点,动态选择合适的存储设备,解决传统均匀哈希算法在异构存储系统的问题。(3)基于异构环境的MapReduce框架数据分配策略的研究。在基于混合介质的对象存储系统中MapReduce数据分配策略方面,本文发现由于异构设备而使得Map/Reduce任务执行时间不同,本文基于Ceph架构,设计了新的数据放置算法,考虑集群间的负载均衡和异构特征,使得工作负载的执行时间最短。本文还通过实验验证了所提出的三种优化方法的有效性。实验结果表明,这些优化工作能显著提升非易失性存储器的使用寿命,并能在保证系统负载均衡的前提下达到最小化应用执行时间的目的。