论文部分内容阅读
随着移动互联网的高速发展,数据量每天以TB甚至PB级别海量的增长,人们对数据的存取效率和安全性的要求也在不断的提高,传统的数据存储技术在处理海量数据方面显得力不从心,如何高效的存储和读取数据已经成为人们研究和关注的热点问题。Hadoop是目前大数据存储中比较成熟的解决方案,它具有高可靠性、高扩展性、高容错性和高效性等诸多优势,而且它还是开源免费的,非常适合科学研究,因此本文选择Hadoop平台来搭建大数据存储系统。Hadoop是一种能够对海量数据进行高效地分布式处理的框架,它主要由HDFS(分布式文件系统)和Map/Reduce(分布式计算框架)两个核心技术组成。其中HDFS主要用来存储海量数据,它把文件分成若干个相同大小的文件块,然后将这些文件块分别存储在不同的节点中。而Map/Reduce主要负责在海量数据上的计算。本文首先以HDFS文件系统为对象,深入研究、剖析了它的架构和数据组织方式,并针对其单个控制节点的性能瓶颈问题,给出了MongoDB数据库的优化方案。然后在廉价的PC机器上搭建了基于Hadoop平台的大数据存储系统,该系统不仅实现了文件上传、下载、分享、文件保险箱、文件在线浏览和回收站等功能,而且采用Ganglia来对大数据存储系统进行实时监控,可以很容易地查看每个节点的工作状态。实际应用表明,该系统可以很好的满足大数据存储的需求,完全可以作为企业和学校的数据存储中心。