论文部分内容阅读
随着互联网的快速发展和信息技术产业的迅速崛起,由网络产生的数据量越来越庞大,大数据包含了更多有用的信息,也带来了更多的挑战。联机分析处理(On-Line Analytical Processing,OLAP)作为存储和分析数据的重要技术,需要存储和处理的数据量也在大规模地急剧增长。Data Cube是OLAP的主要分析手段,如何高效处理Data Cube中所包含的大规模数据是OLAP研究和应用领域的一个关键问题。由Google公司提出的MapReduce是一种能够在大型计算机集群上并行处理海量数据的框架模型,基于这种分布式并行框架,本文实现了对Data Cube的并行聚类、更新和查询。本文的主要研究工作及所取得的创新性成果有:(1) Data Cube的并行聚类:根据Data Cube的语义特性和多维数据之间的等价关系,提出了一种基于MapReduce框架的并行语义Cube层次聚类算法。该算法能将Data Cube快速聚类,最终保存等价类的上下界来实现对Data Cube的压缩存储。该方法不但节省了存储空间、加快了聚类速度,而且其保存的聚类信息及层次信息为Data Cube中数据的快速更新和OLAP查询行为分析的实现提供了可能。(2) Data Cube层次聚类的增量维护:以Data Cube等价类为基础,结合等价类之间的层次关系,在MapReduce并行框架上提出了一种高效的Data Cube批量更新算法,有效地解决了数据量过大导致维护效率太低的问题。(3)并行的OLAP查询:在Data Cube等价类的基础上,对OLAP点查询和范围查询进行了并行优化,并在改进的MapReduce模型中,提出了一种基于缓存的OLAP查询优化算法,通过定义OLAP查询中的各种运算,并行地进行多个OLAP查询,提高了查询的效率。本文详细分析了语义Cube各种操作的并行化实现。设计了这些操作在MapReduce模型下的实现方案,并将并行算法与传统算法进行了比较,实验结果证明了并行算法的优越性。