论文部分内容阅读
云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,能为用户提供按需分配的计算能力、存储能力及应用服务能力;云计算为存储和分析海量数据提供了廉价高效的解决方案。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐藏在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,对科学研究与商业决策等多个领域起到了指导作用,具有深远的社会和经济意义。数据挖掘由于所需要用到的运算存储量均是巨大的,所以将云计算与数据挖掘相结合可以有效的控制计算成本,提升数据挖掘的效率,突破传统数据挖掘的瓶颈限制。云计算环境下的并行数据挖掘策略的研究具有重要的理论意义和应用价值。Hadoop框架作为目前业界最为有名的开源分布式计算框架,通过采用MapReduce并行化模型,有效的整合现有运算存储能力,提供强大的分布式计算能力,MapReduce也被证实为高效的计算工具。本文主要完成以下工作:1.总结云计算和数据挖掘的相关概念和技术,分析了经典关联规则挖掘算法Apriori算法及其改进算法的优缺点、Hadoop平台和MapReduce编程模型。2.基于以上基础将Apriori算法转化为MapReduce模型,实现Apriori并行化改造,同时采用一些优化方法,提高Apriori算法在Hadoop框架下的表现,最终实现具有高扩展性适合于云计算环境的MapReduce-Apriori算法。3.将算法应用于对某保险公司保单数据集的分析,结果表明,它对海量数据的处理效率明显比传统算法高,且表现出了很好的加速比。