论文部分内容阅读
信息时代,数据的重要性受到越来越多人的关注。由于数据的类型繁多和总量巨大,如何处理大规模的数据集成为研究的热点。虽然数据挖掘算法可以对数据进行处理,但数据挖掘算法因自身的缺点和数据量大的问题难以处理大规模数据集。将数据挖掘算法和Hadoop平台相结合,是数据挖掘算法未来研究的方向。数据挖掘算法有很多,在此主要以K-means聚类算法为例进行研究。本文的主要研究内容为:1)研究基于属性权重的改进型meansk-聚类算法(WK-means)的并行化。在K-means聚类算法的目标函数中,每个属性的权值都为1,表示各个属性的地位是平等的。在实际情况中,各个属性对样本分类的影响是不一样的。基于该观点,提出基于属性权重的改进型K-means聚类算法。为了验证算法的有效性,将该算法迁移到Hadoop系统平台上。使用数据集对运行在Hadoop系统上的改进型聚类算法进行测试。2)研究引进遗传算法的遗传聚类算法(CAGAK)的并行化。现有的经典K-means存在诸多的不足,如K值的确定、易陷入局部最优解和易受初始中心的影响。遗传算法因具有全局性和并行性可以被用来解决K-means算法易陷入局部最优解的问题。针对遗传算法及其改进型的不足,提出改进型遗传算法,验证算法的合理性。将改进型遗传算法与K-means算法结合,并使用数据集来验证改进型遗传聚类算法的聚类效果。将改进型遗传聚类算法迁移到Hadoop系统上。试验验证其合理性。3)基于云平台的数据挖掘分析原型系统的设计与实现。将基于属性权重的改进型K-means聚类算法(WK-means)和遗传聚类算法(CAGAK)迁移到数据挖掘分析原型系统的算法库中。系统的使用者可以根据问题的性质选择恰当的数据挖掘算法,配置合适的参数、处理选定的数据。处理的结果以可视化的形式展示。该分析原型系统的开发环境选用Eclipse,框架结构为SSH(Spring+Struts+Hibernate),对外接口为Rest API。基于属性权重的改进型K-means聚类算法(WK-means)和遗传聚类算法(CAGAK)分别针对K-means的不足提出的改进型算法,相互之间是独立的。这两个算法分别位于文章的第3章、第4章,且第3章和第4章之间是并列的。