基于Hadoop的数据挖掘算法的研究与应用

来源 :华北电力大学 | 被引量 : 0次 | 上传用户:a0p5c115f6e
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代,数据的重要性受到越来越多人的关注。由于数据的类型繁多和总量巨大,如何处理大规模的数据集成为研究的热点。虽然数据挖掘算法可以对数据进行处理,但数据挖掘算法因自身的缺点和数据量大的问题难以处理大规模数据集。将数据挖掘算法和Hadoop平台相结合,是数据挖掘算法未来研究的方向。数据挖掘算法有很多,在此主要以K-means聚类算法为例进行研究。本文的主要研究内容为:1)研究基于属性权重的改进型meansk-聚类算法(WK-means)的并行化。在K-means聚类算法的目标函数中,每个属性的权值都为1,表示各个属性的地位是平等的。在实际情况中,各个属性对样本分类的影响是不一样的。基于该观点,提出基于属性权重的改进型K-means聚类算法。为了验证算法的有效性,将该算法迁移到Hadoop系统平台上。使用数据集对运行在Hadoop系统上的改进型聚类算法进行测试。2)研究引进遗传算法的遗传聚类算法(CAGAK)的并行化。现有的经典K-means存在诸多的不足,如K值的确定、易陷入局部最优解和易受初始中心的影响。遗传算法因具有全局性和并行性可以被用来解决K-means算法易陷入局部最优解的问题。针对遗传算法及其改进型的不足,提出改进型遗传算法,验证算法的合理性。将改进型遗传算法与K-means算法结合,并使用数据集来验证改进型遗传聚类算法的聚类效果。将改进型遗传聚类算法迁移到Hadoop系统上。试验验证其合理性。3)基于云平台的数据挖掘分析原型系统的设计与实现。将基于属性权重的改进型K-means聚类算法(WK-means)和遗传聚类算法(CAGAK)迁移到数据挖掘分析原型系统的算法库中。系统的使用者可以根据问题的性质选择恰当的数据挖掘算法,配置合适的参数、处理选定的数据。处理的结果以可视化的形式展示。该分析原型系统的开发环境选用Eclipse,框架结构为SSH(Spring+Struts+Hibernate),对外接口为Rest API。基于属性权重的改进型K-means聚类算法(WK-means)和遗传聚类算法(CAGAK)分别针对K-means的不足提出的改进型算法,相互之间是独立的。这两个算法分别位于文章的第3章、第4章,且第3章和第4章之间是并列的。
其他文献
随着信息化和工业化的深度融合,软件和信息服务业越来越成为推动我国经济发展不可或缺的组成部分。依据钻石模型,从教育体系和人才分配,基础设施和需求市场,软件园区和行业协
随着大数据技术的发展,使高校财务工作更高效、更快捷。但目前,因高校财务管理还存在数据安全性没有保障、数据共享平台难以搭建、精通财会又懂信息技术的复合型人才缺乏等问题
为降低制备阴极材料的成本、促进中温固体氧化物燃料电池(ITSOFC)的工业化进程,采用混合稀土作为主要原料,外加SrCO3、Co2O3固相法制备了Ln0.7Sr0.3CoO3-δ(简:LnSC,Ln为混合稀土)复
文章对山东省盐业集团公司的核心竞争力现状进行了评价,分析了影响竞争力的主要因素。文章认为,提升公司核心竞争力的内涵包括五个方面,并以此为依据,结合山东盐业实际,设计
油料动员能力评估是一个从定性到定量的分析与计算过程。在分析油料动员能力各个要素的基础上,建立了符合逻辑、切合实际的评估指标体系,确立无量纲和有量纲的量化指标及定性
为了解不同浓度的氨化玉米秸秆对梅花鹿幼鹿营养物质消化率和生产性能的影响。选择健康、年龄一致、体重约20kg的梅花鹿幼鹿12头,随机分成4组,每组3头,精饲料饲喂量相同,分别
本文介绍了以SO2,NH3和NaCl为原料生产无水亚硫酸钠的工艺方法,并用重结晶法,对制取的无水亚硫酸钠进行精制。
在西方近代诸多的城市规划思想家中,占首位和最有影响的毫无疑问当首推E·霍华德。在霍华德的年代,"现在使人们感兴趣的问题是,在我们已经获得民主的情况下,我们是否要一
便秘是神经内科患者常见的问题之一.当便秘发生时,用力排便可导致患者颅内压增高,病情加重,甚至诱发脑疝,危及生命.因此了解便秘的常见原因,进行预见性护理,对神经内科患者来