基于分布式平台Spark和YARN的数据挖掘算法的并行化研究

被引量 : 143次 | 上传用户:cheney0105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代互联网信息中含有极为丰富的商业价值,如何从这些海量数据中挖掘出有用的信息是一个重要的课题。而“信息爆炸”产生的海量数据在传统计算机上进行聚类分析处理需要耗费大量的时间,不能满足现今的商业需求,结合云计算平台的并行化改进能有效解决这一问题。由加州伯克利AMP实验室新开发的内存计算分布式框架Spark主要针对海量数据处理和机器学习。相较于传统并行计算框架,其内存计算的特性能很好的适应迭代计算,同时在数据切分、并行处理、容错健壮性方面进行了封装,能良好的适应于并行化计算开发。k-means算法是一种被广泛应用的聚类分析算法,一般采用误差平方和准则函数作为聚类准则,在处理数据集时效率较高且聚类效果良好。但面对海量数据规模时,计算海量数据对象间距离时遇到瓶颈,数据规模变大,迭代计算次数增加,计算耗时过长。同时算法本身存在k值不确定、初始聚类中心点随机性选取的问题,会影响聚类结果的准确性和算法效率。为了突破面对海量数据时的计算瓶颈,本文在Spark平台上实现k-means算法并行化。针对k-means算法的不足,本文使用canopy算法对k-means算法进行优化提高算法效率和聚类结果的准确性,并在Spark平台上实现canopy-kmeans算法的并行化。对基于Spark平台的k-means并行算法和canopy-kmeans并行算法在准确性、加速比、扩展性、与其他平台性能进行了比较。实验结果表明,算法并行化后得到较好的聚类结果,在面对海量数据时有较好的加速比和扩展性。与Hadoop平台比较,基于Spark平台算法并行化效率更高。而Spark平台执行需求资源不同的聚类任务时,在资源管理平台YARN调度任务相较于资源管理平台Mesos有更高的执行任务效率。研究表明,结合Spark+YARN平台实现并行化是可行高效且具有现实意义的。
其他文献
从全国各地发生的食品安全事故中,我们可能会发现对现有的食品安全事故的处理结果,大多采取的是行政和刑法两大手段进行处理。本文针对这些问题,通过对缺陷食品侵权的概念、性质
目的:分析高血压脑出血术后并发肺部感染的中医护理效果。方法:选取我院收治的高血压脑出血术后并发肺部感染患者共88例,随机将其分成观察组和对照组各44例,其中对照组患者行
《四圣心源》是一部清代著名医家黄元御所著的综合性医著,其治疗遗精有独到的学术思想。黄元御恪守"治病必求于本"的中医理念,认为此病之本为土湿阳衰,标为心肾失交、肝失疏
近年来,伴随着政府机构调整、政府职能转变和人事制度改革,公共部门的人力资源开发和管理逐渐成为行政管理学研究的热点问题之一。通过良好的激励管理吸引保留人才、激发人才活
日粮纤维是鹅生长不可或缺的营养素之一,有研究表明日粮纤维水平对动物机体脂肪代谢有一定的影响,血脂水平、体脂沉积及胆固醇浓度在一定程度上可被有效地降低。本试验选择健康
随着重型工业经济的发展,机械加工行业迎来了发展的大好时机,提高企业生产效率,创新加工工艺中的自动化控制技术成为企业生产和发展的唯一途径。本文剖析了当前机械加工工艺
自2011年中国政务微博元年起,政务微博就引起了各界的强烈兴趣和高度关注,因其不单是一个信息的公开交流平台,更重要的,它是新时期特别是网络发达时期,政府实现创新执政管理的重要
地理学上把可以用来种植农作物的土地叫做耕地,耕地适宜的农作物种类和农作物适宜程度的高低代表了耕地对农作物的适宜性。一定时期内单位面积粮食农作物的生产能力决定了耕地
本研究力求在公众环境态度及行为、雾霾污染程度等相互关系研究基础上,探求三者的内在联系及相关关系并在明确雾霾天气形成的心理根源的同时,提出雾霾防治的心理学路径。本研究
蒸煮损失和嫩度是决定猪肉的食用品质的重要指标,文章提出了可见光/近红外漫反射光谱检测真空包装猪肉的蒸煮损失和嫩度的新方法,从而实现对其快速、无损、无污染测定。利用