基于Spark平台的空间数据挖掘DBSCAN聚类算法并行化研究

来源 :电子科技大学 | 被引量 : 19次 | 上传用户:yeyuxx008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法是由Ester Martin等人提出的一种基于密度方法进行聚类分析的算法,具有发现任何形状的簇类、有效分辨噪声点且对空间数据库有良好支持的特点,已经在空间数据挖掘(Spatial Data Mining,SDM)领域得到了广泛的应用。然而,在一些大规模的空间数据挖掘中,随着计算数据规模的增大,DBSCAN算法的处理时间呈指数级上升,串行算法性能已经无法满足应用发展的实时性需求。针对这个问题,主要是通过集群、GPU、Hadoop等平台构建并行DBSCAN聚类算法来解决,但是这些研究却存在:(1)传统的并行处理平台价格昂贵,可扩展性及容错性较差,共享式架构易造成数据传输瓶颈;(2)Hadoop平台在处理这类多迭代的聚类算法时,需要频繁的进行数据读写,随着数据量增大,处理效率将受到影响。Spark作为新一代的大规模数据处理快速通用引擎,抽象出弹性分布式数据集(Resilient Distributed Dataset,RDD)来进行数据存储,使得中间结果无须输出到分布式文件系统,提高了数据处理的实时性,且保证了高扩展性,容错性,可以很好地克服上述传统并行平台存在的问题。因此,本研究基于Spark平台,在分析空间数据挖掘中的DBSCAN聚类算法原理及实现基础上,研究其在Spark平台上的并行化策略和方法。主要研究内容如下:(1)空间数据挖掘中DBSCAN聚类算法并行化分析与并行方案设计。在实现DBSCAN聚类算法的基础上,使用Intel VTune性能分析工具得到DBSCAN聚类算法中适合并行化的热点部分,并结合Spark平台的平台特征,设计合适的并行化方案。(2)基于单节点Spark平台的DBSCAN并行聚类算法的实现与优化。结合并行框架和并行算法流程图实现了基于单节点Spark平台的DBSCAN并行聚类算法。并从数据传输、数据序列化、资源参数三方面对单节点Spark平台的并行算法进行了优化,进一步提高并行算法的效率;同时将该算法与基于OpenMP的并行算法进行性能对比。(3)为充分利用节点上的计算资源,进一步探讨Spark集群模式下DBSCAN聚类算法的并行实现研究。采用基于Docker容器技术、Yarn(Yet Another Resource Negotiator)资源管理器、Mesos资源管理器对算法进行并行化设计,使其能充分利用设备上的硬件资源,同时将该算法与基于传统Hadoop集群平台的并行算法进行性能对比。(4)将基于Spark平台的DBSCAN并行算法应用于城市拥堵区域发现领域,验证本文提出的并行算法的实用性与高效性。最后,对以上的研究内容进行了具体的测试分析,得到了如下结论:(1)在单节点Spark上实现的并行DBSCAN算法,其加速比要高于在OpenMP平台上的对应并行算法;(2)在集群模式下,Spark on Yarn部署方式相对Spark on Mesos方式更适合于迭代较多的聚类算法,且相对Hadoop并行算法具有明显的效率提升;(3)最后在城市拥堵区域发现应用中,对比已有研究成果,验证了DBSCAN并行算法在城市拥堵区域发现领域的实用性和有效性。
其他文献
<正>【基本案情】孟某(45岁)和潘某(60岁)系亲戚,因为琐事产生矛盾。孟某来到潘某家中商谈此事,因为言语不合,双方相互厮打,邻居劝架不成,后在楼梯口附近时,潘某咬住孟某的手
在经济全球化背景下,企业跨国经营已成为当代世界经济不可阻挡的趋势。然而,企业跨国经营会由于各种原因引起冲突,带来的直接后果便是企业跨国经营效率低下、管理难度大幅增
为支持中国经济实现发展方式的转变,完成节能减排目标,需要进一步加强和发展碳金融,国外银行已先行一步。结合理论与实践,对比欧关银行在直接投融资、银行贷款、碳指标交易、碳期
为了研究流变特性引起围岩应力场演变规律,分析了巷道开挖完成后,围岩的应力状态,得出围岩应力峰值点位于塑性区与弹性区的交界处;选取西原模型计算软岩的流变过程,在计算过
本文在分析中国品牌实践的基础上,提出"完全品牌定位"概念。它在空间上包括差异点、相似点和竞争参照系,在时间上包括定位"变"与"不变"的平衡。本文提出的品牌建议有:(1)拓展
本文以Bilderbeek提出的服务创新四维度模型为基础,分析了服务概念创新、服务界面创新、服务流程/组织创新以及技术选择创新对企业盈利成长的价值贡献;并结合服务利润链理论,
近年来发生的食品安全等事件引发了公众对企业社会责任的思考,也兴起了有关学者对企业社会责任信息披露的研究热潮。本文通过对社会责任信息披露与公司价值间的实证检验得出
我国的社会融资格局发生了深刻的变化,融资结构的多元化趋势日益明显。通过构建贝叶斯向量自回归模型分析社会融资结构变迁对货币政策传导机制的影响,研究发现:社会融资结构
<正>最近,网上一段"碰瓷男遭女司机径直碾轧"的视频引发了人们的热议,不少网友为女司机的行为拍手叫好,可见人们对碰瓷者的憎恨程度。其实,如果经常浏览查看新闻,不难发现,最
海宁市中医院与尖山新区(黄湾镇)卫生院合作建立尖山分院,推动优质中医资源下沉,提升基层中医服务水平,取得显著成效。实际工作中,通过建立紧密合作机制,开展中医特色疗法,普