基于Hadoop平台的DBSCAN算法应用研究

来源 :广东工业大学 | 被引量 : 18次 | 上传用户:jiangyongan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随信息时代的急剧发展,我们从互联网获取的数据越来越多,从而导致数据呈现出爆炸式增长,而且以更快的速度增加。数据库的功能以及相关技术也在发生着升级和变化,尤其是数据库中的数据量已经呈现出爆炸式的增长,我们要想从这些海量数据中获取我们想要的信息和知识是非常困难的。这就促使我们要对大规模海量数据进行研究和分析,这种情况下,我们就需要用到数据挖掘技术。其中,聚类分析在挖掘领域内使用比较普遍,因此,将聚类分析的效率提高是有研究价值的。由于传统算法面向静态数据库,造成数据挖掘的结果不及时,先前已经被挖掘出的知识和规则可能已经不再适用于新的数据,从而使得决策的正确性在很大程度上降低。国内外现在也将云计算列为重点研究对象,它是众多技术如网格、并行和分布计算的发展和延伸。在云计算平台上,人们可以从网络中获得难以想象的计算能力、存储能力以及基础设施,通过将海量数据处理这样的大问题,进行分解,分布到云中进行分节点处理,无需再像传统使用昂贵的大型计算机来处理问题,这样做既降低了终端设备要求,又在很大程度上提高了计算能力。本文中首先论述了在数据挖掘中经常用到并且也是主要的一种挖掘算法,DBSCAN (Density-Based Spatial Clustering of Applications with Noise基于密度的空间聚类算法),在深入研究和探讨了其挖掘原理的基础上,对于其存在的一些不足,提出了一种基于增量的DBSCAN聚类算法。其次,本文结合云计算中一个开源的框架Hadoop,研究并利用其MapReduce的编程思想,将海量数据进行分块,并且分布到云计算的计算机集群中,实现每一部分数据可以在集群中进行并发的运行。最后,本文实现增量式DBSCAN挖掘算法与Hadoop平台相结合,将DBSCAN算法MapReduce化,当数据库出现新增或删除数据时,无需对整个数据库集进行重新挖掘,只需对新增数据进行局部的挖掘,最后将获取的局部挖掘知识与原先整体挖掘知识进行类簇相似性合并,形成最终的挖掘知识。与传统的单节点服务器串行运算和整体重新挖掘相比,相对缓解了处理海量数据时所造成的时间延迟问题,文章最后通过实验数据验证其挖掘的效率。
其他文献
对我国城市家庭房屋的客厅进行了设计,选择现代清新简约作为整体设计风格,设计方案以实现空间的宽敞化、最高化,景观的最佳化,照明的最亮化为目标.利用3Dmax和渲染器Vray给出
采用“八五”地震预报攻关研究成果──地震算法复杂性C(n)值及地震强度因子Mf值时间扫描,对河南及邻区12次中等以上地震进行单项和综合分析研究。结果表明,对应率达80%,显示出这些
运用工业工程中作业分析的方法,如作业分析、仿真等,对磨床传统单机装配模式进行分析,发现其中存在浪费问题。在此基础上,改进装配顺序,确定每个装配步骤的工作内容,计算装配
2009年12月14日,在温家宝总理主持召开的常务会议上,国务院就促进房地产市场健康发展的相关问题,提出了“增加供给、抑制投机、加强监管、推进保障房建设”等四大举措。湖南省每
将无线mesh网技术应用到城市轨道交通中,对车地通信中存在的关键问题———越区切换延时进行分析,并提出一种差分预测的方案对切换延时较长的问题进行优化。通过应用OP-NET仿真
<正>在粮棉油收购市场化改革的大趋势下,开办期货保证金业务,充分发挥期货市场日趋完善的避险功能,走现货与期货紧密结合的道路,是粮棉油信贷业务面向市场化的必然选择。党中
以某纯电动车型为研究对象,综合考虑车辆的电机系统、电池系统冷却循环,在AMESim中建立了该车型的热管理模型。试验测试了该车型的冷却性能,并利用建立的热管理模型计算分析
结肠癌是全球死亡率第三高的恶性肿瘤。有研究表明miRNA及其相关靶基因都与肿瘤细胞耐药性增加和细胞凋亡有关。本文揭示miR-21及其靶基因FasL在结肠癌细胞发展过程中的关系