论文部分内容阅读
伴随信息时代的急剧发展,我们从互联网获取的数据越来越多,从而导致数据呈现出爆炸式增长,而且以更快的速度增加。数据库的功能以及相关技术也在发生着升级和变化,尤其是数据库中的数据量已经呈现出爆炸式的增长,我们要想从这些海量数据中获取我们想要的信息和知识是非常困难的。这就促使我们要对大规模海量数据进行研究和分析,这种情况下,我们就需要用到数据挖掘技术。其中,聚类分析在挖掘领域内使用比较普遍,因此,将聚类分析的效率提高是有研究价值的。由于传统算法面向静态数据库,造成数据挖掘的结果不及时,先前已经被挖掘出的知识和规则可能已经不再适用于新的数据,从而使得决策的正确性在很大程度上降低。国内外现在也将云计算列为重点研究对象,它是众多技术如网格、并行和分布计算的发展和延伸。在云计算平台上,人们可以从网络中获得难以想象的计算能力、存储能力以及基础设施,通过将海量数据处理这样的大问题,进行分解,分布到云中进行分节点处理,无需再像传统使用昂贵的大型计算机来处理问题,这样做既降低了终端设备要求,又在很大程度上提高了计算能力。本文中首先论述了在数据挖掘中经常用到并且也是主要的一种挖掘算法,DBSCAN (Density-Based Spatial Clustering of Applications with Noise基于密度的空间聚类算法),在深入研究和探讨了其挖掘原理的基础上,对于其存在的一些不足,提出了一种基于增量的DBSCAN聚类算法。其次,本文结合云计算中一个开源的框架Hadoop,研究并利用其MapReduce的编程思想,将海量数据进行分块,并且分布到云计算的计算机集群中,实现每一部分数据可以在集群中进行并发的运行。最后,本文实现增量式DBSCAN挖掘算法与Hadoop平台相结合,将DBSCAN算法MapReduce化,当数据库出现新增或删除数据时,无需对整个数据库集进行重新挖掘,只需对新增数据进行局部的挖掘,最后将获取的局部挖掘知识与原先整体挖掘知识进行类簇相似性合并,形成最终的挖掘知识。与传统的单节点服务器串行运算和整体重新挖掘相比,相对缓解了处理海量数据时所造成的时间延迟问题,文章最后通过实验数据验证其挖掘的效率。