论文部分内容阅读
数据挖掘是20世纪90年代中期兴起的一项新技术,它是知识发现(KDD)过程中的关键步骤,是数据库研究开发和应用最活跃的分支之一数据挖掘是多门学科和多种技术相结合的产物,也是一个非常年轻而又活跃的研究领域。数据挖掘的目的是把人工智能、机器学习、神经网络、统计学、模式识别与数据库等技术结合起来,由计算机自动从已有数据(数据库或数据仓库)中发现未知的、具有潜在应用价值的信息或模式,解决数据量很大、而知识贫乏的矛盾。面对海量的资料,首要的任务是将它合理的归类。否则,在许多情况下,问题不是没有模式被发现,而是模式太多了。而聚类就是将数据合理归类的一种方法,它把分类对象按一定的规则分组或类,这些组或类不是事先给定的,而是根据数据特征而定的。在一个给定的类里,这些对象在某种意义上是倾向于彼此相似,而在不同的类里的对象差别较大。通过聚类,人们能够识别密集的和稀疏的区域,发现全局的分布模式和数据属性之间有趣的相互关系。在数据挖掘中,聚类分析能作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步的分析。此外,聚类分析还可以作为其它算法(如特征和分类等)的预处理步骤,这些算法再在生成的簇上进行处理。启发式聚类算法是目前应用较为广泛的一类聚类挖掘算法。但是目前较为流行的启发式聚类算法在搜索效率上都不高。本文基于仿真实验从聚类效率方面深入研究当前的几种聚类挖掘算法,并给出了一种改善聚类效率的方案。本文研究主要内容如下:1.从聚类效率方面研究了几种不同的聚类挖掘算法:K-MEANS、PAM、CLARA,对这三种启发式聚类算法的效率进行分析和仿真实验,同时对聚类效果也进行了比较和分析。2.对CLARANS算法进行了深入的研究分析,从理论上分析了CLARANS算法的缺陷,利用仿真来进行求证。3.在充分继承CLARANS原有的优点基础上,利用遗传算法对CLARANS算法进行改进,以求提高聚类效率,同时为了避免遗传算法的早熟问题,增加种群多样性,引入基于小生境技术的遗传算法来做进一步改进,提出NGA-CLARANS算法,该算法有更好的全局收敛性。