论文部分内容阅读
近年来数据挖掘引起了信息产业界的广泛关注,其主要原因是存在大量的可用数据,并且迫切需要将这些数据转换成有用的信息和知识。通过数据挖掘,可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。聚类分析是数据挖掘的一项基本任务,是一个无监督的学习过程,聚类的目标是在没有任何先验知识的前提下,将数据聚集成不同的簇,使得相同簇中的元素尽可能相似,不同簇中的元素差别尽可能大。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的相互关系。在数据挖掘中,聚类分析也是一种很长用的技术。而聚类技术中K-means聚类分析技术又是最常用的方法。但K-means算法在实际应用中需要用户给出要聚类的数目即k的值,另外,K-means算法在运行时要首先随机产生一个初始聚类中心,然后再对使用这个初始聚类中心得到的聚类结果进行不断调整,而这个聚类结果在很大程度上受初始聚类中心选取的影响。为了消除K-means聚类算法对于用户输入k值的依赖,也为了减小K-means聚类算法受初始聚类中心的影响,本文引入了遗传算法。本文的主要工作包括:①介绍分析了聚类算法以及遗传算法。介绍了数据挖掘的相关概念、任务、方法,然后介绍了聚类分析的概念、常见算法以及遗传算法的基本概念、研究现状等,并进行了相应的分析。②结合遗传算法和K-均值算法的优点,提出一种基于遗传算法的k-means聚类算法,并在该算法的基础上提出了改进的遗传聚类算法,该算法根据聚类实际情况采用可变长实数表示聚类中心,并设计新的交叉变异算子以及采用广泛使用的聚类有效性指标DB-Index作为目标函数,不仅较好地解决了K-均值聚类算法中聚类数目难以确定、对初始值敏感及易陷入局部最优等缺陷,而且算法效率及算法的精度较之以往算法有较大提高。