论文部分内容阅读
诸多基于目标函数的聚类算法中,模糊c均值算法(FCM)的理论最为完善、应用最为广泛。从本质上讲,它是一种局部搜索算法,采用迭代的爬山技术寻找问题的最优解。因此它有一个致命弱点,即对初始化敏感而容易陷入局部极小值。遗传算法是一种应用广泛的全局优化方法,它的主要优点是简单、通用、鲁棒性强,比盲目的搜索效率要高,又比针对特定问题的算法通用性强,是一种与问题无关的求解模式。遗传算法的这些特点克服了FCM对初始化敏感的问题。因此,把遗传算法与FCM结合起来,既可以发挥遗传算法的全局寻优能力又可兼顾FCM的局部搜索能力,从而提高收敛速度并更好地解决聚类问题。通过对FCM算法、遗传算法以及遗传聚类算法的研究,本文提出了一种改进的遗传模糊聚类算法(IGFCM),这种算法采用遗传算法对初始聚类中心进行优化并执行FCM算法,使遗传算法与FCM结合以弥补它们自身的缺陷,提高了收敛速度并改善分类效果。首先,在遗传算法中,采用把聚类中心作为染色体的符号编码方法,这种表示方法不但能使染色体编码长度变短,又能使交叉、变异后的搜索空间保持不变;其次,在进行选择操作时采用最优保存策略,保留遗传过程中适应度最高的个体,让它不参与交叉、变异操作而直接进入下一代,然后采用轮盘赌方法,根据适应度函数对应的概率分布选出合适的个体,并进行交叉和变异,以提高群体的平均适应度,保证每一代在进化过程中当前最优个体不会被遗传操作所破坏;最后,采用设定最大迭代次数和根据遗传收敛程度相结合的停止准则,减小误差并缩短遗传算法的运行时间。本文通过MATLAB进行实验仿真,使用IRIS数据集比较测试FCM算法、GFCM算法和文本提出的IGFCM算法的性能,证明了IGFCM算法能克服FCM算法中的初始化敏感的缺点,验证了IGFCM算法运行时间比GFCM算法短,最后讨论了该算法在文本聚类中的应用。