论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。数据供给能力和数据分析能力间的矛盾日益突出,迫切需要一种能够对数据进行深层次加工的自动化技术。数据挖掘技术应运而生。聚类分析技术是数据挖掘中的经典内容,是各学科研究的重要工具。模糊聚类由于能够描述样本类属的中介性,能够客观地反映现实世界,己逐渐成为聚类分析的主流.在众多的模糊聚类算法中,模糊C-均值算法可以说是应用最为广泛、最为灵敏的一种算法。但是该算法对初始化特别敏感,很容易陷入局部极小值或者鞍点,而得不到全局最优解;当我们使用这一聚类算法时,必须事先指定数据集的聚类数,然而聚类个数C一般是很难预先知道的,对于一些不规则的簇形状,用欧式距离的类中心描述是不适当的;并且FCM算法一般只能发现球装簇。本文重点针对FCM算法进行了详细的研究和分析;应用了多中心思想,提出了一种新的类合并方法对FCM算法进行了改进。改进算法将整个聚类过程分为二个阶段。第一阶段,采用最大最小距离算法结合数值规约技术进行初始聚类中心的选择。最大最小距离算法可以实现输入参数的知识领域最小化,即不用用户给出聚类数C。数值规约可以大大减小原始数据集的样本个数,并保留样本分布情况。使最大最小聚类算法的运行数据集大大减少。提高改进算法的执行效率。第二阶段,利用FCM隶属度矩阵的物理意义,实现将相邻小类合并成大类。最终完成整个聚类过程。改进算法的主要思想:“任何一个大簇或者延伸形状的簇都能用多个中心表示”。先把一个大类用多个中心点来表示,然后再合并那些适当的小类。这种冗余初始化聚类中心的方法,可以在一定程度上降低对初始中心和聚类数目的依赖。因为改进算法并不关心聚类数目选择是否正确,我们只需要提供一个足够大的初始聚类个数C,最终的聚类数目是通过合并了各个小类之后才确定,这样更加符合聚类的思想。为了验证本文提出的改进算法的有效性和可行性,本文将其与FCM算法在多个数据集上进行了对比实验,验证了改进算法在聚类质量和聚类稳定性上都远优于FCM算法。从而验证了本文对FCM的改进,是有效的可行的。