论文部分内容阅读
在当今的这个信息大爆炸的时代里,人们需要处理的数据量正在呈指数级别的猛增。原有的处理数据方法时刻都需要进一步优化和改进。最优化理论就是这样的实际需要下逐渐发展起来和完善的。为追求更高的效益,人们投入了大量精力来对其进行研究和分析,其中聚类分析成为了最优化领域较为热门的研究方向。随着模糊理论的形成以及不断完善成熟,模糊聚类方法因其更加符合实际客观情况,而备受人们的青睐。许多学者都提出了相应的模糊聚类算法,其中以基于目标函数的模糊C均值聚类算法最为成功,应用范围最为广泛。 模糊C均值聚类算法,有两个方面的缺点和不足,随着数据量的增长,算法的运算量会变大,耗费的时间变长;而且聚类的结果还会比较容易陷入错误的局部极小值点。由于它是通过不断对聚类中心和隶属度矩阵交替迭代的方法来达到求出最优解的目的,这里就需要初始化出一个迭代起始点。这里可以依据实际情况,既可以初始化聚类中心,也可以初始化隶属度矩阵,然而,无论初始化哪一个,都需要面对一个初始化方法设定的难题,通常的做法是随机初始化。由于模糊C均值聚类算法对初始化依赖程度较高,不恰当的初始化参数是会误导整个聚类过程。所以为了得到正确的结果,进行多次的完整聚类过程是有必要的,通过综合在多次初始化参数的情况下得到的聚类结果来确定最终的聚类结果。 本文在模糊C均值算法的基础上,对原有算法进行改进,以达到加快聚类速度的目的。提出了一种使用最速下降法来优化模糊C均值算法的方法。从传统的模糊C均值算法中推导出关于聚类中心的泛函迭代序列,并证明了该序列的收敛性,以及该序列收敛到的不动点是目标函数达到的极值点或鞍点,然后使用Banach压缩映射定理证明该不动点只能是目标函数的极值点。而后,结合最速下降法,对迭代步长进行优化以达到加快该序列收敛速度的目的。最终通过实验结果来验证了理论的可行性,在其迭代过程中,对于越偏离理论聚类中心的点,下降趋势比传统模糊C聚类算法就越明显。