论文部分内容阅读
在机器学习中的聚类技术被人们看作是非常有研究价值的内容,在金融中的诈骗、医疗中的诊断、图像中的研究、信息中的搜索以及生物中的信息学等很多方面都受到了关注和研究。现如今,针对聚类技术的有关的算法被给出和实践应用。随着科技的进步,数据也随之越来越多,同时也呈现出了复杂的结构特性,比如多维性、不均匀性、冗余性等等多种结构。由于数据的形式影响着聚类的效果,故随着数据的不同特性的出现,随之也就出现了很多的聚类算法,但是没有万能的聚类算法。所以针对当今数据的特性寻求有效的聚类算法是一个必要的研究的内容。本文研究的是多类型结构的数据,探求出有效的聚类算法。本文的主要研究主要内容是:1、针对分类型数据的特点提出了一种新的属性加权聚类算法,并将其应用于聚类过程中形成新的聚类优化问题。2、提出一种面向高维数据的属性双加权优化聚类算法,通过标准化的形式得出算法中的矩阵的划分、类的中心集以及属性的权值在实现的过程中的规则,进而实现了最优解的获得。证明了该算法的收敛性。3、通过利用UCI中的高维分类型数据进行仿真,验证算法的有效性和时间复杂度。实验体现出文本提出的算法不仅继承Chan等人提出算法的简便性,同时又解决了针对分类型数据加权失效的问题。本文的研究可以改善算法对分类型数据失效的难题,为生物中产生的数据、来自Web端的数据、客户交易中产生的数据等多方面给予了技术方面的支持。