论文部分内容阅读
随着网络技术和数据库技术的快速发展,数据挖掘技术应运而生。聚类分析是数据挖掘中的重要分支之一,是一种数据划分或分组处理的重要手段和方法。聚类的应用是非常广泛的,无论是在商务领域,还是在生物学、Web文档分类、图像处理等其它领域,都得到了有效的应用。由于混合型数据集自身的复杂性,在传统的聚类算法中适合于处理这种数据集的算法较少,而且聚类的效果也不佳。另外,聚类簇数的确定一直是聚类分析难以解决的问题。近年来,随着集成学习技术在分类和预测领域的成功应用,形成了较成熟的多分类器集成技术,然而由于在聚类分析中缺乏数据集的先验知识,导致聚类集成的研究起步较晚,在很多方面还值得进一步研究。目前的聚类集成算法大多是一种并联式结构,由于需要对聚类成员的聚类结果进行匹配和融合,所以时间复杂度较高;同时聚类簇数的确定问题依然存在,特别是聚类成员的簇数、最终的聚类簇数以及两者之间的关系更是一个难以确定的问题。针对上述问题,本论文借鉴了多分类器集成技术,以k-prototype算法为基础聚类算法,设计了一种多层次的聚类集成算法。该算法适合于混合型数据集,采用了级联式结构,避免了匹配和融合的过程,并且只需给出聚类簇数的一个初步估计值,随着聚类层次的增加对簇数进行自适应的调整。在本论文中以UCI标准数据集进行实验,从各方面验证了该算法的性能,证明了该算法具有较高的聚类准确率,明显提高了混合型数据集的聚类效果;其时间复杂度较低,具有很好的可扩展性;同时还具备一定的分类预测能力。