论文部分内容阅读
聚类分析作为数据挖掘领域的重要研究方向之一,已经受到研究者的广泛关注。近年来,许多有效的聚类算法已经被提出,并且在数据聚类上表现出很好的性能,但是单个聚类算法很难适应复杂结构的数据。为了解决这一问题,聚类集成被提出并得到快速发展。聚类集成的目标是通过集成多个基聚类结果提高聚类算法的稳定性、鲁棒性以及精度。在众多的聚类集成方法中,基于共协关系矩阵的聚类集成是一个重要的研究方向,也是该领域研究热点之一。因此,本文选择基于共协关系矩阵的聚类集成为对象开展研究工作,主要研究内容如下:(1)提出了基于样本对加权共协关系矩阵的聚类集成算法。该算法利用k-means算法产生多个基聚类,然后对于基聚类中的每个类再利用k-means算法产生多个样本簇,并通过去掉某个样本对所在样本簇后类的不确定性变化程度,评价共协关系矩阵中该对样本的重要性,实现基于样本对加权共协关系矩阵的聚类集成,实验结果表明了提出算法的有效性。(2)提出了基于度量学习的聚类集成算法。该算法利用共协关系矩阵构造样本对之间的必连约束集合和勿连约束集合,并给出相应的度量学习算法,进而根据学得的度量产生新的基聚类,再利用基聚类构造新的共协关系矩阵,通过循环上述过程,实现共协关系矩阵的构造与基聚类的产生相互指导,迭代优化,最终输出一个高质量的聚类结果。实验结果表明了提出算法的有效性。