论文部分内容阅读
聚类分析是一门重要学科,其依据测量对象的内在特性或相似度将对象进行分组,在多种社会科学领域中都有应用,如数据压缩、数据挖掘、图像分割和信息检索。聚类算法用来划分无标签数据成组或者簇。随着越来越多的无标签数据可以用来聚类,聚类算法的稳定性变得越来越重要。开发一种适合所有类型数据的聚类算法是困难的,聚类任务的探索本质要求我们寻找一种方法能合并多种聚类算法的长处,因此,聚类集成得到了很大关注。聚类集成可以合并多个划分生成一个鲁棒稳定的最终聚类解。考虑该技术的主要动机是期望最终的聚类解与其他单独的聚类相比可以更好地对数据进行建模。数据可视化是探索数据的重要手段,在聚类分析过程中也起到很关键的作用,在数据挖掘、模式识别领域有广泛应用。 本文首先对聚类分析和聚类集成进行了概述,介绍了其相关研究和发展,介绍了几种代表性的相似度和相异度,并对两种基于图的聚类集成算法进行了讨论,也简单介绍了数据可视化,基于此,本文的主要工作有如下方面: (1)分析了基于实例的图算法和混合二分图算法两种聚类集成算法,并通过实验比较了该两种算法的性能,以分类准确率和规范化互信息准则为评估准则,与基于实例的图算法相比,混合二分图算法更具竞争性。 (2)将混合二分图聚类集成算法应用于彩色图像分割。在彩色图像分割中采用了图切算法,经过聚类集成后,一个新的最终聚类解对发现有趣模式是有用的。 (3)在数据可视化中使用了平行坐标绘图,实验结果显示该技术为多维数据可视化提供了一种有效方式。最后,将怀卡托知识分析环境用于聚类分析中的数据可视化,更进一步地,使用了一种统计计算绘图语言和环境R来绘图和分析数据,其有很好的研究前景。