论文部分内容阅读
随着信息技术的快速发展,自动数据收集工具和成熟的数据库技术导致海量数据存放在数据库中,各种类型的数据正以指数速度迅速的增长,虽然我们正被数据淹没,但是缺乏知识从海量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、事先未知的、但又是潜在的有用信息和知识,而数据挖掘技术则成为信息决策领域最前沿和最活跃的研究方向之一。作为数据挖掘的一种强有力的分析工具,聚类分析得到了人们的广泛关注。聚类算法的核心思想为使得相同类别的样本尽可能聚为同一类,不同类别的样本聚为不同类,然而现实中的许多数据信息是十分复杂的,传统的机器学习方法大多只考虑有标记数据或者只考虑未标记数据,但是在很多真实问题中往往是二者并存,如何更有效地利用这些数据成为一个备受关注的问题。作为解决这一问题的关键技术,半监督学习受到了国际机器学习和数据挖掘界的高度重视,在这种情况下,半监督聚类算法应运而生。基于上述的背景,本文首先介绍半监督多目标进化的相关理论背景及其在聚类分析中的应用,在此基础上,提出了基于进化的半监督的聚类算法。具体工作如下:1.提出了一种基于混合方法的多目标聚类算法。首先,提出了一种基于混合策略的初始化方法,以增加初始种群的多样性;其次,采用一种半监督选择最优解的方法,提高了算法的聚类性能。通过对若干UCI数据、人工数据以及高维的高斯数据进行测试,实验结果表明,该算法在聚类正确率上有明显提高。2.提出了一种基于半监督的多目标聚类算法。首先,引入流行距离作为距离测度来描述数据样本之间的相似性,该测度很好的反映了复杂数据的分布情况;其次,提出一种新颖的基于半监督的初始化方法,该方法采用K近邻思想,一方面能获得聚类数据集的类别数,同时也得到质量较高的初始解;再者,提出了改进的变异算子,以此控制聚类的类别数;最后,采用三个目标函数作为聚类的评价准则,并将排序第一的解选为最优解。通过对UCI数据、各种类型的人工数据、高维的高斯数据以及手写体数据的测试,实验结果表明,该算法不仅提高了聚类结果的正确率,其鲁棒性也有很大的提高。3.提出了一种基于半监督的高维投影聚类算法。该算法提出了一个新的优化目标函数,同时采用工作2中的初始化方法,不仅可以提高初始解的质量,避免算法陷入局部最优,而且新的目标函数使得最优解的质量也有所改进,通过对UCI数据、基因数据以及手写体数据的测试,其结果表明,该算法不仅提高了聚类结果的平均值,其最优值也有很大的提高。