半监督进化聚类算法及其应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:duzhanghuaduzhanghua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,自动数据收集工具和成熟的数据库技术导致海量数据存放在数据库中,各种类型的数据正以指数速度迅速的增长,虽然我们正被数据淹没,但是缺乏知识从海量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、事先未知的、但又是潜在的有用信息和知识,而数据挖掘技术则成为信息决策领域最前沿和最活跃的研究方向之一。作为数据挖掘的一种强有力的分析工具,聚类分析得到了人们的广泛关注。聚类算法的核心思想为使得相同类别的样本尽可能聚为同一类,不同类别的样本聚为不同类,然而现实中的许多数据信息是十分复杂的,传统的机器学习方法大多只考虑有标记数据或者只考虑未标记数据,但是在很多真实问题中往往是二者并存,如何更有效地利用这些数据成为一个备受关注的问题。作为解决这一问题的关键技术,半监督学习受到了国际机器学习和数据挖掘界的高度重视,在这种情况下,半监督聚类算法应运而生。基于上述的背景,本文首先介绍半监督多目标进化的相关理论背景及其在聚类分析中的应用,在此基础上,提出了基于进化的半监督的聚类算法。具体工作如下:1.提出了一种基于混合方法的多目标聚类算法。首先,提出了一种基于混合策略的初始化方法,以增加初始种群的多样性;其次,采用一种半监督选择最优解的方法,提高了算法的聚类性能。通过对若干UCI数据、人工数据以及高维的高斯数据进行测试,实验结果表明,该算法在聚类正确率上有明显提高。2.提出了一种基于半监督的多目标聚类算法。首先,引入流行距离作为距离测度来描述数据样本之间的相似性,该测度很好的反映了复杂数据的分布情况;其次,提出一种新颖的基于半监督的初始化方法,该方法采用K近邻思想,一方面能获得聚类数据集的类别数,同时也得到质量较高的初始解;再者,提出了改进的变异算子,以此控制聚类的类别数;最后,采用三个目标函数作为聚类的评价准则,并将排序第一的解选为最优解。通过对UCI数据、各种类型的人工数据、高维的高斯数据以及手写体数据的测试,实验结果表明,该算法不仅提高了聚类结果的正确率,其鲁棒性也有很大的提高。3.提出了一种基于半监督的高维投影聚类算法。该算法提出了一个新的优化目标函数,同时采用工作2中的初始化方法,不仅可以提高初始解的质量,避免算法陷入局部最优,而且新的目标函数使得最优解的质量也有所改进,通过对UCI数据、基因数据以及手写体数据的测试,其结果表明,该算法不仅提高了聚类结果的平均值,其最优值也有很大的提高。
其他文献
中生菌素(Zhongshengmycin)是由淡紫灰链霉菌海南变种(Streptomyces lavendulae var. hainanensis)合成的N-糖苷类农用抗生素,对农作物细菌性病害和真菌性病害具有良好的防治
  本文首次对11种芋属植物的分子系统学、6种芋属植物的微形态学和花叶芋的花器官发生进行了研究。结果表明:  1.11种芋属植物在形态上具有一定的差异,但由于这些形态性状
水分胁迫对植物体有广泛的影响,尤其对植物光系统Ⅱ有严重的损伤。水分胁迫下光系统Ⅱ主要蛋白含量持续下降,其mRSA相应减少,光系统Ⅱ电子传递效率也明显降低。但植物叶绿素含量与光系统Ⅱ对水分胁迫响应之间的关系还鲜有探讨。本实验选取了一种叶绿素缺乏大麦突变体,研究了其突变机理,证明了黄化是由于叶绿素合成缺陷引起的。随后,我们比较了黄化大麦及其野生型光系统Ⅱ在水分胁迫下的变化,探讨了叶绿素合成与光系统Ⅱ对
电力设施中产生的浪涌信号估计是在电力系统的雷电保护设计中的关键步骤。在电力设备的雷击浪涌分析中,使用电磁暂态分析软件已经大大提高了准确性。但是电磁暂态分析软件仿真是基于一个粗略的简易模型,雷击的空间传播过程分析仍有待研究,比如说在地面上浪涌沿着导体的不均匀传播,垂直于或倾向于导体的传播,仍旧亟待解决。这就衍生了沿着传输杆塔、沿着输电线路、沿着地线传播的浪涌的分析。在国内的雷电保护设计中的雷击分析大
随着网络带宽和数据流量的急剧增长,这使得对路由器带宽和处理速度要求越来越高,基于通用处理器和专用集成电路的传统路由器已经不能满足这一要求。为此,人们提出了基于MPSoC(片
随着集成电路技术的发展,新工艺不断出现,特征尺寸不断减小,ESD保护结构的设计面临更多挑战。因此深入研究GGNMOSESD防护特性及其影响因素成为必要。  本文利用混合仿真方法对
随着通信技术和集成电路工艺技术的发展,数字信号处理处理和传输的速度越来越快,对时钟信号质量的要求也越来越高,因而高性能的时钟发生器的研究是非常必要的。时钟发生器可用于