基于多分类器集成的聚类算法研究

来源 :河海大学 | 被引量 : 6次 | 上传用户:sb198908240015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术和数据库技术的快速发展,数据挖掘技术应运而生。聚类分析是数据挖掘中的重要分支之一,是一种数据划分或分组处理的重要手段和方法。聚类的应用是非常广泛的,无论是在商务领域,还是在生物学、Web文档分类、图像处理等其它领域,都得到了有效的应用。由于混合型数据集自身的复杂性,在传统的聚类算法中适合于处理这种数据集的算法较少,而且聚类的效果也不佳。另外,聚类簇数的确定一直是聚类分析难以解决的问题。近年来,随着集成学习技术在分类和预测领域的成功应用,形成了较成熟的多分类器集成技术,然而由于在聚类分析中缺乏数据集的先验知识,导致聚类集成的研究起步较晚,在很多方面还值得进一步研究。目前的聚类集成算法大多是一种并联式结构,由于需要对聚类成员的聚类结果进行匹配和融合,所以时间复杂度较高;同时聚类簇数的确定问题依然存在,特别是聚类成员的簇数、最终的聚类簇数以及两者之间的关系更是一个难以确定的问题。针对上述问题,本论文借鉴了多分类器集成技术,以k-prototype算法为基础聚类算法,设计了一种多层次的聚类集成算法。该算法适合于混合型数据集,采用了级联式结构,避免了匹配和融合的过程,并且只需给出聚类簇数的一个初步估计值,随着聚类层次的增加对簇数进行自适应的调整。在本论文中以UCI标准数据集进行实验,从各方面验证了该算法的性能,证明了该算法具有较高的聚类准确率,明显提高了混合型数据集的聚类效果;其时间复杂度较低,具有很好的可扩展性;同时还具备一定的分类预测能力。
其他文献
Web服务是一种崭新的Web应用,是SOA(Service-Oriented Architecture)的核心。在Web服务以及SOA中,存在三个不同的角色(服务提供商、服务代理商和服务请求者),三种基本操作(服务
随着互联网的发展,数据呈现爆炸式的增长,大量的文档不断涌现,而聚类分析可以从这些文档中获取大量的有用信息。因此如何高效地对文档进行聚类并应用于文本挖掘和信息检索的
Ad Hoc网络高度动态的拓扑结构,无线传输,无中心,多跳路由,分布式等技术特点,使得传统路由协议不再适合于这种网络,因此Ad Hoc网络路由协议的研究与设计成为了当前Ad Hoc网络领域研
在如今这个互联网飞速发展的时代,防火墙作为抵御网络攻击、保护网络安全的工具,早已被普遍地应用于各种网络环境中。因此,防火墙的质量如何,能否有效地保障用户网络的安全就
流媒体课件是现代网络教育中的重要资源,是实现数字化教学的基础。由于流媒体课件制作涉及到流媒体素材的采集和编辑、网页制作、脚本语言控制、交互功能等许多技术,具有制作
在常见的分类任务中,一条样本通常属于类别标签之间没有关系的标签集合中的一个标签,而在更加复杂的分类任务中,一条样本可以属于多个标签,通常称为多标签分类。此外,还有一
在典型的分布式防火墙模型中,存在一个策略控制中心,统一管理安全策略的制定和分发工作。随着网络规模的扩大,策略控制中心的负载越来越重。本文基于一种新型的分布式防火墙模型
随着有线电视网的普及,单向广播网络的有效利用越来越吸引了众多方面的关注,在单向广播网络上,应用也越来越广泛,如远程教育,政策文件下放等。而这些应用中,文件传输必不可少,如何在
近些年来,由于软件规模的不断增大,传统的手工测试已严重影响了软件的发展。它不但需要投入大量的人力、物力和时间,最终还是由于测试的工作量太大,而无法保证软件测试的充分性,从
20世纪90年代以来,工作流的研究与应用成为IT技术研究的热门课题。深入研究工作流技术对企业改进工作流程、提高工作质量与效率都有着重要意义。工作流模型的好坏对于工作流