基于模糊聚类的增量式挖掘算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:t60720372f
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的一个研究热点。业已广泛研究的模糊聚类算法,往往只适用于静态数据集的聚类;对于动态数据集,新增数据后前期的聚类结果不再可靠,而运用此类算法重新聚类,势必造成效率低下和计算资源浪费。针对上述问题,提出了基于模糊相似度的增量式聚类算法,并对基于C-均值和网格的增量式聚类算法进行了研究。基于模糊相似度的增量式聚类算法逐个考查新增数据,计算新增数据同已有聚类数据的相似程度,并和算法给定的阈值参数进行比较,直接得到和全部数据重新聚类相同的结果,避免了对模糊相似度矩阵进行传递闭包等运算;通过最大树聚类算法中最大树的生成过程,证明了该算法和常用的最大树法、传递闭包法等聚类算法等价,相关实验也证实了算法的等价性。并且增量式算法的聚类效率有较大提高。同时,对基于C-均值和网格的聚类算法进行了改进研究,通过对传统的C-均值融入先验知识,以及利用网格将空间量化的思想,分别实现了基于先验知识的增量式C-均值聚类算法和基于网格的增量式聚类算法。在大型数据库的知识发现中,在数据不断增长的情况下,增量式聚类技术不仅能够利用前期聚类的计算结果,充分提高聚类分析的效率,而且可以降低维护知识库所带来的巨大开销。
其他文献
随着无线通信技术和微电子技术等技术的发展,无线传感器网络(Wireless SensorNetworks,WSNs)已成为国内外学术界和工业界密切关注的对象,被认为是一项十分有前景的应用技术由于无
配电网最佳抢修路径问题既是目前地理信息系统网络分析中的一个研究热点,也是配电网管理系统的重要组成部分。本文中针对配电网最佳抢修路径的特点对基本蚁群算法进行了改进,并将改进的蚁群算法应用于实际系统当中。以行车时间最短为目标,考虑影响行车效率的各种因素,建立了配电网最佳抢修路径的数学模型。结合河南濮阳电力局基于GIS的配电网信息管理系统实际项目对最佳抢修路径搜索功能模块进行实现。实际结果表明,在解决配
本论文概述了智能语音管理系统研究的背景、国内外研究现状。接着从CTI技术的概念的角度分析了CTI技术的系统结构、应用模型、应用程序接口、技术标准、外设接口标准、应用情
随着互联网和计算机科学技术的迅速发展,信息在人类社会中的作用愈发明显。信息技术是二十世纪的重大技术创新和技术进步。它代表了人类先进生产力发展的新成就和新水平,对当
本文提出了一个具有P2P网络拓扑独立性、设备平台独立性的通用计算平台(Universal Computing Platform,简称UCP):TIPMAN。通用计算平台在分布式应用程序和底层网络拓扑之间构
本文以铁道部某重点建设项目为例,给出了一个铁路电力视频监控系统的具体设计,讨论了系统的基本组成和设备选型的依据。分析了目前主流的几种数字视频编码标准:MPEG(MovingPictu
近几年旅游业的兴旺发展,为旅游信息服务的发展带来很大的机遇,但同时也为旅游信息服务不断提出新的要求。利用Web服务的松散耦合性可以使旅游信息服务更加适用于目前的分布
本文主要关注基于轮廓数据的三维物体对象曲面重构问题,轮廓表示着一系列通过物体对象的断层截面形状。基于轮廓数据的三维物体重构问题有着广泛的应用背景,在生物医学研究、地
随着Internet的飞速发展,计算机网络已经在社会、经济、文化和人们的日常生活中扮演着越来越重要的角色。同时越来越多的政府、商业、金融等机构和部门将自己的数据库连接到I
作为一个新兴的主题,基于混沌和DNA互补的规则的数字图像对称加密技术最近已经吸引了很多研究人员的关注。随着通信技术的发展,除了文本信息以外,利用视听信息变得比过去更为普