论文部分内容阅读
数据挖掘是一门基于历史数据发现事物内在规律的应用科学,聚类是数据挖掘的一种重要手段。近年来,计算机和通信技术的快速发展带来了各个行业数据积累的快速增加,传统的基于静态小规模数据的数据挖掘方法在效率和效果上难以满足人们的要求,如何在数据挖掘中继承以前的挖掘结果的问题凸现。针对这一问题,作者所在的课题组提出了可继承性数据挖掘的思想。本文借鉴这一思想,针对银行、通信领域常见的流式数据,提出了新的聚类方法。
本文首先从介绍传统的聚类方法和现实中的流数据环境入手,分析了传统聚类算法无法应用于流数据的原因,并在此基础上对数据挖掘的可继承思想做出介绍,提出用可继承思想解决流数据的增量聚类和聚类结果演变跟踪的思想。
本文设计了一个新的对流数据进行聚类的框架,框架分为联机和脱机两部分。联机部分实现对流数据的联机处理和中间处理结果的定时转储,针对这一部分,本文提出了MicroCluster,IBIRCH和增量K-Means三个联机流数据处理算法,提出了转储时机的选择策略并证明了这种策略在存储容量和用户查询精度方面的特性。脱机部分实现基于中间结果的最后聚类,获得最终的聚类结果。
本文设计并实现了针对流数据的可继承聚类实验系统,并把本文提出的三个算法集成到该系统中,该系统为开放式系统,为其它针对流数据的算法提供了接口。在实验系统的基础上,本文使用现实数据和人工生成的数据进行了一系列实验,实验结果充分验证了本文提出的方法的有效性、正确性和很好的时间效率。