基于可继承思想的流数据聚类研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:ppmeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一门基于历史数据发现事物内在规律的应用科学,聚类是数据挖掘的一种重要手段。近年来,计算机和通信技术的快速发展带来了各个行业数据积累的快速增加,传统的基于静态小规模数据的数据挖掘方法在效率和效果上难以满足人们的要求,如何在数据挖掘中继承以前的挖掘结果的问题凸现。针对这一问题,作者所在的课题组提出了可继承性数据挖掘的思想。本文借鉴这一思想,针对银行、通信领域常见的流式数据,提出了新的聚类方法。 本文首先从介绍传统的聚类方法和现实中的流数据环境入手,分析了传统聚类算法无法应用于流数据的原因,并在此基础上对数据挖掘的可继承思想做出介绍,提出用可继承思想解决流数据的增量聚类和聚类结果演变跟踪的思想。 本文设计了一个新的对流数据进行聚类的框架,框架分为联机和脱机两部分。联机部分实现对流数据的联机处理和中间处理结果的定时转储,针对这一部分,本文提出了MicroCluster,IBIRCH和增量K-Means三个联机流数据处理算法,提出了转储时机的选择策略并证明了这种策略在存储容量和用户查询精度方面的特性。脱机部分实现基于中间结果的最后聚类,获得最终的聚类结果。 本文设计并实现了针对流数据的可继承聚类实验系统,并把本文提出的三个算法集成到该系统中,该系统为开放式系统,为其它针对流数据的算法提供了接口。在实验系统的基础上,本文使用现实数据和人工生成的数据进行了一系列实验,实验结果充分验证了本文提出的方法的有效性、正确性和很好的时间效率。
其他文献
  说本文设计了一个与文本无关的说话人识别系统。将模糊逻辑中的模糊度概念引入到系统中,以模糊度作为选择说话人特征的标准。实验结果表明,按此方法选择出的特征能取得比一
近几年随着半导体技术和系统设计方法的提高,单片机在内部结构、功率消耗以及制造工艺等诸多方面有了长足的进步。单片机已逐渐成为许多电子设备中不可缺少的一部分,并处于前所
  本篇论文从J2ME平台的基本概念、技术特点和体系架构等方面入手,首先让读者对J2ME平台及其相关技术有一个感性的认识和了解。接着,作者介绍了J2ME平台上运行的一种移动式JA
以计算机、多媒体和Internet为标志的信息技术的发展正在对教育领域产生着越来越大的影响,计算机辅助教学(ComputerAssistedInstruction,简称CAI)系统有着非常广阔的应用前景。
本文所涉及课题为“反垃圾邮件系统研究与实现”,提出并深入研究全新反垃圾邮件过滤器系统和它的网络部署方案,对该课题的研究具有重要理论参考价值和实际应用价值。互联网70
印鉴识别是金融系统工作的一个重要内容,而印鉴纹理识别的识别技术一直是人们广泛关注的关键技术。本文通过对印鉴纹理识别技术、细节特征值等方面的理解提出了一种关于特征值
  本文在介绍移动通信网的知识和自动化测试及其工具的基本原理的基础上,详细阐述了面向通信软件的自动化测试平台的设计与具体实现。本文提出了自动化测试平台设计的基本原
  基于Web服务的价值链集成越来越受到人们的重视,基于业务流程的的集成在电子商务,企业应用集成等各个方面的应用更加广泛。这就要求能够在企业的业务流程层实现无缝集成。
随着计算机和通信技术的迅速发展,相对于目前计算机网络中广泛存在的客户机/服务器模式,另一种计算模式——点对点计算(P2P)逐渐流行起来。人们对该计算模式的关注,完全是由于该