基于可继承思想的流数据聚类研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：ppmeng

【摘要】

：

数据挖掘是一门基于历史数据发现事物内在规律的应用科学，聚类是数据挖掘的一种重要手段。近年来，计算机和通信技术的快速发展带来了各个行业数据积累的快速增加，传统的基于静态

【作者】

：

窦志彤

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2005年期

【关键词】

：

数据挖掘流数据聚类数据库技术

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是一门基于历史数据发现事物内在规律的应用科学，聚类是数据挖掘的一种重要手段。近年来，计算机和通信技术的快速发展带来了各个行业数据积累的快速增加，传统的基于静态小规模数据的数据挖掘方法在效率和效果上难以满足人们的要求，如何在数据挖掘中继承以前的挖掘结果的问题凸现。针对这一问题，作者所在的课题组提出了可继承性数据挖掘的思想。本文借鉴这一思想，针对银行、通信领域常见的流式数据，提出了新的聚类方法。本文首先从介绍传统的聚类方法和现实中的流数据环境入手，分析了传统聚类算法无法应用于流数据的原因，并在此基础上对数据挖掘的可继承思想做出介绍，提出用可继承思想解决流数据的增量聚类和聚类结果演变跟踪的思想。本文设计了一个新的对流数据进行聚类的框架，框架分为联机和脱机两部分。联机部分实现对流数据的联机处理和中间处理结果的定时转储，针对这一部分，本文提出了MicroCluster，IBIRCH和增量K-Means三个联机流数据处理算法，提出了转储时机的选择策略并证明了这种策略在存储容量和用户查询精度方面的特性。脱机部分实现基于中间结果的最后聚类，获得最终的聚类结果。本文设计并实现了针对流数据的可继承聚类实验系统，并把本文提出的三个算法集成到该系统中，该系统为开放式系统，为其它针对流数据的算法提供了接口。在实验系统的基础上，本文使用现实数据和人工生成的数据进行了一系列实验，实验结果充分验证了本文提出的方法的有效性、正确性和很好的时间效率。

其他文献

基于特征模糊度分析的说话人识别

　　说本文设计了一个与文本无关的说话人识别系统。将模糊逻辑中的模糊度概念引入到系统中，以模糊度作为选择说话人特征的标准。实验结果表明，按此方法选择出的特征能取得比一

学位

说话人识别模糊度小波变换人工神经网络特征提取生物特征识别

嵌入式Internet方案的设计与实现

近几年随着半导体技术和系统设计方法的提高，单片机在内部结构、功率消耗以及制造工艺等诸多方面有了长足的进步。单片机已逐渐成为许多电子设备中不可缺少的一部分，并处于前所

学位

嵌入式系统单片机InternetμC/OS-IITCP/IP嵌入式Web服务器

移动式JAVA虚拟机的研究及改进实现

　　本篇论文从J2ME平台的基本概念、技术特点和体系架构等方面入手，首先让读者对J2ME平台及其相关技术有一个感性的认识和了解。接着，作者介绍了J2ME平台上运行的一种移动式JA

学位

JAVA 2平台微缩版K虚拟机垃圾收集算法双代式有限连接设备配置移动信息设备描述多线程机制

《数控加工编程及操作》教学系统的个性化研究

以计算机、多媒体和Internet为标志的信息技术的发展正在对教育领域产生着越来越大的影响，计算机辅助教学(ComputerAssistedInstruction，简称CAI)系统有着非常广阔的应用前景。

学位

计算机辅助教学系统领域知识库教师模型学生模型模糊评价数控加工

反垃圾邮件系统研究及实现

本文所涉及课题为“反垃圾邮件系统研究与实现”,提出并深入研究全新反垃圾邮件过滤器系统和它的网络部署方案,对该课题的研究具有重要理论参考价值和实际应用价值。互联网70

学位

垃圾邮件邮件过滤器神经网络遗传算法网络部署

印鉴纹理识别系统分析

印鉴识别是金融系统工作的一个重要内容，而印鉴纹理识别的识别技术一直是人们广泛关注的关键技术。本文通过对印鉴纹理识别技术、细节特征值等方面的理解提出了一种关于特征值

学位

印鉴识别纹理线条检测霍夫变换傅立叶频谱贝赛尔曲线

面向通信软件的自动化测试平台的研究与实现

　　本文在介绍移动通信网的知识和自动化测试及其工具的基本原理的基础上，详细阐述了面向通信软件的自动化测试平台的设计与具体实现。本文提出了自动化测试平台设计的基本原

学位

自动化测试测试平台测试工具通信软件七号信令系统

Web服务环境下业务流程建模语言的比较框架

　　基于Web服务的价值链集成越来越受到人们的重视，基于业务流程的的集成在电子商务，企业应用集成等各个方面的应用更加广泛。这就要求能够在企业的业务流程层实现无缝集成。

学位

Web服务集成Web服务业务流程建模语言BPEL比较框架

点对点分散式网络构架（peer-to-peer computing）的研究

随着计算机和通信技术的迅速发展，相对于目前计算机网络中广泛存在的客户机/服务器模式，另一种计算模式——点对点计算(P2P)逐渐流行起来。人们对该计算模式的关注，完全是由于该

学位

计算机网络点对点计算客户机/服务器应用程序P2PJXTA

基于可继承思想的流数据聚类研究

其他学术论文