高维空间大数据集分布式聚类及离群知识发现算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:sipuree
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的重要研究课题,它是数据挖掘研究的重要内容、手段和工具,因而成为一个被不断探索并充满创新的研究主题。离群知识发现是近年来倍受数据挖掘研究者关注的一个新兴研究领域,它研究数据中少数异常而新颖的数据分布模式,离群知识发现在入侵检测、风险控制等领域有着广泛应用。 近年来,随着卫星遥感、X光扫描、分子生物、高能物理研究等技术的发展,大量的数据被存储在数据库中,这些数据具有维度高、数据分布稀疏、噪声数据多的特点,这就使得面向高维大规模数据集的数据挖掘研究成为关键。探索并构造具有高性能、高效率的新算法是解决高维空间大数据集挖掘问题的有效途径,也是本文开展聚类分析和离群知识发现研究的着眼点和出发点。 论文分析了高维空间大数据集数据分布的特点,以及高维空间大数据集挖掘所需解决的问题,对已有的聚类分析及离群知识发现算法的优缺点进行了分析,针对大数据集的生成方式,提出分布式挖掘、增量式挖掘、数据流挖掘等解决方法,提出了一系列面向高维大规模数据集的有效的聚类及离群知识发现算法。 针对高维空间数据聚类可能出现的数据分布稀疏、噪声数据多、聚类参数设定困难以及“差距趋零”等问题,在DBSCAN算法的基础上,提出一种k邻域局部密度聚类算法k-PCLDHD及其优化算法k-LDCHD,算法既保持了DBSCAN算法快速高效的特点,又有效地提高了DBSCAN算法对高维空间数据聚类的精度;在分布式聚类挖掘方面,提出了分布式聚类算法k-DCBIP,算法结合向量内积知识,对数据集进行预处理,并在每次迭代中,对每个数据点的归属作预判断,算法可以有效地解决大数据集聚类问题;进一步,提出基于DBSCAN的分布式密度聚类算法DDBSCAN,算法具有DBSCAN算法的能够发现不同形状聚类、对噪声数据不敏感、效率高的优点,同时,算法还弥补了DBSCAN算法在扩展性和对高维数据适应性上的不足。最后,论文对数据流挖掘方法进行探讨,将数据流离群知识发现与数据流聚类分析问题对应起来,提出了基于k均值分区的适用于高维数据流挖掘的密度聚类算法CLUSMD以及离群点检测算法DSOKP。 在研究过程中,针对所构造的各种算法进行了大量的实验验证,理论分析和实验结果验证了算法的合理性和有效性,所提出的算法在综合性能上均明显优于现有的相应算法。
其他文献
我国电子商务市场是世界电子商务市场重要组成部分以及推动力量,在持续增长的市场利润诱惑下,由于相关法律法规制度不完善,市场监管不明确,部分交易主体(尤其是卖方)的诚信缺
  本文分析了网络安全的现状,简单介绍传统安全防御措施的各自的优缺点,提出采用蜜罐技术同时结合防火墙和入侵检测技术来构筑新的网络安全防护系统;介绍蜜罐概念及发展历史,并
将智能化技术应用到嵌入式系统中是当前研究的热点。本文首先介绍了嵌入式系统及其应用,然后从系统的需求特别是智能化需求分析入手,提出了系统的总体结构。分析了系统的三个
检索系统是在海量信息中查找有用信息重要工具。信息检索的重要问题是文档与问句相似度的计算方法。围绕这个问题,提出了多种检索模型,其中向量空间模型是比较成功并且应用
本文在调研多家制造企业的绩效考核与薪资计算管理现状以后,深入研究了面向制造企业的CERP(Cost-based Enterprise Resource Planning)环境下的绩效考核模型.该模型涵盖了从
传统的信息过滤技术仅仅根据用户兴趣做信息过滤和推荐,难以满足用户的要求。本文提出了一种基于本体论的信息过滤方法。把过滤用户分成两类:没有经验的过滤用户和有经验的过
近年来,由于计算机网络通信技术的迅速发展,集中式数据库已不能满足处理异地数据的需要,由此产生了分布式数据库。经过多年的研究与发展,分布式数据库己成为数据库的主流技术之一
星载高度计、散射计是两种重要的有源微波遥感器,其地面系统级测试和定标,则是设备研制过程中必不可少的环节。海面回波模拟器是地面检验星载高度计、散射计性能的关键设备,
网络处理器是针对网络处理而优化设计的专用指令集处理器。其底层硬件体系结构经过特殊的设计能够以线速率处理和传输网络数据包。但程序员为了编写有效的网络处理程序必须熟
  由Eckhorn神经元模型得到的脉冲耦合神经网络模型(PCNN)是直接观察猫的视觉皮层神经细胞并模拟其活动而得到的人工神经网络模型。此算法在图像分割领域中,已经显示出了其