聚类与孤立点检测算法的研究和实现

来源 :中国科学院沈阳计算技术研究所 | 被引量 : 8次 | 上传用户:bbchy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是在海量的数据中提取隐含的、未知的、潜在有用的知识或信息模式的决策支持方法。聚类与孤立点检测是其中的重要组成部分。算法的两个重要评价标准是算法的可伸缩性及算法的精度。本文的研究内容来源于科技部的资助项目数据挖掘系统ScopeMiner,该系统集成了数据挖掘算法研究的最新成果,开发自主产权的数据挖掘工具。聚类与孤立点检测子系统是挖掘系统ScopeMiner中的一部分,它集成了两类高效、高精度的聚类与孤立点检测算法。本文设计与实现了基于网格的聚类算法和基于密度的聚类与孤立点检测算法。在此基础上,实现了聚类与孤立点检测子系统。基于网格的聚类算法是一种有效处理低维海量数据的算法,对高维数据集效率较低。本文分析了现有的基于网格的聚类方法的特点及适用范围,提出了基于CD-Tree的聚类分析算法CDT,设计了两种剪枝优化策略以提高算法的效率。通过在真实与人工数据集上的测试,验证了CDT算法的有效性。提出一种新的基于密度的聚类算法,具有两个方面的优势:第一,算法利用线性回归分析方法发现密度区域变化的边界,对同一个密度区域中的点利用DBSCAN算法进行聚类,从而获得了多密度级别的类;第二,算法结合了DBSCAN算法和孤立点检测算法LOF可以同时进行聚类和检测孤立点。利用真实数据集与人工数据集对算法进行了测试,验证了算法的有效性。集成以上聚类与孤立点检测算法,设计与实现了聚类与孤立点检测子系统。介绍了子系统主要的数据结构、算法实现流程,利用真实数据集展示了子系统的使用方法。
其他文献
随着Internet网络的普及和商业化的发展,各种宽带网络应用层出不穷,如:电视会议、股票报价、新闻放送、软件更新、网络游戏等,这些应用都适合采用IP组播技术。组播通信系统的
随着网络信息的飞速增长和搜索引擎等技术的日趋成熟,人类社会所面临的主要问题已经不再是信息匮乏,而是如何提高信息获取和信息访问的效率。文本聚类技术具有较强的灵活性和自
随着Internet和Web技术的飞速发展,Internet已成为人们进行信息交流的不可缺少的巨大的信息空间。面对如此巨大的海量信息,人们在寻找自己所需的信息时常常迷失方向。如何快
近年来,VoIP(Voice over IP)一直是通信界和互联网界一个共同的热点话题。IP电话以其经济、高效率等特点,目前己成为数据语音通信中最有竞争力的技术之一。主流的VoIP软件采
时间序列在数据集中十分普遍,对时间序列进行数据挖掘已成为当前研究的焦点之一,对于时间序列数据挖掘的研究目前主要集中在相似性搜索和模式挖掘上。在模式挖掘方面,趋势预
多媒体短信服务(MMS)是在短信息服务(SMS)和增强短信服务(EMS)技术基础上进一步发展起来的一项新的技术。MMS是封装在WAP协议之上的高层应用程序,利用这种高层应用程序可以实
毕业设计是本科教学的重要组成部分,毕业设计管理是教学管理的重要环节,而软件学院由于自身的特点,其毕业设计过程与普通高等学校的毕业设计有很大不同。东北大学软件学院是国家
网络的规模呈几何级数增长,网络中的各种应用也越来越普及,在人们生活中有着不可或缺的地位。与此同时,由于可信网络的自治性、动态性、匿名性,网络中的恶意节点的攻击行为对网络
为适应可持续发展的战略发展目标,能源必须得到有效和充分的利用,电力系统中的无功冲击和谐波作为一种“电网污染”,严重影响了电力系统中各种设备的正常运行,在造成能源浪费
随着网络规模的扩大和异构程度的增加,网络故障管理越来越重要。网络故障诊断作为网络故障管理的核心内容成为当今研究热点。本文对网络管理中的简单网络管理协议SNMP及其与