【摘 要】
:
当前,由于网络入侵检测、实时监控系统以及web上用户的点击流数据等等动态的应用环境下不断地形成时序的、海量的、迅速变化的以及潜在无穷的数据流,对于数据流的挖掘研究已经
论文部分内容阅读
当前,由于网络入侵检测、实时监控系统以及web上用户的点击流数据等等动态的应用环境下不断地形成时序的、海量的、迅速变化的以及潜在无穷的数据流,对于数据流的挖掘研究已经变得非常重要并且富有实用价值。聚类分析作为数据挖掘领域当中一个非常重要的问题,目前已经被广泛地进行了研究。但是数据流的模型并不等同于传统的数据集,这个时候新的要求以及挑战就随之而产生了。通过对传统的聚类方法研究,发现存在的数据流聚类算法如CluStream是基于k-means算法的。这些聚类算法对于找到任何形状的聚类是不合适的,并且不能处理异常点。进一步而言,它们需要k的值以及用户特定的时间窗口。而基于网格与密度的聚类方法拥有非常多可以应用到数据流处理的相关特点,比较容易实现数据流的聚类相关处理。因而,在对基于网格与密度的传统聚类算法进行研究以及改进的基础上,从聚类的过程中所需要处理的数据集的动态特性出发,对基于网格与密度的数据流聚类方法进行了相关研究并提出GDCLUS,一种用基于密度的方法来进行数据流的聚类。这种算法运用在线组件将每一个输入数据记录映射到一个网格中,而离线组件主要采用最小生成树的思想来进行网格的聚类。这种算法采用了一种密度衰减的技术来获取数据流的动态变化,通过发现衰减因子,数据密度以及聚类结构之间复杂的关系,算法能够有效地实时产生并且调整聚类。进一步地,将改进的金字塔框架运用到数据流在线组件数据筛选,这种技术,在没有降低聚类质量的前提下,使得高速率的数据流聚类更加可行。实验结果表明,算法有优秀的质量和效率,能够发现任意形状的聚类,并且能够准确识别实时数据流的进化特征。最后,对于实际的数据流相关应用领域,对于算法的相关性能进行了测试,并在用于网络入侵检测的KDDCup99数据集上进行了相关实验,验证了算法的可行性。
其他文献
本文依托VLCC改装FPSO项目,结合以往工程项目的成功经验,对大型工程项目的设计技术管理工作进行了研究,阐述了以项目管理为主线的技术管理工作的实施办法,总结了VLCC改装项目
湘潭高新区网站消息,《湘潭高新区2013年重大项目投资和建设推进办法》、《湘潭高新区优化企业项目建设环境实施方案》、《湘潭高新区深入开展"五治"活动实施方案》、《湘潭
<正>随着我国医药卫生体制改革的不断深化和人民生活水平的提高,患者对医院服务的需求已呈现出层次化、多样化的趋势。面对这种趋势,医院就应突破传统的经营理念,进一步以患
2011年“十一”黄金周北京故宫博物院、八达岭景区游客接待量大大超过额定的游客容量,其他各地风景区以及客运交通均出现人满为患、井喷式的现象。国人对于旅游活动的日益热衷
<正>"猫人参"为浙江地方性用药,来源于猕猴桃科植物如对萼猕猴桃(镊合猕猴桃,Actinidia valvata Dunn)或大籽猕猴桃(Actinidia macrosperma C.F.Iiang)等的根[1]。据《中华本
我国社会已经经历了从封闭性社会向开放性社会发展的转型阶段,现在正处于改革开放更加深入、社会经济高速发展的重要时期。在这个时期中,政府面临着更多新情况、新挑战,比如老生
2015年12月9日,以“卓越于新,领势未来”为主题的领导力峰会在新西兰举行,由如今身居全球10强、亚洲第一的伊利集团举办。在这场峰会上,伊利集团升级了全新的企业文化价值观,力求
近年来,社会产业呈现多元化发展趋势,在产业发展当中,设备的运转情况直接受温度的影响,所以对于设备工作环境温度的检测尤为重要,然而现有的温度检测设备和检测手段远远不能
以人居生活废弃物生物质炭为材料,探讨生物质炭对重金属镉离子吸附去除的影响因素。结果表明,生物质炭对Cd2+吸附量随其粒径减小而增大。pH 对 Cd2+吸附量的影响不显著,但生物质炭
互联网经过了长时间的发展,给当今世界带来了巨大的改变,产生了深远的影响。随着互联网不断发展和需求不断扩大,IPv4地址空间不足等问题已成为互联网发展的瓶颈,随着2011年ICANN