论文部分内容阅读
离群点检测是数据挖掘领域的一项重要技术,在网络入侵检测,传感器网络异常数据检测等方面具有很高的应用价值。该技术在确定性数据流领域已经得到了深入的研究,但在概率数据流领域,却是一项新的研究课题。概率数据流是近年来新兴的一种数据模型,概率数据以数据流的形式呈现,兼有概率数据和数据流的双重特点。概率数据描述事物的不确定性,能够更加真实的反映客观世界,在某些实际应用中使用概率数据模型可以提高实际可行性;但与此同时,不确定性也为数据管理带来新的挑战。因此,概率数据流管理在满足数据流管理要求的同时,还要解决不确定性带来的问题。本文最先提出面向概率数据流的离群点检测问题,并对概率数据流中基于距离的离群点检测技术进行初步的探索,以目前数据流处理技术中最常用的滑动窗口模型为框架,以相互独立的离散概率值描述元组的存在不确定性。由于不确定性的引入,原有确定性数据中基于距离的离群点定义不再有效。本文提出基于距离的不确定离群点定义,以概率做为新的判断标准。单窗口检测是完成整个数据流检测的基础,它的任务是针对每个窗口快照获取检测结果。本文在前期工作的部分成果的基础上,找到支持单窗口检测的过滤原理,并基于该过滤原理提出单窗口检测方法PDA,有效解决单窗口的检测问题。通过对PDA方法在滑动窗口上扩展应用,本文得到面向概率数据流的离群点检测的基本方法WPDA,并分析其优缺点。窗口信息的增量维护是滑动窗口模型的重要特征,目的是利用窗口滑动后保留的部分历史信息减少处理代价。本文结合过滤原理提出窗口的增量维护机制,避免WPDA方法的重复处理,并基于该机制提出针对WPDA的优化方法OWPDA。本文在实验中针对WPDA和OWPDA方法的检测效率进行测试和比较,并对实验结果加以分析。实验结果表明,得益于窗口的增量维护机制,OWPDA较WPDA有更高的检测效率。