论文部分内容阅读
近年来,数据收集与处理技术导致了大量的数据不一致和丢失,这样的数据通常是以不确定的形式出现。不确定数据的出现对传统的数据挖掘技术提出了新的挑战。作为数据挖掘的一项重要任务,异常点检测越来越引起研究人员的重视。但是,在传统的异常点检测算法中,数据多是确定的,或是没考虑数据的自然结构,导致检测出的异常点与实际有较大出入。因此,在不确定数据集上进行异常点检测有很重要的意义。本文就选择了从不确定数据集中检测异常点这一课题进行研究。首先,介绍了异常点检测的相关概念和形成原因,以及几种传统的异常点检测方法,接着介绍了不确定数据的管理,以及几种常用的处理不确定性的数学理论,并对连续数值型不确定数据作了简要陈述。其次,把传统的基于距离的异常点检测方法扩展到不确定连续数据上,定义了不确定数据异常点检测的相关概念,并设计了一个基于距离的不确定数据异常点检测的算法。再次,针对所提出算法时间复杂度高的问题,提出了一种基于信息熵的剪枝策略,用实例说明了剪枝策略的合理性,并对剪枝策略的时间复杂性进行了分析。第四,通过模拟数据的实验,验证了参数变化对剪枝算法的影响,并基于真实数据与原算法对比,检验了剪枝算法的效率和效果。