基于距离和信息熵的不确定异常点检测研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:hot_way
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据收集与处理技术导致了大量的数据不一致和丢失,这样的数据通常是以不确定的形式出现。不确定数据的出现对传统的数据挖掘技术提出了新的挑战。作为数据挖掘的一项重要任务,异常点检测越来越引起研究人员的重视。但是,在传统的异常点检测算法中,数据多是确定的,或是没考虑数据的自然结构,导致检测出的异常点与实际有较大出入。因此,在不确定数据集上进行异常点检测有很重要的意义。本文就选择了从不确定数据集中检测异常点这一课题进行研究。首先,介绍了异常点检测的相关概念和形成原因,以及几种传统的异常点检测方法,接着介绍了不确定数据的管理,以及几种常用的处理不确定性的数学理论,并对连续数值型不确定数据作了简要陈述。其次,把传统的基于距离的异常点检测方法扩展到不确定连续数据上,定义了不确定数据异常点检测的相关概念,并设计了一个基于距离的不确定数据异常点检测的算法。再次,针对所提出算法时间复杂度高的问题,提出了一种基于信息熵的剪枝策略,用实例说明了剪枝策略的合理性,并对剪枝策略的时间复杂性进行了分析。第四,通过模拟数据的实验,验证了参数变化对剪枝算法的影响,并基于真实数据与原算法对比,检验了剪枝算法的效率和效果。
其他文献
本文设计了一个面向实时网络安全处理的密钥系统,该系统能高速地产生高性能的密钥,密钥产生的速度很好地满足了网络实时加密流加密的需求,并且产生的密钥随机性高,能通过FIPS
信息分布存储系统中需要复杂的访问结构控制以及被保护信息的多种属性标签。在传统系统中,为了实现访问结构控制,由一台服务器明文存储所以信息,并作为控制服务器接受信息的
随着工程应用的范围和复杂度日益增大,人们对可视化的要求也越来越高,无论是电力系统、热力系统还是工作流管理系统,都习惯使用模型图来表示系统的组成结构或特定的工作流程
在各种图像分析和处理过程中,人们感兴趣的区域通常不是图片的所有内容,而是只是图像的一部分,因此,有大量研究者关注于人类视觉注意机制,并提出了一些计算模型,例如,Laurent