基于哈希编码的异常检测算法研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:lin2009888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今信息技术的快速发展,数据呈现爆炸式的增长。然而由于仪器故障、自然环境、人为操作失误等各种因素,数据在收集过程中可能会出现一定的偏差或异常。检测并排除数据中的异常数据是数据挖掘的主要任务之一。由于能够检测数据中的异常数据及噪声,异常检测在现实中得到广泛应用,如欺诈检测、异常行为检测、医疗分析等。目前已提出许多异常检测算法,根据给定假设的不同,它们大致可分为:基于统计的异常检测算法、基于邻域的异常检测算法、基于聚类的异常检测算法、基于子空间的异常检测算法、基于分类的异常检测算法、基于孤立的异常检测算法。随着各个领域数据集规模不断的增加,基于邻域的异常检测算法的时间开销大大增加,使得该类算法存在效率较低的问题。针对此问题,常用的解决方法之一是使用高效的近邻搜索方法来检测异常数据,以保证一定程度上提高时间效率。哈希编码方法在近邻搜索中备受青睐,其原因在于它不仅具有较高的搜索效率和较低的存储空间需求,而且还能在数据编码过程中保留数据的原始近邻关系。因此,本文提出基于哈希编码的异常检测算法研究,研究工作包括如下:(1)本文提出了一种适用于数据规模大的异常检测算法—基于位置敏感哈希和随机游走的异常检测算法(LSH-RWOD),该算法通过位置敏感哈希实现对数据的高效处理,随后利用数据之间距离获取其相似性,并将其转化为随机游走的转移概率。在此基础上,使用随机游走技术计算数据之间的游走概率,其中正常数据之间的转移概率越来越高,而异常点的概率越来越低,进而根据此性质最终辨别异常数据。实验结果表明,提出的方法能有效检测出数据中的异常,总体上优于其他异常检测算法。(2)异常数据的特征往往是由部分特征子空间决定的,但许多异常检测算法却需要考虑所有的特征空间,而随着数据维数的增大,数据特征存在大量的冗余信息,易遮盖异常数据,导致异常检测算法效果降低。为此针对此问题,提出基于哈希森林的异常检测算法(HFOD),该算法在特征子空间中采用哈希编码方法对数据进行近邻划分,以此构造哈希树,且采用集成方法构造哈希森林。在此基础上,根据待测数据在哈希森林中平均叶子节点密度大小来区分异常,即待测数据的平均叶子密度愈小,则表明该数据为异常数据的可能性愈大。该方法无需考虑所有数据特征空间,同时提高泛化能力。考虑到该算法的性能,本文将该算法与其他异常检测算法做了实验对比。实验表明,本文提出的异常检测算法能有效的检测出数据中的异常。
其他文献
口译中译员过多的自我修正会导致译语不流利,影响听众评价和沟通效率。本文对于二语习得和口译中自我修正现象及研究进行了一定的回顾,探讨了汉西交传中译员自我修正的产生原因和解决方法。本文作者以亲身参与的“2018年联合国世界旅游组织第22届全体大会”模拟会议为例,将案例中的自我修正现象分为有效修正(不同信息修正、恰当性修正、语言错误修正)和无效修正(无意义重复性修正和未完成修正)。研究发现,翻译过程中出
作为生命教育的核心内容,生命价值一直贯穿在高校生命教育过程的始末。但由于大学生正处于个性观念的成长期,受到自身认知不足以及外界各种环境的影响,使他们对生命、生命价值以及生命价值实现等相关问题的理解产生偏差。故对拥有现代科学文化素养以及“新时代”正义感和责任感的大学生进行生命价值问题的理论和实践研究,有利于大学生客观的认识自我;有利于充分挖掘和培养大学生生命价值实现的情感和能力;更有利于充分激发大学
随着我国宽带战略的实施部署以及骨干网络光纤化进程的加快,接入网技术的进步成为了促进有线宽带网络发展的关键因素。广泛铺设的有线同轴网络作为国家信息基础设施的重要组成部分,应当被充分利用,发挥其学术与经济价值。HINOC(High performance Network Over Coax)高性能同轴电缆宽带接入解决方案是针对我国有线同轴网络特性研发的具有完备自主知识产权的新型EOC(Ethernet
针对经典的基于证书的公钥密码算法当中,由于用户与其公钥之间存在的一一对应的特殊关系,用户需要存储大量的证书从而导致了比较复杂的证书管理问题。因此,对于新的基于身份的加密算法和无证书的加密算法的探索逐渐成为了国内外学者研究的热点。在经典加密方法之中,通常的方法是对一个消息进行先签名后加密,而签密则是将签名和加密合二为一。随着网络信息的规模日益庞大,同一信息需要多个用户共同签密并且发送给多个接收者的加
背景与目的:胃癌发生是一个多因素、多步骤、多基因参与的过程,在这一过程中,其基因调控网络是动态变化和条件特异性的。因此,研究胃癌发生过程中基因调控网络的动态变化,能
随着雷达遥感探测技术的不断发展,利用天气雷达定量估测降水得到愈来愈广泛的应用。由于雷达受系统复杂与外界干扰影响测量准确性低,且降雨的时空特性强,变化较快,目前通过雷达反射率因子(Z)和降雨强度(I)建立关系式Z=AIb进行估测降水的效果并不是很理想。本文围绕提高雷达定量估测降水精度进行研究,提高雷达探测资料质量,并利用人工神经网络(Artifical Neural Network,ANN)出色的非
图像局部特征描述是计算机视觉的一个基本问题,局部特征描述子作为一种底层特征描述技术,可以描述丰富的图像局部细节结构,在图像发生形变、遮挡或缺损时,仍然表现出较强的鲁棒性,因此被广泛应用在目标检测和识别等计算机视觉任务中。计算机对图像进行理解通常采用“从局部到全局”的策略,这是一个从微观到介观到宏观,由底向上的图像描述过程。但是目前常用的图像特征抽取与描述技术是基于宏观整体或局部区域的,除LBP与G
中国古诗词是我国传统文化中的精髓,在物质越来越丰富的当下社会,人的精神世界却较为匮乏,因此,加强对本民族优秀文化的学习显得尤为重要。传统诗词的传播形式与途径比较单一、局限,不符合当今大众对信息的接收方式,不利于在现代社会传播。现代插画是当今社会主要的视觉传播方式,其表达能力与传播力经受得住社会的考验,符合民众的审美需求。本文依托纳兰性德所作《纳兰词》的词情、词景与词意,探索其现代插画的表达方式,并
标准必要专利就是为了达到某一标准而必须使用的不可被替代的专利,如果经营者不使用这项专利就达不到市场所要求的技术标准。标准必要专利的出现,将专利的私有性和标准的公共性相结合,以实现企业追求经济利益的最大化。然而,若标准被企业控制,就很容易出现专利权滥用现象,出现拒绝许可、不合理定价、非法搭售不必要专利、滥用禁令救济请求权等限制竞争的垄断问题,不仅影响着企业竞争发展的公平性,还会造成市场秩序的混乱,所
计算机网络和通信技术极速发展的今天,社会对网络的依赖越来越大,每天都有大量的信息通过网络进行传输与存储,人类步入到一个全新的信息化时代,因此对信息的安全要求越来越高。近些年来,随着物联网的普及,WSN和FRID等技术的应用场景越来越多样化,但这些应用设备都是计算能力和资源极度受限的微型设备,AES等传统的分组密码算法由于需要消耗大量的资源已不再适用于这种资源受限的环境。因此,轻量级分组密码算法这种