基于LSH及信息熵的IForest算法优化及其并行化研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yaoye_1108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的飞速发展,海量的数据源源不断地产生并且呈指数级别的增长,如何从大量的数据中挖掘出有价值的信息成为了当前主要的研究热点。然而,传统的数据挖掘面对大量数据受到了很大的制约限制,随着分布式框架的提出,应用Hadoop、Spark等分布式计算框架成为解决这类问题的主要方法,利用集群的优势很大程度的提升了传统数据挖掘技术的运行效率并且具有良好的扩展性,这对从大量数据中蕴含信息的研究有非常重要的意义。异常检测一般是指运维中偏离正常数据的异常数值,异常检测问题是机器学习算法中一个常见应用,本文重点研究了常见异常检测算法中的隔离森林(IForest:Isolation Forest)算法及其优化方法,并在大数据Spark平台上进行了并行化设计与实现,从而大幅度提升了该算法的性能。本文首先对传统的IForest算法基本原理和Spark框架平台及其并行化运行机制进行分析研究,针对算法IForest的检测精度低、执行效率差、对全局稀疏点敏感,不擅长处理局部相对稀疏点等存在的问题,结合已有的优化策略针对性的提出了两个优化策略:基于局部敏感哈希(LSH:Locality Sensitive Hashing)空间分布数据预处理方法、基于维熵值切分数据的方法。本文的主要研究成果如下:(1)随着数据的不断生成,传统的异常离群点检测技术在处理大量、高维数据时往往会失败。受启发于哈希方法在高维空间中有低存储以及高查询的特性,提出基于LSH空间分布数据预处理的方法,用于对隔离森林算法样本数据进行预处理。LSH方法将最相似的数据分组到一个bucket中,将所有bucket里的相似样本用一个带权重的点取代,一方面能大量减少样本数据的个数,增加后边算法的执行效率,另一方面,使得IForest算法可以处理更高维的数据,提高里算法的应用范围以及准确度.所提出的方法优化实验结果与UCI机器学习数据集中的已有数据对比,实验结果验证了使用LSH方法对数据预处理后的异常检测IForest算法,在效率与精度方面都有很大的提升.(2)尽管IForest算法有时间复杂度低、检测效果好的特点,但该算法不够稳定,并且对噪声特征的鲁棒性较差。1948年,香农提出“信息熵”的概念,解决了对信息量度量的问题,对于一个系统,越是有序,信息熵值就越低,相反,则信息熵值就越高。IForest算法构建决策树时,对每个结点采用随机获取数据集中的一个属性,然后一般使用随机或取中的方式获取到切分值对结点进行切分构建子结点,将“信息熵”的概念引入到切分值的获取中,能更容易使得异常值与正常聚类值提前分离.信息熵可以用来反馈样本数据中每个属性的分布情况.可知,属性越不均匀,就越有可能选择出异常的数据样本,与前边随机选取相比有较高的算法执行效率。本文除了对IForest算法本身优化外,针对算法难以对大量数据进行高效挖掘的问题,基于Spark平台进行了并行化设计实现,提高了算法的并行度。最后以UCI数据集进行了实验验证,实验结果表明,优化后的算法能极大的提升算法的效率与精度。
其他文献
为满足第5代移动通信系统对低时延、高可靠性、高连接数量场景的需求,零尾(ZT)DFT-S-OFDM技术作为一种新型单载波技术被提出,并成为第5代移动通信系统的候选方案之一。ZT DFT
薛章宪是明代中叶吴地布衣文人群中的一员。他出生江阴望族,少时通经博学,久试不售,最终选择归隐山林,周游吴越。与其相交甚密者如吴宽、沈周、唐寅、祝允明、文徵明、都穆等,皆为一时英才。当是时,吴地文坛反对时文,倡导“古文辞”,文人皆好古,薛章宪“古奥简质”的风格因而备受推崇。他的诗歌平和冲淡,体现了吴地文人追求的生活情趣。而其诗歌中流露出的看似豁达却充满矛盾的布衣心态也具有一定的代表性。本文分为三章。
据研究“兴”源起于音乐、巫术与宗教,源起于抽象与神秘,“兴”在中国诗歌发展中起着巨大作用,影响着中国整个古诗风格。“兴”入画从绘画开始初期就已经有了,在北宋以后文人画大量的“兴”起使稳固在文学的“兴”逐渐影响到绘画。以“兴”入画几乎是贯穿了中国整个古典绘画,“兴”当而然之成为独特的东方美学。神妙逸能,臻于化境方为神品,所谓神品,浑然天成者,言语已然难以准确表达,而这一境界,无法绕开“兴”的助力。本
图计算能够挖掘事物之间潜在不易洞察的行为和联系,广泛应用于服务推荐、欺诈检测、风投分析、市场营销、疾病建模等领域。随着互联网等领域的发展,图数据规模爆炸增长的同时,各种图分析算法不断涌现。在图处理平台上,大量图算法并发地对共享的图结构进行处理,形成了并发图分析任务。与CPU相比,GPU具有更强的并行计算能力,因此由CPU和GPU组成的异构环境更适合大规模图处理。然而,在当前的GPU图计算系统中,并
本文的讨论话题是黑格尔哲学中的中介(Vermittlung)概念;具体说来,讨论的是它在黑格尔哲学中的根据以及生成过程。第一章首先呈现的是“中介”的动词原形“vermitteln”一词在德语中的日常含义,指出中介在日常经验中所描述的是一个受某个特定目的支配的具有三维结构的整体;其次展现的是黑格尔的中介概念相较于日常生活经验的相似与独特之处。相似之处包括:黑格尔所理解的中介也是一个受某个特定目的支配
随着网络的迅猛发展,网络舆情的影响引起人们的重视,但在交通方面,对于网络舆情影响的研究少之又少,处于交通舆情的初始研究阶段;特别是对于交通事故的网络舆情方面的研究几乎没有。然而,交通事故的网络舆情处理不当,会造成诸多不良社会影响。因此,研究交通事故的网络舆情情况具有重要的理论和现实意义。目前,交通事故领域的网络舆情文本词汇库是借用其他成熟的词汇库,并没有其专属的文本情感词汇库,这就降低了交通事故网
在许多通信的应用场景中,通信双方需要在完成通信功能的同时还要完成测距定位的功能。通信测距一体化技术可以在利用同一无线设备的前提下,可以同时完成对目标的通信与测距的
新型互联网广告通过建立网络用户与广告之间的信息关系,利用智能化广告推荐技术匹配用户潜在感兴趣的广告定向投放。目前智能化广告推荐系统以传统的软件CPU实现方式为主,但是随着数据量的增加,由于CPU的计算性能不足,软件CPU的实现方式存在用户响应时间长和吞吐量低的问题。针对本文研究的广告推荐系统,综合分析并且选择基于FPGA的硬件加速方案提升广告推荐系统的计算性能。本文概述了广告推荐系统模型并且分析了
作为人工智能研究领域中一个非常活跃的分支,图像理解是传统计算机视觉研究任务的扩展和延伸,而为了更快速准确的进行图像理解,各种各样的图像分割方法层出不穷。图像分割一般作为图像理解领域的预处理步骤,通过将图像分割成互不重叠的各个区域,从而降低图像理解的难度。针对常规图像分割或者运行缓慢或者分割效果不理想等问题,结合图像边界信息提出了一种简单快速的基于超像素的图像分割方法。分割过程主要分为边界信息提取,
光学电流互感器(Optical Current Transformer,OCT)是基于光学传感技术实现的,具有安全环保、绝缘强度高、抗干扰能力强、响应速度快、使用频带宽、信号数字化等诸多优点,是