异常检测:算法改进与相关应用

来源 :兰州大学 | 被引量 : 0次 | 上传用户:zhl1021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测是寻找或识别异常值(与数据集中正常模式不一致的值)的方法或过程,具有十分广泛的实际背景和巨大的现实应用潜力。例如,发现异常驾驶车辆对交通系统的正常运行起到辅助作用、异常股票交易识别有利于股市的健康发展、桥梁裂缝异常检测对工程安全起到关键作用、异常网络入侵识别保证用户安全隐私等。由于问题的重要性,异常检测受到越来越多的关注。目前,异常检测中一些常见算法如2、孤立森林、LOF、神经网络重构等算法已取得了一定的效果,但仍存在误报率比较高以及时效性较不理想的问题,不利于方法的进一步推广,这可能是不同行业异常值种类特征复杂造成的。基于上述背景,本论文从不同视角关注下述三个方面的异常检测问题,并对相应的算法进行改进:第一,基于自动编码的第二近邻异常检测。实际场景中,异常值少但种类复杂的特点影响算法的性能。本论文利用自动编码提取数据特征后,借助于孤立森林对第二近邻数据进行异常值识别。另外将集成的思想引入来克服孤立森林参数主观选择的问题。利用DAMI数据库中的三个数据集,使用5个性能指标与LOF、孤立森林、Fast ABOD等七种经典算法进行对比,发现新算法的整体性能具有显著提升。这同时也证明了异常值类型对算法效果具有不可忽视的影响。第二,基于聚类的异常检测集成算法。针对目前对异常值类型特征关注的空白,本论文使用聚类分割数据,用不同参数下的LOF算法分别对每类数据打分,进而建立样本异常值得分之间的相似度矩阵,根据相似度矩阵的度来选择最为相似的异常检测器,并将运行模型保存为PKL文件格式,在下次预测数据时,直接调用PKL即可。新样本的预测结果由所有类检测的结果进行聚合,类聚合的权重为每个类与其他类的差异来表示。此外,为进一步探索异常值的类型特征,还将算法应用到现实保险数据集,发现4类异常索赔和对应的特征,并提供相应的解决措施。第三,针对时间序列数据,提出基于VMD的谱分析的时间序列异常检测以及修复算法。目前很多基于数据的重构的时间序列异常检测的算法被提出,通过将重构误差与提前设定阈值对比来识别异常值,这存在的问题是计算量大以及误差累积。本论文通过滑动窗口将VMD分解后的若干模态的特征提取出来,求解每个滑动窗口下的拉普拉斯矩阵对应的特征值和特征向量。由于特征值和特征向量代表矩阵的重要信息,利用第一特征和第二特征之间的变化来衡量窗口的异常程度。在识别出异常窗口的序列后,结合嵌入注意力机制的GRU神经网络和局部时间序列来修复异常值。最后,利用NAB-master数据库real Traffic数据集检测算法的效果,结果表明能识别全部异常事件。传统算法往往将异常值默认为一类数据,处理复杂数据时表现不尽人意。本论文则将异常值的种类考虑到算法设计中,以改善算法误报率偏高的问题。此外,不同参数设置对异常检测算法的判定有直接的影响,为了解决此问题,将集成和图的度结合来筛选参数,一定程度上克服参数主观选择问题。在此思想基础上,创新性地探索异常值种类特征,算法应用到保险索赔数据,获得具有现实价值的特征,为企业管理和运作提供理论依据。针对时间序列的异常值检测,通过特征值和特征向量的变化定义异常值,提升算法检测的敏感度,有助于缓解时间序列异常检测耗时高的问题。
其他文献
目的:回顾性分析脓毒血症患者常规的实验室指标的变化,探讨这些指标与病情严重程度的相关性,以及对患者预后的诊断价值,为脓毒血症的诊治、病情的进展及预后判断提供依据。方法:1.收集兰州大学第一医院2017年7月-2020年6月期间收治的106例脓毒血症患者及同时期80例SIRS患者的临床及相关实验室检测资料;2.根据病情分为一般组、严重组与休克组;根据患者的预后转归,分为预后不良组与预后良好组。3.采
敦煌壁画是丰富的形象史料。敦煌石窟中有坐禅、燃灯、绕塔等佛教日常行事图像。坐禅图像可能是僧人日常修行的反映,也可能是僧团在进行冬夏安居的写照。燃灯图像的意涵包括燃灯供养和节日燃灯。礼忏祈福是绕塔图像的主要涵义。敦煌壁画中有讲经和授戒等法会图像,维摩诘经变是对讲经法会中法师讲法、都讲问难、听众听讲等仪式的图像折射。莫高窟第323窟可以反映出授戒法会有设置坛场、请师、问遮忏悔、宣示戒相等仪式。浴佛节、
目的:本研究通过对VBD患者的临床资料进行汇总分析,旨在提高人们对于VBD的认知,寻找防止VBD发生临床症状的二级预防措施。探讨VBD合并脑梗死的临床特点以及VBD合并急性脑梗死(ACI)的危险因素,为临床诊疗工作提供思路。方法:选取自2018年09月至2020年09月在兰州大学第一医院经头颅CT、CTA或MRI、MRA确诊为VBD的患者89例作为病例组,病例组患者根据有无临床表现分为症状组50例
DNA是由脱氧核苷酸组成的一种生物大分子,它通过氢键、范德华力、疏水作用以及静电等非共价相互作用和不同目标分子形成不同的高级结构。同时DNA也是一种性能卓越的生物材料,在构建生物传感器中有许多独特的优势,如结构简单和设计结果可预测、易于化学修饰和合成等。DNA分子机器作为一种新兴的纳米技术能够响应外部信号刺激而产生类似于机器的运动并且实现信号的放大,已被广泛应用于生物传感器的设计中。癌症是医学中常
疏勒河中下游地区位于河西走廊西部。该地区新石器时代至早期铁器时代人类活动经历了西城驿文化、四坝文化、骟马文化三个时期。本文系统梳理了此三支考古学文化的研究简史、典型遗址、分布范围、分期和年代以及文化面貌等。本文认为史前时期该地区环境变化与人类活动的影响是相互的。西城驿文化和四坝文化时期,气候日趋干冷,人群迫于生产压力,发展麦类/粟黍-畜牧业的混合经济,并从事青铜冶炼业。骟马文化时期气候一度湿润,草
稀疏约束模型是近年来的热点研究方向之一,主要被应用在机器学习和模式识别的领域,如人脸识别、目标追踪、高频遥感影像分类等。从相关的研究中可以得出稀疏约束的两大优势:提高模型的鲁棒性和提取高维数据的有效分类特征。为了提高稀疏约束的迭代效率,研究者们提出了新颖的基于协同约束的模型。协同约束模型在保留原有优势的基础上,大幅度地提升了计算速度,并且在人脸识别应用中取得了令人满意的结果。在实际应用中,人脸识别
在人类思想理论的历史卷轴中,马克思主义的出现是浓墨重彩的一笔。马克思的理论思想是被一次又一次的现实问题千锤百炼,被实践多次检视过的真理,是帮助人类对世界进行认知过程和改造过程的重要武器。在完整且成体系的马克思主义理论大框架中,拜物教批判理论具备不可替代的理论与现实意义。马克思对原始拜物教的研究及对资本主义社会中的拜物教现象的批判,是其提出剩余价值论从而揭示资本主义虚假面具的来源,拜物教批判理论由此
信道均衡作为一种用于数字通信系统中的抗衰落技术,被广泛应用在现代通信中。自适应均衡技术通常需要发送训练序列用以训练均衡器抽头系数,造成了一定的资源浪费。因此,不需要发送训练序列的盲均衡技术逐渐受到研究人员的青睐。近年来,随着机器学习(Machine Learning,ML)的蓬勃发展,基于机器学习理论的盲均衡方法得到了普遍的关注。在现有基于机器学习理论的盲均衡方法中,支持向量回归(Support
近些年来,随着科学技术的发展,人类逐步进入大数据时代。所产生的的数据量每年以指数级增长,大量的数据对于人类的发展也起到了十分重要的作用。数据量的不断增加导致从数据中提取到的特征的数量也在增加,如何有效利用与处理数量如此庞大的特征数据既是机遇也是挑战。特征选择是一种很常见的用于除去冗余与无效的特征的方法。但是一些常见的特征选择方法通常会有一些缺点,例如基于Filter特征选择算法得到的特征子集在使用
肺部疾病是医学研究的一个重要领域。无论是2020年在全球爆发的新型冠状病毒肺炎(COVID-19)疫情,还是2003年的非典型肺炎(SARS),都是病毒感染肺部引发的疾病。当前,对多种肺部疾病的研究关注于肺部血管的变化情况,如肺动脉高压、血管性病变、动静脉畸形等。为了能够早发现、早治疗,在早期诊断中通常会使用计算机辅助诊断(Computer Aided Diagnosis,CAD)技术,而快速精确