离群点检测及其参数优化算法研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:hao68
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测是数据挖掘中极其重要的技术,大到国家安全,小到个人健康,从网络入侵检测到医保欺诈检测,只要目标是“不寻常”数据,就可以应用离群点检测技术来代替人工方式。尽管已有的研究在这些领域取得了不少的成果,但仍存在参数依赖、检测准确率低、多对象时间序列数据离群点检测困难等问题。针对这些问题,本文在离群点检测技术的参数优化、多场景算法检测准确率提高和算法结果评估指标等方面进行了深入研究和探索。本文主要的研究工作和创新点包括:(1)针对参数k(邻域大小)的优化问题,本文提出了一种基于互近邻图的参数k搜索算法。该算法定义了一种描述互近邻图稳定状态的方法,通过搜索互邻图的稳定状态来选择邻近性算法的参数k。实验结果表明,该算法相较于其他参数k选择算法在AUC检测指标上取得了更好的效果。(2)针对离群点种类多、模式复杂且缺少标签的场景,本文提出了一种基于主动自编码(Active Autoencoder,AAE)的离群点检测算法,该算法通过一种基于影响力的主动学习方式和一种新的膨胀收缩算子,以提高自编码网络在离群点稀疏场景下的检测能力。实验结果表明,所提出的方法与其他方法相比,能更准确地检测出图像数据集中的不一致。(3)针对基于密度的离群点检测方法难以识别离群点低密度模式场景的问题,本文提出了一种基于相对密度的离群点检测算法。该算法提出了一种新的度量数据点邻域密度的方法,区别于传统的邻域密度度量方法,该方法不限制邻域大小。实验结果表明,该算法能够更准确地检测出低密度模式场景下的离群点。(4)在多时间序列数据上的离群点检测方面,提出了两种新的离群点检测模型:a)针对现有模型聚合解聚触发机制人工依赖性高、频繁聚合解聚的问题,本文提出了一种基于关注域的多实体时序离群点检测算法。该算法首先基于关注近邻划分关注域;然后,计算关注域的离群值,结合一种基于最强关注域阈值判定方法,构建聚合解聚触发机制。实验结果表明,与传统的单实体时序离群点检测算法相比,所提算法不仅能及时地判断聚合解聚操作的触发时机,而且能使得仿真系统智能地检测出发生突发情况的仿真实体,满足了多分辨率建模的要求。b)针对多对象时空异常检测问题,本文提出了一个基于长短期记忆网络(Long Short-Term Memory,LSTM)的框架。该框架利用LSTM来计算重构误差和基于显示约束图的异常得分来判断异常子序列和异常对象。实验结果表明,该方法相较于传统方法,取得了更高的异常检测准确率。(5)针对现有离群点检测技术存在评价指标单一、指标适应性差的问题,本文提出了两种新的评价指标:一类高真正率指标(HT_AUC)、二类低假正率指标(LF_AUC)。该指标在已有的曲线下面积的方法基础上,基于高真正率要求和低假正率要求分别做了改进。实验结果表明,与传统评价指标的相比,所提出的方法更能满足一类高真正率和二类低假正率要求。
其他文献
摘要:高校创客文化是指以高等学校为主渠道、主战场,以培养大学生创新创造精神和实践为思想内核,引导大学生在创新创造实践中形成、体现着创客精神和理念、原则和制度、思维方式和行为方式的一种亚文化形态。本文在深入阐述高校创客文化基本内涵的基础上,对高校创客文化呈现的主要特点及高校创客文化培育面临的主要问题进行了分析和研究,并从发展创客教育、构建众创空间、树立创客榜样与完善体制机制四个方面提出了高校创客文化
目的探讨FI抗体阳性的意义。方法收集该鼠疫监测点的历史资料,查阅相关流行病学调查及实验资料,总结分析FI抗体阳性与流行病学关系。结果流行病学调查及实验结果表明,判定一个疫
媒介素养是“微时代”大学生思想政治教育最为重要的能力,当前高校在大学生媒介素养教育方面面临着思想政治教育载体供需失衡、思想政治教育模式供需失衡、思想政治教育内容
高职院校在区域经济、社会发展过程中承担着培养人才、科学研究和社会服务三大重要职能。其中,育人是高职院校的首要职能,科学研究是其发展基础,也是校企合作的纽带,服务社会
随着经济全球化的大发展,高等教育国际化进程不断加快,中外合作办学应运而生。作为高等教育国际化发展的重要方式,中外合作办学对高等教育国际化的发展具有极大的推动作用,但就当