论文部分内容阅读
离群点检测是数据挖掘中极其重要的技术,大到国家安全,小到个人健康,从网络入侵检测到医保欺诈检测,只要目标是“不寻常”数据,就可以应用离群点检测技术来代替人工方式。尽管已有的研究在这些领域取得了不少的成果,但仍存在参数依赖、检测准确率低、多对象时间序列数据离群点检测困难等问题。针对这些问题,本文在离群点检测技术的参数优化、多场景算法检测准确率提高和算法结果评估指标等方面进行了深入研究和探索。本文主要的研究工作和创新点包括:(1)针对参数k(邻域大小)的优化问题,本文提出了一种基于互近邻图的参数k搜索算法。该算法定义了一种描述互近邻图稳定状态的方法,通过搜索互邻图的稳定状态来选择邻近性算法的参数k。实验结果表明,该算法相较于其他参数k选择算法在AUC检测指标上取得了更好的效果。(2)针对离群点种类多、模式复杂且缺少标签的场景,本文提出了一种基于主动自编码(Active Autoencoder,AAE)的离群点检测算法,该算法通过一种基于影响力的主动学习方式和一种新的膨胀收缩算子,以提高自编码网络在离群点稀疏场景下的检测能力。实验结果表明,所提出的方法与其他方法相比,能更准确地检测出图像数据集中的不一致。(3)针对基于密度的离群点检测方法难以识别离群点低密度模式场景的问题,本文提出了一种基于相对密度的离群点检测算法。该算法提出了一种新的度量数据点邻域密度的方法,区别于传统的邻域密度度量方法,该方法不限制邻域大小。实验结果表明,该算法能够更准确地检测出低密度模式场景下的离群点。(4)在多时间序列数据上的离群点检测方面,提出了两种新的离群点检测模型:a)针对现有模型聚合解聚触发机制人工依赖性高、频繁聚合解聚的问题,本文提出了一种基于关注域的多实体时序离群点检测算法。该算法首先基于关注近邻划分关注域;然后,计算关注域的离群值,结合一种基于最强关注域阈值判定方法,构建聚合解聚触发机制。实验结果表明,与传统的单实体时序离群点检测算法相比,所提算法不仅能及时地判断聚合解聚操作的触发时机,而且能使得仿真系统智能地检测出发生突发情况的仿真实体,满足了多分辨率建模的要求。b)针对多对象时空异常检测问题,本文提出了一个基于长短期记忆网络(Long Short-Term Memory,LSTM)的框架。该框架利用LSTM来计算重构误差和基于显示约束图的异常得分来判断异常子序列和异常对象。实验结果表明,该方法相较于传统方法,取得了更高的异常检测准确率。(5)针对现有离群点检测技术存在评价指标单一、指标适应性差的问题,本文提出了两种新的评价指标:一类高真正率指标(HT_AUC)、二类低假正率指标(LF_AUC)。该指标在已有的曲线下面积的方法基础上,基于高真正率要求和低假正率要求分别做了改进。实验结果表明,与传统评价指标的相比,所提出的方法更能满足一类高真正率和二类低假正率要求。