论文部分内容阅读
近年来,随着数据科学研究的不断深入,异常检测作为数据科学中的一个重要分支受到了更加广泛的关注。异常检测是一种在大批量样本中识别和挖掘不符合预期模式的样本的技术,在网络攻击监测,结构缺陷识别,金融欺诈检测和医疗诊断等一系列实际场景中具有重要的意义和价值。在一些异常检测场景中,异常样本和正常样本的人工标注成本较高,难以使用监督学习算法。无监督学习算法虽不需要标注样本,但对样本特征的要求通常远高于一般的监督学习算法。如何充分利用少量已标注样本和大量无标注样本是当前异常检测的核心问题之一。针对这一问题,本文基于决策论,半监督学习理论和深度学习理论,对现有的半监督学习算法进行改进,提出了8种半监督深度学习算法,并设计了一个算法系统对算法进行集成,提升了异常检测的效果。本文主要工作如下:(1)现有的基于深度生成模型的半监督学习算法通过生成异常样本和正常样本的方式来提升检测效果。因为生成样本的质量较低会显著降低检测效果,所以算法对深度生成模型的要求较高。而且算法过度依赖良好的类先验概率假设,在实际应用中通常难以满足。针对这些问题,本文首先提出了NNPU-GAN算法和NNPU-WAE算法可以在不依赖于生成样本质量的情况下提升检测效果,又进一步提出了S-EM-PN算法来减少对类先验概率假设的依赖性。(2)本文基于无偏学习理论提出了无偏半监督学习理论,并提出了NNPNU算法,NNPNU-GAN算法和NNPNU-WAE算法来进一步提升现有的基于深度生成模型的半监督学习算法的检测效果。(3)半监督学习算法在实际中极容易陷入局部收敛点,可能导致得到一个比仅使用监督学习算法更坏的效果。针对这个问题,本文设计了一个算法系统对算法进行集成,使半监督学习算法能够稳定的提升异常检测的效果。最后,通过在KDD99和NSL-KDD两个异常检测数据集上进行实验,验证了本文提出的算法系统的有效性,使得半监督深度学习算法能够在多种复杂数据场景的模拟下实现稳定的异常检测。