论文部分内容阅读
目前,变点检测技术已经被广泛地应用到工业质量控制、气候模拟、网络安全、欺诈检测等各个领域,具有十分重要的研究意义。变点,也常常被称为异常点或者孤立点,它是指统计模型中某个或者某些突然变化的点。变点通常包含着丰富的信息,因为它们往往反映了事物的某种质的变化。例如,在工业生产过程中,电机转速在某一时刻可能由于故障而突然变大或变小;在网络安全的监测过程中,当服务器受到DDoS(分布式拒绝服务攻击)攻击时,它接收的数据包往往会激增。因而,及时准确地检测出变点,并采取进一步处理就显得很重要。国内外常见的变点检测算法可以分为参数方法和非参数方法。其中,由于实际生产环境的复杂性,参数方法对过程模型的要求较高以至于在许多应用场合中并不灵活。而很多非参数方法由于基于经验特征函数,极限分布比较复杂,导致其检验的临界值往往难以确定。本文对目前存在的一些常用的变点检测算法进行了研究,并针对其存在的一些不足之处提出了一种新的变点检测的非参数方法,将两类AUC(曲线下面积)首次应用到变点检测中。本文从模式识别的角度出发,将变点检测问题看成一个二分类问题,即由于变点的出现,使得样本数据可以人为的划分为突变前和突变后两类。具体来说,本文将变点的检测分为两个阶段:在预分析阶段,采取对样本数据加窗处理的方法,选取两个连续的窗口,通过逐步滑动窗口并采用快速算法来计算窗口中样本数据的AUC值,进而得到AUC值的均值和方差;在检测阶段,根据预分析阶段得到的均值和方差,采用假设检验的方法,通过判断AUC值是否落在拒绝域内进行变点检测。本文以基于秩统计量的AUC均值和方差的快速算法为基础,详细论述了如何将AUC应用到变点检测中,并与CUSUM (累积和)算法在四种不同的分布下进行了仿真对比,证明了本文所提出的基于AUC的变点检测算法在检测淹没在强噪声的变点方面具有更好的稳健性。此外,通过实验仿真,也验证了本文所提出的算法对检测多个变点的情况同样有效。