论文部分内容阅读
时间序列是指按时间顺序排列的、随时间变化且相互关联的数据序列,在各个领域都广泛存在。异常检测在不同的研究领域和应用领域一直都是一个重要问题。所以随着互联网的发展和人工智能的兴起,时间序列的异常检测也逐渐吸引力国内外学者的研究热潮。时间序列的异常检测一般分为点异常和模式异常。如果一个单独的数据实例可以被看作是与其他数据相关的异常,那么这个实例就称为一个点异常。这是最简单的异常类型,也是大多数关于异常检测的研究的焦点。有时候时间序列更关注发生在一段时间内的过程是否为异常,那么这就称为模式异常。本文研究和关注的则是模式异常的问题。本文对时间序列的序列异常进行了深入的探讨和研究,主要围绕时间序列表示方法和异常检测算法进行相关研究,本文的研究内容如下。1)提出时间序列的多维符号化表示mSAX方法。该方法首先使用固定的长度把时间序列划分为不可分割的子序列片段;然后根据子序列片段的特征描述将其转化特征向量;再使用离散化方法对各子序列特征向量的各个维度进行符号化,生成多维符号向量。最终将时间序列转化为各项由多维符号向量表示的原子序列。2)提出基于单一线段模式的异常检测算法。该算法首先将原始时间序列进行PLR分段线性表示,把每个单一的线段看做是一个模式;然后把每个单一线段模式的两个端点映射到应用mSAX符号化表示方法划分子序列片段的分割点,将符号化后的时间序列中分割点之间的子序列作为挖掘对象;最后计算每个挖掘对象的最近邻非自我匹配距离,并把该距离作为异常度,同时还提出了一种自动选取异常度阈值的方法,通过对比异常度与异常度阈值的大小来确定异常序列。3)提出基于相邻线段模式的异常检测算法。该算法在基于单一线段模式异常检测算法的基础上,把单一线段扩展到相邻多条线段。使用可重叠滑动窗口遍历的方式,把相邻几条线段的组合作为一个复杂模式,并把该模式的两端分割点映射到原子序列中,把原子序列的每个分割作为挖掘对象。其他过程与基于单一线段模式的异常检测算法类似。本文最后在心电图(ECG)数据集上验证了基于单一线段模式和基于相邻线段模式的时间序列异常检测算法的有效性。