论文部分内容阅读
作为时间序列数据挖掘的前沿领域,时间序列周期模式挖掘研究有着重要的理论价值和现实意义,而部分周期模式挖掘和增量挖掘是其研究的重点和难点,为此,本文选择时间序列部分周期模式挖掘作为主要对象进行研究。本文首先综述了时间序列数据挖掘和时间序列周期模式挖掘的研究现状,指出研究的理论价值和现实意义。之后,给出时间序列、周期、部分周期、模式的L长度、增量时间序列的基本概念,并重点分析了Apriori性质及基于其性质的类Apriori算法、最大子模式命中算法和整段增量算法(ES算法)。这作为全文研究的基础,贯穿于时间序列部分周期模式挖掘和增量挖掘分析的全过程。在回顾最大子模式命中算法之后,鉴于最大子模式树的特点和不足,本文提出一种层状链式图结构,对传统的最大子模式树算法进行了改进,利用仿真试验对比了两算法的时间复杂度。最后,本文还利用层状链式图对增量时间序列的部分周期模式挖掘进行了研究。基于ES算法思想提出的层状链式图部分周期模式增量挖掘算法,继承了层状链式图的存储特性和对频繁模式分离的优势,但是层状链式图也有局限性。在层状链式图的增量挖掘算法应用仿真中,本文重点研究它同非增量挖掘思想的优势及考虑置信度变化时的算法伸缩性效率。本文创新点在于提出一种层状链式图结构,将它代替最大子模式树来存储命中模式集。层状链式图是根据模式的L长度分层存储命中模式,它不需要按照直接可达祖先思想创建路径的节点,因此减少了非命中模式节点的存储。同时在模式分离时,算法通过搜索某一模式的超模式层达到减小匹配空间的目的。另外,从理论上分析,层状链式图可以应用于增量时间序列的频繁模式挖掘,尽管在层状链式图的更新效率不及树状结构,但是它延续了在其存储和分离频繁模式等方面的优势。