论文部分内容阅读
时间序列数据广泛地存在于生产生活的各个方面,其反映了事物不易直接观察的内部状态。与传统分类有所不同,时间序列分类过程中各个属性之间都是有次序关系的,因此时间序列分类问题具有挑战性。在时间序列分类过程中,如何高效地对时间序列数据进行特征提取并根据数据特征建立相应的分类器从而提高分类的准确率成为时间序列分类领域的关键问题。 本文首先对于时间序列的分类算法研究现状进行了总结,接着分析了现有时间序列的特征提取与分类算法存在问题。在目前的算法中,基于实例的学习方法存在速度较慢,不适合对海量的数据处理的问题;而基于模型的时间序列分类算法一般需要数据的先验知识;同时时间序列的集成算法时间与空间复杂度较高,这样就限制了其使用环境。针对以上问题,本文从时间序列特征提取与时间序列分类两个大方面展开了研究,主要工作包括: (1)提出了一种基于特征点检测的时间序列特征提取算法,将时间序列从原始的高维空间转换到低维的特征空间,且在转换过程中保持了数据的特征。该算法将图像领域的局部特征算法应用到时间序列数据中,以提取时间序列数据中的特征点,利用提取的特征点周围的关键子序列生成局部特征向量集合,并对特征向量加权、筛选,最终实现了特征提取和数据降维。与传统的算法相比,本文提出的特征点检测算法时间复杂度是线性的,并支持增量更新,方便应用于大规模数据集,并且提取到的特征都具有辨别性,算法各个过程都可由人工灵活控制。实验中将该特征提取算法与分类算法相结合,结果表明该算法能够提高分类算法的准确率。 (2)设计了基于尺度空间的时间序列集成分类算法,该算法结合尺度空间理论丰富了训练分类器所使用的训练集,使得训练数据集不仅包含原始信息,还包含了变化趋势等信息;在结构上,该集成算法分为多个层级,分类器按一定顺序逐层训练,在训练多层分类器过程中不断的拓展训练数据集的特征空间,来实现特征信息逐级传递,最终层级的分类器输出最终的分类结果。与传统集成算法相比,本算法各层级之间不再独立,并且可以灵活地更换基分类器种类,也能通过限制层级数来控制算法时间与空间复杂度,拓宽了使用环境。在实验中,该集成算法与本文提出的特征提取算法结合使得分类器准确率得到提高。