论文部分内容阅读
信息时代带来了海量的数据,其中很大一部分数据以时间序列的形式呈现。这些数据具有维度高,属性多的特点,不仅占用计算机大量的存储空间还需要耗费计算机较长时间来处理。因此需要对原时间序列重新表示以达到简化时间序列的表示的目的。在这些时间序列数据的分类任务中,有些同类时间序列间相似度较小并且有些不同类时间序列间相似度较大。这是因为原时间序列的表示方法未能突出同类时间序列的相似之处以及不同类时间序列的不同之处,这就需要对时间序列进行重新表示。另外,在时间序列数据挖掘任务中,判断一条时间序列是否属于某一类这一任务是时间序列数据挖掘任务中重要的任务之一。很多解决这一问题的算法是基于动态时间规划距离的。然而经典的动态时间规划算法没有考虑两条序列的每一条匹配路径上每一对匹配点分别在两序列对应的位置(即时刻)的相似度。针对以上两个问题,本文分别提出了一种时间序列表示方法和一种时间序列分类方法,主要工作如下:(1)本文提出了一种新的时间序列分段常数近似方法,它是基于用一段常数序列代替时间序列段的拟合误差划分时间序列段的,它从第一个时间序列分段开始使用贪心策略不断扩大各分段的长度直到分段的拟合误差超出某一阈值,从而达到简化时间序列的表示的目的。除此之外,本文还对所有基于这种表示所得到的序列的所有元素进行聚类,根据这些聚类中每一聚类与某个时间序列类属性的相关性选出训练集中与这个时间序列类较相关的聚类作为训练集中这类时间序列的表示,从而突出同类时间序列的相似性。(2)本文改进了动态时间规划算法,在最优匹配路径的选取上不仅考虑每条匹配路径中每对匹配点之间的距离,还关注每对匹配点在时间序列中对应的位置(时刻)之间的相似度。本文所提出的算法在一些手写签名数据集和时间序列分类的数据集上的运行结果表明本文所提出的算法能够有效地提升时间序列分类的准确率。