论文部分内容阅读
时间序列(Tune Series)是数据挖掘领域中的一类重要数据对象,时间序列分类是时间序列数据挖掘中的重要任务之一.不同于时间序列分析中常用的算法与问题,时间序列分类是要把整个时间序列当作输入,其目的是要赋予这个序列某个离散标记.序列数据相对于截面数据最主要的区别在于序列包含了复杂的时域特征,这使时间序列分类问题较一般分类问题困难得多.时间序列数据通常不等长,导致一般的分类算法不能直接应用.即使是等长的时间序列,由于要考虑序列数据在时间上的动态特征,不同序列在相同位置的数值很难直接比较,一般的分类算法依然还是不适合直接应用.为了解决这些难点,通常有两种方法:第一种是基于距离的方法,这类方法定义合适的距离度量,使得在此度量意义下相近的序列有相同的分类标签.动态时间弯曲(Dynamic Time Warping,DTW)算法是基于距离方法的代表;第二种是基于模型的方法,这类方法先对时间序列进行建模(利用序列中前后数据的依赖关系建立模型),再用模型参数组成等长向量来表示每条序列,然后用传统的分类算法进行训练和分类.
本文对不等长多维时间序列数据的分类问题,采用的研究思路是先对序列数据进行符号化处理,将多维时间序列转换为符号序列;再基于模型对时间序列实现动态聚类,实现对序列数据的转换,将不等长的符号序列用等长的向量表示,使得传统的面对于截面数据的分类算法可以方便的应用到序列分类中.此外,本文深入分析了基于距离和基于模型这两类序列分类算法,分别在不同的合成数据集和实际数据集上进行比较,并取得很有意义的结果.在时间序列的符号化、序列转换方法、序列分类算法比较三个研究方面的主要贡献如下:
在多维时间序列的符号化研究中,本文采用聚类融合算法对截面数据进行聚类,将每个截面的数据用聚类标识来表示,以此得到稳定的符号化结果.本文提出了多种面对混合型数据的聚类融合算法,其中基于Boosting的自适应聚类融合算法(Boosting-based Adaptive Cluster Ensembles,BACE)在聚类成员生成阶段采用了新的训练集抽样策略.在共识函数设计方面采用了基于互信息的投票机制,从而构建了一种新的聚类融合算法,为聚类融合算法的研究做出了贡献,同时也为多维时间序列的符号化研究提供了新的有效方法.实验表明,本文提出的BACE算法具有较高的鲁棒性和稳定性.
在时间序列数据转换研究中,在序列符号化的基础上,本文提出了一种新的基于模型的序列数据转换方法,该方法利用Markov链模型,结合K-L散度(Kullback-Leibler散度)实现了时间序列的数据转换,并充分考虑了时间序列挖掘问题中重要的动态特征,将不等长的时间序列转换为等长的向量,为面向截面数据的分类算法在序列数据分类问题中的应用提供了条件.本文对所采用的Markov链模型的鲁棒性做了深入的理论分析.最后实验还发现,用本文提出的序列数据转换方法进行数据转换后,最大似然法(MaximumIAkelihood Estimation,MLE)在电信企业客户流失问题的研究中表现出较强的鲁棒性和有效性.
在序列分类算法的比较中,本文深入分析了基于距离的和基于模型的两类序列分类算法在不同因素影响下的效果.在不同的合成数据集和实际数据集上从三个角度进行了系统的比较分析.一是研究了两类算法受训练样本大小的影响;二是研究了序列长度对算法的影响;三是比较了在不同噪声情形下,两类算法的性能变化.实验得出两类算法在不同因素影响下的性能表现,从而为今后发展新的算法提供了有力依据.
本文最后分析了研究中的不足之处,指出了存在的问题以及进一步研究的方向.