论文部分内容阅读
特征表示与度量可以将原始时间序列数据映射到低维特征空间,在保持和反映基本形态、特征和有效信息的前提下,达到数据降维、去除噪声以及减少计算代价的目的。 符号化聚合近似(Symbolic Aggregate approXimation,SAX)方法因其简单直观且行之有效的特点,成为一种最为典型的符号化特征表示方法。但是该方法仍存在一些值得进一步深入探讨的问题:1)SAX方法难以避免有效信息的损失,从而对数据挖掘与分析的精度与准确性产生影响;2)SAX方法在单变量时间序列处理上的应用较为常见,而在多变量时间序列数据处理方面,相关研究相对缺乏;3)对SAX方法内在特性,如复杂度、信息损失、关联性及周期性等方面的分析研究不够深入;4)对SAX方法的可视化研究较为缺乏。 正是在此背景下,本文面向时间序列分类任务,提出了相应的框架、模型与统计度量方法。本文主要贡献和创新点如下: 1)针对SAX方法的有效信息损失问题,构建了基于集成学习方法的多阶段分类框架。本文利用机器学习方法中的集成学习思想,对多种不同参数表示的多样性信息进行整合,建立多阶段分类框架,弥补信息损失,提高整个分类器的效率,从而提高时间序列分类的准确性。 2)针对多变量时间序列特征表示问题,提出并构建了基于深度学习的多变量时间序列数据特征提取模型CNMMRDV(Convolutional Network Model for MTS Representation based on Deconvolutional Verification)。该模型利用卷积神经网络及SAX方法获取多变量时间序列相关性特征,并利用模型中的反卷积验证非监督学习得到的特征质量。 3)针对SAX方法的内在特性度量问题,提出了信息嵌入成本(Information Embedding Cost,IEC)这一新的度量标准,对SAX进行量化分析。该度量标准可以准确分析SAX方法的信息嵌入效率,且可以从一定程度上反映SAX方法与不同数据集分类性能之间的关系;复杂度、信息嵌入效率、相关性与周期性等度量标准可以为SAX方法的改进,以及新的特征表示方法的设计提供参考。 4)针对SAX方法的可视化展示与分析问题,构建可视化分析方法对SAX进行可视化呈现及相关特性分析。基于复杂网络理论,提出了将时间序列SAX离散化特征表示与马尔科夫矩阵相结合,并通过网络图进行可视化的方法,实现时间序列数据特征表示可视化及预分析的目的。 本文采用UCR时间序列分类聚类数据集、CMU的MTS数据集以及临床医疗生理数据集进行了相关实验。实验结果表明,多阶段框架可以较好解决SAX符号化特征表示过程中的有效信息损失问题;CNMMRDV模型有效解决了多变量时间序列数据跨通道相关特性的提取问题。以上两方面实验在时间序列数据分类任务中表现突出,进一步验证了SAX方法的有效性和优良效果;SAX内在特性度量的相关实验表明了IEC分值与分类性能之间的关系;基于复杂网络图的可视化实验实现了在一定程度上探索隐含特征,以及时间序列预分析的目的。