面向时间序列分类任务的SAX方法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:yisheng8585
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征表示与度量可以将原始时间序列数据映射到低维特征空间,在保持和反映基本形态、特征和有效信息的前提下,达到数据降维、去除噪声以及减少计算代价的目的。  符号化聚合近似(Symbolic Aggregate approXimation,SAX)方法因其简单直观且行之有效的特点,成为一种最为典型的符号化特征表示方法。但是该方法仍存在一些值得进一步深入探讨的问题:1)SAX方法难以避免有效信息的损失,从而对数据挖掘与分析的精度与准确性产生影响;2)SAX方法在单变量时间序列处理上的应用较为常见,而在多变量时间序列数据处理方面,相关研究相对缺乏;3)对SAX方法内在特性,如复杂度、信息损失、关联性及周期性等方面的分析研究不够深入;4)对SAX方法的可视化研究较为缺乏。  正是在此背景下,本文面向时间序列分类任务,提出了相应的框架、模型与统计度量方法。本文主要贡献和创新点如下:  1)针对SAX方法的有效信息损失问题,构建了基于集成学习方法的多阶段分类框架。本文利用机器学习方法中的集成学习思想,对多种不同参数表示的多样性信息进行整合,建立多阶段分类框架,弥补信息损失,提高整个分类器的效率,从而提高时间序列分类的准确性。  2)针对多变量时间序列特征表示问题,提出并构建了基于深度学习的多变量时间序列数据特征提取模型CNMMRDV(Convolutional Network Model for MTS Representation based on Deconvolutional Verification)。该模型利用卷积神经网络及SAX方法获取多变量时间序列相关性特征,并利用模型中的反卷积验证非监督学习得到的特征质量。  3)针对SAX方法的内在特性度量问题,提出了信息嵌入成本(Information Embedding Cost,IEC)这一新的度量标准,对SAX进行量化分析。该度量标准可以准确分析SAX方法的信息嵌入效率,且可以从一定程度上反映SAX方法与不同数据集分类性能之间的关系;复杂度、信息嵌入效率、相关性与周期性等度量标准可以为SAX方法的改进,以及新的特征表示方法的设计提供参考。  4)针对SAX方法的可视化展示与分析问题,构建可视化分析方法对SAX进行可视化呈现及相关特性分析。基于复杂网络理论,提出了将时间序列SAX离散化特征表示与马尔科夫矩阵相结合,并通过网络图进行可视化的方法,实现时间序列数据特征表示可视化及预分析的目的。  本文采用UCR时间序列分类聚类数据集、CMU的MTS数据集以及临床医疗生理数据集进行了相关实验。实验结果表明,多阶段框架可以较好解决SAX符号化特征表示过程中的有效信息损失问题;CNMMRDV模型有效解决了多变量时间序列数据跨通道相关特性的提取问题。以上两方面实验在时间序列数据分类任务中表现突出,进一步验证了SAX方法的有效性和优良效果;SAX内在特性度量的相关实验表明了IEC分值与分类性能之间的关系;基于复杂网络图的可视化实验实现了在一定程度上探索隐含特征,以及时间序列预分析的目的。
其他文献
随着智能电网的建设,智能调度系统需要处理的信息量越来越多,海量的数据对调度系统的数据存储能力和处理能力提出了更高的要求。在这种情况下,将云计算引入智能调度系统成为智能
最近Ruamps和同事发现三角双锥构型的Ni(Ⅱ)配合物[Ni(Me6tren)Cl]ClO4(1,Me6tren=tris(2-(dimethylamino)ethyl)amine)具有大的单轴磁各向异性(J.Am.Chem.Soc.,2013,135:301
本文从高校就业工作高质量发展的意义和内涵入手,通过分析目前高校就业工作中存在的显著问题,提出高校就业工作高质量发展路径,即从就业工作理念高质量、就业工作过程高质量
期刊
期刊
本文旨在探索基于2-噻吩-咪唑[4,5-f]-[1,10]-菲咯啉(TIP)结构的三羰基铼(Ⅰ)配合物的聚集诱导荧光增强(AIEE)性质.研究了2-(5-溴-4-甲基噻吩)-咪唑[4,5-f]-[1,10]-菲咯啉(1)
学位
南京大学化学化工学院是我国最早设立的化学院系之一,始建于1920年,后由原中央大学化学系和金陵大学化学系合并成立南京大学化学系,1993年成立化学化工学院.学院是全国最早批
期刊