时间序列数据转换及分类算法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:play11200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列(Tune Series)是数据挖掘领域中的一类重要数据对象,时间序列分类是时间序列数据挖掘中的重要任务之一.不同于时间序列分析中常用的算法与问题,时间序列分类是要把整个时间序列当作输入,其目的是要赋予这个序列某个离散标记.序列数据相对于截面数据最主要的区别在于序列包含了复杂的时域特征,这使时间序列分类问题较一般分类问题困难得多.时间序列数据通常不等长,导致一般的分类算法不能直接应用.即使是等长的时间序列,由于要考虑序列数据在时间上的动态特征,不同序列在相同位置的数值很难直接比较,一般的分类算法依然还是不适合直接应用.为了解决这些难点,通常有两种方法:第一种是基于距离的方法,这类方法定义合适的距离度量,使得在此度量意义下相近的序列有相同的分类标签.动态时间弯曲(Dynamic Time Warping,DTW)算法是基于距离方法的代表;第二种是基于模型的方法,这类方法先对时间序列进行建模(利用序列中前后数据的依赖关系建立模型),再用模型参数组成等长向量来表示每条序列,然后用传统的分类算法进行训练和分类. 本文对不等长多维时间序列数据的分类问题,采用的研究思路是先对序列数据进行符号化处理,将多维时间序列转换为符号序列;再基于模型对时间序列实现动态聚类,实现对序列数据的转换,将不等长的符号序列用等长的向量表示,使得传统的面对于截面数据的分类算法可以方便的应用到序列分类中.此外,本文深入分析了基于距离和基于模型这两类序列分类算法,分别在不同的合成数据集和实际数据集上进行比较,并取得很有意义的结果.在时间序列的符号化、序列转换方法、序列分类算法比较三个研究方面的主要贡献如下: 在多维时间序列的符号化研究中,本文采用聚类融合算法对截面数据进行聚类,将每个截面的数据用聚类标识来表示,以此得到稳定的符号化结果.本文提出了多种面对混合型数据的聚类融合算法,其中基于Boosting的自适应聚类融合算法(Boosting-based Adaptive Cluster Ensembles,BACE)在聚类成员生成阶段采用了新的训练集抽样策略.在共识函数设计方面采用了基于互信息的投票机制,从而构建了一种新的聚类融合算法,为聚类融合算法的研究做出了贡献,同时也为多维时间序列的符号化研究提供了新的有效方法.实验表明,本文提出的BACE算法具有较高的鲁棒性和稳定性. 在时间序列数据转换研究中,在序列符号化的基础上,本文提出了一种新的基于模型的序列数据转换方法,该方法利用Markov链模型,结合K-L散度(Kullback-Leibler散度)实现了时间序列的数据转换,并充分考虑了时间序列挖掘问题中重要的动态特征,将不等长的时间序列转换为等长的向量,为面向截面数据的分类算法在序列数据分类问题中的应用提供了条件.本文对所采用的Markov链模型的鲁棒性做了深入的理论分析.最后实验还发现,用本文提出的序列数据转换方法进行数据转换后,最大似然法(MaximumIAkelihood Estimation,MLE)在电信企业客户流失问题的研究中表现出较强的鲁棒性和有效性. 在序列分类算法的比较中,本文深入分析了基于距离的和基于模型的两类序列分类算法在不同因素影响下的效果.在不同的合成数据集和实际数据集上从三个角度进行了系统的比较分析.一是研究了两类算法受训练样本大小的影响;二是研究了序列长度对算法的影响;三是比较了在不同噪声情形下,两类算法的性能变化.实验得出两类算法在不同因素影响下的性能表现,从而为今后发展新的算法提供了有力依据. 本文最后分析了研究中的不足之处,指出了存在的问题以及进一步研究的方向.
其他文献
随着GIS的快速发展,以移动终端为载体的移动地理信息系统(GIS)已成为地理信息系统研究的热点。同时,卫星通信技术不断成熟,其业务内容、产业规模都不断发展,目前,只需少数的几颗通
随着计算机网络和Internet的普及,运用先进的管理信息系统及软件开发平台,对信息进行科学化和网络化管理,已经成为高校信息系统的发展趋势。目前,几乎所有高校的职能部门都已经建
随着互联网的快速发展,网络信息以惊人的速度激增,处在一个“信息爆炸”时代,如何快速准确地获取我们所需要的信息的需求使得文本分类已成为一个非常重要的课题,同时,文本分
出于软件过程以及软件过程改进对软件开发的成功被证明起着越来越重要的作用,人们对于软件过程及软件过程改进的研究也就做了越来越多的研究。在经过了对软件过程及软件过程
在数据挖掘文本分类研究领域中,同时基于遗传算法与基于支持向量机的多分类技术开始引起部分学者的关注,该算法体系的特色是在借鉴遗传算法的自适应寻优秀特征以构造最优二叉
随着网络技术的高速发展,Internet上的信息呈指数增长,Web成为存储、发布及获取信息最重要的载体。Web挖掘是传统数据挖掘技术在Web环境下的应用,是从Web上的数据中发现用户的浏
随着电子数码设备的广泛使用和互联网的长足发展,海量的多媒体数据被制造和传播,图像数据成指数级地增长。如何从浩瀚的信息海洋中快速获取准确的图像,成为图像检索技术中的
模糊系统理论为处理不确定性信息提供了一种方法;神经网络常用于非线性映射的逼近;模糊神经网络吸收了模糊系统和神经网络二者的优点,是一种常用的处理非线性问题的有力工具,它的
由于业务和功能归属的不同,在信息化建设过程中,企业各部门各自开发了属于自己的应用系统,这些应用系统中的数据源不尽相同,如何将这些异构数据源进行有效的集成,给用户和决策者提
无线传感器网络特点之一是监测事件的节点分布稠密且相互邻近的节点获得的事件观测值具有很高的相关性,如何合理建立空间相关性模型来挖掘网络中的存在的空间相关性并依此设