论文部分内容阅读
时间序列是指将某种现象某一个统计指标在不同时间上的数值按时间先后顺序形成的序列。由于真实系统或现象的内部通常会受到多种因素的影响,从而导致输出的时间序列具有许多复杂的表现:维度高、结构复杂、存在噪声以及存在相似性变形等。传统时间序列分析方法采用统计学方法对时间序列进行建模,但其复杂的特性使得构建的模型很难满足实际系统的要求,因此基于数据挖掘的时间序列研究方法应运而生,使得时间序列挖掘成为一个活跃的研究领域。时间序列分类是时间序列数据挖掘领域的一类重要研究内容,其任务是通过构建分类器为给定的时间序列数据分配一个类标号。作为一种针对局部形态特征的分类方法,shapelets能够区分子序列之间微小的差别,从而获得良好的分类效果,在医疗诊断、姿势识别等多个领域得到应用,但仍然存在亟待解决的问题。本文针对这些问题,所做的主要研究内容如下:(1)针对现有基于shapelets的分类方法中最优shapelets集合存在冗余的问题,提出了一种基于多样化top-k shapelets转换的时间序列分类方法(Div Top KShapelet)。本文引入数据检索领域的多样化top-k查询方法,提出了多样化top-k shapelets的概念及相对应的多样化top-k shapelets图,对候选的shapelets进行处理,从中选出最具有辨别能力且彼此不相似的shapelets,同时,使用SAX技术对原始的时间序列数据集进行降维。实验结果表明:该方法不仅比传统分类方法具有更高的准确率,而且与使用聚类筛选的方法(Cluster Shapelet)和shapelets覆盖的方法(Shapelet Selection)相比,分类准确率最多提高了48.43%和32.61%;同时在所有15个数据集上均有计算效率的提升,最少加速了1.09倍,最高可达到287.8倍。(2)针对现有shapelets分类方法不能解决不平衡时间序列分类的问题,提出了基于多样化top-k shapelets转换的时间序列分类方法(Div IMShapelet+SMOTE)。将不平衡数据分类评价指标AUC,代替传统的信息熵作为衡量shapelets的标准,并利用多样化top-k shapelets对训练集进行转换,最后使用SMOTE方法对转换后的训练集进行过采样。该方法利用AUC值对不平衡数据不敏感的特性,使shapelets特征更能准确评估分类的准确性,不仅可以有效提取时间序列特征,而且在特征的基础上进行数据集的平衡处理。实验表明:与Div Top KShapelet和INOS+SVM方法相比,Div IMShapelet+SMOTE的效果最好,分类准确率最多提高了38.8%和10.2%,AUC最多提高了0.37和0.08,F-measure最多提高了0.35和0.15,能够有效处理不平衡时间序列数据分类问题。