论文部分内容阅读
随着互联网和云计算技术的飞速发展,近年来各行业存储的各种复杂形式的数据呈爆炸式的增长趋势,如何高效地智能分析这些数据,从中发掘隐藏的、有实用价值的信息,是当今大数据智能时代的主要任务之一。在这些复杂类型的数据中,有一类是按时间顺序记录的序列数据,称之为时间序列数据。当前的时间序列数据普遍具有高维性、不确定性和动态性等特性,其中,高维性在水平和垂直两个方向具有不同的解释,水平方向的高维性体现在时间序列的属性维度,垂直方向的高维性是指将一个时间序列作为单个样本处理时数据的记录长度;不确定性主要体现在时间序列的模糊性、不完整性和随机性等方面;动态性表示时间序列是随着时间推移而不断地积累、增量更新和动态演化的。这些特性增加了时间序列数据挖掘的难度。本文主要针对时间序列的这些特性,从时间序列降维、相似性度量、预测和异常检测等方面进行研究,通过引入多粒度计算思想,实现对时间序列的高效智能分析。具体地,本文的主要研究内容如下:(1)提出了基于二维正态云的时间序列粒化降维方法。针对时间序列的高维性和不确定性,利用云模型理论处理不确定性数据的优势,本文将一个时间序列粒化为若干个二维正态云,采用正态云的数字特征表示时间序列,提出了一种基于二维正态云的时间序列粒化降维方法——分段二维正态云表示(2D-NCR),通过兼顾考虑时间序列的数据分布和变化趋势实现高效降维。在粒化后的粗粒度层次上,本文还提出一种基于2D-NCR的时间序列相似性度量方法,该方法基于“分解-计算-联合”三步策略的问题求解思路,符合人类认知中分析复杂问题的一般规律。时间序列分类和聚类实验结果表明,本文提出的时间序列降维及相似性度量方法能够显著地降低分类/聚类的误差率。(2)提出了基于自动聚类和粒子群优化的多粒度模糊时间序列预测模型。针对多因子时间序列预测中数据集的模糊性和不完整性问题,本文基于自动聚类实现对论域的分区,采用粒计算思想处理属性值的缺失情况,利用粒子群优化实现多粒度联合预测,提出了一种基于自动聚类和粒子群优化的多粒度模糊时间序列预测模型(MGFTS)。通过多粒度层次的选择和联合计算,MGFTS模型比传统多因子模糊预测模型能够更好地利用主因子和次因子之间的关联性、更高效地处理属性值缺失情况,获得更高精度的预测结果。(3)提出了基于高斯云变换和模糊时间序列的多粒度水质预测模型。针对水质时间序列的不确定性特性所导致的预测中的亦此亦彼性问题,结合水质时间序列的近似周期性,本文提出了一种基于高斯云变换和模糊时间序列的多粒度水质预测模型(GCT-FTS)。该模型采用启发式高斯云变换粒化数值时间序列,得到模糊时间序列的论域分区,解决了相邻两个分区间边界区域的亦此亦彼不确定性问题。GCT-FTS模型在构建模糊逻辑关系的过程中利用了时间序列的近似周期性,去除了噪声模糊逻辑关系,提高了预测模型的精度和鲁棒性。(4)提出了异常时间序列的在线检测方法。首先,针对离线数据集,本文利用数据集的密度吸引点集合为每个时间序列样本分配一个“异常分数”,用以衡量该样本的异常程度,提出了一个基于密度吸引点的启发式异常检测方法(HDA-AD)。其中的密度吸引点是数据集中样本密度函数的局部极大值,“异常分数”除了量化候选样本与数据集中其它时间序列样本的不一致性程度,还考虑了候选样本对其它样本的影响程度。然后,为了适应时间序列的动态性,提出了一种基于HDA-AD的在线检测方法(OLDA-AD),利用新序列样本的邻域集合在线学习和实时更新密度吸引点,保证密度吸引点集合能够持续保持增量更新数据集的基本特征。实验结果表明,HDA-AD和OLDA-AD算法可以实现较高的检测精确度和较低的检测延迟。以上研究成果表明,采用粒计算思想处理高维性、不确定性和动态性,能够实现对时间序列数据的高效智能分析。