论文部分内容阅读
随着科学技术的发展,经济的进步,人们获得数据的途径越来越多,数据量的增长已经达到了前所未有的速度。人们将此称为“大数据”时代的到来。另一方面,随着数据处理技术的发展,人们对数据的不确定性的认识也更加的深入。例如,在医疗,环境监测,经济等领域,数据的不确定性普遍存在。不确定数据背后隐藏的丰富的信息使得不确定数据的管理和挖掘成为数据库的热点研究问题之一。不确定数据中记录值的取值是不确定的,同传统的确定性数据相比,数据的描述、建模和存储更加复杂。这使得对于不确定数据的管理和挖掘面临着更大的挑战。时间序列是一种重要的数据类型,其在经济金融分析、物理、天文、医学和语音处理等诸多领域有着广泛的应用。在传统的确定性数据领域,关于时间序列的管理和挖掘已经有了很多很好的方法。例如,在时间序列建模方面,主要的方法有:1)基于时间域连续表示的逐段线性近似、逐段回归近似等;2)基于变换的表示的离散傅立叶变换、离散小波变换等。关于传统的时间序列的相似性主要有:Minkowski距离、编辑距离和DTW距离等。但是这些方法并不能直接的应用于不确定时间序列。因此,需要对传统的时间序列的管理和挖掘方法进行改进或者提出新的适用于不确定时间序列的方法。本文针对不确定时间序列的相似性和分类问题进行了研究,采用两个不确定数据的距离函数所构成的随机变量的期望来作为这两个不确定数据的距离度量,称该距离度量为期望距离。期望距离能够简化不确定时间序列的建模,降低不确定时间序列的存储代价。根据传统时间序列的Minkowski距离的DTW距离的思想提出了不确定时间序列的基于期望距离的Minkowski距离和DTW距离,并利用它们进行不确定时间序列的分类。针对不确定时间序列DTW距离的计算代价较高,结合期望距离的特性和传统时间序列DTW距离的下界函数的思想,提出了四种面向不确定时间序列DTW距离的下界函数,从而提高了采用DTW距离来进行不确定时间序列分类时的执行效率。最后,实验结果显示本文提出的不确定时间序列的分类方法有着较高的分类正确性,不确定时间序列DTW距离的下界函数在分类中有着很好的剪枝效果。