论文部分内容阅读
多元时间序列广泛存在于现实世界中,如航天、金融、医疗、气象等领域。由于用多个变量描述事物的状态,多元时间序列更贴近现实而非理想状态,因而对于多元时间序列数进行据挖掘更有助于人们进行决策,所以研究多元时间序列数据挖掘问题具有重要的理论和现实意义,越来越得到人们的重视。多元时间序列的数据挖掘任务包括分类、预测、聚类等,在它们之前,相似性问题的研究是关键而重要的一步。时间序列相似性搜索是从时间序列数据库中发现与给定时间序列的模式很相似的时间序列,它是时间序列数据挖掘的首要问题,是解决时间序列其他挖掘任务的前提和基础,因而成为当前时序研究的热点。模式表示是衡量多元时间序列相似程度的方法,因此也成为多元时间序列相似性搜索的一项关键技术,在时间序列分析中占重要地位。迄今为止,人们对模式表示方法的研究大部分还是面向一元时间序列的,并且建立了较为全面、成体系的理论,与此形成鲜明对比的是,对多元时间序列模式表示的研究还很少且不够成熟。通过阅读及研究大量国内外时间序列数据挖掘及相似性搜索领域的文献,本文系统的研究总结了当前多元时间序列相似性搜索技术的发展状况,以技术发展框架为前提,对相似性搜索各个阶段中典型的算法进行了详细的描述和分析,指出所存在的问题,并在此基础上提出了相应的解决方法,主要研究工作包括:(1)多元时间序列数据库数据量庞大,一个重要问题是如何快速的找到需要的信息。为应对这个问题,本文引入分层思想来安排整个相似性搜索算法的执行过程。分层思想实质是逐步的、按照粒度不断细化的方式来解决问题的,这更加符合人类的思维方式,更加智能化和人性化。在对多元时间序列进行相似性搜索的过程中,通过逐层筛选,缩小搜索的范围,可以极大地减少计算量,提高算法执行的效率。(2)研究各种从一元时间序列中提取出的重要点,分析其适用范围和优缺点,在此基础上进行改进和重定义,提取多元时间序列的特征点,并将这种特征点应用于多元时间序列分割和模式表示,更大程度的保留原序列的趋势信息,同时不忽略细节信息,使模式匹配的结果更加准确。(3)多元时间序列中存在大量的噪声,这些异常点可能被提取从而影响序列表示,产生误判。本文借鉴一元时间序列中关于移动均值的概念,构造多元时间序列的移动均值,能够滤除噪声,使原序列变得“平滑”,得到更准确的趋势表示。然后根据缩距定理的推论对给定的多元时间序列数据进行筛选,该推论采用排除法,可直接将不符合条件的候选序列排除,筛选效果好,为后续的搜索打下了良好的基础。