基于模型的时间序列数据挖掘

被引量 : 40次 | 上传用户:zhz_8512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,时间序列数据挖掘的研究技术在很多领域得以应用。合适的时间序列模型是对序列特性的一种反映,由于基于模型的时间序列数据挖掘方法能够发现序列的内在规律,因此这种方法具有很好的研究前景。隐Markov模型(HiddenMarkov Model,HMM)是一种重要的时间序列模型,本文以HMM为基础,结合监测流数据处理等应用需求,对基于HMM的时间序列数据挖掘相关算法进行了研究,主要内容包括时间序列的识别、HMM的隐状态数的自动选择及初始化、基于HMM的时间序列聚类、股票价格序列的预测等。本文主要的成果包括:(1)HMM的隐状态数的自动选择及初始化针对传统基于BIC(Bayesian Information Criterion)的HMM选择方法的不足,如BIC候选模型多,从而导致算法的复杂度大,本文提出了基于聚类和BIC的HMM选择方法——CBIC(Clustering and BIC),基于相应的聚类结果初始化HMM。由于CBIC改变了BIC候选模型的首选方式,减少了不必要的候选HMM的训练,使得算法复杂度降低。在CBIC算法中,首先对观察数据聚类,聚类的个数是在一定的范围内变化。为了选取最可能的聚类,定义了序列中点的趋变度,并选取聚类结果中似然值序列的趋变度最大的聚类为最可能的聚类。为了提高聚类的效率,提出了混合高斯分布的峰度检测算法,并证明了非重叠的混合高斯分布的峰度值为3,而当各成分都不相同时,重叠的混合高斯分布峰度值不等于3。为了验证CBIC算法的有效性,分别在合成数据集与实际数据集上进行实验,结果表明CBIC算法的复杂性小,计算精度较传统方法高。(2)基于HMM的时间序列聚类由于基于HMM的时间序列层次聚类算法复杂度很高,因而将分区和分层结合的聚类方法有很大优势,如基于k-Means和分层结合的聚类方法Hier-k-HMMs、Hier-moHMMs方法,但是这种方法需要事先指定划分数、HMM的隐状态数和最终的聚类数,另外划分的初始化及HMM的初始化都对聚类质量有很大影响。针对这些不足,提出了一种基于HMM的时间序列聚类算法HBHCTS。采用基于距离阈值的初始分区生成方法,定义了基准概率,提出了一种有效的距离阈值设置方法。HBHCTS算法单遍扫描时间序列集形成初始分区,能以较高置信水平保证初始分区的正确性,避免了指定分区数,如Hier-moHMMs方法,而且HBHCTS使用第三章提出的CBIC方法,可以自动确定HMM的隐状态数和相应的HMM初始化。HBHCTS算法的优点为:1)不需要指定初始的聚类数及相应的初始化;2)不需要指定HMM的隐状态数及相应的初始化;3)可以清楚地给出类的表示;4)对序列长度不敏感;5)当有新的序列加入时,只是将新的序列与已有的类(模型)集合做比较,不需要所有的序列重新执行聚类算法,易于实现增量聚类,初始分区聚类适用于时间序列流数据处理。分别在合成数据集和实际的EEG数据集进行了实验,同Hier-moHMMs方法进行了比较,实验结果表明HBHCTS和CBIC方法是有效的。(3)股票价格序列的自适应预测结合股票价格序列的特点,提出了一种自适应的基于HMM的股票价格预测的方法。原始的IBM、Dell和Apple股票价格序列不适合建立HMM。通过研究股票收益率的短相关特征,认为IBM、Dell和Apple的收益率序列适合用HMM描述。采用本文提出的CBIC方法自动确定HMM隐状态数,在预测过程中当预测误差大于一定阈值时,采用模型自动更新方法建立新的模型。通过对股票价格序列的不同转换,建立相应的HMM,进行了单步值预测和趋势预测。单步值预测同Hassan等人的HMM fusion model方法、ARIMA方法进行了比较,实验结果表明所提出的预测算法在IBM、Dell和Apple股票价格预测中,比现有的不更新模型的方法能得到更好的结果。
其他文献
科学技术与社会经济文化的发展奠定了时代的物质基础,随着人们物质生活的充分满足和人们审美能力的提高,高品质的精神生活成为构筑人类生活环境的发展方向。在现代社会里,快
随着世界经济和现代科技的飞速发展,仓储物流产业作为国民经济发展中的一个新兴产业,正在全球范围内推广开来。当前,在大多数发达国家已经将物流产业作为衡量国民经济发展的
古镇旅游在自上世纪80年代兴起,时至今日,已发展成为了一种炙手可热的旅游产品,备受人们青睐。在这其中,中国历史文化名镇是最具代表性的一类,它们有着严格的评审标准——保
随着经济全球化和金融一体化在全球范围的深入发展,商业银行的国际化进程也随之在全球范围内逐步推进。我国金融市场作为国际金融市场的一个重要组成部分,尤其是全面对外资金
金融自由化理论自创立以来一直是发展经济学的一个热点领域,早期的理论认为金融自由化刺激了储蓄,改善了经济运行效率,从而能促进经济增长。但同时金融自由化的政策主张也受
我国《合同法》第19条所作"要约不得撤销"的规定直接抄用于《联合国国际货物销售合同公约》(CIGS)第16条第2款。从立法史看,《联合国国际货物绡售合同公约》第16条第2款是折
本文建立了一个生命周期数量模型以量化城镇居民在国有部门和私有部门之间的就业选择对改革开放头20年总体储蓄率的影响,并利用城市住户调查数据为模型结论提供了实证支持。
大学生作为一个特殊群体 ,其犯罪大有增长趋势 ,其中女大学生占有相当数量 ,这是一个社会问题 ,探其原因 ,才能找出对策 ,减少犯罪。
农民收入增长缓慢问题,已成为农业、农村乃至整个社会发展所面临的严峻的经济问题。党和政府为解决农民收入增长缓慢问题出台了许多重要措施,这是促进农民收入增加的外在环境