论文部分内容阅读
时间序列是按时间的先后顺序排列而成的数列,广泛存在于社会生产的各个领域,形成规模庞大的时间序列数据库,真实地记录了应用系统在各个时刻的重要信息。时间序列分析已成为机器学习、数据挖掘、模式识别、统计学等众多领域的研究热点之一。对于时间序列的聚类是时间序列分析的重要内容,在众多时间序列聚类方法中,近几年发展起来的基于隐马尔科夫(HMM)模型的方法尤其有效。但这种方法要求序列等长、结构已知,本文对此提出了自己的解决方法。传统的聚类方法,通常先将序列分割成等长的子序列集合,然后对各子序列进行聚类,这种方法会导致信息丢失和模型过度拟合问题。
本文采用K-means框架,选用联合似然函数作为准则函数,首先利用动态时间弯曲(DTW)对数据集进行初始分类,然后进行迭代修正。每次迭代中,先用每类内的样本训练HMM模型,然后对每个样本计算其出现在各模型的概率,按照概率最大原则将其分配到对应的类内。对于模型结构未知情形,按照混合最小描述长度准则,提出一种基于HMM模型的嵌套循环算法,该算法能快速找出模型的隐状态数,是属于数据驱动的一种方法.数值试验表明了该方法的有效性。