论文部分内容阅读
时间序列数据是指带有时间戳的,会随时间发生变化的一系列数据。时间序列数据一般都是带有领域特性的,且都具有高维海量特点,这就导致传统的数据挖掘方式无法高效的处理这类数据,无法获得有用的知识。时间序列分类问题是时序数据挖掘当中的一类经典问题,现存的时序分类方法分类可解释性不好,分类速度不优。时间序列Shapelets是提取序列样本中的某一子序列来对时间序列数据进行快速且准确分类操作,该子序列具有极高的辨别性。ICU医学预测作为典型的多元时序数据分类问题,对其进行准确预测具有重大意义。因此,本文基于上述情况展开了以下几点研究:第一,构建多元时间序列Shapelets模型。多元时序数据维度高,基于点的统计分布思想对其建立相应的多元时序Shapelets模型。其基本的思想路线是对多元时序数据所有属性进行归一化操作后提取局部特征点集,根据统计学中的分位点能全面描述局部特征点点集的分布的思想,对局部特征点点集提取分位点;再依据给定的分位点定义获取分位点所在序列的子序列构成的Shapelets候选集;根据提出的全局Shapelets提取法(利用多元时序间的相似性和信息增益值是否有所提升来筛选候选项)选取候选集中分类效果最优的k个全局Shapelet;最后根据给定的距离度量方式将这k个Shapelet转换为新的Shapelets数据集。第二,提出基于多元时序Shapelets的ICU病员死亡预测框架。在shapelets构造阶段,对ICU数据集的时序属性执行缺失值处理后得到任一病员的生理属性的矩阵模型,依据多元时序Shapelets模型提取最优k个全局Shapelet,并计算到每个序列样本的距离从而构建新的数据集。在预测阶段,对新病员的生理指标数据进行属性归一化,使用上一阶段得到的数据集构造分类器,得到最优分类器并对将新病员的多元时序数据最为输入执行分类操作,获得最终分类结果。第三,通过实验效果论证了算法的有效性以及算法框架的实用性。