论文部分内容阅读
随着时间的推移,数据呈爆炸式的增长,要想从这些复杂、海量的数据中发现潜在有用的信息,是一件极为困难的任务,同时也给时间序列数据挖掘带来了巨大的挑战。数据集中的某些数据,它们与大多数数据的一般行为或模型不一致,这些数据被称作异常数据。绝大多数的数据挖掘算法通常把异常数据视为噪声而丢弃,然而在一些实际应用中,异常数据更具有研究价值。因此,对时间序列的异常进行深入地研究具有重要的意义。
首先,研究了时间序列的滑动窗口方法、自顶向下方法和由底向上方法,给出了基于重要点的时间序列分段算法,通过重要点将时间序列分成多个互不重叠的子序列,并提取每个子序列的特征值,为聚类算法进行异常子序列的检测做了准备。该算法在有效地压缩了时间序列数据的同时保留了原有时间序列的主要特征,并且具有较低的时间复杂度。
其次,研究了围绕中心点的划分算法PAM聚类算法、基于PDS、TIE和PMI的快速PAM聚类算法和基于k中心点的迭代局部搜索聚类算法,通过对初始簇的对象个数的限定和初始簇的平均距离的求解来确定初始的中心点,从而给出了一种基于初始聚类中心点选取的改进的PAM(IPAM)聚类算法,然后通过对划分后簇的平均距离进行阈值的设定来检测异常子序列,并着重对该算法的异常检测质量和时间效率进行分析,实验证明该算法具有与局部异常检测算法类似的检测效果,较低的时间复杂度,并且具有优于PAM算法的检测效果和时间复杂度。
最后,将改进的PAM(IPAM)算法运用到程序设计自主教学与学习平台中,挖掘学生的成长效果。挖掘的结果有助于掌握学生的学习情况,从而能够更好的开展教学活动。