论文部分内容阅读
数据挖掘技术是一种从海量数据中获取有用信息与知识的有效手段,是多门学科融合的结晶,具有重要的实用价值和广阔的应用前景。数据挖掘技术在蓬勃发展的同时也面临着挑战,传统的数据挖掘技术只能处理静态数据库中的数据,但在实际的应用中数据往往是动态变化的,演化数据就是这样的一种数据,其数据的分布随着时间的变化而变化,传统的数据挖掘技术无法处理这种问题,因此研究专门的处理演化数据的算法就很有必要。演化数据聚类是演化数据学习的重点和难点,本文对演化数据聚类进行研究提出了二种指数衰减的演化数据聚类框架,根据平滑正则项含义的不同和选取的原型算法的不同得到了四种具体的演化数据聚类算法:KM-ED-PCQ算法、NC-ED-PCQ算法、KM-ED-PCM算法和NC-ED-PCM算法。本文主要研究了以下三方面的内容:首先,本文简要地介绍了数据挖掘和传统的聚类分析技术,然后研究了演化数据的聚类问题,阐述了演化数据本身的特点,演化数据聚类的研究现状,常用的演化数据聚类方法等,并对典型的显式建模聚类方法和平滑正则聚类方法进行了对比分析。其次,针对平滑正则聚类方法的聚类结果不够平滑的问题,本文增加了时间正则项,并使用指数衰减的思想来表现不同时刻的时间正则项的影响,根据时间正则项含义的不同得到二种演化数据聚类框架ED-PCQ和ED-PCM,分别将K-means算法和谱聚类算法作用于上述框架得到了四种实用的指数衰减的演化数据聚类算法。最后,通过在高斯数据集和KDD-CUP99数据集上的实验,验证了本文提出的算法是可行的有效的,而且得到了时间正则项的数目与聚类变化度的关系,这为实际的计算带来了方便。综上所述,本文提出的两种指数衰减的演化数据聚类框架能够有效地处理演化数据的聚类问题,具有较强的理论价值和实际意义。