数据挖掘中的演化数据聚类算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:fsddz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是一种从海量数据中获取有用信息与知识的有效手段,是多门学科融合的结晶,具有重要的实用价值和广阔的应用前景。数据挖掘技术在蓬勃发展的同时也面临着挑战,传统的数据挖掘技术只能处理静态数据库中的数据,但在实际的应用中数据往往是动态变化的,演化数据就是这样的一种数据,其数据的分布随着时间的变化而变化,传统的数据挖掘技术无法处理这种问题,因此研究专门的处理演化数据的算法就很有必要。演化数据聚类是演化数据学习的重点和难点,本文对演化数据聚类进行研究提出了二种指数衰减的演化数据聚类框架,根据平滑正则项含义的不同和选取的原型算法的不同得到了四种具体的演化数据聚类算法:KM-ED-PCQ算法、NC-ED-PCQ算法、KM-ED-PCM算法和NC-ED-PCM算法。本文主要研究了以下三方面的内容:首先,本文简要地介绍了数据挖掘和传统的聚类分析技术,然后研究了演化数据的聚类问题,阐述了演化数据本身的特点,演化数据聚类的研究现状,常用的演化数据聚类方法等,并对典型的显式建模聚类方法和平滑正则聚类方法进行了对比分析。其次,针对平滑正则聚类方法的聚类结果不够平滑的问题,本文增加了时间正则项,并使用指数衰减的思想来表现不同时刻的时间正则项的影响,根据时间正则项含义的不同得到二种演化数据聚类框架ED-PCQ和ED-PCM,分别将K-means算法和谱聚类算法作用于上述框架得到了四种实用的指数衰减的演化数据聚类算法。最后,通过在高斯数据集和KDD-CUP99数据集上的实验,验证了本文提出的算法是可行的有效的,而且得到了时间正则项的数目与聚类变化度的关系,这为实际的计算带来了方便。综上所述,本文提出的两种指数衰减的演化数据聚类框架能够有效地处理演化数据的聚类问题,具有较强的理论价值和实际意义。
其他文献
研究发现,存储系统中有高达60%的数据是重复的,大量重复数据的存在不仅浪费了存储空间,而且给数据的处理速度和计算的准确性带来很大挑战。近年来,重复数据删除技术逐渐成为研
随着社会信息化进程加快和计算机识别等技术的迅速发展,如何创建更具有真实感的三维人脸模型成为了一个非常具有挑战性的问题。三维人脸模型的重建在虚拟现实、视频监控、三
位置采集技术的日益普及(如GP书,GSM网络等)促进了我们对空间-时间数据的大规模采集,从而为发现珍贵的关于用户移动位置的信息带来了新的机遇。首先,这些大量的空间-时间信息
随着互联网技术的迅猛发展,各种信息铺天盖地的呈现在我们面前,在这些海量信息中检索出自己感兴趣的信息越来越难,出现了所谓的“信息超载”现象。个性化推荐技术是解决这个问题
当今社会,人们需要处理的打印文字材料越来越多,这其中包括合约、保密资料等重要文件,一些企事业单位出现了内部人员将机密资料打印带出,造成了机密信息的泄露,给企事业单位带来不
随着网络技术的飞速发展和信息的爆炸式增加,网络规模不断增大,网络环境日益复杂,支持移动计算、云计算和泛在计算的分布式系统得到了广泛的发展和应用,为不同软、硬件平台的资源
随着物联网的快速发展以及各行各业新需求的不断涌现,物联网终端所需要实现的功能不仅越来越多也越来越复杂。然而,目前数据采集类的物联网终端采集功能定位单一,造成开发生产过程中重复性劳动增多,效率低下。因此,对于数据采集类的物联网终端,开发一套完整、高效、扩展性好、实时性强,面对不同的采集情景都适用的多总线采集嵌入式实时系统的要求十分迫切,这也对提高企业的经济效益,推动国家物联网产业的迅速发展具有十分重
学位
随着多媒体技术的高速发展,越来越多的复杂算法,包括图像处理算法,图像压缩算法等用软件来执行已经不能满足实时系统对于算法执行效率和速度的要求。因而,算法的硬件化越来越受到
射频识别技术是一项自动识别技术,它通过磁场或电磁场,利用无线射频方式进行非接触双向通信,以达到识别目的。射频识别技术具备多项优势主要包括:很强的环境适应能力、非接触式读
伴随着大数据时代的到来,计算机科技的不断创新和网络信息交流日盛,我们的生产生活方式每天都在发生变化,出现了各种各样新颖的信息产生方式和前所未有的获取途径,其中海量的