基于加权的Top-K频繁闭包挖掘构建算法研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:chenhy8208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量数据中发现潜在的、有趣的知识的过程,是解决“数据丰富,知识贫乏”状况的有效方法。关联规则挖掘用于从大量数据中揭示项集之间的有趣关联或相关联系,是数据挖掘的一项重要研究内容,在现实生活中有着广泛的应用。 而其中,以频繁项的挖掘在学界发展的较快,但先前的研究主要是基于min support阈值而且是以挖掘所有满足min support的频繁项为目标的。然而在现实中要提供合适的min support的域值却是困难的。而从挖掘结果上来讲,所有频繁项的数量要比闭包项的数量要庞大得多。另一方面,由于挖掘过程的不可控制性,挖掘的最后规律中不一定包含用户所希望了解的信息。针对上面的两个问题,本文作了如下研究: 1)引入Fop-K闭包挖掘的概念,所谓长度不少于min length的Fop-K闭包挖掘是指:按支持度排序,挖掘前K个闭包规则,且闭包规则的长度不少于min-length。 2)构建加权的基于Fp-Tree的Fop-K闭包挖掘算法(TWFPTA),该算法克服了上面提到的min support值域定制的困难以及挖掘过程的不可控制性。用K值的制定替代min support显得更直观,为数据中的信息设定权重,使最后挖掘的结果更偏向于用户想要得到的信息。 3)通过大数据量的实验,对TWFPTA进行结果分析,分别改变K值和min length的值,观察这两个参数对算法性能的影响。 4)用ε一equal support改良rwFPTA算法,以增强其挖掘长规则的能力。并对改良前后的结果进行对比,分析改良的效果。 通过大量实验证明,TWFPTA算法不但能够基本上解决min support定制问题以,同时也能够较好的得出用户想要的结果。因此有良好的应用前景。
其他文献
随着全球信息技术的发展,数据挖掘理论得到广泛研究,分类是其中应用最广的一种技术。随着可以利用的数据同益增长,大数据量的学习处理给研究者提出了新的难题。本文对增量式分类
网络流量分析技术包括对网络主机地址、网络互连、网络应用以及网络用户行为等多个关联实体的研究分析,对网络资源分配、网络服务质量提高都具有重要意义,其中以网络主机地址