基于加权的Top-K频繁闭包挖掘构建算法研究与实现

论文部分内容阅读

数据挖掘是从大量数据中发现潜在的、有趣的知识的过程，是解决“数据丰富，知识贫乏”状况的有效方法。关联规则挖掘用于从大量数据中揭示项集之间的有趣关联或相关联系，是数据挖掘的一项重要研究内容，在现实生活中有着广泛的应用。而其中，以频繁项的挖掘在学界发展的较快，但先前的研究主要是基于min support阈值而且是以挖掘所有满足min support的频繁项为目标的。然而在现实中要提供合适的min support的域值却是困难的。而从挖掘结果上来讲，所有频繁项的数量要比闭包项的数量要庞大得多。另一方面，由于挖掘过程的不可控制性，挖掘的最后规律中不一定包含用户所希望了解的信息。针对上面的两个问题，本文作了如下研究： 1)引入Fop-K闭包挖掘的概念，所谓长度不少于min length的Fop-K闭包挖掘是指：按支持度排序，挖掘前K个闭包规则，且闭包规则的长度不少于min-length。 2)构建加权的基于Fp-Tree的Fop-K闭包挖掘算法(TWFPTA)，该算法克服了上面提到的min support值域定制的困难以及挖掘过程的不可控制性。用K值的制定替代min support显得更直观，为数据中的信息设定权重，使最后挖掘的结果更偏向于用户想要得到的信息。 3)通过大数据量的实验，对TWFPTA进行结果分析，分别改变K值和min length的值，观察这两个参数对算法性能的影响。 4)用ε一equal support改良rwFPTA算法，以增强其挖掘长规则的能力。并对改良前后的结果进行对比，分析改良的效果。通过大量实验证明，TWFPTA算法不但能够基本上解决min support定制问题以，同时也能够较好的得出用户想要的结果。因此有良好的应用前景。

其他学术论文