论文部分内容阅读
近年来,随着信息技术的不断发展,人们积累的信息量不断增加,传统的统计方法已经不能满足人们从大规模数据存储中获取知识的迫切需求。作为数据挖掘领域中的一个非常重要的研究课题,关联规则反映了一个事物与其他事物之间的相互依赖性或者相关性,它既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律。因此如何有效地挖掘关联规则具有重要的理论价值和现实意义。本文重点针对数据本身对关联规则挖掘的影响进行了研究,并取得了一定的成果。首先针对Apriori算法的不足,提出了改进方案。Apriori算法是关联规则挖掘中的经典算法,当最小支持度阈值较小时,Apriori算法将产生大量候选项集,对这些候选项集进行支持度计数将耗费大量时间。本文针对这个问题,提出项事务和项缩减操作的概念,并在此基础上提出一种基于项缩减的Apriori算法——Apriori-IR。该算法通过对事务进行完全项缩减操作,能够有效减少候选项集个数并减少候选项集支持度计数时间,从而提高了Apriori算法的效率。本文不仅从理论上分析了Apriori-IR算法能够减少连接和剪枝次数降低支持度计数时间,还通过在不同浓密性和模式长度的数据集上进行实验,表明了Apriori-IR算法的有效性。为了进一步研究项缩减操作对关联规则挖掘算法的影响,本文对经过完全项缩减操作处理的数据利用FP-growth算法进行挖掘,提出了FP-GIR算法。同样本文不但从理论上分析了FP-GIR算法能够降低FP-growth算法的空间消耗,还通过不同数据集的实验验证了算法的有效性。最后,通过利用FP-tree的结构特点,提出了一种基于FP-tree的完全项缩减操作算法FP-TreeIR算法,该算法降低了进行完全项缩减操作所需要的系统消耗。