论文部分内容阅读
关联规则挖掘是近年来发展十分迅速而且非常活跃的研究领域。它主要应用于发现数据中不同项目或属性之间的有趣联系。随着被收集和存储数据的高速增长,许多业界人士对于从他们的数据库中挖掘关联规则的兴趣愈加浓厚。频繁项集挖掘是关联规则挖掘的基础和核心问题。相关挖掘算法的性能直接影响数据挖掘尤其是关联挖掘的效率和应用范围。为了进一步适应和满足用户不断变化的需求,本文进行了一系列关于提高频繁项集挖掘算法的性能和完善相关功能的研究工作。
本文首先认真地分析和归纳了当前频繁项集挖掘算法的研究成果,并测试和总结出相关算法的实现方法和性能特点,为提出性能和功能更优的频繁项集挖掘算法作好理论准备。然后在提高执行挖掘的效率和消除矛盾或无效规则相关信息这两个方面对当前的高效挖掘算法进行一系列的改进。1)本文提出的HybridSet算法结合了采用垂直数据表示的Eclat和Diffset算法分别善于处理稀疏和稠密数据集的优点。实验证明,HybirdSet算法在分析稀密程度不同的数据集时的性能与Eclat等经典算法的最优性能基本一致甚至更优。2)充分利用频繁项集的相关信息是减少计算候选集的支持度的时间开销的重要途径。实验证明,本文根据这一特点提出的HybirdSet+算法能在很多情况下进一步提高执行频繁项集挖掘任务的效率;3)由于上述算法的结果中存在与矛盾或无效规则相关的频繁项集,本文根据频繁项集和相关度之间的联系对HybirdSet+算法做出相应改进。实验证明,改进后的DHybirdSet算法能在真实数据的分析中减少部分冗余频繁项集的生成。