论文部分内容阅读
关联规则挖掘作为数据挖掘领域的一个重要研究内容,它揭示了项集之间有趣的相关关系,可广泛应用于购物篮分析、相关分析、分类、网络个性化服务等领域。自1993年R.Agrawal等首次提出该问题以来,一直是数据挖掘研究和应用领域活跃的前沿。典型的关联规则发现算法是由R.Agrawal等提出的Apriori算法,其核心技术为其它各类关联规则挖掘算法所广泛采用。然而,随着分布式环境的日益普及,采用传统的集中式关联规则挖掘方法不能高效地发现存在于分布式信息系统中的关联规则,设计高效的分布式关联规则挖掘算法就成为关联规则研究的一个重要内容。本文在研究已有的分布式关联规则挖掘算法的基础上,针对其不足,给出了一种高效的分布式关联规则挖掘算法(ED-ARM—Efficient Distributed Association rules Mining),以快速地发现存在于分布式事务数据库系统中的全局频繁项目集。对该算法所进行的分析和试验结果证明,该算法是高效可行的。另外,当数据库或挖掘参数发生变化时,如何高效地对频繁项目集进行更新是关联规则挖掘研究的另一个重要内容。本文就频繁项目集的更新问题进行研究,给出了一种基于频繁模式树的频繁项目集增量式更新算法(FIUP—Frequent Itemsets Incremental Updating)。该算法充分利用已有挖掘结果,有效解决了最小支持度和事务数据库同时发生变化时相应频繁项目集的更新问题,其中事务数据库的变化同时包括增加和减少两种情况,并对其性能进行分析与测试,结果证明,该算法是有效的、可行的。