论文部分内容阅读
数据挖掘在最近几年里己被数据库界广泛研究和应用,而关联规则的挖掘在其中占有很重要的地位,其在商务决策制定方面的应用很有前景,而生成频繁项集是关联规则挖掘处理中的瓶颈,因此,大部分研究都集中在频繁项集的产生上。本文提出了一种新的存储结构——横纵向链接表和一种有效的频繁项集挖掘算法——排序的横纵向链接表挖掘算法。
首先,本文介绍了数据挖掘、关联规则挖掘和频繁项集挖掘的基本知识。
然后,分析现存的频繁项集挖掘算法的优缺点,从存储结构和挖掘过程两方面进行改进,提出横纵向链接表存储结构和排序的横纵向链接表挖掘算法。该算法的优点在于:(1)只对数据库进行一次扫描;(2)对事务中的各个项按频繁支持计数进行降序排列,减少了递归挖掘次数;(3)建立项间横纵向链接,减少了事务间项的扫描次数。
再者,通过对给定数据的处理,对排序的横纵向链接表挖掘算法和H-Mine算法进行了性能比较分析,论述该算法的优点和不足。
最后,提出排序的横纵向链接表分区挖掘算法的设计思想,并对其发展前景进行展望。