论文部分内容阅读
数据挖掘起源于20世纪90年代初期,它是知识发现过程中的一个关键步骤,也是当前知识发现领域中的一个研究热点。关联规则挖掘是数据挖掘中的一项重要任务,用于发现大量数据项集之间有趣的关联或相关联系。 本文结合研究课题《教育管理决策中的关联规则挖掘》进行了一系列的研究,重点研究了经典挖掘算法的缺陷及其改进的途径,并将其应用到教育管理决策挖掘中,主要研究工作包括以下几方面内容: (1) 对关联规则挖掘的经典算法进行了分析。关联规则挖掘最经典的算法是Apriori算法,该算法的最大的缺陷在于需要重复扫描数据库来计算侯选项集的支持度计数,从而严重影响了算法的运行效率。本文通过分析该算法扫描数据库所需要的时间开销来具体说明这一不足之处。 (2) 针对Apirori算法的这一缺陷,本文提出了一种改进的算法——Apriori-TlDS(Apriori Transaction Identifier Set)算法。Apriori-TIDS算法的特点在于:利用事务的TID集合来计算侯选项集的计数。即:在首次扫描数据库生成候选1-项集的同时,记住包含每一个项集的事务标识符TID集合。这样,只要统计侯选项集所对应的TID集合的元素个数,就可以得到该侯选项集的支持度计数,从而找到频繁项集。生成下一级侯选项集时,只需将用于相连接的两个频繁项集的TID集合相交,就得到了该侯选项集的TID集合。依次类推,直到找到所有的频繁项集。与Apriori算法不同的是,Apriori-TIDS算法只在产生侯选1-项集时需要遍历一次原数据库,其他侯选项集的支持度计数的计算只需统计相应TID集合的元素个数即可,而不必象Apriori算法那样反复的遍历数据库,从而大大节省了访问数据库的时间。 本文从理论上论证了Apriori-TIDS算法的可行性,并根据关系数据库的特点,将该算法编写为ORACLE后台存储过程,应用于关系数据库的多维关联规则挖掘。为便于比较,我们将原Apriori算法也编写为ORACLE数据库存储过程,实验证明,