论文部分内容阅读
数据挖掘(Data Mining)是指从大量结构化和非结构化的数据中提取有用的信息和知识的过程,数据挖掘的研究已经取得了重大的进展,而且被应用到众多的领域。关联规则是数据挖掘研究中一个重要的研究课题,它主要用于发现隐藏在大型数据集中的令人感兴趣的联系。本文首先介绍了数据挖掘的发展概况和应用前景,然后通过研究关联规则的挖掘现状发现,大部分关联规则挖掘的研究重点都放在如何提高挖掘频繁项集或生成关联规则的算法效率上。在实践中,由频繁项集生成的关联规则可能有很多,这将导致用户无法高效地从关联规则中提取有用的信息。本文重点研究了如何在不丢失关联规则信息的基础上减少关联规则的生成数量,主要工作包括以下几个方面:1.通过研究发现以往的关联规则挖掘算法如GRSET算法往往会产生“规则爆炸”的问题,由某个频繁项集生成的关联规则的数量可以在不丢失任何规则信息的情况下被减少。在综合借鉴前人研究成果的基础上本文提出的GLMBR算法深度优先生成了任一个频繁项集所对应的局部极大布尔关联规则LMBR,然后分别在理论和实验两个方面对比分析了用GRSET算法和GLMBR算法生成的同一个频繁项集对应的关联规则集,通过实验验证了GLMBR算法的有效性;2.通过深入研究频繁闭项集、频繁基项集和极大布尔关联规则的性质以及它们之间的联系,提出了基于以上两种特殊项集的极大布尔关联规则的挖掘算法,从理论上进行了论证,用实例进行了验证。