论文部分内容阅读
近年来,随着计算机和互联网的普及以及数据库技术的发展,各个应用领域的数据库中都积累了海量的数据,通过数据挖掘分析和理解这些数据,揭示其中隐藏的有用信息成为当前最为活跃的研究领域之一。其中关联规则挖掘是数据挖掘的一个重要模式,具有重要的理论价值和广泛的应用前景。
关联规则就数据项之间的相关性来说,可以有正负关联规则之分。当前,正关联规则的挖掘受到了广泛的关注,而对于包含负属性或负项目的关联规则并未给予足够的重视。然而在很多应用领域中,事物的否定因素也是非常重要的信息来源,因此有必要研究事物负属性之间的关联关系。
论文基于传统的正关联规则和对新兴的负关联规则定义的修改,提出了含负项目的一般化关联规则。现有的挖掘负关联规则以及含负项目的关联规则算法为数不多,而且本质上都是基于Apriori思想的迭代算法,需要对数据集进行多次扫描,同时生成大量的候选频繁项集。论文提出一种新的挖掘含负项目的频繁项集算法,即基于频繁模式树的算法。该算法借用FP_growth算法中频繁模式树这种压缩存储事务的数据结构,通过频繁模式树进行模式扩展,挖掘含负项目的频繁项集。由于该算法的基本思想类似于FP_growth算法,因此具有无需多次扫描数据库,不用生成大量候选项集的优点。除此之外,该算法与直接使用FP_growth算法挖掘含负项目的频繁项集算法相比,无需对原始数据库进行负项目的扩展,也不用再构造并销毁额外的数据结构,只需在原始的频繁模式树上修改,在时间和空间的开销上都具有一定的优势。实验表明,论文提出的算法比现有的同类挖掘算法和直接FP_growth算法具有更好的效率。
另外,论文在借鉴Apriroi性质的基础上,提出了一个置信度性质,并引入了兴趣度作为关联规则的第三个测度参数。论文基于置信度性质和兴趣度阈值,并借用Apriori算法,从挖掘出的含负项目的频繁项集中提取出含负项目的一般化关联规则。论文另外对含负项目的一般化关联规则的矛盾性进行了讨论。实验结果表明,论文提出的改进算法是正确有效的。