论文部分内容阅读
数据库中的知识发现(Knowledge Discovery in Databases,KDD)是当前人工智能、数据库技术等学科的一门十分活跃的研究领域。数据挖掘(Data Mining,DM)是KDD的一个重要步骤,是从数据中提取人们感兴趣的、潜在的、可用的知识,并将其表示成用户可理解的形式。 数据挖掘作为数据库研究领域中的热点,正受到越来越多的关注。它被定义为在数据中寻找正确的、有趣的、潜在有用的并最终可以理解的模式。基于关联规则的挖掘是其中一个重要的研究方法,具有重要的理论价值和广泛的应用前景。 在很多领域中,只挖掘出标准关联规则是不够的,需要对数据项的否定项进行挖掘。带否定项的关联规则是指允许在关联规则中出现负项目,对关联规则的形式做出了扩展,从而提高了关联规则的描述能力。 在研究了国内外相关学者的研究成果的基础上,论文提出了一种基于相关度与兴趣度的负关联规则算法(CIAR算法),该算法在挖掘出正关联规则的同时,挖掘出负关联规则。目前,对负关联规则的研究大部分是在正频繁项集中挖掘感兴趣的规则,论文提出了一种生成负频繁项集的办法,在产生正频繁项集的同时,产生一个专门挖掘负关联规则的负频繁项集。 在现有的关联规则挖掘算法中,广泛采用了“支持度——置信度”的评价标准。然而,在很多时候,挖掘出来的关联规则其支持度和置信度都很高,却没有实际的意义。该标准也没有考虑在支持度和置信度都较高的正关联规则无关或负相关时,其负关联规则的相关性问题,论文对此进行了详细的讨论。同时,文中引入了关联规则的兴趣度标准,基于前人对关联规则的定义的改进和相关性兴趣度的定义,论文改进了基于支持度、置信度和兴趣度的关联规则挖掘算法。 论文同时分析了CIAR算法的效率,并比较了CIAR算法与其他相关负关联规则算法的优缺点。 论文在最后指出了上述算法存在的不足和进一步需要研究的内容。