论文部分内容阅读
随着计算机和自动化数据采集的广泛应用,在各种应用领域里的数据库中存贮了大量的数据,这使得人们对这些数据进行分析并转化为有用知识的需求变的越来越迫切。于是,数据库中的知识发现(Knowledge Discovery in Databases, KDD)自然成为近年来人们从大型数据库中获取信息的一个重要研究领域。关联规则分析是其中的一个重要分支,它用于发现存在于数据库中的项或属性间的有趣联系,这些联系是事先未知且隐藏的,即不能通过传统的数据库逻辑操作或统计的方法得出。关联规则挖掘就是利用特定方法发掘数据库中潜藏的关联规则的过程。目前,面向传统关联规则即正关联规则的挖掘已经有了很多成熟的、经典的算法,其中最为重要、最为经典也是最有影响力的两种算法为Apriori算法和FP_growth算法。这两种算法在开采频繁项目集集合时一个使用的是广度优先的搜索策略,一个使用的是深度优先的搜索策略,二者各有优缺,后来产生的种种算法大多是在这两个算法的基础上作的改进。2002年,XinDong Wu在传统关联规则的基础上进行了扩展,提出了负关联规则,即形如A ? ? B, ? A ? B, ? A ? ? B的关联规则,负关联规则对事务集中项的状态进行了扩展,它不仅研究各项出现之间的关系,还研究各项出现与不出现的关系。同传统关联规则挖掘相比,负关联规则挖掘研究起步晚且难度更大,本文分析了负关联规则挖掘的特点,比较了现有各种负关联规则挖掘算法,在此基础上,提出了一种能够同时挖掘正、负关联规则的算法,该算法是由Apriori改进而来的,在寻找频繁项目集的过程中将非项加入了迭代,在生成关联规则的过程中又引入了兴趣度标准来对挖掘得来的规则进行删减。经过理论分析和实验证明该种算法有效且可行。关联规则的形式简单,应用起来高效、便捷,但是由于关联规则不能表达不同规则之间的联系,所以在某些比较复杂的应用领域中,当需要综合考虑多种因素对结果的影响时,关联规则的应用就比较困难。而贝叶斯网是一种图型化的模型,能够图形化地表示一组变量间的联合概率分布,所以在对节点状态进行推理的过程中,能够综合考虑各个因素(父节点)的影响,针对此种情况,本文提出了一种基于贝叶斯网的关联规则表示方法,把关联规则从数据中挖掘出来后,经过结构学习和条件概率表的学习,最终将原来的规则以贝叶斯网的形式表示。从而有效地扩展了关联规则的应用。已经证明,在一般的贝叶斯网上的推理问题是一个NP问题,按照本文前面所述的转换方法得到的贝叶斯网满足原因独立性,所以本文介绍了一种采用原因独立性对贝叶斯网变形的方法,在经过变形的贝叶斯网上进行推理,可以使复杂度大大降低。