论文部分内容阅读
自20世纪60年代以来,数据库技术开始被广泛地应用于国家政府机构、商业部门和科研机构等领域。随着时代的发展,特别是互联网技术的出现,这些领域的数据库的数据呈现近乎几何爆炸式的增长,因此对海量数据集进行信息提取的需求就变得日益迫切。传统的数据库技术的局限性在于只能针对数据库进行查询和检索,而不能从数据库中提取知识,造成数据库中所蕴含的丰富知识不能被有效地发掘和利用,在这样的背景下就诞生了数据挖掘技术。数据挖掘被期望用来从历史积累的大量数据中挖掘出隐藏的规律或关联,从而为决策的制定和执行提供有力的参考和帮助。作为数据挖掘主要研究的方向之一的关联规则挖掘(Association Rule Mining) ,其主要是用于从数据库中找出数据项之间的关联关系,作为决策参考的依据。迄今为止,最有影响的布尔型挖掘关联规则算法是R. Agrawal等人提出的Apriori算法。但是基于经典Apriori算法的关联规则算法存在两个问题,需要多次扫描数据库和容易忽略出现频率小但是价值高的项目。Apriori算法在处理数据库中的各个项目时,是假设数据库中的每个项目具有相同的重要性,但是这样显然不符合实际情况。为了更合理地进行数据挖掘,人们引入了权重的概念使得挖掘的数据和潜在的模式更具有现实意义,因此需要利用现有的知识,对加权关联规则的研究进行认真细致的研究。本文对传统加权关联规则挖掘算法进行了改进,该改进算法采用矩阵和加权关联规则算法相结合的方法,并做了改进算法与传统加权关联规则挖掘算法的性能对比实验,得到的实验结果表明本文提出的改进算法在性能上优于原有加权关联规则挖掘算法。该改进算法的创新之处在于引入了矩阵思想,只需要扫描一次数据库来构建矩阵,给出了改进的权值定义,该定义既考虑到了权重大的项目,也没有忽略频繁出现而权重小的项目,并引入K-项支持期望作为减枝的依据,解决了传统加权关联规则挖掘算法中加权频繁项集不存在普通关联规则中频繁项集所具有的反单调性的问题。