关联规则挖掘的算法研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:liur8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识就是力量。随着当前IT技术、电子商务及互联网的快速发展和迅速普及,导致在各个应用领域的数据库中存储了大量的数据,这些数据集中包含了很多有用的知识,因此如何发现各种大型数据库中所隐藏的、预先未知的信息以辅助相应的应用显得尤为重要,这正是数据挖掘(Data Mining)所要完成的任务。数据挖掘技术是在应用需求的推动下,由人工智能技术、数据库技术、统计学和数据仓库技术等多种学科融合的结果,是从大量的数据库中识别出有效的、新颖的、潜在的有用的,以及最终可理解的知识和模式的高级过程。可以说,有数据积累的地方,就有数据挖掘技术的用武之地。近年来国内外学者提出了一系列的数据挖掘理论,世界上主要的IT公司,如IBM、Oracle及Microsoft等也已经相继推出了各自的数据挖掘产品。关联规则(Association Rules)作为数据挖掘领域的一个重要研究分支,其主要的研究目的是从大型数据集中发现隐藏的、有趣的、属性间存在的有趣的关联或相关关系。由于形式简单、易于理解,且是从大型数据库中提取知识的主要手段,因此关联规则挖掘的研究与应用已经得到了数据库、人工智能及统计学等领域的学者的广大关注,并取得了不少的研究成果。与人工智能中的神经网络、遗传算法及统计学不同的是,关联规则挖掘处理的数据对象通常相对较小,且人工智能的方法重在寻找输入输出间的模型,而关联规则的挖掘则是用于发现数据集合中所包含的属性间的规律,其结果不是一个具体的模型而是数量众多的规则。此外,统计学中的方法尽管处理的对象也可以是大量的数据,然而其主要的作用是用于确定数据的统计分布或统计模型,而不能描述数据集中所包含的数据间的规律。关联规则挖掘自1993年R.Agrawal等人提出后已被数据库界广泛研究,其算法也在原有算法的基础上不断优化,使关联规则挖掘的效率不断提高。但是仍然存在许多使用这些算法不能解决的问题:当挖掘的数据不断更新时,如何高效即时的获得所需的结果:用户要试探性地预先设定一些固定的挖掘参数,如果参数设置不适当,可能需要很长的响应时间,并且会产生大量的无用规则等。因此,不仅需要设计高效的算法来挖掘关联规则,而且也迫切需要设计高效的算法来更新、维护和管理已挖掘出来的关联规则。本文提出了一种高效的增量更新算法-IFUP算法,该算法是在IUWP算法的框架上进行了改进。通过实例进行分析比较,证明了该算法有效的提高了挖掘的效率。另外,现在也有很多研究员提出了利用概念格来挖掘关联规则,本文也对这种方法进行了初步的研究与探讨。
其他文献