论文部分内容阅读
数据挖掘(或知识发现)出现于20世纪80年代末,目前已经成为人工智能和数据库等领域的研究热点。它有着广阔的应用前景,并将在新的世纪里在各个领域发挥其强大的生命力。R.Agrawal等在1993年提出了关联规则问题,现在关联规则已经成为数据挖掘研究的重要方向,并且吸引了众多专家和学者的关注。 本文比较研究了现有的关联规则挖掘算法如Apriori算法、增量式更新算法等,发现存在问题有二,其中之一是当数据库中增加新的数据时,多数算法要重新扫描整个大型数据库,效率较低。另一个问题是由于现有算法中项目集的支持度是基于整个数据库计算的,当新增的数据中出现新项目时,即使包含新项目的项目集频繁地出现,现有算法常把这些项目集作为非频繁项目集,由此产生的关联规则不能反映最近的商业活动。 本文根据以上算法存在的问题,首先提出了一个新的概念——敏感性,用来衡量各种关联规则挖掘算法对新项目的重视情况。然后一方面从改进算法的时间效率出发,引入一个参数c(1≤c≤∞),根据旧数据集的支持度大于或等于minsup/c的频繁项目集和新增数据集发现频繁项目集,而不需扫描整个旧数据集;另一方面从敏感性出发,对于只出现在新数据集中的频繁项目集,则直接作为整个数据集的频繁项目集。紧接着本文通过实验把改进的算法与增量式更新算法进行了比较分析。最后结合数据仓库知识,探讨了如何把关联规则应用于客户关系管理(CRM)中。