论文部分内容阅读
数据挖掘技术作为一种用于从大规模数据集中提取潜在有用的信息和知识的技术,越来越得到广泛的研究和应用。而关联规则挖掘作为最初推动数据挖掘迅猛发展的一个重要因素,被广泛应用于大型零售组织的决策支持中,它为确定市场策略、提高决策支持能力提供了有力的技术和工具保证。以往的数据挖掘技术大多是针对固定内容的数据库进行挖掘,但在实际应用中,企业的交易数据是每分每秒都不断地变动,当交易数据库发生变动后,之前所挖掘的关联规则中,有的可能已经不适用,或因为消费者的购物习惯改变而产生出新的关联规则。若我们仍使用原有的挖掘技术,就必须将原始数据加入新增的数据,以及扣掉删除的数据后,对整个更新后的数据库重新挖掘,才能取得最新、最正确的关联规则,如此就必须对没有变动的部分重复扫描,相当耗时且没有效率。
本文深入研究了关联规则挖掘及其增量式更新技术,针对经典关联规则挖掘算法存在的不可克服的问题,提出并实现了一种新颖高效的关联规则增量式更新算法IUACFP算法。算法借鉴FP-tree算法,构造一棵完全FP树将所有的交易事务记录完整地压缩在该数据结构中,并使其能在交易数据库经过更新后,完全不须重新扫描原始数据库就可以得到所有的频繁项集。然后,再我们提出的算法基础上加以改进,使其适用于只挖掘包含某一项目的关联规则,减少计算不相关的商品项目的时间,通过避免计算不相关之项目来进一步提升挖掘效率;另外,考虑到顾客实际在消费时,可能购买的商品包含有数量,若我们在进行挖掘时同时考虑数量因素,所产生的关联规则便含有商品数量,将其提供给企业管理者制定行销策略时,必能更符合消费者的需求。再次改进算法,使其适用于含有数量数据的动态数据库,则可挖掘出数量关联规则,将能更符合消费者的购物需求。最后在模拟数据的基础上通过实验验证我们所提出的方法在动态数据库中确实有较好的执行效率,原因在于我们提出的方法在数据库更新后不须对原始数据库重复扫描和重新生成树,相较于必须重复挖掘和重新生成树的算法,在实际应用中更能提高挖掘的效率。