关联规则增量式更新算法的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:william_wng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术作为一种用于从大规模数据集中提取潜在有用的信息和知识的技术,越来越得到广泛的研究和应用。而关联规则挖掘作为最初推动数据挖掘迅猛发展的一个重要因素,被广泛应用于大型零售组织的决策支持中,它为确定市场策略、提高决策支持能力提供了有力的技术和工具保证。以往的数据挖掘技术大多是针对固定内容的数据库进行挖掘,但在实际应用中,企业的交易数据是每分每秒都不断地变动,当交易数据库发生变动后,之前所挖掘的关联规则中,有的可能已经不适用,或因为消费者的购物习惯改变而产生出新的关联规则。若我们仍使用原有的挖掘技术,就必须将原始数据加入新增的数据,以及扣掉删除的数据后,对整个更新后的数据库重新挖掘,才能取得最新、最正确的关联规则,如此就必须对没有变动的部分重复扫描,相当耗时且没有效率。   本文深入研究了关联规则挖掘及其增量式更新技术,针对经典关联规则挖掘算法存在的不可克服的问题,提出并实现了一种新颖高效的关联规则增量式更新算法IUACFP算法。算法借鉴FP-tree算法,构造一棵完全FP树将所有的交易事务记录完整地压缩在该数据结构中,并使其能在交易数据库经过更新后,完全不须重新扫描原始数据库就可以得到所有的频繁项集。然后,再我们提出的算法基础上加以改进,使其适用于只挖掘包含某一项目的关联规则,减少计算不相关的商品项目的时间,通过避免计算不相关之项目来进一步提升挖掘效率;另外,考虑到顾客实际在消费时,可能购买的商品包含有数量,若我们在进行挖掘时同时考虑数量因素,所产生的关联规则便含有商品数量,将其提供给企业管理者制定行销策略时,必能更符合消费者的需求。再次改进算法,使其适用于含有数量数据的动态数据库,则可挖掘出数量关联规则,将能更符合消费者的购物需求。最后在模拟数据的基础上通过实验验证我们所提出的方法在动态数据库中确实有较好的执行效率,原因在于我们提出的方法在数据库更新后不须对原始数据库重复扫描和重新生成树,相较于必须重复挖掘和重新生成树的算法,在实际应用中更能提高挖掘的效率。
其他文献
随着软件在信息社会中发挥日益重要的作用,软件的正确性、可靠性、安全性等可信性质越来越多的受到关注。如何在软件的开发和运行过程中保证软件具有高可信性质,这成为软件理
随着近年来服务计算和面向服务的架构(SOA)的迅速发展以及Web服务技术的成熟与完善,服务组合作为服务计算和SOA领域的核心问题已经越来越受到重视。WS-BPEL作为描述Web服务组
互联网从诞生至今,各种新的应用层出不穷,其中多媒体数据在网络中的传输也是越来越多。为了最大程度防止拥塞,人们提出了很多拥塞控制方案。TCP拥塞控制协议是目前互联网中最
随着计算机技术和通讯技术的迅速发展以及Internet的不断扩展,嵌入式系统得到了越来越广泛的应用。由于嵌入式系统的复杂性的不断增加,嵌入式操作系统已经成为嵌入式系统中最重
学位
随着Internet和信息技术的飞速发展,日益严重的“信息过载”和“信息迷向”问题助推了个性化推荐系统的蓬勃发展。现有的个性化推荐技术在一定程度上缓解了人们寻找自己喜好
图像配准是计算机视觉和模式识别领域中的一项重要课题,在遥感探测、医学成像和基于多传感器融合的目标识别等领域中都有着广泛的应用价值。气象云图非刚性配准是校正其非刚
Web上的信息资源呈爆炸式的增长,人们查找信息越来越难。搜索引擎是其信息利用的主要工具,然而当前搜索引擎存在不足:基于关键字匹配的搜索引擎排序网页时仅仅考虑评价网页的
2008年Freescale半导体公司面向国内推出了基于ColdFire v2核的32位高集成度微控制器MCF52223,该芯片拥有高达32KB的内部SRAM和256KB的片上Flash存储器,集成了当前主流的USB2