基于项缩减的关联规则挖掘算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:PIPI16
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的不断发展,人们积累的信息量不断增加,传统的统计方法已经不能满足人们从大规模数据存储中获取知识的迫切需求。作为数据挖掘领域中的一个非常重要的研究课题,关联规则反映了一个事物与其他事物之间的相互依赖性或者相关性,它既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律。因此如何有效地挖掘关联规则具有重要的理论价值和现实意义。本文重点针对数据本身对关联规则挖掘的影响进行了研究,并取得了一定的成果。首先针对Apriori算法的不足,提出了改进方案。Apriori算法是关联规则挖掘中的经典算法,当最小支持度阈值较小时,Apriori算法将产生大量候选项集,对这些候选项集进行支持度计数将耗费大量时间。本文针对这个问题,提出项事务和项缩减操作的概念,并在此基础上提出一种基于项缩减的Apriori算法——Apriori-IR。该算法通过对事务进行完全项缩减操作,能够有效减少候选项集个数并减少候选项集支持度计数时间,从而提高了Apriori算法的效率。本文不仅从理论上分析了Apriori-IR算法能够减少连接和剪枝次数降低支持度计数时间,还通过在不同浓密性和模式长度的数据集上进行实验,表明了Apriori-IR算法的有效性。为了进一步研究项缩减操作对关联规则挖掘算法的影响,本文对经过完全项缩减操作处理的数据利用FP-growth算法进行挖掘,提出了FP-GIR算法。同样本文不但从理论上分析了FP-GIR算法能够降低FP-growth算法的空间消耗,还通过不同数据集的实验验证了算法的有效性。最后,通过利用FP-tree的结构特点,提出了一种基于FP-tree的完全项缩减操作算法FP-TreeIR算法,该算法降低了进行完全项缩减操作所需要的系统消耗。
其他文献
ADSL作为目前国内最流行的互联网宽带接入方式之一,通过一条普通电话线,可以向用户提供512K到8M带宽不等的宽带接入,让用户尽情享受网络学习、视讯会议、可视聊天、视频点播、在
作为一种很重要的自动验证技术,模型检测已得到广泛研究,取得了丰硕的成果并应用到众多领域,引起学术界、工业界的密切关注。模型检测的一般原理是用状态迁移系统( M )表示系
随着计算机技术与教育理论的不断融合促进了计算机辅助教育的发展,计算机辅助测试作为计算机辅助教育的重要部分而受到越来越多的关注。在计算机辅助测试系统中,组卷模块的设计
近年来,计算机视觉技术在水果图像识别方面得到了广泛的研究和应用,但随着经济的快速发展,人们生活的提高,农贸市场和超市里售卖的水果品种越来越多,而且其形状,纹理和大小都
体育比赛的主办方为了充分发掘广告带来的商业利润,总是希望尽可能地在比赛场地周围放置更多的广告牌。但是在实际的比赛现场,出于保护运动员和保证观众观看质量等方面的考虑
在无线传感器网络(WSN)的应用中,物理信息与位置信息关联才具有实际的运用价值,由此无线传感器网络节点的位置信息至关重要,是传感器网络研究的难题及热点。本文以导航系统的
本文把目前流行的粗糙集属性约简算法运用到销售数据的离群检测与分析。离群数据挖掘是数据挖掘的一个分支,目前在很多领域得到运用,挖掘出来的数据不再是当作噪声数据去掉,
随着云计算技术的深入发展,越来越多的企业通过构建虚拟化数据中心提供公有云服务,或者搭建面向企业内部的私有云平台。因此,云计算数据中心的数量大幅增加,服务器规模也快速
支持向量机是近年来流行的机器学习方法,建立在结构风险最小化原则的基础上,因此能够较好地处理小样本情况下的学习问题。然而在支持向量机算法的大样本学习应用中,存在着三
由于网络呈现多元化、多服务、多应用等特征。单一的检测方法和检测系统难以检测各种复杂攻击,综合多种检测技术或多个检测系统能够有效地提高检测准确性。然而各种IDS在检测