关联规则中的Apriori算法的研究与改进

被引量 : 0次 | 上传用户:lisadandan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,数据资料的规模急速膨胀。于是,人们希望有新一代的技术和工具能够智能地自动地帮助人们分析已经消耗大量财力和物力所收集与整理的海量数据,以发现有用的知识,达到为决策服务的目的。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘技术应运而生,并得以蓬勃发展。数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则挖掘是数据挖掘的主要研究内容。而频繁项目集的发现是关联规则挖掘的核心问题。本文详细描述了数据挖掘、关联规则的基本理论以及关联规则挖掘的经典算法Apriori算法,并对经典Apriori算法进行了分析发现其存在着规则冗余度大、效率不高和不能挖掘定量规则等缺陷。本文针对此算法的算法瓶颈问题提出了两种改进方法,如下:1.针对经典Apriori算法运行效率瓶颈问题,结合位集合占用内存空间少、逻辑运算快的特点,本文提出一种基于项集位逻辑运算的改进算法:B_Apriori算法。该算法通过一次数据库扫描,构建事务集位集合;采用项集位逻辑“与”运算和位统计操作确定频繁项集;改进连接和剪枝策略,采用项集位的逻辑“或”运算,统计运算结果重复出现次数,生成候选项集。实验证明,通过与经典Apriori算法的对比可以发现,B_Apriori算法运行时间明显减少。该算法避免了数据库的重复扫描和繁琐的连接减枝操作,进一步提高了Apriori算法的运行效率。2.针对经典Apriori算法在统计事务库中的项时要反复扫描事务库,算法开销很大的问题,本章结合数学中矩阵以及向量内积的概念上提出了一种新的Apriori改进算法:Apriori_Matrix算法。Apriori_Matrix算法从三个方面对原有的算法进行了改进,减少了产生的候选频繁项集Ck中项集的数据,也减少了剪枝过程中的运算次数,在统计支持度阶段减少了需要扫描的数据库中的事务数。而且计算机进行向量运算和位运算速度更快,程序也会更容易实现。实验证明,新算法在系统的开销和时间效率上都有很大的提高。
其他文献
装甲战斗车辆的发展正处于关键的转折阶段 ,以新一代主战坦克和轮式装甲战车为代表的战斗车辆之主要特征是信息化和轻型化。它们将显著提高信息获取、处理和使用能力 ;对间瞄
近年来虽着人们对魔芋利用价值,研究、开发程度的不断深入,魔芋适生地的魔芋产业呈现出产销两旺的可喜局面,魔芋产业也成了魔芋适生地农民朋友发家致富的重要农业产业之一。
<正>农药残留是指在农业生产中施用农药后一定时期内残留于生物体、农副产品及环境中微量的农药原体、有毒代谢物、降解物和杂质的总称。农药残留是使用农药后的必然现象,是
为全面评估铝粉爆炸的危险性,在爆炸罐内进行了环境湿度对铝粉爆炸影响的实验研究。分别得到了33%、60%和90%相对湿度下铝粉爆炸的最大爆炸压力和最大压力上升速率值。结果表
以项目管理理论为基础,将人力资源管理的培训理论贯彻其中,将青岛工学院ERP实验室面向企业的培训项目用项目范围管理理论、项目时间管理理论、项目费用管理理论等内容进行分析
现代以降,世界各国经济的扩张和全球经济的一体化,使得公司规模日益扩大,股东成千上万,所有权和经营权分离成为必然,这就要求出现一个代替股东管理公司的角色,于是出现了董事。董事
LED背光源驱动电路系统是决定大尺寸液晶电视可靠性、寿命与环保节能的关键。本文以可靠、高效为宗旨,对相关拓扑电路及已有电路系统进行分析,将LLC拓扑的优势创新性应用于LED
人力资源是企业最宝贵、最重要的资源,人力资源的配置与管理情况是决定企业战略目标能否顺利实现的重要因素,人员是战略目标的实施者,岗位是实施战略目标的载体,对员工的岗位管理
我国现阶段正致力于成为一个创新大国,对知识型员工的创新绩效研究的日趋重要。综合国内外研究成果来看,个体创新是组织创新能力的重要来源已经成为共识,那么影响个体创新绩
世界卫生组织于2009年6月15日以“道路交通安全为主题”,发布了《道路安全全球现状报告》,报告显示,全球每年超过120万人死于交通事故,其中90%发生在中低收入国家。中国作为最大