基于蚁群算法的模式挖掘方法研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:jasongoes
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式挖掘是数据挖掘中最重要的领域,高效用项集挖掘是模式挖掘中的研究热点之一。由于演化计算能够避免高效用项集搜索空间组合爆炸式增长,近几年基于演化计算的高效用项集挖掘算法越来越受到关注。学者们提出了基于遗传算法(Genetic Algorithm,GA)、粒子群算法(Particle Swarm Optimization,PSO)、蝙蝠算法(Bat Algorithm,BA)等演化计算的高效用项集挖掘算法。这些方法通常通过迭代的改变编码向量产生新的候选项集。与GA、PSO、BA算法不同,我们提出了一个基于蚁群算法的高效用项集挖掘算法(HUIM-ACO),这种算法构造性地产生候选项集。在HUIM-ACO算法中,我们使用搜索路径来表达候选项集。最初我们将每个搜索路径按照概率进行初始化,每一步增加一个项目。同时我们提出了信息素矩阵,用于存储两个不同项目的信息素值,允许局部更新和全局更新,而且设计的蚂蚁路径能够有效计算高效用项集。与基于GA和PSO的高效用项集挖掘算法相比,HUIM-ACO算法能够在更短的时间内挖掘出更多的高效用项集。为了进一步提升HUIM-ACO算法的性能,在HUIM-ACO算法的基础上提出了基于Map Reduce的高效用模式挖掘算法(HUIM-ACO-MR)。该算法基于Map Reduce分布式计算框架,可以很好地解决在数据量过大时单机算法的性能瓶颈。为了保证数据的一致性并减少数据网络传输开销,我们提出了一种计算块最小效用值模型:首先通过块最小效用值筛选出每个数据块中的潜在高效用项集,最后从潜在高效用项集中计算出真正的高效用项集。HUIM-ACO-MR算法的缺点是在运行时需要反复的读写磁盘,从而影响了算法的性能,Spark具有优秀的内存计算能力,可以弥补此项的不足,因此我们设计实现了基于Spark的高效用模式挖掘算法(HUIM-ACO-S),HUIM-ACO-S算法与HUIM-ACO-MR算法一样,运用了块最小效用值策略,将蚁群算法分发到每个RDD上进行挖掘,最后从挖掘的结果集中筛选出高效用项集。
其他文献
微纳游动机器人是一个迅速发展并且备受关注的机器人研究领域,微纳游动机器人在药物输送、外科手术、生物传感和解毒工具的生物医疗领域有着广阔的应用前景。驱动技术是微纳
“双一流”建设是我国高等教育发展的战略决策,而一流的本科人才培养是“双一流”建设的“逻辑起点”,是回归大学本位以及推进大学持续发展的出发点。地方政府对接国家政策并
介绍了基于多路遥测数据采集系统在数据存储过程中的特点,提出了数据包的数据结构,并基于该数据包结构设计了低硬件复杂度的实时压缩算法。该数据压缩算法已成功应用于某舰船振
2020年是打赢脱贫攻坚战的收关之年,新疆受自然环境、社会经济和文化历史背景等因素的影响,并且贫困程度比较深、比较广,成为了我国扶贫工作的重点。为实现有效、可持续的脱贫效果,防止反贫情况的发生,每个地区都需要利用自身的资源禀赋条件,选择适合自身的内生扶贫方式,来提高贫困人口的扶贫能力。新疆具有独特的风俗、文化和自然资源,可以把非物质文化遗产扶贫作为摆脱贫困、实现经济可持续发展的途径。近年来,我国的
本文对各种搜索引擎模式进行了优劣分析,并试图提出适合中小型企业的搜索引擎营销的策略和营销组合,希望能给我国中小型企业进行搜索引擎营销时带来一点启发和提供参考,给企业带
我国区域用水受制于水资源短缺的状况长期存在,水资源已然成为影响国家安全的重要非传统要素。跨流域调水是现阶段解决我国水资源矛盾最为有效的工程手段,解决好工程实施后外