基于MapReduce的并行频繁项集挖掘算法的研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:yr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,大量数据得以产生并积累,数据也越来越呈现出数量巨大、结构复杂、类型众多、富有价值等特点。在数据中发现有用的知识,挖掘出有价值的信息一直是传统数据挖掘技术的主要工作。其中,致力于分析和发现项与项之间的关联规则技术是数据挖掘中非常重要的一个分支。面对海量数据,单纯的通过提升计算机硬件水平已经不能满足人们对大数据分析与处理的需求,因此并行化技术受到越来越多的重视和研究。通过改进传统的关联规则挖掘算法,并与分布式计算模型相结合成为当前研究的主要方向之一。目前,已提出的并行频繁项集挖掘算法大多数是将Apriori、FP-Growth和Eclat算法与Map Reduce计算模型相结合,实现算法并行化。此类算法属于单一并行算法,虽然在大数据挖掘中取得了一定成绩,但自身存在固有缺陷。鉴于此本文从混合并行频繁项集挖掘算法着手进行研究,通过对现有的MRPrePost算法(Parallel PrePost algorithm based on Map Reduce)进行改进来提高算法的挖掘效率。本文所做的主要工作如下:针对大数据环境下MRPrePost频繁项集挖掘算法中存在节点负载不均衡、N-list合并效率低以及冗余搜索等问题。提出了基于N-list结构的混合并行频繁项集挖掘算法—HP-FIMBN(the hybrid parallel frequent itemsets mining algorithm based on N-list)。该算法首先设计负载估计函数(load estimation,LE)来计算出频繁1项集F-list中每一项的负载量,同时提出基于贪心策略的分组方法(grouping method based on greedy strategy,GM-GS)将F-list中的每一项根据其负载量进行均匀分组,既解决了数据划分中计算节点负载不均衡的问题,又降低了集群中各节点上子PPC-Tree树的规模;其次,提出预先放弃策略(early abandon strategy,EAS),该策略不仅能有效避免合并过程中的无效计算,而且不需要遍历初始N-list结构就能得到最终的N-list,极大地提高了N-list结构的合并效率;最后,采用集合枚举树作为搜索空间,并提出超集等价剪枝策略(superset equivalent strategy,SES)来避免挖掘过程中的冗余搜索,生成最终的挖掘结果。实验结果表明,该算法在大数据环境下进行频繁项集挖掘具有较好的效果。针对MRPrePost频繁项集挖掘算法在大数据环境存在运行时间长,内存占用量大和节点负载不均衡的问题。提出了一种基于DiffNodeset的并行频繁项集挖掘算法—PFIMD(Parallel Frequent Itemsets Mining Using DiffNodeset)。该算法首先采用DiffNodeset数据结构,有效的避免了N-list基数过大的问题;此外提出了一种双向比较策略T-wcs(2-way Comparison Strategy),来减少两个DiffNodeset在连接过程中的无效计算,极大的降低了算法时间复杂度;最后考虑到集群负载对并行算法效率的影响,进一步提出了一种基于动态分组的负载均衡策略LBSBDG(Load Balancing Strategy Based on Dynamic Grouping),该策略通过将频繁1项集F-list中的每项进行均匀分组,降低了集群中每个计算节点上PPC-Tree树的规模,进而减少了先序后序遍历PPC-Tree树所需的时间。实验结果表明,该算法在大数据环境下进行频繁项集挖掘具有较好的效果。
其他文献
第三次信息产业革命伴随着物联网的发展而兴起,在传感器和嵌入式两个技术的共同支持下,以其易于结合、容错率高、易于部署、易于增减传感器节点、执行效率和速率高等技术优势,已经应用在智能家居等诸多领域。本文将物联网引入家庭内部,设计了一个集数据采集传输、语音呼叫、移动智能监视与一体的家庭物联网系统。基于物联网技术的发展,以设计并完善家庭内部物联网系统为根本目标,本文解释了家庭物联网监控系统所涉及的基础理论
近年来,随着比特币的兴起,区块链技术逐渐走进大家的视野,其技术特性可以解决一些社会痛点问题,给人们带来很多便利。另一方面区块链技术与其他技术相结合,如人工智能、大数据等,为其应用的实现提供了无限可能。作为区块链的关键技术,共识算法保证了区块链应用的无中心化管理以及数据一致性与合法性,然而目前大多数共识算法存在一定的不足。如部分共识协议依赖权益节点,在形成共识过程中,容易产生记账节点选择问题,也易产
随着人工智能领域的发展,语音交互技术逐渐成为人工智能发展的重点研究对象。麦克风阵列技术可以在复杂的声学环境中进行噪声抑制,提高语音质量和可懂度。由于麦克风的数量、体积及运算速度等条件的限制,大多数基于麦克风阵列的语音增强算法不能直接应用于便携式终端设备中。差分麦克风阵列(Differential Microphone Arrays,DMA)因为其具有超强方向性、波束模式频率几乎不变以及体积小的特点
随着信息技术的高速发展以及大数据时代的来临,数据的不断增长和积累使得各个领域都面临着处理海量数据的压力,如何快速有效的从大规模数据中收集有实际意义的信息是当下研究的重要内容。支持向量机作为一种关键的数据挖掘方法,具有完善的理论基础、较强的泛化能力以及全局最优解获取能力,然而其只适用于较小规模的数据集,在处理大数据时会产生巨额的计算复杂度。随着Map Reduce等分布式框架得到广泛应用,通过改进传
柔性印刷电路板(FPC)被广泛应用于智能手机和液晶电视,随着现代社会电子产品的大量使用,FPC电路板需求量大大增加的同时也将会越来越倾向于轻薄化,那么FPC的精密程度和制造的复杂程度也将渐渐增大,此时对于FPC电路板的质量把控将会更加严格。目前FPC的外观缺陷主要还是依靠人工目检,这对于人力的消耗是极大的,并且越发高密度的线路将使人工目检极为困难,随着物联网时代的到来以及机器视觉的飞速发展,制造行
随着量子通信的迅猛发展,量子网络领域的相关研究逐渐成为现代量子科技的之一重要发展方向。量子网络作为量子通信的可靠平台,借助具有稳定相干和低耗散的光子作为传输载体,在由量子网络节点连接的量子通道中传输,能够形成快速且安全的通信。非互易光传输是指在光子在往返方向的传播出现不同的散射属性。非互易光学元器件在构成量子网络中起着重要的作用。其一可以保护光学器件,如激光发射器等不被反射回的光能量损坏;其二可以
合成孔径雷达(Synthetic Aperture Radar,SAR)因其具有全天候、高分辨率成像,不受天气和光照影响的特点,在灾害监测、资源勘查、农作物估产以及军事方面有着广泛的应用。近年来,深度学习理论已广泛应用于SAR图像中人造目标和地物的分类,取得了比传统方法更好的分类效果。特别是卷积神经网络(Convolutional Neural Network,CNN)的应用,迅速地推动了SAR图
毫米波技术在通讯、成像系统、射频天文以及临床医学等领域占据有利地位,毫米波技术的发展对行波管提出大功率、高增益、小型化的要求。慢波结构作为重要的注-波互作用场所,其性能指标对行波管特性起决定性作用。耦合腔和螺旋线是获得广泛应用的两类慢波结构,耦合腔作为热耗散性能较强的全金属结构,常用于大功率行波管。但是,其工作带宽比较有限。螺旋线结构色散较为平坦,带宽可以达到两个倍频程以上。然而,随着功率的提升,
随着计算机技术的高速发展,电路系统所占的比例越来越大。在数模混合电路中的大部分故障来源于模拟电路部分。模拟电路由于其连续性,非线性及元件参数的容差性等特点,使得诊断过程十分复杂。通常大家所认为的故障是永久故障,其实还有更为特殊的瞬时故障和间歇故障,其中瞬时故障和间歇故障的表现非常类似,因此它们之间没有严格的区别。在此,可以将两者统称为间歇故障。恶劣的工作条件会导致模拟电路间歇故障经常发生,间歇故障
土壤碳循环是土壤生态系统元素循环的核心,也是土壤氮、硫、磷循环的驱动因子。研究森林植被的改变引起的土壤微生物的改变,微生物又会改变地下土壤中的元素循环,对全球环境治理有重要意义。竹子因具有较高的经济价值,据不完全统计,我国竹林的面积增长速度非常快,可达到每年3%左右的速度,扩张的面积达五万公顷之多,对周边森林的生态系统造成的严重影响,同时竹林扩张作为植物入侵的一种特殊现象,被国内学者关注。本研究试