大数据环境下的并行关联规则增量挖掘算法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:kejianghaoxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速迭代与发展,各行各业产生了规模庞大、结构复杂、种类繁多的数据。从未知的数据中获取有实际应用价值的信息,是数据挖掘的主要目标。其中,致力于发现数据项之间存在的普遍联系的关联规则技术是数据挖掘的一个主要研究领域。在大数据环境下,单一计算机的运算能力已经不足以应对海量数据的高效处理需求,这使得并行化技术逐渐成为当前的研究热点。通过对传统的关联规则算法进行改进,并与分布式计算模型相结合,实现算法对海量数据的并行化处理,已经成为了一个重要研究方向。目前已提出的基于Can树的并行关联规则增量挖掘算法解决了传统的Apriori、FP-Growth等算法需要对数据库进行多次扫描的问题,在进行增量挖掘时有着较好的性能表现,并且具有了一定的并行化性能。但仍然存在以下问题:(1)如何有效地降低Can树结构的空间占用;(2)如何显著提升频繁项的挖掘效率;(3)如何进一步增强MapReduce计算集群的并行化性能。针对以上问题,在研究与分析关联规则算法以及MapReduce计算框架等相关知识的基础上,提出了两种并行关联规则增量挖掘算法:(1)基于信息熵和遗传算法的并行关联规则增量挖掘算法MR-PARIMIEG(MapReduce-based parallel association rules incremental mining algorithm using information entropy and genetic algorithm);(2)基于粗糙集和归并剪枝方法的并行关联规则增量挖掘算法MRPARIRM(MapReduce-based parallel association rules incremental mining algorithm using rough set and merge pruning)。这两种改进算法的主要研究工作如下:(1)基于信息熵和遗传算法的并行关联规则增量挖掘算法MR-PARIMIEG针对大数据环境下基于Can树的增量关联规则算法存在树结构空间占用过大、支持度阈值无法动态设置以及Map与Reduce阶段数据传输耗时等问题,提出了一种基于信息熵和遗传算法的并行关联规则增量挖掘算法MR-PARIMIEG。首先,该算法设计基于信息熵的相似项合并策略SIM-IE(Similar items merging based on information entropy)来合并相似数据项,并根据合并后的数据集进行Can树构造,从而减少树结构的空间占用;其次提出基于遗传算法的DST-GA(Dynamic support threshold obtaining using genetic algorithm)策略获取大数据环境下相对最优的动态支持度阈值,根据此阈值进行频繁项集挖掘,避免了冗余的频繁模式挖掘导致的时间消耗;最后,在MapReduce并行化运算过程中使用并行LZO数据压缩算法对Map端输出数据进行压缩,从而减少传输的数据规模,最终提升算法的运行速度。(2)基于粗糙集和归并剪枝方法的并行关联规则增量挖掘算法MR-PARIRM针对大数据环境下基于Can树的增量关联规则算法存在的树结构空间占用过大、频繁模式挖掘效率不佳以及MapReduce集群并行化性能不足等问题,提出了一种基于粗糙集和归并剪枝方法改进的并行关联规则增量挖掘算法MRPARIRM。首先,该算法设计了一种基于粗糙集的相似项合并策略RS-SIM(Rough set based similar item merge)对数据集的相似项进行合并处理,并根据合并后的数据进行Can树构造,从而降低树结构的空间占用;其次,提出了一种归并剪枝策略MPS(Merge pruning strategy)对树结构中的传播路径进行修剪合并,通过压缩频繁模式搜索空间来加快频繁项挖掘;最后,通过动态调度策略DSS(Dynamic scheduling strategy)对异构式MapReduce集群中的计算任务进行动态调度,实现了负载均衡,有效提升了集群的并行化运算能力。
其他文献
在现代社会发展中,创新型人才受到了越来越多的欢迎,因此在教育工作中,推动学生的个性化发展受到更多重视。学前教育是幼儿成长的关键时期,对其个性化的形成与发展起到了决定性的作用。基于此,本文将探讨学前教育对于幼儿个性发展的重要性,并有针对的提出推动幼儿个性发展的学前教育策略,希望可以为广大幼儿园教师提供一定的参考借鉴。
北宋台谏机构在仁宗朝得以强化,台谏合流成为趋势。在政治纷争中,台谏官往往充当了重要的角色,他们拥有独立言事的权力,可以品评朝政得失。在政治斗争漩涡中,他们或者坚持己见,以国家利益为重,对朝政得失进行劝谏,或者依附君主和宰执,掀起政治纷争的浪潮。宋代鼓励台谏言事,其中免不了夹杂着意气之争。元祐二年(1087)四五月间,围绕张舜民罢监察御史一事,台谏机构引发轩然大波。累上奏疏请求恢复张舜民的职位,这场
随着“一带一路”政策的不断推进,中国经济结构也发生了转变,汽车制造在中国制造业中占有举足轻重的地位。企业要想获得可持续的发展,必须对其进行全面的财务分析。然而,随着经济的发展,社会的进步,传统的财务分析方法日益受到了限制。而哈佛分析框架的出现则突破了以往的研究局限,从战略、会计、财务、前景四个方面进行了更全面的研究。本文的目的是在哈佛分析框架的视角对H汽车公司进行财务分析,来找出H汽车公司发展中的
本文通过对高校样板党支部的建设实践进行思考,在“对标争先”背景下为我国高校样板党支部建设提供实践经验借鉴,有效开展党建工作,全面打造具有感召力、凝聚力、组织力的基层党组织。
学位
<正>在“放管服”改革中,将部分人力资源管理的业务外包,有利于提高公共部门的管理效率,更好地为社会公共事务提供服务。人力资源管理外包的核心理念是企业为了节约成本,将人力资源管理活动中的一项或几项业务外包给专业机构,以此来减轻企业的人力成本。改革开放后,大量的外资企业涌入国内,带来了先进的人力资源管理理念和方法。我国的私营企业借鉴外资企业的经验,由传统的人事管理向人力资源管理转变,由此产生了许多的人
期刊
做好新时代宣传思想工作,筑牢和坚守意识形态领域防线,高校肩负重任、责无旁贷。高校辅导员是做好新时代宣传思想工作队伍中的重要力量和骨干力量。针对我国高校宣传思想工作中存在的两个方面的主要问题,一是当前我国高校辅导员中存在的理论水平欠缺、工作趋易避难,对学生管理和服务事务关注较多,对思想政治理论教育和价值引领的功能发挥用力不足的问题;二是受网络媒介的影响,我国高校校园中的“低头族”和“封闭族”越来越多
在建筑施工企业中,纳税筹划是十分重要的一环。特别是税务改革后,税负弹性空间明显扩大,企业通过税筹能够获取的效益空间明显增加。因此,企业必须注重科学开展纳税筹划,以减少经营过程中的税负压力,防止重负纳税等现象发生。建筑施工企业科学开展增值税筹划,可以有效提升利润和效益;反之,如果税筹不当,极易引发涉税风险。因此要求企业在税筹过程中严守税法界限。本文以建筑施工企业为研究对象,结合增值税筹划过程中面临的
随着我国工业自动化的快速发展,传统的仪表人工采取方式由于自身的种种局限,已经逐渐无法满足工业自动化中高实时性和高鲁棒性的采集要求。因此在技术进步和工程实际需求的推动下,智能巡检方式逐渐得到了广泛应用,其中基于神经网络技术更是凭借其识别精度高以及运算速度快等优势成为了机器视觉方法中的重点研究内容。本文的研究目的是通过较少的成本,设计并开发出一套指针式仪表识别读数系统,用于变电所等复杂环境下指针式仪表
现代大跨桥梁的刚度小、阻尼比低,在常遇风速下可能发生大幅涡激振动现象,不仅威胁结构和行车的安全,还会带来较大经济损失和不良社会影响。气流流过主梁时产生的周期性旋涡脱落是诱发主梁涡振的根本原因,掌握旋涡脱落的主要特征及机理是开展桥梁涡振性能及控制研究的重要前提。然而,主梁的宽高比大、形状不规则、面临的雷诺数高,导致其绕流场十分复杂,依靠风洞试验方法难以揭示其旋涡脱落机理。因此,本文基于计算流体动力学