【摘 要】
:
数据挖掘是从数据中挖掘有用、有趣的知识的过程,关联规则挖掘是数据挖掘的主要功能之一,其目的是发现事务项之间存在的隐含关联。随着人们进入大数据时代,传统的单机关联规则挖掘算法已难以满足需求,表现出挖掘时间过长、内存无法处理待挖掘数据等问题,这促进了大数据关联规则挖掘算法的研究。在目前的大数据关联规则挖掘算法的研究中,大多是基于MapReduce并行计算模型、Hadoop分布式平台实现,并行算法的整体
论文部分内容阅读
数据挖掘是从数据中挖掘有用、有趣的知识的过程,关联规则挖掘是数据挖掘的主要功能之一,其目的是发现事务项之间存在的隐含关联。随着人们进入大数据时代,传统的单机关联规则挖掘算法已难以满足需求,表现出挖掘时间过长、内存无法处理待挖掘数据等问题,这促进了大数据关联规则挖掘算法的研究。在目前的大数据关联规则挖掘算法的研究中,大多是基于MapReduce并行计算模型、Hadoop分布式平台实现,并行算法的整体性能仍然取决于核心关联规则挖掘算法的性能。对此,本文研究关联规则挖掘的一种高效算法PrePost,充分分析它存在的问题,在此基础上提出一种改进算法Prune-PrePost,继而提出基于MapReduce计算模型的并行化算法MRPrune-PrePost,并将其应用于滑坡变形的规律挖掘。本文的主要工作如下:(1)研究关联规则挖掘的一种高效算法PrePost,充分分析了它存在的问题。PrePost算法通过N-list的交叉运算来挖掘频繁项集,事实证明,它是高效的算法。但是充分分析PrePost算法后发现它存在如下的问题:挖掘频繁2-项集的时间消耗很大;算法剪枝程度不够,仍然存在大量的候选项集需要验证频繁性。(2)提出了一种改进算法Prune-PrePost。针对PrePost算法存在的问题,本文提出了一种改进算法Prune-PrePost,算法的改进点如下:首先,提出一种“确定频繁项集——求项集相关信息”的方式挖掘频繁2-项集,整个过程不需要产生候选项集,也不需要后续的验证其频繁性,从而提升算法挖掘频繁2-项集的性能;其次,提出一种更大程度修剪项集搜索空间的剪枝策略,Prune-PrePost引入一种集合-枚举树的结构,用集合-枚举树代表搜索空间,继而提出一种基于项集的超集等价性质的剪枝策略,这种剪枝策略能够修剪更多的频繁项集的搜索空间,从而促进算法整体性能。本文对提出的Prune-PrePost算法进行实现,并通过大量实验验证其性能。(3)提出了基于MapReduce计算模型的并行化算法MRPrune-PrePost。本文提出Prune-PrePost基于MapReduce计算模型的并行化算法MRPrune-PrePost,并对Hadoop集群节点负载进行优化,提出一种负载均衡的分组策略,该分组策略能够较好地平衡集群中各节点间的负载,从而提升并行算法整体性能。另外,为了使最终挖掘结果更利于获取感兴趣的信息,本文提出一种输出项的top-K频繁项集的方法。本文搭建Hadoop分布式集群,对提出的MRPrune-PrePost算法进行实现,并通过大量实验验证其性能。(4)基于MRPrune-PrePost算法,结合海量监测数据,研究了滑坡变形对诱发因子的响应规律。本文结合三峡库区白水河滑坡多年的监测数据以及其它环境数据,基于MRPurne-PrePost算法挖掘了白水河滑坡对降雨及库水位的响应规律,并取得了一系列有用的规则。
其他文献
铝暴露途径十分广泛,暴露剂量不可预知,因此铝元素对人体暴露及随之产生的毒性作用难以避免。利用螯合剂和天然抗氧化剂拮抗铝的毒性已成为一种现代的方法。本研究从动物和细胞水平探究绿原酸(Chlorogenic acid,CGA,5-O-咖啡酰奎宁酸)对铝毒性的保护作用及机制。首先在动物水平上探究绿原酸对急性铝暴露小鼠肝脏和血液毒性的预防和保护作用。将8周龄雄性昆明小鼠在急性铝暴露(单次腹腔注射25 mg
自然场景下的文本检测是自然场景图像信息提取的基础,在车牌识别、实时翻译、图像检索等领域具有广泛的应用价值及研究意义。基于连通区域的方法是自然场景文本检测中最为常见的方法,其中最大稳定极值区域(Maximally Stable Extremal Regions,MSER)算法和颜色聚类算法都有着广泛的应用。针对传统MSER算法及传统颜色聚类算法的局限性,本文提出基于图像增强MSER与改进颜色聚类的自
视频标注涉及到计算机视觉和自然语言处理两个领域,是一个非常有挑战性的任务。同时,视频标注也有非常广泛的实际应用前景。现阶段,完全用人工的方式进行视频标注无疑可以获
随着互联网技术的发展和移动设备的普及,基于互联网的景点、酒店等个性化信息服务日益增多,这些信息数据的重要性也日趋凸显。面对日渐积累的庞大的信息数据,如何从这些数据资源中发现出更深层次的联系和规律而非表面的关系成为了国内外学者研究的热点。作为数据挖掘领域中的重要方法,空间密度聚类算法与特征加权算法被广泛地应用于数据分析与处理中。论文通过对景区兴趣点信息及景区文本数据进行分析,采用空间密度聚类算法DB
图像显著性检测通过模拟人类视觉注意机制自动过滤图像中的冗余信息,检测出显著区域,使其在诸如图像分割、图像缩放剪辑、图像检索以及目标重定位等领域有着广泛的应用前景。
物理教师的物理学科教学知识(Physical Pedagogical Content Knowledge,简称PPCK)是一种将物理学科知识以学生最能够接受的形式进行教学的物理教学知识。它是物理知识与教学知识有机结合的教师知识,对教师的教学行为有很大的影响。本文根据Shulman的学科教学知识(Pedagogical Content Knowledge,简称PCK)相关理论设计了一个包含关于学生的
车载雷达作动系统由众多零件装配而成,零件装配特征误差的累积会直接影响车载雷达天线阵面的位姿精度,从而对雷达工作性能造成影响。传统公差分析与设计往往以二维尺寸链为主,难以有效地表达公差之间的耦合关系以及机构末端零件的位姿要求。三维公差分析通过在三维空间上描述装配特征的变动,能够将二维尺寸链无法表达的公差耦合关系引入机构的装配误差传递模型,使得装配误差的分析结果更加直观和精确。本文以车载雷达作动系统中
在高智能化、信息化、数字化的时代背景下,所需处理的数据量剧增,再加上人们对数据处理效率及速度的要求越来越高,因此,传统的奈奎斯特采样定理已进入瓶颈期。压缩感知的提出
RC4流密码算法广泛应用于网络安全传输、流媒体加密、电子信息加密等领域。随着互联网时代的高速发展,信息网络提供更多便捷服务的同时安全问题也悄然增多,RC4算法受到严重威胁,面临严峻挑战。针对RC4算法密钥流序列随机性不高,易受故障引入攻击、区分攻击、状态猜测攻击和“受戒礼”攻击的问题,提出一种基于椭圆曲线和随机数产生器的RC4改进算法。首先,在密钥编制算法中利用随机比特产生器和随机大素数生成种子密
听觉中脑编码周期性信号时频特征的机制之一是锁相反应,其编码信息向上传递至更高级中枢供其整合以实现听觉系统的言语感知。然而听觉中脑的锁相编码机制如何影响听觉言语感知尚不确定。本文第一部分研究了引发听觉中脑神经元锁相编码的具有不同时序调制特性的谐波复合体对中文言语感知的影响。选取手工标注好声韵母边界的中文语音感知语料库,改造语音样本中的韵母段语音为4种谐波复合体,其它部分不变,得到4种改造言语信号,连