基于Hadoop的并行关联规则算法研究

被引量 : 22次 | 上传用户:leongiggs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘中,关联规则的挖掘是一个非常重要的研究方向。关联规则算法处理的对象基本是大型数据库,计算量和I/O量非常大。大型数据库的数据通常达到了TB级甚至PB级。处理这样庞大的数据集,串行算法不能满足及时处理的要求,因此,研究适合的并行算法是必须的。传统的并行计算一般基于MPI(Message Passing Interface)实现的。基于MPI实现的平台无法处理节点失效,而节点失效对于由普通计算机组成的集群来说很难避免。Google在2004年提出的MapReduce架构能处理节点失效。MapReduce是云计算的主要基础架构。MapRedue通过把数据划分为很多块,启动多个map同时处理实现并行计算。Hadoop是MapReduce架构的开源实现。本文提出基于Hadoop的并行关联规则算法.本文提出的Hadoop的并行关联规则算法是在并行关联规则算法CD(计数分布)算法基础上实现的。对CD算法进行了改进,主要是从频繁项集推出候选集的计算只需有主进程计算一遍,候选集频度统计也只需由主进程计算一遍。为了评估算法的性能。编写了一个基于Hadoop的并行关联规则挖掘程序。搭建了一个基本的Hadoop平台。通过改变系统map能力配置和数据集规模,运行评估计算。实验结果表明,基于Hadoop的并行关联规则算法在处理超大规模的数据集时具有优势。在处理小规模的数据集时,由于每次计算集群部署和退出任务要花掉一些时间,计算资源浪费比较严重,因此基于Hadoop的并行关联规则算法不太适合小规模数据集的计算。由于Hadoop平台本身能够处理节点失效,因此基于Hadoop平台的并行关联规则算法也能够避免节点失效。从试验时的监控输出来看,基于Hadoop的并行关联规则算法做到了动态负载均衡。理论和试验表明,基于Hadoop的并行关联规则算法能够处理节点失效,能够做到动态负载均衡,能够适应挖掘超大规模数据集的关联规则。
其他文献
目的讨论后牙金属烤瓷桩冠修复失败的类型、原因及防治。方法收集后牙金属烤瓷桩冠失败病例133例,并对其进行分析。结果后牙金属烤瓷桩冠失败病例的类型有瓷崩裂、金瓷冠脱落
本文主要研究5MeV/150kW辐照加速器转换靶物理结构的优化和设计。转换靶是由主靶材、水层及不锈钢基底构成的复合靶。我们依次研究最佳主靶材的选取、最佳水层厚度的计算及不
本文以交流供电的LED驱动电源为研究对象,从LED驱动电源的原理、结构、控制策略和参数优化等方面进行研究,设计了一款应用于路灯照明的大功率LED驱动电源。研究设计工作的主
随着人们对食品安全问题重视程度的与日俱增,食品检测领域的快速检测的技术越来越受到重视,而在该技术领域,生物检测技术作为一种新兴技术,其应用范围越来越广泛。本文在对食
盲源分离(BSS)在数字图像处理、语音信号处理、医学信号处理、地球信号处理、通信信号处理、遥感图像处理等等邻域取得了广泛的应用。在混合过程和源信号未知的前提下,盲源分
课堂教学能力是教师必须具备的基本能力。课堂教学能力由四个方面构成 :课堂教学设计能力、课堂教学的操作 (或传授 )能力、课堂教学的管理能力和课堂教学的自我监控能力。每
认为设计方案的技术经济比较是一项影响暖通空调设计质量和效率的重要工作.对暖通空调设计方案技术经济性比较中存在的一些问题进行探讨,从可行性、经济性、调节性、安全性及
信息化是二十一世纪的主要特征。现代信息技术的发展正改变着几千年来形成的信息传播方式,自然,农业科技信息服务方式也不例外。传统农业技术推广方式的单一化与现代农户多样
嵌入式技术在个人消费类电子如MP3播放器,MP4播放器以及日常生活领域如智能家电、车载电子设备以及网络家电中的应用,使得智能化技术开始深入到日常生活之中,极大了改变了人
设立中的公司是指,公司成立前为了最终获得可以营利的法人主体资格,而必须经历的向法人过渡的组织形式。公司的设立阶段从发起人协议制定开始至公司正式登记为止。在我国的市