基于云计算的数据挖掘技术研究

来源 :石家庄经济学院 | 被引量 : 0次 | 上传用户:wingkong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,能为用户提供按需分配的计算能力、存储能力及应用服务能力;云计算为存储和分析海量数据提供了廉价高效的解决方案。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐藏在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,对科学研究与商业决策等多个领域起到了指导作用,具有深远的社会和经济意义。数据挖掘由于所需要用到的运算存储量均是巨大的,所以将云计算与数据挖掘相结合可以有效的控制计算成本,提升数据挖掘的效率,突破传统数据挖掘的瓶颈限制。云计算环境下的并行数据挖掘策略的研究具有重要的理论意义和应用价值。Hadoop框架作为目前业界最为有名的开源分布式计算框架,通过采用MapReduce并行化模型,有效的整合现有运算存储能力,提供强大的分布式计算能力,MapReduce也被证实为高效的计算工具。本文主要完成以下工作:1.总结云计算和数据挖掘的相关概念和技术,分析了经典关联规则挖掘算法Apriori算法及其改进算法的优缺点、Hadoop平台和MapReduce编程模型。2.基于以上基础将Apriori算法转化为MapReduce模型,实现Apriori并行化改造,同时采用一些优化方法,提高Apriori算法在Hadoop框架下的表现,最终实现具有高扩展性适合于云计算环境的MapReduce-Apriori算法。3.将算法应用于对某保险公司保单数据集的分析,结果表明,它对海量数据的处理效率明显比传统算法高,且表现出了很好的加速比。
其他文献
随着环境污染的日益严重,为了减轻汽车尾气对环境的污染,提出了汽车轻量化概念,旨在从减轻车身重量方面实现节能减排。为了实现汽车的轻量化,出现了一些新兴的材料结构,变截面辊轧
近年来,随着我国城镇化进程的加快,各种矛盾日益复杂,农民利益的维护成为一个重要课题。农民法律意识的现状不仅直接影响着农民的切身利益,对城镇化建设亦具有十分深远的现实意义
信息技术作为一门提高学生综合素质和提升学生信息能力以及创新素质的重要课程,在初中阶段越发显得重要了。针对初中学生的学习特点和实际情况,如何实现高效的信息技术课堂是
生态安全现已成为全球性议题,更是现今景观与建筑学界的研究热点。当下我国正面临着严峻的经济发展与生态安全的矛盾问题,这一问题在我国经济迅速发展的西北部尤其是生态环境影
徐州地区民歌小调是淮海地区民间音乐文化的积淀,是世代劳动人民智慧的结晶。作为苏北民歌的一个重要组成部分,徐州民歌在其漫长的岁月中形成了题材丰富、风格鲜明、形式缤纷的
目前,世界各国解决城市交通问题的主要手法是建设城市地铁系统,城市地铁系统已经成为世界各国城市公共交通的主体。在城市地铁迅速发展的同时,地铁导识系统的设计和研究也成为世
高校作为人才培养的重要场所,理应将民间美术传承人的培养作为人才培养的重要目标。为此,本文以四川美术学院为例,具体论述如何通过设置民间美术特色课程来逐步探索从三个层
国内外经验表明,工业经济在达到一定的原始积累以后,就会进入结构优化阶段,这是必然的趋势,也是量的积累的一个质变过程,只有通过发展主导产业来促进工业结构的优化,激活其内在的动
大位移井轨迹控制施工中,摩阻扭矩直接影响着定向作业作业的效率和效果。对井眼轨迹优化、滑动钻进减摩降扭工具和复合钻进进行了分析,介绍了水力加压器、水力振荡器、可变径
房地产行业是我国国民经济的支柱产业,房地产项目的成功与否决定了房地产行业的兴衰,而房地产项目的成败主要取决于项目现金流,如何对项目现金流进行管理,实现房地产项目价值最大