【摘 要】
:
数据挖掘近年来获得了越来越多的广泛关注。对大型的、复杂的、信息丰富的数据集进行处理是所有机构组织、企业、政府部门的共同需求。Hadoop提出一个非常有效和实用的工具为
论文部分内容阅读
数据挖掘近年来获得了越来越多的广泛关注。对大型的、复杂的、信息丰富的数据集进行处理是所有机构组织、企业、政府部门的共同需求。Hadoop提出一个非常有效和实用的工具为大数据分析,能解决大数据带来的高容量、高速率和多样性的三大挑战。本文研究了基于Hadoop平台的数据挖掘算法:1.Apriori算法的主要缺陷是频繁扫描数据库。为了解决这个问题,本文通过分析MapReduce的并行思想,提出了基于Hadoop的Apriori改进算法。(1)用MapReduce类似单词计数的过程来并行扫描数据库,减少了算法频繁扫描数据库的频率;(2)对map阶段具有相同项、不同顺序的项集进行按字母排序后得出同一项集,简化了事务集。通过实验仿真比较了改进的H-Apriori算法与传统Apriori算法。2.单机的逻辑回归算法在处理大数据时需要很长的运行时间,为了解决这个问题,本文通过分析逻辑回归算法关键步骤并行的可能性,提出了基于Hadoop的逻辑回归改进算法。(1)在逻辑回归模型中增加惩罚因子防止过拟合问题;(2)利用Hadoop的数据分片制定分片长度和分片ID的思想来对预测的数据实现并行化处理。通过实验仿真比较了改进的MR-logreg算法与mahout中并行的逻辑回归算法。实验结果表明,基于Hadoop的改进算法H-Apriori和MR-logreg算法比传统算法具有更好的时间性能。
其他文献
计算机软硬件系统日益复杂,在很多系统中,测试、模拟等传统的验证方法已不能保证其正确性和可靠性。模型检测技术产生于上世纪80年代,由美国的Clarke和Emerson,法国的Quielle
嵌入式操作系统是嵌入式系统设计的核心,是控制、辅助系统运行的重要单元。Linux系统作为嵌入式操作系统杰出的代表,由于具有诸多优点,如易于开发、高效、功能强大、稳定、易
随着嵌入式技术的快速发展和其应用领域的不断扩大,单纯的文件系统已经无法满足系统和用户对大量数据处理的各种要求。因此嵌入式数据库的概念随之引入,它作为嵌入式软件的一
在并行计算中,随着问题规模增大,需要考虑如何分配负载来达到均衡。在一个由多个处理机组成的集群系统中,相互作用的任务必须分配到多个处理机上,以充分利用系统资源。许多科学计
软件需求分析是软件生命周期中关键的一步,随着软件系统规模的扩大,它直接关系到软件系统的可靠性、安全性和开发成本。因此,提高需求分析的效率和质量变得非常重要。本文给
轧钢厂高温、强振动的特殊环境决定了钢坯传送距离测量的复杂性。本课题由常州某轧钢厂激光测距传感器项目资助,项目编号:D.11─0108—07,旨在解决实时测量30至50吨重热钢坯的移
随着计算机、移动计算以及传感器网络的发展,计算变得无处不在。在数字化战场条件下,由于战场信息具有复杂性、动态性、异构性等特点,如何对分布在战场环境中的上下文数据进
传感器、嵌入式计算、网络和无线通信四大技术孕育了无线传感器网络。无线传感器网络可以被广泛的应用于军事,商业,医疗救护,环境监测等多方面。由于无线传感器网络通常由大量密
近年来国内的互联网及智能手机、平板等移动终端行业得到了爆炸式的发展和普及,极大地提升了人们的生活质量,使得电脑、智能手机、智能电视等设备成为人们生活中不可或缺的一部
P2P网络作为一种革命性的技术,在战场信息网络中发挥着重大作用。如何在海量战场信息中快速有效地找到符合用户需要的资源,为用户提供实时、可靠、准确的信息服务,实现真正意