基于云计算的海量数据挖掘处理与研究

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:luanwf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了快速从海量且伴随噪声的数据中提取出有价值的规律和模式,使其易于被直接理解和运用,我们采用了数据挖掘技术。另一方面,基于云计算成本低、吞吐率大、容错性好和稳定性强等特点,选用云计算的方式来进行海量数据的挖掘处理。本文首先介绍了云计算的关键技术,梳理了数据挖掘的流程并给出了开源云计算平台HADOOP的核心架构。然后对数据挖掘典型分类算法SPRINT算法进行了并行优化,并深入了解云计算关键技术MapReduce编程模式,结合该模式对算法进行了进一步的封装,给出了详细的算法设计,并将算法成功移植到Hadoop平台进行分布式计算。最后,从理论上分析移植后SPRINT算法的优缺点,并通过实验验证其有效性。经验证,算法会随着集群内节点的增多而显著提升效率减少执行时间,具备良好的可扩展性和高效的处理速度,能够通过将计算量分散到其他节点,成功实现并行处理海量数据。
其他文献
BWDSP100是一款采用了超长指令字体系结构(VLIW)以及单指令多数据流(SIMD)技术相结合的32bit浮点数字信号处理器(DSP)。它是由中国电子科技集团某研究所自主设计、自主研发,拥
近几十年来,视频成像技术经历了黑白、彩色、数字、立体的快速发展过程。电影《阿凡达》的热映,拉开了立体视频的应用热潮。与传统的2D视频相比,立体视频可以产生空间立体感,
近年来,随着世界经济以及现代工业不断飞速的发展,各个领域生产规模的不断扩大,对生产控制系统以及信息的处理要求也越来越高。而分布式控制系统以其良好的性能成为用户的首选,在现代化的今天,基于现场总线的分布式控制系统更是成为研究和应用的热点。CAN总线更是成为诸多现场总线中的佼佼者,被应用到很多的生产以及生活领域,被誉为最有前途的现场总线之一本文研究的就是一种基于CAN总线的分布式电机控制系统,而不是以
随着三维表面重建技术的逐渐发展与成熟,人们为了能够重建出高精度的物体表面,不断地对该技术进行优化和改进,并将其运用于很多领域。其中,将BP神经网络应用于物体表面重建也
随着互联网的迅速发展,分布式计算正在高性能计算、海量数据处理、大规模服务器端技术等领域发挥着越来越重要的影响,成为不可或缺的支柱技术。与此同时,Java虚拟机技术的作
互联网技术的飞速发展,将我们带入了数字化、网络化的信息时代。在海量信息中,如何能快速并有效的提取有用信息成为人们研究的重要领域。文本分类技术是文本信息处理领域重要的
龙芯处理器作为我国自主研发的通用CPU,它的发展具有重大意义。龙芯处理器采用类MIPS架构。而目前基于X86架构的处理器在应用中被大量使用,这是因为无论在服务器领域还是在商业
为了缩短嵌入式产品的开发周期,保障产品质量,嵌入式系统一般采用软硬件协同设计的方法进行系统设计。在划分系统的软件和硬件之前,对嵌入式系统进行建模,能够保证系统设计不会出
随着数字电路技术和数字图像处理技术的飞速发展,利用数字图像处理技术进行动态监测和现场监控已经具有了相当高的灵敏度和可靠性。现在视频监控系统正被广泛应用于众多领域,
近年来,电信领域相关行业面临持续扩容的隐私数据信息系统的烦恼,急需通过一种完善的数据集成及加密体系技术来支撑其系统隐私数据信息的良好运转与交换。本文主题思想是将电信