基于MapReduce的奇异值分解及PCA算法应用研究

来源 :东北大学 | 被引量 : 2次 | 上传用户:asd17844412dsf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网已经成为世界交流和工作的主要工具的今天,虽然电脑硬件不断的更新换代,但硬件处理速度依然跟不上数据增长的速度,而数据的膨胀很明显为数据的处理分析带来一定的难度,当前许多算法很难处理大规模的数据集,而将算法并行化是解决这个问题的很好途径,因此如何将现有的算法并行化处理大数据集就成为了当今计算机研究领域的热门方向。在对数据进行挖掘分析的大多数算法中,主成分分析算法(Principal Component Analysis)是一种常用的对数据矩阵进行分析,通过提取矩阵主要特征以达到降维目的算法。本文通过对目前PCA并行化问题的研究成果进行总结,分析这些成果的优势和缺陷,发现以往PCA并行程度并不完全,特别是特征值进行计算的过程。在对PCA的相关研究文献进行研究后发现,奇异值分解算法本身在并行程度上要好于传统的特征求解算法,同时奇异值分解本身能够处理任意类型的矩阵,因此在PCA的并行化问题上可以采用并行化奇异值分解算法间接完成PCA算法的并行化。本文将整个PCA算法流程分为两个阶段,即相关系数矩阵求解阶段和矩阵的奇异值分解阶段,其中算法的主要核心问题是如何实现并行环境下对矩阵的奇异值分解。本文通过当前最流行的并行框架MapReduce,融合矩阵的QR分解,提出了一种新的奇异值分解的并行实现方法。通过实验数据验证并行算法的计算速度,利用随机产生的不同维度大小的双浮点矩阵比较并行奇异值分解相对传统串行环境下的算法效率提升情况,并分析算法效率。之后,我们将并行奇异值分解融合进PCA算法中,同时提出相关系数矩阵并行计算过程,将PCA计算的两个部分完全并行化。之后利用不同维度的矩阵比较本文并行PCA算法,已存在的未完全并行PCA算法和常规的PCA算法进行运算速度比较,最终得出本文算法在处理一定规模的大数据时时间消耗要少许多。同时,本文利用所研究的并行SVD算法与传统PCA算法相结合,得出一种新的基于MapReduce的并行PCA算法,同时我们还提取了经济、医疗、运动竞技三种截然不同的应用数据,通过PCA的计算提取我们通过实验总结分析产生结果的实际意义,保证算法在实际生活中的应用价值。
其他文献
成册文档是指装订成册的书目、资料等印刷材料。成册图像的扫描是通过人工翻页并由摄像机进行采集。在成册图像扫描过程中,由于文档的摆放位置的不同可能会造成的文档图像倾
近年来,随着人们生活水平的提高,对海产品的需求量增大,工厂化循环水养殖蓬勃发展。在循环水养殖中,多采用生物方法去除有机物和氮盐等有害物质,其中生物膜法因其具有高效的微生态系统和强抗冲击能力等诸多优势而获得广泛应用,移动床生物滤器(MBBR)是循环水养殖系统水处理过程中的核心单元。地下海水水质良好且供水稳定,是我国海水工厂化养殖的重要水源之一,由于地下水还原性强,且具有较低的p H,使得地下水铁锰离
序列挖掘一直为数据挖掘中一个非常重要的分支,从Agrawal和Srikant在1995提出序列的概念之后,越来越多的学者投入到这个课题的研究。随着数据挖掘相关技术的发展,数据挖掘将
随着网络的应用越来越普及,人们对网络的研究也越来越深入,所以各种新型网络技术相继被研发。向量网就是在该背景下被研发出的新型网络架构之一,相比于其他的网络,它在可扩展
随着嵌入式系统复杂性的提高,越来越多系统设计者开始使用基于模型的开发环境进行系统设计。MATLAB/Simulink/Stateflow套件作为应用最广泛的基于模型的开发环境之一,被大量
在计算机领域中,基于通用指令集硬件架构的虚拟化技术极大地推动了云计算等新兴产业的发展。参考这种思路,在互联网领域中,为了克服网络结构越来越“僵化”,网络流量越来越爆
随着互联网的快速发展,多媒体业务占据了现有网络的大部分流量,而以IP地址为核心实现端到端通信的现有网络架构在传输以内容分发为主的业务时面临着冗余传输、安全性等一系列
随着互联网和物联网技术的飞速发展,大量数据信息以爆炸模式增长,“大数据时代”成为了人们对于当前信息社会最有力的概括。因此,大数据的高效管理和有效分析处理是当前工业
互联网已经成为信息社会中的重要基础设施,现有TCP/IP体系结构在移动性、可扩展性、安全性等方面面临诸多挑战。作为一种革命式的解决方案,信息中心网络(Information-Centric
本文以习近平主席在“一带一路”国际合作高峰论坛期间的开幕式演讲、开幕辞和一系列发言,总共11场讲话作为研究语料,以定性分析为主对其中的言语行为理论进行分类归纳,和必要的定量分析,进行生态话语分析。通过认知语言学中的隐喻扩展,笔者将言语行为中的语力,类比为物理领域中的力,构建了语力分析模型,分析这种力的构成成分、力的作用原理。笔者基于生态语言学的视角,对语力模型进行分析,得出语力分析模型具有两个要点