基于Hadoop的分布式矩阵分解算法的研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户：jitic

【摘要】

：

在过去的几年间,快速发展的科学技术引领了数据的爆炸性增长,毫无疑问,人类社会已经进入大数据时代。在大数据时代中隐藏的大规模数据大多以矩阵形式出现,这就意味着对大规模

【作者】

：

王宇

【出处】

：

曲阜师范大学

【发表日期】

：

2004年期

【关键词】

：

非负矩阵分解大数据 Hadoop 并行分布式平台矩阵乘法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在过去的几年间,快速发展的科学技术引领了数据的爆炸性增长,毫无疑问,人类社会已经进入大数据时代。在大数据时代中隐藏的大规模数据大多以矩阵形式出现,这就意味着对大规模数据的处理,其实就是对大规模矩阵的处理。其中,非负矩阵分解NMF(Nonnegtive Matrix Factorization)作为一种高效的方法,广泛用于数据降维和特征提取方面,可以有效的减少大规模数据的复杂性运算,同时很好的表现出数据的价值,但是却存在计算过程繁琐的弊端。此外,Hadoop作为分布式计算平台活跃在大数据领域,已经与很多算法进行融合形成了新的数据处理模式,使数据运算的效率获得进一步提升。其中,Hadoop平台采用HDFS(Hadoop Distributed System)作为文件系统进行数据存储,结合MapReduce编程模型在对大规模数据的并行处理上取得显著成效。本文首先在学习多种矩阵乘法与分布式平台的基础上,通过研究MPI(Message Passing Interface)和OpenMP(Open MultiProcessing)混合编程的NMF算法,思考了在其他分布式平台上运行的可能性。在深入学习分布式平台Hadoop的同时,进一步对比了多种NMF算法的优劣与多样的矩阵相乘模式。将分布式平台Hadoop与NMF算法有机结合,利用Hadoop处理大规模数据的并行能力与NMF算法自身的数据降维特点,提出了一种新的NMF算法—HNMF(Nonnegtive Matrix Factorization based on Hadoop)算法,来实现较高的加速比。通过这种方法高效的完成非负矩阵分解的迭代更新问题,从而增进算法的计算效率,并且与MPI和OpenMP混合编程下的NMF算法相似规模矩阵的执行时间以及加速比进行比较,证明了其可行性与较高的加速效果。其次,通过研究经典的NMF结果矩阵的更新法则,对比多种矩阵乘法的计算方法,分析NMF算法中包含的矩阵相乘算法的更新步骤,在提出的两种非负矩阵分解算法CNMF(Convex Nonnegtive Matrix Factorization)和TNMF(3-Factor Nonnegtive Matrix Factorization)的基础上,分析了矩阵更新阶段的开销并提出了优化方案,并且通过实验验证了个别MapReduce阶段加速比变化情况,以及随着矩阵中非负元素数量的增多所揭示的执行时间的变化规律。

其他文献

论罗素与斯特劳森的语言哲学指称理论

指称问题是语言哲学的基本问题。罗素以他的摹状词理论分析了包含像“独角兽”“金山”这类指称“虚构事物”的专名以及包含像“当今法国国王”这类不摹状任何东西的摹状词的

期刊

指称摹状词专名描述断定三值逻辑

从THz时间波形中提取材料参数的方法和分析

THz(1012Hz)时域光谱技术是20世纪90年代发展起来的一种新型的光谱测量技术，它使用频率介于远红外和微波之间的相干电磁辐射脉冲作为探测源，利用电光取样或光电导取样的方法直

学位

THz时域光谱THz电磁辐射脉冲光学常数误差分析Drude理论

高空作业车项目的生产成本控制

近年来,随着我国大力发展基础设施建设,高空作业车产品在我国有巨大的需求和市场潜力。但是随着越来越多的企业加入到高空作业车行业的竞争中来,近五年来,高空作业车行业的竞

学位

生产成本成本控制工时定额

微博信息转发影响因素研究

基于社会化媒体数据研究信息的传播及预测，是当前网络舆情分析的一大热点。以Twitter数据为研究对象，以探寻影响信息转发的因素为研究目的，设计算法分析活跃邻居节点数对转发行

期刊

信息传播转发预测社交媒体舆情分析

目的论视角下游戏名称本地化翻译策略

随着全球化进程的加快,电子游戏产业以令人咋舌的速度开疆拓土。在引进海外游戏时,游戏本地化也逐渐引起了注意。文章以从目的论出发,以游戏名称的本地化翻译为研究对象,主要

期刊

目的论游戏名称翻译策略

大豆细胞质雄性不育“三系”异交率相关性状及其异交率鉴定方法的研究

大豆杂种优势利用落后于玉米、高粱、水稻、油菜等大田作物。原因之一是长时间内没有找到避免母本自交的有效机制。孙寰等于1993年育成世界上第一个可实际应用的大豆细胞质雄

学位

大豆细胞质雄性不育异交率相关性状鉴定方法

基于copula模型含有过多零的保险索赔中的相依关系

在汽车保险中,往往给定一个基础保费,而对于每一份保单的实际保费则根据与过去的索赔经历(索赔频率与索赔等级)密切相关的一个量(奖励或惩罚)来调整,即通过奖惩系统计算出一

学位

汽车保险奖惩系统copula模型两步过程过多的零

Cdk5通过调制抑制性神经传递限制成年视皮层可塑性

生物体在青少年时期随着不断变化的外部环境刺激,脑神经环路进行精细加工从而加速了多种感知觉的功能成熟,这个时间窗口被定义为关键期。在成年个体中可塑性迅速降低,使得脑

学位

细胞周期蛋白依赖的激酶5眼优势可塑性成年小鼠单眼剥夺初级视皮层镁兴奋抑制平衡视知觉学习

航海模拟器中单船进出港智能评估方法研究

在国家海事局海船船员评估考试过程中,尤其针对航海模拟器情景下的驾驶台资源管理等评估项目,国内众多评估机构和航海院校通常采用传统的纸质评估或主观评估的方式,其评估结

学位

航海模拟器单船进出港云模型航迹智能评估云相似度

共享领导的角色配置及其对团队创造力的影响

越来越多的企业采用跨职能团队来实现快速和柔性的行动,使其在巨浪袭来时,依然得以砥砺前行。除了技术变革外,跨职能团队正在尝试管理变革以增加自身的创造水平。工业时代传

学位

共享领导角色配置团队创造力任务冲突关系冲突社会网络分析

基于Hadoop的分布式矩阵分解算法的研究

其他学术论文