基于GPU的数据挖掘分类算法的设计与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:bat_wing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,计算机存储技术、数据库技术不断提升,人们积累了海量数据,并且积累速度不断加快。通常可将各类数据挖掘算法运行在多台计算机组成的分布式系统中,提高数据挖掘速度。在单机运行时,只能通过CPU多线程进行并行计算。GPU是一种具有高性能运算特性的多核处理器,且GPU可并行线程的数量高于CPU。基于此背景,本文目的是实现一种基于GPU多线程并行计算的分类算法。逻辑回归是一种高效分类算法,被大量应用于统计学及生物科学等方面。Mahout以JAVA语言为基础实现了多种经典分类算法,是一套被广泛使用的机器学习库。本文从软件体系、编程模型、存储器模型等多方面详细分析了GPU高性能编程。深入研究Mahout中逻辑回归算法,将具有并行特性的步骤移植到GPU高效并行计算。本文设计并实现了Mahout逻辑回归分类器的测试模块。首先,详细分析逻辑回归分类器的训练模块算法及测试模块算法中各个关键步骤,讨论使用GPU并行运算对算法进行加速的可行性。其次,重点研究测试模块算法特性并结合GPU多线程运行特性,设计基于GPU结构的测试模块算法。本文设计的测试模块算法采用CPU与GPU联合工作方式,CPU处理测试算法中复杂的逻辑运算,高度并行运算则由GPU处理。为了使算法适宜GPU并行结构高效运行,对算法中最关键的点积运算进行重新设计。同时,为了探索更高效的实现方式,将需要计算的矢量数据分别采用全局内存与零拷贝内存两种方式储存。本文最后使用了具有不同特性的多个数据集对算法进行测试。测试结果表明,该算法提高了大部分数据集分类速度,特别是对某些数据集分类过程加速明显。
其他文献
旧工业建筑是伴随着社会总体经济发展的转变、生产条件不断的升级更替所产生的历史性城市产物。遗存旧工业建筑以尺度、形态多样的外部厂区空间,建筑单体之间的联系与组合方式凸显出城市属性,又以工业厂房等建筑单体、构筑物凸显出建筑属性。一方面城市早期建设是依靠工业而发展,伴随城市发展以围绕工业区建立生活区的现状也在逐步转变,旧工业建筑所处城市位置已逐渐由城市边缘地带向城市中心区域转换,因此旧工业建筑具有城市空
随着社会的进步和教育的发展,新课程改革的步伐也日益加快,在小学语文课堂教学中进行德育渗透,改变以教师讲授和理论知识学习为主的传统教学,注重对学生情感和思想道德的培养
企业财务报告是综合反映一定时期财务状况、经营成果以及现金流量等会计信息文件,编制和提供财务报告的最终目的,是为了达到社会资源的合理配置。但现实生活中,企业管理层为了达
目的探讨Arid1a基因对于胃癌细胞周期与凋亡的影响。方法应用蛋白免疫印迹法检测AGS和MKN28胃癌细胞系中的BAF250a蛋白。在AGS和MKN28胃癌细胞系中,应用慢病毒表达系统,感染表
目的:开展壮医目诊诊断子宫肌瘤技术规范化研究。方法:通过壮医目诊观察患者左、右眼"白睛"(巩膜)和"黑睛"(虹膜)相应反映区所获得的资料,采用六步积分法进行评分及诊断,并与
<正>家庭作业是课堂教学的延伸,是巩固课堂教学效果的有效手段。可是目前小学语文作业普遍存在作业形式相对固定、灵活性少、作业量大等问题,导致学生完成作业的兴趣不高,甚