基于Bayes的文本挖掘算法在GPU上的设计与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:naonao7949
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网和企业信息化的迅速发展,出现了越来越多以文本形式存储的数据,如何从这些数据中获得有价值的信息成为了计算机科学与技术领域的一个挑战。文本挖掘概念的提出,为这个问题的解决找到了一个可行的方案。文本挖掘算法的效率与数据集的规模和数据维度的大小紧密相关,当文本数据的维度很大时,算法的性能就会遇到瓶颈,在单一的CPU上运行数据挖掘算法已经不能够满足用户的需求。本文基于朴素贝叶斯分类算法,结合GPU通用计算技术和CUDA (Computer Unified Device Architecture,统一设备计算架构),设计了一个可以并行执行文本分类的并行朴素贝叶斯文本分类系统,系统可以充分利用GPU的运算能力来提高文本数据挖掘的效率。本文完成的主要工作如下:首先深入研究朴素贝叶斯算法的原理以及GPU的体系架构和CUDA编程模型,对算法的步骤进行归纳划分并找出适合并行的步骤,并据此设计了能够在CPU+GPU架构上并行执行的文本分类系统。系统包含五大模块:文本预处理模块、文本训练模块、文本分类模块、分类结果评价模块和分类结果反馈模块,本文对文本训练模块和文本分类模块进行了并行化改造。最后,本文在并行任务划分、存储结构以及指令流等方面对并行分类系统进行了相应的性能优化。本文使用了不同的测试语料在CPU+GPU架构上对并行朴素贝叶斯文本分类系统进行了测试,结果表明在保证正确性的前提下,运行在CPU+GPU架构上的并行朴素贝叶斯文本分类系统具有较好的加速效果。
其他文献
在机器人研究领域中,机器视觉、听觉、触觉和力觉的研究都取得了相当多的成果,有的已达到实用的水准。机器味觉和嗅觉在食品加工业的企业管理、产品质量的检测、口味和味道的评
协议是设备在互相通信时双方都必须遵守的准则,设备中的协议实现都是由协议开发人员根据标准的协议规范文本进行开发实现的,不同的人员或者厂商的实现方式可能不同,协议一致