论文部分内容阅读
随着移动互联网和企业信息化的迅速发展,出现了越来越多以文本形式存储的数据,如何从这些数据中获得有价值的信息成为了计算机科学与技术领域的一个挑战。文本挖掘概念的提出,为这个问题的解决找到了一个可行的方案。文本挖掘算法的效率与数据集的规模和数据维度的大小紧密相关,当文本数据的维度很大时,算法的性能就会遇到瓶颈,在单一的CPU上运行数据挖掘算法已经不能够满足用户的需求。本文基于朴素贝叶斯分类算法,结合GPU通用计算技术和CUDA (Computer Unified Device Architecture,统一设备计算架构),设计了一个可以并行执行文本分类的并行朴素贝叶斯文本分类系统,系统可以充分利用GPU的运算能力来提高文本数据挖掘的效率。本文完成的主要工作如下:首先深入研究朴素贝叶斯算法的原理以及GPU的体系架构和CUDA编程模型,对算法的步骤进行归纳划分并找出适合并行的步骤,并据此设计了能够在CPU+GPU架构上并行执行的文本分类系统。系统包含五大模块:文本预处理模块、文本训练模块、文本分类模块、分类结果评价模块和分类结果反馈模块,本文对文本训练模块和文本分类模块进行了并行化改造。最后,本文在并行任务划分、存储结构以及指令流等方面对并行分类系统进行了相应的性能优化。本文使用了不同的测试语料在CPU+GPU架构上对并行朴素贝叶斯文本分类系统进行了测试,结果表明在保证正确性的前提下,运行在CPU+GPU架构上的并行朴素贝叶斯文本分类系统具有较好的加速效果。