论文部分内容阅读
信息技术的发展使得信息量呈爆炸式增长,大量信息以文本的形式不断增加。作为组织和处理大量文本数据的关键技术,文本分类在垃圾邮件过滤、舆情监测以及数字图书馆等许多领域都有着广泛的应用。在对大量文本进行分类之前,文本的预处理、特征选择以及向量化等过程需要大量计算,计算时间长、内存消耗大;利用文本向量对BP网络文本分类模型进行训练时,训练时间长。为了解决以上问题,本文结合Hadoop开源分布式计算平台,利用MapReduce并行计算模型对文本分类过程中的不同阶段进行了分布式并行设计以提高对大规模文本的分类效率。首先分析了文本分类中的关键技术,并分析了Hadoop平台的HDFS分布式文件系统以及MapReduce并行计算模型。然后,利用MapReduce并行计算模型将文本分类过程中的中文分词、词频统计等预处理过程、特征选择方法以及TFIDF特征权重计算方法分解为Map和Reduce任务,使得各个过程内部可以分布式并行计算。随后,在分析了BP网络训练方式和并行策略的基础上,利用MapReduce并行计算模型在Hadoop平台上设计了一种基于数据并行和批训练方式的BP网络并行训练模型,将文本数据在各个节点上分块划分,各节点利用本地BP网络对样本子集进行计算,通过作为归约节点的BP网络累计误差、批量调整网络连接权值,完成一轮训练,经过多次迭代完成BP网络的并行训练。各个节点利用BP网络文本分类模型进行分布式并行文本分类,提高文本分类的速度。最后,通过实验验证了本文提出的基于Hadoop平台的分布式文本分类方法可以有效的提高文本分类中各个步骤的速度,并取得了不错的分类效果。本文所设计的基于Hadoop平台的分布式文本分类方法,可以利用MapReduce并行计算框架提高文本分类过程中的文本预处理、特征选择、文本向量化的效率,提高BP网络应用于文本分类时的训练效率,可以实现对大量文本的分布式并行分类。