基于Hadoop的分布式文本分类研究

被引量 : 19次 | 上传用户:jekiyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的发展使得信息量呈爆炸式增长,大量信息以文本的形式不断增加。作为组织和处理大量文本数据的关键技术,文本分类在垃圾邮件过滤、舆情监测以及数字图书馆等许多领域都有着广泛的应用。在对大量文本进行分类之前,文本的预处理、特征选择以及向量化等过程需要大量计算,计算时间长、内存消耗大;利用文本向量对BP网络文本分类模型进行训练时,训练时间长。为了解决以上问题,本文结合Hadoop开源分布式计算平台,利用MapReduce并行计算模型对文本分类过程中的不同阶段进行了分布式并行设计以提高对大规模文本的分类效率。首先分析了文本分类中的关键技术,并分析了Hadoop平台的HDFS分布式文件系统以及MapReduce并行计算模型。然后,利用MapReduce并行计算模型将文本分类过程中的中文分词、词频统计等预处理过程、特征选择方法以及TFIDF特征权重计算方法分解为Map和Reduce任务,使得各个过程内部可以分布式并行计算。随后,在分析了BP网络训练方式和并行策略的基础上,利用MapReduce并行计算模型在Hadoop平台上设计了一种基于数据并行和批训练方式的BP网络并行训练模型,将文本数据在各个节点上分块划分,各节点利用本地BP网络对样本子集进行计算,通过作为归约节点的BP网络累计误差、批量调整网络连接权值,完成一轮训练,经过多次迭代完成BP网络的并行训练。各个节点利用BP网络文本分类模型进行分布式并行文本分类,提高文本分类的速度。最后,通过实验验证了本文提出的基于Hadoop平台的分布式文本分类方法可以有效的提高文本分类中各个步骤的速度,并取得了不错的分类效果。本文所设计的基于Hadoop平台的分布式文本分类方法,可以利用MapReduce并行计算框架提高文本分类过程中的文本预处理、特征选择、文本向量化的效率,提高BP网络应用于文本分类时的训练效率,可以实现对大量文本的分布式并行分类。
其他文献
本文着重分析裘德的性格特点,既分析他性格中美好的一面,也分析他性格中的一些缺陷。并指出他性格上的一些缺陷加剧了他人生的悲剧。
晚清的小说出现了前所未有的繁荣,这一繁荣与当时的城市发展市民人口的增长并不同步,而是由梁启超发动的小说界革命所推动的。梁启超的努力适应了当时小说家安身立命的需要,
<正>预习是教学过程的一个重要环节,也是有效学习初中英语的一个十分重要的方法。对于学生来说,不进行课前预习,在课堂上就可能跟不上老师的节奏,不能够掌握课堂上所教的知识
运用文献资料等研究方法,从人本主义的教育发展观和健康第一教育指导思想的角度出发,结合普通高校的体育课程体系实际,对阳光体育运动背景下的普通高校体育课程体系进行研究
采用文献综述法、逻辑分析法等概述GIS技术的功能及在国内外旅游业中的应用,分析GIS技术在国外体育旅游业研究中取得的成就并对在国内的应用进行展望。主要结论:国内运用GIS
伴随建筑行业的自身发展和技术革新,建设项目的交付模式也经历着不断的演化过程。由于建设项目复杂程度的日益增加以及业主对于项目利润率要求的不断提高,DBB(Design-Bid-Build
电子商务的普及和流行改变了传统商务活动行为的模式,人们可以通过网络处理越来越多的商务问题。采用多Agent技术和方法,可以部分或全部代替人完成商务活动,可以大大提高人们处
发电厂主厂房是重要的生命线工程,提高其抗震性能具有重要的意义。主厂房多采用钢筋混凝土框架结构,由于生产工艺要求,其整体结构布置复杂,且不规则,抗震性能较差。被动耗能减震技
我国现代修辞学界的鼻祖陈望道先生在继承前人成果的基础上,提出修辞手法的两大分野说:即积极修辞和消极修辞。积极修辞是具体的、体验的。在这一分野里主要对辞格和辞趣进行探
从大曲中分离筛选到7株具有产纤溶酶能力的菌株。通过菌落形态特征观察、生理生化实验并结合16SrDNA序列分析及系统发育树分析进行了菌种鉴定。结果显示,这7株菌分别为蜡状芽