基于遗传与反馈的分布式文本分类研究

被引量 : 0次 | 上传用户:boymaster
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类,是处理和组织大量的文档数据的关键且核心的技术,也是自然语言处理中的一个非常重要应用领域。然而在当今大数据背景下,分文分类的新问题不断出现。信息呈爆炸式增长,数据的海量性使得文本分类在时间方面存在极大的挑战。此外,对于有些分类问题,类的定义十分模糊和宽泛。本文结合遗传算法、相关反馈和分布式计算技术,对海量文本分类的速度与准确性问题进行了深入的研究,解决了在类的定义十分模糊和宽泛的情况下,进行有效文本分类的问题。主要工作如下:一、本文分析介绍了文本分类领域常用的关键技术和算法。着重阐述了文本预处理技术,包括文本数据集进行分词、特征选择和文本特征表示等。此外还有常用的传统文本分类算法研究,并重点探究了机器学习领域里的遗传算法以及其在文本分类中的应用。二、提出了基于遗传与反馈的分布式文本分类模型。此模型在传统的遗传算法基础上,进行了种群演化的分布式并行改进,提高了对分类模型训练的准确性。同时针对训练样本的稀缺性,引入相关反馈,提高了分类器的动态完善性能。然后针对改进的遗传算法的并行性与待处理文本的海量性特征,设计出了基于MapReduce模型的分布式文本分类算法,得到了解决这类题的基本模型。三、利用开源分布式云计算框架Hadoop,在集群模式下实现了基于上述算法模型的文本分类系统,并成功应用于北京市某研究所的项目中。通过对系统进行测试和性能分析表明,本文提出的算法模型具有良好的分类的效果。
其他文献
我国汽车工业走的是合资发展的道路,跨国关联交易在汽车合资公司大量存在,而且其中不乏非公允关联交易现象。尽管近年来国内外对关联交易的监管研究日渐盛行,关联交易引起的
介绍了威力巴流量计的性能特点及工作原理,叙述了威力巴流量计在柳钢煤气流量计量中的使用效果情况和维护注意事项。
在经济全球化的迅速推进下,各个国家国际间的贸易往来和物流流转的业务越来越多,各国对现代物流的运转能力和效率也提出了更高的要求。而在物流体系中始终占有重要地位的航运
脑血管疾病是威胁人类健康的最大杀手之一,分为缺血性脑血管疾病及出血性脑血管疾病。其中,缺血性脑血管疾病约占70%,又可分为短暂性脑缺血、脑梗塞等,发病多与动脉粥样硬化有关
精神障碍患者病程多迁延,服药时间久,药物不良反应大,治愈率低,复发率高,由于长期患病导致无法完成社会角色和承担社会责任,与正常社会生活隔离导致其精神衰退,丧失劳动能力成为精神
巴贝斯虫病(Babesiosis)是由巴贝斯科、巴贝斯属的多种巴贝斯虫寄生于脊椎动物红细胞所引起的一类疾病的总称,以高热、贫血、黄疸和血红蛋白尿为临床特征,常可导致发病动物死亡,严
目的:观察特异性免疫治疗(specific immunotherapy,SIT)治疗变应性鼻炎(allergic rhinitis, AR)的疗效和安全性。方法:筛选120例对尘螨过敏的中-重度持续性AR患者,其中69例患者使用标
延安时期的电影、摄影、幻灯等工作为中国共产党的事业和新中国的成立做出了不可磨灭的贡献,具体表现为:在极端艰苦条件下成立了我党的第一个专业电影机构,为新中国电影事业的
房车旅游是一种崭新的旅游形式,可以提供个性化、自助式的旅游服务。房车旅游包括房车、房车营地和旅游线路三大板块。其中,房车营地是房车旅游的重要物质载体,是三大板块中
21世纪的主要竞争不是企业与企业之间的竞争,而是企业自身的可持续发展和企业对供应链的管理的高度重视,供应链上价值信息的分享是我们生产计划管理的主要依据,为了更够对变化莫