基于Hadoop的SKNN文本分类算法的设计与实现

被引量 : 0次 | 上传用户:redblackzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的高速发展,全球信息量迅猛增长,“大数据”时代已经到来。文本分类技术可以按照文本的主题对文本进行归类,从而方便组织和管理海量文本数据。经典KNN分类算法具有实现简单、分类结果稳定和准确性高等特点,但其计算量大,分类用时较长。本文提出了一种SKNN分类算法,可以有效降低KNN的时间复杂度。此外,在处理海量文本数据时,基于单机的传统文本分类技术在存储和计算能力两个方面都表现不足,开源云计算平台Hadoop提供海量数据存储和并行计算的解决方案。本文主要研究基于Hadoop的SKNN文本分类算法的设计与实现。文本预处理和文本分类是文本分类技术的两个重要的步骤。本文在文本预处理阶段的工作中,考虑到单个文本属于小文件的特点,结合HDFS分布式文件系统对数据的管理方式,设计了文本数据集在HDFS中的存储策略。分析了中文分词、去停用词、特征选择和文本表示的过程和相关计算所需的词频、文档频率等统计量,结合MapReduce计算模型,设计实现了将整个文本预处理过程进行并行化处理的方法。在对46.9M、93.8M、234M、469M和938M五个不同数据量的文本数据进行预处理的实验结果表明,Hadoop处理较大的数据更有优势,另外在处理相同数据量的数据时,多节点的集群比单节点的集群速度更快,且数据越大速度提高的效果越明显。本文在文本分类阶段的工作中,针对经典KNN分类算法的不足,提出了一种划分子类的SKNN分类算法。该算法吸收了急迫性学习算法的思想,在训练阶段通过给每个类别划分S个子类来构造初级分类器,测试文本先找出距离最近的K个子类,再从K个子类中找出最近的K个文本来判别测试文本的类别,通过降低了需要进行比较的训练文本数,减少了计算量。本文分析了SKNN分类算法的正确性和时间复杂度小于经典KNN算法。在对大量待测文本数据进行分类时,基于MapReduce的SKNN分类算法可以提高分类的效率。实验结果表明在分类准确度相当的情况下,SKNN分类算法所需分类时间比经典KNN分类算法少,另外,Hadoop处理大量文本数据分类问题能够发挥其时间上的优势。本文在文本分类技术及其并行化方面进行了研究与设计。结果表明,基于Hadoop的SKNN文本分类算法是一种有效的方法。进一步工作可以对朴素贝叶斯和支持向量机分类算法进行并行化研究。
其他文献
目的将反思功能问卷-54(RFQ-54)引入中国,检验其在我国人群样本中的信效度。方法选取635名沈阳市在校大学生作为学校组,选取同期在中国医科大学附属盛京医院心理门诊就诊、具
<正> 苏联"东方号"宇宙飞船揭开了人类飞往宇宙空間的序幕,人第一次飞上了宇宙空間。这个伟大的成就,标志着人們不再被限制在地球大气层的下面,而能够冲破大气层的障碍,从一
本课题以右旋糖酐40甘露醇注射剂为研究对象,探讨了该复方注射剂在家兔体内的药物代谢动力学及药效代谢动力学的特点,并首次建立了该注射剂的药动学药效学结合模型(PK-PD Modeli
<正>为扎实有效地开展"不忘初心、牢记使命"主题教育,牢牢把握"学习教育、调查研究、检视问题、整改落实贯穿全过程"这个基本要求,努力做好主题教育与中心工作有机融合、相互
财政体制通常可以分为事权划分、财权划分和政府间转移支付三个部分,稳定性,规范性和公平性是其主要特点。很长时期以来,财政体制相关问题都是理论界学者研究的重点,也颇受决策者
近年来,旅游业在经济中发挥的作用越来越重要,发展很迅速。作为旅游产业的起主导作用的旅行社,在旅游经济中占很重要的位置。在市场经济中,旅游企业要想在激烈竞争中得以发展
一个人可以迅速从嘈杂的交通噪音中分辨出救护车的警示声音。一个人可以排除一段音乐的干扰参加另一段旋律的演奏。一个人可以在餐厅中阅读报纸上的新闻不受旁边人们谈话的影
学校体育的对象是学生。了解学生的体育行为现状,研究影响学生体育行为的各种因素,可有效地把握和合理地运用针对性的教学改革方法,提高学校体育教学质量和群体活动的管理水
当前教育改革中的核心问题之一,是理论(理念)与实践(行为)的转化生成问题。从教师角度来看,这是一个观念生成的过程,即习得新观念、形成新行为的过程。探究观念生成过程中存
全同聚丙烯(iPP)是典型的具有多晶型的半结晶型聚合物之一,由于材料的化学特性和加工工艺的不同,等位聚丙烯主要有单斜的晶型,三斜的晶型和正交的γ-晶型三种结晶形态,其中和β