基于概念的文本分类研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:sh_duoduo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet网络信息的激增,使得人们在面对海量的信息时感到束手无策,难以选择,而传统通过人工手段对庞大的原始文档集进行组织和整理的方法,不仅费时、费力,效果也不理想。于是为使用户从繁琐的文档处理工作中解放出来,更加便捷地认识和区分不同的文档内容,使大量的繁杂的文档条例化和系统化,并能极大地提高信息的利用率,自动文本分类作为一项具有较大实用价值的关键技术被提出,有着广泛的商业前景和应用价值。在本文中,我们针对传统的基于关键字的向量空间模型忽略了文本中语义信息的不足,提出了基于概念的文本表示方法,并用于文本分类,实现了一个基于概念的文本分类系统。首先,我们说明了本文的研究背景及意义,分析了目前国内外自然语言处理语义层的各种方法,以及利用WordNet来研究文本分类的研究现状和发展趋势。然后,介绍了传统的基于关键字的向量空间模型的文本分类的几个重要阶段,并着重介绍了其中的文本表示的相关技术和两种经典分类算法。接着,本文利用WordNet进行词义消歧,提出了基于概念的文本表示方法,并将该方法用于支持向量机(SVM)和K-近邻(KNN)分类器中,实现了基于概念的文本分类系统。最后,使用路透社RCV1新闻文本集合,分别在SVM和KNN分类器上进行基于概念的文本表示方法(CVSM)与基于关键字的向量空间模型(VSM)的2组比较实验。实验表明,前者在精确度、召回率和F1测试值上都高于后者,显示出更好的分类效果。同时,我们也在相同的数据集和文本表示方法上进行SVM和KNN分类算法的比较性实验,验证了SVM在分类性能上更优于KNN。
其他文献
随着USB技术和闪存技术的飞速发展,一种结合这两种新技术的产品——U盘应运而生。它采用闪存存储介质(Flash Memory)和通用串行总线(USB)接口,可用于存储任何数据文件和在电
随着信息技术和智能技术的发展,交通管理系统的信息化、智能化已成为发展的趋势。车牌识别系统(license plate recognition简称LPR)是智能交通系统(ITS)的核心组成部分,在现
电力变压器是电力系统中最重要的电气设备之一,及早发现变压器的潜伏性故障,是电力部门关注的一个重要问题。本文积极探索使用人工智能的方法进行变压器故障诊断,主要研究了支持向量机分类、贝叶斯网络分类以及欧氏距离分类方法。使用欧氏聚类方法为支持向量机多分类的建模提供科学的依据,将支持向量机多分类应用于变压器故障诊断中;针对朴素贝叶斯在样本较少时容易出现误判,首次提出组建朴素贝叶斯和支持向量机的组合分类器;
测井层析储层成像是储层研究的一种新方法,利用测井资料建立储层精细模型,为储层的进一步研究提供可视化平台。本文重点研究了带断层和层面约束的储层精细建模过程,并采用测
伪随机序列在通信系统中起着极其重要的作用。所谓伪随机序列是指具有某些随机特性且结构又是可以预先确定,能重复产生和复制的序列。例如,在CDMA(Code Division Multiple Acces
短期负荷预测是电力系统安全经济运行的前提,在电力系统发展日趋复杂的今天,传统的负荷预测技术越来越难以满足电力部门负荷预测精度要求,应用智能算法进行电力系统的短期负荷预测,提高负荷预测的精度和稳定性,具有十分重要的意义。在分析了电力系统负荷预测的意义和方法之后,本文在研究模糊推理和神经网络的基础上,提出了构造模糊神经网络模型的新方法,将模糊推理融入到了BP网络中,并且用遗传算法来训练网络参数,直到误
铁路轨道在使用过程中,由于行车载荷以及自然因素的作用,会使轨道表面产生各种缺陷,对列车运行的安全构成威胁。由于轨道路线长,地形复杂,人工检查和测量比较危险和困难;要对
随着经济和科技的迅速发展,人们的生活、工作越来越依赖于信息技术所提供的服务,人们正经历着一场对人类具有深远影响的信息革命,信息系统也正在成为国家建设的关键基础设施
利用植物叶片的图像特征来实现植物物种的自动识别和分类是目前的研究热点。国内外学者对基于叶片特征的提取和识别与分类进行了研究,并取得了一定的研究成果。但是植物物种
混沌理论可用来理解脑中某些不规则的活动,混沌动力学为人们研究神经网络提供了新的契机。本文对混沌神经网络做了深入的研究,从网络的拓扑结构和网络的学习和工作规则这两个