文本分类及其相关技术研究

来源 :北京交通大学 | 被引量 : 101次 | 上传用户:Lance1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,己逐渐成为处理和组织大量文档数据的关键技术。而对于采用矢量空间模型的大多数文本分类器来说,文本预处理一直是分类的瓶颈,文本预处理结果的好坏直接影响着分类器的分类性能。因此本文在对文本分类算法进行研究的同时,也深入研究了文本预处理的有关算法,有效地提高了分类器的分类性能。本文的研究工作主要包括:(1)对文本预处理算法的改进提出了一种新的文本特征选择算法。对于分类前的文本预处理工作来说,首先要进行文本的特征选择,选出最能代表文档特征的单词作为特征空间中的维,以期达到降低特征空间的维数、提高分类器分类性能的目的。本文在分析研究现有文本预处理算法优、缺点的基础上,对基尼指数方法进行改进,并将其用于文本的特征选择,有效地提高了分类器的分类性能。提出了一种新的特征加权算法。对于基于矢量空间模型的文本预处理来说,在进行特征选择以后,还要进行特征的加权处理,以突出重要单词对分类的影响,抑制次要单词和噪音数据。最有代表性的特征加权算法就是传统的TF—IDF方法,本文在分析研究该方法优、缺点的基础上,采用改进的基尼指数方法对其进行改进,达到了提高分类器的分类性能的目的。(2)对kNN文本分类器的改进改进了kNN文本分类器的分类决策规则。近年来,出现了众多的文本分类算法,算法的分类性能各有千秋,其中kNN分类算法被众多的研究者证明是分类性能比较好的方法之一。本文采用模糊分类的思想,通过引入隶属度函数,构建了新的分类决策公式,使kNN的分类性能得到了有效提高,在一定程度上解决了当类分布不均匀时kNN分类器的分类性能下降的问题。在模糊kNN分类器的基础之上,采用改进的基尼指数算法进行特征加权,进一步提高了模糊kNN分类器的分类性能。(3)对朴素贝叶斯文本分类器的改进朴素贝叶斯分类器是分类性能较好的文本分类算法之一,本文采用改进的基尼指数算法对朴素贝叶斯的分类决策规则进行改进,设计了新的分类决策公式,有效地提高了朴素贝叶斯文本分类器的分类性能。(4)提出了一种新的文本分类模型在众多的文本分类算法中,SVM、kNN、朴素贝叶斯分类器经众多的研究者证明是分类性能较好的三种文本分类方法。本文在研究这些算法优、缺点的基础上,提出了基于改进基尼指数的文本分类算法,该算法吸收了上述三种算法的优点,克服了它们的一些缺点,使分类性能得到了有效提高。本文从理论上给出了这种方法可行性的依据,用实验结果验证了这种方法的有效性,是一种非常有前途的文本分类方法。以上算法的可行性和有效性通过实验都得到了很好的验证。
其他文献
目的:观察索磷布韦联合达拉他韦治疗慢性丙型肝炎患者的效果。方法:选取72例慢性丙型肝炎患者为研究对象,依据随机数字表法分为对照组和观察组各36例,对照组采取聚乙二醇干扰
民营剧团在中华大地上的繁荣与崛起,成为满足几亿农民文化生活需求的生力军和主力军,已经是一个不争的事实。如何来认识这种繁荣与崛起的意义,及时地解决它前进道路上遇到的新问
报纸
古代小说技法论着重是指古代小说批评者对小说艺术技法所作的相关评述,就形态而言,它主要存在于小说评点以及小说序跋等批评形式之中。对古代小说技法论作专题研究,在探究古
目的:观察优质护理在CT增强扫描碘造影剂不良反应中的应用效果。方法:选取200例需要进行CT增强扫描检查的患者作为研究对象,按照随机数字表法分为对照组与研究组各100例,对照
目的:比较微型种植体支抗与口外弓支抗在口腔正畸治疗中的效果。方法:选取80例进行口腔正畸治疗的患者为研究对象。采用随机数字表法分为对照组与观察组各40例,对照组行口外
从体育事业科学发展的需要、艺术体操项目自身发展的需要、社会对艺术体操项目消费的需求三个方面探讨艺术体操项目产业发展的必要性。并在分析影响艺术体操产业发展因素的基
目的:观察DC-CIK联合FOLFOX6化疗方案治疗老年结直肠癌患者的效果。方法:选取68例老年结直肠癌患者作为研究对象,采取随机数字表法分为对照组与观察组各34例。对照组给予FOLF
目的:观察新活素治疗急性心肌梗死合并心力衰竭患者的效果.方法:选取76例急性心肌梗死合并心力衰竭患者为研究对象,按照随机数字表法分为研究组与对照组各38例,对照组接受常