论文部分内容阅读
随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,己逐渐成为处理和组织大量文档数据的关键技术。而对于采用矢量空间模型的大多数文本分类器来说,文本预处理一直是分类的瓶颈,文本预处理结果的好坏直接影响着分类器的分类性能。因此本文在对文本分类算法进行研究的同时,也深入研究了文本预处理的有关算法,有效地提高了分类器的分类性能。本文的研究工作主要包括:(1)对文本预处理算法的改进提出了一种新的文本特征选择算法。对于分类前的文本预处理工作来说,首先要进行文本的特征选择,选出最能代表文档特征的单词作为特征空间中的维,以期达到降低特征空间的维数、提高分类器分类性能的目的。本文在分析研究现有文本预处理算法优、缺点的基础上,对基尼指数方法进行改进,并将其用于文本的特征选择,有效地提高了分类器的分类性能。提出了一种新的特征加权算法。对于基于矢量空间模型的文本预处理来说,在进行特征选择以后,还要进行特征的加权处理,以突出重要单词对分类的影响,抑制次要单词和噪音数据。最有代表性的特征加权算法就是传统的TF—IDF方法,本文在分析研究该方法优、缺点的基础上,采用改进的基尼指数方法对其进行改进,达到了提高分类器的分类性能的目的。(2)对kNN文本分类器的改进改进了kNN文本分类器的分类决策规则。近年来,出现了众多的文本分类算法,算法的分类性能各有千秋,其中kNN分类算法被众多的研究者证明是分类性能比较好的方法之一。本文采用模糊分类的思想,通过引入隶属度函数,构建了新的分类决策公式,使kNN的分类性能得到了有效提高,在一定程度上解决了当类分布不均匀时kNN分类器的分类性能下降的问题。在模糊kNN分类器的基础之上,采用改进的基尼指数算法进行特征加权,进一步提高了模糊kNN分类器的分类性能。(3)对朴素贝叶斯文本分类器的改进朴素贝叶斯分类器是分类性能较好的文本分类算法之一,本文采用改进的基尼指数算法对朴素贝叶斯的分类决策规则进行改进,设计了新的分类决策公式,有效地提高了朴素贝叶斯文本分类器的分类性能。(4)提出了一种新的文本分类模型在众多的文本分类算法中,SVM、kNN、朴素贝叶斯分类器经众多的研究者证明是分类性能较好的三种文本分类方法。本文在研究这些算法优、缺点的基础上,提出了基于改进基尼指数的文本分类算法,该算法吸收了上述三种算法的优点,克服了它们的一些缺点,使分类性能得到了有效提高。本文从理论上给出了这种方法可行性的依据,用实验结果验证了这种方法的有效性,是一种非常有前途的文本分类方法。以上算法的可行性和有效性通过实验都得到了很好的验证。