论文部分内容阅读
随着科学技术的日新月异,特别是互联网的快速发展,各种信息情报激增,人们可以通过各种手段快速获取大量的文本资料,但是如何对所获取的资料进行科学而有效的管理是摆在人们面前的一个不可回避而又很有意义的课题。对文本资料进行管理,其中一个很常见的方法就是对文本进行系统的分类,这也是对文本进行进一步处理的基础。 过去对文本资料进行人工分类的过程是通读所有文章,然后根据判断对它们进行归类保存。这需要许多具有丰富经验和专门知识的分类人员做大量的工作,排除个人思维的差异,人工分类的优点是分类的准确率高,但是另一方面,其过程具有周期长、费用高、效率低的缺点,很难满足信息化社会的实际需求,因此如何运用计算机进行自动文本分类成为现代信息处理的一个研究热点。 目前文本分类所采用的主要方法是向量空间模型,该方法的思想是把文本分割成由词或字组成的特征项,进而把文本表征成由特征项构成的向量空间中的一个点。通过计算向量之间的夹角,来判定文本之间的相似程度。 向量空间模型是以特征项权重的计算为核心的一种方法,特征项权重的计算会直接影响到分类的效果。其中TFIDF函数是文本分类中得到广泛应用并且取得较好效果的一种特征项权重的计算方法,但是TFIDF函数的缺点是不能很好地把握特征项在文本集合中分布的比例,所以影响了分类的效果。 为了衡量特征项在文本集合中的分布比例,本文采用了意义信息增益的概念,改进了TFIDF方法,提出了一个新的特征项权重计算方法M-TFIDF(Modified TFIDF),兼顾了特征项在文本集合中的分布情况,并且考虑了特征项在文本集合中的分布比例,使得文本通过改进的方法计算所得特征项的权重能够更准确地表现文本的内容。而且其中考虑了意义信息,这样计算出来的结果既可以反映客观统计的特性,又可以反映主观价值和主观意义。对这种改进的方法进行了论证实验,实验证明M-TFIDF好于原来的TFIDF方法,使得分类效果有所提高,证明其有效性和可行性。