论文部分内容阅读
论文综述了中文文本分类中自动分词、文本表示、特征选取和分类模型几个部分的研究现状和研究方法。每个部分都有多种实现技术,不同的实现方法对分类系统性能的影响也不同。如何进行合理的技术组合,组成一个具有较高性能的分类系统框架,是论文的一个研究思路。论文实现了多个代表性技术,组成多个分类系统,最后通过对实验结果的分析指出了一个实用性较强的文本分类系统。
论文讨论了三种文本表示方法:布尔表示法、TF表示法、TF-IDF表示法。这三种方法对于不同的分类模型具有不同的影响,多数研究文章中并未提及。论文通过实验得出,对于KNN分类模型来说,布尔表示法是最好的。
目前应用中的特征选取方法大都是基于阈值的过滤法,这种方法不能准确地过滤出对分类重要的特征项。20世纪80年代波兰数学家Z.Pawlak提出的一种数据分析理论——粗糙集理论,它可以在保持分类能力不变的前提下,进行知识约简。许多研究表明用基于粗糙集理论的约简方法约简所得的特征项集可以很好地表达分类信息,应用于分类系统中具有较高的分类性能。论文中提出了一种新的基于粗糙集的约简算法——贪心算法,经过实验表明,该算法与现有的其中几种算法相比,具有更好的约简效果。
KNN分类模型是应用广泛的一种分类模型,对于它的改进算法也有多种,但不太理想。本文提出了一种新的改进算法,实验证明,相对于传统的KNN算法,该算法具有更好的分类性能。
最后通过理论分析和实验比较,得出一种性能优越的中文文本分类系统。