论文部分内容阅读
随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,我们需要对网络中纷繁芜杂的信息进行合理的组织与分类。论文以网络文本信息处理为背景,从理论和应用的角度对文本信息的聚类、分类方法进行了较为深入的研究。研究的主要内容包括文本信息的描述与特征提取;基于信息粒度原理的文本聚类/分类方法;概念空间的性质及其在文本聚类、分类中的应用等。论文取得了以下研究成果: 论文首先设计了自动文本分类系统的总体方案,在总体设计的框架下实现了基于类中心分类法的文本分类系统,验证了总体设计的正确性和可行性。 论文在研究文本信息描述和特征提取方法的基础上,设计、实现了一种简单实用的特征提取算法。该算法在文本分类系统中取得了较好的效果。论文研究了文本描述的权重计算方法,通过权重的迭代收敛性质引入了“概念空间”的概念,推导了概念空间中文本表示和降维的方法及相关性质。 论文设计并实现了一个基于信息粒度原理的文本聚类/分类系统,从理论和应用两方面对基于信息粒度原理的文本聚类/分类方法进行了研究。论文运用信息粒度原理,分析了文本聚类结果与专家先验知识的不一致性的本质,在非均匀粒度下,统一了专家的先验知识和特征空间中文本的客观描述,从而大大提高了文本分类的正确率。 论文在概念空间中改进并实现了基于信息粒度原理的文本聚类/分类算法,对概念空间的性质和特点进行了研究,利用概念空间的正交性,来克服词频空间特征项之间的相关性,利用概念空间的特征提取性质,来滤除噪声、降低特征维数,从而提高了分类系统的效果。实验结果表明,在概念空间中应用基于信息粒度原理的文本聚类/分类方法,无论是分类效率还是分类正确率都高于词频空间中的结果,有效地改善了文本分类系统的性能。 论文针对文本分类中的兼类问题,设计了一种将模糊逻辑与基于信息粒度原理的文本聚类/分类方法相结合的模糊模式分类算法。 论文设计、实现的文本分类系统在实际应用中取得了较理想的效果,其研究成果对文本聚类/分类方法的研究具有参考价值。