基于信息粒度原理的文本分类方法的研究

来源 :北京工业大学 | 被引量 : 21次 | 上传用户:huaxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,我们需要对网络中纷繁芜杂的信息进行合理的组织与分类。论文以网络文本信息处理为背景,从理论和应用的角度对文本信息的聚类、分类方法进行了较为深入的研究。研究的主要内容包括文本信息的描述与特征提取;基于信息粒度原理的文本聚类/分类方法;概念空间的性质及其在文本聚类、分类中的应用等。论文取得了以下研究成果: 论文首先设计了自动文本分类系统的总体方案,在总体设计的框架下实现了基于类中心分类法的文本分类系统,验证了总体设计的正确性和可行性。 论文在研究文本信息描述和特征提取方法的基础上,设计、实现了一种简单实用的特征提取算法。该算法在文本分类系统中取得了较好的效果。论文研究了文本描述的权重计算方法,通过权重的迭代收敛性质引入了“概念空间”的概念,推导了概念空间中文本表示和降维的方法及相关性质。 论文设计并实现了一个基于信息粒度原理的文本聚类/分类系统,从理论和应用两方面对基于信息粒度原理的文本聚类/分类方法进行了研究。论文运用信息粒度原理,分析了文本聚类结果与专家先验知识的不一致性的本质,在非均匀粒度下,统一了专家的先验知识和特征空间中文本的客观描述,从而大大提高了文本分类的正确率。 论文在概念空间中改进并实现了基于信息粒度原理的文本聚类/分类算法,对概念空间的性质和特点进行了研究,利用概念空间的正交性,来克服词频空间特征项之间的相关性,利用概念空间的特征提取性质,来滤除噪声、降低特征维数,从而提高了分类系统的效果。实验结果表明,在概念空间中应用基于信息粒度原理的文本聚类/分类方法,无论是分类效率还是分类正确率都高于词频空间中的结果,有效地改善了文本分类系统的性能。 论文针对文本分类中的兼类问题,设计了一种将模糊逻辑与基于信息粒度原理的文本聚类/分类方法相结合的模糊模式分类算法。 论文设计、实现的文本分类系统在实际应用中取得了较理想的效果,其研究成果对文本聚类/分类方法的研究具有参考价值。
其他文献
随着我国不断加剧的人口老龄化现象,落后的养老产业已经无法满足日益增长的养老需求。因而,对现有有限资源的最大化利用就成为亟待解决的重要问题。应用决策树分类算法,建立
模式识别是人们日常生活、工作、学习中的基本活动,须臾不可或缺。视觉是人类最完善的感知系统,图像载体可以提供多维信息,在相当多的情况下是任何其他信息形式不能替代的。因此
在简要介绍调压铸造工艺流程的基础上,本文提出了TY-1型调压铸造控制系统的设计方案。在手动控制系统方面,论文中主要叙述了手动控制电路的设计,包括电磁阀控制电路的设计、期望