基于粗糙集理论的中文文本自动分类的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:piliwuhen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文综述了中文文本分类中自动分词、文本表示、特征选取和分类模型几个部分的研究现状和研究方法。每个部分都有多种实现技术,不同的实现方法对分类系统性能的影响也不同。如何进行合理的技术组合,组成一个具有较高性能的分类系统框架,是论文的一个研究思路。论文实现了多个代表性技术,组成多个分类系统,最后通过对实验结果的分析指出了一个实用性较强的文本分类系统。 论文讨论了三种文本表示方法:布尔表示法、TF表示法、TF-IDF表示法。这三种方法对于不同的分类模型具有不同的影响,多数研究文章中并未提及。论文通过实验得出,对于KNN分类模型来说,布尔表示法是最好的。 目前应用中的特征选取方法大都是基于阈值的过滤法,这种方法不能准确地过滤出对分类重要的特征项。20世纪80年代波兰数学家Z.Pawlak提出的一种数据分析理论——粗糙集理论,它可以在保持分类能力不变的前提下,进行知识约简。许多研究表明用基于粗糙集理论的约简方法约简所得的特征项集可以很好地表达分类信息,应用于分类系统中具有较高的分类性能。论文中提出了一种新的基于粗糙集的约简算法——贪心算法,经过实验表明,该算法与现有的其中几种算法相比,具有更好的约简效果。 KNN分类模型是应用广泛的一种分类模型,对于它的改进算法也有多种,但不太理想。本文提出了一种新的改进算法,实验证明,相对于传统的KNN算法,该算法具有更好的分类性能。 最后通过理论分析和实验比较,得出一种性能优越的中文文本分类系统。
其他文献
细分曲面是用低分辨率的控制网格和定义在该网格上的细分规则来表示光滑曲面的。由于细分曲面不但解决了计算机图形学中遇到任意拓扑和一致性表示的问题,而且还保留了传统NURB
本文从分析当前e-Learning的现状开始,针对面临的问题,结合信息技术的发展,提出了构建P2POES平台的方案。该平台是基于P2P网络的,分布在该平台上的学习资源是以Web服务的形式封装
未来的通信网络和数据网络将融合成为一个基于IP的单独网络,这个单独网络的核心网络将采用多协议标签交换(MPLS)技术来实现流量控制以及服务质量(QoS)[1]。相对于IPv4协议的地
通信是多移动机器人在实现团队合作时的关键因素之一。在实际应用时往往面对的是动态、复杂、非结构化的,没有或缺乏固定网络设施的环境,在这种环境中,Ad Hoc网络比一般的网络表
由于环境的复杂多变,需求的不确定性,致使实现企业核心业务功能的信息系统的开发和维护都处于一种被动的状态,系统开发和维护人员因此承受了巨大的压力。由于开发人员并不十分精
随着数据库技术的飞速发展及数据库管理系统的广泛应用,数据库不仅在数量上快速增长,规模也越来越大。激增的数据背后隐藏着许多重要的信息,对其进行更高层次的分析,能促进信息的
。 本文就客户管理系统中的几个相关要点:客户维系管理、客户挽留管理和离网客户管理等展开分析论述。较为详细地说明了与要点相关的几个功能模块的结构和需求,以及各个环节
XML(ExtensibleMarkupLanguage)是用于表示Web上数据和文档的通用标记语言,在很短的时间内就获得了广泛的认同,已经成为网络环境下主要数据交换的标准之一。目前大量计算机应用
随着经济信息化和全球化,市场竞争越来越激烈,组织机构要想在竞争中求得生存,就必须设法降低经营成本,快速开发和提供新的产品和服务,为了提高企业竞争力,越来越多的企业开始使用工
近年来,随着第三方物流行业的迅速发展,第三方物流企业间的竞争也日益加剧。如何实施客户策略以便在激烈的市场竞争中立于不败之地,是企业目前最为关注的问题。通过对企业客户进