基于Bayes方法的文本分类器的研究与实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yaleqd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从大量的数据中挖掘出有用的信息是数据挖掘的任务。随着互联网的迅速发展,web已经发展成为拥有上亿页面的分布式信息空间。在信息急剧丰富的同时经过加工的知识信息却相对匮乏,文本是互联网上主要的信息载体,因此文本挖掘就成为数据挖掘中日益流行而重要的研究课题。文本分类技术是文本挖掘的基础和核心。20世纪90年代以后,基于机器学习的文本自动分类方法越来越成为主流,它具有周期短,效率高,节省人力资源,分类结果一致性高等优点。但文本自动分类研究自开展以来,准确率一直不能达到令人满意的效果。目前,Internet信息急剧膨胀,文本分类有了广阔的发展空间,文本自动分类面临前所未有的机遇和挑战,如何提高分类准确率成为研究热点。朴素贝叶斯(Naive Bayes)分类器是当前使用比较广泛的一种文本分类方法,它应用统计理论进行文本分类。在朴素贝叶斯分类方法中,有一个“独立性假设”:给定一个实例的类标签,实例中的每个属性的出现都独立于实例中其他属性的出现,而在实际应用中这种条件并不易满足,另外由于文本的特殊性,相关的特征项可能会产生新的语义信息,而在用传统的向量空间模型表示文本时该信息极有可能丢失。本文首先对文本分类系统以及贝叶斯分类模型作了分析和探讨,包括文本信息的表示、提取,文本分类的方法以及贝叶斯方法用于文本分类的模型和算法。然后针对上述朴素贝叶斯文本分类方法的不足之处,在训练文本时,对特征选择后产生的特征项集用互信息方法考察它们相互之间的相关性,然后对相关程度较高的特征进行适当的合并处理。在本文提出并实现的文本分类系统上,我们进行了一系列的测试工作,并得到了严格的实验数据,这些实验数据都表明:这个改进的文本分类系统可以获得更好的分类效果。
其他文献
杂草的生长对农作物的生长很不利,要做到对杂草适当的防除首先要对杂草进行正确的识别。我国是一个农业大国,但是基层农业技术人员缺乏。因此,研制农田杂草识别专家系统,使之
电子政务办公应用支撑平台是一个能够支持海关电子政务办公应用系统开发的组件库,为应用系统开发提供通用功能的基于平台的实现。   本文根据政务办公业务的特点,遵从软件工
物理实验教学从开设实验到物理实验教学研究,对中学物理老师提出了更高的要求。本文从演试实验,分组实验以及课外小实验三个方面,有针对性的对中学物理实验进行了研究。 Phy
要落实数学思想方法的教学目标,要求初中数学教师:必须真正认识到数学思想方法是数学发展的内在驱动力;正确认识“思想与方法”“思想方法与知识技能”的关系;把握好“了解”