基于机器学习的文本分类算法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:xiao_zhuang_lin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、数据库技术、网络技术的飞速发展和Internet的日益普及,在现实生活中,每一个领域都不断产生海量数据和信息,特别是海量的文本数据。如何自动将这些文本数据进行分类整理,挖掘出有效信息,给人们有效利用,成为一个日趋重要的问题。因此,文本数据挖掘作为一门新兴学科,逐渐成为了一门引人注目、发展迅速的领域。文本分类是文本数据挖掘中的一个基本技术,其作用是根据文本的各项特征判断其所属的预先设计的类别。它在自然语言处理与理解、信息组织与管理、内容信息过滤等领域具有非常广泛的应用。早期的文本分类采用的是基于知识工程和专家系统的方法,可是这样的方法非常复杂和缺乏灵活性。随着机器学习的兴起和发展,很多机器学习的分类器模型被引入的文本分类领域中,从不同的方面取得了不错的效果。目前,各种文本分类算法都在一定的领域里有好的效果,但都不能成为通用方法,因此,如何对现有的文本分类算法进行评估也是一个非常重要的问题。分类的精度是已经被广泛用于评估文本分类算法性能的主要度量标准之一,但是,当要处理的类分布不均匀或者分类出错的代价不相同时,精度的局限性就显示出来了。在这种情况下,AUC被提出作为一个新的评估文本分类算法性能的度量标准。已有研究表明,AUC比精度的健壮性要好,而且有它特有的排序评测功能。这样,原有的分类算法在新的评估标准下是否和原来一样有效,是一个值得关注的问题。由于新的标准的提出,目前还没有完整的实验对原有文本分类算法进行评测。本文将采用统一的文本基准集,重新对支持向量机,决策树,最近邻,朴素贝叶斯几个主流的文本分类算法进行实验比较,主要工作有:一是介绍和分析了几种主流的文本分类算法的基本原理;二是介绍了一种新的文本分类器评估标准,分析了它的评测原理以及和原有评估标准的比较;三是设计了详细的实验对几种主流文本分类算法进行测评,指出它们在新标准下的不足和今后需要改进的方向。
其他文献
即时通信是互联网中十分普及的一项应用。近年来,点对点技术在即时通信领域的应用推动了即时通信的进一步发展。然而,即时通信在给人们提供快捷方便的通信服务的同时,也带来
网上证券期货交易近年来在中国获得了突飞猛进的发展,它具有方便、及时和可获得全面信息等优点,深受广大股民喜爱。然而,个别投资者的账号被不法分子窃取并通过网上交易方式
目前,数据挖掘各项技术的应用是国内外学术界的研究热点。数据挖掘技术在许多商业应用中都取得了十分理想的效果,但是在林业生产过程中,应用数据挖掘成功的例子还不多见。本论文
随着计算机网络技术、电子通信技术的日益普及和发展,信息安全问题已经成为网络环境下各种应用亟待解决的关键技术问题。生物特征是指与人生理或行为特征自动匹配的标识,与人物
随着多媒体技术、网络和通信技术的飞速发展,人们在日常生活和各行各业中越来越多地用到数字图像信息。然而图像信息巨大的数据量给图像的存储、传输和处理带来了极大的不便,
随着互联网技术的快速发展,信息化程度的提高,很多企业数据库的数据量已经从TB级达到PB级。将这些静态的海量数据利用起来,从中挖掘出有用的知识能够很大的程度上增强企业的竞争
互联网己经进入一个崭新的时代,日益成为我们日常生活的一部分,但同时带来的安全问题也日益突出,成为一个不得不重视的问题。嵌入式平台作为一种安全、高效、低成本的平台,已
在复杂三维场景的实时绘制中,实现优秀的光照效果是评判绘制质量的一个重要标准。当今的高真实感光照通常使用全局光照模型,本文以光子映射算法为例阐述高真实感光照信息的预计
基于内容的图像检索技术是近年来研究的热点之一,它试图通过提取图像本身固有的视觉信息来表达、识别和理解图像的内容,并按照相似性度量的方法检索图像。但是人对两幅图像的
近年来,互联网在国际上得到了迅猛的发展,伴随而来的是我们对网络的依赖性也越来越大,这就使网络的安全问题变得非常重要。随着攻击者对网络系统了解的日趋深入,攻击工具与手