【摘 要】
:
信息科技飞速发展的今天,互联网技术也得到了迅猛发展,电子文档的数量呈现了指数级增长,海量信息为用户提供方便的同时,也给用户获取有用信息带来了不便。如何有效地帮助用户
论文部分内容阅读
信息科技飞速发展的今天,互联网技术也得到了迅猛发展,电子文档的数量呈现了指数级增长,海量信息为用户提供方便的同时,也给用户获取有用信息带来了不便。如何有效地帮助用户查找、组织和管理这些信息,并且快速、准确地找到用户所需的有用信息已成为当今研究的重要课题。正是在这样的背景之下,基于机器学习的文本分类方法逐渐成为一个日益重要的研究领域。文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。文本分类系统能够在给定的分类模型下,根据文本的内容对文本进行分类,从而更好地帮助人们组织和挖掘文本信息,因此成为信息处理领域最重要的研究方向之一,具有较大的发展潜力。文本分类具有很大的实用价值,它在信息检索和信息过滤等方面有着广泛的应用,极大地提高了信息的使用效率。本文研究的重点是通过改进传统的词语权重计算方法来提高文本分类精度。在对传统的基于词语权重的文本分类方法作了深入研究的基础上,改进传统的词语加权方法- tf-idf方法,得到一种新的词语加权方法。传统的词语加权方法只考虑tf(词频)、idf(反文档频率)两方面,并且简单地认为低频词比高频词重要,所以,往往把稀有词赋予较高的权值,但在实际当中,稀有词几乎不能作为文本的特征来表示文本。为了弥补这个缺点,本文提出了新的计算词语权重的方法,来提高分类的效率和精度。并通过实验验证了该方法的可行性和高效性。实验表明,本文提出的改进词语权重的计算方法,在数据集Reuters-21578上使用KNN分类器分类的效果,要优于传统词语权重计算方法使用KNN分类器分类的效果。实验结果证明,从评估函数精确率、召回率、F1函数三方面来看,改进的词语权重计算方法的分类效果要好于传统的词语权重计算方法的分类效果。
其他文献
当代世界是一个信息化的世界,各行各业都存在着大量的数据,人们迫切需要将这些数据转换成有用的信息和知识,以帮助他们进行商务管理,生产控制,市场分析,工程设计和科学探索等
随着社会和经济的发展,企业所面临的市场竞争也越来越激烈,如何在瞬息万变的竞争中把握住市场机会,如何确保企业制定的战略能够在全企业不偏不倚的正确、顺利实施,这些都是企业所
随着现代信息技术和网络技术的发展,高等教育呈现国际化、共享化趋势。在高等教育课程与教学方面,开放共享的课程建设理念逐渐被人们接受。因此,2003年北京市启动了精品课程
在信息安全领域,入侵检测系统(IDS)的重要性越来越受到大家的重视,对入侵检测技术的研究也因此而更加深入,这使得入侵检测系统的研发呈现出百花齐放的局面。随着IDS产品的大
随着高校招生规模的不断扩大,实验教学工作越来越繁重,实验课的安排及管理越来越复杂。目前高校的实验管理工作及信息处理基本是基于有线网络实现,甚至存在人工管理的方式,因此实
无线传感器网络是由大量密集部署在监控区域中的智能传感器节点以AdHoc方式组成的网络应用系统。虽然已经提出许多适合Ad Hoc网络的路由协议,但由于传感器节点是硬件受限设备
掌纹作为一种生物特征,具有数据量大、通用性强的优点,在各个领域均有广泛的应用前景。在刑侦领域,高分辨率脱机掌纹研究具有十分重要的理论意义和现实意义,是国家“十一五”
数字皮影表演平台是将民族艺术皮影戏用数字艺术的形式表现出来,为了能给其提供一个稳定、可扩展的运行环境,采用了集群系统解决方案。负载均衡是集群系统的核心技术,它负责均衡
“宽频带”和“非线性”是强激光科学技术领域中的两大核心关键技术,而自聚焦是其中最主要的非线性效应之一,它是使光束质量变坏和限制激光器输出功率的主要因素。宽频带激光脉
不可控剩余负荷的准确预测是微电网能源管理实现有效控制的基础,对于电力系统的可靠性、安全性和可持续发展都有着显著影响。随着电网技术的发展和微电网的出现,分布式能源得到了有效的利用。然而,不可控微电源又是分布式能源的重要成部分,其主要就是风力发电机和光伏太阳能电池板,因为风能和太阳能受到环境的约束比较大,发电量无法得到人为的有效控制。因此,为了保证微电网供电稳定,在不可控型微电源接入到微电网中必须要考