文本分类的研究及其在网络热点事件识别中的应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:blnxy541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从上个世纪90年代中期起,互联网进入了快速发展的阶段,电子文本信息与服务站点数量呈指数级增长,人们可以更加方便快捷地在互联网上获取信息。互联网上存储着海量的网络文本信息,其中中文文本占了相当一部分比重,由于中文本身所具有的特殊性,如何准确、高效地获取有价值的中文信息成为当前信息处理领域中一个亟待解决的难题,而当前的文本分类技术为该问题的解决提供了一种可行的途径。  本文深入分析了文本分类的相关技术,从特征选择和文本分类两方面对已有方法进行了改进,最后将改进的算法应用于网络热点事件发现的过程中,其主要工作包括:  (1)深入研究传统的特征选择函数,分析各种方法存在的利弊。提出了通过加强特征词与各个文本类别之间的关联性,以及平衡正负特征对文本分类的作用,来改进信息增益特征选择方法的性能。  (2)为了解决K最近邻文本分类方法存在的时间复杂度高和K值无法确定的问题,提出了一种基于关联分析的K最近邻改进算法。利用Apriori算法对训练文本进行关联信息提取,进而确定被测文本的最近邻和最近邻数K,从而达到降低K近邻算法的时间复杂度和提高文本分类准确性的目的。  (3)将改进的特征选择方法和分类算法应用于网络热点事件发现中,实验结果表明,利用改进的特征选择方法和K近邻分类方法,能够提高热点事件发现的准确率和效率,有助于快速准确地了解社情民意。
其他文献
移动数据库是为了适应移动计算环境下的数据存取需要而产生发展起来的。采用数据复制和同步技术的复制移动数据库系统是移动数据库的一种重要模型,这种模型对移动设备在断连
海洋科学数据作为我国海洋科技创新发展的战略资源,是一个可持续发展的要素。然而传统的海洋科学数据管理平台以文字、图片等资料为主,不能较好地表达海洋信息的空间位置及可视
目前,数据存储领域的很多技术还处于研究阶段,从最初的DAS(Direct Attached Storage,DAS)模式发展到现今的网络存储模式,数据存储逐渐成为人们的研究热点。传统的存储结构采用SCS
随着信息技术蓬勃发展而诞生的网络教学,凭借其信息量大、交互性强、覆盖面广等特点,在教育领域发挥着越来越重要的作用,并日益深刻地影响着教学内容、教学方法、教学模式的变革
进入二十一世纪,计算机技术突飞猛进,随之海量的数据积累下来,这样致使以往的数据分析方法很难在大量数据集上有效的发现隐藏的信息或知识。为了解决这样的问题,数据挖掘技术
互联网的迅猛发展使其所含的信息数量激增,在这样一个无限、无序的空间里,快速、准确地查询到所需要的信息已经成为一件非常困难的事。如何能够在这浩如烟海的Internet信息世界
近年来,随着面向对象的组件化软件技术蓬勃发展,基于组件的软件开发(CBSD)日益受到重视。CBSD对软件工程产生了巨大的影响,变革了传统的软件开发方式,也给GIS的软件开发注入
入侵检测技术是对传统的安全技术(如防火墙)的合理补充。它通过监视主机系统或网络能够对恶意或危害计算机资源的行为进行识别和响应。通过与其它的安全产品的联动还可以实现
计算机软件、硬件技术以及网络技术的快速发展,不断地为各行各业带来新的契机。同时人们也意识到大量的计算资源、存储资源闲置不用造成的浪费不利于社会的发展。因此人们将
被动监测技术通过部署少量监测设备,捕获无线传感器网络中传输的数据包。这些数据包经过分析处理,可以还原出用于评价网络协议性能的传输时延等指标。研究人员依据这些指标,设计