文本分类中基于k-means的特征选择算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:cao123guo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪以来信息技术的迅速发展,使互联网逐渐地成为一个巨大的信息体。面对海量的数据,我们如何对这些数据进行管理与组织,并且高速准确的从中找出有价值的内容成为现在信息科学技术领域的一大难题,文本分类技术是解决这些难题的主要技术之一,存在很大实用价值,得到广泛专注。它的实现包括了多种技术,特征选择是文本分类中一个重点技术,它对于提高运算速度,减少运算复杂性和提升分类效率有重要意义,本文主要对文本分类中的特征选择算法进行研究。特征选择算法主要分为过滤型方法(Filter)和包装型(Wrapper)方法两类。Filter方法通用性强,运行时间复杂度低,但由于独立于分类学习算法,准确率低。Wrapper方法分类准确率高,但计算代价较大,通用性差。常常将两者结合使用,优劣势相互补。常用IG,MI,ECE和CHI这几种Filter型方法进行特征选择,再结合Wrapper方法对其进行验证。这些方法都是先构造一个评估函数,用其对原始特征集合中每一个特征进行计算,并对权值的大小进行排序,选取前n个权值大的特征。在中文文本分类中,特征空间的维数远大于英文文本的特征空间,所以大规模的统计计算将会花费巨大的计算成本。本文提出一种新的特征选择算法,该方法不需要构造评估函数,利用k-means聚类的原理来进行特征选择,大大降低特征选择时间。采用根据最大最小原则改进的k-means算法,解决初始化样本的随机选择问题,再结合Wrapper方法用分类器性能对选择的特征子集进行评价。在实验中研究讨论k-means方法中两种距离的计算方法,即欧氏距离和余弦距离计算文本相似度对算法的影响,结果表明用k-means算法原理进行特征选择时余弦距离更适合应用于文本相似度的计算。同时研究讨论不同语料库上k-means特征选择方法中簇心k的取值和每个簇心中选择的特征数v的的最佳取值,由于中英文语言的差异性,k与v的最佳取值与所选取的语料库的种类和规模有很大关系。进一步在文本分类实验中研究新方法和IG,MI,ECE这几种常用特征选择方法与文档频率算法组合使用后的特征选择的效果,结合Wrapper方法使用BP网络、贝叶斯和SVM算法训练分类器,对分类结果的性能进行对比。实验结果可看出k-means特征选择算法无论是中文文本还是英文文本中都是一种行之有效的特征选择方法。本论文运用Java语言实现文本分类系统,设计了算法验证软件,在此基础上对所用方法的有效性和可行性进行验证。该系统主要分为三个模块:文本的预处理、建立分类器模型和模型评估、未知文本分类。
其他文献
随着信息产业的发展,信息整合成为目前软件业的新趋势。越来越多的行业部门开始计划并实施本部门的信息整合系统,尤其是高校,对信息整合的需求最高,由此信息整合已成为当今最具需
公钥基础设施(PKI)是在开放网络环境下提供身份认证和鉴别、并能保证信息的机密性、完整性及抗否认性的一套安全设施,目前已经成为信息安全认证领域中的主流技术。 本文首
集群系统的关键问题在于如何有效利用系统范围内的资源。负载平衡算法是实现资源高效利用的重要手段,进程迁移机制是负载平衡算法的一种有效实施机制。 本文针对集群系统
石油生产测井,尤其是水平井生产测井流体流动情况极其复杂且大部分油田均处于高含水、低产液且普遍“脱气”现象,使得油井内流体流动参数的检测难度大大增加,且目前尚未有成
  本论文采用面向对象的程序设计方法,从实验中抽象出虚拟场景对象和虚拟仪器对象。以《激光系列实验》为例,设计和实现了计算机仿真实验系统中虚拟场景和虚拟仪器的建模,包括
“区域网络化制造”是先进制造技术和网络技术相结合的产物,将给我国制造业的发展带来新的机遇。远程视频会议系统为区域网络化制造系统重要组成之一,其服务质量和敏捷性将影
电子商务作为信息时代的产物正在改变着人们的生活方式和思维方式。电子商务的高效率、低成本为企业的发展带来了新的机遇,必将成为未来信息社会商务活动的主要形式。由于电
信息技术和计算机技术的发展极大地丰富了人们获取信息,分享信息的方法。人们的日常生活中充满了高科技产品带来的便捷与喜悦,以苹果为首的电子数码产品近几年来风靡全球!随
本文就是面向具体的军事应用,研究无线传感器节点的系统结构、组成和实现技术.无线传感器节点的系统结构是本文研究的出发点.通过对现有的无线传感器节点功能的分析,抽象出传
无线视频会议系统是多媒体在无线宽带通信系统(WBCS)中的一个应用,近些年来在视频会议领域倍受人们关注。由于多媒体业务本身数据量大、实时性高和有媒体质量属性,而无线信道