基于信息熵的文本特征加权方法研究

被引量 : 0次 | 上传用户:huhf1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何在浩瀚繁杂的文本中掌握最有用、最准确的信息,始终是信息处理技术急待解决的问题。而解决这个问题较有效的方法就是对文本文档进行分类。文本分类的优劣直接关系到人们使用文本信息的效率。对文本文档进行特征加权是提高文本分类效果简洁且有效的方法。目前,TF/IDF方法是常用的且效果较好的一种特征加权方法。但是,它也存在着没有考虑特征项在类内和类间分布问题的不足。因此,如何解决文本文档特征项在类内和类间分布不均衡是TF/IDF特征加权方法亟待解决的问题。针对传统的TF/IDF算法存在的不足,本文提出了一种基于信息熵的TF/IDF特征加权算法。该算法依据信息熵的理论知识,将文本数据集视作符合某种规律分布的信息源。通过文本文档中特征项的信息熵来度量其在文本分类中所能提供的分类信息量(即分类能力)。算法中使用信息熵来度量特征项在文本分类过程中的重要程度,并把得到的程度信息反映到文本文档特征项的权重值大小当中。为了验证所提出的基于信息熵的TF/IDF算法的合理性和有效性,本文进行了三种类型的实验。分别考虑了不同形式语料库对实验结果的影响,特征项数量对实验结果的影响,不同的分类方法对实验结果的影响。同时,将本文提出的改进算法与传统的TF/IDF算法和其他改进的TF/IDF算法的分类结果进行了对比。结果表明,本文提出的方法在宏平均Fl指标和微平均F1指标上均好于传统的TF/IDF算法和其他改进的TF/IDF算法,并且对于不均衡数据集有较好的分类效果。
其他文献
黄河凌汛灾害危害面积广,为解决凌汛灾害需进行防凌破冰。分析了2013年~2014年在黄河包头地区开河期进行的爆破破冰试验有关数据,总结了药量、破冰体积、药包最佳人水深度、破冰
公共卫生是关系到一个国家或地区人民大众健康的公共事业,政府实施基本公共卫生服务均等化的政策是为了保障居民的健康权益,从而促进整个社会生活和谐与稳定。从公共经济学的
目的 观察舒适护理干预在粘连性肠梗阻手术患者中的应用效果。方法 本次实验研究中的对象共有患者98例,所有病例均来源于2015年1月至2016年1月期间在我院接受粘连性肠梗阻手
针对某城市地铁新建隧道近接既有高层建筑桩基群,进行了三维数值模拟的施工力学行为研究。文章以重庆东水门大桥·千厮门大桥渝中区连接隧道为背景,该隧道直接下穿筷子街65~#
无线营销作为一种新兴的营销模式,近几年来得到了迅猛的发展,为全球经济带来了全新的增长契机。随着现代无线通信技术的不断发展和无线营销实践的不断深入,无线营销的市场正
本课题通过全面描写临猗县牛杜镇方言的体貌助词和时制助词,将其与关中方言的时体表达手段进行比较,探究二者的联系与差异。全文包括五部分。导论主要介绍本文的选题意义、研
改革开放以后,我国的教育的视野不断拓展,外国教育著作、外国教育思想大量涌入我国,对我国的教育理论和实践都产生了重大的影响。我国的中小学教师作为教育的实践者在向西方
本篇翻译实践报告所选取的材料出自美国作家威廉?杜纽斯所作的《思想革命:如何激发你的内在潜能》一书。书中介绍了一些可以激活我们右脑思维的方法,并以此引导人们学会用不
在改革开放春风沐浴下,我国市场经济逐步完善,经济迅猛发展,人民生活和消费水平日益提高。但与此相伴随的各种社会问题也日益凸显:就目前我国基本国情而言,人口众多,经济发展
改革开放以来,市场经济的确立、民主政治的发展、多元化社会的逐步形成,使得国家和社会分立结构逐渐确立,一个存在于公民与国家之间的公共领域正完成自身的建构。本文基于哈