基于最低词频CHI的特征选择算法研究

来源 :西南大学学报(自然科学版) | 被引量 : 0次 | 上传用户:liongliong438
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
CHI是文本分类中特征选择的重要方法.本文分析了CHI特征选择的特点,针对该方法的不足之处,提出了一种新的基于最低词频CHI的特征选择算法.该方法通过设置最低词频阈值去除了部分低频词,减少了CHI特征选择时低频词带来的干扰.同时本文对传统的TF-IDF特征权重计算方法进行了改进,在特征权重计算里加入改进后的CHI特征选择函数,使文本的表示更合理.通过在均衡语料和非均衡语料上的实验验证,新的方法有效提高了文本分类的效果.
其他文献
在文本情感分类中,传统的特征表达通常忽略了语言知识的重要性。提出了一种基于词性嵌入的特征权重计算方法,通过构造一种特征嵌入模式将名词、动词、形容词、副词四种词性对
采用1990-2011年各产业FDI与各产业增加值的时间序列数据,通过VAR模型、协整检验、误差修正模型(VEC)等计量工具实证研究我国各产业FDI对各产业经济增长的影响,研究结果显示:
本文分析了公司高管团队异质人力资本的特殊性,根据这些特殊性基于博弈论视角分析高管团队异质人力资本与物质资本的博弈过程,博弈结果表明:(1)随股权的不断分散,现代公众公
对于高职院校而言,教师是推动高等职业学校发展的主力,因此必须建立一支合理规范的"双师型"师资团队。所谓"双师型"教师的职业能力,它包括与学生沟通表达方面的能力、专业知
庄子生活的时代,"游士无宗国"所引致的"生涯地震",大变革的背景引发士人思考个体的生涯发展最佳路径。庄子针对儒家提出了浑沌生涯发展思想,从人生如梦与命运无常两个方面来
随着互联网的迅速普及和信息技术的飞速发展,人们可获取的信息量成雪崩式增长,而大多数信息是以文本的形式存在的,如何从海量文本信息中快速、准确、全面地找到所需要的信息
社团语言学习法旨在降低学习者的焦虑,培养自主学习能力,但也有其不足之处。本文分析了社团语言学习法的优点和不足,并探索了如何根据实际情况将其运用到高职英语教学当中。
改革开放以来,中小企业发展迅速且对我国经济发展的作用越来越显著。中小企业具有数量多、分布广、经济总量大等特征,不仅是国家和地区财政收入的主要来源,更是实施大众创业
依据经典的追随客户假说,本文构建了一个空间权重矩阵来研究跨国银行在新兴市场国家的扩张行为,并进而分析了跨国银行的进入是否缓解了这些国家中小企业的信贷困境问题。对中
目的探讨无湿化中低流量鼻导管吸氧在心血管病患者中的应用效果。方法因心血管病需进行中低流量鼻导管氧疗的患者174例,随机分为常规湿化吸氧组(A组)、无湿化吸氧组(B1组)和