文本分类特征选择方法研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:yan4321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类主要涉及文本分词、特征选取、特征权重计算、分类算法、分类性能测评等多个过程。其中,文本分类中特征选择的计算方法是文本分类中的一个重要问题,特征词的选择综合反映了该特征词对文本内容的贡献度和区分文本类别的能力大小,特征选择算法的选择将会对整个分类过程产生很大的影响。通过分析文本类别与特征词之间的相关性,在原有卡方特征选择方法的基础上增设三个调节参数,使选择出的特征词集中分布于某一特定类,并且在这个类内的文档中均匀的分布,这个特征词在这个特定类别中还应该出现的次数较多。最后通过实验对比传统的卡方特征选择方法、信息增益方法与增加参数后的基于方差的卡方特征选择方法,实验结果表明,基于方差的卡方统计( Var-CHI)方法使得分类的准确率得到了明显的提高。
其他文献
随着网络和信息技术的不断发展和快速普及,传统的社会网络关系已经延伸到虚拟网络环境中,形成了基于网络的互动服务,即社会网络服务(Social Networking Service, SNS),为用户
  本文在传统的CLIQUE算法上提出了一种改进的CLIQUE算法。该算法采用新的网格划分方法,通过将网格单元边长再细分为两份,避免了CLIQUE算法在生成候选密度单元时可能会丢失
为了提高尾矿库安全评价的准确性和效率,同时针对 BP 神经网络容易陷入局部极小值和收敛速度慢的缺点,本文提出并建立了一种基于和声搜索算法优化 BP神经网络的模型进行尾矿库
互联网的快速发展给人们的生活带来极大便利的同时,也使盗版、恶意篡改等非法行为日益猖獗。数字水印技术提供了一种有效保护版权和维护数据安全的手段。针对目前的多数水印算
随着移动互联网技术和智能终端的发展,PC(个人电脑)在家庭中的地位越来越边缘化,但是我们不能否认PC强大的计算处理能力。为了综合利用PC的计算处理能力和智能终端的方便显示
学习矢量量化(LVQ)网络广泛应用于在模式识别和分类领域。为了使样本的分类更准确、快速,结合了电能质量综合评估的问题对 LVQ 算法进行了研究,并在此基础上提出一种改进的算法
在机器学习领域中,直接利用高维的感知数据,例如视觉语音信号等,训练学习并获得一个具有良好控制策略的决策系统仍然是一个挑战性的问题。在Deep Q-Learning Network(DQN)提
随着互联网技术的不断发展,网络给我们的日常生活带来了极大的便利。然而,随之而来的网络安全问题却变得日益严峻。恶意攻击者利用网络中存在的漏洞来入侵我们的系统,对我们
当今社会信息产业呈现日新月异的发展趋势,信息安全成为社会愈发关注和亟待解决的问题。数字签名技术作为信息安全的重要认证技术,在数字化办公和现代办公中发挥着越来越重要的
因为数字图像具有数据容量大和像素相关性强等本质特征,所以不能采用文本加密算法进行数字图像加密。混沌具有的如对初始条件的敏感性和类随机性等优良特性,和密码学中的混淆与