【摘 要】
:
随着互联网的发展以及挖掘其中数据潜在价值的需要,大数据和机器学习等信息处理技术也迅速崛起。其中,文本分类技术更是在舆情分析、主题分类、情感分析、邮件过滤和金融预测等诸多现实领域发挥巨大的潜在价值。而文本分类技术的效果与文本特征选择有着极其密切的联系,为使选择的文本特征具有良好的文本分类性能及更高的分类效率,本文选择并改进了基于遗传算法的文本特征降维方法,主要改进如下:1、改变了基因群的选取规则。根
论文部分内容阅读
随着互联网的发展以及挖掘其中数据潜在价值的需要,大数据和机器学习等信息处理技术也迅速崛起。其中,文本分类技术更是在舆情分析、主题分类、情感分析、邮件过滤和金融预测等诸多现实领域发挥巨大的潜在价值。而文本分类技术的效果与文本特征选择有着极其密切的联系,为使选择的文本特征具有良好的文本分类性能及更高的分类效率,本文选择并改进了基于遗传算法的文本特征降维方法,主要改进如下:1、改变了基因群的选取规则。根据词频-逆文档频率算法和互信息算法的优点和存在的问题,提出一种多规则融合的过滤式特征选择算法,将其用于对原始文本特征的初步选取,形成种群中个体的基因群;2、将个体的生成方式与概率规则相关联。增加对种群多样性的关注度,通过对初代进行内部种群多样性和外部种群多样性的计算,提高起点个体在分类结果上的表现,缓解收敛速度与种群多样性之间的矛盾关系,同时缩短出现最优个体所需要的繁衍代数;3、对适应度函数添加了维度的影响因子,以更全面的方式衡量个体的外在表现;4、对交叉算子和变异算子使用自适应的方式,加快种群收敛速度。将传统遗传算法和一般过滤式特征选择算法与改进后的遗传算法进行实验对比,结果显示,改进过后的遗传算法在寻优过程中适应度函数的提升幅度更大;分类性能评价指标中的准确率、召回率和宏平均值均为三者最高;对比传统遗传算法,寻找最优个体的时间发生了下降。证明了改进后的遗传算法在进行文本特征降维时具有更快的收敛速度和更佳的寻优能力,达到了文本特征降维的目的和效果。
其他文献
1 带饭是炫耀媳妇的第一方式。以前我们公司根本没人带饭,后来老张因胃有毛病,吃不了食堂的饭,老张媳妇就变着花样给老张做饭,老张因此声誉鹊起,就连主任也点头哈腰地求老张多带点饭,分得半羹以解嘴馋之苦。其他人就更别说了,整天把老张捧为座上宾,围着老张团团转,更有人雷厉风行地仿效,让媳妇一显厨艺,带饭请大家品尝,就为赢得众人的赞扬。 2 把本来瘪瘪的公文包撑得鼓鼓的。就拿我来说吧,上班提的公文包很
从2005年中兴通讯建立起我国第一家财务共享服务中心开始,共享服务在之后的十几年间不断发展壮大,踏入了发展的黄金期。财务共享模式在中国的发展历程可以大致分为萌芽期与繁荣期这两个阶段。对于前一个阶段来说,其时间大致是从上世纪90年代开始,至2010年左右结束,这一段时间是财务共享模式在中国的萌芽期。在这一段时间随着中国大陆的改革开放,大量外资企业纷纷进入拓展市场,财务共享模式作为一种先进的管理手段也
品牌是企业或品牌主体表达自我主张的“符号”,其学科定义为用以识别某一个(类)产品的名称、术语、记号或设计组合,并与同类竞争者的产品和劳务加以区别。品牌管理则是确保品牌具有持久生命力的介入方式以及实施品牌战略规划的系统行为,其主要目的在于塑造自身的“品牌人格”、丰盈品牌的内涵和扩大其影响力,使企业最终实现品牌资产收益的最大化。就当今我国的演艺市场而言,特别是儿童音乐剧领域,市场定位不够清晰,开发方向
通过分析认为,中国三代领导人的人权思想是一脉相承的思想体系.探析了该思想体系因中国社会变革不断深化和建设进程不断加快所具有的时代特征,并着重从其产生的理论基础、实
1 病例报告患者女,47岁.主因反复出现口腔、阴道黏膜溃疡10年,心悸气短1年,加重伴双下肢浮肿5个月,于1997年10月8日入院.查体:脉搏90次/分,血压13/6 kPa.一般情况较差.口腔黏