基于机器学习的中文文本分类算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:a4951660
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络相关技术的发展,越来越多的信息尤其是文本相关数据资料迅速增长,人们需要在海量的信息中及时获取有用的或者自己感兴趣的内容。这是互联网信息内容处理领域急需解决的关键问题。基于机器学习的文本分类技术包括对文本的预处理、特征选择、分类模型的建立等。该技术在很大程度上能够对海量增长的电子文本信息进行有效地管理和过滤,使得人们能够快速、便捷地掌握有用的信息内容。因此,文本自动分类技术具有很广阔的实用前景,其各项关键技术有很大发展。   本文主要从以下三方面进行基于机器学习的文本分类算法的研究:   (1)文本处理时高维特征空间对分类精度以及分类效率都有重要的影响,本文首先介绍了多种常用的特征选择算法,包括以投票的方式综合几种特征选择方法的组合型算法。对其进行仿真,比较实验结果,从各类指标中发现了三点传统特征选择算法的不足,以及综合算法需要完善的地方。   (2)针对目前中文文本分类中传统特征选择算法在低维情况下所获得的分类效果不高的情况,本文提出了一种结合方差思想的评估函数,能够选择出具有较强类别信息的词条,与常用的文档频DF、信息增益IG、等九种特征选择算法相比,不仅保证整体分类性能不下降,而且提高了稀有类别的分类精度(宏平均F1)。   (3)本文对线性分类器进行了概述,将传统处理二分类问题winnow算法推广至多类别文本分类,并对其训练策略和判别策略进行了改进,并与其它分类算法如中心向量、最近邻算法、朴素贝叶斯算法等进行比较分析。   最后,针对本课题的研究,设计了用于仿真的基于机器学习的中文文本分类系统,分为输入输出、预处理、特征选择、分类器四大模块,在此基础上对各种算法的性能进行了分析比较。
其他文献
近年来由于能源供给的约束,低温烟气余热的回收利用已经引起人们的广泛关注,有机朗肯循环系统因其结构简单、可靠性高等优点而被广泛研究与使用。近年来对于有机朗肯循环动态特性的研究主要集中在其热力过程分析等方面,这种方式所建立的模型不利于控制。本文在总结前人经验的基础上,基于移动边界法的建模思想,对蒸发器和冷凝器进行建模,由于透平和加压泵的响应特性较快,对其采用简化模型,然后将各个部件进行连接建立整个系统
当前的风力发电厂面临的一个最大问题就是输出功率的波动。如何提高风力发电机输出功率的平稳性,使得风力发电机的响应速度加快,使得风力发电的质量得以提升,是当前风力发电面临的一个重大难题。为提高风电机组的响应速度,获得最大功率,现有大型风电机组普遍采用变速变桨距控制机构。设计一个合理的变桨距控制系统既要求一个好的的控制方案,也要求一个较为精确的风力发电机模型。文章在分析风力机原理的基础上,利用simul
连铸过程中的二冷配水控制是决定连铸质量的关键因素,铸坯由于连铸二冷配水优化制度不合理,常常出现如内部裂纹、中心疏松及中心偏析、菱形变形、凹坑等质量问题。因此,要获得高
论文针对大面积湖泊养殖水域的水质监测,应用无线传感器网络监测系统实时,可大面积布置的监测特点,研究并完成了多参数和可持续实时自供电无线传感器网络节点的主要关键技术
随着计算机技术与电力电子技术的不断融合,开关电源已经迈入数字电源时代,各种功能的集成数字控制电路也随之出现。本文以移相全桥软开关为背景,在前人研究的基础上详细分析了移
氢气因其高效、清洁、储量丰富被认为是21世纪最有潜力的新型能源,质子交换膜燃料电池(PEMFC)是将氢能转化为电能的装置,测控系统主要用于监测与控制燃料电池的运行状态,确保电池可靠、高效的运行。本文基于虚拟仪器软件平台,设计了百瓦级风冷型PEMFC测控系统,论文内容包括:1、通过实验研究了电堆温度、负载电流、氢气流量、氢气压力等参数对电池发电性能的影响,根据实验数据给出了电堆最佳工作温度和电磁阀排
随着P2P网络在文件分发、即时通讯和匿名通信等领域的广泛运用,随之而来的网络安全问题也受到了社会各界的关注,信任模型作为应对安全问题的重要机制广受关注。本文在现有的P
免疫粒子群算法(IPSO)是一种基于免疫算法理论进行改进的粒子群算法。为解决粒子群算法(PS0)多样性差、易陷入局部最优解、“早熟”收敛等问题,本文引入了免疫算法的免疫记忆和抗体促进、抑制模块,并加入了自适应交叉变异率对粒子群算法进行改进。新算法中,免疫记忆可保证算法的收敛性,抗体促进、抑制可有效的确保粒子的聚集程度的合理性,自适应交叉、变异算子则极大的丰富了粒子的多样性,并增强局部搜索能力。通过
随着GPS和SINS的广泛应用,其研究也在不断深化。国内外学者提出了大量的实现方案和优秀算法,目前已有一些设备能够辅助完成这些算法方案的实际工程测试与验证,但由于构建验证系
航行在海洋中的船舶由于受到海浪作用会产生摇荡运动。对于带有舰载机的大型船舶,船舶的摇荡运动会威胁舰载机起降的安全。所以在设计此类舰船时,船舶的耐波性是设计者应着重考