基于不均衡数据集的文本分类算法研究

被引量 : 0次 | 上传用户:zhangsanjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络技术的不断发展,电子文档逐渐成为人们获取文本信息的主要渠道。网络信息的多样性和文档的杂乱无章性对用户快速准确获取所需信息提出了巨大的挑战。文本分类是信息检索中对文档进行组织和整理的重要技术,然而不同于文本分类系统在实验室中处理的文本集合,在实际应用中尤其是出现在网络中的文本数据集合往往存在标注不全,数据集不平衡等问题。数据不均衡问题由于其在各领域应用的广泛性和重要性成为文本分类目前面临的一个主要问题,同时也是文本挖掘领域的研究热点。本文对不均衡数据集下的文本分类进行了一定的研究,从文本分类的特征选择方法和对量化后的文本数据层上的重取样两个角度出发提出了一种组合的针对不均衡数据集的文本分类方法。本文的主要研究内容如下:①对文本分类中的传统CHI统计特征选择方法和对改进的仅保留类别正相关性特征的CHI统计特征选择算法进行了研究,并在不均衡数据集上进行了实验,实验结果表明在均衡数据集上表现良好的CHI统计特征选择方法所得到的分类效果并不理想。②通过对不均衡数据集的研究分析,提出了对仅保留类别正相关性特征的单边CHI统计特征选择方法进行改进,首先引入一个小类加权因子用于保留部分对小类分类有贡献的表现为类别负相关性的特征词项,同时使用ICF(逆转类别频)增强特征选择过程中特征的类别区分能力,进而选择出最具类别代表性的特征词。使用特征集合将文档进行量化表示为向量空间模型。③为更好地解决由数据不均衡导致分类效果不佳的问题,本文提出对量化后的文本集合在数据层上进行重取样处理。首先采用随机上采样和随机下采样结合的重取样方法,该方法可以很好的实现对文本数据集不平衡性的过滤,获得相对均衡的数据集用于分类器的训练。但由于随机上采样算法极易产生分类过拟合问题,而且随机下采样容易删除掉一些对分类贡献较大的样本。所以进一步对数据重取样方法进行改进,采用表现较好的SMOTE上采样方法和基于改进聚类的下采样相结合的重取样方法对文本数据集合进行处理,取得了较好的分类结果。
其他文献
<正>节能减排是促进经济发展方式转变,实现经济与社会持续发展的重大战略举措,也是贯彻落实科学发展观的必然要求。国家"十一五"规划纲要提出了"十一五"期间要实现单位国内生
梅花拳作为民间社会的一种武术传统与信仰组织,在冀南广宗乡村地区有着长期稳定的传承。梅花拳文场组织形态的自秘性与社会实践的灵活性,是其在乡村社会中的立身之本。作为一
历史教学评价以《新课程标准》为依据,倡导"立足过程,促进发展"的评价,发展和发现学生的潜能,促进学生的全面发展。在初中的历史课堂中更应针对学生的成长,做出多元化的评价
<正>泡沫灭火器原理的实验是人教版九年级化学上册第七单元"燃烧及其利用"中课题l"燃烧和灭火"中的一个探究性实验。教师在做这个实验时易出现橡皮塞冲出、试管破损、漏液等
<正>春末夏初的五月,温度适宜,昼夜温差大,日照时间长,为多肉植物的生长创造了有利的条件,其中"夏型种"多肉植物普遍到了生长旺季,像仙人掌科的龙王球、白檀、金龙、美花角等
目的探讨胃癌组织中血管内皮生长因子-C(VEGF-C)及其受体-3(VEGFR-3)的表达与胃癌患者预后的关系。方法免疫组化Elivision TM Plus法检测81例发生淋巴结转移和72例未发生淋巴
随着城市车辆的不断增多,交通越来越拥堵,驾驶员在车内存在的视野盲区使车辆在低速行驶时容易发生碰撞、摩擦等事故。人们意识到减少甚至消除驾驶员视野盲区的重要性,车载环
扩大内需已经成为我国经济发展战略体系中的核心战略之一,长三角必须改变过去三十余年对外开放所遵循的出口导向条件,其对外开放的方式转变和水平提升必须围绕扩大内需这一前
<正>道光七年(1827),"南府"改为"升平署"。"南府"是清朝前期掌管演戏艺人的机构,改升平署后仍主持宫内演出事务。升平署除了内廷戏班以外,兼管来自各地的民间戏班。清代,宫廷
期刊
文章根据SCP产业分析范式从产业规模、产业发展水平和产业环境等3个方面提出了工业产业脆弱性评价指标,利用聚类分析、主成分分析、显著性分析等方法,定量化地构建了12个观测