面向不平衡数据的分类算法

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:wangjj167
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现阶段各种信息数据爆炸式增长,海量数据的不平衡性和高维性越来越明显,这严重影响了分类的准确率。原始分类算法以数据均衡为前提,应用在不平衡数据时分类性能严重降低,因此提高不平衡数据的分类性能成为当下迫切需要解决的问题。本文对不平衡数据造成的分类偏斜问题,数据高维度降低了分类准确率且增加分类困难度的问题进行了研究,主要研究内容如下:1.针对不平衡数据的分类偏斜问题,提出结合变分自编码器的不平衡数据分类模型。该模型考虑到少数类样本不同层次的特征,借助变分自编码器通过神经网络多次非线性特征转换,学习到更接近真实数据的样本分布特征。进而通过生成器生成更符合原始数据特征的少数类样本以均衡数据集,突破了过采样难以接近真实数据的局限性,解决了分类过拟合问题。2.针对高维不平衡数据降低分类准确率的问题,提出基于改进降噪自编码器的高维不平衡数据分类模型。该模型根据不平衡性引入新的噪声函数,令自编码器在添加噪声时区分正负类样本。通过噪声层损坏少数类样本使其在训练过程中得到较高的重视度,解决了正负类样本不均衡导致的提取特征无效性问题,减小了数据高维性造成的分类误差。3.将结合变分自编码器的不平衡数据分类模型和基于改进降噪自编码器的高维不平衡数据分类模型应用在情感分类任务中,构建了一个不平衡情感分类模型。该模型对数据集预处理,即分词、去停用词和构建文本向量后,使用变分自编码器和改进的降噪自编码器对文本向量做不平衡处理。实验结果验证了提出的两个算法都能够有效改善不平衡情感分类因极性情感文本存在偏差导致的性能降低问题。
其他文献
白光LED被称作第四代照明光源,有着庞大的市场。文章主要介绍了白光LED用荧光粉,特别是紫外/近紫外光激发的自光LED用荧光粉的技术现状,并指出今后的发展需要解决的问题。
学习是一种个性化行为。作为教师,应当在课堂教学环境中创设一个有利于张扬学生个性的“场所”,让学生的个性在宽松、自然、愉悦的氛围中得到释放,展现生命的活力。如何让我们的数学课堂真正活起来呢?  一、让学生成为课堂的主人   在课堂教学中,时间是最重要的学习资源。一个老师对时间如何分配,直接反映这个教师的教学观。苏霍姆林斯基曾说过,自由支配的时间是学生个性发展的必要条件,因此,教师在课堂上必须以知识为
在紫藤萝瀑布面前,看到那个擎着花奔跑的孩子,我浑身一颤。有些画面,早已在时间的相册中渗入灵魂,眷恋成了永远。  置身于水汽氤氲的花海之中,那是在童话中才有的情景:紫藤如瀑,其中穿梭的人群如点点游鱼。阳光如镜,撒落在光滑如缎的紫色中,反射出水波般柔和的光泽,甚至在视觉上出现黄、橙、红、蓝的颜色。那铺天盖地的色彩和香气,无法不让人觉得这盛开的花季,才是这里真正的主人。  看着眼前的紫藤,思绪不由得回到
2型糖尿病是一种常见慢性病,严重威胁人类健康,现有药物已无法有效阻止2型糖尿病患者病情的恶化。二肽基肽酶IV(DPP—IV)抑制剂作为一种治疗2型糖尿病的新型药物引起了越来越多的
受经济下行压力的影响和转方式调结构的影响,我国将有一部分传统行业企业停业破产,增加非正常退休人员数量,增加社会保障的压力。在这种形势下,推行对企业退休人员的社会化管
林黛玉是作者曹雪芹怀着深挚的爱意和悲悯的同情,用历史与未来、现实与理想、哲理与诗情,并饱蘸着血与泪塑造出来的'潇湘妃子',这无疑是曹雪芹对她的一种近乎神仙般