【摘 要】
:
随着全球信息技术的高速发展,机器学习已经成为各行各业解决实际问题的一个重要方法,不平衡分类问题是机器学习领域里的重要研究内容。在实际生活中,不平衡数据广泛存在,比如
论文部分内容阅读
随着全球信息技术的高速发展,机器学习已经成为各行各业解决实际问题的一个重要方法,不平衡分类问题是机器学习领域里的重要研究内容。在实际生活中,不平衡数据广泛存在,比如医疗诊断、流失用户识别、垃圾邮件识别等场景都存在大量的不平衡数据。如何有效的对不平衡数据分类有着重要的研究价值,许多专家学者使用集成学习算法处理不平衡分类问题并取得了一定的成果。研究人员使用传统的集成学习算法研究不平衡分类问题,这些算法本身具有一定的局限性且已经研究的非常充分,很少有研究使用前沿的集成学习算法处理不平衡分类问题。gcForest算法是周志华教授提出的一种新的集成学习算法,该算法具有分类精度高、泛化能力强、参数调节简易等特点,但是gcForest并未在算法的设计上考虑对不平衡分类问题的处理,算法面对不平衡数据时分类性能并不优越。本文针对gcForest算法在不平衡分类中存在的问题,分别从级联森林部分与算法的数据层面进行优化改进。首先,在级联森林部分,计算每层森林的分类器分别对少数类样本和多数类样本的分类精度,以分类精度作为不同类别样本的权重,再根据权重优化每层森林的投票结果,加强算法对少数类样本的关注。同时将改进的算法结合XGBoost算法替换级联森林原有的基分类器,进一步强化整个森林的对不平衡数据的分类能力。其次,在算法的数据层面,数据执行多粒度滑动窗口过程后,根据数据的不平衡度采用两种不同的策略优化算法,通过引入过采样算法,并借助EasyEnsemble算法的思想将少数类样本与多数类样本组成多个平衡的数据集,再传递给级联森林进行学习,从而在数据层面提升算法对不平衡数据分类的处理能力。最后,通过多组UCI、KEEL公共数据集以及某省通信运营商用户流失数据集进行实验,并将改进的算法与主流的集成学习算法对比,实验结果证明了改进能够有效地提升gcForest对不平衡数据的分类性能。
其他文献
光动力治疗(Photodynamic therapy,PDT)是一种无侵害性的肿瘤与非肿瘤疾病治疗办法,与传统治疗手段相比具有诸多优点。光敏剂、光和氧是组成光动力治疗的三要素,光敏剂是光动力治疗的核心,直接决定PDT的效果。氟硼二吡咯(Boron dipyrromethene,BODIPY)是一种新型荧光染料,具有光热稳定性好、摩尔消光系数高和结构易修饰等特点。BODIPY作为光敏剂具有广阔的应用
作为一个幅员辽阔的超级大国,我国的地质情况复杂,各种地质灾害种类齐全且多发;由于一些经常发生灾害的偏远地区的基础建设情况不太完善,给应急救援车辆提出了较高的要求。为了保证车辆在复杂的路况下能够拥有较高的平顺性,急需一种新型的主动悬挂应急救援车辆,三轴车辆的主动悬挂控制方法的研究具有重要意义。本文结合国家重点研发计划课题“高机动应急救援车辆(含消防车辆)专用底盘及悬挂关键技术研究”(项目编号:201
在柴油机工作过程中,良好的雾化是影响其燃烧过程的最直接因素,对其经济性、动力性和排放水平具有重要意义。作为喷射系统的终端,喷油嘴对燃油雾化有决定性的作用,因此,对于
随着科技的发展,我们即将进入5G时代。终端直连(D2D)技术是5G的重要组成部分和研究热点。相较于其他技术,该技术在距离较短、数据量较小的情境下有着很大的优势。车辆已成为人类日常出行的重要交通方式,由车辆驾驶引发的道路安全问题逐渐成为社会关注的重点,将D2D技术应用于车联网就可以解决很多的交通安全问题,如交通阻塞,车辆碰撞等等。将D2D技术应用到车联网中首先要解决资源分配的问题,这也是本文的研究方
亚塑性理论在模拟砂粒材料的应力应变特性得到很好的验证以及广泛应用,将能够刻画与材料特性及孔隙比相关的亚塑性模型引入到堆石材料当中,有别于传统的本构模型,目前工程应用较少。论文结合福建省仙游抽水蓄能电站面板堆石坝下库工程实例,通过改进了 von-Wolffersdorff提出的亚塑性本构模型使得更适用于面板坝堆石料的应力应变分析,并与该工程的常规三轴试验应力应变曲线拟合对比以达到模型验证目的,最后结
电力电子变压器在同等功率传输能力下因更小巧轻便而越来越受到人们的青睐。作为电力电子变压器中的重要组成部分,隔离双向DC-DC变换器具备较高的功率密度。将其应用于牵引系统和辅助供电系统可实现机车的轻量化,从而提高运载能力、提升运输速度。本文以隔离双向全桥DC-DC变换器为研究对象,分别通过理论分析、仿真和实验验证的手段,研究了电流有效值最小控制策略、宽输入输出电压范围等效变比在线实时校正策略以及基于
目的:探讨母乳喂养率低下的原因,母乳的组成成分与功能。探讨β防御素-1对树突状细胞的免疫调节作用。方法:查阅文献,总结归纳我国母乳喂养现状,母乳相关功能分子含量及测定
计算大坝在地震振动下的动力响应及特征值是研究重力坝抗震性能的主要工作。在分析重力坝振动特性时,基于大坝的地震监测数据,采用有输入和无输入两种模态识别法对大型水工建筑物进行识别并与有限元计算结果进行对比研究,具有重要的研究价值。模态识别的是结构的特征频率、阻尼比和振型,是结构的重要特征参数,反映了结构的固有特性。同时在有限元分析中,由于模型地基边界条件的干扰,常规有限元模型分析时存在受坝体弹性模量、
在STEM教育浪潮之下,越来越多的教学者探究跨学科教育,英语学科也同样在探索,在中学阶段,英语作为主科得到了非常多的关注。英语教学包括听说读写四个部分,其中阅读教学由于其大篇幅的文章阅读,往往会使学生望而却步,英语阅读教学也一直在寻求创新教学方式。基于此,本研究将小说工程策略融入至英语阅读教学中,并结合乐高教具,设计了一套英语阅读课程,并展开实践,探究该课程对学生英语学习动机、英语阅读以及英语写作
目的:通过本次实验研究证明吉如格-6栓剂抑菌,止痛的主要药效并提供比传统药效好的科学数据。方法:ICR雌性小鼠复制白色念珠菌性阴道炎动物模型及SPF级SD雌性大鼠宫颈炎动物模型,个别分为正常组、模型组、吉如格-6栓剂小、中、高剂量组、吉如格-6味散组、阳性对照组,每组8只。造模完成24h后开始给药,ICR雌性小鼠的正常与模型组给予生理盐水,吉如格-6栓剂小、中、高剂量组分别给予0.2g/Kg 0.