改进的AdaBoost集成学习方法研究

来源 :暨南大学 | 被引量 : 0次 | 上传用户:linxain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,集成学习引起了工业界的极大关注,它是统计学家们在机器学习领域重点研究的对象之一。集成学习通过训练多个单一学习器并对其结果进行有效融合,能够显著提高单一学习器的泛化性能。本文在充分考虑Bagging,Ada Boost和随机森林等集成学习算法的基础上提出了一种基于KNN的改进的Ada Boost算法。由于Ada Boost算法中各单一学习器之间的相关性较高,本文将借鉴随机森林算法的思想来优化Ada Boost算法的性能,即每次训练单一学习器前随机选取部分特征,而不是使用全部特征来训练弱分类器。进一步本文将通过模拟及实际数据分析来展示本文所建议方法的优势。在模拟学习中将KNN算法,Bagging算法,Ada Boost算法,改进的Bagging算法和改进的Ada Boost算法进行性能比较,结果发现改进的Ada Boost算法具有更好的预测性能,其次是Ada Boost算法,改进的Bagging算法,Bagging算法和KNN算法。最后,将改进的Ada Boost算法用于实际数据分析,首先对不平衡的信用卡欺诈数据集进行SMOTE采样,然后使用KNN算法,Bagging算法,Ada Boost算法,改进的Bagging算法和改进的Ada Boost算法对处理后的数据集进行训练分析和性能比较,结果表明改进后的AdaBoost算法的预测性能最优。
其他文献
现如今,网络通讯发展迅速,在网络数据大爆炸的环境下,网络安全的维护也变得越来越重要。异常检测系统通过提取网络流量的特征可以实现对异常入侵行为的检测,并且提前做出告警。因此,研究异常检测算法对于网络安全的保护有着非常重要的意义。本文使用深度学习的方法实现对网络流量的异常检测,证明使用卷积神经网络的方法进行流量特征提取并分类的可行性,同时结合循环神经网络对算法进行了改进,并利用残差网络解决算法的退化问
随着当今无人机技术的发展,无人机已广泛应用于民用、军用等诸多领域,据研究无人机的飞行事故大多数发生在无人机回收过程中。为了增大无人机降落的成功率,便于无人机降落在车辆、船舶等运动的平台上,论文设计了一种成本低廉、实时性强能够时刻保持水平的辅助无人机降落的装置,主要贡献有:(1)研究了当前自动调平平台的调平方法,通过分析各种调平方法的优缺点和无人机助降平台要实现的功能,设计了无人机助降平台的总体实现
自改革开放以来,我国的经济告诉发展,资本市场也逐渐显露出其在国际地位中的重要性。作为资本市场的根基——中国企业的经营管理也意识到风险管理的重要性,这其中就包括财务风险。因而,对财务风险管理相关的防范措施研究也变得越来越重要。在曾经的金融危机中,我们也能从各种集团公司的破产中,总结出财务风险对企业的生存和发展的预警作用。本文研究的企业属于保险行业,与传统行业相比,起步较晚,发展时间较短。但随着中国居
随着互联网的飞速发展,在我们的日常生活中网络数据无处不在,如何挖掘这些网络中的信息供我们使用是非常重要的,网络表征学习是常见的数据挖掘方法,但是,现有的网络表征学习方法忽略了许多关键性问题如忽略隐变量的数据分布,未能充分利用现实网络数据等相关问题。基于此,本文提出了一个新颖的基于对抗图卷积的网络表征学习框架AGCN(Adversarial Graph Convolutional Networks)
俗话说:“乡村治,则郡县稳;郡县治,则天下安”。乡村的长治久安是国家繁荣昌盛的基石。乡规民约作为维护乡村社会秩序和教化乡民的重要载体,历来都受到学术领域和政府的格外关注。尤其在经济相对落后、交通闭塞的少数民族地区,其村级组织更多的是依靠乡规民约来管理规范本村寨事务。本文以湘西民族地区的部分村寨为调研地对乡规民约开展实证研究,通过实地走访调查,了解整个湘西民族地区乡规民约的现状和特点,找出其不足之处
随着计算机视觉、人工智能和5G等新基础技术的快速发展,同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)作为无人驾驶、移动机器人等人工智能应用领域关键性技术成为新的研究热点。目前对于SLAM的研究大多基于静态场景的假设,而室内环境下动态物体不可避免存在,基于静态场景的假设极大限制了SLAM的发展研究和SLAM系统在现实生活中的应用。而且,没有
随着智慧城市的不断发展,大数据的信息时代背景给现代城市的规划提供了强有力的支持。这正是因为高分辨率遥感数据提供了关于城市用地中的空间特征、光谱特征、纹理特征等大量的高维数据信息。在采集遥感数据中由于客观和主观原因导致出现大量的离群值,故给存在明显离群值的高维数据分类工作带来一定的挑战。传统的分类方法对离群值很敏感,这会影响模型估计的结果,甚至会得到错误的结论,给城市造成重大的经济损失。本文将针对经
人脸属性编辑致力于改变人脸图像的一个或多个特定的属性,同时维持属性无关的图像区域不变,实现了对图像的精细化操控,使得人们能够加深对图像数据的理解。这一技术已被广泛应用于自动美颜、虚拟角色的生成,以及其他计算机视觉任务的数据增强。基于生成式对抗网络的方法虽然凭借逼真的编辑结果,已成为实现人脸属性编辑的主流方法,却依旧面临诸多问题。首先,当学习编辑多个人脸属性时,属性组合的多样性会导致难以收集到充足数
英语口语作为四项基本技能之一,在英语教学中占据着不可替代的位置。2011年颁布的《英语课程标准》规定初中生的英语口语水平要达到五级,但是学生目前的英语口语水平远不如人
随着红外成像仿真技术研究的不断深入,当今人们越来越关注如何进一步提高仿真结果的准确性,同时仿真实时性也成为了评价仿真技术的关键指标之一。相比于传统的以计算机作为仿真平台的全数字红外仿真技术,本文以红外成像系统模拟器为研究平台,在模拟器硬件平台上进行红外成像系统物理效应仿真技术的研究,凭借着FPGA的高速并行运算能力和流水线算法设计思想,极大地提高了仿真速度,满足仿真实时性的要求。首先,本文简要介绍