面向不平衡数据的混合集成学习

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wang8327501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代,伴随着海量数据获取与存储技术的快速发展,如何从数据中获得有价值的信息和规律成为了许多行业的热点问题。作为人工智能领域的重要分支,机器学习技术融合多学科知识,利用各类方法对数据进行建模分析,实现知识发现。机器学习技术已经逐渐成为许多行业发展的新驱动力,并被广泛应用于科学研究与工业生产。然而在许多实际应用中,数据往往存在着类别分布不均衡的问题。由于标准的机器学习算法都是基于训练数据集样本分布均衡的假设而设计,这导致传统的机器学习算法在处理这些类别分布不均衡问题时往往性能不佳,而类别不平衡问题也成为许多实际分类应用中的重要挑战。在机器学习中,集成学习方法由于其良好的泛化性能,成为了一大热门研究方向,借助集成学习方法,许多单一的分类模型在性能上能够得到进一步的提升。本文聚焦于结合集成学习方法的不平衡分类算法研究。在深入探索类别不平衡学习的各项策略基础上,围绕着数据层面更合理有效的重采样算法设计、算法层面新的模型改进、算法层面代价敏感矩阵设计、以及融合不平衡问题的集成策略、融合优化方法的集成框架等多个方面展开研究。主要工作包括:(1)针对欠采样方法容易丢失有效信息以及代价敏感方法对异常值和噪声点过于敏感这两项问题,本文提出了基于多目标的混合优化集成算法。首先设计了与分布相关的重采样策略,用来减少欠采样过程中损失大量信息的风险。同时,结合样本分布信息设计了基于密度的欠采样多目标优化集成方法(DBUME)。最后,提出一种混合集成框架,结合ADMM算法集成并优化了代价敏感方法和DBUME的预测结果,一定程度上弥补重采样方法与代价敏感方法各自的局限性。本文在大量的不平衡数据集上进行了实验,并且对本算法与现有的不平衡学习主流算法进行了比较,全面系统地证明了本算法的有效性。(2)针对不平衡数据存在的类内不均衡问题以及重采样方法适应性不足对不平衡分类算法模型的影响,本文提出了结合度量学习和自适应两阶段欠采样方法的混合集成算法。通过度量学习为原始不平衡数据集找到更合适的嵌入空间,而自适应两阶段欠采样方法同时考虑信息量大的样本和代表性样本来生成平衡的数据集。此外,为了提升泛化性能,本文提出了一种渐进式集成框架(PHCE),利用具有局部和全局评估标准的渐进式机制来选择集成成员,从而进一步提高模型的性能。在多个真实数据集上的实验结果表明,PHCE优于大多数不平衡分类集成算法,在处理不平衡数据分类问题上具有更好的性能。(3)针对宽度学习系统处理不平衡分类问题的局限性,本文设计了一种带权重的宽度学习系统(WBLS),同时为了减少不平衡数据中异常点和噪声点的影响,结合样本数据的先验分布信息设计了一种基于混合密度的权重生成策略,并提出了自适应的带权重宽度学习系统(AWBLS)。最后,提出一种增量式的集成模型框架,通过增量式集成机制,进一步提升AWBLS的稳定性和鲁棒性。基于大量真实世界数据集的实验证明了所提出算法的优越性能。
其他文献
<正>冠心病的实质是冠状动脉器质性病变或功能性改变,引起患者冠状动脉血流与自身心肌需求供应不平衡,导致患者心肌缺血、缺氧而引起的心脏疾病,又称缺血性心脏病。通常情况
【目的】了解老年冠心病患者衰弱现状,分析老年冠心病患者衰弱的影响因素,探讨衰弱对老年冠心病患者短期预后的影响。【方法】应用横断面研究及前瞻性研究方法。采用一般情况
我国测绘市场目前自由竞争与行政指派并存,不规范的市场行为普遍存在,本文在分析测绘市场现状及其原因的基础上,提出规范测绘市场的近期措施和长远对策。
框架-剪力墙结构因其良好的使用空间和二道防线抗震性能,在高层建筑结构中得到广泛应用。为满足建筑功能和采光效果等要求,剪力墙偏置的超限框架-剪力墙结构在实际工程中时有
<正>历史是最好的教科书,百年党史是共产党人的必修课。习近平总书记强调,回望过往的奋斗路,眺望前方的奋进路,必须把党的历史学习好、总结好,把党的成功经验传承好、发扬好
<正> 二十世纪后半叶,社会已经步入信息时代,世界各国的国民经济相继由传统工业经济过渡到现代信息经济,信息产业的发展水平已经成为一个国家综合国力的重要标志。地理信息是
会议
随着在便携式电子器件,光电子学,储能和传感等领域对锂离子电池性能的需求不断增加,1-3纳米硅以其卓越的理论比容量(3579 mAh×g(-1)) 4而备受瞩目。纳米硅可以通过镁还原SiO2制
目前我国政府十分重视利用信息化手段来提升管理服务效率,加快了电子政务坚实步伐。当前文档管理是企事业单位核心业务管理,存在着一些比较明显的问题,分别有文档管理不规范、文件存储杂乱、检索速度缓慢,保密性安全性有待提高、与他人共享不方便、发布和审批流程繁琐导致办公效率低下等。本文主要工作是利用前沿的Spring技术开发政府机关文档管理信息系统,系统地解决这些问题,具体工作如下。本文首先对文档信息化管理涉
在语文教学中,现代文阅读的地位和作用至关重要。从某些层面上来讲,现代文阅读教学决定着语文教学的成败。现代文阅读是语文学科的基础层面,它影响着学生的基本理解能力、阅读能力和语言分析能力。不仅对语文教学影响很大,对各个学科的学习都存在着影响。因此,提高现代文阅读教学的效果和提升学生的现代文阅读能力和思维能力非常重要。本论文主要研究内容为对延吉市六中现代文阅读教学现状进行调查分析,延吉市第六中学的学生生
继"特色小镇"模式之后,2019年浙江省又在国内率先提出"未来社区"的概念。通过梳理浙江省关于未来社区的工作动态和余杭区的数字经济和数字产业优势,对未来社区的概念进行初步