论文部分内容阅读
在信息时代,伴随着海量数据获取与存储技术的快速发展,如何从数据中获得有价值的信息和规律成为了许多行业的热点问题。作为人工智能领域的重要分支,机器学习技术融合多学科知识,利用各类方法对数据进行建模分析,实现知识发现。机器学习技术已经逐渐成为许多行业发展的新驱动力,并被广泛应用于科学研究与工业生产。然而在许多实际应用中,数据往往存在着类别分布不均衡的问题。由于标准的机器学习算法都是基于训练数据集样本分布均衡的假设而设计,这导致传统的机器学习算法在处理这些类别分布不均衡问题时往往性能不佳,而类别不平衡问题也成为许多实际分类应用中的重要挑战。在机器学习中,集成学习方法由于其良好的泛化性能,成为了一大热门研究方向,借助集成学习方法,许多单一的分类模型在性能上能够得到进一步的提升。本文聚焦于结合集成学习方法的不平衡分类算法研究。在深入探索类别不平衡学习的各项策略基础上,围绕着数据层面更合理有效的重采样算法设计、算法层面新的模型改进、算法层面代价敏感矩阵设计、以及融合不平衡问题的集成策略、融合优化方法的集成框架等多个方面展开研究。主要工作包括:(1)针对欠采样方法容易丢失有效信息以及代价敏感方法对异常值和噪声点过于敏感这两项问题,本文提出了基于多目标的混合优化集成算法。首先设计了与分布相关的重采样策略,用来减少欠采样过程中损失大量信息的风险。同时,结合样本分布信息设计了基于密度的欠采样多目标优化集成方法(DBUME)。最后,提出一种混合集成框架,结合ADMM算法集成并优化了代价敏感方法和DBUME的预测结果,一定程度上弥补重采样方法与代价敏感方法各自的局限性。本文在大量的不平衡数据集上进行了实验,并且对本算法与现有的不平衡学习主流算法进行了比较,全面系统地证明了本算法的有效性。(2)针对不平衡数据存在的类内不均衡问题以及重采样方法适应性不足对不平衡分类算法模型的影响,本文提出了结合度量学习和自适应两阶段欠采样方法的混合集成算法。通过度量学习为原始不平衡数据集找到更合适的嵌入空间,而自适应两阶段欠采样方法同时考虑信息量大的样本和代表性样本来生成平衡的数据集。此外,为了提升泛化性能,本文提出了一种渐进式集成框架(PHCE),利用具有局部和全局评估标准的渐进式机制来选择集成成员,从而进一步提高模型的性能。在多个真实数据集上的实验结果表明,PHCE优于大多数不平衡分类集成算法,在处理不平衡数据分类问题上具有更好的性能。(3)针对宽度学习系统处理不平衡分类问题的局限性,本文设计了一种带权重的宽度学习系统(WBLS),同时为了减少不平衡数据中异常点和噪声点的影响,结合样本数据的先验分布信息设计了一种基于混合密度的权重生成策略,并提出了自适应的带权重宽度学习系统(AWBLS)。最后,提出一种增量式的集成模型框架,通过增量式集成机制,进一步提升AWBLS的稳定性和鲁棒性。基于大量真实世界数据集的实验证明了所提出算法的优越性能。