论文部分内容阅读
许多现实生活中的应用都受到类不平衡问题的困扰,如医疗诊断和金融危机预测。在这些应用中,目标往往是代表性不足的类别。然而,经典的分类模型考虑的是类别平衡的情景,如决策树模型和贝叶斯模型,将这些模型应用于类别不平衡的场景会导致结果出现偏斜。现有的研究主要关注于二类不平衡问题,但与两类情况相比,多类不平衡问题要困难得多,这是由于决策边界涉及到多个类之间的区分。大量针对二类不平衡问题的解决方案并无法直接应用于多类不平衡问题。因此,多类不平衡分类问题是分类任务中最重要的挑战之一,具有重要的研究意义。分解策略是解决多类不平衡问题的经典方案之一,本文围绕应用分解策略处理多类不平衡问题展开研究,主要研究工作如下:
(1)针对一对一分解中存在的类不平衡和类重叠的问题,提出了一种基于剪辑的谱聚类欠采样一对一分解算法,该方法通过一对一分解将多类别不平衡数据集划分为多个子集,然后在每个二元子集中使用一种剪辑方案清理重叠区域的多数类数据。接下来利用谱聚类对剩余的多数类数据进行聚类,并根据每个聚类的大小选择保留的数据来重新平衡训练子集。基于剪辑的谱聚类欠采样不仅能减弱重叠问题的影响,同时考虑了数据的分布,能够有效避免丢失大量的重要信息。最后,根据聚合策略输出结果。在16个真实的多类不平衡数据集进行全面实验。实验结果表明,与比较方法相比,该方法的宏平均算术值平均提高2.89%,G均值平均提高8.304%。
(2)针对现有的分解策略会破坏类之间的潜在关系的问题,提出了一种基于聚类的自适应分解算法用于解决多类不平衡问题,该方法主要包括两个部分:基于聚类的自适应分解和基于剪辑的多样化过采样技术。分解部分根据数据的相似性将数据集划分为不同的聚类(即子集),从而保持类别之间的关系。过采样部分独立应用于不同的聚类,以克服不平衡和重叠问题,删除重叠区域中多数类的数据,并根据每个少数类的特征,选择合适的过采样技术。此外,采用一种多样化的集成学习框架,为不同的子集选择最佳的分类算法。最后为每个查询实例选择最有能力的分类器进行分类。在16个真实的多类不平衡数据集上进行实验验证,实验结果表明,与比较的先进方法相比,该方法的宏平均算术值平均提高了3.625%,G均值平均提高了4.7125%。
(1)针对一对一分解中存在的类不平衡和类重叠的问题,提出了一种基于剪辑的谱聚类欠采样一对一分解算法,该方法通过一对一分解将多类别不平衡数据集划分为多个子集,然后在每个二元子集中使用一种剪辑方案清理重叠区域的多数类数据。接下来利用谱聚类对剩余的多数类数据进行聚类,并根据每个聚类的大小选择保留的数据来重新平衡训练子集。基于剪辑的谱聚类欠采样不仅能减弱重叠问题的影响,同时考虑了数据的分布,能够有效避免丢失大量的重要信息。最后,根据聚合策略输出结果。在16个真实的多类不平衡数据集进行全面实验。实验结果表明,与比较方法相比,该方法的宏平均算术值平均提高2.89%,G均值平均提高8.304%。
(2)针对现有的分解策略会破坏类之间的潜在关系的问题,提出了一种基于聚类的自适应分解算法用于解决多类不平衡问题,该方法主要包括两个部分:基于聚类的自适应分解和基于剪辑的多样化过采样技术。分解部分根据数据的相似性将数据集划分为不同的聚类(即子集),从而保持类别之间的关系。过采样部分独立应用于不同的聚类,以克服不平衡和重叠问题,删除重叠区域中多数类的数据,并根据每个少数类的特征,选择合适的过采样技术。此外,采用一种多样化的集成学习框架,为不同的子集选择最佳的分类算法。最后为每个查询实例选择最有能力的分类器进行分类。在16个真实的多类不平衡数据集上进行实验验证,实验结果表明,与比较的先进方法相比,该方法的宏平均算术值平均提高了3.625%,G均值平均提高了4.7125%。