论文部分内容阅读
随着科学技术的发展、网络化系统的兴起及各类移动设备的普及,人类社会迈向了大数据时代,知识发现和数据工程在广泛的社会活动中发挥着不可或缺的作用。然而,许多现实应用的领域,所学习的数据呈现类的不平衡分布,即一些类(少数类)的样本数目显著地少于其它一些类(大数类)。绝大部分的标准学习算法假设相等的错分代价,当面对复杂的不平衡数据时,它们不能为代表领域价值的少数类提供理想的预测精度。因此,不平衡数据的学习在很多的情况下成为正确决策的一个主要障碍。如何有效地处理众多现实应用中不同特性的不平衡数据学习,是一个亟待解决的重要问题。
数据过采样作为最受欢迎的不平衡学习技术之一,它通过生成新的少数类样本去弥补少数类信息的不足,在最基础的数据水平解决不平衡学习问题。本文围绕多种类型数据的不平衡学习问题展开研究,并提出相应的过采样方法,主要的工作和创新点包括以下几方面:
(1)针对多分类不平衡问题,提出了一种基于k最近邻居的合成少数过采样算法。已有的过采样方法当处理多分类不平衡问题时,都存在它们各自的不足(例如,造成严重过泛化或不能大幅度改善在数据空间上的类不平衡)。本文提出的基于k最近邻居的过采样算法给每一个邻居方法赋值一个被选择用于生产合成少数样本的选择权重。通过给予那些可能造成严重过泛化的邻居方向相对较小的权重,该算法可以形成一个避免过泛化的机制。由此,本方法可以通过给参数k设置一个高的值去大幅度地开拓潜在的少数类区域,而不会导致严重的过泛化问题。基于27个多分类不平衡数据集上的实验表明,提出的算法的性能优于已有的代表性过采样方法。
(2)针对有序回归的不平衡学习问题,提出关注生成方向的合成少数过采样算法。传统的过采样方法可能产生过度泛化的问题,从而扭曲有序回归中样本结构的有序。本文提出的关注生成方向的过采样算法对每一个候选生成方向计算一个被选择用于生成合成样本的选择权重。通过考虑类的有序,那些潜在扭曲有序样本结构的候选生成方向将被赋值低的选择权重。由此,该算法能在没有严重损害已有有序的前提下,改进少数类的有序。基于21个标准有序回归数据集的实验表明,提出的方法在各种常用的性能评价指标上优于已有的代表性过采样算法。
(3)针对二分类不平衡问题,提出关注位置特征的插值过采样算法和广义的线性插值创建方法。基于插值的过采样技术已经成为处理二分类不平衡数据最常用的方法类型之一,然而这种类型方法存在若干不可忽略的缺陷。本文指出过度约束、低效的膨胀、和过度泛化的缺陷分别存在于为内陆的少数样本、边界的少数样本、和受困的少数样本的插值合成样本的过程中。为了克服这些缺陷以更好的应对二分类不平衡问题,本文提出的关注位置特征的插值过采样算法。该算法首先利用基于领域的聚类去划分少数类样本至内陆样本、边界样本、和受困样本。然后,对这三种不同位置特征的少数类样本实行不同的插值过采样,以解决为它们插值生成合成样本时出现的相应缺陷。此外,基于插值的过采样算法中存在另外一个显著的缺点,即对于合成样本的名词型属性的不合理填充。为了解决这个问题,本文利用值差指标衡量名词型属性值的相似性以推广线性插值方法去填充合成样本的名词型属性。大量的实验证明提出的方法在各种常用性能评价指标上优于已有的代表性方法。
(4)针对时间序列的不平衡分类问题,提出了一种结构保留的过采样算法。时间序列由于数据连续性的本质呈现高维和变量间相关性的特征。提出的算法使用一种新的基于密度率和最近邻居相似性聚类算法去发现存在于高维空间中的少数类模式;然后,应用收缩的技术为每一个只有少量代表性数据的模式估计精确的协方差矩阵;最后,利用估计的协方差矩阵基于多元高斯分布为每一个少数类模式生产结构保留的合成样本以维持变量间相关性和改进少数类的分类性能。大量的实验证明提出的方法在各种常用的性能评价指标上优于已有的典型过采样算法。
数据过采样作为最受欢迎的不平衡学习技术之一,它通过生成新的少数类样本去弥补少数类信息的不足,在最基础的数据水平解决不平衡学习问题。本文围绕多种类型数据的不平衡学习问题展开研究,并提出相应的过采样方法,主要的工作和创新点包括以下几方面:
(1)针对多分类不平衡问题,提出了一种基于k最近邻居的合成少数过采样算法。已有的过采样方法当处理多分类不平衡问题时,都存在它们各自的不足(例如,造成严重过泛化或不能大幅度改善在数据空间上的类不平衡)。本文提出的基于k最近邻居的过采样算法给每一个邻居方法赋值一个被选择用于生产合成少数样本的选择权重。通过给予那些可能造成严重过泛化的邻居方向相对较小的权重,该算法可以形成一个避免过泛化的机制。由此,本方法可以通过给参数k设置一个高的值去大幅度地开拓潜在的少数类区域,而不会导致严重的过泛化问题。基于27个多分类不平衡数据集上的实验表明,提出的算法的性能优于已有的代表性过采样方法。
(2)针对有序回归的不平衡学习问题,提出关注生成方向的合成少数过采样算法。传统的过采样方法可能产生过度泛化的问题,从而扭曲有序回归中样本结构的有序。本文提出的关注生成方向的过采样算法对每一个候选生成方向计算一个被选择用于生成合成样本的选择权重。通过考虑类的有序,那些潜在扭曲有序样本结构的候选生成方向将被赋值低的选择权重。由此,该算法能在没有严重损害已有有序的前提下,改进少数类的有序。基于21个标准有序回归数据集的实验表明,提出的方法在各种常用的性能评价指标上优于已有的代表性过采样算法。
(3)针对二分类不平衡问题,提出关注位置特征的插值过采样算法和广义的线性插值创建方法。基于插值的过采样技术已经成为处理二分类不平衡数据最常用的方法类型之一,然而这种类型方法存在若干不可忽略的缺陷。本文指出过度约束、低效的膨胀、和过度泛化的缺陷分别存在于为内陆的少数样本、边界的少数样本、和受困的少数样本的插值合成样本的过程中。为了克服这些缺陷以更好的应对二分类不平衡问题,本文提出的关注位置特征的插值过采样算法。该算法首先利用基于领域的聚类去划分少数类样本至内陆样本、边界样本、和受困样本。然后,对这三种不同位置特征的少数类样本实行不同的插值过采样,以解决为它们插值生成合成样本时出现的相应缺陷。此外,基于插值的过采样算法中存在另外一个显著的缺点,即对于合成样本的名词型属性的不合理填充。为了解决这个问题,本文利用值差指标衡量名词型属性值的相似性以推广线性插值方法去填充合成样本的名词型属性。大量的实验证明提出的方法在各种常用性能评价指标上优于已有的代表性方法。
(4)针对时间序列的不平衡分类问题,提出了一种结构保留的过采样算法。时间序列由于数据连续性的本质呈现高维和变量间相关性的特征。提出的算法使用一种新的基于密度率和最近邻居相似性聚类算法去发现存在于高维空间中的少数类模式;然后,应用收缩的技术为每一个只有少量代表性数据的模式估计精确的协方差矩阵;最后,利用估计的协方差矩阵基于多元高斯分布为每一个少数类模式生产结构保留的合成样本以维持变量间相关性和改进少数类的分类性能。大量的实验证明提出的方法在各种常用的性能评价指标上优于已有的典型过采样算法。