论文部分内容阅读
在机器学习领域中,分类是一项非常重要的任务。然而在现实生活的分类任务中,不同类别的数据可能存在重叠部分,分类时会出现不可分区域,这类样本很难被正确分类。机器学习主要是计算机通过对已知数据进行训练,得到模型,并运用它对未知数据进行预测。机器学习面临的未来的数据和将来的行为引发的结果是不确定的。概率机器学习针对这种不确定性提供了一个概率框架,对模型和预测的不确定性进行表示和控制。因此对不确定性任务进行研究是一项非常有意义的课题。另外,在现实生活中,一些样本很容易被采样,而另一些样本由于其领域的特殊性,致使其采样工作比较困难。这就导致目标数据集中一些类的样本很多,而另一些类很少的情况,即样本的分布是不平衡的。然而传统的机器学习分类算法在解决这类问题时,会倾向多数类样本,使得分类时存在一些问题。例如在机器故障诊断、医疗诊断等问题中,我们需要关注的就是这类数量很少却非常重要的样本。如果将其错误分类可能会造成非常严重的后果。因此如何提高非平衡数据中的少数类的分类性能是很重要的。为了解决上述问题,本文开展基于SVDD的分类方法研究。主要内容包括以下两个方面:(1)针对分类任务中存在的不确定性,而目前概率机器学习方法和传统的支持向量数据描述方法在处理该问题时面临一些问题,本文提出一种基于概率的支持向量数据描述方法。首先利用传统的支持向量数据描述方法分别对两类数据进行训练,得到数据描述,并计算测试样本其中心的距离;然后构造了一个将距离转换为概率的函数,提出了一种基于概率的支持向量数据描述方法。同时使用Bagging算法进行集成,来进一步提高数据描述的性能。通过实验证明,传统的SVDD方法相比,所提算法在准确度和F1值上的效果更好,数据描述的性能有所提升。(2)本文针对常见的两类数据的非平衡分类问题,从算法层面出发,提出了基于优化的支持向量数据描述方法。首先介绍了几种常用的优化算法,然后介绍了解决非平衡数据分类问题的支持向量数据描述方法,同时将样本的数量信息和分布信息进行结合,重新定义了C值,并且使用了几种优化算法进行对比,最后在UCI数据集的五个数据集上进行了实验。实验结果表明所提算法在优化算法的作用下有一定的优势,其中GA算法的整体效果较好。总之,本文针对机器学习分类任务中存在的两种问题,使用支持向量数据描述方法进行了研究,并在实验数据集上进行了验证。本文的研究为机器学习分类任务提供了新思路与新方法,在机器学习领域有一定的理论和应用价值。