论文部分内容阅读
分类问题是数据挖掘领域中一个热点问题,通常分类问题的基本流程是先基于大量的带标签数据样本训练一个分类模型,然后基于这个分类模型对未知数据进行类别预测。然而在整个过程中,有两个因素会影响分类模型的分类准确率,分别是分类算法和训练集的质量,在分类算法给定的情况下,训练集的质量成为影响分类模型性能的唯一因素。其中训练集的质量又受两个因素的影响:噪声数据和带标签样本的数量,而噪声数据又可以分为属性噪声数据和类噪声数据,且已有研究表明对于属性噪声的剔除处理会降低分类器的分类准确率,而相反的对于类噪声数据的剔除处理会相应的提高分类器分类准确率。带标签样本数量对于分类准确率影响,主要在于随着带标签样本数量的减少,分类模型泛化误差会随之增大。现实生活中,带标签样本数量是远远少于无标签样本数量的,且其中还不乏类噪声数据样本。而现有的研究或是针对存在类噪声数据的分类问题场景进行研究,或是基于只含有少量带标签样本数量的分类问题场景进行研究,并未考虑两种情形并存的场景,即少量带标签样本集且含类噪声数据的分类问题场景。本文主要就是针对少量带标签样本且含类噪声数据的分类模型分类准确率提升方法展开研究的,且基于分类器集成比任意单个分类器获得的分类准确率更好,因此本文具体的研究内容如下:(1)基于集成学习和半监督学习的类噪声检测算法。其主要工作是通过半监督学习来扩充标签数据的规模,同时采用多种不同方法产生多个基分类器,为分类器集成做好准备工作,算法主要框架采用了多重投票的方式对类噪声进行过滤,类噪声过滤更彻底,而且在每层投票的过程中采用软投票方式对类噪声进行过滤,相对于一般方法,其过滤得到的纯净集可靠性更高。(2)基于集成学习和主动学习的类噪声检测算法。其主要工作是通过主动学习采样具有高信息密度的无标签数据并进行标记,以此扩充带标签数据集的规模,同时实现用尽可能小的标记代价改进类噪声检测准确率。该算法同时对产生的噪声集进行分析,以避免正确数据被误删的情形发生,同时整个算法采用迭代的方式进行,能够更彻底的过滤掉类噪声数据。