基于集成半监督学习的标签噪声研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:q999666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习作为一种新的机器学习范式,它使用多个学习器来解决同一个问题,能够显著地提高学习系统的泛化能力,以其优良的特性,广泛的应用于多个领域。然而集成学习技术还不成熟,集成学习的研究还存在着大量未解决的问题。如何解决在标签噪声环境下的学习问题,以及如何提高集成半监督学习系统性能。针对这些问题,本文在经典算法AdaBoost的基础上,对标签噪声学习和协同训练学习进行了研究,并通过应用于实际问题,深入探讨了自己的理解和方法。本文的主要研究工作阐述如下:(1)针对AdaBoost算法对标签噪声数据的敏感性,本文首先通过理论分析AdaBoost对标签噪声数据敏感的原因,然后结合标签噪声的特点,提出了Knn-AdaBoost标签噪声抑制算法。Knn-AdaBoost算法预先通过Knn计算每个训练样本的噪声因子,然后结合噪声因子提出了一个新的样本权值更新策略。实验采用多组UCI数据集和文本数据集,测试结果表明,Knn-AdaBoost相比原算法具有较好的分类精度,充分说明了新的样本权值更新策略的有效性。(2)在第三章方法的基础上,提出一种集成半监督ASSEMBLE. KnnAdaBoost标签噪声抑制算法,该算法解决了两个重要问题,其一是如何很好的区分训练集中的标签噪声样本和正确样本;其二是如何有效的加入未标记样本,不断完善分类决策边界。实验部分也采用了多组UCI数据集和数字手写数据集,在不同未标记样本比例下来验证了新算法较比其它对比算法的有效性。(3)针对传统协同训练学习两个条件难以同时满足的问题,本文结合协同训练算法Co-Forest的思想和Boosting的样本权重策略,提出了一种新的多分类器协同训练算法Co-RotBoost,该算法通过PCA对数据集的旋转得到基分类器的多样性,同时在训练过程中引入了Boosting的策略去注重那些难分的样本点,最后通过多个分类器共同决策未标记样本的类别,挑选置信度高的未标记样本。实验表明,Co-RotBoost算法具有很好的分类性能和较快的算法收敛速度。
其他文献
近年来,合成孔径雷达(synthetic aperture radar,SAR)技术被广泛应用于图像变化检测领域。本文研究了比较后分类思想的SAR图像变化检测的关键技术,包括差异信息图的构造、差异图
本文通过对荣华二采区10
期刊
聚合物太阳能电池由于结合了无机和有机半导体纳米材料各自的性能和特点,具有制备工艺简单、成本低和重量轻等优点,从而使其受到了越来越多的关注。  本文首先介绍了太阳能电
凋落物是森林生态系统中物质循环和能量流动的一个主要环节,它是森林生态系统功能过程的重要组成部分。本研究从2006年10月至2009年11月,地点位于小兴安岭凉水国家自然保护区
随着无线通信业务量的迅速增加,无线通信系统对容量和性能的要求越来越高。但各种复杂的电磁环境极大的影响了移动通信系统的性能。其中一个有效解决途径就是使用智能天线。智
螽斯,蟋蟀都是能发声的昆虫中的一员。绝大多数生存在灌木丛、草丛中。有少数的种栖息于乔木上。种内通信主要是依靠鸣声来进行的。声音的通信能力作为它们许多生命活动的基础
茶条槭(Acer ginnala)为槭树科槭树属的落叶小乔木或灌木,主要生长在辽宁省,吉林省,山西省,山东省等中国大部分北方地区。因为其不仅树形美观,而且叶片中具有某些重要的化学