基于集成学习的类噪声检测算法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:zhuyudream
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是数据挖掘领域中一个热点问题,通常分类问题的基本流程是先基于大量的带标签数据样本训练一个分类模型,然后基于这个分类模型对未知数据进行类别预测。然而在整个过程中,有两个因素会影响分类模型的分类准确率,分别是分类算法和训练集的质量,在分类算法给定的情况下,训练集的质量成为影响分类模型性能的唯一因素。其中训练集的质量又受两个因素的影响:噪声数据和带标签样本的数量,而噪声数据又可以分为属性噪声数据和类噪声数据,且已有研究表明对于属性噪声的剔除处理会降低分类器的分类准确率,而相反的对于类噪声数据的剔除处理会相应的提高分类器分类准确率。带标签样本数量对于分类准确率影响,主要在于随着带标签样本数量的减少,分类模型泛化误差会随之增大。现实生活中,带标签样本数量是远远少于无标签样本数量的,且其中还不乏类噪声数据样本。而现有的研究或是针对存在类噪声数据的分类问题场景进行研究,或是基于只含有少量带标签样本数量的分类问题场景进行研究,并未考虑两种情形并存的场景,即少量带标签样本集且含类噪声数据的分类问题场景。本文主要就是针对少量带标签样本且含类噪声数据的分类模型分类准确率提升方法展开研究的,且基于分类器集成比任意单个分类器获得的分类准确率更好,因此本文具体的研究内容如下:(1)基于集成学习和半监督学习的类噪声检测算法。其主要工作是通过半监督学习来扩充标签数据的规模,同时采用多种不同方法产生多个基分类器,为分类器集成做好准备工作,算法主要框架采用了多重投票的方式对类噪声进行过滤,类噪声过滤更彻底,而且在每层投票的过程中采用软投票方式对类噪声进行过滤,相对于一般方法,其过滤得到的纯净集可靠性更高。(2)基于集成学习和主动学习的类噪声检测算法。其主要工作是通过主动学习采样具有高信息密度的无标签数据并进行标记,以此扩充带标签数据集的规模,同时实现用尽可能小的标记代价改进类噪声检测准确率。该算法同时对产生的噪声集进行分析,以避免正确数据被误删的情形发生,同时整个算法采用迭代的方式进行,能够更彻底的过滤掉类噪声数据。
其他文献
  田黄是寿山石中的极品,大小不等,形态多样,大多是次圆状的冲积型砾石(子料),颜色以黄为主,其外有石皮,内有萝卜纹和红格,质地细腻,微透明至半透明,蜡状光泽至油脂光泽,矿物成分主要
机动车商业三责险又称任意三责险,是这样一类险种:被保险人或其允许的合法驾驶人在使用被保险机动车过程中发生意外事故,致使第三者遭受人身伤亡或财产直接损失,依法应由被保
塔季扬娜·托尔斯泰娅(TaTbrHa TOjiCTar)——俄罗斯当代文坛著名女作家、评论家、记者、电视节目主持人。1983年,她以短篇小说《坐在金色的台阶上……》踏入文坛,从此广受评
<正>当文明的脚步不停地向前迈进的同时,人类对自身的认识也在向前推进。人类在不停地"结盟",地球也成为了一个"村落",人类在表面的"盛宴"下达成了某种共识,但是,人类的心灵
<正>李雪(以下简称李):您毕业留校三年后离开了苏州大学,到江苏省作协当了专业作家,您当时"改行"的原因是什么?仅仅是自然而然的喜欢还是有别的因素?开始时写得顺利吗?你遇到
少数民族大学生由于受地域环境、语言、民族风俗、思想观念等方面影响,就业形势不容乐观。做好少数民族大学生的就业工作,长远来说关乎新疆长治久安和跨越式发展。本文基于社
针对海军某作战辅助决策系统业务规则复杂、功能齐全的特点,依照模型驱动开发(Modeling-driven Development.MDD)的思想,采用UML建立该系统的需求和结构模型,使用相关工具构建基本
对1971 2008年山东雷暴大风的气候特征、天气系统配置模型和物理量参数特征进行分析研究。结果表明,雷暴大风的天气系统分为四种类型:槽前型、槽后型、副热带高压(下称副高)
城市群作为区域经济发展的增长极,其经济发展与生态环境的协调度在很大程度上能代表区域经济发展与生态环境的协调度。通过构建经济发展与生态环境的协调度模型和绘制经济与