集成分类器模型的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:huangcong8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习是近年来机器学习研究中发展迅速的一个分支。与学习算法直接面对样本数据不同的是,它专注于维护一套建立在各种分类器算法之上的框架。通过将原问题分解,并学习得到多个分类器。然后考察这些局部区域的关系,运用特殊的组合方法将多个概念融合一体。问题分解的作用主要体现在以下几个方面:首先,随着面对问题的样本数不断增长,单个分类器算法越来越显得力不从心。甚至空间和时间复杂度超出了机器的最大处理能力。而将一个大问题化解为多个小问题来学习不失为一种解决途径;其次,单独分类器算法在设计时往往考虑了一种假设,当问题满足假设时分类器的能力会得到充分表现。但在复杂情况下,只从一个角度考虑问题有失妥当。我们可以从多个角度把握整体概念;另外,真实数据中是含有噪声的。若未加区别地对待会造成模型的过拟合。我们需要一种机制可以将噪声强烈的部分剔除,以此得到更恰当的模型。集成学习在多类问题是一种较为流行的解决方法。主要是将样本数据按照类之间的界面进行一对一或一对多分解,以此转化为二类问题,然后运用投票法进行类别标号的判断。特别在概率模型中,分类器之间的关系可以被更精确地描述,如使用概率分布之间的KL距离来衡量。但并不是所有的分类器都能保证一个概率输出的形式,为了在不改变分类器算法的前提下,我们采用sigmod函数拟合的办法来近似处理。最小最大模块化分类模型已经被证明是在大规模数据集和不平衡问题中一种有效的架构。与针对多类问题的集合模型相比它进一步将一个较难学习的二类问题化解为多个相对简单的二类子问题。然后运用最小化和最大化准则将局部信息还原成原始问题的解。在过去的研究中,我们发现在样本集上按照某种先验知识的划分,还原后的模型将会拥有更强的分类能力。但对整合阶段的准则研究仍然较少。本文运用概率论的知识,对分解与整合过程提出了一个理论上的解释。当样本集由多个任意概率分布函数生成,虽然整体分布难以被分类器所学习,但通过样本的划分,局部的分布就变得容易被学习。在贝叶斯决策的框架下,我们可以从概率上得出最优的准则。新的公式表明,最小化和最大化准则是分类器在0-1输出时的等价形式。在一般情况下,最小化和最大化准则是其近似过程。另外如果将样本集认为是概率分布的一种体现,那么可以得到原本正子类与负子类的样本集组合方法拓展成同子类之间的组合。在新的框架下,我们提出了一种加速算法。在模拟数据中,此方法在保证不降低准确率的同时将原算法的空间和时间复杂度从平方级降为线性级。
其他文献
制动系统是汽车设备中至关重要的运行设备,其运行状态直接关系到人员的安全,因此,在制动系统运行状态检测的基础上展开故障诊断就显得尤为必要。但是,由于制动系统中存在很多
随着通信技术和互联网技术的发展,政府机构和企业积聚了大量的业务数据,在这些不同类型的业务数据中,有一类很有特点的数据集合—交往数据集,比如通信记录、邮件收发记录、Web链
随着云计算在企业中的广泛使用,拥有HDFS分布式文件系统和分布式计算模型MapReduce的Hadoop成为了众多IT企业的首选。在大型企业中,Hadoop分布式集群通常由成百上千个节点组
学位
随着信息化程度的不断提高,全球数据日益膨胀。面对当前PB级的海量数据存储需求,传统的存储系统在容量和性能的扩展上存在瓶颈。分布式存储以其扩展性强、性价比高、容错性好
在嵌入式系统中,嵌入式微处理器的应用日益广泛。其中,Intel的XScale系列高性能嵌入式微处理器以其高速、低功耗、外设接口丰富等特点而得到广泛的应用,尤其是在PDA、掌上电
智能考试系统是近几年来随着计算机网络技术迅猛发展而新兴的研究课题,它既有和传统计算机题库系统相同的一方面,又有自己的特点。利用智能考试系统,学习者可以突破传统教育
在常见的业务信息系统中,有关的报表生成基本都是预先定制的,格式也是固定的,显示出如缺少灵活性、新增报表烦琐等缺点,并且因为系统数据库设计的不合理,数据格式多种多样,数据来源
网格是一个集成的计算与资源环境,它能够重新吸纳各种计算资源,将他们转化成一种随处可得的、可靠的、标准的同时还是经济的计算能力。在网格计算技术中,任务调度显得尤为重
在体育比赛中,比赛的规范性和结果的公正性越来越受到人们的关注和重视。如何提高比赛的公平和公正、减少人工干预、避免人为失误一直是一大难题。目前,在田径比赛中的计圈计