论文部分内容阅读
集成学习是近年来机器学习研究中发展迅速的一个分支。与学习算法直接面对样本数据不同的是,它专注于维护一套建立在各种分类器算法之上的框架。通过将原问题分解,并学习得到多个分类器。然后考察这些局部区域的关系,运用特殊的组合方法将多个概念融合一体。问题分解的作用主要体现在以下几个方面:首先,随着面对问题的样本数不断增长,单个分类器算法越来越显得力不从心。甚至空间和时间复杂度超出了机器的最大处理能力。而将一个大问题化解为多个小问题来学习不失为一种解决途径;其次,单独分类器算法在设计时往往考虑了一种假设,当问题满足假设时分类器的能力会得到充分表现。但在复杂情况下,只从一个角度考虑问题有失妥当。我们可以从多个角度把握整体概念;另外,真实数据中是含有噪声的。若未加区别地对待会造成模型的过拟合。我们需要一种机制可以将噪声强烈的部分剔除,以此得到更恰当的模型。集成学习在多类问题是一种较为流行的解决方法。主要是将样本数据按照类之间的界面进行一对一或一对多分解,以此转化为二类问题,然后运用投票法进行类别标号的判断。特别在概率模型中,分类器之间的关系可以被更精确地描述,如使用概率分布之间的KL距离来衡量。但并不是所有的分类器都能保证一个概率输出的形式,为了在不改变分类器算法的前提下,我们采用sigmod函数拟合的办法来近似处理。最小最大模块化分类模型已经被证明是在大规模数据集和不平衡问题中一种有效的架构。与针对多类问题的集合模型相比它进一步将一个较难学习的二类问题化解为多个相对简单的二类子问题。然后运用最小化和最大化准则将局部信息还原成原始问题的解。在过去的研究中,我们发现在样本集上按照某种先验知识的划分,还原后的模型将会拥有更强的分类能力。但对整合阶段的准则研究仍然较少。本文运用概率论的知识,对分解与整合过程提出了一个理论上的解释。当样本集由多个任意概率分布函数生成,虽然整体分布难以被分类器所学习,但通过样本的划分,局部的分布就变得容易被学习。在贝叶斯决策的框架下,我们可以从概率上得出最优的准则。新的公式表明,最小化和最大化准则是分类器在0-1输出时的等价形式。在一般情况下,最小化和最大化准则是其近似过程。另外如果将样本集认为是概率分布的一种体现,那么可以得到原本正子类与负子类的样本集组合方法拓展成同子类之间的组合。在新的框架下,我们提出了一种加速算法。在模拟数据中,此方法在保证不降低准确率的同时将原算法的空间和时间复杂度从平方级降为线性级。