论文部分内容阅读
分类所关心的一个根本问题是如何有效地提高分类系统的泛化能力。尽管传统的分类技术在一些领域已经得到了成功应用,其泛化能力也得到一定程度的认可,但是随着时代的进步和科学技术的不断发展,人们对其技术成果有了更高的要求,这就意味着需要开发新的有效技术来满足人们深层次的需求。多分类器集成技术就是在这样的背景下产生的,它通过集成多个满足一定条件的学习个体来达到有效改善分类系统泛化能力和鲁棒性的目的。分类器集成已成为机器学习和数据挖掘等领域的一个研究热点,其研究人员众多,成果亦层出不穷。论文比较全面地介绍了分类器集成的研究现状、工作原理以及常见方法。重点探讨了多分类器集成的一个重要分支—多分类器动态集成技术,并就当前多分类器动态集成方法所存在的一些不足,提出了相应的解决方案,有效地改善了集成系统的分类性能。论文的主要研究成果包括以下几个方面:1、系统介绍了多分类器集成技术的发展现状、相关概念和工作机制。详细讨论了三种经典的多分类器集成方法。2、探究了多分类器动态集成技术的基本原理。总结了动态集成的基本框架。对当前常见的动态集成方法进行了分类整理,并概要地归纳了这些动态方法存在的主要不足。3、针对动态集成方法在训练样本不足情形下对基分类器的“局部分类性能”评估不可靠的问题,将交叉验证技术引入到动态集成过程,提出一类基于交叉验证的动态加权集成方法,具体包括四种方法,分别为DWEC-CV-KOLP、DWEC-CV-KLCP、DWEC-CV-OLA、DWEC-CV-LCA。利用UCI数据库中的小规模数据集对提出的四种方法进行了实验验证。实验结果表明,同一些经典的集成方法相比,当训练集规模不是很大时,提出的方法可以获得更好的分类效果。4、为了消除待测样本邻域中“假邻居”样本对基分类器局部性能分析造成的干扰,在构造邻域的过程中引入了“多分类器行为”信息,提出了一种基于多分类器行为的动态加权集成方法DWEC-CV-MCB。实验表明,改进后的方法不仅可以获得较优良的分类性能,同时可以降低人工选定参数K带来的风险和代价。5、研究了如何利用动态集成技术来提高分类系统的增量分类能力。针对增量式集成算法Learn++的两点不足,提出了一种基于动态选择的增量式集成算法,改善了分类系统的增量学习效果和泛化性能。