论文部分内容阅读
多分类器集成,也称多分器组合或多分类器联合,近年来,多分类器融合技术在人脸识别、手写字符识别、遥感图像分类等方向上受到了广泛重视,显示出很大的研究价值和现实应用前景。多分类器集成的研究是从数字识别中产生和发展起来的,其目的是通过对多个互补的分类器识别结果的集成来得到一个高可靠性的识别系统。即旨在充分发挥每个成员分类器在各自分类性能上的优势,获得比单个成员分类器都要好的分类识别率。多分类器集成利用不同分类器之间的互补性,提高集成后分类器的性能。一般通过提高成员分类器的分类性能和增加成员分类器的多样性来达到提高多分类器集成性能的目的。传统的多分类器集成方法在体现分类器的多样性方面存在着很多不足,如:由于组合中的各分类器具有单一性,没有充分考虑具体数据集的特点,因而不能很好对样本进行识别,等等。为了实现组合分类器的最优性能,需要根据具体的识别对象选择适合的分类器进行集成,同时也需要考虑针对不同类别的样本采用不同的集成方式。本文紧紧围绕多分类器集成这一课题,旨在分析研究如何实现成员分类器的多样性来提高集成分类器的性能。充分考虑训练样本集的分布特征,在保证单个分类器高性能的情况下,实现成员分类器多样性的目的。本文的创新性研究成果主要有:1、提出了有关集成学习的两种多分类器动态组合方法(DEA和EMDA)。DEA算法首先根据类别标号将训练数据划分成一个个小集合,并在训练数据类别数的指导下对测试数据聚类,依据欧氏距离找出聚类集与训练数据的小集合之间的对应关系。在Adaboost基础上采用不同的分类算法,在整个训练数据上训练出不同类型的成员分类器,然后通过在训练数据中每个小集合上学习,获得最优的分类器,用它们去分类测试数据聚类后对应的聚类集,从而获得DEA的分类性能。EMDA方法是在DEA算法启发下,寻找另一种选择成员分类器的方法,在DEA中最优分类器的选择是通过误差率来选择的,而EMDA使用信息熵的方法来实现最优分类器的选择。以上两种算法实现了成员分类器的多样性,并且提高了分类性能。同时,我们以Weka软件作为平台实现了DEA和EMDA算法,并在15个标准UCI数据集上进行实验,结果表明我们所提出的两种算法与AdaBoost算法相比,均具有较高的分类准确性和较好的泛化能力。2、提出一种基于特征选择的多分类器集成方法(FSCE)。该方法对训练数据集的属性进行特定选择后,将获得的新数据集映射成属性数目(除类别属性外)个小实例集,然后从每个小实例集训练出的分类器中选择性能较好的,用来对属性选择后对应的每个小测试实例集进行性能测试,并以Weka软件作为平台实现了FSCE算法,且在12个特征不同的标准UCI数据集上进行测试,与基于Adaboost算法训练出的分类器的分类效果进行比较,验证了FSCE算法的有效性。